Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.99 MB, 61 trang )

ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I

TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ

NINH TH
Ị

THU HÀ

CÁC K
Ỹ
THU
Ậ
T X
Ử

LÝ NGÔN NG
Ữ

TRONG S
Ố

HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER

Ngành:
Công ngh
ệ
thông tin
Chuyên ngành: K
ỹ
thu
ậ
t ph

ầ
n m
ề
m
Mã s
ố
: 60480103

LU
Ậ
N VĂN THẠC SĨ

Hà N
ộ
i
- 2014

ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I

TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ

NINH TH
Ị

THU HÀ

CÁC K
Ỹ
THU
Ậ
T X
Ử
LÝ NGÔN NG
Ữ

TRONG S
Ố

HÓA VĂN BẢ
N TI
Ế
NG VI

Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER

Ngành: Công ngh
ệ

thông tin
Chuyên ngành:
Công ngh
ệ
ph
ầ
n m
ề
m
Mã s
ố
: 60480103

LU
Ậ
N
VĂN THẠC SĨ

NGƯỜI HƯỚ
NG D
Ẫ
N KHOA H
Ọ
C: TS. LÊ QUANG MINH

Hà N
ộ
i
- 2014

L
Ờ
I CAM ĐOAN

Tôi là Ninh Th
ị
Thu Hà, h
ọ
c viên cao h
ọ
c K19, chuyên ngành Công ngh
ệ

ph
ầ
n m
ề
m, khóa 2012
-
2014. Tôi xin cam đoan lu
ận văn thạc sĩ “Các kỹ

thu
ậ
t x
ử

lý ngôn ng
ữ

trong s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ

th
ố
ng FSCANNER” là công
trình nghiên c
ứ
u c
ủ
a riêng tôi cùng v
ớ
i s
ự

hư
ớ
ng d
ẫ
n c
ủ
a TS. Lê Quang Minh.
Các s
ố

li
ệ
u, k
ế
t qu
ả

nêu trong Lu
ậ
n văn là trung thực và chưa từng đượ
c ai công
b
ố

trong b
ấ
t k
ỳ

công trình nào khác.
T
ấ
t c
ả
nh
ữ
ng tham kh
ả
o t
ừ
các nghiên c
ứu liên quan đều đượ
c nêu ngu
ồ
n
g
ố

c m
ộ
t cách rõ ràng t
ừ

danh m
ụ
c tài li
ệ
u tham kh
ả
o c
ủ
a lu
ậ
n văn. Trong luậ
n
văn, không có vi
ệ
c sao chép tài li
ệ
u, công trình nghiên c
ứ
u c
ủa ngườ
i khác mà
không ch
ỉ

rõ v

ề

tài li
ệ
u tham kh
ả
o.

Hà n
ộ
i, ngày 28
tháng 10 năm 2014

Tác gi
ả

Ninh Th
ị
Thu Hà

L
Ờ
I C
Ả
M ƠN

Tôi xin g

ử
i l
ờ
i c
ảm ơn sâu sắ
c t
ớ
i TS. Lê Quang Minh – Vi
ệ
n Công ngh
ệ

thông tin,

Đ
ạ
i h
ọ
c Qu
ố
c gia Hà N
ộ
i, ngườ
i th
ầ
y đã hướ
ng d
ẫ
n, ch
ỉ

b
ả
o t
ậ
n tình
cho tôi trong su
ố
t quá trình nghiên
c
ứ
u và hoàn thành lu
ậ
n văn tố
t nghi
ệ
p.

Tôi xin g
ử
i l
ờ
i c
ảm ơn chân thành tớ
i các th
ầy cô đã và đang tham gia
gi
ả
ng d
ạ

y t
ại trường Đạ
i h
ọ
c Công ngh
ệ
-
Đạ
i h
ọ
c Qu
ố
c gia Hà n
ộ
i. Các th
ầ
y cô
đã nhiệ
t tình gi
ả
ng d
ạ
y và t
ạ
o m
ọi điề
u ki
ệ
n thu
ậ

n l
ợ
i cho tôi hoàn thành khóa
h
ọ
c t
ại trườ
ng.
Tôi xin bày t
ỏ
lòng bi
ết ơn tớ
i t
ấ
t c
ả
b
ạn bè, đồ
ng nghi
ệp và người thân đã
động viên, giúp đỡ
tôi trong su
ố
t quá trình h
ọ
c t
ậ
p và nghiên c
ứ
u, hoàn thành

lu
ận văn.

Tôi xin đư
ợ
c g
ử
i l
ờ
i c
ảm ơn đế
n các tác gi
ả
, nhóm tác gi
ả
c
ủ
a nh
ữ
ng giáo
trình, nh
ữ
ng công trình khoa h
ọ
c và nh
ữ
ng bài báo khoa h
ọ
c mà tôi tham kh
ả

o
để
hoàn thi
ệ
n lu
ận văn này.

Tác gi
ả

MỤC LỤC

DANH M
Ụ
C CÁC T
Ừ
VI
Ế
T T
Ắ
T 1

DANH M
Ụ
C B
Ả
NG BI
Ể
U 2
DANH M
Ụ
C HÌNH V
Ẽ
4
M
Ở

ĐẦ
U 6
CHƯƠNG 1. TỔ
NG QUAN V
Ề

BÀI TOÁN X
Ử

LÝ NGÔN NG
Ữ

TRONG S
Ố

HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T 9
1.1 Gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên 9
1.2 Gi
ớ
i thi
ệ
u m
ộ
t s
ố

công ngh
ệ

trong s
ố

hóa tài li
ệ
u
10
1.2.1 Công ngh
ệ

nh
ậ
n d
ạ
ng ti
ế
ng Vi
ệ
t
10
1.2.2 Công ngh
ệ

soát l
ỗ
i chính t
ả

ti

ế
ng
Vi
ệ
t
11
1.2.3 Công ngh
ệ

tách b
ộ

và l
ậ
p ch
ỉ

m
ụ
c
12
1.3 Bài toán x
ử

lý ngôn ng
ữ

trong s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t
13
T
ổ
ng k
ết chương 1
15
CHƯƠNG 2. CÁC KỸ
THU
Ậ
T X
Ử
LÝ NGÔN NG
Ữ
TRONG S
Ố

HÓA VĂN
B
Ả
N
16
2.1.
M

ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR 16
2.1.1. Gi
ớ
i thi
ệ
u 16
2.1.2. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ựa trên mô hình máy vectơ hỗ
tr
ợ
(SVM) 18

2.1.3. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ự
a trên mô hình Markov
ẩ
n (HMM) 20
2.1.4. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ự
a trên mô hình m
ạng nơ ron (ANN)
22
2.1.5. Cách ti
ế
p c
ậ

n nh
ậ
n d
ạ
ng OCR c
ủ
a FSCANNER
24
2.2. K
ỹ

thu
ậ
t soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n
-gram 25
2.2.1. Gi
ớ
i thi
ệ

u bài toán soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t
25
2.2.2. Mô hình ngôn ng
ữ

N-gram 27
2.2.3. K
ỹ

thu
ậ
t soát l
ỗ
i d
ự
a trên mô hình n
-gram c
ủ
a h
ệ

th
ố
ng
FSCANNER 29
2.3. Trích rút metadata 30
2.3.1.
Gi
ớ
i thi
ệ
u v
ề
metadata và chu
ẩ
n Dublin Core 30
2.3.2. Bài toán trích rút metadata 32
2.3.3.
Đề
xu
ất metadata cho văn bản đượ
c s
ố
hóa 34

T
ổ
ng k
ết chương 2
45

CHƯƠNG 3. THỰ
C NGHI
ỆM, ĐÁNH GIÁ
46
3.1.
Các bư
ớ
c th
ự
c hi
ệ
n chương trình củ
a h
ệ

th
ố
ng
46
3.2. Xây d
ự
ng b
ộ

d
ữ

li
ệ
u th

ự
c nghi
ệ
m cho
ả
nh quét
48
3.3. Ti
ế
n hành th
ự
c nghi
ệ
m
49
3.3.1. M
ụ
c tiêu
49
3.3.2. Cách th
ự
c hi
ệ
n
49
3.4. K
ế
t q
u
ả

th
ự
c nghi
ệ
m
50
3.5.

Đánh giá kế
t qu
ả
52
T
ổ
ng k
ết chương 3
52
K
Ế
T LU
Ậ
N 53
TÀI LI
Ệ
U THAM KH
Ả
O 54

1

DANH M
ỤC CÁC TỪ VIẾT TẮT

STT
T
ừ
vi
ế
t
t
ắ
t

T
ừ

đ
ầy đủ

Ti
ế
ng Vi
ệ
t

1
ANN
Artificial Neural Network

M
ạng nơ
-ron nhân t
ạ
o
2
API
Application Programming Interface
Giao di
ệ
n l
ậ
p trình
ứ
ng
d
ụ
ng
3
DPI
Dots Per Inch
S
ố
ch
ấ
m trên 1 inch
4

HMM
Hiden Markov Model

Mô hình Markov
ẩ
n

5
MLP
Multi Layer Perceptron
M
ạ
ng nhi
ề
u l
ớ
p truy
ề
n

th
ẳ
ng Perceptron

6
NLP
Natural Language Processing
X
ử

lý ngôn ng
ữ

t
ự

nhiên
7
OCR
Optical Character Recognition
Nh
ậ
n d
ạ
ng kí t
ự

quang
h
ọ
c

8
OVO
One Versus One
M
ộ
t v
ớ
i m
ộ
t
9

OVR
One Versus The Rest
M
ộ
t v
ớ
i ph
ầ
n còn l
ạ
i
10
SVM
Support Vector Machine
Máy V
éc tơ
H
ỗ
tr
ợ

2

DANH MỤC BẢNG BIỂU

B
ả
ng 1.1. So sánh m
ộ
t s

ố

ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ

in ti
ế
ng Vi
ệ
t

B
ả
ng 1.2. M
ộ
t s
ố

ph
ầ
n m
ề

m soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t và k
ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ

t đố
i v
ớ
i các ph
ầ
n m
ề
m đó.

B
ả
ng 2.1. T
ổ
ng h
ợ
p k
ế
t qu
ả
nh
ậ
n d
ạ
ng OCR mô hình HMM, ANN, SVM v
ớ
i
các đặc trưng khác nhau

B
ả

ng 2.2. C
ấ
u trúc âm ti
ế
t 3 thành ph
ầ
n
B
ả
ng 2.3. C
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.4. C
ấ
u trúc âm ti
ế
t 5 thành ph
ầ
n

B
ả
ng 2.5. Các thành ph
ầ

n âm ti
ế
t c
ủ
a c
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.6. M
ộ
t ví d
ụ
trích rút metadata
B
ả
ng 2.7. 15 y
ế
u t
ố
c
ủ
a Dublin Core Metadata.
B
ả
ng 2.8. Đề

xu
ấ
t xây d
ự
ng các y
ế
u t
ố

metadata cho s
ố

hóa văn b
ả
n

B
ảng 2.9. Tiêu đề
(Title)
B
ảng 2.10. Ngườ
i t
ạ
o (Creator)
B
ả
ng 2.11. Ngày tháng (Date)
B
ả

ng 2.12. Nhà xu
ấ
t b
ả
n (Publisher
)
B
ả
ng 2.13. Mô t
ả

(Description)
B
ảng 2.14. Đị
nh danh (Identifier)
B
ả
ng 2.15. Ngôn ng
ữ
(Language)
B
ả
ng 2.16. Ngu
ồ
n (Source)

B
ả
ng 2.17. Ngườ
i c

ộ
ng tác (Contributor)

3

B
ả
ng 2.18. Ch
ủ

đ
ề

(Subject)
B
ả
ng 2.19. Ph
ạ
m vi (Coverage)
B
ả
ng 2.20. Ki
ể
u /Lo
ạ
i (Type)
B
ả
ng 2.21. Kh
ổ

m
ẫ
u (Format)
B
ả
ng 2.22. Liên k
ế
t (Relation)

B
ả
ng 2.23. B
ả
n quy
ề
n (Right)

B
ảng 2.24. Cơ quan lưu trữ
(Archive)
B
ảng 2.25. Phông lưu trữ
(Archive fond)
B
ả
ng 2.26. M
ụ
c l
ụ
c s

ố

(List number)
B
ả
ng 2.27. H
ộ
p s
ố
(Folder number)
B
ả
ng 2.28. H
ồ

sơ số
(Record number)
B
ả
ng 2.29. T
ờ
s
ố
(Page number)
B
ả
ng 2.30. Ngày s
ố

hóa (Digitizing date)

B
ảng 2.31. Ngườ
i s
ố
hóa (Digitizing person)
B
ả
ng 2.32. T
ổ
ch
ứ
c s
ố
hóa (Digitizing organization)
B
ả
ng 2.33. Thi
ế
t b
ị
s
ố
hóa (Digitizing equipment)
B
ả
ng 2.34. B
ả
ng Cơ sở

d

ữ

li
ệ
u c
ủ
a 25 y
ế
u t
ố

metadata xây d
ự
ng cho văn bả
n
đư
ợ
c s
ố

hóa
B
ả
ng 3.1. S
ố

t
ừ

nh

ậ
n d
ạ
ng đúng vớ
i các m
ứ
c DPI khác nhau c
ủ
a
ả
nh quét

B
ả
ng 3.2. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch trái so v
ớ
i
ả
nh quét g
ố

c)
c
ủ
a
ả
nh quét
B
ả
ng 3.3. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch ph
ả
i so v
ớ
i
ả
nh quét
g
ố
c) c
ủ
a

ả
nh quét
4

DANH M
ỤC HÌNH VẼ

Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro

Hình 1.2.a. M
ộ
t ph
ầ
n
ảnh văn bả
n
Hình 1.2.b. Ph
ầ
n văn bản đã đượ
c nh
ậ
n

Hình 1.3.a. Ph
ầ
n văn bản đã đượ
c
nh
ậ
n

Hình 1.3.b. Ph
ần văn bả
n nh
ậ
n d
ạng đã sử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
Hình 1.4. M
ộ
t ví d
ụ
v
ề
trích rút thông tin
Hình 1.5. Sơ đồ

ho
ạ
t độ
ng c
ủ

a vi
ệ
c s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ

th
ố
ng
FSCANNER
Hình 2.1. Sơ đồ
t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
th

ố
ng nh
ậ
n d
ạ
ng OCR
Hình 2.2.a. Các l
ớ
p phân tách tuy
ế
n tính.
Hình 2.2.b. Siêu ph
ẳ
ng t
ối ưu và biên lề

tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p (Liu, 2006)

Hình 2.3.b: Siêu ph
ẳ
ng phân tách có l
ề

c
ự
c đạ
i (Liu, 2006)

Hình 2.4. Lướ
i các chu
ỗ
i tr
ạ
ng thái, các ti
ế
n trình Markov v
ớ
i dãy quan sát O
1
,
, O
T
.

Hình 2.5. Mô hình m
ột nơron nhân tạ
o
Hình 2.6. M
ạ
ng MLP trong nh
ậ
n d

ạ
ng kí t
ự

quang h
ọ
c.

Hình 2.7. Mô hình Markov b
ậ
c 2

Hình 3.1. Giao di
ện chương trình FSCANNER

Hình 3.2. Upload v
ăn bả
n trong h
ệ
th
ố
ng FSCANNER
Hình 3.3. H
ệ

th
ố
ng FSCANNER đang nhậ
n d
ạ

ng OCR 1 file
ả
nh

Hình 3.4. H
ệ

th
ố
ng FSCANNER đã xử

lý văn b
ả
n xong và k
ế
t qu
ả

trích rút
metadata c
ủ
a văn bản đó.

5

Hình 3.5. Bi
ể
u đồ

t

ỉ

l
ệ

% s
ố

t
ừ

nh
ậ
n d
ạ
ng đúng ở

7 m
ứ
c DPI

Hình 3.6. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t

ừ
nh
ậ
n d
ạng đúng ở
các góc xoay l
ệ
ch trái
Hình 3.7. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t
ừ
nh
ậ
n d
ạng đúng ở
các góc xoay l
ệ
ch trái

6

M
Ở ĐẦU

1. Tính c
ấ
p thi
ế
t
Công tác lưu trữ

có vai trò
đặ
c bi
ệ
t quan tr
ọ
ng đố
i v
ớ
i các lĩnh vự
c c
ủ
a
đ
ờ
i s
ố
ng xã h
ộ
i b

ở
i thông tin trong tài li
ệ
u lưu trữ

là lo
ạ
i thông tin có độ

tin c
ậ
y
cao do ngu
ồ
n g
ốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ

quy đị
nh.
Ngày nay văn bả
n l
ưu trữ

đang dần đượ
c s
ố
hóa –
đó là nhu cầ
u c
ầ

n thi
ế
t giúp
gi
ảm chi phí và tăng năng suấ
t trong vi
ệ
c qu
ả
n lý.
Th
ự
c t
ế

t
ạ
i Vi
ệ
t Nam có r
ấ
t nhi
ề
u t
ổ

ch
ứ
c và doanh nghi
ệ

p đang phải lưu
tr
ữ

m
ộ
t lượ
ng l
ớ
n các lo
ạ
i văn bả
n tài li
ệ
u ti
ế
ng Vi
ệ
t (b
ả
n c
ứ
ng)

do đó

có nhu
c
ầ
u s

ố
hóa tài li
ệ
u, t
ứ
c là chuy
ể
n các tài li
ệ
u b
ả
n c
ứng đó vào trong máy tính để

lưu tr
ữ
,
tìm ki
ế
m, ch
ỉ
nh s
ử
a khi c
ầ
n.

Hi
ệ
n nay chúng ta đã có các máy quét vớ

i t
ố
c độ

cao, có th
ể

đáp
ứ
ng cho
vi
ệ
c quét các tài li
ệ
u b
ả
n c
ứ
ng thành file
ả
nh để

lưu tr
ữ

lâu dài trên máy tính.
Vi
ệ
c s
ử

d
ụ
ng máy quét s
ẽ

ti
ế
t ki
ệ
m th
ờ
i gian, chi phí g
ấ
p hàng trăm lầ
n so v
ớ
i
vi
ệ
c nh
ậ
p b
ằ
ng tay các t
ài li
ệ
u b
ả
n c

ứ
ng vào máy tính. Tuy nhiên, n
ế
u quét các
tài li
ệ
u b
ả
n c
ứ
ng thành các file
ả
nh để

lưu tr
ữ

thì s
ẽ

không th
ể

ch
ỉ
nh s
ử
a các văn
b
ả

n đó khi cầ
n thi
ế
t
, vi
ệ
c tìm ki
ế
m t
ừ

khóa hay n
ộ
i dung trong văn bả
n quét
cũng
không th
ể
th
ự
c hi
ện đượ
c. Vì v
ậ
y, file
ảnh thu đượ
c sau khi quét c
ần đượ
c
nh

ậ
n d
ạng để

thu được file văn bả
n có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
Khi s
ố

lư
ợng văn bả
n tài li
ệ
u r
ấ
t l
ớ
n c
ầ
n lưu trữ

m
ộ
t cách thông minh để

ph
ụ
c v
ụ

cho vi
ệ
c tìm ki
ế
m nhanh
, đ
ộ

chính xác c
ủ
a vi
ệ
c tìm ki
ế
m s
ẽ

ph
ụ

thu
ộ
c
nhi

ề
u vào bướ
c nh
ậ
n d
ạ
ng văn bả
n s
ố

hóa và bư
ớ
c trích rút
metadata
. Đ
ã có
nh
ữ
ng công c
ụ

đượ
c phát tri
ển để
gi
ả
i quy
ế
t v
ấn đề

trên và mang l
ạ
i k
ế
t qu
ả
r
ấ
t
kh
ả

quan. Tuy nhiên, nh
ằ
m nâng cao hi
ệ
u qu
ả

c
ủ
a công c
ụ

này chúng ta c
ầ
n có
nh
ữ
ng c

ả
i ti
ế
n t
ốt hơn
n
ữa, giúp cho độ
chính xác trong công vi
ệ
c nh
ậ
n d
ạ
ng,
tìm ki
ế
m là t
ốt và nhanh hơn. Nhóm nghiên cứ
u c
ủ
a Vi
ệ
n Công ngh
ệ
thông tin-
Đạ
i h
ọ
c Qu
ố

c gia Hà N
ội đưa ra giả
i pháp là xây d
ự
ng h
ệ
th
ố
ng FSCANNER
để

s
ố

hóa văn bả
n ti
ế
ng Vi
ệ
t.
7

2. M
ụ
c tiêu c
ủ
a lu
ậ
n văn

· T
ổ
ng quan v
ề
bài toán x
ử
lý ngôn ng
ữ
trong s
ố

hóa văn bả
n ti
ế
ng Vi
ệ
t,
quy trình làm vi
ệ
c c
ủ
a h
ệ
th
ố
ng s
ố

hóa văn bả
n FSCANNER.

·
Tìm hi
ể
u v
ề

các k
ỹ

thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ

thu
ậ
t soát
l
ỗ
i chính t
ả

ti
ế
ng
Vi

ệ
t, trích rút metadata trong s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t.

· Nghiên c
ứ
u v
ề

các đặc trưng lưu trữ
t
ừ

đó

đề
xu
ấ
t xây d
ự
ng metadata cho
văn bả

n
đượ
c s
ố
hóa.
3. Nhi
ệ
m v
ụ

nghiên c
ứ
u

M
ục đích củ
a lu
ận văn đề
c
ập được đế
n hai ph
ầ
n:
· Ph
ầ
n lý thuy
ế
t: Trình bày t
ổ
ng quan v

ề
bài toán x
ử
lý ngôn ng
ữ

và sơ
đồ
ho
ạt độ
ng c
ủ
a vi
ệ
c s
ố

hóa văn bả
n c
ủ
a h
ệ
th
ố
ng FSCANNER. Sau
đó tr
ình bày về

các k
ỹ

thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ

thu
ậ
t s
ử
a l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n-gram; V
ớ
i bài toán trích rút metadata,
tìm hi
ể

u v
ề
metadata và chu
ẩ
n Dublin Core, nghiên c
ứ
u v
ề

các đặ
c
trưng lưu trữ
t
ừ

đó đề
xu
ấ
t xây d
ựng metadata cho văn bả
n
đượ
c s
ố

hóa.
·
Ph
ầ
n phát tri

ể
n
ứ
ng d
ụ
ng: Th
ự
c nghi
ệ
m ch
ọ
n ngưỡ
ng góc xoay và ch
ỉ

s
ố

DPI thích h
ợ
p nâng cao ch
ấ
t lượ
ng n
h
ậ
n d
ạ
ng OCR.

4.
Ph
ạ
m vi nghiên c
ứ
u
H
ệ
th
ống FSCANNER đượ
c nhóm nghiên c
ứ
u c
ủ
a Vi
ệ
n Công ngh
ệ
thông
tin-
Đạ
i h
ọ
c Qu
ố
c Gia Hà N
ộ
i xây d
ự
ng v

ớ
i m
ục đích quả
n lý và t
ự

độ
ng s
ố
hóa
tài li
ệu. Đ
ây th
ự
c s
ự
là m
ộ
t bài toán l
ớ
n. Chính vì th
ế
trong ph
ạ
m vi c
ủ
a lu
ậ
n
văn

ch
ỉ
tìm hi
ể
u v
ề
quy trình th
ự
c hi
ệ
n c
ủ
a h
ệ
th
ố
ng, tìm hi
ể
u v
ề
m
ộ
t s
ố
k
ỹ
thu
ậ
t
nh

ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ

n-gram c
ủ
a h
ệ
th
ố
ng, nghiên c
ứ

u v
ề

các đặc trưng lưu trữ

và đề
xu
ấ
t xây d
ự
ng
metadata cho văn b
ản đượ
c s
ố

hóa để
ph
ụ
c v
ụ
cho quá trình trích rút metadata.
5. Nh
ững đóng góp mớ
i
Đề

xu
ấ
t ch

ọ
n ngưỡ
ng góc xoay và ch
ỉ

s
ố

DPI thích h
ợ
p đố
i v
ớ
i
ả
nh đầ
u
vào đ
ể

nâng cao ch
ấ
t lượ
ng nh
ậ
n d
ạ
ng OCR.

8

Đề

xu
ấ
t xây d
ự
ng metadata cho văn bản đượ
c s
ố

hóa, góp ph
ầ
n xác đị
nh
các thu
ộ
c tính c
ầ
n thi
ế
t c
ủ
a metadata cho vi
ệ
c xây d
ự
ng h
ệ

th
ố
ng FSCANNER.

6. B
ố

c
ụ
c lu
ậ
n văn

Ngoài ph
ầ
n m
ở

đầ
u, k
ế
t lu
ậ
n và danh m
ụ
c tài li
ệ
u tham kh
ả
o, lu

ận văn gồ
m 3
chương như sau:

Chương 1: T
ổ
ng quan v
ề
bài toán x
ử
lý ngôn ng
ữ
trong s
ố

hóa văn bả
n
ti
ế
ng Vi
ệ
t.
N
ộ
i dung
gi
ớ
i thi
ệ
u v

ề

bài toán x
ử

lý ngôn ng
ữ

t
ự

nhiên và sơ đ
ồ

ho
ạ
t
độ
ng c
ủ
a vi
ệ
c s
ố

hóa văn bả
n ti
ế
ng Vi
ệ

t c
ủ
a h
ệ
th
ố
ng FSCANNER.
Chương 2: Các kỹ

thu
ậ
t x
ử

lý ngôn ng
ữ

trong s
ố

hóa văn b
ả
n ti
ế
ng Vi
ệ
t

N
ộ

i dung

chương 2 g
ồ
m 3
ph
ầ
n:
gi
ớ
i thi
ệ
u m
ộ
t s
ố

k
ỹ

thu
ậ
t nh
ậ
n d
ạ
ng
OCR; k
ỹ

thu
ậ
t
soát l
ỗ
i
chính t
ả

d
ự
a trên mô hình ngôn ng
ữ

n-gram; k
ỹ

thu
ậ
t
trích rút metadata, trong đó đ
ề
xu
ấ
t xây d
ựng metadata cho văn bản đượ
c s
ố
hóa.
Chương 3: Thự

c nghi
ệ
m –
đánh giá:

Ch
ạy chương trình vớ
i b
ộ
d
ữ
li
ệ
u th
ự
c nghi
ệm đưa ra để
ch
ọn ngưỡ
ng ch
ỉ

s
ố

DPI và góc xoay thích h
ợ
p đố
i v
ớ

i
ả
nh quét đầu vào trướ
c khi nh
ậ
n d
ạ
ng
OCR, nh
ằ
m nâng cao hi
ệ
u qu
ả
nh
ậ
n d
ạ
ng.
9

CHƯƠNG 1.
TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ
TRONG S
Ố HÓA VĂN BẢN TIẾNG VIỆT

1.1
Giới thiệu về xử lý ngôn ngữ tự nhiên

X

ử

lý ngôn ng
ữ

t
ự

nhiên (NLP – Natural Language Processing) là m
ộ
t
l
ĩnh vự
c nghiên c
ứ
u nh
ằ
m giúp cho các h
ệ

th
ố
ng máy tính hi
ể
u và x
ử

lý đ
ượ
c

ngôn ng
ữ

c
ủ
a con ngườ
i (ngôn ng
ữ

nói –vi
ế
t). NLP là lĩnh vự
c thu
ộ
c ngành
Khoa h
ọ
c máy tính
, là m
ộ
t nhánh c
ủ
a Trí tu
ệ

nhân t
ạ
o. Lĩnh vự
c x
ử

lý ngôn ng
ữ

t
ự

nhiên ra đ
ời đã lâu, trả
i qua nhi
ề
u nghiên c
ứ
u và
ứ
ng d
ụ
ng, ngày nay đượ
c
hi
ểu như là lĩnh vự
c giúp máy tính x
ử
lý các v
ấn đề
v
ề
ngôn ng
ữ
t

ự

nhiên để

vi
ệ
c giao ti
ế
p gi
ữ
a ngườ
i và máy tính thu
ậ
n
ti
ệ
n và thân thi
ệ
n hơn
.
Dư
ới đây là
m
ộ
t s
ố

bài toán tiêu bi
ể
u c

ủ
a x
ử

lý ngôn ng
ữ

v
ớ
i các m
ứ
c độ

khác nhau v
ề

x
ử

lý
và s
ử
d
ụ
ng ngôn ng
ữ
t
ự
nhiên c
ủa con ngườ

i [1].
· Nh
ậ
n d
ạ
ng ti
ế
ng nói: T
ừ
ti
ế
ng nói c
ủa con ngườ
i nh
ậ
n bi
ế
t và chuy
ể
n
chúng thành d
ữ
li
ệu văn
b
ản tương ứ
ng, ví d
ụ

như tìm kiế

m thông tin
b
ằ
ng ti
ế
ng nói (search voice),
·
T
ổ
ng h
ợ
p ti
ế
ng nói: T
ừ

d
ữ

li
ệ
u văn bả
n, phân tích và chuy
ể
n thành ti
ế
ng
ngư
ờ
i nói, ví d

ụ

thay vì
đọ
c n
ộ
i dung trên web, nó t
ự

đ
ọ
c cho chúng ta,

· Nh
ậ
n d
ạ
ng ch
ữ
vi
ế
t: T
ừ

văn bả
n trên gi
ấ
y, nh
ậ
n bi

ế
t t
ừ
ng ch
ữ
cái và
chuy
ể
n chúng thành m
ộ
t t
ệp văn bả
n trên máy tính. Có hai ki
ể
u nh
ậ
n
d
ạ
ng: nh
ậ
n d
ạ
ng ch
ữ
in ví d
ụ

như nhậ
n d

ạ
ng ch
ữ
trên sách giáo khoa r
ồ
i
chuy
ển nó thành văn bản như đị
nh d
ạng *.doc lưu trên máy tính; và nhậ
n
d
ạ
ng ch
ữ
vi
ế
t tay ví d
ụ

như nhậ
n d
ạ
ng ch
ữ
ký,
·
D
ị
ch t

ự

đ
ộ
ng: T
ừ

m
ộ
t t
ệ
p d
ữ

li
ệ
u văn bả
n trong m
ộ
t ngôn ng
ữ

(ví d
ụ

ti
ế
ng
Anh), máy tính d
ị

ch và chuy
ể
n thành m
ộ
t t
ệ
p văn bả
n trong m
ộ
t ngôn ng
ữ

khác (ví d
ụ

ti
ế
ng Vi
ệ
t).

· Tóm t
ắt văn bả
n: T
ừ
m
ột văn bả
n dài máy tóm t
ắ
t thành m

ột văn bả
n ng
ắ
n
g
ọ
n v
ớ
i nh
ữ
ng n
ội dung cơ bả
n.
·
Tìm ki
ế
m thông tin: T
ừ

m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệ
p văn bả

n hay ti
ế
ng nói,
tìm ra nh
ữ
ng t
ệ
p có n
ộ
i dung liên quan đế
n m
ộ
t v
ấ
n đề

ta c
ầ
n bi
ế
t, ví d
ụ

đi
ển hình như Google Search có thể

tìm ki
ế
m văn bả
n hay ti

ế
ng nói.

10

· Trích ch
ọ
n thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệp văn bả
n hay ti
ế
ng nói,
tìm ra m
ộ
t s
ố

đoạ
n bên trong m
ộ

t s
ố
t
ệp liên quan đế
n m
ộ
t v
ấn đề
ta c
ầ
n
bi
ế
t
·
Phát hi
ệ
n tri th
ứ
c và khai phá d
ữ

li
ệ
u văn bả
n: T
ừ

nh
ữ

ng ngu
ồ
n r
ấ
t nhi
ề
u
văn b
ả
n th
ậ
m chí h
ầ
u như k
hông có quan h
ệ

v
ớ
i nhau tìm ra đượ
c nh
ữ
ng
tri th
ức trước đấy chưa ai biết, đây là mộ
t v
ấn đề
r
ấ
t ph

ứ
c t
ạp và đang ở

giai đo
ạn đầ
u nghiên c
ứ
u trên th
ế

gi
ớ
i.

1.2
Gi
ới thiệu một số công nghệ trong số hóa tài liệu

1.2.1

Công nghệ nhận dạng tiếng Việt

Hi
ệ
n nay trên th
ế

gi

ớ
i cũng như Việt Nam đã có nhữ
ng s
ả
n ph
ẩ
m nh
ậ
n
d
ạ
ng ti
ế
ng Vi
ệt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sả
n
ph
ẩ
m tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là ph
ầ
n m
ề
m
mã ngu
ồ
n m
ở
s
ử
d

ụ
ng công c
ụ

Tesseract đượ
c phát tri
ể
n t
ạ
i công ty Google.
Ph
ầ
n m
ề
m VnDOCR là s
ả
n ph
ẩ
m c
ủ
a Vi
ệ
n công ngh
ệ

thông tin dùng đ
ể

nh
ậ

n d
ạ
ng ch
ữ

Vi
ệ
t in. Ph
ầ
n m
ề
m này có t
ừ

phiên b
ả
n 1.0 và đế
n nay là phiên
b
ả
n VnDOCR 4.0. Có th
ể
download dùng th
ử
t
ạ
i trang web
. Khi ch
ạ
y ph

ầ
n m
ề
m
cho phép ti
ề
n x
ử
lý
ảnh đầu vào trướ
c khi nh
ậ
n d
ạng như xoay ả
nh, ch
ỉnh độ

nghiêng, xóa nhi
ễ
u. Tuy nhiên b
ả
n dùng th
ử

không cho phép lưu lại văn bản đã
nh
ậ
n d
ạ
ng.

VietOCR là m
ộ
t chương trình mã nguồ
n m
ở

do ngư
ờ
i Vi
ệ
t phát tri
ể
n.
Chương tr
ình sử

d
ụ
ng b
ộ

nh
ậ
n d
ạ
ng Tesseract. Có kh
ả

năng nh
ậ

n di
ệ
n ký t
ự

t
ừ

các lo
ạ
i d
ạ
ng
ả
nh ph
ổ

thông. Đ
ộ

chính xác nh
ậ
n d
ạ
ng tùy thu
ộ
c ph
ầ
n l
ớ

n vào
ch
ấ
t lượ
ng c
ủ
a
ả
nh quét. Vì đây phầ
n m
ề
m mã ngu
ồ
n m
ở

nên vi
ệ
c phát tri
ể
n nó
đ
ể

nâng cao ch
ấ
t lượ
ng nh
ậ
n d

ạ
ng là r
ấ
t kh
ả

thi. Download ph
ầ
n m
ề
m VietOCR
t
ạ
i
trang web và ch
ọ
n download.
Sau đó cài đặ
t V
ietOCR theo hư
ớ
ng d
ẫ
n t
ạ
i
trang web

FineReader là m
ộ

t s
ả
n ph
ẩ
m OCR c
ủ
a ABBYY
– m
ộ
t hãng công ngh
ệ

hàng đ
ầ
u trên th
ế

gi
ớ
i v
ề

l
ĩnh vự
c nh
ậ
n d
ạ
ng kí t
ự

quang h
ọ
c; hãng này đã tiế
n
hành nghiên c
ứ
u và tri
ể
n khai công ngh
ệ

nh
ậ
n d
ạ
ng ti
ế
ng Vi
ệ
t vào tháng 4/2009.
V
ớ
i công ngh
ệ

này, đ
ộ

chính xác trong vi

ệ
c nh
ậ
n d
ạ
ng ch
ữ

in ti
ế
ng Vi
ệ
t lên t
ớ
i
11

99%. Tuy nhiên, s
ả
n ph
ẩ
m này là s
ả
n ph
ẩ
m thương mạ
i hóa, tính phí cho m
ỗ
i

trang scan. Hi
ệ
n t
ạ
i, FineReader đang ở

phiên b
ả
n th
ứ

12. ABBYY FineReader
là ph
ầ
n m
ề
m m
ấ
t phí, dùng th
ử

có th
ể

download ABBYY FineReader 12 t
ạ
i

trang web , sau khi download xong,
ti

ế
n hành cài đặt chương trình theo hướ
ng d
ẫ
n có s
ẵ
n c
ủ
a chương trình.

B
ả
ng
1.1. So sánh m
ộ
t s
ố

ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ

in ti

ế
ng Vi
ệ
t

VnDOCR
VietOCR
ABBYY FineReader
Đặ
c
điể
m

Trang web
http:// www.vndocr.com/

Là s
ả
n ph
ẩm thương mạ
i
Có th
ể
nh
ậ
n d
ạ
ng tr

ự
c ti
ế
p
tài li
ệ
u t
ừ

máy quét.
T
ự

độ
ng phân vùng nh
ậ
n
d
ạ
ng.
Trang web:
rceforge.n
et/
Là chương trình mã nguồ
n
m
ở

do ngườ
i Vi

ệ
t phát
tri
ể
n
.
Vi
ệ
c phát tri
ể
n ph
ầ
n m
ề
m
này để
nâng cao ch
ấ
t
lượ
ng nh
ậ
n d
ạ
ng là r
ấ
t kh
ả

thi.

Trang web:

m/
Là s
ả
n ph
ẩm thương mạ
i.
Là ph
ầ
n m
ề
m c
ủ
a Nga.
Cho phép k
ế
t n
ố
i và nh
ậ
n
d
ạ
ng tr
ự
c ti
ế
p
ả

nh t
ừ

Camera.
Ưu
đi
ể
m
Là ph
ầ
n m
ề
m c
ủ
a ngườ
i
Vi
ệ
t.
Giá thành phù h
ợ
p.
Nh
ậ
n d
ạ
ng tương đố
i t
ố
t

b
ả
ng bi
ể
u, gi
ữ
nguyên
đị
nh d
ạng văn
b
ả
n.
Mi
ễ
n phí
.
Nh
ậ
n d
ạng đượ
c
ảnh đầ
u
vào d
ạ
ng PDF.
Nh
ậ
n d

ạ
ng đượ
c các trang
có nhi
ề
u lo
ạ
i font, ki
ể
u
font ho
ặ
c n
ề
n là
ả
nh màu.
Nh
ậ
n d
ạ
ng đượ
c nhi
ề
u
đị
nh d
ạ
ng
ảnh đầ

u vào.
Phân vùng đúng, giữ

nguyên b
ố

c
ụ
c và đị
nh
d
ạng ban đầ
u.
Nh
ậ
n d
ạ
ng t
ố
t b
ả
ng bi
ể
u,
ch
ữ

to đ
ầu đoạ
n, công

th
ứ
c toán h
ọ
c,
H
ạ
n
ch
ế

Không nh
ậ
n d
ạ
ng đượ
c
đ
ầ
u vào là
ả
nh màu,
ả
nh
đị
nh d
ạ
ng PDF.
Ả
nh có c

ấ
u trúc ph
ứ
c t
ạ
p,
k
ế
t qu
ả

nh
ậ
n d
ạ
ng chưa
cao.
Không nh
ậ
n d
ạng đượ
c
ch
ữ

cái to đ
ầu đoạ
n (Drop
Cap), ch
ỉ

s
ố
trên c
ủ
a các
công th
ứ
c toán h
ọ
c.
Khô
ng phân vùng đư
ợ
c
(ch
ỉ

nh
ậ
n d
ạ
ng đượ
c m
ộ
t
vùng).
Ch
ất lượ
ng nh
ậ

n d
ạ
ng
chưa cao
.

Không nh
ậ
n d
ạng đượ
c
ch
ữ

cái to đầu đoạ
n, các
công th
ứ
c toán h
ọ
c, b
ả
ng
bi
ể
u.
Giá thành cao.
Là s
ả
n ph

ẩ
m không ph
ả
i
c
ủa ngườ
i Vi
ệ
t, có th
ể
b
ị

m
ấ
t thông tin vì chúng ta
không n
ắ
m

đư
ợ
c quy
trình.
1.2.2
Công ngh
ệ soát lỗi chính tả

ti
ếng Việt

L
ỗ
i chính t
ả
g
ồ
m hai lo
ạ
i là l
ỗ
i th
ự
c t
ừ
và l
ỗ
i phi t
ừ
. H
ầ
u h
ế
t các ph
ầ
n
m
ề
m soát l
ỗ

i chính t
ả
phát hi
ện đượ
c l
ỗ
i phi t
ừ
. Tuy nhiên l
ỗ
i th
ự
c t
ừ
ti
ế
ng Vi
ệ
t
12

r
ấ
t khó phát hi
ệ
n.
Do đó nh
ữ
ng công ty
s

ả
n x
u
ấ
t các s
ả
n ph
ẩ
m này đã ngừng đầ
u
tư phát triể
n.

Vào tháng 6/2010, t
ạ
i bu
ổ
i h
ọ
p báo
[9] c
ủ
a Vi
ệ
n Công ngh
ệ

thông tin-
Đ
ạ

i
h
ọ
c Qu
ố
c gia Hà N
ộ
i đã công bố

b
ả
n
Báo cáo v
ề

tình hình chính t
ả

trong văn
b
ả
n ti
ế
ng Vi
ệ
t, đợt đánh giá tháng 6/2010
.

Trong đó
các ph

ầ
n m
ề
m soát l
ỗ
i và
s
ử
a l
ỗ
i chính t
ả

trên th
ị

trư
ờ
ng có t
ỉ

l
ệ

soát l
ỗ
i như sau: BÚT ĐỎ

92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%.

Trên cơ s
ở

đó
,
chúng tôi gi
ớ
i thi
ệ
u
m
ộ
t s
ố

ph
ầ
n m
ề
m soát l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t
[8] và k

ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i
chính t
ả

ti
ế
ng Vi
ệ
t c
ủ
a m
ộ
t s
ố

ph
ầ

n m
ề
m
[7] th
ể

hi
ệ
n
ở

b
ả
ng 1.2

B
ả
ng
1.2. M
ộ
t s
ố

ph
ầ
n m
ề
m soát l
ỗ
i chính t

ả

ti
ế
ng Vi
ệ
t
và k
ế
t qu
ả

đánh giá đ
ộ

nh
ậ
n bi
ế
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t

đ
ố
i v
ớ
i các ph
ầ
n m
ề
m đó.

S
ả
n ph
ẩ
m
Nhà phát
tri
ể
n

Tình tr
ạ
ng, tính ch
ấ
t, site
K
ế
t
qu
ả

đánh giá

Công C
ụ

Vi
ệ
t 1.4

VIEGRID
JSC
-

Đang phát triể
n.
-

Thương m
ạ
i, cho dùng th
ử
.

- www.viegrid.com
92,5%
C
ọ
p Con 3.1

Ths. Mai
Tu
ấ
n Khôi và
c
ộ
ng s
ự

- Ng
ừ
ng phát tri
ể
n

- Mi
ễ
n phí, ng
ừ
ng cung c
ấ
p
- www.chinhta.bacthangban.com
67,77%

Cú Mèo Pro 2.0.2

SOBIC

-
Ng
ừ
ng phát tri
ể
n

-
Thương m
ạ
i, ng
ừ
ng cung c
ấ
p

- www.sobic.com.vn
62,65%
VietSpell

Lưu Hà
Xuyên
-
Ng
ừ
ng phát tri
ể
n.
-

Thương m
ạ
i, dùng th
ử

h
ạ
n ch
ế

62,76%
VCatSpell

Thông t
ấ
n xã
Công giáo
Vi
ệ
t Nam
- Ng
ừ
ng phát tri
ể
n.

- Mi
ễ
n phí, cho t
ả

i

- www.vietcatholic.net
26,52%
1.2.3

Công nghệ tách bộ và lập chỉ mục

Hi
ệ
n t
ạ
i có ph
ầ
n m
ề
m Kodak Capture [20] là 1 ph
ầ
n m
ề
m cho phép s
ố

hóa tài li
ệ
u và l
ậ
p ch
ỉ
m

ụ
c tách b
ộ
t
ự

độ
ng, tuy nhiên ph
ầ
n m
ề
m làm vi
ệ
c không
chính xác v
ớ
i các tài li
ệ
u ti
ế
ng Vi
ệ
t, vi
ệ
c l
ậ
p ch
ỉ
m
ục cũng cầ

n ph
ả
i d
ự
a vào các
13

form m
ẫu đượ
c t
ạ
o b
ởi ngườ
i s
ử
d
ụng (đánh dấ
u v
ị
trí c
ầ
n nh
ậ
n d
ạ
ng và l
ậ
p ch
ỉ

m
ụ
c). S
ả
n ph
ẩ
m ch
ỉ

làm vi
ệ
c v
ớ
i các bi
ể
u m
ẫ
u có cùng 1 d
ạ
ng và có v
ị

trí c
ầ
n
nh
ậ
n d
ạ
ng chính xác v

ớ
i v
ị

trí đã đánh dấ
u. Kodak Capture
cho phép ngườ
i dùng
ch
ỉ

đị
nh vùng OCR b
ằ
ng thao tác kéo th
ả
vùng c
ầ
n nh
ậ
n d
ạ
ng (drag & drop
OCR)

đ
ể

trích rút thông tin c
ầ

n thi
ế
t h
ỗ

tr
ợ

cho vi
ệ
c t
ạ
o ch
ỉ

m
ụ
c. Dưới đây ở

hình 1.1 là m
ộ
t ví d
ụ

kéo th
ả

vùng nh
ậ
n d

ạ
ng
đ
ể

trích rút thông tin.

Hình
1.1.
M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro

1.3
Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

V
ớ
i m
ộ
t kh
ối lượ
ng kh
ổ
ng l
ồ
các tài li
ệu văn bả

n gi
ấ
y, máy quét có th
ể

chuy
ể
n chúng thành các file
ả
nh văn bản lưu trữ

đư
ợ
c trong máy tính. Tuy
nhiên, các file
ảnh văn bả
n sau khi quét thì không th
ể
ch
ỉ
nh s
ửa đượ
c trên máy
tính hay tìm ki
ế
m theo t
ừ
khóa hay n
ộ
i dung trong

ảnh văn bản đó. Vì vậ
y, các
ảnh văn bản thu đượ
c sau khi quét c
ầ
n đươc nhậ
n d
ạ
ng thành thành văn bả
n có
th
ể

ch
ỉ
nh s
ử
a đượ
c (hình 1.
2.a và hình 1.2.b).

K
ế
t qu
ả

nh
ậ
n d
ạ
ng ph
ụ
thu
ộ
c r
ấ
t nhi
ề
u vào ch
ất lượ
ng
ả
nh quét. Khi h
ệ

th
ố
ng không nh
ậ
n d
ạ
ng đượ
c m
ộ
t kí t
ự

, s
ẽ

gây ra m
ộ
t l
ỗ
i chính t
ả

ti
ế
ng Vi
ệ
t
ở

đầ
u ra. Vi
ệ
c s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ

t sau khi nh
ậ
n d
ạ
ng s
ẽ
làm
tăng độ
chính
xác nh
ậ
n d
ạ
ng (hình 1.3.a và hình1.3.b).

Hình 1.2.a. M
ộ
t ph
ầ
n
ả
nh
văn
b
ả
n
Trong cu
ộ

c
ti
ế
p
tr
ợ

lý T
ổ
ng
th
ố
ng
M
ỹ

T.Đai
-
nai-
lơn

t
ớ
i

trao
thư

c
ủ

a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v

ề

tăng

cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-
nai-
lơn

trư
ớ
c

đó

đ
ã

h
ộ

i

đàm

v
ớ
i
B
ộ

trư
ở
ng
Ngo
ạ
i

giao Nga X.La-vr
ố
p.

■

Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t

ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua
M
ỹ

nh
ằ
m
giúp các

nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương

đố
i phó các thách th
ứ
c, g
ồ
m:
tăng

trưở
ng
m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu

ộ
c h
ộ
i
th
ả
o v
ề
kinh t
ế
, Th
ủ

tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m

quan tr
ọ
ng
c
ủ
a
công tác d
ự

báo
chính sách kinh't
ế
,
đồ
ng th
ờ
i kêu g
ọ
i t
ậ
p trung
chuy
ể
n
đổ
i và c
ậ
p nh
ậ
t kinh t

ể
thòng qua c
ả
i cách
sâu r
ộ
ng. (XEM TI
Ế
P TRANG 7)
Hình 1.2.b. Ph
ầ
n
văn
b
ả
n
đã

đượ
c nh
ậ
n d
ạ
ng

14

V
ớ
i m
ỗ
i văn bản sau khi đã nhậ
n d
ạ
ng và s
ử
a l
ỗ
i s
ẽ

đư
ợ
c trích rút thông
tin theo m
ẫ
u ph
ụ
c v
ụ
cho vi
ệc lưu trữ
thông minh và h

ỗ
tr
ợ

ngườ
i dùng tìm ki
ế
m
tài li
ệ
u m
ộ
t cách d
ễ

dàng.
Ở

hình 1.4 là m
ộ
t ví d
ụ

v
ề

trích rút metadata.

Đ

ã có nhữ
ng công c
ụ

đượ
c phát tri
ển để
gi
ả
i quy
ế
t bài toán s
ố

hóa văn
b
ả
n và mang l
ạ
i k
ế
t qu
ả
r
ấ
t kh
ả
quan.
Tuy nhiên để
nâng cao hi

ệ
u qu
ả
c
ủ
a công
c
ụ

này chúng ta c
ầ
n có nh
ữ
ng c
ả
i ti
ế
n t
ố
t hơn nữ
a, giúp cho
đ
ộ

chính xác trong
công vi
ệ
c nh
ậ
n d

ạ
ng, tìm ki
ế
m là t
ố
t và nhanh hơn. Giải pháp đưa ra là mộ
t quy
trình (hình 1.6 ) g
ồm các bướ
c sau:
1.
Người dùng quét các văn bả
n t
ừ
máy Scan ho
ặc import các văn bản đã
đượ
c quét t
ừ

trướ
c. K
ế
t qu
ả
c
ủa bước này là các văn bả
n
đượ
c s

ố
hóa m
ứ
c
1 dướ
i d
ạ
ng các
ả
nh.

2. H
ệ

th
ố
ng s
ẽ

kích ho
ạ
t chương trình nhậ
n d
ạ
ng OCR thông qua các giao
di
ệ
n l
ậ
p trình

ứ
ng d
ụng (API) để
nh
ậ
n d
ạng các văn bản dướ
i d
ạ
ng
ả
nh và
thu v
ề

văn bả
n
ở
d
ạ
ng text.
Cơ
quan ban hành: B
ộ
Khoa h
ọ
c và Công ngh
ệ

S

ố
hi
ệ
u:
3390/QĐ
-BKHCN
Ngày ban hành: 11/12/2012
Trích y
ế
u n
ộ
i dung: Quy
ế
t
đị
nh v
ề
vi
ệ
c công b
ố
th
ủ

t
ụ
c hành chính m
ớ
i ban hành thu
ộ

c ph
ạ
m vi ch
ứ
c
năng

qu
ả
n lý c
ủ
a B
ộ
Khoa h
ọ
c và Công ngh
ệ

Tác gi
ả
: Th
ứ

trưở
ng Tr
ầ
n Vi
ệ
t Thanh
Hình 1.4. M

ộ
t ví d
ụ
v
ề
trích rút metadata
Trong cu
ộ
c ti
ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ

T.Đai
-nai-
lơn
t
ớ
i
trao
thư

c
ủ

a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v

ề

tăng

cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn

trướ
c
đó

đã
h
ộ
i
đàm
v
ớ
i B

ộ

trưở
ng Ngo
ạ
i
giao Nga X.La-vr
ố
p.

■

Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua M
ỹ

nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương

đ
ố
i

phó các thách th
ứ
c,
g
ồ
m:

tăng

trư
ở
ng

m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o

v
ề
kinh t
ế
, Th
ủ

tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a

công tác d
ự

báo chính
sách kinh't
ế
,

đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n

đ
ổ
i
và
c
ậ

p nh
ậ
t kinh t
ể
thòng qua c
ả
i cách sâu r
ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.a. Ph
ầ
n
văn
b
ả
n
đã

đượ
c nh
ậ
n d
ạ
ng
Trong cu
ộ
c ti

ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ

T.Đai
-nai-
lơn
t
ớ
i
trao
thư

c
ủ
a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ

ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề

tăng

cườ
ng
đố
i tho
ạ

i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn

trướ
c
đó

đã
h
ộ
i
đàm
v
ớ
i B
ộ

trưở
ng Ngo
ạ
i
giao Nga X.La-vr
ố
p.

■

Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ

trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố

n nguyên t
ắ
c chính sách c
ủ
a M
ỹ

nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương

đ
ố
i
phó các thách th
ứ
c,
g
ồ
m:

tăng

trư
ở
ng

m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o
v
ề
kinh t
ế
, Th
ủ

tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a
công tác d
ự

báo chính
sách kinh t
ế
,

đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n

đ
ổ
i
và
c
ậ
p nh
ậ
t kinh t
ế
thông qua c
ả
i cách sâu r

ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.b. Ph
ầ
n v
ăn
b
ả
n nh
ậ
n
d
ạ
ng
đã
s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
15

3.
Văn b
ả
n d
ạ
ng text sau quá trình nh
ậ
n d
ạ
ng OCR s
ẽ

đ
ượ
c
soát l
ỗ
i
chính t
ả

ti
ế
ng Vi
ệ
t để

nâng cao đ
ộ

chính xác c
ủ
a k
ế
t qu
ả

nh
ậ
n d
ạ
ng.

4. Trích rút thông tin theo m
ẫ
u đã đượ
c thi
ế
t l
ậ
p tương ứ
ng (m
ẫ
u tương ứ
ng
n
ằ
m trong danh m
ụ

c tài li
ệ
u m
ẫ
u đã đượ
c thi
ế
t k
ế
, n
ế
u không tìm th
ấ
y
m
ẫ
u nào tương ứ
ng trong danh m
ụ
c tài li
ệ
u m
ẫ
u, h
ệ

th
ố
ng s
ẽ

yêu c
ầ
u
ngư
ờ
i dùng t
ạ
o m
ộ
t tài li
ệ
u
m
ẫ
u m
ớ
i và đưa thêm vào danh mụ
c tài li
ệ
u
m
ẫ
u). Sau đó là khâu đặ
t tên file, l
ậ
p ch
ỉ

m

ụ
c t
ự

đ
ộ
ng theo c
ấ
u trúc đã
đượ
c thi
ế
t l
ậ
p, và lưu vào cơ sở

d
ữ

li
ệ
u c
ủ
a h
ệ

th
ố
ng.

Trong quy trình
ở
hình 1.5
, các bướ
c: nh
ậ
n d
ạ
ng OCR, soát l
ỗ
i chính t
ả
,
trích rút m
etadata là nh
ữ
ng bài toán thu
ộ
c lĩnh vự
c x
ử

lý ngôn ng
ữ

t

ự

nhiên (d
ữ

li
ệu văn bả
n).
Tổng kết chương 1

Trên đây chúng tôi đ
ã
gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự

nhiên như khái
ni
ệ
m và m
ộ

t s
ố
bài toán NLP; gi
ớ
i thi
ệ
u khái ni
ệ
m s
ố

hóa văn bả
n, gi
ớ
i thi
ệ
u
m
ộ
t s
ố
công ngh
ệ
s
ố
hóa tài li
ệu như công nghệ
nh
ậ
n d

ạ
ng OCR, công ngh
ệ
soát
l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t, công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c.
Trên cơ sở

đó,
lu
ậ
n
văn đưa ra giả

i pháp là xây d
ự
ng m
ộ
t h
ệ
th
ố
ng s
ố

hóa văn bả
n ti
ế
ng Vi
ệ
t v
ớ
i tên
là FSCANNER. M
ỗi bướ
c trong quy trình s
ố
hóa c
ủ
a h
ệ
th
ố
ng liên quan m

ậ
t
thi
ế
t v
ớ
i m
ỗ
i bài toán trong x
ử
lý ngôn ng
ữ
, c
ụ
th
ể
là bài toán nh
ậ
n d
ạ
ng ch
ữ

OCR, bài toán soát l
ỗ
i chính t
ả
ti
ế
ng Vi

ệ
t, bài toán trích ch
ọ
n thông tin v
ớ
i bài
toán con là trích ch
ọ
n metadata.
Hình
1.5.
Sơ đ
ồ

ho
ạ
t độ
ng c
ủ
a vi
ệ
c
s
ố

hóa
văn

b
ả

n

ti
ế
ng
Vi
ệ
t
c
ủ
a
h
ệ

th
ố
ng
FSCANNER

Ả
nh
quét
Nh
ậ
n
d
ạ
ng
OCR
Soát l

ỗ
i
chính t
ả

Trích rút metadata
và l
ậ
p ch
ỉ
m
ụ
c
16

CHƯƠNG 2.
CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ
HÓA VĂN B
ẢN

Bài toán s
ố

hóa văn bả
n ti
ế
ng Vi
ệ
t là bài toán l
ớ

n, vì v
ậ
y trong ph
ạ
m vi
lu
ận văn tậ
p trung vào m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát l
ỗ
i chính
t
ả
ti
ế

ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ
n-gram, k
ỹ
thu
ậ
t trích rút metadata t
ậ
p
trung vào nghiên c
ứ
u
các đặc trưng lưu trữ

để
xây d
ựng metadata cho văn bả
n
đượ
c s
ố
hóa.
2.1.
Một số kỹ thuật nhận dạng OCR

2.1.1.

Gi
ới thiệu

Nh
ậ
n d
ạ
ng ký t
ự
quang h
ọ
c (Optical Character Recognition – OCR) là
lo
ạ
i ph
ầ
n m
ề
m máy tính có ch
ức năng chuyể
n các hình
ả
nh c
ủ
a ch
ữ
vi
ế
t tay
ho

ặ
c ch
ữ

đánh máy (thường đượ
c quét b
ằ
ng máy scanner, ch
ụ
p
ả
nh) thành các
văn bả
n tài li
ệ
u. Gi
ả
s
ử
ta có m
ột văn bả
n tài li
ệ
u b
ả
n c
ứ
ng, sau khi quét b
ằ
ng

máy scanner thành file
ả
nh, ph
ầ
n m
ề
m OCR s
ẽ
nh
ậ
n d
ạ
ng file
ảnh đã quét đó
thành file văn bản lưu trữ
trên máy tính có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
L
ị
ch s
ử
c
ủa OCR đã có từ

hơn nử

a th
ế
k
ỷ
, nó xu
ấ
t hi
ện đầu tiên để
gi
ả
i quy
ế
t
bài toán đọ
c mã s
ố

trong bưu điệ
n, ti
ếp đó phát triển để
t
ự

động đọc các đị
a ch
ỉ

và đọ
c các thông tin trong các m
ẫu đơn, văn bả

n. Ngày nay v
ớ
i s
ự
phát tri
ể
n
m
ạ
nh m
ẽ
, OCR tr
ở
nên ph
ổ
bi
ến và thường đượ
c
ứ
ng d
ụng như mộ
t ph
ầ
n m
ề
m
cài đặ
t trên máy tính ho
ặ
c tích h

ợ
p kèm v
ớ
i ph
ầ
n c
ứng như tích hợ
p trong máy
scan. Hi
ệ
n nay trên th
ế

gi
ớ
i cũng như ở

Vi
ệ
t Na
m đ
ã có nhữ
ng s
ả
n ph
ẩ
m
nh
ậ
n

d
ạ
ng ch
ữ
in có giá tr
ị
th
ự
c t
ế
cao, có th
ể
k
ể

đến như: sả
n ph
ẩ
m ABBYY
FineReader (hi
ệ
n nay là phiên b
ả
n FineReader 12)
có th
ể

nh
ậ
n d

ạ
ng đượ
c 190
ngôn ng
ữ

trên th
ế

gi
ớ
i
[19]; s
ả
n ph
ẩ
m OmniPage c
ủ
a Nuance nh
ậ
n d
ạ
ng đượ
c
trên 119 ngôn ng
ữ

khác nhau [21]; s
ả
n ph

ẩ
m VnDOCR
nh
ậ
n d
ạ
ng ch
ữ

Vi
ệ
t in

c
ủ
a Vi
ệ
n C
ông ngh
ệ

thông tin-Vi
ệ
n Khoa h
ọ
c và Công ngh
ệ

Vi
ệ

t Nam
; s
ả
n
ph
ẩ
m
VietOCR nh
ậ
n d
ạ
ng ch
ữ

in ti
ế
ng Vi
ệ
t là chương trình mã nguồ
n m
ở

do
ngư
ờ
i Vi
ệ
t phát tri
ể
n s

ử

d
ụ
ng b
ộ

nh
ậ
n d
ạ
ng Tessecract,

17

Mô hình t
ổ
ng quát c
ủ
a m
ộ
t h
ệ

nh
ậ
n d
ạ

ng ch
ữ

[26]
như h
ình 2.1

Hình
2.1. Sơ đồ
t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
th
ố
ng nh
ậ
n d
ạ
ng OCR

Các tài li
ệ
u gi
ấ
y (ch
ữ

in ho
ặ
c ch
ữ

vi
ế
t tay) đượ
c chuy
ể
n thành các file
ả
nh
b
ằ
ng máy quét. Các
ả
nh quét đó là đầ
u vào cho quá trình nh
ậ
n d
ạ
ng OCR. Ti

ế
p
theo là
bư
ớ
c
ti
ề
n x
ử

lý
ả
nh quét,
bư
ớ
c
ti
ề
n x
ử

lý th
ự
c hi
ệ
n m
ộ
t s
ố

ch
ứ
c năng
như: nhị

phân hóa
ả
nh, l
ọ
c nhi
ễ
u, chu
ẩ
n hóa kích thướ
c
ả
nh, làm trơn biên chữ
,
làm đ
ầ
y ch
ữ
, điề
u ch
ỉ
nh độ

nghiêng văn b
ả

n.
Bư
ớ
c

phân đo
ạ
n th
ự
c hi
ệ
n vi
ệ
c
vi
ệ
c tách t
ừ
ng ký t
ự
ra kh
ỏ
i
ảnh văn bản như tách dòng, tách từ
, tách kí t
ự
. V
ớ
i
m

ỗ
i
ả
nh ký t
ự
, khâu trích ch
ọ
n đặc trưng phân tích ả
nh ký t
ự

tìm ra
đặc trưng
riêng c
ủ
a ký t
ự

đó. Các đặc trưng đã đượ
c l
ự
a ch
ọ
n trong
bướ
c trích ch
ọn đặ
c
trưng đượ
c s

ử
d
ụ
ng cho vi
ệ
c hu
ấ
n luy
ệ
n và nh
ậ
n d
ạ
ng
ở

bướ
c ti
ếp theo. Đầ
u ra
c
ủ
a quá trình nh
ậ
n d
ạ
ng có th
ể
b
ị

l
ỗ
i,
bướ
c h
ậ
u x
ử
lý s
ẽ
th
ự
c hi
ệ
n vi
ệ
c ghép n
ố
i
các kí t
ự

đã nhậ
n d
ạ
ng thành các t
ừ, các câu, các đoạn văn để
tái hi
ệ
n l

ại văn
b
ản, đồ
ng th
ờ
i s
ử
a l
ỗi đả
m b
ả
o k
ế
t qu
ả
nh
ậ
n d
ạ
ng t
ố
t nh
ấ
t. T
ấ
t c
ả
các
bướ
c th

ự
c
hi
ện trên đề
u quan tr
ọng, nhưng bướ
c quan tr
ọ
ng nh
ấ
t quy
ết định độ
chính xác
c
ủ
a nh
ậ
n d
ạ
ng là trích ch
ọn đặc trưng và phân lớ
p. Thu
ậ
t toán phân l
ớ
p là y
ế
u t
ố

có vai trò quy
ết định đế
n ch
ất lượ
ng c
ủ
a m
ộ
t h
ệ
th
ố
ng nh
ậ
n d
ạ
ng.
Các phương pháp nh
ậ
n d
ạ
ng truy
ề
n th
ống như đố
i sánh m
ẫ
u, nh
ậ
n d

ạ
ng
c
ấu trúc đã đượ
c
ứ
ng d
ụ
ng khá ph
ổ
bi
ế
n trong các h
ệ
th
ố
ng nh
ậ
n d
ạng và cũng
đã thu đượ
c nh
ữ
ng thành công nh
ất đị
nh. Tuy v
ậ
y, v
ớ
i nh

ững trườ
ng h
ợp văn
b
ản đầ
u vào có ch
ất lượ
ng không t
ố
t (nhi
ễu, đứ
t nét, dính nét ) thì các thu
ậ
t
toán này t
ỏ
ra không hi
ệ
u qu
ả. Để
kh
ắ
c ph
ục điề
u này, trong nh
ững năm gần đây
nhi
ề
u nhóm nghiên c
ứu đã sử

d
ụ
ng các thu
ậ
t toán phân l
ớ
p d
ự
a trên mô hình
Ả
nh
quét
Ti
ề
n x
ử
lý
Phân đoạ
n

Trích ch
ọ
n
đặc trưng

Phân l
ớ
p
H
ậ

u x
ử
lý
Văn b
ản đã
nh
ậ
n d
ạ
ng
18

SVM
[12] , mô hình Markov
ẩ
n HMM [11], mô hình m
ạ
ng n
ơron ANN
[13] cho
các bài toán nh
ậ
n d
ạ
ng nói chung và nh
ậ
n d
ạ
ng ch
ữ

nói riêng.
2.1.2.
K
ỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

Máy vectơ h
ỗ

tr
ợ

(Support vector machine – SVM) là m
ộ
t phương pháp
phân l
ớ
p d
ự
a trên lý thuy
ế
t h
ọ
c th
ống kê, được đề
xu
ấ
t b
ở
i V.Vapnik và các

đồ
ng nghi
ệ
p c
ủ
a ông [15] vào nh
ững năm 1970 ở
Nga, và s
au đó đã trở
nên n
ổ
i
ti
ế
ng và ph
ổ

bi
ế
n vào nh
ữ
ng năm 1990. SVM là một phương pháp phân lớ
p
tuy
ế
n tính v
ớ
i m
ục đích xác đị
nh m

ộ
t siêu ph
ẳng để
phân tách hai l
ớ
p c
ủ
a d
ữ

li
ệ
u, ví d
ụ
l
ớ
p các ví d
ụ

có nhãn dương và lớ
p các ví d
ụ
có nhãn âm. Có th
ể
mô
t
ả

m
ộ

t các
h đơn gi
ả
n v
ề

b
ộ

phân l
ớ
p SVM như sau: cho trướ
c 2 t
ậ
p d
ữ

li
ệ
u h
ọ
c,
m
ỗ
i t
ậ
p thu
ộ
c v
ề

m
ộ
t l
ớ
p cho trướ
c, b
ộ

phân l
ớ
p SVM s
ẽ

xây d
ự
ng mô hình
phân l
ớ
p d
ự
a trên 2 t
ậ
p d
ữ
li
ệ
u này. Khi có m
ộ
t m

ẫ
u m
ới được đưa vào, bộ
phân
l
ớ
p s
ẽ

đưa ra dự

đoán xem mẫ
u này thu
ộ
c l
ớ
p nào trong 2 l
ớp đã đị
nh. Các hàm
nhân (kernel functions)
-
c
ũng đượ
c g
ọ
i là các hàm bi
ế
n đổi, đượ
c dùng cho
trườ

ng h
ợ
p phân l
ớ
p phi tuy
ế
n.

N
ế
u bi
ể
u di
ễ
n t
ậ
p D g
ồ
m r các ví d
ụ
hu
ấ
n luy
ện như sau D={(x
1
,y
1
),

(x
2
,y
2
), (x
r
, y
r
)} thì m
ỗ
i x
i

chính là m
ộ
t vectơ đầu vào đượ
c bi
ể
u di
ễ
n trong
không gian XÍR
n
và y
i

là m
ộ
t nhãn l
ớ

p (giá tr
ị

đ
ầ
u ra) ch
ỉ

nh
ậ
n 2 giá tr
ị

là -1
ho
ặ
c 1 (l
ớ
p âm ho
ặ
c l
ớp dương). Khi đó SVM xác đị
nh m
ộ
t hàm phân tách
tuy
ế
n tính f(x)=<w.x>+b, trong đó w là vectơ trọ
ng s
ố

các thu
ộ
c tính, b là m
ộ
t
giá tr
ị
s
ố
th
ự
c. M
ặ
t siêu ph
ẳ
ng phân tách các ví d
ụ
hu
ấ
n luy
ệ
n l
ớp dương và các
ví d
ụ
hu
ấ
n luy
ệ

n l
ớ
p âm là <w.x>+b=0
đượ
c th
ể
hi
ệ
n
ở
hình 2.3.a.

Hình 2.
2.b. Siêu ph
ẳ
ng t
ố
i ưu và biên
l
ề

tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.2.a. Các l
ớ
p phân
tách tuy
ế

n tính.
19

Tuy nhiên trên th
ự
c t
ế
có th
ể

tìm đượ
c vô s
ố
nh
ữ
ng m
ặ
t siêu ph
ẳ
ng phân
tách trên cùng m
ộ

t t
ậ
p d
ữ

li
ệ
u thì khi đó ta chọ
n m
ặ
t siêu ph
ẳ
ng phân tách có l
ề

c
ực đạ
i (Hình 2.3.b). Quá trình h
ọ
c SVM nh
ằ
m c
ực đạ
i hóa m
ứ
c l
ề
.
Trong hình 2.6.b, gi
ả

s
ử

r
ằ
ng
t
ậ
p các ví d
ụ

hu
ấ
n luy
ệ
n có th
ể

phân tách
đư
ợ
c m
ộ
t cách tuy
ế
n tính. Xét m
ộ
t ví d
ụ

c
ủ
a l
ớ
p dương (x
+
,1) và m
ộ
t ví d
ụ

c
ủ
a
l
ớ
p âm (x
-
,1) g
ầ
n nh
ấ
t đố
i v
ớ
i siêu ph
ẳ
ng phân tách H
0

(<w.x>+b=0). M
ứ
c l
ề

(margin) là kho
ả
ng cách gi
ữ
a 2 siêu ph
ẳ
ng l
ề

H
+
(<w.x>+b=1) và H
-
(<w.x>+b=-
1) trong đó H
+

đi qua x
+
và song song v
ớ
i H
0
, H
-

đi qua x
-
và song song v
ớ
i H
0
,
d
+
là kho
ả
ng cách gi
ữ
a H
+
và H
0
; d
-
là kho
ả
ng cách gi
ữ
a H
-
và H
0
, thì (d
+

+ d
-
)
chính là l
ề

(margin). Theo lý thuy
ế
t đạ
i s
ố

vectơ, kho
ả
ng cách t
ừ

m
ộ
t điể
m x
i

đế
n m
ặ
t siêu ph
ẳ
ng <w.x>+b=0 là
w .

w
i
x b+

(1)
Trong đó ||w|| là độ
dài c
ủ
a w :
2 2 2
1 2
w w w
n
+ + +

Áp d
ụ
ng bi
ể
u th
ứ
c (1) tính d
+

là kho
ả
ng cách t
ừ
x
+

đế
n <w.x>+b=0 ta có:
w .
1
1
w w w
x b
d
+
+
+
= = =

Tương t
ự
:
w .
1
1
w w w
x b
d
-
-
+
-
= = =

Như vậ

y, tính toán m
ứ
c l
ề
= d
+
+ d
-
=
1 1 2
w w w
+ =

<w.x> + b = 0
y
=1
y =
-
1
H
0
: <w.x> + b
= 0
y
=1
y =-
1
d
+

d
-
x
+
x
-
l
ề
(margin)
H
+
: <w.x> + b
= 1
H
-
: <w.x> + b
= -1
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p

(Liu, 2006)
Hình 2.3.b: Siêu ph
ẳ
ng phân tách

có l
ề

c
ự
c đạ
i
(Liu, 2006)

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về