ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I
TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ
NINH TH
Ị
THU HÀ
CÁC K
Ỹ
THU
Ậ
T X
Ử
LÝ NGÔN NG
Ữ
TRONG S
Ố
HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER
Ngành:
Công ngh
ệ
thông tin
Chuyên ngành: K
ỹ
thu
ậ
t ph
ầ
n m
ề
m
Mã s
ố
: 60480103
LU
Ậ
N VĂN THẠC SĨ
Hà N
ộ
i
- 2014
ĐẠ
I H
Ọ
C QU
Ố
C GIA HÀ N
Ộ
I
TRƯỜNG ĐẠ
I H
Ọ
C CÔNG NGH
Ệ
NINH TH
Ị
THU HÀ
CÁC K
Ỹ
THU
Ậ
T X
Ử
LÝ NGÔN NG
Ữ
TRONG S
Ố
HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T
C
Ủ
A H
Ệ
TH
Ố
NG FSCANNER
Ngành: Công ngh
ệ
thông tin
Chuyên ngành:
Công ngh
ệ
ph
ầ
n m
ề
m
Mã s
ố
: 60480103
LU
Ậ
N
VĂN THẠC SĨ
NGƯỜI HƯỚ
NG D
Ẫ
N KHOA H
Ọ
C: TS. LÊ QUANG MINH
Hà N
ộ
i
- 2014
L
Ờ
I CAM ĐOAN
Tôi là Ninh Th
ị
Thu Hà, h
ọ
c viên cao h
ọ
c K19, chuyên ngành Công ngh
ệ
ph
ầ
n m
ề
m, khóa 2012
-
2014. Tôi xin cam đoan lu
ận văn thạc sĩ “Các kỹ
thu
ậ
t x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ
th
ố
ng FSCANNER” là công
trình nghiên c
ứ
u c
ủ
a riêng tôi cùng v
ớ
i s
ự
hư
ớ
ng d
ẫ
n c
ủ
a TS. Lê Quang Minh.
Các s
ố
li
ệ
u, k
ế
t qu
ả
nêu trong Lu
ậ
n văn là trung thực và chưa từng đượ
c ai công
b
ố
trong b
ấ
t k
ỳ
công trình nào khác.
T
ấ
t c
ả
nh
ữ
ng tham kh
ả
o t
ừ
các nghiên c
ứu liên quan đều đượ
c nêu ngu
ồ
n
g
ố
c m
ộ
t cách rõ ràng t
ừ
danh m
ụ
c tài li
ệ
u tham kh
ả
o c
ủ
a lu
ậ
n văn. Trong luậ
n
văn, không có vi
ệ
c sao chép tài li
ệ
u, công trình nghiên c
ứ
u c
ủa ngườ
i khác mà
không ch
ỉ
rõ v
ề
tài li
ệ
u tham kh
ả
o.
Hà n
ộ
i, ngày 28
tháng 10 năm 2014
Tác gi
ả
Ninh Th
ị
Thu Hà
L
Ờ
I C
Ả
M ƠN
Tôi xin g
ử
i l
ờ
i c
ảm ơn sâu sắ
c t
ớ
i TS. Lê Quang Minh – Vi
ệ
n Công ngh
ệ
thông tin,
Đ
ạ
i h
ọ
c Qu
ố
c gia Hà N
ộ
i, ngườ
i th
ầ
y đã hướ
ng d
ẫ
n, ch
ỉ
b
ả
o t
ậ
n tình
cho tôi trong su
ố
t quá trình nghiên
c
ứ
u và hoàn thành lu
ậ
n văn tố
t nghi
ệ
p.
Tôi xin g
ử
i l
ờ
i c
ảm ơn chân thành tớ
i các th
ầy cô đã và đang tham gia
gi
ả
ng d
ạ
y t
ại trường Đạ
i h
ọ
c Công ngh
ệ
-
Đạ
i h
ọ
c Qu
ố
c gia Hà n
ộ
i. Các th
ầ
y cô
đã nhiệ
t tình gi
ả
ng d
ạ
y và t
ạ
o m
ọi điề
u ki
ệ
n thu
ậ
n l
ợ
i cho tôi hoàn thành khóa
h
ọ
c t
ại trườ
ng.
Tôi xin bày t
ỏ
lòng bi
ết ơn tớ
i t
ấ
t c
ả
b
ạn bè, đồ
ng nghi
ệp và người thân đã
động viên, giúp đỡ
tôi trong su
ố
t quá trình h
ọ
c t
ậ
p và nghiên c
ứ
u, hoàn thành
lu
ận văn.
Tôi xin đư
ợ
c g
ử
i l
ờ
i c
ảm ơn đế
n các tác gi
ả
, nhóm tác gi
ả
c
ủ
a nh
ữ
ng giáo
trình, nh
ữ
ng công trình khoa h
ọ
c và nh
ữ
ng bài báo khoa h
ọ
c mà tôi tham kh
ả
o
để
hoàn thi
ệ
n lu
ận văn này.
Tác gi
ả
MỤC LỤC
DANH M
Ụ
C CÁC T
Ừ
VI
Ế
T T
Ắ
T 1
DANH M
Ụ
C B
Ả
NG BI
Ể
U 2
DANH M
Ụ
C HÌNH V
Ẽ
4
M
Ở
ĐẦ
U 6
CHƯƠNG 1. TỔ
NG QUAN V
Ề
BÀI TOÁN X
Ử
LÝ NGÔN NG
Ữ
TRONG S
Ố
HÓA VĂN BẢ
N TI
Ế
NG VI
Ệ
T 9
1.1 Gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên 9
1.2 Gi
ớ
i thi
ệ
u m
ộ
t s
ố
công ngh
ệ
trong s
ố
hóa tài li
ệ
u
10
1.2.1 Công ngh
ệ
nh
ậ
n d
ạ
ng ti
ế
ng Vi
ệ
t
10
1.2.2 Công ngh
ệ
soát l
ỗ
i chính t
ả
ti
ế
ng
Vi
ệ
t
11
1.2.3 Công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c
12
1.3 Bài toán x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t
13
T
ổ
ng k
ết chương 1
15
CHƯƠNG 2. CÁC KỸ
THU
Ậ
T X
Ử
LÝ NGÔN NG
Ữ
TRONG S
Ố
HÓA VĂN
B
Ả
N
16
2.1.
M
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR 16
2.1.1. Gi
ớ
i thi
ệ
u 16
2.1.2. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ựa trên mô hình máy vectơ hỗ
tr
ợ
(SVM) 18
2.1.3. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ự
a trên mô hình Markov
ẩ
n (HMM) 20
2.1.4. K
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng d
ự
a trên mô hình m
ạng nơ ron (ANN)
22
2.1.5. Cách ti
ế
p c
ậ
n nh
ậ
n d
ạ
ng OCR c
ủ
a FSCANNER
24
2.2. K
ỹ
thu
ậ
t soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n
-gram 25
2.2.1. Gi
ớ
i thi
ệ
u bài toán soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
25
2.2.2. Mô hình ngôn ng
ữ
N-gram 27
2.2.3. K
ỹ
thu
ậ
t soát l
ỗ
i d
ự
a trên mô hình n
-gram c
ủ
a h
ệ
th
ố
ng
FSCANNER 29
2.3. Trích rút metadata 30
2.3.1.
Gi
ớ
i thi
ệ
u v
ề
metadata và chu
ẩ
n Dublin Core 30
2.3.2. Bài toán trích rút metadata 32
2.3.3.
Đề
xu
ất metadata cho văn bản đượ
c s
ố
hóa 34
T
ổ
ng k
ết chương 2
45
CHƯƠNG 3. THỰ
C NGHI
ỆM, ĐÁNH GIÁ
46
3.1.
Các bư
ớ
c th
ự
c hi
ệ
n chương trình củ
a h
ệ
th
ố
ng
46
3.2. Xây d
ự
ng b
ộ
d
ữ
li
ệ
u th
ự
c nghi
ệ
m cho
ả
nh quét
48
3.3. Ti
ế
n hành th
ự
c nghi
ệ
m
49
3.3.1. M
ụ
c tiêu
49
3.3.2. Cách th
ự
c hi
ệ
n
49
3.4. K
ế
t q
u
ả
th
ự
c nghi
ệ
m
50
3.5.
Đánh giá kế
t qu
ả
52
T
ổ
ng k
ết chương 3
52
K
Ế
T LU
Ậ
N 53
TÀI LI
Ệ
U THAM KH
Ả
O 54
1
DANH M
ỤC CÁC TỪ VIẾT TẮT
STT
T
ừ
vi
ế
t
t
ắ
t
T
ừ
đ
ầy đủ
Ti
ế
ng Vi
ệ
t
1
ANN
Artificial Neural Network
M
ạng nơ
-ron nhân t
ạ
o
2
API
Application Programming Interface
Giao di
ệ
n l
ậ
p trình
ứ
ng
d
ụ
ng
3
DPI
Dots Per Inch
S
ố
ch
ấ
m trên 1 inch
4
HMM
Hiden Markov Model
Mô hình Markov
ẩ
n
5
MLP
Multi Layer Perceptron
M
ạ
ng nhi
ề
u l
ớ
p truy
ề
n
th
ẳ
ng Perceptron
6
NLP
Natural Language Processing
X
ử
lý ngôn ng
ữ
t
ự
nhiên
7
OCR
Optical Character Recognition
Nh
ậ
n d
ạ
ng kí t
ự
quang
h
ọ
c
8
OVO
One Versus One
M
ộ
t v
ớ
i m
ộ
t
9
OVR
One Versus The Rest
M
ộ
t v
ớ
i ph
ầ
n còn l
ạ
i
10
SVM
Support Vector Machine
Máy V
éc tơ
H
ỗ
tr
ợ
2
DANH MỤC BẢNG BIỂU
B
ả
ng 1.1. So sánh m
ộ
t s
ố
ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ
in ti
ế
ng Vi
ệ
t
B
ả
ng 1.2. M
ộ
t s
ố
ph
ầ
n m
ề
m soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t và k
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t đố
i v
ớ
i các ph
ầ
n m
ề
m đó.
B
ả
ng 2.1. T
ổ
ng h
ợ
p k
ế
t qu
ả
nh
ậ
n d
ạ
ng OCR mô hình HMM, ANN, SVM v
ớ
i
các đặc trưng khác nhau
B
ả
ng 2.2. C
ấ
u trúc âm ti
ế
t 3 thành ph
ầ
n
B
ả
ng 2.3. C
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.4. C
ấ
u trúc âm ti
ế
t 5 thành ph
ầ
n
B
ả
ng 2.5. Các thành ph
ầ
n âm ti
ế
t c
ủ
a c
ấ
u trúc âm ti
ế
t 4 thành ph
ầ
n
B
ả
ng 2.6. M
ộ
t ví d
ụ
trích rút metadata
B
ả
ng 2.7. 15 y
ế
u t
ố
c
ủ
a Dublin Core Metadata.
B
ả
ng 2.8. Đề
xu
ấ
t xây d
ự
ng các y
ế
u t
ố
metadata cho s
ố
hóa văn b
ả
n
B
ảng 2.9. Tiêu đề
(Title)
B
ảng 2.10. Ngườ
i t
ạ
o (Creator)
B
ả
ng 2.11. Ngày tháng (Date)
B
ả
ng 2.12. Nhà xu
ấ
t b
ả
n (Publisher
)
B
ả
ng 2.13. Mô t
ả
(Description)
B
ảng 2.14. Đị
nh danh (Identifier)
B
ả
ng 2.15. Ngôn ng
ữ
(Language)
B
ả
ng 2.16. Ngu
ồ
n (Source)
B
ả
ng 2.17. Ngườ
i c
ộ
ng tác (Contributor)
3
B
ả
ng 2.18. Ch
ủ
đ
ề
(Subject)
B
ả
ng 2.19. Ph
ạ
m vi (Coverage)
B
ả
ng 2.20. Ki
ể
u /Lo
ạ
i (Type)
B
ả
ng 2.21. Kh
ổ
m
ẫ
u (Format)
B
ả
ng 2.22. Liên k
ế
t (Relation)
B
ả
ng 2.23. B
ả
n quy
ề
n (Right)
B
ảng 2.24. Cơ quan lưu trữ
(Archive)
B
ảng 2.25. Phông lưu trữ
(Archive fond)
B
ả
ng 2.26. M
ụ
c l
ụ
c s
ố
(List number)
B
ả
ng 2.27. H
ộ
p s
ố
(Folder number)
B
ả
ng 2.28. H
ồ
sơ số
(Record number)
B
ả
ng 2.29. T
ờ
s
ố
(Page number)
B
ả
ng 2.30. Ngày s
ố
hóa (Digitizing date)
B
ảng 2.31. Ngườ
i s
ố
hóa (Digitizing person)
B
ả
ng 2.32. T
ổ
ch
ứ
c s
ố
hóa (Digitizing organization)
B
ả
ng 2.33. Thi
ế
t b
ị
s
ố
hóa (Digitizing equipment)
B
ả
ng 2.34. B
ả
ng Cơ sở
d
ữ
li
ệ
u c
ủ
a 25 y
ế
u t
ố
metadata xây d
ự
ng cho văn bả
n
đư
ợ
c s
ố
hóa
B
ả
ng 3.1. S
ố
t
ừ
nh
ậ
n d
ạ
ng đúng vớ
i các m
ứ
c DPI khác nhau c
ủ
a
ả
nh quét
B
ả
ng 3.2. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch trái so v
ớ
i
ả
nh quét g
ố
c)
c
ủ
a
ả
nh quét
B
ả
ng 3.3. S
ố
t
ừ
nh
ậ
n d
ạng đúng vớ
i các góc xoay (l
ệ
ch ph
ả
i so v
ớ
i
ả
nh quét
g
ố
c) c
ủ
a
ả
nh quét
4
DANH M
ỤC HÌNH VẼ
Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
Hình 1.2.a. M
ộ
t ph
ầ
n
ảnh văn bả
n
Hình 1.2.b. Ph
ầ
n văn bản đã đượ
c nh
ậ
n
Hình 1.3.a. Ph
ầ
n văn bản đã đượ
c
nh
ậ
n
Hình 1.3.b. Ph
ần văn bả
n nh
ậ
n d
ạng đã sử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
Hình 1.4. M
ộ
t ví d
ụ
v
ề
trích rút thông tin
Hình 1.5. Sơ đồ
ho
ạ
t độ
ng c
ủ
a vi
ệ
c s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ
th
ố
ng
FSCANNER
Hình 2.1. Sơ đồ
t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
th
ố
ng nh
ậ
n d
ạ
ng OCR
Hình 2.2.a. Các l
ớ
p phân tách tuy
ế
n tính.
Hình 2.2.b. Siêu ph
ẳ
ng t
ối ưu và biên lề
tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p (Liu, 2006)
Hình 2.3.b: Siêu ph
ẳ
ng phân tách có l
ề
c
ự
c đạ
i (Liu, 2006)
Hình 2.4. Lướ
i các chu
ỗ
i tr
ạ
ng thái, các ti
ế
n trình Markov v
ớ
i dãy quan sát O
1
,
, O
T
.
Hình 2.5. Mô hình m
ột nơron nhân tạ
o
Hình 2.6. M
ạ
ng MLP trong nh
ậ
n d
ạ
ng kí t
ự
quang h
ọ
c.
Hình 2.7. Mô hình Markov b
ậ
c 2
Hình 3.1. Giao di
ện chương trình FSCANNER
Hình 3.2. Upload v
ăn bả
n trong h
ệ
th
ố
ng FSCANNER
Hình 3.3. H
ệ
th
ố
ng FSCANNER đang nhậ
n d
ạ
ng OCR 1 file
ả
nh
Hình 3.4. H
ệ
th
ố
ng FSCANNER đã xử
lý văn b
ả
n xong và k
ế
t qu
ả
trích rút
metadata c
ủ
a văn bản đó.
5
Hình 3.5. Bi
ể
u đồ
t
ỉ
l
ệ
% s
ố
t
ừ
nh
ậ
n d
ạ
ng đúng ở
7 m
ứ
c DPI
Hình 3.6. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t
ừ
nh
ậ
n d
ạng đúng ở
các góc xoay l
ệ
ch trái
Hình 3.7. Bi
ểu đồ
t
ỉ
l
ệ
% s
ố
t
ừ
nh
ậ
n d
ạng đúng ở
các góc xoay l
ệ
ch trái
6
M
Ở ĐẦU
1. Tính c
ấ
p thi
ế
t
Công tác lưu trữ
có vai trò
đặ
c bi
ệ
t quan tr
ọ
ng đố
i v
ớ
i các lĩnh vự
c c
ủ
a
đ
ờ
i s
ố
ng xã h
ộ
i b
ở
i thông tin trong tài li
ệ
u lưu trữ
là lo
ạ
i thông tin có độ
tin c
ậ
y
cao do ngu
ồ
n g
ốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ
quy đị
nh.
Ngày nay văn bả
n l
ưu trữ
đang dần đượ
c s
ố
hóa –
đó là nhu cầ
u c
ầ
n thi
ế
t giúp
gi
ảm chi phí và tăng năng suấ
t trong vi
ệ
c qu
ả
n lý.
Th
ự
c t
ế
t
ạ
i Vi
ệ
t Nam có r
ấ
t nhi
ề
u t
ổ
ch
ứ
c và doanh nghi
ệ
p đang phải lưu
tr
ữ
m
ộ
t lượ
ng l
ớ
n các lo
ạ
i văn bả
n tài li
ệ
u ti
ế
ng Vi
ệ
t (b
ả
n c
ứ
ng)
do đó
có nhu
c
ầ
u s
ố
hóa tài li
ệ
u, t
ứ
c là chuy
ể
n các tài li
ệ
u b
ả
n c
ứng đó vào trong máy tính để
lưu tr
ữ
,
tìm ki
ế
m, ch
ỉ
nh s
ử
a khi c
ầ
n.
Hi
ệ
n nay chúng ta đã có các máy quét vớ
i t
ố
c độ
cao, có th
ể
đáp
ứ
ng cho
vi
ệ
c quét các tài li
ệ
u b
ả
n c
ứ
ng thành file
ả
nh để
lưu tr
ữ
lâu dài trên máy tính.
Vi
ệ
c s
ử
d
ụ
ng máy quét s
ẽ
ti
ế
t ki
ệ
m th
ờ
i gian, chi phí g
ấ
p hàng trăm lầ
n so v
ớ
i
vi
ệ
c nh
ậ
p b
ằ
ng tay các t
ài li
ệ
u b
ả
n c
ứ
ng vào máy tính. Tuy nhiên, n
ế
u quét các
tài li
ệ
u b
ả
n c
ứ
ng thành các file
ả
nh để
lưu tr
ữ
thì s
ẽ
không th
ể
ch
ỉ
nh s
ử
a các văn
b
ả
n đó khi cầ
n thi
ế
t
, vi
ệ
c tìm ki
ế
m t
ừ
khóa hay n
ộ
i dung trong văn bả
n quét
cũng
không th
ể
th
ự
c hi
ện đượ
c. Vì v
ậ
y, file
ảnh thu đượ
c sau khi quét c
ần đượ
c
nh
ậ
n d
ạng để
thu được file văn bả
n có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
Khi s
ố
lư
ợng văn bả
n tài li
ệ
u r
ấ
t l
ớ
n c
ầ
n lưu trữ
m
ộ
t cách thông minh để
ph
ụ
c v
ụ
cho vi
ệ
c tìm ki
ế
m nhanh
, đ
ộ
chính xác c
ủ
a vi
ệ
c tìm ki
ế
m s
ẽ
ph
ụ
thu
ộ
c
nhi
ề
u vào bướ
c nh
ậ
n d
ạ
ng văn bả
n s
ố
hóa và bư
ớ
c trích rút
metadata
. Đ
ã có
nh
ữ
ng công c
ụ
đượ
c phát tri
ển để
gi
ả
i quy
ế
t v
ấn đề
trên và mang l
ạ
i k
ế
t qu
ả
r
ấ
t
kh
ả
quan. Tuy nhiên, nh
ằ
m nâng cao hi
ệ
u qu
ả
c
ủ
a công c
ụ
này chúng ta c
ầ
n có
nh
ữ
ng c
ả
i ti
ế
n t
ốt hơn
n
ữa, giúp cho độ
chính xác trong công vi
ệ
c nh
ậ
n d
ạ
ng,
tìm ki
ế
m là t
ốt và nhanh hơn. Nhóm nghiên cứ
u c
ủ
a Vi
ệ
n Công ngh
ệ
thông tin-
Đạ
i h
ọ
c Qu
ố
c gia Hà N
ội đưa ra giả
i pháp là xây d
ự
ng h
ệ
th
ố
ng FSCANNER
để
s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t.
7
2. M
ụ
c tiêu c
ủ
a lu
ậ
n văn
· T
ổ
ng quan v
ề
bài toán x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t,
quy trình làm vi
ệ
c c
ủ
a h
ệ
th
ố
ng s
ố
hóa văn bả
n FSCANNER.
·
Tìm hi
ể
u v
ề
các k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát
l
ỗ
i chính t
ả
ti
ế
ng
Vi
ệ
t, trích rút metadata trong s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t.
· Nghiên c
ứ
u v
ề
các đặc trưng lưu trữ
t
ừ
đó
đề
xu
ấ
t xây d
ự
ng metadata cho
văn bả
n
đượ
c s
ố
hóa.
3. Nhi
ệ
m v
ụ
nghiên c
ứ
u
M
ục đích củ
a lu
ận văn đề
c
ập được đế
n hai ph
ầ
n:
· Ph
ầ
n lý thuy
ế
t: Trình bày t
ổ
ng quan v
ề
bài toán x
ử
lý ngôn ng
ữ
và sơ
đồ
ho
ạt độ
ng c
ủ
a vi
ệ
c s
ố
hóa văn bả
n c
ủ
a h
ệ
th
ố
ng FSCANNER. Sau
đó tr
ình bày về
các k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình n-gram; V
ớ
i bài toán trích rút metadata,
tìm hi
ể
u v
ề
metadata và chu
ẩ
n Dublin Core, nghiên c
ứ
u v
ề
các đặ
c
trưng lưu trữ
t
ừ
đó đề
xu
ấ
t xây d
ựng metadata cho văn bả
n
đượ
c s
ố
hóa.
·
Ph
ầ
n phát tri
ể
n
ứ
ng d
ụ
ng: Th
ự
c nghi
ệ
m ch
ọ
n ngưỡ
ng góc xoay và ch
ỉ
s
ố
DPI thích h
ợ
p nâng cao ch
ấ
t lượ
ng n
h
ậ
n d
ạ
ng OCR.
4.
Ph
ạ
m vi nghiên c
ứ
u
H
ệ
th
ống FSCANNER đượ
c nhóm nghiên c
ứ
u c
ủ
a Vi
ệ
n Công ngh
ệ
thông
tin-
Đạ
i h
ọ
c Qu
ố
c Gia Hà N
ộ
i xây d
ự
ng v
ớ
i m
ục đích quả
n lý và t
ự
độ
ng s
ố
hóa
tài li
ệu. Đ
ây th
ự
c s
ự
là m
ộ
t bài toán l
ớ
n. Chính vì th
ế
trong ph
ạ
m vi c
ủ
a lu
ậ
n
văn
ch
ỉ
tìm hi
ể
u v
ề
quy trình th
ự
c hi
ệ
n c
ủ
a h
ệ
th
ố
ng, tìm hi
ể
u v
ề
m
ộ
t s
ố
k
ỹ
thu
ậ
t
nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ
n-gram c
ủ
a h
ệ
th
ố
ng, nghiên c
ứ
u v
ề
các đặc trưng lưu trữ
và đề
xu
ấ
t xây d
ự
ng
metadata cho văn b
ản đượ
c s
ố
hóa để
ph
ụ
c v
ụ
cho quá trình trích rút metadata.
5. Nh
ững đóng góp mớ
i
Đề
xu
ấ
t ch
ọ
n ngưỡ
ng góc xoay và ch
ỉ
s
ố
DPI thích h
ợ
p đố
i v
ớ
i
ả
nh đầ
u
vào đ
ể
nâng cao ch
ấ
t lượ
ng nh
ậ
n d
ạ
ng OCR.
8
Đề
xu
ấ
t xây d
ự
ng metadata cho văn bản đượ
c s
ố
hóa, góp ph
ầ
n xác đị
nh
các thu
ộ
c tính c
ầ
n thi
ế
t c
ủ
a metadata cho vi
ệ
c xây d
ự
ng h
ệ
th
ố
ng FSCANNER.
6. B
ố
c
ụ
c lu
ậ
n văn
Ngoài ph
ầ
n m
ở
đầ
u, k
ế
t lu
ậ
n và danh m
ụ
c tài li
ệ
u tham kh
ả
o, lu
ận văn gồ
m 3
chương như sau:
Chương 1: T
ổ
ng quan v
ề
bài toán x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn bả
n
ti
ế
ng Vi
ệ
t.
N
ộ
i dung
gi
ớ
i thi
ệ
u v
ề
bài toán x
ử
lý ngôn ng
ữ
t
ự
nhiên và sơ đ
ồ
ho
ạ
t
độ
ng c
ủ
a vi
ệ
c s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t c
ủ
a h
ệ
th
ố
ng FSCANNER.
Chương 2: Các kỹ
thu
ậ
t x
ử
lý ngôn ng
ữ
trong s
ố
hóa văn b
ả
n ti
ế
ng Vi
ệ
t
N
ộ
i dung
chương 2 g
ồ
m 3
ph
ầ
n:
gi
ớ
i thi
ệ
u m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng
OCR; k
ỹ
thu
ậ
t
soát l
ỗ
i
chính t
ả
d
ự
a trên mô hình ngôn ng
ữ
n-gram; k
ỹ
thu
ậ
t
trích rút metadata, trong đó đ
ề
xu
ấ
t xây d
ựng metadata cho văn bản đượ
c s
ố
hóa.
Chương 3: Thự
c nghi
ệ
m –
đánh giá:
Ch
ạy chương trình vớ
i b
ộ
d
ữ
li
ệ
u th
ự
c nghi
ệm đưa ra để
ch
ọn ngưỡ
ng ch
ỉ
s
ố
DPI và góc xoay thích h
ợ
p đố
i v
ớ
i
ả
nh quét đầu vào trướ
c khi nh
ậ
n d
ạ
ng
OCR, nh
ằ
m nâng cao hi
ệ
u qu
ả
nh
ậ
n d
ạ
ng.
9
CHƯƠNG 1.
TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ
TRONG S
Ố HÓA VĂN BẢN TIẾNG VIỆT
1.1
Giới thiệu về xử lý ngôn ngữ tự nhiên
X
ử
lý ngôn ng
ữ
t
ự
nhiên (NLP – Natural Language Processing) là m
ộ
t
l
ĩnh vự
c nghiên c
ứ
u nh
ằ
m giúp cho các h
ệ
th
ố
ng máy tính hi
ể
u và x
ử
lý đ
ượ
c
ngôn ng
ữ
c
ủ
a con ngườ
i (ngôn ng
ữ
nói –vi
ế
t). NLP là lĩnh vự
c thu
ộ
c ngành
Khoa h
ọ
c máy tính
, là m
ộ
t nhánh c
ủ
a Trí tu
ệ
nhân t
ạ
o. Lĩnh vự
c x
ử
lý ngôn ng
ữ
t
ự
nhiên ra đ
ời đã lâu, trả
i qua nhi
ề
u nghiên c
ứ
u và
ứ
ng d
ụ
ng, ngày nay đượ
c
hi
ểu như là lĩnh vự
c giúp máy tính x
ử
lý các v
ấn đề
v
ề
ngôn ng
ữ
t
ự
nhiên để
vi
ệ
c giao ti
ế
p gi
ữ
a ngườ
i và máy tính thu
ậ
n
ti
ệ
n và thân thi
ệ
n hơn
.
Dư
ới đây là
m
ộ
t s
ố
bài toán tiêu bi
ể
u c
ủ
a x
ử
lý ngôn ng
ữ
v
ớ
i các m
ứ
c độ
khác nhau v
ề
x
ử
lý
và s
ử
d
ụ
ng ngôn ng
ữ
t
ự
nhiên c
ủa con ngườ
i [1].
· Nh
ậ
n d
ạ
ng ti
ế
ng nói: T
ừ
ti
ế
ng nói c
ủa con ngườ
i nh
ậ
n bi
ế
t và chuy
ể
n
chúng thành d
ữ
li
ệu văn
b
ản tương ứ
ng, ví d
ụ
như tìm kiế
m thông tin
b
ằ
ng ti
ế
ng nói (search voice),
·
T
ổ
ng h
ợ
p ti
ế
ng nói: T
ừ
d
ữ
li
ệ
u văn bả
n, phân tích và chuy
ể
n thành ti
ế
ng
ngư
ờ
i nói, ví d
ụ
thay vì
đọ
c n
ộ
i dung trên web, nó t
ự
đ
ọ
c cho chúng ta,
· Nh
ậ
n d
ạ
ng ch
ữ
vi
ế
t: T
ừ
văn bả
n trên gi
ấ
y, nh
ậ
n bi
ế
t t
ừ
ng ch
ữ
cái và
chuy
ể
n chúng thành m
ộ
t t
ệp văn bả
n trên máy tính. Có hai ki
ể
u nh
ậ
n
d
ạ
ng: nh
ậ
n d
ạ
ng ch
ữ
in ví d
ụ
như nhậ
n d
ạ
ng ch
ữ
trên sách giáo khoa r
ồ
i
chuy
ển nó thành văn bản như đị
nh d
ạng *.doc lưu trên máy tính; và nhậ
n
d
ạ
ng ch
ữ
vi
ế
t tay ví d
ụ
như nhậ
n d
ạ
ng ch
ữ
ký,
·
D
ị
ch t
ự
đ
ộ
ng: T
ừ
m
ộ
t t
ệ
p d
ữ
li
ệ
u văn bả
n trong m
ộ
t ngôn ng
ữ
(ví d
ụ
ti
ế
ng
Anh), máy tính d
ị
ch và chuy
ể
n thành m
ộ
t t
ệ
p văn bả
n trong m
ộ
t ngôn ng
ữ
khác (ví d
ụ
ti
ế
ng Vi
ệ
t).
· Tóm t
ắt văn bả
n: T
ừ
m
ột văn bả
n dài máy tóm t
ắ
t thành m
ột văn bả
n ng
ắ
n
g
ọ
n v
ớ
i nh
ữ
ng n
ội dung cơ bả
n.
·
Tìm ki
ế
m thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệ
p văn bả
n hay ti
ế
ng nói,
tìm ra nh
ữ
ng t
ệ
p có n
ộ
i dung liên quan đế
n m
ộ
t v
ấ
n đề
ta c
ầ
n bi
ế
t, ví d
ụ
đi
ển hình như Google Search có thể
tìm ki
ế
m văn bả
n hay ti
ế
ng nói.
10
· Trích ch
ọ
n thông tin: T
ừ
m
ộ
t ngu
ồ
n r
ấ
t nhi
ề
u t
ệp văn bả
n hay ti
ế
ng nói,
tìm ra m
ộ
t s
ố
đoạ
n bên trong m
ộ
t s
ố
t
ệp liên quan đế
n m
ộ
t v
ấn đề
ta c
ầ
n
bi
ế
t
·
Phát hi
ệ
n tri th
ứ
c và khai phá d
ữ
li
ệ
u văn bả
n: T
ừ
nh
ữ
ng ngu
ồ
n r
ấ
t nhi
ề
u
văn b
ả
n th
ậ
m chí h
ầ
u như k
hông có quan h
ệ
v
ớ
i nhau tìm ra đượ
c nh
ữ
ng
tri th
ức trước đấy chưa ai biết, đây là mộ
t v
ấn đề
r
ấ
t ph
ứ
c t
ạp và đang ở
giai đo
ạn đầ
u nghiên c
ứ
u trên th
ế
gi
ớ
i.
1.2
Gi
ới thiệu một số công nghệ trong số hóa tài liệu
1.2.1
Công nghệ nhận dạng tiếng Việt
Hi
ệ
n nay trên th
ế
gi
ớ
i cũng như Việt Nam đã có nhữ
ng s
ả
n ph
ẩ
m nh
ậ
n
d
ạ
ng ti
ế
ng Vi
ệt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sả
n
ph
ẩ
m tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là ph
ầ
n m
ề
m
mã ngu
ồ
n m
ở
s
ử
d
ụ
ng công c
ụ
Tesseract đượ
c phát tri
ể
n t
ạ
i công ty Google.
Ph
ầ
n m
ề
m VnDOCR là s
ả
n ph
ẩ
m c
ủ
a Vi
ệ
n công ngh
ệ
thông tin dùng đ
ể
nh
ậ
n d
ạ
ng ch
ữ
Vi
ệ
t in. Ph
ầ
n m
ề
m này có t
ừ
phiên b
ả
n 1.0 và đế
n nay là phiên
b
ả
n VnDOCR 4.0. Có th
ể
download dùng th
ử
t
ạ
i trang web
. Khi ch
ạ
y ph
ầ
n m
ề
m
cho phép ti
ề
n x
ử
lý
ảnh đầu vào trướ
c khi nh
ậ
n d
ạng như xoay ả
nh, ch
ỉnh độ
nghiêng, xóa nhi
ễ
u. Tuy nhiên b
ả
n dùng th
ử
không cho phép lưu lại văn bản đã
nh
ậ
n d
ạ
ng.
VietOCR là m
ộ
t chương trình mã nguồ
n m
ở
do ngư
ờ
i Vi
ệ
t phát tri
ể
n.
Chương tr
ình sử
d
ụ
ng b
ộ
nh
ậ
n d
ạ
ng Tesseract. Có kh
ả
năng nh
ậ
n di
ệ
n ký t
ự
t
ừ
các lo
ạ
i d
ạ
ng
ả
nh ph
ổ
thông. Đ
ộ
chính xác nh
ậ
n d
ạ
ng tùy thu
ộ
c ph
ầ
n l
ớ
n vào
ch
ấ
t lượ
ng c
ủ
a
ả
nh quét. Vì đây phầ
n m
ề
m mã ngu
ồ
n m
ở
nên vi
ệ
c phát tri
ể
n nó
đ
ể
nâng cao ch
ấ
t lượ
ng nh
ậ
n d
ạ
ng là r
ấ
t kh
ả
thi. Download ph
ầ
n m
ề
m VietOCR
t
ạ
i
trang web và ch
ọ
n download.
Sau đó cài đặ
t V
ietOCR theo hư
ớ
ng d
ẫ
n t
ạ
i
trang web
FineReader là m
ộ
t s
ả
n ph
ẩ
m OCR c
ủ
a ABBYY
– m
ộ
t hãng công ngh
ệ
hàng đ
ầ
u trên th
ế
gi
ớ
i v
ề
l
ĩnh vự
c nh
ậ
n d
ạ
ng kí t
ự
quang h
ọ
c; hãng này đã tiế
n
hành nghiên c
ứ
u và tri
ể
n khai công ngh
ệ
nh
ậ
n d
ạ
ng ti
ế
ng Vi
ệ
t vào tháng 4/2009.
V
ớ
i công ngh
ệ
này, đ
ộ
chính xác trong vi
ệ
c nh
ậ
n d
ạ
ng ch
ữ
in ti
ế
ng Vi
ệ
t lên t
ớ
i
11
99%. Tuy nhiên, s
ả
n ph
ẩ
m này là s
ả
n ph
ẩ
m thương mạ
i hóa, tính phí cho m
ỗ
i
trang scan. Hi
ệ
n t
ạ
i, FineReader đang ở
phiên b
ả
n th
ứ
12. ABBYY FineReader
là ph
ầ
n m
ề
m m
ấ
t phí, dùng th
ử
có th
ể
download ABBYY FineReader 12 t
ạ
i
trang web , sau khi download xong,
ti
ế
n hành cài đặt chương trình theo hướ
ng d
ẫ
n có s
ẵ
n c
ủ
a chương trình.
B
ả
ng
1.1. So sánh m
ộ
t s
ố
ph
ầ
n m
ề
m nh
ậ
n d
ạ
ng ch
ữ
in ti
ế
ng Vi
ệ
t
VnDOCR
VietOCR
ABBYY FineReader
Đặ
c
điể
m
Trang web
http:// www.vndocr.com/
Là s
ả
n ph
ẩm thương mạ
i
Có th
ể
nh
ậ
n d
ạ
ng tr
ự
c ti
ế
p
tài li
ệ
u t
ừ
máy quét.
T
ự
độ
ng phân vùng nh
ậ
n
d
ạ
ng.
Trang web:
rceforge.n
et/
Là chương trình mã nguồ
n
m
ở
do ngườ
i Vi
ệ
t phát
tri
ể
n
.
Vi
ệ
c phát tri
ể
n ph
ầ
n m
ề
m
này để
nâng cao ch
ấ
t
lượ
ng nh
ậ
n d
ạ
ng là r
ấ
t kh
ả
thi.
Trang web:
m/
Là s
ả
n ph
ẩm thương mạ
i.
Là ph
ầ
n m
ề
m c
ủ
a Nga.
Cho phép k
ế
t n
ố
i và nh
ậ
n
d
ạ
ng tr
ự
c ti
ế
p
ả
nh t
ừ
Camera.
Ưu
đi
ể
m
Là ph
ầ
n m
ề
m c
ủ
a ngườ
i
Vi
ệ
t.
Giá thành phù h
ợ
p.
Nh
ậ
n d
ạ
ng tương đố
i t
ố
t
b
ả
ng bi
ể
u, gi
ữ
nguyên
đị
nh d
ạng văn
b
ả
n.
Mi
ễ
n phí
.
Nh
ậ
n d
ạng đượ
c
ảnh đầ
u
vào d
ạ
ng PDF.
Nh
ậ
n d
ạ
ng đượ
c các trang
có nhi
ề
u lo
ạ
i font, ki
ể
u
font ho
ặ
c n
ề
n là
ả
nh màu.
Nh
ậ
n d
ạ
ng đượ
c nhi
ề
u
đị
nh d
ạ
ng
ảnh đầ
u vào.
Phân vùng đúng, giữ
nguyên b
ố
c
ụ
c và đị
nh
d
ạng ban đầ
u.
Nh
ậ
n d
ạ
ng t
ố
t b
ả
ng bi
ể
u,
ch
ữ
to đ
ầu đoạ
n, công
th
ứ
c toán h
ọ
c,
H
ạ
n
ch
ế
Không nh
ậ
n d
ạ
ng đượ
c
đ
ầ
u vào là
ả
nh màu,
ả
nh
đị
nh d
ạ
ng PDF.
Ả
nh có c
ấ
u trúc ph
ứ
c t
ạ
p,
k
ế
t qu
ả
nh
ậ
n d
ạ
ng chưa
cao.
Không nh
ậ
n d
ạng đượ
c
ch
ữ
cái to đ
ầu đoạ
n (Drop
Cap), ch
ỉ
s
ố
trên c
ủ
a các
công th
ứ
c toán h
ọ
c.
Khô
ng phân vùng đư
ợ
c
(ch
ỉ
nh
ậ
n d
ạ
ng đượ
c m
ộ
t
vùng).
Ch
ất lượ
ng nh
ậ
n d
ạ
ng
chưa cao
.
Không nh
ậ
n d
ạng đượ
c
ch
ữ
cái to đầu đoạ
n, các
công th
ứ
c toán h
ọ
c, b
ả
ng
bi
ể
u.
Giá thành cao.
Là s
ả
n ph
ẩ
m không ph
ả
i
c
ủa ngườ
i Vi
ệ
t, có th
ể
b
ị
m
ấ
t thông tin vì chúng ta
không n
ắ
m
đư
ợ
c quy
trình.
1.2.2
Công ngh
ệ soát lỗi chính tả
ti
ếng Việt
L
ỗ
i chính t
ả
g
ồ
m hai lo
ạ
i là l
ỗ
i th
ự
c t
ừ
và l
ỗ
i phi t
ừ
. H
ầ
u h
ế
t các ph
ầ
n
m
ề
m soát l
ỗ
i chính t
ả
phát hi
ện đượ
c l
ỗ
i phi t
ừ
. Tuy nhiên l
ỗ
i th
ự
c t
ừ
ti
ế
ng Vi
ệ
t
12
r
ấ
t khó phát hi
ệ
n.
Do đó nh
ữ
ng công ty
s
ả
n x
u
ấ
t các s
ả
n ph
ẩ
m này đã ngừng đầ
u
tư phát triể
n.
Vào tháng 6/2010, t
ạ
i bu
ổ
i h
ọ
p báo
[9] c
ủ
a Vi
ệ
n Công ngh
ệ
thông tin-
Đ
ạ
i
h
ọ
c Qu
ố
c gia Hà N
ộ
i đã công bố
b
ả
n
Báo cáo v
ề
tình hình chính t
ả
trong văn
b
ả
n ti
ế
ng Vi
ệ
t, đợt đánh giá tháng 6/2010
.
Trong đó
các ph
ầ
n m
ề
m soát l
ỗ
i và
s
ử
a l
ỗ
i chính t
ả
trên th
ị
trư
ờ
ng có t
ỉ
l
ệ
soát l
ỗ
i như sau: BÚT ĐỎ
92,5%; CÚ
MÈO 62,65%; VIETSPELL 62,76%.
Trên cơ s
ở
đó
,
chúng tôi gi
ớ
i thi
ệ
u
m
ộ
t s
ố
ph
ầ
n m
ề
m soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
[8] và k
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i
chính t
ả
ti
ế
ng Vi
ệ
t c
ủ
a m
ộ
t s
ố
ph
ầ
n m
ề
m
[7] th
ể
hi
ệ
n
ở
b
ả
ng 1.2
B
ả
ng
1.2. M
ộ
t s
ố
ph
ầ
n m
ề
m soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
và k
ế
t qu
ả
đánh giá đ
ộ
nh
ậ
n bi
ế
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
đ
ố
i v
ớ
i các ph
ầ
n m
ề
m đó.
S
ả
n ph
ẩ
m
Nhà phát
tri
ể
n
Tình tr
ạ
ng, tính ch
ấ
t, site
K
ế
t
qu
ả
đánh giá
Công C
ụ
Vi
ệ
t 1.4
VIEGRID
JSC
-
Đang phát triể
n.
-
Thương m
ạ
i, cho dùng th
ử
.
- www.viegrid.com
92,5%
C
ọ
p Con 3.1
Ths. Mai
Tu
ấ
n Khôi và
c
ộ
ng s
ự
- Ng
ừ
ng phát tri
ể
n
- Mi
ễ
n phí, ng
ừ
ng cung c
ấ
p
- www.chinhta.bacthangban.com
67,77%
Cú Mèo Pro 2.0.2
SOBIC
-
Ng
ừ
ng phát tri
ể
n
-
Thương m
ạ
i, ng
ừ
ng cung c
ấ
p
- www.sobic.com.vn
62,65%
VietSpell
Lưu Hà
Xuyên
-
Ng
ừ
ng phát tri
ể
n.
-
Thương m
ạ
i, dùng th
ử
h
ạ
n ch
ế
62,76%
VCatSpell
Thông t
ấ
n xã
Công giáo
Vi
ệ
t Nam
- Ng
ừ
ng phát tri
ể
n.
- Mi
ễ
n phí, cho t
ả
i
- www.vietcatholic.net
26,52%
1.2.3
Công nghệ tách bộ và lập chỉ mục
Hi
ệ
n t
ạ
i có ph
ầ
n m
ề
m Kodak Capture [20] là 1 ph
ầ
n m
ề
m cho phép s
ố
hóa tài li
ệ
u và l
ậ
p ch
ỉ
m
ụ
c tách b
ộ
t
ự
độ
ng, tuy nhiên ph
ầ
n m
ề
m làm vi
ệ
c không
chính xác v
ớ
i các tài li
ệ
u ti
ế
ng Vi
ệ
t, vi
ệ
c l
ậ
p ch
ỉ
m
ục cũng cầ
n ph
ả
i d
ự
a vào các
13
form m
ẫu đượ
c t
ạ
o b
ởi ngườ
i s
ử
d
ụng (đánh dấ
u v
ị
trí c
ầ
n nh
ậ
n d
ạ
ng và l
ậ
p ch
ỉ
m
ụ
c). S
ả
n ph
ẩ
m ch
ỉ
làm vi
ệ
c v
ớ
i các bi
ể
u m
ẫ
u có cùng 1 d
ạ
ng và có v
ị
trí c
ầ
n
nh
ậ
n d
ạ
ng chính xác v
ớ
i v
ị
trí đã đánh dấ
u. Kodak Capture
cho phép ngườ
i dùng
ch
ỉ
đị
nh vùng OCR b
ằ
ng thao tác kéo th
ả
vùng c
ầ
n nh
ậ
n d
ạ
ng (drag & drop
OCR)
đ
ể
trích rút thông tin c
ầ
n thi
ế
t h
ỗ
tr
ợ
cho vi
ệ
c t
ạ
o ch
ỉ
m
ụ
c. Dưới đây ở
hình 1.1 là m
ộ
t ví d
ụ
kéo th
ả
vùng nh
ậ
n d
ạ
ng
đ
ể
trích rút thông tin.
Hình
1.1.
M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro
1.3
Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt
V
ớ
i m
ộ
t kh
ối lượ
ng kh
ổ
ng l
ồ
các tài li
ệu văn bả
n gi
ấ
y, máy quét có th
ể
chuy
ể
n chúng thành các file
ả
nh văn bản lưu trữ
đư
ợ
c trong máy tính. Tuy
nhiên, các file
ảnh văn bả
n sau khi quét thì không th
ể
ch
ỉ
nh s
ửa đượ
c trên máy
tính hay tìm ki
ế
m theo t
ừ
khóa hay n
ộ
i dung trong
ảnh văn bản đó. Vì vậ
y, các
ảnh văn bản thu đượ
c sau khi quét c
ầ
n đươc nhậ
n d
ạ
ng thành thành văn bả
n có
th
ể
ch
ỉ
nh s
ử
a đượ
c (hình 1.
2.a và hình 1.2.b).
K
ế
t qu
ả
nh
ậ
n d
ạ
ng ph
ụ
thu
ộ
c r
ấ
t nhi
ề
u vào ch
ất lượ
ng
ả
nh quét. Khi h
ệ
th
ố
ng không nh
ậ
n d
ạ
ng đượ
c m
ộ
t kí t
ự
, s
ẽ
gây ra m
ộ
t l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
ở
đầ
u ra. Vi
ệ
c s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t sau khi nh
ậ
n d
ạ
ng s
ẽ
làm
tăng độ
chính
xác nh
ậ
n d
ạ
ng (hình 1.3.a và hình1.3.b).
Hình 1.2.a. M
ộ
t ph
ầ
n
ả
nh
văn
b
ả
n
Trong cu
ộ
c
ti
ế
p
tr
ợ
lý T
ổ
ng
th
ố
ng
M
ỹ
T.Đai
-
nai-
lơn
t
ớ
i
trao
thư
c
ủ
a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề
tăng
cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-
nai-
lơn
trư
ớ
c
đó
đ
ã
h
ộ
i
đàm
v
ớ
i
B
ộ
trư
ở
ng
Ngo
ạ
i
giao Nga X.La-vr
ố
p.
■
Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua
M
ỹ
nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương
đố
i phó các thách th
ứ
c, g
ồ
m:
tăng
trưở
ng
m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i
th
ả
o v
ề
kinh t
ế
, Th
ủ
tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a
công tác d
ự
báo
chính sách kinh't
ế
,
đồ
ng th
ờ
i kêu g
ọ
i t
ậ
p trung
chuy
ể
n
đổ
i và c
ậ
p nh
ậ
t kinh t
ể
thòng qua c
ả
i cách
sâu r
ộ
ng. (XEM TI
Ế
P TRANG 7)
Hình 1.2.b. Ph
ầ
n
văn
b
ả
n
đã
đượ
c nh
ậ
n d
ạ
ng
14
V
ớ
i m
ỗ
i văn bản sau khi đã nhậ
n d
ạ
ng và s
ử
a l
ỗ
i s
ẽ
đư
ợ
c trích rút thông
tin theo m
ẫ
u ph
ụ
c v
ụ
cho vi
ệc lưu trữ
thông minh và h
ỗ
tr
ợ
ngườ
i dùng tìm ki
ế
m
tài li
ệ
u m
ộ
t cách d
ễ
dàng.
Ở
hình 1.4 là m
ộ
t ví d
ụ
v
ề
trích rút metadata.
Đ
ã có nhữ
ng công c
ụ
đượ
c phát tri
ển để
gi
ả
i quy
ế
t bài toán s
ố
hóa văn
b
ả
n và mang l
ạ
i k
ế
t qu
ả
r
ấ
t kh
ả
quan.
Tuy nhiên để
nâng cao hi
ệ
u qu
ả
c
ủ
a công
c
ụ
này chúng ta c
ầ
n có nh
ữ
ng c
ả
i ti
ế
n t
ố
t hơn nữ
a, giúp cho
đ
ộ
chính xác trong
công vi
ệ
c nh
ậ
n d
ạ
ng, tìm ki
ế
m là t
ố
t và nhanh hơn. Giải pháp đưa ra là mộ
t quy
trình (hình 1.6 ) g
ồm các bướ
c sau:
1.
Người dùng quét các văn bả
n t
ừ
máy Scan ho
ặc import các văn bản đã
đượ
c quét t
ừ
trướ
c. K
ế
t qu
ả
c
ủa bước này là các văn bả
n
đượ
c s
ố
hóa m
ứ
c
1 dướ
i d
ạ
ng các
ả
nh.
2. H
ệ
th
ố
ng s
ẽ
kích ho
ạ
t chương trình nhậ
n d
ạ
ng OCR thông qua các giao
di
ệ
n l
ậ
p trình
ứ
ng d
ụng (API) để
nh
ậ
n d
ạng các văn bản dướ
i d
ạ
ng
ả
nh và
thu v
ề
văn bả
n
ở
d
ạ
ng text.
Cơ
quan ban hành: B
ộ
Khoa h
ọ
c và Công ngh
ệ
S
ố
hi
ệ
u:
3390/QĐ
-BKHCN
Ngày ban hành: 11/12/2012
Trích y
ế
u n
ộ
i dung: Quy
ế
t
đị
nh v
ề
vi
ệ
c công b
ố
th
ủ
t
ụ
c hành chính m
ớ
i ban hành thu
ộ
c ph
ạ
m vi ch
ứ
c
năng
qu
ả
n lý c
ủ
a B
ộ
Khoa h
ọ
c và Công ngh
ệ
Tác gi
ả
: Th
ứ
trưở
ng Tr
ầ
n Vi
ệ
t Thanh
Hình 1.4. M
ộ
t ví d
ụ
v
ề
trích rút metadata
Trong cu
ộ
c ti
ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ
T.Đai
-nai-
lơn
t
ớ
i
trao
thư
c
ủ
a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề
tăng
cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn
trướ
c
đó
đã
h
ộ
i
đàm
v
ớ
i B
ộ
trưở
ng Ngo
ạ
i
giao Nga X.La-vr
ố
p.
■
Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách cua M
ỹ
nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương
đ
ố
i
phó các thách th
ứ
c,
g
ồ
m:
tăng
trư
ở
ng
m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o
v
ề
kinh t
ế
, Th
ủ
tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a
công tác d
ự
báo chính
sách kinh't
ế
,
đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n
đ
ổ
i
và
c
ậ
p nh
ậ
t kinh t
ể
thòng qua c
ả
i cách sâu r
ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.a. Ph
ầ
n
văn
b
ả
n
đã
đượ
c nh
ậ
n d
ạ
ng
Trong cu
ộ
c ti
ế
p tr
ợ
lý T
ổ
ng th
ố
ng M
ỹ
T.Đai
-nai-
lơn
t
ớ
i
trao
thư
c
ủ
a
T
ổ
ng
th
ố
ng
B.ô-ba-ma, T
ổ
ng
th
ố
ng
Nga
V.Pu
-tin cho bi
ế
t, s
ẽ
nghiên c
ứ
u
đề
xu
ấ
t c
ủ
a M
ỹ
v
ề
tăng
cườ
ng
đố
i tho
ạ
i và h
ợ
p tác song
phương.
Ông
Đai
-nai-
lơn
trướ
c
đó
đã
h
ộ
i
đàm
v
ớ
i B
ộ
trưở
ng Ngo
ạ
i
giao Nga X.La-vr
ố
p.
■
Theo Tân Hoa xã, phát bi
ể
u
ý
ki
ế
n t
ạ
i Vi
ệ
n Công ngh
ệ
Nh
ậ
t B
ả
n, B
ộ
trưở
ng Ngo
ạ
i
giao M
ỹ
G.Ke-ri nêu b
ố
n nguyên t
ắ
c chính sách c
ủ
a M
ỹ
nh
ằ
m
giúp các
nư
ớ
c
khu v
ự
c
châu Á - Thái Bình
Dương
đ
ố
i
phó các thách th
ứ
c,
g
ồ
m:
tăng
trư
ở
ng
m
ạ
nh, công b
ằ
ng, nhanh và h
ợ
p lý.
■
T
ạ
i cu
ộ
c h
ộ
i th
ả
o
v
ề
kinh t
ế
, Th
ủ
tướ
ng Trung Qu
ố
c Lý Kh
ắ
c
Cườ
ng
nh
ấ
n
m
ạ
nh
t
ầ
m
quan tr
ọ
ng
c
ủ
a
công tác d
ự
báo chính
sách kinh t
ế
,
đ
ồ
ng
th
ờ
i
kêu g
ọ
i
t
ậ
p
trung chuy
ể
n
đ
ổ
i
và
c
ậ
p nh
ậ
t kinh t
ế
thông qua c
ả
i cách sâu r
ộ
ng. (XEM
TI
Ế
P TRANG 7)
Hình 1.3.b. Ph
ầ
n v
ăn
b
ả
n nh
ậ
n
d
ạ
ng
đã
s
ử
a l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t
15
3.
Văn b
ả
n d
ạ
ng text sau quá trình nh
ậ
n d
ạ
ng OCR s
ẽ
đ
ượ
c
soát l
ỗ
i
chính t
ả
ti
ế
ng Vi
ệ
t để
nâng cao đ
ộ
chính xác c
ủ
a k
ế
t qu
ả
nh
ậ
n d
ạ
ng.
4. Trích rút thông tin theo m
ẫ
u đã đượ
c thi
ế
t l
ậ
p tương ứ
ng (m
ẫ
u tương ứ
ng
n
ằ
m trong danh m
ụ
c tài li
ệ
u m
ẫ
u đã đượ
c thi
ế
t k
ế
, n
ế
u không tìm th
ấ
y
m
ẫ
u nào tương ứ
ng trong danh m
ụ
c tài li
ệ
u m
ẫ
u, h
ệ
th
ố
ng s
ẽ
yêu c
ầ
u
ngư
ờ
i dùng t
ạ
o m
ộ
t tài li
ệ
u
m
ẫ
u m
ớ
i và đưa thêm vào danh mụ
c tài li
ệ
u
m
ẫ
u). Sau đó là khâu đặ
t tên file, l
ậ
p ch
ỉ
m
ụ
c t
ự
đ
ộ
ng theo c
ấ
u trúc đã
đượ
c thi
ế
t l
ậ
p, và lưu vào cơ sở
d
ữ
li
ệ
u c
ủ
a h
ệ
th
ố
ng.
Trong quy trình
ở
hình 1.5
, các bướ
c: nh
ậ
n d
ạ
ng OCR, soát l
ỗ
i chính t
ả
,
trích rút m
etadata là nh
ữ
ng bài toán thu
ộ
c lĩnh vự
c x
ử
lý ngôn ng
ữ
t
ự
nhiên (d
ữ
li
ệu văn bả
n).
Tổng kết chương 1
Trên đây chúng tôi đ
ã
gi
ớ
i thi
ệ
u v
ề
x
ử
lý ngôn ng
ữ
t
ự
nhiên như khái
ni
ệ
m và m
ộ
t s
ố
bài toán NLP; gi
ớ
i thi
ệ
u khái ni
ệ
m s
ố
hóa văn bả
n, gi
ớ
i thi
ệ
u
m
ộ
t s
ố
công ngh
ệ
s
ố
hóa tài li
ệu như công nghệ
nh
ậ
n d
ạ
ng OCR, công ngh
ệ
soát
l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t, công ngh
ệ
tách b
ộ
và l
ậ
p ch
ỉ
m
ụ
c.
Trên cơ sở
đó,
lu
ậ
n
văn đưa ra giả
i pháp là xây d
ự
ng m
ộ
t h
ệ
th
ố
ng s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t v
ớ
i tên
là FSCANNER. M
ỗi bướ
c trong quy trình s
ố
hóa c
ủ
a h
ệ
th
ố
ng liên quan m
ậ
t
thi
ế
t v
ớ
i m
ỗ
i bài toán trong x
ử
lý ngôn ng
ữ
, c
ụ
th
ể
là bài toán nh
ậ
n d
ạ
ng ch
ữ
OCR, bài toán soát l
ỗ
i chính t
ả
ti
ế
ng Vi
ệ
t, bài toán trích ch
ọ
n thông tin v
ớ
i bài
toán con là trích ch
ọ
n metadata.
Hình
1.5.
Sơ đ
ồ
ho
ạ
t độ
ng c
ủ
a vi
ệ
c
s
ố
hóa
văn
b
ả
n
ti
ế
ng
Vi
ệ
t
c
ủ
a
h
ệ
th
ố
ng
FSCANNER
Ả
nh
quét
Nh
ậ
n
d
ạ
ng
OCR
Soát l
ỗ
i
chính t
ả
Trích rút metadata
và l
ậ
p ch
ỉ
m
ụ
c
16
CHƯƠNG 2.
CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ
HÓA VĂN B
ẢN
Bài toán s
ố
hóa văn bả
n ti
ế
ng Vi
ệ
t là bài toán l
ớ
n, vì v
ậ
y trong ph
ạ
m vi
lu
ận văn tậ
p trung vào m
ộ
t s
ố
k
ỹ
thu
ậ
t nh
ậ
n d
ạ
ng OCR, k
ỹ
thu
ậ
t soát l
ỗ
i chính
t
ả
ti
ế
ng Vi
ệ
t d
ự
a trên mô hình ngôn ng
ữ
n-gram, k
ỹ
thu
ậ
t trích rút metadata t
ậ
p
trung vào nghiên c
ứ
u
các đặc trưng lưu trữ
để
xây d
ựng metadata cho văn bả
n
đượ
c s
ố
hóa.
2.1.
Một số kỹ thuật nhận dạng OCR
2.1.1.
Gi
ới thiệu
Nh
ậ
n d
ạ
ng ký t
ự
quang h
ọ
c (Optical Character Recognition – OCR) là
lo
ạ
i ph
ầ
n m
ề
m máy tính có ch
ức năng chuyể
n các hình
ả
nh c
ủ
a ch
ữ
vi
ế
t tay
ho
ặ
c ch
ữ
đánh máy (thường đượ
c quét b
ằ
ng máy scanner, ch
ụ
p
ả
nh) thành các
văn bả
n tài li
ệ
u. Gi
ả
s
ử
ta có m
ột văn bả
n tài li
ệ
u b
ả
n c
ứ
ng, sau khi quét b
ằ
ng
máy scanner thành file
ả
nh, ph
ầ
n m
ề
m OCR s
ẽ
nh
ậ
n d
ạ
ng file
ảnh đã quét đó
thành file văn bản lưu trữ
trên máy tính có th
ể
ch
ỉ
nh s
ửa đượ
c trên máy tính.
L
ị
ch s
ử
c
ủa OCR đã có từ
hơn nử
a th
ế
k
ỷ
, nó xu
ấ
t hi
ện đầu tiên để
gi
ả
i quy
ế
t
bài toán đọ
c mã s
ố
trong bưu điệ
n, ti
ếp đó phát triển để
t
ự
động đọc các đị
a ch
ỉ
và đọ
c các thông tin trong các m
ẫu đơn, văn bả
n. Ngày nay v
ớ
i s
ự
phát tri
ể
n
m
ạ
nh m
ẽ
, OCR tr
ở
nên ph
ổ
bi
ến và thường đượ
c
ứ
ng d
ụng như mộ
t ph
ầ
n m
ề
m
cài đặ
t trên máy tính ho
ặ
c tích h
ợ
p kèm v
ớ
i ph
ầ
n c
ứng như tích hợ
p trong máy
scan. Hi
ệ
n nay trên th
ế
gi
ớ
i cũng như ở
Vi
ệ
t Na
m đ
ã có nhữ
ng s
ả
n ph
ẩ
m
nh
ậ
n
d
ạ
ng ch
ữ
in có giá tr
ị
th
ự
c t
ế
cao, có th
ể
k
ể
đến như: sả
n ph
ẩ
m ABBYY
FineReader (hi
ệ
n nay là phiên b
ả
n FineReader 12)
có th
ể
nh
ậ
n d
ạ
ng đượ
c 190
ngôn ng
ữ
trên th
ế
gi
ớ
i
[19]; s
ả
n ph
ẩ
m OmniPage c
ủ
a Nuance nh
ậ
n d
ạ
ng đượ
c
trên 119 ngôn ng
ữ
khác nhau [21]; s
ả
n ph
ẩ
m VnDOCR
nh
ậ
n d
ạ
ng ch
ữ
Vi
ệ
t in
c
ủ
a Vi
ệ
n C
ông ngh
ệ
thông tin-Vi
ệ
n Khoa h
ọ
c và Công ngh
ệ
Vi
ệ
t Nam
; s
ả
n
ph
ẩ
m
VietOCR nh
ậ
n d
ạ
ng ch
ữ
in ti
ế
ng Vi
ệ
t là chương trình mã nguồ
n m
ở
do
ngư
ờ
i Vi
ệ
t phát tri
ể
n s
ử
d
ụ
ng b
ộ
nh
ậ
n d
ạ
ng Tessecract,
17
Mô hình t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
nh
ậ
n d
ạ
ng ch
ữ
[26]
như h
ình 2.1
Hình
2.1. Sơ đồ
t
ổ
ng quát c
ủ
a m
ộ
t h
ệ
th
ố
ng nh
ậ
n d
ạ
ng OCR
Các tài li
ệ
u gi
ấ
y (ch
ữ
in ho
ặ
c ch
ữ
vi
ế
t tay) đượ
c chuy
ể
n thành các file
ả
nh
b
ằ
ng máy quét. Các
ả
nh quét đó là đầ
u vào cho quá trình nh
ậ
n d
ạ
ng OCR. Ti
ế
p
theo là
bư
ớ
c
ti
ề
n x
ử
lý
ả
nh quét,
bư
ớ
c
ti
ề
n x
ử
lý th
ự
c hi
ệ
n m
ộ
t s
ố
ch
ứ
c năng
như: nhị
phân hóa
ả
nh, l
ọ
c nhi
ễ
u, chu
ẩ
n hóa kích thướ
c
ả
nh, làm trơn biên chữ
,
làm đ
ầ
y ch
ữ
, điề
u ch
ỉ
nh độ
nghiêng văn b
ả
n.
Bư
ớ
c
phân đo
ạ
n th
ự
c hi
ệ
n vi
ệ
c
vi
ệ
c tách t
ừ
ng ký t
ự
ra kh
ỏ
i
ảnh văn bản như tách dòng, tách từ
, tách kí t
ự
. V
ớ
i
m
ỗ
i
ả
nh ký t
ự
, khâu trích ch
ọ
n đặc trưng phân tích ả
nh ký t
ự
tìm ra
đặc trưng
riêng c
ủ
a ký t
ự
đó. Các đặc trưng đã đượ
c l
ự
a ch
ọ
n trong
bướ
c trích ch
ọn đặ
c
trưng đượ
c s
ử
d
ụ
ng cho vi
ệ
c hu
ấ
n luy
ệ
n và nh
ậ
n d
ạ
ng
ở
bướ
c ti
ếp theo. Đầ
u ra
c
ủ
a quá trình nh
ậ
n d
ạ
ng có th
ể
b
ị
l
ỗ
i,
bướ
c h
ậ
u x
ử
lý s
ẽ
th
ự
c hi
ệ
n vi
ệ
c ghép n
ố
i
các kí t
ự
đã nhậ
n d
ạ
ng thành các t
ừ, các câu, các đoạn văn để
tái hi
ệ
n l
ại văn
b
ản, đồ
ng th
ờ
i s
ử
a l
ỗi đả
m b
ả
o k
ế
t qu
ả
nh
ậ
n d
ạ
ng t
ố
t nh
ấ
t. T
ấ
t c
ả
các
bướ
c th
ự
c
hi
ện trên đề
u quan tr
ọng, nhưng bướ
c quan tr
ọ
ng nh
ấ
t quy
ết định độ
chính xác
c
ủ
a nh
ậ
n d
ạ
ng là trích ch
ọn đặc trưng và phân lớ
p. Thu
ậ
t toán phân l
ớ
p là y
ế
u t
ố
có vai trò quy
ết định đế
n ch
ất lượ
ng c
ủ
a m
ộ
t h
ệ
th
ố
ng nh
ậ
n d
ạ
ng.
Các phương pháp nh
ậ
n d
ạ
ng truy
ề
n th
ống như đố
i sánh m
ẫ
u, nh
ậ
n d
ạ
ng
c
ấu trúc đã đượ
c
ứ
ng d
ụ
ng khá ph
ổ
bi
ế
n trong các h
ệ
th
ố
ng nh
ậ
n d
ạng và cũng
đã thu đượ
c nh
ữ
ng thành công nh
ất đị
nh. Tuy v
ậ
y, v
ớ
i nh
ững trườ
ng h
ợp văn
b
ản đầ
u vào có ch
ất lượ
ng không t
ố
t (nhi
ễu, đứ
t nét, dính nét ) thì các thu
ậ
t
toán này t
ỏ
ra không hi
ệ
u qu
ả. Để
kh
ắ
c ph
ục điề
u này, trong nh
ững năm gần đây
nhi
ề
u nhóm nghiên c
ứu đã sử
d
ụ
ng các thu
ậ
t toán phân l
ớ
p d
ự
a trên mô hình
Ả
nh
quét
Ti
ề
n x
ử
lý
Phân đoạ
n
Trích ch
ọ
n
đặc trưng
Phân l
ớ
p
H
ậ
u x
ử
lý
Văn b
ản đã
nh
ậ
n d
ạ
ng
18
SVM
[12] , mô hình Markov
ẩ
n HMM [11], mô hình m
ạ
ng n
ơron ANN
[13] cho
các bài toán nh
ậ
n d
ạ
ng nói chung và nh
ậ
n d
ạ
ng ch
ữ
nói riêng.
2.1.2.
K
ỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)
Máy vectơ h
ỗ
tr
ợ
(Support vector machine – SVM) là m
ộ
t phương pháp
phân l
ớ
p d
ự
a trên lý thuy
ế
t h
ọ
c th
ống kê, được đề
xu
ấ
t b
ở
i V.Vapnik và các
đồ
ng nghi
ệ
p c
ủ
a ông [15] vào nh
ững năm 1970 ở
Nga, và s
au đó đã trở
nên n
ổ
i
ti
ế
ng và ph
ổ
bi
ế
n vào nh
ữ
ng năm 1990. SVM là một phương pháp phân lớ
p
tuy
ế
n tính v
ớ
i m
ục đích xác đị
nh m
ộ
t siêu ph
ẳng để
phân tách hai l
ớ
p c
ủ
a d
ữ
li
ệ
u, ví d
ụ
l
ớ
p các ví d
ụ
có nhãn dương và lớ
p các ví d
ụ
có nhãn âm. Có th
ể
mô
t
ả
m
ộ
t các
h đơn gi
ả
n v
ề
b
ộ
phân l
ớ
p SVM như sau: cho trướ
c 2 t
ậ
p d
ữ
li
ệ
u h
ọ
c,
m
ỗ
i t
ậ
p thu
ộ
c v
ề
m
ộ
t l
ớ
p cho trướ
c, b
ộ
phân l
ớ
p SVM s
ẽ
xây d
ự
ng mô hình
phân l
ớ
p d
ự
a trên 2 t
ậ
p d
ữ
li
ệ
u này. Khi có m
ộ
t m
ẫ
u m
ới được đưa vào, bộ
phân
l
ớ
p s
ẽ
đưa ra dự
đoán xem mẫ
u này thu
ộ
c l
ớ
p nào trong 2 l
ớp đã đị
nh. Các hàm
nhân (kernel functions)
-
c
ũng đượ
c g
ọ
i là các hàm bi
ế
n đổi, đượ
c dùng cho
trườ
ng h
ợ
p phân l
ớ
p phi tuy
ế
n.
N
ế
u bi
ể
u di
ễ
n t
ậ
p D g
ồ
m r các ví d
ụ
hu
ấ
n luy
ện như sau D={(x
1
,y
1
),
(x
2
,y
2
), (x
r
, y
r
)} thì m
ỗ
i x
i
chính là m
ộ
t vectơ đầu vào đượ
c bi
ể
u di
ễ
n trong
không gian XÍR
n
và y
i
là m
ộ
t nhãn l
ớ
p (giá tr
ị
đ
ầ
u ra) ch
ỉ
nh
ậ
n 2 giá tr
ị
là -1
ho
ặ
c 1 (l
ớ
p âm ho
ặ
c l
ớp dương). Khi đó SVM xác đị
nh m
ộ
t hàm phân tách
tuy
ế
n tính f(x)=<w.x>+b, trong đó w là vectơ trọ
ng s
ố
các thu
ộ
c tính, b là m
ộ
t
giá tr
ị
s
ố
th
ự
c. M
ặ
t siêu ph
ẳ
ng phân tách các ví d
ụ
hu
ấ
n luy
ệ
n l
ớp dương và các
ví d
ụ
hu
ấ
n luy
ệ
n l
ớ
p âm là <w.x>+b=0
đượ
c th
ể
hi
ệ
n
ở
hình 2.3.a.
Hình 2.
2.b. Siêu ph
ẳ
ng t
ố
i ưu và biên
l
ề
tương ứng, các vectơ hỗ
tr
ợ
.
Hình 2.2.a. Các l
ớ
p phân
tách tuy
ế
n tính.
19
Tuy nhiên trên th
ự
c t
ế
có th
ể
tìm đượ
c vô s
ố
nh
ữ
ng m
ặ
t siêu ph
ẳ
ng phân
tách trên cùng m
ộ
t t
ậ
p d
ữ
li
ệ
u thì khi đó ta chọ
n m
ặ
t siêu ph
ẳ
ng phân tách có l
ề
c
ực đạ
i (Hình 2.3.b). Quá trình h
ọ
c SVM nh
ằ
m c
ực đạ
i hóa m
ứ
c l
ề
.
Trong hình 2.6.b, gi
ả
s
ử
r
ằ
ng
t
ậ
p các ví d
ụ
hu
ấ
n luy
ệ
n có th
ể
phân tách
đư
ợ
c m
ộ
t cách tuy
ế
n tính. Xét m
ộ
t ví d
ụ
c
ủ
a l
ớ
p dương (x
+
,1) và m
ộ
t ví d
ụ
c
ủ
a
l
ớ
p âm (x
-
,1) g
ầ
n nh
ấ
t đố
i v
ớ
i siêu ph
ẳ
ng phân tách H
0
(<w.x>+b=0). M
ứ
c l
ề
(margin) là kho
ả
ng cách gi
ữ
a 2 siêu ph
ẳ
ng l
ề
H
+
(<w.x>+b=1) và H
-
(<w.x>+b=-
1) trong đó H
+
đi qua x
+
và song song v
ớ
i H
0
, H
-
đi qua x
-
và song song v
ớ
i H
0
,
d
+
là kho
ả
ng cách gi
ữ
a H
+
và H
0
; d
-
là kho
ả
ng cách gi
ữ
a H
-
và H
0
, thì (d
+
+ d
-
)
chính là l
ề
(margin). Theo lý thuy
ế
t đạ
i s
ố
vectơ, kho
ả
ng cách t
ừ
m
ộ
t điể
m x
i
đế
n m
ặ
t siêu ph
ẳ
ng <w.x>+b=0 là
w .
w
i
x b+
(1)
Trong đó ||w|| là độ
dài c
ủ
a w :
2 2 2
1 2
w w w
n
+ + +
Áp d
ụ
ng bi
ể
u th
ứ
c (1) tính d
+
là kho
ả
ng cách t
ừ
x
+
đế
n <w.x>+b=0 ta có:
w .
1
1
w w w
x b
d
+
+
+
= = =
Tương t
ự
:
w .
1
1
w w w
x b
d
-
-
+
-
= = =
Như vậ
y, tính toán m
ứ
c l
ề
= d
+
+ d
-
=
1 1 2
w w w
+ =
<w.x> + b = 0
y
=1
y =
-
1
H
0
: <w.x> + b
= 0
y
=1
y =-
1
d
+
d
-
x
+
x
-
l
ề
(margin)
H
+
: <w.x> + b
= 1
H
-
: <w.x> + b
= -1
Hình 2.3.a: Siêu ph
ẳ
ng phân tách 2 l
ớ
p
(Liu, 2006)
Hình 2.3.b: Siêu ph
ẳ
ng phân tách
có l
ề
c
ự
c đạ
i
(Liu, 2006)