Tải bản đầy đủ (.pdf) (116 trang)

Bài toán tìm kiếm văn bản sử dụng giải thuật di truyền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.63 MB, 116 trang )


TRこNG AI HぃC KHOA HぃC Tで NHI ÊN
KHOA CÔNG NGH゛ THÔNG TI N
Dく MÔN CÔNG NGH゛ TRI THたC
Châu Hi Duy - 0112005
CÁCH TI蔭P C一N D衛A TRÊN NG頴 LI烏U
CHO KI韻M L姥I CHÍNH T謂 TI蔭NG VI烏T
KHÓA LU一N C盈 NHÂN TIN H窺C
GIÁO VIÊN H姶閏NG D郁N
TS. Ainh Ak隠n
NI ÊN KHÓA 2001 – 2005

N運i c違m 挨n
 & 
A亥u tiên em xin t臼 lòng bi院t 挨n sâu s逸c 8院n th亥y Ainh Ak隠n, ng逢運i 8ã t壱n
tình giúp 8叡, tr詠c ti院p h逢噂ng d磯n và truy隠n 8衣t nhi隠u kinh nghi羽m quý báu 8吋 em
có th吋 th詠c hi羽n và hoàn thành 8隠 tài này.
Em xin chân thành c違m 挨n các th亥y cô thu瓜c khoa Công ngh羽 Thông tin,
tr逢運ng A衣i h丑c Khoa h丑c T詠 nhiên. Các th亥y cô 8ã t壱n tình d衣y d厩, truy隠n 8衣t cho
em nhi隠u ki院n th泳c quý báu trong su嘘t nh英ng n<m A衣i h丑c 8吋 em có 8逢嬰c ngày
hôm nay.
Con xin g荏i l運i c違m 挨n sâu s逸c 8院n ông bà, cha m姻, nh英ng ng逢運i 8ã sinh
thành và nuôi d逢叡ng con thành ng逢運i.
Sau cùng tôi xin g荏i l運i c違m 挨n 8院n các b衣n trong nhóm VCL, 8員c bi羽t là
d衣n V Th映y – ng逢運i 8ã t鰻ng h嬰p và cung c医p ng英 li羽u hu医n luy羽n 8吋 ch逢挨ng
trình có th吋 ho衣t 8瓜ng.
TP. H欝 Chí Minh, tháng 7 n<m 2005
Châu H違i Duy – 0112005

Nh壱n xét c栄a Giáo viên ph違n bi羽n




























Ch英 ký c栄a GVPB

O映c l映c
O荏"8亥u 1

Ch逢挨ng 1. V鰻ng quan 3
1.1. Ki吋m l厩i chính t違 c栄a ti院ng n逢噂c ngoài 4
1.1.1. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu 4
1.1.1.1. Ph逢挨ng pháp T瑛 ng英 c違nh 4
1.1.1.2. Ph逢挨ng pháp A員c tr逢ng lân c壱n 4
1.1.1.3. Ph逢挨ng pháp Danh sách quy院t 8鵜nh 5
1.1.2. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Á 6
1.1.2.1. Mô hình CInsunSpell cho ti院ng Hoa 6
1.1.2.2. Ph逢挨ng pháp c栄a Nagata cho ti院ng Nh壱t 7
1.1.3. Aánh giá chung v隠 các mô hình trên 9
1.2. Ki吋m l厩i chính t違 ti院ng Vi羽t 10
1.2.1. Ch逢挨ng trì nh Vie tSpel l 10
1.2.2. Ki吋m l厩i chính t違 d詠a vào phân tích cú pháp 11
1.2.3. Ki吋m l厩i chính t違 b茨ng mô hình l逢噂i t瑛 12
1.2.4. Word 2003 phiên b違n ti院ng Vi羽t 13
Ch逢挨ng 2. E挨 s荏 lý thuy院t 14
2.1. Chu育n chính t違 15
2.2. O瓜t s嘘 ki院n th泳c c挨 b違n v隠 chính t違 ti院ng Vi羽t 15
2.2.1. Các y院u t嘘 c栄a ti院ng và ch英 vi院t: 15
2.2.1.1. Âm 16
2.2.1.2. Ch英 cái 17
2.2.1.3. Thanh và d医u 17
2.2.1.4. Ti院ng hay âm ti院t 17
2.2.1.5. Hình v鵜 17
2.2.1.6. V瑛 18

2.2.2. Quy cách ghi d医u thanh trên ch英 vi院t 19
2.2.3. M院t qu違"8k隠u tra l厩i chính t違 19
2.2.3.1. X隠 thanh 8k羽u 19
2.2.3.2. X隠 âm 8亥u 20

2.2.3.3. X隠 âm chính 20
2.2.3.4. X隠 âm cu嘘i 20
2.2.4. Nguyên nhân 20
2.2.4.1. X隠 thanh 8k羽u 20
2.2.4.2. X隠 âm 8亥u 21
2.2.4.3. X隠 âm chính 21
2.2.4.4. X隠 âm cu嘘i 21
2.3. A員c 8k吋m chung c栄a m瓜t h羽 ki吋m l厩i chính t違 22
2.3.1. Các ch泳c n<ng chính 22
2.3.2. Các lo衣i l厩i chính t違 22
2.3.3. Nguyên nhân gây ra l厩i chính t違 23
2.3.4. Các sai l亥m c栄a trình ki吋m l厩i 24
2.4. E挨 s荏 tin h丑c 25
2.4.1. Lu壱t Bayes 25
2.4.2. Mô hình N-Gram t鰻ng quát 26
2.4.2.1. 姶噂c l逢嬰ng b茨ng N-Gram 26
2.4.2.2. Hu医n luy羽n N- Gram 28
2.4.2.3 . Làm m鵜n 29
2.4.3. Tách t瑛 30
2.4.3.1. Kh噂p t嘘i 8a 31
2.4.3.2. WFST 32
Ch逢挨ng 3. Mô hình 33
3.1. Mô hình t鰻ng quát 34
3.2. Ti隠n x穎 lý 37

3.2.1. Tách c映m ti院ng 37
3.2.2. Tách ti院ng 37
3.2.3. N丑c “nhi宇u” 38
3.2.3.1. Nh壱n di羽n ti院ng Anh 38
3.2.3.2. Nh壱n di羽n t瑛 vi院t t逸t 38

3.2.3.3. Nh壱n di羽n phiên âm 38
3.3. Ki吋m l厩i non-word 39
3.3.1. Phát hi羽n l厩i 39
3.3.2. U穎a l厩i 39
3.3.2.1. U穎a l厩i phát âm 39
3.3.2. 2. U穎a l厩i nh壱p li羽u 40
3.3.2.3. Các l厩i khác 43
3.4. Ki吋m l厩i real-word 43
3.4.1. Phát hi羽n l厩i b茨ng bigram 44
3.4.1.1. Ý t逢荏ng chính 44
3.4.1.2. M院t h嬰p v噂i trigram 45
3.4.1.3. Làm m鵜n 47
3.4.1.4. Heuristic h衣n ch院 l厩i tích c詠c 47
3.4.2. Phát hi羽n l厩i b茨ng FMM và n-gram 48
3.5. N壱p danh sách 泳ng viên s穎a l厩i 50
3.6. J丑c trong quá trình ki吋m l厩i 51
Ch逢挨ng 4. Cài 8員t th詠c nghi羽m 52
4.1. Cài 8員t 53
4.1.1. Chu育n hoá ti院ng 53
4.1.1.1. Mã hoá các ch英 cái 53
4.1.1.2. Mã hoá ti院ng 53
4.1.1.3. E医u trúc l噂p Tieng 55
4.1.2. Mã hoá t瑛 và n-gram 57

4.1.2.1. Mã hoá t瑛 57
4.1.2.2. Mã hoá n-gram 58
4.1.2.3. E医u trúc l噂p Tu 59
4.1.3. E医u trúc d英 li羽u cho các t瑛"8k吋n và các b瓜 n-gram 59
4.1.4. Phát sinh 泳ng viên 60
4.1.4.1. Phát sinh các ti院ng g亥n gi嘘ng 60

4.1.4.2. Phát sinh các t瑛 g亥n gi嘘ng 61
4.1.5. Ki吋m l厩i chính t違 64
4.1.5. 1. Dò tìm l厩i 64
4.1.5.2. U逸p x院p các 泳ng viên s穎a l厩i 66
4.1.5.3. J丑c trong quá trình ki吋m l厩i 66
4.1.6. Hu医n luy羽n 66
4.1.7. Tích h嬰p vào Word 69
4.1.8. Các x穎 lý khác . 70
4.1.8. 1. D違ng mã ti院ng Vi羽t 70
4.1.8.2. Linh tinh 70
4.1.9. Vài hình 違nh v隠 Ch逢挨ng trình 71
4.2. Th穎 nghi羽m và Aánh giá 73
4.2.1. Các tham s嘘 th穎 nghi羽m 73
4.2.2. M院t qu違 74
4.2.3. Nh壱n xét 79
4.2.4. So sánh v噂i VietSpell 80
4.2.4.1. Kh違 n<ng phát hi羽n l厩i 80
4.2.4.2. Kh違 n<ng 8隠 ngh鵜 s穎a l厩i 80
4.3. Aánh giá và K院t lu壱n 88
4.4. J逢噂ng phát tri吋n 89
Tài li羽u tham kh違o 90
Ph映 l映c 92

Danh sách hình
Hình 1: Dò tìm l厩i b茨ng ma tr壱n ti院ng nh亥m l磯n 8
Hình 2: Mô hình t鰻ng quát 36
Hình 3: Bigram 8逢嬰c m荏 r瓜ng v隠 phía sau 47
Hình 4: Mã ti院ng 54
Hình 5: Mã t瑛 57
Hình 6: Mã n-g ram 58

Hình 7: S挨"8欝 ki吋m l厩i b茨ng FMM và n-gram 65
Hình 8: Quá trình ki吋m l厩i 71
Hình 9: Quá trình ki吋m l厩i hoàn t医t 72
Hình 10: K院t qu違 th穎 nghi羽m v噂i P_bi' = 5.33 75
Hình 11: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.95 76
Hình 12: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.73 77
Hình 13: K院t qu違 th穎 nghi羽m v噂i P_bi' = 4.59 78

Danh sách b違ng
D違ng 1: Các thành ph亥n d宇 nh亥m l磯n khi phát âm 39
D違ng 2: Phím g嘘c và các phím lân c壱n 42
D違ng 3: K院t qu違 th穎 nghi羽m 74
Danh sách thu壱t toán
Thu壱t toán 1: Phát sinh ti院ng 泳ng viên d詠a vào l厩i phát âm 40
Thu壱t toán 2: Phát hi羽n l厩i b茨ng bigram 45
Thu壱t toán 3: K院t h嬰p bigram và trigram 8吋 phát hi羽n l厩i 46
Thu壱t toán 4: Phát hi羽n l厩i b茨ng FMM và n-gram 49
Thu壱t toán 5: Phát sinh t瑛"泳ng viên 62
Thu壱t toán 6: Binary Search c違i ti院n 63
Thu壱t toán 7: Quá trình hu医n luy羽n 67
Thu壱t toán 8: Các b逢噂c t衣o n-gram trong giai 8q衣n hu医n luy羽n 68

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 1 -
O荏"8亥u
A員t v医n 8隠
Là m瓜t ch英 vi院t ghi âm, ch英 vi院t ti院ng Vi羽t cng có r医t nhi隠u quy 8鵜nh v隠
cách k院t h嬰p t瑛ng ký t詠 c栄a b違ng ch英 cái v噂i nhau 8吋 t衣o thành nh英ng t瑛 có ngha,
i丑i là chính t違. Vi羽c dùng 8úng chính t違 r医t quan tr丑ng, nh医t là trong các v<n b違n
hành chính. M瓜t v<n b違n sai chính t違 có th吋 gây khó ch鵜u cho ng逢運i 8丑c, làm

ng逢運i 8丑c không tin t逢荏ng vào trình 8瓜 c栄a chính ng逢運i 8ã t衣o ra v<n b違n 8ó.
Nh逢ng quan tr丑ng h挨n h院t, vi羽c sai chính t違 có th吋 làm ng逢運i ti院p nh壱n hi吋u sai
p瓜i dung c亥n truy隠n 8衣t.
Tr逢噂c 8ây, vi羽c ki吋m l厩i chính t違 ph違i hoàn toàn d詠a vào s泳c ng逢運i. Tuy
nhiên, xã h瓜i càng phát tri吋n, l逢嬰ng thông tin c亥n truy隠n 8衣t ngày càng nhi隠u, vi羽c
ki吋m l厩i chính t違 “th栄 công” r医t m医t th運i gian và công s泳c.
I亥n 8ây, cùng v噂i s詠 phát tri吋n nhanh chóng c栄a công ngh羽 thông tin,
o衣ng l逢噂i hành chánh 8k羽n t穎 ngày càng 8逢嬰c m荏 r瓜ng và m瓜t nhu c亥u m噂i 8ang
8逢嬰c 8員t ra: làm sao 8吋 máy tính có th吋 thay th院 (m瓜t ph亥n hay toàn b瓜) cho con
ng逢運i trong vi羽c ki吋m l厩i chính t違, hay nói cách khác là làm sao 8吋 xây d詠ng m瓜t
ch逢挨ng trình b逸t l厩i chính t違 t詠"8瓜ng.
Ngoài ra, hi羽n nay trong nhi隠u v<n b違n khoa h丑c c栄a ti院ng Vi羽t th逢運ng có
dùng thêm ti院ng Anh 8吋 chú thích cho các thu壱t ng英 ho員c cho các t瑛 không th吋
f鵜ch sát ngha. Do 8ó, m瓜t ch逢挨ng trình ki吋m l厩i chính t違 t瑛"8瓜ng cho các v<n b違n
có c違 ti院ng Vi羽t và ti院ng Anh là r医t c亥n thi院t.
Thêm vào 8ó, vi羽c ki吋m l厩i chính t違 còn có th吋"8逢嬰c dùng trong giai 8q衣n
ti隠n x穎 lý c栄a r医t nhi隠u bài toán khác v隠 x穎 lý ngôn ng英 t詠 nhiên, ví d映 nh逢: phân
lo衣i v<n b違n, tóm t逸t v<n b違n, d鵜ch t詠"8瓜ng, nh壱n d衣ng ch英 vi院t, nh壱n d衣ng gi丑ng
nói, …
Tuy nhiên, trong khi bài toán ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu
8ã 8逢嬰c gi違i quy院t m瓜t cách khá tr丑n v姻n, vi羽c ki吋m l厩i chính t違 cho ti院ng Vi羽t l衣i

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 2 -
i員p nhi隠u khó kh<n. Vì v壱y, cho 8院n nay, m員c dù 8ã có vài công trình v隠"8隠 tài
này nh逢ng h亥u nh逢 ch逢a có công trình nào 8逢嬰c áp d映ng vào th詠c t院.
O映c tiêu c栄a 8隠 tài
Nh逢"8ã nói trên, m瓜t ch逢挨ng trình ki吋m l厩i chính t違 t詠"8瓜ng là r医t c亥n thi院t
trong hoàn c違nh hi羽n nay. Tuy 8ã có m瓜t s嘘 công trình v隠"8隠 tài này nh逢ng h亥u h院t
ch逢a áp d映ng 8逢嬰c vào th詠c t院. T瑛 nh英ng 8k隠u ki羽n trên, tôi 8ã ch丑n ki吋m l厩i

chính t違 làm lu壱n v<n t嘘t nghi羽p c栄a mình.
O映c tiêu sau cùng c栄a 8隠 tài này là m瓜t ch逢挨ng trình ki吋m l厩i chính t違
hoàn ch雨nh, có th吋" 8逢嬰c s穎 d映ng ngay trong th詠c t院. A吋"8衣t 8逢嬰c yêu c亥u này,
ngoài hi羽u qu違 th詠c t院, các mô hình ngôn ng英"8逢嬰c áp d映ng 荏"8ây không nên quá
e亥u k, ph泳c t衣p ho員c 8òi h臼i nhi隠u không gian nh噂.
Tù nh英ng yêu c亥u trên, tôi ch丑n n-gram tixng làm h逢噂ng ti院p c壱n chính.
Mô hình n-gram có m瓜t s嘘"逢u 8k吋m, 8ó là không quá ph泳c t衣p trong x穎 lý, và n院u
8逢嬰c t鰻 ch泳c c医u trúc d英 li羽u t嘘t, l逢嬰ng b瓜 nh噂 chi院m d映ng là ch医p nh壱n 8逢嬰c.
Trong mô hình c栄a 8隠 tài này, n-gram 8逢嬰c dùng làm ph逢挨ng ti羽n 8吋 tính toán các
xác su医t, các m嘘i liên k院t gi英a nh英ng ti院ng trong v<n b違n, dò tìm ra nh英ng vùng b鵜
n厩i, và sau cùng 8逢a ra các 8隠 ngh鵜 s穎a ch英a cho ng逢運i dùng l詠a ch丑n.
D嘘 c映c lu壱n v<n
Lu壱n v<n này g欝m 4 ch逢挨ng v噂i n瓜i dung chính nh逢 sau:
• Ch逢挨ng 1: Trình bày tình hình phát tri吋n c栄a ki吋m l厩i chính t違 trên th院
gi噂i, 8ánh giá m瓜t s嘘 ph逢挨ng pháp 8ã 8逢嬰c công b嘘.
• Ch逢挨ng 2: Các v医n 8隠 lý thuy院t 8逢嬰c dùng 8院n trong lu壱n v<n, g欝m
lý thuy院t ngôn ng英 h丑c và tin h丑c.
• Ch逢挨ng 3: Mô hình và ph逢挨ng pháp 8逢嬰c s穎 d映ng trong lu壱n v<n.
• Ch逢挨ng 4: Tóm t逸t quá trình cài 8員t, cùng v噂i các th穎 nghi羽m và 8ánh
giá v隠 lu壱n v<n cùng h逢噂ng phát tri吋n sau này.
Ngoài ra còn có ph亥n tài li羽u tham kh違o và ph映 l映c.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 3 -
Ch[〔ng 1. V¬ng quan
V瑛 nh英ng n<m 60 c栄a th院 k益 XX, bài toán ki吋m l厩i chính t詠"8瓜ng b茨ng
máy tính 8ã nh壱n 8逢嬰c s詠 quan tâm c栄a các nhà khoa h丑c. Cho 8院n nay, r医t nhi隠u
thu壱t toán, mô hình 8吋 gi違i quy院t bài toán này 8ã 8逢嬰c công b嘘, tuy nhiên h亥u h院t
chúng 8隠u t壱p trung vào các ngôn ng英 bi院n cách c栄a châu Âu nh逢 ti院ng Anh, ti院ng
Pháp,… còn ki吋m l厩i chính t違 cho các ngôn ng英"8挨n l壱p c栄a châu Á nh逢 ti院ng

Hoa, ti院ng Vi羽t,… ch雨 m噂i b逸t 8亥u 8逢嬰c nghiên c泳u g亥n 8ây.
Hi羽n nay, v医n 8隠"8ang 8逢嬰c quan tâm nh医t trong ki吋m l厩i chính t違 là ki吋m
n厩i chính t違 c違m ng英 c違nh. Khác v噂i các ph逢挨ng pháp ki吋m l厩i chính t違 truy隠n
th嘘ng, v嘘n xem xét các t瑛 m瓜t cách 8瓜c l壱p nhau và ch栄 y院u d詠a vào t瑛"8k吋n,
trong ki吋m l厩i chính t違 c違m ng英 c違nh, 8吋 quy院t 8鵜nh m瓜t t瑛 có b鵜 sai chính t違 hay
không, h羽 th嘘ng ph違i xét 8院n các 8員c tr逢ng xung quanh nó nh逢 t瑛 lân c壱n, t瑛 lo衣i,
tr壱t t詠 t瑛,… Do 8ó, ph逢挨ng pháp ki吋m l厩i c違m ng英 c違nh có th吋 phát hi羽n 8逢嬰c
nh英ng l厩i sai v隠 cách dùng t瑛, t泳c là t瑛 v嘘n không b鵜 sai chính t違, nh逢ng trong
hoàn c違nh c栄a câu v<n thì vi羽c dùng nó là không h嬰p lý. Tuy nhiên, 8i cùng v噂i
hi羽u qu違 cao là s詠 khó kh<n trong cách ti院p c壱n.
F詠a vào lo衣i hình ngôn ng英 (bi院n cách hay 8挨n l壱p), các ph逢挨ng pháp
ki吋m l厩i chính t違 có th吋"8逢嬰c chia thành hai “tr逢運ng phái” chính: ki吋m l厩i cho các
ngôn ng英 châu Âu và ki吋m l厩i cho các ngôn ng英 châu Á.
Ph亥n 8亥u c栄a ch逢挨ng này xin gi噂i thi羽u m瓜t vài ph逢挨ng pháp ki吋m l厩i
chính t違"8ã 8逢嬰c công b嘘 và 泳ng d映ng thành công trong th詠c t院 cho các ngôn ng英
p逢噂c ngoài. Ph亥n cu嘘i ch逢挨ng s胤"8k吋m qua các công trình 8ã 8逢嬰c công b嘘 cho
ki吋m l厩i ti院ng Vi羽t, cùng v噂i m瓜t s嘘 nh壱n xét v隠 chúng.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 4 -
1.1. Kiげm lてi chính tl cぶa tiぎng n∫なc ngoài
1.1.1. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu
Nh逢"8ã nói trên, bài toán ki吋m l厩i chính t違 cho các ngôn ng英 châu Âu, nh医t
là ti院ng Anh, 8ã 8逢嬰c tìm hi吋u t瑛 r医t s噂m, v噂i nhi隠u mô hình, ph逢挨ng pháp khác
nhau nh逢 T瑛 ng英 c違nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy
nhiên, ph逢挨ng pháp ki吋m l厩i chính t違 c違m ng英 c違nh nh壱n 8逢嬰c nhi隠u nhà khoa
j丑c quan tâm nh医t do nó có nhi隠u 逢u 8k吋m so v噂i cách ki吋m l厩i ch雨 d詠a vào t瑛
8k吋n.
1.1.1.1. Ph逢挨ng pháp T瑛 ng英 c違nh
1

O瓜t trong nh英ng 8亥u m嘘i 8吋 phân bi羽t m瓜t t瑛 v噂i nh英ng t瑛 nh壱p nh茨ng v噂i
nó là các t瑛 xung quanh nó trong câu. Ví d映, khi 8ang xem xét 8吋 ch丑n l詠a gi英a
dessert và desert, n院u có các t瑛 nh逢 arid, sand, sun,… g亥n 8ó, ta s胤 ch丑n desert,
còn n院u g員p các t瑛 nh逢 chocolate, delicious,… g亥n 8ó, ta s胤 ch丑n dessert. Ph逢挨ng
pháp T瑛 ng英 c違nh 8逢嬰c Golding xây d詠ng d詠a trên nh壱n xét này. Trong giai 8q衣n
j丑c, v噂i m厩i t瑛 th逢運ng b鵜 vi院t sai chính t違, h羽 th嘘ng s胤 ghi nh噂 nh英ng t瑛 th逢運ng
xu医t hi羽n xung quanh nó trong ng英 li羽u. Khi ch衣y th詠c t院, v噂i m厩i t瑛 nghi ng運, h羽
th嘘ng s胤 xem xét các t瑛 lân c壱n v噂i nó, sau 8ó ch丑n ra t瑛 thích h嬰p nh医t 8吋 làm t瑛
thay th院.
1.1.1.2. Ph逢挨ng pháp A員c tr逢ng lân c壱n
2
Ph逢挨ng pháp T瑛 ng英 c違nh r医t t嘘t trong vi羽c phát hi羽n các nguyên t逸c chung
nh医t ph映 thu瓜c vào nh英ng t瑛 lân c壱n, nh逢ng không quan tâm 8院n tr壱t t詠 c栄a
chúng. Trong tr逢運ng h嬰p 8ó, các ph逢挨ng pháp A員c tr逢ng lân c壱n t臼 ra r医t thích
j嬰p 8吋 rút ra các quy lu壱t v隠 tr壱t t詠.
1
Context words
2
Collocations

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 5 -
O瓜t 8員c tr逢ng lân c壱n là m瓜t m磯u các y院u t嘘 v隠 cú pháp xung quanh t瑛
8ang xét. Có hai 8員c tr逢ng th逢運ng 8逢嬰c s穎 d映ng trong ph逢挨ng pháp này, 8ó là
nhãn t瑛 lo衣i và t瑛 lân c壱n.
Ph逢挨ng pháp A員c tr逢ng lân c壱n 8逢嬰c th詠c hi羽n theo cách th泳c t逢挨ng t詠 v噂i
ph逢挨ng pháp T瑛 ng英 c違nh. Ý t逢荏ng chính 荏"8ây là phân bi羽t nh英ng t瑛 d宇 b鵜 dùng
nh亥m l磯n v噂i nhau d詠a vào các 8員c tr逢ng lân c壱n c栄a chúng. M厩i 8員c tr逢ng lân
e壱n cung c医p vài d医u hi羽u v噂i kh違 n<ng quy院t 8鵜nh
3

khác nhau cho nh英ng t瑛 trong
v壱p nh亥m l磯n. Nh英ng d医u hi羽u này 8逢嬰c k院t h嬰p v噂i nhau và tính toán theo m瓜t
lu壱t quy院t 8鵜nh (th逢運ng là Bayes). Sau cùng, t瑛 nào có 8瓜 h嬰p lý cao nh医t s胤"8逢嬰c
ch丑n.
Tuy nhiên, ph逢挨ng pháp A員c tr逢ng lân c壱n cng có nh逢嬰c 8k吋m, 8ó là khi
o瓜t t瑛 có các 8員c tr逢ng mâu thu磯n ho員c hàm ch泳a nhau, g丑i là xung 8じt
4
. A吋
ph逢挨ng pháp này ho衣t 8瓜ng t嘘t, các 8員c tr逢ng xung 8瓜t v噂i nhau c亥n 8逢嬰c phát
hi羽n và lo衣i b臼. Hi羽n nay, ngoài heuristic, v磯n ch逢a có m瓜t ph逢挨ng pháp hoàn
ch雨nh 8吋 gi違i quy院t v医n 8隠 này.
1.1.1.3. Ph逢挨ng pháp Danh sách quy院t 8鵜nh
Danh sách quy院t 8鵜nh là s詠 k院t h嬰p c栄a T瑛 ng英 c違nh và A員c tr逢ng lân c壱n
8吋 t壱n d映ng 逢u 8k吋m c栄a c違 hai ph逢挨ng pháp này: T瑛 ng英 c違nh s胤 rút ra các
nguyên t逸c t嘘t nh医t theo cách 8瓜c l壱p v噂i tr壱t t詠 t瑛, còn A員c tr逢ng lân c壱n 8逢嬰c
dùng 8吋 rút ra các nguyên t逸c ph映 thu瓜c vào tr壱t t詠.
Ph逢挨ng pháp này 8òi h臼i ph違i xây d詠ng m瓜t danh sách r医t l噂n các 8員c
tr逢ng - 荏"8ây là các t瑛 ng英 c違nh và các 8員c tr逢ng lân c壱n. Nh英ng 8員c tr逢ng 8逢嬰c
u逸p x院p theo kh違 n<ng quy院t 8鵜nh gi違m d亥n, trong 8ó kh違 n<ng quy院t 8鵜nh c栄a m厩i
8員c tr逢ng ph違n ánh 8瓜 tin c壱y c栄a nó trong vi羽c ra quy院t 8鵜nh. M瓜t t瑛 nh壱p nh茨ng
u胤"8逢嬰c phân lo衣i b茨ng cách duy羽t qua danh sách và so kh噂p t瑛ng 8員c tr逢ng v噂i
ng英 c違nh. A員c tr逢ng phù h嬰p 8亥u tiên s胤"8逢嬰c dùng 8吋 phân lo衣i t瑛"8ang xét.
3
Strength
4
Conflict

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 6 -
Vì Danh sách quy院t 8鵜nh 8逢a ra l運i gi違i ch雨 d詠a vào m瓜t 8員c tr逢ng m衣nh

nh医t, hi羽u su医t c栄a nó ph亥n l噂n tùy thu瓜c vào cách xác 8鵜nh kh違 n<ng quy院t 8鵜nh
cho nh英ng 8員c tr逢ng. Aây chính là nh逢嬰c 8k吋m c栄a ph逢挨ng pháp này, b荏i vì vi羽c
tìm ra m瓜t công th泳c 8ánh giá t鰻ng quát là r医t khó.
Do 8ó, Danh sách quy院t 8鵜nh có th吋"8逢嬰c c違i ti院n b茨ng cách dùng nhi隠u 8員c
tr逢ng h挨n. Theo 8ó, 8吋 l詠a ch丑n các t瑛 t嘘t nh医t, h羽 th嘘ng s胤 duy羽t qua toàn b瓜
danh sách 8員c tr逢ng, so sánh t瑛ng 8員c tr逢ng v噂i ng英 c違nh, r欝i k院t h嬰p chúng 8吋
8逢a ra l運i gi違i sau cùng. Vi羽c k院t h嬰p các 8員c tr逢ng có th吋"8逢嬰c th詠c hi羽n nh運 vào
o瓜t b瓜 phân lo衣i, ví d映 nh逢 nh逢 Bayes.
1.1.2. Ki吋m l厩i chính t違 cho các ngôn ng英 châu Á
I亥n 8ây, ki吋m l厩i chính t違 cho các ngôn ng英 châu Á 8ã 8逢嬰c quan tâm và
8衣t 8逢嬰c m瓜t s嘘 thành t詠u. Không nh逢 các ngôn ng英 châu Âu, vi羽c ki吋m l厩i chính
v違 cho các ngôn ng英"8挨n l壱p c栄a châu Á g員p nhi隠u khó kh<n. Nguyên nhân ch栄
{院u là do các ngôn ng英 c栄a châu Á nh逢 ti院ng Hoa, ti院ng Nh壱t, ti院ng Hàn,… không
có ranh gi噂i t瑛 rõ ràng. A吋 áp d映ng nh英ng mô hình ki吋m l厩i chính t違 c違m ng英
e違nh c栄a các ngôn ng英 châu Âu, v<n b違n ti院ng châu Á c亥n 8逢嬰c xác 8鵜nh ranh gi噂i
v瑛. Vi羽c xác 8鵜nh ranh gi噂i t瑛 ngay khi v<n b違n 8亥u vào là 8úng chính t違"8ã là
không 8挨n gi違n. V噂i v<n b違n 8亥u vào sai chính t違, bài toán tách t瑛 càng khó kh<n
j挨n.
Do 8ó, các nhà ngôn ng英 h丑c – tin h丑c c栄a châu Á 8ã 8隠 ra m瓜t s嘘 mô hình
o噂i cho ki吋m l厩i chính t違. Ph亥n này s胤"8k吋m qua m瓜t vài mô hình trong s嘘"8ó.
1.1.2.1. Mô hình CInsunSpell cho ti院ng Hoa
Mô hình ki吋m l厩i này có tên là CInsunSpell [JX00] 8逢嬰c 8隠 xu医t b荏i Li
Jianhua và Wang Xiaolong, là s詠 k院t h嬰p gi英a Trigram tixng, ph逢挨ng pháp 逢噂c
n逢嬰ng Bayes và Phân ph嘘i tr丑ng s嘘 t詠"8瓜ng
5
, 8逢嬰c dùng cho s穎a l厩i chính t違 ti院ng
Hoa.
5
Automatic Weight Distribution


Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 7 -
Trigram 8逢嬰c dùng trong b逢噂c ki吋m l厩i. Theo 8ó, m瓜t “c穎a s嘘” trigram
kích th逢噂c 5 8逢嬰c dùng 8吋"8ánh giá m嘘i liên k院t gi英a các ti院ng v噂i nhau. C穎a s鰻
trigram th詠c ra là m瓜t chu厩i con, v噂i ti院ng c亥n xét 荏 trung tâm, và 4 ti院ng lân c壱n
荏 xung quanh (2 ti院ng li隠n tr逢噂c và 2 ti院ng li隠n sau). Ti院ng trung tâm 8逢嬰c xem là
sai chính t違 khi hai liên k院t tr逢噂c và sau nó 8隠u y院u. Liên k院t 8逢嬰c xem là y院u khi
có có giá tr鵜 nh臼 h挨n m瓜t giá tr鵜 ng逢叡ng.
J亥u h院t các mô hình dùng n-gram 8隠u g員p tr荏 ng衣i chính, 8ó là d英 li羽u quá
th逢a th噂t, d磯n 8院n các xác su医t n-gram s胤 r医t th医p (th逢運ng có giá tr鵜 b茨ng 0). A吋
kh逸c ph映c, các tác gi違 c栄a CInsunSpell dùng thêm bigram cùng v噂i làm m鵜n b茨ng
cách m荏 r瓜ng c穎a s鰻 bigram t瑛 3 ti院ng thành 4 ti院ng v隠 phía sau 8吋 nâng cao hi羽u
su医t phát hi羽n l厩i.
D瓜 phân lo衣i Bayes 8逢嬰c dùng trong b逢噂c s穎a l厩i. Ý t逢荏ng chính là tìm
chu厩i thích h嬰p nh医t (có xác su医t cao nh医t) t瑛 chu厩i 8亥u vào 8吋 làm ph逢挨ng án s穎a
n厩i. A吋"8ánh giá s詠 phù h嬰p c栄a chu厩i s穎a l厩i, Bayes 8逢嬰c k院t h嬰p v噂i ph逢挨ng
pháp Phân ph嘘i tr丑ng s嘘 t詠"8瓜ng d詠a trên S嘘 phép bi院n 8鰻i ít nh医t
6
[WF74] 8吋
bi院n chu厩i 8亥u vào thành chu厩i s穎a l厩i.
Theo th穎 nghi羽m c栄a các tác gi違, CInsunSpell có t益 l羽 phát hi羽n l厩i là
kho違ng 60%, t益 l羽 l厩i tích c詠c kho違ng 10%. Hai giá tr鵜 này thay 8鰻i tùy vào các
ng逢叡ng 8逢嬰c dùng trong h羽 th嘘ng.
1.1.2.2. Ph逢挨ng pháp c栄a Nagata cho ti院ng Nh壱t
Ph逢挨ng pháp c栄a Nagata [Na98] 8逢嬰c áp d映ng 8亥u tiên cho các h羽 th嘘ng
nh壱n d衣ng ch英 vi院t (OCR). Tuy nhiên nó v磯n có th吋" 8逢嬰c dùng 8吋 s穎a các l厩i
chính t違 do con ng逢運i gây ra.
Ph逢挨ng pháp c栄a Masaaki g欝m hai giai 8q衣n: Trong giai 8q衣n th泳 nh医t, câu
nh壱p vào 8逢嬰c chia thành nhi隠u chu厩i ti院ng, v噂i 8k隠u ki羽n m厩i chu厩i ti院ng t衣o
thành m瓜t t瑛 có trong t瑛"8k吋n ho員c i亥n gi嘘ng v噂i ít nh医t m瓜t t瑛 nào 8ó trong t瑛

8k吋n. Trong giai 8q衣n th泳 hai, b茨ng các ph逢挨ng pháp th嘘ng kê, n chu厩i t瑛 t嘘t nh医t
6
Minimun edit distance

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 8 -
*8逢嬰c t衣o thành t瑛 nh英ng “t瑛” 8ã có 荏 giai 8q衣n tr逢噂c) 8逢嬰c ch丑n làm 泳ng viên
u穎a l厩i. D逢噂i 8ây là ví d映 minh h丑a cho cách ti院p c壱n này:
Câu 8亥u vào:
Tôi lam vi羽c 荏 h嬰p tát x違 mua bán
Ma tr壱n ti院ng nh亥m l磯n:
lám h丑p tác s違 báng
làm t衣t xã
lãm
l衣m
Hình 1: Dò tìm l厩i b茨ng ma tr壱n ti院ng nh亥m l磯n
A吋 có th吋 chia chu厩i 8亥u vào thành các chu厩i con m瓜t cách h嬰p lý, h羽
th嘘ng dùng hai ph逢挨ng pháp, 8ó là Mô hình ngôn ng英 th嘘ng kê và Thu壱t toán
Forward-DB Backward A* 8吋 tách t瑛.
Ngôn ng英 th嘘ng kê 8逢嬰c dùng 8吋 tính xác su医t k院t h嬰p c栄a chu厩i con và
chu厩i nhãn t瑛 lo衣i. Xác su医t k院t h嬰p này th詠c ra là tích xác su医t xu医t hi羽n c栄a
chu厩i con v噂i xác su医t xu医t hi羽n chu厩i nhãn trong ng英 li羽u hu医n luy羽n. Sau cùng
Thu壱t toán Forward-DB Backward A* [Na94] 8逢嬰c dùng 8吋"8ánh giá các xác su医t
j瓜p
Tôi lam vi羽c 荏 j嬰p tát z違 mua bán
làm vi羽c
j嬰p tác xã
u違

mua báng

v衣t
lám
lãm
n衣m
j丑p tác
j嬰p tác

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 9 -
m院t h嬰p 8ó, sau cùng tìm ra cách k院t h嬰p có xác su医t l噂n nh医t làm l運i gi違i cho bài
toán tách t瑛.
Theo 8ánh giá c栄a tác gi違, ph逢挨ng pháp này giúp c違i thi羽n 8瓜 chính xác c栄a
j羽 OCR t瑛 90% lên 96%, hi羽u su医t tách t瑛 là 93%.
1.1.3. Aánh giá chung v隠 các mô hình trên
Các ph逢挨ng pháp T瑛 ng英 c違nh, A員c tr逢ng lân c壱n và Danh sách quy院t 8鵜nh
8ã 8逢嬰c 泳ng d映ng r医t thành công cho các ngôn ng英 châu Âu nh逢 ti院ng Anh, ti院ng
Pháp, ti院ng Tây Ban Nha,… Tuy nhiên 8吋 áp d映ng các mô hình 8ó cho ti院ng Vi羽t,
x<n b違n 8亥u vào c亥n ph違i 8逢嬰c tách t瑛 b茨ng m瓜t mô hình tách t瑛 m運. Mô hình
tách t瑛 m運 không t嘘t s胤 làm gi違m 8áng k吋 hi羽u su医t chung c栄a toàn h羽 th嘘ng. Cho
8院n nay v磯n ch逢a có m瓜t mô hình tách t瑛 m運 hoàn ch雨nh cho ti院ng Vi羽t. Ngoài ra,
j亥u h院t các ph逢挨ng pháp cho ti院ng Anh 8隠u 8òi h臼i ng英 li羽u 8ã 8逢嬰c gán nhãn t瑛
lo衣i, trong khi 8院n nay v磯n ch逢a có kho ng英 li羽u ti院ng Vi羽t tho違 mãn yêu c亥u này.
Thêm vào 8ó, các ph逢挨ng pháp nh逢 Danh sách quy院t 8鵜nh và Bayes 8òi h臼i h羽
th嘘ng ph違i th詠c hi羽n nhi隠u thao tác x穎 lý khá ph泳c t衣p 8吋 nh壱n ra t瑛 sai chính t違
nên cng khó 8逢嬰c áp d映ng vào th詠c t院. Do 8ó chúng tôi ch雨 xem nh英ng mô hình
e栄a Golding nh逢 là ngu欝n tài li羽u tham kh違o thêm mà không áp d映ng chúng.
X噂i h羽 th嘘ng CInSunSpell cho ki吋m l厩i ti院ng Hoa, các tác gi違"8ã dùng c穎a
u鰻 Bigram và Trigram 荏 m泳c tixng"8吋 dò tìm ti院ng sai chính t違. Aó là cách ti院p c壱n
t医t phù h嬰p cho ti院ng Vi羽t vì không c亥n ph違i tách t瑛. Bên c衣nh 8ó, mô hình này
còn có nh英ng 逢u 8k吋m khác. 姶u 8k吋m 8亥u tiên là tính 8挨n gi違n trong cài 8員t cng

nh逢 trong quá trình x穎 lý. 姶u 8k吋m th泳 hai, cng là 8員c 8k吋m quan tr丑ng nh医t,
CInsunSpell không 8òi h臼i kho ng英 li羽u hu医n luy羽n 8ã 8逢嬰c tách t瑛 hay gán nhãn
v瑛 lo衣i mà ch雨 c亥n m瓜t kho ng英 li羽u 8úng chính t違. V噂i nh英ng 8員c 8k吋m 8ó, vi羽c
áp d映ng CInsunSpell cho ti院ng Vi羽t có nhi隠u kh違 n<ng s胤 thành công trong th詠c t院.
Mô hình s穎a l厩i chính t違 c栄a Masaaki cho ti院ng Nh壱t, v隠 m員t lý thuy院t cng
có th吋 áp d映ng ngay cho ti院ng Vi羽t mà không c亥n s穎a 8鰻i nhi隠u vì Nh壱t-Vi羽t 8隠u
là các ngôn ng英" 8挨n l壱p. Tuy nhiên, cng nh逢 m瓜t s嘘 mô hình dùng cho ti院ng

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 10 -
Anh, mô hình này c亥n có kho ng英 li羽u 8ã 8逢嬰c tách t瑛 và gán nhãn t瑛 lo衣i, 8ó là
8k隠u ch逢a th吋"8áp 泳ng 8逢嬰c. Bên c衣nh 8ó, vi羽c dò tìm ph逢挨ng án s穎a l厩i b茨ng ma
tr壱n ti院ng nh亥m l磯n, khi áp d映ng vào ti院ng Vi羽t, s胤 ph違i 8逢挨ng 8亥u v噂i m瓜t th穎
thách m噂i: bùng n鰻 t鰻 h嬰p, nh医t là trong th詠c t院, các l厩i sai khi nh壱p li羽u r医t 8a
f衣ng nên t壱p nh亥m l磯n khá l噂n. Do 8ó, vi羽c áp d映ng mô hình c栄a Maasaki cho
ti院ng Vi羽t ngay lúc này là r医t khó kh<n.
1.2. Kiげm lてi chính tl tiぎng Viざt
Ki吋m l厩i chính t違 là m瓜t bài toán khó, nh医t là ki吋m l厩i chính t違 cho các
ngôn ng英"8挨n l壱p nh逢 ti院ng Vi羽t, ti院ng Hoa.
Tr逢噂c khi tôi th詠c hi羽n 8隠 tài này, nh英ng ng逢運i 8i tr逢噂c 8ã công b嘘 m瓜t s嘘
công trình nghiên c泳u v隠 ki吋m l厩i chính t違 ti院ng Vi羽t v噂i các h逢噂ng ti院p c壱n khác
nhau. M厩i cách ti院p c壱n có các 逢u-khuy院t 8k吋m khác nhau. Tuy nhiên, ngoài
VietSpell, h亥u h院t chúng 8隠u ch逢a 8逢嬰c áp d映ng thành công trong th詠c t院. Ph亥n
này s胤"8k吋m qua các công trình 8ó, cùng v噂i m瓜t vài nh壱n xét v隠 chúng. Ngoài ra,
trong n<m nay cng có m瓜t s詠 ki羽n 8áng chú ý: Microsoft phát hành trình x穎 lý
x<n b違n MS Word 2003 giao di羽n ti院ng Vi羽t có kèm ch泳c n<ng ki吋m l厩i chính t違
ti院ng Vi羽t.
1.2.1. Ch逢挨ng trình VietSpell
VietSpell c栄a L逢u Hà Xuyên là ch逢挨ng trình ki吋m l厩i chính t違"8ã th逢挨ng
o衣i hoá và 8逢嬰c s穎 d映ng r瓜ng rãi hi羽n nay. Ch逢挨ng trình này có nhi隠u 逢u 8k吋m

nh逢 g丑n nh姻, x穎 lý nhanh, tích h嬰p t嘘t. Nh英ng nh壱n xét, 8ánh giá v隠 ch逢挨ng trình
này 8逢嬰c rút ra t瑛 VietSpell Pro phiên b違n 3.0.
Nhìn chung, VietSpell là m瓜t ch逢挨ng trình t嘘t, b荏i vì ngoài vi羽c ki吋m l厩i
chính t違, nó còn có các ch泳c n<ng h英u ích cho ng逢運i Vi羽t nh逢 chuy吋n mã, b瓜 gõ,
nh英ng ch泳c n<ng 8ó không 8逢嬰c xem xét 荏"8ây. Tuy nhiên, 8吋 dùng nó m瓜t cách
j嬰p pháp, khách hàng ph違i tr違 ti隠n b違n quy隠n. Ak隠u này không ph違i ng逢運i dùng
nào cng 8áp 泳ng 8逢嬰c.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 11 -
Tuy nhiên, v噂i ch泳c n<ng ki吋m l厩i chính t違, VietSpell không h隠 có m瓜t mô
hình ngôn ng英 hoàn ch雨nh, mà ch雨 phát hi羽n l厩i d詠a vào các heuristic, nên v磯n còn
ph衣m m瓜t s嘘 l厩i tích c詠c l磯n tiêu c詠c, Bên c衣nh 8ó, VietSpell v磯n gây ra m瓜t s嘘
xung 8瓜t v噂i MS Word, nh医t là v噂i MS Word các phiên b違n sau này nh逢 Word
2003. Ngoài ra, VietSpell v磯n còn m瓜t s嘘 l厩i v隠 k悦 thu壱t thi院t k院 ch逢挨ng trình nh逢
ch丑n kh嘘i sai, 8ôi khi làm h逢 v<n b違n ngu欝n, 8逢a ra 8隠 ngh鵜 s穎a l厩i m瓜t cách
không h嬰p lý, …
1.2.2. Ki吋m l厩i chính t違 d詠a vào phân tích cú pháp
P<m 1999, trong lu壱n v<n t嘘t nghi羽p 8衣i h丑c, Nguy宇n A泳c H違i và Nguy宇n
Ph衣m H衣nh Nhi [HN99] 8ã 8隠 xu医t mô hình ki吋m l厩i chính t違 ti院ng Vi羽t b茨ng cách
phân tích cú pháp. Aây 8逢嬰c xem là cách ti院p c壱n d詠a trên lu壱t.
Theo mô hình này, câu 8亥u vào s胤"8逢嬰c h羽 th嘘ng ti院n hành phân tích cú
pháp b茨ng thu壱t toán Earley. Nh英ng ch厩 không phân tích 8逢嬰c s胤 b鵜 xem là l厩i
chính t違. Earley là m瓜t thu壱t toán m衣nh cho phân tích cú pháp. Tuy nhiên do có 8瓜
ph泳c t衣p cao: O(n
3
) v噂i n là s嘘 ti院ng trong câu, Earley c亥n 8逢嬰c cài 8員t t嘘t 8吋 t<ng
th運i gian x穎 lý.
A吋 áp d映ng Earley cho ti院ng Vi羽t, câu 8亥u vào c亥n ph違i 8逢嬰c tách t瑛 trong
8k隠u ki羽n nó có th吋 b鵜 sai chính t違. Aó là khó kh<n th泳 nh医t. Ak吋m khó kh<n th泳

hai, là các lu壱t ng英 pháp c栄a ngôn ng英 t詠 nhiên r医t ph泳c t衣p, ti院ng Vi羽t có kho違ng
3000 lu壱t, trong khi ch逢挨ng trình ch雨 t壱p h嬰p 8逢嬰c kho違ng 700 lu壱t. Ak吋m khó
kh<n ti院p theo, ti院ng Vi羽t là ngôn ng英"8挨n l壱p, s嘘 ti院ng l衣i ít, nên vi羽c ph嘘i h嬰p
các ti院ng 8吋 t衣o thành câu “nghe có v飲 h嬰p lý” cng nhi隠u, do 8ó có r医t nhi隠u
tr逢運ng h嬰p câu sai chính t違 nh逢ng v磯n phân tích cú pháp 8逢嬰c. Aây là h衣n ch院
chính c栄a ph逢挨ng pháp này.
Eng v噂i cách ti院p c壱n trên, [TPLT98] 8ã xây d詠ng ch逢挨ng trình ki吋m l厩i
chính t違 VPCTTV. Ch逢挨ng trình này có ph亥n hoàn ch雨nh h挨n [HN99] do có 8院n
140 t瑛 lo衣i, 2000 lu壱n và 8衣t 8瓜 chính xác 95%.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 12 -
Nhìn chung, ki吋m l厩i chính t違 b茨ng phân tích cú pháp r医t có nhi隠u tri吋n
x丑ng. N院u 8逢嬰c nghiên c泳u và phát tri吋n hoàn ch雨nh, kh違 n<ng 泳ng d映ng vào th詠c
v院 s胤 r医t cao.
1.2.3. Ki吋m l厩i chính t違 b茨ng mô hình l逢噂i t瑛
P<m 2004, trong lu壱n v<n t嘘t nghi羽p c栄a mình, Nguy宇n Thái Ng丑c Duy
[Duy04] 8ã trình bày mô hình l逢噂i t瑛 cho ki吋m l厩i chính t違 ti院ng Vi羽t. Mô hình
này ho衣t 8瓜ng d詠a vào vi羽c tách t瑛 m運, sau 8ó 8ánh giá các cách tách t瑛 khác
nhau 8吋 tìm ra cách tách t瑛 có v飲 h嬰p lý nh医t làm câu s穎a l厩i. Trong 8ó, l逢噂i t瑛
th詠c ch医t là m瓜t c医u trúc d英 li羽u 8員c bi羽t, gi嘘ng nh逢 m瓜t 8欝 th鵜 th逢a có h逢噂ng
không chu trình. C医u trúc d英 li羽u này giúp cho vi羽c tách t瑛 m運 và 8ánh giá các
cách tách t瑛"8逢嬰c d宇 dàng và nhanh chóng, b荏i vì có th吋 áp d映ng các thu壱t toán
tìm 8逢運ng 8i trên 8欝 th鵜 v噂i nó.
N逢噂i t瑛 là m瓜t mô hình m衣nh và ch員t ch胤. V隠 lý thuy院t, n院u 8逢嬰c cài 8員t và
hu医n luy羽n hoàn ch雨nh, thì hi羽u su医t c栄a nó s胤 r医t kh違 quan.
Tuy nhiên, mô hình này có m瓜t nh逢嬰c 8k吋m r医t khó kh逸c ph映c, 8ó là v医n 8隠
bùng n鰻 t鰻 h嬰p. B荏i vì, ngay v噂i m瓜t câu 8úng chính t違, vi羽c tách t瑛 cng không
8挨n gi違n, và th逢運ng tìm 8逢嬰c nhi隠u cách tách t瑛 khác nhau. V噂i câu 8亥u vào là sai
chính t違, vi羽c tách t瑛 m運 càng tr荏 nên khó kh<n do v噂i m厩i ti院ng, h羽 th嘘ng ph違i

phát sinh các ti院ng g亥n gi嘘ng v噂i nó, r欝i xem xét các cách ph嘘i h嬰p c栄a nh英ng
ti院ng 8ó v噂i các ti院ng lân c壱n nó trong câu, sau cùng m噂i ch丑n ra cách t嘘t nh医t.
Ak隠u này khi院n cho ch逢挨ng trình ph違i m医t r医t nhi隠u th運i gian và không gian 8吋 x穎
lý, nh医t là v噂i nh英ng câu dài.
Bên c衣nh c医u trúc l逢噂i t瑛, mô hình c栄a Nguy宇n Thái Ng丑c Duy còn dùng
n-gram 8吋"逢噂c l逢嬰ng các giá tr鵜 c亥n thi院t. Tuy nhiên, do ng英 li羽u hu医n luy羽n ch逢a
v嘘t, vi羽c 逢噂c l逢嬰ng này ch逢a 8逢嬰c chính xác. Ngoài ra, cách t鰻 ch泳c d英 li羽u c栄a h羽
th嘘ng có nhi隠u nh逢嬰c 8k吋m, khi院n cho ch逢挨ng trình ph違i t嘘n r医t nhi隠u không gian
nh噂" 8吋 l逢u tr英 các n-gram. Ak隠u này m瓜t l亥n n英a làm gi違m tính th詠c t院 c栄a
ch逢挨ng trình.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 13 -
Nh逢 v壱y, bên c衣nh nh英ng 逢u 8k吋m, mô hình l逢噂i t瑛 v磯n còn nh英ng nh逢嬰c
8k吋m nh医t 8鵜nh. N院u kh逸c ph映c 8逢嬰c nh英ng nh逢嬰c 8k吋m 8ó, l逢噂i t瑛 s胤 tr荏 thành
ph逢挨ng pháp h英u hi羽u 8吋 ki吋m l厩i chính t違.
1.2.4. Word 2003 phiên b違n ti院ng Vi羽t
A亥u n<m 2005, MicroSoft 8ã phát hành ph亥n m隠m MS Word 2003 phiên
d違n ti院ng Vi羽t dành riêng cho th鵜 tr逢運ng Vi羽t Nam. MS Word là ph亥n m隠m x穎 lý
x<n b違n 8逢嬰c dùng ph鰻 bi院n nh医t hi羽n nay 荏 Vi羽t Nam và c違 trên th院 gi噂i.
Trong phiên b違n ti院ng Vi羽t này, MS Word 203 8ã 8逢嬰c tích h嬰p ch泳c n<ng
mà có l胤 nhi隠u ng逢運i Vi羽t Nam 8ang r医t quan tâm: ki吋m l厩i chính t違 cho v<n b違n
ti院ng Vi羽t. Tuy nhiên, không nh逢 mong 8嬰i, ch泳c n<ng này ch雨"8逢嬰c hoàn thành 荏
e医p 8瓜 r医t th医p: ki吋m l厩i chính t違"荏 m泳c ti院ng.
Theo các 8ánh giá c栄a trang tin VnExpress.Net và t衣p chí Th院 Gi噂i Vi Tính
(MS Office cho ng逢運i Vi羽t, tr. 74), ngoài vi羽c phát hi羽n t嘘t các l厩i sai ti院ng nh逢
“khôgn”, “rtào”,… ch泳c n<ng ki吋m l厩i ti院ng Vi羽t c栄a Word còn khá “ngô nghê”,
nhi隠u lúc 8逢a ra các 8隠 ngh鵜 không h嬰p lý do t瑛"8k吋n ch逢a 8亥y 8栄.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t

- 14 -
Ch[〔ng 2. E〔 s≡ lý thuy■t
Tr逢噂c khi b逸t tay vào l詠a ch丑n mô hình và cài 8員t các thu壱t toán, hi吋u rõ
nh英ng v医n 8隠 lý thuy院t 8逢嬰c dùng trong 8隠 tài là 8k隠u r医t c亥n thi院t. Ch逢挨ng này
xin 8逢嬰c trình bày các v医n 8隠 lý thuy院t 8ó, g欝m hai ph亥n chính:
E挨 s荏 lý thuy院t ngôn ng英 h丑c: các khái ni羽m v隠 ti院ng, t瑛, hình v鵜,… c栄a
ti院ng Vi羽t, các quy t逸c chính t違 c挨 b違n, và k院t qu違" 8k隠u tra v隠 các l厩i chính t違
th逢運ng g員p 荏 TP HCM.
E挨 s荏 lý thuy院t tin h丑c: trình bày v隠 h羽 ki吋m l厩i chính t違 t鰻ng quát, mô
hình lý thuy院t 8逢嬰c áp d映ng trong lu壱n v<n: n-gram, cùng v噂i ph逢挨ng pháp 逢噂c
n逢嬰ng Bayes 8吋 tính toán các xác su医t n-gram, và các mô hình tách t瑛.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 15 -
2.1. Churn chính tl
Theo [LTT97] thì chu育n chính t違 bao g欝m chu育n vi院t các âm (ph映 âm,
nguyên âm, bán âm ), và các thanh, chu育n vi院t tên riêng (vi院t hoa ), chu育n vi院t
phiên âm t瑛 và thu壱t ng英 vay m逢嬰n.
Hi羽n nay, chu育n vi院t các âm và các thanh ti院ng Vi羽t 8ã 8逢嬰c xác 8鵜nh theo
j羽 th嘘ng ng英 âm cu違 ch英 vi院t. Chu育n vi院t hoa tuy ch逢a th壱t th嘘ng nh医t, nh逢ng xu
j逢噂ng 8ang 8逢嬰c ch医p nh壱n là vi院t hoa con ch英"8亥u cu違 m厩i âm ti院t thu瓜c t瑛 tên
riêng (Vi羽t Nam, H欝 Xuân H逢挨ng …); n院u tên riêng là c映m t瑛 th吋 hi羽n m瓜t hay
j挨n m瓜t danh t瑛 chung và m瓜t danh t瑛 riêng thì vi院t hoa con ch英"8亥u thu瓜c âm ti院t
8亥u cu違 các danh t瑛 chung, còn danh t瑛 riêng vi院t hoa theo quy 8鵜nh. Chu育n vi院t
phiên âm t瑛 vay m逢嬰n (ti院ng n逢噂c ngoài ) ph泳c t衣p h挨n: 8ang t欝n t衣i 2 cách vi院t
phiên âm, 8ó là phiên âm âm ti院t hoá (có g衣ch n嘘i gi英a các âm ti院t cu違 t瑛 nh逢 Lê-
nin, Pa-ri …) và phiên âm t瑛 hoá (vi院t li隠n âm ti院t, tôn tr丑ng âm và ch英 theo h羽
Latinh nh逢 Paris, Canada, …).
2.2. Mとt sだ kiぎn thへc c∝ bln vぐ chính tl tiぎng Viざt
Ch英 vi院t là h羽 th嘘ng kí hi羽u b茨ng 8逢運ng nét 8員t ra 8吋 ghi ti院ng nói và có

nh英ng quy t逸c, quy 8鵜nh riêng. Mu嘘n vi院t 8úng chính t違 ti院ng Vi羽t, ta ph違i tuân
theo nh英ng quy 8鵜nh, quy t逸c 8ã 8逢嬰c xác l壱p.
Chính t違 là cách vi院t ch英"8逢嬰c xem là chu育n, t泳c vi院t 8úng âm 8亥u, 8úng
x亥n, 8úng d医u (thanh), 8úng quy 8鵜nh v隠 vi院t hoa, vi院t t逸t, vi院t thu壱t ng英.
Tr逢噂c khi nói v隠 các quy cách, ta c亥n xác 8鵜nh m瓜t s嘘 ki院n th泳c v隠 chính t違
ti院ng Vi羽t.
2.2.1. Các y院u t嘘 c栄a ti院ng và ch英 vi院t:
Ti院ng do nhi隠u âm k院t l衣i mà thành. Âm 8逢嬰c chia làm nhi隠u lo衣i nh臼.

Cách ti院p c壱n d詠a trên ng英 li羽u cho ki吋m l厩i chính t違 ti院ng Vi羽t
- 16 -
2.2.1.1. Âm
Khi nói, lu欝ng h挨i phát sinh t瑛 ph鰻i, làm rung các dây thanh 荏 h丑ng, qua
khoang mi羽ng ho員c c違 khoang mi t衣o thành các âm. Âm g欝m có: nguyên âm, ph映
âm, bán âm, âm 8羽m.
Nguyên âm
Nguyên âm 8逢嬰c t衣o do lu欝ng h挨i thoát ra t詠 do, t泳c là không b鵜 c違n 荏 m瓜t
8k吋m nào. Trong chính t違, nguyên âm có th吋 mang d医u. Ch英 Vi羽t có 11 nguyên âm
8挨n là A, ;, Â, E, Ê, I, Y, O, Ô, U, 姶, và 3 nguyên âm 8ôi là IÊ / YÊ / IA / YA ;
姶愛 / 姶A ; UÔ / UA
Nguyên âm 8挨n có 8員c 8k吋m là gi英 nguyên ch英 trong khi vi院t, tr瑛 khi vi院t
Y. Nguyên âm 8ôi không gi英 nguyên nguyên ch英 khi vi院t. Vi院t IÊ, YÊ, 姶愛, UÔ
khi có âm cu嘘i (liên, tuy院t, h逢挨ng, muôn), vi院t IA, YA, 姶A, UA khi không có ph映
âm cu嘘i (hia, khuya, l穎a, mùa).
Phつ âm
Ph映 âm 8逢嬰c t衣o ra do lu欝ng h挨i b鵜 c違n 荏 h丑ng, l逢叡i, r<ng ho員c môi. Trong
chính t違, ph映 âm không mang d医u. Ch英 Vi羽t có 23 ph映 âm: B, C / K / Q, CH, D,
A, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X.
Bán âm
Ti院ng Vi羽t có 2 bán âm cu嘘i. Bán âm cu嘘i th泳 nh医t 8逢嬰c th吋 hi羽n b茨ng 2

ch英 cái i và y (ví d映: l挨i, lây); bán âm cu嘘i th泳 hai 8逢嬰c ghi b茨ng hai ch英 cái o và
u (ví d映: ao, âu).
Âm 8うm
Ti院ng Vi羽t có m瓜t âm 8羽m [u], 8逢嬰c th吋 hi羽n b茨ng hai ch英 cái o và u (ví
f映: hoa hu羽). Âm 8羽m có tác d映ng làm cho v亥n tr荏 nên tròn môi (so sánh: an, ên
x噂i oan, uên).

×