Tải bản đầy đủ (.pdf) (116 trang)

cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.63 MB, 116 trang )

TR

NG

I H C KHOA H C T

NHIÊN

KHOA CÔNG NGH THÔNG TIN
MÔN CÔNG NGH TRI TH C

Châu H i Duy - 0112005

CÁCH TI P C N D A TRÊN NG

LI U

CHO KI M L I CHÍNH T TI NG VI T

KHĨA LU N C

NHÂN TIN H C

GIÁO VIÊN H
TS. inh

NG D N
n

NIÊN KHÓA 2001 – 2005



ic m n
Đ&Ị
u tiên em xin t lịng bi t n sâu s c
tình giúp

, tr c ti p h

ng d n và truy n

có th th c hi n và hoàn thành

n th y

inh

n, ng

i ãt n

t nhi u kinh nghi m quý báu

em

tài này.

Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin,
tr

ng


i h c Khoa h c T nhiên. Các th y cơ ã t n tình d y d , truy n

em nhi u ki n th c quý báu trong su t nh ng n m

ih c

t cho

em có

c ngày

n ơng bà, cha m , nh ng ng

i ã sinh

n các b n trong nhóm VCL,

c bi t là

hôm nay.
Con xin g i l i c m n sâu s c
thành và nuôi d

ng con thành ng

i.

Sau cùng tôi xin g i l i c m n

n V Th y – ng
trình có th ho t

i ã t ng h p và cung c p ng li u hu n luy n

ch

ng

ng.
TP. H Chí Minh, tháng 7 n m 2005
Châu H i Duy – 0112005


Nh n xét c a Giáo viên ph n bi n
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................

.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
.....................................................................................................................
Ch ký c a GVPB


cl c
u ..................................................................................................... 1
Ch

ng 1.

1.1.

ng quan ........................................................................... 3

Ki m l i chính t c a ti ng n

1.1.1.

c ngồi........................................... 4


Ki m l i chính t cho các ngơn ng châu Âu................................... 4

1.1.1.1.

Ph

ng pháp T ng c nh........................................................ 4

1.1.1.2.

Ph

ng pháp

1.1.1.3.

Ph

ng pháp Danh sách quy t

1.1.2.

c tr ng lân c n................................................ 4
nh.......................................... 5

Ki m l i chính t cho các ngơn ng châu Á..................................... 6

1.1.2.1.


Mơ hình CInsunSpell cho ti ng Hoa......................................... 6

1.1.2.2.

Ph

1.1.3.

1.2.

ng pháp c a Nagata cho ti ng Nh t .................................. 7

ánh giá chung v các mơ hình trên ................................................ 9

Ki m l i chính t ti ng Vi t...........................................................10

1.2.1.

Ch

1.2.2.

Ki m l i chính t d a vào phân tích cú pháp ................................. 11

1.2.3.

Ki m l i chính t b ng mơ hình l

1.2.4.


Word 2003 phiên b n ti ng Vi t .................................................... 13

Ch

ng 2.

ng trình VietSpell.................................................................. 10

i t ......................................... 12

s lý thuy t ...................................................................14

2.1.

Chu n chính t ...............................................................................15

2.2.

t s ki n th c c b n v chính t ti ng Vi t ..............................15

2.2.1.

Các y u t c a ti ng và ch vi t: ................................................... 15

2.2.1.1.

Âm ......................................................................................... 16

2.2.1.2.


Ch cái................................................................................... 17

2.2.1.3.

Thanh và d u.......................................................................... 17

2.2.1.4.

Ti ng hay âm ti t.................................................................... 17

2.2.1.5.

Hình v ................................................................................... 17

2.2.1.6.

.......................................................................................... 18


2.2.2.

Quy cách ghi d u thanh trên ch vi t............................................. 19

2.2.3.

t qu

u tra l i chính t ........................................................... 19

2.2.3.1.


thanh

2.2.3.2.

âm

2.2.3.3.

âm chính ........................................................................... 20

2.2.3.4.

âm cu i ............................................................................. 20

2.2.4.

u ......................................................................... 19
u .............................................................................. 20

Nguyên nhân ................................................................................. 20

2.2.4.1.

thanh

2.2.4.2.

âm


2.2.4.3.

âm chính ........................................................................... 21

2.2.4.4.

âm cu i ............................................................................. 21

2.3.

c

u ......................................................................... 20
u .............................................................................. 21

m chung c a m t h ki m l i chính t ...............................22

2.3.1.

Các ch c n ng chính ..................................................................... 22

2.3.2.

Các lo i l i chính t ....................................................................... 22

2.3.3.

Nguyên nhân gây ra l i chính t .................................................... 23

2.3.4.


Các sai l m c a trình ki m l i........................................................ 24

2.4.

s tin h c .................................................................................25

2.4.1.

Lu t Bayes .................................................................................... 25

2.4.2.

Mô hình N-Gram t ng quát ........................................................... 26

2.4.2.1.

cl

ng b ng N-Gram........................................................ 26

2.4.2.2.

Hu n luy n N-Gram ............................................................... 28

2.4.2.3.

Làm m n................................................................................. 29

2.4.3.


Tách t .......................................................................................... 30

2.4.3.1.
2.4.3.2.

Ch

Kh p t i a ............................................................................ 31
WFST..................................................................................... 32

ng 3.

Mơ hình ..............................................................................33

3.1.

Mơ hình t ng qt .........................................................................34

3.2.

Ti n x lý ......................................................................................37


3.2.1.

Tách c m ti ng .............................................................................. 37

3.2.2.


Tách ti ng...................................................................................... 37

3.2.3.

c “nhi u” ................................................................................... 38

3.2.3.1.
3.2.3.2.

Nh n di n t vi t t t ............................................................... 38

3.2.3.3.

3.3.

Nh n di n ti ng Anh .............................................................. 38

Nh n di n phiên âm................................................................ 38

Ki m l i non-word ........................................................................39

3.3.1.

Phát hi n l i .................................................................................. 39

3.3.2.

a l i ........................................................................................... 39

3.3.2.1.

3.3.2.2.

a l i nh p li u..................................................................... 40

3.3.2.3.

3.4.

a l i phát âm ...................................................................... 39

Các l i khác ........................................................................... 43

Ki m l i real-word ........................................................................43

3.4.1.

Phát hi n l i b ng bigram .............................................................. 44

3.4.1.1.

Ýt

ng chính ........................................................................ 44

3.4.1.2.

t h p v i trigram ................................................................ 45

3.4.1.3.


Làm m n................................................................................. 47

3.4.1.4.

Heuristic h n ch l i tích c c ................................................. 47

3.4.2.

Phát hi n l i b ng FMM và n-gram ............................................... 48

3.5.

p danh sách ng viên s a l i......................................................50

3.6.

c trong quá trình ki m l i..........................................................51

Ch

ng 4.

4.1.

Cài

Cài

4.1.1.


t th c nghi m ..........................................................52

t ...........................................................................................53
Chu n hoá ti ng............................................................................. 53

4.1.1.1.

Mã hoá các ch cái................................................................. 53

4.1.1.2.

Mã hoá ti ng .......................................................................... 53

4.1.1.3.

u trúc l p Tieng.................................................................. 55

4.1.2.

Mã hoá t và n-gram ..................................................................... 57


4.1.2.1.

Mã hoá t ............................................................................... 57

4.1.2.2.

Mã hoá n-gram ....................................................................... 58


4.1.2.3.

u trúc l p Tu ...................................................................... 59

4.1.3.
4.1.4.

u trúc d li u cho các t

n và các b n-gram......................... 59

Phát sinh ng viên ......................................................................... 60

4.1.4.1.

Phát sinh các ti ng g n gi ng ................................................. 60

4.1.4.2.

Phát sinh các t g n gi ng ...................................................... 61

4.1.5.

Ki m l i chính t ........................................................................... 64

4.1.5.1.

Dị tìm l i ............................................................................... 64

4.1.5.2.


p x p các ng viên s a l i .................................................. 66

4.1.5.3.

c trong quá trình ki m l i................................................... 66

4.1.6.

Hu n luy n .................................................................................... 66

4.1.7.

Tích h p vào Word........................................................................ 69

4.1.8.

Các x lý khác............................................................................... 70

4.1.8.1.

ng mã ti ng Vi t................................................................. 70

4.1.8.2.

Linh tinh................................................................................. 70

4.1.9.

4.2.


Vài hình nh v Ch

ng trình........................................................ 71

Th nghi m và ánh giá ...............................................................73

4.2.1.

Các tham s th nghi m ................................................................ 73

4.2.2.

t qu .......................................................................................... 74

4.2.3.

Nh n xét........................................................................................ 79

4.2.4.

So sánh v i VietSpell .................................................................... 80

4.2.4.1.

Kh n ng phát hi n l i............................................................ 80

4.2.4.2.

Kh n ng


ngh s a l i ........................................................ 80

4.3.

ánh giá và K t lu n .....................................................................88

4.4.

ng phát tri n............................................................................89

Tài li u tham kh o ...................................................................................90
Ph l c ....................................................................................................92


Danh sách hình
Hình 1: Dị tìm l i b ng ma tr n ti ng nh m l n.................................................... 8
Hình 2: Mơ hình t ng qt .................................................................................. 36
Hình 3: Bigram

c m r ng v phía sau .......................................................... 47

Hình 4: Mã ti ng................................................................................................. 54
Hình 5: Mã t ..................................................................................................... 57
Hình 6: Mã n-gram ............................................................................................. 58
Hình 7: S

ki m l i b ng FMM và n-gram..................................................... 65

Hình 8: Quá trình ki m l i .................................................................................. 71

Hình 9: Quá trình ki m l i hồn t t ..................................................................... 72
Hình 10: K t qu th nghi m v i P_bi' = 5.33 .................................................... 75
Hình 11: K t qu th nghi m v i P_bi' = 4.95 .................................................... 76
Hình 12: K t qu th nghi m v i P_bi' = 4.73 .................................................... 77
Hình 13: K t qu th nghi m v i P_bi' = 4.59 .................................................... 78


Danh sách b ng
ng 1: Các thành ph n d nh m l n khi phát âm ............................................... 39
ng 2: Phím g c và các phím lân c n................................................................ 42
ng 3: K t qu th nghi m................................................................................ 74

Danh sách thu t toán
Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm................................. 40
Thu t toán 2: Phát hi n l i b ng bigram.............................................................. 45
Thu t toán 3: K t h p bigram và trigram

phát hi n l i ................................... 46

Thu t toán 4: Phát hi n l i b ng FMM và n-gram ............................................... 49
Thu t toán 5: Phát sinh t

ng viên..................................................................... 62

Thu t toán 6: Binary Search c i ti n.................................................................... 63
Thu t tốn 7: Q trình hu n luy n ..................................................................... 67
Thu t toán 8: Các b

c t o n-gram trong giai


n hu n luy n........................... 68


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

u
tv n
Là m t ch vi t ghi âm, ch vi t ti ng Vi t c ng có r t nhi u quy
cách k t h p t ng ký t c a b ng ch cái v i nhau

nh v

t o thành nh ng t có ngh a,

i là chính t . Vi c dùng úng chính t r t quan tr ng, nh t là trong các v n b n
hành chính. M t v n b n sai chính t có th gây khó ch u cho ng
ng

i

c khơng tin t

ng vào trình

c a chính ng

Tr

c, làm


i ã t o ra v n b n ó.

Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng
i dung c n truy n

i

i ti p nh n hi u sai

t.

c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng

nhiên, xã h i càng phát tri n, l

ng thông tin c n truy n

i. Tuy

t ngày càng nhi u, vi c

ki m l i chính t “th cơng” r t m t th i gian và công s c.
n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin,
ng l
c

i hành chánh
t ra: làm sao

n t ngày càng


c m r ng và m t nhu c u m i ang

máy tính có th thay th (m t ph n hay toàn b ) cho con

ng

i trong vi c ki m l i chính t , hay nói cách khác là làm sao

ch

ng trình b t l i chính t t

xây d ng m t

ng.

Ngồi ra, hi n nay trong nhi u v n b n khoa h c c a ti ng Vi t th
dùng thêm ti ng Anh

ng có

chú thích cho các thu t ng ho c cho các t không th

ch sát ngh a. Do ó, m t ch

ng trình ki m l i chính t t

ng cho các v n b n


có c ti ng Vi t và ti ng Anh là r t c n thi t.
Thêm vào ó, vi c ki m l i chính t cịn có th

c dùng trong giai

n

ti n x lý c a r t nhi u bài tốn khác v x lý ngơn ng t nhiên, ví d nh : phân
lo i v n b n, tóm t t v n b n, d ch t

ng, nh n d ng ch vi t, nh n d ng gi ng

nói, …
Tuy nhiên, trong khi bài tốn ki m l i chính t cho các ngơn ng châu Âu
ã

c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i

-1-


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

p nhi u khó kh n. Vì v y, cho

n nay, m c dù ã có vài cơng trình v

này nh ng h u nh ch a có cơng trình nào
c tiêu c a
Nh


c áp d ng vào th c t .

tài

ã nói trên, m t ch

ng trình ki m l i chính t t

trong hồn c nh hi n nay. Tuy ã có m t s cơng trình v
ch a áp d ng

tài

c vào th c t . T nh ng

ng là r t c n thi t
tài này nh ng h u h t

u ki n trên, tơi ã ch n ki m l i

chính t làm lu n v n t t nghi p c a mình.
c tiêu sau cùng c a
hồn ch nh, có th

tài này là m t ch

ng trình ki m l i chính t

c s d ng ngay trong th c t .


ngồi hi u qu th c t , các mơ hình ngơn ng

t

c áp d ng

c u c u này,
ây không nên quá

u k , ph c t p ho c ịi h i nhi u khơng gian nh .
Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h
Mơ hình n-gram có m t s

u

m, ó là không quá ph c t p trong x lý, và n u

c t ch c c u trúc d li u t t, l
Trong mơ hình c a

ng ti p c n chính.

ng b nh chi m d ng là ch p nh n

tài này, n-gram

c dùng làm ph

ng ti n


c.

tính tốn các

xác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dị tìm ra nh ng vùng b
i, và sau cùng

a ra các

ngh s a ch a cho ng

i dùng l a ch n.

c c lu n v n
Lu n v n này g m 4 ch
• Ch

ng v i n i dung chính nh sau:

ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th

gi i, ánh giá m t s ph
• Ch

ng 2: Các v n

ng pháp ã

lý thuy t


c công b .

c dùng

n trong lu n v n, g m

lý thuy t ngôn ng h c và tin h c.
• Ch

ng 3: Mơ hình và ph

• Ch

ng 4: Tóm t t q trình cài

giá v lu n v n cùng h

ng pháp

c s d ng trong lu n v n.

t, cùng v i các th nghi m và ánh

ng phát tri n sau này.

Ngồi ra cịn có ph n tài li u tham kh o và ph l c.

-2-



Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Ch

ng 1.

ng quan

nh ng n m 60 c a th k XX, bài tốn ki m l i chính t
máy tính ã nh n

c s quan tâm c a các nhà khoa h c. Cho

thu t tốn, mơ hình
chúng

gi i quy t bài toán này ã

ng b ng

n nay, r t nhi u

c công b , tuy nhiên h u h t

u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ng

Pháp,… cịn ki m l i chính t cho các ngôn ng
Hoa, ti ng Vi t,… ch m i b t
Hi n nay, v n


ang

u

c nghiên c u g n ây.

c quan tâm nh t trong ki m l i chính t là ki m

i chính t c m ng c nh. Khác v i các ph
th ng, v n xem xét các t m t cách

tr t t t ,… Do ó, ph

n các

ng pháp ki m l i chính t truy n

c l p nhau và ch y u d a vào t

trong ki m l i chính t c m ng c nh,
khơng, h th ng ph i xét

n l p c a châu Á nh ti ng

quy t

n,

nh m t t có b sai chính t hay


c tr ng xung quanh nó nh t lân c n, t lo i,

ng pháp ki m l i c m ng c nh có th phát hi n

c

nh ng l i sai v cách dùng t , t c là t v n khơng b sai chính t , nh ng trong
hoàn c nh c a câu v n thì vi c dùng nó là khơng h p lý. Tuy nhiên, i cùng v i
hi u qu cao là s khó kh n trong cách ti p c n.
a vào lo i hình ngơn ng (bi n cách hay
ki m l i chính t có th

c chia thành hai “tr

n l p), các ph

ng pháp

ng phái” chính: ki m l i cho các

ngôn ng châu Âu và ki m l i cho các ngôn ng châu Á.
Ph n
chính t

ã

u c a ch

ng này xin gi i thi u m t vài ph


ng pháp ki m l i

c công b và ng d ng thành công trong th c t cho các ngơn ng

c ngồi. Ph n cu i ch

ng s

m qua các cơng trình ã

ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng.

-3-

c công b cho


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

1.1.

Ki m l i chính t c a ti ng n

c ngồi

1.1.1. Ki m l i chính t cho các ngơn ng châu Âu
Nh ã nói trên, bài tốn ki m l i chính t cho các ngơn ng châu Âu, nh t
là ti ng Anh, ã
nhau nh T

nhiên, ph

c tìm hi u t r t s m, v i nhi u mơ hình, ph

ng pháp khác

ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy

ng pháp ki m l i chính t c m ng c nh nh n

c quan tâm nh t do nó có nhi u u

c nhi u nhà khoa

m so v i cách ki m l i ch d a vào t

n.

1.1.1.1. Ph

ng pháp T ng c nh1

t trong nh ng

um i

phân bi t m t t v i nh ng t nh p nh ng v i

nó là các t xung quanh nó trong câu. Ví d , khi ang xem xét


ch n l a gi a

dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert,
còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert. Ph

ng

pháp T ng c nh

c Golding xây d ng d a trên nh n xét này. Trong giai

n

c, v i m i t th

ng b vi t sai chính t , h th ng s ghi nh nh ng t th

ng

xu t hi n xung quanh nó trong ng li u. Khi ch y th c t , v i m i t nghi ng , h
th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t

làm t

thay th .

1.1.1.2. Ph
Ph

ng pháp


c tr ng lân c n2

ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung

nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm
chúng. Trong tr
p

1
2

ng h p ó, các ph

ng pháp

rút ra các quy lu t v tr t t .

Context words
Collocations

-4-

n tr t t c a

c tr ng lân c n t ra r t thích


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t


t

c tr ng lân c n là m t m u các y u t v cú pháp xung quanh t

ang xét. Có hai

c tr ng th

ng

c s d ng trong ph

ng pháp này, ó là

nhãn t lo i và t lân c n.
Ph
ph

ng pháp

c tr ng lân c n

ng pháp T ng c nh. Ý t

c th c hi n theo cách th c t

ng chính

nh m l n v i nhau d a vào các


ây là phân bi t nh ng t d b dùng

c tr ng lân c n c a chúng. M i

n cung c p vài d u hi u v i kh n ng quy t
p nh m l n. Nh ng d u hi u này
lu t quy t

nh (th

ng t v i

c tr ng lân

nh3 khác nhau cho nh ng t trong

c k t h p v i nhau và tính toán theo m t

ng là Bayes). Sau cùng, t nào có

h p lý cao nh t s

c

ch n.
Tuy nhiên, ph
t t có các
ph

ng pháp


c tr ng lân c n c ng có nh

c

m, ó là khi

c tr ng mâu thu n ho c hàm ch a nhau, g i là xung

ng pháp này ho t

ng t t, các

c tr ng xung

t v i nhau c n

hi n và lo i b . Hi n nay, ngoài heuristic, v n ch a có m t ph
ch nh

gi i quy t v n

Danh sách quy t

ng pháp Danh sách quy t

ng pháp hoàn

nh


nh là s k t h p c a T ng c nh và

m c a c hai ph

nguyên t c t t nh t theo cách
dùng

c tr ng lân c n

ng pháp này: T ng c nh s rút ra các

c l p v i tr t t t , còn

c tr ng lân c n

tr ng -

ng pháp này òi h i ph i xây d ng m t danh sách r t l n các
ây là các t ng c nh và các

p x p theo kh n ng quy t
c tr ng ph n ánh

c tr ng lân c n. Nh ng

nh gi m d n, trong ó kh n ng quy t

tin c y c a nó trong vi c ra quy t

ng c nh.


c tr ng phù h p

u tiên s

c dùng

Strength
Conflict

-5-

c tr ng

c
c

nh c a m i

nh. M t t nh p nh ng

c phân lo i b ng cách duy t qua danh sách và so kh p t ng

4

c

rút ra các nguyên t c ph thu c vào tr t t .
Ph


3

c phát

này.

1.1.1.3. Ph
t n d ng u

t4.

phân lo i t

c tr ng v i
ang xét.


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Vì Danh sách quy t

nh

a ra l i gi i ch d a vào m t

c tr ng m nh

nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác

nh kh n ng quy t


cho nh ng

ng pháp này, b i vì vi c

c tr ng.

ây chính là nh

c

m c a ph

nh

tìm ra m t cơng th c ánh giá t ng quát là r t khó.
Do ó, Danh sách quy t
tr ng h n. Theo ó,
danh sách

nh có th

c c i ti n b ng cách dùng nhi u

c

l a ch n các t t t nh t, h th ng s duy t qua toàn b

c tr ng, so sánh t ng


c tr ng v i ng c nh, r i k t h p chúng

a ra l i gi i sau cùng. Vi c k t h p các

c tr ng có th

c th c hi n nh vào

t b phân lo i, ví d nh nh Bayes.
1.1.2. Ki m l i chính t cho các ngơn ng châu Á
n ây, ki m l i chính t cho các ngôn ng châu Á ã
t

c quan tâm và

c m t s thành t u. Không nh các ngôn ng châu Âu, vi c ki m l i chính

cho các ngôn ng

n l p c a châu Á g p nhi u khó kh n. Nguyên nhân ch

u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… khơng
có ranh gi i t rõ ràng.

áp d ng nh ng mô hình ki m l i chính t c m ng

nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n
. Vi c xác
không


nh ranh gi i t ngay khi v n b n

n gi n. V i v n b n

c xác

nh ranh gi i

u vào là úng chính t

ã là

u vào sai chính t , bài tốn tách t càng khó kh n

n.
Do ó, các nhà ngơn ng h c – tin h c c a châu Á ã
i cho ki m l i chính t . Ph n này s

ra m t s mơ hình

m qua m t vài mơ hình trong s

ó.

1.1.2.1. Mơ hình CInsunSpell cho ti ng Hoa
Mơ hình ki m l i này có tên là CInsunSpell [JX00]

c

Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph

ng Bayes và Phân ph i tr ng s t

ng5,

Hoa.

5

Automatic Weight Distribution

-6-

xu t b i Li
ng pháp

c

c dùng cho s a l i chính t ti ng


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Trigram
kích th

c5

c dùng trong b
c dùng


c ki m l i. Theo ó, m t “c a s ” trigram

ánh giá m i liên k t gi a các ti ng v i nhau. C a s

trigram th c ra là m t chu i con, v i ti ng c n xét
xung quanh (2 ti ng li n tr
sai chính t khi hai liên k t tr

c và 2 ti ng li n sau). Ti ng trung tâm
c và sau nó

có có giá tr nh h n m t giá tr ng

u y u. Liên k t

c xem là

c xem là y u khi

ng.

u h t các mơ hình dùng n-gram
th a th t, d n

trung tâm, và 4 ti ng lân c n

u g p tr ng i chính, ó là d li u q

n các xác su t n-gram s r t th p (th


ng có giá tr b ng 0).

kh c ph c, các tác gi c a CInsunSpell dùng thêm bigram cùng v i làm m n b ng
cách m r ng c a s bigram t 3 ti ng thành 4 ti ng v phía sau

nâng cao hi u

su t phát hi n l i.
phân lo i Bayes

c dùng trong b

c s a l i. Ý t

chu i thích h p nh t (có xác su t cao nh t) t chu i
i.

u vào

ánh giá s phù h p c a chu i s a l i, Bayes

pháp Phân ph i tr ng s t
bi n chu i

ng d a trên S phép bi n

ng chính là tìm

làm ph


ng án s a

c k t h p v i ph

ng

i ít nh t6 [WF74]

u vào thành chu i s a l i.

Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i là
kho ng 60%, t l l i tích c c kho ng 10%. Hai giá tr này thay
ng

ng

c dùng trong h th ng.

1.1.2.2. Ph
Ph

ng pháp c a Nagata cho ti ng Nh t

ng pháp c a Nagata [Na98]

c áp d ng

nh n d ng ch vi t (OCR). Tuy nhiên nó v n có th
chính t do con ng
Ph

nh p vào

ng pháp c a Masaaki g m hai giai

c dùng

n: Trong giai

c chia thành nhi u chu i ti ng, v i

n. Trong giai

u tiên cho các h th ng
s a các l i

i gây ra.

thành m t t có trong t

6

i tùy vào các

n ho c

n th nh t, câu

u ki n m i chu i ti ng t o

n gi ng v i ít nh t m t t nào ó trong t


n th hai, b ng các ph

Minimun edit distance

-7-

ng pháp th ng kê, n chu i t t t nh t


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

c t o thành t nh ng “t ” ã có
a l i. D

giai

n tr

c)

c ch n làm ng viên

i ây là ví d minh h a cho cách ti p c n này:

Câu

u vào:
Tôi


lam

vi c

h p

tát

x

h p

tác

s

t t

mua

bán



Ma tr n ti ng nh m l n:
lám
làm

báng


lãm
l m
Tôi

lam

vi c

p

tát

mua

p

tác

mua

p

t

lãm

p

tác


m

p

tác

lám

làm

vi c

bán





Hình 1: Dị tìm l i b ng ma tr n ti ng nh m l n

có th chia chu i
th ng dùng hai ph

u vào thành các chu i con m t cách h p lý, h

ng pháp, ó là Mơ hình ngơn ng th ng kê và Thu t tốn

Forward-DB Backward A*

tách t .


Ngơn ng th ng kê

c dùng

tính xác su t k t h p c a chu i con và

chu i nhãn t lo i. Xác su t k t h p này th c ra là tích xác su t xu t hi n c a
chu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n. Sau cùng
Thu t toán Forward-DB Backward A* [Na94]

-8-

c dùng

ánh giá các xác su t

báng


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

t h p ó, sau cùng tìm ra cách k t h p có xác su t l n nh t làm l i gi i cho bài
toán tách t .
Theo ánh giá c a tác gi , ph

ng pháp này giúp c i thi n

chính xác c a


OCR t 90% lên 96%, hi u su t tách t là 93%.
1.1.3. ánh giá chung v các mơ hình trên
Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t
ã

nh

c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ng

Pháp, ti ng Tây Ban Nha,… Tuy nhiên
nb n

u vào c n ph i

áp d ng các mơ hình ó cho ti ng Vi t,

c tách t b ng m t mơ hình tách t m . Mơ hình

tách t m khơng t t s làm gi m áng k hi u su t chung c a toàn h th ng. Cho
n nay v n ch a có m t mơ hình tách t m hoàn ch nh cho ti ng Vi t. Ngoài ra,
u h t các ph
lo i, trong khi

ng pháp cho ti ng Anh

u òi h i ng li u ã

c gán nhãn t

n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này.


Thêm vào ó, các ph

ng pháp nh Danh sách quy t

nh và Bayes òi h i h

th ng ph i th c hi n nhi u thao tác x lý khá ph c t p

nh n ra t sai chính t

nên c ng khó

c áp d ng vào th c t . Do ó chúng tơi ch xem nh ng mơ hình

a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng.
i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi
Bigram và Trigram

m c ti ng

ã dùng c a

dị tìm ti ng sai chính t . ó là cách ti p c n

t phù h p cho ti ng Vi t vì khơng c n ph i tách t . Bên c nh ó, mơ hình này
cịn có nh ng u

m khác.


nh trong q trình x lý.

u
u

m

u tiên là tính

m th hai, c ng là

CInsunSpell khơng ịi h i kho ng li u hu n luy n ã

n gi n trong cài
c

t c ng

m quan tr ng nh t,
c tách t hay gán nhãn

lo i mà ch c n m t kho ng li u úng chính t . V i nh ng

c

m ó, vi c

áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành cơng trong th c t .
Mơ hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c ng
có th áp d ng ngay cho ti ng Vi t mà không c n s a

là các ngơn ng

i nhi u vì Nh t-Vi t

u

n l p. Tuy nhiên, c ng nh m t s mơ hình dùng cho ti ng

-9-


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Anh, mơ hình này c n có kho ng li u ã
u ch a th

áp ng

c tách t và gán nhãn t lo i, ó là

c. Bên c nh ó, vi c dị tìm ph

ng án s a l i b ng ma

tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i

ng

u v i m t th


thách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a
ng nên t p nh m l n khá l n. Do ó, vi c áp d ng mơ hình c a Maasaki cho
ti ng Vi t ngay lúc này là r t khó kh n.

1.2.

Ki m l i chính t ti ng Vi t

Ki m l i chính t là m t bài tốn khó, nh t là ki m l i chính t cho các
ngôn ng

n l p nh ti ng Vi t, ti ng Hoa.

Tr

c khi tôi th c hi n

tài này, nh ng ng

i i tr

c ã công b m t s

công trình nghiên c u v ki m l i chính t ti ng Vi t v i các h
nhau. M i cách ti p c n có các
VietSpell, h u h t chúng
này s

u ch a


u-khuy t

ng ti p c n khác

m khác nhau. Tuy nhiên, ngoài

c áp d ng thành công trong th c t . Ph n

m qua các cơng trình ó, cùng v i m t vài nh n xét v chúng. Ngoài ra,

trong n m nay c ng có m t s ki n áng chú ý: Microsoft phát hành trình x lý
n b n MS Word 2003 giao di n ti ng Vi t có kèm ch c n ng ki m l i chính t
ti ng Vi t.
1.2.1. Ch ng trình VietSpell
VietSpell c a L u Hà Xun là ch
i hố và

ng trình ki m l i chính t

c s d ng r ng rãi hi n nay. Ch

ã th

ng

ng trình này có nhi u u

m

nh g n nh , x lý nhanh, tích h p t t. Nh ng nh n xét, ánh giá v ch

này

ng trình

c rút ra t VietSpell Pro phiên b n 3.0.
Nhìn chung, VietSpell là m t ch

ng trình t t, b i vì ngồi vi c ki m l i

chính t , nó cịn có các ch c n ng h u ích cho ng
nh ng ch c n ng ó khơng

c xem xét

ây. Tuy nhiên,

p pháp, khách hàng ph i tr ti n b n quy n.
nào c ng áp ng

c.

- 10 -

i Vi t nh chuy n mã, b gõ,
dùng nó m t cách

u này khơng ph i ng

i dùng



Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Tuy nhiên, v i ch c n ng ki m l i chính t , VietSpell khơng h có m t mơ
hình ngơn ng hồn ch nh, mà ch phát hi n l i d a vào các heuristic, nên v n còn
ph m m t s l i tích c c l n tiêu c c, Bên c nh ó, VietSpell v n gây ra m t s
xung

t v i MS Word, nh t là v i MS Word các phiên b n sau này nh Word

2003. Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch
ch n kh i sai, ôi khi làm h v n b n ngu n,

a ra

ng trình nh

ngh s a l i m t cách

không h p lý, …
1.2.2. Ki m l i chính t d a vào phân tích cú pháp
m 1999, trong lu n v n t t nghi p i h c, Nguy n
c H i và Nguy n
Ph m H nh Nhi [HN99] ã
phân tích cú pháp. ây

xu t mơ hình ki m l i chính t ti ng Vi t b ng cách
c xem là cách ti p c n d a trên lu t.

Theo mơ hình này, câu


u vào s

c h th ng ti n hành phân tích cú

pháp b ng thu t tốn Earley. Nh ng ch khơng phân tích

c s b xem là l i

chính t . Earley là m t thu t toán m nh cho phân tích cú pháp. Tuy nhiên do có
ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n

c cài

tt t

t ng

th i gian x lý.
áp d ng Earley cho ti ng Vi t, câu
u ki n nó có th b sai chính t .

u vào c n ph i

c tách t trong

ó là khó kh n th nh t.

m khó kh n th


hai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng
3000 lu t, trong khi ch

ng trình ch t p h p

kh n ti p theo, ti ng Vi t là ngôn ng
các ti ng
tr

c kho ng 700 lu t.

m khó

n l p, s ti ng l i ít, nên vi c ph i h p

t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u

ng h p câu sai chính t nh ng v n phân tích cú pháp

chính c a ph

c.

ây là h n ch

ng pháp này.

ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch
chính t VPCTTV. Ch
140 t lo i, 2000 lu n và


ng trình ki m l i

ng trình này có ph n hồn ch nh h n [HN99] do có
t

chính xác 95%.

- 11 -

n


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Nhìn chung, ki m l i chính t b ng phân tích cú pháp r t có nhi u tri n
ng. N u

c nghiên c u và phát tri n hoàn ch nh, kh n ng ng d ng vào th c

s r t cao.
1.2.3. Ki m l i chính t b ng mơ hình l i t
m 2004, trong lu n v n t t nghi p c a mình, Nguy n Thái Ng c Duy
[Duy04] ã trình bày mơ hình l
này ho t
nhau

i t cho ki m l i chính t ti ng Vi t. Mơ hình

ng d a vào vi c tách t m , sau ó ánh giá các cách tách t khác

tìm ra cách tách t có v h p lý nh t làm câu s a l i. Trong ó, l

th c ch t là m t c u trúc d li u

c bi t, gi ng nh m t

it

th th a có h

ng

khơng chu trình. C u trúc d li u này giúp cho vi c tách t m và ánh giá các
cách tách t
tìm

c d dàng và nhanh chóng, b i vì có th áp d ng các thu t tốn

ng i trên

th v i nó.

i t là m t mơ hình m nh và ch t ch . V lý thuy t, n u

c cài

t và

hu n luy n hoàn ch nh, thì hi u su t c a nó s r t kh quan.
Tuy nhiên, mơ hình này có m t nh


c

m r t khó kh c ph c, ó là v n

bùng n t h p. B i vì, ngay v i m t câu úng chính t , vi c tách t c ng không
n gi n, và th

ng tìm

c nhi u cách tách t khác nhau. V i câu

u vào là sai

chính t , vi c tách t m càng tr nên khó kh n do v i m i ti ng, h th ng ph i
phát sinh các ti ng g n gi ng v i nó, r i xem xét các cách ph i h p c a nh ng
ti ng ó v i các ti ng lân c n nó trong câu, sau cùng m i ch n ra cách t t nh t.
u này khi n cho ch

ng trình ph i m t r t nhi u th i gian và không gian

x

lý, nh t là v i nh ng câu dài.
Bên c nh c u trúc l
n-gram
t, vi c

cl
cl


ng các giá tr c n thi t. Tuy nhiên, do ng li u hu n luy n ch a
ng này ch a

th ng có nhi u nh
nh
ch

l u tr

i t , mơ hình c a Nguy n Thái Ng c Duy cịn dùng

c

c chính xác. Ngồi ra, cách t ch c d li u c a h

m, khi n cho ch

các n-gram.

ng trình ph i t n r t nhi u khơng gian

u này m t l n n a làm gi m tính th c t c a

ng trình.

- 12 -


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t


Nh v y, bên c nh nh ng u
m nh t
ph

nh. N u kh c ph c

ng pháp h u hi u

m, mơ hình l
c nh ng nh

c

i t v n cịn nh ng nh
m ó, l

c

i t s tr thành

ki m l i chính t .

1.2.4. Word 2003 phiên b n ti ng Vi t
u n m 2005, MicroSoft ã phát hành ph n m m MS Word 2003 phiên
n ti ng Vi t dành riêng cho th tr
nb n

ng Vi t Nam. MS Word là ph n m m x lý


c dùng ph bi n nh t hi n nay

Vi t Nam và c trên th gi i.

Trong phiên b n ti ng Vi t này, MS Word 203 ã
mà có l nhi u ng

i Vi t Nam ang r t quan tâm: ki m l i chính t cho v n b n

ti ng Vi t. Tuy nhiên, khơng nh mong
p

c tích h p ch c n ng

r t th p: ki m l i chính t

i, ch c n ng này ch

c hoàn thành

m c ti ng.

Theo các ánh giá c a trang tin VnExpress.Net và t p chí Th Gi i Vi Tính
(MS Office cho ng

i Vi t, tr. 74), ngoài vi c phát hi n t t các l i sai ti ng nh

“khôgn”, “rtào”,… ch c n ng ki m l i ti ng Vi t c a Word cịn khá “ngơ nghê”,
nhi u lúc


a ra các

ngh không h p lý do t

- 13 -

n ch a

y

.


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

Ch

ng 2.
Tr

c khi b t tay vào l a ch n mơ hình và cài

nh ng v n
xin

s lý thuy t

lý thuy t

c trình bày các v n


c dùng trong

tài là

t các thu t toán, hi u rõ

u r t c n thi t. Ch

ng này

lý thuy t ó, g m hai ph n chính:

s lý thuy t ngơn ng h c: các khái ni m v ti ng, t , hình v ,… c a
ti ng Vi t, các quy t c chính t c b n, và k t qu
th

ng g p

u tra v các l i chính t

TP HCM.

s lý thuy t tin h c: trình bày v h ki m l i chính t t ng qt, mơ
hình lý thuy t
ng Bayes

c áp d ng trong lu n v n: n-gram, cùng v i ph
tính tốn các xác su t n-gram, và các mơ hình tách t .


- 14 -

ng pháp

c


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.1.

Chu n chính t

Theo [LTT97] thì chu n chính t bao g m chu n vi t các âm (ph âm,
nguyên âm, bán âm ), và các thanh, chu n vi t tên riêng (vi t hoa ), chu n vi t
phiên âm t và thu t ng vay m

n.

Hi n nay, chu n vi t các âm và các thanh ti ng Vi t ã

c xác

nh theo

th ng ng âm cu ch vi t. Chu n vi t hoa tuy ch a th t th ng nh t, nh ng xu
ng ang

c ch p nh n là vi t hoa con ch


riêng (Vi t Nam, H Xuân H

u cu m i âm ti t thu c t tên

ng …); n u tên riêng là c m t th hi n m t hay

n m t danh t chung và m t danh t riêng thì vi t hoa con ch

u thu c âm ti t

u cu các danh t chung, còn danh t riêng vi t hoa theo quy

nh. Chu n vi t

phiên âm t vay m

n (ti ng n

c ngoài ) ph c t p h n: ang t n t i 2 cách vi t

phiên âm, ó là phiên âm âm ti t hoá (có g ch n i gi a các âm ti t cu t nh Lênin, Pa-ri …) và phiên âm t hoá (vi t li n âm ti t, tôn tr ng âm và ch theo h
Latinh nh Paris, Canada, …).

2.2.

M t s ki n th c c b n v chính t ti ng Vi t

Ch vi t là h th ng kí hi u b ng
nh ng quy t c, quy
theo nh ng quy


t ra

ghi ti ng nói và có

nh riêng. Mu n vi t úng chính t ti ng Vi t, ta ph i tuân

nh, quy t c ã

Chính t là cách vi t ch
n, úng d u (thanh), úng quy
Tr

ng nét

c xác l p.
c xem là chu n, t c vi t úng âm

u, úng

nh v vi t hoa, vi t t t, vi t thu t ng .

c khi nói v các quy cách, ta c n xác

nh m t s ki n th c v chính t

ti ng Vi t.
2.2.1. Các y u t c a ti ng và ch vi t:
Ti ng do nhi u âm k t l i mà thành. Âm
c chia làm nhi u lo i nh .


- 15 -


Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t

2.2.1.1. Âm
Khi nói, lu ng h i phát sinh t ph i, làm rung các dây thanh

h ng, qua

khoang mi ng ho c c khoang m i t o thành các âm. Âm g m có: nguyên âm, ph
âm, bán âm, âm

m.

Nguyên âm
Nguyên âm
c t o do lu ng h i thốt ra t do, t c là khơng b c n

m t

m nào. Trong chính t , nguyên âm có th mang d u. Ch Vi t có 11 nguyên âm
n là A,
/

, Â, E, Ê, I, Y, O, Ơ, U,

, và 3 ngun âm ơi là IÊ / YÊ / IA / YA ;


A ; UÔ / UA
Nguyên âm

n có

c

m là gi nguyên ch trong khi vi t, tr khi vi t

Y. Nguyên âm ôi không gi nguyên nguyên ch khi vi t. Vi t IÊ, YÊ,
khi có âm cu i (liên, tuy t, h

ng, mn), vi t IA, YA,

,

A, UA khi khơng có ph

âm cu i (hia, khuya, l a, mùa).
Ph âm
Ph âm
c t o ra do lu ng h i b c n

h ng, l

i, r ng ho c mơi. Trong

chính t , ph âm khơng mang d u. Ch Vi t có 23 ph âm: B, C / K / Q, CH, D,
, G /GH , GI, H, KH, L, M, N, NH, NG / NGH, P, PH, R, S, T, TH, TR, V, X.
Bán âm

Ti ng Vi t có 2 bán âm cu i. Bán âm cu i th nh t
ch cái i và y (ví d : l i, lây); bán âm cu i th hai

c th hi n b ng 2

c ghi b ng hai ch cái o và

u (ví d : ao, âu).
Âm m
Ti ng Vi t có m t âm
: hoa hu ). Âm

m [u],

c th hi n b ng hai ch cái o và u (ví

m có tác d ng làm cho v n tr nên tròn môi (so sánh: an, ên

i oan, uên).

- 16 -


×