Tải bản đầy đủ (.pdf) (51 trang)

Kiểm lỗi chính tả cảm ngữ cảnh tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (16.76 MB, 51 trang )

i
0 0 4
;\'Â T •
^ ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHÊ
N G U Y ỄN PHƯƠNG T H Á I
K I Ể M L Ỗ I C H Í N H T Ả C Ả M N G Ữ C Ả N H
T I Ế N G V I Ệ T
L U Ậ N V Ă N T H Ạ C S Ỹ
C H U Y Ê N N G À N H :
TIN H Ọ C
M Ã N G À N H :
010110
N G ƯỜI H ƯỚ NG DẪN: PGS. N G U YỄN Q U Ố C T O ẢN
ĐẠi Mí.: : CÍ-:( HÁ NỎI
TRUNGTÂM
■Áìi
T iiơ V IỀ N
L
N o V : J
- O U A ( ?
t
HÀ NỘI - 2003
M ụ c l ụ c
1. B à i to á n k iể m lỗ i c h ín h t ả 5
2. G iớ i th iệ u c á c p h ư ơ n g p h á p k iể m lỗ i c h ín h tả 5
3. T iế p c ậ n c ủ a c h ú n g t ô i 7
4 . M ộ t s ố p h ư ơ n g p h á p h ọ c m á y th ố n g k ê tro n g N L P .
8
4 .1 H à m p h â n lo ạ i B a ye s " n g â y th ơ " 9
4 .2 D a n h sá ch q u y ế t đ ị n h 9


4 .3 N ộ i s u y 10
C h ư ơ n g 2 : M ộ t s ố đ ặ c đ i ể m 11
1. Đ ặ c đ iể m tiế n g V i ệ t 11
2. C á c đ ơ n v ị c ủ a tiế n g V iệ t 11
2.1 T iế n g 11
2 .2 T ừ
.7.

12
2 .3 C â u . . .

12
3 . M ộ t số đ ố i tư ợ n g n g ô n n g ữ m à lu ậ n vã n sẽ k h a i th á c 12
3.1 T iế n g 13
3 .2 T ừ v à từ l o ạ i 13
C h ư ơ n g 3 : C O R P U S 14
1. C á c y ê u c ầ u c h ín h c h o c ô n g v iệ c S N L P

14
2 . X ử lý v ă n b ả n 15
3. Đ á n h d ấ u d ữ l iệ u 19
4 . T ạ o c o rp u s th ô từ In te rn e t
19
C h ư ơ n g 4 : K iể m l ỗ i c h ín h tả d ự a v à o từ đ i ể n

2 2
1. T ậ p n h ầ m lẫ n â m t i ế t 2 2
1.1 N h ầ m lẫ n d o đ á n h m á y s a i 2 2
1.2 N h ầ m lẫ n d o p h á t â m 2 4
1.3 N h ầ m lẫ n c ủ a c á c hệ n h ậ n dạ n g c h ữ

2 6
2. K iể m lỗ i c h ín h tả d ự a v à o từ đ iể n

2 6
2 .1 T h u ậ t to á n 27
2 .2 Đ á n h g iá 2 7
C h ư ơ n g 5 : K iể m lỗ i c h ín h tả sử d ụ n g d a n h s á c h q u y ế t đ ị n h

2 9
1. G iớ i t h iệ u

.
2 9
2 . C á c th u ộ c t í n h 2 9
2 .1 T ừ g h é p 3 0
2 .2 C o llo c a tio n 3 0
Chương 1: Giới thiệu
5
3
2 .3 T ừ n g ữ c ả n h
2 .4 H u ấn lu y ệ n
3. T h u ậ t to á n k iể m l ỗ i
3.1 T h u ậ t to á n k iể m l ỗ i

3 .2 Đ á n h g iá đ ộ p hứ c tạ p
4. Đ á n h g iá
4.1 B ộ te s t
4 .2 Đ ộ đ o
4 .3 K ế t qu ả v à th ả o lu ậ n
C h ư ơ n g 6 : K iể m lỗ i c h ín h tả s ử d ụ n g h à m p h â n lớ p

B a y e s 4 2
1. G iớ i t h iệ u
2. T h u ậ t to á n
3. Đ á n h g iá v à th ả o lu ậ n
K ế t lu ậ n 4 5
T à i liệ u th a m k h ả o 4 6
P h ụ lụ c 4 9
31
3 2
33
33
34
35
3 6
38
38
,42
.42
.44
4
C H Ư Ơ N G 1 : G I Ớ I T H I Ệ U
Đ â y là chư ơ n g n h ậ p đ ề c ủ a lu ậ n vã n. C h ư ơ n g n à y g iớ i th iệ u về b à i to á n k iể m lỗ i
c h ín h tả , c á c p h ư ơ n s p h á p k iể m lỗ i c h ín h tả , v à m ộ t s ố k ỹ th u ậ t h ọ c m á y sẽ đư ợ c
sử d ụ n g tro n g c á c c h ư ơ n g sau.
1 . B à i t o á n k i ể m l ỗ i c h í n h t ả
B à i to á n k iể m lỗ i c h ín h tả k h ô n g tầ m th ư ờ n g và c ó tín h ứ ng d ụ n g ca o . C á c c h ư ơ n g
trìn h so ạ n th ả o v à x ử lý v ă n b ả n rấ t cầ n tín h n ă n g s o át lỗ i c h ín h tả tự đ ộ n g đ ể g iú p
n g ư ờ i sử d ụ n g g iả m th ờ i g ia n v à c ô n g sứ c b ỏ ra. C á c c h ư ơ n g tr ìn h n h ậ n d ạ n g v ă n
b ả n c ũ n g cầ n tín h n ă n g n à y đ ể nâ n g c a o c h ấ t lư ợ n g n h ậ n d ạ n g .
M ộ t c h ư o n g trìn h k iể m lỗ i c h ín h tả c ó h a i c h ứ c n ă n g là s o át lỗ i và g ợ i ý . C hứ c

n ă n g soát lỗ i sẽ c h ỉ ra cá c âm tiế t sa i, c ò n ch ứ c n ă n g g ợ i ý th ì đư a ra d a n h sá c h ứ n g
c ử v iê n â m tiế t đ ú n g vớ i m ỗ i â m tiế t sa i đư ợc tìm ra .
M ộ t s ố ch ư ơ ng trìn h k iể m lỗ i c h ín h tả tiế n g V iệ t th ô n g d ụ n g là :
V ie tR e s : Đ â y là b ộ g õ tiế n g V iệ t c ó ch ứ c n ă n g k iể m lỗ i c h ín h tả â m tiế t, c h ạ y
trê n hệ đ iề u h à n h D O S n ê n h iệ n g iờ k h ô n g c ò n đư ợ c sử d ụ n g p h ổ b iế n .
- V ie tS p e ll 2 0 0 0 : C h ư ơ n g tr ìn h k iể m lỗ i c h ín h tả tiế n g V iệ t m ứ c từ v ự n g (d ĩ
n h iê n là c ả â m tiế t) .
2 . G i ó i t h i ệ u c á c p h ư ơ n g p h á p k i ể m l ỗ i c h í n h t ả
T a c ó th ế c h ia cá c p h ư ơ ng p h á p k iể m lỗ i c h ín h tả th à n h h a i lo ạ i là p h ư ơ n s p h á p
dự a trê n lu ậ t v à p h ư ơ n ẹ p h á p th ố n g k ê . T ro n g k h o ả n g hơ n m ư ờ i n ă m v ừ a q ua ,
n h iề u p hư ơ n e p h á p k iể m lỗ i c h ín h tả tiế n g A n h b ằ n g th ố n g k ê đ ã đ ư ợ c đ ề x u ấ t.
N h ữ n g p h ư ơ ng p h á p n à y x e m x é t v ấ n đ ề k iể m lỗ i c h ín h tả h o ặ c trự c tiế p , h o ặ c g iá n
tiế p b ằ n g c á ch q u i n ó v ề b à i to á n x ử lý n h ậ p n h ằ n g từ v ự n e .
5
M ộ t số n g h iê n cứ u sử d ụ n g m ô h ìn h k ê n h n h iễ u n h ư M a y s v à c ộ n g sự (1 9 9 0 ),
C h u rc h v à G a le (1 9 9 1 ), B r ill và M o o re ( 2 0 0 1 ). M ô h ìn h k ê n h n h iễ u rấ t tổ n g q u á t
và c ó k h ả n ã n g á p d ụ n g c h o n h iề u vấ n đề k h á c n h a u , v ề trự c g iá c , k ê n h n h iễ u là
m ộ t k ê n h tr u y ề n th ô n g m à th ô n g tin tr u y ề n q u a c ó th ể b ị n h iễ u v à k h ó n h ậ n d ạn g
đượ c th ô n g tin đ ú n g . G iả sử o là từ ta n h ận đư ợ c ở c u ố i k ê n h , ta cầ n đ o á n từ đã
đượ c tru y ề n đ i. G iả sử V là từ v ự n g c ủ a n g ô n ng ữ , k h i đ ó :
A
w
= arg m ax
P(w
I
o )
W€ V
th e o c ô n g th ứ c B aye s :
P(0)
th ê m và o đ ó , v ì P (O ) là n h ư n h a u vớ i m ọ i w th u ộ c V n ê n :

A
w = a rg m ax
P(0
1
W€V
M a y s ( 1 9 9 0 ) tín h P (O lw ) sử d ụ n g th u ậ t to án M in im u m - e d it- d is ta n c e (ta sẽ n g h iê n
cứ u ở ch ư ơ n g s a u ), c ò n P (w ) đ ư ợ c ước lư ợ n g b ằ n g m ô h ìn h n g ô n n g ữ tr ig ra m từ
(word tri gram).
Y a ro w s k y (1 9 9 4 ) á p d ụ n g d a n h sách q u y ế t đ ịn h đ ể n h ậ n d ạ n g từ đ ú n g . Ư u đ iể m
c ủ a ph ư ơ n g p h á p n à y so v ớ i p hư ơ n g p h á p trê n là k h ả n ă n g sử d ụ n g n h iề u lo ạ i tri
th ứ c n e ô n n gữ , k h ô n e c h ỉ là trig ra m . Đ iể m đặ c b iệ t là n ó ra q u y ế t đ ịn h c h ỉ dự a trê n
m ộ t d ấ u h iệ u tin c ậ y n h ấ t.
G o ld in s (1 9 9 5 ) đề x u ấ t p h ư ơ n g p h á p la i B a ye s , sử d ụ n g h à m p h â n lo ạ i B a ye s
"n g â y th ơ ". P h ư ơ n g p h á p n à v c ũ n e c ó k h ả n ă n s sử d ụ n s n h iề u lo ạ i tr i th ứ c n g ô n
n g ữ nh ư d a n h s á ch q u y ế t đ ịn h n h ư n c n ó ra q u y ế t đ ịn h d ự a tr ê n k ế t h ợ p n h iề u d ấ u
h iệ u .
G o ld in g v à S ch a b e s (1 9 9 6 ) k ế t h ợ p m ô h ìn h trig r a m từ lo ạ i v à h à m ph â n lo ạ i
B a ye s. T rư ớ c tiê n , m ô h ìn h tr is r a m x á c đ ịn h từ lo ạ i đ ú n s tạ i v ị t r í đ a n c x é t d ự a v à o
n g ữ c ả n h , n ế u c ò n n h ậ p n h ằ n g th ì ph ư ơ ng p h á p la i B ave s sẽ x ử lý tiế p .
G ầ n đ á y h ơ n , c ó cá c p h ư ơ ng p h á p : h ọ c dự a trê n b iế n đ ổ i ( M a n g u v à B r ill, 1 9 9 7 ),
p hâ n tíc h n g h ĩa ẩn (J o ne s và M a rtin , 1 9 9 7 ), d iffe r e n tia l-g r a m m a r s (P o w e rs , 1 9 9 7 ),
W in n o w -b a s e d (G o ld in g v à R o th , 1 9 99 ), v à k h ô i p h ụ c c ố k ế t từ v ự n e ( H ir s t và
B u d a n its k y , 2 0 0 1 ).
6
C ác p h ư ơ n g p h á p k iể m lỗ i c h ín h tả tiế n g V iệ t dự a trê n lu ậ t đư ợ c n g h iê n cứ u k h á
n h iề u , ở m ứ c â m tiế t, p h ư ơ n g p h á p sử d ụ n g lu ậ t c ấ u tạ o â m tiế t k ế t h ợ p vớ i từ đ iể n
á m tiế t c h o k ế t q u ả tố t n h ấ t (P h ạ m H ồ n g N g u y ê n , 1 9 9 8 ). Â m tiế t vào sẽ đư ợ c ph â n
lo ạ i b ằ n g c á c h p h â n tíc h c ấ u tạ o v à tra từ đ iể n , c á c lo ạ i có th ể c ó là :
sai cấu tạo
,

đúng cảu tạo nhưng không có trong từ điển
,
có trong từ điển, sai cấu tạo nhưng có
thể là lừ tiếng nước ngoài.
Ví du:
Sai cấu tạo: tet
Đ ú n g cấu tạ o nhưng k h ôn g có tro n g từ đ iể n : hư ờn
C ó tro ng từ đ iể n : v ịt
Sai cấu tạo như n g có thể là từ tiế n g nước n goà i: fo re ig n
M ứ c k iể m lỗ i n à y k h ô n g b ắ t đ ư ợ c c á c lỗ i từ s a i n h ư n g â m tiế t đ ú n g v ì k h ô n g sử
d ụ n g th ô n g tin n g ữ c ả n h .
ở m ứ c từ vự n g , c á c lỗ i sai từ s h é p c ó th ể đư ợ c b ắ t dự a v à o từ đ iể n tiế n g V iệ t (L ư u
H à X u y ê n , 2 0 0 0 ). P h ư ơ n g p h á p n à y c ó ư u đ iể m là đ ơ n g iả n và b ắ t k h á tố t cá c lỗ i
từ g h é p ở m ứ c đ ộ k iể m tra n h ỏ (n h ỏ h ơ n 3 th e o V ie ts p e ll 2 0 0 0 ). N h ư ợ c đ iể m là
k h ô n g b ắ t đư ợ c lỗ i từ đ ơ n v à h a y b á o lỗ i s a i ở m ứ c đ ộ k iể m tra lớ n (th e o V ie ts p e ll
2 0 0 0 ) v ì q u á ưu tiê n từ g h é p .
C ó m ộ t s ố n g h iê n cứ u ứ n g d ụ n g p h â n tíc h c ú p h á p tr o n s k iể m lỗ i c h ín h tả. C ác
th u ậ t to án E a rle y v à C Y K đ ã đư ợc d ù n g để p h â n tíc h c ú p h á p tiế n g V iệ t p h ụ c v ụ
c h o k iể m lỗ i c h ín h tả ( N s u y ễ n C ô n g T ú , 1 9 9 8 ) ( L ê T h a n h H ư ơ n g , 1 9 9 9 ), n hư ng
k ế t q u ả th ự c n ơ h iệ m đ ã k h ô n g c h ỉ rõ đ ư ợ c h iệ u q u ả c ủ a p h ư ơ n g p h á p n à y . C h o đến
n a y chư a c ó n g h iê n cứ u n à o ứ n g d ụ n g p h â n tíc h ng ữ n g h ĩa và n g ữ d ụ n g c h o k iể m
lỗ i c h ín h tả tiế n g V iệ t.
3 . T iế p c ậ n c ủ a c h ú n g t ỏ i
M ộ t n h ư ợ c đ iể m c h u n g c ủ a c á c ch ư ơ n g trìn h k iể m lỗ i c h ín h tả tiế n g V iệ t h iệ n na y
là k h ô n g c ó k h ả n ã n g h ọ c ( v ì sử d ụ n g ph ư ơ n g p h á p d ự a tr ê n lu ậ t), th ê m v à o đ ó c á c
lo ạ i tr i thứ c n e ô n n g ữ đư ợ c k h a i th á c là rấ t h ạ n ch ế .
7
L u ậ n v ă n n à y lự a c h ọ n h a i p h ư ơ n g p h á p c ủ a Y a ro w s k y (1 9 9 4 ) v à G o ỉd in g ( 1 9 9 5 ,
1 9 96 ) đ ể á p d ụ n g c h o tiế n g V iệ t. N h ữ n g p h ư ơ n g p h á p n à y th u ộ c tiế p c ậ n dự a trê n
th u ộ c tín h

(feature-based method).
Ư u đ iể m n ổ i b ậ t c ủ a n ó là k h a i th á c n h iề u lo ạ i
tr i th ứ c n g ô n n g ữ và c h ỉ y ê u c ầ u c o rp u s c h o h u ấ n lu y ệ n . Q u á tr ìn h h u ấ n lu y ệ n sẽ
rú t ra (
extract
) n h ữ n g tr i th ứ c cầ n th iế t c h o v iệ c k iể m lỗ i. H ơ n nữ a, k h ả n ă ng h ọ c
là m c h o ch ư ơ rm trìn h c ó th ể th íc h n g h i v ớ i sự th a y đ ổ i k h ô n s n g ừ n g c ủ a n g ô n ng ữ
v ớ i ít đ ò i h ỏ i v ề sứ c n gư ờ i.
4 . M ộ t s ỏ p h ư ơ n g p h á p h ọ c m á y t h ố n g k ê t r o n g N L P
N h iề u v ấ n đ ề tr o n g N L P c ó th ể đ ư ợ c p h á t b iể u lạ i
(re-formulated)
n h ư b à i to án
p h â n lo ạ i. T r o n g đ ó c ô n g v iệ c là q u a n sá t m ộ t "rm ữ c ả n h " n g ô n n g ữ
b e B
n à o đ ó
và d ự đ o á n "lớ p " n g ô n n g ữ
a e A
c h ín h xá c. C ô n g v iệ c n à y b a o g ồ m x â y d ự n g m ộ t
h à m p h ân lo ạ i
cl: B -* A
m à h o á ra c ó th ể đư ợ c th ự c h iệ n v ớ i m ộ t p h â n p h ố i x á c
suất đ iề u k iệ n p,
P(a
I
b
) là x á c s u ất c ủ a " ló p " a k h i c h o trư ớ c "n g ữ c ả n h " b nà o đ ó.
N g ữ c ả n h tr o n g cá c b à i to á n N L P b a o g ồ m ít n h ấ t là cá c từ , v à n g ữ c ả n h c h ín h xá c
p h ụ th u ộ c v à o b ả n c h ấ t c ủ a v ấ n đề. V ớ i m ộ t s ố vấ n đ ề , n g ữ cả n h b c ó th ể c h ỉ là
d u y n h ấ t m ộ t từ , tro n g k h i ở cá c b à i to á n k h á c , b b a o g ồ m m ộ t v à i từ và n h ã n cú
p h á p tư ơ ng ứ ng . C á c c o rp u s vă n b ả n lớ n th ư ờ n g c h ứ a m ộ t số th ô n g tin v ề sự đ ổ n g

x u ấ t h iệ n c ủ a "c ủ a " a v à "c ủ a " b , n h ư n g k h ô n g b a o g iờ đ ủ đ ể m ô tả tin cậ y
P(a I b)
v ớ i m ọ i c ặ p (a ,b ). D o đ ó th á ch th ứ c là tìm m ộ t p h ư ơ n s p h á p sử d ụ n g c á c d ấ u h iệ u
c ụ c b ộ
(j->ơrriơl
) v ề "c ủ a " a và "c ủ a " b đ ể ước lư ợ n g tin c ậ y m ô h ìn h x á c suấ t p.
P h ầ n n à y g iớ i th iệ u m ộ t s ố m ô h ìn h h ọ c m á y th ố n g k ê tổ n g q u á t, k h ô n g p h ụ th u ộ c
v à o lĩn h vự c h a y ứ n s d ụ n g . G iả sử:
- A là tậ p c á c b iế n c ố (d ự đ o á n ) c ó th ể c ó
B là tậ p c á c n s ữ c ả n h c ó th ể có .
- T ậ p c á c v ị từ n g ữ c ả n h
CP
= {cp,
, ,cpm
} , tro n g đ ó m ỗ i h à m
cpị
:
B

—> {true, false)
c h o b iế t c ó h a y k h ô n g th ô n g tin hữ u íc h tro n g n g ữ c ả n h
b e B
nà o đ ó .
- T ậ p h u ấ n lu y ệ n
T = {(ax,b\), (aN,bN) }
, tro n g đ ó
bL

B
là n g ữ c ản h và

aị
6
A
< là lớ p đ ú n g củ a n ó .
C h ú n g tô i c ũ n g g iả sử r ằ n g c ác k ỹ th u ậ t h ọ c m á y ở đ â v sử d ụ n e tậ p h u ấn lu y ệ n để
tín h tầ n su ấ t đ ồ n e x u ấ t h iệ n g iữ a b iế n c ố a n ào đ ó v ớ i g iá tr ị ch â n lý c ủ a v ị từ n g ữ
8
c ả n h c p (. (b ấ t k ỳ ) đ ư ợc á p d ụ n g c h o m ộ t n g ữ c ả n h b (tứ c là tín h tầ n s u ấ t c ủ a
(a,cpị(b))).
4.1 Hàm phân loại Bayes "ngây thơ"
H à m p h â n lo ạ i B a y e s n g â y th ơ đ ư ợc dẫ n x u ấ t từ lu ậ t B a ve s, v à g iả th iế t đ ộ c lậ p x ác
suất m ạ n h về d ấ u h iệ u đư ợ c q u an sát. N ó đ ã đ ư ợ c sử d ụ n g c h o c á c ứ n g d ụ n g N L P
n h ư là p hâ n lo ạ i v ă n b ả n
(text categorization)
( L e w is v à R in g u e tte , 1 9 9 4 ), x ử lý
n h ậ p n h ằ n g n g h ĩa c ủ a từ ( G a l e , 1992).
T h e o lu ậ t B a y es:
P{b
)
Sử d ụ n g n ó đ ể x â y d ự ng m ộ t h à m p h â n lo ạ i;
clbayes : B
—»
A
cIbayes (b) = asr
m ax
P(b
I
ơ)P(a)
aeA
N ó i c h u n g , v iệ c tín h trự c tiế p (

explicit
)
P(b
I
a
) là k h ô n s th ể d o d ữ liệ u th ư a, v ì v ậy
n g ư ờ i ta th ư ờ n g d ù n g g iả th iế t đ ộ c lậ p x á c su ất m ạ n h :
P(b
I
a
) =
P({cpị(b)
I
cpị(b) = true}
I
a)
=
Y[P{cp,{b)\a)
i.cpị (b) = true
T a có th ể tín h trự c tiế p c á c x á c s u ấ t
P[cpt(b)
I
a)
từ c á c tầ n s u ấ t (
a,cpt(b
)) m à
k h ô n g c ầ n th u ậ t to á n x ấ p x ỉ lặ p .
4.2 Danh sách quyết định
Y a ro w s k y ( 1 9 9 6 ) á p d ụ n g k ỹ th u ậ t họ c m á y d a n h sá c h q u y ế t đ ịn h c h o vấ n đ ề xử lý
n h ậ p n h ằ n e n g h ĩa c ủ a từ , sử d ụ n g cá c k ỹ th u ậ t h ọ c c ó s iá m sá t v à k h ô n g g iá m sát.

C á c d a n h s á ch q u y ế t đ ịn h tr o n g [Y a r o w s k y , 1 9 9 6 ] x ế p h ạ n g c ó h iệ u q u ả cá c d ấu
h iệ u k h á c n h a u th e o đ ộ tin c ậ y , c á c b iế n c ố te s t c h ư a b iế t đư ợ c p h â n lo ạ i b ở i c h ỉ
m ộ t d ấ u h iệ u tin c ậ y n h ấ t c ó h iệ u lự c. N ế u k h ô n g g ia n b iế n c ố c h ỉ c ó h a i p h ần tử ,
tứ c là
A = {a',a
" ) , đ ộ tin c ậ y c ủ a m ỗ i v ị từ n g ữ c ả n h
cpị
đư ợ c c h o b ở i:
P(a
' I
cp (b)
=
true)
lo g -
P (ữ "|
cpị(b)
=
true)
T v số n à y đư ợ c d ù n g đ ể tạ o ra m ộ t d a n h sá ch đư ợ c sắp c ủ a c á c v ị từ n g ữ cả n h và
c á c b iế n c ố { ( c / 7 j , a ,
(cpn,a
n)}, tro n g đ ó : a,- = a r g m a x
P(a
I
cpí(b) = true).
K h i
p h â n lo ạ i m ộ t trư ờ n g h ợ p te s t b , k ỹ th u ậ t d a n h s á c h ° q u y ế t đ ịn h c h ọ n b iế n c ố
aị
tư ơ n s ứ n g v ớ i v ị từ đầ u tiê n tr o n g d a n h sách th o ả m ã n
cpị(b

) =
true.
K v th u ậ t d a nh
sá ch q u y ế t đ ịn h c h o p h é p ta sử d ụ n g n h iề u lo ạ i d ấ u h iệ u k h á c n h a u , n h ư n g c u ố i
c ù n g c h ọ n b iế n c ố c h ỉ d ự a trê n m ộ t dấ u h iệ u tin c ậ y .
9
4 .3 N ộ i s u y
N ộ i s u y tu y ế n tín h là c á ch p h ổ b iế n đ ể k ế t h ợ p c á c ư ớ c lư ợ n s đ ư ợ c d ẫ n x u ấ t từ
n h iề u d ấ u h iệ u k h á c n h a u . V í d ụ , n ó đư ợ c sử d ụ n g rộ n g rã i tr o n g m ô h ìn h n g ô n
n g ữ , tro n g đ ó m ụ c tiê u là tín h
P(Wị
I W;_2WM ) b ằ n g cá ch k ế t h ợ p c á c ư ớ c lư ợ n g c ủ a
m ộ t s ố p h â n p h ố i th à n h p h ầ n :
P(w,

I w,._2w w ) = V U w , ) + V 2(wi I Wi-1) + ¿3^3 ( w / I w /-2Wí-1)
ở đ â y
Ằị
> 0 và Ắ, = 1.
Í=1
M ỗ i p h â n p h ố i th à n h p hầ n
p
đư ợc ước lư ợ ng trự c tiế p từ cá c tầ n suấ t th ô c ủ a d ữ
liệ u h u ấ n lu y ệ n v à m ỗ i
Ẫị
là m ộ t "tr ọ n g s ố " p h ả n á n h tầ m q u a n trọ n g c ủa p h â n
p h ố i th à n h p h ầ n tư ơ n g ứ ng vớ i nó . C á c tr ọ n g số đ ư ợ c tín h sao c h o cự c đ ạ i k h ả n ă ng
x ả y ra c ủ a d ữ liệ u h e ld -o u t [J e lin e k , 1 9 9 0 ]. K ỹ th u ậ t n à y c ó th ể đư ợ c tổ n g q u á t h oá
đ ể k ế t h ợ p số lư ợ n g tu ỳ ý cá c m ô h ìn h x á c suất:
Pifl

I
b
) =
Ỵ ,ẢiPM
I
cPÁb)
=
true)
i
ở đ â y
Pị(a
I
cpị(b) = true
) là ph â n p h ổ i x á c suấ t đ iề u k iệ n đ ư ợ c d ẫ n x u ấ t từ c á c tầ n
s u ấ t c ủa
(a,cp.(b))
tr o n g tậ p h uấ n lu y ệ n , v à m ỗ i v ị từ
cpi
k ế t h ợ p v ớ i m ộ t
Xị
m à
đ á n h trọ n g s ố ư ớ c lư ợ n g
P(a
I
cp.ịb)
=
true
) v ớ i
a e À
. K ỹ th u ậ t n ộ i su y k h ô n g g iả

th iế t g ì về b ả n c h ấ t b ê n d ư ớ i c ủ a cá c m ô h ìn h m à n ó k ế t h ợ p , d o đ ó n ó là m ộ t
p h ư ơ ng p h á p rấ t tổ n g q u á t để tíc h hợ p d ấ u h iệ u .
10
C H Ư Ơ N G 2 : M Ộ T § ố Đ Ặ C Đ I Ể M
N G Ữ P H Á P T I Ế N G V I Ệ T
C hư ơ n ẹ n à y tr ìn h b à y m ộ t s ố đ ặ c đ iể m n g ữ p h á p tiế n g V iệ t v ớ i tr ọ n g tâ m là n hữ n g
đ ố i tư ợ n g n g ô n n g ữ sẽ đ ư ợ c k h a i th á c c h o m ụ c đ íc h k iể m lỗ i c h ín h tả . M ỗ i đ ố i
tư ợ n g sẽ đư ợ c trìn h b à y c ù n g v ớ i vấ n đề tư ơ ng ứ n g tr o n g N L P .
1 . Đ ặ c đ i ể m t i ế n g V i ệ t
T iế n g V iệ t th u ộ c h ọ N a m á v à là m ộ t n g ô n n g ữ đ ơ n lậ p . T r o n g tiế n g V iệ t, q u a n hệ
g iữ a cá c từ đ ư ợ c b iể u th ị k h ô n g p h ả i b ằ n g c á c p h ụ tố ch ứ a tr o n g b ả n th â n từ m à
b ằ n e n h ữ n g p h ư ơ n g tiệ n n ằ m n g o à i từ n h ư trậ t tự từ , h ư từ . Đ ặ c đ iể m n à y b a o q u á t
n g ữ p h á p tiế n g V iệ t cả v ề n gữ á m , ng ữ p h á p v à n g ữ n g h ĩa .
2 . C á c đ o n v ị c ủ a t iế n g V i ệ t
2.1 Tiếng
G iá tr ị n gữ â m : T iế n g là âm tiế t. K h i n ó i, cứ p h á t â m m ộ t h ơ i là th à n h m ộ t â m
tiế t. V ề c h ữ v iế t, m ỗ i â m tiế t đư ợc g h i th à n h m ộ t chữ .
C ấ u tạ o : P h ụ â m đ ầ u , v ầ n , p h ụ âm c u ố i, dấ u th a n h .
B ả n g c á c th à n h p h ầ n á m tiế t:
P h u â m đầ u b c d đ g h k 1 m n q r s t V X ch gh gi k h ng n h ph qu th tr ngh
N g u y ê n â m
a â ă e ê i o ô ơ u ư y ai ao au ay âu ây eo éu ia iu iê oa o i oe oă oo ô i ơi
ua u y u i uâ uỏ uê uơ ưa ưi ươ ưu yé iêu o a i o a o o a y o e o u ó i uây uyé ươi
ươu uya u yu uêu yêu
P h ụ á m c u ố i c p t m n ch n g nh
D ấ u th a n h
h u yền , h ỏ i. n gã, sắc, nặng
G iá tr ị n g ữ n g h ĩa : T iế n g là đ ơ n v ị n h ỏ n h ấ t c ó th ể c ó n g h ĩa .
G iá t r ị n g ữ p h á p : T a đã b iế t n g ữ p h á p g ồ m n h ữ n g q u i tắ c c ấ u tạ o từ , c ấ u tạ o
c â u . T iế n g là đ ơ n v ị n g ữ p h á p d ù n g đ ể cấ u tạ o từ .

11
2.2 Từ
T ừ là đ ơ n v ị để đ ặ t c â u . T ừ tiế n a V iệ t c ó đặ c trư n g là đ a âm tiế t. X u n g q u a n h v iệ c
x á c đ ịn h th ế n à o là từ tiế n g V iệ t c ò n n h iề u tra n h c ã i. T u y n h iê n c ó cá c đ iể m sau
th ư ờ n g đư ợ c th ố n g n h ấ t (Đ in h Đ iề n , 2 0 0 1 ):
- V ề m ặ t h ìn h th ứ c : từ là m ộ t k h ố i th ố n g n h ấ t về c ấ u tạ o (v ề c h ín h tả , n g ữ âm ,
V.V.).
V ề n ộ i d u n g : từ c ó n g h ĩa h o à n c h ỉn h .
- V ề k h ả n ă n g : từ c ó k h ả n ă n g h o ạ t đ ộ n g tự d o v à đ ộ c lậ p v ề m ậ t c ú p h áp .
H a i phư ơ ns; th ứ c c ấ u tạ o từ c h ủ y ế u là
láy
v à
^hép
L á y là sắp đ ặ t cá c tiế n g th à n h đ ô i, k ế c ậ n n h a u và sao c h o c ó p h ố i h ợ p n c ữ â m .
Sự p h ố i h ợ p n g ữ â m n à y tạ o nê n n g h ĩa củ a
từ láy.
V í d u : lo n g la n h , c h ậ p ch ờ n ,
- G h ép là s ắp đ ặ t c á c tiế n g th à n h đ ô i, k ế cậ n n h a u v à sa o c h o c ó p h ố i h ợ p ng ữ
n g h ĩa . Sự p h ố i h ợ p n g ữ n g h ĩa n à y tạ o n ên n g h ĩa củ a
từ ghép.
V í d u : n h à cử a, ăn ở , n o ấ m , xe đ ạ p ,
B à i t o á n : K h á c v ớ i tiế n g A n h , p h ân đ o ạ n từ
(word segmentation)
tro n g tiế n g V iệ t
là bài to á n k h ó , đ ã c ó m ộ t s ố n g h iê n cứ u v ề vấ n đ ề n à y. N h ậ n d ạ n g từ lá y và rú t
(
extraction
) từ m ớ i tự đ ộ n g dự a và o c o rp u s c ũ n g là c á c b à i to á n h a y . X á c đ ịn h từ
lo ạ i c ủ a c á c từ tr o n g c â u là b à i to á n c ó n h iề u ứ n g d ụ n g .
2.3 Cảu

T ro n g n g ô n n e ữ , c ấ u là đcm v ị ở b ậ c c a o h ơ n cả. H a i đ ặ c đ iể m c ủ a c â u là có n g h ĩa
h o à n c h ỉn h v à c ấ u tạ o rấ t đa d ạn g .
B à i to á n : P h á n tíc h c ú p h á p
(syntactic parsing)
là b à i to á n cơ b ả n c ủ a N L P , h iệ n
n a y c ác k ế t q u ả v ề p h â n tíc h c ú p h á p tiế n g V iệ t c ò n rấ t ít.
3 . M ộ t s ô đ ô i t ư ợ n g n g ô n n g ữ m à l u ậ n v ă n s ẽ k h a i t h á c
C á c đ ố i tư ợ n g n g ô n n g ữ sẽ đư ợ c x e m x é t tro n g n h ữ n g p h ầ n sau là : tiế n g , từ, từ lo ạ i,
c o llo c a tio n .
12
3.1 Tiếng
B ằ n g cá ch p h â n tíc h c ấ u tạ o m ộ t â m tiế t, ta c ó th ể tạ o ra tậ p n h ầ m lẫ n củ a nó v ớ i
n g ư ỡ ng k h o ả n g c á c h so ạ n th ả o n h ỏ n h ấ t c h o trư ớ c (k h o ả n g c á c h soạn th ả o n h ỏ
n h ấ t giữ a â m tiế t g ố c v à m ỗ i â m tiế t th u ộ c tậ p n h ầ m lẫ n k h ô n g vư ợ t q uá n e ư ỡ ng
n à y ).
3.2 Từ và từ loại
- T ừ và từ lo ạ i là đ ơ n v ị tr i th ứ c tr o n g k iể m lỗ i c h ín h tả c ả m n g ữ c ản h. T h e o T ừ
đ iể n T iế n g V iệ t ( H o à n g P hê , 2 0 0 2 ), c ó tá m từ lo ạ i sau : d a n h từ (d ), đ ộ n g từ
(đ g ), tín h từ (t) , đ ạ i từ (đ ), p h ụ từ (p ), k ế t từ ( k ), trợ từ ( tr ) , c ả m từ (c ).
K h ô n g p h ả i tổ h ợ p từ lo ạ i n à o c ũ n g là hợ p lệ , vấ n đ ề x á c đ ịn h tự đ ộ n g từ lo ạ i
c ủ a cá c từ tr o n g c âu s ọ i là
POS-tagger.
Ví du:
C âu vào: T ô i ăn cơm
C h uỗ i từ lo ạ i: T ô i/đ ă n /đ g c ơ m /d
C ác m ẫ u từ lo ạ i đ ư ợ c c o i là th u ộ c tín h v à d ù n g để s u y d iễ n . C h ẳ n g hạ n đ i sau
các p h ụ từ n h ư "đ ã " h a y "đ a n g " th ư ờ n g là đ ộ n g từ , đ i sau c á c p h ụ từ nh ư "c á c "
h a y " n h ữ n g " th ư ờ n g là d a n h từ , v.v .
- T ừ c h é p c ũ n g là d ấ u h iệ u đ ể k iể m lỗ i, b ở i v ì k h i m ộ t â m tiế t sai- th ì. từ g h é p
chứ a n ó sẽ ch o ta th ô n g tin đ ể s u y đ o án .

B ở i v ì từ là đ ơ n v ị đ ể tạ o c â u n ê n m ọ i c â u tiế n g V iệ t đ ề u c h ia đ ư ợc th à n h d ã y
từ . N ế u m ộ t câ u k h ô n e có tín h ch ấ t đ ó th ì c ó th ể n ó b ị lỗ i.
3.3 Collocation và các tù ngữ cảnh
- C o llo c a tio n là c á c từ đ i v ớ i n ha u (k h ô n g n h ấ t th iế t p h ả i k ề n h a u ) m ộ t c á ch c h ắ c
c h ắ n . M ứ c đ ộ ch ắ c c h ắ n n ằ m g iữ a k h o ả n g c ụ m từ v à th à n h n g ữ .
Vỉ du:
c h ạ y c h ư ơ n g tr ìr ih , ản h đ ộ n g ,
- T ừ n g ữ c ả n h là c á c từ th ư ờ n g x u ấ t h iệ n c ù n g n h a u tr o n g m ộ t n g ữ cả n h n h ấ t
đ ịn h .
Ví du:
m á y tín h , file , ch ư ơ n g trìn h , dữ liệ u , V.V.; tiề n , n g á n h à n g , tà i kh o ả n , v.v .
13
ChưoTig 3: CORPUS
T r o n g x ử l ý n g ô n n g ữ t ự n h i ê n b ằ n g t h ố n g k ê ( S N L P ) , c o r p u s l à t à i n g u y ê n k h ô n g
t h ể t h i ế u . C ó n h i ề u l o ạ i c o r p u s k h á c n h a u , t u ỳ t h u ộ c b à i t o á n v à p h ư ơ n g p h á p g i ả i
q u y ế t m à y ê u c ầ u m ộ t l o ạ i c o r p u s t h í c h h ợ p 1 . L u ậ n v ã n n à y y ê u c ầ a c o r p u s v ă n
b ả n t h ô .
T r ê n t h ế g i ớ i c ó n h ữ n g t ổ c h ứ c c h u y ê n c u n g c ấ p c o r p u s c h o m ụ c đ í c h n g h i ê n c ứ u
h a y p h á t t r i ể n s ả n p h ẩ m t h ư ơ n g m ạ i n h ư L D C , O T A , v . v . C á c n g ô n n g ữ n h ư t i ế n g
A n h , P h á p , T r u n g Q u ố c x u ấ t h i ệ n n h i ề u t r o n g c a í a l o s s ả n p h ẩ m c ủ a h ọ n h ư n g
t i ế n g V i ệ t t h ì r ấ t í t . Đ ể p h ụ c v ụ c h o c á c t h í n g h i ệ m c ủ a l u ậ n v ã n , c h ú n g t ô i đ ã p h ả i
t ự x â y d ự n g c o r p u s v ă n b ả n t h ô . D o đ ó c h ư ơ n e n à y đ ư ợ c d à n h đ ể g i ớ i t h i ệ u v ề
c o r p u s v à c ô n g v i ệ c d ự a t r ê n c o r p u s .
C á c v ấ n đ ề g ặ p p h ả i k h i t ạ o t ự đ ộ n g m ộ t c o r p u s v ă n b ả n t h ô l à g ì ? B ắ t đ ầ u t ừ d ạ n g
điện t ử n à o đ ó c ủ a d ữ l i ệ u , l ấ y v ă n b ả n , c h u y ể n m ã , n g ắ t c â u , p h â n t í c h t ừ t ố , p h â n
đ o ạ n t ừ v à x ử l ý d a n h t ừ r i ê n g . T r o n g đ ó n g ắ t c â u , p h â n t í c h t ừ t ố , p h â n đ o ạ n t ừ v à
x ử l ý d a n h t ừ r i ê n g l à c á c v ấ n đ ề k h ó , c h ỉ đ ư ợ c g i ả i q u y ế t t u y ệ t đ ố i n ế u l à m b ằ n g
t a y .
1. Các yêu cầu chính cho công việc SNLP
Đ ó l à m á y t í n h , c á c c o r p u s v à p h ầ n m ề m .

M á y t í n h : C á c c o r p u s t h ư ờ n g c ó k í c h t h ư ớ c l ớ n d o đ ó c ầ n n h i ề u t à i n g u y ê n t í n h
t o á n đ ể x ử l ý c h ú n g .
C o r p u s : C o r p u s l à k h o d ữ l i ệ u v ề n g ô n n g ữ , c ó t h ể ở d ạ n c v ă n b ả n ( n h ư l à b à i b á o ,
t á c p h ẩ m v ã n h ọ c , v . v . ) h a y â m t h a n h ( n h ư l à c u ộ c đ i ệ n đ à m , b à i b á o t i ế n g , V .V . ) .
C h ư ơ n g n à y c h ỉ đ ề c ậ p đ ế n c o r p u s c h ứ a d ữ l i ệ u d ạ n g v ă n b ả n .
C ó h a i l o ạ i c o r p u s l à c o r p u s t h ô v à c o r p u s đ ư ợ c đ á n h d ấ u . V i ệ c đ á n h d ấ u c ó t á c
d ụ n g đ ị n h d ạ n g v ã n b ả n h o ặ c l à m g i à u t r i t h ứ c .
P h á n m é m : T r ì n h s o ạ n t h ả o v ă n b ả n , n g ô n n g ữ l ậ p t r ì n h , v . v .
14
2. Xử lý văn bản
2.1 Định dạng mức thấp
T a c ó t h ể g ặ p c á c d ạ n g d ữ l i ệ u k h á c n h a u p h ụ t h u ộ c v à o n c u ồ n c o r p u s . D o đ ó c ầ n
có c ô n g c ụ t h í c h h ợ p đ ể l ấ v r a 1 v ă n b ả n t h ô t ừ d ữ l i ệ u b a n đ ầ u . V í d ụ n g u ồ n c o r p u s
l à I n t e r n e t m à h ầ u h ế t c á c f i l e c h ứ a v ã n b ả n l à H T M L h o ặ c X M L , k h i đ ó t a s ẽ c ầ n
c h ư ơ n g t r ì n h đ ọ c h a i l o ạ i f i l e n à y v à l ấ y r a v ă n b ả n b ê n t r o n g .
S a u k h i đ ã l ấ y đ ư ợ c v ă n b ả n , t a c ầ n c h u y ể n c h ú n g t h à n h m ộ t b ộ m ã t h ố n s n h ấ t .
H i ệ n t ạ i , m ộ t t r ở n g ạ i c h o v i ệ c x ử l ý v ă n b ả n t i ế n g V i ệ t l à c ó q u á n h i ề u b ả n g m ã
t i ế n g V i ệ t . M ặ c d ù đ ã c ó U n i c o d e , n h ứ n g t i ê u c h u ẩ n n à y v ẫ n c h ư a đ ư ợ c á p d ụ n g
t r i ệ t đ ể v à c ó t ớ i h a i b ộ m ã U n i c o d e c h o t i ế n g V i ệ t l à t ổ h ợ p v à d ự n g s ẵ n ( T C V N
6 9 0 9 ) . Đ ể đ ơ n g i ả n , t r o n g c h ư ơ n g t r ì n h c h ú n g t ô i s ử d ụ n g t h ố n g n h ấ t m ộ t b ộ m ã l à
T C V N 3 .
2.2 Cắt câu
T a t h ư ờ n e n g ắ t c â u c ă n c ứ v à o c á c d ấ u h i ệ u n h ư
V ,
‘ ! \ T u y n h i ê n c á c h n à y
c h ỉ c h o k ế t q u ả g ầ n đ ú n g v ì m ộ t s ố k ý t ự c ó n h i ề u c h ứ c n ã n g , v í d ụ n h ư t r o n ? t i ế n g
A n h , d ấ u c h ấ m c ó t h ể l à c h ấ m c â u , c ũ n g c ó t h ể t h u ộ c m ộ t c h ữ v i ế t t ắ t ( n h ư M r .
J o h n ) , n g o à i r a c ò n n h i ề u l o ạ i t ừ t ố c h ứ a d ấ u c h ấ m n h ư đ ị a c h ỉ I n t e r n e t , t ê n f i l e , .
G ầ n đ â y c ó n h i ề u n g h i ê n c ứ u v ề c á c p h ư ơ n g p h á p n s ắ t c â u . R i l e y ( 1 9 8 9 ) đ ã s ử
d ụ n g c á c c â y p h â n l ớ p t h ố n g k ê . C á c t h u ộ c t í n h c h o c â y p h â n l ớ p b a o 2 ồ m c á c h

(case) v à đ ộ d à i c ủ a c á c t ừ t r ư ớ c v à s a u m ộ t d ấ u c â u , c á c t ừ t r ư ớ c v à s a u m ộ t d ấ u
c á u . P h ư ơ n g p h á p n à y y ê u c ầ u m ộ t k h ố i l ư ợ n g l ớ n d ữ l i ệ u đ ư ợ c g á n n h ã n c h o h u ấ n
l u y ệ n .
P a l m e r v à H e a r s t ( 1 9 9 4 ; 1 9 9 7 ) đ ã s ử d ụ n g p h â n b ố t ừ l o ạ i t r ư ớ c v à s a u m ộ t d ấ u
c â u v à s ử d ụ n g m ộ t m ạ n g n ơ r o n đ ể đ o á n r a n h g i ớ i c ủ a c â u . H ọ đ ã x â y d ự n a đ ư ợ c
m ộ t t h u ậ t t o á n m ạ n h , đ ộ c l ậ p n s ô n n g ữ v à đ ạ t đ ộ c h í n h x á c c a o ( 9 8 - 9 9 % ) .
R e y n a r v à R a t n a p a r k h i ( 1 9 9 7 ) v à M i k h e e v ( 1 9 9 8 ) đ ã á p d ụ n g m ô h ì n h M a x i m u m
E n t r o p y c h o v ấ n đ ề n à y v à đ ạ t đ ư ợ c đ ộ c h í n h x á c 9 9 . 2 5 % .
' Tim từ mới, thống kê collocation cần corpus văn bản thô; phân tích cú pháp yêu cầu corpus cây cú pháp;
dịch máy thống kê yêu cầu corpus song ngữ; nhận dạng tiếng nói cần corpus tiếng nói v.v.
15
2.3 Phân tích từ tô
P h â n t í c h t ừ t ố l à q u á t r ì n h c h i a v ã n b ả n v à o t h à n h c á c đ e m v ị g ọ i l à t ừ t ố ( m ỗ i t ừ t ố
c ó t h ể l à t ừ , d ấ u c á u , s ố , . . . ) .
Ví du:
C ả u v à o : " P r e v i o u s l y , M r . V i t u l l i , 4 3 y e a r s o l d , w a s g e n e r a l m a r k e t i n g m a n a g e r o f
C h r y s l e r C o r p . ' s C h r y s l e r d i v i s i o n . "
K é t q u ả : " P r e v i o u s l y " , " M r . " , " V i t u l l i " , " 4 3 " , " y e a r s " , " o l d " , " w a s " , " g e n e r a l " ,
" m a r k e t i n g " , " m a n a g e r ” , " o f ' , " C h r y s l e r " , " C o r p . " , ' " s " , " C h r y s l e r d i v i s i o n " ,
T r o n g t i ế n e A n h k h o ả n g t r ắ n g l à d ấ u h i ệ u đ ể p h â n b i ệ t c á c t ừ , n h ư n g t r o n g t i ế n g
V i ệ t k h o ả n g t r ắ n g c h ỉ l à d ấ u h i ệ u p h á n b i ệ t á m t i ế t .
Ví du:
C â u v à o : " M i c r o s o f t t h ừ a n h ậ n c á c k h i ế m k h u y ế t v ề b ả o m ậ t t r o n g W i n d o w s N T ”
K ế t q u ả : " M i c r o s o f t " , " t h ừ a " , " n h ậ n " , " c á c " , " k h i ế m " , " k h u y ế t " , " v ề " , " b ả o " , " m ậ t " ,
" t r o n g " , " W i n d o w s " , " N T "
C h ư ơ n g t r ì n h p h â n t í c h t ừ t ố t i ế n g V i ệ t c ủ a c h ú n g t ô i n h ậ n d ạ n g c á c l o ạ i t ừ t ố s a u :
â m t i ế t , d ấ u c â u , s ố , k ý h i ệ u .
2.4 Phản đoạn tù
V ấ n đ ề c h i a v ă n b ả n t i ế n g V i ệ t t h à n h d ã y t ừ ( b à i t o á n p h â n đ o ạ n t ừ ) l à m ộ t t h á c h
t h ứ c b ở i v ì đ a s ố t ừ t i ế n g V i ệ t t ạ o b ở i n h i ề u â m t i ế t .

Ví du:
C u m t ừ : " c ủ a c ô n g n g h ệ "
C á c k h ả n ă n g p h â n đ o a n :
" c ủ a ” , " c ô n g " , " n g h ệ "
" c ủ a c ô n g " , " n g h ệ "
" c ủ a " , " c ố n g n g h ệ " .
D ư ớ i đ á y c h ú n g t ô i g i ớ i t h i ệ u v ề c á c p h ư ơ n g p h á p p h â n đ o ạ n t ừ đ i ể n h ì n h . C h ú n g
đ ư ợ c c h i a t h à n h c á c n h ó m c h í n h l à : d ự a v à o l u ậ t , d ự a v à o t h ố n g k ê , c á c p h ư ơ n g
p h á p l a i . M ỗ i n h ó m l ạ i c ó t h ể c h i a r a c á c m ứ c đ ộ : t ừ v ự n g , h ì n h t h á i , c ú p h á p , n g ữ
16
n g h ĩ a . T h ô n g t h ư ờ n g n g ư ờ i t a t r á n h d ù n g c á c tri t h ứ c q u á c ồ n g k ề n h đ ể g i ả i b à i
t o á n n à y .
M ô h ì n h M a x i m u m M a t c h i n g ( b a o g ồ m F M M , B M M ) d o L i a n g v à Z h e n g ( 1 9 9 1 )
đ ề x u ấ t c ó ư u đ i ể m l à đ ơ n g i ả n v à k h á h i ệ u q u ả . P h ư ơ n g p h á p n à y s ử d ụ n g t ừ đ i ể n
v à ý t ư ở n g c h í n h c ủ a n ó l à ư u t i ê n t ừ d à i n h ấ t k h i x ả y r a n h ậ p n h ằ n g . T a c ó t h ể l ấ y
v í d ụ m à c á c h n à y p h â n đ o ạ n s a i n h ư d ư ớ i đ â y :
Ví du: " M u a c h o t ô i 1 0 0 c ổ p h i ế u c ủ a c ô n g t y X Y Z "
F M M : " M u a # c h o # t ô i # 1 0 0 # c ổ p h i ế u # c ủ a c ô n g # t y # X Y Z "
B M M : " M u a # c h o # t ô i # 1 0 0 # c ổ p h i ế u # c ủ a # c ô n g t y # X Y Z "
L u a v à G a n ( 1 9 9 4 ) đ ị n h n g h ĩ a m ộ t c ô n g t h ứ c t í n h " l ự c l i ê n k ế t t ừ " d ự a v à o e n t r o p y
c ủ a t ừ v à c á c t h à n h p h ầ n c ủ a n ó . F M M v à B M M đ ư ợ c s ử d ụ n g đ ể t ì m r a c á c c ặ p t ừ
g h é p g i a o n h a u , t ừ g h é p đ ư ợ c c h ọ n l à t ừ c ó l ự c l i ê n k ế t t ừ m ạ n h h o m . Đ ộ c h í n h x á c
đ ư ợ c đ ư a r a l à 9 9 . 0 % .
S p r o a t v à c ộ n g s ự ( 1 9 9 6 ) đ ư a r a m ộ t m ô h ì n h s ử d ụ n g W F S T đ ể p h â n đ o ạ n t ừ t i ế n g
T r u n g Q u ố c ( c ó t h ể c o ị n h ư H M M b ậ c k h ô n g ) . T h ê m v à o đ ó , ô n g đ ã đ ư a r a c á c h
x ử l ý t ê n r i ê n g v à t ừ đ ư ợ c t ạ o t h à n h d o t ừ k h á c b i ế n đ ổ i h ì n h t h á i .
P o n t e v à C r o f t ( 1 9 9 6 ) đ ư a r a h a i m ô h ì n h p h á n đ o ạ n t ừ : M ộ t c á i s ử d ụ n g W F S T v ớ i
x á c s u ấ t c ủ a t ừ đ ư ợ c x ấ p x ỉ t r ê n c o r p u s đ ư ợ c p h á n đ o ạ n v ớ i t h u ậ t t o á n t h a m l a m
( F M M ) . C á i c ò n l ạ i s ử d ụ n g m ô h ì n h b i - g r a m đ ư ợ c h u ấ n l u y ệ n b ằ n g t h u ậ t t o á n
B a u m - W e i c h . T h e o đ á n h g i á c ủ a h ọ t h ì m ô h ì n h t h ứ n h ấ t c h o k ế t q u ả t ố t h ơ n .

P a l m e r ( 1 9 9 7 ) đ ư a r a m ô h ì n h p h â n đ o ạ n t ừ d ự a t r ê n l u ậ t . C ó b a d ạ n g l u ậ t c h í n h l à :
c h è n m ộ t b i ê n m ớ i v à o g i ữ a h a i k ý t ự , x o á b i ê n g i ữ a h a i k ý t ự , d ị c h c h u y ể n b i ê n
h i ệ n t h ờ i s a n g p h ả i ( h a y t r á i ) m ộ t ( h a y h a i , b a ) k ý t ự . B ộ l u ậ t c ó đ ư ợ c n h ờ h u ấ n
l u y ệ n . M ô h ì n h n à y c ó t h ể k ế t h ợ p t ố t v ớ i c á c m ô h ì n h k h á c v à n â n g c a o c h ấ t l ư ợ n g
c ủ a m ô h ì n h đ ố i t á c l ê n .
L e e v à N g ( 1 9 9 9 ) g i ó i t h i ệ u m ộ t p h ư ơ n g p h á p p h â n đ o ạ n t ừ g i ú p c h o v i ệ c k i ể m l ỗ i
c h í n h t ả t i ế n g T r u n g Q u ố c . B ằ n g c á c h s ử d ụ n g t ừ đ i ể n t ầ n s u ấ t c ủ a t ừ đ ơ n , l ư ợ c đ ổ
n à y t r ư ớ c t i ê n c h i a v ă n b ả n t h à n h c â u , s a u đ ó t h à n h c á c c ụ m , v à c u ố i c ù n g t h à n h
17 ! CẠI h c c q u ó c gia k ị nôi
ITRŨHGTÀM THÒKŨ niiTHƯVIẸN
•;. \l: L O l M
\
________
c á c t ừ m à c h ỉ x é t m ộ t s ố í t t ổ h ợ p t ừ t u ỳ t h u ộ c v à o m ộ t h e u r i s t i c . P h ư ơ n g p h á p n à y
x ử l ý n h ậ p n h ằ n g t ố t h o n F M M 1 0 % n h ư n g c h ạ y c h ậ m h ơ n .
D a i v à L o h ( 1 9 9 9 ) đ ã x â y d ự n g m ộ t c ô n g t h ứ c m ớ i c h o v i ệ c n h ậ n b i ế t c á c t ừ c ó h a i
k ý t ự . C á c l o ạ i t ầ n s u ấ t đ ư ợ c s ử d ụ n g b a o g ồ m : t ầ n s u ấ t q u a n h ệ , t ầ n s u ấ t t à i l i ệ u ,
t ầ n s u ấ t t à i l i ệ u c ó t r ọ n g s ố , t ầ n s u ấ t c ụ c b ộ . H ọ c ò n x e m x é t c ả t h ô n g t i n n g ữ c ả n h
v à t h ô n g t i n v ị t r í . B à i b á o n à y c h o t h ấ y t h ô n g t i n n g ữ c ả n h c h i p h ố i x á c s u ấ t m à
m ộ t b i - g r a m t ạ o t h à n h m ộ t t ừ , c ò n t ầ n s u ấ t t à i l i ệ u c ó t r ọ n g s ố g i ú p n â n g c a o đ á n g
k ể k ế t q u ả c ủ a m ô h ì n h n à y . T r á i l ạ i , t h ô n g t i n v ề v ị t r í t h ì k h ô n g đ ư ợ c h ữ u í c h c h o
l ắ m .
T e a h a n v à c ộ n g s ự ( 2 0 0 0 ) đ ề s u ấ t s ử d ụ n g t h u ậ t t o á n n é n v ă n b ả n t h í c h n g h i P P M
c h o b à i t o á n p h â n đ o ạ n t ừ t i ế n g T r u n g Q u ố c . P P M c ầ n đ ư ợ c h u ấ n l u y ệ n c ó g i á m
s á t t r ê n c o r p u s đ ã đ ư ợ c p h â n đ o ạ n b ằ n g t a y . P h ư ơ n g p h á p n à y t h u ộ c n h ó m c h o k ế t
q u ả t ố t n h ấ t đ ố i v ớ i c ả t i ế n g A n h v à t i ế n g T r u n g Q u ố c .
B r e n t v à T a o ( 2 0 0 1 ) đ ã p h á t t r i ể n m ộ t m ô h ì n h p h â n đ o ạ n t h ố n g k ê d ự a t r ê n v i ệ c
n g h i ê n c ứ u c á c h m à t r ẻ c o n p h â n đ o ạ n t i ế n g n ó i t r o n s q u á t r ì n h c h ú n g h ọ c n g ô n
n g ữ t ự n h i ê n . K ế t q u ả đ ư ợ c s o s á n h v ớ i c ủ a T e a h a n .
Đ i n h Đ i ề n v à c ộ n g s ự ( 2 0 0 1 ) đ ề x u ấ t m ộ t m ô h ì n h l a i k ế t h ợ p g i ữ a m ô h ì n h c ủ a

S p r o a t ( 1 9 9 6 ) v à m ạ n g n ơ r o n l a n t r u y ề n n g ư ợ c đ ể p h â n đ o ạ n t i ế n g V i ệ t . H ọ đ ã g i ả i
q u y ế t k h á n h i ề u v ấ n đ ề n h ư t ê n r i ê n g , h ì n h t h á i t ừ . Đ á n h g i á đ ộ c h í n h x á c v à o
k h o ả n g 9 5 % .
S ử d ụ n g m ô h ì n h M a r k o v ẩ n h u ấ n l u y ệ n b ằ n g t h u ậ t t o á n B a u m - W e i c h đ ể p h â n
đ o ạ n t ừ t i ế n g V i ệ t ( N g u y ễ n P h ư ơ n g T h á i v à c ộ n g s ự , 2 0 0 3 ) c h o k ế t q u ả t ố t t r ê n v ã n
b ả n c h u y ê n n g à n h . Ư u đ i ể m c ủ a p h ư ơ n g p h á p n à y l à k h ô n g y ê u c ầ u c a o v ề t à i
n e u v ê n ( c h ỉ c ầ n c o r p u s t h ô v à t ừ đ i ể n ) d o đ ó d ễ d à n s á p d ụ n g v à o c á c l ĩ n h v ự c
k h á c n h a u .
2.5 Các vấn đề khác
T r o n g t i ế n g A n h , k h i x ử l ý v ă n b ả n t h ô c ũ n g c ầ n p h â n t í c h h ì n h t h á i t ừ . T i ế n g V i ệ t
»>
l à n g ô n n g ữ đ ơ n l ậ p n ê n t a c ó t h ể b ỏ q u a v ấ n đ ề n à y .
18
P h â n t í c h d a n h t ừ r i ê n a v à t ừ v i ế t t ắ t l à b à i t o á n k h ó . D a n h t ừ r i ê n g t i ế n g V i ệ t c ó
đ ặ c đ i ể m l à v i ế t h o a c h ữ c á i đ ầ u n ê n d ễ n h ậ n b i ế t h ơ n s o v ớ i d a n h t ừ r i ê n g t r o n g
c á c n e ô n n g ữ t ư ợ n g h ì n h n h ư t i ế n g T r u n g Q u ố c , N h ậ t , v . v . C h ư ơ n g t r ì n h c ủ a c h ú n g
t ô i n h ậ n d ạ n g d a n h t ừ r i ê n g d ự a v à o h e u r i s t i c s .
Vi du:
" s ố l i ệ u t h ố n g k ê t ừ Trung tâm Thông tin Thương mại {Bộ Thươììg mại)"
" c u ộ c h ọ p v ớ i Uỷ ban Kinh tế và Ngân sách Quốc hội"
" đ i ề u t r a c ủ a Hiệp hội Thuốc lá VN"
T r o n g v í d ụ t r ê n c á c c ụ m d a n h t ừ r i ê n g đ ư ợ c v i ế t n g h i ê n g .
3. Đánh dấu dữ liệu
M ộ t s ố l o ạ i đ á n h d ấ u p h ổ b i ế n : t ừ l o ạ i , c ú p h á p , n g ữ n s h ĩ a . Đ ể t ạ o c o r p u s l o ạ i n à y
n g ư ờ i t a t h ư ờ n g k ế t h ợ p 2 Ĩ ữ a t ự đ ộ n g v à l à m t h ủ c ô n g . T r ư ớ c t i ê n c h ư ơ n g t r ì n h g á n
n h ã n t ự đ ộ n g c h o v ã n b ả n , s a u đ ó n h à n g ô n n g ữ s ẽ c h ỉ n h l ạ i b ằ n g t a y . C h ú n g t ô i
k h ô n g t r ì n h b à y s â u ở đ â y .
Ví du: M ộ t c â u đ ư ợ c g á n n h ã n t ừ l o ạ i t r o n g P e n n T r e e b a n k .
[ A / D T s p o k e s m a n / N N ]
f o r / I N

[ t h e / D T T o r o n t o / N N P c a b l e / N N t e l e v i s i o n / N N ]
a n d / c c
I t e l e c o m m u n i c a t i o n s / N N S c o n c e m / N N ]
s a i d / V B D
[ t h e / D T c o u p o n / N N r a t e / N N h a s / V B Z n ' t / R B ]
y e t / R B b e e n / V B N í ì x e d Ạ /TB N , / , b u t / c c w i l l / M D p r o b a b l y / R B b e / V B s e t / V B N a t / I N
a r o u n d / I N
[ 8 / C D % / N N ]
4. Tạo corpus thỏ từ Internet
S ơ đ ồ q u á t r ì n h t ạ o c o r p u s :
19
Tự động
Tự đống
4.1 Download file HTML
C ó n h i ề u c h ư ơ n g t r ì n h d o w n l o a d f i l e s i ê u v ă n b ả n t ừ I n t e r n e t . T r o n g đ ó c h ú n g t ô i
t h ấ y t ố t n h ấ t l à T e l e p o r t P r o . C h ư ơ n g t r ì n h n à y c ó t h ể d o w n l o a d c ả m ộ t W e b s i t e v ề
ổ c ứ n g .
4.2 Lây text
N ế u k h ô n g m u ố n v i ế t b ộ p h â n t í c h f i l e H T M L (HTML parser), t a s ử d ụ n g
C O M P O N E N T đ ọ c f i l e H T M L c ủ a M i c r o s o f t ( mshtml) .
4.3 Chuẩn hoá
20
C ô n g v i ệ c c h u ẩ n h o á b a o g ồ m :
C h u y ể n m ã t i ế n g V i ệ t ( n ế u c ầ n )
L ọ c b ỏ c á c f i l e c h ứ a t e x t x ấ u ( t r a n g q u ả n g c á o , t ì m v i ệ c , v . v . ) b a n s h e u r i s t i c s .
L ọ c b ỏ c á c t e x t x ấ u t r o n g m ỗ i f i l e ( t i ê u đ ề , q u ả n g c á o , v . v . ) b ằ n g h e u r i s t i c s .
- C h u ẩ n h o á v ề b ỏ d ấ u t h a n h ( h ò a — > h o à , v . v . )
4.4 Đánh dấu văn bản
C h ú n g t ô i c h ỉ đ ơ n g i ả n t h ự c h i ệ n đ á n h d ấ u c â u v à t ừ . S a u k h i c ắ t c â u v à p h â n đ o ạ n
t ừ , c â u k ế t q u ả đ ư ợ c l u n r a f i l e s ử d ụ n g c á c n h ã n đ á n h d ấ u c â u ( < S x / S > ) v à t ừ ( # ) .

M ô h ì n h p h â n đ o ạ n t ừ m à c h ú n s t ô i s ử d ụ n g l à H M M ( N g u y ễ n P h ư ơ n g T h á i , .
2 0 0 3 ) . •
Ví du:
< S > P h ầ n m ề m # m á y t í n h # t ự # k h ắ c p h ụ c # s ự c ố # c ủ a # I B M < / S >
< S > T ậ p đ o à n # l B M # c h o b i ế t # s ẽ # t u n g r a # t h ị t r ư ờ n g # c á c # p h i ê n b ả n # m ớ i # c ủ a # h a i # p h ầ n
m ề m # d ự a t r ê n # c ô n g n g h ệ # đ i ệ n t o á n # t ự đ ộ n g # , # g ó p p h ầ n # t h ự c h i ệ n # m ụ c t i ê u # x â y
d ự n g # c ô n g n g h ệ # t ự # s ử a # c ủ a # n g à n h c ố n g n g h i ệ p # m á y t í n h # . < / s >
< S > H ô m q u a # , # I B M # b ắ t đ ầ u # b á n # p h i ê n b ả n # m ớ i # D B 2 V e r s i o n 8 # c ủ a # p h ầ n m ề m # c ơ s ở
d ữ l i ệ u # . < / s >
4.5 Một sỏ kết quả
C h ú n g t ô i t ạ o đ ư ợ c h a i c o r p u s v ă n b ả n t h ô v ớ i c á c t h ô n s t i n n h ư s a u :
T ê n c o r p u s K í c h t h ư ớ c
C á c c h ủ đ ề
B á o P C W o r l d V i ệ t N a m
2 2 M b
T i n h ọ c
B á o L a o đ ộ n g
4 6 M b
K h o a h ọ c , k i n h t ế , q u ố c t ế ,
t h ể t h a o , v ă n h o á
21
CHƯƠNG 4: KIỂM l ỏ i ÇHÎNH t ả DựA v ả o
Từ ĐIỂN
C h ư ơ n s n à y t r ì n h b à v v ề p h ư ơ n g p h á p k i ể m l ỗ i c h í n h t ả s ử d ụ n g t ừ đ i ể n . Đ ộ c h í n h
x á c c ủ a p h ư ơ n g p h á p n à y đ ư ợ c l ấ y l à m b a s e - l i n e k h i đ á n h g i á c á c p h ư ơ n g p h á p
t h ố n g k ê .
1. Tập nhầm lẫn âm tiết
V i ệ c p h á t h i ệ n l ỗ i â m t i ế t s a i t ư ơ n g đ ố i đ o n g i ả n . T r o n g t r ư ờ n g h ợ p á m t i ế t đ ú n g ,
đ ể p h á t h i ệ n r a l ỗ i c h í n h t ả t a c ầ n x é t c á c t ậ p n h ầ m l ẫ n â m t i ế t . T ậ p n h ầ m l ẫ n c ủ a
m ộ t â m t i ế t s l à t ậ p h ợ p c á c â m t i ế t m à m ỗ i â m t i ế t t r o n e t ậ p đ ó c ó t h ể b ị n h ầ m l ẫ n

t h à n h s . N g u y ê n n h â n n h ầ m l ẫ n c ó t h ể d o đ á n h m á y , p h á t â m ( p h ư ơ n g n g ữ ) ở
n g ư ờ i h a y d o đ ặ c t r ư n g c ủ a c á c h ệ n h ậ n d ạ n g c h ữ . M ộ t c h ư ơ n g t r ì n h k i ể m l ỗ i
c h í n h t ả đ i k è m v ớ i c á c h ệ s o ạ n t h ả o v ă n b ả n c ầ n s ử d ụ n g c á c t ậ p n h ầ m l ẫ n d o
đ á n h m á y v à p h á t â m h ợ p l ạ i .
Ví du:
1.1 Nhầm lẫn do đánh máv sai
N h ầ m l ẫ n d o đ á n h m á y s a i l à k i ể u n h ầ m l ẫ n p h ổ b i ế n . V ớ i t i ế n g A n h , D a m e r a u
( 1 9 6 4 ) đ ã c h ỉ r a r ằ n g 8 0 % l ỗ i c h í n h t ả c ủ a v ă n b ả n đ á n h m á y l à l ỗ i c h í n h t ả đ ơ n
( c ò n l ạ i l à l ỗ i c h í n h t ả p h ứ c v à l ỗ i d o p h á t â m ) . T i ế n g V i ệ t t h ì c h ư a c ó c o n s ố t h ố n g
k ê c h í n h t h ứ c . C ó b ố n l o ạ i l ỗ i c h í n h t ả đ ơ n s a u :
22
+ Chèn: c h ẳ n g h ạ n đ á n h n h ầ m " v ă n " t h à n h " v ă n g "
+ Xoá: c h ẳ n g h ạ n đ á n h n h ầ m " c h u n g " t h à n h " c u n g "
+ T h a y t h ế : c h ẳ n g h ạ n đ á n h n h ầ m " v à o " t h à n h "cào"
+ Hoán vị: c h ẳ n g h ạ n đ á n h n h ầ m " h o à " t h à n h " h à o "
ở l ỗ i c h í n h t ả p h ứ c , â m t i ế t b ị b i ế n đ ổ i s a u m ộ t c h u ỗ i c á c p h é p t o á n t h u ộ c b ố n l o ạ i
n ê u t r ê n . V í d ụ : " t r ầ m " t h à n h " t r ă m " s a u p h é p x o á d ấ u ' h u y ề n v à t h a y t h ế " â " b ở i
II »II
T ổ n g q u á t , t ậ p n h ầ m l ẫ n s ổ m c á c â m t i ế t c ó " k h o ả n g c á c h x â u " v ớ i n h a u n h ỏ h ơ n
m ộ t n s ư ỡ n e c h ọ n t r ư ớ c . K h o ả n g c á c h x â u l à đ ộ đ o c h o b i ế t h a i x â u g i ố n g n h a u
n h ư t h ế n à o . N ó c ó t h ể đ ơ n g i ả n l à s ố p h é p t o á n í t n h ấ t c ầ n t h ự c h i ệ n đ ể b i ế n đ ổ i
x â u n g u ồ n t h à n h x â u đ í c h ( n h ư c á c v í d ụ t r ê n ) h a y c ó t h ể l à x á c s u ấ t l ớ n n h ấ t c ủ a
x â u đ í c h v ớ i đ i ề u k i ệ n x â u n g u ồ n , t u ỳ t h u ộ c v à o c á c h t í n h g i á c ủ a m ỗ i p h é p t o á n .
D ư ớ i đ â y l à t h u ậ t t o á n q u i h o ạ c h đ ộ n g t í n h k h o ả n g c á c h s o ạ n t h ả o n h ỏ n h ấ t đ ư ợ c
c ô n o b ố b ở i W a g n e r v à F i s c h e r ( 1 9 7 4 ) :
f u n c t i o n M I N - E D I T - D I S T A N C E ( t a r g e t , s o u r c e ) r e t u r n s m i n - d i s t a n c e
N < - - L E N G T H ( t a r g e t )
M < ~ L E N G T H ( s o u r c e )
C r e a t e a d i s t a n c e m a t r i x d i s t a n c e [ n + l , m + 1 ]
D i s t a n c e [ 0 , 0 ] < — 0

for e a c h c o l u m n i from 0 to n do
for e a c h r o w j from 0 to m do
d i s t a n c e d , j ] < — M I N ( d i s t a n c e [ i - l , j ] + i n s - c o s t ( t a r g e t . ) ,
d i s t a n c e [ i - l , j - l ] + s u b s - c o s t ( s o u r c e 7. , t a r g e t , . ) ,
d i s t a n c e ^ , j - 1 ] + d e l - c o s t ( s o u r c e . ) )
Giả sử hai âm tiết có độ dài là M và N thì độ phức tạp của thuật toán trên là
O(MN).
C h ú n g t ô i t í n h g i á c ủ a c á c p h é p t o á n d ự a v à o c á c h e u r i s t i c s c h í n h l à : k ý t ự c ó d ấ u
g õ t ố n c ô n g h ơ n k h ô n g d ấ u ( g õ 2 l ầ n t h e o T e l e x h o ặ c V n i ) , m ỗ i k ý t ự c ó d ấ u g ầ n
v ớ i m ộ t k ý t ự k h ô n g d ấ u t ư ơ n g ứ n e h ơ n l à v ó i n h ữ n g k ý t ự c ò n l ạ i ( v í d ụ " ã " v ớ i
" a " , " đ " v ớ i " d " , V . V . ) , p h é p t h a y t h ế c h ỉ x ả y r a v ớ i c á c k ý t ự g ầ n n h a u t r ê n b à n
23
p h í m ( b — > V, n ; c — > X , v ; V .V .). D ấ u t h a n h đ ư ợ c t á c h r i ê n g v à t í n h g i á r i ê n g . C á c
g i á n à y đ ư ợ c t í n h t r ư ớ c v à l ư u t h à n h c á c b ả n g , c ó b ố n b ả n g g i á c h o b ố n p h é p t o á n .
V i ệ c t í n h t o á n c á c t ậ p n h ầ m l ẫ n â m t i ế t l à o f f - t i m e . G i ả s ử V l à s ố â m t i ế t t r o n g t ừ
đ i ể n , L l à đ ộ d à i c ự c đ ạ i c ủ a m ộ t â m t i ế t , k h i đ ó đ ộ p h ứ c t ạ p c ủ a t h ủ t ụ c t ạ o t ậ p
n h á m l ẫ n á m t i ế t c h o m ộ t á m t i ế t l à 0(VL2). Đ ộ p h ứ c t ạ p c ủ a t h ủ t ụ c t ạ o t ấ t c ả c á c
t ậ p n h ầ m l ẫ n â m t i ế t t à : 0{V2L2).
T h e o t ừ đ i ể n c h í n h t ả c ủ a H o à n g - P h ê (1999) t h ì L=7 v à v=6718, k h i đ ó s ố p h é p
t í n h s ẽ l à 2.211. 4 4 0 . 0 0 0 p h é p t í n h . H o à n t o à n c h ấ p n h ậ n đ ư ợ c .
Ví du l :
 m t i ế t : c h u ộ t
C á c t h à n h p h ầ n : c h , u ô , t , j ( d ấ u n ặ n g )
N g ư ỡ n g k h o ả n g c á c h s o ạ n t h ả o : 3
T ậ p n h ầ m l ẫ n : c h ộ t ( 2 ) , c h u ố t ( 2 ) , c h ụ t ( 3 ) , c h ọ t ( 3 )
Ví du 2:
 m t i ế t : v ư ờ n
C á c t h à n h p h ầ n : V , ư ơ , n , f ( d ấ u h u y ề n )
N g ư ỡ n g k h o ả n ơ c á c h s o ạ n t h ả o : 3
T ậ p n h ầ m l ẫ n : v ư ơ n ( 1 ) , v ư ợ n ( 2 ) , ư ờ n ( 2 ) , b ư ơ n ( 3 ) , v ư ơ n g ( 3 )

T ậ p n h ầ m l ẫ n d o s o ạ n t h ả o k h ô n g c ó t í n h đ ố i x ứ n g b ở i v ì n ó c ó t h ể c h ứ a n h ữ n g c ặ p
á m t i ế t m à k h o ả n g c á c h s o ạ n t h ả o g i ữ a c h ú n g v ư ợ t n g ư ỡ n g . T r o n g v í d ụ 2 ở t r ê n ,
k h o ả n g c á c h s o ạ n t h ả o c ủ a c ậ p ( " ư ờ n " , " v ư ơ n g " ) l à 5 .
1.2 Nhầm lẫn do phát âm
Ở c ấ p đ ộ á m t i ế t n ó i c h u n g c ó s ự đ ố i ứ n g m ộ t - m ộ t g i ữ a á m v à c h ữ , " p h á t â m t h ế
n à o t h ì v i ế t t h ế ấ y " . Đ ố i v ớ i n g ư ờ i V i ệ t N a m c h ú n g t a , c ó m ộ t s ố l ư ợ n g l ớ n â m t i ế t
a i c ũ n g v i ế t đ ú n g c h í n h t ả d ễ d à n g . C h ỉ c ó v ấ n đ ề c h í n h t ả t r o n g h a i t r ư ờ n g h ợ p
( H o à n g P h ê , 1 9 9 9 ) :
- K h i c h ữ v i ế t p h â n b i ệ t â m t i ế t m à p h á t â m t h e o m ộ t p h ư ơ n g n g ữ n à o đ ó l ạ i
k h ô n 2 p h â n b i ệ t . C h o n ê n v ớ i n h ữ n g p h ư ơ n g n g ữ k h á c n h a u c ó n h ữ n g v ấ n đ ề
c h í n h t ả k h á c n h a u . T r o n g k h i v ớ i n g ư ờ i n ó i p h ư ơ n g n g ữ m i ề n B ắ c c ó c á c v ấ n
đ ề c h í n h t ả " v i ế t c h - h a y t r - " , " v i ế t - i ê u h a y - ư ơ u " , v . v . t h ì v ớ i n g ư ờ i n ó i p h ư ơ n g
24
n g ữ m i ề n N a m l ạ i c ó c á c v ấ n đ ề " v i ế t - n h a y - n g " , " v i ế t d ấ u h ỏ i h a y d ấ u n g ã " ,
v . v .
- K h i c h ữ v i ế t p h â n b i ệ t â m t i ế t m à p h á t â m t i ế n g V i ệ t n g à y n a y k h ô n g c ò n p h â n
b i ệ t , đ ó l à t r ư ờ n g h ợ p " v i ế t đ - h a y g i - " , m ộ t v ấ n đ ề c h í n h t ả c h u n g c h o m ọ i
m i ề n t r o n g c ả n ư ớ c .
T ừ đ i ể n C h í n h t ả T i ế n g V i ệ t ( H o à n g P h ê , 1 9 9 9 ) đ ư ợ c t ổ c h ứ c t h e o c á c v ấ n đ ề
c h í n h t ả c ụ t h ể c ủ a c á c p h ư ơ n g n g ữ , t r o n g đ ó c ó đ ầ y đ ủ c á c t ậ p n h ầ m l ẫ n â m t i ế t
d o p h á t â m . C h ú n g t ô i đ ã s ử d ụ n g d ữ l i ệ u n à y t r o n g c á c t h í n g h i ệ m c ủ a m ì n h .
B ả n g c á c v ấ n d ẻ c h í n h t ả :
C H - T R -
D -
G I -
D - G I -
N H -
D -
G I - R -
D -

G I -
V -
H A V -
N G -
Q U - W -
L - N -
s -
X -
-c
- T
- N
- N G
- A I
- A Y
- E M
- Ê M
- Ê C H - Ê T
- I Ê M - I M
- E Ê U
- I U
- I Ê U
- U Ö U
- O A I
- O I
- O M - Ô M - Ơ M
H Ỏ I
N G Ã
N C , Ã
N Ặ N G
Đ ặ c đ i ể m c ủ a t ậ p n h ầ m l ẫ n d o p h á t â m l à t í n h đ ố i X Ú T 1 2 , t ứ c l à m ỗ i â m t i ế t t r o n g

t ậ p n à y c ó t h ể n h ầ m v ớ i c á c â m t i ế t c ò n l ạ i .
25
Ví (ỉu:
 m t i ế t : " d a m "
T ậ p n h ầ m l ẫ n : " g i a m "
 m t i ế t : " n h ò m "
T ậ p n h ầ m l ẫ n : " n h ổ m " , " n h ờ m "
 m t i ế t : " c h ư ơ n g "
T ậ p n h ầ m l ẫ n : " t r ư ơ n g "
1.3 Nhầm lẫn của các hệ nhận dạng chữ
C á c h ệ n h ậ n d ạ n g c h ữ c ó k i ể u n h ầ m l ẫ n r i ê n g , v í d ụ " D " t h à n h " O " , " r i " t h à n h " n " .
Đ ể t í n h t ậ p n h ầ m l ẫ n , t a c ó t h ể d ù n g m ô h ì n h c ủ a B r i l l v à c ộ n g s ự ( 2 0 0 1 ) . M ô h ì n h
n à y s ử d ụ n g c h ỉ m ộ t t h a o t á c t h a y t h ế x â u b ở i x â u t h a y v ì s ử d ụ n g b ố n p h é p t o á n
n h ư t r ê n .
2. Kiểm ỉỗi chính tả dựa vào từ điển
Đ â y l à p h ư ơ n g p h á p k i ể m l ỗ i t ừ đ ơ n g i ả n n h ấ t . H a i ý t ư ở n g c h í n h c ủ a n ó n h ư s a u :
- C ó k h ả n à n g m ộ t á m t i ế t l à l ỗ i n ế u t ổ n t ạ i â m t i ế t t r o n g t ậ p n h ầ m l ẫ n c ủ a n ó k ế t
h ợ p v ớ i c á c â m t i ế t x u n g q u a n h t ạ o t h à n h t ừ g h é p .
N ế u c â u k h ỏ n c c h i a đ ư ợ c t h à n h d ã y t ừ t h ì c ó k h ả n ă n g á m t i ế t ở v ị t r í b ị n g ắ t l à
l ỗ i ( N g u v ễ n C ô n g T ú , 1 9 9 8 ) .
Ví du 1 :
" M i c r o s o f t v ừ a r a m ắ t h ệ diều h à n h m ớ i "
X é t t ậ p n h ầ m l ẫ n c ủ a â m t i ế t " d i ề u " , t a t h ấ y c ó â m t i ế t " đ i ề u " k ế t h ợ p v ớ i c á c á m
t i ế t " h ệ " v à " h à n h " t ạ o t h à n h t ừ " h ệ đ i ề u h à n h " , v ậ y c ó k h ả n ă n g " d i ề u " l à s a i .
Ví du 2:
" S ả n p h ẩ m n à y c ó tổn d o a n h s ố c a o "
T a d ễ n h â n t h ấ y " t ổ n " k h ô n g t h u ộ c v ề m ộ t t ừ n à o c ả , c h o n ê n c ó k h ả n ă n g đ ó l à â m
t i ế t l ỗ i ( c â u k h ô n g p h â n đ o ạ n đ ư ợ c t ạ i â m t i ế t n à y ) .
26

×