-1-
B
GIÁO D C VÀ ĐÀO T O
Đ I H C ĐÀ N NG
ĐINH TH M H NH
TÌM HI U HI N TƯ NG NH P NH NG
TRONG TI NG VI T VÀ KH NĂNG KH C PH C
TRONG SO N TH O VĂN B N
Chuyên ngành
Mã s
: KHOA H C MÁY TÍNH
: 60.48.01
TĨM T T LU N VĂN TH C SĨ K THU T
Đà N ng - Năm 2011
-2-
Cơng trình đư c hồn thành t i
Đ I H C ĐÀ N NG
Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH
Ph n bi n 1: PGS.TS. Võ Trung Hùng
Ph n bi n 2: TS. Trương Cơng Tu n
Lu n văn đư c b o v trư c H i ñ ng ch m Lu n văn t t
nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19
tháng 6 năm 2011.
* Có th tìm hi u lu n văn t i:
- Trung tâm Thông tin - H c li u, Đ i h c Đà N ng
- Trung tâm H c li u, Đ i h c Đà N ng.
-3-
M
Đ U
1. Lý do ch n ñ tài
Trong h th ng ngôn ng trên th gi i hi n nay, ti ng Vi t
ñư c xem là m t trong nh ng ngơn ng có s phong phú và đa d ng.
Chính s phong phú và ph c t p c a ti ng Vi t ñã d n ñ n nh ng
khó khăn cho c ngư i s d ng theo cách thông thư ng và khi x lý
trên máy tính.
Do nh ng nh hư ng c a l ch s hình thành và phát tri n,
ti ng Vi t có tính lai t p v m t ngơn ng г t cao, ñ c bi t nh
hư ng t ti ng Hán và ti ng Pháp. S ña nghĩa trong ti ng Vi t cũng
chính là m t ñ c ñi m n i b t. Ngoài ra, do thói quen s d ng c a
m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i
nh t ñ nh, th m chí s thi u nh t quán trong cách nói, cách vi t.
Ti ng Vi t ngày nay còn b
nh hư ng b i thói quen s d ng
ngơn ng trên Internet ho c các thi t b truy n thông hi n ñ i như
ñi n tho i di ñ ng, ñi u này làm xu t hi n thêm nhi u t m i ñư c
ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i
tr như câu “Bu i sinh nh t hôm nay vui wá!”.
S nh p nh ng trong khi nói, vi t ho c di n ñ t ý nghĩ ñã d n
ñ n nh ng s hi u l m
nhi u m c ñ khác nhau. Và cũng chính
nh ng đ c đi m nói trên đã làm cho ti ng Vi t v n ñã ph c t p l i
càng ph c t p hơn, ñ c bi t là m t s y u t đã làm m t đi tính trong
sáng và giá tr t t ñ p v n có c a ti ng Vi t.
Gìn gi s trong sáng c a ti ng Vi t là m t yêu c u và nhi m
v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa,
ngơn ng l n nh ng ngư i s d ng thông thư ng.
Xu t phát t
nh ng phân tích và quan sát trên, nhi m v
nghiên c u c a đ tài “Tìm hi u hi n tư ng nh p nh ng trong
-4ti ng Vi t và kh năng kh c ph c trong so n th o văn b n” là tìm
hi u v nh ng v n đ cơ b n trong x lý ngôn ng , x lý ti ng Vi t,
ñ c bi t là v n ñ “nh p nh ng” trong ti ng Vi t, t ñó ñ xu t m t
gi i pháp ñ kh c ph c trong quá trình so n th o văn b n cho m t s
trư ng h p c th c a hi n tư ng nh p nh ng.
2. M c tiêu c a ñ tài
Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý
ti ng Vi t. Tác gi cũng b nhi u th i gian nghiên c u v các hi n
tư ng nh p nh ng thư ng x y ra trong ti ng Vi t. Đ tài còn nghiên
c u các kh năng x lý nh p nh ng và xây d ng ng d ng h tr x
lý nh p nh ng ti ng Vi t trong m t ph m vi h p.
3. Ph m vi và gi i h n c a ñ tài
V n ñ nh p nh ng trong ti ng Vi t có r t nhi u trư ng h p,
tuy nhiên trong ph m vi c a ñ tài này tác gi gi i h n l i m t s n i
dung sau ñây:
V m t lý thuy t: Tìm hi u lý thuy t v XLNN và XLTV, l ch
s hình thành và phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v các
v n ñ liên quan ñ n hi n tư ng nh p nh ng trong ti ng Vi t; Tìm
hi u nh ng v n đ cơ b n v so n th o văn b n, ph n m m so n th o
văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN do vi t sai l i chính
t ti ng Vi t (gi i h n nh ng l i chính t
c p đ âm ti t) và HTNN
do xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t.
V m t chương trình: Xây d ng ng d ng h tr x lý nh p
nh ng gây ra do l i chính t v m t âm ti t, ñ ng th i chương trình
h tr vi c tách văn b n thành các t ñ c l p ñ ngư i s d ng d
dàng hi u n i dung văn b n. K t qu c a vi c tách t s ñư c s
d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n đ phân
tích nh p nh ng v phân lo i t và cú pháp câu.
-54. Phương pháp nghiên c u
Thu th p, tìm hi u, phân tích các tài li u và thơng tin có liên
quan đ n đ tài; Phân tích và thi t k h th ng chương trình; Tri n
khai xây d ng chương trình; Ki m th , nh n xét và ñánh giá k t qu .
5. Ý nghĩa khoa h c và th c ti n c a ñ tài
Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ cơ b n trong x lý
ti ng Vi t, x lý nh p nh ng trong ti ng Vi t; Đ xu t ñư c gi i
pháp ñ h tr x lý m t s hi n tư ng nh p nh ng trong so n th o
văn b n ti ng Vi t.
Ý nghĩa th c ti n: Hi u và ng d ng ñư c nh ng ki n th c
n n t ng trong x lý ti ng Vi t ñ x lý nh p nh ng trong ti ng Vi t;
ng d ng chương trình này đ h tr x lý nh p nh ng trong
Có th
so n th o văn b n ti ng Vi t; Có ý nghĩa trong vi c b o t n và phát
huy các giá tr c a ti ng Vi t.
6.
B c c lu n văn
M ñ u
Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên
Chương 2: So n th o văn b n và hi n tư ng nh p nh ng trong
so n th o văn b n
Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng
K t lu n.
-6CHƯƠNG 1:
CƠ S
LÝ THUY T V X
1.1.
X
LÝ NGÔN NG
LÝ NGÔN NG
T
T
NHIÊN
NHIÊN
1.1.1. Khái ni m
1.1.2. Các bư c x lý
1.1.3. Các bài tốn và ng d ng
1.2.
TÌM HI U V TI NG VI T VÀ V N Đ X
LÝ
TI NG VI T
1.2.1. S hình thành c a ti ng Vi t
1.2.2. Đ c ñi m c a ti ng Vi t
1.2.2.1. Đ c ñi m ng âm
1.2.2.2. Đ c ñi m t v ng
1.2.2.3. Đ c ñi m ng pháp
1.2.3. T trong ti ng Vi t
1.2.3.1. Khái ni m
T là ñơn v nh nh t có nghĩa, có k t c u v ng âm b n
v ng, hoàn ch nh, có ch c năng g i tên, đư c v n d ng ñ c l p, tái
hi n t do trong l i nói đ t o câu[7].
1.2.3.2. Đơn v c u t o
Đơn v cơ s ñ c u t o t ti ng Vi t là các ti ng, cái mà ng
âm h c v n g i là các âm ti t.
1.2.3.3. Phương th c c u t o
1.2.4. Bi n th c a t
1.3.
HI N TƯ NG NH P NH NG TRONG X
LÝ
VĂN B N TI NG VI T
1.3.1. Khái ni m
Nh p nh ng là hi n tư ng mà khi nói, vi t ho c di n t nh ng
t ng , ý nghĩ mơ h , khơng rõ nghĩa ho c có nhi u nghĩa làm cho
-7ngư i đ c ho c ngư i nghe khơng phân bi t rõ ràng, gây ra s
hi u l m.
Khái ni m nh p nh ng cũng có th hi u theo m t cách khác
như sau: trong m i lĩnh v c, các v n ñ thư ng ñư c ñ c p, trình
bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n này có th đư c
quy ư c b ng văn b n ho c quy ư c ng m đ nh. Khi đó t t c nh ng
cách hi u, cách đ c p ho c trình bày v n đ n m ngồi ph m vi
chu n đó đư c xem là nh p nh ng.
1.3.2. M t s hi n tư ng nh p nh ng
1.3.2.1. Hi n tư ng nh p nh ng do vi t sai chính t
ti ng Vi t
Vi c vi t sai l i chính t ti ng Vi t ñang
m c ñáng báo
ñ ng, hi n tư ng này không nh ng di n ra ph bi n trong gi i tr ,
ñ c bi t trong gi i tr s d ng internet mà còn xu t hi n nhi u trên
các phương ti n thơng tin đ i chúng và các văn b n c a Nhà nư c.
Chính nh ng sai sót v chính t này có th gây ra nh ng nh p nh ng
trong vi c ti p nh p thông tin.
Trong c ng ñ ng s d ng m ng Internet cũng hình thành m t
l p t m i chưa có trong t ñi n ti ng Vi t, ñi u này cũng d n đ n
nh ng thói quen s d ng t ng không t t trong ngư i s d ng, đ c
bi t gi i tr .
Có nh ng trư ng h p sai chính t có th d n ñ n nh ng h
qu x u như hình thành thói quen nói sai, vi t sai và hi u sai v n ñ .
1.3.2.2. Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a
các t
Trong m t s ngôn ng như ti ng Anh, vi c xác ñ nh ranh
gi i, ph m vi gi a các t khá d dàng, m i t riêng l ñã mang tr n
v n m t nghĩa và ranh gi i c a chúng đư c xác đ nh thơng qua
-8kho ng tr ng. Ti ng Vi t thì khác, do là ngơn ng đơn l p nên t
v ng ch y u là các t ghép vì th kho ng tr ng không ph i luôn
luôn là ranh gi i chính xác.
Trong ti ng Vi t, vi c xác ñ nh chính xác ph m vi, ranh gi i
gi a các t có th h tr r t nhi u cho q trình kh nh p nh ng, đ c
bi t đ i v i ngơn ng vi t. Đây cũng chính là m c đích chính mà báo
cáo này mu n ñ c p ñ n.
1.3.2.3. Hi n tư ng nh p nh ng do tính đa nghĩa c a t
B t c ngơn ng nào cũng có t đa nghĩa, ngun nhân là vì
r t nhi u khái ni m có các s c thái ý nghĩa tuy khơng hồn tồn trùng
kh p nhau nhưng l i có nhi u nét tương đ ng. Hi n tư ng này gây
c n tr cho vi c d ch t đ ng, chương trình khơng bi t d ch t đa
nghĩa theo nghĩa nào trong nhóm nghĩa c a nó.
1.3.2.4. Hi n tư ng nh p nh ng ng nghĩa khi s d ng các
t ñ ng âm
Hai t ñ ng âm v i nhau nghĩa là hai t có âm gi ng nhau
nhưng mang nghĩa khác nhau, cịn ñ ng t là hai t v m t ký t là
gi ng nhau nhưng nghĩa khác nhau. Do ñ c ñi m c a ti ng Vi t t
ñ ng âm cũng thư ng là t ñ ng t ,
các ngôn ng khác hai hi n
tư ng này không trùng kh p nhau.
Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, trong t ña
nghĩa, các nghĩa ñ u có chung m t ngu n g c và do v y ln có nét
tương ñ ng trong khi ñó trong t ñ ng t chúng khơng có liên h v
ngu n g c v i nhau, nghĩa c a chúng khác nhau rõ r t.
Ví d 1
T “ki m” trong hai câu sau đây là hai t ñ ng t :
Anh ta s d ng ki m r t ñiêu luy n.
Ki m ăn bây gi khó l m.
-91.3.2.5. Hi n tư ng nh p nh ng trong cách phân bi t t lo i
T lo i là m t y u t quan tr ng trong vi c xác đ nh nghĩa
chính xác c a t và s p x p các t thành câu hoàn ch nh trong d ch
t ñ ng.
T lo i giúp kh nh p nh ng, nhưng chính b n thân nó trong
m t s trư ng h p cũng nh p nh ng. V i các ngơn ng khơng bi n
hình như ti ng Vi t, v n ñ xác ñ nh t lo i yêu c u các thu t toán
ph c t p hơn, b t bu c ph i phân tích cú pháp. M t khác, ngay trong
n i b ngành ngơn ng v n chưa có s th ng nh t v phân lo i t
lo i cho ti ng Vi t.
1.3.2.6. Hi n tư ng nh p nh ng khi s d ng ti ng Vi t
không d u
Ngày nay, vi c gõ ti ng Vi t khơng d u tr nên ph bi n hơn,
đ c bi t trên các ng d ng Internet ho c ñi n tho i di ñ ng như
email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác
nhanh hơn, nhưng trong m t s trư ng h p nó l i gây ra nh ng s
hi u nh m tai h i ñ i v i ngư i ñ c.
1.3.2.7. Hi n tư ng nh p nh ng v s v n d ng
Cùng m t câu nhưng khi s d ng trong các hồn c nh khác
nhau c a ngơn ng nói ho c ngơn ng vi t, n u khơng bi t cách s
d ng m t cách phù h p cũng s gây ra s “nh p nh ng”, s hi u l m
cho ngư i ñ c ho c ngư i nghe. Hi n tư ng này ñ c bi t ph bi n
trong ti ng Vi t, vì ti ng Vi t v n đa nghĩa, đa s c thái và có tính
bi u c m r t cao. Đi u này địi h i ngư i s d ng ngôn ng m t s
khéo léo và tinh t nh t đ nh, có s hi u bi t
m t m c ñ c n thi t
ñ có th t n d ng h t nh ng giá tr bi u đ t c a ngơn ng .
- 10 1.3.2.8. Hi n tư ng nh p nh ng trong phân tích cú pháp
ti ng Vi t
Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng
x y ra
nhi u m c, t m c t , t lo i ñ n m c cú pháp câu. Đi u
này d n ñ n m t câu có th đư c phân tích theo nhi u cách khác
nhau, trong khi ch có m t vài cách phân tích trong s đó đúng.
1.4.
K T LU N CHƯƠNG
Chương này trình bày khái ni m và các bư c đ x lý ngơn
ng t nhiên, các bài tốn liên quan đ n x lý ngơn ng t nhiên như
nh n d ng ti ng nói, t ng h p ti ng nói, d ch t đ ng, tìm ki m văn
b n, tóm t t văn b n… Ngồi ra cịn trình bày v s hình thành, phát
tri n và m t s ñ c ñi m n i b t c a ti ng Vi t. Chương 1 còn dành
m t s lư ng l n các trang đ trình bày khái ni m cũng như nh ng
hi n tư ng nh p nh ng ph bi n nh t trong x lý văn b n ti ng Vi t.
- 11 CHƯƠNG 2:
SO N TH O VĂN B N VÀ HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N
2.1.
M TS
V N Đ V SO N TH O VĂN B N
2.1.1. Đ t v n ñ
2.1.2. Khái ni m ký t , t , câu, dịng, đo n
2.1.3. Ngun t c t xu ng dòng c a t
2.1.4. M t s quy t c gõ văn b n cơ b n
2.1.5. Ph n m m so n th o văn b n
2.2.
HI N TƯ NG NH P NH NG TRONG SO N
TH O VĂN B N
Nh ng m c ñ nh p nh ng trong STVB: Trong quá trình
so n th o văn b n, hi n tư ng nh p nh ng có th x y ra
nhi u m c
ñ khác nhau:
M c m t, nh p nh ng x y ra do sai sót v t , c m t , sai sót
ch vi t t t, cách vi t ngày tháng năm, vi t các ký hi u. M c hai,
nh p nh ng
m c ñ cú pháp câu. M c ba, nh p nh ng v m t
ng nghĩa.
2.3.
CÁCH PHÁT HI N HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N
Th nh t, phát hi n HTNN trư c khi ti n hành STVB. Q
trình này chính là kh nh p nh ng trong tư duy, suy nghĩ c a ngư i
so n th o, nói chính xác hơn thì trong trư ng h p này, b n thân
ngư i so n th o ph i t tìm cách đ kh nh p nh ng b ng cách n m
v ng các quy t c v chính t ti ng Vi t, quy t c STVB, hi u bi t v
ngôn ng ti ng Vi t và bi t cách v n d ng phù h p. N u b n thân
ngư i so n th o khơng th t tìm và kh đư c nh ng nh p nh ng
- 12 trong tư duy, suy nghĩ thì có th trao đ i v i ngư i khác đ có cách
trình bày v n đ chính xác hơn.
Th hai, phát hi n HTNN trong quá trình STVB. N u ch s
d ng ph n m m h tr STVB ti ng Vi t (mà không s d ng kèm
m t chương trình h tr tìm và kh nh p nh ng cho văn b n ti ng
Vi t nào khác) thì ch có m t cách đ phát hi n nh p nh ng là ngư i
s d ng ph i t làm th công. Tuy nhiên cách làm này s khơng đem
l i nhi u hi u qu và đ chính xác khơng cao. Do đó nh t thi t ph i
có m t chương trình h tr phát hi n và kh nh p nh ng ñi kèm.
Th ba, phát hi n HTNN sau khi vi c STVB hoàn t t. Nghĩa
là ngư i s d ng s m t p văn b n ñã so n th o, sau đó g i ch c
năng phát hi n nh p nh ng đ x lý.
Theo tìm hi u c a tác gi , hi n nay v n chưa có m t h th ng
hay chương trình nào có th x lý đư c t t c các HTNN trong
STVB ti ng Vi t. Các k t qu ñã có cũng ch m i là nh ng gi i pháp
cho m t s trư ng h p c th .
2.4.
CÁC GI I PHÁP X
LÝ NH P NH NG ĐÃ CĨ
TRƯ C ĐÂY
Trong bài báo “Phân tích cú pháp ti ng Vi t s d ng văn
ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi
đã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng và các hi n
tư ng cú pháp ph thu c t trong phân tích cú pháp ti ng Vi t. Bài
báo ñ xu t vi c xây d ng m t cơng c phân tích cú pháp d a trên
văn ph m phi ng c nh v i lu t có ch a thơng tin v xác su t và
t v ng.
Trong tài li u [24], nhóm tác gi đã trình bày chi ti t các th
nghi m v gán nhãn t lo i cho các văn b n ti ng Vi t b ng cách áp
d ng b gán nhãn QTAG. Công vi c gán nhãn t lo i cho m t văn
- 13 b n là xác ñ nh t lo i c a m i t trong ph m vi văn b n đó. Khi h
th ng văn b n ñã ñư c gán nhãn, hay nói cách khác là đã đư c chú
thích t lo i thì nó s ñư c ng d ng r ng rãi trong các h th ng tìm
ki m thơng tin, trong các ng d ng t ng h p ti ng nói, các h th ng
nh n d ng ti ng nói cũng như trong các h th ng d ch máy. Đ ti n
hành vi c gán nhãn t lo i, nhóm tác gi ñã ti n hành ba bư c: Phân
tách xâu ký t thành các t , gán nhãn tiên nghi m, quy t ñ nh k t
qu gán nhãn, t c lo i b nh p nh ng.
Văn b n ñã ñư c phân ño n t
(WORD SEGMENTED TEXT)
T p lu t nh n di n POS
Mơ hình gán nhãn cho t
(POS Tagging Model)
Kho ng li u ti ng Vi t
Văn b n ñã ñư c gán t lo i
(POS TAGGED TEXTS)
Hình 2.1. Mơ hình t ng qt bài toán gán nhãn t lo i
2.5.
K T LU N CHƯƠNG
Chương 2 trình bày nh ng v n đ cơ b n v so n th o văn
b n, khái ni m v ký t , t , câu, dịng, đo n. Trong chương này cịn
trình bày khái ni m v hi n tư ng nh p nh ng trong ti ng Vi t.
Ngồi ra cịn trình bày m t s hi n tư ng nh p nh ng ph bi n trong
ti ng Vi t, qua đó chúng ta có th th y r ng hi n tư ng nh p nh ng
khá ph bi n và r t khó ñ x
lý m t cách tri t ñ . Ph n cu i
chương, tác gi đã trình bày nh ng k t qu nghiên c u v v n ñ x
lý nh p nh ng trong ngơn ng t
nói riêng.
nhiên nói chung và ti ng Vi t
- 14 CHƯƠNG 3:
Đ XU T GI I PHÁP KH C PH C NH P NH NG
3.1.
GI I THI U VÀ PHÂN TÍCH BÀI TỐN
Trong s các hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n
trong chương 2, trong ph n này, tác gi ch ch n m t s hi n tư ng
nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c. Đó là nh p
nh ng do vi t sai l i chính t ti ng Vi t
c p ñ âm ti t (vi t
nh ng âm ti t khơng có trong ti ng Vi t) và nh p nh ng do
không xác ñ nh ñư c ph m vi, ranh gi i gi a các t
trong
văn b n.
N u xem nh ng quy t c v chính t ti ng Vi t là mi n chu n,
và nh ng gì n m trong mi n chu n y ñư c ch p nh n và khơng gây
nh p nh ng thì nh ng trư ng h p vi t sai chính t ti ng Vi t n m
ngoài mi n chu n (t c vi t sai chính t ) đ u ñư c xem là
nh p nh ng.
Trong ph m vi báo cáo này, tác gi x lý m t ph n các l i
chính t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng,
đó là x lý l i chính t
m c âm ti t ti ng Vi t. Ví d có th phát
hi n ra l i chính t c a t và đưa ra m t lo t g i ý ñ ngư i s d ng
ch nh s a l i.
Xét m t ví d v hi n tư ng nh p nh ng do khơng xác đ nh
đư c ph m vi, ranh gi i gi a các t .
Ví d 32
Ngư i dân thu c đ a bàn đơ th có m c thu nh p bình qn
đ u ngư i cao hơn vùng nơng thơn.
Trong ví d 32, m t s đ i tư ng, ví d tr em có th s xác
đ nh khơng đúng ph m vi gi a các t s d n ñ n hi u sai (nh p
nh ng) n i dung câu. C m t thu c đ a bàn s có hai cách phân tách,
- 15 th nh t là thu c/ ñ a bàn (nghĩa là n m trên ñ a bàn nào ñó), th hai
là thu c ñ a/ bàn (nghĩa là ngư i dân
thu c ñ a bàn b c v đi u gì
đó, đây là cách phân tách sai trong ng c nh trên). Trong ti ng Vi t
t n t i khá nhi u nh ng c m t tương t như trên.
Do đó, khi xác đ nh đúng ph m vi t s ñ c ñúng và hi u
ñúng, nghĩa là tránh ñư c nh p nh ng. Gi i quy t đư c bài tốn v
xác đ nh ph m vi, ranh gi i t s là cơ s quan tr ng ñ th c hi n
gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t.
Gi i quy t bài tốn:
Bài tốn bây gi đư c chia làm hai bư c x lý:
- X lý l i chính t ti ng Vi t m c âm ti t
- Phân tách văn b n thành các t ñ c l p
Kho d li u
âm ti t
ti ng Vi t
Văn b n
c n x lý
Đ U VÀO
T ñi n
ti ng Vi t
X lý l i chính t
TV m c âm ti t
QUÁ TRÌNH X
Tách văn b n thành
các t riêng bi t
LÝ
Văn b n
ñã ñư c
x lý
nh p nh ng
(*)
Đ U RA
Giao di n
ngư i s d ng
Ngư i
s d ng
Hình 3.1. Mơ hình ki n trúc t ng quan c a quá trình x lý
Gi i h n ph m vi gi i quy t c a bài toán:
Khái ni m văn b n ñư c ñ c p ñ n trong báo cáo này là văn
b n ch ch a ch , khơng ch a hình v .
- 16 Chương trình cũng chưa x lý các đ nh d ng c a văn b n
ñ u vào.
Th i đi m x lý văn b n: Chương trình ñư c tích h p trong
ng d ng Microsoft Word và chương trình s l y n i dung văn b n
ñư c so n th o s n ñ x lý. Ngư i s d ng có th tùy ch n ti n
hành ki m l i chính t m c âm ti t ñ i văn b n ñ u vào, sau ñó ti n
hành phân tách t . Chương trình khơng đư c g i th c thi m t cách t
đ ng mà c n có thao tác c a ngư i s d ng.
Lo i nh p nh ng đư c x
lý: bài tốn gi i quy t s
nh ng gây ra do sai sót v l i chính t ti ng Vi t
nh p
m c âm ti t và h
tr x lý nh p nh ng có th có do khơng xác đ nh ñư c ph m vi,
ranh gi i gi a các t trong ti ng Vi t.
Kho d li u ti ng Vi t:
Chương trình dùng 2 kho d li u h tr cho quá trình x lý:
Kho d li u âm ti t ti ng Vi t: lưu hơn 10.000 âm ti t ti ng
Vi t, h tr cho ch c năng tìm và s a l i, đ ng th i có th đư c c p
nh p thêm t m i thông qua bư c x lý l i chính t . Các âm ti t
đư c lưu
b ng mã Unicode.
T ñi n ti ng Vi t h tr ch c năng tách t g m g n 24.000 t
ti ng Vi t. Ngồi ra, đ h tr t t hơn cho vi c tách t , tác gi còn b
sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n.
3.2.
THI T K CƠ S
D
LI U VÀ CÁC THU T
TỐN CHÍNH
3.2.1. Thi t k cơ s d li u
Cơ s d li u cho bài tốn tương đ i ñơn gi n, d li u ñư c
chia thành 2 ph n riêng bi t, m t ph n ph c v cho ch c năng ki m
l i chính t ti ng Vi t
m c âm ti t, m t ph n ph c v cho ch c
năng tách t trong văn b n.
- 17 3.2.1.1. D li u cho ch c năng ki m l i chính t ti ng Vi t
m c âm ti t
D li u cho ch c năng x lý nh p nh ng do sai l i chính t
ti ng Vi t
m c âm ti t g m 1 b ng AmTiet (Âm ti t) ch a t t c
các âm ti t có trong ti ng Vi t.
AM_TIET
STT
Am_Tiet
Hình 3.4 D li u lưu các âm ti t ti ng Vi t
B ng 3.1. B ng t ñi n d li u
Tên trư ng
Ki u d li u
Kích thư c
STT
Autonumber
Integer
Th t c a m c t
Am_Tiet
Text
10
Âm ti t ti ng Vi t
Gi i thích
3.2.1.2. D li u cho ch c năng tách t trong văn b n
Đ ph c v cho gi i thu t này, ta c n xây d ng cơ s d li u
ch a t t c các t có trong ti ng Vi t. Tác gi xây d ng kho d li u
này trên cơ s t p tin d li u c a ph n m m VietDict c a tác gi H
Ng c Đ c, t i mi n phí t i ñ a ch . T p tin này
ñư c lưu v i đi *.txt, ch a g n 24.000 t và gi i thích t (Vi t –
Vi t), c u trúc trình bày g n gi ng các quy n t ñi n ti ng Vi t.
Tác gi ñã vi t m t th t c ñơn gi n đ ti n hành tìm và tách
l y t t c các t ti ng Vi t trong t p tin ñ lưu vào cơ s d li u. Đây
chưa ph i là t t c các t có trong ti ng Vi t, ch là d li u đ demo
chương trình.
D li u c a ch c năng tách t là 1 b ng d li u ch a các t có
trong ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m 3 trư ng d li u
- 18 là s th t , m c t Word và kích thư c c a t Length. Ví d t
ban mai có Length =2, t s ch sành sanh có Length =3. Trư ng
Length dùng ph c v cho m t s gi i thu t c a chương trình.
TuTV
stt
Word
Lenght
Hình 3.5 D li u ch a các t ti ng Vi t
M i b ng đ u có 2 trư ng d li u:
B ng 3.2. T ñi n d li u
Tên trư ng
Ki u d li u
Kích thư c
stt
Autonumber
Integer
Th t m c t
Word
Text
30
T ti ng Vi t
Length
Number
Byte
Kích thư c t
Gi i thích
B ng d li u này ch có m c đích là lưu tr d li u. D li u
ñư c lưu
b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d
li u c a ph n ki m l i chính t ti ng Vi t đã trình bày
ph n trên
c a báo cáo.
3.2.2. Các gi i thu t chính
3.2.2.1. Gi i thu t tìm và h tr s a l i chính t ti ng Vi t
m c âm ti t
3.2.2.2. Thu t tốn xác đ nh t trong văn b n
3.2.2.3. Thu t tốn tách đo n văn b n thành các t
riêng bi t
Đây là ch c năng chính c a chương trình. Trư c khi trình bày
gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i
thu t mà tác gi đã tìm hi u đư c liên quan ñ n v n ñ này.
- 19 Theo tài li u [23], nhóm tác gi này đã ti n hành xây d ng
otomat đốn nh n t v ng, ph c v cho vi c tách t v ng trong văn
b n ti ng Vi t. Tư tư ng c a thu t toán tách t v ng là quy vi c
phân tách câu v vi c tìm đư ng đi trên m t đ th có hư ng, khơng
tr ng s .
Gi s câu ban ñ u là m t dãy g m n+1 âm ti t s0, s1, ...,
sn. Ta xây d ng m t đ th có n+2 đ nh v0, v1, ..., vn, vn+1, s p th
t trên m t ñư ng th ng t trái sang ph i; trong đó, t đ nh vi đ n
đ nh vj có cung (i < j) n u các âm ti t si, si+1, ..., sj-1 theo th t l p
thành m t t . Khi đó m i cách phân tách câu khác nhau tương ng
v i m t ñư ng ñi trên ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1.
Trong th c t , cách phân tích câu đúng đ n nh t thư ng ng v i
đư ng đi qua ít cung nh t trên ñ th .
Trong trư ng h p câu có s nh p nh ng thì đ th s có nhi u
hơn m t đư ng đi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê tồn
b các đư ng ñi ng n nh t trên ñ th , t đó đưa ra t t c các phương
án tách câu có th và đ ngư i dùng quy t ñ nh s ch n phương án
nào, tuỳ thu c vào ng nghĩa ho c văn c nh. Ví d , xét m t câu có
c m "thu c đ a bàn", ta có đ th như hình 3.7 sau:
thu c đ a
thu c
đa
bàn
đ a bàn
Hình 3.7 Otomat đốn nh n c m t “thu c ñ a bàn”
C m này có s nh p nh ng gi a thu c đ a và đ a bàn và ta s
có hai k t qu phân tách là "thu c ñ a / bàn" và "thu c / ñ a bàn". Ta
có th ch ra r t nhi u nh ng c m nh p nh ng trong ti ng Vi t, ch ng
- 20 h n "t h p âm ti t", "b ng ch ng c ",... Trư ng h p trong câu có
âm ti t khơng n m trong t đi n thì rõ ràng ơtơmát âm ti t khơng
đốn nh n ñư c âm ti t này. K t qu là ñ th ta xây d ng t câu đó
là khơng liên thơng.
D a vào tính ch t này, ta th y r ng n u đ th khơng liên
thơng thì d dàng phát hi n ra r ng đơn v âm ti t khơng đốn nh n
đư c khơng n m trong t đi n âm ti t, t c nó b vi t sai chính t
ho c là m t ñơn v âm ti t (t v ng) m i.
Đ tri n khai ñư c thu t tốn nói trên c n có m t cơ s d li u
l n và hồn ch nh, đ c bi t c n xây d ng ñư c ñ th n i gi a các t
ti ng Vi t. V i s lư ng g n 74.000 t ti ng Vi t, đây là m t cơng
vi c địi h i s ñ u tư th i gian và trí tu c a nhi u ngư i. Do đó,
trong th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác
gi ch n m t gi i pháp khác ñ ñ m b o xây d ng ñư c m t chương
trình demo h tr x lý m t s hi n tư ng nh p nh ng c th . Trên
cơ s
ý tư ng c a thu t tốn đư c đ c p trong tài li u Error!
Reference source not found., tác gi xây d ng cho mình m t gi i
thu t khác, gi i thu t này cũng d a trên tính ch t “cách phân tách t i
ưu nh t là tách ñư c nh ng t có nhi u âm ti t nh t”.
Trư c tiên chương trình s ti n hành ki m tra l i chính t
m c âm ti t ñ ñ m b o r ng văn b n ñã ñư c vi t ñúng chính t
ti ng Vi t
m c th p nh t là m c âm ti t, sau đó thay vì ti n hành
đ c vào t ng âm ti t và ki m tra tính liên thơng (như thu t tốn đã đ
c p trên) thì s đ c vào m t âm ti t (g i là âm ti t X) là âm ti t ñ u
tiên c a ph n văn b n s đư c x lý, sau đó ki m tra s t n t i c a
c m t dài nh t ch a âm ti t v a ñ c (g i là t Y) có t n t i trong
ti ng Vi t hay không, n u t n t i thì xem như đây là cách tách t t i
ưu nh t và không chia nh c m t Y, n u không t n t i thu t toán s
- 21 ti n hành ki m tra tương t v i các t ng n hơn (b ng cách chia nh
c m t Y).
Xét c m t “thu c ñ a bàn”, X = “thu c”, MaxLen (c a t
b t ñ u b ng âm ti t “thu c”) = 2, ta l y ñư c t “thu c đ a”, theo
trình t trình bày trên đây, âm ti t ti p theo ñư c xét s là “bàn”,
như th ta ñã b qua t “ñ a bàn”, k t qu khơng t i ưu. Do đó, thu t
toán ph i lưu v t hi n t i và quay v xét các trư ng h p có th x y ra
v i t “đ a”.
Chương trình s ñưa ra t t c các kh năng có th sau đó đánh
giá xem k t qu nào là t i ưu nh t trên cơ s t ch a nhi u âm ti t
hơn ln có đ ưu tiên cao hơn. Trong m t s trư ng h p mà chương
trình khơng th t đưa ra quy t đ nh phân tách ñư c, như t “thu c
ñ a” và “đ a bàn” trên đây, chương trình s đưa g i ý ñ ngư i s
d ng l a ch n tùy theo ng c nh c a văn b n.
Theo thu t tốn trình bày trên đây, s không x y ra trư ng
h p xu t hi n âm ti t khơng có trong t đi n ti ng Vi t, vì văn b n
đ u vào c a thu t toán này bu c ph i ki m tra l i chính t ti ng Vi t
m c âm ti t r i.
3.3.
CÀI Đ T
3.3.1. Môi trư ng làm vi c
3.3.2. Khái quát v n t t v VB6
3.3.2.1. Đi u khi n các ng d ng Microsoft Office
3.3.2.2. T o m t COM Add-In v i Visual Basic
3.3.2.3. Ki m tra COM Add-In
3.4.
GI I THI U GIAO DI N CHƯƠNG TRÌNH VÀ
HƯ NG D N S
D NG
3.4.1. Giao di n chính c a chương trình
3.4.2. Ch c năng ki m l i chính t ti ng Vi t m c âm ti t
- 22 Ngư i s d ng ch n ch c năng KI M TRA ñ b t ñ u ki m
l i chính t ti ng Vi t m c âm ti t. Trong ph n T sai, nh ng t
khơng có trong d li u âm ti t ti ng Vi t s đư c bơi xanh, đ ng th i
m c T g i ý s ñưa ra danh sách các t g i ý ñ thay th , ñây là
nh ng t ñư c l y t cơ s d li u c a chương trình. Ngư i s d ng
s l a ch n các nút l nh ñ th c hi n s a l i ho c b qua t b l i.
Hình 3.9 Giao di n chính c a chương trình
3.4.3. Ch c năng tách t
Đ s d ng ch c năng tách t cho văn b n, ñ u tiên ngư i s
d ng ph i l y ph n văn b n mu n tách ñưa vào ph n N i dung ki m
tra, sau đó b m nút Tách t .
N u trong ño n văn b n c n tách khơng có trư ng h p nào có
nhi u cách phân tách (như trư ng h p c m t “thu c đ a bàn” đã
nêu
trên) thì chương trình s t đ ng tách và đưa ra ph n văn b n
ñã ñư c tách thành các t riêng bi t trong ph n Văn b n ñã ñư c
tách t (xem hình 3.10)
- 23 Ngư c l i, n u văn b n xu t hi n nh ng c m t có th phân
tách theo nhi u cách khác nhau, chương trình s d ng l i
c mt
đó và đưa ra t t c các cách phân tách có th trong ph n L a ch n
cách tách t (xem hình 3.11), lúc đó ngư i s d ng s l a ch n cách
tách phù h p v i ng c nh văn b n và b m nút Ch n phương án đ
ch p nh n, chương trình s lưu l a ch n này và ti p t c x lý ph n
văn b n cịn l i.
Hình 3.10 Giao di n ch c năng tách t (giao di n ti ng Anh)
- 24 -
Hình 3.11 Ngư i s d ng l a ch n phương án tách văn b n
3.5.
K T LU N CHƯƠNG
Chương 3 c a báo cáo này t p trung trình bày nh ng đ xu t
đ kh c ph c HTNN trong STVB. Trong ph n này tác gi cũng ñã
nh c l i nh ng k t qu mà m t s cơng trình nghiên c u ñã ñ t ñư c
trong lĩnh v c x lý nh p nh ng ti ng Vi t, ñ ng th i đưa ra m t mơ
hình t ng quan đ x lý bài tốn. Ph m vi x lý là h tr kh c ph c
hi n tư ng nh p nh ng gây ra do nh ng l i chính t ti ng Vi t
c p
đ âm ti t, ñ ng th i h tr x lý nh p nh ng do khơng xác đ nh
đư c ranh gi i gi a các t .
- 25 -
K T LU N
1.
Đánh giá k t qu chương trình
Sau m t th i gian nghiên c u và th c hi n ñ tài, tác gi ñã
ñ t ñư c m t s k t qu v m t lý thuy t và
ng d ng, c th
như sau:
Cơ s lý thuy t
Nghiên c u ñư c nh ng v n ñ cơ b n liên quan ñ n x lý
ngơn ng t nhiên nói chung và x lý ti ng Vi t nói riêng. Nghiên
c u v nh ng hi n tư ng nh p nh ng thư ng xu t hi n trong ti ng
Vi t, tìm hi u nh ng n i dung chính v so n th o văn b n và hi n
tư ng nh p nh ng trong so n th o văn b n. Tìm hi u v các cơng
trình, các bài báo nghiên c u v x lý nh p nh ng trong ngơn ng t
nhiên nói chung và ti ng Vi t nói riêng.
Xây d ng ng d ng
Xây d ng đư c m t chương trình h tr x lý nh p nh ng v i
m t s ch c năng chính sau:
S a l i chính t ti ng Vi t cho văn b n
m c ñ âm ti t;
Ch c năng chính: tách đo n văn b n cho trư c thành các t riêng
bi t, ch c năng này ñã gi i quy t ñư c nh ng nh p nh ng v ranh
gi i t trong văn b n, ñ ng th i k t qu này có th dùng ti p cho các
ng d ng phát tri n v sau.
V cơ s d li u:
Tác gi ñã xây d ng ñư c m t kho d li u g m kho ng hơn
10.000 âm ti t ti ng Vi t. D li u này ph c v cho ch c năng ki m
l i chính t ti ng Vi t
m c âm ti t. Ngồi ra đ ph c v cho ch c
năng tách t trong văn b n ti ng Vi t, tác gi ñã xây d ng ñư c m t
kho d li u g m kho ng 24.000 t có trong ti ng Vi t và b sung
m t s danh t riêng ph bi n.