Tải bản đầy đủ (.pdf) (26 trang)

Tìm hiểu hiện tượng nhập nhằng trong tiếng việt và khả năng khắc phục trong soạn thảo văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (357.09 KB, 26 trang )

-1-

B

GIÁO D C VÀ ĐÀO T O
Đ I H C ĐÀ N NG

ĐINH TH M H NH

TÌM HI U HI N TƯ NG NH P NH NG
TRONG TI NG VI T VÀ KH NĂNG KH C PH C
TRONG SO N TH O VĂN B N

Chuyên ngành
Mã s

: KHOA H C MÁY TÍNH
: 60.48.01

TĨM T T LU N VĂN TH C SĨ K THU T

Đà N ng - Năm 2011


-2-

Cơng trình đư c hồn thành t i
Đ I H C ĐÀ N NG

Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH


Ph n bi n 1: PGS.TS. Võ Trung Hùng

Ph n bi n 2: TS. Trương Cơng Tu n

Lu n văn đư c b o v trư c H i ñ ng ch m Lu n văn t t
nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19
tháng 6 năm 2011.

* Có th tìm hi u lu n văn t i:
- Trung tâm Thông tin - H c li u, Đ i h c Đà N ng
- Trung tâm H c li u, Đ i h c Đà N ng.


-3-

M

Đ U

1. Lý do ch n ñ tài
Trong h th ng ngôn ng trên th gi i hi n nay, ti ng Vi t
ñư c xem là m t trong nh ng ngơn ng có s phong phú và đa d ng.
Chính s phong phú và ph c t p c a ti ng Vi t ñã d n ñ n nh ng
khó khăn cho c ngư i s d ng theo cách thông thư ng và khi x lý
trên máy tính.
Do nh ng nh hư ng c a l ch s hình thành và phát tri n,
ti ng Vi t có tính lai t p v m t ngơn ng г t cao, ñ c bi t nh
hư ng t ti ng Hán và ti ng Pháp. S ña nghĩa trong ti ng Vi t cũng
chính là m t ñ c ñi m n i b t. Ngoài ra, do thói quen s d ng c a
m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i

nh t ñ nh, th m chí s thi u nh t quán trong cách nói, cách vi t.
Ti ng Vi t ngày nay còn b

nh hư ng b i thói quen s d ng

ngơn ng trên Internet ho c các thi t b truy n thông hi n ñ i như
ñi n tho i di ñ ng, ñi u này làm xu t hi n thêm nhi u t m i ñư c
ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i
tr như câu “Bu i sinh nh t hôm nay vui wá!”.
S nh p nh ng trong khi nói, vi t ho c di n ñ t ý nghĩ ñã d n
ñ n nh ng s hi u l m

nhi u m c ñ khác nhau. Và cũng chính

nh ng đ c đi m nói trên đã làm cho ti ng Vi t v n ñã ph c t p l i
càng ph c t p hơn, ñ c bi t là m t s y u t đã làm m t đi tính trong
sáng và giá tr t t ñ p v n có c a ti ng Vi t.
Gìn gi s trong sáng c a ti ng Vi t là m t yêu c u và nhi m
v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa,
ngơn ng l n nh ng ngư i s d ng thông thư ng.
Xu t phát t

nh ng phân tích và quan sát trên, nhi m v

nghiên c u c a đ tài “Tìm hi u hi n tư ng nh p nh ng trong


-4ti ng Vi t và kh năng kh c ph c trong so n th o văn b n” là tìm
hi u v nh ng v n đ cơ b n trong x lý ngôn ng , x lý ti ng Vi t,
ñ c bi t là v n ñ “nh p nh ng” trong ti ng Vi t, t ñó ñ xu t m t

gi i pháp ñ kh c ph c trong quá trình so n th o văn b n cho m t s
trư ng h p c th c a hi n tư ng nh p nh ng.
2. M c tiêu c a ñ tài
Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý
ti ng Vi t. Tác gi cũng b nhi u th i gian nghiên c u v các hi n
tư ng nh p nh ng thư ng x y ra trong ti ng Vi t. Đ tài còn nghiên
c u các kh năng x lý nh p nh ng và xây d ng ng d ng h tr x
lý nh p nh ng ti ng Vi t trong m t ph m vi h p.
3. Ph m vi và gi i h n c a ñ tài
V n ñ nh p nh ng trong ti ng Vi t có r t nhi u trư ng h p,
tuy nhiên trong ph m vi c a ñ tài này tác gi gi i h n l i m t s n i
dung sau ñây:
V m t lý thuy t: Tìm hi u lý thuy t v XLNN và XLTV, l ch
s hình thành và phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v các
v n ñ liên quan ñ n hi n tư ng nh p nh ng trong ti ng Vi t; Tìm
hi u nh ng v n đ cơ b n v so n th o văn b n, ph n m m so n th o
văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN do vi t sai l i chính
t ti ng Vi t (gi i h n nh ng l i chính t

c p đ âm ti t) và HTNN

do xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t.
V m t chương trình: Xây d ng ng d ng h tr x lý nh p
nh ng gây ra do l i chính t v m t âm ti t, ñ ng th i chương trình
h tr vi c tách văn b n thành các t ñ c l p ñ ngư i s d ng d
dàng hi u n i dung văn b n. K t qu c a vi c tách t s ñư c s
d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n đ phân
tích nh p nh ng v phân lo i t và cú pháp câu.



-54. Phương pháp nghiên c u
Thu th p, tìm hi u, phân tích các tài li u và thơng tin có liên
quan đ n đ tài; Phân tích và thi t k h th ng chương trình; Tri n
khai xây d ng chương trình; Ki m th , nh n xét và ñánh giá k t qu .
5. Ý nghĩa khoa h c và th c ti n c a ñ tài
Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ cơ b n trong x lý
ti ng Vi t, x lý nh p nh ng trong ti ng Vi t; Đ xu t ñư c gi i
pháp ñ h tr x lý m t s hi n tư ng nh p nh ng trong so n th o
văn b n ti ng Vi t.
Ý nghĩa th c ti n: Hi u và ng d ng ñư c nh ng ki n th c
n n t ng trong x lý ti ng Vi t ñ x lý nh p nh ng trong ti ng Vi t;
ng d ng chương trình này đ h tr x lý nh p nh ng trong

Có th

so n th o văn b n ti ng Vi t; Có ý nghĩa trong vi c b o t n và phát
huy các giá tr c a ti ng Vi t.
6.

B c c lu n văn

M ñ u
Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên
Chương 2: So n th o văn b n và hi n tư ng nh p nh ng trong
so n th o văn b n
Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng
K t lu n.


-6CHƯƠNG 1:


CƠ S

LÝ THUY T V X
1.1.

X

LÝ NGÔN NG

LÝ NGÔN NG
T

T

NHIÊN

NHIÊN

1.1.1. Khái ni m
1.1.2. Các bư c x lý
1.1.3. Các bài tốn và ng d ng
1.2.

TÌM HI U V TI NG VI T VÀ V N Đ X



TI NG VI T
1.2.1. S hình thành c a ti ng Vi t

1.2.2. Đ c ñi m c a ti ng Vi t
1.2.2.1. Đ c ñi m ng âm
1.2.2.2. Đ c ñi m t v ng
1.2.2.3. Đ c ñi m ng pháp
1.2.3. T trong ti ng Vi t
1.2.3.1. Khái ni m
T là ñơn v nh nh t có nghĩa, có k t c u v ng âm b n
v ng, hoàn ch nh, có ch c năng g i tên, đư c v n d ng ñ c l p, tái
hi n t do trong l i nói đ t o câu[7].
1.2.3.2. Đơn v c u t o
Đơn v cơ s ñ c u t o t ti ng Vi t là các ti ng, cái mà ng
âm h c v n g i là các âm ti t.
1.2.3.3. Phương th c c u t o
1.2.4. Bi n th c a t
1.3.

HI N TƯ NG NH P NH NG TRONG X



VĂN B N TI NG VI T
1.3.1. Khái ni m
Nh p nh ng là hi n tư ng mà khi nói, vi t ho c di n t nh ng
t ng , ý nghĩ mơ h , khơng rõ nghĩa ho c có nhi u nghĩa làm cho


-7ngư i đ c ho c ngư i nghe khơng phân bi t rõ ràng, gây ra s
hi u l m.
Khái ni m nh p nh ng cũng có th hi u theo m t cách khác
như sau: trong m i lĩnh v c, các v n ñ thư ng ñư c ñ c p, trình

bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n này có th đư c
quy ư c b ng văn b n ho c quy ư c ng m đ nh. Khi đó t t c nh ng
cách hi u, cách đ c p ho c trình bày v n đ n m ngồi ph m vi
chu n đó đư c xem là nh p nh ng.
1.3.2. M t s hi n tư ng nh p nh ng
1.3.2.1. Hi n tư ng nh p nh ng do vi t sai chính t
ti ng Vi t
Vi c vi t sai l i chính t ti ng Vi t ñang

m c ñáng báo

ñ ng, hi n tư ng này không nh ng di n ra ph bi n trong gi i tr ,
ñ c bi t trong gi i tr s d ng internet mà còn xu t hi n nhi u trên
các phương ti n thơng tin đ i chúng và các văn b n c a Nhà nư c.
Chính nh ng sai sót v chính t này có th gây ra nh ng nh p nh ng
trong vi c ti p nh p thông tin.
Trong c ng ñ ng s d ng m ng Internet cũng hình thành m t
l p t m i chưa có trong t ñi n ti ng Vi t, ñi u này cũng d n đ n
nh ng thói quen s d ng t ng không t t trong ngư i s d ng, đ c
bi t gi i tr .
Có nh ng trư ng h p sai chính t có th d n ñ n nh ng h
qu x u như hình thành thói quen nói sai, vi t sai và hi u sai v n ñ .
1.3.2.2. Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a
các t
Trong m t s ngôn ng như ti ng Anh, vi c xác ñ nh ranh
gi i, ph m vi gi a các t khá d dàng, m i t riêng l ñã mang tr n
v n m t nghĩa và ranh gi i c a chúng đư c xác đ nh thơng qua


-8kho ng tr ng. Ti ng Vi t thì khác, do là ngơn ng đơn l p nên t

v ng ch y u là các t ghép vì th kho ng tr ng không ph i luôn
luôn là ranh gi i chính xác.
Trong ti ng Vi t, vi c xác ñ nh chính xác ph m vi, ranh gi i
gi a các t có th h tr r t nhi u cho q trình kh nh p nh ng, đ c
bi t đ i v i ngơn ng vi t. Đây cũng chính là m c đích chính mà báo
cáo này mu n ñ c p ñ n.
1.3.2.3. Hi n tư ng nh p nh ng do tính đa nghĩa c a t
B t c ngơn ng nào cũng có t đa nghĩa, ngun nhân là vì
r t nhi u khái ni m có các s c thái ý nghĩa tuy khơng hồn tồn trùng
kh p nhau nhưng l i có nhi u nét tương đ ng. Hi n tư ng này gây
c n tr cho vi c d ch t đ ng, chương trình khơng bi t d ch t đa
nghĩa theo nghĩa nào trong nhóm nghĩa c a nó.
1.3.2.4. Hi n tư ng nh p nh ng ng nghĩa khi s d ng các
t ñ ng âm
Hai t ñ ng âm v i nhau nghĩa là hai t có âm gi ng nhau
nhưng mang nghĩa khác nhau, cịn ñ ng t là hai t v m t ký t là
gi ng nhau nhưng nghĩa khác nhau. Do ñ c ñi m c a ti ng Vi t t
ñ ng âm cũng thư ng là t ñ ng t ,

các ngôn ng khác hai hi n

tư ng này không trùng kh p nhau.
Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, trong t ña
nghĩa, các nghĩa ñ u có chung m t ngu n g c và do v y ln có nét
tương ñ ng trong khi ñó trong t ñ ng t chúng khơng có liên h v
ngu n g c v i nhau, nghĩa c a chúng khác nhau rõ r t.
Ví d 1
T “ki m” trong hai câu sau đây là hai t ñ ng t :
Anh ta s d ng ki m r t ñiêu luy n.
Ki m ăn bây gi khó l m.



-91.3.2.5. Hi n tư ng nh p nh ng trong cách phân bi t t lo i
T lo i là m t y u t quan tr ng trong vi c xác đ nh nghĩa
chính xác c a t và s p x p các t thành câu hoàn ch nh trong d ch
t ñ ng.
T lo i giúp kh nh p nh ng, nhưng chính b n thân nó trong
m t s trư ng h p cũng nh p nh ng. V i các ngơn ng khơng bi n
hình như ti ng Vi t, v n ñ xác ñ nh t lo i yêu c u các thu t toán
ph c t p hơn, b t bu c ph i phân tích cú pháp. M t khác, ngay trong
n i b ngành ngơn ng v n chưa có s th ng nh t v phân lo i t
lo i cho ti ng Vi t.
1.3.2.6. Hi n tư ng nh p nh ng khi s d ng ti ng Vi t
không d u
Ngày nay, vi c gõ ti ng Vi t khơng d u tr nên ph bi n hơn,
đ c bi t trên các ng d ng Internet ho c ñi n tho i di ñ ng như
email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác
nhanh hơn, nhưng trong m t s trư ng h p nó l i gây ra nh ng s
hi u nh m tai h i ñ i v i ngư i ñ c.
1.3.2.7. Hi n tư ng nh p nh ng v s v n d ng
Cùng m t câu nhưng khi s d ng trong các hồn c nh khác
nhau c a ngơn ng nói ho c ngơn ng vi t, n u khơng bi t cách s
d ng m t cách phù h p cũng s gây ra s “nh p nh ng”, s hi u l m
cho ngư i ñ c ho c ngư i nghe. Hi n tư ng này ñ c bi t ph bi n
trong ti ng Vi t, vì ti ng Vi t v n đa nghĩa, đa s c thái và có tính
bi u c m r t cao. Đi u này địi h i ngư i s d ng ngôn ng m t s
khéo léo và tinh t nh t đ nh, có s hi u bi t

m t m c ñ c n thi t


ñ có th t n d ng h t nh ng giá tr bi u đ t c a ngơn ng .


- 10 1.3.2.8. Hi n tư ng nh p nh ng trong phân tích cú pháp
ti ng Vi t
Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng
x y ra

nhi u m c, t m c t , t lo i ñ n m c cú pháp câu. Đi u

này d n ñ n m t câu có th đư c phân tích theo nhi u cách khác
nhau, trong khi ch có m t vài cách phân tích trong s đó đúng.
1.4.

K T LU N CHƯƠNG

Chương này trình bày khái ni m và các bư c đ x lý ngơn
ng t nhiên, các bài tốn liên quan đ n x lý ngơn ng t nhiên như
nh n d ng ti ng nói, t ng h p ti ng nói, d ch t đ ng, tìm ki m văn
b n, tóm t t văn b n… Ngồi ra cịn trình bày v s hình thành, phát
tri n và m t s ñ c ñi m n i b t c a ti ng Vi t. Chương 1 còn dành
m t s lư ng l n các trang đ trình bày khái ni m cũng như nh ng
hi n tư ng nh p nh ng ph bi n nh t trong x lý văn b n ti ng Vi t.


- 11 CHƯƠNG 2:

SO N TH O VĂN B N VÀ HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N
2.1.


M TS

V N Đ V SO N TH O VĂN B N

2.1.1. Đ t v n ñ
2.1.2. Khái ni m ký t , t , câu, dịng, đo n
2.1.3. Ngun t c t xu ng dòng c a t
2.1.4. M t s quy t c gõ văn b n cơ b n
2.1.5. Ph n m m so n th o văn b n
2.2.

HI N TƯ NG NH P NH NG TRONG SO N
TH O VĂN B N

Nh ng m c ñ nh p nh ng trong STVB: Trong quá trình
so n th o văn b n, hi n tư ng nh p nh ng có th x y ra

nhi u m c

ñ khác nhau:
M c m t, nh p nh ng x y ra do sai sót v t , c m t , sai sót
ch vi t t t, cách vi t ngày tháng năm, vi t các ký hi u. M c hai,
nh p nh ng

m c ñ cú pháp câu. M c ba, nh p nh ng v m t

ng nghĩa.
2.3.


CÁCH PHÁT HI N HI N TƯ NG NH P
NH NG TRONG SO N TH O VĂN B N

Th nh t, phát hi n HTNN trư c khi ti n hành STVB. Q
trình này chính là kh nh p nh ng trong tư duy, suy nghĩ c a ngư i
so n th o, nói chính xác hơn thì trong trư ng h p này, b n thân
ngư i so n th o ph i t tìm cách đ kh nh p nh ng b ng cách n m
v ng các quy t c v chính t ti ng Vi t, quy t c STVB, hi u bi t v
ngôn ng ti ng Vi t và bi t cách v n d ng phù h p. N u b n thân
ngư i so n th o khơng th t tìm và kh đư c nh ng nh p nh ng


- 12 trong tư duy, suy nghĩ thì có th trao đ i v i ngư i khác đ có cách
trình bày v n đ chính xác hơn.
Th hai, phát hi n HTNN trong quá trình STVB. N u ch s
d ng ph n m m h tr STVB ti ng Vi t (mà không s d ng kèm
m t chương trình h tr tìm và kh nh p nh ng cho văn b n ti ng
Vi t nào khác) thì ch có m t cách đ phát hi n nh p nh ng là ngư i
s d ng ph i t làm th công. Tuy nhiên cách làm này s khơng đem
l i nhi u hi u qu và đ chính xác khơng cao. Do đó nh t thi t ph i
có m t chương trình h tr phát hi n và kh nh p nh ng ñi kèm.
Th ba, phát hi n HTNN sau khi vi c STVB hoàn t t. Nghĩa
là ngư i s d ng s m t p văn b n ñã so n th o, sau đó g i ch c
năng phát hi n nh p nh ng đ x lý.
Theo tìm hi u c a tác gi , hi n nay v n chưa có m t h th ng
hay chương trình nào có th x lý đư c t t c các HTNN trong
STVB ti ng Vi t. Các k t qu ñã có cũng ch m i là nh ng gi i pháp
cho m t s trư ng h p c th .
2.4.


CÁC GI I PHÁP X

LÝ NH P NH NG ĐÃ CĨ

TRƯ C ĐÂY
Trong bài báo “Phân tích cú pháp ti ng Vi t s d ng văn
ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi
đã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng và các hi n
tư ng cú pháp ph thu c t trong phân tích cú pháp ti ng Vi t. Bài
báo ñ xu t vi c xây d ng m t cơng c phân tích cú pháp d a trên
văn ph m phi ng c nh v i lu t có ch a thơng tin v xác su t và
t v ng.
Trong tài li u [24], nhóm tác gi đã trình bày chi ti t các th
nghi m v gán nhãn t lo i cho các văn b n ti ng Vi t b ng cách áp
d ng b gán nhãn QTAG. Công vi c gán nhãn t lo i cho m t văn


- 13 b n là xác ñ nh t lo i c a m i t trong ph m vi văn b n đó. Khi h
th ng văn b n ñã ñư c gán nhãn, hay nói cách khác là đã đư c chú
thích t lo i thì nó s ñư c ng d ng r ng rãi trong các h th ng tìm
ki m thơng tin, trong các ng d ng t ng h p ti ng nói, các h th ng
nh n d ng ti ng nói cũng như trong các h th ng d ch máy. Đ ti n
hành vi c gán nhãn t lo i, nhóm tác gi ñã ti n hành ba bư c: Phân
tách xâu ký t thành các t , gán nhãn tiên nghi m, quy t ñ nh k t
qu gán nhãn, t c lo i b nh p nh ng.
Văn b n ñã ñư c phân ño n t
(WORD SEGMENTED TEXT)
T p lu t nh n di n POS
Mơ hình gán nhãn cho t
(POS Tagging Model)


Kho ng li u ti ng Vi t

Văn b n ñã ñư c gán t lo i
(POS TAGGED TEXTS)

Hình 2.1. Mơ hình t ng qt bài toán gán nhãn t lo i
2.5.

K T LU N CHƯƠNG

Chương 2 trình bày nh ng v n đ cơ b n v so n th o văn
b n, khái ni m v ký t , t , câu, dịng, đo n. Trong chương này cịn
trình bày khái ni m v hi n tư ng nh p nh ng trong ti ng Vi t.
Ngồi ra cịn trình bày m t s hi n tư ng nh p nh ng ph bi n trong
ti ng Vi t, qua đó chúng ta có th th y r ng hi n tư ng nh p nh ng
khá ph bi n và r t khó ñ x

lý m t cách tri t ñ . Ph n cu i

chương, tác gi đã trình bày nh ng k t qu nghiên c u v v n ñ x
lý nh p nh ng trong ngơn ng t
nói riêng.

nhiên nói chung và ti ng Vi t


- 14 CHƯƠNG 3:

Đ XU T GI I PHÁP KH C PH C NH P NH NG

3.1.

GI I THI U VÀ PHÂN TÍCH BÀI TỐN

Trong s các hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n
trong chương 2, trong ph n này, tác gi ch ch n m t s hi n tư ng
nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c. Đó là nh p
nh ng do vi t sai l i chính t ti ng Vi t

c p ñ âm ti t (vi t

nh ng âm ti t khơng có trong ti ng Vi t) và nh p nh ng do
không xác ñ nh ñư c ph m vi, ranh gi i gi a các t

trong

văn b n.
N u xem nh ng quy t c v chính t ti ng Vi t là mi n chu n,
và nh ng gì n m trong mi n chu n y ñư c ch p nh n và khơng gây
nh p nh ng thì nh ng trư ng h p vi t sai chính t ti ng Vi t n m
ngoài mi n chu n (t c vi t sai chính t ) đ u ñư c xem là
nh p nh ng.
Trong ph m vi báo cáo này, tác gi x lý m t ph n các l i
chính t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng,
đó là x lý l i chính t

m c âm ti t ti ng Vi t. Ví d có th phát

hi n ra l i chính t c a t và đưa ra m t lo t g i ý ñ ngư i s d ng
ch nh s a l i.

Xét m t ví d v hi n tư ng nh p nh ng do khơng xác đ nh
đư c ph m vi, ranh gi i gi a các t .
Ví d 32
Ngư i dân thu c đ a bàn đơ th có m c thu nh p bình qn
đ u ngư i cao hơn vùng nơng thơn.
Trong ví d 32, m t s đ i tư ng, ví d tr em có th s xác
đ nh khơng đúng ph m vi gi a các t s d n ñ n hi u sai (nh p
nh ng) n i dung câu. C m t thu c đ a bàn s có hai cách phân tách,


- 15 th nh t là thu c/ ñ a bàn (nghĩa là n m trên ñ a bàn nào ñó), th hai
là thu c ñ a/ bàn (nghĩa là ngư i dân

thu c ñ a bàn b c v đi u gì

đó, đây là cách phân tách sai trong ng c nh trên). Trong ti ng Vi t
t n t i khá nhi u nh ng c m t tương t như trên.
Do đó, khi xác đ nh đúng ph m vi t s ñ c ñúng và hi u
ñúng, nghĩa là tránh ñư c nh p nh ng. Gi i quy t đư c bài tốn v
xác đ nh ph m vi, ranh gi i t s là cơ s quan tr ng ñ th c hi n
gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t.
Gi i quy t bài tốn:
Bài tốn bây gi đư c chia làm hai bư c x lý:

- X lý l i chính t ti ng Vi t m c âm ti t
- Phân tách văn b n thành các t ñ c l p
Kho d li u
âm ti t
ti ng Vi t


Văn b n
c n x lý

Đ U VÀO

T ñi n
ti ng Vi t

X lý l i chính t
TV m c âm ti t

QUÁ TRÌNH X

Tách văn b n thành
các t riêng bi t



Văn b n
ñã ñư c
x lý
nh p nh ng
(*)

Đ U RA

Giao di n
ngư i s d ng

Ngư i

s d ng

Hình 3.1. Mơ hình ki n trúc t ng quan c a quá trình x lý
Gi i h n ph m vi gi i quy t c a bài toán:
Khái ni m văn b n ñư c ñ c p ñ n trong báo cáo này là văn
b n ch ch a ch , khơng ch a hình v .


- 16 Chương trình cũng chưa x lý các đ nh d ng c a văn b n
ñ u vào.
Th i đi m x lý văn b n: Chương trình ñư c tích h p trong
ng d ng Microsoft Word và chương trình s l y n i dung văn b n
ñư c so n th o s n ñ x lý. Ngư i s d ng có th tùy ch n ti n
hành ki m l i chính t m c âm ti t ñ i văn b n ñ u vào, sau ñó ti n
hành phân tách t . Chương trình khơng đư c g i th c thi m t cách t
đ ng mà c n có thao tác c a ngư i s d ng.
Lo i nh p nh ng đư c x

lý: bài tốn gi i quy t s

nh ng gây ra do sai sót v l i chính t ti ng Vi t

nh p

m c âm ti t và h

tr x lý nh p nh ng có th có do khơng xác đ nh ñư c ph m vi,
ranh gi i gi a các t trong ti ng Vi t.
Kho d li u ti ng Vi t:
Chương trình dùng 2 kho d li u h tr cho quá trình x lý:

Kho d li u âm ti t ti ng Vi t: lưu hơn 10.000 âm ti t ti ng
Vi t, h tr cho ch c năng tìm và s a l i, đ ng th i có th đư c c p
nh p thêm t m i thông qua bư c x lý l i chính t . Các âm ti t
đư c lưu

b ng mã Unicode.

T ñi n ti ng Vi t h tr ch c năng tách t g m g n 24.000 t
ti ng Vi t. Ngồi ra, đ h tr t t hơn cho vi c tách t , tác gi còn b
sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n.
3.2.

THI T K CƠ S

D

LI U VÀ CÁC THU T

TỐN CHÍNH
3.2.1. Thi t k cơ s d li u
Cơ s d li u cho bài tốn tương đ i ñơn gi n, d li u ñư c
chia thành 2 ph n riêng bi t, m t ph n ph c v cho ch c năng ki m
l i chính t ti ng Vi t

m c âm ti t, m t ph n ph c v cho ch c

năng tách t trong văn b n.


- 17 3.2.1.1. D li u cho ch c năng ki m l i chính t ti ng Vi t

m c âm ti t
D li u cho ch c năng x lý nh p nh ng do sai l i chính t
ti ng Vi t

m c âm ti t g m 1 b ng AmTiet (Âm ti t) ch a t t c

các âm ti t có trong ti ng Vi t.
AM_TIET
STT
Am_Tiet
Hình 3.4 D li u lưu các âm ti t ti ng Vi t
B ng 3.1. B ng t ñi n d li u
Tên trư ng

Ki u d li u

Kích thư c

STT

Autonumber

Integer

Th t c a m c t

Am_Tiet

Text


10

Âm ti t ti ng Vi t

Gi i thích

3.2.1.2. D li u cho ch c năng tách t trong văn b n
Đ ph c v cho gi i thu t này, ta c n xây d ng cơ s d li u
ch a t t c các t có trong ti ng Vi t. Tác gi xây d ng kho d li u
này trên cơ s t p tin d li u c a ph n m m VietDict c a tác gi H
Ng c Đ c, t i mi n phí t i ñ a ch . T p tin này
ñư c lưu v i đi *.txt, ch a g n 24.000 t và gi i thích t (Vi t –
Vi t), c u trúc trình bày g n gi ng các quy n t ñi n ti ng Vi t.
Tác gi ñã vi t m t th t c ñơn gi n đ ti n hành tìm và tách
l y t t c các t ti ng Vi t trong t p tin ñ lưu vào cơ s d li u. Đây
chưa ph i là t t c các t có trong ti ng Vi t, ch là d li u đ demo
chương trình.
D li u c a ch c năng tách t là 1 b ng d li u ch a các t có
trong ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m 3 trư ng d li u


- 18 là s th t , m c t Word và kích thư c c a t Length. Ví d t
ban mai có Length =2, t s ch sành sanh có Length =3. Trư ng
Length dùng ph c v cho m t s gi i thu t c a chương trình.
TuTV
stt
Word
Lenght

Hình 3.5 D li u ch a các t ti ng Vi t

M i b ng đ u có 2 trư ng d li u:
B ng 3.2. T ñi n d li u
Tên trư ng

Ki u d li u

Kích thư c

stt

Autonumber

Integer

Th t m c t

Word

Text

30

T ti ng Vi t

Length

Number

Byte


Kích thư c t

Gi i thích

B ng d li u này ch có m c đích là lưu tr d li u. D li u
ñư c lưu

b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d

li u c a ph n ki m l i chính t ti ng Vi t đã trình bày

ph n trên

c a báo cáo.
3.2.2. Các gi i thu t chính
3.2.2.1. Gi i thu t tìm và h tr s a l i chính t ti ng Vi t
m c âm ti t
3.2.2.2. Thu t tốn xác đ nh t trong văn b n
3.2.2.3. Thu t tốn tách đo n văn b n thành các t
riêng bi t
Đây là ch c năng chính c a chương trình. Trư c khi trình bày
gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i
thu t mà tác gi đã tìm hi u đư c liên quan ñ n v n ñ này.


- 19 Theo tài li u [23], nhóm tác gi này đã ti n hành xây d ng
otomat đốn nh n t v ng, ph c v cho vi c tách t v ng trong văn
b n ti ng Vi t. Tư tư ng c a thu t toán tách t v ng là quy vi c
phân tách câu v vi c tìm đư ng đi trên m t đ th có hư ng, khơng
tr ng s .

Gi s câu ban ñ u là m t dãy g m n+1 âm ti t s0, s1, ...,
sn. Ta xây d ng m t đ th có n+2 đ nh v0, v1, ..., vn, vn+1, s p th
t trên m t ñư ng th ng t trái sang ph i; trong đó, t đ nh vi đ n
đ nh vj có cung (i < j) n u các âm ti t si, si+1, ..., sj-1 theo th t l p
thành m t t . Khi đó m i cách phân tách câu khác nhau tương ng
v i m t ñư ng ñi trên ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1.
Trong th c t , cách phân tích câu đúng đ n nh t thư ng ng v i
đư ng đi qua ít cung nh t trên ñ th .
Trong trư ng h p câu có s nh p nh ng thì đ th s có nhi u
hơn m t đư ng đi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê tồn
b các đư ng ñi ng n nh t trên ñ th , t đó đưa ra t t c các phương
án tách câu có th và đ ngư i dùng quy t ñ nh s ch n phương án
nào, tuỳ thu c vào ng nghĩa ho c văn c nh. Ví d , xét m t câu có
c m "thu c đ a bàn", ta có đ th như hình 3.7 sau:
thu c đ a
thu c
đa

bàn

đ a bàn

Hình 3.7 Otomat đốn nh n c m t “thu c ñ a bàn”
C m này có s nh p nh ng gi a thu c đ a và đ a bàn và ta s
có hai k t qu phân tách là "thu c ñ a / bàn" và "thu c / ñ a bàn". Ta
có th ch ra r t nhi u nh ng c m nh p nh ng trong ti ng Vi t, ch ng


- 20 h n "t h p âm ti t", "b ng ch ng c ",... Trư ng h p trong câu có
âm ti t khơng n m trong t đi n thì rõ ràng ơtơmát âm ti t khơng

đốn nh n ñư c âm ti t này. K t qu là ñ th ta xây d ng t câu đó
là khơng liên thơng.
D a vào tính ch t này, ta th y r ng n u đ th khơng liên
thơng thì d dàng phát hi n ra r ng đơn v âm ti t khơng đốn nh n
đư c khơng n m trong t đi n âm ti t, t c nó b vi t sai chính t
ho c là m t ñơn v âm ti t (t v ng) m i.
Đ tri n khai ñư c thu t tốn nói trên c n có m t cơ s d li u
l n và hồn ch nh, đ c bi t c n xây d ng ñư c ñ th n i gi a các t
ti ng Vi t. V i s lư ng g n 74.000 t ti ng Vi t, đây là m t cơng
vi c địi h i s ñ u tư th i gian và trí tu c a nhi u ngư i. Do đó,
trong th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác
gi ch n m t gi i pháp khác ñ ñ m b o xây d ng ñư c m t chương
trình demo h tr x lý m t s hi n tư ng nh p nh ng c th . Trên
cơ s

ý tư ng c a thu t tốn đư c đ c p trong tài li u Error!

Reference source not found., tác gi xây d ng cho mình m t gi i
thu t khác, gi i thu t này cũng d a trên tính ch t “cách phân tách t i
ưu nh t là tách ñư c nh ng t có nhi u âm ti t nh t”.
Trư c tiên chương trình s ti n hành ki m tra l i chính t
m c âm ti t ñ ñ m b o r ng văn b n ñã ñư c vi t ñúng chính t
ti ng Vi t

m c th p nh t là m c âm ti t, sau đó thay vì ti n hành

đ c vào t ng âm ti t và ki m tra tính liên thơng (như thu t tốn đã đ
c p trên) thì s đ c vào m t âm ti t (g i là âm ti t X) là âm ti t ñ u
tiên c a ph n văn b n s đư c x lý, sau đó ki m tra s t n t i c a
c m t dài nh t ch a âm ti t v a ñ c (g i là t Y) có t n t i trong

ti ng Vi t hay không, n u t n t i thì xem như đây là cách tách t t i
ưu nh t và không chia nh c m t Y, n u không t n t i thu t toán s


- 21 ti n hành ki m tra tương t v i các t ng n hơn (b ng cách chia nh
c m t Y).
Xét c m t “thu c ñ a bàn”, X = “thu c”, MaxLen (c a t
b t ñ u b ng âm ti t “thu c”) = 2, ta l y ñư c t “thu c đ a”, theo
trình t trình bày trên đây, âm ti t ti p theo ñư c xét s là “bàn”,
như th ta ñã b qua t “ñ a bàn”, k t qu khơng t i ưu. Do đó, thu t
toán ph i lưu v t hi n t i và quay v xét các trư ng h p có th x y ra
v i t “đ a”.
Chương trình s ñưa ra t t c các kh năng có th sau đó đánh
giá xem k t qu nào là t i ưu nh t trên cơ s t ch a nhi u âm ti t
hơn ln có đ ưu tiên cao hơn. Trong m t s trư ng h p mà chương
trình khơng th t đưa ra quy t đ nh phân tách ñư c, như t “thu c
ñ a” và “đ a bàn” trên đây, chương trình s đưa g i ý ñ ngư i s
d ng l a ch n tùy theo ng c nh c a văn b n.
Theo thu t tốn trình bày trên đây, s không x y ra trư ng
h p xu t hi n âm ti t khơng có trong t đi n ti ng Vi t, vì văn b n
đ u vào c a thu t toán này bu c ph i ki m tra l i chính t ti ng Vi t
m c âm ti t r i.
3.3.

CÀI Đ T

3.3.1. Môi trư ng làm vi c
3.3.2. Khái quát v n t t v VB6
3.3.2.1. Đi u khi n các ng d ng Microsoft Office
3.3.2.2. T o m t COM Add-In v i Visual Basic

3.3.2.3. Ki m tra COM Add-In
3.4.

GI I THI U GIAO DI N CHƯƠNG TRÌNH VÀ
HƯ NG D N S

D NG

3.4.1. Giao di n chính c a chương trình
3.4.2. Ch c năng ki m l i chính t ti ng Vi t m c âm ti t


- 22 Ngư i s d ng ch n ch c năng KI M TRA ñ b t ñ u ki m
l i chính t ti ng Vi t m c âm ti t. Trong ph n T sai, nh ng t
khơng có trong d li u âm ti t ti ng Vi t s đư c bơi xanh, đ ng th i
m c T g i ý s ñưa ra danh sách các t g i ý ñ thay th , ñây là
nh ng t ñư c l y t cơ s d li u c a chương trình. Ngư i s d ng
s l a ch n các nút l nh ñ th c hi n s a l i ho c b qua t b l i.

Hình 3.9 Giao di n chính c a chương trình
3.4.3. Ch c năng tách t
Đ s d ng ch c năng tách t cho văn b n, ñ u tiên ngư i s
d ng ph i l y ph n văn b n mu n tách ñưa vào ph n N i dung ki m
tra, sau đó b m nút Tách t .
N u trong ño n văn b n c n tách khơng có trư ng h p nào có
nhi u cách phân tách (như trư ng h p c m t “thu c đ a bàn” đã
nêu

trên) thì chương trình s t đ ng tách và đưa ra ph n văn b n


ñã ñư c tách thành các t riêng bi t trong ph n Văn b n ñã ñư c
tách t (xem hình 3.10)


- 23 Ngư c l i, n u văn b n xu t hi n nh ng c m t có th phân
tách theo nhi u cách khác nhau, chương trình s d ng l i

c mt

đó và đưa ra t t c các cách phân tách có th trong ph n L a ch n
cách tách t (xem hình 3.11), lúc đó ngư i s d ng s l a ch n cách
tách phù h p v i ng c nh văn b n và b m nút Ch n phương án đ
ch p nh n, chương trình s lưu l a ch n này và ti p t c x lý ph n
văn b n cịn l i.

Hình 3.10 Giao di n ch c năng tách t (giao di n ti ng Anh)


- 24 -

Hình 3.11 Ngư i s d ng l a ch n phương án tách văn b n
3.5.

K T LU N CHƯƠNG

Chương 3 c a báo cáo này t p trung trình bày nh ng đ xu t
đ kh c ph c HTNN trong STVB. Trong ph n này tác gi cũng ñã
nh c l i nh ng k t qu mà m t s cơng trình nghiên c u ñã ñ t ñư c
trong lĩnh v c x lý nh p nh ng ti ng Vi t, ñ ng th i đưa ra m t mơ
hình t ng quan đ x lý bài tốn. Ph m vi x lý là h tr kh c ph c

hi n tư ng nh p nh ng gây ra do nh ng l i chính t ti ng Vi t

c p

đ âm ti t, ñ ng th i h tr x lý nh p nh ng do khơng xác đ nh
đư c ranh gi i gi a các t .


- 25 -

K T LU N
1.

Đánh giá k t qu chương trình

Sau m t th i gian nghiên c u và th c hi n ñ tài, tác gi ñã
ñ t ñư c m t s k t qu v m t lý thuy t và

ng d ng, c th

như sau:
Cơ s lý thuy t
Nghiên c u ñư c nh ng v n ñ cơ b n liên quan ñ n x lý
ngơn ng t nhiên nói chung và x lý ti ng Vi t nói riêng. Nghiên
c u v nh ng hi n tư ng nh p nh ng thư ng xu t hi n trong ti ng
Vi t, tìm hi u nh ng n i dung chính v so n th o văn b n và hi n
tư ng nh p nh ng trong so n th o văn b n. Tìm hi u v các cơng
trình, các bài báo nghiên c u v x lý nh p nh ng trong ngơn ng t
nhiên nói chung và ti ng Vi t nói riêng.
Xây d ng ng d ng

Xây d ng đư c m t chương trình h tr x lý nh p nh ng v i
m t s ch c năng chính sau:
S a l i chính t ti ng Vi t cho văn b n

m c ñ âm ti t;

Ch c năng chính: tách đo n văn b n cho trư c thành các t riêng
bi t, ch c năng này ñã gi i quy t ñư c nh ng nh p nh ng v ranh
gi i t trong văn b n, ñ ng th i k t qu này có th dùng ti p cho các
ng d ng phát tri n v sau.
V cơ s d li u:
Tác gi ñã xây d ng ñư c m t kho d li u g m kho ng hơn
10.000 âm ti t ti ng Vi t. D li u này ph c v cho ch c năng ki m
l i chính t ti ng Vi t

m c âm ti t. Ngồi ra đ ph c v cho ch c

năng tách t trong văn b n ti ng Vi t, tác gi ñã xây d ng ñư c m t
kho d li u g m kho ng 24.000 t có trong ti ng Vi t và b sung
m t s danh t riêng ph bi n.


×