Tải bản đầy đủ (.pdf) (7 trang)

Thuật toán kiểm tra âm tiết tiếng Việt dựa trên luật cấu tạo âm tiết

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (374.3 KB, 7 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

T P CHÍ KHOA H C, Đ i h c Hu , S  25, 2004<b>Ạ</b> <b>Ọ</b> <b>ạ ọ</b> <b>ế ố</b>


THU T TOÁN KI M TRA ÂM TI T TI NG VI T <b>Ậ</b> <b>Ể</b> <b>Ế</b> <b>Ế</b> <b>Ệ</b>
D A TRÊN LU T C U T O ÂM TI T<b>Ự</b> <b>Ậ</b> <b>Ấ</b> <b>Ạ</b> <b>Ế</b>


<i>Nguy n Gia Đ nh, Tr n Thanh Lễ</i> <i>ị</i> <i>ầ</i> <i>ương</i>
<i>Trường Đ i h c Khoa h c, Đ i h c Huạ ọ</i> <i>ọ</i> <i>ạ ọ</i> <i>ế</i>
1. GI I THI U<b>Ớ</b> <b>Ệ</b>


Trong th i đ i ngày nay nhu c u giao ti p b ng văn b n ngày càng nhi u. Cácờ ạ ầ ế ằ ả ề  
văn b n này thả ường được in ra t  máy tính thơng qua các ph n m m so n th o vănừ ầ ề ạ ả  
b n nh : MS Word, Word Perfect... nó c n ph i đúng, chính xác và hi u qu . Đ  làmả ư ầ ả ệ ả ể  
được nh  v y chúng ta ph i ki m tra chính t , ng  pháp văn b n trư ậ ả ể ả ữ ả ước khi in ra và 
g i đi. Tuy nhiên, khi văn b n l n thì vi c ki m tra do con ngử ả ớ ệ ể ười th c hi n m t r tự ệ ấ ấ  
nhi u th i gian và là m t cơng vi c nhàm chán. Vì nhi u ngun nhân, trong đó cóề ờ ộ ệ ề  
nguyên nhân v  tâm lý làm ngề ười ki m tra không ki m tra h t văn b n, ho c khiể ể ế ả ặ  
ki m tra xong văn b n thì cũng khơng đ m b o văn b n đúng tồn b . Sai sót l nể ả ả ả ả ộ ớ  
nh t trong văn b n thấ ả ường là l i chính t  khơng c  ý (t c là l i do đánh máy nh m).ỗ ả ố ứ ỗ ầ


Xu t phát t  nh ng y u c u đó mà trong ph n m m MS Word cũng đã có ch cấ ừ ữ ề ầ ầ ề ứ  
năng ki m tra chính t  và ng  pháp ti ng Anh   m t m c đ  tể ả ữ ế ở ộ ứ ộ ương đ i nh t đ nh.ố ấ ị  
Vi c ki m tra l i chính t  di n ra khá d  dàng trong MS Word, nh ng v i l i ngệ ể ỗ ả ễ ễ ư ớ ỗ ữ 
pháp thì ch a hồn tồn đúng. V n đ  ki m tra ng  pháp đ i v i ngơn ng  t  nhiênư ấ ề ể ữ ố ớ ữ ự  
là m t trong nh ng v n đ  r t khó và đang độ ữ ấ ề ấ ược nghiên c u b i các nhà khoa h c,ứ ở ọ  
các hãng ph n m m l n trên th  gi i. Đ i v i ti ng Vi t cũng đã xu t hi n ph nầ ề ớ ế ớ ố ớ ế ệ ấ ệ ầ  
m m ki m tra chính t , đó là ph n m m Vietkey Office, ph n m m này ki m tra l iề ể ả ầ ề ầ ề ể ỗ  
chính t  d a trên m t t p các t  v ng có s n trong t  đi n. Vì v y kh  năng m  c aả ự ộ ậ ừ ự ẵ ừ ể ậ ả ở ủ  
ph n m m là khơng có, t c là khơng có kh  năng h c các t  m i t  văn b n đúngầ ề ứ ả ọ ừ ớ ừ ả  
chính t . H n n a do s  d ng c  ch  l u các t  v ng trong t  đi n nên ph i l u trả ơ ữ ử ụ ơ ế ư ừ ự ừ ể ả ư ữ 
m t lộ ượng khá l n các t  v ng. Đó là nh ng h n ch  c a ph n m m Vietkey Office.ớ ừ ự ữ ạ ế ủ ầ ề



</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2></div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

2. PHÂN TÍCH C U TRÚC ÂM TI T<b>Ấ</b> <b>Ế</b>
2.1. Âm ti t<b>ế</b>


Âm ti t là đ n v  phát âm nh  nh t mà cho dù ta có phát âm ch m đ n m y điế ơ ị ỏ ấ ậ ế ấ  
n a cũng không th  tách ra thành các ph n nh  h n đữ ể ầ ỏ ơ ược.


2.2. C u trúc âm ti t 5 thành ph n: (Cách ti p c n theo h<b>ấ</b> <b>ế</b> <b>ầ</b> <b>ế</b> <b>ậ</b> <b>ướ</b>ng ngôn ng )<b>ữ</b>
Theo ngôn ng  h c m t âm ti t ti ng Vi t đữ ọ ộ ế ế ệ ượ ấ ạ ừc c u t o t  năm thành ph n sau:ầ


­ Âm đ uầ


­ Âm đ mệ


­ Âm chính
­ Âm cu iố


­ Thanh đi uệ


Chúng ta có th  vi t c u trúc c a m t âm ti t theo cách ti p c n 5 thành ph nể ế ấ ủ ộ ế ế ậ ầ  
nh  sau:ư


Âm ti t = [Âm đ u][Âm đ m]<Âm chính>[Âm cu i][Thanh đi u]ế ầ ệ ố ệ


Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ  
thành ph n n m trong c p d u [ ] thì có th  có ho c khơng.ầ ằ ặ ấ ể ặ


Ví d : ụ


Âm ti t<b>ế</b> Các thành ph n c u t o thành âm ti t<b>ầ</b> <b>ấ ạ</b> <b>ế</b>



ho c<b>ặ</b>


Âm đ uầ h
Âm đ mệ o
Âm chính ă
Âm cu iố c
Thanh đi uệ .


hai


Âm đ uầ h


Âm đ mệ khơng có
Âm chính ai 
Âm cu iố khơng có
Thanh đi uệ khơng có


O


Âm đ uầ khơng có
Âm đ mệ khơng có
Âm chính o


</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

Đây là m t cách ti p c n r t t t trong vi c phân tích ngơn ng  ti ng Vi t. Tuyộ ế ậ ấ ố ệ ữ ế ệ  
nhiên, cách ti p c n này r t khó khăn trong vi c ki m tra l i chính t  trên máy tính.ế ậ ấ ệ ể ỗ ả  
Vì v y, chúng tơi đ a ra m t cách ti p c n m i ng n g n h n đ  d  dàng cho vi cậ ư ộ ế ậ ớ ắ ọ ơ ể ễ ệ  
ki m tra chính t  trên máy tính.ể ả


2.3. C u trúc âm ti t ba thành ph n: (Cách ti p c n theo h<b>ấ</b> <b>ế</b> <b>ầ</b> <b>ế</b> <b>ậ</b> <b>ướ</b>ng t  h p âm)<b>ổ ợ</b>
Chúng ta có th  phân tích m t âm ti t thành ba thành ph n sau:ể ộ ế ầ



­ Âm đ uầ


­ T  h p âm gi aổ ợ ữ


­ Âm cu iố


C u trúc c a m t âm ti t theo cách ti p c n 3 thành ph n s  đấ ủ ộ ế ế ậ ầ ẽ ược vi t l i nhế ạ ư 
sau:


Âm ti t = [Âm đ u]<T  h p âm gi a>[Âm cu i]ế ầ ổ ợ ữ ố


Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ  
thành ph n n m trong c p d u [ ] thì có th  có ho c khơng.ầ ằ ặ ấ ể ặ


Ví d :ụ


Âm ti t<b>ế</b> Các thành ph n c u t o thành âm ti t<b>ầ</b> <b>ấ ạ</b> <b>ế</b>
ho c<b>ặ</b>


Âm đ uầ h
T  h p âm gi aổ ợ ữ oặ
Âm cu iố c
Hai


Âm đ uầ h
T  h p âm gi aổ ợ ữ ai


Âm cu iố khơng có
O



Âm đ uầ khơng có
T  h p âm gi aổ ợ ữ o


Âm cu iố khơng có
Âm đ u g m có 27 lo i nh  sau:ầ ồ ạ ư


b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph, q, r, s, t, th, tr, v, x, none
T  h p âm gi a có s  lổ ợ ữ ố ượng r t l n, t  h p âm gi a s  đấ ớ ổ ợ ữ ẽ ượ ậc c p nh t trong quáậ  
trinh h c văn b n c a chọ ả ủ ương trình. Ví d  m t s  t  h p âm gi a là:ụ ộ ố ổ ợ ữ


a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo...
Âm cu i g m có 9 lo i nh  sau:ố ồ ạ ư


c, ch, m, n, ng, nh, p, t, none


Trong đó: none có nghĩa là âm khuy t.ế


</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

D a trên c u trúc âm ti t 3 thành ph n chúng ta th y m t ự ấ ế ầ ấ ộ t  h p âm gi a <b>ổ ợ</b> <b>ữ</b> thì có 
th  ghép v i ể ớ m t s  âm đ u <b>ộ ố</b> <b>ầ</b> và m t s  âm cu i <b>ộ ố</b> <b>ố</b> nh t đ nh, đi u này có th  minhấ ị ề ể  
h a nh  sau:ọ ư


Âm đ u<b>ầ</b> T  h p âm gi a<b>ổ ợ</b> <b>ữ</b> Âm cu i<b>ố</b>
1. b 15. ngh


<b>ươ</b>


1. c


2.c 16. nh 2. ch



3. ch 17. p 3. m


4. d 18. ph 4. n


5. đ 19. q 5. ng


6. g 20. r 6. nh


7. gh 21. s 7. p


8. h 22. t 8. t


9. k 23. th 9. none


10. kh 24. tr
11. l 25. v
12. m 26. x
13. n 27. none
14. ng


Nh ng âm đ u, t  h p âm gi a, âm cu i tơ đ m là có th  ghép v i nhau đ  t oữ ầ ổ ợ ữ ố ậ ể ớ ể ạ  
thành   âm   ti t:   ch ng   h n   nh :   chế ẳ ạ ư ươm,   chươn,   chương,   cươm,   cươn,   chương, 
gươm, gươn, gương...


3. SO SÁNH HAI D NG C U TRÚC ÂM TI T<b>Ạ</b> <b>Ấ</b> <b>Ế</b>


Hai d ng c u trúc âm ti t này có m t s  s  khác nhau trên phạ ấ ế ộ ố ự ương di n ti pệ ế  
c n, trong đó d ng c u trúc âm ti t 3 thành ph n là t  h p c a d ng c u trúc âm ti tậ ạ ấ ế ầ ổ ợ ủ ạ ấ ế 
5 thành ph n. Hay d ng c u trúc âm ti t 5 thành ph n là khai tri n c a d ng c u trúcầ ạ ấ ế ầ ể ủ ạ ấ  


âm ti t 3 thành ph n. Chúng ta có th  th y s  tế ầ ể ấ ự ương  ng gi a hai d ng c u trúc nàyứ ữ ạ ấ  
nh  sau:ư


C u trúc âm ti t 5 thành ph n<b>ấ</b> <b>ế</b> <b>ầ</b> C u trúc âm ti t 3 thành ph n<b>ấ</b> <b>ế</b> <b>ầ</b>


Âm đ uầ Âm đ uầ


Âm đ mệ


T  h p âm gi aổ ợ ữ


Âm chính
Thanh đi uệ


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

Nh  v y, ư ậ T  h p âm gi a<b>ổ ợ</b> <b>ữ</b>  c a c u trúc âm ti t 3 thành ph n th c ch t là baủ ấ ế ầ ự ấ  
thành ph n ầ Âm đ m, Âm chính, Thanh đi u<b>ệ</b> <b>ệ</b>  c a c u trúc âm ti t 5 thành ph n ghépủ ấ ế ầ  
l i.ạ


4.  T  CH C, CÀI Đ T VÀ NH N XÉT<b>Ổ</b> <b>Ứ</b> <b>Ặ</b> <b>Ậ</b>
4.1. T  ch c l u tr  lu t âm ti t:<b>ổ</b> <b>ứ ư</b> <b>ữ ậ</b> <b>ế</b>


D a trên nh ng phân tích v  âm ti t 3 thành ph n, chúng ta có th  t  ch c l uự ữ ề ế ầ ể ổ ứ ư  
tr  t  đi n lu t theo T  h p âm gi a trên file d  li u nh  sau:ữ ừ ể ậ ổ ợ ữ ữ ệ ư


Structure CT_AM


Tong_Am_Dau : LongInt
To_Hop_Am_Giua : String(3)
Tong_Am_Cuoi : LongInt
End Structure



Trong đó: Tong_Am_Dau là giá tr  t ng c a các Âm đ u có th  đi v i t  h p âmị ổ ủ ầ ể ớ ổ ợ  
gi aữ


Tong_Am_Cuoi là giá tr  t ng c a các Âm cu i có th  đi v i t  h p âm gi aị ổ ủ ố ể ớ ổ ợ ữ


L u c u trúc âm này (có s p x p) thành m t t  đi n các c u trúc âm đ  sau nàyư ấ ắ ế ộ ừ ể ấ ể  
chúng ta ki m tra các âm ti t   trong t  đi n.ể ế ở ừ ể


4.2. Thu t tốn ki m tra m t âm ti t có đúng hay khơng.<b>ậ</b> <b>ể</b> <b>ộ</b> <b>ế</b>
Đ u vào:<b>ầ</b>  M t âm ti t.ộ ế


Đ u ra:<b>ầ</b>  Âm ti t đúng chính t  hay khơng.ế ả


Ph<b>ươ</b>ng pháp:


1. Tách âm ti t ra làm 3 ph n: âm đ u, t  h p âm gi a, âm cu i và chuy n thànhế ầ ầ ổ ợ ữ ố ể  
m t c u trúc âm ti t ộ ấ ế X, tương  ng theo âm đ u, t  h p âm gi a và âm cu i.ứ ầ ổ ợ ữ ố


2. Tìm t  h p âm gi a trong t  đi n theo phổ ợ ữ ừ ể ương pháp tìm ki m nh  phân.ế ị


3. N u tìm th y thì ti p t c bế ấ ế ụ ước 4, n u khơng thì nh y đ n bế ả ế ước 6.
4. Ta l y đấ ược m t c u trúc âm ti t ộ ấ ế CTAM tương  ng trong t  đi n.ứ ừ ể


5. Ki m tra xem âm đ u, âm cu i c a ể ầ ố ủ X có trong trong c u trúc âm ti t ấ ế CTAM 
đó hay khơng. N u có thi k t lu n là âm ti t đúng, nh y đ n bế ế ậ ế ả ế ước 7. N u không ti pế ế  
t c bụ ước 6.


6. K t lu n âm ti t sai.ế ậ ế



7. K t thúc.ế


Vi c ki m tra toàn b  các âm ti t c a văn b n là vi c ki m tra t t c  các âm ti tệ ể ộ ế ủ ả ệ ể ấ ả ế  
có trong t  đi n hay không.ừ ể


</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

­ Phương pháp này ti t ki m đế ệ ược không gian l u tr  t  đi n, s  c u trúc l uư ữ ừ ể ố ấ ư  
tr  b ng s  t  h p âm gi a c a ti ng Vi t, s  lữ ằ ố ổ ợ ữ ủ ế ệ ố ượng này không nhi u (kho ng 700ề ả  
c u trúc).ấ


­ Do s  lố ượng c u trúc âm ti t nh  nên vi c tìm ki m r t nhanh, v i phấ ế ỏ ệ ế ấ ớ ương 
pháp tìm ki m nh  phân thi t c đ  tìm ki m là logế ị ố ộ ế 2(n) (n là s  c u trúc âm ti t).ố ấ ế


TÀI LI U THAM KH O<b>Ệ</b> <b>Ả</b>


1. Hoàng Phê (ch  biên),  ủ <i>T  đi n ti ng Vi từ</i> <i>ể</i> <i>ế</i> <i>ệ</i>, Nhà xu t b n Giáo d c, Hà N iấ ả ụ ộ 
(1994)


2. Đoàn Thi n Thu t,  ệ ậ <i>Ng  âm ti ng Vi tữ</i> <i>ế</i> <i>ệ</i>, Nhà xu t b n Đ i h c và Trung h cấ ả ạ ọ ọ  
chuyên nghi p Hà N i (1980).ệ ộ


3. Nguy n Qu c Dũng,  ễ ố <i>Ng  pháp ti ng Vi tữ</i> <i>ế</i> <i>ệ</i>, Trung tâm Đào t o T  xa, Huạ ừ ế 
(1995).


4. Bùi T t Tấ ươm (ch  biên),  ủ <i>C  s  ngôn ng  h c và ti ng Vi tơ ở</i> <i>ữ ọ</i> <i>ế</i> <i>ệ</i>, Nhà xu t b nấ ả  
Giáo d c Hà N i (1997).ụ ộ


5. Phan Th  Tị ươi.  <i>Trình biên d chị</i> , Nhà xu t b n Đ i h c Qu c gia, Tp. H  Chíấ ả ạ ọ ố ồ  
Minh, (2001).


6. Jeffrey D. Ullman, (Tr n Đ c Quang d ch),  ầ ứ ị <i>Chương trình d chị</i> , T p 1,2, Nhàậ  


xu t b n Th ng kê (2000).ấ ả ố


THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES
BASED ON THE CONSTRUCTING LAWS OF SYLLABLES


<i>Nguyen Gia Đinh, Tran Thanh Luong</i>
<i>College of  Sciences, Hue University</i>
SUMMARY


</div>

<!--links-->

×