Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 70 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN</b>
<b> MÔN CÔNG NGH TRI TH C</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN</b>
<b> MÔN CÔNG NGH TRI TH C</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ìnhã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trìnhth c hi n lu n v n.
Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tơi hồn thi n lu n v n này.
c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phépnh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n c s
m thơng và t n tình ch b o c a quý Th y Cô và các b n.
TP. H Chí Minh, tháng 7 n m 2005
<b>Phan Qu c Lân – 0112267</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên h ng d n
<b>Th.S Ph m Ph m Tuy t Trinh</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên ph n bi n
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a cácu thanh c ng nh d u c a các ký t . u này giúp cho ti ng Vi t “thêm thanh, thêmu”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ngVi t tr nên t n nhi u th i gian h n. 1 v n khác, khi vi c s d ng Internet tr nênthơng d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email. Nh ng, cho nhi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lámail trên m ng h u nh khơng có d u. Vi c phát tri n 1 công c giúp thêm d u ti ngVi t vào v n b n không d u là vi c r t c n thi t và thú v .
tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m tng m i, do ó, ch ng trình khơng chú tr ng chuyên sâu vào l nh v c nào. Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mơ hình mà ch ng trình áp d ng.
Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :
§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các cơng trình ã có liên quan n tài.
§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.
§ Ch ng 3 nh n xét các mơ hình ã có tr c ây, và a ra mơ hình cài tchính.
§ Ch ng 4 c th hóa mơ hình cài t.
§ Ch ng 5 t ng k t và ra h ng phát tri n .
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><i>Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad...12</i>
<i>Hình 1.2.2-2 : Gõ ti ng Vi t khơng d u trên VietPad...12</i>
<i>Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad ...13</i>
<i>Hình 1.2.3-4 : Gõ ti ng Vi t khơng d u trên EasyVn...14</i>
<i>Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn ...14</i>
<i>Hình 4.1.1-15 : M t trang báo thanh niên...47</i>
<i>Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...48</i>
<i>Hình 4.1.2-17: Giao di n chng trình Tách Câu...49</i>
<i>Hình 4.1.2-18: T vi t t t cung c p cho chng trình Tách Câu...49</i>
<i>Hình 4.1.2-19: N i dung file k t xu t c a chng trình Tách Câu ...50</i>
<i>Hình 4.4.2-33: Giao di n chng trình chính thêm d u Clipboard ...60</i>
<i>Hình 4.4.2-34: Test chng trình thêm d u Clipboard...61</i>
<i>Hình 5.2-35 : T p tin kho ng li u m u ...69</i>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ch x lý các v n b n ti ng Vi t có mã Unicode.
Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanhng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phongphú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ngVi t.
<b>u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi</b>
lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m.
thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xácnh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhơng có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n
n. i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các tc phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t .
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t cóu nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t khơng d u có th có nhi u t có d u t ng ng v i nó.
<i>Ví d 1-1 : T không d u “toi” có 3 t có d u t</i> ng ng là “tơi”, “t i” và“t i”.
Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, tan ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t khơng d . ây chính là 2 bài tốn c n gi i quy t chính c a mơ hình.
i v i tách t có d u, có nhi u mơ hình c s d ng và t k t qu caonh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h ncó tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mơ hình Bigram ã gi i quy t khá hi u qu 2n c a bài toán này. Ph ng pháp ch m i c áp d ng cho mô hình thêmu offine, nh ng có th c cài t gán d u online.
AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi. u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t làcó nhu c u, và nhu c u này s ngày càng t ng cao. Ch ng trình AMPad có
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
m hay là vi c áp d ng mơ hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng.
<i><b>Hình 1.2.1-1 : Thêm d u ti ng Vi t t</b>ng b ng AMPad</i>
Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri ni Quân Nguy n và nhóm phát tri n trên . Ngoàich c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad cịnlà 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m .
<i><b>Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad</b></i>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u
<i><b>Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad</b></i>
Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phítrên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n it c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng cóth ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n khơng d u thành cóu. Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng thtrong 2 tháng), mơ hình thêm d u t ng c a www.easyvn.com c gi kín.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u
<i><b>Hình 1.2.3-4 : Gõ ti ng Vi t khơng d u trên EasyVn</b></i>
<i><b>Hình 1.2.3-5 : V n b n sau khi t</b>ng thêm d u trên EasyVn</i>
VnMark [2] c tác gi Nguy n V n Toàn phát tri n. Do tác gi ã làmth t l c ch ng trình, do ó, khơng có hình nh minh ho ch ng trình.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiêni v i m i ng i mà khơng c n m t trình ngơn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m tti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t). n v “ti ng” i v i ng i Vi t là m tn v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng sng nó tr c khi hi u và s d ng khái ni m “t ”.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Ngoài ra, m i âm ti t <b>c nh m t b c cao th p, g i là thanh u.</b>
Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh. Thanh này xu thi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âmti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói. Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,th <b>ng g i là ngang, h i, s c, huy n, ngã, n ng.</b>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng. Và
ây c ng là c m n i b t c a ti ng Vi t.
<b>2.1.2.1.Các quan ni m v t</b>
Có 1 s nh ngh a n hình v t nh sau [1] :
- Theo L.Bloomfield, thì t là <i><b>t hình thái t do nh nh</b></i> .
- Theo Solncev thì <i><b> là n v ngơn ng có tính hai m t: âm và ngh a. có kh n ng c l p v cú pháp khi s d ng trong l</b></i> .
- Theo B.Golovin, thì t là <i><b>n v nh nh t có ngh a c a ngôn ng , cn d ng c l p, tái hi n t do trong l i nói xây d ng nên câu . ây</b></i>
ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.
Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ngi c ng nh n di n t :
nó ph i x p riêng trong t n.
<b>2.1.2.2.Tiêu chí nh n di n “t ” ti ng Vi t</b>
r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta cóth rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung.
<b>2.1.2.2.1. Các tiêu chu n v hình th c</b>
<i>Tính cnh : tính v ng ch c v c u t o, không th chêm – xen </i> cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhơng c l p). Tính c l p cịn c g i là kh n ng k t h p (t do – h nch )
<i>Tính t lo i và quan h cú pháp : trong ng /câu, t</i> m nh n nh ngch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,cịn hình v thì khơng có tính ch t t lo i. Quan h gi a các t là quan h cúpháp, cịn quan h gi a các hình v c a t không ph i là quan h cú pháp.
<b>2.1.2.2.2. Các tiêu chu n v n i dung</b>
<i>Ch c n ng nh danh : ch c n ng này </i> c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”
<i>Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái</i>
ni m c n bi u th b ng nhi u t , và có nh ng t khơng bi u th khái ni m.
<i>Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m khơng trùng nhau, vì</i>
y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.
<i>Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, </i> c a s các nhàVi t ng h c ch p nh n trong vi c xác nh t cách c a t . Tiêu chu n nàyliên quan n tính thành ng và tính võ ốn.
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Bài tốn tách t cho ngơn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t. Các thu t tốn tách t có th c phân lo i nhsau:
v a theo lu t. Bao g m các cách sau:
- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991).
- Mơ hình kh p t i a. Mơ hình này c chia thành “Kh p t i a ti n và kh p t ia lùi”. i v i ph ng pháp này thì m t t n hồn ch nh là khơng th thi u.t t n khơng hồn ch nh s gi m hi u su t c a thu t toán. Tuy nhiên, dth y là khó có th có m t t n hồn ch nh ( c bi t khi các ngôn ng v n còn
c ti p t c phát tri n h ng ngày trong th i i ngày nay). Mơ hình này tuthu c nhi u vào t n.
v Dùng th ng kê:
Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp
ng th ng kê. Ng c nh càng r ng thì thu t tốn càng ph c t p.
Cho dù r ng ng c nh th nào, ln có th áp d ng mơ hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n. K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t.
v Cách khác:
u h t các gi i pháp khác là s lai t o gi a các mơ hình trên và các mơ hìnhngơn ng h c nh WFST, TBL. Th i gian x lý các gi i pháp này tr nên áng k ,nh ng chính xác t c khá cao.
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Tri th c v ngôn ng , th ng áp d ng cho các mơ hình d a trên lu t, hi m khic áp d ng cho nh ng mơ hình trên.
i ây là mô t 2 ph ng pháp tách t th ng s d ng :
Thu t toán so kh p t i a ho t ng nh tên c a chính nó. Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t). Thu t toán c ápng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG. Thu t tốn này cónhi u bi n th khác nhau.
Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n. Gi s cót chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C<sub>1</sub>, C<sub>2</sub>,…C<sub>3</sub>. Ta b t u t u chu i. u tiên, ki m tra xem C<sub>1</sub>có ph i là t khơng,sau ó ki m tra xem C<small>1</small>C<small>2</small>có ph i là t hay không. Ti p t c làm cho n khi tìmc t dài nh t. T có v h p lý nh t là t dài nh t. Ch n t ó, sau ó tìm ti pnh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.Ø ng ph c t p. Quy t c c a d ng này là phân n có v h p lý nh t là n 3
v i chi u dài t i a. Thu t toán b t u nh d ng n gi n. N u phát hi n ranh ng cách tách t gây nh p nh ng (ví d C<sub>1</sub>là t và C<sub>1</sub>C<sub>2</sub> ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C<small>1</small>ho c C<small>1</small>C<small>2.</small>
<i>Ví d 2-2 : ta </i> c nh ng n sau:- C<sub>1</sub> C<sub>2</sub> C<sub>3</sub>C<sub>4.</sub>
- C<small>1</small>C<small>2</small> C<small>3</small>C<small>4</small> C<small>5</small>
- C<small>1</small>C<small>2</small> C<small>3</small>C<small>4</small> C<small>5</small>C<small>6</small>
Chu i dài nh t s là chu i th ba. V y t u tiên c a chu i th ba (C<sub>1</sub>C<sub>2</sub>) sc ch n. Th c hi n l i các b c cho n khi c chu i t hoàn ch nh. Cách này tc chính xác 99.69%.
Mơ hình s d ng ph ng pháp tách t LRMM d ng n gi n. Mơ hình này v an gi n, nh ng mang l i chính xác cao.
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u
WFST ã c áp d ng tách t ti ng Trung Qu c. Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u. DùngWFST duy t qua câu c n xét. Cách duy t có tr ng s l n nh t s là cách tách t
c ch n. Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron kh nh p nh ng.
Mơ hình tách t trong VnMark s d ng chính là mơ hình WFST này (Xem chi ti tn trong [1] trang 99-104, hay trong [5])
t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi tt n m cu i câu. M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu. S m p m c a các d u câu này cth hi n qua các ví d sau:
<i>Ví d 2-3:</i>
<b>1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.</b>
<b>2. “This issue crosses party lines and crosses philosophical lines!” said Rep.John Rowland (R., Conn.).</b>
<b>3. It was due Friday 5 p.m. Saturday would be too late.</b>
<b>4. She has an appointment at 5 p.m. Saturday to get her car fixed.</b>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho tanh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câun ph i có nhi u thơng tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khich vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4. nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mơ hình h c ph c t p h n, nh :
ng neural, TBL, Maximum Entropy.
Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , bph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t táchra các câu riêng bi t.
4. u ch m trong các tr ng h p khác nh s tài kho n, email(), d u ch m trong các a ch website (www.is-edu.hcmuns.edu.vn).
có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p.
1. u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u nh n bi t k t thúc câu s là : “ln ln có ít nh t m t kho ng tr ng sau d uch m và ký t ti p theo s là ch cái s c vi t hoa”.
2. Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr cvà ph n li n sau d u ch m phát hi n s có d u ch m th p phân.
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
3. nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n.
4. Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t
<b>1. It was due Friday 5p.m. Saturday would be too late.</b>
<b>2. She has an appointment at 5 p.m. Saturday to get her car fixed.</b>
xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch mt câu hay không c ng là m t vi c không n gi n i v i máy. Th m chí i v ing i mà trình ti ng Anh ch a v ng. Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.
<b>2.3.1.2. lý d u ch m trong ngo c.</b>
Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s qt trongn v n ang xét tìm d u óng t ng ng. N u tìm th y, toàn b ph n trong ngo cc gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c. N u khơng tìmth y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bìnhth ng.
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
<b>3.1.1.1.2. Tách token</b>
Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng tokent … Token có th g m 1 chu i các kí t khơng ph i là kí t (nh : , . ; “ @# $ …. ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.
<b>3.1.1.1.3.y ra các t không d u, chuy n thành t có d u</b>
i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t khơng d u, sau ó thơngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),
chuy n t không d u thành có d u.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u
<i>Ví d 3-2:</i>
<b>Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban</b>
<b>bac soi noi trong buoi hop nhom toi hom qua” s</b> c VietPad chuy nthành câu có d u sau thơng qua t <b>n (d u / th hi n s tách t c a VietPad)</b>
<b>“Nh ng v n / / liên quan / tôi ngi / ng t nh / luy n ái / c /n b c / sôi n i / trong / bu i / h p / nhóm / tơi / hơm qua /”</b>
<b>3.1.2.1.Mơ hình thêm d u ti ng Vi t</b>
n c vào mơ hình n-gram, mơ hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
<i><b>Hình 3.1.2-8 :</b>u th c hi n c a mơ hình n-gram</i>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
c c n c nh n d ng danh t riêng.
<i>Ví d 3-3:</i>
Da Nang à à N ng.da nangà a n ng
Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.
<b>3.1.2.1.2. Tách câu</b>
n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cáchnhau b i các ký t nh “.”, “,”, “:”… tách thành các câu. M i câu là m t n v xlý chính trong ch ng trình. Vi c quy t nh câu là n v c b n là do nhi u khi ngh a
a câu s c quy t nh s l a ch n v d u trong câu.
<b>3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu</b>
File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t. File t n này s ctrình bày k h n trong ph n sau.
n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ngp có th ánh d u c a các t trong câu. T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t. Tuy nhiên, do c n c vàop tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên khơng nhi um.
<i>Ví d 3-4:</i>
<i>Câu c n gán d u = “Toc do truyen thong se tang cao”.</i>
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
Thông qua t p tin t <i>n VNMarkDic.txt , tác gi có các thơng tin sau:</i>
- toc do = “t c ” 8.68- truyen = “truy n” 12.31- truyen thong = “truy n th ng” 12.31- thong tin = “thông tin” 7.24- tin = “tin” 7.33- se = “s ” 6.09- tang = “t ng” 7.43- cao = “cao” 6.95
<b>Sau khi t h p các t ta sc 2 trng h p sau:</b>
Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,79<sup>1</sup>Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.70<sup>2</sup>____________________________________________
8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79
8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70_____________________________________________
<b>t qu = “T c </b> truy n thông tin s t ng cao.” 48,70
(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)
<b>3.1.2.2.Mơ hình hu n luy n</b>
Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n
<i>VNMarkDic.txt. T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong</i>
n b n ti ng Vi t. Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trang<b>www.vnexpress.net</b>.
Khác v i các mơ hình gán d u ti ng Vi t tr c ây, t p tin t n khôngnh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t. u này giúpcho mơ hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
tr nên chính xác h n. Ví d : tơi c ng l u thêm dãy âm ti t “tr c vi c”, … vào filen này.
Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r tn (x p x 10MB). u này khi n cho vi c tìm ki m s r t ch m. gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a
n :
Heuristic này c mô t nh sau:
i d li u text t c l y t trang<b>www.vnexpress.net</b> là C1.
i d li u text t c l y t trang <b>www.vnexpress.net</b> là b b h t d uthanh là C2.
d li u C1, tác gi s t o ra file VNMarkDicPre.txt. File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.
Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2. Khi ó, tác gi s so sánh v i các d li u nguyên g c C1. Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.
thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file
<i>VNMarkDicPre.txt t o t p tin VNMarkDic.txt.</i>
n c vào mơ hình Bigram, và d a vào ý t ng c a vi c th ng kê cácm t c a mơ hình VnMark c a tác gi Nguy n V n Tồn, tơi xu t mơ hìnhthêm d u t ng sau :
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
<i><b>Hình 3.2-9:</b>u th c hi n c a mơ hình xu t</i>
d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1. Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u
tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs. …), ach email (<b></b>), a ch URL (<b></b>), s th pphân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào
a b c sau.
Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câut. Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai skhi tách sai t có th ch p nh n c khi tách t khơng d u.
<i>Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t</i>
phân cách nhau b ng d u / )o “H c sinh / h c / sinh h c”
o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t oc câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có thch p nh n c trong 1 ph m vi nào ó.
Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng. Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c nvi t hoa ti ng u tiên là c.
<i>Ví d 3-6:</i>
Da Nang à à N ngDa nang à à N ngda nang à a n ng
<b>3.2.1.3.Ch n t thích h p</b>
i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 tkhông d u thành có d u. Ngồi ra, t ng linh ho t và chính xác c a
</div>