Tải bản đầy đủ (.pdf) (70 trang)

Phương pháp thêm dấu tiếng việt vào văn bàn tiếng việt không dấu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 70 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN</b>

<b> MÔN CÔNG NGH TRI TH C</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>TRNG I H C KHOA H C T NHIÊNKHOA CÔNG NGH THÔNG TIN</b>

<b> MÔN CÔNG NGH TRI TH C</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Con xin chân thành c m n ba m , ông bà, anh em và ng i thân trong gia ìnhã t o m i u ki n t t nh t cho con h c t p và ng viên, khích l con trong quá trìnhth c hi n lu n v n.

Và cu i cùng, tôi xin g i l i c m n n t t c b n bè, c bi t là anh Toàn, b nSinh, b n Kh ng …, nh ng ng i ã h tr và giúp tơi hồn thi n lu n v n này.

c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phépnh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n c s

m thơng và t n tình ch b o c a quý Th y Cô và các b n.

TP. H Chí Minh, tháng 7 n m 2005

<b>Phan Qu c Lân – 0112267</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>NH N XÉT C A GIÁO VIÊN HNG D N</b>

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên h ng d n

<b>Th.S Ph m Ph m Tuy t Trinh</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>NH N XÉT C A GIÁO VIÊN PH N BI N</b>

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Thành ph H Chí Minh, tháng 07 n m 2005Giáo viên ph n bi n

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>I NÓI U</b>

Ch vi t ti ng Vi t c a chúng ta có 1 c m r t hay là có s xu t hi n c a cácu thanh c ng nh d u c a các ký t . u này giúp cho ti ng Vi t “thêm thanh, thêmu”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm u” ó làm cho vi c gõ ti ngVi t tr nên t n nhi u th i gian h n. 1 v n khác, khi vi c s d ng Internet tr nênthơng d ng, 1 ti n ích c m i ng i a chu ng là d ch v Email. Nh ng, cho nhi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lámail trên m ng h u nh khơng có d u. Vi c phát tri n 1 công c giúp thêm d u ti ngVi t vào v n b n không d u là vi c r t c n thi t và thú v .

tài này h ng n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m tng m i, do ó, ch ng trình khơng chú tr ng chuyên sâu vào l nh v c nào. Vi cthêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h ng nhi u n c utrúc c a mơ hình mà ch ng trình áp d ng.

Lu n v n c t ch c thành 5 ch ng v i n i dung nh sau :

§ Ch ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b nkhông d u, và các cơng trình ã có liên quan n tài.

§ Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng.

§ Ch ng 3 nh n xét các mơ hình ã có tr c ây, và a ra mơ hình cài tchính.

§ Ch ng 4 c th hóa mơ hình cài t.

§ Ch ng 5 t ng k t và ra h ng phát tri n .

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>DANH M C HÌNH</b>

<i>Hình 1.2.1-1 : Thêm d u ti ng Vi t tng b ng AMPad...12</i>

<i>Hình 1.2.2-2 : Gõ ti ng Vi t khơng d u trên VietPad...12</i>

<i>Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad ...13</i>

<i>Hình 1.2.3-4 : Gõ ti ng Vi t khơng d u trên EasyVn...14</i>

<i>Hình 1.2.3-5 : V n b n sau khi tng thêm d u trên EasyVn ...14</i>

<i>Hình 4.1.1-15 : M t trang báo thanh niên...47</i>

<i>Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...48</i>

<i>Hình 4.1.2-17: Giao di n chng trình Tách Câu...49</i>

<i>Hình 4.1.2-18: T vi t t t cung c p cho chng trình Tách Câu...49</i>

<i>Hình 4.1.2-19: N i dung file k t xu t c a chng trình Tách Câu ...50</i>

<i>Hình 4.4.2-33: Giao di n chng trình chính thêm d u Clipboard ...60</i>

<i>Hình 4.4.2-34: Test chng trình thêm d u Clipboard...61</i>

<i>Hình 5.2-35 : T p tin kho ng li u m u ...69</i>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Chng 1.</b>

<b>NG QUAN</b>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

<b>1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vàon b n không d u</b>

Ch x lý các v n b n ti ng Vi t có mã Unicode.

Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanhng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phongphú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ngVi t.

<b>u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi</b>

lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v inhau, tr nên khó kh n và d gây hi u l m.

thêm d u, tr c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xácnh ranh gi i t i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khikhơng có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ngChâu Á khác, m t t chính t có th không t ng ng v i m t “t ” trên v n

n. i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các tc phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t.Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ c phân cách b ikho ng tr ng, ch không ph i t .

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác nh cho úng t cóu nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi ukhó kh n, khi 1 t khơng d u có th có nhi u t có d u t ng ng v i nó.

<i>Ví d 1-1 : T không d u “toi” có 3 t có d u t</i> ng ng là “tơi”, “t i” và“t i”.

Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, tan ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t khơng d . ây chính là 2 bài tốn c n gi i quy t chính c a mơ hình.

<b>1.1.3.ng gi i quy t</b>

i v i tách t có d u, có nhi u mơ hình c s d ng và t k t qu caonh MM (Maximum Matching : forward / backward hay còn g i là LRMM:Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h ncó tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén(compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháptách t LRMM [1][7] k t h p v i mơ hình Bigram ã gi i quy t khá hi u qu 2n c a bài toán này. Ph ng pháp ch m i c áp d ng cho mô hình thêmu offine, nh ng có th c cài t gán d u online.

<b>1.2. Gi i thi u các cơng trình ã có</b>

AMPad [12] (tên version c và thông d ng v i m i ng i là AutoMark)a tác gi Tr n Tri t Tâm là s n ph m u tiên nghiên c u v l nh v c này.Ch ng trình ã c nhi u ng i bi t n và c s d ng r ng rãi. u nàycho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t làcó nhu c u, và nhu c u này s ngày càng t ng cao. Ch ng trình AMPad có

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

m hay là vi c áp d ng mơ hình x lý thêm d u ch online, t o s tr cquan, thân thi n cho ng i s d ng.

<i><b>Hình 1.2.1-1 : Thêm d u ti ng Vi t t</b>ng b ng AMPad</i>

Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri ni Quân Nguy n và nhóm phát tri n trên . Ngoàich c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad cịnlà 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m .

<i><b>Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad</b></i>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u

<i><b>Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad</b></i>

Trang web www.easyvn.com [10] cung c p d ch v email n t mi n phítrên m ng, v i s h tr ng i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n it c a www.easyvn.com là : sau khi so n th o xong b c mail, ng i dùng cóth ch n ch c n ng Thêm d u ti ng Vi t bi n v n b n khơng d u thành cóu. Do ây là d ch v c cung c p và thu phí trên NET (cho s d ng thtrong 2 tháng), mơ hình thêm d u t ng c a www.easyvn.com c gi kín.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u

<i><b>Hình 1.2.3-4 : Gõ ti ng Vi t khơng d u trên EasyVn</b></i>

<i><b>Hình 1.2.3-5 : V n b n sau khi t</b>ng thêm d u trên EasyVn</i>

VnMark [2] c tác gi Nguy n V n Toàn phát tri n. Do tác gi ã làmth t l c ch ng trình, do ó, khơng có hình nh minh ho ch ng trình.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>Chng 2.</b>

<b> S LÝ THUY TTIN H C</b>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Vi c nh n di n “ti ng” i v i ng i Vi t là u quá d dàng, t nhiêni v i m i ng i mà khơng c n m t trình ngơn ng gì cao, vì : trong l inói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m tti ng, và có mang m t thanh u nh t u; còn trong ch vi t (m t chính), m i ti ng bao gi c ng c vi t r i thành t ng ch (ng n cách b ngkho ng tr ng hay các d u ng t). n v “ti ng” i v i ng i Vi t là m tn v t nhiên, khái ni m “ti ng” ã có t lâu và c ng i b n ng sng nó tr c khi hi u và s d ng khái ni m “t ”.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Ngoài ra, m i âm ti t <b>c nh m t b c cao th p, g i là thanh u.</b>

Trong l i nói, m i âm ti t ti ng Vi t u mang m t thanh. Thanh này xu thi n l p t c khi âm ti t c phát ra, cho nên có th nói r ng thanh là m tthành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy ntính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âmti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i n v c achu i l i nói. Có sáu thanh làm tiêu chu n nh b c cao th p khác nhau,th <b>ng g i là ngang, h i, s c, huy n, ngã, n ng.</b>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ã hi u r t rõ tính cách b t kh phân c a thanh i v i âm ti t ti ng Vi t, chonên các v ã dùng n nh ng kí hi u ch th các b c thanh t ng ng. Và

ây c ng là c m n i b t c a ti ng Vi t.

<b>2.1.2.1.Các quan ni m v t</b>

Có 1 s nh ngh a n hình v t nh sau [1] :

- Theo L.Bloomfield, thì t là <i><b>t hình thái t do nh nh</b></i> .

- Theo Solncev thì <i><b> là n v ngơn ng có tính hai m t: âm và ngh a. có kh n ng c l p v cú pháp khi s d ng trong l</b></i> .

- Theo B.Golovin, thì t là <i><b>n v nh nh t có ngh a c a ngôn ng , cn d ng c l p, tái hi n t do trong l i nói xây d ng nên câu . ây</b></i>

ng chính là nh ngh a mà trong ngôn ng h c i c ng hay s d ng.

Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ngi c ng nh n di n t :

nó ph i x p riêng trong t n.

<b>2.1.2.2.Tiêu chí nh n di n “t ” ti ng Vi t</b>

r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta cóth rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêuchu n v hình th c và các tiêu chu n v n i dung.

<b>2.1.2.2.1. Các tiêu chu n v hình th c</b>

<i>Tính cnh : tính v ng ch c v c u t o, không th chêm – xen </i> cTính c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính c l p phân bi t t ( n v có ngh a và c l p) v i hình v ( n v có ngh a vàkhơng c l p). Tính c l p cịn c g i là kh n ng k t h p (t do – h nch )

<i>Tính t lo i và quan h cú pháp : trong ng /câu, t</i> m nh n nh ngch c n ng cú pháp nh t nh, nên m i t u ph i mang m t t lo i nào ó,cịn hình v thì khơng có tính ch t t lo i. Quan h gi a các t là quan h cúpháp, cịn quan h gi a các hình v c a t không ph i là quan h cú pháp.

<b>2.1.2.2.2. Các tiêu chu n v n i dung</b>

<i>Ch c n ng nh danh : ch c n ng này </i> c dùng xác nh t cách c a (t th c), coi ó là c tr ng phân bi t gi a “t ” v i “hình v ”

<i>Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái</i>

ni m c n bi u th b ng nhi u t , và có nh ng t khơng bi u th khái ni m.

<i>Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m khơng trùng nhau, vì</i>

y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp.

<i>Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, </i> c a s các nhàVi t ng h c ch p nh n trong vi c xác nh t cách c a t . Tiêu chu n nàyliên quan n tính thành ng và tính võ ốn.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

<b>2.2. Tách t</b>

Bài tốn tách t cho ngơn ng n l p ã c t ra t lâu, ch y u gi i quy tcho ti ng Trung Qu c, ti ng Nh t. Các thu t tốn tách t có th c phân lo i nhsau:

v a theo lu t. Bao g m các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; SampanRarurom, 1991).

- Mơ hình kh p t i a. Mơ hình này c chia thành “Kh p t i a ti n và kh p t ia lùi”. i v i ph ng pháp này thì m t t n hồn ch nh là khơng th thi u.t t n khơng hồn ch nh s gi m hi u su t c a thu t toán. Tuy nhiên, dth y là khó có th có m t t n hồn ch nh ( c bi t khi các ngôn ng v n còn

c ti p t c phát tri n h ng ngày trong th i i ngày nay). Mơ hình này tuthu c nhi u vào t n.

v Dùng th ng kê:

Gi i pháp này d a vào ng c nh t xung quanh a ra quy t nh thích h p.Có hai v n c n c gi i quy t i v i gi i pháp này : r ng ng c nh, và cách áp

ng th ng kê. Ng c nh càng r ng thì thu t tốn càng ph c t p.

Cho dù r ng ng c nh th nào, ln có th áp d ng mơ hình first-order HMM.Tuy nhiên gi i pháp này ph thu c r t nhi u vào ng li u hu n lu n. K t qu hu nluy n trên ng li u chính tr khó có th áp d ng trên các tài li u v n h c và ng c l i.Thêm vào ó, có nh ng t có xác su t r t cao, nhung ch có th ch c n ng v m t ngpháp, làm gi m vai trò c a xác su t.

v Cách khác:

u h t các gi i pháp khác là s lai t o gi a các mơ hình trên và các mơ hìnhngơn ng h c nh WFST, TBL. Th i gian x lý các gi i pháp này tr nên áng k ,nh ng chính xác t c khá cao.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Tri th c v ngôn ng , th ng áp d ng cho các mơ hình d a trên lu t, hi m khic áp d ng cho nh ng mơ hình trên.

i ây là mô t 2 ph ng pháp tách t th ng s d ng :

<b>2.2.1.Kh p t i a (LRMM – Left Right Max Matching)</b>

Thu t toán so kh p t i a ho t ng nh tên c a chính nó. Thu t toán gi i quy tbài toán tách t nào có nhi u t nh t (so kh p c nhi u nh t). Thu t toán c ápng xây d ng ch ng trình tách t ti ng Trung Qu c MMSEG. Thu t tốn này cónhi u bi n th khác nhau.

Ø ng n gi n, c dung gi i quy t v n nh p nh ng t n. Gi s cót chu i ký t (t ng ng v i chu i ti ng Vi t trong ti ng Vi t) C<sub>1</sub>, C<sub>2</sub>,…C<sub>3</sub>. Ta b t u t u chu i. u tiên, ki m tra xem C<sub>1</sub>có ph i là t khơng,sau ó ki m tra xem C<small>1</small>C<small>2</small>có ph i là t hay không. Ti p t c làm cho n khi tìmc t dài nh t. T có v h p lý nh t là t dài nh t. Ch n t ó, sau ó tìm ti pnh trên trên nh ng t còn l i, cho n khi xác nh c toàn b chu i d li u.Ø ng ph c t p. Quy t c c a d ng này là phân n có v h p lý nh t là n 3

v i chi u dài t i a. Thu t toán b t u nh d ng n gi n. N u phát hi n ranh ng cách tách t gây nh p nh ng (ví d C<sub>1</sub>là t và C<sub>1</sub>C<sub>2</sub> ng là t ), ta xemcác ch k ti p tìm t t c các n ba t có th có b t u v i C<small>1</small>ho c C<small>1</small>C<small>2.</small>

<i>Ví d 2-2 : ta </i> c nh ng n sau:- C<sub>1</sub> C<sub>2</sub> C<sub>3</sub>C<sub>4.</sub>

- C<small>1</small>C<small>2</small> C<small>3</small>C<small>4</small> C<small>5</small>

- C<small>1</small>C<small>2</small> C<small>3</small>C<small>4</small> C<small>5</small>C<small>6</small>

Chu i dài nh t s là chu i th ba. V y t u tiên c a chu i th ba (C<sub>1</sub>C<sub>2</sub>) sc ch n. Th c hi n l i các b c cho n khi c chu i t hoàn ch nh. Cách này tc chính xác 99.69%.

Mơ hình s d ng ph ng pháp tách t LRMM d ng n gi n. Mơ hình này v an gi n, nh ng mang l i chính xác cao.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u

<b>2.2.2.Mơ hình m ng WFST và m ng n -ron</b>

WFST ã c áp d ng tách t ti ng Trung Qu c. Ý t ng c b n là áp d ngWFST k t h p v i tr ng s là xác su t xu t hi n c a m i t trong ng li u. DùngWFST duy t qua câu c n xét. Cách duy t có tr ng s l n nh t s là cách tách t

c ch n. Gi i pháp này c ng ã c áp d ng trong [5] kèm v i m ng n -ron kh nh p nh ng.

Mơ hình tách t trong VnMark s d ng chính là mơ hình WFST này (Xem chi ti tn trong [1] trang 99-104, hay trong [5])

t d u ch m th p phân, m t c m t k t thúc, s k t thúc câu v n ho c ngay c t vi tt n m cu i câu. M t d u ch m h i hay d u ch m than có th xu t hi n trong d ungo c n, ngo c kép hay c ng nh cu i câu. S m p m c a các d u câu này cth hi n qua các ví d sau:

<i>Ví d 2-3:</i>

<b>1. The group included Dr. J.M. Freeman and T. Boone Pickens Jr.</b>

<b>2. “This issue crosses party lines and crosses philosophical lines!” said Rep.John Rowland (R., Conn.).</b>

<b>3. It was due Friday 5 p.m. Saturday would be too late.</b>

<b>4. She has an appointment at 5 p.m. Saturday to get her car fixed.</b>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Trong tr ng h p 1 và 2, t n m ngay tr c ho c n m ngay sau d u ch m câu cho tanh ng thông tin quan tr ng v vai trò c a d u trong câu. Tuy nhiên, b ph n tách câun ph i có nhi u thơng tin v ng c nh h n trong tr ng h p vi c ch m câu xu t hi n m t câu con trong d u ngo c n ho c ngo c kép, nh trong tr ng h p 2; hay khich vi t t t xu t hi n cu i câu nh trong tr ng h p 3, 4. nh n di n d u ch mcâu, ng i ta có th dùng các heuristics ho c các mơ hình h c ph c t p h n, nh :

ng neural, TBL, Maximum Entropy.

<b>2.3.1.Tách câu b ng Heristics.</b>

Sau khi nh n n v n b n ã c l c các ký t d th a, các ký t ph , bph n tách câu b t u phân tích d a trên cách ch m câu và ng ngh a m t s t táchra các câu riêng bi t.

4. u ch m trong các tr ng h p khác nh s tài kho n, email(), d u ch m trong các a ch website (www.is-edu.hcmuns.edu.vn).

có th phân bi t c các tr ng h p trên, ta có th d a vào m t s c tr ngriêng trong cách trình bày c a t ng tr ng h p.

1. u d u ch m câu không thu c các tr ng h p còn l i (2,3,4) thì d u hi u nh n bi t k t thúc câu s là : “ln ln có ít nh t m t kho ng tr ng sau d uch m và ký t ti p theo s là ch cái s c vi t hoa”.

2. Ta có th nh n bi t d u ch m th p phân b ng cách c toàn b ph n li n tr cvà ph n li n sau d u ch m phát hi n s có d u ch m th p phân.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

3. nh n bi t d u ch m trong tr ng h p các t vi t t t, ta xây d ng m t danhsách các t vi t t t tra c u khi c n.

4. Tr ng h p này là tr ng h p có các cách trình bày a d ng nh t, nh ng v n cótính ch t chung là d u ch m không bao gi n m cu i t , luôn gi a hai ký tnào ó (ngh a là không có kho ng tr ng li n sau) nên có th d dàng phân bi t

<b>1. It was due Friday 5p.m. Saturday would be too late.</b>

<b>2. She has an appointment at 5 p.m. Saturday to get her car fixed.</b>

xác nh c d u ch m (in m) trong 2 tr ng h p trên có ph i là d u ch mt câu hay không c ng là m t vi c không n gi n i v i máy. Th m chí i v ing i mà trình ti ng Anh ch a v ng. Trong c hai tr ng h p, t ngay tr c ho cngay sau d u ch m câu cho ta nh ng thông tin quan tr ng v vai trò c a d u trong câu.Tuy nhiên, b ph n tách câu s ph i c n nhi u thông tin v ng c nh và cú pháp h ntrong tr ng h p s ch m câu xu t hi n m t câu con nh trong tr ng h p 1.

<b>2.3.1.2. lý d u ch m trong ngo c.</b>

Khi b tách câu g p d u m ngo c n, ho c ngo c kép, thì nó s qt trongn v n ang xét tìm d u óng t ng ng. N u tìm th y, toàn b ph n trong ngo cc gi nguyên và tìm d u k t thúc câu ti p theo ngoài d u ngo c. N u khơng tìmth y d u óng t ng ng, d u m s b b qua và x lý ti p ký t sau d u m nh bìnhth ng.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>Chng 3.</b>

<b>MƠ HÌNH CÀI T</b>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

<b>3.1.1.1.2. Tách token</b>

Vietpad không tách t ng câu x lý, mà vào th ng vi c tách ra t ng tokent … Token có th g m 1 chu i các kí t khơng ph i là kí t (nh : , . ; “ @# $ …. ) hay 1 chu i các kí t , hay là “ch ” ti ng Vi t.

<b>3.1.1.1.3.y ra các t không d u, chuy n thành t có d u</b>

i ph ng pháp tách token n gi n trên, và thêm ph ng pháp tách tLRMM (t có t i a 3 ti ng), VietPad l y ra các t khơng d u, sau ó thơngqua 1 t n ánh x 1-1 gi a t không d u và t có d u (t n chuy n i),

chuy n t không d u thành có d u.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t khơng d u

<i>Ví d 3-2:</i>

<b>Câu “Nhung van de lien quan toi nguoi dong tinh luyen ai duoc ban</b>

<b>bac soi noi trong buoi hop nhom toi hom qua” s</b> c VietPad chuy nthành câu có d u sau thơng qua t <b>n (d u / th hi n s tách t c a VietPad)</b>

<b>“Nh ng v n / / liên quan / tôi ngi / ng t nh / luy n ái / c /n b c / sôi n i / trong / bu i / h p / nhóm / tơi / hơm qua /”</b>

<b>3.1.2.1.Mơ hình thêm d u ti ng Vi t</b>

n c vào mơ hình n-gram, mơ hình ánh d u t ng ti ng Vi t ctác gi th c hi n theo l u sau:

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

<i><b>Hình 3.1.2-8 :</b>u th c hi n c a mơ hình n-gram</i>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

c c n c nh n d ng danh t riêng.

<i>Ví d 3-3:</i>

Da Nang à à N ng.da nangà a n ng

Do ó, tác gi l u ý ng i dùng v c m này khi s d ng ch ng trình.

<b>3.1.2.1.2. Tách câu</b>

n c vào các c m c a ngôn ng c a ti ng Vi t : các t c cáchnhau b i các ký t nh “.”, “,”, “:”… tách thành các câu. M i câu là m t n v xlý chính trong ch ng trình. Vi c quy t nh câu là n v c b n là do nhi u khi ngh a

a câu s c quy t nh s l a ch n v d u trong câu.

<b>3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu</b>

File t n (VNMarkDic.txt) s cung c p cho chúng ta xác su t c a cácnhóm âm ti t có th xu t hi n trong các v n b n ti ng Vi t. File t n này s ctrình bày k h n trong ph n sau.

n c vào t p tin t n VNMarkDic.txt, tác gi có th t o ra các tr ngp có th ánh d u c a các t trong câu. T h p các thành ph n này s t o nên cáccâu trong câu ng viên ã c ánh d u trong ti ng Vi t. Tuy nhiên, do c n c vàop tin VNMarkDic.txt nên tác gi có th t o ra s l ng các câu ng viên khơng nhi um.

<i>Ví d 3-4:</i>

<i>Câu c n gán d u = “Toc do truyen thong se tang cao”.</i>

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

Thông qua t p tin t <i>n VNMarkDic.txt , tác gi có các thơng tin sau:</i>

- toc do = “t c ” 8.68- truyen = “truy n” 12.31- truyen thong = “truy n th ng” 12.31- thong tin = “thông tin” 7.24- tin = “tin” 7.33- se = “s ” 6.09- tang = “t ng” 7.43- cao = “cao” 6.95

<b>Sau khi t h p các t ta sc 2 trng h p sau:</b>

Tr ng h p 1 = “T c truy n th ng tin s t ng cao.” 48,79<sup>1</sup>Tr ng h p 2 = “T c truy n thông tin s t ng cao.” 48.70<sup>2</sup>____________________________________________

8.68 + 12.31 + 7.33 + 6.09 + 7.43 + 6.95 = 48.79

8.68 + 12.31 + 7.24 + 6.09 + 7.43 + 6.95 = 48.70_____________________________________________

<b>t qu = “T c </b> truy n thông tin s t ng cao.” 48,70

(câu có t n s nh thì s th ng s d ng c a các t trong câu càng cao)

<b>3.1.2.2.Mơ hình hu n luy n</b>

Nh ã trình bày ph n trên, c t lõi c a v n là n i dung t p tin t n

<i>VNMarkDic.txt. T p tin này s ch a xác su t các nhóm âm ti t có th xu t hi n trong</i>

n b n ti ng Vi t. Xác su t này c tính d a trên vi c th ng kê d li u c a h n1.5GB file HTML c l y t trang<b>www.vnexpress.net</b>.

Khác v i các mơ hình gán d u ti ng Vi t tr c ây, t p tin t n khôngnh ng l u các t ti ng Vi t mà còn l u các dãy âm ti t trong ti ng Vi t. u này giúpcho mơ hình có th “vét c n” các thông tin giúp cho vi c gán d u thanh cho các âm ti t

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

tr nên chính xác h n. Ví d : tơi c ng l u thêm dãy âm ti t “tr c vi c”, … vào filen này.

Tuy nhiên, vi c l u thêm các dãy âm ti t vào t n s khi n cho t n r tn (x p x 10MB). u này khi n cho vi c tìm ki m s r t ch m. gi i quy t v n này, tác gi xu t m t heuristic n gi n, t tên là S2T, giúp thu g n d li u c a

n :

Heuristic này c mô t nh sau:

i d li u text t c l y t trang<b>www.vnexpress.net</b> là C1.

i d li u text t c l y t trang <b>www.vnexpress.net</b> là b b h t d uthanh là C2.

d li u C1, tác gi s t o ra file VNMarkDicPre.txt. File này s ch athông tin v xác su t c a các dãy âm ti t trong ti ng Vi t.

Tác gi s d ng file VNMarkDicPre.txt gán d u thanh cho các d li uC2. Khi ó, tác gi s so sánh v i các d li u nguyên g c C1. Qua ó, tác gi ánh giácác dãy âm ti t nào nên c s d ng, dãy âm ti t nào không nên s d ng.

thông tin trên, tác gi có th rút trích các dãy âm ti t “có ích” trong file

<i>VNMarkDicPre.txt t o t p tin VNMarkDic.txt.</i>

<b>3.2. Mơ hình xu t</b>

<b>3.2.1.Mơ hình</b>

n c vào mơ hình Bigram, và d a vào ý t ng c a vi c th ng kê cácm t c a mơ hình VnMark c a tác gi Nguy n V n Tồn, tơi xu t mơ hìnhthêm d u t ng sau :

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

<i><b>Hình 3.2-9:</b>u th c hi n c a mơ hình xu t</i>

d ng ph ng pháp tách câu heuristic ã nêu trong ch ng 2, ph n2.3, m c 2.3.1. Qua ph ng pháp tách câu trên, ta có th phân bi t c 1 s

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u

tr ng h p c bi t c a d u ch m câu “.” nh t vi t t t (Mr., Mrs. …), ach email (<b></b>), a ch URL (<b></b>), s th pphân (1,234.567) … u ra c a b c này s cho ra 1 t p các câu, là u vào

a b c sau.

Ta dùng ph ng pháp tách t LRMM tách các t không d u t ng câut. Lý do ch n ph ng pháp này là : cài t ph ng pháp n gi n, sai skhi tách sai t có th ch p nh n c khi tách t khơng d u.

<i>Ví d 3-5: Ta có cách tách t câu có d u và câu không d u sau (các t</i>

phân cách nhau b ng d u / )o “H c sinh / h c / sinh h c”

o “Hoc sinh / hoc sinh / hoc” à khi chuy n thành câu có d u, c ng t oc câu “H c sinh / h c sinh / h c” nh trên à sai s khi tách t có thch p nh n c trong 1 ph m vi nào ó.

Khi tách t b ng ph ng pháp LRMM, ta có chú ý n vi c nh n di n vàtách các t tên riêng ra d a trên 1 t n tên riêng. Vi c xác nh các tênriêng d a trên ch cái vi t hoa u c a t , 1 c m tên riêng, có th ch c nvi t hoa ti ng u tiên là c.

<i>Ví d 3-6:</i>

Da Nang à à N ngDa nang à à N ngda nang à a n ng

<b>3.2.1.3.Ch n t thích h p</b>

i t n chuy n i TuDienChinh.txt, ta có ánh x 1-1 chuy n 1 tkhông d u thành có d u. Ngồi ra, t ng linh ho t và chính xác c a

</div>

×