Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 118 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ãn tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.
Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng connghiên c u h c t p.
Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h cqua.
m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v na chúng tôi.
c dù r t c g ng nh ng lu n v n c a chúng em khơng tránh kh i sai sót,mong nh n c s thông c m và góp ý c a th y cơ và các b n.
Tháng 7 n m 2005Sinh viên
Nguy n Th Thanh Hà – Nguy n Trung Hi u
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ký tên
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Ký tên
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
DANH SÁCH CÁC B NG...8
DANH SÁCH CÁC HÌNH V ...8
<b>Ph n 1 : TÌM HI U LÝ THUY T ...11</b>
<b>Chng 1: T NG QUAN V TÌM KI M THÔNG TIN ...11</b>
1. Gi i thi u v tìm ki m thơng tin ... 11
1.1 Khái ni m v tìm ki m thơng tin ... 11
1.2 M t s v n trong vi c tìm ki m thơng tin: ... 11
2. H tìm ki m thơng tin – IRS ... 12
4.5 So sánh IRS v i các h th ng thông tin khác...17
<b>Chng 2: XÂY D NG M T H TH NG TÌM KI M THƠNG TIN ... 18</b>
1. Ki n trúc c a h tìm ki m thông tin. [1.3]... 18
2. M t s mô hình xây d ng m t h tìm ki m thơng tin [1.2]...19
2.1 Mơ hình không gian vector ...19
2.6 ánh giá chung v các mơ hình ... 25
3. Các b c xây d ng m t h tìm ki m thơng tin. [3.2]...25
3.1 Tách t t ng cho t p các tài li u... 25
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ...40
2.2.3 Giá tr phân bi t t (The Term Discrimination Value) ...42
2.3 L p ch m c t ng cho tài li u ti ng Anh... 43
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ... 113
3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)... 114
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thơng tin...14
Hình 2-1 H tìm ki m thơng tin tiêu bi u...18
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 6-17 Xem t khóa câu h i...106
Hình 6-18 Xem t khóa tài li u ...107
Hình 6-19 Màn hình chính...109
Hình 6-20 Màn hình tìm ki m nhi u câu h i...110
Hình 6-21 Giao di n tìm ki m trên Web ...112
Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ...113
Hình 6-23 Giao di n chi ti t n i dung c a tài li u ...114
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máytính ngày càng nhi u do ó vi c tìm ki m thơng tin chính xác là nhu c u thi t y u ii m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thơng tin trên kho t li u này c n ph i c h tr b i các cơng ctìm ki m (search engine) t t. Các h th ng tìm ki m thơng tin thơng d ng nh Google,Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các hth ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch ath t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t cơng c tìmki m “hi u” và x lý t t các v n b n tí ng Vi t.
Các h tìm ki m thơng tin u ph i th c hi n giai n l p ch m c (indexing)cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v nn. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ngngơn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thơng tin trên kho tài li uti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.
Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thơngtin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xácnh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b>Chng 1:</b>
Tìm ki m thơng tin là tìm ki m trong m t t p tài li u l y ra các thông tin màng i tìm ki m quan tâm.
t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thơngtin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki mchính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r tnhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thơng minh vàchính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.
<b> nguyên t c, vi c l u tr thơng tin và tìm ki m thơng tin thì </b> n gi n. Gi scó m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u
a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quanvà b i các tài li u không liên quan. Rõ ràng gi i pháp này khơng th c t b i vì t n r tnhi u th i gian.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
<b>i s ra i c a máy vi tính t c cao, máy tính có th “</b> c” thay cho conng i trích ra các tài li u có liên quan trong tồn b t p d li u. Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a
t h th ng tìm ki m thơng tin t ng là truy l c c t t c các tài li u có liên quann u c u.
Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi :
Salton (1989):
“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u vthông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u vthông tin. Vi c truy tìm nh ng thơng tin c thù ph thu c vào s t ng t gi a cácthông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c acác thu c tính i v i thơng tin c l u tr và các yêu c u v thông tin.”
Kowalski (1997) :
“H th ng truy tìm thơng tin là m t h th ng có kh n ng l u tr , truy tìm vàduy trì thơng tin. Thơng tin trong nh ng tr ng h p này có th bao g m v n b n, hình
nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”
Hi u n gi n <b> th ng tìm ki m thơng tin là m t h th ng h tr cho ngi d ng tìm ki m thơng tin m t cách nhanh chóng và d dàng. Ng</b> i s d ng cóth a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìmki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n vàtr v cho ng i s d ng.
m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u.
<b>Hình 1-1 Mơi trng c a h tìm ki m thơng tin</b>
Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m tcách tr c ti p. Nh ng trên th c t thì u này khơng th c vì các câu h i và các t ptài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên hgi a chúng, nh ng ây ch là m t h th ng máy móc khơng th suy lu n nh conng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tàili u ph i qua m t b c trung gian.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b>Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin</b>
Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n idung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trongcác t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t
a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u.
th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tinkhác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i(QAS) và h tìm ki m thơng tin (IR).
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
ng có m i liên h v i nhau thơng qua các khố ngo i. DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n nCSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c pcho ta các d li u y và hồn tồn chính xác. Hi n nay DBMS c s d ng r ngrãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.
qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch cnh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi uki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c vcho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h crút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t ara nh ng quy t nh thay cho con ng i.
th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óannh.
tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng tnhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liênquan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng cóth d ng ngơn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truyn c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liênquan l i a ra câu tr l i thích h p.
Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh aa ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi hth ng này.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b> IRS DBMS QAS MIS</b>
Tìm ki m
i dungtrong các tàili u.
Các ph n tcó ki u dli u ã c
nh ngh a.
Các s ki nrõ ràng.
u tr
Các v n b nngôn ng tnhiên.
Các ph n t li u ng b ng.
Các s ki nrõ ràng và cácki n th c
ng quát.
lý
Các câu truyn khơngchính xác.
Các câu truyn có c utrúc.
Các câu truyn khônggi i h n.
Gi ng DBMSnh ng h trthêm nh ngth t c( Tính
ng, tínhtrung bình,phép chi u…)
<b>ng 1-1 So sánh IRS v i các h th ng thông tin khác</b>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b>Chng 2:</b>
t h th ng thông tin tiêu bi u nh sau:
<b>Hình 2-1 H tìm ki m thơng tin tiêu bi u</b>
th ng tìm ki m thơng tin g m có 3 b ph n chính : b ph n phân tích v nn, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
(1) <b> ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n</b>
n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v nthì câu truy v n c ng c phân tích thành các t riêng bi t.
(2) <b> ph n l p ch m c : các t trích </b> c t các v n b n thu th p c sc b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t thhi n c n i dung c a v n b n.
(3) <b> ph n so kh p và s p x p các tài li u tr v : Các t trích </b> c t câutruy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li uliên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li unày s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.
c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liênquan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mơ hình tìm ki m nh mtính tốn m t cách chính xác t ng quan này. Sau ây là m t s mơ hình tìm ki m
b n:
Mơ hình khơng gian vector tính toán t ng quan gi a câu h i và tài li u b ngcách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câui [ Salton, 1875]. Mơ hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì phthu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó sc tính tốn xác nh t ng quan gi a chúng. t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Gi s m t t p tài li u ch g m có hai t là t<sub>1</sub> và t<sub>2</sub>. Vector xây d ng c sm có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t<sub>1</sub>, và thành ph nth hai bi u di n cho s xu t hi n c a t<small>2</small>. Cách n gi n nh t xây d ng vector làánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó khơng xu thi n. Gi s tài li u ch g m có 2 t t<small>1</small>. Ta bi u di n cho tài li u này b i vector nhphân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu thi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nhsau: <2,0>
i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v ip các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chínhlà m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t tphân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o(Inverse Document Frequency) liên quan n các t c cho:
n: s t phân bi t trong t p tài li u
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
trong t t c các tài li u. tính tr ng s c a t th t<sub>j</sub> trong tài li u D<sub>i</sub>, d a vào côngth c:
w<small>qj</small>: là tr ng s c a t t<small>j</small> trong câu truy v n Q.
t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u D<small>i</small>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
quan n t<sub>2</sub> là {d<sub>3</sub>, d<sub>5</sub>, d<sub>7</sub>}. Nh v y v i phép and, các tài li u th a yêu c u c a ng idùng là {d<sub>3</sub>, d<sub>5</sub>}. Ph ng pháp này có m t s khuy t m nh sau:
Ø Các tài li u tr v không c s p x p (ranking)
Ø Câu h i tìm ki m ịi h i ph i úng nh d ng c a bi u th c Boolean gâykhó kh n cho ng i dùng
Ø t qu tr v có th là quá ít ho c quá nhi u tài li u
Mơ hình tìm ki m Boolean khơng h tr vi c s p x p k t qu tr v b i vì cáctài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn uc tr v , nh ng khơng có s c l ng nào c tính tốn cho s liên quan c achúng i v i câu h i.
Mơ hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i vàtrong tài li u. Gi s m t câu h i yêu c u (t<small>1</small> OR t<small>2</small>) và m t tài li u D có ch a t<small>1</small> v itr ng s w<small>1</small> và t<small>2</small> v i tr ng s w<small>2</small> . N u w<small>1</small> và w<small>2</small> u b ng 1 thì tài li u nào có ch a chai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này
có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m(w<sub>1</sub>, w<sub>2</sub>) t i g c:
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
SC(Q,D<sub>i</sub>) = 2 = 1.414
a SC vào kho ng [0,1], SC c tính nh sau:
SC( Q<sub> t1 v t2</sub> , d<sub>i</sub>) =
<small>(w )(w )2</small>
<small>+ −</small>
u câu h i có tr ng s là q<sub>1</sub> và q<sub>2</sub> thì t ng quan s c tính nh sau:
SC(Q<small> q1 v q2</small>, d<small>i</small>) =
SC(Q<sub> q1 ^ q2</sub>, d<sub>i</sub>) = 1- (
t ng quan SC t ng quát nh sau:
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
SC(D, Q<sub> ( q i v q j )</sub>) =
<small>1pppp</small> <sub>p</sub><small>iijj</small>
u p → ∞ : chuy n v h th ng Boolean thơng th ng (khơng có tr ng s )
u p = 1 : chuy n v h th ng khơng gian vector
<b>2.4.2 Thêm tốn t tng</b>
Các chi n l c tìm ki m khơng òi h i ng i dùng nh n bi t các toán t ph cp. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán tOR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s pth t v i m t s m l n h n 0.
Mơ hình tìm ki m xác su t tính tốn t ng quan gi a câu h i và tài li u d avào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c ápng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xemlà u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i ttrong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu
i.
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ø Mơ hình Boolean c xem là mơ hình y u nh t trong các mơ hình b i vình ã trình bày nó cịn r t nhi u khuy t m.
Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mơ hình vectorlàm t t h n mơ hình xác su t.
<b>Lu n v n c a chúng em s d ng mơ hình khơng gian vector</b> xây d ng m t th ng tìm ki m thông tin ti ng Vi t.
i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ngVi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch nthu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u cơng c dùng tách tti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s ctrình bày chi ti t h n ch ng III : Tách t t ng.
Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng idi n cho tài li u s c ch n, các t này <i>c g i là key word, do ó tr</i> c khi l p ch
c s là giai n ti n x lý i v i các t trích c ch n ra các key word thíchp. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stoplist. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.
Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vàong s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h ing nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ngthích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liênquan n câu h i c a ng i dùng.
Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s cp x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi un. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi unh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.
Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki mthơng tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các cơng c c ang i n <b>c ngồi nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta</b>
ng có m t s cơng c h tr tìm ki m thơng tin ti ng Vi t nh : Vinaseek,NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìmki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thơng
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mãti ng Vi t.
Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki mthơng tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ngtr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T cóth c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hồn ch nh và có c u t o nnh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trongó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.
Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuynhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t cchính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi.
Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ngmã (VNI, TCVN3, ViQR,…).
Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li ucó ch a các t ã c tách trong câu h i mà khơng c n xác nh chúng có th c
liên quan hay khơng. Vì v y, k t qu tr v s không chính xác.
Ø t s t xu t hi n r t nhi u nh ng khơng có ý ngh a trong tài li u. Các t nh :và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìmcách tr v các tài li u có ch a nh ng t này s thu c k t qu vơ ích, khơng
n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b>Chng 3:</b>
Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quantr ng trong m t h th ng tìm ki m thơng tin. i v i ti ng Anh ch n gi n d a vàokho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng
c vì ti ng Vi t là ngơn ng n l p.
Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chiti t v m t s ph ng pháp tách t .
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ngkhơng có ngh a.
giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta cóhai tr ng h p nh sau:
Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :ơng, bà, …
Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai haynhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…
<b>3.1.1 Mô t</b>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy tt v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào chot qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t tốn k tthúc khi khơng còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tinchính:
chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nhsau:
Cơng ty danhtuAn ơng danhturieng
dongtugiám sát dongtu
Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n thhai là t lo i t ng ng.
th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :chunk_-2 chunk_-1 => chunk
Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là
chunk_-ng t và s t thì chuy n t lo i hi n hành thành danh t .
<b>3.1.2 Áp d ng tách t ti ng Vi t</b>
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng phápnày tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.
<i>Ø Xây d ng t p tin d li u h c:</i> p tin d li u cho vi c tách t ti ng Vi t có d ngnh sau:
Vì Bsao Bcơng Bty IVi t BHà I
Bt Bvào Btình Btr ng I….
Các ký t B, I g i là các chunk và có ý ngh a nh sau:Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)
Trong ví d trên, ta có c các t : Vì, sao, cơng ty, Vi t Hà, b , t, vào, tìnhtr ng, …
<i>Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,</i>
chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:chunk_0 word_0 => chunk
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
chunk_0 word_-1 word_0 => chunkchunk_0 word_0 word_1 => chunk
<b>3.1.2.1 Quá trình h c</b>
(1) T t p d li u h c xây d ng t n các t(2) Kh i t o các t
(3) Rút ra t p lu t
b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta scó t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunkkhác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.Ví d , i v i t “cơng ty” thì ti ng “cơng” có chunk=B nh ng trong t “c a cơng” thìti ng cơng có chunk=I.
b c (2) t t p d li u h c, t o ra t p d li u h c khơng có chunk b ng cáchxóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i cácchunk thông d ng nh t d a vào t n.
b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m ulu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ngvào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v ip d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m tng ng cho tr c a vào danh sách lu t c ch n.
t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:SCORE:414 RULE: chunk_0=B word_0=t => chunk=I
SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=ISCORE:231 RULE: chunk_0=B word_0= ng => chunk=ISCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I
SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=ISCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=ISCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=ISCORE:100 RULE: chunk_0=B word_0=th => chunk=I
dịng 2 ta có lu t: n u t hi n hành là “công” (word_0=cơng) và t tr c ó là“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk
a t hi n hành là I , ngh a là “c a cơng” ph i là m t t .
Tồn b q trình h c c mơ t nh sau:
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s táchc các t hoàn ch nh.
Giai n xác nh t cho tài li u m i c mô t nh sau:
<b>Hình 3-2 Giai n xác nh t cho tài li u m i</b>
</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Ph ng pháp Longest Matching tách t d a vào t n có s n.
Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t cónhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h tcâu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| muabán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này stách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,“tr c | bàn là | m t | ly| n c”,…
</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
<b>Chng 4:</b>
t cách t ng t c tìm ki m thơng tin lên là t o ch m c cho các tài li u.Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c np nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m tcơng c r t có giá tr .
p ch m c bao g m các công vi c sau:
Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u
Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a ttrong m t tài li u.
</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép
Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th pvà lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng
n vi c th c hi n truy v n.
Ø Các t có t n s xu t hi n trung bình cịn l i s c s d ng làm t chc.
<b>Hình 4-1 Các tc s p theo th t</b>
</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
n: s t phân bi t trong t p tài li u
FREQ<sub>ik</sub>: s l n xu t hi n c a t k trong tài li u D<sub>i</sub> (t n s t )
DOCFREQ<sub>k</sub> : s tài li u có ch a t k
Khi ó, tr ng s c a t k trong tài li u D<sub>i</sub> c tính nh sau:
WEIGHT<sub>ik</sub> = FREQ<sub>ik</sub> * [log (n) – log (DOCFREQ<sub>k</sub>)]
Tr ng s c a t k trong tài li u D<small>i</small> t ng n u t n s xu t hi n c a t k trong tàili u i t ng và gi m n u t ng s tài li u có ch a t k t ng.
<b>2.2.2 nhi u tín hi u (The Signal – Noise Ratio)</b>
t quan m t ng t c xem xét ó là d a vào thơng tin ánh giá t mquan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có thxác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su txu t hi n c a m t t càng cao thì thơng tin mà nó ch a càng ít.
i dung thơng tin c a m t t c xác nh nh sau:
</div>