Tải bản đầy đủ (.pdf) (118 trang)

Xây dựng hệ thống tìm kiếm thông tin tiếng Việt dựa trên các chỉ mục là từ ghép

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 118 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>I C M N</b>

Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ãn tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này.

Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích,ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng connghiên c u h c t p.

Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h cqua.

m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v na chúng tôi.

c dù r t c g ng nh ng lu n v n c a chúng em khơng tránh kh i sai sót,mong nh n c s thông c m và góp ý c a th y cơ và các b n.

Tháng 7 n m 2005Sinh viên

Nguy n Th Thanh Hà – Nguy n Trung Hi u

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ký tên

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Ký tên

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

<b>C L C</b>

DANH SÁCH CÁC B NG...8

DANH SÁCH CÁC HÌNH V ...8

<b>Ph n 1 : TÌM HI U LÝ THUY T ...11</b>

<b>Chng 1: T NG QUAN V TÌM KI M THÔNG TIN ...11</b>

1. Gi i thi u v tìm ki m thơng tin ... 11

1.1 Khái ni m v tìm ki m thơng tin ... 11

1.2 M t s v n trong vi c tìm ki m thơng tin: ... 11

2. H tìm ki m thơng tin – IRS ... 12

4.5 So sánh IRS v i các h th ng thông tin khác...17

<b>Chng 2: XÂY D NG M T H TH NG TÌM KI M THƠNG TIN ... 18</b>

1. Ki n trúc c a h tìm ki m thông tin. [1.3]... 18

2. M t s mô hình xây d ng m t h tìm ki m thơng tin [1.2]...19

2.1 Mơ hình không gian vector ...19

2.6 ánh giá chung v các mơ hình ... 25

3. Các b c xây d ng m t h tìm ki m thơng tin. [3.2]...25

3.1 Tách t t ng cho t p các tài li u... 25

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ...40

2.2.3 Giá tr phân bi t t (The Term Discrimination Value) ...42

2.3 L p ch m c t ng cho tài li u ti ng Anh... 43

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ... 113

3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web)... 114

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thơng tin...14

Hình 2-1 H tìm ki m thơng tin tiêu bi u...18

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Hình 6-17 Xem t khóa câu h i...106

Hình 6-18 Xem t khóa tài li u ...107

Hình 6-19 Màn hình chính...109

Hình 6-20 Màn hình tìm ki m nhi u câu h i...110

Hình 6-21 Giao di n tìm ki m trên Web ...112

Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ...113

Hình 6-23 Giao di n chi ti t n i dung c a tài li u ...114

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máytính ngày càng nhi u do ó vi c tìm ki m thơng tin chính xác là nhu c u thi t y u ii m i ng i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thơng tin trên kho t li u này c n ph i c h tr b i các cơng ctìm ki m (search engine) t t. Các h th ng tìm ki m thơng tin thơng d ng nh Google,Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các hth ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch ath t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t cơng c tìmki m “hi u” và x lý t t các v n b n tí ng Vi t.

Các h tìm ki m thơng tin u ph i th c hi n giai n l p ch m c (indexing)cho v n b n trích các t ch m c (index term) bi u di n t t nh t n i dung c a v nn. Giai n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ngngơn ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thơng tin trên kho tài li uti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c.

Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thơngtin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xácnh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>Ph n 1 : TÌM HI U LÝ THUY T</b>

<b>Chng 1:</b>

<b>NG QUAN V TÌM KI M THƠNG TIN</b>

<b>1. Gi i thi u v tìm ki m thơng tin</b>

<b>1.1 Khái ni m v tìm ki m thơng tin</b>

Tìm ki m thơng tin là tìm ki m trong m t t p tài li u l y ra các thông tin màng i tìm ki m quan tâm.

<b>1.2t s v n trong vi c tìm ki m thơng tin:</b>

t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thơngtin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki mchính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra i c a máy tính, r tnhi u ý t ng l n c a ra nh m cung c p m t h th ng tìm ki m thơng minh vàchính xác. Tuy nhiên, v n tìm ki m sao cho hi u qu v n ch a c gi i quy t.

<b> nguyên t c, vi c l u tr thơng tin và tìm ki m thơng tin thì </b> n gi n. Gi scó m t kho ch a các tài li u và m t ng i mu n tìm các tài li u liên quan n yêu c u

a mình. Ng i ó có th c t t c các tài li u trong kho, gi l i các tài li u liên quanvà b i các tài li u không liên quan. Rõ ràng gi i pháp này khơng th c t b i vì t n r tnhi u th i gian.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

<b>i s ra i c a máy vi tính t c cao, máy tính có th “</b> c” thay cho conng i trích ra các tài li u có liên quan trong tồn b t p d li u. Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan n câu h i. M c ích c a

t h th ng tìm ki m thơng tin t ng là truy l c c t t c các tài li u có liên quann u c u.

<b>2. tìm ki m thông tin – IRS</b>

Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi :

<b>[2.1]</b>

Salton (1989):

“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u vthông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u vthông tin. Vi c truy tìm nh ng thơng tin c thù ph thu c vào s t ng t gi a cácthông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các giá tr c acác thu c tính i v i thơng tin c l u tr và các yêu c u v thông tin.”

Kowalski (1997) :

“H th ng truy tìm thơng tin là m t h th ng có kh n ng l u tr , truy tìm vàduy trì thơng tin. Thơng tin trong nh ng tr ng h p này có th bao g m v n b n, hình

nh, âm thanh, video và nh ng i t ng a ph ng ti n khác.”

Hi u n gi n <b> th ng tìm ki m thơng tin là m t h th ng h tr cho ngi d ng tìm ki m thơng tin m t cách nhanh chóng và d dàng. Ng</b> i s d ng cóth a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìmki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n vàtr v cho ng i s d ng.

<b>3. Các thành ph n c a m t h tìm ki m thơng tin[1.1]</b>

m: t p các tài li u (DOCS) ã c l u tr trong kho d li u, t p các yêu c u(REQS) c a ng i dùng, và m t s ph ng pháp tính t ng quan (SIMILAR) xác nh các tài li u áp ng cho các yêu c u.

<b>Hình 1-1 Mơi trng c a h tìm ki m thơng tin</b>

Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m tcách tr c ti p. Nh ng trên th c t thì u này khơng th c vì các câu h i và các t ptài li u u d ng v n b n, ch có con ng i c vào thì th y ngay c m i liên hgi a chúng, nh ng ây ch là m t h th ng máy móc khơng th suy lu n nh conng i c. Chính vì th xác nh c m i liên h gi a các câu h i và các t p tàili u ph i qua m t b c trung gian.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin</b>

Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n idung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trongcác t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t

a câu h i và các t ch m c c a t p tài li u. Và t ó ta s d dàng h n xác nh t ng quan gi a các câu h i và t p tài li u.

<b>4. So sánh IRS v i các h th ng thơng tin khác</b>

th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tinkhác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i(QAS) và h tìm ki m thơng tin (IR).

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

ng có m i liên h v i nhau thơng qua các khố ngo i. DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n nCSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng c l i nó s cung c pcho ta các d li u y và hồn tồn chính xác. Hi n nay DBMS c s d ng r ngrãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.

<b>4.2 qu n lý thông tin (IMS)</b>

qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch cnh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi uki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c vcho vi c qu n lý thì ta g i nó là h qu n lý thông tin.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>4.3 h tr ra quy t nh (DSS)</b>

h tr ra quy t nh s d a vào các t p lu t c h c, t nh ng lu t ã h crút ra nh ng lu t m i, sau khi g p m t v n nó s c n c vào vào t p các lu t ara nh ng quy t nh thay cho con ng i.

th ng này ang c áp d ng nhi u cho công vi c nh n d ng và chu n óannh.

<b>4.4 tr l i câu h i (QAS)</b>

tr l i câu h i cung c p vi c truy c p n các thông tin b ng ngôn ng tnhiên. Vi c l u tr c s d li u th ng bao g m m t s l ng l n các v n liênquan n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng i dùng cóth d ng ngơn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truyn c a ng i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liênquan l i a ra câu tr l i thích h p.

Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác nh ý ngh aa ngôn ng t nhiên d ng nh v n là ch ng ng i l n có th s d ng r ng rãi hth ng này.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>4.5 So sánh IRS v i các h th ng thông tin khác</b>

<b> IRS DBMS QAS MIS</b>

Tìm ki m

i dungtrong các tàili u.

Các ph n tcó ki u dli u ã c

nh ngh a.

Các s ki nrõ ràng.

u tr

Các v n b nngôn ng tnhiên.

Các ph n t li u ng b ng.

Các s ki nrõ ràng và cácki n th c

ng quát.

Các câu truyn khơngchính xác.

Các câu truyn có c utrúc.

Các câu truyn khônggi i h n.

Gi ng DBMSnh ng h trthêm nh ngth t c( Tính

ng, tínhtrung bình,phép chi u…)

<b>ng 1-1 So sánh IRS v i các h th ng thông tin khác</b>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>Chng 2:</b>

<b>XÂY D NG M T H TH NG TÌM KI MTHƠNG TIN</b>

<b>1. Ki n trúc c a h tìm ki m thông tin.[1.3]</b>

t h th ng thông tin tiêu bi u nh sau:

<b>Hình 2-1 H tìm ki m thơng tin tiêu bi u</b>

th ng tìm ki m thơng tin g m có 3 b ph n chính : b ph n phân tích v nn, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

(1) <b> ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n</b>

n thu th p c thành các t riêng bi t. T ng t , khi ng i dùng nh p câu truy v nthì câu truy v n c ng c phân tích thành các t riêng bi t.

(2) <b> ph n l p ch m c : các t trích </b> c t các v n b n thu th p c sc b ph n này l a ch n làm các t ch m c. Các t ch m c ph i là các t thhi n c n i dung c a v n b n.

(3) <b> ph n so kh p và s p x p các tài li u tr v : Các t trích </b> c t câutruy v n và các t ch m c c a v n b n s c so kh p v i nhau tìm ra các tài li uliên quan n câu truy v n. M i tài li u có m t t ng quan v i câu h i. Các tài li unày s c s p x p theo t ng quan gi m d n và tr v cho ng i s d ng.

<b>2.t s mơ hình xây d ng m t h tìm ki m thơng tin[1.2]</b>

c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liênquan n câu h i càng t t. Vì th ng i ta ã a ra r t nhi u mơ hình tìm ki m nh mtính tốn m t cách chính xác t ng quan này. Sau ây là m t s mơ hình tìm ki m

b n:

<b>2.1 Mơ hình khơng gian vector</b>

Mơ hình khơng gian vector tính toán t ng quan gi a câu h i và tài li u b ngcách nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câui [ Salton, 1875]. Mơ hình d a trên ý t ng chính là ý ngh a c a m t tài li u thì phthu c vào các t c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó sc tính tốn xác nh t ng quan gi a chúng. t ng quan càng l n ch ng tài li u ó càng liên quan n câu h i.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Gi s m t t p tài li u ch g m có hai t là t<sub>1</sub> và t<sub>2</sub>. Vector xây d ng c sm có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t<sub>1</sub>, và thành ph nth hai bi u di n cho s xu t hi n c a t<small>2</small>. Cách n gi n nh t xây d ng vector làánh 1 vào thành ph n t ng ng n u t ó xu t hi n, và ánh 0 n u t ó khơng xu thi n. Gi s tài li u ch g m có 2 t t<small>1</small>. Ta bi u di n cho tài li u này b i vector nhphân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y c t n s xu thi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c bi u di n nhsau: <2,0>

i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v ip các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chínhlà m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t tphân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch o(Inverse Document Frequency) liên quan n các t c cho:

n: s t phân bi t trong t p tài li u

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

trong t t c các tài li u. tính tr ng s c a t th t<sub>j</sub> trong tài li u D<sub>i</sub>, d a vào côngth c:

w<small>qj</small>: là tr ng s c a t t<small>j</small> trong câu truy v n Q.

t ng quan (SC: similarity coeficient) gi a câu truy v n Q và tài li u D<small>i</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

quan n t<sub>2</sub> là {d<sub>3</sub>, d<sub>5</sub>, d<sub>7</sub>}. Nh v y v i phép and, các tài li u th a yêu c u c a ng idùng là {d<sub>3</sub>, d<sub>5</sub>}. Ph ng pháp này có m t s khuy t m nh sau:

Ø Các tài li u tr v không c s p x p (ranking)

Ø Câu h i tìm ki m ịi h i ph i úng nh d ng c a bi u th c Boolean gâykhó kh n cho ng i dùng

Ø t qu tr v có th là quá ít ho c quá nhi u tài li u

<b>2.3 Tìm ki m Boolean m r ng</b>

Mơ hình tìm ki m Boolean khơng h tr vi c s p x p k t qu tr v b i vì cáctài li u ho c th a ho c không th a yêu c u Boolean. T t c các tài li u th a mãn uc tr v , nh ng khơng có s c l ng nào c tính tốn cho s liên quan c achúng i v i câu h i.

Mơ hình tìm ki m Boolean m r ng ra i nh m h tr vi c s p x p (ranking)t qu tr v d a trên ý t ng c b n là ánh tr ng s cho m i t trong câu h i vàtrong tài li u. Gi s m t câu h i yêu c u (t<small>1</small> OR t<small>2</small>) và m t tài li u D có ch a t<small>1</small> v itr ng s w<small>1</small> và t<small>2</small> v i tr ng s w<small>2</small> . N u w<small>1</small> và w<small>2</small> u b ng 1 thì tài li u nào có ch a chai t này s có th t s p x p cao nh t. Tài li u nào không ch a m t trong hai t này

có th t s p x p th p nh t. Ý t ng n gi n là tính kho ng cách Eclide t m(w<sub>1</sub>, w<sub>2</sub>) t i g c:

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

SC(Q,D<sub>i</sub>) = 2 = 1.414

a SC vào kho ng [0,1], SC c tính nh sau:

SC( Q<sub> t1 v t2</sub> , d<sub>i</sub>) =

<small>(w )(w )2</small>

<small>+ −</small>

<b>2.4 r ng trong vi c thêm vào tr ng s c a câu h i</b>

u câu h i có tr ng s là q<sub>1</sub> và q<sub>2</sub> thì t ng quan s c tính nh sau:

SC(Q<small> q1 v q2</small>, d<small>i</small>) =

SC(Q<sub> q1 ^ q2</sub>, d<sub>i</sub>) = 1- (

t ng quan SC t ng quát nh sau:

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

SC(D, Q<sub> ( q i v q j )</sub>) =

<small>1pppp</small> <sub>p</sub><small>iijj</small>

u p → ∞ : chuy n v h th ng Boolean thơng th ng (khơng có tr ng s )

u p = 1 : chuy n v h th ng khơng gian vector

<b>2.4.2 Thêm tốn t tng</b>

Các chi n l c tìm ki m khơng òi h i ng i dùng nh n bi t các toán t ph cp. Tr ng s có th c gán t ng và tài li u c s p x p b ng cách chèn toán tOR vào gi a các t . B t k tài li u nào có ch a ít nh t m t t trong câu h i s c s pth t v i m t s m l n h n 0.

<b>2.5 Mô hình xác su t</b>

Mơ hình tìm ki m xác su t tính tốn t ng quan gi a câu h i và tài li u d avào xác su t mà tài li u ó liên quan n câu h i. Các lý thuy t v xác su t c ápng tính toán liên quan gi a câu h i và tài li u. Các t trong câu h i c xemlà u m i xác nh tài li u liên quan. Ý t ng chính là tính xác su t c a m i ttrong câu h i và sau ó s d ng chúng tính xác su t mà tài li u liên quan n câu

i.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

<b>2.6ánh giá chung v các mơ hình</b>

Ø Mơ hình Boolean c xem là mơ hình y u nh t trong các mơ hình b i vình ã trình bày nó cịn r t nhi u khuy t m.

Ø Theo kinh nghi m c a Salton và Buckley thì nhìn chung mơ hình vectorlàm t t h n mơ hình xác su t.

<b>Lu n v n c a chúng em s d ng mơ hình khơng gian vector</b> xây d ng m t th ng tìm ki m thông tin ti ng Vi t.

<b>3. Các bc xây d ng m t h tìm ki m thông tin.[3.2]</b>

<b>3.1 Tách t tng cho t p các tài li u</b>

i v i ti ng Anh, ta tách t d a vào kho ng tr ng. Tuy nhiên i v i ti ngVi t, giai n này t ng i khó kh n. C u trúc ti ng Vi t r t ph c t p, không ch nthu n d a vào kho ng tr ng tách t . Hi n nay có r t nhi u cơng c dùng tách tti ng Vi t, m i ph ng pháp có u, khuy t m riêng. Các ph ng pháp này s ctrình bày chi ti t h n ch ng III : Tách t t ng.

<b>3.2p ch m c cho tài li u</b>

Sau khi có c t p các t ã c trích, ta s ch n các t làm t ch m c.Tuy nhiên, không ph i t nào c ng c ch n làm t ch m c. Các t có kh n ng idi n cho tài li u s c ch n, các t này <i>c g i là key word, do ó tr</i> c khi l p ch

c s là giai n ti n x lý i v i các t trích c ch n ra các key word thíchp. Ta s lo i b danh sách các t ít có kh n ng i di n cho n i dung v n b n d a

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

vào danh sách g i là stop list. i v i ti ng Anh hay ti ng Vi t u có danh sách stoplist. Chi ti t v quá trình l p ch m c s c mô t ch ng IV: L p ch m c.

<b>3.3 Tìm ki m</b>

Ng i dùng nh p câu h i và yêu c u tìm ki m, câu h i mà ng i dùng nh p vàong s c x lý, ngh a là ta s tách t cho câu h i. Ph ng pháp tách t cho câu h ing nên là ph ng pháp tách t cho các tài li u thu th p c m b o s t ngthích. Sau ó, h th ng s tìm ki m trong t p tin ch m c xác nh các tài li u liênquan n câu h i c a ng i dùng.

<b>3.4p x p các tài li u tr v (Ranking)</b>

Các tài li u sau khi ã xác nh là liên quan n câu h i c a ng i dùng s cp x p l i, b i vì trong các tài li u ó có nh ng tài li u liên quan n câu h i nhi un. H th ng s d a vào m t s ph ng pháp xác nh tài li u nào liên quan nhi unh t, s p x p l i (ranking) và tr v cho ng i dùng theo th t u tiên.

<b>4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki mthơng tin ti ng Vi t</b>

Hi n nay, chúng ta ã quen thu c v i r t nhi u công c h tr vi c tìm ki mthơng tin nh Google, Yahoo Search, AltaVista, …. Tuy nhiên, ây là các cơng c c ang i n <b>c ngồi nên chúng ch gi i quy t t t i v i các yêu c u c a h . Chúng ta</b>

ng có m t s cơng c h tr tìm ki m thơng tin ti ng Vi t nh : Vinaseek,NetNam,…Các công c này c ng tách t ch y u d a vào kho ng tr ng nên vi c tìmki m c ng ch a c c i thi n. Nhìn chung, xây d ng m t h th ng tìm ki m thơng

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

tin ti ng Vi t, chúng ta g p khó kh n trong vi c tách t ti ng Vi t và xác nh b ng mãti ng Vi t.

<b>4.1 Khó kh n trong vi c tách t ti ng Vi t</b>

Có th nói tách t là giai n khó kh n nh t khi xây d ng m t h tìm ki mthơng tin ti ng Vi t. i v i ti ng Anh, vi c xác nh t ch n gi n d a vào kho ngtr ng tách t . Ví d , câu: “I am a student” s c tách thành 4 t : I, am, a, student.Tuy nhiên, i v i ti ng Vi t, tách d a vào kho ng tr ng ch thu c các ti ng. T cóth c ghép t m t hay nhi u ti ng. T ph i có ý ngh a hồn ch nh và có c u t o nnh. Câu: “Tôi là m t sinh viên” c tách thành 4 t : Tôi, là, m t, sinh viên. Trongó, t “sinh viên” c hình thành t 2 ti ng: sinh và viên.

Hi n nay, có r t nhi u ph ng pháp c s d ng tách t ti ng Vi t. Tuynhiên, v i s ph c t p c a ng pháp ti ng Vi t nên ch a có ph ng pháp nào t cchính xác 100%. Và vi c l a ch n ph ng pháp nào là t t nh t c ng ang là v n tranh cãi.

<b>4.2n b ng mã ti ng Vi t</b>

Không nh ti ng Anh, ti ng Vi t có r t nhi u b ng mã òi h i ph i x lý. M t công c tìm ki m ti ng Vi t h tr b ng mã r t t t nh Vinaseek, h tr m i b ngmã (VNI, TCVN3, ViQR,…).

<b>4.3 Các khó kh n khác</b>

Ø Ti ng Vi t có các t ng ngh a nh ng khác âm. Các công c hi n nay không tr vi c xác nh các t ng ngh a. Vì v y, k t qu tr v s không y .

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

Ø Ng c l i, có nh ng t ng âm khác ngh a. Các h th ng s tr v các tài li ucó ch a các t ã c tách trong câu h i mà khơng c n xác nh chúng có th c

liên quan hay khơng. Vì v y, k t qu tr v s không chính xác.

Ø t s t xu t hi n r t nhi u nh ng khơng có ý ngh a trong tài li u. Các t nh :và, v i, nh ng,… có t n s xu t hi n r t l n trong b t c v n b n nào. N u tìmcách tr v các tài li u có ch a nh ng t này s thu c k t qu vơ ích, khơng

n thi t. Do ó, chúng ta c n tìm cách lo i b các t này tr c khi tìm ki m.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>Chng 3:</b>

<b>TÁCH T TNG</b>

Tr c khi l p ch m c là giai n tách t cho các tài li u, ây là công vi c quantr ng trong m t h th ng tìm ki m thơng tin. i v i ti ng Anh ch n gi n d a vàokho ng tr ng tách t . Nh ng i v i ti ng Vi t không th d a vào kho ng tr ng

c vì ti ng Vi t là ngơn ng n l p.

Hi n nay, có r t nhi u ph ng pháp c xu t tách t cho ti ng Vi t,nh ng v n ch a th ng nh t là ph ng pháp nào t t nh t. Ch ng này s trình bày chiti t v m t s ph ng pháp tách t .

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

m t ng ngh a, ti ng là n v nh nh t có ngh a, nh ng c ng có m t s ti ngkhơng có ngh a.

giá tr ng pháp, ti ng là n v c u t o t . S d ng ti ng t o thành t , ta cóhai tr ng h p nh sau:

Ø m t ti ng: g i là t n. Tr ng h p này m t t ch có m t ti ng. Ví d nh :ơng, bà, …

Ø hai ti ng tr lên: g i là t ph c. Tr ng h p này m t t có th có hai haynhi u ti ng tr lên. Ví d nh : xã h i, an ninh, h p tác xã,…

<b>3. Các phng pháp tách t ti ng Vi t</b>

<b>3.1 fnTBL (Fast Transformation-based learning)[3.1]</b>

<b>3.1.1 Mô t</b>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Ý t ng chính c a ph ng pháp h c d a trên s bi n i (TBL) là gi i quy tt v n nào ó ta s áp d ng các phép bi n i, t i m i b c, phép bi n i nào chot qu t t nh t s c ch n và c áp d ng l i v i v n ã a ra. Thu t tốn k tthúc khi khơng còn phép bi n i nào c ch n. H th ng fnTBL g m hai t p tinchính:

chính xác. M i m u (template) c t trên m t dòng riêng bi t. Ví d : t p li u h c cho vi c xác nh t lo i c a m t v n b n có th có nh d ng nhsau:

Cơng ty danhtuAn ơng danhturieng

dongtugiám sát dongtu

Trong ví d này m i m u g m có hai ph n: ph n u tiên là t , ph n thhai là t lo i t ng ng.

th ng fTBL s d a vào các m u lu t áp d ng vào t p tin d li u h c. Ví d :chunk_-2 chunk_-1 => chunk

Áp d ng i v i vi c xác nh t lo i, v i chunk_-2 = ng t , 1= s t , chunk=danh t thì lu t trên có ý ngh a nh sau: n u hai t tr c ó là

chunk_-ng t và s t thì chuy n t lo i hi n hành thành danh t .

<b>3.1.2 Áp d ng tách t ti ng Vi t</b>

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Sau khi nghiên c u v fnTBL, chúng em nh n th y có th áp d ng ph ng phápnày tách t cho ti ng Vi t, ch c n thay i m t s nh d ng cho phù h p.

<i>Ø Xây d ng t p tin d li u h c:</i> p tin d li u cho vi c tách t ti ng Vi t có d ngnh sau:

Vì Bsao Bcơng Bty IVi t BHà I

Bt Bvào Btình Btr ng I….

Các ký t B, I g i là các chunk và có ý ngh a nh sau:Ti ng có chunk=B ngh a là ti ng ó b t u m t t (begin)Ti ng có chunk=I ngh a là ti ng ó n m trong m t t (inside)

Trong ví d trên, ta có c các t : Vì, sao, cơng ty, Vi t Hà, b , t, vào, tìnhtr ng, …

<i>Ø Xây d ng t p tin ch a các m u lu t: Sau khi tìm hi u v t trong ti ng Vi t,</i>

chúng em xây d ng c 3 lu t áp d ng cho vi c tách t ti ng Vi t nh sau:chunk_0 word_0 => chunk

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

chunk_0 word_-1 word_0 => chunkchunk_0 word_0 word_1 => chunk

<b>3.1.2.1 Quá trình h c</b>

(1) T t p d li u h c xây d ng t n các t(2) Kh i t o các t

(3) Rút ra t p lu t

b c (1) t t p d li u h c ã có s n, s d ng ph ng pháp th ng kê ta scó t n các ti ng (Lexicon). Các ti ng có th xu t hi n trong các t v i các chunkkhác nhau, ta s ghi nh n l i s l n xu t hi n c a m i ti ng v i các chunk t ng ng.Ví d , i v i t “cơng ty” thì ti ng “cơng” có chunk=B nh ng trong t “c a cơng” thìti ng cơng có chunk=I.

b c (2) t t p d li u h c, t o ra t p d li u h c khơng có chunk b ng cáchxóa h t các chunk t ng ng. T p d li u m i này s c s d ng kh i t o l i cácchunk thông d ng nh t d a vào t n.

b c (3) so sánh t p d li u h c v i t p d li u ang xét, d a vào các m ulu t ã cho, ta s rút ra c các lu t ng viên, ng v i m i lu t ng viên ta l i áp d ngvào t p d li u ang xét và tính m cho nó (d a vào s l i phát sinh khi so sánh v ip d li u h c là t p d li u chu n). Ch n lu t có m cao nh t và l n h n m tng ng cho tr c a vào danh sách lu t c ch n.

t qu ta s c m t t p các lu t c ch n. Các lu t có d ng nh sau:SCORE:414 RULE: chunk_0=B word_0=t => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=c a word_0=công=>chunk=I

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=ISCORE:231 RULE: chunk_0=B word_0= ng => chunk=ISCORE:205 RULE: chunk_0=B word_0=nghi p => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=tri n => chunk=ISCORE:133 RULE: chunk_0=B word_-1=xã word_0=h i => chunk=ISCORE:109 RULE: chunk_0=B word_-1= u word_0=t => chunk=ISCORE:100 RULE: chunk_0=B word_0=th => chunk=I

dịng 2 ta có lu t: n u t hi n hành là “công” (word_0=cơng) và t tr c ó là“c a” (word_-1=c a) và chunk c a t hi n hành là B ( chunk_0=B) thì chuy n chunk

a t hi n hành là I , ngh a là “c a cơng” ph i là m t t .

Tồn b q trình h c c mơ t nh sau:

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

(3) Áp d ng các lu t có c t giai n h c vào tài li u ang xét ta s táchc các t hoàn ch nh.

Giai n xác nh t cho tài li u m i c mô t nh sau:

<b>Hình 3-2 Giai n xác nh t cho tài li u m i</b>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>3.2 Longest Matching[1.4]</b>

Ph ng pháp Longest Matching tách t d a vào t n có s n.

Theo ph ng pháp này, tách t ti ng Vi t ta i t trái sang ph i và ch n t cónhi u âm ti t nh t mà có m t trong t n, r i c ti p t c cho t k ti p cho n h tcâu. V i cách này, ta d dàng tách c chính xác các ng /câu nh : ”h p tác| muabán”; “thành l p| n c|Vi t Nam| dân ch |c ng hòa”…Tuy nhiên, ph ng pháp này stách t sai trong tr ng h p nh : “h c sinh |h c sinh |h c”; “m t| ông | quan tài | gi i”,“tr c | bàn là | m t | ly| n c”,…

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

<b>Chng 4:</b>

<b>P CH M C</b>

<b>1. Khái quát v h th ng l p ch m c</b>

t cách t ng t c tìm ki m thơng tin lên là t o ch m c cho các tài li u.Tuy nhiên, vi c l p ch m c có m t nh c m l n, ó là khi thêm m t tài li u m i,ph i c p nh t l i t p tin ch m c. Nh ng i v i h th ng tìm ki m thông tin, ch c np nh t l i t p tin ch m c vào m t kho ng th i gian nh k . Do ó, ch m c là m tcơng c r t có giá tr .

p ch m c bao g m các công vi c sau:

Ø Xác nh các t có kh n ng i di n cho n i dung c a tài li u

Ø ánh tr ng s cho các t này, tr ng s ph n ánh t m quan tr ng c a ttrong m t tài li u.

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Xây d ng h th ng tìm ki m thơng tin ti ng Vi t d a trên các ch m c là các t ghép

Ø ng t , lo i b các t có t n s th p . Ngh a là, xác nh ng ng th pvà lo i b t t c các t có t n s xu t hi n nh h n giá tr này. u này s lo i b các ít xu t hi n trong t p tài li u, nên s có m t c a các t này c ng không nh h ng

n vi c th c hi n truy v n.

Ø Các t có t n s xu t hi n trung bình cịn l i s c s d ng làm t chc.

<b>Hình 4-1 Các tc s p theo th t</b>

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép

n: s t phân bi t trong t p tài li u

FREQ<sub>ik</sub>: s l n xu t hi n c a t k trong tài li u D<sub>i</sub> (t n s t )

DOCFREQ<sub>k</sub> : s tài li u có ch a t k

Khi ó, tr ng s c a t k trong tài li u D<sub>i</sub> c tính nh sau:

WEIGHT<sub>ik</sub> = FREQ<sub>ik</sub> * [log (n) – log (DOCFREQ<sub>k</sub>)]

Tr ng s c a t k trong tài li u D<small>i</small> t ng n u t n s xu t hi n c a t k trong tàili u i t ng và gi m n u t ng s tài li u có ch a t k t ng.

<b>2.2.2 nhi u tín hi u (The Signal – Noise Ratio)</b>

t quan m t ng t c xem xét ó là d a vào thơng tin ánh giá t mquan tr ng c a t . Trong th c t , n i dung thông tin c a m t n hay m t t có thxác nh d a vào xác su t xu t hi n c a các t trong v n b n ã cho. Rõ ràng, xác su txu t hi n c a m t t càng cao thì thơng tin mà nó ch a càng ít.

i dung thơng tin c a m t t c xác nh nh sau:

</div>

×