Tải bản đầy đủ (.pdf) (118 trang)

Xay dung he thong tim kiem thong tin tieng Viet dua tren cac

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 118 trang )

Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

N云I C謂M 愛N
Chúng em xin g荏i l運i c違m 挨n chân thành nh医t 8院n th亥y H欝 B違o Qu嘘c, ng逢運i 8ã
v壱n tình h逢噂ng d磯n, giúp 8叡 chúng em trong su嘘t th運i gian th詠c hi羽n lu壱n vChúng con c違m 挨n Cha, M姻 và gia 8ình, nh英ng ng逢運i 8ã d衣y d厩, khuy院n khích,
8瓜ng viên chúng con trong nh英ng lúc khó khnghiên c泳u h丑c t壱p.
Chúng em c違m 挨n các th亥y, cô trong khoa Công Ngh羽 Thông Tin 8ã dìu d逸t,
gi違ng d衣y chúng em, giúp chúng em có nh英ng ki院n th泳c quý báu trong nh英ng nqua.
E違m 挨n ch鵜 Lê Thúy Ng丑c và các b衣n 8ã t壱n tình 8óng góp ý ki院n cho lu壱n ve栄a chúng tôi.
O員c dù r医t c嘘 g逸ng nh逢ng lu壱n vmong nh壱n 8逢嬰c s詠 thông c違m và góp ý c栄a th亥y cô và các b衣n.
Tháng 7 nSinh viên
Nguy宇n Th鵜 Thanh Hà – Nguy宇n Trung Hi院u

Nguy宇n Th鵜 Thanh Hà - 0112215

1

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

NH一N XÉT C曳A GIÁO VIÊN H姶閏NG D郁N

……………………………………………………………………………………


……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nKý tên

Nguy宇n Th鵜 Thanh Hà - 0112215

2

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

NH一N XÉT C曳A GIÁO VIÊN PH謂N BI烏N

……………………………………………………………………………………

……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nKý tên

Nguy宇n Th鵜 Thanh Hà - 0112215

3

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

O影C L影C
DANH SÁCH CÁC B謂NG...................................................................................8
DANH SÁCH CÁC HÌNH V淫..............................................................................8

Ph亥n 1 : TÌM HI韻U LÝ THUY蔭T ..........................................................................11
Ch逢挨ng 1: T蔚NG QUAN V陰 TÌM KI蔭M THÔNG TIN ...................................11
1. Gi噂i thi羽u v隠 tìm ki院m thông tin ......................................................................11
1.1 Khái ni羽m v隠 tìm ki院m thông tin ................................................................11
1.2 M瓜t s嘘 v医n 8隠 trong vi羽c tìm ki院m thông tin: .............................................11
2. H羽 tìm ki院m thông tin – IRS ............................................................................12
3. Các thành ph亥n c栄a m瓜t h羽 tìm ki院m thông tin [1.1] ........................................13
4. So sánh IRS v噂i các h羽 th嘘ng thông tin khác ...................................................14
4.1 H羽 qu違n tr鵜 c挨 s荏 d英 li羽u (DBMS)..............................................................15
4.2 H羽 qu違n lý thông tin (IMS) ........................................................................15
4.3 H羽 h厩 tr嬰 ra quy院t 8鵜nh (DSS)....................................................................16
4.4 H羽 tr違 l運i câu h臼i (QAS) ............................................................................16
4.5 So sánh IRS v噂i các h羽 th嘘ng thông tin khác..............................................17
Ch逢挨ng 2: XÂY D衛NG M浦T H烏 TH渦NG TÌM KI蔭M THÔNG TIN ............18
1. Ki院n trúc c栄a h羽 tìm ki院m thông tin. [1.3]........................................................18
2. M瓜t s嘘 mô hình 8吋 xây d詠ng m瓜t h羽 tìm ki院m thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................19
2.2 Tìm ki院m Boolean .....................................................................................21
2.3 Tìm ki院m Boolean m荏 r瓜ng .......................................................................22
2.4 M荏 r瓜ng trong vi羽c thêm vào tr丑ng s嘘 c栄a câu h臼i .....................................23
2.4.1 M荏 r瓜ng cho s嘘 t瑛 tu ý ......................................................................23
2.4.2 Thêm toán t穎 t詠"8瓜ng ..........................................................................24
2.5 Mô hình xác su医t........................................................................................24
2.6 Aánh giá chung v隠 các mô hình .................................................................25
3. Các b逢噂c 8吋 xây d詠ng m瓜t h羽 tìm ki院m thông tin. [3.2]...................................25
3.1 Tách t瑛 t詠"8瓜ng cho t壱p các tài li羽u............................................................25
3.2 L壱p ch雨 m映c cho tài li羽u .............................................................................25
3.3 Tìm ki院m ...................................................................................................26
3.4 S逸p x院p các tài li羽u tr違 v隠 (Ranking) ..........................................................26
4. Nh英ng khó kh

Vi羽t .....................................................................................................................26
4.1 Khó kh4.2 V医n 8隠 b違ng mã ti院ng Vi羽t .........................................................................27

Nguy宇n Th鵜 Thanh Hà - 0112215

4

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

4.3 Các khó khCh逢挨ng 3: TÁCH T洩 T衛"A浦NG........................................................................29
1. Tách t瑛 trong Ti院ng Anh .................................................................................29
2. Tách t瑛 trong Ti院ng Vi羽t .................................................................................29
2.1 M瓜t s嘘"8員c 8k吋m chính v隠 t瑛 ti院ng Vi羽t [2.2]..............................................29
2.1.1 Ti院ng...................................................................................................29
2.1.2 T瑛 .......................................................................................................30
2.2 Tách t瑛 t詠"8瓜ng ti院ng Vi羽t .........................................................................30
3. Các ph逢挨ng pháp tách t瑛 ti院ng Vi羽t.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t違...................................................................................................30
3.1.2 Áp d映ng tách t瑛 ti院ng Vi羽t...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 K院t h嬰p gi英a fnTBL và Longest Matching.................................................37
Ch逢挨ng 4: L一P CH迂 M影C ..................................................................................38
1. Khái quát v隠 h羽 th嘘ng l壱p ch雨 m映c...................................................................38
2. Ph逢挨ng pháp l壱p ch雨 m映c [1.1] ........................................................................38

2.1 Xác 8鵜nh các t瑛 ch雨 m映c.............................................................................38
2.2 Các ph逢挨ng pháp tính tr丑ng s嘘 c栄a t瑛 ........................................................40
2.2.1 T亥n s嘘 tài li羽u ngh鵜ch 8違o....................................................................40
2.2.2 A瓜 nhi宇u tín hi羽u (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr鵜 phân bi羽t t瑛 (The Term Discrimination Value) .........................42
2.3 L壱p ch雨 m映c t詠"8瓜ng cho tài li羽u ti院ng Anh................................................43
3. L壱p ch雨 m映c cho tài li羽u ti院ng Vi羽t ..................................................................45
4. T壱p tin ngh鵜ch 8違o tài li羽u ...............................................................................46
4.1 Phân bi羽t gi英a t壱p tin ngh鵜ch 8違o và t壱p tin tr詠c ti院p ..................................46
4.2 T衣i sao s穎 d映ng t壱p tin ngh鵜ch 8違o 8吋 l壱p ch雨 m映c .....................................47
Ph亥n 2 : PHÂN TÍCH VÀ THI蔭T K蔭 ....................................................................49
Ch逢挨ng 5: PHÂN TÍCH.......................................................................................49
1. S挨"8欝 UseCase h羽 th嘘ng ..................................................................................49
2. S挨"8欝 L噂p........................................................................................................51
2.1 S挨"8欝 các l噂p th吋 hi羽n................................................................................51
2.2 S挨"8欝 các l噂p x穎 lý ....................................................................................52
3. Tách t瑛 ............................................................................................................53
3.1 S挨"8欝 UseCase...........................................................................................53
3.2 S挨"8欝 Tu亥n t詠 ............................................................................................53

Nguy宇n Th鵜 Thanh Hà - 0112215

5

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

3.3 S挨"8欝 C瓜ng tác...........................................................................................54

3.4 S挨"8欝 L噂p ..................................................................................................54
4. L壱p ch雨 m映c.....................................................................................................55
4.1 S挨"8欝 UseCase...........................................................................................55
4.2 S挨"8欝 Tu亥n t詠 ............................................................................................56
4.2.1 T衣o m噂i ch雨 m映c .................................................................................56
4.2.2 C壱p nh壱t ch雨 m映c.................................................................................57
4.3 S挨"8欝 C瓜ng tác...........................................................................................58
4.3.1 T衣o m噂i ch雨 m映c .................................................................................58
4.3.2 C壱p nh壱t ch雨 m映c.................................................................................59
4.4 S挨"8欝 L噂p ..................................................................................................60
5. Tìm ki院m.........................................................................................................61
5.1 S挨"8欝 UseCase...........................................................................................61
5.2 S挨"8欝 Tu亥n t詠 ............................................................................................61
5.3 S挨"8欝 C瓜ng tác...........................................................................................62
5.4 S挨"8欝 L噂p ..................................................................................................63
Ch逢挨ng 6: THI蔭T K蔭 VÀ CÀI A咽T ..................................................................64
1. C医u trúc l逢u tr英 d英 li羽u....................................................................................64
1.1 T壱p tin l逢u n瓜i dung tài li羽u .......................................................................64
1.1.1 C医u trúc DTD / XSD ...........................................................................64
1.1.2 Tài li羽u XML ......................................................................................66
1.2 T壱p tin sau khi tách t瑛 tài li羽u ....................................................................67
1.2.1 C医u trúc DTD / XSD ...........................................................................67
1.2.2 Tài li羽u XML ......................................................................................68
1.3 T壱p tin ch泳a các t瑛 không th吋 hi羽n n瓜i dung c栄a v1.3.1 C医u trúc DTD / XSD ...........................................................................70
1.3.2 Tài li羽u XML ......................................................................................71
1.4 T壱p tin ch雨 m映c 8違o ( Inverted ). ................................................................71
1.4.1 C医u trúc DTD / XSD ...........................................................................71
1.4.2 Tài li羽u XML ......................................................................................73
1.5 T壱p tin sau khi tách t瑛 câu h臼i....................................................................74

1.5.1 C医u trúc DTD / XSD ...........................................................................74
1.5.2 Tài li羽u XML ......................................................................................75
1.6 T壱p tin ch泳a các t瑛 c栄a câu h臼i sau khi lo衣i b臼 các t瑛 trong danh sách
StopList ...........................................................................................................76
1.6.1 C医u trúc DTD / XSD ...........................................................................76
1.6.2 Tài li羽u XML ......................................................................................77
1.7 T壱p tin ch泳a các t瑛 trong câu h臼i và các tài li羽u liên quan..........................77
1.7.1 C医u trúc DTD / XSD ...........................................................................77

Nguy宇n Th鵜 Thanh Hà - 0112215

6

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

1.7.2 Tài li羽u XML ......................................................................................79
1.8 T壱p tin ch泳a 8瓜 t逢挨ng quan gi英a câu h臼i và các tài li羽u .............................80
1.8.1 C医u trúc DTD / XSD ...........................................................................80
1.8.2 Tài li羽u XML ......................................................................................82
2. Chi ti院t các l噂p 8嘘i t逢嬰ng ................................................................................83
2.1 Các l噂p trong quá trình tách t瑛...................................................................83
2.1.1 S挨 8欝 các l噂p......................................................................................83
2.1.2 L噂p tách t瑛 ghép..................................................................................83
2.1.3 L噂p tách t瑛 ..........................................................................................86
2.1.4 L噂p giao di羽n tách t瑛...........................................................................89
2.2 Các l噂p trong quá trình l壱p ch雨 m映c ...........................................................91
2.2.1 S挨"8欝 các l噂p.......................................................................................91

2.2.2 L噂p l壱p ch雨 m映c...................................................................................92
2.2.3 L噂p giao di羽n t衣o m噂i ch雨 m映c ............................................................94
2.2.4 L噂p giao di羽n c壱p nh壱t ch雨 m映c ...........................................................96
2.3 Các l噂p trong quá trình tìm ki院m................................................................98
2.3.1 S挨"8欝 các l噂p.......................................................................................98
2.3.2 L噂p tìm ki院m.......................................................................................99
2.3.3 L噂p giao di羽n tìm ki院m ..................................................................... 105
3. M瓜t s嘘 màn hình giao di羽n khác .................................................................... 109
3.1 Màn hình chính c栄a ch逢挨ng trình............................................................. 109
3.2 Màn hình tìm ki院m nhi隠u câu h臼i............................................................. 110
3.3 Màn hình tìm ki院m chính ( giao di羽n Web) .............................................. 112
3.4 Màn hình tr違 v隠 các tài li羽u tìm 8逢嬰c ( giao di羽n Web) ............................ 113
3.5 Màn hình chi ti院t c栄a m瓜t tài li羽u ( giao di羽n Web).................................. 114
Ph亥n 3 : T蔚NG K蔭T..............................................................................................115
1. Ch逢挨ng trình th穎 nghi羽m............................................................................... 115
2. Aánh giá k院t qu違"8衣t 8逢嬰c ............................................................................. 115
3. H逢噂ng phát tri吋n............................................................................................ 116
TÀI LI烏U THAM KH謂O ................................................................................. 117
1. Sách............................................................................................................... 117
2. Lu壱n v3. Website ......................................................................................................... 117

Nguy宇n Th鵜 Thanh Hà - 0112215

7

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép


DANH SÁCH CÁC B謂NG
D違ng 1-1 So sánh IRS v噂i các h羽 th嘘ng thông tin khác ..........................................................17
D違ng 4-1 Cách t壱p tin ngh鵜ch 8違o l逢u tr英...............................................................................47
D違ng 4-2 Cách t壱p tin tr詠c ti院p l逢u tr英...................................................................................47
D違ng 4-3 Thêm m瓜t tài li羽u m噂i vào t壱p tin ngh鵜ch 8違o.........................................................48
D違ng 5-1 Danh sách các Actor...............................................................................................50
D違ng 5-2 Danh sách các UseCase ..........................................................................................50

DANH SÁCH CÁC HÌNH V淫
Hình 1-1 Môi tr逢運ng c栄a h羽 tìm ki院m thông tin.....................................................................13
Hình 1-2 T鰻ng quan v隠 ch泳c nHình 2-1 H羽 tìm ki院m thông tin tiêu bi吋u...............................................................................18
Hình 3-1 Quá trình h丑c..........................................................................................................35
Hình 3-2 Giai 8q衣n xác 8鵜nh t瑛 cho tài li羽u m噂i.....................................................................36
Hình 4-1 Các t瑛"8逢嬰c s逸p theo th泳 t詠 ....................................................................................39
Hình 4-2 Quá trình ch丑n t瑛 làm ch雨 m映c................................................................................45
Hình 5-1 S挨"8欝 Use-case c栄a h羽 th嘘ng...................................................................................49
Hình 5-2 S挨"8欝 các l噂p th吋 hi羽n.............................................................................................51
Hình 5-3 S挨"8欝 các l噂p x穎 lý .................................................................................................52
Hình 5-4 S挨"8欝 Use-case tách t瑛............................................................................................53
Hình 5-5 S挨"8欝 tu亥n t詠 tách t瑛...............................................................................................53
Hình 5-6 S挨"8欝 c瓜ng tác tách t瑛.............................................................................................54
Hình 5-7 S挨"8欝 l噂p tách t瑛.....................................................................................................54
Hình 5-8 S挨"8欝 use-case l壱p ch雨 m映c .....................................................................................55
Hình 5-9 S挨"8欝 tu亥n t詠 t衣o m噂i ch雨 m映c ................................................................................56
Hình 5-10 S挨"8欝 tu亥n t詠 c壱p nh壱t ch雨 m映c ............................................................................57
Hình 5-11 S挨"8欝 c瓜ng tác t衣o m噂i ch雨 m映c ............................................................................58
Hình 5-12 S挨"8欝 c瓜ng tác c壱p nh壱t ch雨 m映c ...........................................................................59
Hình 5-13 S挨"8欝 l噂p l壱p ch雨 m映c ...........................................................................................60

Hình 5-14 S挨"8欝 use-case tìm ki院m .......................................................................................61
Hình 5-15 S挨"8欝 tu亥n t詠 tìm ki院m..........................................................................................61
Hình 5-16 S挨"8欝 c瓜ng tác tìm ki院m .......................................................................................62
Hình 5-17 S挨"8欝 l噂p tìm ki院m ...............................................................................................63
Hình 6-1 S挨"8欝 l噂p tách t瑛.....................................................................................................83
Hình 6-2 L噂p tách t瑛 ghép.....................................................................................................83

Nguy宇n Th鵜 Thanh Hà - 0112215

8

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

Hình 6-3 L噂p tách t瑛 .............................................................................................................86
Hình 6-4 L噂p giao di羽n tách t瑛..............................................................................................89
Hình 6-5 Màn hình tách t瑛.....................................................................................................89
Hình 6-6 Màn hình chi ti院t tách t瑛 .........................................................................................90
Hình 6-7 S挨"8欝 l噂p l壱p ch雨 m映c .............................................................................................91
Hình 6-8 L噂p l壱p ch雨 m映c......................................................................................................92
Hình 6-9 L噂p giao di羽n t衣o m噂i ch雨 m映c................................................................................94
Hình 6-10 Màn hình t衣o m噂i ch雨 m映c ....................................................................................95
Hình 6-11 L噂p Màn hình c壱p nh壱t ch雨 m映c............................................................................96
Hình 6-12 Màn hình c壱p nh壱t ch雨 m映c ...................................................................................97
Hình 6-13 S挨"8欝 l噂p tìm ki院m ...............................................................................................98
Hình 6-14 L噂p x穎 lý tìm ki院m ...............................................................................................99
Hình 6-15 L噂p giao di羽n tìm ki院m.......................................................................................105
Hình 6-16 Màn hình tìm ki院m .............................................................................................106

Hình 6-17 Xem t瑛 khóa câu h臼i...........................................................................................106
Hình 6-18 Xem t瑛 khóa tài li羽u ...........................................................................................107
Hình 6-19 Màn hình chính...................................................................................................109
Hình 6-20 Màn hình tìm ki院m nhi隠u câu h臼i........................................................................110
Hình 6-21 Giao di羽n tìm ki院m trên Web ..............................................................................112
Hình 6-22 Giao di羽n các tài li羽u tr違 v隠 sau khi tìm ki院m ......................................................113
Hình 6-23 Giao di羽n chi ti院t n瓜i dung c栄a tài li羽u ................................................................114

Nguy宇n Th鵜 Thanh Hà - 0112215

9

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

O雲"A井U
Trong th運i 8衣i bùng n鰻 thông tin nh逢 hi羽n nay, thông tin 8逢嬰c l逢u tr英 trên máy
tính ngày càng nhi隠u do 8ó vi羽c tìm ki院m thông tin chính xác là nhu c亥u thi院t y院u 8嘘i
x噂i m丑i ng逢運i trong m丑i l nh v詠c. Internet hi羽n nay 8ã tr荏 thành m瓜t kho t逢 li羽u kh鰻ng
n欝 mà vi羽c tìm ki院m thông tin trên kho t逢 li羽u này c亥n ph違i 8逢嬰c h厩 tr嬰 b荏i các công c映
tìm ki院m (search engine) t嘘t. Các h羽 th嘘ng tìm ki院m thông tin thông d映ng nh逢 Google,
Yahoo Search 8ã 8áp 泳ng 8逢嬰c ph亥n nào nhu c亥u 8ó c栄a m丑i ng逢運i. Tuy nhiên, các h羽
th嘘ng này 8逢嬰c xây d詠ng 8吋 x穎 lý và tìm ki院m các vth壱t s詠 phù h嬰p cho các vki院m “hi吋u” và x穎 lý t嘘t các vCác h羽 tìm ki院m thông tin 8隠u ph違i th詠c hi羽n giai 8q衣n l壱p ch雨 m映c (indexing)
cho vd違n. Giai 8q衣n này ph映 thu瓜c vào ngôn ng英 c栄a v

ngôn ng英" 8ó. Hi羽n nay ch逢a có nhi隠u h羽 th嘘ng tìm ki院m thông tin trên kho tài li羽u
ti院ng Vi羽t có khai thác các 8員c tr逢ng c栄a ti院ng Vi羽t cho vi羽c l壱p ch雨 m映c.
Vì v壱y m映c tiêu c栄a lu壱n vtin b茨ng ti院ng Vi羽t có s穎 d映ng các k院t qu違 c栄a x穎 lý ngôn ng英 t詠 nhiên t詠"8瓜ng 8吋 xác
8鵜nh 8逢嬰c các ch雨 m映c là các t瑛 (word) hay t瑛 ghép (compound word) c栄a ti院ng Vi羽t.

Nguy宇n Th鵜 Thanh Hà - 0112215

10

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

Ph亥n 1 : TÌM HI韻U LÝ THUY蔭T
Ch逢挨ng 1: V蔚NG QUAN V陰 TÌM KI蔭M THÔNG TIN

1. Gi噂i thi羽u v隠 tìm ki院m thông tin
1.1 Khái ni羽m v隠 tìm ki院m thông tin
Tìm ki院m thông tin là tìm ki院m trong m瓜t t壱p tài li羽u 8吋 l医y ra các thông tin mà
ng逢運i tìm ki院m quan tâm.

1.2 O瓜t s嘘 v医n 8隠 trong vi羽c tìm ki院m thông tin:
M吋 t瑛 nh英ng ntin 8ã thu hút s詠 chú ý r医t l噂n. V噂i m瓜t l逢嬰ng thông tin kh鰻ng l欝 thì vi羽c tìm ki院m
chính xác và nhanh chóng càng tr荏 nên khó khnhi隠u ý t逢荏ng l噂n 8逢嬰c 8逢a ra nh茨m cung c医p m瓜t h羽 th嘘ng tìm ki院m thông minh và
chính xác. Tuy nhiên, v医n 8隠 tìm ki院m sao cho hi羽u qu違 v磯n ch逢a 8逢嬰c gi違i quy院t.
X隠 nguyên t逸c, vi羽c l逢u tr英 thông tin và tìm ki院m thông tin thì 8挨n gi違n. Gi違 s穎

có m瓜t kho ch泳a các tài li羽u và m瓜t ng逢運i mu嘘n tìm các tài li羽u liên quan 8院n yêu c亥u
e栄a mình. Ng逢運i 8ó có th吋"8丑c t医t c違 các tài li羽u trong kho, gi英 l衣i các tài li羽u liên quan
và b臼"8i các tài li羽u không liên quan. Rõ ràng gi違i pháp này không th詠c t院 b荏i vì t嘘n r医t
nhi隠u th運i gian.

Nguy宇n Th鵜 Thanh Hà - 0112215

11

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

X噂i s詠 ra 8運i c栄a máy vi tính t嘘c 8瓜 cao, máy tính có th吋 “8丑c” thay cho con
ng逢運i 8吋 trích ra các tài li羽u có liên quan trong toàn b瓜 t壱p d英 li羽u. Tuy nhiên v医n 8隠
lúc này là làm sao 8吋 xác 8鵜nh 8逢嬰c tài li羽u nào liên quan 8院n câu h臼i. M映c 8ích c栄a
o瓜t h羽 th嘘ng tìm ki院m thông tin t詠"8瓜ng là truy l映c 8逢嬰c t医t c違 các tài li羽u có liên quan
8院n yêu c亥u.

2. J羽 tìm ki院m thông tin – IRS
Sau 8ây là 8鵜nh ngh a v隠 h羽 th嘘ng tìm ki院m thông tin c栄a m瓜t s嘘 tác gi違: [2.1]
Salton (1989):
“H羽 th嘘ng tìm ki院m thông tin x穎 lý các t壱p tin l逢u tr英 và nh英ng yêu c亥u v隠
thông tin, xác 8鵜nh và tìm t瑛 các t壱p tin nh英ng thông tin phù h嬰p v噂i nh英ng yêu c亥u v隠
thông tin. Vi羽c truy tìm nh英ng thông tin 8員c thù ph映 thu瓜c vào s詠 t逢挨ng t詠 gi英a các
thông tin 8逢嬰c l逢u tr英 và các yêu c亥u, 8逢嬰c 8ánh giá b茨ng cách so sánh các giá tr鵜 c栄a
các thu瓜c tính 8嘘i v噂i thông tin 8逢嬰c l逢u tr英 và các yêu c亥u v隠 thông tin.”
Kowalski (1997) :
“H羽 th嘘ng truy tìm thông tin là m瓜t h羽 th嘘ng có kh違 n

duy trì thông tin. Thông tin trong nh英ng tr逢運ng h嬰p này có th吋 bao g欝m v違nh, âm thanh, video và nh英ng 8嘘i t逢嬰ng 8a ph逢挨ng ti羽n khác.”
Hi吋u 8挨n gi違n j羽 th嘘ng tìm ki院m thông tin là m瓜t h羽 th嘘ng h厩 tr嬰 cho ng逢運i
u穎 d映ng tìm ki院m thông tin m瓜t cách nhanh chóng và d宇 dàng. Ng逢運i s穎 d映ng có
th吋"8逢a vào nh英ng câu h臼i, nh英ng yêu c亥u (d衣ng ngôn ng英 t詠 nhiên) và h羽 th嘘ng s胤 tìm
ki院m trong t壱p các tài li羽u (d衣ng ngôn ng英 t詠 nhiên) 8ã 8逢嬰c l逢u tr英"8吋 tìm ra nh英ng

Nguy宇n Th鵜 Thanh Hà - 0112215

12

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

tài li羽u có liên quan, sau 8ó s胤 s逸p x院p các tài li羽u theo m泳c 8瓜 liên quan gi違m d亥n và
tr違 v隠 cho ng逢運i s穎 d映ng.

3. Các thành ph亥n c栄a m瓜t h羽 tìm ki院m thông tin [1.1]
I欝m: t壱p các tài li羽u (DOCS) 8ã 8逢嬰c l逢u tr英 trong kho d英 li羽u, t壱p các yêu c亥u
(REQS) c栄a ng逢運i dùng, và m瓜t s嘘 ph逢挨ng pháp tính 8瓜 t逢挨ng quan (SIMILAR) 8吋
xác 8鵜nh các tài li羽u 8áp 泳ng cho các yêu c亥u.

Hình 1-1 Môi tr逢運ng c栄a h羽 tìm ki院m thông tin
Theo lý thuy院t thì m嘘i liên h羽 gi英a các câu h臼i và các tài li羽u có th吋 so sánh m瓜t
cách tr詠c ti院p. Nh逢ng trên th詠c t院 thì 8k隠u này không th吋"8逢嬰c vì các câu h臼i và các t壱p
tài li羽u 8隠u 荏 d衣ng vgi英a chúng, nh逢ng 荏" 8ây ch雨 là m瓜t h羽 th嘘ng máy móc không th吋 suy lu壱n nh逢 con
ng逢運i 8逢嬰c. Chính vì th院"8吋 xác 8鵜nh 8逢嬰c m嘘i liên h羽 gi英a các câu h臼i và các t壱p tài

li羽u ph違i qua m瓜t b逢噂c trung gian.

Nguy宇n Th鵜 Thanh Hà - 0112215

13

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

Hình 1-2 T鰻ng quan v隠 ch泳c nTr逢噂c h院t chuy吋n 8鰻i các câu h臼i thành các t瑛 riêng bi羽t 8栄"8吋 bi吋u hi羽n cho n瓜i
dung c栄a câu h臼i g丑i là ngôn ng英 ch雨 m映c (Indexing language - LANG). Tách t瑛 trong
các t壱p tài li羽u và l壱p ch雨 m映c cho tài li羽u. Lúc này có th吋 so sánh tr詠c ti院p gi英a các t瑛
e栄a câu h臼i và các t瑛 ch雨 m映c c栄a t壱p tài li羽u. Và t瑛"8ó ta s胤 d宇 dàng h挨n 8吋 xác 8鵜nh
8瓜 t逢挨ng quan gi英a các câu h臼i và t壱p tài li羽u.

4. So sánh IRS v噂i các h羽 th嘘ng thông tin khác
J羽 th嘘ng tìm ki院m thông tin c ng t逢挨ng t詠 nh逢 nhi隠u h羽 th嘘ng x穎 lý thông tin
khác. Hi羽n nay các h羽 th嘘ng thông tin quan tr丑ng nh医t là: h羽 qu違n tr鵜 c挨 s荏 d英 li羽u
(DBMS), h羽 qu違n lý thông tin (MIS), h羽 h厩 tr嬰 ra quy院t 8鵜nh (DSS), h羽 tr違 l運i câu h臼i
(QAS) và h羽 tìm ki院m thông tin (IR).

Nguy宇n Th鵜 Thanh Hà - 0112215

14

Nguy宇n Trung Hi院u - 0112216



Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

4.1 J羽 qu違n tr鵜 c挨 s荏 d英 li羽u (DBMS)
D医t c泳 h羽 th嘘ng thông tin t詠"8瓜ng nào c ng d詠a trên m瓜t t壱p các m映c 8逢嬰c l逢u
tr英 (g丑i là e¬ sぞ dの liうu) c亥n thi院t cho vi羽c truy c壱p. Do 8ó h羽 qu違n tr鵜 c挨 s荏 d英 li羽u
8挨n gi違n là m瓜t h羽 th嘘ng 8逢嬰c thi院t k院 nh茨m thao tác và duy trì 8k隠u khi吋n c挨 s荏 d英
li羽u.
DBMS t鰻 ch泳c l逢u tr英 các d英 li羽u c栄a mình d逢噂i d衣ng các b違ng. M厩i m瓜t c挨 s荏
f英 li羽u 8逢嬰c l逢u tr英 thành nhi隠u b違ng khác nhau. M厩i m瓜t c瓜t trong b違ng là m瓜t thu瓜c
tính, và m厩i m瓜t dòng là m瓜t b瓜 d英 li羽u c映 th吋. Trong m厩i m瓜t b違ng có m瓜t thu瓜c tính
duy nh医t 8衣i di羽n cho b違ng, nó không 8逢嬰c trùng l逸p và ta g丑i 8ó là khoá chính. Các
d違ng có m嘘i liên h羽 v噂i nhau thông qua các khoá ngo衣i. DBMS có m瓜t t壱p các l羽nh 8吋
j厩 tr嬰 cho ng逢運i s穎 d映ng truy v医n 8院n d英 li羽u c栄a mình. Vì v壱y mu嘘n truy v医n 8院n
CSDL trong DBMS ta ph違i h丑c h院t các t壱p l羽nh này. Nh逢ng ng逢嬰c l衣i nó s胤 cung c医p
cho ta các d英 li羽u 8亥y 8栄 và hoàn toàn chính xác. Hi羽n nay DBMS 8逢嬰c s穎 d映ng r瓜ng
rãi trên th院 gi噂i. M瓜t s嘘 DBMS thông d映ng : Access, SQL Server, Oracle.

4.2 J羽 qu違n lý thông tin (IMS)
J羽 qu違n lý thông tin là h羽 qu違n tr鵜 c挨 s荏 d英 li羽u nh逢ng có thêm nhi隠u ch泳c
nh逢ng v隠 vi羽c qu違n lý. Nh英ng ch泳c nki吋u d英 li羽u khác nhau. Nói chung b医t k h羽 th嘘ng nào có m映c 8ích 8員c bi羽t ph映c v映
cho vi羽c qu違n lý thì ta g丑i nó là h羽 qu違n lý thông tin.

Nguy宇n Th鵜 Thanh Hà - 0112215

15

Nguy宇n Trung Hi院u - 0112216



Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

4.3 J羽 h厩 tr嬰 ra quy院t 8鵜nh (DSS)
J羽 h厩 tr嬰 ra quy院t 8鵜nh s胤 d詠a vào các t壱p lu壱t 8逢嬰c h丑c, t瑛 nh英ng lu壱t 8ã h丑c
rút ra nh英ng lu壱t m噂i, sau khi g員p m瓜t v医n 8隠 nó s胤 cra nh英ng quy院t 8鵜nh thay cho con ng逢運i.
J羽 th嘘ng này 8ang 8逢嬰c áp d映ng nhi隠u cho công vi羽c nh壱n d衣ng và chu育n 8óan
d羽nh.

4.4 J羽 tr違 l運i câu h臼i (QAS)
J羽 tr違 l運i câu h臼i cung c医p vi羽c truy c壱p 8院n các thông tin b茨ng ngôn ng英 t詠
nhiên. Vi羽c l逢u tr英 c挨 s荏 d英 li羽u th逢運ng bao g欝m m瓜t s嘘 l逢嬰ng l噂n các v医n 8隠 liên
quan 8院n các l nh v詠c riêng bi羽t và các ki院n th泳c t鰻ng quát. Câu h臼i c栄a ng逢運i dùng có
th吋"荏 d衣ng ngôn ng英 t詠 nhiên. Công vi羽c c栄a h羽 tr違 l運i câu h臼i là phân tích câu truy
x医n c栄a ng逢運i dùng, so sánh v噂i các tri th泳c 8逢嬰c l逢u tr英, và t壱p h嬰p các v医n 8隠 có liên
quan l衣i 8吋"8逢a ra câu tr違 l運i thích h嬰p.
Tuy nhiên, h羽 tr違 l運i câu h臼i ch雨 còn 8ang th穎 nghi羽m. Vi羽c xác 8鵜nh ý ngh a
e栄a ngôn ng英 t詠 nhiên d逢運ng nh逢 v磯n là ch逢噂ng ng衣i l噂n 8吋 có th吋 s穎 d映ng r瓜ng rãi h羽
th嘘ng này.

Nguy宇n Th鵜 Thanh Hà - 0112215

16

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép


4.5 So sánh IRS v噂i các h羽 th嘘ng thông tin khác
IRS

P瓜i dung
Tìm ki院m

trong các tài
li羽u.

DBMS

QAS

MIS

Các ph亥n t穎
có ki吋u d英

Các s詠 ki羽n

li羽u 8ã 8逢嬰c

rõ ràng.

8鵜nh ngh a.

Gi嘘ng DBMS
nh逢ng h厩 tr嬰

N逢u tr英


Các v
Các ph亥n t穎

ngôn ng英 t詠

f英 li羽u 荏

nhiên.

f衣ng b違ng.

Các s詠 ki羽n

thêm nh英ng

rõ ràng và các th栄 t映c( Tính
ki院n th泳c

v鰻ng, tính

v鰻ng quát.

trung bình,
phép chi院u…)

Z穎 lý

Các câu truy


Các câu truy

Các câu truy

x医n không

x医n có c医u

x医n không

chính xác.

trúc.

gi噂i h衣n.

D違ng 1-1 So sánh IRS v噂i các h羽 th嘘ng thông tin khác

Nguy宇n Th鵜 Thanh Hà - 0112215

17

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

Ch逢挨ng 2: XÂY D衛NG M浦T H烏 TH渦NG TÌM KI蔭M


THÔNG TIN

1. Ki院n trúc c栄a h羽 tìm ki院m thông tin. [1.3]
O瓜t h羽 th嘘ng thông tin tiêu bi吋u nh逢 sau:

Hình 2-1 H羽 tìm ki院m thông tin tiêu bi吋u
J羽 th嘘ng tìm ki院m thông tin g欝m có 3 b瓜 ph壱n chính : b瓜 ph壱n phân tích vd違n, b瓜 ph壱n l壱p ch雨 m映c, b瓜 ph壱n so kh噂p và s逸p x院p các tài li羽u tr違 v隠.

Nguy宇n Th鵜 Thanh Hà - 0112215

18

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

(1) D瓜 ph壱n phân tích vd違n thu th壱p 8逢嬰c thành các t瑛 riêng bi羽t. T逢挨ng t詠, khi ng逢運i dùng nh壱p câu truy v医n
thì câu truy v医n c ng 8逢嬰c phân tích thành các t瑛 riêng bi羽t.
(2) D瓜 ph壱n l壱p ch雨 m映c : các t瑛 trích 8逢嬰c t瑛 các v8逢嬰c b瓜 ph壱n này l詠a ch丑n 8吋 làm các t瑛 ch雨 m映c. Các t瑛 ch雨 m映c ph違i là các t瑛 th吋
hi羽n 8逢嬰c n瓜i dung c栄a v(3) D瓜 ph壱n so kh噂p và s逸p x院p các tài li羽u tr違 v隠: Các t瑛 trích 8逢嬰c t瑛 câu
truy v医n và các t瑛 ch雨 m映c c栄a vliên quan 8院n câu truy v医n. M厩i tài li羽u có m瓜t 8瓜 t逢挨ng quan v噂i câu h臼i. Các tài li羽u
này s胤"8逢嬰c s逸p x院p theo 8瓜 t逢挨ng quan gi違m d亥n và tr違 v隠 cho ng逢運i s穎 d映ng.

2. O瓜t s嘘 mô hình 8吋 xây d詠ng m瓜t h羽 tìm ki院m thông tin [1.2]

O映c tiêu c栄a các h羽 th嘘ng tìm ki院m thông tin là tr違 v隠 các tài li羽u càng liên
quan 8院n câu h臼i càng t嘘t. Vì th院 ng逢運i ta 8ã 8逢a ra r医t nhi隠u mô hình tìm ki院m nh茨m
tính toán m瓜t cách chính xác 8瓜 t逢挨ng quan này. Sau 8ây là m瓜t s嘘 mô hình tìm ki院m
e挨 b違n:

2.1 Mô hình không gian vector
Mô hình không gian vector tính toán 8瓜 t逢挨ng quan gi英a câu h臼i và tài li羽u b茨ng
cách 8鵜nh ngh a m瓜t vector bi宇u di宇n cho m厩i tài li羽u, và m瓜t vector bi吋u di宇n cho câu
j臼i [ Salton, 1875]. Mô hình d詠a trên ý t逢荏ng chính là ý ngh a c栄a m瓜t tài li羽u thì ph映
thu瓜c vào các t瑛"8逢嬰c s穎 d映ng bên trong nó. Vector tài li羽u và vector câu h臼i sau 8ó s胤
8逢嬰c tính toán 8吋 xác 8鵜nh 8瓜 t逢挨ng quan gi英a chúng. A瓜 t逢挨ng quan càng l噂n ch泳ng
v臼 tài li羽u 8ó càng liên quan 8院n câu h臼i.

Nguy宇n Th鵜 Thanh Hà - 0112215

19

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

Gi違 s穎 m瓜t t壱p tài li羽u ch雨 g欝m có hai t瑛 là t1 và t2. Vector xây d詠ng 8逢嬰c s胤
i欝m có 2 thành ph亥n: thành ph亥n th泳 nh医t bi吋u di宇n s詠 xu医t hi羽n c栄a t1, và thành ph亥n
th泳 hai bi吋u di宇n cho s詠 xu医t hi羽n c栄a t2. Cách 8挨n gi違n nh医t 8吋 xây d詠ng vector là
8ánh 1 vào thành ph亥n t逢挨ng 泳ng n院u t瑛"8ó xu医t hi羽n, và 8ánh 0 n院u t瑛"8ó không xu医t
hi羽n. Gi違 s穎 tài li羽u ch雨 g欝m có 2 t瑛 t1. Ta bi吋u di宇n cho tài li羽u này b荏i vector nh鵜
phân nh逢 sau: <1,0> Tuy nhiên, bi吋u di宇n nh逢 v壱y không cho th医y 8逢嬰c t亥n s嘘 xu医t
hi羽n c栄a m厩i t瑛 trong tài li羽u. Trong tr逢運ng h嬰p này, vector nên 8逢嬰c bi宇u di宇n nh逢
sau: <2,0>

"A嘘i v噂i m瓜t câu h臼i 8ã cho, thay vì ch雨 cv壱p các t瑛 trong câu h臼i, ta nên xem xét 8院n t亥m quan tr丑ng c栄a m厩i t瑛. Ý t逢荏ng chính
là m瓜t t瑛 xu医t hi羽n t壱p trung trong m瓜t s嘘 tài li羽u thì có tr丑ng s嘘 cao h挨n so v噂i m瓜t t瑛
phân b嘘 trong nhi隠u tài li羽u. Tr丑ng s嘘" 8逢嬰c tính d詠a trên t亥n s嘘 tài li羽u ngh鵜ch 8違o
(Inverse Document Frequency) liên quan 8院n các t瑛"8逢嬰c cho:
n: s嘘 t瑛 phân bi羽t trong t壱p tài li羽u
tfij : s嘘 l亥n xu医t hi羽n c栄a t瑛 tj trong tài li羽u Di (t亥n s嘘)
dfj : s嘘 tài li羽u có ch泳a t瑛 tj
idfj = log10

d
trong 8ó d là t鰻ng s嘘 tài li羽u
df j

Vector 8逢嬰c xây d詠ng cho m厩i tài li羽u g欝m có n thành ph亥n, m厩i thành ph亥n là
giá tr鵜 tr丑ng s嘘" 8ã 8逢嬰c tính toán cho m厩i t瑛 trong t壱p tài li羽u. Các t瑛 trong tài li羽u
8逢嬰c gán tr丑ng s嘘 t詠"8瓜ng d詠a vào t亥n s嘘 xu医t hi羽n c栄a chúng trong t壱p tài li羽u và s詠
xu医t hi羽n c栄a m厩i t瑛 trong m瓜t tài li羽u riêng bi羽t. Tr丑ng s嘘 c栄a m瓜t t瑛 txu医t hi羽n th逢運ng xuyên trong m瓜t tài li羽u và gi違m n院u t瑛"8ó xu医t hi羽n th逢運ng xuyên

Nguy宇n Th鵜 Thanh Hà - 0112215

20

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

trong t医t c違 các tài li羽u. A吋 tính tr丑ng s嘘 c栄a t瑛 th泳 tj trong tài li羽u Di, d詠a vào công

th泳c:
dij = tfij * idfj
dij : là tr丑ng s嘘 c栄a t瑛 tj trong tài li羽u Di
A嘘i v噂i h羽 th嘘ng tìm ki院m thông tin theo mô hình vector, m厩i tài li羽u là m瓜t
vector có d衣ng : Di(di1, di2 , …, din ) . T逢挨ng t詠, câu truy v医n Q c ng là m瓜t vector có
f衣ng : Q(wq1, wq2, …, wqn)
wqj : là tr丑ng s嘘 c栄a t瑛 tj trong câu truy v医n Q.
A瓜 t逢挨ng quan (SC: similarity coeficient) gi英a câu truy v医n Q và tài li羽u Di
8逢嬰c tính nh逢 sau:
n

SC(Q,Di) =

∑w
j =1

qj

* d ij

2.2 Tìm ki院m Boolean
Mô hình tìm ki院m Boolean khá 8挨n gi違n. Câu h臼i 8逢a vào ph違i 荏 d衣ng bi吋u th泳c
Boolean. Ngh a là ph違i th臼a:
Ng英 ngh a rõ ràng
Hình th泳c ng逸n g丑n
Do các t瑛 ho員c xu医t hi羽n ho員c là không xu医t hi羽n, nên tr丑ng s嘘 wij ε {0,1}
Gi違 s穎" 8逢a vào m瓜t câu h臼i d衣ng bi吋u th泳c Boolean nh逢 sau: t1 and t2. Sau khi tìm
ki院m ta xác 8鵜nh 8逢嬰c các tài li羽u liên quan 8院n t1 là { d1, d3, d5} và các tài li羽u liên

Nguy宇n Th鵜 Thanh Hà - 0112215


21

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

quan 8院n t2 là {d3, d5, d7}. Nh逢 v壱y v噂i phép and, các tài li羽u th臼a yêu c亥u c栄a ng逢運i
dùng là {d3, d5}. Ph逢挨ng pháp này có m瓜t s嘘 khuy院t 8k吋m nh逢 sau:
Các tài li羽u tr違 v隠 không 8逢嬰c s逸p x院p (ranking)
Câu h臼i tìm ki院m 8òi h臼i ph違i 8úng 8鵜nh d衣ng c栄a bi吋u th泳c Boolean gây
khó khM院t qu違 tr違 v隠 có th吋 là quá ít ho員c quá nhi隠u tài li羽u

2.3 Tìm ki院m Boolean m荏 r瓜ng
Mô hình tìm ki院m Boolean không h厩 tr嬰 vi羽c s逸p x院p k院t qu違 tr違 v隠 b荏i vì các
tài li羽u ho員c th臼a ho員c không th臼a yêu c亥u Boolean. T医t c違 các tài li羽u th臼a mãn 8隠u
8逢嬰c tr違 v隠, nh逢ng không có s詠" 逢噂c l逢嬰ng nào 8逢嬰c tính toán cho s詠 liên quan c栄a
chúng 8嘘i v噂i câu h臼i.
Mô hình tìm ki院m Boolean m荏 r瓜ng ra 8運i nh茨m h厩 tr嬰 vi羽c s逸p x院p (ranking)
m院t qu違 tr違 v隠 d詠a trên ý t逢荏ng c挨 b違n là 8ánh tr丑ng s嘘 cho m厩i t瑛 trong câu h臼i và
trong tài li羽u. Gi違 s穎 m瓜t câu h臼i yêu c亥u (t1 OR t2) và m瓜t tài li羽u D có ch泳a t1 v噂i
tr丑ng s嘘 w1 và t2 v噂i tr丑ng s嘘 w2 . N院u w1 và w2"8隠u b茨ng 1 thì tài li羽u nào có ch泳a c違
hai t瑛 này s胤 có th泳 t詠 s逸p x院p cao nh医t. Tài li羽u nào không ch泳a m瓜t trong hai t瑛 này
u胤 có th泳 t詠 s逸p x院p th医p nh医t. Ý t逢荏ng 8挨n gi違n là tính kho違ng cách Eclide t瑛"8k吋m
(w1, w2) t噂i g嘘c:
SC(Q,Di) =

(w1 )2 + (w 2 )2


X噂i tr丑ng s嘘 0.5 và 0.5, SC(Q,Di) =

(0.5)2 + (0.5)2 =0.707

SC cao nh医t n院u w1 và w2"8隠u b茨ng 1. Khi 8ó:

Nguy宇n Th鵜 Thanh Hà - 0112215

22

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

SC(Q,Di) =

2 = 1.414

A吋"8逢a SC vào kho違ng [0,1], SC 8逢嬰c tính nh逢 sau:

SC( Q t1 v

t2 , di) =

(w1 )2 + (w 2 )2
2

Công th泳c này gi違 s穎 là câu h臼i ch雨 có toán t穎 OR . A嘘i v噂i toán t穎 AND, thay

vì tính kho違ng cách t噂i g嘘c, ta s胤 tính kho違ng cách 8院n 8k吋m (1,1). Câu h臼i nào càng
i亥n 8院n 8k吋m (1,1) thì nó càng tho違 yêu c亥u c栄a toán t穎 AND:

SC(Q t1 ^ t2, di) = 1-

(1-w 1 ) 2 + (1 − w 2 )2
2

2.4 O荏 r瓜ng trong vi羽c thêm vào tr丑ng s嘘 c栄a câu h臼i
P院u câu h臼i có tr丑ng s嘘 là q1 và q2 thì 8瓜 t逢挨ng quan s胤"8逢嬰c tính nh逢 sau:

SC(Q q1 v q2, di) =

q12 w12 + q22 w2 2

SC(Q q1 ^ q2, di) = 1- (

q12 + q2 2
q12 (1-w 1 ) 2 + q22 (1 − w2 )2
q12 + q2 2

)

2.4.1 O荏 r瓜ng cho s嘘 t瑛 tu ý
A吋 tính kho違ng cách Euclide trong không gian 8a chi隠u, tham s嘘 p 8逢嬰c s穎
f映ng. Tham s嘘 p ch雨 s詠 bi院n 8鰻i t亥m quan tr丑ng c栄a tr丑ng s嘘 trong vi羽c 8ánh giá 8瓜
thích h嬰p.
A瓜 t逢挨ng quan SC t鰻ng quát nh逢 sau:

Nguy宇n Th鵜 Thanh Hà - 0112215


23

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép

1

SC(D, Q ( q i v

 q ip w i p + q jp wjp  p

qj)) = 
p
p
 qi + q j


SC(D, Q ( q i ^

 q ip (1-w i p ) + q pj (1 − w jp )  p
)
=
1


qj)
q ip + q pj




1

P院u p → ∞ : chuy吋n v隠 h羽 th嘘ng Boolean thông th逢運ng (không có tr丑ng s嘘)
P院u p = 1 : chuy吋n v隠 h羽 th嘘ng không gian vector

2.4.2 Thêm toán t穎 t詠"8瓜ng
Các chi院n l逢嬰c tìm ki院m không 8òi h臼i ng逢運i dùng nh壱n bi院t các toán t穎 ph泳c
v衣p. Tr丑ng s嘘 có th吋"8逢嬰c gán t詠"8瓜ng và tài li羽u 8逢嬰c s逸p x院p b茨ng cách chèn toán t穎
OR vào gi英a các t瑛. B医t k tài li羽u nào có ch泳a ít nh医t m瓜t t瑛 trong câu h臼i s胤"8逢嬰c s逸p
th泳 t詠 v噂i m瓜t s嘘"8k吋m l噂n h挨n 0.

2.5 Mô hình xác su医t
Mô hình tìm ki院m xác su医t tính toán 8瓜 t逢挨ng quan gi英a câu h臼i và tài li羽u d詠a
vào xác su医t mà tài li羽u 8ó liên quan 8院n câu h臼i. Các lý thuy院t v隠 xác su医t 8逢嬰c áp
f映ng 8吋 tính toán 8瓜 liên quan gi英a câu h臼i và tài li羽u. Các t瑛 trong câu h臼i 8逢嬰c xem
là 8亥u m嘘i 8吋 xác 8鵜nh tài li羽u liên quan. Ý t逢荏ng chính là tính xác su医t c栄a m厩i t瑛
trong câu h臼i và sau 8ó s穎 d映ng chúng 8吋 tính xác su医t mà tài li羽u liên quan 8院n câu
j臼i.

Nguy宇n Th鵜 Thanh Hà - 0112215

24

Nguy宇n Trung Hi院u - 0112216


Xây d詠ng h羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t d詠a trên các ch雨 m映c là các t瑛 ghép


2.6 Aánh giá chung v隠 các mô hình
Mô hình Boolean 8逢嬰c xem là mô hình y院u nh医t trong các mô hình b荏i vì
nh逢"8ã trình bày nó còn r医t nhi隠u khuy院t 8k吋m.
Theo kinh nghi羽m c栄a Salton và Buckley thì nhìn chung mô hình vector
làm t嘘t h挨n mô hình xác su医t.
Lu壱n vj羽 th嘘ng tìm ki院m thông tin ti院ng Vi羽t.

3. Các b逢噂c 8吋 xây d詠ng m瓜t h羽 tìm ki院m thông tin. [3.2]
3.1 Tách t瑛 t詠"8瓜ng cho t壱p các tài li羽u
A嘘i v噂i ti院ng Anh, ta tách t瑛 d詠a vào kho違ng tr逸ng. Tuy nhiên 8嘘i v噂i ti院ng
Vi羽t, giai 8q衣n này t逢挨ng 8嘘i khó khthu亥n d詠a vào kho違ng tr逸ng 8吋 tách t瑛. Hi羽n nay có r医t nhi隠u công c映 dùng 8吋 tách t瑛
ti院ng Vi羽t, m厩i ph逢挨ng pháp có 逢u, khuy院t 8k吋m riêng. Các ph逢挨ng pháp này s胤"8逢嬰c
trình bày chi ti院t h挨n 荏 ch逢挨ng III : Tách t瑛 t詠"8瓜ng.

3.2 N壱p ch雨 m映c cho tài li羽u
Sau khi có 8逢嬰c t壱p các t瑛"8ã 8逢嬰c trích, ta s胤 ch丑n các t瑛"8吋 làm t瑛 ch雨 m映c.
Tuy nhiên, không ph違i t瑛 nào c ng 8逢嬰c ch丑n làm t瑛 ch雨 m映c. Các t瑛 có kh違 ndi羽n cho tài li羽u s胤"8逢嬰c ch丑n, các t瑛 này 8逢嬰c g丑i là key word, do 8ó tr逢噂c khi l壱p ch雨
o映c s胤 là giai 8q衣n ti隠n x穎 lý 8嘘i v噂i các t瑛 trích 8逢嬰c 8吋 ch丑n ra các key word thích
j嬰p. Ta s胤 lo衣i b臼 danh sách các t瑛 ít có kh違 n
Nguy宇n Th鵜 Thanh Hà - 0112215

25

Nguy宇n Trung Hi院u - 0112216



×