TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN
TSÀN QU HNG – 0112385
VÕ H BO KHANH – 0112387
XÂY DNG B NG LIU ÁNH GIÁ BNG
TING VIT VÀ CHNG TRÌNH TR GIÚP
ÁNH GIÁ CÁC H TÌM KIM THÔNG TIN
KHÓA LUN C NHÂN TIN HC
GIÁO VIÊN HNG DN
T.S H BO QUC
NIÊN KHÓA 2001 - 2005
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 2
Ý KIN CA GIÁO VIÊN PHN BIN
………………………………………………………………………………………
….…………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
Xác nhn ca GVPB
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 3
CNG CHI TIT
Thông tin chung v đ tài:
Tên đ tài: Xây dng b ng liu đ đánh giá (test collection) bng ting Vit và chng
trình tr giúp đánh giá các h tìm kim thông tin
GVHD: Tin s H Bo Quc
Sinh viên thc hin:
1. MSSV: 0112385 H và tên: Tsàn Qu Hng
2. MSSV: 0112387 H và tên: Võ H Bo Khanh
Tóm tt ni dung lun vn:
tài gm 2 phn :
1. Xây dng b ng liu đ đánh giá các h thng tìm kim thông tin ting Vit. Vic xây
dng b ng liu gm ba phn :
_ Xây dng ng liu mu ting Vit
_ Xây dng tp câu truy vn mu ting Vit
_ Xây dng mt bng đánh giá bng th công
2.Xây dng mt h thng chng trình tr giúp vic đánh giá các h thng tìm kim
thông tin vi thành phn đu vào : ng liu mu, câu truy vn mu, h thng tìm kim
thông tin ; các thành phn đu ra : kt qu truy vn, kt qu đánh giá, ni dung tp tài
liu, câu truy vn
Mt s t khóa chính liên quan đn ni dung đ tài:
ánh giá các h thng tìm kim thông tin (information retrieval systems evaluation)
Lnh vc áp dng:
ánh giá các h thng tìm kim thông tin ting Vit.
Các thut toán, phng pháp, quy trình chính đc nghiên cu, ng dng trong đ tài
_ Tìm hiu v tìm kim thông tin (information retrieval), đánh giá các h thng tìm kim
thông tin (information retrieval systems evaluation)
_ Tìm hiu cu trúc ca b ng liu, phng pháp xây dng b ng liu ca TREC (Text
REtrieval Conference)
_ Tìm hiu và s dng các h thng tìm kim : SMART, IOTA ,Lucene,Terrier…
_ Xây dng b ng liu kim tra bng ting Vit
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 4
_ Xây dng mt h chng trình phc v vic kim tra và đánh giá các h thng tìm
kim thông tin. Chng trình phi chy đc trên hai h điu hành : Windows và Linux,
chng trình vit bng ngôn ng Java
Các công c, công ngh chính đc nghiên cu, ng dng trong đ tài
Borland Jbuider X
Visual Studio . NET
Microsoft Visio 2003
Rational Rose
Microsoft Word, Power Point
Xác nhn ca GVHD
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 5
Li cám n
Chúng em xin chân thành cm n các Thy Cô Khoa Công ngh Thông tin đã
hng dn và ging dy rt nhit tình cho chúng em trong sut bn nm hc
Trng i hc Khoa hc T nhiên. Nhng kin thc mà chúng em đã hc đc
trên ging đng s là hành trang quý báu trên bc đng đi ca chúng em.
Chúng em xin cm n Thy H Bo Quc đã to c h
i cho chúng em đc
nghiên cu hc hi v lnh vc tìm kim thông tin bng Ting Vit, mt lnh vc
tng đi mi và hp dn Vit Nam . Mt ln na chúng em xin cm n Thy vì
Thy đã tn tình hng dn chúng em đ tài lun vn “Xây dng b ng liu dùng
đ đánh giá bng ting Vit và chng trình tr giúp đánh giá các h th
ng tìm
kim thông tin”.
Chúng em xin cm n gia đình, các anh ch, bn bè đã đng viên, giúp đ
chúng em đ hoàn thành tt đ tài lun vn này.
Nhóm sinh viên thc hin
Tsàn Qu Hng – Võ H Bo Khanh
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 6
MC LC
M U 10
Chng 1 : TNG QUAN 13
1.1. Tng quan v tìm kim thông tin và h thng tìm kim thông tin 13
1.2. Tng quan v đánh giá các h thng tìm kim thông tin 14
1.2.1. Lý do đ tin hành đánh giá các h thng tìm kim thông tin 14
1.2.2. Các tiêu chun đc dùng đ đánh giá 15
1.2.3. Các mô hình đánh giá 15
1.2.4. Các đ đo dùng đ đánh giá 18
1.2.5. Các phng pháp xây dng b ng liu dùng đ đánh giá 18
1.2.6. Phng pháp xây dng b ng liu đc chn 20
1.2.7. Phng pháp đánh giá tm quan trng ca kt qu tr v 21
Chng 2 : C S LÝ THUYT 22
2.1. Tìm kim thông tin và các h thng tìm kim thông tin 22
2.1.1. Lch s tìm kim thông tin và h thng tìm kim thông tin 22
2.1.2. H thng tìm kim thông tin 25
2.1.2.1. Khái nim v h thng tìm kim thông tin 25
2.1.2.2. Cách thc hot đng ca h thng tìm kim thông tin 25
2.1.2.3. Các phng tin tìm kim thông tin (Search Engines) 27
2.1.3. So sánh tìm kim thông tin c đin và tìm kim thông tin trên Web 29
2.1.4. So sánh tìm kim thông tin vi tìm kim d liu 30
2.1.5. Công thc tru tng trong tìm kim thông tin 31
2.1.6. Các mô hình tìm kim thông tin c đin đ sp th t liên quan 32
2.1.6.1. Mô hình i s Bool 32
2.1.6.2. Mô hình không gian vec-t 33
2.2. ánh giá các h thng tìm kim thông tin 36
2.2.1. Nn tng đánh giá các h thng tìm kim thông tin 36
2.2.2. Mô hình đánh giá hng h thng 37
2.2.2.1. T Cranfield đn TREC 37
2.2.2.2. Th tc đánh giá 39
2.2.2.3. ánh giá s liên quan 40
2.2.3. Thc hin đo kh nng tìm kim 41
2.2.3.1. Các khái nim v đ đo và liên quan 41
2.2.3.2. Cách tính đ bao ph (R) và đ chính xác (P) 42
2.2.3.3. Phng pháp tính đ chính xác da trên 11 đim chun ca đ bao ph 44
2.2.3.3.1. th biu din hiu sut thc thi h thng tìm kim 44
2.2.3.3.2. ng cong đ bao ph và đ chính xác RP 45
2.2.3.3.3. ng cong RP cho tp truy vn 47
2.2.3.3.4. ánh giá h thng tìm kim thông tin da vào đ th 48
2.2.3.4. S liên quan gia câu hi và tài liu 49
2.2.3.4.1. Các đ liên quan 49
2.2.3.4.2. Các vn đ v đ liên quan 49
2.2.3.4.3. ánh giá vi đ liên quan nhiu cp đ 51
2.2.3.4.4. Phng pháp đo đ bao ph (R), đ chính xác (P) da trên đ liên
quan nhiu cp đ 53
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 7
2.2.4. TREC và đánh giá theo chun TREC 54
2.2.4.1. TREC là gì? 54
2.2.4.2. Cách xây dng ng liu ca TREC 56
2.2.4.2.1. Xây dng tp hp các tài liu 57
2.2.4.2.2. Xây dng các ch đ 57
2.2.4.2.3. Xây dng bng đánh giá liên quan chun 58
2.3. Ng liu ting Vit 59
2.3.1. T 60
2.3.1.1. Quan nim v t 60
2.3.1.2. Quan nim v hình v 61
2.3.1.3. Khái nim v cu to t 61
2.3.2. Ranh gii t 62
Chng 3 : THIT K VÀ CÀI T 63
3.1. Xây dng b ng liu dùng đ đánh giá 63
3.1.1. Xây dng kho ng liu bng ting Vit 63
3.1.1.1. Chun hóa ng liu 63
3.1.1.1.1. Chun hóa dng ng liu 63
3.1.1.1.2. nh dng ng liu 64
3.1.2. Xây dng tp câu hi bng ting Vit 64
3.1.3. Tách t ting Vit 65
3.1.4. Xây dng bng đánh giá 65
3.1.4.1. H thng SMART 66
3.1.4.1.1. Gii thiu h thng SMART 66
3.1.4.1.2. Quá trình tìm kim thông tin ca SMART 66
3.1.4.1.3. Mô hình vec-t ca h thng SMART 67
3.1.4.1.4. S dng mô hình vec-t 69
3.1.4.2. H thng Search4Vn 73
3.1.4.3. H thng TERRIER 73
3.1.4.4. H thng X-IOTA 74
3.1.4.5. H thng LUCENE 74
3.2. Phân tích h thng đánh giá các h thng tìm kim thông tin 74
3.2.1. Mô t h thng tr giúp đánh giá 74
3.2.1.1. Phát biu bài toán 74
3.2.1.2. Mc tiêu 75
3.2.1.3. Phm vi 75
3.2.1.4. Chc nng 75
3.2.1.5. Tính kh dng 76
3.2.1.6. Hiu sut 76
3.2.1.7. Tính bo mt 76
3.2.2. Phân tích h thng đánh giá 76
3.2.2.1. Chc nng ca h thng 76
3.2.2.2. Chc nng yêu cu 77
3.2.2.2.1. Chc nng đánh giá mt h thng IR 77
3.2.2.2.2. Chc nng so sánh nhiu h thng IR 77
3.2.2.2.3. S đ use case 77
3.2.2.2.4. S đ tun t hot đng usecase 79
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 8
3.3. Thit k h thng đánh giá 86
3.3.1. Các chc nng ca chng trình 86
3.3.1.1. Chc nng “nh dng c s d liu tài liu” 86
3.3.1.2. Chc nng “nh dng kt qu tr v” 86
3.3.1.3. Chc nng “nh dng file index” 87
3.3.1.4. Chc nng “Thc thi h thng IR” 87
3.3.1.5. Chc nng “X lý kt qu tr v” 87
3.3.1.6. Chc nng ”ánh giá mt h thng IR” 87
3.3.1.7. Chc nng “ánh giá nhiu h thng IR” 87
3.3.2. Thit k h thng 88
3.3.2.1. S đ kin trúc tng th 88
3.3.2.1.1. Danh sách các lp đi tng 88
3.3.2.1.2. Lp đi tng th hin 88
3.3.2.1.3. Lp đi tng x lý 91
3.3.2.1.4. Lp đi tng lu tr 99
3.3.2.2. S đ kin trúc tng quát cho tng chc nng ca chng trình 99
3.3.2.2.1. Chc nng “nh dng tài liu” 99
3.3.2.2.2. Chc nng “nh dng câu hi” 100
3.3.2.2.3. Chc nng “Thc thi h thng” 101
3.3.2.2.4. Chc nng “nh dng kt qu” 102
3.3.2.2.5. Chc nng “nh dng file index” 103
3.3.2.2.6. Chc nng “ánh giá và hin thi kt qu đánh giá” 103
3.3.2.2.7. Chc nng ”So sánh các h thng IR đã đc thc thi” 104
3.3.2.3. Thit k d liu – t chc lu tr 105
3.3.2.3.1. Mô hình d liu 105
3.3.2.3.2. S đ logic d liu 107
3.3.2.4. T chc lu tr d liu 110
3.3.2.4.1. System 110
3.3.2.4.2. Topic 112
3.3.2.4.3. Index_topic 113
3.3.2.4.4. Document 114
3.3.2.4.5. Index_Doc 115
3.3.2.4.6. relevant_TT 115
3.3.2.4.7. relevant_LT 116
3.3.2.4.8. evaluation 117
3.3.2.5. Thit k giao din 119
3.3.2.5.1. S đ liên h gia các màn hình 119
3.3.2.6. Thit k màn hình 122
3.3.2.6.1. Màn hình chính (TH_Main) 122
3.3.2.6.2. Màn hình đnh dng tài liu (TH_DDTaiLieu) 122
3.3.2.6.3. Màn hình to thuc tính cho tài liu (TH_TTTaiLieu) 124
3.3.2.6.4. Màn hình đnh dng câu hi (TH_DDCauHoi) 125
3.3.2.6.5. Màn hình to thuc tính cho câu hi (TH_TTCauHoi) 127
3.3.2.6.6. Màn hình x lý điu kin đ thc thi h thng IR 128
3.3.2.6.7. Màn hình thc thi h thng (TH_ThucThiHT) 129
3.3.2.6.8. Màn hình đnh dng kt qu (TH_DDKetQua) 130
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 9
3.3.2.6.9. Màn hình đnh dng thông tin index (TH_DDIndex) 131
3.3.2.6.10. Màn hình đánh giá h thng (TH_KqDanhGia) 133
3.3.2.6.11. Màn hình xem đ th ca h thng 136
3.3.2.6.12. Màn hình xem chi tit (TH_XemChiTiet) 136
3.3.2.6.13. Màn hình so sánh h thng (TH_SoSanhHT) 138
3.3.2.7. Thit k h thng lp đi tng 139
3.3.2.7.1. Các lp đi tng x lý 139
3.3.2.7.2. Các lp đi tng lu tr 169
Chng 4 : KT QU ÁNH GIÁ 171
4.1. Ngng đánh giá 171
4.2. ánh giá h thng tìm kim thông tin search4VN 171
4.3. So sánh h thng tìm kim search4VN và h thng Lucene 177
4.4. Nhn xét chng trình h tr đánh giá h thng tìm kim thông tin 179
4.4.1. u đim 179
4.4.2. Khuyt đim 179
Chng 5 : KT LUN 181
Chng 6 : HNG PHÁT TRIN 182
PH LC 183
Tài liu tham kho 186
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 10
M U
Tìm kim thông tin là nhu cu thit thc ca tt c mi ngi. c bit trong
bi cnh bùng n thông tin nh hin nay, gm có s ra đi ca internet và sáng
kin v th vin đin t, nhu cu tìm kim thông tin li càng phát trin. Nhng
nh có s tr giúp ca công ngh thông tin con ngi có th tha mãn nhu cu này
mt cách d dàng. Tht vy, có rt nhiu h
thng tìm kim thông tin
(Information Retrieval system hay IR system) trên máy tính đang tn ti đ tr
giúp con ngi. Tuy nhiên, kh nng tìm kim thông tin ca các h thng này
chc chn khác nhau. Do đó, vic đánh giá các h thng tìm kim thông tin
(Evaluation of Information Retrieval systems) là mt nhu cu không th thiu
nhm xác đnh các h thng tìm kim thông tin hiu qu. Vic đánh giá này có ý
ngha rt ln đi vi s tn ti và phát trin ca các h thng tìm kim thông tin.
Nó giúp xác đnh kh nng tìm kim ca các h thng tìm kim thông tin t đó mà
các t chc, công ty, trng hc to ra h thng này có th phát trin, thay đi h
th
ng đ đa ra kh nng tìm kim thông tin tt nht. Ngoài ra, vic xác đnh các
h thng tìm kim thông tin hiu qu rt hu ích đi vi ngi dùng, h s cm
thy tin tng vào kt qu tìm kim mà h thng tìm đc. Xa hn na, vic đánh
giá s to ra mt cuc cách mng trong lnh vc tìm kim thông tin; giúp đa tìm
kim thông tin vào trong th gii thc ca
đi sng. Chng hn, khi các h thng
tìm kim thông tin tin b chuyn t nghiên cu sang th gii thc ca cnh tranh
thng mi thì nhng nhà thit k, nhà phát trin, ngi bán hàng, và nhng đi
din bán hàng ca các sn phm thông tin mi nh sách đin t, và các phng
tin tìm kim (Search engines) … mun bit sn phm ca h có cung cp cho
nhng ngi s d
ng và ngi mua hàng tim nng các li th cnh tranh hay
không, s đc tha mãn nhu cu thông tin này mt cách d dàng, chính xác.
Kh nng tìm kim ca h thng tìm kim thông tin chúng tôi va đ cp
đc nghiên cu nhiu cp đ: th nht là v kh nng x lý tc thi gian tìm
kim và không gian lu tr hay còn gi là hiu nng; th hai là v kh nng tìm
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 11
kim hay hiu qu ca kt qu tr v; th ba là kh nng v h thng tc h thng
có tha mãn nhu cu thông tin ca ngi dùng hay không.
Hin nay, trên th gii đã có rt nhiu h thng đánh giá các h thng tìm kim
thông tin nhng ch yu là đánh giá các h thng tìm kim thông tin ting Anh,
ting Pháp. i vi ting Vit, theo chúng tôi đc bit, ch
a có mt h thng nào
đc dùng đ đánh giá các h thng tìm kim thông tin ting Vit. Nhng theo xu
hng phát trin ca đt nc và nhu cu tìm kim thông tin thì các h thng tìm
kim thông tin ting Vit bt buc phi tn ti và phát trin. Vì vy, Vit Nam
chúng ta rt cn các h thng đc dùng đ đánh giá hiu nng, hiu qu ca các
h thng tìm kim thông tin ti
ng Vit.
Do ý ngha to ln ca lnh vc nghiên cu đánh giá này, chúng tôi đã quyt
đnh chn đ tài đánh giá các h thng tìm kim thông tin. Chúng tôi ngh rng h
thng đánh giá ca chúng tôi s là c s đ đánh giá tt c các h thng tìm kim
thông tin, nht là h thng tìm kim thông tin ting Vit. Chúng tôi cng hy vng
h thng ca chúng tôi s góp phn vào s phát trin c
a các h thng tìm kim
thông tin, ca tìm kim thông tin và ca công ngh thông tin nc ta.
Thc hin đánh giá kh nng tìm kim, chúng tôi tp trung vào đánh giá hiu
qu ca kt qu tìm kim đc tr v (cp đ th hai trong kh nng tìm kim ca
h thng thông tin trên). Hiu qu ca kt qu tr v đc đnh ngha là kh
nng h
thng tìm kim thông tin tìm đc các tài liu liên quan (Relevant
Documents) và loi b đi nhng tài liu không liên quan (Irrelevant
Documents
). ây là mô hình hng h thng trong nghiên cu tìm kim thông tin.
Mô hình này mô hình đánh giá đc s dng nhiu nht và hiu qu nht trên th
gii.
Và đ xây dng h thng đánh giá các h thng tìm kim thông tin ting Vit
theo mô hình hng h thng, trc ht, chúng tôi cn phi xây dng b ng liu
dùng đ đánh giá bng ting Vit
(a Vietnamese Test collection). B ng liu
dùng đ đánh giá gm có kho ng liu mu bng ting Vit (a Vietnamese
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 12
Corpus hay a set of Vietnamese documents), tp câu truy vn mu bng ting
Vit (a set of Vietnamese queries), và bng đánh giá liên quan chun
(Relevance Judgment). Chúng tôi tìm hiu và thc hin xây dng b ng liu
dùng đ đánh giá theo tiêu chun ca Hi ngh v Tìm kim thông tin Vn bn
(Text REtrieval Conference hay TREC) ca Hoa K, mt trong nhng Hi ngh
hàng đu trên th gii v Tìm kim Thông tin.
Tip theo, chúng tôi xây dng chng trình tr giúp đánh giá các h thng tìm
kim thông tin, cho phép ngi dùng thao tác, thc hin đánh giá các h thng mt
cách d dàng. Kt qu tr v ca chng trình đánh giá có đc da vào b ng
liu mu đc dùng đánh giá. Kt qu tr v này gm có k
t qu truy vn ca h
thng tìm kim thông tin và kt qu đánh giá. Kt qu đánh giá đc tính da trên
s kt hp ca hai đ đo: đ bao ph (Recall) và đ chính xác (Precision). T
kt qu tr v, chúng ta có th bit đc kh nng tìm kim ca riêng tng h
thng tìm kim thông tin và so sánh kh nng ca các h thng tìm kim vi nhau.
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 13
Chng 1 : TNG QUAN
1.1. Tng quan v tìm kim thông tin và h thng tìm kim thông tin
Tìm kim thông tin liên quan đn vic biu din, lu tr, t chc và tip cn
các yu t thông tin (mt tài liu có th có mt hoc nhiu yu t thông tin) [
1
].
Theo lý thuyt, không có gii hn v các loi yu t thông tin trong tìm kim
thông tin. Trên thc t, các loi yu t thông tin ngày càng tr nên đa dng cùng
vi s phát trin ca xã hi. Ngoài ra, mt tp hp các yu t thông tin đc gi là
hu dng khi và ch khi nó đy đ và luôn đc cp nht. y đ đây có ngha
là tp hp này phi cha mt t l
ln các yu t thông tin đc xem là có kh
nng liên quan đn các lnh vc xác đnh. Hn na, vic biu din và t chc các
yu t thông tin nên cung cp cho ngi dùng cách truy cp d dàng nht đn
thông tin mà ngi đó quan tâm. Nhng không may là tính cht ca nhu cu thông
tin ngi dùng không phi đn gin. Chúng ta xem xét mt ví d v mt nhu cu
thông tin hin nhiên ca ngi s dng trong ng cnh tìm ki
m World Wide Web
hay ch là Web:
Tìm tt c các trang hay tài liu cha thông tin v bnh ung th phi và nguyên
nhân dn đn ung th phi, các tài liu đc xem là liên quan phi va nói đn các
triu chng ung th phi, va nói đn nguyên nhân dn đn cn bnh này gm c
tác hi ca vic hút thuc và ô nhim môi trng.
T ví d trên, chúng ta thy rõ ràng là s mô t đy đ nhu cu thông tin ngi
dùng không th đ
c s dng trc tip đ tìm kim trên bình din ca các phng
tin tìm kim Web (Web Search Engine) hay h thng tìm kim thông tin (IR
system) hin nay. Thay vào đó, ngi s dng phi dch nhu cu thông tin ca
mình sang mt câu truy vn có th đc x lý bng phng tin tìm kim hay h
thng tìm kim thông tin. iu này to ra mt tp các t khóa tóm tt mô t nhu
cu thông tin ngi dùng hay còn gi là câu truy vn. Da trên câu truy vn ca
ngi s dng, mc đích chính ca h thng tìm ki
m thông tin là tìm kim các
thông tin hu ích hay liên quan cho ngi s dng.
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 14
Vy có th nói mt cách tng quát, h thng tìm kim thông tin là mt h
thng cho phép ngi s dng tìm kim tài liu đ tha mãn nhu cu thông tin t
mt kho ng liu ln.
tìm kim thông tin, h thng tìm kim phi thc hin các công vic sau.
Trc ht, h thng tìm kim x lý tài liu thô thành nhng tài liu đc tách t,
phân đon
(tokenized documents) và sau đó lp ch mc (index) da trên v trí
ca t. Khi ngi dùng đa vào câu truy vn, h thng tìm kim thông tin cng s
x lý các câu truy vn thành ngôn ng ch mc mô t các yu t thông tin cn tìm
kim và thc hin đi chiu vi ch mc tài liu đ tìm ra các tài liu liên quan.
Cui cùng, các tài liu liên quan s đc tr v cho ngi dùng theo mt danh
sách đc sp xp theo đ u tiên chính xác gim d
n (ranked list).
1.2. Tng quan v đánh giá các h thng tìm kim thông tin
1.2.1. Lý do đ tin hành đánh giá các h thng tìm kim thông tin
Khi nhu cu tìm kim thông tin phát trin, có rt nhiu mô hình, thut toán, h
thng tìm kim thông tin ra đi. Do đó, vic đánh giá các mô hình, thut toán, h
thng tìm kim thông tin là điu bt buc phi làm.
Chúng ta so sánh mt h thng (có th là mt h thng mi) vi các h thng
khác đã tn ti v phng din: tính hiu qu, chi phí, thi gian , tc đ x lý…
H thng tìm kim thông tin thng thc hin hai quá trình: quá trình lp ch
mc và quá trình tìm kim. Mi mt quá trình s có nhiu phng pháp đ thc
hin, đánh giá h thng cng có th dùng đ xác đnh tính ti u ca các phng
pháp trên.
Lý do khác đ tin hành đánh giá là đ so sánh các thành phn ca h thng.
Do h
thng gm nhiu thành phn, đánh giá h thng đ xác đnh cách mi thành
phn ca h thng thc thi đ khi có s thay đi mt thành phn bi mt thành
phn khác thì s thay đi đó nh hng đn h thng nh th nào, t đó ta có th
quyt đnh có nên thay đi thành phn đó không.
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 15
ánh giá đ tìm kim thành phn nào là tt nht cho hàm xp th t (dot-
product, cosine…); thành phn nào là tt nht cho la chn thut ng (loi b
stopword, phng pháp ly gc t stemming …); thành phn nào là tt nht trong
la chn phng pháp đánh giá thut ng (term weighting) nh TF, IDF … (các
thành phn này s đc nói rõ hn trong chng sau).
So sánh đ bit ngi s dng cn danh sách các tài liu tr v (ranked list) dài
c bao nhiêu đ
h có th nhìn d dàng nht. ánh giá đ bit h thng nào tht s
tt, ngi dùng có th tin tng kt qu tr v đc.
1.2.2. Các tiêu chun đc dùng đ đánh giá
Hin nay, trên th gii có ba tiêu chun đc dùng đ đánh giá h thng tìm
kim thông tin. Th nht là tiêu chun v tính hiu qu tc s chính xác, tính đy
đ ca kt qu tr v
so vi mc đích tìm kim ca ngi s dng, và giá tr vn
có th đoán đc trong các tình hung khác có ngha là khi đa vào các câu truy
vn khác, tp tài liu khác thì h thng vn có th tìm ra kt qu chính xác. Th
hai là tiêu chun v hiu nng, gm có tc đ tìm kim ca thut toán, kh nng
lu tr, thi gian tr v cho ngi s dng, thi gian l
p ch mc, kích thc ch
mc… Th ba là tiêu chun v kh nng s dng h thng tc là có th nghiên
cu, hc hi trên h thng tìm kim, ngi không bit tin hc hay các chuyên gia
tin hc đi có th s dng h thng.
1.2.3. Các mô hình đánh giá
Theo chúng tôi đc bit, trên th gii có tt c bn mô hình đánh giá các h
thng tìm kim thông tin. Chúng bao gm : đánh giá hp kính,
đánh giá hp đen,
đánh giá hng h thng, đánh giá hng ngi dùng hay còn gi là đánh giá
nghiên cu ngi dùng [
2
].
ánh giá hp kính (glass box evaluation) : đánh giá h thng da trên
vic đánh giá tt c mi thành phn ca h thng. Có ngha là khi bit rõ
các thành phn ca h thng, chúng ta tin hành đánh giá các thành phn đó.
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 16
ánh giá hp đen (black box evaluation) : đánh giá h thng bng cách
xem h thng nh là mt thc th hp nht, không đánh giá chính xác các
thành phn bên trong h thng.
ánh giá hng h thng (system-oriented evaluation) là xu hng
đánh giá chính t khi các h thng tìm kim và lp ch mc t đng đc
phát trin vào nhng nm 1960. Mt trong nhng mc đích chính ca
hng đánh giá này là kim tra các h thng t đng cng nh các th tc
th công thc thi nh th nào. Ngoài ra, mô hình này còn đánh giá so sánh
các cách thc hin liên quan đn các ngôn ng ch mc, x lý tìm kim ca
h thng c
a các h thng khác nhau hay đánh giá so sánh các lc đ ch
mc t đng khác nhau. ánh giá hng h thng có mt đim li là điu
kin môi trng kim tra đc qun lý cht ch, s dng phng pháp đánh
giá theo lô hay còn gi là đánh giá da trên tp câu truy vn; có ngha là h
thng tìm kim thông tin ln lt thc hin các câu truy vn, tìm kim trên
tp d li
u đã đc xây dng và ghi li kt qu nhng tài liu nào liên quan
đn câu truy vn nào ri đem so sánh vi Bng ánh giá liên quan chun
(Relevance judgment) đã đc xây dng. Vi mi câu truy vn tính toán
đ chính xác và đ bao ph da trên kt qu tr v và bng đánh giá liên
quan chun đ nhn xét hiu qu tìm kim ca h thng tìm kim thông tin.
Hng đánh giá này đc thc hin rt ph bin các d án, hi ngh v
nghiên cu h thng tìm kim thông tin nh:
Cranfield , MEDLARS,
SMART, STAIRS và TREC.
ánh giá hng ngi dùng (user studies evaluation): Hng nghiên
cu ngi dùng ra đi vào nhng nm 1970 khi mà nhiu h thng tìm
kim thông tin thng mi ra đi. Mc đích chính ca hng nghiên cu
này là nhm xác đnh cách thc tìm kim ca ngi s dng [
3
]. Hng
đánh giá này còn cho phép xem xét h thng khía cnh ngi dùng; tc là
đánh giá v mt tng tác vi ngi s dng nh giao din ca h thng
tìm kim thông tin, thi gian h thng tìm kim đi vi mt câu truy vn,
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 17
mc đ hài lòng ca ngi s dng… Hng nghiên cu này cho rng nhu
cu ca ngi dùng đc tho mãn tng đng vi hiu qu ca h thng.
Ch khi nhu cu thông tin ngi dùng đc tha mãn, khi y tìm kim
thông tin mi đc gi là có ích. Hi ngh quc t v Tìm kim Thông tin
trong Ng cnh (Information Seeking in Context) đc t chc nh là
mt din đ
àn cho các nhà nghiên cu lnh vc này khám phá các phng
pháp và các kt qu nghiên cu. Mt hi ngh khác mi đc thành lp tên
là Nhóm Quan tâm c bit (Special Interest Group - SIG) đn tìm kim,
nhu cu và s dng thông tin ca Xã hi Hoa K v Khoa hc Thông tin
(American Society of Information Science). Nhng hi ngh này cng
tng t nh TREC trong vic c gng khuyn khích nghiên cu hng
ngi dùng, đ phát trin mi liên h gia các nhà nghiên cu trong k
thut, giáo dc và chính ph, và đ xác đnh, ci tin các k thut tìm kim
thích hp. Nhng các hi ngh
này khác nhau ch các hi ngh mi cha
có phng pháp lun đánh giá chun nào đc xúc tin. ánh giá hng
ngi dùng có đóng góp rt ln đn lnh vc tìm kim thông tin. óng góp
này gm có vic xác đnh cách thc tìm kim thông tin ca con ngi, ni
lin khong cách gia nhu cu thông tin gia các cá nhân và các h thng
tìm kim thông tin, dn đn mt th h mi ca các h th
ng tìm kim
thông tin bao gm các giao din đ ho máy tính-ngi s dng.
Hin nay, trong s bn mô hình trên thì hai mô hình đánh giá hng h thng
và hng ngi dùng đang đc s dng chính và rng rãi nht. Trong phm vi đ
tài ca chúng tôi, chúng tôi ch s dng mô hình đánh giá hng h thng vì mô
hình đánh giá hng ngi dùng cn có s hp tác ca rt nhiu ngi dùng đ
ly thông tin phn hi sau khi s
dng h thng tìm kim thông tin đó hoc cn
phi tham gia trao đi v hiu nng tìm kim ti các hi ngh. Nhng các hi ngh
dành cho mô hình đánh giá hng ngi dùng đa s cha có mt phng pháp
lun c th nào dùng đ đánh giá. Ngoài ra, vi mô hình hng h thng, chúng
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 18
tôi có th xây dng ng dng đ đánh giá nhiu h thng tìm kim thông tin mt
cách t đng.
1.2.4. Các đ đo dùng đ đánh giá
bao ph (Recall) và đ chính xác (Precision) là 2 đn v đo c bn nht
đ đánh giá cht lng mt h thng tìm kim thông tin [
4
]. bao ph là t l
gia các tài liu liên quan đc tr v trên tng s các tài liu liên quan tht s.
Trong khi đó, đ chính xác là t l gia các tài liu liên quan đc tr v trên tng
s tài liu đc tr v.
Có nhiu phng pháp s dng mt hoc các đ đo này đ tính toán đánh giá,
chng hn phng pháp chính xác trung bình (Mean Average Precision –
MAP) ch s dng đ chính xác, không quan tâm
đn đ bao ph. Phng pháp đo
da trên giá tr đn Swet’s E-Measure hoc chiu dài tìm kim trung bình thì cng
ch s dng mt giá tr đ tính toán. Phng pháp tính đ chính xác da trên 11
đim chun ca đ bao ph s dng c hai đ đo đ bao ph và đ chính xác.
Chúng tôi thc hin đánh giá theo phng pháp tính đ chính xác da trên 11
đim chun ca đ bao ph bi vì phng pháp này khá
đn gin, d thc hin
tính toán, đo và đánh giá. Ngoài ra, phng pháp này trc quan vi cách biu din
đ th ca các đim bao ph, chính xác t đó d dàng thy hiu qu tìm kim ca
riêng tng h thng và so sánh các h thng đánh giá vi nhau.
1.2.5. Các phng pháp xây dng b ng liu dùng đ đánh giá
Theo mô hình hng h thng,
trc ht phi xây dng b ng liu dùng đ
đánh giá (test collection). B ng liu dùng đ đánh giá gm có tp các tài liu
mu, tp câu truy vn mu, và bng đánh giá liên quan chun.
• Tp tài liu dùng đ đánh giá đc thu thp t các ngun khác nhau, gm
nhiu ch đ khác nhau. Tp tài liu này phi là nhng tài liu mu bao
quát càng nhiu lnh vc càng tt, phn ánh đc các vn đ đa dng khác
nhau, các phong cách vn chng khác nhau … i
u này có ngha là tp
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 19
tài liu mu này phi có kích thc ln, vì vy tp tài liu này còn đc gi
là kho ng liu mu.
• Tp câu truy vn mu là nhng câu hi đc to ra phù hp vi tp tài liu
mu. Tp câu truy vn này sau đó s đc s dng đ tìm kim.
• Bng đánh giá liên quan chun là bng cha thông tin v s th t câu hi
và các tài liu liên quan th
t s ca câu hi đó. Bng ánh giá liên quan
chun đc dùng nh là bng đi chiu đ tính đ bao ph và đ chính xác.
Có nhiu cách khác nhau đ to bng đánh giá liên quan chun hay bng
Relevance judgment. Các phng pháp này gm có:
Phng pháp đánh giá toàn b, phng pháp này thng không kh
thi vì t l tp câu hi*tp tài liu là quá ln. Phng pháp này rt tn
chi phí.
Phng pháp Pooling hay còn gi là ph
ng pháp ly mt s tài liu
liên quan nht đ làm bng đánh giá liên quan chun. Phng pháp này
s dng tt cho đánh giá nhiu h thng tìm kim thông tin. Phng
pháp này đòi hi phi có mt s đa dng các h thng tìm kim thông
tin. Bc đu tiên ca phng pháp này là tìm thy các tài liu liên
quan cho mi h thng. Các h thng khác nhau tìm thy các tài liu
liên quan khác nhau. Bc tip theo là tng hp các k
t qu ca tt c
các h thng li và ly phn giao ca các bng đánh giá liên quan ca
các h thng. Nhng phn giao này có th ch là mt s lng nht đnh
các tài liu gn nh chính xác nht. Vic đánh giá da trên phng pháp
này tht s khách quan khi đánh giá các h thng không đc chn đ
giao ly bng ánh giá liên quan chun.
Phng pháp đánh giá h
ng dn ch tìm kim thnh thong cho kt
qu tt. Phng pháp này cho phép tng tác gia nghiên cu truy vn,
tìm kim, đánh giá. Tng cng thêm bng cách xem li, điu chnh,
đánh giá li. Nói chung, khi s dng phng pháp này, ngi đánh giá
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 20
phi thao tác bng tay rt nhiu, xem các tài liu tr v có tht s là liên
quan hay cha đ đa vào bng ánh giá liên quan chun.
Các đánh giá da trên nhng thành phn đã bit, phng pháp này
tn ít chi phí nht. Phng pháp này cho phép thay đi câu hi đ tìm ra
mt tài liu đã bit.
1.2.6. Phng pháp xây dng b ng liu đc chn
K t nm 1992, khi Hi ngh v Tìm ki
m thông tin Vn bn (Text REtrieval
Conference hay TREC) ca Hoa K ra đi, mô hình hng h thng mi tht s
phát trin. Bi vì hng nm, TREC t chc hi ngh đ kêu gi tham gia đánh giá
các h thng tìm kim thông tin, đc bit kêu gi đánh giá theo mô hình hng h
thng. Nh đó mà mi nm khi lng, kích thc b ng liu dùng đ đánh giá
tng lên rt đáng k
cùng vi s phát trin v s lng các t chc, trng i hc
tham gia TREC. TREC đc xem là Hi ngh ln nht th gii v đánh giá các h
thng tìm kim thông tin và là mt trong nhng Hi ngh có uy tín trong lnh vc
tìm kim thông tin. TREC xây dng bng đánh giá liên quan chun theo phng
pháp Pooling. TREC còn đa ra các tiêu chun, đnh dng cho ng liu rt rõ ràng,
và d tuân theo.
Vì vy, chúng tôi quyt đnh chn ph
ng pháp xây dng ng liu theo tiêu
chun và cách làm ca TREC. Chúng tôi đnh dng câu hi và tài liu theo tiêu
chun đnh dng mà TREC đa ra, đng thi làm bng đánh giá liên quan chun
theo phng pháp Pooling hay phng pháp ly mt s tài liu liên quan nht đ
làm bng ánh giá liên quan ging TREC vì cách to bng đánh giá khách quan
mà nó mang li và không phi tn nhiu thi gian, chi phí.
Tuy nhiên, đi vi ting Vit, vic xây dng b ng liu đ
ánh giá phc tp hn
là xây dng b ng liu ting Anh, ting Pháp trong trng hp dùng các h thng
tìm kim ph bin, ni ting sn có cho ting Anh, Pháp đ tìm kim thông tin
ting Vit. Bi vì đc thù loi hình ngôn ng khác nhau gia ting Anh, Pháp và
ting Vit. Chng hn, trong ting Anh, Pháp mi t là mt t đn, cách nhau bi
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 21
mt khong trng nhng ting Vit thì hoàn toàn khác, mt t có th gm t mt
t đn tr lên. Do đó, đ nhng h thng tìm kim thông tin, ng liu phi đc
chun hóa v ging vi tiêu chun ng liu dùng đ tìm kim ca h thng đó.
Nhng cng chính điu này làm cho ng liu ca chúng tôi có th đc s d
ng
linh hot đ đánh giá nhiu h thng tìm kim thông tin cho nhiu th ting khác
nhau. iu này còn có ý ngha rt ln trong tìm kim thông tin vì chúng ta có th
s dng h thng tìm kim hiu qu ca nc ngoài đ tìm kim thông tin ting
Vit.
1.2.7. Phng pháp đánh giá tm quan trng ca kt qu tr v
Các đ đo thc hin toàn b h thng tìm kim ch
yu đc ly trung bình
trên tp câu hi. Vì tính cht bin đi ca các câu hi là rt ln, và s thay đi ca
các đ đo tính toán là rt cao, nên đòi hi mt phng pháp phân tích thng kê
thích hp đ đánh giá xem s khác bit đc đo gia các h thng có phi là có ý
ngha thng kê đn mt đ tin cy nht đnh không. Vì vy, phng pháp đánh giá
tm quan trng c
a kt qu tr v đc s dng là phng pháp thng kê.
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 22
Chng 2 : C S LÝ THUYT
2.1. Tìm kim thông tin và các h thng tìm kim thông tin
2.1.1. Lch s tìm kim thông tin và h thng tìm kim thông tin
Tìm kim thông tin có mt lch s lâu đi gn lin vi các th vin và trung
tâm tìm kim thông tin. Trc đây, khi mà máy tính và internet cha ra đi, nhng
ngi có nhu cu thông tin ngoài vic nh s tr giúp thông tin t bn bè, ngi
thân còn có th tìm đn th vin hoc các trung tâm thông tin đ tìm kim thông
tin cn thit. Cách biu din, lu tr, t chc và ph bin thông tin ca th vin
đc xem là cách làm truyn thng ca mt h thng tìm kim thông tin. Th vin,
khi tip nhn các yu t thông tin hay tài liu mi, trc ht là phân tích yu t
thông tin đó. Sau đó, nhng mô t thích hp s đc chn ra đ mô t, phn ánh
ni dung ca yu t thông tin đó. Da trên nhng mô t này, mi yu t
thông tin
s đc phân loi theo nhng th tc đã đc thit lp ri sáp nhp vào tp hp
các yu t thông tin đã tn ti. Các th tc này đc to ra đ h thng hóa các
yêu cu (các yêu cu đc thit k đ thay th cho mt nhu cu thông tin ) và đ
so sánh nhng yêu cu, truy vn đó vi mô t ca các yu t thông tin đã lu tr
.
Vic so sánh này chính là c s đ quyt đnh các yu t thông tin thích hp vi
câu truy vn tng ng. Cui cùng, mt c ch tìm kim và ph bin thông tin s
đc dùng đ tr các yu t thông tin cn thit đn ngi s dng h thng.
Tuy nhiên, chúng ta phi xem xét vn đ ny sinh v v trí tht s ca mt yu
t thông tin mi đc thêm vào trong t
p hp tài liu. Có nhiu c ch tip cn
khác nhau đ gii quyt vn đ này nhng chúng đu liên quan đn cách t chc
vt lý hoc lun lý các yu t thông tin. Trong th vin, cách t chc vt lý chính
là vic lp ch mc cho tài liu, tc là s sp xp các con s ca các quyn sách,
cách đánh s thng đc quy đnh bi các th vin l
n. Nhng quyn sách s
đc đt vào nhng v trí xác đnh da vào nhng con s này. Ngoài ra, cách t
chc lun lý d liu phi đc thêm vào vi cách t chc vt lý đ giúp ngi s
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 23
dng tìm kim thông tin d dàng hn. Chng hn, nhng quyn sách n bn v tìm
kim thông tin có th đc xác đnh bng cách nhìn vào danh mc các ch đ ca
th vin vi thut ng cn tìm là “tìm kim thông tin”. Mt khi ta tìm thy thut
ng thích hp, các th s k tip nhau s xác đnh nhng quyn sách liên quan đn
ch đ đang tìm kim. Nhng quyn sách này ph thu
c vào các con s và chúng
s đc tìm thy ti nhng v trí xác đnh. Bên cnh đó, mi khi mun thay đi
thut ng ch đ ca sách, chúng ta không cn thay đi v trí ca sách trên k
sách; tc là, các yu t thông tin có th đc t chc lun lý li bng cách thay đi
danh mc th vin mà không cn thay đi sp xp vt lý.
Xã hi ngày càng phát trin do đó thông tin rt đa d
ng phong phú, bài toán đt
ra là chúng ta phi làm sao đ qun lý đc s lng thông tin khng l mt cách
có hiu qu. T đó dn đn nhu cu làm gim mt lng các yu t thông tin đn
mt kích thc có th qun lý, các yu t thông tin còn li đc xem là có liên
quan nhiu nht đn lnh vc tìm kim. Mt khác, chúng ta rt khó d đoán mu,
trng thái phát trin tng lai ca thông tin, hoc n
u có th d đoán thì t l ri ro
rt cao. Khó khn tip theo trong vic t chc thông tin hiu qu là c mun gi
nhng yu t liên quan gn nhau. Ví d, nhng ch đ liên quan đn nhiu lnh
vc nh phân tích h thng (nó liên quan đn khoa hc máy tính, vn trù hc, k
thut hc, khoa hc qun lý, giáo dc và các h thng thông tin) không th đ gn
nhau
đc mà phi đ riêng ra theo tng lnh vc : đây là mt khó khn. Còn rt
nhiu khó khn na, chng hn các khó khn trong phân loi, so sánh tài liu, yu
t thông tin; lp ch mc, đánh s cho tài liu. Và nhng khó khn này s không
đc gii quyt nu không có s ra đi ca máy tính. Qu tht, nh có máy tính
mà vic lu tr, tìm kim thông tin tr nên d dàng hn. Máy tính có th thao tác
trên tt c
các loi thông tin và có th lu tr mt cách nhanh chóng mt s lng
thông tin khng l. Ngoài ra, c ch tìm kim thông tin trên máy tính có th rt
nhanh chóng và hiu qu tùy thuc mô hình cài đt, thut toán ca c ch đó. C
ch tìm kim này cng khá ging vi c ch tìm kim thông tin ca th vin.
Trc ht, da trên ngôn ng ch mc và các yu t thông tin đi din cho ni
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 24
dung ca tài liu, tp tài liu s đc biu din di dng tp hp các ch mc đi
din cho tp tài liu đó. Trong khi đó, nhu cu tìm kim thông tin đc biu din
di dng câu truy vn có cu trúc hoc không cu trúc mà máy có th hiu đc.
Sau đó, máy s so sánh hai dng biu din trên, biu din tài liu và biu din câu
truy vn, đ bit đc tài li
u nào phù hp vi truy vn nào. Sau khi so sánh, máy
s đnh v đc v trí vt lý ca yu t thông tin cn tìm kim và ph bin nó đn
ngi s dng. ây là c ch tìm kim chung cho mi h thng tìm kim thông tin.
Tuy nhiên, cách đây không quá 20 nm, sau khi máy tính ra đi, các h thng
tìm kim thông tin ch yu đc s dng trong phòng thí nghim đ tìm kim mt
kho ng liu sách và tài liu. Mc dù chúng không bao hàm các ph
ng pháp toán
phc tp, nhng khi Internet phát trin thì k thut tìm kim ch yu trên World
Wide Web chính là các k thut tìm kim thông tin. Qu tht, các h thng tìm
kim thông tin ngày càng phát trin v thut toán, k thut tìm kim thông tin nh
có s ra đi ca Internet. Vì nhu cu tìm kim thông tin ca con ngi trên
Internet là mt nhu cu ph bin, thit thc, không th thiu nên các nhà phát trin
h thng tìm kim thông tin cng phi n l
c đ mang li hiu nng, hiu qu cho
ngi s dng.
Chúng ta thy rõ ràng là nghiên cu tìm kim thông tin có truyn thng tp
trung vào tìm kim thông tin dng vn bn
(Text Retrieval) hay tài liu vn
bn
(Document Retrieval). Trong mt thi gian dài, tìm kim thông tin gn nh
đng ngha vi tìm kim tài liu hay tìm kim vn bn. Trong thi gian gn đây,
các vin cnh ng dng mi nh ng dng tr li câu hi (question answering),
ng dng nhn dng ch đ (topic detection), hay ng dng lu vt (tracking)
tr thành các lnh vc hot đng mnh m trong nghiên cu tìm kim thông tin.
Càng ngày ranh gii gia cng đng tìm kim thông tin hay cng đng tìm kim
thông tin và các cng đng nghiên cu x lý ngôn ng t nhiên, cng đng nghiên
cu c s d liu tr nên m nht khi các cng đng này cùng nhau phát trin các
Lun vn : ánh giá các h thng tìm kim thông tin
Trang 25
lnh vc quan tâm chung; ví d nh tr li câu hi, tóm tt và tìm kim thông tin
t các tài liu có cu trúc.
Mt lnh vc phát trin khác mà các k thut tìm kim thông tin đang k tc và
phát huy, đó là tìm kim thông tin không vn bn hay còn gi là tìm kim thông
tin đa phng tin. Loi hình tìm kim này s da trên rút trích t đng các phn
vn bn hay li nói ca các tài liu đa phng tin, sau đó đ
c x lý bi các k
thut tìm kim thông tin da vn bn (text-based IR techniques). Tuy nhiên,
ngi ta ngày càng quan tâm đn s phát trin các k thut phi bày c th thông
tin phng tin truyn thông ri tích hp chúng vi các phng pháp tìm kim đã
đc thit lp tt hn là cách rút trích chúng tôi đã trình bày.
Trong phm vi đ tài, chúng tôi ch gii hn tìm kim thông tin trên vn bn.
2.1.2. H thng tìm kim thông tin
2.1.2.1. Khái nim v h thng tìm kim thông tin
Theo lý thuyt, h thng tìm kim thông tin là mt h thng thông tin. Nó đc
s dng đ lu tr, x lý, tra cu, tìm kim, và ph bin các yu t thông tin đn
ngi s dng. H thng tìm kim thông tin thng thao tác vi các d liu dng
vn bn và không có s gii hn v các yu t thông tin trong vn bn.
H thng thông tin bao gm mt tp hp các yu t thông tin, mt tp các yêu
cu, và mt vài c ch
tìm kim đ quyt đnh yu t thông tin nào liên quan đn
các yêu cu. Theo nguyên tc, mi quan h gia các câu truy vn và tài liu có
đc t s so sánh trc tip. Nhng trên thc t, s liên quan gia các câu truy
vn và tài liu xác đnh không phi đc quyt đnh trc tip; mà gián tip bng
cách : các tài liu, yu t thông tin phi chuyn sang ngôn ng ch mc trc khi
xác đnh mc đ liên quan.
2.1.2.2. Cách th
c hot đng ca h thng tìm kim thông tin
Hình 1 minh ha cu trúc, cách hot đng c bn ca mt h thng tìm kim
thông tin c đin.