Tải bản đầy đủ (.pdf) (187 trang)

Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 187 trang )


TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN




TSÀN QU HNG – 0112385

VÕ H BO KHANH – 0112387





XÂY DNG B NG LIU  ÁNH GIÁ BNG
TING VIT VÀ CHNG TRÌNH TR GIÚP
ÁNH GIÁ CÁC H TÌM KIM THÔNG TIN







KHÓA LUN C NHÂN TIN HC


GIÁO VIÊN HNG DN


T.S H BO QUC









NIÊN KHÓA 2001 - 2005

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 2
Ý KIN CA GIÁO VIÊN PHN BIN
………………………………………………………………………………………
….…………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………

Xác nhn ca GVPB





Lun vn : ánh giá các h thng tìm kim thông tin
Trang 3
 CNG CHI TIT
Thông tin chung v đ tài:
Tên đ tài: Xây dng b ng liu đ đánh giá (test collection) bng ting Vit và chng
trình tr giúp đánh giá các h tìm kim thông tin

GVHD: Tin s H Bo Quc
Sinh viên thc hin:
1. MSSV: 0112385 H và tên: Tsàn Qu Hng
2. MSSV: 0112387 H và tên: Võ H Bo Khanh

Tóm tt ni dung lun vn:
 tài gm 2 phn :


1. Xây dng b ng liu đ đánh giá các h thng tìm kim thông tin ting Vit. Vic xây

dng b ng liu gm ba phn :
_ Xây dng ng liu mu ting Vit
_ Xây dng tp câu truy vn mu ting Vit
_ Xây dng mt bng đánh giá bng th công

2.Xây dng mt h thng chng trình tr giúp vic đánh giá các h thng tìm kim
thông tin vi thành phn đu vào : ng liu mu, câu truy vn mu, h thng tìm kim
thông tin ; các thành phn đu ra : kt qu truy vn, kt qu đánh giá, ni dung tp tài
liu, câu truy vn





Mt s t khóa chính liên quan đn ni dung đ tài:
ánh giá các h thng tìm kim thông tin (information retrieval systems evaluation)


Lnh vc áp dng:
ánh giá các h thng tìm kim thông tin ting Vit.






Các thut toán, phng pháp, quy trình chính đc nghiên cu, ng dng trong đ tài
_ Tìm hiu v tìm kim thông tin (information retrieval), đánh giá các h thng tìm kim
thông tin (information retrieval systems evaluation)
_ Tìm hiu cu trúc ca b ng liu, phng pháp xây dng b ng liu ca TREC (Text

REtrieval Conference)
_ Tìm hiu và s dng các h thng tìm kim : SMART, IOTA ,Lucene,Terrier…
_ Xây dng b ng liu kim tra bng ting Vit

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 4
_ Xây dng mt h chng trình phc v vic kim tra và đánh giá các h thng tìm
kim thông tin. Chng trình phi chy đc trên hai h điu hành : Windows và Linux,
chng trình vit bng ngôn ng Java


Các công c, công ngh chính đc nghiên cu, ng dng trong đ tài
Borland Jbuider X

Visual Studio . NET
Microsoft Visio 2003
Rational Rose
Microsoft Word, Power Point



Xác nhn ca GVHD
















Lun vn : ánh giá các h thng tìm kim thông tin
Trang 5



Li cám n
   

Chúng em xin chân thành cm n các Thy Cô Khoa Công ngh Thông tin đã
hng dn và ging dy rt nhit tình cho chúng em trong sut bn nm hc 
Trng i hc Khoa hc T nhiên. Nhng kin thc mà chúng em đã hc đc
trên ging đng s là hành trang quý báu trên bc đng đi ca chúng em.
Chúng em xin cm n Thy H Bo Quc đã to c h
i cho chúng em đc
nghiên cu hc hi v lnh vc tìm kim thông tin bng Ting Vit, mt lnh vc
tng đi mi và hp dn  Vit Nam . Mt ln na chúng em xin cm n Thy vì
Thy đã tn tình hng dn chúng em đ tài lun vn “Xây dng b ng liu dùng
đ đánh giá bng ting Vit và chng trình tr giúp đánh giá các h th
ng tìm
kim thông tin”.
Chúng em xin cm n gia đình, các anh ch, bn bè đã đng viên, giúp đ
chúng em đ hoàn thành tt đ tài lun vn này.
Nhóm sinh viên thc hin

Tsàn Qu Hng – Võ H Bo Khanh













Lun vn : ánh giá các h thng tìm kim thông tin
Trang 6
MC LC

M U 10
Chng 1 : TNG QUAN 13
1.1. Tng quan v tìm kim thông tin và h thng tìm kim thông tin 13
1.2. Tng quan v đánh giá các h thng tìm kim thông tin 14
1.2.1. Lý do đ tin hành đánh giá các h thng tìm kim thông tin 14
1.2.2. Các tiêu chun đc dùng đ đánh giá 15
1.2.3. Các mô hình đánh giá 15
1.2.4. Các đ đo dùng đ đánh giá 18
1.2.5. Các phng pháp xây dng b ng liu dùng đ đánh giá 18
1.2.6. Phng pháp xây dng b ng liu đc chn 20
1.2.7. Phng pháp đánh giá tm quan trng ca kt qu tr v 21
Chng 2 : C S LÝ THUYT 22

2.1. Tìm kim thông tin và các h thng tìm kim thông tin 22
2.1.1. Lch s tìm kim thông tin và h thng tìm kim thông tin 22
2.1.2. H thng tìm kim thông tin 25
2.1.2.1. Khái nim v h thng tìm kim thông tin 25
2.1.2.2. Cách thc hot đng ca h thng tìm kim thông tin 25
2.1.2.3. Các phng tin tìm kim thông tin (Search Engines) 27
2.1.3. So sánh tìm kim thông tin c đin và tìm kim thông tin trên Web 29
2.1.4. So sánh tìm kim thông tin vi tìm kim d liu 30
2.1.5. Công thc tru tng trong tìm kim thông tin 31
2.1.6. Các mô hình tìm kim thông tin c đin đ sp th t liên quan 32
2.1.6.1. Mô hình i s Bool 32
2.1.6.2. Mô hình không gian vec-t 33
2.2. ánh giá các h thng tìm kim thông tin 36
2.2.1. Nn tng đánh giá các h thng tìm kim thông tin 36
2.2.2. Mô hình đánh giá hng h thng 37
2.2.2.1. T Cranfield đn TREC 37
2.2.2.2. Th tc đánh giá 39
2.2.2.3. ánh giá s liên quan 40
2.2.3. Thc hin đo kh nng tìm kim 41
2.2.3.1. Các khái nim v đ đo và liên quan 41
2.2.3.2. Cách tính đ bao ph (R) và đ chính xác (P) 42
2.2.3.3. Phng pháp tính đ chính xác da trên 11 đim chun ca đ bao ph 44
2.2.3.3.1.  th biu din hiu sut thc thi h thng tìm kim 44
2.2.3.3.2. ng cong đ bao ph và đ chính xác RP 45
2.2.3.3.3. ng cong RP cho tp truy vn 47
2.2.3.3.4. ánh giá h thng tìm kim thông tin da vào đ th 48
2.2.3.4. S liên quan gia câu hi và tài liu 49
2.2.3.4.1. Các đ liên quan 49
2.2.3.4.2. Các vn đ v đ liên quan 49
2.2.3.4.3. ánh giá vi đ liên quan nhiu cp đ 51

2.2.3.4.4. Phng pháp đo đ bao ph (R), đ chính xác (P) da trên đ liên
quan nhiu cp đ 53

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 7
2.2.4. TREC và đánh giá theo chun TREC 54
2.2.4.1. TREC là gì? 54
2.2.4.2. Cách xây dng ng liu ca TREC 56
2.2.4.2.1. Xây dng tp hp các tài liu 57
2.2.4.2.2. Xây dng các ch đ 57
2.2.4.2.3. Xây dng bng đánh giá liên quan chun 58
2.3. Ng liu ting Vit 59
2.3.1. T 60
2.3.1.1. Quan nim v t 60
2.3.1.2. Quan nim v hình v 61
2.3.1.3. Khái nim v cu to t 61
2.3.2. Ranh gii t 62
Chng 3 : THIT K VÀ CÀI T 63
3.1. Xây dng b ng liu dùng đ đánh giá 63
3.1.1. Xây dng kho ng liu bng ting Vit 63
3.1.1.1. Chun hóa ng liu 63
3.1.1.1.1. Chun hóa dng ng liu 63
3.1.1.1.2. nh dng ng liu 64
3.1.2. Xây dng tp câu hi bng ting Vit 64
3.1.3. Tách t ting Vit 65
3.1.4. Xây dng bng đánh giá 65
3.1.4.1. H thng SMART 66
3.1.4.1.1. Gii thiu h thng SMART 66
3.1.4.1.2. Quá trình tìm kim thông tin ca SMART 66
3.1.4.1.3. Mô hình vec-t ca h thng SMART 67

3.1.4.1.4. S dng mô hình vec-t 69
3.1.4.2. H thng Search4Vn 73
3.1.4.3. H thng TERRIER 73
3.1.4.4. H thng X-IOTA 74
3.1.4.5. H thng LUCENE 74
3.2. Phân tích h thng đánh giá các h thng tìm kim thông tin 74
3.2.1. Mô t h thng tr giúp đánh giá 74
3.2.1.1. Phát biu bài toán 74
3.2.1.2. Mc tiêu 75
3.2.1.3. Phm vi 75
3.2.1.4. Chc nng 75
3.2.1.5. Tính kh dng 76
3.2.1.6. Hiu sut 76
3.2.1.7. Tính bo mt 76
3.2.2. Phân tích h thng đánh giá 76
3.2.2.1. Chc nng ca h thng 76
3.2.2.2. Chc nng yêu cu 77
3.2.2.2.1. Chc nng đánh giá mt h thng IR 77
3.2.2.2.2. Chc nng so sánh nhiu h thng IR 77
3.2.2.2.3. S đ use case 77
3.2.2.2.4. S đ tun t hot đng usecase 79

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 8
3.3. Thit k h thng đánh giá 86
3.3.1. Các chc nng ca chng trình 86
3.3.1.1. Chc nng “nh dng c s d liu tài liu” 86
3.3.1.2. Chc nng “nh dng kt qu tr v” 86
3.3.1.3. Chc nng “nh dng file index” 87
3.3.1.4. Chc nng “Thc thi h thng IR” 87

3.3.1.5. Chc nng “X lý kt qu tr v” 87
3.3.1.6. Chc nng ”ánh giá mt h thng IR” 87
3.3.1.7. Chc nng “ánh giá nhiu h thng IR” 87
3.3.2. Thit k h thng 88
3.3.2.1. S đ kin trúc tng th 88
3.3.2.1.1. Danh sách các lp đi tng 88
3.3.2.1.2. Lp đi tng th hin 88
3.3.2.1.3. Lp đi tng x lý 91
3.3.2.1.4. Lp đi tng lu tr 99
3.3.2.2. S đ kin trúc tng quát cho tng chc nng ca chng trình 99
3.3.2.2.1. Chc nng “nh dng tài liu” 99
3.3.2.2.2. Chc nng “nh dng câu hi” 100
3.3.2.2.3. Chc nng “Thc thi h thng” 101
3.3.2.2.4. Chc nng “nh dng kt qu” 102
3.3.2.2.5. Chc nng “nh dng file index” 103
3.3.2.2.6. Chc nng “ánh giá và hin thi kt qu đánh giá” 103
3.3.2.2.7. Chc nng ”So sánh các h thng IR đã đc thc thi” 104
3.3.2.3. Thit k d liu – t chc lu tr 105
3.3.2.3.1. Mô hình d liu 105
3.3.2.3.2. S đ logic d liu 107
3.3.2.4. T chc lu tr d liu 110
3.3.2.4.1. System 110
3.3.2.4.2. Topic 112
3.3.2.4.3. Index_topic 113
3.3.2.4.4. Document 114
3.3.2.4.5. Index_Doc 115
3.3.2.4.6. relevant_TT 115
3.3.2.4.7. relevant_LT 116
3.3.2.4.8. evaluation 117
3.3.2.5. Thit k giao din 119

3.3.2.5.1. S đ liên h gia các màn hình 119
3.3.2.6. Thit k màn hình 122
3.3.2.6.1. Màn hình chính (TH_Main) 122
3.3.2.6.2. Màn hình đnh dng tài liu (TH_DDTaiLieu) 122
3.3.2.6.3. Màn hình to thuc tính cho tài liu (TH_TTTaiLieu) 124
3.3.2.6.4. Màn hình đnh dng câu hi (TH_DDCauHoi) 125
3.3.2.6.5. Màn hình to thuc tính cho câu hi (TH_TTCauHoi) 127
3.3.2.6.6. Màn hình x lý điu kin đ thc thi h thng IR 128
3.3.2.6.7. Màn hình thc thi h thng (TH_ThucThiHT) 129
3.3.2.6.8. Màn hình đnh dng kt qu (TH_DDKetQua) 130

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 9
3.3.2.6.9. Màn hình đnh dng thông tin index (TH_DDIndex) 131
3.3.2.6.10. Màn hình đánh giá h thng (TH_KqDanhGia) 133
3.3.2.6.11. Màn hình xem đ th ca h thng 136
3.3.2.6.12. Màn hình xem chi tit (TH_XemChiTiet) 136
3.3.2.6.13. Màn hình so sánh h thng (TH_SoSanhHT) 138
3.3.2.7. Thit k h thng lp đi tng 139
3.3.2.7.1. Các lp đi tng x lý 139
3.3.2.7.2. Các lp đi tng lu tr 169
Chng 4 : KT QU ÁNH GIÁ 171
4.1. Ngng đánh giá 171
4.2. ánh giá h thng tìm kim thông tin search4VN 171
4.3. So sánh h thng tìm kim search4VN và h thng Lucene 177
4.4. Nhn xét chng trình h tr đánh giá h thng tìm kim thông tin 179
4.4.1. u đim 179
4.4.2. Khuyt đim 179
Chng 5 : KT LUN 181
Chng 6 : HNG PHÁT TRIN 182

PH LC 183
Tài liu tham kho 186

























Lun vn : ánh giá các h thng tìm kim thông tin
Trang 10
M U

Tìm kim thông tin là nhu cu thit thc ca tt c mi ngi. c bit trong
bi cnh bùng n thông tin nh hin nay, gm có s ra đi ca internet và sáng
kin v th vin đin t, nhu cu tìm kim thông tin li càng phát trin. Nhng
nh có s tr giúp ca công ngh thông tin con ngi có th tha mãn nhu cu này
mt cách d dàng. Tht vy, có rt nhiu h
thng tìm kim thông tin
(Information Retrieval system hay IR system) trên máy tính đang tn ti đ tr
giúp con ngi. Tuy nhiên, kh nng tìm kim thông tin ca các h thng này
chc chn khác nhau. Do đó, vic đánh giá các h thng tìm kim thông tin
(Evaluation of Information Retrieval systems) là mt nhu cu không th thiu
nhm xác đnh các h thng tìm kim thông tin hiu qu. Vic đánh giá này có ý
ngha rt ln đi vi s tn ti và phát trin ca các h thng tìm kim thông tin.
Nó giúp xác đnh kh nng tìm kim ca các h thng tìm kim thông tin t đó mà
các t chc, công ty, trng hc to ra h thng này có th phát trin, thay đi h
th
ng đ đa ra kh nng tìm kim thông tin tt nht. Ngoài ra, vic xác đnh các
h thng tìm kim thông tin hiu qu rt hu ích đi vi ngi dùng, h s cm
thy tin tng vào kt qu tìm kim mà h thng tìm đc. Xa hn na, vic đánh
giá s to ra mt cuc cách mng trong lnh vc tìm kim thông tin; giúp đa tìm
kim thông tin vào trong th gii thc ca
đi sng. Chng hn, khi các h thng
tìm kim thông tin tin b chuyn t nghiên cu sang th gii thc ca cnh tranh
thng mi thì nhng nhà thit k, nhà phát trin, ngi bán hàng, và nhng đi
din bán hàng ca các sn phm thông tin mi nh sách đin t, và các phng
tin tìm kim (Search engines) … mun bit sn phm ca h có cung cp cho
nhng ngi s d
ng và ngi mua hàng tim nng các li th cnh tranh hay
không, s đc tha mãn nhu cu thông tin này mt cách d dàng, chính xác.
Kh nng tìm kim ca h thng tìm kim thông tin chúng tôi va đ cp
đc nghiên cu  nhiu cp đ: th nht là v kh nng x lý tc thi gian tìm

kim và không gian lu tr hay còn gi là hiu nng; th hai là v kh nng tìm

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 11
kim hay hiu qu ca kt qu tr v; th ba là kh nng v h thng tc h thng
có tha mãn nhu cu thông tin ca ngi dùng hay không.
Hin nay, trên th gii đã có rt nhiu h thng đánh giá các h thng tìm kim
thông tin nhng ch yu là đánh giá các h thng tìm kim thông tin ting Anh,
ting Pháp. i vi ting Vit, theo chúng tôi đc bit, ch
a có mt h thng nào
đc dùng đ đánh giá các h thng tìm kim thông tin ting Vit. Nhng theo xu
hng phát trin ca đt nc và nhu cu tìm kim thông tin thì các h thng tìm
kim thông tin ting Vit bt buc phi tn ti và phát trin. Vì vy, Vit Nam
chúng ta rt cn các h thng đc dùng đ đánh giá hiu nng, hiu qu ca các
h thng tìm kim thông tin ti
ng Vit.
Do ý ngha to ln ca lnh vc nghiên cu đánh giá này, chúng tôi đã quyt
đnh chn đ tài đánh giá các h thng tìm kim thông tin. Chúng tôi ngh rng h
thng đánh giá ca chúng tôi s là c s đ đánh giá tt c các h thng tìm kim
thông tin, nht là h thng tìm kim thông tin ting Vit. Chúng tôi cng hy vng
h thng ca chúng tôi s góp phn vào s phát trin c
a các h thng tìm kim
thông tin, ca tìm kim thông tin và ca công ngh thông tin nc ta.
Thc hin đánh giá kh nng tìm kim, chúng tôi tp trung vào đánh giá hiu
qu ca kt qu tìm kim đc tr v (cp đ th hai trong kh nng tìm kim ca
h thng thông tin  trên). Hiu qu ca kt qu tr v đc đnh ngha là kh
nng h
 thng tìm kim thông tin tìm đc các tài liu liên quan (Relevant
Documents) và loi b đi nhng tài liu không liên quan (Irrelevant
Documents

). ây là mô hình hng h thng trong nghiên cu tìm kim thông tin.
Mô hình này mô hình đánh giá đc s dng nhiu nht và hiu qu nht trên th
gii.
Và đ xây dng h thng đánh giá các h thng tìm kim thông tin ting Vit
theo mô hình hng h thng, trc ht, chúng tôi cn phi xây dng b ng liu
dùng đ đánh giá bng ting Vit
(a Vietnamese Test collection). B ng liu
dùng đ đánh giá gm có kho ng liu mu bng ting Vit (a Vietnamese

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 12
Corpus hay a set of Vietnamese documents), tp câu truy vn mu bng ting
Vit (a set of Vietnamese queries), và bng đánh giá liên quan chun
(Relevance Judgment). Chúng tôi tìm hiu và thc hin xây dng b ng liu
dùng đ đánh giá theo tiêu chun ca Hi ngh v Tìm kim thông tin Vn bn
(Text REtrieval Conference hay TREC) ca Hoa K, mt trong nhng Hi ngh
hàng đu trên th gii v Tìm kim Thông tin.
Tip theo, chúng tôi xây dng chng trình tr giúp đánh giá các h thng tìm
kim thông tin, cho phép ngi dùng thao tác, thc hin đánh giá các h thng mt
cách d dàng. Kt qu tr v ca chng trình đánh giá có đc da vào b ng
liu mu đc dùng đánh giá. Kt qu tr v này gm có k
t qu truy vn ca h
thng tìm kim thông tin và kt qu đánh giá. Kt qu đánh giá đc tính da trên
s kt hp ca hai đ đo: đ bao ph (Recall) và đ chính xác (Precision). T
kt qu tr v, chúng ta có th bit đc kh nng tìm kim ca riêng tng h
thng tìm kim thông tin và so sánh kh nng ca các h thng tìm kim vi nhau.
















Lun vn : ánh giá các h thng tìm kim thông tin
Trang 13
Chng 1 : TNG QUAN
1.1. Tng quan v tìm kim thông tin và h thng tìm kim thông tin
Tìm kim thông tin liên quan đn vic biu din, lu tr, t chc và tip cn
các yu t thông tin (mt tài liu có th có mt hoc nhiu yu t thông tin) [
1
].
Theo lý thuyt, không có gii hn v các loi yu t thông tin trong tìm kim
thông tin. Trên thc t, các loi yu t thông tin ngày càng tr nên đa dng cùng
vi s phát trin ca xã hi. Ngoài ra, mt tp hp các yu t thông tin đc gi là
hu dng khi và ch khi nó đy đ và luôn đc cp nht. y đ  đây có ngha
là tp hp này phi cha mt t l
ln các yu t thông tin đc xem là có kh
nng liên quan đn các lnh vc xác đnh. Hn na, vic biu din và t chc các
yu t thông tin nên cung cp cho ngi dùng cách truy cp d dàng nht đn
thông tin mà ngi đó quan tâm. Nhng không may là tính cht ca nhu cu thông
tin ngi dùng không phi đn gin. Chúng ta xem xét mt ví d v mt nhu cu
thông tin hin nhiên ca ngi s dng trong ng cnh tìm ki

m World Wide Web
hay ch là Web:
Tìm tt c các trang hay tài liu cha thông tin v bnh ung th phi và nguyên
nhân dn đn ung th phi, các tài liu đc xem là liên quan phi va nói đn các
triu chng ung th phi, va nói đn nguyên nhân dn đn cn bnh này gm c
tác hi ca vic hút thuc và ô nhim môi trng.
T ví d trên, chúng ta thy rõ ràng là s mô t đy đ nhu cu thông tin ngi
dùng không th đ
c s dng trc tip đ tìm kim trên bình din ca các phng
tin tìm kim Web (Web Search Engine) hay h thng tìm kim thông tin (IR
system) hin nay. Thay vào đó, ngi s dng phi dch nhu cu thông tin ca
mình sang mt câu truy vn có th đc x lý bng phng tin tìm kim hay h
thng tìm kim thông tin. iu này to ra mt tp các t khóa tóm tt mô t nhu
cu thông tin ngi dùng hay còn gi là câu truy vn. Da trên câu truy vn ca
ngi s dng, mc đích chính ca h thng tìm ki
m thông tin là tìm kim các
thông tin hu ích hay liên quan cho ngi s dng.

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 14
Vy có th nói mt cách tng quát, h thng tìm kim thông tin là mt h
thng cho phép ngi s dng tìm kim tài liu đ tha mãn nhu cu thông tin t
mt kho ng liu ln.
 tìm kim thông tin, h thng tìm kim phi thc hin các công vic sau.
Trc ht, h thng tìm kim x lý tài liu thô thành nhng tài liu đc tách t,
phân đon
(tokenized documents) và sau đó lp ch mc (index) da trên v trí
ca t. Khi ngi dùng đa vào câu truy vn, h thng tìm kim thông tin cng s
x lý các câu truy vn thành ngôn ng ch mc mô t các yu t thông tin cn tìm
kim và thc hin đi chiu vi ch mc tài liu đ tìm ra các tài liu liên quan.

Cui cùng, các tài liu liên quan s đc tr v cho ngi dùng theo mt danh
sách đc sp xp theo đ u tiên chính xác gim d
n (ranked list).
1.2. Tng quan v đánh giá các h thng tìm kim thông tin
1.2.1. Lý do đ tin hành đánh giá các h thng tìm kim thông tin
Khi nhu cu tìm kim thông tin phát trin, có rt nhiu mô hình, thut toán, h
thng tìm kim thông tin ra đi. Do đó, vic đánh giá các mô hình, thut toán, h
thng tìm kim thông tin là điu bt buc phi làm.
Chúng ta so sánh mt h thng (có th là mt h thng mi) vi các h thng
khác đã tn ti v phng din: tính hiu qu, chi phí, thi gian , tc đ x lý…
H thng tìm kim thông tin thng thc hin hai quá trình: quá trình lp ch
mc và quá trình tìm kim. Mi mt quá trình s có nhiu phng pháp đ thc
hin, đánh giá h thng cng có th dùng đ xác đnh tính ti u ca các phng
pháp trên.
Lý do khác đ tin hành đánh giá là đ so sánh các thành phn ca h thng.
Do h
 thng gm nhiu thành phn, đánh giá h thng đ xác đnh cách mi thành
phn ca h thng thc thi đ khi có s thay đi mt thành phn bi mt thành
phn khác thì s thay đi đó nh hng đn h thng nh th nào, t đó ta có th
quyt đnh có nên thay đi thành phn đó không.

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 15
ánh giá đ tìm kim thành phn nào là tt nht cho hàm xp th t (dot-
product, cosine…); thành phn nào là tt nht cho la chn thut ng (loi b
stopword, phng pháp ly gc t stemming …); thành phn nào là tt nht trong
la chn phng pháp đánh giá thut ng (term weighting) nh TF, IDF … (các
thành phn này s đc nói rõ hn trong chng sau).
So sánh đ bit ngi s dng cn danh sách các tài liu tr v (ranked list) dài
c bao nhiêu đ

h có th nhìn d dàng nht. ánh giá đ bit h thng nào tht s
tt, ngi dùng có th tin tng kt qu tr v đc.
1.2.2. Các tiêu chun đc dùng đ đánh giá
Hin nay, trên th gii có ba tiêu chun đc dùng đ đánh giá h thng tìm
kim thông tin. Th nht là tiêu chun v tính hiu qu tc s chính xác, tính đy
đ ca kt qu tr v
 so vi mc đích tìm kim ca ngi s dng, và giá tr vn
có th đoán đc trong các tình hung khác có ngha là khi đa vào các câu truy
vn khác, tp tài liu khác thì h thng vn có th tìm ra kt qu chính xác. Th
hai là tiêu chun v hiu nng, gm có tc đ tìm kim ca thut toán, kh nng
lu tr, thi gian tr v cho ngi s dng, thi gian l
p ch mc, kích thc ch
mc… Th ba là tiêu chun v kh nng s dng h thng tc là có th nghiên
cu, hc hi trên h thng tìm kim, ngi không bit tin hc hay các chuyên gia
tin hc đi có th s dng h thng.
1.2.3. Các mô hình đánh giá
Theo chúng tôi đc bit, trên th gii có tt c bn mô hình đánh giá các h
thng tìm kim thông tin. Chúng bao gm : đánh giá hp kính,
đánh giá hp đen,
đánh giá hng h thng, đánh giá hng ngi dùng hay còn gi là đánh giá
nghiên cu ngi dùng [
2
].
ánh giá hp kính (glass box evaluation) : đánh giá h thng da trên
vic đánh giá tt c mi thành phn ca h thng. Có ngha là khi bit rõ
các thành phn ca h thng, chúng ta tin hành đánh giá các thành phn đó.

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 16
ánh giá hp đen (black box evaluation) : đánh giá h thng bng cách

xem h thng nh là mt thc th hp nht, không đánh giá chính xác các
thành phn bên trong h thng.
ánh giá hng h thng (system-oriented evaluation) là xu hng
đánh giá chính t khi các h thng tìm kim và lp ch mc t đng đc
phát trin vào nhng nm 1960. Mt trong nhng mc đích chính ca
hng đánh giá này là kim tra các h thng t đng cng nh các th tc
th công thc thi nh th nào. Ngoài ra, mô hình này còn đánh giá so sánh
các cách thc hin liên quan đn các ngôn ng ch mc, x lý tìm kim ca
h thng c
a các h thng khác nhau hay đánh giá so sánh các lc đ ch
mc t đng khác nhau. ánh giá hng h thng có mt đim li là điu
kin môi trng kim tra đc qun lý cht ch, s dng phng pháp đánh
giá theo lô hay còn gi là đánh giá da trên tp câu truy vn; có ngha là h
thng tìm kim thông tin ln lt thc hin các câu truy vn, tìm kim trên
tp d li
u đã đc xây dng và ghi li kt qu nhng tài liu nào liên quan
đn câu truy vn nào ri đem so sánh vi Bng ánh giá liên quan chun
(Relevance judgment) đã đc xây dng. Vi mi câu truy vn tính toán
đ chính xác và đ bao ph da trên kt qu tr v và bng đánh giá liên
quan chun đ nhn xét hiu qu tìm kim ca h thng tìm kim thông tin.
Hng đánh giá này đc thc hin rt ph bin  các d án, hi ngh v
nghiên cu h thng tìm kim thông tin nh:
Cranfield , MEDLARS,
SMART, STAIRS và TREC.
ánh giá hng ngi dùng (user studies evaluation): Hng nghiên
cu ngi dùng ra đi vào nhng nm 1970 khi mà nhiu h thng tìm
kim thông tin thng mi ra đi. Mc đích chính ca hng nghiên cu
này là nhm xác đnh cách thc tìm kim ca ngi s dng [
3
]. Hng

đánh giá này còn cho phép xem xét h thng  khía cnh ngi dùng; tc là
đánh giá v mt tng tác vi ngi s dng nh giao din ca h thng
tìm kim thông tin, thi gian h thng tìm kim đi vi mt câu truy vn,

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 17
mc đ hài lòng ca ngi s dng… Hng nghiên cu này cho rng nhu
cu ca ngi dùng đc tho mãn tng đng vi hiu qu ca h thng.
Ch khi nhu cu thông tin ngi dùng đc tha mãn, khi y tìm kim
thông tin mi đc gi là có ích. Hi ngh quc t v Tìm kim Thông tin
trong Ng cnh (Information Seeking in Context) đc t chc nh là
mt din đ
àn cho các nhà nghiên cu lnh vc này khám phá các phng
pháp và các kt qu nghiên cu. Mt hi ngh khác mi đc thành lp tên
là Nhóm Quan tâm c bit (Special Interest Group - SIG) đn tìm kim,
nhu cu và s dng thông tin ca Xã hi Hoa K v Khoa hc Thông tin
(American Society of Information Science). Nhng hi ngh này cng
tng t nh TREC trong vic c gng khuyn khích nghiên cu hng
ngi dùng, đ phát trin mi liên h gia các nhà nghiên cu trong k
thut, giáo dc và chính ph, và đ xác đnh, ci tin các k thut tìm kim
thích hp. Nhng các hi ngh
này khác nhau  ch các hi ngh mi cha
có phng pháp lun đánh giá chun nào đc xúc tin. ánh giá hng
ngi dùng có đóng góp rt ln đn lnh vc tìm kim thông tin. óng góp
này gm có vic xác đnh cách thc tìm kim thông tin ca con ngi, ni
lin khong cách gia nhu cu thông tin gia các cá nhân và các h thng
tìm kim thông tin, dn đn mt th h mi ca các h th
ng tìm kim
thông tin bao gm các giao din đ ho máy tính-ngi s dng.
Hin nay, trong s bn mô hình trên thì hai mô hình đánh giá hng h thng

và hng ngi dùng đang đc s dng chính và rng rãi nht. Trong phm vi đ
tài ca chúng tôi, chúng tôi ch s dng mô hình đánh giá hng h thng vì mô
hình đánh giá hng ngi dùng cn có s hp tác ca rt nhiu ngi dùng đ
ly thông tin phn hi sau khi s
 dng h thng tìm kim thông tin đó hoc cn
phi tham gia trao đi v hiu nng tìm kim ti các hi ngh. Nhng các hi ngh
dành cho mô hình đánh giá hng ngi dùng đa s cha có mt phng pháp
lun c th nào dùng đ đánh giá. Ngoài ra, vi mô hình hng h thng, chúng

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 18
tôi có th xây dng ng dng đ đánh giá nhiu h thng tìm kim thông tin mt
cách t đng.
1.2.4. Các đ đo dùng đ đánh giá
 bao ph (Recall) và đ chính xác (Precision) là 2 đn v đo c bn nht
đ đánh giá cht lng mt h thng tìm kim thông tin [
4
].  bao ph là t l
gia các tài liu liên quan đc tr v trên tng s các tài liu liên quan tht s.
Trong khi đó, đ chính xác là t l gia các tài liu liên quan đc tr v trên tng
s tài liu đc tr v.
Có nhiu phng pháp s dng mt hoc các đ đo này đ tính toán đánh giá,
chng hn phng pháp  chính xác trung bình (Mean Average Precision –
MAP) ch s dng đ chính xác, không quan tâm
đn đ bao ph. Phng pháp đo
da trên giá tr đn Swet’s E-Measure hoc chiu dài tìm kim trung bình thì cng
ch s dng mt giá tr đ tính toán. Phng pháp tính đ chính xác da trên 11
đim chun ca đ bao ph s dng c hai đ đo đ bao ph và đ chính xác.
Chúng tôi thc hin đánh giá theo phng pháp tính đ chính xác da trên 11
đim chun ca đ bao ph bi vì phng pháp này khá

đn gin, d thc hin
tính toán, đo và đánh giá. Ngoài ra, phng pháp này trc quan vi cách biu din
đ th ca các đim bao ph, chính xác t đó d dàng thy hiu qu tìm kim ca
riêng tng h thng và so sánh các h thng đánh giá vi nhau.
1.2.5. Các phng pháp xây dng b ng liu dùng đ đánh giá
Theo mô hình hng h thng,
trc ht phi xây dng b ng liu dùng đ
đánh giá (test collection). B ng liu dùng đ đánh giá gm có tp các tài liu
mu, tp câu truy vn mu, và bng đánh giá liên quan chun.
• Tp tài liu dùng đ đánh giá đc thu thp t các ngun khác nhau, gm
nhiu ch đ khác nhau. Tp tài liu này phi là nhng tài liu mu bao
quát càng nhiu lnh vc càng tt, phn ánh đc các vn đ đa dng khác
nhau, các phong cách vn chng khác nhau … i
u này có ngha là tp

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 19
tài liu mu này phi có kích thc ln, vì vy tp tài liu này còn đc gi
là kho ng liu mu.
• Tp câu truy vn mu là nhng câu hi đc to ra phù hp vi tp tài liu
mu. Tp câu truy vn này sau đó s đc s dng đ tìm kim.
• Bng đánh giá liên quan chun là bng cha thông tin v s th t câu hi
và các tài liu liên quan th
t s ca câu hi đó. Bng ánh giá liên quan
chun đc dùng nh là bng đi chiu đ tính đ bao ph và đ chính xác.
Có nhiu cách khác nhau đ to bng đánh giá liên quan chun hay bng
Relevance judgment. Các phng pháp này gm có:
 Phng pháp đánh giá toàn b, phng pháp này thng không kh
thi vì t l tp câu hi*tp tài liu là quá ln. Phng pháp này rt tn
chi phí.

 Phng pháp Pooling hay còn gi là ph
ng pháp ly mt s tài liu
liên quan nht đ làm bng đánh giá liên quan chun. Phng pháp này
s dng tt cho đánh giá nhiu h thng tìm kim thông tin. Phng
pháp này đòi hi phi có mt s đa dng các h thng tìm kim thông
tin. Bc đu tiên ca phng pháp này là tìm thy các tài liu liên
quan cho mi h thng. Các h thng khác nhau tìm thy các tài liu
liên quan khác nhau. Bc tip theo là tng hp các k
t qu ca tt c
các h thng li và ly phn giao ca các bng đánh giá liên quan ca
các h thng. Nhng phn giao này có th ch là mt s lng nht đnh
các tài liu gn nh chính xác nht. Vic đánh giá da trên phng pháp
này tht s khách quan khi đánh giá các h thng không đc chn đ
giao ly bng ánh giá liên quan chun.
 Phng pháp đánh giá h
ng dn ch tìm kim thnh thong cho kt
qu tt. Phng pháp này cho phép tng tác gia nghiên cu truy vn,
tìm kim, đánh giá. Tng cng thêm bng cách xem li, điu chnh,
đánh giá li. Nói chung, khi s dng phng pháp này, ngi đánh giá

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 20
phi thao tác bng tay rt nhiu, xem các tài liu tr v có tht s là liên
quan hay cha đ đa vào bng ánh giá liên quan chun.
 Các đánh giá da trên nhng thành phn đã bit, phng pháp này
tn ít chi phí nht. Phng pháp này cho phép thay đi câu hi đ tìm ra
mt tài liu đã bit.
1.2.6. Phng pháp xây dng b ng liu đc chn
K t nm 1992, khi Hi ngh v Tìm ki
m thông tin Vn bn (Text REtrieval

Conference hay TREC) ca Hoa K ra đi, mô hình hng h thng mi tht s
phát trin. Bi vì hng nm, TREC t chc hi ngh đ kêu gi tham gia đánh giá
các h thng tìm kim thông tin, đc bit kêu gi đánh giá theo mô hình hng h
thng. Nh đó mà mi nm khi lng, kích thc b ng liu dùng đ đánh giá
tng lên rt đáng k
cùng vi s phát trin v s lng các t chc, trng i hc
tham gia TREC. TREC đc xem là Hi ngh ln nht th gii v đánh giá các h
thng tìm kim thông tin và là mt trong nhng Hi ngh có uy tín trong lnh vc
tìm kim thông tin. TREC xây dng bng đánh giá liên quan chun theo phng
pháp Pooling. TREC còn đa ra các tiêu chun, đnh dng cho ng liu rt rõ ràng,
và d tuân theo.
Vì vy, chúng tôi quyt đnh chn ph
ng pháp xây dng ng liu theo tiêu
chun và cách làm ca TREC. Chúng tôi đnh dng câu hi và tài liu theo tiêu
chun đnh dng mà TREC đa ra, đng thi làm bng đánh giá liên quan chun
theo phng pháp Pooling hay phng pháp ly mt s tài liu liên quan nht đ
làm bng ánh giá liên quan ging TREC vì cách to bng đánh giá khách quan
mà nó mang li và không phi tn nhiu thi gian, chi phí.
Tuy nhiên, đi vi ting Vit, vic xây dng b ng liu đ
ánh giá phc tp hn
là xây dng b ng liu ting Anh, ting Pháp trong trng hp dùng các h thng
tìm kim ph bin, ni ting sn có cho ting Anh, Pháp đ tìm kim thông tin
ting Vit. Bi vì đc thù loi hình ngôn ng khác nhau gia ting Anh, Pháp và
ting Vit. Chng hn, trong ting Anh, Pháp mi t là mt t đn, cách nhau bi

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 21
mt khong trng nhng ting Vit thì hoàn toàn khác, mt t có th gm t mt
t đn tr lên. Do đó, đ nhng h thng tìm kim thông tin, ng liu phi đc
chun hóa v ging vi tiêu chun ng liu dùng đ tìm kim ca h thng đó.

Nhng cng chính điu này làm cho ng liu ca chúng tôi có th đc s d
ng
linh hot đ đánh giá nhiu h thng tìm kim thông tin cho nhiu th ting khác
nhau. iu này còn có ý ngha rt ln trong tìm kim thông tin vì chúng ta có th
s dng h thng tìm kim hiu qu ca nc ngoài đ tìm kim thông tin ting
Vit.
1.2.7. Phng pháp đánh giá tm quan trng ca kt qu tr v
Các đ đo thc hin toàn b h thng tìm kim ch
 yu đc ly trung bình
trên tp câu hi. Vì tính cht bin đi ca các câu hi là rt ln, và s thay đi ca
các đ đo tính toán là rt cao, nên đòi hi mt phng pháp phân tích thng kê
thích hp đ đánh giá xem s khác bit đc đo gia các h thng có phi là có ý
ngha thng kê đn mt đ tin cy nht đnh không. Vì vy, phng pháp đánh giá
tm quan trng c
a kt qu tr v đc s dng là phng pháp thng kê.














Lun vn : ánh giá các h thng tìm kim thông tin

Trang 22
Chng 2 : C S LÝ THUYT
2.1. Tìm kim thông tin và các h thng tìm kim thông tin
2.1.1. Lch s tìm kim thông tin và h thng tìm kim thông tin
Tìm kim thông tin có mt lch s lâu đi gn lin vi các th vin và trung
tâm tìm kim thông tin. Trc đây, khi mà máy tính và internet cha ra đi, nhng
ngi có nhu cu thông tin ngoài vic nh s tr giúp thông tin t bn bè, ngi
thân còn có th tìm đn th vin hoc các trung tâm thông tin đ tìm kim thông
tin cn thit. Cách biu din, lu tr, t chc và ph bin thông tin ca th vin
đc xem là cách làm truyn thng ca mt h thng tìm kim thông tin. Th vin,
khi tip nhn các yu t thông tin hay tài liu mi, trc ht là phân tích yu t
thông tin đó. Sau đó, nhng mô t thích hp s đc chn ra đ mô t, phn ánh
ni dung ca yu t thông tin đó. Da trên nhng mô t này, mi yu t
 thông tin
s đc phân loi theo nhng th tc đã đc thit lp ri sáp nhp vào tp hp
các yu t thông tin đã tn ti. Các th tc này đc to ra đ h thng hóa các
yêu cu (các yêu cu đc thit k đ thay th cho mt nhu cu thông tin ) và đ
so sánh nhng yêu cu, truy vn đó vi mô t ca các yu t thông tin đã lu tr
.
Vic so sánh này chính là c s đ quyt đnh các yu t thông tin thích hp vi
câu truy vn tng ng. Cui cùng, mt c ch tìm kim và ph bin thông tin s
đc dùng đ tr các yu t thông tin cn thit đn ngi s dng h thng.
Tuy nhiên, chúng ta phi xem xét vn đ ny sinh v v trí tht s ca mt yu
t thông tin mi đc thêm vào trong t
p hp tài liu. Có nhiu c ch tip cn
khác nhau đ gii quyt vn đ này nhng chúng đu liên quan đn cách t chc
vt lý hoc lun lý các yu t thông tin. Trong th vin, cách t chc vt lý chính
là vic lp ch mc cho tài liu, tc là s sp xp các con s ca các quyn sách,
cách đánh s thng đc quy đnh bi các th vin l
n. Nhng quyn sách s

đc đt vào nhng v trí xác đnh da vào nhng con s này. Ngoài ra, cách t
chc lun lý d liu phi đc thêm vào vi cách t chc vt lý đ giúp ngi s

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 23
dng tìm kim thông tin d dàng hn. Chng hn, nhng quyn sách n bn v tìm
kim thông tin có th đc xác đnh bng cách nhìn vào danh mc các ch đ ca
th vin vi thut ng cn tìm là “tìm kim thông tin”. Mt khi ta tìm thy thut
ng thích hp, các th s k tip nhau s xác đnh nhng quyn sách liên quan đn
ch đ đang tìm kim. Nhng quyn sách này ph thu
c vào các con s và chúng
s đc tìm thy ti nhng v trí xác đnh. Bên cnh đó, mi khi mun thay đi
thut ng ch đ ca sách, chúng ta không cn thay đi v trí ca sách trên k
sách; tc là, các yu t thông tin có th đc t chc lun lý li bng cách thay đi
danh mc th vin mà không cn thay đi sp xp vt lý.
Xã hi ngày càng phát trin do đó thông tin rt đa d
ng phong phú, bài toán đt
ra là chúng ta phi làm sao đ qun lý đc s lng thông tin khng l mt cách
có hiu qu. T đó dn đn nhu cu làm gim mt lng các yu t thông tin đn
mt kích thc có th qun lý, các yu t thông tin còn li đc xem là có liên
quan nhiu nht đn lnh vc tìm kim. Mt khác, chúng ta rt khó d đoán mu,
trng thái phát trin tng lai ca thông tin, hoc n
u có th d đoán thì t l ri ro
rt cao. Khó khn tip theo trong vic t chc thông tin hiu qu là c mun gi
nhng yu t liên quan gn nhau. Ví d, nhng ch đ liên quan đn nhiu lnh
vc nh phân tích h thng (nó liên quan đn khoa hc máy tính, vn trù hc, k
thut hc, khoa hc qun lý, giáo dc và các h thng thông tin) không th đ gn
nhau
đc mà phi đ riêng ra theo tng lnh vc : đây là mt khó khn. Còn rt
nhiu khó khn na, chng hn các khó khn trong phân loi, so sánh tài liu, yu

t thông tin; lp ch mc, đánh s cho tài liu. Và nhng khó khn này s không
đc gii quyt nu không có s ra đi ca máy tính. Qu tht, nh có máy tính
mà vic lu tr, tìm kim thông tin tr nên d dàng hn. Máy tính có th thao tác
trên tt c
các loi thông tin và có th lu tr mt cách nhanh chóng mt s lng
thông tin khng l. Ngoài ra, c ch tìm kim thông tin trên máy tính có th rt
nhanh chóng và hiu qu tùy thuc mô hình cài đt, thut toán ca c ch đó. C
ch tìm kim này cng khá ging vi c ch tìm kim thông tin ca th vin.
Trc ht, da trên ngôn ng ch mc và các yu t thông tin đi din cho ni

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 24
dung ca tài liu, tp tài liu s đc biu din di dng tp hp các ch mc đi
din cho tp tài liu đó. Trong khi đó, nhu cu tìm kim thông tin đc biu din
di dng câu truy vn có cu trúc hoc không cu trúc mà máy có th hiu đc.
Sau đó, máy s so sánh hai dng biu din trên, biu din tài liu và biu din câu
truy vn, đ bit đc tài li
u nào phù hp vi truy vn nào. Sau khi so sánh, máy
s đnh v đc v trí vt lý ca yu t thông tin cn tìm kim và ph bin nó đn
ngi s dng. ây là c ch tìm kim chung cho mi h thng tìm kim thông tin.
Tuy nhiên, cách đây không quá 20 nm, sau khi máy tính ra đi, các h thng
tìm kim thông tin ch yu đc s dng trong phòng thí nghim đ tìm kim mt
kho ng liu sách và tài liu. Mc dù chúng không bao hàm các ph
ng pháp toán
phc tp, nhng khi Internet phát trin thì k thut tìm kim ch yu trên World
Wide Web chính là các k thut tìm kim thông tin. Qu tht, các h thng tìm
kim thông tin ngày càng phát trin v thut toán, k thut tìm kim thông tin nh
có s ra đi ca Internet. Vì nhu cu tìm kim thông tin ca con ngi trên
Internet là mt nhu cu ph bin, thit thc, không th thiu nên các nhà phát trin
h thng tìm kim thông tin cng phi n l

c đ mang li hiu nng, hiu qu cho
ngi s dng.
Chúng ta thy rõ ràng là nghiên cu tìm kim thông tin có truyn thng tp
trung vào tìm kim thông tin dng vn bn
(Text Retrieval) hay tài liu vn
bn
(Document Retrieval). Trong mt thi gian dài, tìm kim thông tin gn nh
đng ngha vi tìm kim tài liu hay tìm kim vn bn. Trong thi gian gn đây,
các vin cnh ng dng mi nh ng dng tr li câu hi (question answering),
ng dng nhn dng ch đ (topic detection), hay ng dng lu vt (tracking)
tr thành các lnh vc hot đng mnh m trong nghiên cu tìm kim thông tin.
Càng ngày ranh gii gia cng đng tìm kim thông tin hay cng đng tìm kim
thông tin và các cng đng nghiên cu x lý ngôn ng t nhiên, cng đng nghiên
cu c s d liu tr nên m nht khi các cng đng này cùng nhau phát trin các

Lun vn : ánh giá các h thng tìm kim thông tin
Trang 25
lnh vc quan tâm chung; ví d nh tr li câu hi, tóm tt và tìm kim thông tin
t các tài liu có cu trúc.
Mt lnh vc phát trin khác mà các k thut tìm kim thông tin đang k tc và
phát huy, đó là tìm kim thông tin không vn bn hay còn gi là tìm kim thông
tin đa phng tin. Loi hình tìm kim này s da trên rút trích t đng các phn
vn bn hay li nói ca các tài liu đa phng tin, sau đó đ
c x lý bi các k
thut tìm kim thông tin da vn bn (text-based IR techniques). Tuy nhiên,
ngi ta ngày càng quan tâm đn s phát trin các k thut phi bày c th thông
tin phng tin truyn thông ri tích hp chúng vi các phng pháp tìm kim đã
đc thit lp tt hn là cách rút trích chúng tôi đã trình bày.
Trong phm vi đ tài, chúng tôi ch gii hn tìm kim thông tin trên vn bn.
2.1.2. H thng tìm kim thông tin

2.1.2.1. Khái nim v h thng tìm kim thông tin
Theo lý thuyt, h thng tìm kim thông tin là mt h thng thông tin. Nó đc
s dng đ lu tr, x lý, tra cu, tìm kim, và ph bin các yu t thông tin đn
ngi s dng. H thng tìm kim thông tin thng thao tác vi các d liu dng
vn bn và không có s gii hn v các yu t thông tin trong vn bn.
H thng thông tin bao gm mt tp hp các yu t thông tin, mt tp các yêu
cu, và mt vài c ch
 tìm kim đ quyt đnh yu t thông tin nào liên quan đn
các yêu cu. Theo nguyên tc, mi quan h gia các câu truy vn và tài liu có
đc t s so sánh trc tip. Nhng trên thc t, s liên quan gia các câu truy
vn và tài liu xác đnh không phi đc quyt đnh trc tip; mà gián tip bng
cách : các tài liu, yu t thông tin phi chuyn sang ngôn ng ch mc trc khi
xác đnh mc đ liên quan.
2.1.2.2. Cách th
c hot đng ca h thng tìm kim thông tin
Hình 1 minh ha cu trúc, cách hot đng c bn ca mt h thng tìm kim
thông tin c đin.

×