Luận văn
Tìm kiếm ngữ nghĩa ứng
dụng trên lĩnh vực eDoc
1
LI CM N
u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin
trng i hc Khoa hc T nhiên ã tn tình dy d, dìu dt chúng em sut bn nm
i hc.
Chúng em cm n Cô Phm Th Bch Hu, ngi tn tình hng dn, giúp ,
ng viên chúng em hoàn thành lun vn này.
Cui cùng, chúng con cm n Ba, M và nhng ngi thân ã khích l, h tr,
ng viên chúng con trong thi gian hc tp, nghiên cu có c thành qu nh
ngày nay.
Tháng 7 nm 2005
Sinh viên
Phm Th M Phng – T Th Ngc Thanh
2
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 3 - 0112398 – T Th Ngc Thanh
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………
Ngày…… tháng……nm 2005
Ký tên
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 4 - 0112398 – T Th Ngc Thanh
MC LC
M U 10
Chng 1 : TNG QUAN 11
1.1. "t v#n 11
1.2. Bài toán gii quyt 13
1.3. Hng tip cn 14
Chng 2 : C S LÝ THUYT 17
2.1. Chin lc tìm kim thông tin c$a các b tìm kim (Search Engine) 17
2.1.1. Mt s search engine thông d!ng: 17
2.1.2. Chin lc tìm kim 32
Nguyên lý hot ng 34
2.2. Semantic Web 34
2.2.1. Khái nim 34
2.2.2. Kin trúc 36
2.2.3. Các thách thc "t ra cho Semantic web 37
2.2.4. So sánh web và web ng ngh a 41
2.2.5. Các khái nim liên quan 42
2.2.6. Ontology 44
2.2.7. Rdf 46
2.3. eDoc 55
2.3.1. Tìm hiu eLearning 55
2.3.2. Tìm hiu eLib 61
2.3.3. Tìm hiu eDoc 68
2.4. Mt s v#n trong x% lí ngôn ng t nhiên: 71
2.4.1. V#n trong vic x% lí vn bn: 72
2.4.2. V#n x% lí ng ngh a: 72
2.4.3. Phân loi vn bn (Text Classification) 82
Chng 3 : MÔ HÌNH VÀ GII THUT 84
3.1. Công ngh tìm kim ng ngh a trên th gii hin nay: 84
3.2. Các bc xây dng mt ng d!ng semantic search engine: 91
3.3.1. Xây dng kin trúc Web ng ngh a: 92
3.3.2. Lp ch& m!c ng ngh a tim tàng: 93
3.3. Mô hình ngh cho ng d!ng tìm kim ng ngh a trên l nh vc eDoc 96
3.4. Các gii thut s% d!ng 100
3.4.1. Gii thut x% lý tài liu: 100
3.4.2. Gii thut rút trích siêu d liu: 102
3.4.3. Gii thut phân loi l nh vc cho tài liu: 104
3.4.4. Gii thut x% lí câu truy v#n: 104
Chng 4 : CHNG TRÌNH NG DNG 105
4.1. Gii thiu chng trình ng d!ng: 105
4.2. Kin trúc c$a ng d!ng: 105
4.3. Mô t phm vi ng d!ng 107
4.3.1. Mô t bài toán: 107
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 5 - 0112398 – T Th Ngc Thanh
4.3.2. Xác nh yêu cu: 107
4.4. Xây dng ng d!ng: 108
4.4.1. Thit k d liu: 108
4.4.2. Thit k x% lý: 110
4.5. Kt qu chng trình 112
4.6. Thc nghim chng trình 114
Chng 5 : KT LUN 118
5.1. ánh giá kt qu nghiên cu 118
5.1.1. 'u im 118
5.1.2. Khuyt im: 119
5.2. Hng phát trin 119
TÀI LIU THAM KHO 120
I. Lun vn, lun án: 120
II. Sách, eBooks: 120
III. Website: 122
PH LC 124
1. Cú pháp RDF: 124
2. RDF Gateway: 129
2.1. Kin trúc c$a RDF Gateway: 130
2.2. Tính nng (Features) 132
3. H thng nhãn ng ngh a: 138
3.1. Nhãn ng ngh a c bn cho danh t: 139
3.2. Nhãn ng ngh a c bn cho ng t: 141
3.3. Nhãn ng ngh a c bn cho tính t: 142
3.4. H thng nhãn ng ngh a LDOCE 142
4. H c s tri thc ng ngh a t vng WordNet 144
4.1. H thng nhãn ng ngh a c$a danh t: 144
4.2. H thng nhãn ng ngh a c$a ng t: 149
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 6 - 0112398 – T Th Ngc Thanh
DANH MC CÁC BNG
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin 28
Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet 32
Bng 3 : Các lp trong RDF 54
Bng 4:Các thuc tính c a RDF 55
Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu 77
Bng 6 Mô t c s$ d% li&u cho 'ng dng 110
Bng 7 Các module c a chng trình 110
Bng 8 Module eDocSearch 111
Bng 9 Module eDocSearch 111
Bng 10 Các câu truy v(n th nghi&m 115
Bng 11 Thng kê l!nh v#c khoa h)c máy tính 116
Bng 12 Thng kê l!nh v#c ngh& thu*t. 116
Bng 13: Nhãn ng% ngh!a c bn cho danh t" 140
Bng 14: Nhãn ng% ngh!a c bn cho ng t" 142
Bng 15 : Nhãn ng% ngh!a c bn cho tính t" 142
Bng 16: H& thng nhãn ng% ngh!a LDOCE 144
Bng 17:S# phân lp danh t" trong WordNet 148
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 7 - 0112398 – T Th Ngc Thanh
DANH MC CÁC HÌNH
Hình 1: Giao di&n c a Google 18
Hình 2: Giao di&n c a Yahoo 19
Hình 3: Giao di&n c a Ask Jeeves 20
Hình 4: Giao di&n c a AllTheWeb 21
Hình 5: Giao di&n c a Teoma 22
Hình 6: Giao di&n HotBot 23
Hình 7: Giao di&n c a Altavista 24
Hình 8: Giao di&n c a Lycos 25
Hình 9: Kin trúc t+ng c a Semantic web 36
Hình 10: Mt Ontology n gin 46
Hình 11: Mô hình d% li&u RDF 51
Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc 71
Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a 76
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. 78
Hình 15: Dòng c s$ tìm kim Web 91
Hình 16: Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc 97
Hình 17: Qui trình x lý c a t+ng search engine 99
Hình 18: Gii thu*t x lý tài li&u: 100
Hình 19: Gii thu*t rút trích siêu d% li&u 103
Hình 20: S . d% li&u quan h& c a 'ng dng 108
Hình 21: Giao di&n chính c a 'ng dng 112
Hình 22: Giao di&n kt qu tìm kim c a 'ng dng 113
Hình 23: Giao di&n qun lí tài nguyên 113
Hình 24: Kin trúc c a RDF Gateway 130
Hình 25: Giao di&n c a RQF Query Analyzer 136
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 8 - 0112398 – T Th Ngc Thanh
DANH MC CÁC T/ VIT T0T
eDoc Electronic document
eLib Electronic library
eLearning Electronic learning
www World Wide Web
URI Uniform Resource Identifier
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
RDF Resources Descriprion Framework
OIL Ontology Inference Language
OWL Ontology Web Language
XML eXtensible Markup Language
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 9 - 0112398 – T Th Ngc Thanh
DANH MC CÁC THUT NG1
Class Lp
Property Thuc tính
Metadata Siêu d liu
Subject Ch$ , ch$ ng
Title Tiêu
Namespace Không gian tên
Predicate V ng
Triple B ba (subject, predicate, object)
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 10 - 0112398 – T Th Ngc Thanh
M( )U
Hin nay, hu ht các h thng tìm kim trên Internet u i theo hng truyn
thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào
t cn tìm, các h thng tìm kim s* hin th các tài liu mà trong nó có cha t khoá
cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài liu, mà có th các tài
liu này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h thng này
không a ra ht các tài liu cn thit, tc là tha tài liu không cn thit nhng li
thiu h+n nhng tài liu quan trng khác.
V#n "t ra là ta phi xây dng mt h thng tìm kim nh th nào khc
ph!c hin trng nêu trên ?
gii quyt v#n này, ta cn xây dng h thng tìm kim sao cho áp ng
y $ thông tin mà ngi dùng mong mun, ngh a là phi xây dng h thng tìm
kim theo ng ngh a da trên thông tin ngi dùng a vào.
T nhn thc trên chúng em quyt nh chn tài: Tìm kim ng% ngh!a 'ng
dng trên l!nh v#c eDoc (nhng tài liu in t% ting Anh) vi m!c ích tìm hiu và
xây dng mt công c! tìm kim theo ng ngh a có th tìm kim thông tin chính xác
và y $, có th hn ch c phn nào v#n tìm kim theo t khoá c$a các
search engine hin ti.
Các i tng nghiên cu liên quan n tài: eDoc, Semantic Web, RDF,
OWL, Metadata,….
Trong phm vi tài, vì thi gian thc hin ngn, nên chúng em ch& th% nghim
chng trình tìm kim trong mt s l nh vc: Khoa hc máy tính (Computer Science),
Ngh thut (Art). Hai l nh vc này có v, nh không liên h vi nhau nhng thc t
vn có nhng trng hp cn phi phân bit, ví d! nh tài liu v “ngh thut lp
trình” (“Art of programming”) thì phi phân tài liu v l nh vc khoa hc máy tính
ch không phi ngh thut …. Tóm li, ng d!ng mà chúng em xây dng ch& tìm kim
thông tin trong các l nh vc nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra
nhiu l nh vc còn li.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 11 - 0112398 – T Th Ngc Thanh
Chng 1 : TNG QUAN
1.1. t v(n
Nhu cu tìm kim, nm bt thông tin là mt nhu cu không th thiu trong i
sng c$a mi ngi. Khi vic s% d!ng World Wide Web ã tr nên ph. bin rng
khp, thì công vic c$a các search engine c/ng tr thành mt phn sng còn và có li
ích cho Web. Các công c! tìm kim tr thành nhng công c! công cng cho mi
ngi dùng c$a Internet; Google và Yahoo, c/ng tr thành nhng cái tên quen thuc.
Các công c! tìm kim hin nay da trên mt trong hai dng c$a công ngh tìm
kim Web: tìm kim do con ngi t ch& ng dn và tìm kim t ng.
Công c! tìm kim do con ngi ch& ng dn s% d!ng mt c s d liu c$a
các t khoá, các khái nim, và các tham chiu. Nhng công c! tìm kim theo t khoá
tr v mt dãy các trang, nhng phng pháp n gin này thng dn n hàng lot
các kt qu không liên quan và không xác thc. Hot ng c$a mt công c! tìm kim
da trên ni dung là: s* m s lng các t truy v#n ( các t khoá) so vi các t hin
din trong mi trang c cha trong ch& m!c c$a nó. Sau ó, công c! tìm kim này s*
sp xp các trang. Tip cn phc tp hn b0ng cách a các v trí c$a t khoá vào mt
mc quan trng c! th. Ví d!, các t khoá xu#t hin trong th, title c$a trang web thì
quan trng hn trong phn body. Các kiu khác c$a công c! tìm kim do ngi dùng
ch& ng dn, nh Yahoo, s% d!ng các lc 1 ch$ giúp ch& hng tìm kim và
tr v các kt qu có liên quan hn. Nhng lc 1 ch$ này do con ngi to ra.
Bi lí do này, chúng ta phi tn chi phí to ra và duy trì trong các t mang “ý ngh a
thi gian” (thay .i theo thi gian), và r1i thì không c cp nht thng xuyên nh
các h thng t ng.
Cách tip cn tìm theo t khoá vn còn mt s hn ch, iu này ã làm gim
i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng
hn: bank (ngân hàng), bank (b sông), …) ho"c các t có các bin th khác nhau do
có các tin t và hu t nh student và students; small, smaller, smallest; …. Ngoài ra,
các search engine không tr v các tài liu có các t 1ng ngh a vi các t trong câu
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 12 - 0112398 – T Th Ngc Thanh
truy v#n mà ngi dùng nhp vào. Key word không $ biu di-n chính xác nhu
cu c$a ngi dùng c/ng nh ni dung các trang web, hn ch này làm cho các search
engine tr v nhng tài liu không liên quan n v#n mà ngi dùng quan tâm. Bi
vì t*p hp các t" khóa là dng biu di-n s lc nh#t c$a ni dung, và do ó, cách
biu di-n này là mt dng góc nhìn lun lý (logical view) c$a ni dung mang m'c
thông tin th(p nh(t, ó chính là lý do c bn khin cho các Search Engine hin nay
có t2 l& s trang web h%u ích trên tng s trang web tr v th(p.
Google vi 400 triu tài liu thu v mi ngày và trên 8 t& trang web c lp ch&
m!c, và là công c! tìm kim thông d!ng nh#t c s% d!ng ngày nay, nhng thm chí
vi Google vn còn có nhiu v#n . Ví d!, b0ng cách nào bn tìm kim ch& vi mt
lng ít d liu mà bn cn trong mt bin kt qu không liên quan c a ra?
Khi công ngh trí tu nhân to (Artificial Intelligence_AI) phát trin mnh, thì
v#n "t ra là làm th nào a ra nhng phng pháp tìm kim tt hn mà có th
thc s tin cy vào nhng kt qu tìm kim ó. ó là xu hng c$a nhng công c! tìm
kim da vào ng ngh a và các agent tìm kim theo ng ngh a. Mt công c! tìm kim
ng ngh a tìm kim các tài liu có ngh a tng t nhau ch không ch& nhng t ng
tng t nhau. Web tr thành mt mng ng ngh a, phi cung c#p nhiu siêu d
liu v ni dung c$a nó, thông qua vic s% d!ng các th, RDF (Resource Description
Framework) và OWL (Ontology Web Language), các th, này s* giúp thc hin a
Web vào trong mng ng ngh a. Trong mng ng ngh a, ý ngh a c$a ni dung c
th hin tt hn, và nhng liên kt logic c thc hin gia nhng thông tin liên quan
nhau.
Công c! tìm kim ng ngh a, chúng ta cp ây, có hai u im ln so vi
các công c! tìm kim truyn thng:
1. Nó ch#p nhn các truy v#n c phát biu ngôn ng t nhiên.
2. Kt qu là tìm kim mt mu thông tin; không phi là mt danh sách các tài
liu có th (ho"c không) cha thông tin yêu cu.
Tht vy công c! tìm kim ng ngh a bt u vi lng thông tin quá ti. Nó
tip nhn mt s các tác v! không c ai a thích trong vic tìm kim thông tin hin
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 13 - 0112398 – T Th Ngc Thanh
nay: m ra mi tài liu c$a danh sách kt qu và quét nó mt cách th$ công l#y
thông tin. Theo cách ó, các công c! tìm kim ng ngh a có kh nng cách mng hoá,
hng n vic tìm kim thông tin in t% mt cách t ng: nó thay .i mô hình tìm
kim t vic thu hi tài liu n vic tr li câu hi.
1.2. Bài toán gii quyt
Theo thng kê trong nm 2001: “Các nhân viên tn trung bình 8 gi mt tun,
hay 16% gi công hàng tun c$a h, tìm kim và s% d!ng ni dung thông tin bên
ngoài. Chi phí lng ch& riêng cho công ty c$a M là 107 t& ôla mt nm. Vic tìm
kim ng ngh a là mt c hi y ý ngh a cho các công ty giúp cho nhân viên c$a h
có kh nng hn và hiu qu hn trong vic "t thông tin bên ngoài vào công vic c$a
h.” Không cn nói nhiu thêm na. S quá ti thông tin là mt v#n ln trong xã
hi thông tin.
Nhng khám phá tng t c/ng c tìm th#y trong nhiu nghiên cu, làm n.i
bt v#n : phi a ra gii pháp trong vic ci tin x% lí tìm kim thông tin. Ngoi tr
nhng ích li to ln mà các công c! tìm kim mang li cho chúng ta nhng nm gn
ây b0ng vic làm cho có th truy cp n hàng triu các tài liu, b#t ch#p v trí vt lí
và ngôn ng, thì chúng vn có mt s hn ch c bn. Ví d!, chúng không “hiu” các
t con ngi gõ vào và do ó t ti mt s lng kh.ng l1 c$a các kt qu sai. Hn
na, chúng hot ng hiu qu khi h2i v nhng s kin, ch+ng hn nh “Kerry” và
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng thc hin nhiu kt qu không tt nu câu
truy v#n nói v s liên h gia các khái nim ch+ng hn nh “Nhng quc gia nào ã
tham gia trong chin tranh Iraq?” và “t.ng thng nc Pháp theo chính ng nào?”
Có ba v#n cn c ci tin ci thin các kt qu c$a công c! tìm kim là:
(i) Công c! tìm kim cn cho phép nhng truy v#n phc tp hn (ví
d! trong ngôn ng t nhiên),
(ii) Công c! tìm kim cn “hiu” nhng gì con ngi h2i, và
(iii) Công c! tìm kim phi cung c#p câu tr li cho truy v#n (có th
sao lu li nhng liên kt n các tài liu mà cho ra câu tr li).
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 14 - 0112398 – T Th Ngc Thanh
1.3. Hng tip c*n
Có hai tip cn ci thin các kt qu tìm kim thông qua phng pháp ng
ngh a:
1. Kin trúc c$a Semantic Web.
2. Lp ch& m!c cho ng ngh a tim tàng (Latent Semantic Indexing).
Tuy nhiên, hu ht các công c! tìm kim da trên ng ngh a phi chu nhng
v#n thc thi bi qui mô c$a mng ng ngh a r#t ln. Nh0m m!c ích làm cho tìm
kim ng ngh a tr nên hiu qu trong vic tìm kim các kt qu mong mun, mng
này phi cha mt lng ln các thông tin liên quan. Cùng lúc ó, mt mng rng ln
to ra nhng khó khn trong vic x% lí nhiu ng dn có th có cho mt gii pháp
liên quan.
Chúng ta s% d!ng khía cnh sc bén c$a công ngh Web ng ngh a – kt hp
ch"t ch* s phi hp c$a các công ngh tiên tin – làm cho mô hình có th chuyn
nhanh trong vic tìm kim thông tin.
• Công ngh& x lí ngôn ng% t# nhiên cho phép ngi dùng h2i nhng
câu h2i mà h mun, hn là phi nêu lên nhng t khoá có liên quan
trong câu h2i c$a h.
• Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng c xem nh là
“b não” c$a công c! tìm kim, bi vì nó c gng hiu nhng câu truy
v#n c$a ngi dùng trong các t c$a ontology này. Theo cách này chú ý
r0ng công c! tìm kim ng ngh a c$a chúng ta không phi là có m!c
ích thông thng nh Google, mà nó có ý nh áp d!ng i vi mt
l nh vc hay khu vc c! th (ví d! v l nh vc pháp lí, vn hoá, th thao
v.v…).
• Phân tích tri th'c. Công ngh này chuyn d liu không có c#u trúc
sang thông tin có c#u trúc. Nó rút trích thông tin t các vn bn t do,
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 15 - 0112398 – T Th Ngc Thanh
các vn bn bán c#u trúc và c#u trúc phát sinh ra ontology vi tri thc
tht s.
• Truy c*p tri th'c thông minh. Các câu tr li cho các truy v#n t
c do vic truy v#n ontology c a ra t ng, và c biu di-n
trong nhng dng khác nhau:
o “D liu” c$a thc th chính c h2i n (ví d! trong l nh vc
xã hi, d liu c$a mt ngh s ).
o nh hng ng ngha. Nhng t c$a các câu tr li c t
ng siêu liên kt n các khái nim ontology con, cho phép nh
hng b0ng “ý ngh a”.
o Các th thông minh và liên kt thông minh. Các câu tr li luôn
c sao lu bi các ngu1n và các tài liu chúng da vào. Khi
nhng tài liu ó c tra cu, thì phn mm gán th, và liên kt
s* t ng nhn ra các t cha ý ngh a l nh vc và liên kt chúng
n ontology, hay thêm vào các th, thông minh vi nhng hot
ng c nh ngh a trong ontology.
o S “tng tng” thông minh. Thông thng, các câu tr li
phát sinh ra nhiu các khái nim liên quan và các mi quan h.
Phm mm “tng tng” thông minh cho phép mt khái nim i
xuyên qua tri thc này.
Có mt v#n mà công c! tìm kim ng ngh a c nh ngh a ây vn cha
th hoàn t#t so vi nhng công c! tìm kim vi m!c ích thông thng (không có ng
ngh a) nh Google ó là: phm vi. Trong Google bn có th tìm kim vi b#t k3 t
khoá nào trong b#t k3 l nh vc nào. Nu các t khoá xu#t hin trong mt s tài liu
trên Web, Google s* tìm th#y nó. Mt công c! tìm kim ng ngh a cn mt s tri thc
nâng cao: nó cn bit ý ngh a, c biu di-n trong mt ontology. Thc t là các
ontology – trong trng thái thi hành hin ti – vn còn làm b0ng th$ công, hn ch
chúng trong nhng m!c ích thông thng. Do ó, các công c! tìm kim ng ngh a là
nhng công c! quan trng cho nhng l nh vc c! th. Trong trng hp này, m!c ích
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 16 - 0112398 – T Th Ngc Thanh
c$a các công c! tìm kim ng ngh a là b. sung cho các công c! tìm kim thông
thng, hn là cnh tranh nh nhng i th$ .
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 17 - 0112398 – T Th Ngc Thanh
Chng 2 : C S LÝ THUYT
2.1. Chin lc tìm kim thông tin c a các b tìm kim (Search Engine)
2.1.1. Mt s search engine thông dng:
Sau ây là danh sách mt s search engine. Ti sao chúng c xem là nhng
search engine “ln”? ó là bi vì chúng c bit n nhiu và s% d!ng tt. i vi
các chuyên gia web, các công c! tìm kim ln là danh sách nhng ni quan trng nh#t
bi chúng phát sinh ra mt lng r#t ln các trang web tim tàng. i vi nhng
ngi tìm kim, các công c! tìm kim ph. bin thng tr ra các kt qu áng tin cy
hn. Nhng search engine này r#t có th c duy trì tt và nâng c#p khi cn thit,
gi th cân b0ng vi tc phát trin c$a web.
Nhng search engine sau là t#t c nhng la chn tt nh#t bt u khi tìm kim
thông tin:
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 18 - 0112398 – T Th Ngc Thanh
2.1.1.1. Google:
/>
Hình 1: Giao di&n c a Google
Nguyên thu4, Google là mt án c$a trng i hc Stanford c thc hin
bi hai sinh viên Larry Page và Sergey Brin gi là BackRub. n nm 1998, thì .i
tên thành Google, và 1 án này ã tr thành công ty riêng Google "t ti khuôn viên
trng i hc. Nó vn còn c lu gi cho n ngày nay.
Google là công c! tìm kim n.i ting, tt nh#t trong các la chn tìm kim
thông tin trên web. Dch v! da vào crawler, spider cung c#p trang web vi thông tin
a ra toàn din cùng vi mc liên quan tt. ây là công c! tt nh#t hin nay trong
vic tìm kim b#t c th gì bn mun.
Tuy nhiên, Google cung c#p chn la tìm kim ch$ yu v các trang web.
S% d!ng hp tìm kim trên trang ch$ Google, bn có th d- dàng nh v các nh qua
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 19 - 0112398 – T Th Ngc Thanh
web, nhng ngh c "t trong các nhóm tho lun Usenet, nh v thông tin tin
tc hay thc hin tìm kim sn ph5m.
2.1.1.2. Yahoo:
/>
Hình 2: Giao di&n c a Yahoo
a ra nm 1994, Yahoo là “th m!c” c/ nh#t c$a web, mt ni mà các nhà
biên tp t. chc các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 nm
2002, Yahoo chuyn sang lp danh sách da vào crawler cho nhng kt qu chính c$a
nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 nm 2004. Hin nay,
Yahoo s% d!ng công ngh tìm kim riêng c$a mình.
Yahoo Directory vn t1n ti. Bn s* ch& ra các liên kt “danh m!c” phía di
mt s các trang web lit kê trong kt qu tr v c$a mt tìm kim t khoá. Khi c
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 20 - 0112398 – T Th Ngc Thanh
xu#t, nhng trang web này dn bn n mt danh sách các trang web ã c xem
xét và phê chu5n bi mt nhà biên tp.
Công ngh AltaVista và AllTheWeb c phi hp vi k thut Inktomi, mt
công c! tìm kim da trên crawler, to nên mt Yahoo crawler hin nay.
2.1.1.3. Ask Jeeves:
/>
Hình 3: Giao di&n c a Ask Jeeves
Ask Jeeves bt u n.i ting t nm 1998 và 1999, c bit nh là mt công
c! tìm kim “ngôn ng t nhiên” cho phép ta tìm kim b0ng cách h2i nhng câu h2i
và tr v kt qu vi nhng gì có v là tr li úng v mi th.
Thc s, công ngh không phi là nhng gì làm cho Ask Jeeves thc thi tt.
Bên cnh các bi cnh, công c! này ti mt thi im có khong 100 trình son tho
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 21 - 0112398 – T Th Ngc Thanh
giám sát các log tìm kim. Sau ó chúng vào trong web và nh v nhng site mà
chúng cho là tt nh#t tng xng vi các truy v#n ph. bin nh#t.
2.1.1.4. AllTheWeb:
/>
Hình 4: Giao di&n c a AllTheWeb
c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là mt “tìm kim thun
tuý” (“pure search”) nh nhàng hn, tu3 bin hn và d- chu hn là khi thc hin
Yahoo. Tiêu im là trong tìm kim web, ngoi tr tin tc, tìm kim hình nh, video,
MP3 và FPT c/ng c a ra.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 22 - 0112398 – T Th Ngc Thanh
2.1.1.5. Teoma:
/>
Hình 5: Giao di&n c a Teoma
Teoma là mt công c! tìm kim da trên crawler c s hu bi Ask Jeeves.
Nó có s lng trang web c ch& m!c nh2 hn Google và Yahoo. Nm 2000,
Teoma ra i cùng vi thành công c$a mình: a ra c nhng th liên quan. Tính
nng “Refine” c$a công c! này xu#t ra nhng ch$ kho sát sau khi bn thc
hin mt tìm kim.
Teoma c Ask Jeeves mua vào tháng 9 nm 2001 và c/ng cung c#p mt s
kt qu cho web site này.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 23 - 0112398 – T Th Ngc Thanh
2.1.1.6. HotBot:
/>
Hình 6: Giao di&n HotBot
HotBot h tr truy cp d- dàng n 3 trang web search engine da vào crawler
ln: Yahoo, Google, và Teoma. Không nh mt meta search engine, nó không th pha
trn các kt qu t t#t c các crawler này vi nhau. Do ó, nó là mt cách nhanh, d-
dàng l#y các “ý kin” tìm kim web khác nhau trong mt ni.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 24 - 0112398 – T Th Ngc Thanh
2.1.1.7. AltaVista:
/>
Hình 7: Giao di&n c a Altavista
AltaVista c a ra vào tháng 9 nm 1995 và c xem nh là “Google”
trong mt vài nm, nó cung c#p nhng kt qu liên quan và ã có mt nhóm ngi
dùng yêu thích công c! tìm kim này. Nhng t sau nm 1998, ngi ta không còn a
chung AltaVista na, bi vì s mi m, c$a các danh sách AltaVista và tin tc c
a ra c$a crawler trong trang web này không c cp nht thng xuyên.
Ngày nay, AltaVista mt ln na tp trung vào tìm kim. Các kt qu n t
Yahoo, và cho phép n các trang web tìm hình nh, MP3/Audio, Video, các danh
sách danh m!c con ngi và các kt qu tin tc. Nu mun mt cm giác nh nhàng
hn Yahoo nhng vn có các kt qu c$a Yahoo, AltaVista là mt chn la tt.