Tải bản đầy đủ (.pdf) (153 trang)

Tài liệu Luận văn: Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực eDoc doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.29 MB, 153 trang )





Luận văn
Tìm kiếm ngữ nghĩa ứng
dụng trên lĩnh vực eDoc


1
LI CM N


u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin
trng i hc Khoa hc T nhiên ã tn tình dy d, dìu dt chúng em sut bn nm
i hc.
Chúng em cm n Cô Phm Th Bch Hu, ngi tn tình hng dn, giúp ,
ng viên chúng em hoàn thành lun vn này.
Cui cùng, chúng con cm n Ba, M và nhng ngi thân ã khích l, h tr,
ng viên chúng con trong thi gian hc tp, nghiên cu  có c thành qu nh
ngày nay.









Tháng 7 nm 2005


Sinh viên
Phm Th M Phng – T Th Ngc Thanh







2
NHN XÉT CA GIÁO VIÊN HNG DN

……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………

Ngày…… tháng……nm 2005

Ký tên


 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 3 - 0112398 – T Th Ngc Thanh
NHN XÉT CA GIÁO VIÊN PHN BIN

……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………

Ngày…… tháng……nm 2005

Ký tên


 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 4 - 0112398 – T Th Ngc Thanh

MC LC

M U 10
Chng 1 : TNG QUAN 11
1.1. "t v#n  11
1.2. Bài toán gii quyt 13
1.3. Hng tip cn 14
Chng 2 : C S LÝ THUYT 17
2.1. Chin lc tìm kim thông tin c$a các b tìm kim (Search Engine) 17
2.1.1. Mt s search engine thông d!ng: 17
2.1.2. Chin lc tìm kim 32
Nguyên lý hot ng 34
2.2. Semantic Web 34
2.2.1. Khái nim 34
2.2.2. Kin trúc 36
2.2.3. Các thách thc "t ra cho Semantic web 37
2.2.4. So sánh web và web ng ngh a 41
2.2.5. Các khái nim liên quan 42
2.2.6. Ontology 44
2.2.7. Rdf 46
2.3. eDoc 55
2.3.1. Tìm hiu eLearning 55
2.3.2. Tìm hiu eLib 61
2.3.3. Tìm hiu eDoc 68

2.4. Mt s v#n  trong x% lí ngôn ng t nhiên: 71
2.4.1. V#n  trong vic x% lí vn bn: 72
2.4.2. V#n  x% lí ng ngh a: 72
2.4.3. Phân loi vn bn (Text Classification) 82
Chng 3 : MÔ HÌNH VÀ GII THUT 84
3.1. Công ngh tìm kim ng ngh a trên th gii hin nay: 84
3.2. Các bc xây dng mt ng d!ng semantic search engine: 91
3.3.1. Xây dng kin trúc Web ng ngh a: 92
3.3.2. Lp ch& m!c ng ngh a tim tàng: 93
3.3. Mô hình  ngh cho ng d!ng tìm kim ng ngh a trên l nh vc eDoc 96
3.4. Các gii thut s% d!ng 100
3.4.1. Gii thut x% lý tài liu: 100
3.4.2. Gii thut rút trích siêu d liu: 102
3.4.3. Gii thut phân loi l nh vc cho tài liu: 104
3.4.4. Gii thut x% lí câu truy v#n: 104
Chng 4 : CHNG TRÌNH NG DNG 105
4.1. Gii thiu chng trình ng d!ng: 105
4.2. Kin trúc c$a ng d!ng: 105
4.3. Mô t phm vi ng d!ng 107
4.3.1. Mô t bài toán: 107

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 5 - 0112398 – T Th Ngc Thanh
4.3.2. Xác nh yêu cu: 107
4.4. Xây dng ng d!ng: 108
4.4.1. Thit k d liu: 108
4.4.2. Thit k x% lý: 110
4.5. Kt qu chng trình 112
4.6. Thc nghim chng trình 114
Chng 5 : KT LUN 118

5.1. ánh giá kt qu nghiên cu 118
5.1.1. 'u im 118
5.1.2. Khuyt im: 119
5.2. Hng phát trin 119
TÀI LIU THAM KHO 120
I. Lun vn, lun án: 120
II. Sách, eBooks: 120
III. Website: 122
PH LC 124
1. Cú pháp RDF: 124
2. RDF Gateway: 129
2.1. Kin trúc c$a RDF Gateway: 130
2.2. Tính nng (Features) 132
3. H thng nhãn ng ngh a: 138
3.1. Nhãn ng ngh a c bn cho danh t: 139
3.2. Nhãn ng ngh a c bn cho ng t: 141
3.3. Nhãn ng ngh a c bn cho tính t: 142
3.4. H thng nhãn ng ngh a LDOCE 142
4. H c s tri thc ng ngh a t vng WordNet 144
4.1. H thng nhãn ng ngh a c$a danh t: 144
4.2. H thng nhãn ng ngh a c$a ng t: 149















 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 6 - 0112398 – T Th Ngc Thanh









DANH MC CÁC BNG


Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin 28
Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet 32
Bng 3 : Các lp trong RDF 54
Bng 4:Các thuc tính c a RDF 55
Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu 77
Bng 6 Mô t c s$ d% li&u cho 'ng dng 110
Bng 7 Các module c a chng trình 110
Bng 8 Module eDocSearch 111
Bng 9 Module eDocSearch 111
Bng 10 Các câu truy v(n th nghi&m 115
Bng 11 Thng kê l!nh v#c khoa h)c máy tính 116

Bng 12 Thng kê l!nh v#c ngh& thu*t. 116
Bng 13: Nhãn ng% ngh!a c bn cho danh t" 140
Bng 14: Nhãn ng% ngh!a c bn cho ng t" 142
Bng 15 : Nhãn ng% ngh!a c bn cho tính t" 142
Bng 16: H& thng nhãn ng% ngh!a LDOCE 144
Bng 17:S# phân lp danh t" trong WordNet 148









 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 7 - 0112398 – T Th Ngc Thanh








DANH MC CÁC HÌNH

Hình 1: Giao di&n c a Google 18
Hình 2: Giao di&n c a Yahoo 19
Hình 3: Giao di&n c a Ask Jeeves 20

Hình 4: Giao di&n c a AllTheWeb 21
Hình 5: Giao di&n c a Teoma 22
Hình 6: Giao di&n HotBot 23
Hình 7: Giao di&n c a Altavista 24
Hình 8: Giao di&n c a Lycos 25
Hình 9: Kin trúc t+ng c a Semantic web 36
Hình 10: Mt Ontology n gin 46
Hình 11: Mô hình d% li&u RDF 51
Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc 71
Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a 76
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. 78
Hình 15: Dòng c s$ tìm kim Web 91
Hình 16: Mô hình  ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc 97
Hình 17: Qui trình x lý c a t+ng search engine 99
Hình 18: Gii thu*t x lý tài li&u: 100
Hình 19: Gii thu*t rút trích siêu d% li&u 103
Hình 20: S . d% li&u quan h& c a 'ng dng 108
Hình 21: Giao di&n chính c a 'ng dng 112
Hình 22: Giao di&n kt qu tìm kim c a 'ng dng 113
Hình 23: Giao di&n qun lí tài nguyên 113
Hình 24: Kin trúc c a RDF Gateway 130
Hình 25: Giao di&n c a RQF Query Analyzer 136






 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 8 - 0112398 – T Th Ngc Thanh










DANH MC CÁC T/ VIT T0T
eDoc Electronic document
eLib Electronic library
eLearning Electronic learning
www World Wide Web
URI Uniform Resource Identifier
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
RDF Resources Descriprion Framework
OIL Ontology Inference Language
OWL Ontology Web Language
XML eXtensible Markup Language










 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 9 - 0112398 – T Th Ngc Thanh







DANH MC CÁC THUT NG1
Class Lp
Property Thuc tính
Metadata Siêu d liu
Subject Ch$ , ch$ ng
Title Tiêu 
Namespace Không gian tên
Predicate V ng
Triple B ba (subject, predicate, object)













 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 10 - 0112398 – T Th Ngc Thanh
M( )U
Hin nay, hu ht các h thng tìm kim trên Internet u i theo hng truyn
thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào
t cn tìm, các h thng tìm kim s* hin th các tài liu mà trong nó có cha t khoá
cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài liu, mà có th các tài
liu này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h thng này
không a ra ht các tài liu cn thit, tc là tha tài liu không cn thit nhng li
thiu h+n nhng tài liu quan trng khác.
V#n  "t ra là ta phi xây dng mt h thng tìm kim nh th nào  khc
ph!c hin trng nêu trên ?
 gii quyt v#n  này, ta cn xây dng h thng tìm kim sao cho áp ng
y $ thông tin mà ngi dùng mong mun, ngh a là phi xây dng h thng tìm
kim theo ng ngh a da trên thông tin ngi dùng a vào.
T nhn thc trên chúng em quyt nh chn  tài: Tìm kim ng% ngh!a 'ng
dng trên l!nh v#c eDoc (nhng tài liu in t% ting Anh) vi m!c ích tìm hiu và
xây dng mt công c! tìm kim theo ng ngh a  có th tìm kim thông tin chính xác
và y $,  có th hn ch c phn nào v#n  tìm kim theo t khoá c$a các
search engine hin ti.
Các i tng nghiên cu liên quan n  tài: eDoc, Semantic Web, RDF,
OWL, Metadata,….
Trong phm vi  tài, vì thi gian thc hin ngn, nên chúng em ch& th% nghim
chng trình tìm kim trong mt s l nh vc: Khoa hc máy tính (Computer Science),
Ngh thut (Art). Hai l nh vc này có v, nh không liên h vi nhau nhng thc t
vn có nhng trng hp cn phi phân bit, ví d! nh tài liu v “ngh thut lp
trình” (“Art of programming”) thì phi phân tài liu v l nh vc khoa hc máy tính
ch không phi ngh thut …. Tóm li, ng d!ng mà chúng em xây dng ch& tìm kim
thông tin trong các l nh vc nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra
nhiu l nh vc còn li.



 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 11 - 0112398 – T Th Ngc Thanh
Chng 1 : TNG QUAN
1.1. t v(n 
Nhu cu tìm kim, nm bt thông tin là mt nhu cu không th thiu trong i
sng c$a mi ngi. Khi vic s% d!ng World Wide Web ã tr nên ph. bin rng
khp, thì công vic c$a các search engine c/ng tr thành mt phn sng còn và có li
ích cho Web. Các công c! tìm kim tr thành nhng công c! công cng cho mi
ngi dùng c$a Internet; Google và Yahoo, c/ng tr thành nhng cái tên quen thuc.
Các công c! tìm kim hin nay da trên mt trong hai dng c$a công ngh tìm
kim Web: tìm kim do con ngi t ch& ng dn và tìm kim t ng.
Công c! tìm kim do con ngi ch& ng dn s% d!ng mt c s d liu c$a
các t khoá, các khái nim, và các tham chiu. Nhng công c! tìm kim theo t khoá
tr v mt dãy các trang, nhng phng pháp n gin này thng dn n hàng lot
các kt qu không liên quan và không xác thc. Hot ng c$a mt công c! tìm kim
da trên ni dung là: s* m s lng các t truy v#n ( các t khoá) so vi các t hin
din trong mi trang c cha trong ch& m!c c$a nó. Sau ó, công c! tìm kim này s*
sp xp các trang. Tip cn phc tp hn b0ng cách a các v trí c$a t khoá vào mt
mc  quan trng c! th. Ví d!, các t khoá xu#t hin trong th, title c$a trang web thì
quan trng hn trong phn body. Các kiu khác c$a công c! tìm kim do ngi dùng
ch& ng dn, nh Yahoo, s% d!ng các lc 1 ch$   giúp ch& hng tìm kim và
tr v các kt qu có liên quan hn. Nhng lc 1 ch$  này do con ngi to ra.
Bi lí do này, chúng ta phi tn chi phí to ra và duy trì trong các t mang “ý ngh a
thi gian” (thay .i theo thi gian), và r1i thì không c cp nht thng xuyên nh
các h thng t ng.
Cách tip cn tìm theo t khoá vn còn mt s hn ch, iu này ã làm gim
i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng
hn: bank (ngân hàng), bank (b sông), …) ho"c các t có các bin th khác nhau do

có các tin t và hu t nh student và students; small, smaller, smallest; …. Ngoài ra,
các search engine không tr v các tài liu có các t 1ng ngh a vi các t trong câu

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 12 - 0112398 – T Th Ngc Thanh
truy v#n mà ngi dùng nhp vào. Key word không $  biu di-n chính xác nhu
cu c$a ngi dùng c/ng nh ni dung các trang web, hn ch này làm cho các search
engine tr v nhng tài liu không liên quan n v#n  mà ngi dùng quan tâm. Bi
vì t*p hp các t" khóa là dng biu di-n s lc nh#t c$a ni dung, và do ó, cách
biu di-n này là mt dng góc nhìn lun lý (logical view) c$a ni dung mang m'c 
thông tin th(p nh(t, ó chính là lý do c bn khin cho các Search Engine hin nay
có t2 l& s trang web h%u ích trên tng s trang web tr v th(p.
Google vi 400 triu tài liu thu v mi ngày và trên 8 t& trang web c lp ch&
m!c, và là công c! tìm kim thông d!ng nh#t c s% d!ng ngày nay, nhng thm chí
vi Google vn còn có nhiu v#n . Ví d!, b0ng cách nào bn tìm kim ch& vi mt
lng ít d liu mà bn cn trong mt bin kt qu không liên quan c a ra?
Khi công ngh trí tu nhân to (Artificial Intelligence_AI) phát trin mnh, thì
v#n  "t ra là làm th nào  a ra nhng phng pháp tìm kim tt hn mà có th
thc s tin cy vào nhng kt qu tìm kim ó. ó là xu hng c$a nhng công c! tìm
kim da vào ng ngh a và các agent tìm kim theo ng ngh a. Mt công c! tìm kim
ng ngh a tìm kim các tài liu có ngh a tng t nhau ch không ch& nhng t ng
tng t nhau.  Web tr thành mt mng ng ngh a, phi cung c#p nhiu siêu d
liu v ni dung c$a nó, thông qua vic s% d!ng các th, RDF (Resource Description
Framework) và OWL (Ontology Web Language), các th, này s* giúp thc hin a
Web vào trong mng ng ngh a. Trong mng ng ngh a, ý ngh a c$a ni dung c
th hin tt hn, và nhng liên kt logic c thc hin gia nhng thông tin liên quan
nhau.
Công c! tìm kim ng ngh a, chúng ta  cp  ây, có hai u im ln so vi
các công c! tìm kim truyn thng:
1. Nó ch#p nhn các truy v#n c phát biu  ngôn ng t nhiên.

2. Kt qu là tìm kim mt mu thông tin; không phi là mt danh sách các tài
liu có th (ho"c không) cha thông tin yêu cu.
Tht vy công c! tìm kim ng ngh a bt u vi lng thông tin quá ti. Nó
tip nhn mt s các tác v! không c ai a thích trong vic tìm kim thông tin hin

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 13 - 0112398 – T Th Ngc Thanh
nay: m ra mi tài liu c$a danh sách kt qu và quét nó mt cách th$ công  l#y
thông tin. Theo cách ó, các công c! tìm kim ng ngh a có kh nng cách mng hoá,
hng n vic tìm kim thông tin in t% mt cách t ng: nó thay .i mô hình tìm
kim t vic thu hi tài liu n vic tr li câu hi.
1.2. Bài toán gii quyt
Theo thng kê trong nm 2001: “Các nhân viên tn trung bình 8 gi mt tun,
hay 16% gi công hàng tun c$a h,  tìm kim và s% d!ng ni dung thông tin bên
ngoài. Chi phí lng ch& riêng cho công ty c$a M là 107 t& ôla mt nm. Vic tìm
kim ng ngh a là mt c hi y ý ngh a cho các công ty giúp cho nhân viên c$a h
có kh nng hn và hiu qu hn trong vic "t thông tin bên ngoài vào công vic c$a
h.” Không cn nói nhiu thêm na. S quá ti thông tin là mt v#n  ln trong xã
hi thông tin.
Nhng khám phá tng t c/ng c tìm th#y trong nhiu nghiên cu, làm n.i
bt v#n : phi a ra gii pháp trong vic ci tin x% lí tìm kim thông tin. Ngoi tr
nhng ích li to ln mà các công c! tìm kim mang li cho chúng ta nhng nm gn
ây b0ng vic làm cho có th truy cp n hàng triu các tài liu, b#t ch#p v trí vt lí
và ngôn ng, thì chúng vn có mt s hn ch c bn. Ví d!, chúng không “hiu” các
t con ngi gõ vào và do ó t ti mt s lng kh.ng l1 c$a các kt qu sai. Hn
na, chúng hot ng hiu qu khi h2i v nhng s kin, ch+ng hn nh “Kerry” và
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng thc hin nhiu kt qu không tt nu câu
truy v#n nói v s liên h gia các khái nim ch+ng hn nh “Nhng quc gia nào ã
tham gia trong chin tranh Iraq?” và “t.ng thng nc Pháp theo chính ng nào?”
Có ba v#n  cn c ci tin  ci thin các kt qu c$a công c! tìm kim là:

(i) Công c! tìm kim cn cho phép nhng truy v#n phc tp hn (ví
d! trong ngôn ng t nhiên),
(ii) Công c! tìm kim cn “hiu” nhng gì con ngi h2i, và
(iii) Công c! tìm kim phi cung c#p câu tr li cho truy v#n (có th
sao lu li nhng liên kt n các tài liu mà cho ra câu tr li).

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 14 - 0112398 – T Th Ngc Thanh

1.3. Hng tip c*n
Có hai tip cn  ci thin các kt qu tìm kim thông qua phng pháp ng
ngh a:
1. Kin trúc c$a Semantic Web.
2. Lp ch& m!c cho ng ngh a tim tàng (Latent Semantic Indexing).
Tuy nhiên, hu ht các công c! tìm kim da trên ng ngh a phi chu nhng
v#n  thc thi bi qui mô c$a mng ng ngh a r#t ln. Nh0m m!c ích làm cho tìm
kim ng ngh a tr nên hiu qu trong vic tìm kim các kt qu mong mun, mng
này phi cha mt lng ln các thông tin liên quan. Cùng lúc ó, mt mng rng ln
to ra nhng khó khn trong vic x% lí nhiu ng dn có th có cho mt gii pháp
liên quan.
Chúng ta s% d!ng khía cnh sc bén c$a công ngh Web ng ngh a – kt hp
ch"t ch* s phi hp c$a các công ngh tiên tin – làm cho mô hình có th chuyn
nhanh trong vic tìm kim thông tin.
• Công ngh& x lí ngôn ng% t# nhiên cho phép ngi dùng h2i nhng
câu h2i mà h mun, hn là phi nêu lên nhng t khoá có liên quan
trong câu h2i c$a h.
• Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng c xem nh là
“b não” c$a công c! tìm kim, bi vì nó c gng hiu nhng câu truy
v#n c$a ngi dùng trong các t c$a ontology này. Theo cách này chú ý
r0ng công c! tìm kim ng ngh a c$a chúng ta không phi là có m!c

ích thông thng nh Google, mà nó có ý nh áp d!ng i vi mt
l nh vc hay khu vc c! th (ví d! v l nh vc pháp lí, vn hoá, th thao
v.v…).
• Phân tích tri th'c. Công ngh này chuyn d liu không có c#u trúc
sang thông tin có c#u trúc. Nó rút trích thông tin t các vn bn t do,

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 15 - 0112398 – T Th Ngc Thanh
các vn bn bán c#u trúc và c#u trúc  phát sinh ra ontology vi tri thc
tht s.
• Truy c*p tri th'c thông minh. Các câu tr li cho các truy v#n t
c do vic truy v#n ontology c a ra t ng, và c biu di-n
trong nhng dng khác nhau:
o “D liu” c$a thc th chính c h2i n (ví d! trong l nh vc
xã hi, d liu c$a mt ngh s ).
o nh hng ng ngha. Nhng t c$a các câu tr li c t
ng siêu liên kt n các khái nim ontology con, cho phép nh
hng b0ng “ý ngh a”.
o Các th thông minh và liên kt thông minh. Các câu tr li luôn
c sao lu bi các ngu1n và các tài liu chúng da vào. Khi
nhng tài liu ó c tra cu, thì phn mm gán th, và liên kt
s* t ng nhn ra các t cha ý ngh a l nh vc và liên kt chúng
n ontology, hay thêm vào các th, thông minh vi nhng hot
ng c nh ngh a trong ontology.
o S “tng tng” thông minh. Thông thng, các câu tr li
phát sinh ra nhiu các khái nim liên quan và các mi quan h.
Phm mm “tng tng” thông minh cho phép mt khái nim i
xuyên qua tri thc này.
Có mt v#n  mà công c! tìm kim ng ngh a c nh ngh a  ây vn cha
th hoàn t#t so vi nhng công c! tìm kim vi m!c ích thông thng (không có ng

ngh a) nh Google ó là: phm vi. Trong Google bn có th tìm kim vi b#t k3 t
khoá nào trong b#t k3 l nh vc nào. Nu các t khoá xu#t hin trong mt s tài liu
trên Web, Google s* tìm th#y nó. Mt công c! tìm kim ng ngh a cn mt s tri thc
nâng cao: nó cn bit ý ngh a, c biu di-n trong mt ontology. Thc t là các
ontology – trong trng thái thi hành hin ti – vn còn làm b0ng th$ công, hn ch
chúng trong nhng m!c ích thông thng. Do ó, các công c! tìm kim ng ngh a là
nhng công c! quan trng cho nhng l nh vc c! th. Trong trng hp này, m!c ích

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 16 - 0112398 – T Th Ngc Thanh
c$a các công c! tìm kim ng ngh a là b. sung cho các công c! tìm kim thông
thng, hn là cnh tranh nh nhng i th$ .


























 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 17 - 0112398 – T Th Ngc Thanh
Chng 2 : C S LÝ THUYT
2.1. Chin lc tìm kim thông tin c a các b tìm kim (Search Engine)
2.1.1. Mt s search engine thông dng:
Sau ây là danh sách mt s search engine. Ti sao chúng c xem là nhng
search engine “ln”? ó là bi vì chúng c bit n nhiu và s% d!ng tt. i vi
các chuyên gia web, các công c! tìm kim ln là danh sách nhng ni quan trng nh#t
bi chúng phát sinh ra mt lng r#t ln các trang web tim tàng. i vi nhng
ngi tìm kim, các công c! tìm kim ph. bin thng tr ra các kt qu áng tin cy
hn. Nhng search engine này r#t có th c duy trì tt và nâng c#p khi cn thit, 
gi th cân b0ng vi tc  phát trin c$a web.
Nhng search engine sau là t#t c nhng la chn tt nh#t  bt u khi tìm kim
thông tin:


















 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 18 - 0112398 – T Th Ngc Thanh
2.1.1.1. Google:
/>


Hình 1: Giao di&n c a Google

Nguyên thu4, Google là mt  án c$a trng i hc Stanford c thc hin
bi hai sinh viên Larry Page và Sergey Brin gi là BackRub. n nm 1998, thì .i
tên thành Google, và 1 án này ã tr thành công ty riêng Google "t ti khuôn viên
trng i hc. Nó vn còn c lu gi cho n ngày nay.
Google là công c! tìm kim n.i ting, tt nh#t trong các la chn  tìm kim
thông tin trên web. Dch v! da vào crawler, spider cung c#p trang web vi thông tin
a ra toàn din cùng vi mc  liên quan tt. ây là công c! tt nh#t hin nay trong
vic tìm kim b#t c th gì bn mun.
Tuy nhiên, Google cung c#p chn la  tìm kim ch$ yu v các trang web.
S% d!ng hp tìm kim trên trang ch$ Google, bn có th d- dàng nh v các nh qua

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 19 - 0112398 – T Th Ngc Thanh
web, nhng  ngh c "t trong các nhóm tho lun Usenet, nh v thông tin tin

tc hay thc hin tìm kim sn ph5m.

2.1.1.2. Yahoo:
/>


Hình 2: Giao di&n c a Yahoo
a ra nm 1994, Yahoo là “th m!c” c/ nh#t c$a web, mt ni mà các nhà
biên tp t. chc các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 nm
2002, Yahoo chuyn sang lp danh sách da vào crawler cho nhng kt qu chính c$a
nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 nm 2004. Hin nay,
Yahoo s% d!ng công ngh tìm kim riêng c$a mình.
Yahoo Directory vn t1n ti. Bn s* ch& ra các liên kt “danh m!c” phía di
mt s các trang web lit kê trong kt qu tr v c$a mt tìm kim t khoá. Khi c

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 20 - 0112398 – T Th Ngc Thanh
 xu#t, nhng trang web này dn bn n mt danh sách các trang web ã c xem
xét và phê chu5n bi mt nhà biên tp.
Công ngh AltaVista và AllTheWeb c phi hp vi k thut Inktomi, mt
công c! tìm kim da trên crawler,  to nên mt Yahoo crawler hin nay.

2.1.1.3. Ask Jeeves:
/>


Hình 3: Giao di&n c a Ask Jeeves

Ask Jeeves bt u n.i ting t nm 1998 và 1999, c bit nh là mt công
c! tìm kim “ngôn ng t nhiên” cho phép ta tìm kim b0ng cách h2i nhng câu h2i

và tr v kt qu vi nhng gì có v là tr li úng v mi th.
Thc s, công ngh không phi là nhng gì làm cho Ask Jeeves thc thi tt.
Bên cnh các bi cnh, công c! này ti mt thi im có khong 100 trình son tho

 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 21 - 0112398 – T Th Ngc Thanh
giám sát các log tìm kim. Sau ó chúng vào trong web và nh v nhng site mà
chúng cho là tt nh#t tng xng vi các truy v#n ph. bin nh#t.

2.1.1.4. AllTheWeb:
/>

Hình 4: Giao di&n c a AllTheWeb

c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là mt “tìm kim thun
tuý” (“pure search”) nh nhàng hn, tu3 bin hn và d- chu hn là khi thc hin 
Yahoo. Tiêu im là trong tìm kim web, ngoi tr tin tc, tìm kim hình nh, video,
MP3 và FPT c/ng c a ra.





 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 22 - 0112398 – T Th Ngc Thanh
2.1.1.5. Teoma:
/>

Hình 5: Giao di&n c a Teoma


Teoma là mt công c! tìm kim da trên crawler c s hu bi Ask Jeeves.
Nó có s lng trang web c ch& m!c nh2 hn Google và Yahoo. Nm 2000,
Teoma ra i cùng vi thành công c$a mình: a ra c nhng th liên quan. Tính
nng “Refine” c$a công c! này  xu#t ra nhng ch$   kho sát sau khi bn thc
hin mt tìm kim.
Teoma c Ask Jeeves mua vào tháng 9 nm 2001 và c/ng cung c#p mt s
kt qu cho web site này.





 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 23 - 0112398 – T Th Ngc Thanh
2.1.1.6. HotBot:
/>


Hình 6: Giao di&n HotBot

HotBot h tr truy cp d- dàng n 3 trang web search engine da vào crawler
ln: Yahoo, Google, và Teoma. Không nh mt meta search engine, nó không th pha
trn các kt qu t t#t c các crawler này vi nhau. Do ó, nó là mt cách nhanh, d-
dàng  l#y các “ý kin” tìm kim web khác nhau trong mt ni.









 tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 24 - 0112398 – T Th Ngc Thanh
2.1.1.7. AltaVista:
/>


Hình 7: Giao di&n c a Altavista

AltaVista c a ra vào tháng 9 nm 1995 và c xem nh là “Google”
trong mt vài nm, nó cung c#p nhng kt qu liên quan và ã có mt nhóm ngi
dùng yêu thích công c! tìm kim này. Nhng t sau nm 1998, ngi ta không còn a
chung AltaVista na, bi vì s mi m, c$a các danh sách AltaVista và tin tc c
a ra c$a crawler trong trang web này không c cp nht thng xuyên.
Ngày nay, AltaVista mt ln na tp trung vào tìm kim. Các kt qu n t
Yahoo, và cho phép n các trang web  tìm hình nh, MP3/Audio, Video, các danh
sách danh m!c con ngi và các kt qu tin tc. Nu mun mt cm giác nh nhàng
hn Yahoo nhng vn có các kt qu c$a Yahoo, AltaVista là mt chn la tt.


×