THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
M CL C
ng 1: Các ph
ng pháp thu th p thơng tin
OBO
OK S
.CO
M
Ch
1.1 S phát tri n c a internet và u c u tìm ki m thơng tin
1.2 Tìm ki m thơng tin
1.2.1 Gi i thi u:
1.2.2 Ph
ng pháp tìm ki m v n b n c đi n
a.Qt tồn b tài li u:
b.S d ng t p ký hi u
c.S d ng file ngh ch đ o
d.Tìm ki m theo mơ hình vec t phân nhóm
1.2.3 Ph
ng pháp s d ng thơng tin ng ngh a
a. Ph
ng pháp s d ng phân tích cú pháp và ngơn ng t nhiên
b. Ph
ng pháp s d ng ch m c ng ngh a
c. Ph
ng pháp s d ng m ng Neural
1.4 ánh giá đ quan tr ng c a t khố
1.5 K t lu n v các ph
Ch
ng pháp tìm ki m thơng tin
ng 2: T ng quan v Search Engine
2.1 Khái ni m v Search Engine
2.2 Ki n trúc và c ch ho t đ ng c a Search Engine.
2.2.1 Ki n trúc c a Search Engine
KIL
2.2.2 C ch ho t đ ng c a Search Engine
2.3 Phân lo i Search Engine
2.3.1 Search Engine s d ng ph
ng pháp thơng th
2.3.2 Meta Search Engine
2.4 Các v n đ liên quan t i Search Engine
2.4.1 V n đ thu th p thơng tin:
2.4.2 V n đ tìm ki m thơng tin
2.5 ánh giá Search Engine
ng
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
2.6 Gi i thi u m t s Search Engine đi n hình
2.6.1 Search Engine Altavista
2.6.2 Search Engine Harvest
ng 3: Xây d ng mô hình tìm ki m thông tin theo Search Engine
KIL
OBO
OKS
.CO
M
Ch
3.1 Ki n trúc ch
ng trình
3.1.1 T o ch m c
3.1.2 Tìm ki m
3.2 Gi i thi u b th vi n Jakata Lucene
3.3 H
K t lu n
ng d n s d ng các ch c n ng
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
L i nói đ u
Phát tri n t m t d án trong qn đ i Hoa K , ch trong vòng 30 n m
đ c bi t là th p k g n đây Internet đã phát tri n m nh m , len l i vào h u h t
KIL
OBO
OKS
.CO
M
các l nh v c trong cu c s ng, kh i l
nên đ s h n, con ng
ng thơng tin trên internet ngày càng tr
i h u nh có th nh n b t c thơng tin mình mong mu n
t Internet, tuy nhiên chính s đ s đó làm cho con ng
trí thơng tin mình c n, nh n đ
i khó đinh v đ
cv
c thơng tin mình mu n, u c u t t y u đ t ra là
ph i xây d ng các h th ng tìm ki m tho mãn u c u ng
Engine ra đ i nh m gi i quy t u c u đó. Chúng ta th
i dùng. Các Search
ng đ t ra nh ng u
c u khơng rõ ràng, nh ng câu truy v n thi u c u trúc mang tính ch t c a ngơn
ng t nhiên tuy nhên l i mu n nh n l i nh ng thơng tin chính xác, hay nói cách
khác chúng ta mu n nh n thơng tin chúng ta mu n ch khơng ph i nh ng thơng
tin u c u cho máy tính chính vì v y đ xây d ng m t Search Engine hồn
thi n là m t u c u g p nhi u khó kh n liên quan đ n nhi u ngành khoa h c:
phân tích ngơn ng t nhiên, tìm ki m thơng tin,... Lu n v n này đ a ra nh ng
nghiên c u mang tính ch t t ng quan v nh ng c s khoa h c đ xây d ng m t
Search Engine nh v y, đ ng th i gi i thi u m t s cơng ngh đang đ
d ng trong nh ng n m g n đây, v i t t
sau:
Ch
ng 1: Các ph
cs
ng nh v y lu n v n có b c c nh
ng pháp thu th p thơng tin
Trình bày nh ng c s tốn h c cho vi c Index d li u , các thu t tốn tìm
ki m t
ng ng v i các ph
Ch
ng pháp Index khác nhau
ng 2: T ng quan v Search Engine
Trình bày c u trúc và c ch ho t đ ng c a m t Search Engine đi n hình,
phân tích nh ng v n đ liên quan đ n Search Engine và gi i thi u m t s Search
Engine đ
Ch
c s d ng r ng rãi hi n nay.
ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
a ra các b
c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ
hình Search Engine v i ví d c th : H th ng tìm ki m Sách đi n t theo u
c u
h
c, h n ch c a lu n v n, và
KIL
OBO
OKS
.CO
M
Ph n k t lu n: Nêu nh ng k t qu đ t đ
ng phát tri n c a mơ hình tìm ki m trong t
Lu n v n đ
ng lai
c hồn thành v i s giúp đ nhi t tình c a các th y cơ b n
bè Xin g i l i c m n trân tr ng nh t t i PGS TSKH Nguy n Cát H ng
đ nh h
ng đ tài tr c ti p h
nhân Lê Qu c Thái nh ng ng
ng d n, Th c S
c nhân L u
i đã
c Trung, c
i ch b o t n tình trong su t q trình làm lu n
v n. Chân thành c m n các th y giáo trong khoa Tốn c tin đã trang b nh ng
ki n th c c b n trong su t b n n m h c v a qua, c m n s đ ng viên c a b n
bè, gia đình đã giúp đ tơi hồn thành lu n v n này.
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Ch
ng 1: Cỏc ph
ng phỏp thu th p thụng tin
KIL
OBO
OKS
.CO
M
1.1 S phỏt tri n c a internet v yờu c u tỡm ki m thụng tin
M ng Internet
c ra i t
nh ng n m 1970 v i tờn ban u l
ARPANET, l m ng c a b qu c phũng M .V i s ti n d ng v tớnh kh thi c a
mỡnh m ng ARPANET ó phỏt tri n m nh m thu hỳt s tham gia c a nhi u t
ch c trờn th gi i. Cho t i nay ó cú hng tri u cỏc mỏy ch khỏc nhau tham gia
trong m ng ton c u Internet.
Hub
Server
LAN
Hub
Server
Workstation
IBM Compatible
LAN
Workstation
IBM Compatible
Internet
Hub
Server
LAN
Hub
Server
Workstation
IBM Compatible
LAN
Workstation
hỡnh 1: S k t n i m ng c a cỏc mỏy tớnh
IBM Compatible
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
ti m n ng cỏc d ch v s n cú c a nú
S thu n ti n c a Internet th hi n
nh : Telnet, FTP, Web ... S ra i c a Web ỏnh d u m t b
c thay i quan
tr ng trong s phỏt tri n c a Internet.Web hay cũn g i l World Wide Web l
ph
KIL
OBO
OKS
.CO
M
m t h th ng cỏc ti li u liờn k t trờn cỏc mỏy khỏc nhau.Web l h th ng a
ng ti n, cỏc ti li u cú th bao g m õm thanh, hỡnh nh v cỏc ph
truy n thụng khỏc.
ng ti n
ú l cỏc ti li u html (Hyper Text Make up Language). S
ti n d ng c a Web
c ch ng minh qua th c t v i hng lo t cỏc cụng ty, t
ch c tham gia phỏt tri n.
Internet phỏt tri n m nh m , i sõu vo m i l nh v c cu c s ng. S phỏt
tri n ú lm cho kh i l
con ng
ng thụng tin trờn Internet ngy cng tr nờn s h n,
i h u nh cú th nh n
c b t c thụng tin h mong mu n. Tuy nhiờn
s phỏt tri n ú c ng lm cho ng
i s d ng khú kh n h n trong vi c tỡm ra v
trớ thụng tin c n thi t c ng nh l a ch n
c nh ng thụng tin thớch h p nh t.
gi i quy t v n trờn nhi u cụng ty cung c p d ch vu Internert ó v ang
phỏt tri n cỏc h th ng tỡm ki m v ỏnh giỏ thụng tin.Cỏc mỏy tỡm ki mSearch Engine
Trong ch
c xõy d ng nh m t cụng c gi i quy t cỏc v n ú.
ng ny ta nghiờn c u cỏc v n liờn quan n tỡm ki m thụng tin,
õy chớnh l nh ng c s toỏn h c c t y u thi t k lờn cỏc Search Engine
ph c v cỏc yờu c u tỡm ki m thụng tin.
1.2 Tỡm ki m thụng tin
1.2.1 Gi i thi u:
Thụng tin l m t khỏi ni m tr u t
ng khụng nh ngh a, thụng tin cú th
l õm thanh hỡnh nh c ng cú th l s ki n.Chỳng ta phõn tớch cỏc v n tỡm
ki m thụng tin trờn c s d li u d ng text b i hai nguyờn nhõn:
S hi u bi t v ph
ng phỏp ny r t h u d ng v
c coi
nh l thụng tin n n t ng cho cỏc phỏt tri n m i h n
cho cỏc ph
S phỏt tri n ho c m r ng ph
ng phỏp khỏc
ng phỏp ny l tr ng tõm
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Gi s chúng ta c n tài li u v m t ch đ , chúng ta bi t các t khóa đ c
tr ng cho v n đ đó, khi đó t m t chu i các t khóa nh p vào u c u xác đ nh
các tài li u có ch a chu i t đó.
ây chính là u c u đ t ra cho các Search
Engine mà chúng ta s nghiên c u
ch
KIL
OBO
OKS
.CO
M
ng 2 c a lu n v n, bây gi chúng ta s
nghiên c u nh ng c s khoa h c cho vi c tìm ki m đó.
1.2.2 Ph
Các ph
ng pháp tìm ki m v n b n c đi n
ng pháp tìm ki m g n li n v i cách bi u di n các ch m c c a
các tài li u, vì v y chúng ta s xem xét chúng song song nhau:
a.Qt tồn b tài li u:
Ph
ng pháp tr c ti p nh t đ xác đ nh tài li u có ch a m t chu i kí t
c n tìm ki m c th là tìm ki m tồn b tài li u. M t thu t tốn đ n gi n đ th c
hi n đi u này:
Xu t phát t ký t đ u tiên trong tài li u, trích ra m t chu i
con b t đ u t kí t đó, so sánh chu i con này v i chu i ngu n c n so
sánh
N u có s khác bi t d ch chu i con c a tài li u m t kí t sang
bên ph i c a tài li u
L p l i cho t i khi tìm đ
c chu i con th a mãn ho c duy t
h t tài li u, k t lu n chu i con khơng có trong tài li u
Thu t tốn trên đ n gi n nh ng r t ch m. N u m là chi u dài chu i c n
tìm ki m và n là chiêu dài c a v n b n thì s phép so sánh t i đa mà thu t tốn
c n th c hi n là m*(n-m) phép so sánh.
ã có r t nhi u c i ti n cho ph
pháp này: th c hi n ti n s lý chu i c n tìm ki m nh m t ng s b
ng
c d ch
chuy n sau m i l n so sánh, ho c s d ng Automate tr ng thái so sánh m t lúc
nhi u xâu. Các thu t tốn này đ u khơng u c u chi phí khơng gian tuy nhiên
m i khi tài li u c p nh t, thay đ i thì chúng l i ph i đánh l i ch m c t đ u vì
v y, ph
ng pháp qt tồn b ch thích h p đ t o ch m c các tài li u v n h c
ho c thi t k cho các ph n c ng chun d ng
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
b.S d ng t p ký hi u
Ph
ng pháp này s d ng m t file kí hi u đ i v i m i tài li u đ
ch m c. Có nhi u ph
ng pháp t o file kí hi u đã đ
c đè xu t. Ph
ct o
ng pháp
KIL
OBO
OKS
.CO
M
đ n gi n nh t có th k đ n là Bitstring. M i m t tài li u c n t o ch m c cho
ng v i m t chu i bít xác đ nh s xu t hi n c a các t trong tài li u.Gi s trong
tài li u có t t g m nhi u kí t , n u chúng ta quan tâm đ n s kí t đ u tiên c a t
này thì ng v i m i kí t quan tâm bi u di n nó b ng m t chu i bít có đ dài là
s, m t cách đ n gi n là cho t
ng ng mã ASCII c a kí t đó v i m t chu i bit
nh phân có chi u dài s, nh v y ng v i m t t trong tài li u ta có th bi u di n
b ng s chu i bit nh phân, m i chu i có đ dài w đ nh tr
c.Ví d quan tâm t i 3
kí t đ u tiên trong các t sau ta có. Các ký t đ u tiên có mã ASCII d ng octal
nh b ng sau:
T
Nor
Her
Hunger
Eased
Ký t th nh t
Kí t th hai
Kí t th ba
116
157
162
150
145
162
150
165
156
145
141
163
S d ng hàm chuy n f(c) = 2
( c mod 8 )
chuy n các ký t trên d
i d ng các
chu i nh phân có chi u dài 8 bit:
T
Nor
Her
Hunger
Chuy n thành các chu i bit nh phân
01 000 000
10 000 000
00 000 001
00 100 000
00 000 001
00 100 000
00 000
100
00 000
100
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Eased
00 100 000
00 000 010
00 100
000
KIL
OBO
OKS
.CO
M
00 001
000
Khụng cú s phõn bi t cỏc t gi ng nhau trong ti li u, i u ny cú ngh a
l: cỏc t gi ng nhau trong ti li u cú chung m t giỏ tr bit. Thụng th
khi t o file kớ hi u cỏc t trong ti li u
ng tr
c
c phõn tớch lo i b cỏc t vụ ngh a,
chu n húa cỏc t bi n d ng v t g c, khi ú ta cú t p cỏc thu t ng (term). M i
cõu truy v n
c phõn tớch nh m t ti li u, s so sỏnh x y ra trờn cỏc chu i bớt
ó t o theo quy t c trờn
gi m th i gian x lý tỡm ki m trong cỏc file ký hi u ng
ph
ng phỏp Bitslice. ý t
ng c a ph
i ta xu t
ng phỏp ny l t o file ký hi u cho ton
b c s d li u text. ( C s d li u text l c s d li u ch a cỏc ti li u d ng
text, m i b n ghi cú th coi l m t danh sỏch cỏc t thu c m t ti li u trong c
s d li u). Gi s ta cú N ti li u trong m t c s d li u, v i m i t cú xu t
hi n trong cỏc ti li u ta xõy d ng m t chu i bit cú chi u di l N (cỏc slice),
chu i bớt th i xỏc nh s cú m t c a t ú trong ti li u th i c a c s d li u.
Ph
ng phỏp Bitslice tr nờn khụng thớch h p i v i c s d li u l n,
gi s m t c s d li u text cú hng tri u b n ghi, thỡ chi u di cỏc chu i bit
(slice) trong file ký hi u l r t l n. Ph
ng phỏp Blocked Signature File
phỏt tri n gi i quy t v n trờn. Theo ph
c
ng phỏp ny m i m t bit trong
cỏc bitslice th hi n s xu t hi n c a t m nú bi u di n trong m t nhúm cỏc ti
li u
c xỏc nh tr
c. V n d t ra
õy l: i v i yờu c u tỡm ki m cỏc
ti li u ch a t t c cỏc t trong m t cõu truy v n (Disconjunctive query) m t
kh i cú th th a món yờu c u tỡm ki m nh ng khụng cú ti li u no trong kh i
th a món yờu c u tỡm ki m ú. Chỳng ta cú th gi m tỡnh tr ng ny b ng cỏch
s p x p cỏc ti li u vo nhi u kh i khỏc nhau, cựng m t ti li u cú th thu c
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
kh i 1, khụi 2,... Gi s m i t xu t hi n trong ti li u c n bi u di n b i m t
chu i bit cú chi u di l w, trong ph c ú K block ch a t ú, th thỡ s cú w k
side trong t p kớ hi u bi u di n t ny. Ph
trờn ch cú th gi m ph n no sai sút (false match) ch khụng
KIL
OBO
OKS
.CO
M
phỏp xu t
ng phỏp Block File Signature ng
m b o ch c ch n sai xút s khụng x y ra. Chỳng ta xem xột m t mụ hỡnh toỏn
h c ỏp d ng cho vi c ỏnh giỏ m c chớnh xỏc trong ph
ng phỏp t o file kớ
hi u. Gi s m t v n b n cú t thu t ng khỏc nhau, ng v i m i thu t ng ta
dựng s chu i bớt t o t p kớ hi u, m i chu i bớt cú chi u di l w, Khi ú ta c n
xỏc nh s*t chu i bớt cho t p kớ hi u. G i p(w,s,t) l giỏ tr nh kh n ng m t
ti li u th a món yờu c u truy v n khi tỡm trong t p ký hi u, nh ng khụng ph i
l ti li u th a món. D a vo cỏc tớnh toỏn khoa h c ta cú
P(w,s,t) = 1 (1 1w)
s*t
s
Vớ d : m t ti li u cú 150 thu t ng khỏc nhau, m i thu t ng
c bi u
di n b i 8 chu i bit, m i chu i cú chi u di l 5000, s d ng cụng th c trờn ta
cú th tớnh m c sai l ch trong k t qu tỡm ki m l: 1100000 .
c.S d ng file ngh ch o
Khỏc v i ph
ng phỏp s d ng t p ký hi u, ph
ng phỏp s d ng t p
ngh ch o ( inverted file ) t o ra cỏc danh sỏch cỏc t khúa cú trong c s d
li u, cỏc cõu truy v n
c x lý b ng cỏch so sỏnh v i danh sỏch cỏc t khúa
ny r i tỡm ra cỏc ti li u ch a cỏc t khúa th a món cõu truy v n. M t file
ngh ch o bao g m hai ph n: danh sỏch cỏc t khúa
c index ch a trong ti
li u v danh sỏch tr t i cỏc ti li u ch a cỏc t khúa ú.
file ngh ch o cỏc ti li u trong c s d li u
thu g n kớch th
c
c gỏn m t nh danh duy nh t
(docID), cỏc liờn k t t i ti li u ch n gi n l l u cỏc nh danh c a ti li u
t
ng ng. Quỏ trỡnh t o ra cỏc t p ngh ch o bao g m 3 b
c:
Document File: Xỏc nh cỏc t trong ti li u s
c index, õy l
cỏc t cú ý ngh a, t khúa, lo i b cỏc t khụng c n thi t, ch a ng ớt thụn tin:
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
cỏc gi i t , cỏc liờn t , cỏc th trong trang hrml...khi ú ta
c t p cỏc t v ng
(vocabulary)
Dictionary: Th ng kờ t n su t xu t hi n v v trớ c a cỏc t trong
trờn, s p x p chỳng l i theo m t tr t t h p lý cú ý ngh a
KIL
OBO
OKS
.CO
M
t p t v ng
Invertion list: K t h p hai b
c trờn t o ra cỏc file ngh ch o ch a
cỏc liờn k t t i cỏc ti li u ch a cỏc t khúa ó xỏc nh
Khỏc v i ph
trờn.
ng phỏp t p ký hi u, khụng cú s sai khỏc khi tỡm ki m
trờn cỏc file ngh ch o (false match) lý do l cỏc t khúa xu t hi n trong cỏc file
ngh ch o chớnh xỏc nh trong ti li u, liờn k t
c xỏc nh t
khụng cú s nh m l n. Nhi u nghiờn c u v hai ph
ng phỏp file ngh ch o v
file kớ hi u cho th y cựng v i m t cõu truy v n ph
ng phỏp file ngh ch o cho
k t qu tỡm chớnh xỏc, nhanh h n ph
phỏp nộn thụng tin, kớch th
hi u, do ú ph
d ng
ng minh nờn
ng phỏp t p kớ hi u, s d ng ph
c file ngh ch o c ng nh h n kớch th
ng phỏp s d ng file ngh ch o ang
ng
c t p ký
c phỏt tri n v s
h u h t cỏc Search Engine hi n nay.
d.Tỡm ki m theo mụ hỡnh vec t phõn nhúm
Ph
ti li u d
ng phỏp tỡm ki m theo mụ hỡnh vect d a trờn ý t
ng bi u di n cỏc
i d ng cỏc vec t , cỏc thnh ph n c a vộc t l cỏc t khúa s
index, giỏ tr c a cỏc thnh ph n ỏnh giỏ quan tr ng c a t khúa th
t n su t xu t hi n c a nú trong ti li u ho c
ng l
c tớnh toỏn theo m t cụng th c
no ú. Theo cỏch th c trờn m t c s d li u text cú n ti li u, m t khúa
bi u di n b ng m t ma tr n a cú kớch th
c
c
c m*n ( n vộc t m i vộc t cú m
chi u). Giỏ tr ph n t aij th hi n quan tr ng c a t khúa.
M t vớ d n gi n: ta cú c s d li u cỏc 7 tiờu sỏch:
Ti li u
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Infant & Toddler First Aid
1:
Babies & Childrens Room (For your home)
2:
KIL
OBO
OKS
.CO
M
Child Safety at Home
Your Babys Health and Safety: From Infant to
Toddler
3:
4:
Baby Proofing Basics
Your Guide to Easy Rust Proofing
Beanie Babies Collectors Guide
5:
6:
7:
Cỏc t g ch chõn
khoỏ:
c xỏc nh lm cỏc t khúa, ta cú danh sỏch cỏc t
T khoỏ
T1
Bab(y, ies)
T2
Child(rens)
T3
Guide
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Health
T5
Home
T6
Infant
KIL
OBO
OKS
.CO
M
T4
T7
Proofing
T8
Safety
T9
Toddler
Khi đó m t ma tr n bi u di n cho c s d li u trên v i aij là t n xu t xu t
hi n các t khóa là:
0
0
0
0
A 0
1
0
0
1
~
1 0 1 1 0 1
1 1 0 0 0 0
0 0 0 0 1 1
0 0 1 0 0 0
1 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 1 0
0 1 1 0 0 0
0 0 1 0 0 0
Trong c s d li u trên m i t khóa ch xu t hi n m t l n, tuy nhiên
trong các c s d li u l n s l n xu t hi n c a m t t khóa có th r t nhi u l n,
đ nh t quán các ph
chu n nào đó,
ng pháp x lý ng
i ta đ a ma tr n trên v m t d ng
đây ta dùng d ng chu n Euclide đ chu n hóa các véc t
v i các tài li u, ma tr n h p thành các véc t đó là các ma tr n đ
hóa.Gi s véc t x=(x1,x2,...,xn) khi đó chu n Euclide c a véc t này đ
đ nh nh sau:
ng
c chu n
c xác
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
x 2 xT x
ang xột l:
x
i 1
2
i
c chu n húa t
ng ng v i ma tr n
KIL
OBO
OKS
.CO
M
ỏp d ng chu n trờn ta cú ma trõn
m
0.5774
0
0
0.5774 0.5774
0
0
0
0
0
0
0
A 0
0.5774 0.5774
0.7071
0
0
0
0
0
0
0
0.5774
0
0
0.7071
C ng nh hai ph
ng phỏp tr
0.7071
0
0
0
0
0.7071 0.7071
0
0
0
0
0
0
0
0
0
0.7071 0.7071
0
0
0
0
0
0
0
0.4472 0.7071
0
0
0.4472
0
0.4472
0
0.4472
0.4472
0
c (t p ngh ch o v t p kớ hi u) cỏc ti
li u s d ng mụ hỡnh vộc t c ng cú b
c ti n x lý cỏc ti li u xỏc nh cỏc
t khúa, nũ bao g m cỏc cụng vi c: lo i b cỏc t khụng c n thi t, quy chu n
cỏc t ng õm, cỏc t bi n d ng c a t g c...vi c x lý hi u qu v n ny c n
cú nh ng thu t toỏn c th khụng n m trong v n nghiờn c u c a lu n v n.
Cỏc cõu truy v n tỡm ki m c ng
c bi u di n d
i d ng m t vộc t vi c
tỡm ra cỏc ti li u th a món yờu c u ch n gi n l so sỏnh g n nhau gi a cỏc
vec t trong ma tr n bi u di n c a c s d li u. Gi s bi u di n
truy v n d
c m t cõu
i d ng q=(q 1, q2, q3,..., qn)
g n c a cõu truy v n q, v i ti li u th j trongc s d li u
theo cụng th c
m
cos j
T
j
a q
aj
2
q
2
a
i 1
m
aij2
i 1
q
ij i
m
q
i 1
2
i
c tớnh
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Trong vớ d ang xột, v i cõu truy v n: tỡm cỏc sỏch cú n i dung: Child
Home Safety. Vec t bi u di n cho cõu truy v n ny l:
q = (0 1 0 0 1 0 0 1 0)T
c th a món c a cõu truy v n ny v i cỏc ti
KIL
OBO
OKS
.CO
M
Chỳng ta d dng tớnh
li u ang xột nh sau: cos2 = 0.6667, cos3 = 1.0000 v cos4 = 0.2582 cỏc ti
li u cũn l i g n coi nh b ng 0. N u t ng
ng l 0.5 thỡ cỏc ti li u th a
món yờu c u tỡm ki m l: ti li u s 2 (Babies & Childrens Room (For your
home)) v ti li u s 3 (Child Safety at Home).
1.2.3 Ph
ng phỏp s d ng thụng tin ng ngh a
Cỏc k thu t thu t tỡm ki m thụng tin ta ó xột khụng s d ng cỏc thụng
tin c tr ng c a ti li u nú ch n gi n l d a trờn k thu t i sỏnh t tỡm
t ng chớnh xỏc v t c tỡm ki m ng
ra ti li u tho món.
v ỏp d ng m t ph
i ta ngiờn c u
ng phỏp m i trong vi c tỡm ki m thụng tin. Cỏc ph
ng
phỏp ny cú th chia thnh ba l p:
nhiờn
Ph
ng phỏp s d ng phõn tớch cỳ phỏp v x lý ngụn ng t
Ph
ng phỏp ch m c ng ngh a( Latent Semantic Indexing)
Ph
ng phỏp s d ng m ng Neural
Chỳng ta l n l
a. Ph
t xem xột cỏc ph
ng phỏp tỡm ki m ny:
ng phỏp s d ng phõn tớch cỳ phỏp v ngụn ng t nhiờn
N i dung c a ph
ng phỏp ny l so sỏnh ng ngh a c a cõu truy v n v i
ng ngh a c a cỏc ti li u. Nh v y trong cỏc ti li u khụng ph i
m c theo cỏc t khoỏ trong nú m
c t o ch
c ỏnh ch m c theo ng ngh a c a nú.
phõn tớch ng ngh a c a ti li u ta dựng m t danh sỏch d ng lo i b cỏc t ,
c m t cú m c ý ngh a th p ch n ra cỏc c m t cú ý ngh a cao t o l p ch
m c. Vi c xỏc nh ý ngh a c a cỏc c m t chớnh l s d ng cỏc k t qu c a
ph
ng phỏp phõn tớch ngụn ng t nhiờn: u tiờn ta phõn tỏch cỏc cõu cú trong
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
ti li u sau ú ch n ra cỏc c m t cú ý ngh a cỏc c m t ny g i l cỏc c m t
khoỏ, chỳng cú th
nhúm
c nhúm v i nhau t o ra cỏc nhúm c m t khoỏ, vi c ghộp
c th c hi n d dng nh m t t i n phõn tỏch. Salton ngh m t mụ
c bi u di n b ng 3 vộc t : vộc t t khúa (
KIL
OBO
OKS
.CO
M
hỡnh t o ch m c m t ti li u
keyword vector), vộc t cõu (sentence vector), vộc t o n (paragraph vector),
vộc t t ng ph n c a ti li u ( section vector). Cỏc c m t khoỏ ch a nhi u
thụng tin h n cỏc t khoỏ vớ d v i c m t Search Engine chỳng ta bú g n
ph m vi tỡm ki m r t nhi u so v i hai t khoỏ: Search v Engine tuy nhiờn
nh
c i m l l gi m hi u qu c a vi c i sỏnh t ho c gõy khú kh n cho vi c
phõn nhúm. V n khú kh n nh t trong ph
ng phỏp ny l phõn tớch ng
ngh a c a cỏc cõu, trong th i gian g n õy, vi c mụ hỡnh hoỏ cỏc c u trỳc ng
phỏp c a ngụn ng t nhiờn t nhi u ti n b õy chớnh l ti n cho ph
ng
phỏp tỡm ki m ny phỏt tri n m nh m v cú hi u l c h n
b. Ph
ng phỏp s d ng ch m c ng ngh a
Ph
ng phỏp ny l m t s c i ti n ph
ng phỏp t o ch m c vộc t
c i n. T m t ma tr n ti li u cú t hng, m c t (c t l cỏc t khoỏ xu t hi n
trong m t t p cỏc ti li u
c nhúm t tr
c, cỏc hng c tr ng cho s xu t
hi n c a t khoỏ trong t p ti li u trờn) ta xột s phõn ró giỏ tr suy bi n SVD
(Singular Value Decomposition) theo cụng th c :
SVD: X=T0S0D 0T
trỏi
Trong ú T0(t*m) l ma tr n tr c chu n c a vộc t suy bi n
S0(m*m) l ma tr n
ng chộo c a giỏ tr suy bi n x p x p
theo th t gi m d n
ph i
c. Ph
Trong ú D0(t*m) l ma tr n tr c chu n c a vộc t suy bi n
ng phỏp s d ng m ng Neural
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
1.4 ỏnh giỏ quan tr ng c a t khoỏ
Cỏc ph
ng phỏp tỡm ki m u d a trờn cỏc t khoỏ xu t hi n trong ti
li u, trong ph n ny chỳng ta a ra cỏc ph
ng phỏp xỏc nh quan tr ng
M t ph
KIL
OBO
OKS
.CO
M
khoỏ ú
c a cỏc t
ng phỏp tr c quan v hay s d ng nh t l c n c vo t n xu t
xu t hi n c a cỏc t khoỏ, t khoỏ no xu t hi n nhi u h n thỡ quan tr ng cao
h n v ng
c l i, ph
ng phỏp ny khỏ n gi n trong thao tỏc ci t, tuy
nhiờn hi u qu ch a cao, trong cỏc ngụn ng m t t cú th xu t hi n nhi u l n
nh ng khụng ph i l t
cú ý ngh a, vớ d
the,a,an... cỏc gi i t
trong ti ng anh cỏc m o t :
for,by... l nh ng t
khụng cú nhi u ý ngh a, m c dự h n ch ny
cú t n xu t cao nh ng
c kh c ph c b ng m t danh
sỏch d ng (stop words) tuy nhiờn v n gi m hi u qu c a vi c tỡm ki m, ng
i ta
ó xu t nhi u cụng th c xỏc nh tr ng s c a t khoỏ d a vo t n xu t xu t
hi n c a t khoỏ vớ d :
wij (1 log( f ij )) * (1 log(
wij f ij * log(
N
)) ho c
fi
N
)
f i
Trong ú
wij l tr ng s c a t khoỏ i trong ti li u j
fij l t n xu t xu t hi n c a t i trong ti li u j
fij+ l sụ l
ng ti li u ch a ớt nh t m t t khoỏ i
K t h p v i t n xu t xu t hi n c a t khoỏ ng
i ta quan tõm n v trớ
xu t hi n c a t trong ti li u, cỏc t khoỏ xu t hi n
tiờu , ph n n i dung
túm t t
c ỏnh giỏ cao h n cỏc t xu t hi n trong n i dung... m i v trớ
gỏn m t giỏ tr xỏc nh tu theo ng
i qu n tr , nhõn h s ny v i tr ng s
c xỏc nh theo cụng th c trờn ta cú k t qu tr ng s c a t khoỏ
1.5 K t lu n v cỏc ph
ng phỏp tỡm ki m thụng tin
c
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
ng 2: T ng quan v Search Engine
KIL
OBO
OKS
.CO
M
Ch
2.1 Khỏi ni m v Search Engine
Search Engine cú th
ng
c nh ngh a l m t cụng c tin h c giỳp con
i trong vi c tỡm ki m v tr v thụng tin c n thi t trờn Internet. M t Search
Engine ph i ỏp ng
c hai yờu c u c b n :
Thụng tin tỡm
c ph i ỏp ng yờu c u ng
Th i gian tỡm ki m trờn kh i l
c
Cỏc yờu c u c a ng
i dựng
ng thụng tin kh ng l l ch p nh n
i dựng l khụng y nh ng h l i mu n nh n l i
thụng tin chớnh xỏc v cú t ch c.Trờn quan i m h tr ng
Engine cú th
i dựng cỏc Search
c ỏnh giỏ theo cỏc tiờu chớ sau:
Hi u qu trong vi c nh v v phõn lo i cỏc ti li u web
Tỡm ki m
qu g n ng
c trờn ph m vi r ng(ton b Internet)
ỏnh giỏ v phõn lo i
c thụng tin nh ú cú th hi n th
ck t
i dựng nh t
C p nh t
c cỏc thay i thụng tin trờn Internet
Truy c p
c nh nhau v i m i lo i trang web
D dng s d ng, cú giao di n thõn thi n v i ng
Thớch nghi t t v i cỏc yờu c u tỡm ki m c a ng
i dựng
i s d ng
2.2 Ki n trỳc v c ch ho t ng c a Search Engine.
2.2.1 Ki n trỳc c a Search Engine
Ph n l n cỏc Search Engine hi n nay cú c u trỳc g m hai thnh ph n
chớnh: Ph n thu th p ti li u( Crawler) v ph n t o ch m c cỏc ti li u(
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Indexer). Trong đó ph n Crawler làm nhi m v thu th p tìm ki m các tài li u
b ng cách g i các yêu c u đ n các máy ch Web còn Indexer t o ch m c cho
các tài li u này đ ph c v cho vi c tìm ki m sau này.
b.
T
Crawler
KIL
OBO
OKS
.CO
M
a.
Indexer
ng tác tr c ti p v i hai thành ph n trên là h th ng các c s d li u.
Tu theo các yêu c u khác nhau mà các Search Engine có h th ng c s d li u
ph c t p và chia thành các thành ph n khác nhau, tuy nhiên nhìn chung m t
Search Engine th
ng có các c s d li u sau:
C s d li u v các URL: l u tr các đ a ch các tài li u đã thu th p
đ
c
C s d li u ch a các tài li u tr
d ng
C s d li u các tài li u đã đ
c và sau khi chuy n đ i khuôn
c Index
C s d li u ph c v các m c đích chuyên bi t: Ch a các t đ ng
âm, c d ng khác nhau c a m t t , ...
Không ph i Search Engine nào c ng ph i có đ y đ các c s d li u trên
th m chí các Search Engine ph c v cho m t m c đích đ c bi t c n có các c s
d li u chuyên bi t ph c v cho m c đích đó.
2.2.2 C ch ho t đ ng c a Search Engine
ng v i hai thành ph n Search Engine có hai ho t đ ng c b n: Thu th p
và phân lo i t o ch m c cho thông tin.
mà ng
Web
u tiên xu t phát t t p các đ a ch URL
i qu n tr cung c p Web Clawler tìm đ n các máy ch ch a các trang
đ a ch này đ l y v các trang t
ng ng.S d ng các công c có s n c a
mình Search Engine trích ch n thông tin t các trang này.Thông tin th nh t mà
Search Engine quan tâm là t p các đ a ch URL có trong trang Web, xem xét
nh ng đ a ch m i Search Engine c p nh t l i c s d li u URL c a mình.
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Thơng tin th hai là n i dung cua trang Web, thơng tin này đ
c chuy n cho
ph n Indexer.Search Engine khơng nh ng c p nh t d li u URL t nh ng URL
tìm th y trong các trang Web, nó còn cho phép c p nh t tr c ti p t ng
c c p nh t nhanh h n và đ y đ h n,
KIL
OBO
OKS
.CO
M
tr . i u này cho phép c s d li u đ
m t khác nó còn mang tính th
i qu n
ng m i cao, ch các Web site mu n qu ng bá
các trang Web c a mình c n ph i tr ti n đ Search Engine c p nh t đ a ch . V i
quan đi m coi tồn b m ng Internet là m t đ th l n, các đ nh là các trang
Web, chúng đ
c n i v i nhau thơng qua các đ a ch liên k t dùng các thu t
tốn duy t đ th c đi n ta d dàng duy t tồn b các trang Web trên Internet.
ng v i hai ph
ng pháp duy t đ th thơng th
ng ta có hai ph
ng
pháp tìm ki m trên Search Engine: Tìm theo chi u sâu (Depth in First ) và tìm
theo chi u r ng (Breadth in First).Thep ph
ng pháp th nh t – tìm ki m theo
chi u sâu, Web Clawler xác đ nh đ a ch liên k t c a site hi n th i, truy c p nó
r i truy c p t i nh ng đ a ch liên k t c a site m i, ti p t c nh v y cho t i khi
khơng truy c p đ
c n a thi quay l i. V i ph
ng pháp này Web Clawler có th
tìm ki m chun sâu v n đ nào đó mà site cung c p.N u s d ng ph
tim ki m theo chi u r ng Web Clawler l n l
site hi n th i r i truy c p nh ng đ a ch liên k t
ng pháp
t truy c p các đ a ch liên k t
các site m i. Ph
ng pháp này
làm cho Web Clawler thu th p thơng tin trên nhi u l nh v c khác nhau. Tu theo
u c u khác nhau mà quy t đ nh ph
c hai ph
ng pháp tìm ki m. T c đ tìm ki m theo
ng pháp đ u ph thu c vào t c đ đ
ng truy n và kh n ng đáp ng
u c u c a t ng site. Nhìn chung t c đ truy c p c a Web Crawler theo
ph
ng pháp tìm ki m theo chi u sâu ít n đ nh ph
ng pháp tìm ki m theo
chi u r ng b i vì nó liên t c tìm ki m trên các Web site có h tr t c đ khác
nhau.
Các thơng tin do Web Clawler thu th p qua m t s b
c ti n x lý: đ nh
d ng, lo i b thơng tin d th a phân lo i n i dung r i chuy n cho Indexer đ t o
ch m c. Các Search Engine khác nhau th c hi n thao tác ti n x lý khác nhau.
Ngồi các đ nh d ng tài li u quen thu c (*.html, *.txt, ...) m t s Search Engine
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
cú th nh d ng
c cỏc ti li u c bi t (*.doc, *.pdf ...). M i Search Engine
c thi t k cho cỏc m c ớch khỏc nhau nờn quan i m thụng tin d th a c a
khỏc nhau. Cỏc Search Engine ph c v tỡm ki m ti li u khoa h c ch quan tõm
KIL
OBO
OKS
.CO
M
n nh ng t khoỏ chuyờn ngnh c a mỡnh, tuy nhiờn Search Engine tỡm ki m
cỏc v n b n v n h c l i quan tõm n nhi u t , ng h n. Phõn lo i ti li u c ng
khỏc nhau
cỏc Search Engine. Xột theo quan i m h th ng cú hai ph
phỏp phõn lo i chớnh: phõn lo i t
ng
i.Ph
ng
ng v phõn lo i tr c giỏc c a con
ng phỏp phõn lo i t ng
c th c hi n b i mỏy tớnh. Cỏc ch
ng
trỡnh phõn tớch ti li u tỡm ra cỏc t khoỏ trong ti li u, t ng x p x p theo cỏc
danh m c theo ph
ng phỏp ó l p s n, Ph
ng phỏp ny cú
u th nhanh
chúng, gi m i ph n vi c m t m i thi u h ng thỳ i v i con ng
i, tuy nhiờn
cỏc quy t c c ng nh c lm ch m c c a cỏc ti li u thi u chớnh xỏc, ph
phỏp th hai phõn lo i th cụng, ng
ng
i qu n tr Search Engine c n i dung ti
li u xem xột v x p chỳng vo danh m c thớch h p.Ph
ng phỏp ny chớnh xỏc
nh ng t n m t nhi u th i gian v kinh phớ, cỏc serch engine ngy nay cú xu
h
ng t p chung th i gian v kinh phớ nõng c p cỏc modul phõn tớch ti li u
cú th phõn tớch v phõn lo i ti li u cú chớnh xỏc cao h n. D li u
c
Index cú th t ch c theo nhi u c u trỳc khỏc nhau vớ d : s d ng cỏc t p tin o
(inverted file), s d ng c u trỳc cõy...
2.3 Phõn lo i Search Engine
Cú r t nhi u Search Engine ang ho t ng trờn Internet m i lo i s d ng
cỏc ph
ng phỏp, cụng ngh khỏc nhau.D a vo cụng ngh tỡm ki m chỳng ta
cú th thnh 6 lo i sau: hyperlink exploration, information retrieval, metasearch,
SQL approach, contet-based multimedia search, v cỏc lo i cũn l i. V i m c
ớch c a lu n v n chỳng ta chia cỏc Search Engine thnh hai lo i d a vo
ph
ng phỏp tỡm ki m: tỡm ki m thụng th
ng v siờu tỡm ki m (metasearch)
2.3.1 Search Engine s d ng ph
ng phỏp thụng th
Cỏc Search Engine s d ng ph
ng phỏp tỡm ki m thụng th
Search Engine ph c v yờu c u tỡm ki m theo ỳng ý t
ng
ng l cỏc
ng nguyờn th y c a nú:
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
thu th p tài li u, phân lo i ...Có hai cách t o ch m c cho các Search Engine lo i
này: s d ng câu th m c ch đ và t o ch m c t đ ng.
Ph
ng pháp th m c ch đ là ph
đ
i đ c và phân lo i các tài li u thu th p đ
c.Các site trên internet
KIL
OBO
OKS
.CO
M
đó con ng
ng pháp phân lo i th công, trong
c phân lo i theo ch đ v i các c p chi ti t h n ch đ . Cac ch đ m c th p
nh t th
ng là m t chuyên ngành hay m t l nh v c r ng, các c p ti p theo đi
vào t ng b ph n thu c chuyên ngành, l nh v c đó và m c cu i cùng ch đ n các
tài li u c th . V i ph
ng pháp này ng
i s d ng tìm ki m thông tin c n thi t
b ng cách ch n m t ch đ , đi sâu vào ch đ đó cho t i khi tìm đ
c thông tin
mong mu n. Có th hình dung cách tìm ki m này gi ng nh tìm file trong các
th m c.C ch trên làm k t qu tìm ki m c a Search Engine chính xác v i
mong mu n c a ng
ph
i dùng, c s d li u l u ch m c c ng nh h n so v i các
ng pháp khác. Tuy nhiên th m c ch đ l i quá ph thu c vào mô t ch
quan c a ng òi phân lo i. N u vi c mô t này không rõ ràng và chính xác thì
ng
i dùng khó có th nhân đ
Ph
c k t qu theo mong mu n
ng pháp t o ch m c th hai d a trên c ch phân lo i t đ ng các
trang Web tìm đ
c, nh phân tích
ph n b c a m c này, vi c phân lo i di n ra
nhanh tróng, tuy nhiên do máy tính đ m nh n nên k t qu tr v th
ng không
chính xác, k t qu các tài li u tr v cho m t câu truy v n l n gây khó kh n cho
ng
i dùng.
Khó có s so sánh đ t i u đ i v i hai ph
vào s thích c a ng
ng pháp trên, nó ph thu c
i dùng và tính ch t c a công vi c tìm ki m
2.3.2 Meta Search Engine
Nh chúng ta đã bi t cùng v i m t câu truy v n các Search Engine khác
nhau cho ra k t qu khác nhau, lý do là c ch Index d li u c ng nh thông tin
trong c s d li u các tài li u đã đ
c Index là khác nhau
các Search Engine
khác nhau, đ kh c ph c tình tr ng này các Search Engine thu c lo i metesearch
đã đ
c t o ra. T t
ng c a metaserch Engine là giúp cho ng
i dùng không
ph i nh các đ a ch c ng nh cách th c s d ng c a nhi u Search Engine mà
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
v n ỏp ng
c yờu c u tỡm ki m thu th p thụng tin. Cỏc Search Engine lo i
ny giao ti p v i ng
i s d ng theo m t giao di n th ng nh t, ng
i dựng nh p
vo cỏc yờu c u tỡm ki m, metasearch engine phõn tớch cỏc cõu truy v n chuy n
KIL
OBO
OKS
.CO
M
cỏc yờu c u n cỏc Search Engine khỏc nh n l i k t qu s p x p v phõn lo i
chỳng r i tr l i cho ng
i dựng. Nh v y cỏc metaSearch Engine ph i hi u
c khuụn d ng cõu l nh tỡm ki m c ng nh c i m c a cỏc Search Engine
m chỳng nh yờu c u tỡm ki m, cụng vi c c a nú ti p theo l phõn lo i, i
chi u cỏc k t qu tỡm ki m t cỏc Search Engine khỏc nhau a ra k t qu
th ng nh t, õy l cụng vi c khú kh n nh t c a cỏc metasearch engine. Cỏc
search engine khụng l u a ch th ng nh t c a cỏc trang Web trờn internet do
ú cú th cựng m t trang Web cỏc search engine tr l i k t qu URL khỏc nhau.
Vớ d cựng a ch cú Search Engine cú th
l u gi a ch trờn ho c gi i quy t v n ny u
tiờn meta Search Engine so sỏnh a ch tờn mi n c a cỏc a ch , n u cỏc a ch
khỏc nhau cú tờn mi n gi ng nhau, meta Search Engine so sỏnh tiờu c a cỏc
trang Web ú, n u chỳng cú tiờu gi ng nhau cú th xem l alias c a nhau, tựy
theo cỏc xõy d ng Search Engine m cỏc alias cú th b xúa i ho c
c t
c nh nhau. Hi n ny ngoi cỏch t i v v so sỏnh y n i dung ch a cú
Search Engine c ng nh meta Search Engine no cú th phõn bi t
c hai trang
Web l b n sao c a nhau, m v n t i v v so sỏnh n i dung m t r t nhi u
th i gian vỡ v y chỳng ta t m th i ch p nh n ph
ng ỏn ó nờu trờn.
ỏnh giỏ chớnh xỏc c a cỏc c a cỏc ti li u so v i yờu c u tỡm ki m
cỏc meta search engine s d ng khỏi ni m i m tin c y (confidence score) .Ti
li u cú i m tin c y l n h n s thừa món yờu c u ng
i dựng l n h n v
c
x p lờn trờn.Cỏc meta Search Engine s d ng thang i m 1000 tớnh i m tin
c y , k t qu nh n v t cỏc search engine
c gỏn i m theo quy t c: k t qu
u tiờn gỏn giỏ tr 1000, sau ú gi m d n cho t i 0. Vỡ 1000 l con s khỏ l n
so v i s l
ng ti li u m ng
t 1000 tr i u
i dựng mu n nh n
c vỡ v y cỏc ti li u x p
c gỏn i m tin c y b ng 0. Sau ú meta Search Engine
ỏnh giỏ cỏc ti li u trựng nhau, gỏn i m tin c y
cỏc ti li u ny b ng t ng s
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
đi m tin c y c a các Search Engine tìm đ
đ
c tìm th y
c, đi u này có ngh a là các tài li u
nhi u Search Engine khác nhau s có đi m tin c y l n h n so
m t vài Search Engine. Cu i cùng meta Search
Engine tr l i k t qu cho ng
i dùng theo th t đi m tin c y v a tính đ
KIL
OBO
OKS
.CO
M
v i các tài li u ch tìm th y
c.
2.4 Các v n đ liên quan t i Search Engine
Search Engine bao g m hai ph n chính: thu th p và tìm ki m thông tin, vì
v y chúng ta nghiên c u hai v n đ liên quan theo c u trúc c a nó
2.4.1 V n đ thu th p thông tin:
Internet phát tri n m nh m đ ng ngh a v i kh i d li u ngày càng kh ng
l h n, theo th ng kê c a Baeza-Yates tính đ n n m 1999 trên th gi i đã có
kho ng 1 terabyte d li u d ng v n b n s l
ng đó s g p nhi u l n n u ta tính
t i các d li u multimedia (hình nh, âm thanh,video) kh i d li u đó phát tri n
hàng ngày, hàng gi v i t c đ ngày càng l n h n, M t khác các d li u đã có
l i thay đ i liên t c c p nh t ho c thay đ i theo ng
i dùng, các trang Web có
th xu t hi n ho c thay đ i đ a ch thâm chí b xóa đi mà không c n báo
tr
c.C ng theo Baeza-Yates có t i 40% trang Web c p nh t hàng tháng. Tính
ch t đ ng c ng nh kh i l
ng kh ng l c a d li u làm cho các Search Engine
ph i phát tri n m nh m không ng ng c i ti n k thu t đ b t k p s thay đ i đó.
Thu th p thông tin c ng g p khó kh n b i vì ch t l
ng c a d li u không đ
c
đ m b o b i nhà phát hành đi u đó có ngh a là các Search Engine có th tìm ra
nh ng thông tin có l i, thông tin không đ
c c p nh t, th m chí thông tin sai
l c.Thông tin đ a lên Internet không nh t thi t
d ng siêu v n b n, có r t nhi u
d li u v i các ki u c u trúc khác nhau gây khó kh n cho vi c hi u đ
c chúng.
M t v n đ khác đ t ra n a là: ngôn ng không nh t quán trên các tài li u, phân
l n các tài li u trên Internet là ti ng anh các Search Engine c ng chú y u phát
tri n
các n
c Anh, M tuy nhiên trên th gi i có r t nhi u ngôn ng khác
nhau, khó có th xây d ng m t Search Engine ph c v cho t t c ngôn ng trên,
M t s Search Engine có ch c n ng đa ngôn ng tuy nhiên đó ch là nh ng ng
d ng đ n l đ
c l p ghép l i v i nhau nên không nh t quán. Các qu c gia riêng
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
mu n ỏp ng yờu c u tỡm ki m thụng tin v i ngụn ng a ph
d ng nh ng h th ng h tr c thự ngụn ng c a mỡnh,
ng c n xõy
Vi t Nam ó cú m t
s Search Engine tỡm ki m thụng tin b ng ti ng vi t vớ d : VinaSeek ...
KIL
OBO
OKS
.CO
M
2.4.2 V n tỡm ki m thụng tin
V n ny cú th chia lm hai lo i: Nh n thụng tin truy v n v tr v
thụng tin. Yờu c u c a ng
i dựng l cỏc thụng tin khụng chớnh xỏc, ngụn ng
t nhiờn. S khụng chớnh xỏc cú th n m
ch quan ng
i s d ng: gừ sai chớnh
t , nh sai t khúa ... C ng cú th do y u t khỏch quan thụng tin l u gi khỏc
so v i yờu c u tỡm ki m, vớ d : ng
i dựng tỡm ki m thụng tin v Thomas Alva
Edisson, cỏc Search Engine cú th khụng a ra cỏc ti li u núi v Thomas
A.Edisson.Cỏc v n x lý t ng õm, x lý cỏc d ng bi n i c a t g c
c ng lm Search Engine khú kh n trong vi c a ra cỏc ti li u th a món yờu
c u.Nh ó phõn tớch
ph n trờn cú r t nhi u ph
ng phỏp nh n thụng tin truy
v n kh c ph c m t ph n cỏc v n ú. Hai ph
t ng
i dựng th
ng
ng phỏp nh n cõu truy v n
c s d ng l: Cho phộp ng
i dựng ch n cỏc t khúa
thụng h p nh p, ho c a ra cỏc l u nh n thụng tin truy v n qua cỏc cõu h i,
m t cỏch khỏc cho phộp ng
i dựng nh p theo ngụn ng t nhiờn Search Engine
s phõn tớch tỡm ra cỏc t khúa.V n tr l i k t qu tỡm
gi n, s l
ng ti li u tỡm
c l r t l n trong khi ng
c c ng khụng n
i dựng khụng cú th i
gian t i v phõn tớch cỏc ti li u tỡm ra ti li u phự h p nh t, cỏc Search
Engine c n cú c ch cho i m thớch h p theo m t ch tiờu c th ng
cú th t quy t nh
i dựng
c ti li u no phự h p nh t.
2.5 ỏnh giỏ Search Engine
2.6 Gi i thi u m t s Search Engine i n hỡnh
2.6.1 Search Engine Altavista
Altavista cú a ch Ki n trỳc c a nú cú th coi
nh l m t ki n trỳc i n hỡnh c a Search Engine, Altavista cú hai ph n rừ r t
crawler v indexer, ngoi ra cũn cú h th ng giao di n ng
i dựng v th c hi n