Tải bản đầy đủ (.pdf) (34 trang)

Xây dâng mô hình tìm kiếm thông tin theo Search Engine

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (467.47 KB, 34 trang )


THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN

M CL C
ng 1: Các ph

ng pháp thu th p thơng tin

OBO
OK S
.CO
M

Ch

1.1 S phát tri n c a internet và u c u tìm ki m thơng tin
1.2 Tìm ki m thơng tin
1.2.1 Gi i thi u:
1.2.2 Ph

ng pháp tìm ki m v n b n c đi n

a.Qt tồn b tài li u:
b.S d ng t p ký hi u

c.S d ng file ngh ch đ o

d.Tìm ki m theo mơ hình vec t phân nhóm
1.2.3 Ph

ng pháp s d ng thơng tin ng ngh a



a. Ph

ng pháp s d ng phân tích cú pháp và ngơn ng t nhiên

b. Ph

ng pháp s d ng ch m c ng ngh a

c. Ph

ng pháp s d ng m ng Neural

1.4 ánh giá đ quan tr ng c a t khố
1.5 K t lu n v các ph
Ch

ng pháp tìm ki m thơng tin

ng 2: T ng quan v Search Engine

2.1 Khái ni m v Search Engine

2.2 Ki n trúc và c ch ho t đ ng c a Search Engine.
2.2.1 Ki n trúc c a Search Engine

KIL

2.2.2 C ch ho t đ ng c a Search Engine
2.3 Phân lo i Search Engine


2.3.1 Search Engine s d ng ph

ng pháp thơng th

2.3.2 Meta Search Engine

2.4 Các v n đ liên quan t i Search Engine
2.4.1 V n đ thu th p thơng tin:
2.4.2 V n đ tìm ki m thơng tin
2.5 ánh giá Search Engine

ng



THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
2.6 Gi i thi u m t s Search Engine đi n hình
2.6.1 Search Engine Altavista
2.6.2 Search Engine Harvest
ng 3: Xây d ng mô hình tìm ki m thông tin theo Search Engine

KIL
OBO
OKS
.CO
M

Ch


3.1 Ki n trúc ch

ng trình

3.1.1 T o ch m c
3.1.2 Tìm ki m

3.2 Gi i thi u b th vi n Jakata Lucene
3.3 H
K t lu n

ng d n s d ng các ch c n ng



THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
L i nói đ u
Phát tri n t m t d án trong qn đ i Hoa K , ch trong vòng 30 n m
đ c bi t là th p k g n đây Internet đã phát tri n m nh m , len l i vào h u h t

KIL
OBO
OKS
.CO
M

các l nh v c trong cu c s ng, kh i l
nên đ s h n, con ng

ng thơng tin trên internet ngày càng tr


i h u nh có th nh n b t c thơng tin mình mong mu n

t Internet, tuy nhiên chính s đ s đó làm cho con ng
trí thơng tin mình c n, nh n đ

i khó đinh v đ

cv

c thơng tin mình mu n, u c u t t y u đ t ra là

ph i xây d ng các h th ng tìm ki m tho mãn u c u ng
Engine ra đ i nh m gi i quy t u c u đó. Chúng ta th

i dùng. Các Search

ng đ t ra nh ng u

c u khơng rõ ràng, nh ng câu truy v n thi u c u trúc mang tính ch t c a ngơn
ng t nhiên tuy nhên l i mu n nh n l i nh ng thơng tin chính xác, hay nói cách
khác chúng ta mu n nh n thơng tin chúng ta mu n ch khơng ph i nh ng thơng
tin u c u cho máy tính chính vì v y đ xây d ng m t Search Engine hồn
thi n là m t u c u g p nhi u khó kh n liên quan đ n nhi u ngành khoa h c:
phân tích ngơn ng t nhiên, tìm ki m thơng tin,... Lu n v n này đ a ra nh ng
nghiên c u mang tính ch t t ng quan v nh ng c s khoa h c đ xây d ng m t
Search Engine nh v y, đ ng th i gi i thi u m t s cơng ngh đang đ
d ng trong nh ng n m g n đây, v i t t
sau:
Ch


ng 1: Các ph

cs

ng nh v y lu n v n có b c c nh

ng pháp thu th p thơng tin

Trình bày nh ng c s tốn h c cho vi c Index d li u , các thu t tốn tìm
ki m t

ng ng v i các ph
Ch

ng pháp Index khác nhau

ng 2: T ng quan v Search Engine

Trình bày c u trúc và c ch ho t đ ng c a m t Search Engine đi n hình,
phân tích nh ng v n đ liên quan đ n Search Engine và gi i thi u m t s Search
Engine đ
Ch

c s d ng r ng rãi hi n nay.

ng 3: Xây d ng mơ hình tìm ki m thơng tin theo Search Engine




THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
a ra các b

c đ xây d ng m t h th ng tìm ki m hồn ch nh theo mơ

hình Search Engine v i ví d c th : H th ng tìm ki m Sách đi n t theo u
c u

h

c, h n ch c a lu n v n, và

KIL
OBO
OKS
.CO
M

Ph n k t lu n: Nêu nh ng k t qu đ t đ
ng phát tri n c a mơ hình tìm ki m trong t
Lu n v n đ

ng lai

c hồn thành v i s giúp đ nhi t tình c a các th y cơ b n

bè Xin g i l i c m n trân tr ng nh t t i PGS TSKH Nguy n Cát H ng
đ nh h

ng đ tài tr c ti p h


nhân Lê Qu c Thái nh ng ng

ng d n, Th c S

c nhân L u

i đã

c Trung, c

i ch b o t n tình trong su t q trình làm lu n

v n. Chân thành c m n các th y giáo trong khoa Tốn c tin đã trang b nh ng
ki n th c c b n trong su t b n n m h c v a qua, c m n s đ ng viên c a b n
bè, gia đình đã giúp đ tơi hồn thành lu n v n này.



THệ VIEN ẹIEN Tệ TRệẽC TUYEN

Ch

ng 1: Cỏc ph

ng phỏp thu th p thụng tin

KIL
OBO
OKS

.CO
M

1.1 S phỏt tri n c a internet v yờu c u tỡm ki m thụng tin
M ng Internet

c ra i t

nh ng n m 1970 v i tờn ban u l

ARPANET, l m ng c a b qu c phũng M .V i s ti n d ng v tớnh kh thi c a
mỡnh m ng ARPANET ó phỏt tri n m nh m thu hỳt s tham gia c a nhi u t
ch c trờn th gi i. Cho t i nay ó cú hng tri u cỏc mỏy ch khỏc nhau tham gia
trong m ng ton c u Internet.

Hub

Server

LAN

Hub

Server

Workstation

IBM Compatible

LAN


Workstation
IBM Compatible

Internet

Hub

Server

LAN

Hub

Server

Workstation

IBM Compatible

LAN

Workstation

hỡnh 1: S k t n i m ng c a cỏc mỏy tớnh

IBM Compatible




THệ VIEN ẹIEN Tệ TRệẽC TUYEN
ti m n ng cỏc d ch v s n cú c a nú

S thu n ti n c a Internet th hi n

nh : Telnet, FTP, Web ... S ra i c a Web ỏnh d u m t b

c thay i quan

tr ng trong s phỏt tri n c a Internet.Web hay cũn g i l World Wide Web l
ph

KIL
OBO
OKS
.CO
M

m t h th ng cỏc ti li u liờn k t trờn cỏc mỏy khỏc nhau.Web l h th ng a
ng ti n, cỏc ti li u cú th bao g m õm thanh, hỡnh nh v cỏc ph

truy n thụng khỏc.

ng ti n

ú l cỏc ti li u html (Hyper Text Make up Language). S

ti n d ng c a Web

c ch ng minh qua th c t v i hng lo t cỏc cụng ty, t


ch c tham gia phỏt tri n.

Internet phỏt tri n m nh m , i sõu vo m i l nh v c cu c s ng. S phỏt
tri n ú lm cho kh i l
con ng

ng thụng tin trờn Internet ngy cng tr nờn s h n,

i h u nh cú th nh n

c b t c thụng tin h mong mu n. Tuy nhiờn

s phỏt tri n ú c ng lm cho ng

i s d ng khú kh n h n trong vi c tỡm ra v

trớ thụng tin c n thi t c ng nh l a ch n

c nh ng thụng tin thớch h p nh t.

gi i quy t v n trờn nhi u cụng ty cung c p d ch vu Internert ó v ang
phỏt tri n cỏc h th ng tỡm ki m v ỏnh giỏ thụng tin.Cỏc mỏy tỡm ki mSearch Engine
Trong ch

c xõy d ng nh m t cụng c gi i quy t cỏc v n ú.

ng ny ta nghiờn c u cỏc v n liờn quan n tỡm ki m thụng tin,

õy chớnh l nh ng c s toỏn h c c t y u thi t k lờn cỏc Search Engine

ph c v cỏc yờu c u tỡm ki m thụng tin.
1.2 Tỡm ki m thụng tin
1.2.1 Gi i thi u:

Thụng tin l m t khỏi ni m tr u t

ng khụng nh ngh a, thụng tin cú th

l õm thanh hỡnh nh c ng cú th l s ki n.Chỳng ta phõn tớch cỏc v n tỡm
ki m thụng tin trờn c s d li u d ng text b i hai nguyờn nhõn:


S hi u bi t v ph

ng phỏp ny r t h u d ng v

c coi

nh l thụng tin n n t ng cho cỏc phỏt tri n m i h n


cho cỏc ph

S phỏt tri n ho c m r ng ph
ng phỏp khỏc

ng phỏp ny l tr ng tõm




THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Gi s chúng ta c n tài li u v m t ch đ , chúng ta bi t các t khóa đ c
tr ng cho v n đ đó, khi đó t m t chu i các t khóa nh p vào u c u xác đ nh
các tài li u có ch a chu i t đó.

ây chính là u c u đ t ra cho các Search

Engine mà chúng ta s nghiên c u

ch

KIL
OBO
OKS
.CO
M

ng 2 c a lu n v n, bây gi chúng ta s

nghiên c u nh ng c s khoa h c cho vi c tìm ki m đó.
1.2.2 Ph
Các ph

ng pháp tìm ki m v n b n c đi n

ng pháp tìm ki m g n li n v i cách bi u di n các ch m c c a

các tài li u, vì v y chúng ta s xem xét chúng song song nhau:
a.Qt tồn b tài li u:
Ph


ng pháp tr c ti p nh t đ xác đ nh tài li u có ch a m t chu i kí t

c n tìm ki m c th là tìm ki m tồn b tài li u. M t thu t tốn đ n gi n đ th c
hi n đi u này:


Xu t phát t ký t đ u tiên trong tài li u, trích ra m t chu i

con b t đ u t kí t đó, so sánh chu i con này v i chu i ngu n c n so
sánh


N u có s khác bi t d ch chu i con c a tài li u m t kí t sang

bên ph i c a tài li u


L p l i cho t i khi tìm đ

c chu i con th a mãn ho c duy t

h t tài li u, k t lu n chu i con khơng có trong tài li u

Thu t tốn trên đ n gi n nh ng r t ch m. N u m là chi u dài chu i c n
tìm ki m và n là chiêu dài c a v n b n thì s phép so sánh t i đa mà thu t tốn
c n th c hi n là m*(n-m) phép so sánh.

ã có r t nhi u c i ti n cho ph


pháp này: th c hi n ti n s lý chu i c n tìm ki m nh m t ng s b

ng

c d ch

chuy n sau m i l n so sánh, ho c s d ng Automate tr ng thái so sánh m t lúc
nhi u xâu. Các thu t tốn này đ u khơng u c u chi phí khơng gian tuy nhiên
m i khi tài li u c p nh t, thay đ i thì chúng l i ph i đánh l i ch m c t đ u vì
v y, ph

ng pháp qt tồn b ch thích h p đ t o ch m c các tài li u v n h c

ho c thi t k cho các ph n c ng chun d ng



THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
b.S d ng t p ký hi u
Ph

ng pháp này s d ng m t file kí hi u đ i v i m i tài li u đ

ch m c. Có nhi u ph

ng pháp t o file kí hi u đã đ

c đè xu t. Ph

ct o


ng pháp

KIL
OBO
OKS
.CO
M

đ n gi n nh t có th k đ n là Bitstring. M i m t tài li u c n t o ch m c cho
ng v i m t chu i bít xác đ nh s xu t hi n c a các t trong tài li u.Gi s trong
tài li u có t t g m nhi u kí t , n u chúng ta quan tâm đ n s kí t đ u tiên c a t
này thì ng v i m i kí t quan tâm bi u di n nó b ng m t chu i bít có đ dài là
s, m t cách đ n gi n là cho t

ng ng mã ASCII c a kí t đó v i m t chu i bit

nh phân có chi u dài s, nh v y ng v i m t t trong tài li u ta có th bi u di n
b ng s chu i bit nh phân, m i chu i có đ dài w đ nh tr

c.Ví d quan tâm t i 3

kí t đ u tiên trong các t sau ta có. Các ký t đ u tiên có mã ASCII d ng octal
nh b ng sau:
T
Nor
Her
Hunger
Eased


Ký t th nh t

Kí t th hai

Kí t th ba

116

157

162

150

145

162

150

165

156

145

141

163


S d ng hàm chuy n f(c) = 2

( c mod 8 )

chuy n các ký t trên d

i d ng các

chu i nh phân có chi u dài 8 bit:

T
Nor
Her
Hunger

Chuy n thành các chu i bit nh phân

01 000 000

10 000 000

00 000 001

00 100 000

00 000 001

00 100 000

00 000

100
00 000
100



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Eased

00 100 000

00 000 010

00 100
000

KIL
OBO
OKS
.CO
M

00 001
000

Khụng cú s phõn bi t cỏc t gi ng nhau trong ti li u, i u ny cú ngh a
l: cỏc t gi ng nhau trong ti li u cú chung m t giỏ tr bit. Thụng th
khi t o file kớ hi u cỏc t trong ti li u

ng tr


c

c phõn tớch lo i b cỏc t vụ ngh a,

chu n húa cỏc t bi n d ng v t g c, khi ú ta cú t p cỏc thu t ng (term). M i
cõu truy v n

c phõn tớch nh m t ti li u, s so sỏnh x y ra trờn cỏc chu i bớt

ó t o theo quy t c trờn

gi m th i gian x lý tỡm ki m trong cỏc file ký hi u ng
ph

ng phỏp Bitslice. ý t

ng c a ph

i ta xu t

ng phỏp ny l t o file ký hi u cho ton

b c s d li u text. ( C s d li u text l c s d li u ch a cỏc ti li u d ng
text, m i b n ghi cú th coi l m t danh sỏch cỏc t thu c m t ti li u trong c
s d li u). Gi s ta cú N ti li u trong m t c s d li u, v i m i t cú xu t
hi n trong cỏc ti li u ta xõy d ng m t chu i bit cú chi u di l N (cỏc slice),
chu i bớt th i xỏc nh s cú m t c a t ú trong ti li u th i c a c s d li u.
Ph


ng phỏp Bitslice tr nờn khụng thớch h p i v i c s d li u l n,

gi s m t c s d li u text cú hng tri u b n ghi, thỡ chi u di cỏc chu i bit
(slice) trong file ký hi u l r t l n. Ph

ng phỏp Blocked Signature File

phỏt tri n gi i quy t v n trờn. Theo ph

c

ng phỏp ny m i m t bit trong

cỏc bitslice th hi n s xu t hi n c a t m nú bi u di n trong m t nhúm cỏc ti
li u

c xỏc nh tr

c. V n d t ra

õy l: i v i yờu c u tỡm ki m cỏc

ti li u ch a t t c cỏc t trong m t cõu truy v n (Disconjunctive query) m t
kh i cú th th a món yờu c u tỡm ki m nh ng khụng cú ti li u no trong kh i
th a món yờu c u tỡm ki m ú. Chỳng ta cú th gi m tỡnh tr ng ny b ng cỏch
s p x p cỏc ti li u vo nhi u kh i khỏc nhau, cựng m t ti li u cú th thu c



THệ VIEN ẹIEN Tệ TRệẽC TUYEN

kh i 1, khụi 2,... Gi s m i t xu t hi n trong ti li u c n bi u di n b i m t
chu i bit cú chi u di l w, trong ph c ú K block ch a t ú, th thỡ s cú w k
side trong t p kớ hi u bi u di n t ny. Ph

trờn ch cú th gi m ph n no sai sút (false match) ch khụng

KIL
OBO
OKS
.CO
M

phỏp xu t

ng phỏp Block File Signature ng

m b o ch c ch n sai xút s khụng x y ra. Chỳng ta xem xột m t mụ hỡnh toỏn
h c ỏp d ng cho vi c ỏnh giỏ m c chớnh xỏc trong ph

ng phỏp t o file kớ

hi u. Gi s m t v n b n cú t thu t ng khỏc nhau, ng v i m i thu t ng ta
dựng s chu i bớt t o t p kớ hi u, m i chu i bớt cú chi u di l w, Khi ú ta c n
xỏc nh s*t chu i bớt cho t p kớ hi u. G i p(w,s,t) l giỏ tr nh kh n ng m t
ti li u th a món yờu c u truy v n khi tỡm trong t p ký hi u, nh ng khụng ph i
l ti li u th a món. D a vo cỏc tớnh toỏn khoa h c ta cú



P(w,s,t) = 1 (1 1w)


s*t



s

Vớ d : m t ti li u cú 150 thu t ng khỏc nhau, m i thu t ng

c bi u

di n b i 8 chu i bit, m i chu i cú chi u di l 5000, s d ng cụng th c trờn ta
cú th tớnh m c sai l ch trong k t qu tỡm ki m l: 1100000 .
c.S d ng file ngh ch o
Khỏc v i ph

ng phỏp s d ng t p ký hi u, ph

ng phỏp s d ng t p

ngh ch o ( inverted file ) t o ra cỏc danh sỏch cỏc t khúa cú trong c s d
li u, cỏc cõu truy v n

c x lý b ng cỏch so sỏnh v i danh sỏch cỏc t khúa

ny r i tỡm ra cỏc ti li u ch a cỏc t khúa th a món cõu truy v n. M t file
ngh ch o bao g m hai ph n: danh sỏch cỏc t khúa

c index ch a trong ti


li u v danh sỏch tr t i cỏc ti li u ch a cỏc t khúa ú.
file ngh ch o cỏc ti li u trong c s d li u

thu g n kớch th

c

c gỏn m t nh danh duy nh t

(docID), cỏc liờn k t t i ti li u ch n gi n l l u cỏc nh danh c a ti li u
t

ng ng. Quỏ trỡnh t o ra cỏc t p ngh ch o bao g m 3 b


c:

Document File: Xỏc nh cỏc t trong ti li u s

c index, õy l

cỏc t cú ý ngh a, t khúa, lo i b cỏc t khụng c n thi t, ch a ng ớt thụn tin:



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
cỏc gi i t , cỏc liờn t , cỏc th trong trang hrml...khi ú ta

c t p cỏc t v ng


(vocabulary)


Dictionary: Th ng kờ t n su t xu t hi n v v trớ c a cỏc t trong
trờn, s p x p chỳng l i theo m t tr t t h p lý cú ý ngh a

KIL
OBO
OKS
.CO
M

t p t v ng

Invertion list: K t h p hai b



c trờn t o ra cỏc file ngh ch o ch a

cỏc liờn k t t i cỏc ti li u ch a cỏc t khúa ó xỏc nh
Khỏc v i ph

trờn.

ng phỏp t p ký hi u, khụng cú s sai khỏc khi tỡm ki m

trờn cỏc file ngh ch o (false match) lý do l cỏc t khúa xu t hi n trong cỏc file
ngh ch o chớnh xỏc nh trong ti li u, liờn k t


c xỏc nh t

khụng cú s nh m l n. Nhi u nghiờn c u v hai ph

ng phỏp file ngh ch o v

file kớ hi u cho th y cựng v i m t cõu truy v n ph

ng phỏp file ngh ch o cho

k t qu tỡm chớnh xỏc, nhanh h n ph
phỏp nộn thụng tin, kớch th
hi u, do ú ph
d ng

ng minh nờn

ng phỏp t p kớ hi u, s d ng ph

c file ngh ch o c ng nh h n kớch th

ng phỏp s d ng file ngh ch o ang

ng

c t p ký

c phỏt tri n v s

h u h t cỏc Search Engine hi n nay.


d.Tỡm ki m theo mụ hỡnh vec t phõn nhúm
Ph
ti li u d

ng phỏp tỡm ki m theo mụ hỡnh vect d a trờn ý t

ng bi u di n cỏc

i d ng cỏc vec t , cỏc thnh ph n c a vộc t l cỏc t khúa s

index, giỏ tr c a cỏc thnh ph n ỏnh giỏ quan tr ng c a t khúa th
t n su t xu t hi n c a nú trong ti li u ho c

ng l

c tớnh toỏn theo m t cụng th c

no ú. Theo cỏch th c trờn m t c s d li u text cú n ti li u, m t khúa
bi u di n b ng m t ma tr n a cú kớch th

c

c

c m*n ( n vộc t m i vộc t cú m

chi u). Giỏ tr ph n t aij th hi n quan tr ng c a t khúa.

M t vớ d n gi n: ta cú c s d li u cỏc 7 tiờu sỏch:


Ti li u



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Infant & Toddler First Aid
1:

Babies & Childrens Room (For your home)

2:

KIL
OBO
OKS
.CO
M

Child Safety at Home
Your Babys Health and Safety: From Infant to

Toddler
3:

4:

Baby Proofing Basics

Your Guide to Easy Rust Proofing


Beanie Babies Collectors Guide

5:

6:

7:

Cỏc t g ch chõn
khoỏ:

c xỏc nh lm cỏc t khúa, ta cú danh sỏch cỏc t

T khoỏ

T1

Bab(y, ies)

T2

Child(rens)

T3

Guide




THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Health

T5

Home

T6

Infant

KIL
OBO
OKS
.CO
M

T4

T7

Proofing

T8

Safety

T9

Toddler


Khi đó m t ma tr n bi u di n cho c s d li u trên v i aij là t n xu t xu t
hi n các t khóa là:

0

0
0

0
A   0
1

0
0

1

~

1 0 1 1 0 1

1 1 0 0 0 0
0 0 0 0 1 1

0 0 1 0 0 0
1 1 0 0 0 0 
0 0 1 0 0 0

0 0 0 1 1 0

0 1 1 0 0 0

0 0 1 0 0 0 

Trong c s d li u trên m i t khóa ch xu t hi n m t l n, tuy nhiên
trong các c s d li u l n s l n xu t hi n c a m t t khóa có th r t nhi u l n,
đ nh t quán các ph
chu n nào đó,

ng pháp x lý ng

i ta đ a ma tr n trên v m t d ng

đây ta dùng d ng chu n Euclide đ chu n hóa các véc t

v i các tài li u, ma tr n h p thành các véc t đó là các ma tr n đ
hóa.Gi s véc t x=(x1,x2,...,xn) khi đó chu n Euclide c a véc t này đ
đ nh nh sau:

ng

c chu n
c xác



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
x 2 xT x

ang xột l:


x
i 1

2
i

c chu n húa t

ng ng v i ma tr n

KIL
OBO
OKS
.CO
M

ỏp d ng chu n trờn ta cú ma trõn

m

0.5774
0
0

0.5774 0.5774
0
0
0
0


0
0
0

A 0
0.5774 0.5774
0.7071
0
0

0
0
0
0
0
0.5774

0
0
0.7071

C ng nh hai ph

ng phỏp tr

0.7071

0
0

0
0
0.7071 0.7071

0
0
0
0
0
0
0
0
0

0.7071 0.7071
0
0
0
0

0
0
0

0.4472 0.7071
0
0

0.4472
0


0.4472
0

0.4472
0.4472

0

c (t p ngh ch o v t p kớ hi u) cỏc ti

li u s d ng mụ hỡnh vộc t c ng cú b

c ti n x lý cỏc ti li u xỏc nh cỏc

t khúa, nũ bao g m cỏc cụng vi c: lo i b cỏc t khụng c n thi t, quy chu n
cỏc t ng õm, cỏc t bi n d ng c a t g c...vi c x lý hi u qu v n ny c n
cú nh ng thu t toỏn c th khụng n m trong v n nghiờn c u c a lu n v n.
Cỏc cõu truy v n tỡm ki m c ng

c bi u di n d

i d ng m t vộc t vi c

tỡm ra cỏc ti li u th a món yờu c u ch n gi n l so sỏnh g n nhau gi a cỏc
vec t trong ma tr n bi u di n c a c s d li u. Gi s bi u di n
truy v n d

c m t cõu


i d ng q=(q 1, q2, q3,..., qn)

g n c a cõu truy v n q, v i ti li u th j trongc s d li u
theo cụng th c

m

cos j

T
j

a q

aj

2

q



2

a
i 1

m

aij2

i 1

q

ij i

m

q
i 1

2
i

c tớnh



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Trong vớ d ang xột, v i cõu truy v n: tỡm cỏc sỏch cú n i dung: Child
Home Safety. Vec t bi u di n cho cõu truy v n ny l:
q = (0 1 0 0 1 0 0 1 0)T
c th a món c a cõu truy v n ny v i cỏc ti

KIL
OBO
OKS
.CO
M


Chỳng ta d dng tớnh

li u ang xột nh sau: cos2 = 0.6667, cos3 = 1.0000 v cos4 = 0.2582 cỏc ti
li u cũn l i g n coi nh b ng 0. N u t ng

ng l 0.5 thỡ cỏc ti li u th a

món yờu c u tỡm ki m l: ti li u s 2 (Babies & Childrens Room (For your
home)) v ti li u s 3 (Child Safety at Home).
1.2.3 Ph

ng phỏp s d ng thụng tin ng ngh a

Cỏc k thu t thu t tỡm ki m thụng tin ta ó xột khụng s d ng cỏc thụng
tin c tr ng c a ti li u nú ch n gi n l d a trờn k thu t i sỏnh t tỡm
t ng chớnh xỏc v t c tỡm ki m ng

ra ti li u tho món.
v ỏp d ng m t ph

i ta ngiờn c u

ng phỏp m i trong vi c tỡm ki m thụng tin. Cỏc ph

ng

phỏp ny cú th chia thnh ba l p:

nhiờn




Ph

ng phỏp s d ng phõn tớch cỳ phỏp v x lý ngụn ng t

Ph

ng phỏp ch m c ng ngh a( Latent Semantic Indexing)

Ph

ng phỏp s d ng m ng Neural

Chỳng ta l n l
a. Ph

t xem xột cỏc ph

ng phỏp tỡm ki m ny:

ng phỏp s d ng phõn tớch cỳ phỏp v ngụn ng t nhiờn

N i dung c a ph

ng phỏp ny l so sỏnh ng ngh a c a cõu truy v n v i

ng ngh a c a cỏc ti li u. Nh v y trong cỏc ti li u khụng ph i
m c theo cỏc t khoỏ trong nú m


c t o ch

c ỏnh ch m c theo ng ngh a c a nú.

phõn tớch ng ngh a c a ti li u ta dựng m t danh sỏch d ng lo i b cỏc t ,
c m t cú m c ý ngh a th p ch n ra cỏc c m t cú ý ngh a cao t o l p ch
m c. Vi c xỏc nh ý ngh a c a cỏc c m t chớnh l s d ng cỏc k t qu c a
ph

ng phỏp phõn tớch ngụn ng t nhiờn: u tiờn ta phõn tỏch cỏc cõu cú trong



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
ti li u sau ú ch n ra cỏc c m t cú ý ngh a cỏc c m t ny g i l cỏc c m t
khoỏ, chỳng cú th
nhúm

c nhúm v i nhau t o ra cỏc nhúm c m t khoỏ, vi c ghộp

c th c hi n d dng nh m t t i n phõn tỏch. Salton ngh m t mụ
c bi u di n b ng 3 vộc t : vộc t t khúa (

KIL
OBO
OKS
.CO
M

hỡnh t o ch m c m t ti li u


keyword vector), vộc t cõu (sentence vector), vộc t o n (paragraph vector),
vộc t t ng ph n c a ti li u ( section vector). Cỏc c m t khoỏ ch a nhi u
thụng tin h n cỏc t khoỏ vớ d v i c m t Search Engine chỳng ta bú g n
ph m vi tỡm ki m r t nhi u so v i hai t khoỏ: Search v Engine tuy nhiờn
nh

c i m l l gi m hi u qu c a vi c i sỏnh t ho c gõy khú kh n cho vi c

phõn nhúm. V n khú kh n nh t trong ph

ng phỏp ny l phõn tớch ng

ngh a c a cỏc cõu, trong th i gian g n õy, vi c mụ hỡnh hoỏ cỏc c u trỳc ng
phỏp c a ngụn ng t nhiờn t nhi u ti n b õy chớnh l ti n cho ph

ng

phỏp tỡm ki m ny phỏt tri n m nh m v cú hi u l c h n
b. Ph

ng phỏp s d ng ch m c ng ngh a
Ph

ng phỏp ny l m t s c i ti n ph

ng phỏp t o ch m c vộc t

c i n. T m t ma tr n ti li u cú t hng, m c t (c t l cỏc t khoỏ xu t hi n
trong m t t p cỏc ti li u


c nhúm t tr

c, cỏc hng c tr ng cho s xu t

hi n c a t khoỏ trong t p ti li u trờn) ta xột s phõn ró giỏ tr suy bi n SVD
(Singular Value Decomposition) theo cụng th c :

SVD: X=T0S0D 0T


trỏi


Trong ú T0(t*m) l ma tr n tr c chu n c a vộc t suy bi n

S0(m*m) l ma tr n

ng chộo c a giỏ tr suy bi n x p x p

theo th t gi m d n

ph i

c. Ph

Trong ú D0(t*m) l ma tr n tr c chu n c a vộc t suy bi n

ng phỏp s d ng m ng Neural




THệ VIEN ẹIEN Tệ TRệẽC TUYEN
1.4 ỏnh giỏ quan tr ng c a t khoỏ
Cỏc ph

ng phỏp tỡm ki m u d a trờn cỏc t khoỏ xu t hi n trong ti

li u, trong ph n ny chỳng ta a ra cỏc ph

ng phỏp xỏc nh quan tr ng

M t ph

KIL
OBO
OKS
.CO
M

khoỏ ú

c a cỏc t

ng phỏp tr c quan v hay s d ng nh t l c n c vo t n xu t

xu t hi n c a cỏc t khoỏ, t khoỏ no xu t hi n nhi u h n thỡ quan tr ng cao
h n v ng

c l i, ph


ng phỏp ny khỏ n gi n trong thao tỏc ci t, tuy

nhiờn hi u qu ch a cao, trong cỏc ngụn ng m t t cú th xu t hi n nhi u l n
nh ng khụng ph i l t

cú ý ngh a, vớ d

the,a,an... cỏc gi i t

trong ti ng anh cỏc m o t :

for,by... l nh ng t

khụng cú nhi u ý ngh a, m c dự h n ch ny

cú t n xu t cao nh ng

c kh c ph c b ng m t danh

sỏch d ng (stop words) tuy nhiờn v n gi m hi u qu c a vi c tỡm ki m, ng

i ta

ó xu t nhi u cụng th c xỏc nh tr ng s c a t khoỏ d a vo t n xu t xu t
hi n c a t khoỏ vớ d :

wij (1 log( f ij )) * (1 log(

wij f ij * log(


N
)) ho c
fi

N
)
f i

Trong ú




wij l tr ng s c a t khoỏ i trong ti li u j
fij l t n xu t xu t hi n c a t i trong ti li u j

fij+ l sụ l

ng ti li u ch a ớt nh t m t t khoỏ i

K t h p v i t n xu t xu t hi n c a t khoỏ ng

i ta quan tõm n v trớ

xu t hi n c a t trong ti li u, cỏc t khoỏ xu t hi n

tiờu , ph n n i dung

túm t t


c ỏnh giỏ cao h n cỏc t xu t hi n trong n i dung... m i v trớ

gỏn m t giỏ tr xỏc nh tu theo ng


i qu n tr , nhõn h s ny v i tr ng s

c xỏc nh theo cụng th c trờn ta cú k t qu tr ng s c a t khoỏ
1.5 K t lu n v cỏc ph

ng phỏp tỡm ki m thụng tin

c



THệ VIEN ẹIEN Tệ TRệẽC TUYEN

ng 2: T ng quan v Search Engine

KIL
OBO
OKS
.CO
M

Ch

2.1 Khỏi ni m v Search Engine

Search Engine cú th
ng

c nh ngh a l m t cụng c tin h c giỳp con

i trong vi c tỡm ki m v tr v thụng tin c n thi t trờn Internet. M t Search

Engine ph i ỏp ng

c hai yờu c u c b n :

Thụng tin tỡm

c ph i ỏp ng yờu c u ng

Th i gian tỡm ki m trờn kh i l


c

Cỏc yờu c u c a ng

i dựng

ng thụng tin kh ng l l ch p nh n

i dựng l khụng y nh ng h l i mu n nh n l i

thụng tin chớnh xỏc v cú t ch c.Trờn quan i m h tr ng
Engine cú th


i dựng cỏc Search

c ỏnh giỏ theo cỏc tiờu chớ sau:

Hi u qu trong vi c nh v v phõn lo i cỏc ti li u web
Tỡm ki m

qu g n ng

c trờn ph m vi r ng(ton b Internet)

ỏnh giỏ v phõn lo i

c thụng tin nh ú cú th hi n th

ck t

i dựng nh t

C p nh t

c cỏc thay i thụng tin trờn Internet

Truy c p

c nh nhau v i m i lo i trang web

D dng s d ng, cú giao di n thõn thi n v i ng
Thớch nghi t t v i cỏc yờu c u tỡm ki m c a ng


i dựng

i s d ng

2.2 Ki n trỳc v c ch ho t ng c a Search Engine.
2.2.1 Ki n trỳc c a Search Engine

Ph n l n cỏc Search Engine hi n nay cú c u trỳc g m hai thnh ph n
chớnh: Ph n thu th p ti li u( Crawler) v ph n t o ch m c cỏc ti li u(



THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Indexer). Trong đó ph n Crawler làm nhi m v thu th p tìm ki m các tài li u
b ng cách g i các yêu c u đ n các máy ch Web còn Indexer t o ch m c cho
các tài li u này đ ph c v cho vi c tìm ki m sau này.

b.
T

Crawler

KIL
OBO
OKS
.CO
M

a.


Indexer

ng tác tr c ti p v i hai thành ph n trên là h th ng các c s d li u.

Tu theo các yêu c u khác nhau mà các Search Engine có h th ng c s d li u
ph c t p và chia thành các thành ph n khác nhau, tuy nhiên nhìn chung m t
Search Engine th

ng có các c s d li u sau:

 C s d li u v các URL: l u tr các đ a ch các tài li u đã thu th p
đ

c

 C s d li u ch a các tài li u tr
d ng

 C s d li u các tài li u đã đ

c và sau khi chuy n đ i khuôn

c Index

 C s d li u ph c v các m c đích chuyên bi t: Ch a các t đ ng
âm, c d ng khác nhau c a m t t , ...

Không ph i Search Engine nào c ng ph i có đ y đ các c s d li u trên
th m chí các Search Engine ph c v cho m t m c đích đ c bi t c n có các c s

d li u chuyên bi t ph c v cho m c đích đó.

2.2.2 C ch ho t đ ng c a Search Engine

ng v i hai thành ph n Search Engine có hai ho t đ ng c b n: Thu th p
và phân lo i t o ch m c cho thông tin.
mà ng
Web

u tiên xu t phát t t p các đ a ch URL

i qu n tr cung c p Web Clawler tìm đ n các máy ch ch a các trang
đ a ch này đ l y v các trang t

ng ng.S d ng các công c có s n c a

mình Search Engine trích ch n thông tin t các trang này.Thông tin th nh t mà
Search Engine quan tâm là t p các đ a ch URL có trong trang Web, xem xét
nh ng đ a ch m i Search Engine c p nh t l i c s d li u URL c a mình.



THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Thơng tin th hai là n i dung cua trang Web, thơng tin này đ

c chuy n cho

ph n Indexer.Search Engine khơng nh ng c p nh t d li u URL t nh ng URL
tìm th y trong các trang Web, nó còn cho phép c p nh t tr c ti p t ng


c c p nh t nhanh h n và đ y đ h n,

KIL
OBO
OKS
.CO
M

tr . i u này cho phép c s d li u đ
m t khác nó còn mang tính th

i qu n

ng m i cao, ch các Web site mu n qu ng bá

các trang Web c a mình c n ph i tr ti n đ Search Engine c p nh t đ a ch . V i
quan đi m coi tồn b m ng Internet là m t đ th l n, các đ nh là các trang
Web, chúng đ

c n i v i nhau thơng qua các đ a ch liên k t dùng các thu t

tốn duy t đ th c đi n ta d dàng duy t tồn b các trang Web trên Internet.
ng v i hai ph

ng pháp duy t đ th thơng th

ng ta có hai ph

ng


pháp tìm ki m trên Search Engine: Tìm theo chi u sâu (Depth in First ) và tìm
theo chi u r ng (Breadth in First).Thep ph

ng pháp th nh t – tìm ki m theo

chi u sâu, Web Clawler xác đ nh đ a ch liên k t c a site hi n th i, truy c p nó
r i truy c p t i nh ng đ a ch liên k t c a site m i, ti p t c nh v y cho t i khi
khơng truy c p đ

c n a thi quay l i. V i ph

ng pháp này Web Clawler có th

tìm ki m chun sâu v n đ nào đó mà site cung c p.N u s d ng ph
tim ki m theo chi u r ng Web Clawler l n l

site hi n th i r i truy c p nh ng đ a ch liên k t

ng pháp

t truy c p các đ a ch liên k t
các site m i. Ph

ng pháp này

làm cho Web Clawler thu th p thơng tin trên nhi u l nh v c khác nhau. Tu theo
u c u khác nhau mà quy t đ nh ph
c hai ph

ng pháp tìm ki m. T c đ tìm ki m theo


ng pháp đ u ph thu c vào t c đ đ

ng truy n và kh n ng đáp ng

u c u c a t ng site. Nhìn chung t c đ truy c p c a Web Crawler theo
ph

ng pháp tìm ki m theo chi u sâu ít n đ nh ph

ng pháp tìm ki m theo

chi u r ng b i vì nó liên t c tìm ki m trên các Web site có h tr t c đ khác
nhau.

Các thơng tin do Web Clawler thu th p qua m t s b

c ti n x lý: đ nh

d ng, lo i b thơng tin d th a phân lo i n i dung r i chuy n cho Indexer đ t o
ch m c. Các Search Engine khác nhau th c hi n thao tác ti n x lý khác nhau.
Ngồi các đ nh d ng tài li u quen thu c (*.html, *.txt, ...) m t s Search Engine



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
cú th nh d ng


c cỏc ti li u c bi t (*.doc, *.pdf ...). M i Search Engine


c thi t k cho cỏc m c ớch khỏc nhau nờn quan i m thụng tin d th a c a

khỏc nhau. Cỏc Search Engine ph c v tỡm ki m ti li u khoa h c ch quan tõm

KIL
OBO
OKS
.CO
M

n nh ng t khoỏ chuyờn ngnh c a mỡnh, tuy nhiờn Search Engine tỡm ki m
cỏc v n b n v n h c l i quan tõm n nhi u t , ng h n. Phõn lo i ti li u c ng
khỏc nhau

cỏc Search Engine. Xột theo quan i m h th ng cú hai ph

phỏp phõn lo i chớnh: phõn lo i t
ng

i.Ph

ng

ng v phõn lo i tr c giỏc c a con

ng phỏp phõn lo i t ng

c th c hi n b i mỏy tớnh. Cỏc ch


ng

trỡnh phõn tớch ti li u tỡm ra cỏc t khoỏ trong ti li u, t ng x p x p theo cỏc
danh m c theo ph

ng phỏp ó l p s n, Ph

ng phỏp ny cú

u th nhanh

chúng, gi m i ph n vi c m t m i thi u h ng thỳ i v i con ng

i, tuy nhiờn

cỏc quy t c c ng nh c lm ch m c c a cỏc ti li u thi u chớnh xỏc, ph
phỏp th hai phõn lo i th cụng, ng

ng

i qu n tr Search Engine c n i dung ti

li u xem xột v x p chỳng vo danh m c thớch h p.Ph

ng phỏp ny chớnh xỏc

nh ng t n m t nhi u th i gian v kinh phớ, cỏc serch engine ngy nay cú xu
h

ng t p chung th i gian v kinh phớ nõng c p cỏc modul phõn tớch ti li u


cú th phõn tớch v phõn lo i ti li u cú chớnh xỏc cao h n. D li u

c

Index cú th t ch c theo nhi u c u trỳc khỏc nhau vớ d : s d ng cỏc t p tin o
(inverted file), s d ng c u trỳc cõy...
2.3 Phõn lo i Search Engine

Cú r t nhi u Search Engine ang ho t ng trờn Internet m i lo i s d ng
cỏc ph

ng phỏp, cụng ngh khỏc nhau.D a vo cụng ngh tỡm ki m chỳng ta

cú th thnh 6 lo i sau: hyperlink exploration, information retrieval, metasearch,
SQL approach, contet-based multimedia search, v cỏc lo i cũn l i. V i m c
ớch c a lu n v n chỳng ta chia cỏc Search Engine thnh hai lo i d a vo
ph

ng phỏp tỡm ki m: tỡm ki m thụng th

ng v siờu tỡm ki m (metasearch)

2.3.1 Search Engine s d ng ph

ng phỏp thụng th

Cỏc Search Engine s d ng ph

ng phỏp tỡm ki m thụng th


Search Engine ph c v yờu c u tỡm ki m theo ỳng ý t

ng
ng l cỏc

ng nguyờn th y c a nú:



THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
thu th p tài li u, phân lo i ...Có hai cách t o ch m c cho các Search Engine lo i
này: s d ng câu th m c ch đ và t o ch m c t đ ng.
Ph

ng pháp th m c ch đ là ph

đ

i đ c và phân lo i các tài li u thu th p đ

c.Các site trên internet

KIL
OBO
OKS
.CO
M

đó con ng


ng pháp phân lo i th công, trong

c phân lo i theo ch đ v i các c p chi ti t h n ch đ . Cac ch đ m c th p

nh t th

ng là m t chuyên ngành hay m t l nh v c r ng, các c p ti p theo đi

vào t ng b ph n thu c chuyên ngành, l nh v c đó và m c cu i cùng ch đ n các
tài li u c th . V i ph

ng pháp này ng

i s d ng tìm ki m thông tin c n thi t

b ng cách ch n m t ch đ , đi sâu vào ch đ đó cho t i khi tìm đ

c thông tin

mong mu n. Có th hình dung cách tìm ki m này gi ng nh tìm file trong các
th m c.C ch trên làm k t qu tìm ki m c a Search Engine chính xác v i
mong mu n c a ng
ph

i dùng, c s d li u l u ch m c c ng nh h n so v i các

ng pháp khác. Tuy nhiên th m c ch đ l i quá ph thu c vào mô t ch

quan c a ng òi phân lo i. N u vi c mô t này không rõ ràng và chính xác thì

ng

i dùng khó có th nhân đ
Ph

c k t qu theo mong mu n

ng pháp t o ch m c th hai d a trên c ch phân lo i t đ ng các

trang Web tìm đ

c, nh phân tích

ph n b c a m c này, vi c phân lo i di n ra

nhanh tróng, tuy nhiên do máy tính đ m nh n nên k t qu tr v th

ng không

chính xác, k t qu các tài li u tr v cho m t câu truy v n l n gây khó kh n cho
ng

i dùng.

Khó có s so sánh đ t i u đ i v i hai ph
vào s thích c a ng

ng pháp trên, nó ph thu c

i dùng và tính ch t c a công vi c tìm ki m


2.3.2 Meta Search Engine

Nh chúng ta đã bi t cùng v i m t câu truy v n các Search Engine khác
nhau cho ra k t qu khác nhau, lý do là c ch Index d li u c ng nh thông tin
trong c s d li u các tài li u đã đ

c Index là khác nhau

các Search Engine

khác nhau, đ kh c ph c tình tr ng này các Search Engine thu c lo i metesearch
đã đ

c t o ra. T t

ng c a metaserch Engine là giúp cho ng

i dùng không

ph i nh các đ a ch c ng nh cách th c s d ng c a nhi u Search Engine mà



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
v n ỏp ng

c yờu c u tỡm ki m thu th p thụng tin. Cỏc Search Engine lo i

ny giao ti p v i ng


i s d ng theo m t giao di n th ng nh t, ng

i dựng nh p

vo cỏc yờu c u tỡm ki m, metasearch engine phõn tớch cỏc cõu truy v n chuy n

KIL
OBO
OKS
.CO
M

cỏc yờu c u n cỏc Search Engine khỏc nh n l i k t qu s p x p v phõn lo i
chỳng r i tr l i cho ng


i dựng. Nh v y cỏc metaSearch Engine ph i hi u

c khuụn d ng cõu l nh tỡm ki m c ng nh c i m c a cỏc Search Engine

m chỳng nh yờu c u tỡm ki m, cụng vi c c a nú ti p theo l phõn lo i, i
chi u cỏc k t qu tỡm ki m t cỏc Search Engine khỏc nhau a ra k t qu
th ng nh t, õy l cụng vi c khú kh n nh t c a cỏc metasearch engine. Cỏc
search engine khụng l u a ch th ng nh t c a cỏc trang Web trờn internet do
ú cú th cựng m t trang Web cỏc search engine tr l i k t qu URL khỏc nhau.
Vớ d cựng a ch cú Search Engine cú th
l u gi a ch trờn ho c gi i quy t v n ny u
tiờn meta Search Engine so sỏnh a ch tờn mi n c a cỏc a ch , n u cỏc a ch
khỏc nhau cú tờn mi n gi ng nhau, meta Search Engine so sỏnh tiờu c a cỏc

trang Web ú, n u chỳng cú tiờu gi ng nhau cú th xem l alias c a nhau, tựy
theo cỏc xõy d ng Search Engine m cỏc alias cú th b xúa i ho c

c t

c nh nhau. Hi n ny ngoi cỏch t i v v so sỏnh y n i dung ch a cú
Search Engine c ng nh meta Search Engine no cú th phõn bi t

c hai trang

Web l b n sao c a nhau, m v n t i v v so sỏnh n i dung m t r t nhi u
th i gian vỡ v y chỳng ta t m th i ch p nh n ph

ng ỏn ó nờu trờn.

ỏnh giỏ chớnh xỏc c a cỏc c a cỏc ti li u so v i yờu c u tỡm ki m
cỏc meta search engine s d ng khỏi ni m i m tin c y (confidence score) .Ti
li u cú i m tin c y l n h n s thừa món yờu c u ng

i dựng l n h n v

c

x p lờn trờn.Cỏc meta Search Engine s d ng thang i m 1000 tớnh i m tin
c y , k t qu nh n v t cỏc search engine

c gỏn i m theo quy t c: k t qu

u tiờn gỏn giỏ tr 1000, sau ú gi m d n cho t i 0. Vỡ 1000 l con s khỏ l n
so v i s l


ng ti li u m ng

t 1000 tr i u

i dựng mu n nh n

c vỡ v y cỏc ti li u x p

c gỏn i m tin c y b ng 0. Sau ú meta Search Engine

ỏnh giỏ cỏc ti li u trựng nhau, gỏn i m tin c y

cỏc ti li u ny b ng t ng s



THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
đi m tin c y c a các Search Engine tìm đ
đ

c tìm th y

c, đi u này có ngh a là các tài li u

nhi u Search Engine khác nhau s có đi m tin c y l n h n so
m t vài Search Engine. Cu i cùng meta Search

Engine tr l i k t qu cho ng


i dùng theo th t đi m tin c y v a tính đ

KIL
OBO
OKS
.CO
M

v i các tài li u ch tìm th y

c.

2.4 Các v n đ liên quan t i Search Engine

Search Engine bao g m hai ph n chính: thu th p và tìm ki m thông tin, vì
v y chúng ta nghiên c u hai v n đ liên quan theo c u trúc c a nó
2.4.1 V n đ thu th p thông tin:

Internet phát tri n m nh m đ ng ngh a v i kh i d li u ngày càng kh ng
l h n, theo th ng kê c a Baeza-Yates tính đ n n m 1999 trên th gi i đã có
kho ng 1 terabyte d li u d ng v n b n s l

ng đó s g p nhi u l n n u ta tính

t i các d li u multimedia (hình nh, âm thanh,video) kh i d li u đó phát tri n
hàng ngày, hàng gi v i t c đ ngày càng l n h n, M t khác các d li u đã có
l i thay đ i liên t c c p nh t ho c thay đ i theo ng

i dùng, các trang Web có


th xu t hi n ho c thay đ i đ a ch thâm chí b xóa đi mà không c n báo
tr

c.C ng theo Baeza-Yates có t i 40% trang Web c p nh t hàng tháng. Tính

ch t đ ng c ng nh kh i l

ng kh ng l c a d li u làm cho các Search Engine

ph i phát tri n m nh m không ng ng c i ti n k thu t đ b t k p s thay đ i đó.
Thu th p thông tin c ng g p khó kh n b i vì ch t l

ng c a d li u không đ

c

đ m b o b i nhà phát hành đi u đó có ngh a là các Search Engine có th tìm ra
nh ng thông tin có l i, thông tin không đ

c c p nh t, th m chí thông tin sai

l c.Thông tin đ a lên Internet không nh t thi t

d ng siêu v n b n, có r t nhi u

d li u v i các ki u c u trúc khác nhau gây khó kh n cho vi c hi u đ

c chúng.

M t v n đ khác đ t ra n a là: ngôn ng không nh t quán trên các tài li u, phân

l n các tài li u trên Internet là ti ng anh các Search Engine c ng chú y u phát
tri n

các n

c Anh, M tuy nhiên trên th gi i có r t nhi u ngôn ng khác

nhau, khó có th xây d ng m t Search Engine ph c v cho t t c ngôn ng trên,
M t s Search Engine có ch c n ng đa ngôn ng tuy nhiên đó ch là nh ng ng
d ng đ n l đ

c l p ghép l i v i nhau nên không nh t quán. Các qu c gia riêng



THệ VIEN ẹIEN Tệ TRệẽC TUYEN
mu n ỏp ng yờu c u tỡm ki m thụng tin v i ngụn ng a ph
d ng nh ng h th ng h tr c thự ngụn ng c a mỡnh,

ng c n xõy

Vi t Nam ó cú m t

s Search Engine tỡm ki m thụng tin b ng ti ng vi t vớ d : VinaSeek ...

KIL
OBO
OKS
.CO
M


2.4.2 V n tỡm ki m thụng tin

V n ny cú th chia lm hai lo i: Nh n thụng tin truy v n v tr v
thụng tin. Yờu c u c a ng

i dựng l cỏc thụng tin khụng chớnh xỏc, ngụn ng

t nhiờn. S khụng chớnh xỏc cú th n m

ch quan ng

i s d ng: gừ sai chớnh

t , nh sai t khúa ... C ng cú th do y u t khỏch quan thụng tin l u gi khỏc
so v i yờu c u tỡm ki m, vớ d : ng

i dựng tỡm ki m thụng tin v Thomas Alva

Edisson, cỏc Search Engine cú th khụng a ra cỏc ti li u núi v Thomas
A.Edisson.Cỏc v n x lý t ng õm, x lý cỏc d ng bi n i c a t g c
c ng lm Search Engine khú kh n trong vi c a ra cỏc ti li u th a món yờu
c u.Nh ó phõn tớch

ph n trờn cú r t nhi u ph

ng phỏp nh n thụng tin truy

v n kh c ph c m t ph n cỏc v n ú. Hai ph
t ng


i dựng th

ng

ng phỏp nh n cõu truy v n

c s d ng l: Cho phộp ng

i dựng ch n cỏc t khúa

thụng h p nh p, ho c a ra cỏc l u nh n thụng tin truy v n qua cỏc cõu h i,
m t cỏch khỏc cho phộp ng

i dựng nh p theo ngụn ng t nhiờn Search Engine

s phõn tớch tỡm ra cỏc t khúa.V n tr l i k t qu tỡm
gi n, s l

ng ti li u tỡm

c l r t l n trong khi ng

c c ng khụng n

i dựng khụng cú th i

gian t i v phõn tớch cỏc ti li u tỡm ra ti li u phự h p nh t, cỏc Search
Engine c n cú c ch cho i m thớch h p theo m t ch tiờu c th ng
cú th t quy t nh


i dựng

c ti li u no phự h p nh t.

2.5 ỏnh giỏ Search Engine

2.6 Gi i thi u m t s Search Engine i n hỡnh
2.6.1 Search Engine Altavista

Altavista cú a ch Ki n trỳc c a nú cú th coi
nh l m t ki n trỳc i n hỡnh c a Search Engine, Altavista cú hai ph n rừ r t
crawler v indexer, ngoi ra cũn cú h th ng giao di n ng

i dựng v th c hi n


×