Tải bản đầy đủ (.pdf) (92 trang)

Luận văn thạc sĩ VNU UET một số vấn đề liên quan đến search engine ứng dụng trong text luận văn ths công nghệ thông tin 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 92 trang )

2

MỤC LỤC
MỤC LỤC......................................................................................................... 2
BẢNG KÝ HIỆU VIẾT TẮT ........................................................................... 4
DANH MỤC CÁC BẢNG................................................................................ 5
DANH MỤC CÁC HÌNH VẼ.......................................................................... 6
MỞĐẦU........................................................................................................... 7
Chươ
ng 1: TỔNG QUAN VỀSEARCH ENGINE.......................................... 9
1. Đị
nh nghĩ
a ...................................................................................................... 9
1.1 Search engine là gì? ................................................................................... 9
1.2 Phân loạ
i máy tìm kiế
m .............................................................................9
2. Các bộphậ
n cấ
u thành hệthống SE ..........................................................11
2.1 Bộphậ
n thu thậ
p thông tin – Robot .........................................................11
2.2 Bộphậ
n lậ
p chỉmục – Index ...................................................................12
2.3 Bộphậ
n tìm kiế
m thơng tin – SE.............................................................12
3. Bộphậ
n thu thập thông tin – ROBOT ......................................................13


3.1 Ứng dụng củ
a Robot ................................................................................13
3.2 Robot chỉmục – Robot Indexing .............................................................14
4. Bộphậ
n lập chỉmục – INDEX ...................................................................15
5. Bộphậ
n tìm kiế
m thơng tin – SEARCH ENGINE ...................................17
5.1 Các phương thức tìm kiế
m.......................................................................17
5.2 Các chiế
n lược tìm kiế
m ..........................................................................18
6. Nguyên lý hoạ
t độ
ng ....................................................................................20

Chư
ơng 2: MỘT SỐSEARCH ENGINE THÔNG DỤNG TRÊN THẾGIỚI
VÀ CỦA VIỆT NAM ..................................................................................... 21
1. Các SE thông dụng trên thếgiới ................................................................21
2. Các SE của Việ
t Nam ..................................................................................22
2.1 Netnam .....................................................................................................22
2.2 Vinaseek...................................................................................................29
3. Xu thếphát triể
n của SE .............................................................................30
4. Mộ
t sốSE trên text ......................................................................................31
4.1 SE toàn vă

n của SQL server ....................................................................31
4.2 SE toàn vă
n của Oracle (Oracle Text) .....................................................33

Chươ
ng 3: CÁC PHƯƠNG PHÁP LẬP CHỈMỤC, CHỈMỤC ................... 42
1. Tổng quan vềphương pháp lập chỉmục ...................................................42
1.1 Xác đị
nh mụ
c từquan trọ
ng cầ
n lậ
p chỉmục ..........................................42
1.2 Mộ
t sốhàm tính trọng sốthuậ
t ngữ.........................................................43
1.3 Lậ
p chỉmụ
c tựđộ
ng cho tài liệ
u..............................................................47
2. Các phương pháp chỉ
mục ..........................................................................48
2.1 Phương pháp chỉmụ
c mả
ng tiế
p tố(Suffix array)...................................48
2.2 Phương pháp chỉmụ
c tệ



o (Inverted File)..........................................49
2.3 Phương pháp chỉmụ
c tệ
p ký sốSFID .....................................................54
2.4 So sánh các phương pháp chỉmụ
c...........................................................57

Chươ
ng 4: TRIỂN KHAI SE TIẾNG VIỆT TRONG ORACLE TEXT ........ 61
1. Khó khăn cho việ
c lậ
p chỉmục tiế
ng Việ
t .................................................61
2. Đặc điể
m vềtừtrong tiế
ng Việ
t và việ
c tách từ........................................62

LUAN VAN CHAT LUONG download : add


3
2.1 Đặ
c điể
m vềtừtrong tiế
ng Việ
t: ..............................................................62

2.2 Tiế
ng: .......................................................................................................62
2.3 Từ:............................................................................................................62
2.4 Tách từ.....................................................................................................63
2.5 Giả
i quyế
t các vấ

ềchính tả.................................................................64
2.6 Giả
i quyế
t các vấ

ềvềtừcủa tiế
ng Việ
t ..............................................66
2.7 Xửlý vấ
n đềsắ
p xế
p tiế
ng Việ
t ...............................................................67
2.8 Xây dựng từđ
iể
n tiế
ng Việ
t .....................................................................68
3. Triể
n khai thửnghiệ
m.................................................................................69

3.1 Đặ
t vấ
n đề................................................................................................69
3.2 Xây dựng chương trình ............................................................................70
3.3 Thiế
t kếchi tiế
t ........................................................................................75
3.4 Chương trình ............................................................................................83
3.5 Kế
t quảthửnghiệ
m..................................................................................88

KẾT LUẬN ..................................................................................................... 90
TÀI LIỆU THAM KHẢO............................................................................... 92
1. Tiế
ng Việ
t ..................................................................................................92
2. Tiế
ng Anh ..................................................................................................92
3. Website.......................................................................................................92

LUAN VAN CHAT LUONG download : add


4

BẢNG KÝ HIỆU VIẾT TẮT
Ký hiệ
u viế
t tắt


Tiếng Anh

Tiếng Việt

SE

Search Engine

Máy tìm kiế
m

IF

Inverted File

Tệ


o

ID

Index

Chỉmụ
c

SFID


Signature file index

Chỉmụ
c tệ
p ký số

IFID

Inverted File Index

Chỉmụ
c tệ
p đả
o

IL

Inverted list

Danh sách đả
o

SA

Suffix Array

Mả
ng tiế
p tố


MSFT

Microsoft Full Text

Toàn vă
n của Microsoft

SF

Signature File

Tệ
p ký số

CSDL

Database

Cơsởdữliệ
u

LUAN VAN CHAT LUONG download : add


5

DANH MỤC CÁC BẢNG
Bả
ng 1.1: Các từkhóa giúp tối ưu câu truy vấ
n........................................................19

Bả
ng 2.1: Bả
ng tóm tắ
t tính nă
ng củ
a các SE thông dụ
ng trên thếgiới...................22
Bả
ng 2.2: Bả
ng miêu tảcác từkhố sửdụ
ng trong việ
c tìm kiế
m. ..........................27
Bả
ng 2.3: Ví dụtìm kiế
m thông tin của Netnam ......................................................29
Bả
ng 2.4: Các thành phầ
n của MSFTESQL .............................................................32
Bả
ng 2.5: Các thuộ
c tính dùng đ
ểranking ................................................................33
Bả
ng 2.6: Các toán tửdùng trong Oracle Text .........................................................38
Bả
ng 3.1: Bả
ng minh họ
a quá trình xây dựng mả
ng tiế

p tố.....................................49
Bả
ng 3.2: Bả
ng danh sách các đ
iể
m truy cậ
p mả
ng tiế
p tố......................................49
Bả
ng 3.3: Vă
n bả
n mẫ
u; mỗ
i dòng là một tài liệ
u ....................................................50
Bả
ng 3.4: IF đố
i vớivă
n bả
n của bả
ng 3.3 ...............................................................51
Bả
ng 3.5: IF mức từđố
i vớivă
n bả
n của bả
ng 3.3 ...................................................52
Bả
ng 3.6: Mã hoá chồng lên củ

a tài liệ
u 2 bả
ng 3.3 đố
i vớiSF ...............................55
Bả
ng 3.7: Bả
ng so sánh giữa SA và IF .....................................................................57
Bả
ng 4.1: Bả
ng mơ tảcác chức nă
ng chính ..............................................................75
Bả
ng 4.2: Bả
ng cấ
u trúc dữliệ
u................................................................................76
Bả
ng 4.3: Mô tảthủtụ
c Myctxhx .............................................................................77
Bả
ng 4.4: Mô tảthủtụ
c Cvtr.....................................................................................81
Bả
ng 4.5: Mô tảthủtụ
c VnNormalize ......................................................................81

LUAN VAN CHAT LUONG download : add


6


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Giao diệ
n của máy metacrawler................................................................10
Hình 1.2: Mơ hình xửlý cho hệthố
ng lậ
p chỉmụ
c ....................................................1
Hình 1.3: Kiế
n trúc chung củ
a 1 SE..........................................................................20
Hình 2.1: Sơđồhệthống SE của Netnam ................................................................23
Hình 2.2: Kiế
n trúc củ
a MSFT..................................................................................31
Hình 2.3: Kiế
n trúc củ
a Oracle Text .........................................................................34
Hình 4.1: Cấ
u trúc của chương trình Thưviệ
n số.....................................................71
Hình 4.2: Kiế
n trúc xây dựng chỉmục trên Oracle Text đ
ối với tiế
ng Việ
t .............73
Hình 4.3: Kiế
n trúc hoạ

ộng củ

a việ
c sắ
p xế
p tiế
ng Việ
t ........................................1
Hình 4.4: Kiế
n trúc hoạ

ộng củ
a thủtụ
c Myctxhx.................................................77
Hình 4.5: Giao diệ
n màn hình quả
n lý dữliệ
u Text .................................................85
Hình 4.6: Giao diệ
n màn hình nhậ
p dữliệ
u Text......................................................85
Hình 4.7: Giao diệ
n màn hình tìm kiế
m dữliệ
u .......................................................86
Hình 4.8: Giao diệ
n màn hình tìm kiế
m hình cây theo nă
m .....................................86
Hình 4.9: Giao diệ
n màn hình tìm kiế

m hình cây theo chủđề.................................87
Hình 4.10: Giao diệ
n màn hình tìm kiế
m bỏdấ
u......................................................88
Hình 4.11: Giao diệ
n màn hình quả
n lý danh mục từkhóa (Thesaurus)..................88

LUAN VAN CHAT LUONG download : add


7

MỞ ĐẦU
Mỗ
i giây trôi qua trên thếgiới lạ
i xuấ
t hiệ
n hàng ngàn trang web, hàng triệ
u
tài liệ
u khác nhau. Thếgiới Internet ngày càng khổng lồ, kho tri thức củ
a nhân loạ
i
càng ngày được phát triể
n với nhiề
u loạ
i hình thơng tin khác nhau, đó là dữliệ
u

hình ả
nh, âm thanh hay dữliệ
u Text... Khi thơng tin càng bùng nổthì nhu cầ
u tìm
kiế
m càng càng tă
ng cao, bởi vậ
y ngày càng có rấ
t nhiề
u cơng cụhỗtrợcho việ
c
tìm kiế
m được chính xác và hiệ
u quả
.
Mộ
t sốlượng lớn thông tin ngày nay là dạ
ng Text, đ
ược lưu ởvă
n bả
n, các
trang web, fax, email…Những thông tin quan trọng này thườ
ng rấ
t khó truy cậ
p và
quả
n lý gặ
p nhiề
u trởngạ
i. Có rấ

t nhiề
u loạ
i dữliệ
u Text được khai thác không
đ
úng mức, những thông tin cầ
n thiế
t khơng được tìm thấ
y khi cầ
n thiế
t hoặ
c phả
i
mấ
t rấ
t nhiề
u công sức. Hiệ
n nay các hệquả
n trịcơsởdữliệ

ã hỗtrợrấ
t tố
t tính

ng tìm kiế
m dữliệ
u tồn vă
n (full-text) nhưOracle, Microsoft, MySQL,.. Những
tính nă
ng này hầ

u như đã đáp ứng việ
c tìm kiế
m cho nhiề
u nguồn tài liệ
u khác
nhau, cấ
u trúc khác nhau, tuy nhiên những công cụnày không thực sựthỏa mãn cho
tìm kiế
m tiế
ng Việ
t, cụthểlà vấ

ềbả
ng mã, ngữpháp đ

c trưng riêng củ
a tiế
ng
Việ
t.
Luậ
n vă
n này tậ
p trung tìm hiể
u hoạ
t đ
ộng mơ hình máy tìm kiế
m (Search
engine), mộ
t sốtrang tìm kiế

m của thếgiới và Việ
t Nam, các kỹthuậ
t chỉmụ
c, đặ
c
thù của việ
c tìm kiế
m tiế
ng Việ
t và triể
n khai thửnghiệ
m trên chức nă
ng tìm kiế
m
tồn vă
n của Oracle.
Luậ
n vă
n gồ
m 4 chương:
Chương 1: Giới thiệ
u tổ
ng quan vềSE, các thành phầ
n cấ
u thành củ
a mộ
t SE.
Các nguyên lý hoạ

ộng, các chiế

n lược tìm kiế
m được đ
ưa ra trong chương này hỗ
trợcác khái nhiệ
m cơbả
n cho việ
c phát triể
n SE.
Chương 2: Phân tích hiệ
n trạ
ng một sốSE của thếgiớ
i, SE củ
a Việ
t Nam và
xu hướng phát triể
n SE của thếgiới. Tìm hiể
u các SE trên Text của các hệquả
n trị
cơsởdữliệ
u nhưOracle, Microsoft cũ
ng đ
ược đưa ra trong chương này.
Chương 3: Tậ
p trung tìm hiể
u các phương pháp chỉmụ
c thơng dụ
ng. Chương
này đưa ra tổ
ng quan vềcách lậ
p chỉmục, chỉmục tựđ

ộng. Ngoài ra trong chương

LUAN VAN CHAT LUONG download : add


8
này cịn phân tích kỹcác kỹthuậ
t chỉmục: mả
ng tiế
p tố(suffix array), chỉmục tệ
p
đ

o (inverted file), chỉmục tệ
p ký số(SFID) và so sánh giữa các phương pháp vớ
i
nhau.
Chương 4: Triể
n khai thửnghiệ
m SE trên Text trong CSDL Oracle. Chương 4
chỉra các khó khă
n, đặ
c thù của việ
c chỉmục ngơn ngữtiế
ng Việ
t. Tuy nhiên, đ

việ
c xửlý ngơn ngữtiế
ng Việ

t thực sựhiệ
u quảcầ

ịi hỏi sựđ

u tư, đ
óng góp rấ
t
nhiề
u củ
a chun gia vềngơn ngữhọ
c. Việ
c cài đặ
t thửnghiệ
m chỉđưa ra đ
ược
cách thức giả
i quyế
t và áp dụng một sốthửnghiệ
m.
Em xin gửi lời cả
m ơn PGS TS VũĐức Thi, các thầ
y cô giáo của trườ
ng Đạ
i
học Công nghệ
, các anh chịđồ
ng nghiệ
p và các bạ
n cùng lớp đã trang bịkiế

n thức
và có nhiề

óng góp quý báu giúp em hoàn thành luậ
n vă
n.

LUAN VAN CHAT LUONG download : add


9

Chương 1: TỔNG QUAN VỀSEARCH ENGINE

1. Đị
nh nghĩ
a
1.1 Search engine là gì?
Máy truy tìm hay máy tìm kiế
m (search engine), hay cịn được gọi với nghĩ
a
rộng hơn là cơng cụtìm kiế
m (search tool), nguyên thuỷlà một phầ
n mề
m nhằ
m
tìm ra các trang trên mạ
ng Internet có nội dung theo yêu cầ
u ngườ
i dùng dựa vào

các thơng tin hiệ
n có. Trữlượng thơng tin của cơng cụtìm kiế
m thực chấ
t là mộ
t cơ
sởdữliệ
u rấ
t lớn. Việ
c tìm tài liệ
u sẽdựa trên các từkhóa được người dùng gõ vào
và trảvềmộ
t danh mụ
c các trang Web có chứa từkhóa.
Từkhóa đượ
c hiể
u nhưlà một tổhợp các từcủ
a một ngôn ngữnhấ
t đ

nh
đ
ược sắ
p xế
p hay quan hệvới nhau thông qua các biể
u thức logic mà công cụtìm
kiế
m hỗtrợ. Trong trường hợp mộ
t từkhố bao gồ
m nhiề
u hơn một chữ(hay từ) thì

có thểgọ
i tậ
p họ
p tấ
t cảcác chữđó là bộtừkhố.
Cơsởdữliệ
u mà máy truy tìm sửdụng thường đượ
c bổsung cậ
p nhậ
t đị
nh kì
bằ
ng cách quét, đ
iề
u chỉ
nh, thêm bớt nộ
i dung và chỉsốhố lạ
i tấ
t cảcác trang tìm
gặ
p trên Internet.
Ngày nay, với sốlượng các trang Web lên đ
ế
n hàng tỉ
, nên việ
c tìm ra sốtrang
có chứa nội dụ
ng đ
ịi hỏi của từkhố có thểlên đ
ế

n hàng triệ
u trang. Do đ
ó, việ
c
hiể
n thịkế
t quảtìm thấ
y theo đ
úng thứtựquan trọng củ
a các trang và theo mong
muốn củ
a người dùng là mộ
t trởngạ
i lớn địi hỏi sựchắ
t lọc từmáy truy tìm và sự
khéo léo vềcách thức đặ
t ra từkhoá từngười dùng máy
1.2 Phân loại máy tìm kiếm
Ngày nay các máy truy tìm đã phát triể
n rấ
t xa so với dạ
ng nguyên thuỷ
. Có
hai cách chính phân loạ
i máy truy tìm.
1.2.1 Theo phương thức hoạt động


Kiể
u máy nhệ

n (spider): Cơsởdữliệ
u củ
a các máy truy tìm đ
ược cậ
p nhậ
t
bởi các phầ
n mề
m đặ
c biệ
t thườ
ng gọi là "robot", "spider" hay
"Webcrawler". Các phầ
n mề
m này sẽtựđộ
ng dị tìm và phân tích từnhững
trang có sẵ
n trong cơsởdữliệ
u đểtìm ra các liên kế
t (link) từcác trang và

LUAN VAN CHAT LUONG download : add


10
trởlạ
i bổsung dữliệ
u cho chính nó sau khi phân tích. Phầ
n mề
m này cũng sẽ

báo cáo vềcác liên kế

ã bịđào thả
i. Từkhố đượ
c trích chọ
n là đểcho SE
tìm kiế
m trong bả
ng chỉsố.Kế
t quảtố
t nhấ
t sau khi phân hạ
ng sẽđ
ược xế
pở
thứ tự đầ
u tiên. Trang thông dụ
ng nhấ
t dùng nguyên tắ
c này là


Hình 1.1: Giao diệ
n của máy metacrawler


Kiể
u máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thểlợ
i
dụng các máy truy tìm sẵ

n có đểthiế
t kếthành mộ
t loạ
i máy truy tìm mớigọ
i
là máy truy tìm ả
o. Nguyên tắ
c của loạ
i máy truy tìm ả
o khá đ
ơn giả
n. Kiể
u
máy truy tìm ả
o khơng có cơsởdữliệ
u. Khi hoạ
t độ
ng thì máy sẽgởi từ
khố đế
n các máy truy tìm khác mộ
t cách đ
ồng loạ
t và nhậ
n vềtấ
t cảcác kế
t
quảtìm đ
ược. Nhiệ
m vụtiế
p theo chỉlà phân tích và phân hạ

ng lạ
i các tài
liệ
u tìm đượ
c cho người dùng. Ưu điể
m củ
a loạ
i máy truy tìm này là lợi dụ
ng
cơsởdữliệ
u của các máy truy tìm khác đ
ểtìm ra nhiề
u kế
t quảhơn và
nhanh hơn. Nhưng vì loạ
i này chỉtồ
n tạ
i nế
u có các máy truy tìm nguyên
thuỷnên gọ
i là meta. Điể
n hình loạ
i này là MetaCrawler.



Kiể
u thưmục đố
i tượng (subject directory): Còn gọi là máy truy tìm theo
phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵ

n các
đ
ối tượng vào các thưmục và ngườ
i dùng sẽlựa theo kiể
u rẽnhánh từtừcho
đ
ế
n khi tìm ra các trang Web mà mình muố
n. Phương thức tìm kiế
m phân
lớp dễcho người truy cậ
p nhưng có điể
m yế
u là nó khơng thểbao gồm hế
t
mọ
i chủđềmà họmuốn kiế
m ra. Hơn nữa, sựphân loạ

ơi khi khơng đ
ược
đ


ủvà chính xác. Điể
n hình củ
a loạ
i này là




Kiể
u cơsởdữliệ
u đặ
c biệ
t (invisible Web): Đặ
c điể
m củ
a loạ
i kiể
u máy tìm
kiể
m này là dữliệ
u kiế
m ra khơng thực sựcó từđị
a chỉtrang Web cụthểqua
các máy truy tìm; dữliệ
u này tồ
n tạ
i trong các cơsởdữliệ
u của một máy

LUAN VAN CHAT LUONG download : add


11
tính hay mạ
ng ởđâu đ
ó trên Internet mà các trang Web được phép sửdụng.
Đặ

c biệ
t, các trang Web nghiên cứu củ
a các đ

i học hay học việ
n như
, và là đ
iể
n
hình củ
a kiể
u tìm kiế
m trong CSDL.
Càng ngày càng có nhiề
u máy truy tìm hỗtrợngườ
i dùng qua nhiề
u cách



thức khác nhau nên ranh giới phân chia củ
a các máy truy tìm là khơng đ
áng
kểmà thay vào đó là các hệthố
ng máy truy tìm lạ
i bao gồ
m nhiề
u kiể
u chức


ng khác nhau. Chẳ
ng hạ
n như khơng cịn đơn
thuầ
n là mộ
t máy truy tìm theo kiể
u thưmụ
c đố
i tượng mà bên cạ
nh đ
ó nó

ng cung cấ
p ln cảkiể
u máy nhệ
n cho người dùng.
1.2.2 Theo chức năng
Theo cách phân loạ
i này thì tùy theo đ
ối tượng tìm kiế
m mà có:


Mày tìm kiế


a chỉtrang Web




Kiế


a chỉthưđiệ
n tử



Kiế
m thông tin riêng vềmột ngườ
i



Kiế
m thông tin vềmột tổchức



Kiế
m việ
c làm



Kiế
m bả

ồ...[11]


2. Các bộphận cấu thành hệthống SE
2.1 Bộphận thu thập thông tin – Robot
Robot là mộ
t chương trình tựđ
ộng duyệ
t qua các cấ
u trúc siêu liên kế
t đểthu
thậ
p tài liệ
u và mộ
t cách đệquy nó nhậ
n vềtấ
t cảtài liệ
u có liên kế
t với tài liệ
u này.
Robot được biế
t đế
n dưới nhiề
u tên gọ
i khác nhau : spider, web wanderer hoặ
c
web worm,… Những tên gọi này đ
ôi khi gây nhầ
m lẫ
n, nhưtừ‘
spider’
,‘
wanderer’

làm người ta nghĩrằ
ng robot tựnó di chuyể
n và từ‘
worm’làm người ta liên tưởng
đ
ế
n virus. Vềbả
n chấ
t robot chỉlà mộ
t chương trình duyệ
t và thu thậ
p thông tin từ
các site theo đ
úng giao thức web. Những trình duyệ
t thơng thường khơng được xem
là robot do thiế
u tính chủđộ
ng, chúng chỉduyệ
t web khi có sựtác độ
ng của con
người.

LUAN VAN CHAT LUONG download : add


12
2.2 Bộphận lập chỉmục – Index
Hệthố
ng lậ
p chỉmục hay còn gọ

i là hệthố
ng phân tích và xửlý dữliệ
u, thực
hiệ
n việ
c phân tích, trích chọ
n những thơng tin cầ
n thiế
t (thườ
ng là các từđơ
n , từ
ghép , cụ
m từquan trọ
ng) từnhững dữliệ
u mà robot thu thậ
p được và tổchức thành
cơsởdữliệ
u riêng đ
ểcó thểtìm kiế
m trên đó một cách nhanh chóng, hiệ
u quả
. Hệ
thố
ng chỉmục là danh sách các từkhoá, chỉrõ các từkhố nào xuấ
t hiệ
n ởtrang
nào, đ

a chỉnào.
2.3 Bộphận tìm kiếm thơng tin – SE

SE là cụm từdùng chỉtồn bộhệthố
ng bao gồm bộphậ
n thu thậ
p thông tin,
bộphậ
n lậ
p chỉmục và bộphậ
n tìm kiế
m thơng tin. Các bộphậ
n này hoạ
t độ
ng liên
tục từlúc khở

ộng hệthố
ng, chúng phụthuộ
c lẫ
n nhau vềmặ
t dữliệ
u nhưng độ
c
lậ
p với nhau vềmặ
t hoạ


ng.
SE tươ
ng tác vớ
i người dùng thơng qua giao diệ

n web, có nhiệ
m vụtiế
p nhậ
n
& trảvềnhững tài liệ
u thoảyêu cầ
u của người dùng.
Nói mộ
t cách đơn giả
n, tìm kiế
m từlà tìm kiế
m các trang mà những từtrong
câu truy vấ
n (query) xuấ
t hiệ
n nhiề
u nhấ
t, ngoạ
i trừstopword (các từquá thông
dụng nhưmạ
o từa, an, the,…). Một từcàng xuấ
t hiệ
n nhiề
u trong mộ
t trang thì
trang đó càng được chọn đểtrảvềcho người dùng. Và một trang chứa tấ
t cảcác từ
trong câu truy vấ
n thì tốt hơn là mộ
t trang khơng chứa mộ

t hoặ
c một sốtừ. Ngày
nay, hầ
u hế
t các SE đ

u hỗtrợchức nă
ng tìm cơbả
n và nâng cao, tìm từđ
ơn, từ
ghép, cụm từ, danh từriêng, hay giới hạ
n phạ
m vi tìm kiế
m nhưtrên đ
ềmụ
c, tiêu
đ

, đoạ
n vă
n bả
n giới thiệ
u vềtrang web,…..
Ngồi chiế
n lược tìm chính xác theo từkhố, các SE cịn cốgắ
ng “hiể
u” ý
nghĩ
a thực sựcủa câu hỏ
i thơng qua những câu chữdo người dùng cung cấ

p. Điề
u
này được thểhiệ
n qua chức nă
ng sửa lỗi chính tả
, tìm cảnhững hình thức biế


i
khác nhau củ
a một từ. Ví dụ: SE sẽtìm những từnhưspeaker, speaking, spoke khi
ngườidùng nhậ
p vào từspeak.

LUAN VAN CHAT LUONG download : add


13

3. Bộphận thu thập thông tin – ROBOT
3.1 Ứng dụng của Robot
Robot thường được sửdụ
ng cho những mụ
c đích sau :
3.1.1 Phân tích, thống kê – Statistical Analysis
Robot đ

u tiên được dùng đ
ểđ
ế

m sốlượ
ng web server, sốtài liệ
u trung bình
củ
a một server, tỉlệcác dạ
ng tệ
p khác nhau, kích thước trung bình của mộ
t trang
web, đ
ộkế
t dính, …
3.1.2 Duy trì siêu liên kết - Maintenance
Mộ
t trong những khó khă
n củ
a việ
c duy trì mộ
t siêu liên kế
t là nó liên kế
t vớ
i
những trang bịhỏng (dead links) khi những trang này bịthay đ
ổi hoặ
c thậ
m chí bị
xóa. Tuy nhiên vẫ
n chưa có cơchếnào cả
nh báo các bộduy trì vềsựthay đ
ổi này.
Trên thực tếkhi các tác giảnhậ

n ra tài liệ
u của mình chứa những liên kế
t hỏng, họ
sẽthông báo cho nhau, hoặ
c thỉ
nh thoả
ng đ
ộc giảthông báo cho họbằ
ng email.
Mộ
t sốrobot, chẳ
ng hạ
n MOMspider có thểtrợgiúp tác giảphát hiệ
n các liên
kế
t hỏ
ng cũng nhưduy trì các cấ
u trúc siêu liên kế
t cùng nội dung củ
a mộ
t trang
web. Chức nă
ng này lặ
p lạ
i liên tục mỗi khi một tài liệ

ượ
c cậ
p nhậ
t, nhờđó mọ

i
vấ

ềxả
y ra sẽđ
ược giả
i quyế
t nhanh chóng.
3.1.3 Ánh xạđị
a chỉ
web - Mirroring
Một ánh xạ(mirror) sẽsao chép toàn bộcấ
u trúc cây thưmục và thường
xuyên cậ
p nhậ
t những tệ
p bịthay đ
ổi. Điề
u này cho phép nhiề
u người cùng truy
xuấ
t mộ
t nguồn dữliệ
u, giả
m sốliên kế
t bịthấ
t bạ
i, nhanh hơn và ít chi phí hơn so
với truy cậ
p trực tiế

p vào site thực sựchứa các dữliệ
u này.
3.1.4 Phát hiện tài nguyên – Resource Discovery
Có lẽứng dụ
ng thú vịnhấ
t củ
a robot là dùng nó đểphát hiệ
n tài ngun. Con
người khơng thểkiể
m sốt nổi một khố
i lượng thông tin khổng lồtrong môi trường
mạ
ng. Robot sẽgiúp thu thậ
p tài liệ
u, tạ
o và duy trì cơsởdữliệ
u, phát hiệ
n và xố
bỏcác liên kế
t hỏ
ng nế
u có, kế
t hợp với cơng cụtìm kiế
m cung cấ
p thơng tin cầ
n
thiế
t cho con người.

LUAN VAN CHAT LUONG download : add



14
3.1.5 Kết hợp các công dụng trên- Combined uses
Mộ
t robot có thểđ

m nhậ
n nhiề
u chức nă
ng. Ví dụRBSE Spider vừa thống kê
sốlượng tài liệ
u thu đ
ược vừa tạ
o cơsởdữliệ
u. Tuy nhiên những ứng dụ
ng nhưthế
cịn khá ít ỏi.
3.2 Robot chỉmục – Robot Indexing
Trong q trình thu thậ
p thơng tin phục vụcho bộlậ
p chỉmụ
c, ta cầ
n giả
i
quyế
t những vấ
n đềsau :
Mộ
t là : Trong môi trường mạ

ng, robot lấ
y thông tin từcác site. Vậ
y robot sẽ
bắ


u từsite nào? Điề
u này hoàn tồn phụthuộ
c vào robot. Mỗ
i robot khác nhau
sẽcó những chiế
n lược khác nhau. Thường thì robot sẽviế
ng thă
m các site phổbiế
n
hoặ
c những site có nhiề
u liên kế
t dẫ

ế
n nó.
Hai là : Ai sẽcung cấ


a chỉcủ
a các site này cho robot ?
Có 2 nguồ
n:
Robot nhậ

n các URL ban đầ
u từuser.
Robot phân tích các trang web đ
ểlấ
y các URL mới, đ
ế
n lượ
t các URL này trở
thành đ

a chỉđầ
u vào cho robot. Quá trình này đ
ược lặ
p lạ
i liên tụ
c.
Ba là : Chọn dữliệ
u nào trong tài liệ

ểlậ
p chỉmụ
c?
Quyế
t đị
nh chọn dữliệ
u nào trong tài liệ
u cũ
ng hồn tồn phụthuộc vào
robot, thường thì những từđược liệ
t kê nhưsau đ

ược xem là quan trọng :


Ởgóc cao của tài liệ
u.



Trong các đềmụ
c



Được in đậ
m (inktomi)



Trong URL.



Trong tiêu đề(quan trọ
ng)



Trong phầ
n miêu tảtrang web (description) .




Trong các thẻdành cho hình ả
nh (ALT graphisc).



Trong các thẻchứa từkhóa.



Trong các text liên kế
t.

LUAN VAN CHAT LUONG download : add


15
Mộ
t sốrobot lậ
p chỉmục trên tiêu đề
, hoặ
c mộ
t sốđoạ
n vă
n bả


u tiên hoặ
c

toàn bộtài liệ
u (full text). Một sốkhác lạ
i lậ
p chỉmục trên các thẻMETA(META
tags) hoặ
c các thẻẩ
n, nhờvậ
y tác giảcủ
a trang web đ
ược quyề
nấ
n đị
nh từkhoá
cho tài liệ
u của mình. Tuy nhiên chức nă
ng này bịlạ
m dụng quá nhiề
u do đó các thẻ
META khơng cịn giữđượ
c giá trịban đầ
u của chúng nữa.

4. Bộphận lập chỉmục – INDEX
Các trang Web sau khi thu thậ
p vềsẽđượ
c phân tích, trích chọ
n những thông
tin cầ
n thiế
t (thườ

ng là các từđơn , từghép , cụ
m từquan trọ
ng) đ
ểlưu trữtrong
cơsởdữliệ
u nhằ
m phục vụcho nhu cầ
u tìm kiế
m sau này.

LUAN VAN CHAT LUONG download : add


16

Mơ hình xửlý tổng qt của một hệthố
ng được trình bày nhưsau:

Danh sách các
trang Web cầ
n
lậ
p chỉmục

Lọc các thông tin thừa, chuyể
n
tài liệ
u vềdạng vă
n bả
n


Tách vă
n bản thành các từ

Danh sách các
từstop-word

TỪ
ĐIỂN

Loạ
i bỏstop-word

Tính trọng sốvà loạibỏnhững
từcó trọng sốthấ
p

Loạ
i bỏhậu tố

CSDL chỉ
mục thơng
tin

Danh sách
các hậu tố

Lậ
p chỉmục


Hình 1.2: Mơ hình xửlý cho hệthố
ng lập chỉmục

Lậ
p chỉmụ
c là quá trình phân tích và xác đị
nh các từ, cụm từthích hợp cốt
lõi có khảnă
ng đạ
i diệ
n cho nộ
i dung của tài liệ
u. Nhưvậ
y, vấ

ềđ

t ra là phả
i
rút trích ra những thơng tin chính, có khảnă
ng đ

i diệ
n cho nội dung củ
a tài liệ
u.
Thông tin này phả
i“
vừa đ
ủ”

, nghĩ
a là không thiế
u đểtrảra kế
t quảđầ
y đủso vớ
i
nhu cầ
u tìm kiế
m, nhưng cũ
ng phả
i khơng thừa đ
ểgiả
m chi phí lưu trữvà chi phí
tìm kiế
m và đ
ểloạ
i bỏ kế
t quảdưthừa không phù hợp. Việ
c rút trích này chính là
việ
c lậ
p chỉmụ
c trên tài liệ
u. Trước đ
ây, quá trình này thường được các chuyên
viên đã qua đào tạ
o thực hiệ
n mộtcách “
thủcơng“nên có đ
ộchính xác cao. Nhưng


LUAN VAN CHAT LUONG download : add


17
trong môi trường hiệ
n đạ
i ngày nay, với lượng thông tin khổng lồthì việ
c lậ
p chỉ
mụ
c bằ
ng tay khơng cịn phù hợp, phương pháp lậ
p chỉmụ
c tựđộ
ng mang lạ
i hiệ
u
quảcao hơn.
Mộ
t thủtụ
c lậ
p chỉmụ
c tựđ
ộng cơbả
n cho các tài liệ
u tiế
ng Anh có thểđ
ược
xửlý nhưsau:

Step of tokenization: Tách vă
n bả
n ra thành các chuỗi nhờvào khoả
ng trắ
ng,
mỗ
i chuỗ
i xem nhưlà mộ
t từ.
Step of removal of stop words: bỏnhững từthường xuyên xuấ
t hiệ
n trong hầ
u
hế
t các tài liệ
u nhưng lạ
i không quan trọng trong các tài liệ
u nhưtính từ, đạ
i từ.
Step of stemming: loạ
i bỏcác hậ
u tố(suffixes) đ
ểđ
ưa vềcác từgốc.
Các từthu đ
ược sẽđ
ược lậ
p chỉmụ
c. Tuy nhiên hai bước đầ
u cũng cầ

n cho
quá trình lậ
p chỉmụ
c cho các tài liệ
u tiế
ng Việ
t, bước thứba khơng cầ
n vì tiế
ng
Việ
t thuộc dịng ngơn ngữđơ
n thể
. Chi tiế
t vềcác phương pháp lậ
p chỉmục và chỉ
mụ
c được trình bày tạ
i chương 3.

5. Bộphận tìm kiếm thơng tin – SEARCH ENGINE
5.1 Các phương thức tìm kiếm
5.1.1 Tìm theo từkhố – Keyword searching
Đây là phương pháp đ
ược áp dụ
ng với hầ
u hế
t các SE. Trừkhi tác giảcủ
a
trang web xác đ


nh từkhóa cho tài liệ
u của mình, ngược lạ

iề
u này phụthuộ
c vào
SE. Nhưvậ
y các SE sẽtựmình chọn và đánh chỉmục cho những từmà chúng cho
quan trọng có thểgiúp phân biệ
t các tài liệ
u khác nhau. Một sốsite lậ
p chỉmụ
c cho
tấ
t cảcác từcó trong mộ
t trang web, mộtsốkhác chỉchọn mộ
t sốđ
oạ
n vă
n bả
n.
Các hệthố
ng đánh chỉmục trên toàn vă
n bả
n đế
m sốlầ
n xuấ
t hiệ
n củ
a mỗ

i từ
trong tài liệ
u ngoạ
i trừcác từstopword. Có những cơng cụtìm kiế
m cịn phân biệ
t
cảchữhoa lẫ
n chữthường.
5.1.2 Những khó khăn khi tìm theo từkhố
SE thường gặ
p rắ
c rố
i vớ
i những từđồng âm khác nghĩ
a (ví dụhard cider,
hard stone, a hard exam, hard drive) hoặ
c những từcó các biế
n thểkhác nhau do có

LUAN VAN CHAT LUONG download : add


18
tiề
n tốvà hậ
u tốnhưbig, bigger, student, students, …. Bên cạ
nh đó SE cũng khơng
thểtrảvềcác tài liệ
u chứa những từđồ
ng nghĩ

a với các từtrong câu truy vấ
n.
5.1.3 Tìm theo ngữnghĩ
a – Concept-based searching
Excite đã từng nổ
i tiế
ng với chiế
n thuậ
t tìm theo ngữnghĩ
a nhưng giờđây
chiế
n thuậ
t này khơng cịn đ
ược sửdụng nữa. Khơng giố
ng các hệthống tìm theo từ
khố, hệthố
ng tìm theo ngữnghĩ
a sẽ‘
đốn’ý muốn của người dùng thơng qua câu
chữ. Tìm theo ngữnghĩ
a hoạ

ộng dựa trên hình thức gom nhóm tài liệ
u, phức tạ
p
hơn thì dựa vào ngơn ngữhọ
c, các thuyế
t vềtrí tuệnhân tạ
o. Excite tiế
p cậ

n dựa
vào phương pháp tính tốn bằ
ng cách đ
ế
m sốlầ
n xuấ
t hiệ
n của các từquan trọng.
Khi nhiề
u từhoặ
c những cụm từcó nghĩ
a đặ
t gầ
n nhau trong tài liệ
u thì Excite sẽ
cho rằ
ng chúng đang ám chỉmộ
t chủđềnào đó.
Ví dụ
, khi từ‘
heart‘đ
ứng gầ
n các từnhư‘attack‘ (cơn đau tim), ‘blood‘ (sự
số
ng), ‘
stroke‘(sựsay nắ
ng), thì search engine sẽxế
p những trang chứa các từnày
vào chủđềy học và sức khoẻ
. Ngược lạ

i, khi từ‘
heart‘đ
ứng gầ
n các từ‘
flowers’
,
‘candy’, … thì SE sẽxế
p những trang chứa các từnày vào chủđ
ềtrữtình.
5.2 Các chiến lược tìm kiếm
Mọ
i người đề
u nhậ
n xét rằ
ng web là nơ
i mà ta ln có được thơng tin vềbấ
t
kỳchủđềgì. Nhưng kế
t quảcuố
i cùng thường là lãng phí thời gian cho những URL
vơ ích. Do đó đ
ã đế
n lúc ta nghĩđế
n các chiế
n lược tìm kiế
m.
Ta khởi đ

u với một đ
ống thông tin trên mộ

t chủđềkhá rộng? Hoặ
c ta đã hình
dung đ
ược cụthểnhững gì cầ
n tìm? Hay ta muố
n tìm đị
a chỉcủa ai đ
ó?
Nế
u phạ
m vi quan tâm của ta quá rộ
ng, ta nên xem xét các thưmụ
c web (web
directory). Nế
u sau đó ta thu hẹ
p phạ
m vi cầ
n tìm, hãy xem xét việ
c lựa chọ
n mộ
t
cơng cụtìm kiế
m thích hợp.
5.2.1 Tìm thơng tin với các thưmục chủđề
Giống nhưtìm sách trong thưviệ
n, cân nhắ
c giữa tìm theo tác giả
, tiêu đề
, chủ
đ


, ta thường chọ
n chủđềđ
ểcó thểbao quát một vùng thơng tin rộng hơ
n.
Ví dụ
: ta muố
n tạ
o một trang chủ(home page) nhưng không biế
t cách viế
t mộ
t
file HTML nhưthếnào, thậ
m chí chưa từng tạ
o một file ả
nh, và cũ
ng không biế
t

LUAN VAN CHAT LUONG download : add


19
cách đ

y mộ
t trang lên mạ
ng. Tóm lạ
i ta cầ
n những thông tin cho mộ

t chủđ
ềkhá
rộng - xuấ
t bả
n mộttrang web (web publishing).
Khi hồn tồn xác đị
nh mình cầ
n tìm những gì ta nên bắ


u từmộ
t thưmụ
c
web nhưthưmục củ
a Yahoo hoặ
c Google,…vì thưmục web tậ
p trung nhiề
u vào
chủđ
ềđang đ
ược quan tâm hơn là một cơng cụtìm kiế
m.
Gầ
n đ
ây các web site thường kế
t hợp thưmụ
c web và các cơng cụtìm với
nhau. Ví dụnế
u ta sửdụng Google đ
ểtìm thơng tin và một trong những kế

t quảnày
nằ
m trong thưmụ
c web củ
a Google, Google sẽcung cấ
p cho ta một liên kế
t dẫ
n
vào thưmục.
5.2.2 Tìm thơng tin với các cơng cụtìm kiếm
Mộ
t sốcơng cụtìm kiế
m gặ
p rắ
c rố
i với dữliệ
u đầ
u vào củ
a người dùng. Ví
dụ: những từchứa các ký tựđặ
c biệ
t nhưC++ , những từchứa stopword nhưto be
or not to be. Xét ví dụkhác ít rõ ràng hơn. Giảsửta là một người rấ
t thích tiể
u
thuyế
t trinh thám và muốn tìm những trang nói vềcác tác giảyêu thích. Nế
u đơn
giả
n chỉnhậ

p vào các từ‘
mystery‘và ‘writer’, phầ
n lớ
n các search engine sẽtrảvề
các liên kế
t dẫ
n đế
n các trang chứa một trong 2 từtrên hoặ
c cả2. Nhưvậ
y có khả

ng hàng tră
m, thậ
m chí hàng ngàn URL không mong muố
n. Tuy nhiên nế
u ta
nhậ
p vào 1 cụ
m từ, kế
t quảsẽkhảquan hơn.
5.2.3 Tối ưu câu truy vấn
Rấ
t nhiề
u SE áp dụ
ng các toán tửBoolean (Boolean operators) hoặ
c các bộ
đ

nh vị
trí (proximai locators) đểtố

i ưu câu truy vấ
n. Đó là các từkhố sau :
STT

Từkhóa

Ý nghĩ
a

1

AND / phép tốn +

Mọitừtrong câu truy vấ
n phả
i có trong tài
liệ
u

2

OR

Tài liệ
u chứa ít nhấ
t một từcầ
n tìm

3


NOT / phép tốn -

Tài liệ
u khơng chứa [các] từsau từkhố

4

NEAR

Các từcầ
n tìm cách nhau bao nhiêu ký tự
trong tài liệ
u

5

FOLLOWED BY / ADJ

Các từcầ
n tìm phả
i đứng cạ
nh nhau trong tài
liệ
u

Bả
ng 1.1: Các từkhóa giúp tốiưu câu truy vấn

LUAN VAN CHAT LUONG download : add



20
5.2.4 Truy vấn bằng ví dụ
Mộ
t điể
m đáng kích lệnữa của SE là truy vấ
n bằ
ng ví dụ. Sau khi liệ
t kê mộ
t
loạ
t các tài liệ
u được cho là thoảmãn yêu cầ
u người dùng, SE còn “gợi ý” một vài
trang có liên quan đế
n chủđ
ềta đ
ang quan tâm.

6. Nguyên lý hoạt động
SE đ
iề
u khiể
n robot đi thu thậ
p thông tin trên mạ
ng thông qua các siêu liên kế
t
(hyperlink). Khi robot phát hiệ
n ra mộ
t site mới, nó gửi dữliệ

u (web page) vềcho
server chính đ
ểtạ
o cơsởdữliệ
u chỉmục phụ
c vụcho nhu cầ
u tìm kiế
m thơng tin.
Bởi vì thơng tin trên mạ
ng ln thay đ
ổi nên robot phả
i liên tụ
c cậ
p nhậ
t các
site cũ
. Mậ
t độcậ
p nhậ
t phụthuộ
c vào từng hệthố
ng search engine. Khi search
engine nhậ
n câu truy vấ
n từuser, nó sẽtiế
n hành phân tích, tìm trong cơsởdữliệ
u
chỉmụ
c & trảvềnhững tài liệ
u thoảu cầ

u. [7, 8]

Dữliệu

Máy trạ
m

Truy vấn

Bộphậ
n
thu thập

Chỉ
mụ
c

ĐK thu thập

Các chỉ
mục:

Tìm
kiế
m

Phân tích

Cấu trúc


Kết quả

Xế
p
hạ
ng

Tiện ích

Thơng tin phản hồi

[8]
Hình 1.3: Kiế
n trúc chung của 1 SE

LUAN VAN CHAT LUONG download : add


21

Chương 2: MỘT SỐSEARCH ENGINE THÔNG DỤNG TRÊN

THẾGIỚI VÀ CỦA VIỆT NAM
1. Các SE thông dụng trên thếgiới
Search
Engine

Google
www.google.com


Trang hỗ trợ Google help pages
Kích thước,
loại

Rất lớn. Là SE lớn nhất
hiện nay vềquy mô số
trang được index

Yahoo! Search
search.yahoo.com

Ask.com
www.ask.com

Yahoo! help pages

Ask help pages

Lớn. Chứa trên 20 tỷ
trang web các loại

Lớn. Chứa khoảng 2 tỷ
trang web được index toàn
bộ. Đang cốgắng trởthành
SE số1 vềsốlượng site.

Đặc điểm nổi Dùng thuật toán
Liên kết nhanh tới từ
bật và giới
PageRank đểsắp xếp kết điền, từđiển đồng nghĩ

a,
hạn
quảtrảvề
csdl sáng chế, traffic,
stocks, bách khoa tồn
thư…

Sắp xếp theo chủđề. Hỗ
trợtìm kiếm chủđềnghĩ
a
rộng, nghĩ
a hẹp.

Hỗtrợtìm
Có hỗtrợtìm kiếm cụm
kiếm cụm từ từ. Sửdụng dấu “”. Nếu
đểcác từstop word
trong dấu “”thì SE vẫn
hỗtrợtìm

Có hỗtrợtìm kiếm cụm
từ. Sửdụng dấu “


Có hỗtrợtìm kiếm cụm từ.
Sửdụng dấu “

Nếu đểcác từstop word
trong dấu “”thì SE vẫn hỗ
trợtìm


Tốn tử logic Được chia ra thành các
toán hạng. Toán tửAND
được hiểu là dùng liên
kết giữa các từ. Có hỗ
trợtốn tửOR (viết
hoa). Khơng hỗtrợ(),
các quy tắc logic.

Hỗtrợcác tốn tửAND,
OR, NOT, AND NOT và ()

Hỗtrợcác tốn tử AND,
OR, NOT, AND NOT và ()

Tìm kiếm
Hỗtrợ. Tại cuối trang kết Thêm các từkhóa
trong kết quả quảtìm kiếm, click
tìm kiếm
“Search within results”
và nhập thêm các từ
khóa tìm kiếm

Hỗtrợ.
Thêm các từ khóa

Sắp xếp kết Dựa trên sựphổbiến
quả tìm kiếm của site, chỉsốnày được
tính từcác link tới site
của các site khác.

HỗtrợFuzzy AND (toán
tửAND được sắp xếp
đầu tiên, sau mới đến
các tốn tửkhác). Việc
tìm kiếm và sắp xếp dựa
vào cached của các
trang web, điều này dẫn
đến các trang web ko ở
phiên bản mới nhất.

Tựđộng sắp xếp. Fuzzy
and: những từkhóa tìm
kiếm (được hiểu là kết
hợp với nhau bởi tốn tử
AND) của văn bản được
sắp xếp đầu tiên. Tiếp
đến là các tài liệu chứa
bất kỳcác từ khóa tìm
kiếm (tốn tửOR).

Dựa trên sựphổbiến của
chủđềliên quan. Liên kết
tới 1 trang bởi các trang
liên quan

Khơng hỗtrợ. Tìm kiếm
với từkhóa OR nhưtrong

Khơng hỗtrợ. Tìm kiếm với
từkhóa OR nhưtrong


Tìm kiếm
chặt cụt

Khơng hỗtrợtìm kiếm
chặt cut. Truy gốc một

LUAN VAN CHAT LUONG download : add


22
sốtừ. Việc tìm các từ
khóa với hậu tố, từ đồng
nghĩ
a được thực hiện
tách rời, liên kết bởi từ
khóa OR

Google

Google.

Hỗtrợtìm
kiếm chữ
hoa, chữ
thường

Khơng hỗtrợ

Khơng hỗtrợ


Khơng hỗtrợ

Ngơn ngữ

Hỗtrợnhiều ngơn ngữ
trong phần tìm kiếm
nâng cao.

Hỗtrợmột sốngôn ngữ la Hỗtrợmột sốngôn ngữla
tinh và không phải la tinh. tinh chủyếu. Sửa dụng tìm
kiếm nâng cao đểgiới hạn.

Giới hạn thời Trong phần tìm kiếm
gian của tài nâng cao.
liệu
Dị
ch

Hỗtrợdị
ch một sốngôn
ngữchâu Âu, Trung
Quốc, Nhật và Hàn Quốc

Trong phần tìm kiếm
nâng cao.

Trong phần tìm kiếm nâng
cao.


Hỗtrợ

Khơng

[12, 13, 14, 15, 16]

Bả
ng 2.1: Bảng tóm tắt tính năng của các SE thông dụng trên thếgiới

2. Các SE của Việt Nam
2.1 Netnam
Là một đơ
n vịthuộ
c Việ
n Công nghệThông tin, Netnam đ

c biệ
t chú trọ
ng
đ
ế
n việ
c thiế
t kếhệthố
ng phù hợp với điề
u kiệ
n cơsởvậ
t chấ
t - hạtầ
ng cịn khiêm

tốn ởViệ
t Nam. Vì vậ
y, một trong những ưu tiên quan trọ
ng trong các yêu cầ
u xây
dựng hệthống là khảnă
ng tiế
t kiệ
m chi phí đ

u tưcơsởhạtầ
ng kỹthuậ
t, đồ
ng thời
phả

áp ứng được nhu cầ
u mởrộ
ng cao. Do đó SE củ
a Netnam đ
ược thiế
t kếtheo
kiế
n trúc xửlý song song, với các khố
i chức nă
ng nhưhình dưới đây. Kiế
n trúc này
cho phép hệthố
ng có thểphân tán trên từmộ


ế
n hàng tră
m máy tính, cho phép sử
dụng các máy tính PC cỡnhỏthay cho các hệmáy tính chủcao cấ
p. Từđ
ó hệthố
ng
cho phép tiế
t giả
m chi phí tố
i đa trong việ
c xây dựng hạtầ
ng ban đ

u, đồ
ng thờ
i khi
nhu cầ
u tính tốn hoặ
c yêu cầ
u phục vụliên tụ
c tă
ng, chỉcầ
n thêm các máy tính vào
hệthố
ng đ
ểtă
ng cường khảnă
ng xửlý và khảnă
ng phục vụliên tụ

c mà không cầ
n
bổsung bấ
t cứthành phầ
n nào khác.
Phầ
n kiế
n trúc này sẽgiới thiệ
u vềmơ hình chia sẻtính tốn song song củ
a hệ
thố
ng.

LUAN VAN CHAT LUONG download : add


23
Vềmặ
t vậ
t lý, các máy tính đượ
c có thểkế
t nối với nhau đơn giả
n bằ
ng hệ
thố
ng mạ
ng Ethernet 10/100/1000Mbps. Hệ thống cho phép thay đ
ổi nóng
(hotswap) mộ
t hoặ

c mộ
t vài đơn vịvậ
t lý (máy tính) mà khơng làm ả
nh hưởng đế
n
hoạ
t đ
ộng của toàn hệthố
ng, cũ
ng nhưcho phép thực hiệ
n thay thếtựđộ
ng mộ
t
hoặ
c mộ
t vài đơ
n vịvậ
t lý củ
a hệthố
ng khi chúng gặ
p sựcốbấ
t ngờ.

Hình 2.1: Sơđồhệthố
ng SE của Netnam

LUAN VAN CHAT LUONG download : add


24

Hệthống được chia thành ba tầ
ng chính, gồ
m tầ
ng Thu thậ
p thông tin, Nhậ
n
dạ
ng và chuyể
n đổ
i thông tin thành dạ
ng text, Lậ
p cơsởdữliệ
u cho các thông tin
text. Mỗi tầ
ng được chia thành nhiề
u đơn vịđộ
c lậ
p hoạ
t độ
ng theo kiể
u chia sẻtính
tốn và/hoặ
c dựtrữ(redundant), từđ
ó tính tin cậ
y và hiệ
u nă
ng của hệthống cho
phép rấ
t cao đố
i với các hệthống địi hỏ

i tính tin cậ
y và hiệ
u nă
ng cao. Đơn vịkhai
thác dữliệ

ược tích hợp cùng với phầ
n lậ
p chỉmục cơsởdữliệ
u, cho phép khai
thác qua các clients sửdụng giao thức TCP/IP trên bấ
t cứhệthố
ng nào (Windows,
Unix...).
Bằ
ng việ
c chia hệthống thành các khố
i chức nă
ng phố
i hợp vớ
i nhau thông
qua các Bộđiề
u phố
i, hệthố
ng có thểđ
ượ
c phân tán đ
ểxửlý trên nhiề
u máy tính
nhỏthay vì tậ

p trung tồn bộhệthố
ng trên một máy tính lớn. Vì vậ
y, mộ
t mặ
t hệ
thố
ng cho phép sửdụ
ng các máy tính cỡnhỏ(PC hoặ
c PC server) cùng phố
i hợp
tính tốn xửlý, do đó làm giả
m rấ
t nhiề
u chi phí đ

u tưso với các hệmáy cỡmini
hay mainframe, và có thểđầ
u tưdầ
n dầ
n theo sựgia tă
ng của nhu cầ
u thay vì đầ
u tư
tồn bộmột lầ
n ban đ

u. Mặ
t khác, nó cho phép, vềmặ
t ngun tắ
c, nă

ng lực tính
tốn, phụ
c vụthơng tin củ
a hệthống là không hạ
n chế
? khi nhu cầ
u tă
ng lên chỉcầ
n
thêm máy tính vào hệthống mà khơng phả
i thay đổ
i lạ
i hệthống. Vì vậ
y, lượng dữ
liệ
u mà hệthố
ng có thểphục vụ
, vềmặ
t nguyên tắ
c thiế
t kếhệthống, cho phép lên
đ
ế
n hàng tră
m triệ
u tài liệ
u.
2.1.1 Phương pháp lập chỉmục dữliệu của NetNam
Thông thường, NetNam lấ
y tấ

t cảcác từtrong tài liệ

ểlậ
p chỉmục, và khi
trảkế
t quảtìm kiế
m, NetNam SE tìm ra tấ
t cảcác từtrong mộ
t trang tài liệ
u đó, và
hiể
n thịmột sốtừđ

u tiên nhưmộ
t bả
ng tóm tắ
t ngắ
n. Với Netnam ta thểdùng thẻ
META trong trang web để:


Cung cấ
p thêm các từkhố có ả
nh hưởng đế
n kế
t quảtìm kiế
m của NetNam
SE (tác dụng tìm ra trang mà ta cầ
n tìm).




Đưa ra các miêu tảđ
ểhiể
n thịkế
t quảtìm kiế
m.
<META name="keywords" content="xe máy, ơ tơ, mới 100%">
Ví dụ
, giảsửta có mộ
t trang web quả
ng cáo bán ô tô, xe máy mới100%, trang

search của NetNam sẽtựđộ
ng chỉra các từtrong trang. Tuy nhiên, có mộ
t sốtừ
hoặ
c cụm từmiêu tảdị
ch vụlạ
i không xuấ
t hiệ
n trong trang. Sửdụng thẻMETA và

LUAN VAN CHAT LUONG download : add


25
ghi rõ tên="từkhoá" đểthêm các cụm từvào chỉmụ
c và làm tă
ng cơhộ

i tìm kiế
m
cho ngườisửdụng khi muố
n tìm trang web.
Miêu tảthẻMETA cho phép ta tìm được cái mà ta muốn tìm trong bả
n tóm tắ
t
kế
t quảtìm kiế
m. Với trang bán xe củ
a mình, ta có thểmuố
n một cụ
m từquả
ng cáo
ngắ
n nhưsau: content="Bán xe máy và ô tô với chấ
t lượng cao, bả
o hành chu đáo, giá phù
hợp.">
SE của NetNam chỉra các từtrong thẻmiêu tảcùng với những thẻtừkhố.
Do đ
ó trong ví dụnày, người sửdụng sẽcó thểtìm ra trang web của ta bằ
ng cách
tìm từ"chấ
t lượng cao" cũ
ng như"giá phù hợp", "bả
o hành chu đáo". Thay vì hiể
n
thịmột sốdịng đ


u củ
a trang web, kế
t quảtìm kiế
m sẽhiể
n thịvă
n bả
n của thẻ
miêu tả
:
CarLeasing Corp.
Bán xe máy và ô tô với chấ
t lượng cao, bả
o hành chu đ
áo, giá phù hợp.
- 3K ? 01/11/2001
Chú ý: các thẻmiêu tảvà các thẻtừkhố có thểdài tố

a là 1024 ký tự.
2.1.2 Cú pháp tìm kiếm
Cảhai chức nă
ng tìm kiế
m đơn giả
n và nâng cao đề
u sửdụ
ng những quy tắ
c
cú pháp giống nhau đ
ối với các cụm từ, phân biệ
t dạ

ng chữ, và tìm những từliên
quan.
Từvà cụm từ
NetNam đị
nh nghĩ
a mộ
t từcũng nhưbấ
t cứmột chuỗi những chữcái và con
sốđ
ược tách rời nhau :


Ký tựtrắ
ng, nhưdấ
u cách, dấ
u tab, chấ
m xuống dòng, hoặ
c chỗbắ
t đầ
u hoặ
c
kế
t thúc của mộ
t tài liệ
u.



Các ký tựđặ
c biệ

t và hệthống chấ
m câu, ví dụnhư%, $, /, #, và _
Ví dụ
, hệthống tìm kiế
m của NetNam sẽgiả
i thích và chỉrõ những từ

Proliant, 60258, www, http, và XeMayCu nhưnhững từriêng lẻ
, vì chúng là những
chuỗi ký tựliên tiế
p, đ
ược bao quanh bởi các ký tựkhơng phả
i là chữcũng khơng
phả
i là số
. Phầ
n mề
m tìm kiế
m sẽchỉra tấ
t cảcác từmà nó tìm được trong một

LUAN VAN CHAT LUONG download : add


26
trang tài liệ
u web khơng quan tâm liệ
u từđó có trong từđ
iể
n hay đ

ánh vầ
n sai hay
khơng.
Tìm kiế
m cụm từ
Ta có thểtìm thấ
y các cụm từ, hoặ
c mộ
t nhóm từliên quan xuấ
t hiệ
n ngay
cạ
nh nhau. Đểtìm được mộ
t cụm từ,ta đ
óng mởngoặ
c kép ởđầ
u và cuối cụm từđó
đ
ểtạ
o thành mộ
t cụm từ. Cụ
m từđ

m bả
o rằ
ng SE củ
a NetNam sẽtìm đ
ược các từ
đ
úng nhưthế(vịtrí, thứtự, khơng có từchen giữa...), chứkhơng phả

i là tìm đ
ược
riêng từng từmộ
t.
Hệthố
ng chấm câu
NetNam sẽbỏqua hệthố
ng chấ
m câu trừtrườ
n g hợp phả
i thểhiệ
n hệthố
ng
chấ
m câu đó là một dấ
u chia cách giữa các từ. Đặ
t hệthố
ng chấ
m câu hoặ
c các ký
tựđặ
c biệ
t giữa các từ, và giữa chúng khơng có dấ
u cách, cũ
ng là mộ
t cách đ
ểtìm
mộ
t cụm từ. Mộ
t ví dụcho thấ

y hệthống chấ
m câu rấ
t hữu dụ
ng trong việ
c tìm mộ
t
cụ
m từđó là trường hợ
p tìm sốđiệ
n thoạ
i. Ví dụđểtìm được một sốđ
iệ
n thoạ
i
0903401357 ta gõ 09-0340-1357 thì sẽdễtìm hơn là gõ theo kiể
u "09 0340 1357",
mặ
c dù đ
ây cũ
ng là mộ
t cú pháp có thểchấ
p nhậ
n được nhưng ít phổbiế
n.
Các từcó dấ
u nố
i ởgiữa nhưCD-ROM, cũ
ng tựđộ
ng làm thành mộ
t cụm từdo có

dấ
u gạ
ch nốiởgiữa.
Tuy nhiên, thơng thường, sửdụng dấ
u ngoặ
c kép đ
ểtìm một cụm từlà cách
đ
ược khuyế
n khích dùng hơn là sửdụ
ng hệthố
ng chấ
m câu, vì một sốký tựđặ
c
biệ
t cịn có nghĩ
a phụ:


Dấ
u + và - là những toán tửgiúp lọ
c kế
t quảcủa mộ
t tìm kiế

ơn giả
n.




&, |, ~ và ! là những tốn tửgiúp lọc kế
t quảcủ
a một tìm kiế
m nâng cao
Phân biệ
t chữthường/hoa
Phân biệ
t dạ
ng chữlà mộtloạ
i tìm kiế
m dựa vào loạ
i chữmà ta gõ yêu cầ
u tìm

kiế
m củ
a mình vào.


Một u cầ
u bằ
ng chữthường sẽcó kế
t quảtìm kiế
m khơng theo dạ
ng chữta
gõ vào. Ví dụ
, nế
u ta gõ chữyế
t kiêu vào ơ u cầ
u, SE củ

a NetNam sẽtìm
tấ
t cảcác biế
n thểcủa từyế
t kiêu, gồm có yế
t kiêu, Yế
t Kiêu, Yế
T KiÊU,
v.v...

LUAN VAN CHAT LUONG download : add


×