Tải bản đầy đủ (.pdf) (92 trang)

Một số vấn đề liên quan đến Search Engine ứng dụng trong Text : Luận văn ThS. Công nghệ thông tin: 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.87 MB, 92 trang )

2

MỤC LỤC
MỤC LỤC......................................................................................................... 2
BẢNG KÝ HIỆU VIẾT TẮT ........................................................................... 4
DANH MỤC CÁC BẢNG................................................................................ 5
DANH MỤC CÁC HÌNH VẼ.......................................................................... 6
MỞĐẦU........................................................................................................... 7
Chươ
ng 1: TỔNG QUAN VỀSEARCH ENGINE.......................................... 9
1. Đị
nh nghĩ
a ...................................................................................................... 9
1.1 Search engine là gì? ................................................................................... 9
1.2 Phân loạ
i máy tìm kiế
m .............................................................................9
2. Các bộphậ
n cấ
u thành hệthống SE ..........................................................11
2.1 Bộphậ
n thu thậ
p thông tin – Robot .........................................................11
2.2 Bộphậ
n lậ
p chỉmục – Index ...................................................................12
2.3 Bộphậ
n tìm kiế
m thông tin – SE.............................................................12
3. Bộphậ
n thu thập thông tin – ROBOT ......................................................13


3.1 Ứng dụng củ
a Robot ................................................................................13
3.2 Robot chỉmục – Robot Indexing .............................................................14
4. Bộphậ
n lập chỉmục – INDEX ...................................................................15
5. Bộphậ
n tìm kiế
m thông tin – SEARCH ENGINE ...................................17
5.1 Các phương thức tìm kiế
m.......................................................................17
5.2 Các chiế
n lược tìm kiế
m ..........................................................................18
6. Nguyên lý hoạ
t độ
ng ....................................................................................20

Chư
ơng 2: MỘT SỐSEARCH ENGINE THÔNG DỤNG TRÊN THẾGIỚI
VÀ CỦA VIỆT NAM ..................................................................................... 21
1. Các SE thông dụng trên thếgiới ................................................................21
2. Các SE của Việ
t Nam ..................................................................................22
2.1 Netnam .....................................................................................................22
2.2 Vinaseek...................................................................................................29
3. Xu thếphát triể
n của SE .............................................................................30
4. Mộ
t sốSE trên text ......................................................................................31
4.1 SE toàn vă

n của SQL server ....................................................................31
4.2 SE toàn vă
n của Oracle (Oracle Text) .....................................................33

Chươ
ng 3: CÁC PHƯƠNG PHÁP LẬP CHỈMỤC, CHỈMỤC ................... 42
1. Tổng quan vềphương pháp lập chỉmục ...................................................42
1.1 Xác đị
nh mụ
c từquan trọ
ng cầ
n lậ
p chỉmục ..........................................42
1.2 Mộ
t sốhàm tính trọng sốthuậ
t ngữ.........................................................43
1.3 Lậ
p chỉmụ
c tựđộ
ng cho tài liệ
u..............................................................47
2. Các phương pháp chỉ
mục ..........................................................................48
2.1 Phương pháp chỉmụ
c mả
ng tiế
p tố(Suffix array)...................................48
2.2 Phương pháp chỉmụ
c tệ



o (Inverted File)..........................................49
2.3 Phương pháp chỉmụ
c tệ
p ký sốSFID .....................................................54
2.4 So sánh các phương pháp chỉmụ
c...........................................................57

Chươ
ng 4: TRIỂN KHAI SE TIẾNG VIỆT TRONG ORACLE TEXT ........ 61
1. Khó khăn cho việ
c lậ
p chỉmục tiế
ng Việ
t .................................................61
2. Đặc điể
m vềtừtrong tiế
ng Việ
t và việ
c tách từ........................................62


3
2.1 Đặ
c điể
m vềtừtrong tiế
ng Việ
t: ..............................................................62
2.2 Tiế
ng: .......................................................................................................62

2.3 Từ:............................................................................................................62
2.4 Tách từ.....................................................................................................63
2.5 Giả
i quyế
t các vấ

ềchính tả.................................................................64
2.6 Giả
i quyế
t các vấ

ềvềtừcủa tiế
ng Việ
t ..............................................66
2.7 Xửlý vấ
n đềsắ
p xế
p tiế
ng Việ
t ...............................................................67
2.8 Xây dựng từđ
iể
n tiế
ng Việ
t .....................................................................68
3. Triể
n khai thửnghiệ
m.................................................................................69
3.1 Đặ
t vấ

n đề................................................................................................69
3.2 Xây dựng chương trình ............................................................................70
3.3 Thiế
t kếchi tiế
t ........................................................................................75
3.4 Chương trình ............................................................................................83
3.5 Kế
t quảthửnghiệ
m..................................................................................88

KẾT LUẬN ..................................................................................................... 90
TÀI LIỆU THAM KHẢO............................................................................... 92
1. Tiế
ng Việ
t ..................................................................................................92
2. Tiế
ng Anh ..................................................................................................92
3. Website.......................................................................................................92


4

BẢNG KÝ HIỆU VIẾT TẮT
Ký hiệ
u viế
t tắt

Tiếng Anh

Tiếng Việt


SE

Search Engine

Máy tìm kiế
m

IF

Inverted File

Tệ


o

ID

Index

Chỉmụ
c

SFID

Signature file index

Chỉmụ
c tệ

p ký số

IFID

Inverted File Index

Chỉmụ
c tệ
p đả
o

IL

Inverted list

Danh sách đả
o

SA

Suffix Array

Mả
ng tiế
p tố

MSFT

Microsoft Full Text


Toàn vă
n của Microsoft

SF

Signature File

Tệ
p ký số

CSDL

Database

Cơsởdữliệ
u


5

DANH MỤC CÁC BẢNG
Bả
ng 1.1: Các từkhóa giúp tối ưu câu truy vấ
n........................................................19
Bả
ng 2.1: Bả
ng tóm tắ
t tính nă
ng củ
a các SE thông dụ

ng trên thếgiới...................22
Bả
ng 2.2: Bả
ng miêu tảcác từkhoá sửdụ
ng trong việ
c tìm kiế
m. ..........................27
Bả
ng 2.3: Ví dụtìm kiế
m thông tin của Netnam ......................................................29
Bả
ng 2.4: Các thành phầ
n của MSFTESQL .............................................................32
Bả
ng 2.5: Các thuộ
c tính dùng đ
ểranking ................................................................33
Bả
ng 2.6: Các toán tửdùng trong Oracle Text .........................................................38
Bả
ng 3.1: Bả
ng minh họ
a quá trình xây dựng mả
ng tiế
p tố.....................................49
Bả
ng 3.2: Bả
ng danh sách các đ
iể
m truy cậ

p mả
ng tiế
p tố......................................49
Bả
ng 3.3: Vă
n bả
n mẫ
u; mỗ
i dòng là một tài liệ
u ....................................................50
Bả
ng 3.4: IF đố
i vớivă
n bả
n của bả
ng 3.3 ...............................................................51
Bả
ng 3.5: IF mức từđố
i vớivă
n bả
n của bả
ng 3.3 ...................................................52
Bả
ng 3.6: Mã hoá chồng lên củ
a tài liệ
u 2 bả
ng 3.3 đố
i vớiSF ...............................55
Bả
ng 3.7: Bả

ng so sánh giữa SA và IF .....................................................................57
Bả
ng 4.1: Bả
ng mô tảcác chức nă
ng chính ..............................................................75
Bả
ng 4.2: Bả
ng cấ
u trúc dữliệ
u................................................................................76
Bả
ng 4.3: Mô tảthủtụ
c Myctxhx .............................................................................77
Bả
ng 4.4: Mô tảthủtụ
c Cvtr.....................................................................................81
Bả
ng 4.5: Mô tảthủtụ
c VnNormalize ......................................................................81


6

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Giao diệ
n của máy metacrawler................................................................10
Hình 1.2: Mô hình xửlý cho hệthố
ng lậ
p chỉmụ
c ....................................................1

Hình 1.3: Kiế
n trúc chung củ
a 1 SE..........................................................................20
Hình 2.1: Sơđồhệthống SE của Netnam ................................................................23
Hình 2.2: Kiế
n trúc củ
a MSFT..................................................................................31
Hình 2.3: Kiế
n trúc củ
a Oracle Text .........................................................................34
Hình 4.1: Cấ
u trúc của chương trình Thưviệ
n số.....................................................71
Hình 4.2: Kiế
n trúc xây dựng chỉmục trên Oracle Text đ
ối với tiế
ng Việ
t .............73
Hình 4.3: Kiế
n trúc hoạ

ộng củ
a việ
c sắ
p xế
p tiế
ng Việ
t ........................................1
Hình 4.4: Kiế
n trúc hoạ


ộng củ
a thủtụ
c Myctxhx.................................................77
Hình 4.5: Giao diệ
n màn hình quả
n lý dữliệ
u Text .................................................85
Hình 4.6: Giao diệ
n màn hình nhậ
p dữliệ
u Text......................................................85
Hình 4.7: Giao diệ
n màn hình tìm kiế
m dữliệ
u .......................................................86
Hình 4.8: Giao diệ
n màn hình tìm kiế
m hình cây theo nă
m .....................................86
Hình 4.9: Giao diệ
n màn hình tìm kiế
m hình cây theo chủđề.................................87
Hình 4.10: Giao diệ
n màn hình tìm kiế
m bỏdấ
u......................................................88
Hình 4.11: Giao diệ
n màn hình quả
n lý danh mục từkhóa (Thesaurus)..................88



7

MỞ ĐẦU
Mỗ
i giây trôi qua trên thếgiới lạ
i xuấ
t hiệ
n hàng ngàn trang web, hàng triệ
u
tài liệ
u khác nhau. Thếgiới Internet ngày càng khổng lồ, kho tri thức củ
a nhân loạ
i
càng ngày được phát triể
n với nhiề
u loạ
i hình thông tin khác nhau, đó là dữliệ
u
hình ả
nh, âm thanh hay dữliệ
u Text... Khi thông tin càng bùng nổthì nhu cầ
u tìm
kiế
m càng càng tă
ng cao, bởi vậ
y ngày càng có rấ
t nhiề
u công cụhỗtrợcho việ

c
tìm kiế
m được chính xác và hiệ
u quả
.
Mộ
t sốlượng lớn thông tin ngày nay là dạ
ng Text, đ
ược lưu ởvă
n bả
n, các
trang web, fax, email…Những thông tin quan trọng này thườ
ng rấ
t khó truy cậ
p và
quả
n lý gặ
p nhiề
u trởngạ
i. Có rấ
t nhiề
u loạ
i dữliệ
u Text được khai thác không
đ
úng mức, những thông tin cầ
n thiế
t không được tìm thấ
y khi cầ
n thiế

t hoặ
c phả
i
mấ
t rấ
t nhiề
u công sức. Hiệ
n nay các hệquả
n trịcơsởdữliệ

ã hỗtrợrấ
t tố
t tính

ng tìm kiế
m dữliệ
u toàn vă
n (full-text) nhưOracle, Microsoft, MySQL,.. Những
tính nă
ng này hầ
u như đã đáp ứng việ
c tìm kiế
m cho nhiề
u nguồn tài liệ
u khác
nhau, cấ
u trúc khác nhau, tuy nhiên những công cụnày không thực sựthỏa mãn cho
tìm kiế
m tiế
ng Việ

t, cụthểlà vấ

ềbả
ng mã, ngữpháp đ

c trưng riêng củ
a tiế
ng
Việ
t.
Luậ
n vă
n này tậ
p trung tìm hiể
u hoạ
t đ
ộng mô hình máy tìm kiế
m (Search
engine), mộ
t sốtrang tìm kiế
m của thếgiới và Việ
t Nam, các kỹthuậ
t chỉmụ
c, đặ
c
thù của việ
c tìm kiế
m tiế
ng Việ
t và triể

n khai thửnghiệ
m trên chức nă
ng tìm kiế
m
toàn vă
n của Oracle.
Luậ
n vă
n gồ
m 4 chương:
Chương 1: Giới thiệ
u tổ
ng quan vềSE, các thành phầ
n cấ
u thành củ
a mộ
t SE.
Các nguyên lý hoạ

ộng, các chiế
n lược tìm kiế
m được đ
ưa ra trong chương này hỗ
trợcác khái nhiệ
m cơbả
n cho việ
c phát triể
n SE.
Chương 2: Phân tích hiệ
n trạ

ng một sốSE của thếgiớ
i, SE củ
a Việ
t Nam và
xu hướng phát triể
n SE của thếgiới. Tìm hiể
u các SE trên Text của các hệquả
n trị
cơsởdữliệ
u nhưOracle, Microsoft cũ
ng đ
ược đưa ra trong chương này.
Chương 3: Tậ
p trung tìm hiể
u các phương pháp chỉmụ
c thông dụ
ng. Chương
này đưa ra tổ
ng quan vềcách lậ
p chỉmục, chỉmục tựđ
ộng. Ngoài ra trong chương


8
này còn phân tích kỹcác kỹthuậ
t chỉmục: mả
ng tiế
p tố(suffix array), chỉmục tệ
p
đ


o (inverted file), chỉmục tệ
p ký số(SFID) và so sánh giữa các phương pháp vớ
i
nhau.
Chương 4: Triể
n khai thửnghiệ
m SE trên Text trong CSDL Oracle. Chương 4
chỉra các khó khă
n, đặ
c thù của việ
c chỉmục ngôn ngữtiế
ng Việ
t. Tuy nhiên, đ

việ
c xửlý ngôn ngữtiế
ng Việ
t thực sựhiệ
u quảcầ

òi hỏi sựđ

u tư, đ
óng góp rấ
t
nhiề
u củ
a chuyên gia vềngôn ngữhọ
c. Việ

c cài đặ
t thửnghiệ
m chỉđưa ra đ
ược
cách thức giả
i quyế
t và áp dụng một sốthửnghiệ
m.
Em xin gửi lời cả
m ơn PGS TS VũĐức Thi, các thầ
y cô giáo của trườ
ng Đạ
i
học Công nghệ
, các anh chịđồ
ng nghiệ
p và các bạ
n cùng lớp đã trang bịkiế
n thức
và có nhiề

óng góp quý báu giúp em hoàn thành luậ
n vă
n.


9

Chương 1: TỔNG QUAN VỀSEARCH ENGINE


1. Đị
nh nghĩ
a
1.1 Search engine là gì?
Máy truy tìm hay máy tìm kiế
m (search engine), hay còn được gọi với nghĩ
a
rộng hơn là công cụtìm kiế
m (search tool), nguyên thuỷlà một phầ
n mề
m nhằ
m
tìm ra các trang trên mạ
ng Internet có nội dung theo yêu cầ
u ngườ
i dùng dựa vào
các thông tin hiệ
n có. Trữlượng thông tin của công cụtìm kiế
m thực chấ
t là mộ
t cơ
sởdữliệ
u rấ
t lớn. Việ
c tìm tài liệ
u sẽdựa trên các từkhóa được người dùng gõ vào
và trảvềmộ
t danh mụ
c các trang Web có chứa từkhóa.
Từkhóa đượ

c hiể
u nhưlà một tổhợp các từcủ
a một ngôn ngữnhấ
t đ

nh
đ
ược sắ
p xế
p hay quan hệvới nhau thông qua các biể
u thức logic mà công cụtìm
kiế
m hỗtrợ. Trong trường hợp mộ
t từkhoá bao gồ
m nhiề
u hơn một chữ(hay từ) thì
có thểgọ
i tậ
p họ
p tấ
t cảcác chữđó là bộtừkhoá.
Cơsởdữliệ
u mà máy truy tìm sửdụng thường đượ
c bổsung cậ
p nhậ
t đị
nh kì
bằ
ng cách quét, đ
iề

u chỉ
nh, thêm bớt nộ
i dung và chỉsốhoá lạ
i tấ
t cảcác trang tìm
gặ
p trên Internet.
Ngày nay, với sốlượng các trang Web lên đ
ế
n hàng tỉ
, nên việ
c tìm ra sốtrang
có chứa nội dụ
ng đ
òi hỏi của từkhoá có thểlên đ
ế
n hàng triệ
u trang. Do đ
ó, việ
c
hiể
n thịkế
t quảtìm thấ
y theo đ
úng thứtựquan trọng củ
a các trang và theo mong
muốn củ
a người dùng là mộ
t trởngạ
i lớn đòi hỏi sựchắ

t lọc từmáy truy tìm và sự
khéo léo vềcách thức đặ
t ra từkhoá từngười dùng máy
1.2 Phân loại máy tìm kiếm
Ngày nay các máy truy tìm đã phát triể
n rấ
t xa so với dạ
ng nguyên thuỷ
. Có
hai cách chính phân loạ
i máy truy tìm.
1.2.1 Theo phương thức hoạt động


Kiể
u máy nhệ
n (spider): Cơsởdữliệ
u củ
a các máy truy tìm đ
ược cậ
p nhậ
t
bởi các phầ
n mề
m đặ
c biệ
t thườ
ng gọi là "robot", "spider" hay
"Webcrawler". Các phầ
n mề

m này sẽtựđộ
ng dò tìm và phân tích từnhững
trang có sẵ
n trong cơsởdữliệ
u đểtìm ra các liên kế
t (link) từcác trang và


10
trởlạ
i bổsung dữliệ
u cho chính nó sau khi phân tích. Phầ
n mề
m này cũng sẽ
báo cáo vềcác liên kế

ã bịđào thả
i. Từkhoá đượ
c trích chọ
n là đểcho SE
tìm kiế
m trong bả
ng chỉsố.Kế
t quảtố
t nhấ
t sau khi phân hạ
ng sẽđ
ược xế
pở
thứ tự đầ

u tiên. Trang thông dụ
ng nhấ
t dùng nguyên tắ
c này là


Hình 1.1: Giao diệ
n của máy metacrawler


Kiể
u máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thểlợ
i
dụng các máy truy tìm sẵ
n có đểthiế
t kếthành mộ
t loạ
i máy truy tìm mớigọ
i
là máy truy tìm ả
o. Nguyên tắ
c của loạ
i máy truy tìm ả
o khá đ
ơn giả
n. Kiể
u
máy truy tìm ả
o không có cơsởdữliệ
u. Khi hoạ

t độ
ng thì máy sẽgởi từ
khoá đế
n các máy truy tìm khác mộ
t cách đ
ồng loạ
t và nhậ
n vềtấ
t cảcác kế
t
quảtìm đ
ược. Nhiệ
m vụtiế
p theo chỉlà phân tích và phân hạ
ng lạ
i các tài
liệ
u tìm đượ
c cho người dùng. Ưu điể
m củ
a loạ
i máy truy tìm này là lợi dụ
ng
cơsởdữliệ
u của các máy truy tìm khác đ
ểtìm ra nhiề
u kế
t quảhơn và
nhanh hơn. Nhưng vì loạ
i này chỉtồ

n tạ
i nế
u có các máy truy tìm nguyên
thuỷnên gọ
i là meta. Điể
n hình loạ
i này là MetaCrawler.



Kiể
u thưmục đố
i tượng (subject directory): Còn gọi là máy truy tìm theo
phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵ
n các
đ
ối tượng vào các thưmục và ngườ
i dùng sẽlựa theo kiể
u rẽnhánh từtừcho
đ
ế
n khi tìm ra các trang Web mà mình muố
n. Phương thức tìm kiế
m phân
lớp dễcho người truy cậ
p nhưng có điể
m yế
u là nó không thểbao gồm hế
t
mọ

i chủđềmà họmuốn kiế
m ra. Hơn nữa, sựphân loạ

ôi khi không đ
ược
đ


ủvà chính xác. Điể
n hình củ
a loạ
i này là



Kiể
u cơsởdữliệ
u đặ
c biệ
t (invisible Web): Đặ
c điể
m củ
a loạ
i kiể
u máy tìm
kiể
m này là dữliệ
u kiế
m ra không thực sựcó từđị
a chỉtrang Web cụthểqua

các máy truy tìm; dữliệ
u này tồ
n tạ
i trong các cơsởdữliệ
u của một máy


11
tính hay mạ
ng ởđâu đ
ó trên Internet mà các trang Web được phép sửdụng.
Đặ
c biệ
t, các trang Web nghiên cứu củ
a các đ

i học hay học việ
n như
, và là đ
iể
n
hình củ
a kiể
u tìm kiế
m trong CSDL.
Càng ngày càng có nhiề
u máy truy tìm hỗtrợngườ
i dùng qua nhiề
u cách




thức khác nhau nên ranh giới phân chia củ
a các máy truy tìm là không đ
áng
kểmà thay vào đó là các hệthố
ng máy truy tìm lạ
i bao gồ
m nhiề
u kiể
u chức

ng khác nhau. Chẳ
ng hạ
n như không còn đơn
thuầ
n là mộ
t máy truy tìm theo kiể
u thưmụ
c đố
i tượng mà bên cạ
nh đ
ó nó

ng cung cấ
p luôn cảkiể
u máy nhệ
n cho người dùng.
1.2.2 Theo chức năng
Theo cách phân loạ

i này thì tùy theo đ
ối tượng tìm kiế
m mà có:


Mày tìm kiế


a chỉtrang Web



Kiế


a chỉthưđiệ
n tử



Kiế
m thông tin riêng vềmột ngườ
i



Kiế
m thông tin vềmột tổchức




Kiế
m việ
c làm



Kiế
m bả

ồ...[11]

2. Các bộphận cấu thành hệthống SE
2.1 Bộphận thu thập thông tin – Robot
Robot là mộ
t chương trình tựđ
ộng duyệ
t qua các cấ
u trúc siêu liên kế
t đểthu
thậ
p tài liệ
u và mộ
t cách đệquy nó nhậ
n vềtấ
t cảtài liệ
u có liên kế
t với tài liệ
u này.
Robot được biế

t đế
n dưới nhiề
u tên gọ
i khác nhau : spider, web wanderer hoặ
c
web worm,… Những tên gọi này đ
ôi khi gây nhầ
m lẫ
n, nhưtừ‘
spider’
,‘
wanderer’
làm người ta nghĩrằ
ng robot tựnó di chuyể
n và từ‘
worm’làm người ta liên tưởng
đ
ế
n virus. Vềbả
n chấ
t robot chỉlà mộ
t chương trình duyệ
t và thu thậ
p thông tin từ
các site theo đ
úng giao thức web. Những trình duyệ
t thông thường không được xem
là robot do thiế
u tính chủđộ
ng, chúng chỉduyệ

t web khi có sựtác độ
ng của con
người.


12
2.2 Bộphận lập chỉmục – Index
Hệthố
ng lậ
p chỉmục hay còn gọ
i là hệthố
ng phân tích và xửlý dữliệ
u, thực
hiệ
n việ
c phân tích, trích chọ
n những thông tin cầ
n thiế
t (thườ
ng là các từđơ
n , từ
ghép , cụ
m từquan trọ
ng) từnhững dữliệ
u mà robot thu thậ
p được và tổchức thành
cơsởdữliệ
u riêng đ
ểcó thểtìm kiế
m trên đó một cách nhanh chóng, hiệ

u quả
. Hệ
thố
ng chỉmục là danh sách các từkhoá, chỉrõ các từkhoá nào xuấ
t hiệ
n ởtrang
nào, đ

a chỉnào.
2.3 Bộphận tìm kiếm thông tin – SE
SE là cụm từdùng chỉtoàn bộhệthố
ng bao gồm bộphậ
n thu thậ
p thông tin,
bộphậ
n lậ
p chỉmục và bộphậ
n tìm kiế
m thông tin. Các bộphậ
n này hoạ
t độ
ng liên
tục từlúc khở

ộng hệthố
ng, chúng phụthuộ
c lẫ
n nhau vềmặ
t dữliệ
u nhưng độ

c
lậ
p với nhau vềmặ
t hoạ


ng.
SE tươ
ng tác vớ
i người dùng thông qua giao diệ
n web, có nhiệ
m vụtiế
p nhậ
n
& trảvềnhững tài liệ
u thoảyêu cầ
u của người dùng.
Nói mộ
t cách đơn giả
n, tìm kiế
m từlà tìm kiế
m các trang mà những từtrong
câu truy vấ
n (query) xuấ
t hiệ
n nhiề
u nhấ
t, ngoạ
i trừstopword (các từquá thông
dụng nhưmạ

o từa, an, the,…). Một từcàng xuấ
t hiệ
n nhiề
u trong mộ
t trang thì
trang đó càng được chọn đểtrảvềcho người dùng. Và một trang chứa tấ
t cảcác từ
trong câu truy vấ
n thì tốt hơn là mộ
t trang không chứa mộ
t hoặ
c một sốtừ. Ngày
nay, hầ
u hế
t các SE đ

u hỗtrợchức nă
ng tìm cơbả
n và nâng cao, tìm từđ
ơn, từ
ghép, cụm từ, danh từriêng, hay giới hạ
n phạ
m vi tìm kiế
m nhưtrên đ
ềmụ
c, tiêu
đ

, đoạ
n vă

n bả
n giới thiệ
u vềtrang web,…..
Ngoài chiế
n lược tìm chính xác theo từkhoá, các SE còn cốgắ
ng “hiể
u” ý
nghĩ
a thực sựcủa câu hỏ
i thông qua những câu chữdo người dùng cung cấ
p. Điề
u
này được thểhiệ
n qua chức nă
ng sửa lỗi chính tả
, tìm cảnhững hình thức biế


i
khác nhau củ
a một từ. Ví dụ: SE sẽtìm những từnhưspeaker, speaking, spoke khi
ngườidùng nhậ
p vào từspeak.


13

3. Bộphận thu thập thông tin – ROBOT
3.1 Ứng dụng của Robot
Robot thường được sửdụ

ng cho những mụ
c đích sau :
3.1.1 Phân tích, thống kê – Statistical Analysis
Robot đ

u tiên được dùng đ
ểđ
ế
m sốlượ
ng web server, sốtài liệ
u trung bình
củ
a một server, tỉlệcác dạ
ng tệ
p khác nhau, kích thước trung bình của mộ
t trang
web, đ
ộkế
t dính, …
3.1.2 Duy trì siêu liên kết - Maintenance
Mộ
t trong những khó khă
n củ
a việ
c duy trì mộ
t siêu liên kế
t là nó liên kế
t vớ
i
những trang bịhỏng (dead links) khi những trang này bịthay đ

ổi hoặ
c thậ
m chí bị
xóa. Tuy nhiên vẫ
n chưa có cơchếnào cả
nh báo các bộduy trì vềsựthay đ
ổi này.
Trên thực tếkhi các tác giảnhậ
n ra tài liệ
u của mình chứa những liên kế
t hỏng, họ
sẽthông báo cho nhau, hoặ
c thỉ
nh thoả
ng đ
ộc giảthông báo cho họbằ
ng email.
Mộ
t sốrobot, chẳ
ng hạ
n MOMspider có thểtrợgiúp tác giảphát hiệ
n các liên
kế
t hỏ
ng cũng nhưduy trì các cấ
u trúc siêu liên kế
t cùng nội dung củ
a mộ
t trang
web. Chức nă

ng này lặ
p lạ
i liên tục mỗi khi một tài liệ

ượ
c cậ
p nhậ
t, nhờđó mọ
i
vấ

ềxả
y ra sẽđ
ược giả
i quyế
t nhanh chóng.
3.1.3 Ánh xạđị
a chỉ
web - Mirroring
Một ánh xạ(mirror) sẽsao chép toàn bộcấ
u trúc cây thưmục và thường
xuyên cậ
p nhậ
t những tệ
p bịthay đ
ổi. Điề
u này cho phép nhiề
u người cùng truy
xuấ
t mộ

t nguồn dữliệ
u, giả
m sốliên kế
t bịthấ
t bạ
i, nhanh hơn và ít chi phí hơn so
với truy cậ
p trực tiế
p vào site thực sựchứa các dữliệ
u này.
3.1.4 Phát hiện tài nguyên – Resource Discovery
Có lẽứng dụ
ng thú vịnhấ
t củ
a robot là dùng nó đểphát hiệ
n tài nguyên. Con
người không thểkiể
m soát nổi một khố
i lượng thông tin khổng lồtrong môi trường
mạ
ng. Robot sẽgiúp thu thậ
p tài liệ
u, tạ
o và duy trì cơsởdữliệ
u, phát hiệ
n và xoá
bỏcác liên kế
t hỏ
ng nế
u có, kế

t hợp với công cụtìm kiế
m cung cấ
p thông tin cầ
n
thiế
t cho con người.


14
3.1.5 Kết hợp các công dụng trên- Combined uses
Mộ
t robot có thểđ

m nhậ
n nhiề
u chức nă
ng. Ví dụRBSE Spider vừa thống kê
sốlượng tài liệ
u thu đ
ược vừa tạ
o cơsởdữliệ
u. Tuy nhiên những ứng dụ
ng nhưthế
còn khá ít ỏi.
3.2 Robot chỉmục – Robot Indexing
Trong quá trình thu thậ
p thông tin phục vụcho bộlậ
p chỉmụ
c, ta cầ
n giả

i
quyế
t những vấ
n đềsau :
Mộ
t là : Trong môi trường mạ
ng, robot lấ
y thông tin từcác site. Vậ
y robot sẽ
bắ


u từsite nào? Điề
u này hoàn toàn phụthuộ
c vào robot. Mỗ
i robot khác nhau
sẽcó những chiế
n lược khác nhau. Thường thì robot sẽviế
ng thă
m các site phổbiế
n
hoặ
c những site có nhiề
u liên kế
t dẫ

ế
n nó.
Hai là : Ai sẽcung cấ



a chỉcủ
a các site này cho robot ?
Có 2 nguồ
n:
Robot nhậ
n các URL ban đầ
u từuser.
Robot phân tích các trang web đ
ểlấ
y các URL mới, đ
ế
n lượ
t các URL này trở
thành đ

a chỉđầ
u vào cho robot. Quá trình này đ
ược lặ
p lạ
i liên tụ
c.
Ba là : Chọn dữliệ
u nào trong tài liệ

ểlậ
p chỉmụ
c?
Quyế
t đị

nh chọn dữliệ
u nào trong tài liệ
u cũ
ng hoàn toàn phụthuộc vào
robot, thường thì những từđược liệ
t kê nhưsau đ
ược xem là quan trọng :


Ởgóc cao của tài liệ
u.



Trong các đềmụ
c



Được in đậ
m (inktomi)



Trong URL.



Trong tiêu đề(quan trọ
ng)




Trong phầ
n miêu tảtrang web (description) .



Trong các thẻdành cho hình ả
nh (ALT graphisc).



Trong các thẻchứa từkhóa.



Trong các text liên kế
t.


15
Mộ
t sốrobot lậ
p chỉmục trên tiêu đề
, hoặ
c mộ
t sốđoạ
n vă
n bả



u tiên hoặ
c
toàn bộtài liệ
u (full text). Một sốkhác lạ
i lậ
p chỉmục trên các thẻMETA(META
tags) hoặ
c các thẻẩ
n, nhờvậ
y tác giảcủ
a trang web đ
ược quyề
nấ
n đị
nh từkhoá
cho tài liệ
u của mình. Tuy nhiên chức nă
ng này bịlạ
m dụng quá nhiề
u do đó các thẻ
META không còn giữđượ
c giá trịban đầ
u của chúng nữa.

4. Bộphận lập chỉmục – INDEX
Các trang Web sau khi thu thậ
p vềsẽđượ
c phân tích, trích chọ

n những thông
tin cầ
n thiế
t (thườ
ng là các từđơn , từghép , cụ
m từquan trọ
ng) đ
ểlưu trữtrong
cơsởdữliệ
u nhằ
m phục vụcho nhu cầ
u tìm kiế
m sau này.


16

Mô hình xửlý tổng quát của một hệthố
ng được trình bày nhưsau:

Danh sách các
trang Web cầ
n
lậ
p chỉmục

Lọc các thông tin thừa, chuyể
n
tài liệ
u vềdạng vă

n bả
n

Tách vă
n bản thành các từ

Danh sách các
từstop-word

TỪ
ĐIỂN

Loạ
i bỏstop-word

Tính trọng sốvà loạibỏnhững
từcó trọng sốthấ
p

Loạ
i bỏhậu tố

CSDL chỉ
mục thông
tin

Danh sách
các hậu tố

Lậ

p chỉmục

Hình 1.2: Mô hình xửlý cho hệthố
ng lập chỉmục

Lậ
p chỉmụ
c là quá trình phân tích và xác đị
nh các từ, cụm từthích hợp cốt
lõi có khảnă
ng đạ
i diệ
n cho nộ
i dung của tài liệ
u. Nhưvậ
y, vấ

ềđ

t ra là phả
i
rút trích ra những thông tin chính, có khảnă
ng đ

i diệ
n cho nội dung củ
a tài liệ
u.
Thông tin này phả
i“

vừa đ
ủ”
, nghĩ
a là không thiế
u đểtrảra kế
t quảđầ
y đủso vớ
i
nhu cầ
u tìm kiế
m, nhưng cũ
ng phả
i không thừa đ
ểgiả
m chi phí lưu trữvà chi phí
tìm kiế
m và đ
ểloạ
i bỏ kế
t quảdưthừa không phù hợp. Việ
c rút trích này chính là
việ
c lậ
p chỉmụ
c trên tài liệ
u. Trước đ
ây, quá trình này thường được các chuyên
viên đã qua đào tạ
o thực hiệ
n mộtcách “

thủcông“nên có đ
ộchính xác cao. Nhưng


17
trong môi trường hiệ
n đạ
i ngày nay, với lượng thông tin khổng lồthì việ
c lậ
p chỉ
mụ
c bằ
ng tay không còn phù hợp, phương pháp lậ
p chỉmụ
c tựđộ
ng mang lạ
i hiệ
u
quảcao hơn.
Mộ
t thủtụ
c lậ
p chỉmụ
c tựđ
ộng cơbả
n cho các tài liệ
u tiế
ng Anh có thểđ
ược
xửlý nhưsau:

Step of tokenization: Tách vă
n bả
n ra thành các chuỗi nhờvào khoả
ng trắ
ng,
mỗ
i chuỗ
i xem nhưlà mộ
t từ.
Step of removal of stop words: bỏnhững từthường xuyên xuấ
t hiệ
n trong hầ
u
hế
t các tài liệ
u nhưng lạ
i không quan trọng trong các tài liệ
u nhưtính từ, đạ
i từ.
Step of stemming: loạ
i bỏcác hậ
u tố(suffixes) đ
ểđ
ưa vềcác từgốc.
Các từthu đ
ược sẽđ
ược lậ
p chỉmụ
c. Tuy nhiên hai bước đầ
u cũng cầ

n cho
quá trình lậ
p chỉmụ
c cho các tài liệ
u tiế
ng Việ
t, bước thứba không cầ
n vì tiế
ng
Việ
t thuộc dòng ngôn ngữđơ
n thể
. Chi tiế
t vềcác phương pháp lậ
p chỉmục và chỉ
mụ
c được trình bày tạ
i chương 3.

5. Bộphận tìm kiếm thông tin – SEARCH ENGINE
5.1 Các phương thức tìm kiếm
5.1.1 Tìm theo từkhoá – Keyword searching
Đây là phương pháp đ
ược áp dụ
ng với hầ
u hế
t các SE. Trừkhi tác giảcủ
a
trang web xác đ


nh từkhóa cho tài liệ
u của mình, ngược lạ

iề
u này phụthuộ
c vào
SE. Nhưvậ
y các SE sẽtựmình chọn và đánh chỉmục cho những từmà chúng cho
quan trọng có thểgiúp phân biệ
t các tài liệ
u khác nhau. Một sốsite lậ
p chỉmụ
c cho
tấ
t cảcác từcó trong mộ
t trang web, mộtsốkhác chỉchọn mộ
t sốđ
oạ
n vă
n bả
n.
Các hệthố
ng đánh chỉmục trên toàn vă
n bả
n đế
m sốlầ
n xuấ
t hiệ
n củ
a mỗ

i từ
trong tài liệ
u ngoạ
i trừcác từstopword. Có những công cụtìm kiế
m còn phân biệ
t
cảchữhoa lẫ
n chữthường.
5.1.2 Những khó khăn khi tìm theo từkhoá
SE thường gặ
p rắ
c rố
i vớ
i những từđồng âm khác nghĩ
a (ví dụhard cider,
hard stone, a hard exam, hard drive) hoặ
c những từcó các biế
n thểkhác nhau do có


18
tiề
n tốvà hậ
u tốnhưbig, bigger, student, students, …. Bên cạ
nh đó SE cũng không
thểtrảvềcác tài liệ
u chứa những từđồ
ng nghĩ
a với các từtrong câu truy vấ
n.

5.1.3 Tìm theo ngữnghĩ
a – Concept-based searching
Excite đã từng nổ
i tiế
ng với chiế
n thuậ
t tìm theo ngữnghĩ
a nhưng giờđây
chiế
n thuậ
t này không còn đ
ược sửdụng nữa. Không giố
ng các hệthống tìm theo từ
khoá, hệthố
ng tìm theo ngữnghĩ
a sẽ‘
đoán’ý muốn của người dùng thông qua câu
chữ. Tìm theo ngữnghĩ
a hoạ

ộng dựa trên hình thức gom nhóm tài liệ
u, phức tạ
p
hơn thì dựa vào ngôn ngữhọ
c, các thuyế
t vềtrí tuệnhân tạ
o. Excite tiế
p cậ
n dựa
vào phương pháp tính toán bằ

ng cách đ
ế
m sốlầ
n xuấ
t hiệ
n của các từquan trọng.
Khi nhiề
u từhoặ
c những cụm từcó nghĩ
a đặ
t gầ
n nhau trong tài liệ
u thì Excite sẽ
cho rằ
ng chúng đang ám chỉmộ
t chủđềnào đó.
Ví dụ
, khi từ‘
heart‘đ
ứng gầ
n các từnhư‘attack‘ (cơn đau tim), ‘blood‘ (sự
số
ng), ‘
stroke‘(sựsay nắ
ng), thì search engine sẽxế
p những trang chứa các từnày
vào chủđềy học và sức khoẻ
. Ngược lạ
i, khi từ‘
heart‘đ

ứng gầ
n các từ‘
flowers’
,
‘candy’, … thì SE sẽxế
p những trang chứa các từnày vào chủđ
ềtrữtình.
5.2 Các chiến lược tìm kiếm
Mọ
i người đề
u nhậ
n xét rằ
ng web là nơ
i mà ta luôn có được thông tin vềbấ
t
kỳchủđềgì. Nhưng kế
t quảcuố
i cùng thường là lãng phí thời gian cho những URL
vô ích. Do đó đ
ã đế
n lúc ta nghĩđế
n các chiế
n lược tìm kiế
m.
Ta khởi đ

u với một đ
ống thông tin trên mộ
t chủđềkhá rộng? Hoặ
c ta đã hình

dung đ
ược cụthểnhững gì cầ
n tìm? Hay ta muố
n tìm đị
a chỉcủa ai đ
ó?
Nế
u phạ
m vi quan tâm của ta quá rộ
ng, ta nên xem xét các thưmụ
c web (web
directory). Nế
u sau đó ta thu hẹ
p phạ
m vi cầ
n tìm, hãy xem xét việ
c lựa chọ
n mộ
t
công cụtìm kiế
m thích hợp.
5.2.1 Tìm thông tin với các thưmục chủđề
Giống nhưtìm sách trong thưviệ
n, cân nhắ
c giữa tìm theo tác giả
, tiêu đề
, chủ
đ

, ta thường chọ

n chủđềđ
ểcó thểbao quát một vùng thông tin rộng hơ
n.
Ví dụ
: ta muố
n tạ
o một trang chủ(home page) nhưng không biế
t cách viế
t mộ
t
file HTML nhưthếnào, thậ
m chí chưa từng tạ
o một file ả
nh, và cũ
ng không biế
t


19
cách đ

y mộ
t trang lên mạ
ng. Tóm lạ
i ta cầ
n những thông tin cho mộ
t chủđ
ềkhá
rộng - xuấ
t bả

n mộttrang web (web publishing).
Khi hoàn toàn xác đị
nh mình cầ
n tìm những gì ta nên bắ


u từmộ
t thưmụ
c
web nhưthưmục củ
a Yahoo hoặ
c Google,…vì thưmục web tậ
p trung nhiề
u vào
chủđ
ềđang đ
ược quan tâm hơn là một công cụtìm kiế
m.
Gầ
n đ
ây các web site thường kế
t hợp thưmụ
c web và các công cụtìm với
nhau. Ví dụnế
u ta sửdụng Google đ
ểtìm thông tin và một trong những kế
t quảnày
nằ
m trong thưmụ
c web củ

a Google, Google sẽcung cấ
p cho ta một liên kế
t dẫ
n
vào thưmục.
5.2.2 Tìm thông tin với các công cụtìm kiếm
Mộ
t sốcông cụtìm kiế
m gặ
p rắ
c rố
i với dữliệ
u đầ
u vào củ
a người dùng. Ví
dụ: những từchứa các ký tựđặ
c biệ
t nhưC++ , những từchứa stopword nhưto be
or not to be. Xét ví dụkhác ít rõ ràng hơn. Giảsửta là một người rấ
t thích tiể
u
thuyế
t trinh thám và muốn tìm những trang nói vềcác tác giảyêu thích. Nế
u đơn
giả
n chỉnhậ
p vào các từ‘
mystery‘và ‘writer’, phầ
n lớ
n các search engine sẽtrảvề

các liên kế
t dẫ
n đế
n các trang chứa một trong 2 từtrên hoặ
c cả2. Nhưvậ
y có khả

ng hàng tră
m, thậ
m chí hàng ngàn URL không mong muố
n. Tuy nhiên nế
u ta
nhậ
p vào 1 cụ
m từ, kế
t quảsẽkhảquan hơn.
5.2.3 Tối ưu câu truy vấn
Rấ
t nhiề
u SE áp dụ
ng các toán tửBoolean (Boolean operators) hoặ
c các bộ
đ

nh vị
trí (proximai locators) đểtố
i ưu câu truy vấ
n. Đó là các từkhoá sau :
STT


Từkhóa

Ý nghĩ
a

1

AND / phép toán +

Mọitừtrong câu truy vấ
n phả
i có trong tài
liệ
u

2

OR

Tài liệ
u chứa ít nhấ
t một từcầ
n tìm

3

NOT / phép toán -

Tài liệ
u không chứa [các] từsau từkhoá


4

NEAR

Các từcầ
n tìm cách nhau bao nhiêu ký tự
trong tài liệ
u

5

FOLLOWED BY / ADJ

Các từcầ
n tìm phả
i đứng cạ
nh nhau trong tài
liệ
u

Bả
ng 1.1: Các từkhóa giúp tốiưu câu truy vấn


20
5.2.4 Truy vấn bằng ví dụ
Mộ
t điể
m đáng kích lệnữa của SE là truy vấ

n bằ
ng ví dụ. Sau khi liệ
t kê mộ
t
loạ
t các tài liệ
u được cho là thoảmãn yêu cầ
u người dùng, SE còn “gợi ý” một vài
trang có liên quan đế
n chủđ
ềta đ
ang quan tâm.

6. Nguyên lý hoạt động
SE đ
iề
u khiể
n robot đi thu thậ
p thông tin trên mạ
ng thông qua các siêu liên kế
t
(hyperlink). Khi robot phát hiệ
n ra mộ
t site mới, nó gửi dữliệ
u (web page) vềcho
server chính đ
ểtạ
o cơsởdữliệ
u chỉmục phụ
c vụcho nhu cầ

u tìm kiế
m thông tin.
Bởi vì thông tin trên mạ
ng luôn thay đ
ổi nên robot phả
i liên tụ
c cậ
p nhậ
t các
site cũ
. Mậ
t độcậ
p nhậ
t phụthuộ
c vào từng hệthố
ng search engine. Khi search
engine nhậ
n câu truy vấ
n từuser, nó sẽtiế
n hành phân tích, tìm trong cơsởdữliệ
u
chỉmụ
c & trảvềnhững tài liệ
u thoảyêu cầ
u. [7, 8]

Dữliệu

Máy trạ
m


Truy vấn

Bộphậ
n
thu thập

Chỉ
mụ
c

ĐK thu thập

Các chỉ
mục:

Tìm
kiế
m

Phân tích

Cấu trúc

Tiện ích

Thông tin phản hồi

[8]
Hình 1.3: Kiế

n trúc chung của 1 SE

Kết quả

Xế
p
hạ
ng


21

Chương 2: MỘT SỐSEARCH ENGINE THÔNG DỤNG TRÊN

THẾGIỚI VÀ CỦA VIỆT NAM
1. Các SE thông dụng trên thếgiới
Search
Engine

Google
www.google.com

Trang hỗ trợ Google help pages
Kích thước,
loại

Rất lớn. Là SE lớn nhất
hiện nay vềquy mô số
trang được index


Yahoo! Search
search.yahoo.com

Ask.com
www.ask.com

Yahoo! help pages

Ask help pages

Lớn. Chứa trên 20 tỷ
trang web các loại

Lớn. Chứa khoảng 2 tỷ
trang web được index toàn
bộ. Đang cốgắng trởthành
SE số1 vềsốlượng site.

Đặc điểm nổi Dùng thuật toán
Liên kết nhanh tới từ
bật và giới
PageRank đểsắp xếp kết điền, từđiển đồng nghĩ
a,
hạn
quảtrảvề
csdl sáng chế, traffic,
stocks, bách khoa toàn
thư…

Sắp xếp theo chủđề. Hỗ

trợtìm kiếm chủđềnghĩ
a
rộng, nghĩ
a hẹp.

Hỗtrợtìm
Có hỗtrợtìm kiếm cụm
kiếm cụm từ từ. Sửdụng dấu “”. Nếu
đểcác từstop word
trong dấu “”thì SE vẫn
hỗtrợtìm

Có hỗtrợtìm kiếm cụm
từ. Sửdụng dấu “


Có hỗtrợtìm kiếm cụm từ.
Sửdụng dấu “

Nếu đểcác từstop word
trong dấu “”thì SE vẫn hỗ
trợtìm

Toán tử logic Được chia ra thành các
toán hạng. Toán tửAND
được hiểu là dùng liên
kết giữa các từ. Có hỗ
trợtoán tửOR (viết
hoa). Không hỗtrợ(),
các quy tắc logic.


Hỗtrợcác toán tửAND,
OR, NOT, AND NOT và ()

Hỗtrợcác toán tử AND,
OR, NOT, AND NOT và ()

Tìm kiếm
Hỗtrợ. Tại cuối trang kết Thêm các từkhóa
trong kết quả quảtìm kiếm, click
tìm kiếm
“Search within results”
và nhập thêm các từ
khóa tìm kiếm

Hỗtrợ.
Thêm các từ khóa

Sắp xếp kết Dựa trên sựphổbiến
quả tìm kiếm của site, chỉsốnày được
tính từcác link tới site
của các site khác.
HỗtrợFuzzy AND (toán
tửAND được sắp xếp
đầu tiên, sau mới đến
các toán tửkhác). Việc
tìm kiếm và sắp xếp dựa
vào cached của các
trang web, điều này dẫn
đến các trang web ko ở

phiên bản mới nhất.

Tựđộng sắp xếp. Fuzzy
and: những từkhóa tìm
kiếm (được hiểu là kết
hợp với nhau bởi toán tử
AND) của văn bản được
sắp xếp đầu tiên. Tiếp
đến là các tài liệu chứa
bất kỳcác từ khóa tìm
kiếm (toán tửOR).

Dựa trên sựphổbiến của
chủđềliên quan. Liên kết
tới 1 trang bởi các trang
liên quan

Không hỗtrợ. Tìm kiếm
với từkhóa OR nhưtrong

Không hỗtrợ. Tìm kiếm với
từkhóa OR nhưtrong

Tìm kiếm
chặt cụt

Không hỗtrợtìm kiếm
chặt cut. Truy gốc một



22
sốtừ. Việc tìm các từ
khóa với hậu tố, từ đồng
nghĩ
a được thực hiện
tách rời, liên kết bởi từ
khóa OR

Google

Google.

Hỗtrợtìm
kiếm chữ
hoa, chữ
thường

Không hỗtrợ

Không hỗtrợ

Không hỗtrợ

Ngôn ngữ

Hỗtrợnhiều ngôn ngữ
trong phần tìm kiếm
nâng cao.

Hỗtrợmột sốngôn ngữ la Hỗtrợmột sốngôn ngữla

tinh và không phải la tinh. tinh chủyếu. Sửa dụng tìm
kiếm nâng cao đểgiới hạn.

Giới hạn thời Trong phần tìm kiếm
gian của tài nâng cao.
liệu
Dị
ch

Hỗtrợdị
ch một sốngôn
ngữchâu Âu, Trung
Quốc, Nhật và Hàn Quốc

Trong phần tìm kiếm
nâng cao.

Trong phần tìm kiếm nâng
cao.

Hỗtrợ

Không

[12, 13, 14, 15, 16]

Bả
ng 2.1: Bảng tóm tắt tính năng của các SE thông dụng trên thếgiới

2. Các SE của Việt Nam

2.1 Netnam
Là một đơ
n vịthuộ
c Việ
n Công nghệThông tin, Netnam đ

c biệ
t chú trọ
ng
đ
ế
n việ
c thiế
t kếhệthố
ng phù hợp với điề
u kiệ
n cơsởvậ
t chấ
t - hạtầ
ng còn khiêm
tốn ởViệ
t Nam. Vì vậ
y, một trong những ưu tiên quan trọ
ng trong các yêu cầ
u xây
dựng hệthống là khảnă
ng tiế
t kiệ
m chi phí đ


u tưcơsởhạtầ
ng kỹthuậ
t, đồ
ng thời
phả

áp ứng được nhu cầ
u mởrộ
ng cao. Do đó SE củ
a Netnam đ
ược thiế
t kếtheo
kiế
n trúc xửlý song song, với các khố
i chức nă
ng nhưhình dưới đây. Kiế
n trúc này
cho phép hệthố
ng có thểphân tán trên từmộ

ế
n hàng tră
m máy tính, cho phép sử
dụng các máy tính PC cỡnhỏthay cho các hệmáy tính chủcao cấ
p. Từđ
ó hệthố
ng
cho phép tiế
t giả
m chi phí tố

i đa trong việ
c xây dựng hạtầ
ng ban đ

u, đồ
ng thờ
i khi
nhu cầ
u tính toán hoặ
c yêu cầ
u phục vụliên tụ
c tă
ng, chỉcầ
n thêm các máy tính vào
hệthố
ng đ
ểtă
ng cường khảnă
ng xửlý và khảnă
ng phục vụliên tụ
c mà không cầ
n
bổsung bấ
t cứthành phầ
n nào khác.
Phầ
n kiế
n trúc này sẽgiới thiệ
u vềmô hình chia sẻtính toán song song củ
a hệ

thố
ng.


23
Vềmặ
t vậ
t lý, các máy tính đượ
c có thểkế
t nối với nhau đơn giả
n bằ
ng hệ
thố
ng mạ
ng Ethernet 10/100/1000Mbps. Hệ thống cho phép thay đ
ổi nóng
(hotswap) mộ
t hoặ
c mộ
t vài đơn vịvậ
t lý (máy tính) mà không làm ả
nh hưởng đế
n
hoạ
t đ
ộng của toàn hệthố
ng, cũ
ng nhưcho phép thực hiệ
n thay thếtựđộ
ng mộ

t
hoặ
c mộ
t vài đơ
n vịvậ
t lý củ
a hệthố
ng khi chúng gặ
p sựcốbấ
t ngờ.

Hình 2.1: Sơđồhệthố
ng SE của Netnam


24
Hệthống được chia thành ba tầ
ng chính, gồ
m tầ
ng Thu thậ
p thông tin, Nhậ
n
dạ
ng và chuyể
n đổ
i thông tin thành dạ
ng text, Lậ
p cơsởdữliệ
u cho các thông tin
text. Mỗi tầ

ng được chia thành nhiề
u đơn vịđộ
c lậ
p hoạ
t độ
ng theo kiể
u chia sẻtính
toán và/hoặ
c dựtrữ(redundant), từđ
ó tính tin cậ
y và hiệ
u nă
ng của hệthống cho
phép rấ
t cao đố
i với các hệthống đòi hỏ
i tính tin cậ
y và hiệ
u nă
ng cao. Đơn vịkhai
thác dữliệ

ược tích hợp cùng với phầ
n lậ
p chỉmục cơsởdữliệ
u, cho phép khai
thác qua các clients sửdụng giao thức TCP/IP trên bấ
t cứhệthố
ng nào (Windows,
Unix...).

Bằ
ng việ
c chia hệthống thành các khố
i chức nă
ng phố
i hợp vớ
i nhau thông
qua các Bộđiề
u phố
i, hệthố
ng có thểđ
ượ
c phân tán đ
ểxửlý trên nhiề
u máy tính
nhỏthay vì tậ
p trung toàn bộhệthố
ng trên một máy tính lớn. Vì vậ
y, mộ
t mặ
t hệ
thố
ng cho phép sửdụ
ng các máy tính cỡnhỏ(PC hoặ
c PC server) cùng phố
i hợp
tính toán xửlý, do đó làm giả
m rấ
t nhiề
u chi phí đ


u tưso với các hệmáy cỡmini
hay mainframe, và có thểđầ
u tưdầ
n dầ
n theo sựgia tă
ng của nhu cầ
u thay vì đầ
u tư
toàn bộmột lầ
n ban đ

u. Mặ
t khác, nó cho phép, vềmặ
t nguyên tắ
c, nă
ng lực tính
toán, phụ
c vụthông tin củ
a hệthống là không hạ
n chế
? khi nhu cầ
u tă
ng lên chỉcầ
n
thêm máy tính vào hệthống mà không phả
i thay đổ
i lạ
i hệthống. Vì vậ
y, lượng dữ

liệ
u mà hệthố
ng có thểphục vụ
, vềmặ
t nguyên tắ
c thiế
t kếhệthống, cho phép lên
đ
ế
n hàng tră
m triệ
u tài liệ
u.
2.1.1 Phương pháp lập chỉmục dữliệu của NetNam
Thông thường, NetNam lấ
y tấ
t cảcác từtrong tài liệ

ểlậ
p chỉmục, và khi
trảkế
t quảtìm kiế
m, NetNam SE tìm ra tấ
t cảcác từtrong mộ
t trang tài liệ
u đó, và
hiể
n thịmột sốtừđ

u tiên nhưmộ

t bả
ng tóm tắ
t ngắ
n. Với Netnam ta thểdùng thẻ
META trong trang web để:


Cung cấ
p thêm các từkhoá có ả
nh hưởng đế
n kế
t quảtìm kiế
m của NetNam
SE (tác dụng tìm ra trang mà ta cầ
n tìm).



Đưa ra các miêu tảđ
ểhiể
n thịkế
t quảtìm kiế
m.
<META name="keywords" content="xe máy, ô tô, mới 100%">
Ví dụ
, giảsửta có mộ
t trang web quả
ng cáo bán ô tô, xe máy mới100%, trang

search của NetNam sẽtựđộ

ng chỉra các từtrong trang. Tuy nhiên, có mộ
t sốtừ
hoặ
c cụm từmiêu tảdị
ch vụlạ
i không xuấ
t hiệ
n trong trang. Sửdụng thẻMETA và


25
ghi rõ tên="từkhoá" đểthêm các cụm từvào chỉmụ
c và làm tă
ng cơhộ
i tìm kiế
m
cho ngườisửdụng khi muố
n tìm trang web.
Miêu tảthẻMETA cho phép ta tìm được cái mà ta muốn tìm trong bả
n tóm tắ
t
kế
t quảtìm kiế
m. Với trang bán xe củ
a mình, ta có thểmuố
n một cụ
m từquả
ng cáo
ngắ
n nhưsau:

content="Bán xe máy và ô tô với chấ
t lượng cao, bả
o hành chu đáo, giá phù
hợp.">
SE của NetNam chỉra các từtrong thẻmiêu tảcùng với những thẻtừkhoá.
Do đ
ó trong ví dụnày, người sửdụng sẽcó thểtìm ra trang web của ta bằ
ng cách
tìm từ"chấ
t lượng cao" cũ
ng như"giá phù hợp", "bả
o hành chu đáo". Thay vì hiể
n
thịmột sốdòng đ

u củ
a trang web, kế
t quảtìm kiế
m sẽhiể
n thịvă
n bả
n của thẻ
miêu tả
:
CarLeasing Corp.
Bán xe máy và ô tô với chấ
t lượng cao, bả
o hành chu đ
áo, giá phù hợp.
- 3K ? 01/11/2001

Chú ý: các thẻmiêu tảvà các thẻtừkhoá có thểdài tố

a là 1024 ký tự.
2.1.2 Cú pháp tìm kiếm
Cảhai chức nă
ng tìm kiế
m đơn giả
n và nâng cao đề
u sửdụ
ng những quy tắ
c
cú pháp giống nhau đ
ối với các cụm từ, phân biệ
t dạ
ng chữ, và tìm những từliên
quan.
Từvà cụm từ
NetNam đị
nh nghĩ
a mộ
t từcũng nhưbấ
t cứmột chuỗi những chữcái và con
sốđ
ược tách rời nhau :


Ký tựtrắ
ng, nhưdấ
u cách, dấ
u tab, chấ

m xuống dòng, hoặ
c chỗbắ
t đầ
u hoặ
c
kế
t thúc của mộ
t tài liệ
u.



Các ký tựđặ
c biệ
t và hệthống chấ
m câu, ví dụnhư%, $, /, #, và _
Ví dụ
, hệthống tìm kiế
m của NetNam sẽgiả
i thích và chỉrõ những từ

Proliant, 60258, www, http, và XeMayCu nhưnhững từriêng lẻ
, vì chúng là những
chuỗi ký tựliên tiế
p, đ
ược bao quanh bởi các ký tựkhông phả
i là chữcũng không
phả
i là số
. Phầ

n mề
m tìm kiế
m sẽchỉra tấ
t cảcác từmà nó tìm được trong một


26
trang tài liệ
u web không quan tâm liệ
u từđó có trong từđ
iể
n hay đ
ánh vầ
n sai hay
không.
Tìm kiế
m cụm từ
Ta có thểtìm thấ
y các cụm từ, hoặ
c mộ
t nhóm từliên quan xuấ
t hiệ
n ngay
cạ
nh nhau. Đểtìm được mộ
t cụm từ,ta đ
óng mởngoặ
c kép ởđầ
u và cuối cụm từđó
đ

ểtạ
o thành mộ
t cụm từ. Cụ
m từđ

m bả
o rằ
ng SE củ
a NetNam sẽtìm đ
ược các từ
đ
úng nhưthế(vịtrí, thứtự, không có từchen giữa...), chứkhông phả
i là tìm đ
ược
riêng từng từmộ
t.
Hệthố
ng chấm câu
NetNam sẽbỏqua hệthố
ng chấ
m câu trừtrườ
n g hợp phả
i thểhiệ
n hệthố
ng
chấ
m câu đó là một dấ
u chia cách giữa các từ. Đặ
t hệthố
ng chấ

m câu hoặ
c các ký
tựđặ
c biệ
t giữa các từ, và giữa chúng không có dấ
u cách, cũ
ng là mộ
t cách đ
ểtìm
mộ
t cụm từ. Mộ
t ví dụcho thấ
y hệthống chấ
m câu rấ
t hữu dụ
ng trong việ
c tìm mộ
t
cụ
m từđó là trường hợ
p tìm sốđiệ
n thoạ
i. Ví dụđểtìm được một sốđ
iệ
n thoạ
i
0903401357 ta gõ 09-0340-1357 thì sẽdễtìm hơn là gõ theo kiể
u "09 0340 1357",
mặ
c dù đ

ây cũ
ng là mộ
t cú pháp có thểchấ
p nhậ
n được nhưng ít phổbiế
n.
Các từcó dấ
u nố
i ởgiữa nhưCD-ROM, cũ
ng tựđộ
ng làm thành mộ
t cụm từdo có
dấ
u gạ
ch nốiởgiữa.
Tuy nhiên, thông thường, sửdụng dấ
u ngoặ
c kép đ
ểtìm một cụm từlà cách
đ
ược khuyế
n khích dùng hơn là sửdụ
ng hệthố
ng chấ
m câu, vì một sốký tựđặ
c
biệ
t còn có nghĩ
a phụ:



Dấ
u + và - là những toán tửgiúp lọ
c kế
t quảcủa mộ
t tìm kiế

ơn giả
n.



&, |, ~ và ! là những toán tửgiúp lọc kế
t quảcủ
a một tìm kiế
m nâng cao
Phân biệ
t chữthường/hoa
Phân biệ
t dạ
ng chữlà mộtloạ
i tìm kiế
m dựa vào loạ
i chữmà ta gõ yêu cầ
u tìm

kiế
m củ
a mình vào.



Một yêu cầ
u bằ
ng chữthường sẽcó kế
t quảtìm kiế
m không theo dạ
ng chữta
gõ vào. Ví dụ
, nế
u ta gõ chữyế
t kiêu vào ô yêu cầ
u, SE củ
a NetNam sẽtìm
tấ
t cảcác biế
n thểcủa từyế
t kiêu, gồm có yế
t kiêu, Yế
t Kiêu, Yế
T KiÊU,
v.v...


×