Tải bản đầy đủ (.pdf) (34 trang)

Nghiên cứu về Search Engine

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (427.79 KB, 34 trang )


MỤC LỤC

Chương 1: Các phương pháp thu thập thơng tin
1.1 Sự phát triển của internet và u cầu tìm kiếm thơng tin
1.2 Tìm kiếm thơng tin
1.2.1 Giới thiệu:
1.2.2 Phương pháp tìm kiếm văn bản cổ điển
a.Qt tồn bộ tài liệu:
b.Sử dụng tệp ký hiệu
c.Sử dụng file nghịch đảo
d.Tìm kiếm theo mơ hình vec tơ phân nhóm
1.2.3 Phương pháp sử dụng thơng tin ngữ nghĩa
a. Phương pháp sử dụng phân tích cú pháp và ngơn ngữ tự nhiên
b. Phương pháp sử dụng chỉ mục ngữ nghĩa
c. Phương pháp sử dụng mạng Neural
1.4 Đánh giá độ quan trọng của từ khố
1.5 Kết luận về các phương pháp tìm kiếm thơng tin
Chương 2: Tổng quan về Search Engine
2.1 Khái niệm về Search Engine
2.2 Kiến trúc và cơ chế hoạt động của Search Engine.
2.2.1 Kiến trúc của Search Engine
2.2.2 Cơ chế hoạt động của Search Engine
2.3 Phân loại Search Engine
2.3.1 Search Engine sử dụng phương pháp thơng thường
2.3.2 Meta Search Engine
2.4 Các vấn đề liên quan tới Search Engine
2.4.1 Vấn đề thu thập thơng tin:
2.4.2 Vấn đề tìm kiếm thơng tin
2.5 Đánh giá Search Engine
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN


2.6 Giới thiệu một số Search Engine điển hình
2.6.1 Search Engine Altavista
2.6.2 Search Engine Harvest
Chương 3: Xây dựng mô hình tìm kiếm thông tin theo Search Engine
3.1 Kiến trúc chương trình
3.1.1 Tạo chỉ mục
3.1.2 Tìm kiếm
3.2 Giới thiệu bộ thư viện Jakata Lucene
3.3 Hướng dẫn sử dụng các chức năng
Kết luận

THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Lời nói đầu
Phát triển từ một dự án trong qn đội Hoa Kỳ, chỉ trong vòng 30 năm
đặc biệt là thập kỉ gần đây Internet đã phát triển mạnh mẽ, len lỏi vào hầu hết
các lĩnh vực trong cuộc sống, khối lượng thơng tin trên internet ngày càng trở
nên đồ sộ hơn, con người hầu như có thể nhận bất cứ thơng tin mình mong muốn
từ Internet, tuy nhiên chính sự đồ sộ đó làm cho con người khó đinh vị được vị
trí thơng tin mình cần, nhận được thơng tin mình muốn, u cầu tất yếu đặt ra là
phải xây dựng các hệ thống tìm kiếm thoả mãn u cầu người dùng. Các Search
Engine ra đời nhằm giải quyết u cầu đó. Chúng ta thường đặt ra những u
cầu khơng rõ ràng, những câu truy vấn thiếu cấu trúc mang tính chất của ngơn
ngữ tự nhiên tuy nhên lại muốn nhận lại những thơng tin chính xác, hay nói cách
khác chúng ta muốn nhận thơng tin chúng ta muốn chứ khơng phải những thơng
tin u cầu cho máy tính chính vì vậy để xây dựng một Search Engine hồn
thiện là một u cầu gặp nhiều khó khăn liên quan đến nhiều ngành khoa học:
phân tích ngơn ngữ tự nhiên, tìm kiếm thơng tin,... Luận văn này đưa ra những
nghiên cứu mang tính chất tổng quan về những cơ sở khoa học để xây dựng một
Search Engine như vậy, đồng thời giới thiệu một số cơng nghệ đang được sử
dụng trong những năm gần đây, với tư tưởng như vậy luận văn có bố cục như

sau:
Chương 1: Các phương pháp thu thập thơng tin
Trình bày những cơ sở tốn học cho việc Index dữ liệu , các thuật tốn tìm
kiếm tương ứng với các phương pháp Index khác nhau
Chương 2: Tổng quan về Search Engine
Trình bày cấu trúc và cơ chế hoạt động của một Search Engine điển hình,
phân tích những vấn đề liên quan đến Search Engine và giới thiệu một số Search
Engine được sử dụng rộng rãi hiện nay.
Chương 3: Xây dựng mơ hình tìm kiếm thơng tin theo Search Engine
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Đưa ra các bước để xây dựng một hệ thống tìm kiếm hồn chỉnh theo mơ
hình Search Engine với ví dụ cụ thể : Hệ thống tìm kiếm Sách điện tử theo u
cầu
Phần kết luận: Nêu những kết quả đạt được, hạn chế của luận văn, và
hướng phát triển của mơ hình tìm kiếm trong tương lai
Luận văn được hồn thành với sự giúp đỡ nhiệt tình của các thầy cơ bạn
bè Xin gửi lời cảm ơn trân trọng nhất tới PGS TSKH Nguyễn Cát Hồ người đã
định hướng đề tài trực tiếp hướng dẫn, Thạc Sĩ cử nhân Lưu Đức Trung, cử
nhân Lê Quốc Thái những người chỉ bảo tận tình trong suốt q trình làm luận
văn. Chân thành cảm ơn các thầy giáo trong khoa Tốn cơ tin đã trang bị những
kiến thức cơ bản trong suốt bốn năm học vừa qua, cảm ơn sự động viên của bạn
bè, gia đình đã giúp đỡ tơi hồn thành luận văn này.


THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN

Chng 1: Cỏc phng phỏp thu thp thụng tin
1.1 S phỏt trin ca internet v yờu cu tỡm kim thụng tin
Mng Internet c ra i t nhng nm 1970 vi tờn ban u l
ARPANET, l mng ca b quc phũng M.Vi s tin dng v tớnh kh thi ca

mỡnh mng ARPANET ó phỏt trin mnh m thu hỳt s tham gia ca nhiu t
chc trờn th gii. Cho ti nay ó cú hng triu cỏc mỏy ch khỏc nhau tham gia
trong mng ton cu Internet.

Internet
Server
Workstation
IBM Compatible
Hub
LAN
Server
Workstation
IBM Compatible
Hub
LAN
Server
Workstation
IBM Compatible
Hub
LAN
Server
Workstation
IBM Compatible
Hub
LAN

hỡnh 1: S kt ni mng ca cỏc mỏy tớnh

THệ VIEN ẹIEN Tệ TRệẽC TUYEN
S thun tin ca Internet th hin tim nng cỏc dch v sn cú ca nú

nh: Telnet, FTP, Web ... S ra i ca Web ỏnh du mt bc thay i quan
trng trong s phỏt trin ca Internet.Web hay cũn gi l World Wide Web l
mt h thng cỏc ti liu liờn kt trờn cỏc mỏy khỏc nhau.Web l h thng a
phng tin, cỏc ti liu cú th bao gm õm thanh, hỡnh nh v cỏc phng tin
truyn thụng khỏc. ú l cỏc ti liu html (Hyper Text Make up Language). S
tin dng ca Web c chng minh qua thc t vi hng lot cỏc cụng ty, t
chc tham gia phỏt trin.
Internet phỏt trin mnh m, i sõu vo mi lnh vc cuc sng. S phỏt
trin ú lm cho khi lng thụng tin trờn Internet ngy cng tr nờn s hn,
con ngi hu nh cú th nhn c bt c thụng tin h mong mun. Tuy nhiờn
s phỏt trin ú cng lm cho ngi s dng khú khn hn trong vic tỡm ra v
trớ thụng tin cn thit cng nh la chn c nhng thụng tin thớch hp nht.
gii quyt vn trờn nhiu cụng ty cung cp dch vu Internert ó v ang
phỏt trin cỏc h thng tỡm kim v ỏnh giỏ thụng tin.Cỏc mỏy tỡm kim-
Search Engine c xõy dng nh mt cụng c gii quyt cỏc vn ú.
Trong chng ny ta nghiờn cu cỏc vn liờn quan n tỡm kim thụng tin,
õy chớnh l nhng c s toỏn hc ct yu thit k lờn cỏc Search Engine
phc v cỏc yờu cu tỡm kim thụng tin.
1.2 Tỡm kim thụng tin
1.2.1 Gii thiu:
Thụng tin l mt khỏi nim tru tng khụng nh ngha, thụng tin cú th
l õm thanh hỡnh nh cng cú th l s kin.Chỳng ta phõn tớch cỏc vn tỡm
kim thụng tin trờn c s d liu dng text bi hai nguyờn nhõn:
S hiu bit v phng phỏp ny rt hu dng v c coi
nh l thụng tin nn tng cho cỏc phỏt trin mi hn
S phỏt trin hoc m rng phng phỏp ny l trng tõm
cho cỏc phng phỏp khỏc
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Giả sử chúng ta cần tài liệu về một chủ đề, chúng ta biết các từ khóa đặc
trưng cho vấn đề đó, khi đó từ một chuỗi các từ khóa nhập vào u cầu xác định

các tài liệu có chứa chuỗi từ đó. Đây chính là u cầu đặt ra cho các Search
Engine mà chúng ta sẽ nghiên cứu ở chương 2 của luận văn, bây giờ chúng ta sẽ
nghiên cứu những cơ sở khoa học cho việc tìm kiếm đó.
1.2.2 Phương pháp tìm kiếm văn bản cổ điển
Các phương pháp tìm kiếm gắn liền với cách biễu diễn các chỉ mục của
các tài liệu, vì vậy chúng ta sẽ xem xét chúng song song nhau:
a.Qt tồn bộ tài liệu:
Phương pháp trực tiếp nhất để xác định tài liệu có chứa một chuỗi kí tự
cần tìm kiếm cụ thể là tìm kiếm tồn bộ tài liệu. Một thuật tốn đơn giản để thực
hiện điều này:
 Xuất phát từ ký tự đầu tiên trong tài liệu, trích ra một chuỗi
con bắt đầu từ kí tự đó, so sánh chuỗi con này với chuỗi nguồn cần so
sánh
 Nếu có sự khác biệt dịch chuỗi con của tài liệu một kí tự sang
bên phải của tài liệu
 Lặp lại cho tới khi tìm được chuỗi con thỏa mãn hoặc duyệt
hết tài liệu, kết luận chuỗi con khơng có trong tài liệu
Thuật tốn trên đơn giản nhưng rất chậm. Nếu m là chiều dài chuỗi cần
tìm kiếm và n là chiêu dài của văn bản thì số phép so sánh tối đa mà thuật tốn
cần thực hiện là m*(n-m) phép so sánh. Đã có rất nhiều cải tiến cho phương
pháp này: thực hiện tiền sử lý chuỗi cần tìm kiếm nhằm tăng số bước dịch
chuyển sau mỗi lần so sánh, hoặc sử dụng Automate trạng thái so sánh một lúc
nhiều xâu. Các thuật tốn này đều khơng u cầu chi phí khơng gian tuy nhiên
mỗi khi tài liệu cập nhật, thay đổi thì chúng lại phải đánh lại chỉ mục từ đầu vì
vậy, phương pháp qt tồn bộ chỉ thích hợp để tạo chỉ mục các tài liệu văn học
hoặc thiết kế cho các phần cứng chun dụng
THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
b.Sử dụng tệp ký hiệu
Phương pháp này sử dụng một file kí hiệu đối với mỗi tài liệu được tạo
chỉ mục. Có nhiều phương pháp tạo file kí hiệu đã được đè xuất. Phương pháp

đơn giản nhất có thể kể đến là Bitstring. Mỗi một tài liệu cần tạo chỉ mục cho
ứng với một chuỗi bít xác định sự xuất hiện của các từ trong tài liệu.Giả sử trong
tài liệu có từ t gồm nhiều kí tự, nếu chúng ta quan tâm đến s kí tự đầu tiên của từ
này thì ứng với mỗi kí tự quan tâm biểu diễn nó bằng một chuỗi bít có độ dài là
s, một cách đơn giản là cho tương ứng mã ASCII của kí tự đó với một chuỗi bit
nhị phân có chiều dài s, như vậy ứng với một từ trong tài liệu ta có thể biểu diễn
bằng s chuỗi bit nhị phân, mỗi chuỗi có độ dài w định trước.Ví dụ quan tâm tới 3
kí tự đầu tiên trong các từ sau ta có. Các ký tự đầu tiên có mã ASCII dạng octal
như bảng sau:
Từ Ký tự thứ nhất Kí tự thứ hai Kí tự thứ ba
Nor
Her
Hunger
Eased
116
150
150
145
157
145
165
141
162
162
156
163
Sử dụng hàm chuyển f(c) =
)8mod(
2
c

chuyển các ký tự trên dưới dạng các
chuỗi nhị phân có chiều dài 8 bit:

Từ Chuyển thành các chuỗi bit nhị phân
Nor
Her
Hunger
01 000 000
00 000 001
00 000 001
10 000 000
00 100 000
00 100 000
00 000
100
00 000
100
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Eased 00 100 000 00 000 010 00 100
000
00 001
000

Khụng cú s phõn bit cỏc t ging nhau trong ti liu, iu ny cú ngha
l: cỏc t ging nhau trong ti liu cú chung mt giỏ tr bit. Thụng thng trc
khi to file kớ hiu cỏc t trong ti liu c phõn tớch loi b cỏc t vụ ngha,
chun húa cỏc t bin dng v t gc, khi ú ta cú tp cỏc thut ng (term). Mi
cõu truy vn c phõn tớch nh mt ti liu, s so sỏnh xy ra trờn cỏc chui bớt
ó to theo quy tc trờn
gim thi gian x lý tỡm kim trong cỏc file ký hiu ngi ta xut

phng phỏp Bitslice. ý tng ca phng phỏp ny l to file ký hiu cho ton
b c s d liu text. ( C s d liu text l c s d liu cha cỏc ti liu dng
text, mi bn ghi cú th coi l mt danh sỏch cỏc t thuc mt ti liu trong c
s d liu). Gi s ta cú N ti liu trong mt c s d liu, vi mi t cú xut
hin trong cỏc ti liu ta xõy dng mt chui bit cú chiu di l N (cỏc slice),
chui bớt th i xỏc nh s cú mt ca t ú trong ti liu th i ca c s d liu.
Phng phỏp Bitslice tr nờn khụng thớch hp i vi c s d liu ln,
gi s mt c s d liu text cú hng triu bn ghi, thỡ chiu di cỏc chui bit
(slice) trong file ký hiu l rt ln. Phng phỏp Blocked Signature File c
phỏt trin gii quyt vn trờn. Theo phng phỏp ny mi mt bit trong
cỏc bitslice th hin s xut hin ca t m nú biu din trong mt nhúm cỏc ti
liu c xỏc nh trc. Vn dt ra õy l: i vi yờu cu tỡm kim cỏc
ti liu cha tt c cỏc t trong mt cõu truy vn (Disconjunctive query) mt
khi cú th tha món yờu cu tỡm kim nhng khụng cú ti liu no trong khi
tha món yờu cu tỡm kim ú. Chỳng ta cú th gim tỡnh trng ny bng cỏch
sp xp cỏc ti liu vo nhiu khi khỏc nhau, cựng mt ti liu cú th thuc
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
khi 1, khụi 2,... Gi s mi t xut hin trong ti liu cn biu din bi mt
chui bit cú chiu di l w, trong ph c ú K block cha t ú, th thỡ s cú
k
w

side trong tp kớ hiu biu din t ny. Phng phỏp Block File Signature ng
phỏp xut trờn ch cú th gim phn no sai sút (false match) ch khụng
m bo chc chn sai xút s khụng xy ra. Chỳng ta xem xột mt mụ hỡnh toỏn
hc ỏp dng cho vic ỏnh giỏ mc chớnh xỏc trong phng phỏp to file kớ
hiu. Gi s mt vn bn cú t thut ng khỏc nhau, ng vi mi thut ng ta
dựng s chui bớt to tp kớ hiu, mi chui bớt cú chiu di l w, Khi ú ta cn
xỏc nh s*t chui bớt cho tp kớ hiu. Gi p(w,s,t) l giỏ tr nh kh nng mt
ti liu tha món yờu cu truy vn khi tỡm trong tp ký hiu, nhng khụng phi

l ti liu tha món. Da vo cỏc tớnh toỏn khoa hc ta cú
P(w,s,t) =

s
ts
w
*
)
1
1(1

Vớ d: mt ti liu cú 150 thut ng khỏc nhau, mi thut ng c biu
din bi 8 chui bit, mi chui cú chiu di l 5000, s dng cụng thc trờn ta
cú th tớnh mc sai lch trong kt qu tỡm kim l:
100000
1
.
c.S dng file nghch o
Khỏc vi phng phỏp s dng tp ký hiu, phng phỏp s dng tp
nghch o ( inverted file ) to ra cỏc danh sỏch cỏc t khúa cú trong c s d
liu, cỏc cõu truy vn c x lý bng cỏch so sỏnh vi danh sỏch cỏc t khúa
ny ri tỡm ra cỏc ti liu cha cỏc t khúa tha món cõu truy vn. Mt file
nghch o bao gm hai phn: danh sỏch cỏc t khúa c index cha trong ti
liu v danh sỏch tr ti cỏc ti liu cha cỏc t khúa ú. thu gn kớch thc
file nghch o cỏc ti liu trong c s d liu c gỏn mt nh danh duy nht
(docID), cỏc liờn kt ti ti liu ch n gin l lu cỏc nh danh ca ti liu
tng ng. Quỏ trỡnh to ra cỏc tp nghch o bao gm 3 bc:
Document File: Xỏc nh cỏc t trong ti liu s c index, õy l
cỏc t cú ý ngha, t khúa, loi b cỏc t khụng cn thit, cha ng ớt thụn tin:
THệ VIEN ẹIEN Tệ TRệẽC TUYEN

cỏc gii t, cỏc liờn t, cỏc th trong trang hrml...khi ú ta c tp cỏc t vng
(vocabulary)
Dictionary: Thng kờ tn sut xut hin v v trớ ca cỏc t trong
tp t vng trờn, sp xp chỳng li theo mt trt t hp lý cú ý ngha
Invertion list: Kt hp hai bc trờn to ra cỏc file nghch o cha
cỏc liờn kt ti cỏc ti liu cha cỏc t khúa ó xỏc nh trờn.
Khỏc vi phng phỏp tp ký hiu, khụng cú s sai khỏc khi tỡm kim
trờn cỏc file nghch o (false match) lý do l cỏc t khúa xut hin trong cỏc file
nghch o chớnh xỏc nh trong ti liu, liờn kt c xỏc nh tng minh nờn
khụng cú s nhm ln. Nhiu nghiờn cu v hai phng phỏp file nghch o v
file kớ hiu cho thy cựng vi mt cõu truy vn phng phỏp file nghch o cho
kt qu tỡm chớnh xỏc, nhanh hn phng phỏp tp kớ hiu, s dng phng
phỏp nộn thụng tin, kớch thc file nghch o cng nh hn kớch thc tp ký
hiu, do ú phng phỏp s dng file nghch o ang c phỏt trin v s
dng hu ht cỏc Search Engine hin nay.
d.Tỡm kim theo mụ hỡnh vec t phõn nhúm
Phng phỏp tỡm kim theo mụ hỡnh vect da trờn ý tng biu din cỏc
ti liu di dng cỏc vec t, cỏc thnh phn ca vộc t l cỏc t khúa s c
index, giỏ tr ca cỏc thnh phn ỏnh giỏ quan trng ca t khúa thng l
tn sut xut hin ca nú trong ti liu hoc c tớnh toỏn theo mt cụng thc
no ú. Theo cỏch thc trờn mt c s d liu text cú n ti liu, m t khúa c
biu din bng mt ma trn a cú kớch thc m*n ( n vộc t mi vộc t cú m
chiu). Giỏ tr phn t a
ij
th hin quan trng ca t khúa.
Mt vớ d n gin: ta cú c s d liu cỏc 7 tiờu sỏch:

Ti liu
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
1:

2:
3:
4:
5:
6:
7:
Infant & Toddler First Aid
Babies & Childrens Room (For your home)
Child Safety at Home
Your Babys Health and Safety: From Infant to
Toddler
Baby Proofing Basics
Your Guide to Easy Rust Proofing
Beanie Babies Collectors Guide

Cỏc t gch chõn c xỏc nh lm cỏc t khúa, ta cú danh sỏch cỏc t
khoỏ:



T khoỏ



T1
T2
T3
Bab(y, ies)
Child(rens)
Guide

THệ VIEN ẹIEN Tệ TRệẽC TUYEN
T4
T5
T6
T7
T8
T9
Health
Home
Infant
Proofing
Safety
Toddler




Khi đó một ma trận biễu diễn cho cơ sở dữ liệu trên với a
ij
là tần xuất xuất
hiện các từ khóa là:
~
0001001
0001100
0110000
0001001
0000110
0001000
1100000
0000110

1011010































A
Trong cơ sở dữ liệu trên mỗi từ khóa chỉ xuất hiện một lần, tuy nhiên
trong các cơ sở dữ liệu lớn số lần xuất hiện của một từ khóa có thể rất nhiều lần,
để nhất quán các phương pháp xử lý người ta đưa ma trận trên về một dạng
chuẩn nào đó, ở đây ta dùng dạng chuẩn Euclide để chuẩn hóa các véc tơ ứng
với các tài liệu, ma trận hợp thành các véc tơ đó là các ma trận được chuẩn
hóa.Giả sử véc tơ x=(x
1
,x
2,
...,x
n
) khi đó chuẩn Euclide của véc tơ này được xác
định như sau:
THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN

×