slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (320.84 KB, 21 trang )

GVHD:PGS- T S Lê Thanh Hươ ng
Nhóm 29:
Nguyễn Q u a ng Huy
Nguyễn Trọng Tú
Tr ầ n Đức Việt
Tìm hiểu cấu trúc google hiện tại và các kĩ thuật
xử lý trong tìm kiếm thông tin
I.Giới thiệu công cụ tìm kiếm

1.Công cụ tìm kiếm là gì?

Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập
thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu
trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một
giao diện giúp cho người dùng có thể chọnthông tin cần tìm và
có cơ chế xử lý và tìm được thông tin tương ứng. Thông tin cần
tìm sẽ tương ứng với một câu truy vấn
2.Các thành phần của công cụ tìm kiếm:

Bộ thu thập thông tin(Robot)

Bộ lập chỉ mục

Bộ tìm kiếm thông tin
3.Nguyên tắc của công cụ tìm kiếm
Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn
được 3 điều kiện:
- Cho phép tìm kiếm trong một tập hợp lớn các trang web.
- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.
- Tốc độ tìm kiếm chấp nhận được
3.Nguyên tắc của công cụ tìm kiếm

Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại
đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank
page và searching.
Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google
II.Công cụ tìm kiếm google
Kiến trúc hệ thống:
Web crawler
Web crawler là bộ phận chịu trách nhiệm download các trang web
và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu. Mục đích thiết
kế của web crawler là làm cho nó download được số lượng trang
web nhiều nhất trong khả năng đáp ứng của tài nguyên mạng và tốc
độ, khả năng lưu trữ của máy
Web crawler
Indexing
Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục
vụ cho các truy vấn. Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ
mục offset (offset index),chỉ mục text (text index) và chỉ
mục link/graph (link/graph index).
INDEXING

Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở
dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này
cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ
liệu.

Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ
mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ
liệu.

Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD:

Gọi đến tập các trang mà trang X trỏ tới ).
INDEXING

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ
xây dựnglên các chỉ mục gốc khác nhau. Ví dụ, sử dụng chỉ mục
liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính
toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ
mục PageRank ).
PAGE RANK

PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google,được phát triển
tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ

“The Anatomy of a Large-Scale Hypertextual Web Search Engine”
PAGE RANK

Chỉ số PageRank của một trang web là kết quả bầu chọn của tất
cả các trang web khác trên toàn thế giới cho website. Mỗi 1liên
kết ngược là 1 phiếu bầu. Các phiếu bầu này có mức độ ảnh
hưởng khác nhau,sự khác nhau đó phụ thuộc vào chất lượng của
mỗi trang đặt liên kết ngược.Một trang được liên kết đến bởi các
trang có PageRank cao sẽ nhận được PageRank cao. Nếu 1 trang
web không có liên kết nào đến thì sẽ không có phiếu bầu nào.
PAGE RANK

Công thức tính pagerank:

Đối với bất kỳ trang được liên kết đến các trang T1 thông qua Tn,
PageRank của trang A được xác định bởi phương trình sau đây:
PR (A) = (1-d) + d (PR (T1) / C (T1) + + PR (Tn) / C (TN))

PR (A) là PageRank của trang "A" đang được tính toán,
PR (Tn) là PageRank của Tn
C (Tn) là tổng số các liên kết đi trên Tn
và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận.
PAGERANK
Có 2 y u t nh h ng đ n v trí c a trang web c a b n trên ế ố ả ưở ế ị ủ ủ ạ
Google. Đó là:

S l ng các link đi đ n ( incoming links)ố ượ ế

Thông th ng thì càng nhi u link đi đ n càng t t. Có 1 đi m đáng chú ý mà ườ ề ế ố ể
thu t toán ch ra đó là: N u 1trang không có link tr đ n có th gây ra nh ậ ỉ ế ỏ ế ể ả
h ng ng c l i đ n PageRank c a trang web mà nó tr t i ( C(T) = 0 ).ưở ượ ạ ế ủ ỏ ớ

S l ng các link đi ra c a các trang web tr t i ố ượ ủ ỏ ớ
( outgoing links):

Càng ít càng t t, có nghĩa là n u có 2 trang web tr t i trang c n tính ố ế ỏ ớ ầ
PageRank,1 trang có 5 link đi ra và 1 trang có 10 link đi ra thì PageRank đ c ượ
tính t trang có 5 link đi ra s g p đôi trang có 10 link đi raừ ẽ ấ
PAGE RANK

Thuật toán PageRank trên thực tế rất đơn giản. Nhưng khi một
phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần
thì thuật toán trở lên rất phức tạp!

PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả
tìm kiếm của Google. Nhưng nó là một tiêu chí không thể thiếu
trong việc sắp xếp thứ tự dữ liệu.
GOOGLE PANDA ALGORITHM


Tháng 11-2011 Google chính th c thay đ i thu t toán Ranking c a ứ ổ ậ ủ
mình l y tên là Panda.ấ

Thu t toán Panda c g ng xác đ nh ngu n g c, tác gi c a n i dung và ậ ố ắ ị ồ ố ả ủ ộ
tăng th h ng cho trang đó, đ ng th i h th h ng c a t t c các ứ ạ ồ ờ ạ ứ ạ ủ ấ ả
trang có n i dung trùng l p v i n i dung trênộ ặ ớ ộ

V i t m nhìn rõ ràng c a ớ ầ ủ Google Panda là lo i b nh ng n i dung ạ ỏ ữ ộ
rác, n i dung copy, lo i b nh ng ộ ạ ỏ ữ website có th ng hi u kém…ươ ệ
Google Panda là b l c quan tr ng đ c i ti n các k t qu tìm ki m ộ ọ ọ ể ả ế ế ả ế
m i c a Google ớ ủ .
GOOGLE PANDA ALGORITHM

nh ng tiêu chí chính trong thu t toán Google Panda:ữ ậ

“Content is king”

Th i gian khách truy c p trên websiteờ ậ

T l khách hàng quay tr l iỷ ệ ở ạ

L ng n i dung g c trên site ho c m i trang.ượ ộ ố ặ ỗ

S l ng các link tr đ n trang web.ố ượ ỏ ế

M ng xã h iạ ộ

T l n i dung không trung th c (nh nhau trên t t c các trang).ỷ ệ ộ ự ư ấ ả


T l ng i dùng kích qua các trang k t qu c a Google ……ỷ ệ ườ ế ả ủ
SEARCHING

Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)

Lợi ích của PageRank trong tìm kiếm là rất lớn

VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN

Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web
liên quan đến ĐHBKHN

Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ
hiện ra đầu tiên.
SEARCHING

Qui trình tìm ki m:ế

Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt
động, liên kết, PageRank. Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất
khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào
có ảnh hưởng quá lớn đến thứ hạng của trang web.

Đầu tiên, xét trường hợp đơn giản nhất đó là câu truy vấn chỉ có 1 từ đơn.Với mục
đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm trêndanh sách
chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…)
trên những kết quả phù hợp, mỗi thuộc tính có điểm của riêng nó.

Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính.


Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng. Sau đó sử
dụng 2 điểm này để tính ra điểm IR cho văn bản. Cuối cùng, điểm IR kết hợp với
PageRank để đưa ra kết quả cuối cùng
THANK YOU!

slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về