Tải bản đầy đủ (.pptx) (21 trang)

slike thuyết trình đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (320.84 KB, 21 trang )

GVHD:PGS- T S Lê Thanh Hươ ng
Nhóm 29:
Nguyễn Q u a ng Huy
Nguyễn Trọng Tú
Tr ầ n Đức Việt
Tìm hiểu cấu trúc google hiện tại và các kĩ thuật
xử lý trong tìm kiếm thông tin
I.Giới thiệu công cụ tìm kiếm

1.Công cụ tìm kiếm là gì?

Công cụ tìm kiếm(Search Engine) là một hệ thống thu thập
thông tin được thiết kế để giúp cho việc tìm kiếm thông tin lưu
trữ trên một hệ thống máy tính.Công cụ tìm kiếm cung cấp một
giao diện giúp cho người dùng có thể chọnthông tin cần tìm và
có cơ chế xử lý và tìm được thông tin tương ứng. Thông tin cần
tìm sẽ tương ứng với một câu truy vấn
2.Các thành phần của công cụ tìm kiếm:

Bộ thu thập thông tin(Robot)

Bộ lập chỉ mục

Bộ tìm kiếm thông tin
3.Nguyên tắc của công cụ tìm kiếm
Một công cụ tìm kiếm được gọi là thành công nếu nó thỏa mãn
được 3 điều kiện:
- Cho phép tìm kiếm trong một tập hợp lớn các trang web.
- Đưa ra kết quả gần với mong muốn của người sử dụng nhất.
- Tốc độ tìm kiếm chấp nhận được
3.Nguyên tắc của công cụ tìm kiếm


Để đạt được các mục đích trên, các công cụ tìm kiếm hiện đại
đều tiến hành lần lượt theo bốn bước: web crawler, indexing, rank
page và searching.
Sau đây ta sẽ nghiên cứu các bước tìm kiếm của google
II.Công cụ tìm kiếm google
Kiến trúc hệ thống:
Web crawler
Web crawler là bộ phận chịu trách nhiệm download các trang web
và lưu trữ chúng dưới dạng nén ở trong kho dữ liệu. Mục đích thiết
kế của web crawler là làm cho nó download được số lượng trang
web nhiều nhất trong khả năng đáp ứng của tài nguyên mạng và tốc
độ, khả năng lưu trữ của máy
Web crawler
Indexing
Khối Indexer được dùng để xây dựng và bảo trì các chỉ mục phục
vụ cho các truy vấn. Khối Indexer xây dựng 3 chỉ mục cơ bản: chỉ
mục offset (offset index),chỉ mục text (text index) và chỉ
mục link/graph (link/graph index).
INDEXING

Offset index ghi nhận vị trí vật lý của mỗi trang web trong cơ sở
dữ liệu, nơi mà lưu trữ các trang web đã được nén.Chỉ mục này
cho phép truy xuất ngẫu nhiên tới 1 web cho phép trong cơ sở dữ
liệu.

Text index cho phép truy vấn hướng nội dung, sử dụng các chỉ
mục ngược để sung cấp tìm kiếm theo từ khóa trong cơ sở dữ
liệu.

Cuối cùng, link index cung cấp truy vấn hướng liên kết (VD:

Gọi đến tập các trang mà trang X trỏ tới ).
INDEXING

Sử dụng 3 chỉ mục cơ sở này và các trang web, khối Phân Tích sẽ
xây dựnglên các chỉ mục gốc khác nhau. Ví dụ, sử dụng chỉ mục
liên kết và các thuật toán lặp PageRank, khối phân tích sẽ tính
toán và lưu trữ PageRank của mỗi trang trongcơ sở dữ liệu ( chỉ
mục PageRank ).
PAGE RANK

PageRank là một thuật toán được sử dụng trong công cụ tìm kiếm Google,được phát triển
tại Đại học Stanford bởi Larry Page và Sergey Brin trong nghiêncứu của họ

“The Anatomy of a Large-Scale Hypertextual Web Search Engine”
PAGE RANK

Chỉ số PageRank của một trang web là kết quả bầu chọn của tất
cả các trang web khác trên toàn thế giới cho website. Mỗi 1liên
kết ngược là 1 phiếu bầu. Các phiếu bầu này có mức độ ảnh
hưởng khác nhau,sự khác nhau đó phụ thuộc vào chất lượng của
mỗi trang đặt liên kết ngược.Một trang được liên kết đến bởi các
trang có PageRank cao sẽ nhận được PageRank cao. Nếu 1 trang
web không có liên kết nào đến thì sẽ không có phiếu bầu nào.
PAGE RANK

Công thức tính pagerank:

Đối với bất kỳ trang được liên kết đến các trang T1 thông qua Tn,
PageRank của trang A được xác định bởi phương trình sau đây:
PR (A) = (1-d) + d (PR (T1) / C (T1) + + PR (Tn) / C (TN))

PR (A) là PageRank của trang "A" đang được tính toán,
PR (Tn) là PageRank của Tn
C (Tn) là tổng số các liên kết đi trên Tn
và d là một yếu tố giảm xóc đền bù cho vòng lặp vô tận.
PAGERANK
Có 2 y u t nh h ng đ n v trí c a trang web c a b n trên ế ố ả ưở ế ị ủ ủ ạ
Google. Đó là:

S l ng các link đi đ n ( incoming links)ố ượ ế

Thông th ng thì càng nhi u link đi đ n càng t t. Có 1 đi m đáng chú ý mà ườ ề ế ố ể
thu t toán ch ra đó là: N u 1trang không có link tr đ n có th gây ra nh ậ ỉ ế ỏ ế ể ả
h ng ng c l i đ n PageRank c a trang web mà nó tr t i ( C(T) = 0 ).ưở ượ ạ ế ủ ỏ ớ

S l ng các link đi ra c a các trang web tr t i ố ượ ủ ỏ ớ
( outgoing links):

Càng ít càng t t, có nghĩa là n u có 2 trang web tr t i trang c n tính ố ế ỏ ớ ầ
PageRank,1 trang có 5 link đi ra và 1 trang có 10 link đi ra thì PageRank đ c ượ
tính t trang có 5 link đi ra s g p đôi trang có 10 link đi raừ ẽ ấ
PAGE RANK

Thuật toán PageRank trên thực tế rất đơn giản. Nhưng khi một
phép tính đơn giản được thực hiện hàng nghìn ( hoặc hàng tỉ) lần
thì thuật toán trở lên rất phức tạp!

PageRank chỉ là 1 phần trong chiến lược sắp xếp thứ tự kết quả
tìm kiếm của Google. Nhưng nó là một tiêu chí không thể thiếu
trong việc sắp xếp thứ tự dữ liệu.
GOOGLE PANDA ALGORITHM


Tháng 11-2011 Google chính th c thay đ i thu t toán Ranking c a ứ ổ ậ ủ
mình l y tên là Panda.ấ

Thu t toán Panda c g ng xác đ nh ngu n g c, tác gi c a n i dung và ậ ố ắ ị ồ ố ả ủ ộ
tăng th h ng cho trang đó, đ ng th i h th h ng c a t t c các ứ ạ ồ ờ ạ ứ ạ ủ ấ ả
trang có n i dung trùng l p v i n i dung trênộ ặ ớ ộ

V i t m nhìn rõ ràng c a ớ ầ ủ Google Panda là lo i b nh ng n i dung ạ ỏ ữ ộ
rác, n i dung copy, lo i b nh ng ộ ạ ỏ ữ website có th ng hi u kém…ươ ệ
Google Panda là b l c quan tr ng đ c i ti n các k t qu tìm ki m ộ ọ ọ ể ả ế ế ả ế
m i c a Google ớ ủ .
GOOGLE PANDA ALGORITHM

nh ng tiêu chí chính trong thu t toán Google Panda:ữ ậ

“Content is king”

Th i gian khách truy c p trên websiteờ ậ

T l khách hàng quay tr l iỷ ệ ở ạ

L ng n i dung g c trên site ho c m i trang.ượ ộ ố ặ ỗ

S l ng các link tr đ n trang web.ố ượ ỏ ế

M ng xã h iạ ộ

T l n i dung không trung th c (nh nhau trên t t c các trang).ỷ ệ ộ ự ư ấ ả


T l ng i dùng kích qua các trang k t qu c a Google ……ỷ ệ ườ ế ả ủ
SEARCHING

Ứng dụng lớn nhất của PageRank là tìm kiếm (searching)

Lợi ích của PageRank trong tìm kiếm là rất lớn

VD:Khi tìm kiếm từ khóa ĐH Bách Khoa HN

Đối với tìm kiếm thông thường sẽ hiện ra tất cả các trang web
liên quan đến ĐHBKHN

Đối với tìm kiếm sử dụng PR thì trang chủ của ĐHBKHN sẽ
hiện ra đầu tiên.
SEARCHING

Qui trình tìm ki m:ế

Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thông tin hoạt
động, liên kết, PageRank. Kết hợp tất cả các thông tin này thành 1 thứ hạng là rất
khó, vì vậy chúng ta thiết kế chức năng xếp hạng sao cho không 1 thành phần nào
có ảnh hưởng quá lớn đến thứ hạng của trang web.

Đầu tiên, xét trường hợp đơn giản nhất đó là câu truy vấn chỉ có 1 từ đơn.Với mục
đích sắp xếp các văn bản với câu truy vấn 1 từ đơn, Google sẽ tìm trêndanh sách
chỉ mục của mình từ khóa đó, tính điểm các thuộc tính ( tiêu đề, liên kết,URL,…)
trên những kết quả phù hợp, mỗi thuộc tính có điểm của riêng nó.

Các điểm thuộc tính tạo thành 1 vector chỉ mục theo kiểu thuộc tính.


Google sẽ đếm số lượng các kết quả phù hợp và gọi là điểm số lượng. Sau đó sử
dụng 2 điểm này để tính ra điểm IR cho văn bản. Cuối cùng, điểm IR kết hợp với
PageRank để đưa ra kết quả cuối cùng
THANK YOU!

×