Tải bản đầy đủ (.pptx) (28 trang)

slike thuyết trình đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật xử lý trong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 28 trang )

GVHD: PGS. Lê Thanh Hương
SVTH: Ngô Ngọc Đức 20080738
Bùi Tuấn Điệp 20080663
Nguyễn Huy Dưỡng 20080575
Nguyễn Văn Dương 20086082
Nguyễn Văn Kiên 20081453
Báo cáo bài tập lớn
xử lý ngôn ngữ tự nhiên

Đề tài:Tìm hiểu cấu trúc hệ thống tìm kiếm thông
tin Google hiện tại và các kỹ thuật xử lý trong tìm
kiếm thông tin của Google
Nội dung báo cáo

A.Tổng quan về hệ thống Search engine

B. Ranking

I.Giới thiệu ranking

II. Một số kỹ thuật sử dụng trong Ranking

III. Thuật toán Pagerank

IV. Google Panda
Các bộ phận cấu thành nên hệ thống
search engine

1.Bộ thu thập thông tin
Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết
để thu thập tài liệu & một cách đệ quy nó nhận về tất cả tài liệu có liên kết


với tài liệu này.

2.Bộ lập chỉ mục
Thực hiện việc phân tích, trích chọn những thông tin cần thiết từ những
dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có
thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.

3.Bộ tìm kiếm thông tin
Là một thành phần xử lý các truy vấn từ phía người sử dụng, tiếp nhận
các yêu cầu tìm kiếm ,phân tích từ, tìm kiếm trong Cơ sở dữ liệu chỉ mục,
so khớp các từ khóa, lấy về kết quả phù hợp, sau đó trả lại những kết quả đó
cho người sử dụng thông qua giao diện GUI.
Nguyên lý hoạt động của search engine

1.Search Engine điều khiển robot đi thu thập thông tin trên
mạng thông qua các siêu liên kết Hyperlink.

2.Robots phát hiện ra website mới, nó gửi tài liệu webpage
về cho server chính để tạo CSDL chỉ mục phục vụ cho nhu
cầu tìm kiếm thông tin.

3.Search engine nhận yêu cầu truy vấn từ User, nó sẽ tiến
hành phân tích, tìm trong CSDL chỉ mục và trả về những tài
liệu thỏa yêu cầu.
Ranking

Trong lĩnh vực tìm kiếm, ranking là kỹ thuật đánh giá
giá trị từng kết quả trong tập trả về mỗi khi người dùng
truy vấn. Bằng cách thức cho điểm, danh sách kết quả
sẽ được sắp xếp theo thứ tự trước sau tương ứng với số

điểm.
Các kỹ thuật sử dụng trong ranking
1. Đánh giá bằng thống kê.
Thuật toán dựa vào những yếu tố sau để cho điểm một từ
khoá trong một trang Web:

Số lần xuất hiện của từ khoá trong bài viết.

Tỉ lệ tần suất xuất hiện từ khoá với độ dài của bài viết.
Thuật toán chỉ mang tính chất thống kê và tương đối.
Không phải bất cứ bài viết nào có sự xuất hiện và tần
suất xuất hiện cao của từ khoá cũng là thứ mà người tìm
kiếm cần.
Các kỹ thuật sử dụng trong ranking
2.Đánh giá theo địa chỉ của trang.

Đây là một cách đánh giá độ quan trọng của từ khóa với
mỗi trang Web và thường có trọng số khá cao. Thay vì từ
khóa nằm trong bài viết thì nó lại nằm trong đường dẫn
URL hay tên miền của trang Web (domain name).
Các kỹ thuật sử dụng trong ranking
3. Đánh giá bằng từ khoá quan trọng.

Web Page là tài liệu có định dạng hiển thị. Thông dụng nhất
là chuẩn HTML. Dựa vào cấu trúc định dạng đó, thuật toán
cho điểm cao hơn với từ khóa nằm trong các thẻ đặc biệt.

Cách thông thường nhất mà Search Engine hay áp dụng
chính là cho điểm cao với từ khoá nằm trong anchor
text(liên kết), các thẻ tiêu đề, meta keyword, H1, H2, H3,

H4, H5, H6 hoặc từ khoá được in đậm, viết hoa.
Các kỹ thuật sử dụng trong ranking
4.Đánh giá bởi các từ gần nhau.

Thuật toán cho phép tính toán độ gần nhau giữa các từ
khoá.
5. Đánh giá theo ngày tháng.

Thông thường, người tìm kiếm có xu hướng tìm kiếm
những vấn đề hay sự kiện mới xảy ra.

Chẳng hạn, với từ khoá "Ronaldo", người ta sẽ quan tâm
đến những vấn đề như Ronaldo gần đây cặp kè với ai, đá
cho đội nào hay mức lương bao nhiêu?
Các kỹ thuật sử dụng trong ranking
6. Đánh giá theo độ nổi tiếng của trang.

PageRank của Google đánh giá độ quan trọng của một trang web
dựa trên phương pháp xử lí gọi là thuật toán phân tích liên kết
Phương pháp này đánh giá độ quan trọng của một trang Web dựa
trên những liên kết trên Internet.
7. Đánh giá theo truy vấn vùng.

Cùng một từ khóa tìm kiếm, kết quả trả về cho người Mỹ sẽ khác
với kết quả trả về cho người Việt. Ngoài việc ưu tiên những nội
dung tiếng Việt lên đầu, Search Engine còn cần phải loại bỏ các
kết quả không phù hợp với văn hóa và xã hội Việt Nam.
Các kỹ thuật sử dụng trong ranking

8.Đánh giá bởi con người và trình duyệt.


Phương pháp thống kê nhờ theo dõi hành vi người dùng để
đưa ra đánh giá về chất lượng của một trang Web. Phương
thức này chỉ có thể triển khai khi một Search Engine có số
lượng người dùng lớn như Google hoặc Yahoo.

Một phương pháp khác là nhờ vào kiểm soát trình duyệt
(Google và Microsoft). Hiệu quả của phương pháp này rất
lớn nếu được triển khai tốt. Tuy nhiên, nó vi phạm đến một
số vấn đề riêng tư và bảo mật của người dùng Search
Engine.
PageRank

PageRank là một thuật toán được sử dụng trong công cụ
tìm kiếm Google, được phát triển tại Đại học Stanford bởi
Larry Page và Sergey Brin trong nghiên cứu của họ “The
Anatomy of a Large-Scale Hypertextual Web Search
Engine”.

Thuật toán dựa trên 1 giả thuyết phổ biến trong giới hàn
lâm, đó là tầm quan trọng của một bài báo được quyết định
bởi số các trích dẫn từ bài báo đó của các bài báo khác.

Chỉ số PageRank của một trang web là kết quả bầu chọn
của tất cả các trang web khác trên toàn thế giới cho website
đó Mỗi 1 liên kết ngược là 1 phiếu bầu.
PageRank

Chỉ số PageRank này cho biết trang web có quan trọng hay

không theo cách nhìn nhận của Google. Website nào có chỉ
số PageRank cao chứng tỏ website đó có chất lượng cao và
quan trọng. Vì thế, khi tìm kiếm, Google sẽ ưu tiên cho các
site có PageRank cao.

Tất nhiên khi tìm kiếm không phải cứ website có PageRank
cao là sẽ được xếp ở trang đầu tiên, điều này còn phụ thuộc
vào việc bạn muốn tìm kiếm gì và nhiều yếu tố khác.
Google kết hợp PageRank với một số heuristics khác để
cho ra kết quả phù hợp nhất.
Công thức thuật toán PageRank

Giá trị PageRank của trang Pi được tính như sau:

Trong đó:

P1,P2,…,Pn là các trang cần tính PageRank.

M(Pi) là tập các trang có link trỏ tới trang Pi.

L(Pj) là số các link đi ra từ trang Pj.

N là tổng số trang.

Tham số giảm sóc d có giá trị xấp xỉ 0.85
Ý nghĩa thuật toán
Định nghĩa thuật toán PageRank cho ta thấy có 2 yếu tố ảnh
hưởng đến vị trí của trang web trên Google. Đó là:

Số lượng các link đi đến ( incoming links): Thông thường

thì càng nhiều link đi đến càng tốt.

Số lượng các link đi ra của các trang web trỏ tới ( outgoing
links): Càng ít càng tốt.

Thuật toán PageRank đơn thuần là một phần của thuật toán
xếp hạng của Google.

Ta có thể coi nó như là 1 yếu tố bổ sung, được xử lý trên các
kết quả tìm kiếm của Google sau khi tất cả các tính toán khác
đã hoàn tất.
PageRank được tính toán như thế nào
a.Phương pháp lặp:
Tại t=0 Giả sử phân bố xác suất ban đầu là:
Tại mỗi bước, ta tính theo công thức:
PageRank được tính toán như thế nào

Hoặc công thức :

(*)

Trong đó:
là một ma trận N*1 gồm toàn các số 1
Ma trận được định nghĩa như sau:

Mij=1/L(pj) nếu trang j có link tới trang i

Mij=0 trường hợp còn lại
Thuật toán kết thúc khi:
PageRank được tính toán như thế nào

b.Phương pháp đại số
Cho (Khi trạng thái ổn định) Phương trình (*) trở thành:
(**)
Do đó ta tính được R như sau:
Với I là ma trận đơn vị cấp n
PageRank được tính toán như thế nào
c. Phương pháp “Power Method”

Chuỗi Markov

Chuỗi Markov là một quá trình ngẫu nhiên thời gian rời
rạc với tính chất Markov thông qua một tập các trạng thái.

Tuân theo một ma trận xác suất chuyển đổi P:

Pij = Xác suất chuyển đến trạng thái j khi ở trạng thái i.

∑jPij = 1

Chú ý: Trạng thái tiếp theo của chuỗi chỉ phụ thuộc vào
trạng thái hiện thời của chuỗi.
PageRank được tính toán như thế nào

Phương pháp Power Method
PageRank được tính toán như thế nào

Áp dụng tính PageRank
Ta có:
Phương trình (**) trở thành:
Bây giờ để tính R ta dùng hàm: PowerMethod( , V0 , )

Trong đó Ma trận xác suất chuyển đổi M được định nghĩa như sau:
Mij=0 Nếu trang i không có link đến trang j
Mij=1/L(i) Nếu trang I có link đến trang j
Mii=0 trong mọi trường hợp
Mij=1/n j=1 n Nếu trang i không có link đến trang nào
E là ma trận chỉ chứa 1
Google Panda Algorithm

Tháng 11-2011 Google chính thức thay đổi thuật toán Ranking của
mình lấy tên là Panda. Đây là một sự thay đổi mạnh mẽ của Google.
Thuật toán Panda có tư tưởng chủ đạo là “ Content is King”.

Nó loại bỏ hoặc giảm chỉ số xếp hạng của các trang web có nội
dung kém chất lượng, sao chép nội dung, và các trang web có nội
dung chủ yếu được sưu tập từ các trang khác, tăng chỉ số xếp hạng
của các trang có nội dung nguồn chất chất lượng

Thuật toán Panda cố gắng xác định nguồn gốc, tác giả của nội dung
và tăng thứ hạng cho trang đó, đồng thời hạ thứ hạng của tất cả các
trang có nội dung trùng lặp với nội dung trên.
Những tiêu chí chính trong thuật toán Google Panda:

“Content is king”:
Coi trọng dữ liệu mới. Coi trọng dữ liệu text.Chính tả và
ngữ pháp là quan trọng

Tỉ lệ các bài viết có nội dung trùng lặp. Điều này có thể áp
dụng cho từng trang riêng lẻ, cho cả trang web hoặc cả hai

Thời gian khách truy cập trên website

Nếu người dùng tìm thấy những nội dung hữu ích và đáp
ứng đúng nhu cầu của họ, khả năng họ ở lại trên website để
tìm những thông tin liên quan là rất cao. Do đó các trang web
mà người dùng giành nhiều thời gian để đọc và tìm những bài
viết trên website sẽ được Google đánh giá cao.

×