Tải bản đầy đủ (.pptx) (73 trang)

Khai phá dữ liệu thuật toán Page rank ĐH Bách Khoa HN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.58 MB, 73 trang )

Đại học Bách Khoa Hà Nội
Viện Toán ứng dụng và Tin học

Seminar Tin ứng dụng
Web graph and Page rank

Bùi Đức Hiệu
Phạm Anh Tuấn
Nguyễn Văn Vũ


Giới thiệu

Ảnh chụp của đồ thị Internet
(Nguồn: Wikipedia)
Seminar 2012


Nội dung

 Giới thiệu
 Đồ thị Web
 Thuật toán PageRank
 Cải tiến thuật toán PageRank
 Thuật toán HITS
 Cài đặt các thuật toán

Seminar 2012


Giới thiệu



 Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ. Trang web đầu tiên trên thế giới là info.cern.ch
(Tim Berners-Lee), đến năm 2008 chúng ta đã có 162 triệu trang web

Seminar 2012


Giới thiệu

Seminar 2012


Giới thiệu

 Vấn đề đặt ra:
làm sao để khai thác tối đa những
thông tin mà người sử dụng cần ???

 Giải pháp:
Tạo sự liên kết giữa các trang web với nhau

Seminar 2012


Giới thiệu

Seminar 2012


Đồ thị


 Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh.

Seminar 2012


Đồ thị

 Một số khái niệm liên quan đến đồ thị:


Đồ thị vô hướng

Seminar 2012


Đồ thị



Đồ thị có hướng

Seminar 2012


Ma trận


 Ma trận: trong toán học ma trận là một bảng chứa dữ liệu theo hàng và cột
A=


1

A
B
C
D

A

B

C

D

0

1

2

3

0

3

A


B
3

2

6

0
C

D

3

0

Seminar 2012


Ma trận


 Có một số dạng ma trận:
 Ma trận chéo
 Ma trận tam giác
 Ma trận đơn vị

=
=
=


Seminar 2012


Ma trận


 Vector riêng và trị riêng:
A: ma trận vuông
A=

A = , vector riêng , giá trị riêng

. 3.

Seminar 2012


Nội dung

 Giới thiệu
 Đồ thị Web
 Thuật toán PageRank
 Cải tiến thuật toán PageRank
 Thuật toán HITS
 Cài đặt các thuật toán

Seminar 2012



Đồ thị web

 Định nghĩa
 Các tính chất của đồ thị web
 Cấu trúc vi mô
 Luật tăng trưởng
 Mô hình

Seminar 2012


Đồ thị web

 Định nghĩa:
Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML, CSS mà chúng
còn có sự liên kết, kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web.

Seminar 2012


Đồ thị web

Seminar 2012


Đồ thị web

Seminar 2012



Đồ thị web

 Đồ thị và ma trận biểu diễn sự liên kết giữa các trang

1

2

3

1
2

4

1
0

0

3

0

4

0

0


0
Seminar 2012


Đồ thị web

 Tính chất của đồ thị web
 Các trang web được xem như là các nút của đồ thị
 Các siêu liên kết được xem như là các cạnh của đồ thị

Nút

Cạnh

Seminar 2012


Đồ thị web

 Các thuật toán phân hạng web hiện nay:
 PageRank
 Topic Sensitive PageRank
 Adaptive PageRank
 Timed PageRank
 HITS

Seminar 2012


Cấu trúc đồ thị web


 Có 4 thành phần:
 SCC(strongly connected component)
 IN
 OUT
 TENDRILS

Seminar 2012


Cấu trúc đồ thị web

Seminar 2012


Ý nghĩa của đồ thị web

Liên kết được nhiều trang web với nhau
Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn.

Seminar 2012


Luật tăng trưởng



S: kích thước của trang web ở thời điểm �

SS

: là việc thực hiện một biến ngẫu nhiên Bernouili

Sau bước T:

Seminar 2012


×