Nội dung
2.1 Mạng xã hội
2.2 Thuật toán PageRank
2.3 Thuật toán HIST
[IT4868] Khai phá Web
2.4 Nhận dạng cộng đồng
Chương 2: Phân tích mạng xã hội
2
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Ví dụ
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Ví dụ
●
www
●
FB, Twitter, weibo, zalo
●
Wikipedia
●
Mạng lưới bài báo khoa học, mạng l ưới h ợp tác
●
Mạng lưới người dùng di động
3
4
5
6
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Phân tích mạng xã hội
“Phân tích mạng xã hội là nghiên c ứu các th ực
thể xã hội (tác nhân) và s ự tương tác, liên k ết
giữa chúng.” - Bing Liu
7
Source: />
8
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Phân tích mạng xã hội
●
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị
Phân tích vai trò của các tác nhân trong m ạng
xã hội
●
Đồ thị = {đỉnh, cạnh}
●
Đồ thị vô hướng/có hướng
●
Nhận dạng các cộng đồng trong mạng xã h ội
●
Ma trận kề
●
Dự đoán các liên kết trong m ạng xã h ội
●
Bậc của đỉnh
●
Đường đi ngắn nhất
9
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị
10
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị
●
Ma trận kề:
–
a[i, j] = 1 nếu tồn tại cạnh (i,j)
= 0 nếu ngược lại
= 2 nếu tồn tại cạnh từ một đ ỉnh đ ến chính nó
`
`
a) Đồ thị vô hướng
b) Đồ thị có hướng
11
12
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị
●
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị
Bậc của đỉnh:
●
di(i) = số nút trỏ tới i
●
do(i) = số nút i trỏ tới
Thuật toán Dijkstra tìm đ ường đi ng ắn nh ất t ừ
một đỉnh s tới các đỉnh còn lại của đ ồ th ị
d(v): Khoảng cách từ đỉnh v tới đỉnh s
B1: Khởi tạo d(s) = 0; d(v) = oo
B2: Sắp xếp các đỉnh v theo một trật tự xác định trên
hàng đợi Q
B3: Lấy một đỉnh u thuộc hàng đợi Q và cập nhật
khoảng cách d(v) (nếu cần) với mỗi đỉnh v liền kề với u
Quay lại B2 cho đến khi xử lý hết các đỉnh
13
15
`
16
17
18
19
20
21
22
23
24
25
26
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ tập trung của đỉnh
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm
Phân tích vai trò của các đ ỉnh trong đ ồ th ị d ựa
trên:
–
Độ trung tâm: Nút i có là thành phần trung tâm của
đồ thị không?
–
Độ quan trọng: Nút i có đóng vai trò quan trọng
trong đồ thì không?
27
Độ trung tâm theo bậc:
Đồ thị vô hướng:
`
[0,1]
d(i): bậc của đỉnh i
n: Số đỉnh của đồ thị
Đồ thị có hướng:
d0(i): bậc ra của đỉnh i
28
29
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm
Độ trung tâm lân cận:
Độ trung tâm trung gian:
d(i, j): Khoảng cách ngắn nhất từ nút i tới nút j
pjk(i): Số lượng đường đi ngắn nhất từ j tới k mà đi qua i
CB(1) = 15, CB(2) = CB(3) = CB(4) = CB(5) = CB(6) = CB(7) = 0
30
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm
31
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng
BTVN: Tính độ trung tâm của các đ ỉnh trong đ ồ
thị dưới đây theo bậc, trung gian, và lân c ận
Độ quan trọng theo bậc:
8
9
di(i): Số nút trỏ tới i
10
32
33
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng
Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng
Độ quan trọng lân cận:
Độ quan trọng thứ hạng:
`
Aij = 1 nếu i có thể đi tới j, ngược lại A ij = 0
Ii: Các nút có thể đi tới i
34
35
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Transition matrix
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Lawrence (Larry) Page et al. 1999. “The
PageRank Citation Ranking: Bringing Order to
the Web”
1999: 150M pages, 1.7B links
`
36
37
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Transition matrix
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ranking
Chuẩn hóa:
PR(A) = (1 – d) / N + d * sumB:(B,A) in E PR(B) / do(B)
PR(A): Ranking của đỉnh A
d: damping factor
N: số đỉnh của đồ thị
(B,A) cạnh của đồ thị
do(B) bậc ra của đỉnh B
`
38
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 1)
39
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 1)
40
41
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 0.85)
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)
a)
b)
c)
42
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)
43
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)
a)
b)
44
45
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Cài đặt
c)
46
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Tốc độ hội tụ
47
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Tốc độ hội tụ
BTVN:
●
●
●
48
Tải Wikipedia tiếng Việt tại
/>Lọc ra các độ thị gồm các trang ch ủ đ ề
(category pages) và liên kết giữa chúng
Thực hiện thuật toán PageRank trên đ ồ th ị và
in ra kết quả là tiêu đề các trang có ranking cao
nhất
49
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 1: Tìm kiếm Web
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn
Guan et al. 2008. “Bringing Page-Rank to the Citation Analysis”
50
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng: Phân tích trích dẫn
51
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn
52
53
Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn
Q&A
54
55