NGHIÊN CỨU VÀ PHÁT TRIỂN THUẬT
TOÁN TÌM PHẦN TỬ CHÍNH YẾU
TRONG MẠNG XÃ HỘI VÀ ỨNG DỤNG
Học viên : ĐỖ VĂN MẠNH
Giảng viên hướng dẫn : PGS.TS. ĐỖ PHÚC
TRƯỜNG ĐẠI HỌC LẠC HỒNG
KHOA CÔNG NGHỆ THÔNG TIN
ĐỀ TÀI:
1
NỘI DUNG
ỨNG DỤNG CÁC ĐỘ ĐO CENTRALITY TÌM KEY PLAYER
5
GIỚI THIỆU ĐỀ TÀI
1
TỔ CHỨC CỦA MẠNG XÃ HỘI
2
PHÂN TÍCH MẠNG XÃ HỘI
3
CÁC ĐỘ ĐO CENTRALITY TRONG MẠNG XÃ HỘI
4
CHƯƠNG TRÌNH DEMO
6
2
Phân tích mạng xã hội (Social Network Analysis –
SNA) hiện đang là một trong các chủ đề được
quan tâm nghiên cứu. Phân tích mạng xã hội bao
gồm việc nghiên cứu các quan hệ, kết nối, mẫu
truyền thông và hành vi giữa các nhóm xã hội khác
nhau…
Các phương pháp "phân tích mạng xã hội" đã
được nghiên cứu và ứng dụng ngày càng nhiều
hơn trong các nghiên cứu xã hội học nói riêng và
khoa học xã hội nói chung. Tại Việt Nam, phương
pháp phân tích mạng xã hội còn khá mới mẻ, do đó
việc ứng dụng phương pháp phân tích này còn
khá hạn chế.
GIỚI THIỆU ĐỀ TÀI
1.
3
Đi kèm với phân tích nói trên là bài toán xác định
phần tử chính yếu (Key player) hay còn gọi là những
tác nhân quan trọng trong mạng xã hội.
Phần tử chính yếu là các phần tử trong mạng được
xem là quan trọng xét theo một điều kiện nào đó. Có
thể nói rằng, key player là những node có khả năng
điều khiển luồng thông tin, là những node nổi bật
nhất và có tầm ảnh hưởng đến các node khác trong
mạng xã hội.
Độ đo Centrality là đơn vị đo lường xác định các mối
liên kết của một đỉnh trong đồ thị. Thông qua
Centrality, ta có thể phát hiện được thực thể nào
trong mạng là quan trọng và có tầm ảnh hưởng đến
những thực thể khác.
GIỚI THIỆU ĐỀ TÀI
1.
4
Dựa vào bài toán tìm đường đi ngắn nhất qua các
đỉnh của một đồ thị. Có thể xem mạng xã hội như
một đồ thị, các thực thể trong mạng là các đỉnh
(node) của đồ thị, mối quan hệ giữa các thực thể
trong mạng là các cạnh (link) của đồ thị.
Bài toán đặt ra là xây dựng thuật toán dựa vào các
độ đo Centrality và đường đi ngắn nhất đi qua các
đỉnh của đồ thị, từ đó xác định thực thể nào là
quan trọng nhất, có tầm ảnh hưởng lớn nhất tới
các thực thể khác trong mạng xã hội.
GIỚI THIỆU ĐỀ TÀI
1.
5
Trong phân tích mạng xã hội, ta xem xét mạng xã hội
như là đồ thị mạng bao gồm các đỉnh (nodes), các cạnh
(links). Node biểu diễn tập các tác nhân, thực thể, còn
link biểu diễn mối quan hệ (relation) giữa các tác nhân,
thực thể đó:
2
TỔ CHỨC CỦA MẠNG XÃ HỘI
2.
Một đỉnh trong mạng XH
A
B
D
C
E
A
B
D
C
E
đồ thị có hướng đồ thị vô hướng
6
TẬP ĐỈNH (Nodes).
TẬP CẠNH (Links)
Phân tích mạng xã hội (SNA) ngày càng phổ biến. Quan hệ xã hội
và kết nối mạng là những thành phần quan trọng của đời sống con
người
Các nhà khoa học máy tính đã sử dụng phương pháp phân tích
mạng xã hội (SNA) để nghiên cứu các trang Web, lưu lượng
truyền thông trên internet, mức độ phổ biến thông tin,…
Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu
tượng và phương pháp phân tích của đồ thị. Những điều
này kết hợp với các công cụ phân tích khác và các phương
pháp phát triển đặc biệt cho sự hình dung và phân tích của
các mạng xã hội, hình thành cơ sở của những gì chúng ta
gọi là phương pháp phân tích mạng xã hội – SNA
PHÂN TÍCH MẠNG XÃ HỘI
3.
7
Trong Phạm vi của lý thuyết đồ thị và phân tích mạng, có
nhiều biện pháp để nghiên cứu mô hình thông tin liên lạc
cũng như cấu trúc của một mạng xã hội. Trong đó biện pháp
Centrality là một trong các biện pháp được nghiên cứu nhiều
nhất nhằm xác định tầm quan trọng tương đối của một đỉnh
trong đồ thị
Centrality mô tả vị trí tương đối của một tác nhân trong bối cảnh
của mạng xã hội của mình:
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
8
1. Độ đo trung tâm theo bậc (Degree
Centrality).
2. Độ đo trung tâm dựa trên trung
gian (Betweenness Centrality).
3. Đo đo trung tâm theo sự lân cận
(Closeness Centrality)
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
9
Cho đồ thị G = (V, E) có n đỉnh.
- Degree centrality của một đỉnh chính là tng số
cc liên kết tới đỉnh đó trong đồ thị (tng số cạnh kề
của một đỉnh).
- Trường hợp đồ thị có hướng, degree centrality
được tnh bởi 2 gi trị: in-degree v out-degree.
* In-degree: tng số liên kết từ cc node
khc đến node đang xét.
* Out-degree: tng số liên kết từ node
đang xét đến cc node khc.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
1. Độ đo trung tâm theo bậc (Degree Centrality).
10
Công thức tnh độ đo trung tâm theo bậc của đỉnh v :
(2.1)
Công thức tnh degree centrality theo dạng chun của đỉnh
v:
(2.2)
Trong đó:
v: đỉnh đang xt
deg(v): số cc cạnh kề của đỉnh v
n: số đỉnh của đồ thị
Miền giá trị của độ đo này nằm trong khoảng [0 1]. Khi giá
trị càng tiến gần đến 1 thì tính trung tâm của tác nhân càng
cao, tức là càng nằm ở vị trí trung tâm của mạng lưới.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
1. Độ đo trung tâm theo bậc (Degree Centrality).
)deg()( vvC
D
1
n
v
vC
D
)deg(
)(
11
VD1: Cho đồ thị gồm 7 đỉnh sau:
Dựa vo công thức 2.1 và 2.2 ta tính
được cc độ đo trung tâm theo bậc
của từng đỉnh như sau
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
1. Độ đo trung tâm theo bậc (Degree Centrality).
12
Nhận xt:
Degree centrality được dng để xc định node no có thể
lan truyền thông tin nhanh, có khả năng gây ảnh hưởng trực
tiếp đến cc node xung quanh.
Một thực thể có gi trị degree centrality cao:
Là người hoạt động tch cực hoặc ni tiếng nhất.
L một đầu nối quan trọng.
Có một vị tr thuận lợi.
Có tầm ảnh hưởng quan trọng trong mạng.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
1. Độ đo trung tâm theo bậc (Degree Centrality).
13
Betweenness centrality của một đỉnh được tnh bằng tng số cc đường đi
ngn nhất ngang qua đỉnh đang xt chia cho tng số cc đường đi ngn nhất
của ton mạng. Nói cách khác thì Betweenness Centrality là độ đo dng để xc
định vị tr của tác nhân trong mạng m nó có khả năng kết nối đến những cặp
tác nhân hay những nhóm tác nhân khc
Công thức tính Betweenness Centrality của đỉnh v:
Cho đồ thị G = (V,E) có n đỉnh:
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
:)(v
st
Trong đó:
Tổng số đường đi ngn nht t đnh s đến t
và có qua đnh v (s ≠ v ≠ t).
Vtvs
st
st
B
v
vC
)(
)(
:
st
Tổng số các đường đi ngn nht t đnh s đến
t (s ≠ v ≠ t).
(2.3)
14
Công thức tnh Betweenness Centrality theo dạng chun:
Miền giá trị của độ đo này nằm trong khoảng [0 1], node
có giá trị càng lớn thì node đó sẽ có sự ảnh hưởng càng
lớn đến việc phân b cấu trúc của các cụm hay nhóm
trong mạng càng lớn. Một tác nhân có vai trò trung tâm
càng lớn trong mạng thì sẽ có tầm ảnh hưởng lớn trong
việc kiểm soát mọi thông tin trao đi giữa các tác nhân
khác trong mạng.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
221 /))((
)(
)(
'
nn
vC
vC
B
B
15
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
VD2: Cho một mạng xã hội có các tác nhân: v1, v2, v3, v4, v5, v6 và
các link: (v1,v2); (v1,v3); (v2,v4); (v3,v2); (v3,v4); (v4,v5); (v4,v6).
Ta coi Mạng xã hội trên như là một đồ thị như sau:
v1
v2
v3
v4
v6
v5
16
Ta thy công
thức 2.3 có đề
cập tới đường đi
ngn nht t
đnh s tới đnh t,
như vậy ban đầu
ta phải tính các
đường đi ngn
nht của tt cả
các cặp node
trong đồ thị:
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
Bảng 1
17
Dựa vào bảng 1 ta cũng tính được =17.
Việc tiếp theo ta tnh tng đường đi ngn nhất từ đỉnh s tới
đỉnh t có qua đỉnh v:
Xt đỉnh v1:không có bất kỳ đường đi từ đỉnh s bất kỳ tới đỉnh t m
đi qua v1. Như vậy
Xt đỉnh v2: có 3 đường đi có đi qua đỉnh v2, vậy
Xt đỉnh v3: có 3 đường đi có đi qua đỉnh v3, vậy
Xt đỉnh v4: có 8 đường đi có đi qua đỉnh v4, vậy
Xt đỉnh v5 và v6: ta không thấy có bất kỳ đường đi no đi qua 2
đỉnh ny, như vậy v
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
st
haytsSP
),(
01 )(v
st
33 )(v
st
32 )(v
st
84 )(v
st
06 )(v
st
05 )(v
st
18
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
Như vậy, ta tính được độ đo Betweenness Centrality của từng node:
19
Một node có độ đo Betweenness Centrality càng cao
thì:
Giữ một vị trí đặc biệt quan trọng và một tầm ảnh
hưởng rất lớn trong mạng.
Nếu node này bị loại bỏ thì sẽ gây ra sự tan rã cấu
trúc của mạng, tức là các node sẽ không còn có thể
trao đi thông tin liên lạc với nhau.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
2. Độ đo trung tâm dựa trên trung gian (Betweenness Centrality).
Khi loại bỏ đỉnh v4
20
Cho đồ thị G = (V, E) với n đỉnh
Closeness centrality là độ đo khoảng cách từ một
đỉnh đến các đỉnh còn lại trong đồ thị.
Công thức tnh ton:
Công thức I:
Closeness centrality được tnh bằng trị nghịch đảo của
tng số khoảng cch ngn nhất từ một đỉnh đến tất cả
cc đỉnh cn lại của đồ thị
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
3. Độ đo trung tâm theo sự lân cận (Closeness Centrality).
(2.5)
21
Công thức II:
Với d
G
(v,t) là khoảng cch ngn nhất từ đỉnh v đến t của đồ
thị.
Closeness centrality được tnh bằng bình quân của tng số
khoảng cch ngn nhất từ một đỉnh đến tất cả cc đỉnh còn
lại.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
3. Độ đo trung tâm theo sự lân cận (Closeness Centrality).
(2.6)
22
Xt lại VD2, ta sử dụng lại Bảng 1 để tìm độ đo Closeness
Centrality của cc đỉnh trong đồ thị:
Theo công thức I:
Xét đnh v1: Độ đo khoảng cách t đnh v1 đến cách đnh còn lại trong
mạng length(v1,t) là 18, ta có:
Tương tự ta tìm được các độ đo closeness Centrality cho các nodes còn
lại:
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
3. Độ đo trung tâm theo sự lân cận (Closeness Centrality).
060
18
1
1
1
1
1
.
),(
)(
\
vVt
G
C
tvd
vC
20
5
1
2
1
2
2
.
),(
)(
\
vVt
G
C
tvd
vC
170
6
1
3
1
3
3
.
),(
)(
\
vVt
G
C
tvd
vC
50
2
1
4
1
4
4
.
),(
)(
\
vVt
G
C
tvd
vC
065 )()( vCvC
CC
23
Như vậy, đỉnh v4 có giá trị Closenness Centrality cao
nhất sẽ là đỉnh có thể truyền đạt, tiếp nhận thông tin từ
cc node khc trong mạng một cch nhanh nhất, ít tốn
thời gian nhất.
Một thực thể có gi trị closeness centrality tốt nhất :
Có thể truy xuất nhanh chóng đến cc thực thể khc
trong mạng.
Có một đường đi ngn nhất đến nhiều thực thể
khc.
CÁC ĐỘ ĐO TRUNG TÂM TRONG MẠNG
4.
3. Độ đo trung tâm theo sự lân cận (Closeness Centrality).
24
Việc xác định được các giá trị độ đo Centrality đã làm
nền tảng để tiếp cận giải quyết bài toán tìm phần tử
chính yếu (key player) trong mạng xã hội của đề tài.
Quy trình tìm phần tử chnh yếu được thực hiện thông
qua cc bước cơ bản sau:
Bước 1: Tính toán tìm tất cả các đường đi ngn nhất từ 1 đỉnh
đến tất cả các đỉnh còn lại trong đồ thị cho tất cả các đỉnh.
Bước 2: Tính toán độ đo trung tâm theo bậc của tất cả các đỉnh
trong đồ thị.
Bước 3: Tính toán tìm độ đo trung tâm theo trung gian của tất cả
các đỉnh trong đồ thị.
Bước 4: Tính toán độ đo trung tâm theo sự lân cận của mỗi đỉnh
trong đồ thị.
Bước 5: Dựa vào các độ đo trung tâm -> Đưa ra kết quả.
ỨNG DỤNG CÁC ĐỘ ĐO CENTRALITY TÌM KEY PLAYER
5
25