Tải bản đầy đủ (.docx) (59 trang)

Nghiên cứu và ứng dụng các phương pháp xác định người có ảnh hưởng trên mạng xã hội thực tế (Facebook)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.13 MB, 59 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

ĐỒ ÁN TỐT NGHIỆP
Nghiên cứu và ứng dụng các phương pháp
xác định người có ảnh hưởng trên mạng xã hội
thực tế
NGUYỄN XXX
Ngành Công nghệ thông tin
Chuyên ngành Hệ thống thông tin

Giảng viên hướng dẫn:

PGS. TS. Thân Quang Khốt
Chữ ký của GVHD

Bộ mơn:
Viện:

Hệ thống thơng tin
Công nghệ thông tin và truyền thông

HÀ NỘI, 6/2021
1


ĐỀ TÀI TỐT NGHIỆP
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thơng tin về sinh viên
2. Mục đích và nội dung ĐATN
Nghiên cứu và ứng dụng các phương pháp xác định người có ảnh
hưởng trên mạng xã hội thực tế.


3. Các nhiệm vụ cụ thể của ĐATN
• Tìm hiểu lý thuyết về các độ đo trung tâm và tầm ảnh hưởng
của các nút trong đồ thị.
• Thu thập và xử lý được dữ liệu từ mạng xã hội (cụ thể là
Facebook).
• Cài đặt, thử nghiệm và đánh giá hiệu năng của các phương
pháp.
4. Lời cam đoan của sinh viên
Em tên là Nguyễn XXX xin cam đoan đề tài ĐATN: “Nghiên cứu và
ứng dụng các phương pháp xác định người có ảnh hưởng trên mạng
xã hội thực tế ” là công trình nghiên cứu độc lập dưới sự hướng dẫn
của giảng viên hướng dẫn PGS.TS Thân Quang Khoát. Đề tài, nội
dung báo cáo là sản phẩm mà em đã nỗ lực nghiên cứu trong quá
trình làm đồ án. Các số liệu, kết quả trình bày là hồn tồn trung
thực, em xin chịu trách nhiệm và kỷ luật của bộ môn và nhà trường
nếu như có vấn đề xảy ra.

Hà Nội, ngày … tháng … năm 2021
Sinh viên thực hiện
Ký và ghi rõ họ tên

5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN
và cho phép bảo vệ:

2


Giáo viên hướng dẫn
Ký và ghi rõ họ tên


LỜI CẢM ƠN
Đối với bản thân em, quãng thời gian 5 năm sinh viên tại Đại học
Bách Khoa Hà Nội thực sự là một khoảng thời gian quý giá và đáng
nhớ trong cuộc đời. Em đã được học tập và làm việc tại một trong
những ngơi trường tốt nhất Việt Nam, có được những người bạn mới
và hơn cả là được học tập, làm việc dưới sự chỉ bảo tận tình của các
thầy cô Viện Công nghệ thông tin và truyền thông. Em xin gửi lời cảm
ơn trân trọng nhất đến các thầy, các cô. Em xin chúc các thầy cô luôn
mạnh khỏe và thành công trong sự nghiệp giảng dạy và nghiên cứu
của mình.
Mặc dù là một người thiên về làm ứng dụng hệ thống, nhưng thật may
mắn khi được sự hướng dẫn tận tình của PGS. TS Thân Quang Khốt.
Với sở thích, mong muốn được khai phá dữ liệu, thầy đã tiếp nhận và
định hướng cho em đề tài tốt nghiệp này. Thầy đã truyền đạt cho em
không chỉ những kiến thức quý báu về học thuật mà còn là người chia
sẻ, giúp đỡ em trong quá trình làm việc. Em xin gửi lời cảm ơn chân
thành đến thầy.
Cuối cùng, em gửi lời cảm ơn sâu sắc nhất đến gia đình em, những
người ln ở bên em và là động lực để em tiếp tục phấn đấu trên con
đường sự nghiệp sau này.

Tóm tắt nội dung đồ án
Trong thời đại Cách mạng 4.0 ngày nay, mạng xã hội ngày càng phổ
biến và không thể thiếu đối với mỗi người. Mạng xã hội giúp cho
chúng ta cập nhật được những tin tức xã hội, các bản tin được nhiều
người quan tâm hoặc các tin hot, giúp đẩy mạnh quá trình kết nối bạn
bè, người thân, nâng cao kỹ năng sống và sự hiểu biết qua các bài
đăng, video,…. Đặc biệt, việc kinh doanh qua mạng xã hội đang phát
triển như vũ bão trên thế giới cũng như tại Việt Nam. Marketing người
có ảnh hưởng (influencer marketing) là một hình thức marketing qua

mạng xã hội. Đây là hình thức marketing với trọng tâm đặt vào những
người có tầm ảnh hưởng hơn là việc đặt thị trường mục tiêu là tất cả
trên các phương tiện truyền thơng xã hội. Hình thức này sẽ nhận diện
3


các cá nhân có sức ảnh hưởng đối với nhóm khách hàng tiềm năng và
định hướng các hoạt động marketing xung quanh những người có ảnh
hưởng đó. Bài tốn đánh giá độ ảnh hưởng hay tầm quan trọng của
người dùng mạng xã hội là một trong những lĩnh vực ứng dụng quan
trọng sử dụng những kĩ thuật của phân tích mạng xã hội. Tuy nhiên,
hiện nay các nghiên cứu còn hạn chế về độ chính xác tính tốn và độ
đo được chấp nhận phổ biến bởi cộng đồng. Đồ án này sẽ trình bày
một cách chi tiết các phương pháp để nhận biết người có ảnh hưởng
trong mạng xã hội.

Sinh viên thực hiện
Ký và ghi rõ họ tên

MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ĐỒ ÁN ................................................................. 11
1.1

Đặt vấn đề ................................................................................................ 11

1.2

Phát biểu bài toán ..................................................................................... 12

1.3


Nhiệm vụ của đồ án.................................................................................. 12

1.4

Ý nghĩa của đồ án ..................................................................................... 13

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ..................................................................
14
2.1

Tổng quan về mạng xã hội ....................................................................... 14

2.2

Lý thuyết về đồ thị ................................................................................... 15
Định nghĩa ................................................................................. 15
Biểu diễn ma trận của đồ thị ..................................................... 15
Một số loại đồ thị ...................................................................... 15
4


2.3

Phân tích mạng xã hội (Social Network Analysis - SNA) ....................... 17
Bối cảnh .................................................................................... 17
Ứng dụng thực tế ....................................................................... 17

2.4


Một số bài tốn điển hình ......................................................................... 18
Dự đốn liên kết ........................................................................ 18
Phân loại nút .............................................................................. 19
Phân cụm và phát hiện cộng đồng ............................................ 19
Phân loại đồ thị ......................................................................... 20

2.5

Phân tích độ ảnh hưởng của nút trong đồ thị ........................................... 20
Độ đo trung tâm dựa trên bậc (Degree Centrality) ................... 22
Độ đo trung tâm dựa trên sự lân cận (Closeness Centrality) .... 24
Độ đo trung tâm dựa trên trung gian (Betweennees Centrality)
25
Độ đo trung tâm dựa trên trị vector đặc trưng (Eeigenvector
Centrality) 26
Thuật toán PageRank cổ điển ................................................... 27
Thuật toán Quantum PageRank ................................................ 31
Thuật
toán
HITS ........................................................................ 32 CHƯƠNG 3.
THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU ................................ 33

3.1

Mạng xã hội facebook .............................................................................. 33
Tổng quan ................................................................................. 33
Các khái niệm cơ bản trong mạng xã hội Facebook ................. 34
Khó khăn trong việc thu thập dữ liệu facebook ........................ 35

3.2


Phương pháp thu thập dữ liệu .................................................................. 35
Mô tả về dữ liệu thu thập .......................................................... 37

CHƯƠNG 4. ĐÁNH GIÁ THỬ NGHIỆM ...................................................... 39
4.1

Thực nghiệm và đánh giá với bộ dữ liệu ego-facebook ........................... 39
Dữ liệu sử dụng ......................................................................... 39
Thực nghiệm sử dụng các thuật toán ........................................ 39
Đánh giá kết quả và so sánh ...................................................... 45

4.2

Thực nghiệm và đánh giá với bộ dữ liệu thực ......................................... 48
Thu thập và trích rút dữ liệu ...................................................... 49
Mơ hình hóa sang đồ thị đồng nhất ........................................... 50
5


Thực nghiệm sử dụng các thuật toán ........................................ 52
CHƯƠNG 5. KẾT LUẬN .................................................................................. 57
5.1

Tổng hợp kết quả đạt được trong đồ án ................................................... 57

5.2

Công việc hướng tới tương lai ................................................................. 57


DANH MỤC HÌNH VẼ Hình 1: Tổng quan về internet tại Việt Nam tính đến
tháng 2/2021 [1]................................................................................................................11
Hình 2: Mơ hình mạng xã hội (Social Network) [3]..........................................................14
Hình 3: Biểu diễn ma trận của đồ thị.................................................................................15
Hình 4: Đồ thị vơ hướng (undirect graph).........................................................................16
Hình 5: Đồ thị có hướng (direct graph).............................................................................16
Hình 6: Các dạng dữ liệu đồ thị trong thực tế....................................................................18
Hình 7: Bài tốn dự đốn liên kết trong đồ thị...................................................................19
Hình 8:Phân loại nút trong đồ thị......................................................................................19
Hình 9: Phân cụm và phát hiện cộng đồng trong đồ thị [4]...............................................20
Hình 10: Đồ thị mơ hình hóa tác dụng phụ của thuốc polypharmacy [5]..........................20
Hình 11: Mơ hình mạng xã hội facebook [6].....................................................................22
Hình 12: Đồ thị vô hướng trong độ đo trung tâm dựa trên trung tâm bậc..........................23
Hình 13: Mơ tả mức độ Closeness Centrality của đồ thị....................................................25
Hình 14: Mơ tả mức độ Betweenness Centrality của đồ thị...............................................26
Hình 15: Độ đo trung tâm dựa trên trung gian, sự lân cận và trị vector đặc trưng
.......................................................................................................................................... 27
Hình 16: Sơ đồ hoạt động của PageRank..........................................................................28
Hình 17: Các bước thực hiện trong PageRank (Nguồn: [14])............................................30
Hình 18: So sánh giữa PageRank và Quantum PageRank [16]..........................................31
Hình 19: Giao diện chính của facebook.............................................................................33
Hình 20: Lượng người sử dụng facebook trên thế giới tính đến tháng 2/2021.
(Nguồn: )........................................................................................34
Hình 21: Dữ liệu Graph API facebook (Nguồn: />Hình 22: Data flow của scrapy [19]...................................................................................36
Hình 23: Các bình luận trên một bài viết...........................................................................38
Hình 24: Đồ thị theo độ đo trung tâm dựa trên trung tâm bậc...........................................39
Hình 25: Đồ thị theo độ đo trung tâm dựa trên trung gian.................................................40
Hình 26: Đồ thị theo độ đo trung tâm dựa theo sự lân cận................................................41
Hình 27: Đồ thị theo độ đo trung tâm dựa trên trị vector đặc trưng...................................42
Hình 28: Đồ thị theo độ đo trung tâm dựa theo PageRank................................................43

Hình 29: Đồ thị theo độ đo trung tâm dựa theo HITS........................................................44
6


Hình 30: Đồ thị đường biểu diễn kết quả tính toán độ ảnh hưởng của 4039 người
dùng được đánh số từ 0 đến 4038 trên mạng xã hội Facebook bằng PageRank................45
Hình 31: Đồ thị đường biểu diễn kết quả tính toán độ ảnh hưởng của 4039 người
dùng được đánh số từ 0 đến 4038 trên mạng xã hội Facebook bằng Closeness
Centrality........................................................................................................................... 46
Hình 32: Đồ thị đường biểu diễn kết quả tính tốn độ ảnh hưởng của 4039 người
dùng được đánh số từ 0 đến 4038 trên mạng xã hội Facebook bằng Degree
Centrality........................................................................................................................... 46
Hình 33: Đồ thị đường biểu diễn kết quả tính tốn độ ảnh hưởng của 4039 người
dùng được đánh số từ 0 đến 4038 trên mạng xã hội Facebook bằng Betweenness
Centrality........................................................................................................................... 47
Hình 34: Các bước thực hiện xử lý dữ liệu thu thập được.................................................48
Hình 35: Nội dung dữ liệu thơ thu thập được....................................................................49
Hình 36: Dữ liệu một bản ghi trên bài viết gốc.................................................................50
Hình 37: Dữ liệu một bản ghi trả lời một bình luận trên bài viết gốc................................50
Hình 38: Đồ thị đồng nhất sau khi xử lý............................................................................51
Hình 39: Đồ thị theo độ đo trung tâm dựa theo bậc với dữ liệu thực.................................52
Hình 40: Đồ thị theo độ đo trung tâm dựa theo trung gian với dữ liệu thực......................53
Hình 41: Đồ thị theo độ đo trung tâm dựa theo sự lân cận với dữ liệu thực......................53
Hình 42: Đồ thị theo độ đo trung tâm dựa theo PageRank với dữ liệu thực......................54
Hình 43: Đồ thị theo độ đo trung tâm dựa theo Quantum PageRank với dữ liệu
thực................................................................................................................................... 54

DANH MỤC TỪ VIẾT TẮT
KOL
MXH

TMH
HITS

Người ảnh hưởng
Mạng xã hội
Độ đo Tendency to Make Hub
Thuật toán Hubs and Authorities

DANH MỤC BẢNG
Bảng 1: Thứ hạng 10 người dùng có độ đo cao nhất theo các thuật toán trung tâm
..............................................................................................................................
47
Bảng 2: Độ tương quan giữa thuật toán PageRank và các thuật toán degree,

7


betweenness và closeness .....................................................................................
48
Bảng
3:

tả
dữ
liệu
thu
thập
từ
Facebook ........................................................ 49
Bảng 4: Dữ liệu sau khi mơ hình hóa sang đồ thị đồng nhất ...............................

51
Bảng 5: Xếp 7 người có hạng cao nhất theo dữ liệu thực từ ngày 11/04/2021 đến
17/01/2021 ............................................................................................................
52
Bảng 6: Độ tương quan giữa thuật toán PageRank và các thuật toán degree,
betweenness và closeness theo dữ liệu thực ........................................................
55 Bảng 7: Bảng kết quả xếp hạng theo từng tuần với dữ liệu
thực ......................... 56

8


CHƯƠNG 1. GIỚI THIỆU ĐỒ ÁN
1.1 Đặt vấn đề
Mức độ phổ biến của mạng xã hội ngày nay được minh chứng bằng việc sử dụng
chúng hằng ngày của con người. Lấy ví dụ như Facebook có hơn 2,3 tỷ người
dùng hàng tháng theo số liệu mới nhất. Mạng xã hội cho phép người dùng chia sẻ
câu chuyện, bài viết, ý tưởng cá nhân, đăng ảnh, video đồng thời thông báo về
các hoạt động của họ trên mạng hoặc trong thế giới thực. Mạng xã hội có thể vận
hành trên tất cả các nền tảng như máy tính hay điện thoại thơng minh. Việc khai
phá dữ liệu mạng xã hội có ý nghĩa to lớn vì tính ứng dụng và tính cấp thiết của
nó.
Hiện nay, chỉ với dân số quốc gia xấp xỉ 97 triệu người, vậy mà số lượng kết nối
di động lên đến hơn 145 triệu (tỷ lệ thâm nhập dân số đạt 150%), trong đó, 68.17
triệu người (chiếm 70% tổng dân số) kết nối internet, và 65 triệu người tham gia
vào các mạng xã hội (chiếm 67% tổng dân số) theo thông tin từ Báo Cáo năm
2021.

Tổng quan về internet tại Việt Nam 2/2021
180

160
154.4

Đơn vị (triệu)

140
120

Total population

100
80
60

Mobile connections

97.75

Internet users
68.72

72.01

Active social media users

40
20
0

Hình 1: Tổng quan về internet tại Việt Nam tính đến tháng 2/2021 [1]


Những số liệu này có thể mang đến cơ hội béo bở cho các nhà tiếp thị gia tăng
hết mình tìm kiếm cách tiếp cận hiệu quả lượng dối tượng khách hàng tiềm năng
tại Việt Nam. Bên cạnh đó, khi cùng tham khảo tỉ lệ người dùng tương tác với
mạng xã hội tại Việt Nam tính đến tháng 4 năm 2021, “ơng trùm” Facebook vẫn
thống lĩnh tỉ lệ người dùng, theo sát ngay sau chẳng thể là ai khác ngoài Youtube,
cùng Instagram - TikTok - Twitter hoàn thiện danh sách “Năm mạng xã hội được
u thích nhất Việt Nam”.
Những thơng tin này cực kì quan trọng đối với các tiếp thị gia khi thực hiện chiến
lược cho các kênh mạng xã hội trong quá trình hoạch định và kiến tạo thực thi
các hoạt động truyền thơng thơng qua người ảnh hưởng. Do đó, việc xác định
9


người có ảnh hưởng trên mạng xã hội là rất quan trọng, giúp cho các nhãn hàng,
sản phẩm xác định đúng đối tượng cần tập trung để giúp đẩy mạnh quảng cáo sản
phẩm cho mình. Hiện nay, tại Việt Nam có khá nhiều hạng mục người ảnh hưởng
phát triển như Giải trí, Đời sống/Phong cách sống, Gaming, Gia đình-trẻ em, âm
nhạc,…
Có thể thấy việc xác định người ảnh hưởng là vơ cùng có ý nghĩa nhưng mặt
khác nó cũng chứa đựng nhiều khó khăn thách thức. Mạng xã hội là một lĩnh vực
nghiên cứu mới nổi, hành vi của người dùng ln thay đổi và cập nhật liên tục.
Có nhiều khó khăn trong việc xác định người ảnh hưởng.

1.2



Thứ nhất, việc thu thập dữ liệu vơ cùng khó khăn do cơ chế, ở đây tập
trung vào dữ liệu trên Facebook, hiện nay Facebook rất gắt gao trong việc

phát hiện các truy cập bất thường dẫn đến khóa tài khoản thu thập dữ liệu.
• Thứ hai, các phương pháp đánh giá hiện tại đơn giản, không đánh giá
đúng sự ảnh hưởng và tầm quan trọng.



Thứ ba là tính tốn trên đồ thị phức tạp khi mở rộng đồ thị về số lượng nút
và cạnh.



Thứ tư, đối với các phương pháp ứng dụng hiện tại chỉ tập trung vào mạng
lưới bạn bè để đánh giá mức độ ảnh hưởng hoặc sử dụng các phương pháp
đểm thống kê để đưa ra những người có tầm ảnh hưởng trên mạng xã hội
dẫn đến nhiều hạn chế về độ chính xác tính tốn.
Phát biểu bài tốn

Đồ án tập trung vào ý tưởng phân tích dữ liệu mạng xã hội thu thập được để xác
định người dùng có tầm ảnh hưởng theo chủ đề cụ thể. Bằng việc xử lý dữ liệu
tương tác người dùng với các bài viết và tổ chức thành dữ liệu dạng đồ thị, từ đó
sử dụng các thuật tốn, độ đo trung tâm và tầm ảnh hưởng của các nút trong đồ
thị để so sánh và xác định người dùng có tầm ảnh hưởng trên mạng xã hội theo
một chủ đề nhất định.
1.3

Nhiệm vụ của đồ án

Để giải quyết bài toán đặt ra, cần thực hiện các công việc sau:
- Từ dữ liệu thô đã thu thập, xử lý dữ liệu bằng cách tạo liên kết giữa các
thực thể cá nhân trên mạng xã hội theo thời gian thành mạng lưới tương

tác giữa các cá nhân trong mạng.
- Sử dụng các thuật toán về độ đo trung tâm và tầm ảnh hưởng của các nút
trong đồ thị để phân tích dữ liệu.
- So sánh và đánh giá hiệu năng các phương pháp.
1.4

Ý nghĩa của đồ án

Người ảnh hưởng là những người có tiếng nói trên mạng xã hội và trở thành
những nhân vật có sức ảnh hưởng đến cuộc sống của người khác. Tuy nhiên, với
sự khổng lồ của mạng xã hội nên rất khó để xác định, đồng thời hiện nay các nhà
10


cung cấp giải pháp xác định người ảnh hưởng (KOL) dựa vào lượng bạn bè và
lượng người theo dõi không phản ánh hết được tính chất động của tiếng nói hay
sự lan truyền thông tin của các KOL tạo ra.
Từ thực tế như vậy, đồ án giải quyết bài toán này trên lĩnh vực thuộc ngành giải
trí như một case study (lĩnh vực thực tế, cụ thể), ta sẽ thu thập dữ liệu các bài viết
từ các trang Fanpage và trang cá nhân của những cá nhân trong tập dữ liệu có sẵn
(Danh sách người thuộc ngành giải trí) và tổ chức lại dữ liệu dạng đồ thị và sử
dụng thuật toán xếp hạng nút để đánh giá tầm ảnh hưởng của người dùng theo
lĩnh vực này. Mang đến cái nhìn tổng quan về các thuật tốn xếp hạng ảnh hưởng
và xếp hạng người có tầm ảnh hưởng trong ngành giải trí theo dữ liệu thực tế.

11


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về mạng xã hội

Mạng xã hội (MXH) là một đồ thị mô tả sự tương tác giữa các cá thể có cùng mối
quan tâm, có liên hệ trực tiếp hay gián tiếp. Theo định nghĩa [2], Mạng xã hội là
dịch vụ kết nối các thành viên cùng sở thích trên internet lại với nhau với nhiều
mục đích khác nhau khơng phân biệt không gian và thời gian. Một mạng xã hội
bao gồm một tập hợp các phần tử (nút), mỗi nút có thể là một cá thể, một tập thể,
thậm chí là một tổ chức có liên kết, rằng buộc lẫn nhau thông qua các mối quan
hệ xã hội gọi là các liên kết (links).

Hình 2: Mơ hình mạng xã hội (Social Network) [3]

Trong công nghệ thông tin, MXH trực tuyến là nơi kết nối các thành viên cùng sở
thích trên Internet không phân biệt không gian và thời gian thông qua các dịch vụ
mạng xã hội Email, chat, Internet Sharing,… Sự ra đời của các trang mạng như
Facebook, Twitter, Myspace, Youtube, Google+, Flickr,… đã khiến cho mạng xã
hội ngày càng trở nên đa dạng, phổ biến hơn.
Nói một cách khác, MXH là mạng tập hợp các công cụ, dịch vụ trực tuyến (như
thư điện tử - email, diễn đàn thảo luận, blogs, chat, các trang mạng xã hội, các
trang chia sẻ hình ảnh và video,…) hỗ trợ sự tương tác qua lại giữa những người
sử dụng.
2.2

Lý thuyết về đồ thị
Định nghĩa
12


Đồ thị là một tập các đối tượng gọi là nút nối với nhau bởi các cạnh. Thông
thường, đồ thị được vẽ dưới dạng một tập các điểm nút nối với nhau bởi các đoạn
thẳng hay các cạnh, một đồ thị được biểu diễn dưới dạng G = (V, E) với:



G gọi là đồ thị được cấu thành.



V là tập hợp các nút hoặc các nút của đồ thị (vertices / node).



E là tập hợp các cạnh kết nối các nút của đồ thị (edge).



�ij = (��, ��))� là biểu diễn các cạnh ��� nối từ nút �� tới nút �� của đồ
thị.



�(�) = {� ∈ �|(�, �)�
)� ) là các nút kề u hay nút làng giềng có chung
cạnh với nút v.
Biểu diễn ma trận của đồ thị



Thơng tin về các kết nối trong đồ thị được biểu diễn bởi một ma trận kề A
(adjacency matrix) là một ma trận vng có kích thước ��� với � = |�|.
Ma trận kề A cũng được gọi là một ma trận trọng số thể hiện trọng số các
cạnh của đồ thị.


Hình 3: Biểu diễn ma trận của đồ thị

Một số loại đồ thị


Đồ thị vơ hướng (undirect graph) có các cạnh khơng có hướng. Đồ thị G là
một cặp khơng có thứ tự (unordered pair) � = (�, �), trong đó:
o �: tập các đỉnh hoặc nút.
o �: tập các cặp không thứ tự chứa các đỉnh phân biệt, được gọi là
cạnh. Hai đỉnh thuộc một cạnh được gọi là các đỉnh đầu cuối của
cạnh đó.



Với đồ thị vơ hướng, có thể biểu diễn mối quan hệ hai chiều để một cạnh
có thể được truyền theo cả hai hướng hay khi cạnh nối giữa hai nút �� và
�� là như nhau: �ij = ���.

13


Hình 4: Đồ thị vơ hướng (undirect graph)



Đồ thị có hướng (direct graph) có các cạnh có hướng. Đồ thị có hướng G
là một cặp có thứ tự � = (�, �), trong đó: o � : là tập các đỉnh hoặc nút
o � : tập các cặp có thứ tự chứa các đỉnh, được gọi là các cạnh có
hướng hoặc cung. Một cạnh � = (�, �) được coi là có hướng từ �
tới �, � được gọi là điểm đầu/gốc và � được gọi là điểm cuối/ngọn

của cạnh.



Với đồ thị có hướng, có chiều xác định từ nút �� tới �� và tồn tại liên kết
cạnh �ij.

Hình 5: Đồ thị có hướng (direct graph)

2.3

Phân tích mạng xã hội (Social Network Analysis - SNA)
14


Phân tích mạng xã hội (SNA) ngày càng phổ biến. Quan hệ xã hội và kết nối
mạng là những thành phần quan trọng của đời sống con người. Nhưng internet
giảm số lượng hoặc tần số của các mối quan hệ vật lý. Tuy nhiên, sự xuất hiện
của công nghệ Web 2.0 cho phép mọi người tự tổ chức vào các mạng xã hội ảo,
nơi họ tự tổ chức như trong thế giới thực. Sự khác biệt là trong cách giao tiếp:
mặt-đối-mặt tương tác và tương tác bằng cách sử dụng CNTT&TT (Cơng nghệ
thơng tin và Truyền thơng).
Bối cảnh
SNA có nguồn gốc từ ngành xã hội học và các ngành phân tích mạng, lý thuyết
đồ thị. Các nhà khoa học máy tính đã sử dụng phương pháp phân tích mạng xã
hội (SNA) để nghiên cứu các trang Web, lưu lượng truyền thông trên internet,
mức độ phổ biến thông tin,… Mạng lưới phân tích mối quan hệ riêng của chính
nó với việc xây dựng các giải pháp của những vấn đề có trong cấu trúc mạng, cấu
trúc như vậy thường được biểu diễn trong một đồ thị. Lý thuyết đồ thị cung cấp
một tập hợp các khái niệm trừu tượng và phương pháp phân tích của đồ thị.

Những điều này kết hợp với các cơng cụ phân tích khác và các phương pháp phát
triển đặc biệt cho sự hình dung và phân tích của các mạng xã hội, hình thành cơ
sở của những gì chúng ta gọi là phương pháp phân tích mạng xã hội – SNA.
Nhưng SNA không phải là một phương pháp luận, nó là một cái nhìn độc đáo về
chức năng của mạng xã hội. Thay vì tập trung vào cá nhân và các thuộc tính của
họ hoặc trên các cấu trúc vĩ mơ thì trọng tâm của nó sẽ tập trung vào mối quan hệ
giữa các cá nhân, nhóm hoặc tổ chức xã hội.
Phân tích mạng xã hội (liên quan đến lý thuyết mạng) đã nổi lên như một kỹ thuật
quan trọng trong xã hội học hiện đại. Nó cũng đạt được một lượng đáng kể trong
nhân chủng học, sinh học, nghiên cứu truyền thông, kinh tế, địa lý, khoa học
thông tin, nghiên cứu tổ chức, tâm lý xã hội và đã trở thành một chủ đề phổ biến
của nghiên cứu.
Ứng dụng thực tế
Phân tích mạng xã hội – SNA, được ứng dụng trong nhiều lĩnh vực khác nhau:








Các doanh nghiệp sử dụng SNA để phân tích và cải thiện lưu lượng giao
tiếp trong tổ chức của họ hoặc với các mạng của đối tác và khách hàng.
Phát hiện xu hướng cộng đồng và các nhóm đối tượng khách hàng.
Cơ quan thực thi pháp luật và quân đội sử dụng SNA để xác định mạng
lưới tội phạm và khủng bố từ các dấu vết của truyền thông mà họ thu thập
được và sau đó xác định các đối tượng chủ chốt trong các mạng này.
Gợi ý kết bạn, gợi ý theo dõi các trang trên nền tảng Facebook.
Phân tích sự tương tác ở cấp độ nguyên tử và phân tử cho các vấn đề sinh

học như phân tích tác dụng phụ của thuốc.
Xây dựng hệ thống kiến nghị sản phẩm cho các trang thương mại điện tử
của Amazon từ tương tác người dùng hoặc hệ thống gợi ý phim và video
của Youtube và Netflix.
15




Các nhà khai thác mạng điện thoại, điện thoại di động sử dụng phương
pháp SNA để tối ưu hóa cấu trúc và năng lực trong mạng lưới của họ



Các tổ chức xã hội dân sự sử dụng SNA để phát hiện ra xung đột lợi ích
trong các kết nối ẩn giữa các cơ quan chính phủ, vận động hành lang và
các doanh nghiệp.

Hình 6: Các dạng dữ liệu đồ thị trong thực tế

2.4 Một số bài tốn điển hình
Dự đốn liên kết
Bài toán dự đoán liên kết (link prediction) là bài tốn dự đốn xem hai nút trong
mạng có mối liên hệ hoặc có cạnh nối mới giữa hai nút này trong tương lai hay
khơng. Hình 7 là một ví dụ về dự đoán liên kết bạn bè giữa hai người trong mạng
xã hội để hệ thống gợi ý kết bạn giữa hai người chưa từng liên kết với nhau trước
đó dựa trên các mối quan hệ bạn bè. Hoặc các cơng ty dùng bài tốn dự đốn liên
kết để dự đốn, khách hàng nào có khả năng mua sản phẩm tiếp theo, cơ bản việc
này giống như dự đoán một kết nối giữa người và sản phẩm của họ.


16


Hình 7: Bài tốn dự đốn liên kết trong đồ thị

Phân loại nút
Bài toán phân loại và dự đoán nút trên đồ thị với các nhãn tương ứng, đơn giản
như việc ta có một đồ thị với các nút khơng có nhãn và muốn dự đốn các thuộc
tính của các nút đó và phân loại chúng, đây là bài tốn khá phổ biến trong đồ thị.
Thường thì mơ hình đồ thị sẽ sử dụng thông tin của các nút đã có nhãn khác
trong đồ thị để suy diễn các nút chưa có nhãn

Hình 8:Phân loại nút trong đồ thị

Phân cụm và phát hiện cộng đồng
Bài toán phân cụm (graph clustering) và phát hiện cộng đồng (community
detection) là bài tốn tìm những tập hợp các nút có mối liên hệ mất thiết với nhau
hoặc có một đặc điểm chung nào đó như tập hợp các nhà toán học, các nhà
nghiên cứu hóa học, vật lý, sinh học…
17


Hình 9: Phân cụm và phát hiện cộng đồng trong đồ thị [4]

Phân loại đồ thị
Bài toán phân loại đồ thị sử dụng toàn bộ đồ thị như đầu vào sau đó phân loại
hoặc dự đốn một đặc tính nào đó của đồ thị, nó được sử dụng rộng rãi trong dữ
liệu phân tử hóa học, ví dụ: nhận diện một phân tử có là một loại thuốc phù hợp
hay khơng?


Hình 10: Đồ thị mơ hình hóa tác dụng phụ của thuốc polypharmacy [5]

2.5 Phân tích độ ảnh hưởng của nút trong đồ thị
Từ góc độ phân tích mạng xã hội, việc xác định độ ảnh hưởng hoặc tầm quan
trọng của người dùng mạng xã hội trực tuyến liên quan đến vị trí, vai trị của các
nút trong cấu trúc kết nối mạng. Một số phương pháp phân tích dựa trên nút tính
độ trung tâm được sử dụng để đo độ ảnh hưởng của các nút trên mạng.

18


Trong việc nghiên cứu và phân tích đối tượng trên mạng xã hội, ta thường xuyên
cần trả lời các câu hỏi của khách hàng về ảnh hưởng trực tuyến và những người
có ảnh hưởng. Các cơng ty biết rằng họ không phải là lực lượng duy nhất ảnh
hưởng đến nhận thức về thương hiệu của họ và họ muốn tiếp cận những người
khác: điều này có nghĩa là xác định đúng người viết blog để giới thiệu, để tăng
khả năng thành công của chiến dịch xã hội hoặc theo dõi các tài khoản đang định
hình cuộc trị chuyện về một chủ đề hoặc thương hiệu nhất định. Ai là người có
ảnh hưởng khơng hề đơn giản. Ảnh hưởng là một hiện tượng phức tạp, là kết quả
của sự kết hợp các tính chất liên quan đến con người, bối cảnh và mối quan hệ.
Dữ liệu kết nối một bài đăng trên mạng xã hội với các hành động mà nó có thể
truyền cảm hứng – sản phẩm được mua hoặc doanh nghiệp tẩy chay- hầu như
khơng có sẵn. Thay vào đó, những gì chúng ta thực sự có thể đánh giá là “tiềm
năng gây ảnh hưởng” thơng qua phân tích đối tượng mạng xã hội: ai đang tiếp
cận một lượng lớn khán giả, ai đang thu hút đối tượng đó nhiều nhất và nhận
được nhiều tương tác và ai đang thể hiện kiến thức chuyên môn nhất quán về một
chủ đề. Do đó, cần phải có một chỉ số để phân tích thơng điệp nào đang tiếp cận
đối tượng lớn nhất.
Vì vậy, những người có ảnh hưởng trên mạng xã hội là những cá nhân có lượng
người dùng trung thành và họ đạt được mức độ tương tác cao đối với nội dung

của họ, chẳng hạn như hình ảnh, blog, bài đăng, video,.... Thơng thường, những
người có ảnh hưởng này được coi là chuyên gia về lĩnh vực, có sức thuyết phục
cao và có thể dễ dàng thuyết phục người khác. Nó hữu ích cho các nhiệm vụ như
tiếp thị lan truyền, quảng bá sản phẩm, áp dụng hành vi và thậm chí phân tích sự
lây lan của dịch bệnh. Đối với một thương hiệu nhỏ, việc tìm kiếm một người có
ảnh hưởng trên mạng xã hội với hàng nghìn người theo dõi trung thành để quảng
bá sản phẩm của họ sẽ tiết kiệm và hiệu quả hơn nhiều so với việc chi ngân sách
quảng cáo của họ trên các bảng quảng cáo hoặc quảng cáo trên TV.
Có thể dễ dàng tìm thấy một người dùng mạng xã hội khơng phải là người nổi
tiếng, chẳng hạn như PewDiePie the YouTuber hoặc Jamie Oliver, một người có
ảnh hưởng về ẩm thực hàng đầu trên Instagram. Tuy nhiên, chúng ta cũng không
thể bỏ qua thực tế là có rất nhiều người dùng mạng xã hội với lượng khán giả
khoảng 1.000 đến 100.000 người đã đạt được sự công nhận trong các lĩnh vực
tương ứng của họ. Mặc dù lượng người theo dõi của họ khơng lớn, nhưng họ có
thể ảnh hưởng chung đến hành vi và việc ra quyết định của một số lượng lớn
người.

19


Hình 11: Mơ hình mạng xã hội facebook [6]

Độ đo trung tâm dựa trên bậc (Degree Centrality)
Độ trung tâm dựa trên bậc của nút được định nghĩa là số lượng các liên kết xảy ra
trên một nút (tức là số lượng liên kết mà nút có). Nếu mạng có hướng (nghĩa là
các mối quan hệ có hướng) thì hai thước đo riêng biệt về trung tâm bậc được xác
định, đó là in-degree và out-degree. in-degree là số lượng liên kết từ các nút
khác hướng đến nút đang xem xét (điểm cuối đầu) và out-degree là số lượng liên
kết mà nút đang xem xét hướng đến những nút khác (điểm cuối đuôi). Trong
trường hợp như vậy, bậc là tổng của in-degree và out-degree. Khi mối quan hệ

(liên kết) được liên kết với một số khía cạnh tích cực như bạn bè hoặc cộng tác
viên, in-degree thường được hiểu như là hình thức phổ biến và out-degree hiểu
như là sự hòa đồng.
Đối với đồ thị vô hướng, trung tâm bậc của một nút v được coi là bậc của v. Ví
dụ, trong đồ thị dưới, các nút 2 và 3 có bậc (mức trung tâm ) cao nhất.

20


Hình 12: Đồ thị vơ hướng trong độ đo trung tâm dựa trên trung tâm bậc

Trung tâm bậc của nút �, một đồ thị được biểu diễn dưới dạng � = (�, �) với
|�| nút và |�| cạnh, được định nghĩa là (theo [7]):

��(�) = deg (�)
Tính tốn độ trung tâm bậc cho tất cả các nút trong đồ thị sẽ mất một thời gian
2
tính tốn � ( �
) đối với đồ thị ma trận kề dày đặc và �( �
) đối với đồ thị có ma
trận kề thưa thớt.
Định nghĩa về tính trung tâm trên cấp nút có thể được mở rộng cho toàn bộ đồ
thị, trong trường hợp đó, chúng ta gọi là đồ thị tập trung (graph centralization)
theo [8]. Đặt �∗ là nút có mức độ trung tâm cao nhất trong G. Đặt � = (�, �) là
|Y|-đồ thị liên thơng tối đa hóa số lượng (với �∗ là nút có độ trung tâm bậc cao
nhất trong X):
|�|

� = ∑[��(�∗) − ��(��)]
�=1


Tương ứng, mức độ trung tâm bậc của đồ thị G như sau:

∑|�|
�=1[��(� ) − ��(�� )]

��(�) =

Giá trị của � được tối đa hóa khi đồ thị � chứa một nút trung tâm mà tất cả các
nút khác được kết nối (đồ thị sao) và trong trường hợp này:
� = (� − 1). ((� − 1) − 1) = �2 − 3� + 2
Vì vậy, đối với bất kỳ đồ thị � = (�, �):

∑|�|
�=1[��( � ) − ��(�� )]
��(�) =
|�|2 − 3|�| + 2

21


Ngoài ra, một độ đo toàn cục mở rộng mới cho trung tâm bậc có tên là Tendency
to Make Hub (TMH) được định nghĩa như sau:
∑ |�|
�=1[deg(�)]
��� =

2

|�|


∑�=1 deg(�)
Trong đó, TMH tăng theo sự xuất hiện của mức độ trung tâm bậc trong đồ thị.
Miền giá trị của độ đo này nằm trong khoảng [0...1]. Khi giá trị càng gần tiến đến
1 thì tính trung tâm trực tiếp của nút càng lớn, tức là càng nằm ở vị trí trung tâm
của đồ thị. Khi một nút trong mạng có độ đo trung tâm theo bậc lớn nhất (gần
bằng giá trị 1) thì được gọi là hệ số kết nối (hub) trong đồ thị. Hệ số hub thể hiện
tầm ảnh hưởng của tác nhân này trong đồ thị.
Độ đo trung tâm dựa trên sự lân cận (Closeness Centrality)
Closeness centrality là độ đo khoảng cách từ một nút đến các nút còn lại
trong đồ thị. Do đó, một nút càng ở trung tâm thì nó càng gần với tất cả các nút
khác. Trung tâm lân cận của nút � của đồ thị được biểu diễn dưới dạng � =
(�, �) với |�| nút và |�| cạnh có thể chọn một trong hai cơng thức sau để tính:


Cơng thức (I) : Closeness centrality được tính bằng trị nghịch đảo của tổng
số khoảng cách ngắn nhất từ một nút đến tất cả các nút cịn lại của đồ thị.
1
��(�) = ∑���\� ��(�, �)



Cơng thức (II) : Closeness centrality được tính bằng bình qn của tổng số
khoảng cách ngắn nhất từ một nút đến tất cả các nút còn lại.
∑���\� ��(�, �)
��(�) =

�−1
Với ��(�, �) là khoảng cách ngắn nhất từ nút � đến � của đồ thị.
Cơng thức tính closeness centrality của nút � theo dạng chuẩn:

��′(�) = ��(�) ∗ (� − 1)
Hình 13 dưới cho biết Rafael có giá trị closeness centrality tốt nhất vì có thể liên
lạc với các nút khác thơng qua đường đi ngắn nhất.

22


Hình 13: Mơ tả mức độ Closeness Centrality của đồ thị

Độ đo trung tâm dựa trên trung gian (Betweennees Centrality)
Betweennees centrality của một nút được tính bằng tổng số các đường đi ngắn
nhất ngang qua nút đang xét chia cho tổng số các đường đi ngắn nhất của tồn
mạng. Nói cách khác thì Betweenness Centrality là độ đo dùng để xác định vị trí
của tác nhân trong mạng mà nó có khả năng kết nối đến những cặp tác nhân hay
những nhóm tác nhân khác.
Trung tâm dựa trên trung gian của nút � của đồ thị được biểu diễn dưới dạng
� = (�, �) với |�| nút và |�| cạnh có cơng thức như sau:
� ��(�)
��(�) =


���
�≠�≠��
�� �

Trong đó:



���(�) : Tổng số đường đi ngắn nhất từ nút s đến t và có qua nút � (� ≠ �

≠ �).
��� : Tổng số các đường đi ngắn nhất từ nút s đến t (� ≠ � ≠ �).

Cơng thức tính Betweenness centrality của nút � theo dạng chuẩn:
��(�)
�′�(�) =
(� − 1)(� − 2)/2
Độ đo này có miền giá trị nằm trong khoảng [0..1], node có giá trị càng lớn thì
node đó sẽ có sự ảnh hưởng tới việc phần bổ cấu trúc của các cụm hay các nhóm
trong mạng càng lớn. Một nút có vai trị trung tâm càng lớn trong mạng thì sẽ có
23


tầm ảnh hưởng lớn trong việc kiểm sốt mọi thơng tin trao đổi giữa các tác nhân
khác trong mạng. Việc tính tốn trung tâm dựa trên trung gian và dựa trên sự lân
cận đều có độ phức tạp Θ(|�|3) với thuật toán Floyd-Warshall [9]. Trên một đồ
thị thưa thớt (là những đồ thị mà số cạnh |�| nhỏ hơn nhiều so với tập đỉnh bình
phương |�|2), thuật tốn của Johnson [10] hoặc Brandes [11] có thể hiệu quả
hơn, chúng có độ phức tạp là Θ(|�|2 + |�||�|).

Hình 14: Mơ tả mức độ Betweenness Centrality của đồ thị

John và Jame nằm giữa các nút khác nhưng Rafael có độ Betweenness Centrality
cao nhất bởi vì:




Nếu xóa John thì đồ thị khơng bị tách rời
Nếu xóa Jame thì đồ thị mất hai nút là Alice và Bob

Nếu xóa Rafael thì đồ thị mất 3 nút là Alice, Bob và Jame. Do đó, Rafael
là quan trọng nhất trong đồ thị

Độ đo trung tâm dựa trên trị vector đặc trưng (Eeigenvector
Centrality)
Eigenvector Centrality [12] là một độ đo ảnh hưởng của một nút trong mạng đồ
thị. Đây là một độ đo dùng để xác định mức độ gắn kết quan hệ giữa một nút với
tất cả các nút trong mạng. Điểm số tương đối được chỉ định cho tất cả các nút
trong mạng dựa trên khái niệm rằng các kết nối đến các nút có điểm cao đóng
góp nhiều hơn vào điểm của nút được đề cập hơn là các kết nối bằng nhau đến
các nút có điểm thấp. Điểm Eigenvector Centrality cao có nghĩa là một nút được
kết nối với nhiều nút mà bản thân họ có điểm cao. Một nút có thể có điểm mức
độ cao (tức là nhiều kết nối) nhưng điểm trung tâm của Eigenvector tương đối
thấp nếu nhiều kết nối đó có các nút có điểm thấp tương tự.
24


Trung tâm dựa trên trị vector riêng của nút � của đồ thị được biểu diễn dưới dạng
� = (�, �) với |�| nút và |�| cạnh được tính như sau ( [12]):
Đặt � = (��,�) là ma trận kề, ví dụ:
��,� = {1 �ế� �ú� � ��ê� �ế� �ớ� �ú� �
0
Trung tâm tương đối, �, điểm của nút � được xác định như sau:
��

��

��,���
���


Trong đó �(�) là một tập các nút láng giềng của � và � là một hằng số. Với một
sự sắp xếp lại nhỏ, điều này có thể được viết lại bằng ký hiệu vector dưới dạng
phương trình eigenvector.
�� = λx

Hình 15: Độ đo trung tâm dựa trên trung gian, sự lân cận và trị vector đặc trưng

Thuật toán PageRank cổ điển
Thuật toán PageRank được đề xuất bời Larry Page và Sergey Brin vào năm 1998
và được Google sử dụng để xếp hạng các trang Web trong cơng cụ tìm kiếm
Google Search. Trong đó, các trang Web được coi là các nút và các cạnh giữa
chúng là các siêu liên kết. Chỉ số PageRank của một trang Web đại diện cho mức
độ ảnh hưởng, tầm quan trọng trong tập hợp tất cả các trang Web thay vì cục bộ
các web lân cận.

25


×