Tải bản đầy đủ (.pdf) (94 trang)

Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.78 MB, 94 trang )


 
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

LƯƠNG VĂN MINH

TÌM NHỮNG NGƯỜI DÙNG CĨ TẦM ẢNH HƯỞNG
TRONG MẠNG XÃ HỘI

Chuyên ngành : Khoa học máy tính
Mã số: 604801

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 11 năm 2012



 

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : TS. Quản Thành Thơ...............................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)


Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày . . . . . tháng . . . . năm . . . . .

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. ..............................................................
2. ..............................................................
3. ..............................................................
4. ..............................................................
5. ..............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH & KT MÁY TÍNH



 
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LƯƠNG VĂN MINH ....................... MSHV: 09070452........
Ngày, tháng, năm sinh: 27/10/1986.................................Nơi sinh: TP.HCM......
Chuyên ngành: Khoa học máy tính .............................. Mã số : 604801.............
I. TÊN ĐỀ TÀI: Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội.

II. NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu và đề xuất giải thuật tìm ra những người dùng có tầm ảnh hưởng
trong mạng xã hội từ cơ sở dữ liệu mạng xã hội.
- Hiện thực giải thuật và tiến hành thực nghiệm để đánh giá giải thuật tìm
người dùng có tầm ảnh hưởng. So sánh cách kết quả của giải thuật với thực tế.
III. NGÀY GIAO NHIỆM VỤ : 02/07/2012 ..................................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2012 ..................................................
V. CÁN BỘ HƯỚNG DẪN: TS. Quản Thành Thơ..........................................................

Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

TRƯỞNG KHOA KH & KT MÁY TÍNH
(Họ tên và chữ ký)


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Lời cảm ơn
Tôi xin chân thành cảm ơn thầy TS. Quản Thành Thơ. Thầy đã tận tình hướng dẫn,
định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, đến những công việc
cụ thể trong luận án này.
Xin chân thành cảm ơn các bạn trong khoa Khoa Học và Kỹ Thuật Máy Tính, những
người đã giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình thực hiện luận án.

Con xin cảm ơn mẹ, cảm ơn những người thân trong gia đình và bạn bè ln động
viên, khuyến khích và giúp đỡ trong quá trình học tập cũng như trong cuộc sống.


 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Tóm tắt luận văn
Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội là một trong những bài
toán quan trọng trong lĩnh vực mạng xã hội. Với sự phát triển nhanh chóng của các mạng xã
hội hiện nay, ứng dụng của mạng xã hội đã thâm nhập từ lĩnh vực kinh tế cho đến lĩnh vực
giáo dục, ngày càng có nhiều ứng dụng địi hỏi tìm ra được những người dùng có tầm ảnh
hưởng trong mạng xã hội.
Nhiều nhà nghiên cứu đã đưa ra các mô hình hóa cho mạng xã hội thành những đồ thị
xã hội. Trong đó, những người dùng là các nút của đồ thị xã hội, các hành động tương tác
giữa các người dùng là các cạnh của đồ thị xã hội. Giải thuật PageRank được Larry Page đưa
ra là một giải thuật nổi tiếng nhằm xác định các nút quan trọng trong một mạng liên kết. Giải
thuật này có thể được dùng để áp dụng tìm ra những người dùng có tầm ảnh hưởng trong
mạng xã hội. Bên cạnh đó, chúng tơi cịn cải tiến giải thuật PageRank, giúp cho giải thuật này

hoạt động được với đồ thị có trọng số. Trọng số của một cạnh của đồ thị xã hội được đo bằng
công thức EdgeRank do Facebook đề xuất.


 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Abstract
Find influential users in social networks is a key problem in social networks. With the
development of social networks, social networks applications have penetrated from the
economic to the education, a lot of applications require to find influential users in social
networks. Many researchers have made the models for social network into the social graph.
In particular, users are the social graph nodes, the actions of the user are the edges of the
social graph. PageRank algorithm, which is announced by Larry Page, is a famous algorithm
to identify important nodes in a linking network. This algorithm can be used to find
influential users in social networks. Besides, we also improved PageRank algorithm, make
this algorithm work with a weighted graph. Weights of the edges of the social graph are
measured with EdgeRank which is announced by Facebook.



 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Lời cam đoan
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như đã ghi
rõ trong luận văn, các cơng việc trình bày trong luận văn này là do chính tơi thực hiện và
chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này
hoặc trường khác.
Ngày 30 tháng 11 năm 2012

Lương Văn Minh


 
 
 
 
 

 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Mục lục
Chương 1: Giới thiệu ................................................................................................... 1
 
1.1
  Giới thiệu đề tài................................................................................................. 1
 
1.2
  Mục đích nghiên cứu và giới hạn của đề tài ..................................................... 1
 
1.3
  Đối tượng và phạm vi nghiên cứu..................................................................... 2
 
1.3.1
  Đối tượng nghiên cứu ................................................................................ 2
 
1.3.2
  Phạm vi nghiên cứu ................................................................................... 2
 
1.4
  Phương pháp tiến hành ..................................................................................... 2
 

1.5
  Những đóng góp của đề tài ............................................................................... 3
 
Chương 2: Tổng quan .................................................................................................. 5
 
2.1
  Các độ đo được dùng trong công nghiệp .......................................................... 5
 
2.1.1
  Klout .......................................................................................................... 5
 
2.1.2
  PROskore ................................................................................................... 7
 
2.1.3
  Kred............................................................................................................ 7
 
2.1.4
  Facebook Subscribe ................................................................................... 8
 
2.1.5
  Kết luận ...................................................................................................... 8
 
2.2
  Các nghiên cứu học thuật .................................................................................. 8
 
2.2.1
  Sự tương đồng và sự ảnh hưởng trong mạng xã hội .................................. 8
 
2.2.2

  Đo lường sự phản hồi giữa sự ảnh hưởng xã hội và hành động tương tự
nhau ....................................................................................................... 10
 
2.2.3
  Tối đa hóa sự trải rộng ảnh hưởng trên mạng xã hội ............................... 10
 
2.2.4
  Sử dụng heuristic để cải thiện tối đa hóa sự ảnh hưởng .......................... 12
 
2.2.5
  Sử dụng phương pháp xác suất để xác định độ ảnh hưởng...................... 13
 
2.2.6
  Phân tích ảnh hưởng xã hội với độ co dãn lớn......................................... 15
 
2.2.7
  Sử dụng phương pháp ống Lens .............................................................. 18
 
2.2.8
  Xác định người dùng ảnh hưởng thông qua do lường hành động đăng
nhập ....................................................................................................... 20
 
2.2.9
  Tiên đoán người dùng ảnh hưởng dựa vào α-centrality ........................... 24
 
Chương 3: Cơ sở lý thuyết ........................................................................................ 28
 
3.1
  Hai mơ hình lan truyền cơ bản ........................................................................ 28
 

3.2
  Mơ hình lan truyền và khuyếch đại sự ảnh hưởng trong mạng xã hội............ 29
 

 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
3.3
  Các thành phần tham gia vào việc cho điểm................................................... 31
 
3.4
  Độ quan trọng của một đỉnh trong một mạng liên kết .................................... 33
 
3.4.1
  Cấu trúc liên kết của web ......................................................................... 34
 
3.4.2
  Sự lan truyền thứ hạng thông qua những liên kết .................................... 35
 
3.4.3

  Định nghĩa PageRank .............................................................................. 35
 
3.4.4
  Mơ hình lướt web ngẫu nhiên .................................................................. 38
 
3.4.5
  Thuật toán PageRank ............................................................................... 38
 
3.5
  Độ quan trọng của một cạnh trên một mạng xã hội ........................................ 39
 
3.6
  Kết luận ........................................................................................................... 42
 
Chương 4: Tìm những người dùng có tầm ảnh hưởng .......................................... 45
 
4.1
  Tìm những người dùng có tầm ảnh hưởng dựa vào giải thuật PageRank....... 45
 
4.2
  Kết hợp giữa PageRank và EdgeRank ............................................................ 47
 
4.3
  Kiến trúc của hệ thống .................................................................................... 50
 
4.3.1
  Các module chính của hệ thống ............................................................... 50
 
4.3.2
  Tương tác giữa các module trong hệ thống ............................................. 52

 
4.4
  Hiện thực hệ thống .......................................................................................... 53
 
4.4.1
  Xây dựng đồ thị có hướng dựa vào tập dữ liệu........................................ 53
 
4.4.2
  Tính tốn trọng số cho các cạnh của đồ thị .............................................. 54
 
4.4.3
  Ứng dụng minh họa ................................................................................. 56
 
Chương 5: Đánh giá kết quả ..................................................................................... 58
 
5.1
  Cách xây dựng tập dữ liệu thí nghiệm ............................................................ 58
 
5.2
  Kết quả thực nghiệm ....................................................................................... 59
 
5.2.1
  Thí nghiệm khơng sử dụng giải thuật EdgeRank..................................... 59
 
5.2.2
  Thí nghiệm sử dụng giải thuật EdgeRank................................................ 65
 
5.3
  Đánh giá .......................................................................................................... 71
 

5.3.1
  Độ chính xác ............................................................................................ 71
 
5.3.2
  Tốc độ ...................................................................................................... 75
 
Chương 6: Kết luận ................................................................................................... 77
 
6.1
  Kết luận ........................................................................................................... 77
 
6.2
  Hướng phát triển ............................................................................................. 78
 
Tài liệu tham khảo ..................................................................................................... 79
 

 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Phần lý lịch trích ngang............................................................................................. 81
 


 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Mục lục hình
Hình 1.
  Phân bố α của mơ hình ảnh hưởng ................................................................ 9
 
Hình 2.
  Phân bố α của mơ hình tương đồng............................................................... 9
 
Hình 3.
  Kết quả cho mơ hình Linear threshold ........................................................ 11
 
Hình 4.
  Kết quả cho mơ hình Independent Cascade ................................................ 12

 
Hình 5.
  Kết quả kiểm thử sự ảnh hưởng trên đồ thị NetHEPT ................................ 13
 
Hình 6.
  Kết quả kiểm thử sự ảnh hưởng trên đồ thị NetPHY .................................. 13
 
Hình 7.
  So sánh kết quả của mơ hình tĩnh, liên tục và rời rạc.................................. 15
 
Hình 8.
  Kết quả hiệu năng cho những cách tiếp cận khác nhau .............................. 17
 
Hình 9.
  Framework cho Social Lens ........................................................................ 18
 
Hình 10.
  Ví dụ về dãy thời gian đăng nhập của 4 người dùng................................. 23
 
Hình 11.
  Kết quả các phép đo hạng dựa trên 100 vote đầu tiên............................... 26
 
Hình 12.
  Kết quả các phép đo hạng dựa trên tổng số vote ....................................... 27
 
Hình 13.
  A và B là những backlink của C ............................................................... 34
 
Hình 14.
  Minh họa thuật toán PageRank đơn giản .................................................. 36

 
Hình 15.
  Minh họa chi tiết thuật tốn PageRank ..................................................... 37
 
Hình 16.
  Vịng lặp hoạt động ................................................................................... 37
 
Hình 17.
  Minh họa đồ thị mạng xã hội với những tương tác của người dùng A, B,
C...................................... ............................................................................................. 41
 
Hình 18.
  Minh họa đánh trọng số cạnh của EdgeRank ............................................ 42
 
Hình 19.
  Ví dụ đồ thị mạng xã hội chưa có trọng số ............................................... 46
 
Hình 20.
  Ví dụ minh họa đồ thị với các hành động tương tác ................................. 48
 
Hình 21.
  Ví dụ minh họa tính trọng số của EdgeRank ............................................ 48
 
Hình 22.
  Ví dụ minh họa kết quả cuối cùng đánh trọng số ...................................... 49
 
Hình 23.
  Các module chính của hệ thống ................................................................ 50
 
Hình 24.

  Module tạo các liên kết giữa các người dùng từ dữ liệu ........................... 51
 
Hình 25.
  Module tính tốn trọng số liên kết của người dùng .................................. 51
 
Hình 26.
  Module tính trọng số ảnh hưởng ............................................................... 52
 
Hình 27.
  Tương tác giữa các module trong hệ thống ............................................... 52
 
Hình 28.
  Minh họa ứng dụng tìm tầm người dùng có tầm ảnh hưởng ..................... 57
 
Hình 29.
  Lược đồ ERD cơ sở dữ liệu của mạng xã hội công ty .............................. 58
 

 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội


 
Hình 30.
  Đồ thị khơng sử dụng EdgeRank và chỉ sử dụng yếu tố like .................... 60
 
Hình 31.
  Đồ thị sắp thứ hạng khơng sử dụng EdgeRank và chỉ sử dụng yếu tố
like................................................................................................................................ 60
 
Hình 32.
  Đồ thị không sử dụng EdgeRank và chỉ sử dụng yếu tố comment ........... 61
 
Hình 33.
  Đồ thị sắp thứ hạng không sử dụng EdgeRank và chỉ sử dụng yếu tố
comment....................................................................................................................... 61
 
Hình 34.
  Đồ thị kết quả không sử dụng giải thuật EdgeRank và chỉ sử dụng yếu tố
wall post................. ...................................................................................................... 62
 
Hình 35.
  Đồ thị sắp thứ hạng không sử dụng EdgeRank và chỉ sử dụng yếu tố wall
post......................... ...................................................................................................... 63
 
Hình 36.
  Đồ thị kết quả không sử dụng giải thuật EdgeRank và sử dụng tất cả các
yếu tố............................................................................................................................ 64
 
Hình 37.
  Đồ thị sắp thứ hạng khơng sử dụng EdgeRank và sử dụng tất cả các yếu
tố............................ ...................................................................................................... 64

 
Hình 38.
 

Đồ thị kết quả sử dụng giải thuật EdgeRank và chỉ sử dụng yếu tố like .. 65
 

Hình 39.
  Đồ thị sắp thứ hạng sử dụng EdgeRank và chỉ sử dụng yếu tố like .......... 66
 
Hình 40.
  Đồ thị kết quả sử dụng giải thuật EdgeRank và chỉ sử dụng yếu tố
comment....................................................................................................................... 67
 
Hình 41.
 

Đồ thị sắp thứ hạng sử dụng EdgeRank và chỉ sử dụng yếu tố comment 67
 

Hình 42.
  Đồ thị kết quả sử dụng giải thuật EdgeRank và chỉ sử dụng yếu tố wall
post......................... ...................................................................................................... 69
 
Hình 43.
 

Đồ thị sắp thứ hạng sử dụng EdgeRank và chỉ sử dụng yếu tố wall post . 69
 


Hình 44.
 

Đồ thị kết quả sử dụng giải thuật EdgeRank và sử dụng tất cả các yếu tố70
 

Hình 45.
  Đồ thị sắp thứ hạng sử dụng EdgeRank và sử dụng tất cả các yếu tố ....... 70
 


 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Mục lục bảng
Bảng 1.
  Hiệu năng co dãn khác nhau trên tập dữ liệu thực ...................................... 17
 
Bảng 2.

  Các kết quả so sánh ..................................................................................... 72
 
Bảng 3.
  Độ chính xác khi khơng sử dụng EdgeRank ............................................... 73
 
Bảng 4.
  Độ chính xác khi sử dụng EdgeRank .......................................................... 73
 
Bảng 5.
  Bảng mô tả chi tiết cách đánh giá độ chính xác .......................................... 74
 
Bảng 6.
  Tốc độ chạy của chương trình ..................................................................... 76
 


 
 
 
 
 
 
Lương Văn Minh
 


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 


Chương 1: Giới thiệu
1.1 Giới thiệu đề tài
Mạng xã hội là một cấu trúc trên internet, trong đó gồm có những thực thể là những
người dùng của mạng xã hội, các hoạt động xảy ra của người dùng (như hoạt động cập nhật
trạng thái, hoạt động like, chia sẻ hình ảnh, ...) và mối quan hệ giữa các người dùng (kết bạn,
cùng tham gia một nhóm hội, cùng bàn về một đề tài, ...). Một người dùng có ảnh hưởng
trong mạng xã hội là một người dùng mà các hoạt động của người dùng này thu hút được
nhiều mối quan hệ và các hoạt động tương tác từ người dùng khác đến người dùng này.
Đề tài tìm người dùng có tầm ảnh hưởng đến những người dùng khác trong mạng xã
hội là phương thức tìm kiếm một thuật giải suy luận từ cơ sở dữ liệu người dùng trong mạng
xã hội dựa vào các yếu tố của mạng xã hội (như số lượng comment, số lượng like, ...) để suy
luận ra những người dùng nào có tầm ảnh hưởng đến những người dùng khác trong mạng xã
hội. Một ví dụ điển hình là tìm ra những người dùng có tầm ảnh hưởng trong mạng xã hội của
một cơng ty, từ đó ta có thể biết được những người dùng nào có tầm ảnh hưởng trong cơng ty
đó.
Trước u cầu trên, vấn đề đặt ra là phải làm sao xây dựng được một thuật giải tương
đối chính xác, có khả năng trích xuất từ cơ sở dữ liệu người dùng để tìm ra những người dùng
có tầm ảnh hưởng đến những người dùng khác trong mạng xã hội. Đây là mục tiêu cốt lõi của
đề tài mà chúng ta sẽ nghiên cứu.

1.2 Mục đích nghiên cứu và giới hạn của đề tài
Mục đích cơ bản của đề tài là tìm ra những người dùng có tầm ảnh hưởng đến những
người dùng khác trong mạng xã hội dựa vào các hoạt động tương tác giữa các người dùng
trong mạng xã hội. Điều này khơng những thiết thực mà cịn là yếu tố nền tảng cho các hệ
thống mạng xã hội trong và ngồi nước.
Mục đích nghiên cứu của đề tài này là xây dựng một thuật giải thơng minh tìm ra các
những người dùng có tầm ảnh hưởng đến những người dùng khác trong mạng xã hội. Tuy
nhiên, thuật giải cũng chỉ là mang tính chất tương đối, độ đo mức độ ảnh hưởng phân biệt
giữa những người dùng còn phụ thuộc vào các yếu tố mà chúng ta chọn lựa để so sánh.


1


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
Đề tài chỉ đặt trọng tâm nghiên cứu vào giải thuật nhằm xác định người dùng có tầm
ảnh hưởng trong mạng xã hội. Chính vì thế, đề tài sẽ bỏ qua các yếu tố khách quan như sự
ảnh hưởng do yếu tố của mạng internet, các vấn đề về an toàn dữ liệu trong lưu trữ... Đề tài
chỉ giới hạn trong việc xác định tập người dùng có mức độ ảnh hưởng trong mạng xã hội dựa
trên các mối tương tác qua lại giữa những người dùng trong mạng xã hội.

1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Trong quá trình nghiên cứu, tìm hiểu thuật giải xác định ra những người dùng có tầm
ảnh hưởng với những người dùng khác trong mạng xã hội, chúng ta cần nhắm đến những đối
tượng nghiên cứu sau:
§

Các mạng xã hội trong và ngoài nước bao gồm: các đặc điểm đặc điểm đặc trưng của
các mạng xã hội này, các yếu tố cấu thành nên nó,… Điều này sẽ bổ trợ cho chúng ta
trong quá trình tìm ra những người dùng ảnh hưởng.

§

Các thực thể trong các mạng xã hội như: những người dùng trong mạng xã hội, những
hoạt động trong mạng xã hội, những nhóm hội trong mạng xã hội,....

§


Những hệ thống đo lường mức độ ảnh hưởng trong các mạng xã hội hiện có.

1.3.2 Phạm vi nghiên cứu
§

Hiện nay, lĩnh vực mạng xã hội đang phát triển không ngừng, các hệ thống mạng xã
hội trong và ngoài nước tăng trưởng rất mạnh, mạng xã hội đã dần là phương tiện kết
nối cho đời sống con người. Trong phạm vi nghiên cứu của đề tài, chúng ta sẽ nghiên
cứu các mạng xã hội của các cộng đồng nhỏ ở Việt Nam. Hiểu và có những đánh giá
phù hợp với mạng xã hội của chúng ta.

§

Trong phạm vi mở rộng hơn, chúng ta sẽ nghiên cứu các mạng xã hội lớn trên thế giới
(như Facebook, Twitter,…). Chúng ta sẽ so sánh đánh giá các kết quả của chúng ta
với các mạng xã hội lớn trên thế giới.

1.4 Phương pháp tiến hành
Trong đề tài này, học viên dựa vào đề xuất mà [6] đã tiến hành thử nghiệm. Ngoài
cách tiếp cận được đề xuất, học viên còn đề xuất thêm cách kết hợp độ đo mức độ quan trọng
của một cạnh của [9] dựa vào các hành động tương tác giữa những người dùng trong mạng xã
2


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
hội. Trong đó, các hành động này là mention, like, comment, wall post, ... nhằm đánh giá
trọng số của một cạnh trong mối quan hệ tương quan giữa những người dùng trong mạng xã
hội.

Đề tài tiến hành thực nghiệm đánh giá hiệu quả của phương pháp này trong việc đánh
giá độ đo sự quan trọng của một nút trong một đồ thị xã hội dựa trên giải thuật PageRank, cải
tiến giải thuật PageRank kết hợp với độ đo EdgeRank xác định mức độ quan trọng của một
cạnh nhằm tìm ra những người dùng có tầm ảnh hưởng trong mạng xã hội. Chi tiết của
phương pháp tiến hành sẽ được trình bày trong Chương 4, phần đánh giá kết quả thực nghiệm
sẽ được trình bày trong Chương 5.

1.5 Những đóng góp của đề tài
Trong đề tài này, học viên đã thử nghiệm cách xác định người dùng có tầm ảnh hưởng
trong mạng xã hội dựa trên giải thuật PageRank xác định mức độ quan trọng của một nút
trong một đồ thị liên kết. Đối với các cạnh của đồ thị, đề tài đã tính tốn mức độ quan trọng
của một cạnh dựa trên giải thuật EdgeRank với các hành động tương tác qua lại giữa những
người dùng trong mạng xã hội (like, comment, wall post). Đề tài đã tiến hành thực nghiệm
trên tập dữ liệu thật và so sánh các kết quả của đề tài với kết quả thực tế. Từ đó, đề tài phân
tích được mức độ chính xác của giải thuật so với kết quả thực tế. Đề tài cung cấp một mã
nguồn mở để xác định độ quan trọng của một cạnh trong một mạng xã hội và tính tốn độ
quan trọng của một nút, kết hợp độ đo quan trọng của một nút PageRank và độ đo quan trọng
của một cạnh EdgeRank thành độ đo mức độ quan trọng của một người dùng trong một mạng
xã hội.
Như vậy, đóng góp của đề tài là xác định được người dùng có tầm ảnh hưởng trong
mạng xã hội dựa trên số cạnh tới một nút (các cạnh tới này chính là các tương tác của người
dùng này đến người dùng kia) và mức độ quan trọng của cạnh tới đó (mức độ quan trọng của
một cạnh tới dựa vào hành động cụ thể đó là gì). Đóng góp này cụ thể bao gồm hai đóng góp
nhỏ đó là:
- Áp dụng giải thuật PageRank nhằm xác định các nút quan trọng trong một đồ thị
mạng xã hội.

3



Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
- Cải tiến giải thuật PageRank nhằm giúp cho giải thuật này có thể hoạt động được với
đồ thị có trọng số. Trong đó, trọng số của một cạnh của đồ thị mạng xã hội sẽ được xác định
dựa vào giải thuật EdgeRank.

4


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Chương 2: Tổng quan
2.1 Các độ đo được dùng trong công nghiệp
2.1.1 Klout
Klout [10] là một chuẩn công nghiệp dùng để đo lường mức độ ảnh hưởng trong
mạng xã hội. Điểm hạng của nó là từ 1 đến 100. Mức độ ảnh hưởng của nó dựa vào khả năng
mà thông điệp từ một người dùng sẽ được thực hiện lại từ người dùng khác (ví dụ như
retweets, like, comments hoặc trong thơng điệp của người nào đó có chứa từ khóa
@messages). Dựa vào cách thức mà chuẩn Klout đưa ra, ta có thể xác định rằng: "Yếu tố
quyết định đến độ ảnh hưởng của một người dùng là dựa vào số lượng like, comment, retweet
của người dùng đó". Vì vậy, ta có thể xác định mức độ ảnh hưởng của một người dùng sẽ dựa
vào các yếu tố đó.
Klout cho phép mọi người có thể mức độ ảnh hưởng của mình trên thế giới. Với sự
gia tăng của các phương tiện truyền thông xã hội, khả năng ảnh hưởng đến những người khác
đã được tính chính xác hơn. Klout đo lường sự ảnh hưởng của bạn dựa trên khả năng dẫn dắt
hành động của bạn trên mạng xã hội. Điểm Klout là một số duy nhất đại diện cho sự tập hợp
của nhiều phần dữ liệu về hoạt động của các phương tiện truyền thông xã hội của người dùng.

Điểm số của Klout được tính bằng cách áp dụng một mơ hình điểm của những tín hiệu.
Điểm số của Klout được kết hợp từ hơn 400 tín hiệu từ bảy mạng khác nhau
(Facebook, Twitter, Google+, LinkedIn, Klout, Foursqure, Wikipedia). Klout sử dụng dữ liệu
hàng ngày từ bảy mạng này để cập nhật liên tục giá trị điểm số của người dùng.
Đa số các tín hiệu được sử dụng để tính tốn điểm Klout được bắt nguồn từ sự kết hợp
các thuộc tính, chẳng hạn như tỷ lệ của các phản ứng người dùng tạo ra so với số lượng nội
dung mà người dùng chia sẻ. Ví dụ, tạo ra 100 retweets từ 10 tweet của những người dùng
đầu sẽ đóng góp nhiều hơn điểm của người dùng hơn là tạo ra 100 retweets từ 1.000 tweet
của người dùng. Klout cũng xem xét các yếu tố như cách chọn lọc những người tương tác với
nội dung của bạn. Thêm một người thích và retweets trong một ngày nhất định, ít hơn các
tương tác cá nhân góp phần vào số điểm của người khác. Ngoài ra, Klout đánh giá điểm số
cao những người dùng dẫn dắt nhằm lái các luồng sự kiện đến những cá nhân khác. Một trăm
retweets từ 100 người khác nhau đóng góp nhiều điểm hơn là 100 retweets xuất phát từ một
người duy nhất.
5


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
Klout biết mức độ quan trọng thế nào để duy trì tính tồn vẹn của điểm Klout, vì vậy
cách tính điểm của Klout giám sát chặt chẽ hoạt động trên các tín hiệu mà Klout cho là những
hành động giả. Điểm của Klout sẽ tiếp tục được tính toán và cải thiện. Trong tương lai, Klout
sẽ xét thêm các mạng nhiều hơn và nhiều tín hiệu hơn vào q trình tính tốn điểm số Klout
của mình.
Sau đây là một số của các tín hiệu đầu vào mà Klout dùng để đo lường các hệ thống
mạng:
1) Facebook



Mentions.



Likes.



Comments.



Subscribers.



Wall Posts.



Friends.

2) Twitter


Retweets.



Mentions.




List Memberships.



Followers.



Replies.

3) Google+


Comments.



+1's.



Reshares.

4) LinkedIn


Title.




Connections.



Recommenders.



Comments.
6


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
5) Klout


+K received.

6) Foursquare


Tips Done.

7) Wikipedia



Inlinks.



Ratio of Inlinks to Outlinks.



Page Importance (as measured by PageRank.

Chi tiết của các tín hiệu đầu vào này sẽ được trình bày cụ thể hơn trong Chương 3 của
luận án.

2.1.2

PROskore
PROskore [11] cũng tương tự như Klout, điểm khác biệt là PROskore tập trung vào

tài khoản người dùng hơn là các hành động của người dùng khác. PROskore đã giản lược bớt
các dữ liệu từ Twitter, Facebook, Klout và LinkedIn. Dựa vào cách mà PROskore hiện thực,
ta có thể đốn biết rằng: "Việc tính tốn các giá trị ảnh hưởng của người dùng có thể dựa vào
các hành động của người dùng đó (ví dụ như là: số lượng lần người dùng đó đăng nhập vào
mạng xã hội trong một ngày, các hành động xem profile của người dùng khác ...)". Trong q
trình tính toán giá trị mức độ ảnh hưởng của người dùng, ta có thể dùng dựa vào các hành
động của người dùng nhằm làm tăng thêm độ chính xác của giá trị mức độ ảnh hưởng.

2.1.3

Kred

Kred [12] là một sản phẩm khai thác dữ liệu mạng xã hội. Mỗi người dùng Twitter sẽ

có một điểm số Kred. Điểm số Kred này bao gồm hai phần: điểm số ảnh hưởng và điểm số
tiếp cận cộng đồng. Các giá trị này nằm trong khoảng từ 1 đến 1000. Nó cho ta thấy chính
xác điểm số của ta như thế nào và cho phép ta đi sâu vào mỗi retweet để xem có bao nhiêu
điểm là giá trị. Dựa vào cách thức Kred làm, ta có thể thấy rằng đề tài tìm mức độ ảnh hưởng
của người dùng có thể giúp ích được cho đề tài tính tốn mức độ tiếp cận cộng đồng (do
chúng đều dựa vào hàng động retweet).

7


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

2.1.4

Facebook Subscribe
Facebook Subscribe [13] là chức năng cho phép người dùng theo dõi những cập nhật

của người dùng khác trong mạng xã hội (những người dùng mà thường truyền đi thông báo),
chức năng này khá giống với chức năng following của Twitter. Chúng ta có thể subscribe
những người dùng khác mà không nhất thiết phải kết bạn với họ (với điều kiện là trạng thái
cập nhật thông tin của họ được đặt là public). Dựa vào chức năng Subscribe này (tương tự
như chức năng following trong Twitter), chúng ta có thể xác định rằng: "Những người dùng
mà càng được nhiều người Subscribe (hoặc following) thì mức độ ảnh hưởng của họ càng
nhiều". Trong hướng tiếp cận tính tốn mức độ ảnh hưởng của đề tài, đối với những mạng xã
hội có hỗ trợ chức năng Subscribe (hoặc following), chúng ta có thể dựa vào nó để tính tốn
mức độ ảnh hưởng của người dùng trong mạng xã hội đó.


2.1.5

Kết luận
Dù các độ đo [10, 11, 12, 13] khơng cơng bố chi tiết cơng thức tính, nhưng các thành

phần được dùng để tính độ ảnh hưởng của một người dùng bao gồm số lần người dùng này
được followed, comments hoặc like v.v… Chúng ta có thể dựa vào các cơng bố của Klout để
tính tốn các giá trị ảnh hưởng của người dùng trong mạng xã hội.

2.2 Các nghiên cứu học thuật
Sự nghiên cứu về độ ảnh hưởng trên mạng xã hội thu hút nhiều sự chú ý gần đây vì
tính hữu hiệu của chúng trong việc nghiên cứu thị trường và tiếp thị sản phẩm trực tuyến.

2.2.1 Sự tương đồng và sự ảnh hưởng trong mạng xã hội
Trong nghiên cứu [5], [5] phân biệt sự ảnh hưởng từ những vấn đề cơ bản và phân
biệt sự tương quan từ nguyên nhân. Bài báo đưa ra lý thuyết chứng minh rằng: có một xác
suất thành cơng cao trong việc loại trừ ảnh hưởng trong một mơ hình chung của sự tương
quan xã hội.
Bài báo sử dụng phương pháp shuffle test. Phương pháp này dùng để định danh ảnh
hưởng xã hội. Nó dựa trên ý tưởng là nếu sự ảnh hưởng khơng đóng một vai trị nào thì một
xác suất đại diện của một hành động có thể phụ thuộc vào những người bạn. Thời gian thực
hiện của những hành động này có thể độc lập với thời gian thực hiện hành động của những
người bạn khác. Bài báo đưa ra mơ hình của sự tương quan xã hội: những cá nhân là nút của
mạng xã hội G. G là một đồ thị có hướng và được tạo ra từ mộ phân bố xác suất không biết
trước.

8



Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
Hệ thống mạng xã hội được dùng thí nghiệm là tập dữ liệu của Flickr. Bài báo đã
phân tích các hành vi gắn thẻ (tag on photo) của người sử dụng cho một khoảng thời gian 16
tháng. Số lượng người dùng được xem xét là khoảng 800 ngàn người. Người dùng không thể
hiện bất kỳ hành vi gắn thẻ tại trong tất cả các trường hợp, nhóm nghiên cứu đã giới hạn lại
sự chú ý vào tập người dùng đã gắn thẻ cho bất kỳ hình ảnh với bất kỳ tag nào, tập người
dùng này là khoảng 340 ngàn người. Trong đó, có khoảng 160 ngàn người là sử dụng hành
động gắn thẻ qua lại(tag vào ảnh của mình và của bạn), có 165 ngàn người là sử dụng độc lập
(chỉ tag hình ảnh của mình). Số của các cạnh trực tiếp giữa người sử dụng là 2.8 triệu cạnh.
Trung bình, với một người dùng u nhất định, tỷ lệ liên kết với người dùng u mà trong đó
khơng kết bạn với u là 28,5%. Có khoảng 10 ngàn tag mà người dùng đã sử dụng, nhóm
nghiên cứu đã chọn ra một bộ 1700 tag và phân tích chúng một cách độc lập.

Hình 1.

Phân bố α của mơ hình ảnh hưởng

Hình 2.

Phân bố α của mơ hình tương đồng

9


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 


2.2.2

Đo lường sự phản hồi giữa sự ảnh hưởng xã hội và hành động tương tự
nhau
Đo lường sự phản hồi giữa sự ảnh hưởng và hành động tương tự nhau của [3] là

nghiên cứu những hiệu ứng phản hồi giữa sự ảnh hưởng xã hội và hành động tương tự nhau.
Bài báo phát triển những kỹ thuật cho việc định danh và mơ hình những tương tác giữa sự
ảnh hưởng xã hội và sự chọn lựa, sử dụng dữ liệu thay đổi trong những ứng xử trên thời gian.
Bài báo xem xét những hành động tương tự nhau và những ảnh hưởng xã hội để tiên đoán
những hành động mà cá nhân nào đó sẽ thực hiện kế tiếp. Bài báo đã làm rõ hai vấn đề về sự
ảnh hưởng lẫn nhau giữa tương tác xã hội và hành động tương tự nhau là:
o

Tương tác xã hội và hành động tương tự nhau có cùng hiệu ứng và cùng
nguyên nhân xảy ra.

o

Người dùng có thể nhận biết được người dùng khác thông qua hành động chia
sẻ hoặc các hoạt động gần đây của người dùng khác với 1 sự việc nào đó.

Trong [3] và [5] các tác giả đã cho thấy người dùng có khuynh hướng “bắt chước” các
hành vi của những người dùng có nhiều ảnh hưởng (influential users). Nếu một influential
users dùng thử một mặt hàng thì sẽ có nhiều người dùng khác cũng làm theo.

2.2.3

Tối đa hóa sự trải rộng ảnh hưởng trên mạng xã hội
Trước các nghiên cứu [3] và [5], các nghiên cứu về các user có nhiều ảnh hưởng trên


mạng xã hội đã bắt đầu xuất hiện từ năm 2003.
Trong bài báo [1] , các người dùng có nhiều ảnh hưởng được đề xuất như là một tập
con của các người dùng, trong đó các hành vi của các người dùng này sẽ thu hút sự chú ý của
nhiều người dùng khác khiến các người dùng khác cũng có những hành động diễn tiến. Bài
báo đưa ra xác suất để tính về khả năng một người dùng mới sẽ tiến hành các hành động tiếp
theo sau khi một người dùng “có nhiều ảnh hưởng” đã có một hành động trước đó.
Bài báo nghiêu cứu cách thoả mãn một tập con các cá nhân nhỏ mà từ đó có thể mở
rộng sự ảnh hưởng ra tối đa. Thoả mãn một tập con các cá nhân là thuyết phục tập con cá
nhân này sử dụng các sản phẩm mới hay đưa ra các phát kiến mới cho tập con các cá nhân
nhỏ này trước. Mở rộng sự ảnh hưởng ra tối đa là làm khuếch đại sự lan truyền về thông tin
sản phẩm mới hay ý tưởng mới đến càng nhiều người dùng khác càng tốt.

10


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 
"Sự ảnh hưởng" trong mạng xã hội là sự lan truyền các ý tưởng hay phát kiến từ
người dùng này đến người dùng khác, nó làm khuếch tán những ý tưởng và phát kiến này trải
rộng ra mạng xã hội. Sự khuếch đại này dựa vào hiệu ứng truyền miệng trọng xã hội nhằm
thúc đẩy quảng cáo các sản phẩm mới. Ví dụ: chúng ta có thể kích hoạt một chuỗi các ảnh
hưởng bằng cách những người bạn sẽ giới thiệu sản phẩm cho bạn bè khác, và rất nhiều các
cá nhân cuối cùng sẽ thử dùng sản phẩm đó.
Bài báo chỉ ra rằng giải thuật tham lam có thể đạt được một giải pháp mà có thể đạt
được 63% mức độ tối ưu cho một vài lớp của những mơ hình. Mức độ tối ưu là mức độ mà
trong trường hợp lý tưởng các sản phẩm mới hay các phát kiến mới sẽ được truyền đến tất cả
những người dùng mà có quan tâm đến những sản phẩm mới hay những phát kiến mới được
truyền đi ban đầu.

Bài báo đưa ra hai mơ hình truyền tin cơ bản đó là "The Linear Theshold" và
"Independent Cascade models". Chi tiết về hai mơ hình này sẽ được học viên trình bày trong
Chương 3 của luận án.
Trong thí nghiệm của bài báo này, nhóm tác giả sử dụng tập dữ liệu mạng, dữ liệu
đồng tác giả được xây dựng từ một danh sách các bài báo hoàn chỉnh về lý thuyết vật lý năng
lượng cao ("High Energy Physics - Theory ") của arXiv (www.arxiv.org).
Đồ thị mà nhóm tác giả mơ hình là đồ thị mà các nút là các nhà nghiên cứu mà có ít
nhất có một bài báo có cùng tác giả trong cơ sở dữ liệu của arXiv. Với những bài báo có
nhiều hơn một tác giả, mơ hình sẽ thêm vào một cạnh cho mỗi cặp tác giả (những bài báo chỉ
có 1 tác giả sẽ bị bỏ qua). Kết quả là đồ thị sau khi mô hình có 10748 nút và khoảng 53000
cạnh.

Hình 3.

Kết quả cho mơ hình Linear threshold
11


Tìm những người dùng có tầm ảnh hưởng trong mạng xã hội

 

Hình 4.

2.2.4

Kết quả cho mơ hình Independent Cascade

Sử dụng heuristic để cải thiện tối đa hóa sự ảnh hưởng
Mơ hình Independent Cascade tiếp tục được phát triển trong [2] bằng cách thêm vào


các heuristic để giảm thời gian tính tốn. Bài báo [2] nghiên cứu một thuật tốn hiệu quả cho
sự tối đa hoá ảnh hưởng bằng cách:
1) Cải thiện giải thuật tham lam nhằm làm giảm thời gian chạy.
2) Đề xuất một heuristic mới là giảm bậc heuristic để đạt được sự trải rộng ảnh hưởng
tốt hơn là sử dụng các mức độ cổ điển và các heuristic cơ bản.
Trong mơ hình Independent Cascade, heuristic được sử dụng là việc chọn lựa một nút
dựa vào bậc trung tâm và khoảng cách trung tâm. Bậc trung tâm là những nút có bậc cao mà
ảnh hưởng lâu dài trong mạng xã hội, khoảng cách trung tâm được xây dựng dựa trên giả
định rằng một nút với đường đi ngắn đến một nút khác.
Sự cải tiến heuristic trong bài báo này là làm giảm bậc của heuristic, cụ thể là: cho v
là một nút lân cận của đỉnh u, nếu u đã được chọn làm hạt giống trong heuristic, khi chọn v
làm hạt giống trong heuristic thì chúng ta sẽ không đếm các cạnh liên kết giữa v và u vào
trong bậc của v, chúng ta giảm bậc của v do u đã được đưa vào heuristic. Tương tự, nếu như
có n nút lân cận của v mà n nút này đã được đưa vào heuristic thì chúng ta sẽ giảm bậc của v
bằng cách xét bỏ các cạnh liên kết từ n nút này đến v. Nhóm nghiên cứu gọi heuristic này là
SingleDiscount.
Bài báo tin rằng heuristic tốt có thể cung cấp những giải pháp uyển chuyển thực sự
trong sự tối đa hoá ảnh hưởng với thời gian chạy nhanh nhất.
12


×