Tải bản đầy đủ (.pdf) (47 trang)

Phát hiện vai trò trong mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.04 MB, 47 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ THỊ KIM DUNG

PHÁT HIỆN VAI TRÒ TRONG MẠNG XÃ HỘI

LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ THỊ KIM DUNG

PHÁT HIỆN VAI TRÒ TRONG MẠNG XÃ HỘI
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104

LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI

HÀ NỘI - 2015


Lời cam đoan
Tôi xin cam đoan luận văn “Phát hiện vai trò trong mạng xã hội" là công trình


nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là hoàn
toàn trung thực. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan. Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là công việc của
riêng tôi.
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ
Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 25 tháng 10 năm 2015
Học viên

Lê Thị Kim Dung

i


Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cám ơn sâu sắc nhất đến TS. Đặng Thanh Hải đã tận
tình hướng dẫn tôi trong suốt quá trình thực hiện Luận văn.
Tôi cũng xin gửi lời cám ơn và lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thuỵ
cùng anh chị em phòng nghiên cứu KTLab đã nhiệt tình động viên và giúp đỡ tôi hoàn
thành Luận văn.
Tôi chân thành cảm ơn các thầy, cô đã tạo điều kiện thuận lợi cho tôi được học
tập và nghiên cứu tại Trường Đại học Công Nghệ.
Tôi xin cảm ơn các bạn trong lớp cao học K17 và các đồng nghiệp tại công ty
DeNA đã ủng hộ, khuyến khích và tạo điều kiện cho tôi trong suốt quá trình học tập tại
trường.
Cuối cùng nhưng không kém phần quan trọng, tôi muốn gửi lời cảm ơn vô hạn
tới gia đình, bạn bè, những người thân yêu luôn bên cạnh, động viên và giúp đỡ tôi
không chỉ trong quá trình thực hiện Luận văn mà còn trong suốt cuộc đời này.
Hà Nội, ngày 25 tháng 10 năm 2015
Học viên


Lê Thị Kim Dung

ii


Tóm tắt nội dung
Phân tích và phát hiện vai trò trong mạng xã hội đã được các nhà khoa học quan
tâm nghiên cứu từ rất sớm và đang phát triển không ngừng cùng với sự bùng nổ của
các trang mạng xã hội. Hiện nay, nội dung này cũng đang được quan tâm rộng rãi
trong giới kinh doanh vì những lợi ích mà nó mang lại cho nền kinh tế. Bên cạnh xác
định vai trò của một người hay nhóm người giữa những vai trò trong xã hội, phát hiện
vai trò giữa một cặp đối tượng cũng là một vấn đề đang được quan tâm đặc biệt.
Đầu tiên, luận văn khảo sát các công trình nghiên cứu về bài toán khai phá vai trò
trong mạng xã hội, đặc biệt là phát hiện vai trò giữa một cặp đối tượng và phân cụm
vai trò dựa trên nội dung chủ đề [31][6]. Sau đó, luận văn đề xuất một mô hình phát
hiện vai trò phân cấp giữa các cặp nhân viên dựa vào dữ liệu email. Mô hình này là sự
kết hợp của hai pha phát hiện vai trò, trong đó pha đầu tiên phân cụm các nhân viên có
công việc tương tự nhau vào trong cùng một cụm vai trò, pha tiếp theo thực hiện gán
vai trò phân cấp cho mỗi cặp nhân viên trong cụm. Mô hình sử dụng cả nội dung
truyền tin trong mạng và cấu trúc của mạng trong việc phát hiện các vai trò.
Luận văn đã bước đầu tiến hành thực nghiệm một pha trong mô hình đề xuất cho
tập dữ liệu Enron email. Quá trình thực nghiệm cho kết quả độ chính xác trung bình Fmeasure cho 12 vai trò của tập dữ liệu là 61.9%. Bên cạnh đó, kết quả thực nghiệm
cho thấy mô hình có thể phát hiện khá tốt nhiều vai trò của một người.

iii


Mở đầu
Phát hiện vai trò trong mạng xã hội là bài toán quan trọng không chỉ có ý nghĩa

trong lĩnh vực phân tích mạng xã hội mà còn mang lại nhiều lợi ích kinh doanh. Sự
hình thành và phát triển không ngừng của các trang mạng xã hội và các cộng đồng đã
kéo theo một số lượng không nhỏ các công trình nghiên cứu về vai trò của các thực thể
trong mạng, chẳng hạn [1][3][28][29][32]. Thời gian gần đây, các công bố công trình
nghiên cứu về phát hiện vai trò của một nhóm người cũng như mối quan hệ giữa hai
người đang có xu thế tăng nhanh, một số nghiên cứu nổi bật như [2][5][6][18][31].
Luận văn tốt nghiệp với đề tài Phát hiện vai trò trong mạng xã hội nhằm khảo
sát, phân tích các mô hình phát hiện vai trò, đồng thời trình bày một mô hình phát hiện
vai trò phân cấp và thi hành giải pháp phân cụm vai trò trong mô hình thử nghiệm.
Luận văn gồm những nội dung chính cơ bản sau:
Chương 1: Giới thiệu về mạng xã hội và bài toán phát hiện vai trò trong mạng
xã hội nhằm giới thiệu khái quát về mạng xã hội, cấu trúc và lịch sử phát triển mạng
xã hội cũng như bài toán phát hiện vai trò trong mạng xã hội.
Chương 2: Một số phương pháp phát hiện vai trò trong mạng xã hội trình bày
khái quát một số mô hình phát hiện vai trò. Đồng thời, chương 2 đi chi tiết tìm hiểu
mô hình phát hiện vai trò dựa vào nội dung chủ đề và mô hình phát hiện vai trò giữa
hai đối tượng sử dụng đồ thị tham số xác suất phụ thuộc thời gian.
Chương 3: Phát hiện vai trò phân cấp của nhân viên từ tập dữ liệu các emails
đưa ra mô hình phát hiện vai trò cấp trên – cấp dưới trong nhóm những người có cùng
vai trò, áp dụng các mô hình đã tìm hiểu ở chương 2. Trong chương này sẽ trình bày
chi tiết các pha cũng như các bước thực hiện mô hình.
Chương 4: Thực nghiệm và đánh giá tiến hành cài đặt một pha trong mô hình
đề xuất và đánh giá các kết quả đạt được.
Phần kết luận tóm lược các kết quả đã đạt được và nêu rõ đóng góp của luận
văn, đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới.

iv


Mục Lục

Lời cam đoan ......................................................................................................................... i
Lời cảm ơn ............................................................................................................................ii
Tóm tắt nội dung................................................................................................................. iii
Mở đầu ................................................................................................................................. iv
Mục Lục ................................................................................................................................ v
Danh mục hình vẽ ................................................................................................................ vi
Danh mục bảng biểu ...........................................................................................................vii
Danh mục viết tắt .............................................................................................................. viii
Danh sách các thuật ngữ ...................................................................................................... ix
Chương 1. Giới thiệu về mạng xã hội và bài toán phát hiện vai trò trong mạng xã hội ...... 1
1.1 Giới thiệu về mạng xã hội ...................................................................................... 1
1.2 Lịch sử phân tích mạng xã hội ............................................................................... 3
1.3 Bài toán phát hiện vai trò trong mạng xã hội......................................................... 5
Chương 2. Một số phương pháp phát hiện vai trò trong mạng xã hội ................................. 8
2.1 Tổng quan về một số phương pháp phát hiện vai trò trong mạng xã hội .............. 8
2.2 Mô hình Role-Author-Recipient-Topic phát hiện vai trò và chủ đề trong
mạng xã hội .......................................................................................................................... 9
2.3 Mô hình phát hiện vai trò người hướng dẫn – người được hướng dẫn từ mạng
các bài báo nghiên cứu khoa học ........................................................................................ 13
Chương 3. Phát hiện vai trò phân cấp của nhân viên từ tập dữ liệu các emails ................. 22
3.1 Phương pháp tiếp cận........................................................................................... 22
3.2 Mô hình triển khai đề xuất ................................................................................... 22
3.2.1 Pha phân cụm vai trò ........................................................................................ 23
3.2.2 Pha gán vai trò phân cấp ................................................................................... 23
Chương 4. Thực nghiệm và đánh giá ................................................................................. 28
4.1. Môi trường và các thành phần hệ thống phần mềm ........................................... 28
4.2. Tập dữ liệu thử nghiệm ....................................................................................... 28
4.3. Thực nghiệm ....................................................................................................... 29
4.4. Đánh giá kết quả ................................................................................................. 30
Kết luận............................................................................................................................... 33

Tài liệu tham khảo .............................................................................................................. 34

v


Danh mục hình vẽ
Hình 1.1: Ba cấu trúc biểu diễn mạng xã hội [5] ............................................................2
Hình 1.2: Một ví dụ về "sociogram" [10] ........................................................................3
Hình 2.1: Ba mô hình tham số RART [6] .....................................................................10
Hình 2.2: Ví dụ về 2 vai trò từ tập dữ liệu email McCallum với 50 chủ đề và 15 nhóm
[6]...................................................................................................................................12
Hình 2.3: Ví dụ về phân phối vai trò của 2 người trong tập dữ liệu email McCallum [6]
.......................................................................................................................................12
Hình 2.4: Biến đổi đồ thị trong mô hình TPFG [31] .....................................................15
Hình 2.5: Cây đồ thị biểu diễn biến ẩn và hàm tham số [31] ........................................19
Hình 2.6: Hai giai đoạn của quá trình chuyển tiếp thông điệp [31] ..............................20
Hình 2.7: Độ chính xác của mô hình với P@(2,𝜃):

𝑇
𝑇+𝐹

[31] ........................................21

Hình 3.1: Biến đổi đồ thị ...............................................................................................25
Hình 4.1: Một email của người dùng Brawner ..............................................................29
Hình 4.2: Ví dụ minh hoạ dữ liệu đầu ra của pha tiền xử lý .........................................30
Hình 4.3: Độ chính xác F-measure của 12 vai trò .........................................................31

vi



Danh mục bảng biểu
Bảng 1: Cấu hình phần cứng .............................................................................................. 28
Bảng 2: Các phần mềm sử dụng ......................................................................................... 28
Bảng 3: Hai vai trò nổi bật của dữ liệu Enron .................................................................... 31
Bảng 4: Một ví dụ về phân phối vai trò .............................................................................. 32

vii


Danh mục viết tắt
STT

Viết tắt

Thuật ngữ

1

TPFG

Đồ thị tham số xác suất phụ thuộc thời gian

2

IR

Tỷ lệ mất cân bằng

3


Kulc

Độ đo Kulczinski

4

LDA

Latent Dirichlet Allocation

5

ART

Author – Recipient – Topic

6

RART

Role – Author – Recipient – Topic

viii


Danh sách các thuật ngữ
STT

Thuật ngữ tiếng Anh


Nghĩa tiếng Việt

1

Social Network

Mạng xã hội

2

Actor

Tác nhân

3

Vector-valued

Véc tơ giá trị

4

Clique

Đảng phái/Hội, nhóm

5

Social Role


Vai trò xã hội

6

Jointly likelihood objective function

Hàm mục tiêu khả năng xảy ra đồng thời

7

Weak tie hypothesis

Giả thiết liên kết yếu

8

Topology

Cấu trúc

9

Email

Thư điện tử

ix



Chương 1. Giới thiệu về mạng xã hội và bài toán phát hiện
vai trò trong mạng xã hội
Trong những năm gần đây, mạng xã hội ngày càng trở nên phong phú và quen
thuộc với người dùng Internet. Chương này tập trung làm rõ các khái niệm về mạng xã
hội, đồng thời giới thiệu sơ bộ về lịch sử phân tích mạng xã hội và bài toán phát hiện
vai trò trong mạng xã hội.

1.1 Giới thiệu về mạng xã hội
Mạng xã hội là một cấu trúc xã hội được tạo thành từ các nút và các cung mà mỗi
nút (một thực thể xã hội) được liên kết bởi một hoặc nhiều cung, thể hiện một mối
quan hệ cụ thể [5]. Mỗi nút thường được gọi là một tác nhân (actor), đại diện cho một
đối tượng trong mạng xã hội, có thể là một người, một nhóm người, một tài liệu, một
tổ chức hay một quốc gia…. Mỗi cung là một liên kết giữa các nút, biểu diễn mối quan
hệ giữa các đối tượng. Liên kết này có thể là mối quan hệ họ hàng, người quen, bạn
bè, đồng nghiệp, … cũng có thể là các trao đổi tài chính, các giao dịch, … hay mối
quan hệ cộng đồng, cộng tác, cùng thảo luận trong một diễn đàn, cùng xuất hiện ở một
địa điểm…. Nếu mối quan hệ giữa các đối tượng là quan hệ qua lại thì có thể biểu diễn
bằng một liên kết vô hướng (hay còn gọi là liên kết đối xứng), ví dụ A là đồng nghiệp
của B và ngược lại B cũng là đồng nghiệp của A, hay A và B cùng đứng tên chung
trong một bài báo…. Ngược lại, nếu mối quan hệ này là quan hệ 1 chiều thì có thể
biểu diễn bằng một liên kết có hướng, ví dụ A thích B nhưng ngược lại B chưa chắc đã
thích A, hay A mua hàng của B… [5][1]. Trên thực tế, mối liên kết giữa các đối tượng
thường không có cùng khả năng. Để đánh giá độ mạnh yếu của các liên kết, các cung
thường được gán một trọng số là hàm của thời gian, mức độ tình cảm, sự thân mật và
trao đổi dịch vụ. Ví dụ, trọng số có thể là số năm mà A và B làm việc chung, hay số
giao dịch mà A và B đã trao đổi…. Ngoài ra, mỗi nút còn có thể được gán một véc tơ
thuộc tính để biểu diễn thông tin cá nhân của đối tượng, ví dụ như độ tuổi của A, tổng
số giao dịch mà A đã thực hiện trong năm….
Trong luận án tiến sỹ về phát hiện cộng đồng trong mạng xã hội, Jiyang Chen,
2010 [5] đã khái quát rằng có 3 cách thường dùng để biểu diễn các liên kết trong

mạng, đó là:
- Sử dụng danh sách liên kết: Biểu diễn các đối tượng trong xã hội dưới dạng
một tập hợp các phần tử. Mỗi mối quan hệ của một cặp đối tượng là một phần
tử trong danh sách các liên kết.
- Sử dụng cấu trúc đồ thị: Mỗi tác nhân được biểu diễn bởi một nút, mỗi mối
quan hệ giữa 2 tác nhân được biểu diễn bởi một cạnh kết nối giữa 2 nút.

1


- Sử dụng ma trận kề: Số tác nhân chính là số cột và số hàng của ma trận. Mỗi
phần tử hay trọng số trong ma trận biểu diễn cho thông tin về liên kết giữa các
cặp tác nhân. Đơn giản và thông dụng nhất là ma trận nhị phân.

Hình 1.1: Ba cấu trúc biểu diễn mạng xã hội [5]
Tuy nhiên, các nhà phân tích mạng xã hội thường chỉ dùng 2 cấu trúc phổ biến là
đồ thị và ma trận kề để biểu diễn mạng xã hội. Hanneman và cộng sự [13] đã chỉ ra
rằng có 3 lý do chính để sử dụng các cấu trúc này:
- Nhỏ gọn và có hệ thống: Các cấu trúc này có thể khái quát và biểu diễn một
lượng lớn thông tin một cách nhanh chóng và dễ dàng. Các mối quan hệ xã
hội được mô tả đầy đủ và có hệ thống.
- Có thể sử dụng máy tính để phân tích dữ liệu: Số lượng các tác nhân và liên
kết trong mạng xã hội thường là rất lớn. Vì vậy, việc sử dụng được máy tính
để tính toán là điều đặc biệt quan trọng.
- Có quy tắc: Các kỹ thuật đồ thị và quy tắc toán học có thể gợi ý một số thứ
mà ta có thể tìm ra từ dữ liệu, những thứ này khó có thể được nhận thấy nếu
ta biểu diễn dữ liệu bằng dạng khác.
Tuỳ thuộc vào nhu cầu phân tích và đặc tính cụ thể của mỗi mạng xã hội mà các
nhà phân tích có thể chọn một cấu trúc phù hợp với bài toán của mình.
2



1.2 Lịch sử phân tích mạng xã hội
Theo Jiyang Chen [5], phân tích mạng xã hội được bắt đầu rất sớm từ những năm
1930 và nhanh chóng phát triển cùng với sự bùng nổ của mạng xã hội. Những người đi
tiên phong trong lĩnh vực này là Jacob Moreno, Kurt Lewin và Fritz Heider.
Moreno phát triển một mô hình gọi là “sociometry” [15] bằng cách hỏi mọi
người bạn của họ là ai, và tìm hiểu mối quan hệ của họ với những người khác có tác
động gì đối với hành vi tâm lý và hành động của họ. Ông tin rằng các hình thái xã hội
quy mô lớn, như nền kinh tế và nhà nước, đã được duy trì và tái tạo qua thời gian bởi
các thiết lập có quy mô nhỏ, được hình thành bởi mối quan hệ tình bạn, và các mối
quan hệ khác. Một đổi mới của Moreno là tạo ra các “sociogram” nhằm biểu diễn các
tính chất của cấu hình xã hội.

Hình 1.2: Một ví dụ về "sociogram" [10]
Một nghiên cứu khác về hành vi của nhóm do Lewin [20] thực hiện, đề xuất rằng
lĩnh vực của các lực lượng xã hội, nơi mà nhóm được đặt, xác định hành vi của nhóm.
Lewin cho rằng các thuộc tính cấu trúc của không gian xã hội có thể được nghiên cứu
bằng cách sử dụng véc tơ và topology. Cuối cùng, Heider đi tiên phong trong lĩnh vực
nhận thức xã hội và thái độ. Ông đã phát triển lý thuyết cân bằng [25]. Trong đó, ông
tin rằng tâm trí con người luôn tìm kiếm sự cân bằng bằng cách cố gắng giữ lại các ý
tưởng không bị mâu thuẫn với ý tưởng khác, điều này cũng được áp dụng cho thái độ
đối với người khác. Những ý tưởng này sau đó được phát triển bởi Frank Harary và

3


Dorwin Cartwright. Họ đã sử dụng thuyết đồ thị để xây dựng một công cụ hữu hiệu
cho phân tích cấu trúc xã hội.
Cùng thời gian đó, phân tích mạng xã hội được phát triển với những nghiên cứu

của một số nhà nghiên cứu ở Harvard, những người này đã quyết định dành sự chú ý
của họ để tìm kiếm sự phân rã và thăm dò các phương pháp cấu trúc đồ thị. Đặc biệt,
các nghiên cứu của W.Lloyd Warner và Eltan Mayo, những người lãnh đạo phong trào
này, về nhà máy trung tâm Chicago “Hawthorne” là một cột mốc quan trọng. Tính độc
đáo trong các nghiên cứu của họ là sử dụng các “sociograms” và giới thiệu về khái
niệm “đảng phái” (clique).
Trong những năm 1950, những nhà nghiên cứu từ khoa Xã hội và Nhân chủng
học của trường đại học Manchester, dẫn đầu là John Barnes, đã bắt đầu đặt sự chú ý
của họ vào thiết lập hiệu quả của các mối quan hệ trong xã hội bắt nguồn từ quyền lực
và xung đột giữa các cá nhân, thay vì các thiết lập chuẩn mực và tổ chức của một xã
hội [25]. Nhóm này đã bắt đầu nghiên cứu cách thức cấu trúc của mối quan hệ giữa
người bị ảnh hưởng không chỉ các cá nhân mà các xã hội như một toàn thể. Thuật ngữ
“mạng xã hội” lần đầu tiên được giới thiệu bởi John Barnes vào năm 1954, đánh dấu
sự phát triển chính thức của phân tích cấu trúc xã hội.
Dựa trên các nghiên cứu của Barnes và cộng sự, nhóm nghiên cứu ở Harvard,
dẫn đầu bởi Harrison C. White trong những năm 1960 và 1970 đã tiếp tục phát triển
các khía cạnh toán học của phân tích mạng xã hội, dịch nhiều khái niệm quan trọng
của khoa học xã hội, chẳng hạn như khái niệm “vai trò xã hội”, vào hình thức toán học
cho phép họ đo lường và mô hình hoá. Ý tưởng trung tâm là tìm kiếm cấu trúc trong
một mạng không nên dựa trên một định nghĩa trước và các phân loại đã biết, mà nên
dựa trên quan hệ giữa các nút mạng và dựa trên cách mà những quan hệ này tạo thành
nó, với mục đích mô tả cụ thể và làm nổi vai trò cấu trúc. Sau đó, Mark Granovetter đề
xuất một thuật ngữ quan trọng được sử dụng hữu ích trong rất nhiều nghiên cứu sau
này là “giả thiết liên kết yếu”. Giả thiết này cho rằng nếu nút A có liên kết chặt chẽ
với nút B và C thì có khả năng lớn B và C có liên kết với nhau.
Trong số rất nhiều những ý tưởng phát triển bởi White và sinh viên của ông, một
thuyết rất thú vị được gọi là “hiện tượng thế giới nhỏ” (small world phenomenon)
được đề xuất bởi Stanley Milgram [16]. Cách tiếp cận của Milgram liên quan đến thực
nghiệm xác định có bao nhiêu bước cần thiết trong một dân số đã được xác định để hai
người khác có thể gặp nhau. Để tìm ra xác suất mà hai người bất kỳ có thể biết nhau,

Milgram thực hiện một thí nghiệm nổi tiếng là “thí nghiệm thế giới nhỏ” (small world
experiment). Ông chọn ngẫu nhiên một số cá nhân ở các thành phố là điểm khởi đầu
và điểm kết thúc. Mỗi cá nhân ở điểm khởi đầu được yêu cầu gửi một bức thư có nội
dung là thông tin liên lạc của cá nhân cần tìm ở điểm kết thúc tới người mà họ biết.
Người nhận được thư sẽ phải chuyển tiếp bức thư tới một người là bạn bè hoặc người
thân của họ mà họ cho rằng người đó có khả năng cao nhất biết người cần tìm. Cứ như
4


vậy cho đến khi bức thư đến được tay người cần tìm. Và kết quả là 64 trong số 296
bức thư đã đến được đích. Số lần chuyển tiếp trung bình là khoảng 5.5 hay 6.
Tóm lại, phân tích mạng xã hội được sinh ra từ các hoạt động tâm lý xã hội học,
nhân chủng học, xã hội học, toán học, các bác sỹ và các nhà kinh tế. Ngày nay, nó
được sử dụng cho nghiên cứu trong nhiều lĩnh vực bao gồm hành vi, xã hội, kinh tế và
chính trị chuyên nghành. Tuy nhiên, trong thời đại thông tin bùng nổ với tốc độ phát
triển nhanh chóng cả về số lượng và kích thước của mạng xã hội, ví dụ sự phát triển
không ngừng của World Wide Web và mạng xã hội Facebook, vấn đề quản lý thông
tin xã hội trở nên khó khăn hơn. Dó đó, cần thiết phải áp dụng các kỹ thuật khoa học
máy tính đến các mạng xã hội để phân tích cấu trúc hiệu quả và chính xác hơn.

1.3 Bài toán phát hiện vai trò trong mạng xã hội
Với sự ra đời của Web 2.0, người dùng không còn chỉ sử dụng thông tin mà còn
tạo ra thông tin [3]. Họ tương tác với nhau, họ tham gia vào những cuộc thảo luận trực
tuyến, trao đổi thông tin và ý kiến, và họ tạo nên các mạng xã hội. Mức độ của sự
tương tác giữa những người dùng định nghĩa vai trò xã hội, mà có thể được mô tả như
vị trí, hành vi, hay định danh ảo [12]. Những vai trò này có thể được phát triển trong
mạng xã hội thông qua các trao đổi email, thảo luận trên các diễn đàn hay nhóm tin tức
Usenet, và họ tiếp tục thay đổi và phát triển theo thời gian.
Phát hiện vai trò xuất hiện đầu tiên trong xã hội học [21][17]. Các nhà xã hội học
đã sử dụng vai trò xã hội để giải thích các chức năng cụ thể của một người trong xã

hội, như là một người cha, bác sỹ, sinh viên hay một cố vấn hàn lâm [23]. Ngày nay,
với sự phát triển bùng nổ cả về số lượng và kích thước của các trang mạng xã hội, phát
hiện vai trò đã trở thành một chủ đề quan trọng được quan tâm không chỉ bởi các nhà
xã hội học mà còn có cả các nhà kinh tế, chính trị. Gần đây, bài toán phát hiện vai trò
đã được nghiên cứu trong một số mạng như mạng xã hội trực tuyến, mạng công nghệ,
mạng sinh học, đồ thị web, mạng email.... Trong khi khái niệm phát hiện vai trò thực
sự quan trọng trong khai phá đồ thị và phân tích thăm dò, nó cũng có thể có ích trong
nhiều ứng dụng thực tế [23]. Ví dụ, vai trò có thể được sử dụng để phát hiện các bất
thường trong mạng công nghệ như truy vết IP [19][24]. Một sự bất thường trong mạng
này có thể là một nút không phù hợp với bất kỳ vai trò nào (trong các cấu trúc thông
thường) hoặc nó có thể nhận một vai trò mà không giống với các vai trò thông thường,
do đó bất kỳ nút nào có vai trò đặc biệt này sẽ được xem là bất thường. Khai phá vai
trò cũng có thể được sử dụng trong các chiến dịch quảng cáo trực tuyến [11] cho các
mạng xã hội trực tuyến (Facebook, Twitter, Groupon...). Ở các trang mạng này, các
quảng cáo có thể được tuỳ chỉnh dựa trên vai trò của người sử dụng trong mạng. Ngoài
ra, một doanh nghiệp có thể chỉ quan tâm quảng cáo đến những người có một vai trò
nhất định trong mạng. Hơn nữa, vai trò đang trở thành một công cụ quan trọng với các
ứng dụng tiềm năng như phân lớp, lấy mẫu mạng, so sánh đồ thị...
5


Việc xác định một vai trò xã hội phụ thuộc vào bối cảnh phân tích [12]. Ví dụ
như khi phân tích sự trao đổi email trong công ty, các nhà nghiên cứu xác định vai trò
như là một vị trí (quản lý, thư ký,...) Trong khi đó, vai trò của một người trong một
cuộc thảo luận web lại giống một định danh ảo, có thể là mức độ chuyên gia của người
đó. Biết được ai là chuyên gia trong một diễn đàn kỹ thuật có thể tạo điều kiện thuận
lợi để tìm ra câu trả lời cho một câu hỏi một cách nhanh chóng và chính xác. Hơn nữa,
việc xác định được người có tầm ảnh hưởng đến các quyết định của một cộng đồng
đóng vai trò quan trọng trong tiếp thị, thông qua các liên kết của người này có thể
khuếch tán thông tin trong mạng một cách hiệu quả. Tóm lại, việc xác định các vai trò

như vậy cho phép hiểu biết và phân tích tốt hơn các tương tác trong cộng đồng xã hội.
Vai trò có thể được định nghĩa trước, hoặc có thể được phát hiện sau khi quan sát
các mô hình tương tác. Ví dụ, R.Tinati và cộng sự [29] định nghĩa 5 vai trò truyền tin
trên mạng xã hội Twitter: người khởi tạo ý tưởng, người phát tán, người quản lý,
người bình luận, người xem. Chi Wang và cộng sự [31] định nghĩa vai trò người
hướng dẫn – người được hướng dẫn trong mạng thông tin được hình thành từ Cơ sở dữ
liệu DBLP. Mặt khác, một số nghiên cứu trên các mạng khác như Wikipedia, Youtube
hay mạng email phân loại người dùng vào các nhóm hay các cụm và sau đó gán vai trò
cho các cụm [18][22][30].
Forestier và cộng sự [12] phân loại các mô hình phát hiện vai trò thành 2 nhóm:
nhóm các phương pháp phát hiện vai trò không định nghĩa trước tập vai trò, và nhóm
các phương pháp định nghĩa trước vai trò hay tập vai trò. Các mô hình không định
nghĩa trước tập vai trò thường sử dụng cấu trúc đồ thị [7][14], hoặc chỉ sử dụng nội
dung trao đổi (ví dụ: email, bài viết) [4][6][27], hoặc kết hợp cả cấu trúc và nội dung.
Kỹ thuật học máy không giám sát được sử dụng cho các mô hình này để phân cụm dữ
liệu vào các nhóm vai trò. Ngược lại, một số mô hình định nghĩa trước các vai trò thoả
mãn với một số tiêu chí nhất định của người dùng. Đó có thể là vai trò chuyên gia,
người có ảnh hưởng [3] hay cặp vai trò người hướng dẫn – người được hướng dẫn
[31], hoặc cũng có thể là nhóm vai trò: người nổi tiếng, người vận động quảng bá,
người khởi tạo trong truyền tin [1]…. Một số kỹ thuật thường được sử dụng trong các
mô hình này là thuật toán xếp hạng PageRank, phân cụm K-means, mô hình xác suất
Bayesian.
Trong luận văn này, chúng tôi sẽ trình bày một mô hình phát hiện vai trò kết hợp
cả hai phương pháp đã được trình bày ở trên. Trước tiên, mô hình sẽ sử dụng nội dung
trao đổi (email) để phân cụm người dùng trong mạng vào những nhóm người có cùng
vị trí và gán vai trò cho những cụm này. Ở bước này, vai trò không được xác định
trước, và được mô hình hoá trong mạng Bayesian như là một biến ngẫu nhiên ẩn. Sau
đó, trong mỗi cụm vai trò, định nghĩa một cặp vai trò cấp trên – cấp dưới cho mỗi mối
quan hệ giữa 2 người trong cụm và xây dựng cây đồ thị vai trò phân cấp, nhằm mục
đích tìm ra người có tầm ảnh hưởng lớn nhất trong cụm vai trò.

6


Tóm tắt chương 1
Chương 1 đã trình bày tổng quan về mạng xã hội, cấu trúc và lịch sử phân tích
mạng xã hội. Đồng thời chương này cũng đã khái quát một số phương pháp và cách
tiếp cận bài toán phát hiện vai trò trong mạng xã hội.
Chương 2 của luận văn sẽ giới thiệu một số công trình nghiên cứu phát hiện vai
trò trong mạng xã hội. Đồng thời sẽ trình bày chi tiết phương pháp nổi bật phát hiện
vai trò phân cấp giữa các cặp đối tượng trong xã hội và phương pháp phát hiện vai trò
cũng như chủ đề dựa trên nội dung trao đổi trong mạng.

7


Chương 2. Một số phương pháp phát hiện vai trò trong
mạng xã hội
Như đã trình bày ở chương trước, phát hiện vai trò trong mạng xã hội đã được
quan tâm nghiên cứu và phát triển trong nhiều lĩnh vực. Chương này sẽ tập trung giới
thiệu chi tiết một số công trình nghiên cứu điển hình về phát hiện vai trò trong mạng
xã hội dựa vào nội dung và cấu trúc mạng.

2.1 Tổng quan về một số phương pháp phát hiện vai trò trong mạng xã
hội
Cùng với sự gia tăng nhanh chóng của các mạng xã hội, đã có rất nhiều công
trình nghiên cứu về bài toán phát hiện vai trò trong mạng xã hội được công bố. Các
nghiên cứu này rất đa dạng, bao gồm cả khai phá cấu trúc mạng xã hội và khai phá nội
dung trong mạng.
Daud và cộng sự [9] đã nghiên cứu nội dung những bài công bố khoa học tại các
hội nghị nhằm tìm kiếm vai trò chuyên gia. Mỗi tác giả trong một hội nghị được biểu

diễn bởi một phân phối xác suất trên các chủ đề, mỗi chủ đề được biểu diễn bởi một
phân phối xác suất trên các từ và năm diễn ra hội nghị. Vai trò chuyên gia được xác
định thông qua việc phát hiện các chủ đề ẩn bằng cách mô hình hoá từ - tác giả, tác giả
- tác giả và tác giả - hội nghị với hiệu ứng thời gian liên tục.
Trong một số nghiên cứu khác, vai trò được định nghĩa trước và có thể phát hiện
được bằng việc xác định các đối tượng thoả mãn một số tiêu chí nhất định. Các vai trò
này có thể là vai trò chuyên gia, người có tầm ảnh hưởng, hoặc các vai trò cụ thể trong
các nhóm thảo luận trực tuyến.
Trong nghiên cứu về các thuật toán xếp hạng dựa trên đồ thị, Dom và cộng sự [8]
đã xây dựng một mô hình phát hiện chuyên gia trong mạng email. Vai trò chuyên gia
được xác định cho từng lĩnh vực cụ thể được trao đổi thông qua các email. Đầu tiên,
mức độ chuyên gia được đánh giá dựa trên sự hiểu biết về lĩnh vực của mỗi tác nhân
trong một cặp tác nhân có trao đổi email về lĩnh vực đó. Sau đó, các thuật toán tính
hạng được áp dụng để xếp hạng chuyên gia cho toàn mạng.
Phát hiện người có tầm ảnh hưởng trong mạng xã hội cũng là một chủ đề nhận
được rất nhiều sự quan tâm nghiên cứu. Agarwal và cộng sự [2] đã mô hình hoá ảnh
hưởng của các blogger trong một cộng đồng bằng việc phân tích các liên kết và các
thuộc tính trong bài đăng. Các tác giả định nghĩa một blogger được xem là có sức ảnh
hưởng nếu người ấy có ít nhất một bài đăng có sức ảnh hưởng. Chủ đề này cũng được
thảo luận trong [26], trong đó, các tác giả tập trung vào tìm kiếm các tác nhân có ảnh
hưởng nhất trong mạng. Họ giả định rằng việc một người trong mạng áp dụng một ý
tưởng hay mua một sản phẩm có khả ảnh hưởng đến các nút hàng xóm của người đó.
8


Vì vậy, người có ảnh hưởng nhất là người bắt đầu chuỗi hoạt động này mà sau đó có
thể tạo ra số lượng lớn nhất những người có cùng hoạt động.
Một số nghiên cứu khác tập trung vào các mạng thảo luận trực tuyến (forums,
blogs, emails), cụ thể như Twitter, Yahoo!Group [28][2]. Vì các mạng này có cấu trúc
khác nhau nên thường có những loại vai trò khác nhau. Welser và cộng sự [32] khi

nghiên cứu về các nhóm tin tức đã định nghĩa 2 vai trò: người trả lời và người thảo
luận. Vai trò người trả lời được xác định cho người có xu hướng trả lời cho các chủ đề
được khởi tạo bởi những người khác và thường chỉ trả lời một số ít lần cho những
người khác nhau. Ngược lại, người thảo luận thường trả lời trong chủ đề do chính
người đó khởi tạo hoặc trao đổi rất thường xuyên trong một chủ đề của người khác.
Trabaco và cộng sự [29] đã xây dựng một máy tìm kiếm vai trò từ những người
dùng phương tiện xã hội. Các tác giả định nghĩa 14 đặc trưng phản ánh vai trò và tìm
kiếm 4 vai trò quan trọng là: người nổi tiếng (Celebrities), người lãnh đạo
(Information propagators), người quảng bá (Promoters), người nhanh nhạy (Early
adopters). Dựa trên những nghiên cứu này, Đinh Thị Hương [1] đã xây dựng một mô
hình máy tìm kiếm vai trò trong mạng xã hội Twitter, có bổ sung thêm một số vai trò
và đặc trưng.
Về cơ bản, các nghiên cứu phát hiện vai trò trong mạng xã hội thường sử dụng
các mô hình xác suất và các kỹ thuật phân tích mạng để phân tích cấu trúc, nội dung
thông tin trao đổi và các hoạt động của người dùng trong mạng nhằm tìm ra những cá
nhân nổi bật hoặc những nhóm người có vai trò tương tự nhau hay thoả mãn một số
tiêu chí nào đó. Tuy lĩnh vực này đã nhận được nhiều sự quan tâm nghiên cứu, nhưng
sự phức tạp trong hành xử và tương tác của người dùng trong mạng xã hội vẫn còn đặt
ra nhiều thách thức cần phải giải quyết.

2.2 Mô hình Role-Author-Recipient-Topic phát hiện vai trò và chủ đề
trong mạng xã hội
McCallum và cộng sự [6] đề xuất mô hình ART (Author-Recipient-Topic) tìm
chủ đề giữa các cặp người gửi – người nhận thông qua nội dung các email, sử dụng mô
hình LDA (Latent Dirichlet Allocation). Kết quả đầu ra của mô hình này là các chủ đề
và các cặp người gửi – người nhận có trao đổi email về chủ đề với phân phối xác suất
tương ứng. Một nhóm các chủ đề tương đồng có thể xác định một vai trò. Do đó, để
khai phá tốt hơn vai trò của người gửi, các tác giả đã mở rộng mô hình bằng cách bổ
sung thêm các biến ẩn. Mô hình mở rộng là RART (Role-Author-Recipient-Topic),
phát hiện vai trò của từng người trong mạng bằng cách phân cụm độ tương đồng giữa

mọi người. Độ tương đồng này được đánh giá bằng cách sử dụng hiệu quả phân phối
chủ đề có điều kiện. Việc phân cụm được thực hiện đồng thời với việc phát hiện chủ
đề bằng việc sử dụng các biến ẩn cho vai trò người gửi và người nhận.

9


Một người có thể có nhiều vai trò, ví dụ một người vừa có thể là giáo sư, vừa là
nhà leo núi. Mỗi vai trò tương ứng với một tập các chủ đề, và các chủ đề này có thể
chồng lên nhau. Ví dụ, chủ đề về giáo sư có thể là về nghiên cứu thuộc tính, thời gian
hội họp, đề nghị tài trợ, và các mối quan hệ bạn bè; Chủ đề về leo núi có thể gồm các
đặc trưng về núi, thiết bị leo núi, và cũng bao gồm thời gian hội họp và quan hệ bạn
bè.
Trong RART, tác giả, vai trò và nội dung văn bản được mô hình đồng thời. Mỗi
tác giả có một phân phối đa thức trên tập vai trò. Mỗi người gửi và người nhận được
ánh xạ tới một số vai trò, và một chủ đề được chọn dựa trên những vai trò này. Do đó,
chúng ta có một mô hình phân cụm, trong đó sự xuất hiện của các chủ đề là những dữ
liệu cơ bản và tập hợp các chủ đề tương đồng xác định một vai trò. Mỗi cặp vai trò
người gửi và vai trò người nhận có một phân phối đa thức trên các chủ đề, và mỗi chủ
đề có một phân phối đa thức trên các từ.

Hình 2.1: Ba mô hình tham số RART [6]
Nhóm tác giả đã đưa ra 3 mô hình sử dụng các chiến lược khác nhau để kết hợp
các biến ẩn. Trong mô hình RART1, vai trò được gán riêng rẽ cho mỗi từ. Với mô
hình này, mỗi người có thể thay đổi vai trò trong chuỗi email. Trái lại, ở mô hình
RART2, mỗi người chỉ có một vai trò nhất định trong suốt chuỗi email. Mỗi người
nhận tin nhắn chọn một vai trò, và sau đó với mỗi từ, một người nhận với trò tương
ứng được chọn trên điều kiện lựa chọn chủ đề. Ở mô hình RART3, người nhận chia sẻ
vai trò chung, vai trò này sau đó được sử dụng làm điều kiện lựa chọn mỗi từ trong tin
nhắn. Mô hình này có thể giúp nắm bắt được thực tế là vai trò của một người có thể

phụ thuộc vào những người nhận khác nhưng cũng ngăn cản những người khác nhận
một vai trò.
Sau đây sẽ mô tả chi tiết các mô hình RART.
10








T: Tập chủ đề.
R: Tập vai trò.
A: Tập tài khoản email.
D: Tập nội dung email.
Nd: Số từ đặc trưng cho email d.

Ở quá trình duyệt mỗi email trong mô hình RART1, một người gửi ad và một
tập người nhận rd được quan sát. Để sinh mỗi từ, một người nhận x được chọn từ tập
rd. Vai trò g cho người gửi và vai trò h cho người nhận x được sinh ra từ 2 hàm phân
phối đa thức 𝛹𝑎 𝑑 và 𝛹𝑥 tương ứng. Tiếp theo, một chủ đề z được chọn từ một phân
phối chủ đề 𝜃𝑔𝑕 , được xác định cho mỗi cặp vai trò người gửi – vai trò người nhận
(g,h). Cuối cùng, từ w được sinh ra bằng cách lấy mẫu từ hàm phân phối đa thức xác
định chủ để 𝛷𝑧 .
Các tham số 𝛼, 𝛽 và γ, người gửi 𝑎𝑑 và tập người nhận 𝒓𝒅 cho mỗi email d
được cho trước. Phân phối có điều kiện của hỗn hợp chủ đề 𝜃𝑖𝑗 cho mỗi cặp vai trò
người gửi – vai trò người nhận (i, j), vai trò 𝛹𝑘 cho mỗi người gửi k, tập từ 𝛷𝑡 cho mỗi
chủ đề t, tập người nhận x, tập vai trò người gửi g, tập vai trò người nhận h, tập chủ đề
z và tập từ w được tính bởi công thức sau:

P Θ, Φ, Ψ, 𝐱, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
R

R

T

=

A

p(𝜃ij |𝛼)
i=1 j=1

p(𝜙t |𝛽)
t=1

Nd

D

p(𝜓k |𝛾)
k=1

P(xdi |rd )P(g di |ad ) P(hdi |xdi )P(zdi |𝜃g di h di )P(wdi |𝜙z di )
d=1 i=1

Với mô hình RART2, vai trò gd cho người gửi và tập vai trò hd cho tập người
nhận được sinh ra từ 2 hàm phân phối đa thức 𝛹𝑎 𝑑 và 𝛹𝑟 𝑑 tương ứng. Để sinh mỗi từ,
một vai trò người nhận h được chọn từ tập vai trò hd. Phân phối có điều kiện của mô

hình RART2 được tính bởi công thức sau:
P Θ, Φ, Ψ, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
R

R

T

=

A

p(𝜃ij |𝛼)
i=1 j=1

p(𝜙t |𝛽)
t=1

Nd

D

p(𝜓k |𝛾)
k=1

P(hd |rd )P(g d |ad ) P(hdi |hd )P(zdi |𝜃g d h di )P(wdi |𝜙z di )
d=1 i=1

Với mô hình RART3, tập người nhận có cùng vai trò hd và không thay đổi trong
mỗi email. Tương tự như trên, phân phối có điều kiện của hỗn hợp chủ đề 𝜃𝑖𝑗 cho mỗi

cặp vai trò người gửi – vai trò người nhận (i, j), vai trò 𝛹𝑘 cho mỗi người gửi k, tập từ
𝛷𝑡 cho mỗi chủ đề t, tập vai trò người gửi g, tập vai trò người nhận h, tập chủ đề z và
tập từ w được tính bởi công thức sau:
P Θ, Φ, Ψ, 𝐠, 𝐡, 𝐳, 𝐰 α, β, γ, 𝐚, 𝐫
R

R

=

T

p(𝜃ij |𝛼)
i=1 j=1

A

p(𝜙t |𝛽)
t=1

D

Nd

p(𝜓k |𝛾)
k=1

P(hd |rd )P(g d |ad ) P(zdi |𝜃g d h d )P(wdi |𝜙z di )
d=1 i=1


11


Để thực thi mô hình RART, nhóm tác giả sử dụng thuật toán lấy mẫu Gibbs. Mô
hình RART1 được thực nghiệm với tập dữ liệu email của chính tác giả McCallum, bao
gồm 23,488 emails của 825 người, được gửi và nhận bởi McCallum từ tháng 1 đến
tháng 10 năm 2014.
Để đơn giản hoá thủ tục lấy mẫu, thay vì phải thực hiện việc lấy mẫu 2 lần cho
mỗi tập biến ấn của vai trò người gửi và vai trò người nhận, các tác giả đã tiến hành
huấn luyện mô hình ART trước, sau đó sử dụng mẫu để gán chủ đề và người nhận cho
mỗi từ. Ở bước tiếp theo, chủ đề và người nhận được xem như là đã quan sát được.

Hình 2.2: Ví dụ về 2 vai trò từ tập dữ liệu email McCallum với 50 chủ đề và
15 nhóm [6]
Kết quả thực nghiệm cho thấy mô hình RART có thể phát hiện những thông tin
vai trò hữu ích. Ví dụ, những người dùng nổi bật nhất trong Vai trò 3 (Hình 2.2) đều là
nhân viên của phòng IT tại UMass CS, ngoại trừ Allan, tuy nhiên ông lại là giáo sư
chủ nhiệm ban tính toán của các bộ phận. Vai trò 4 là nhóm những người làm việc tại
dự án SRI CALO. Trên thực tế, phần lớn những người này là các nhà nghiên cứu làm
việc trong dự án CALO, và nhiều người trong số họ làm tại SRI. Người gửi
majordomo gửi các email từ danh sách thư điện tử SRI CALO. Tài khoản email
mgervasio và melinda.gervasio thực chất là của cùng một người.

Hình 2.3: Ví dụ về phân phối vai trò của 2 người trong tập dữ liệu email
McCallum [6]
Một mục tiêu khác của RART là có thể phát hiện được nhiều vai trò của một
người. Ví dụ, allan (James Allan) có vai trò trong việc “hỗ trợ IT”, nhưng cũng có vai
trò như là một “thành viên của Trung tâm thu nhận thông tin thông minh”, đồng thời
ông còn là người “cấp đề xuất”, và là một “nhà nghiên cứu ngôn ngữ tự nhiên”. Mặc
dù không phải là một thành viên của dự án SRI CALO nhưng Allan làm các nghiên

cứu liên quan đến CALO, vì thế đây có thể là lý do mà CALO xuất hiện trong tập vai
12


trò của ông với một xác suất rất thấp. Có thể nói tốp 5 vai trò của Allan hoàn toàn
trùng khớp với thực tế.

2.3 Mô hình phát hiện vai trò người hướng dẫn – người được hướng
dẫn từ mạng các bài báo nghiên cứu khoa học
Chi Wang và cộng sự, 2010 [31] đã đề xuất một mô hình đồ thị tham số xác suất
phụ thuộc thời gian (TPFG) nhằm phát hiện vai trò của các nhà nghiên cứu trong mạng
các bài công bố khoa học. Các tác giả định nghĩa trước 2 vai trò người hướng dẫn và
người được hướng dẫn cho mỗi cặp tác giả cùng đứng tên trong một bài báo. Hướng
tiếp cận được tiến hành dựa trên các bước tiền xử lý, biểu diễn mạng các bài báo khoa
học và các tác giả dưới dạng đồ thị, trong đó mỗi đỉnh tương ứng với một tác giả và
mỗi cạnh nối giữa 2 đỉnh biểu diễn cho mối quan hệ đồng tác giả. Sau đó, dựa vào các
luật và sự hiểu biết về đặc trưng dữ liệu để loại bỏ bớt đi các cạnh không giống với
mối quan hệ người hướng dẫn – người được hướng dẫn, đồng thời nối các cạnh còn lại
trực tiếp từ người được hướng dẫn tới người có khả năng là hướng dẫn, và ước lượng
năm bắt đầu, năm kết thúc mối quan hệ hướng dẫn. Tiếp theo, mô hình sử dụng hàm
mục tiêu khả năng xảy ra đồng thời (jointly likelihood objective function) để kết hợp
thời gian hướng dẫn và khả năng hướng dẫn trong xác suất toàn cục của các biến ẩn.
Cuối cùng, mô hình xây dựng một thuật toán học hiệu quả để tối ưu hoá hàm mục tiêu
thông qua quá trình truyền tin trên mạng. Dựa trên mô hình này, các tác giả đã chỉ ra
và xếp hạng khả năng một nhà khoa học có thể là người hướng dẫn của một tác giả
nào đó cùng với khoảng thời gian hướng dẫn.
a. Xây dựng bài toán
 Bước 1:
Biểu diễn mạng các bài báo khoa học dưới dạng đồ thị 𝐺 có đỉnh là các bài công
bố khoa học và các tác giả đứng tên trong bài báo:

𝐺 = { 𝑉𝑝 ∪ 𝑉𝑎 , 𝐸 }
Trong đó:
-

𝑉 𝑝 = {𝑝1 , … . , 𝑝𝑛 𝑝 } là tập hợp các bài báo khoa học với 𝑝𝑖 là bài báo được

công bố tại thời điểm 𝑡𝑖 .
- 𝑉 𝑎 = {𝑎1 , … . , 𝑎𝑛 𝑎 } là tập hợp các tác giả.
- 𝐸 là tập hợp các cạnh. Mỗi cạnh 𝑒𝑖𝑗 ∈ 𝐸 tương ứng với 𝑎𝑗 là một tác giả của
𝑝𝑖 (một bài báo có thể có nhiều tác giả).
 Bước 2:
Biến đổi đồ thị không đồng nhất 𝐺 thành độ thị đồng nhất 𝐺’ chỉ chứa đỉnh là các
tác giả:
13


𝐺′ = (𝑉′, 𝐸′, 𝑝𝑦𝑖𝑗

𝑒 𝑖𝑗 ∈𝐸 ′

, 𝑝𝑛𝑖𝑗

𝑒 𝑖𝑗 ∈𝐸 ′

)

Trong đó:
- 𝑉 ′ = {𝑎0 , … , 𝑎𝑛 𝑎 } là tập hợp các tác giả (bao gồm cả nút ảo a0 là gốc của cây
hướng dẫn).
- Mỗi cạnh 𝑒′𝑖𝑗 = (𝑖, 𝑗) ∈ 𝐸 kết nối 2 đỉnh 𝑎𝑖 và 𝑎𝑗 khi và chỉ khi 2 tác giả này

là đồng tác giả của một bài báo.
- 𝑝𝑦𝑖𝑗 và 𝑝𝑛𝑖𝑗 là 2 véc tơ tương ứng với độ dài cạnh, xác định năm mà 2 tác giả
có chung bài công bố khoa học và số bài báo mà hai người cùng đứng tên
trong năm đó.
Tương tự, ta liên kết với mỗi tác giả 2 véc tơ 𝑝𝑦𝑖 và 𝑝𝑛𝑖 tương ứng là năm công
bố và số bài báo của tác giả 𝑎𝑖 , 2 véc tơ này có thể lấy được từ 𝑝𝑦𝑖𝑗 và 𝑝𝑛𝑖𝑗
 Bước 3:
Xây dựng đồ thị 𝐻’ từ 𝐺’ (𝐻’ ⊂ 𝐺´) bằng cách bỏ đi một số cạnh của 𝐺’ và nối
các cạnh còn lại trực tiếp từ người được hướng dẫn tới người có khả năng là người
hướng dẫn.
𝐻’ = (𝑉’, 𝐸′𝑠 ), 𝐸′𝑠 ⊂ 𝐸′
Để tìm mối quan hệ người hướng dẫn - người được hướng dẫn, chúng ta không
những phải quyết định giá trị biến ẩn 𝑦𝑖 cho mỗi tác giả 𝑎𝑖 , mà còn phải ước lượng
năm bắt đầu và kết thúc hướng dẫn 𝑠𝑡𝑖𝑦 𝑖 , 𝑒𝑑𝑖𝑦 𝑖 . Trong thực thế, vấn đề phức tạp hơn:
(i)

Một người có thể có nhiều người hướng dẫn như là các học viên cao học,
tiến sĩ, sau tiến sĩ.
(ii) Một số người là cố vấn trong các ngành công nghiệp cũng có hành xử
giống như những người hướng dẫn hàn lâm nếu chỉ đánh giá bởi lịch sử
cộng tác.
(iii) Người hướng dẫn của một tác giả có thể bị mất dữ liệu.
Do đó, thay vì sử dụng mô hình đúng – sai, Wang và cộng sự áp dụng một mô
hình xác suất để xếp hạng khả năng một nhà khoa học là hướng dẫn của một tác giả.
Xác định 𝑟𝑖𝑗 là khả năng tác giả 𝑎𝑗 là người hướng dẫn của tác giả 𝑎𝑖 .
Trong 𝐻’, chỉ số tập hợp các tác giả có khả năng là hướng dẫn của tác giả 𝑎𝑖
được xác định bởi 𝑌𝑖 = {𝑗|𝑒𝑖𝑗 ∈ 𝐸′𝑠 }. Ví dụ 𝑌3 = {0,1}.

14



×