Tải bản đầy đủ (.pdf) (108 trang)

Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.48 MB, 108 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Minh Chuẩn

NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT
TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC
Ngành: Hệ thống thông tin
Mã số: 9480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Thanh Hương
2. PGS.TS. Trần Đình Khang

Hà Nội - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nghiên cứu và phát triển một số
độ đo liên kết trong bài toán khuyến nghị cộng tác” là công trình nghiên cứu của riêng tôi,
dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Tất cả các
kết quả, số liệu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công
trình này.
Hà Nội, ngày tháng

năm 2018

TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC


TÁC GIẢ LUẬN ÁN

PGS.TS. Lê Thanh Hương

Phạm Minh Chuẩn

2


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Thầy và cô đã luôn tận tình giúp
đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình. Đồng thời tôi cũng xin cảm ơn TS. Lê Hoàng
Sơn Trung tâm Tính toán Hiệu năng cao – ĐH KHTN – ĐHQGHN đã tạo điều kiện, giúp
đỡ tôi hoàn thành luận án này.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông
tin, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi
học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá
trình nghiên cứu. Xin cám ơn các bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện
CNTT & TT, đặc biệt là bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài năng CNTT K58 đã hỗ
trợ tôi trong việc thu thập dữ liệu để phục vụ cho quá trình thực nghiệm.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên,
nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn
thành luận án này.
Xin gửi lời cám ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân
hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.

Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn
động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Nghiên cứu sinh

Phạm Minh Chuẩn

3


MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................. 2
LỜI CẢM ƠN........................................................................................................................ 3
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 6
DANH MỤC CÁC BẢNG .................................................................................................... 8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ............................................................................ 9
MỞ ĐẦU ............................................................................................................................. 11
1.

TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................. 16
1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả........................................... 16
1.1.1 Mạng xã hội và mạng đồng tác giả ..................................................................... 16
1.1.2 Bài toán khuyến nghị cộng tác ........................................................................... 20
1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả ................................ 26
1.2. Một số kiến thức liên quan ....................................................................................... 34
1.2.1. Các phương pháp phân lớp ................................................................................ 34
1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ ..................................................... 38
1.2.3. Phân tích theo chủ đề ......................................................................................... 41
1.3. Kết luận..................................................................................................................... 43


2.

CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ ............... 44
2.1. Độ đo liên kết dựa trên trọng số mở rộng ................................................................. 44
2.2. Các độ đo liên kết dựa trên nội dung bài báo ........................................................... 46
2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán .................... 50
2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả............................................... 58
2.4.1. Chuẩn bị dữ liệu ................................................................................................ 58
2.4.2. Kịch bản thực nghiệm........................................................................................ 60
2.4.3. Kết quả thực nghiệm.......................................................................................... 63
2.5 Kết luận...................................................................................................................... 77

3.

BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................................................ 78

4


3.1. Giới thiệu .................................................................................................................. 78
3.2. Khuyến nghị cộng tác mới ........................................................................................ 79
3.3. Khuyến nghị cộng tác tăng cường ............................................................................ 88
3.3. Kết luận..................................................................................................................... 96
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 97
TÀI LIỆU THAM KHẢO ................................................................................................... 99
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 108

5



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

Giải thích

AA

Adamic & Adar

Độ đo liên kết AA

AUC

Area under the curve

Tiêu chí đánh giá phân lớp

CN

Common Neighbours

Độ đo liên kết láng giềng chung

JC

Jaccard Coefficient

Độ đo liên kết JC


LDA

Latent Dirichlet Allocation

Phương pháp phân tích chủ đề

OSN

Online Social Network

Mạng xã hội trực tuyến

OHUSN

Online HomogeneousUndirected
Social Networks

Mạng xã hội vô hướng đồng nhất
trực tuyến

SMO

Sequential Minimal Optimization

Tối ưu hóa cực tiểu lần lượt

SVM

Support Vector Machines


Máy véc-tơ hỗ trợ

WAA

Weighted Adamic & Adar

Độ đo liên kết trọng số dựa trên
AA

WCN

Weighted Common Neighbours

Độ đo liên kết trọng số dựa trên
láng giềng chung

WJC

Weighted Jaccard Coefficient

Độ đo liên kết trọng số dựa trên
JC

TF-IDF

Term Frequency - Inverse
Document Frequency

Trọng số từ


SPIRES

Stanford Public Information
Retrieval System

Hệ thống truy xuất thông tin công
khai Stanford

NCSTRL

Networked Computer Science
Technical Reference Library

Mạng thư viện tham chiếu khoa
học máy tính

AMC

Applied Mathematics and
Computation

Tạp chí toán ứng dụng và tính
toán

BJ

Biophysical Journal

Tạp chí lý sinh


CF

Collaborative Filtering

Lọc cộng tác

CB

Content-based

Dựa trên nội dung

6


KMC

Keywords match count

Đếm các từ khóa chung

AKMC

Abtract keywords match count

Đếm các từ chung trong nội dung
tóm tắt

FCM


Fuzzy C-means

Phân cụm mờ

SSSFC

Semi-Supervised Standard Fuzzy
Clustering

Phân cụm bán giám sát mờ

7


DANH MỤC CÁC BẢNG
Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo .................................................. 19
Bảng 1.2 Các phương pháp phân lớp được sử dụng ........................................................... 33
Bảng 2.1 Thống kê trên các bộ dữ liệu ............................................................................... 59
Bảng 2.2 Thống kê tập dữ liệu ............................................................................................ 60
Bảng 2.3 Kịch bản thực nghiệm với các độ đo liên kế ....................................................... 60
Bảng 2.4 Kịch bản thực nghiệm với các độ đo liên kết mở rộng ........................................ 61
Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 2 .......................... 62
Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 3 .......................... 62
Bảng 2.7 Giá trị Recall@N với các tham số tối ưu trên AMC ........................................... 65
Bảng 2.8 Giá trị Recall ứng với các tham số tối ưu trên BJ ................................................ 67
Bảng 2.9 Giá trị chỉ số đánh giá trên AMC đối với các tổ hợp độ đo liên kết trọng số và mở
rộng ............................................................................................................................ 69
Bảng 3.1 Thống kê các tập dữ liệu ...................................................................................... 83
Bảng 3.2 Tập các đặc trưng trong thực nghiệm khuyến nghị cộng tác mới ....................... 83

Bảng 3.3 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 84
Bảng 3.4 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.5 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.6 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 85
Bảng 3.7 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 85
Bảng 3.8 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 85
Bảng 3.9 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 86
Bảng 3.10 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 86
Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và
(3.1) ứng với từng tác giả được khuyến nghị. ............................................................ 95

8


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết ......................................... 17
Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp........................................................ 18
Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002
dưới dạng đồ thị ......................................................................................................... 19
Hình 1.4 Quá trình sinh của LDA (Nguồn [10])................................................................. 42
Hình 2.1 Minh họa độ đo liên kết mở rộng......................................................................... 46
Hình 2.2 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên AMC . 63
Hình 2.3 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên BJ ...... 63
Hình 2.4 Giá trị Recall@N với số lượng chủ đề và tham số  đối với LDAcosin trên AMC

.................................................................................................................................... 64
Hình 2.5 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.6 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.7 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên AMC
.................................................................................................................................... 66
Hình 2.8 Giá trị Recall ứng với số lượng chủ đề và tham số  đối với độ đo liên kết LDAcosin
trên BJ ........................................................................................................................ 66
Hình 2.9 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 67
Hình 2.10 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.11 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.12 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên AMC ............................................................................................... 69
Hình 2.13 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và
Weight2_#) trên AMC ............................................................................................... 70
Hình 2.14 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên AMC ............................................................................................... 70
Hình 2.15 So sánh giá trị AUC ứng với các tổ hợp độ đo liên kết (Weight#, và Weight#_#)
trên AMC ................................................................................................................... 71

9


Hình 2.16 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên BJ .................................................................................................... 72
Hình 2.17 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và

Weight2_#) trên BJ .................................................................................................... 72
Hình 2.18 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên BJ .................................................................................................... 73
Hình 2.19 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên
BJ ............................................................................................................................... 73
Hình 2.20 Giá trị F1-measure của các tổ hợp độ đo liên kết Weight#_P_LDAcosin trên AMC
theo số lượng chủ đề .................................................................................................. 74
Hình 2.21 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 74
Hình 2.22 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 75
Hình 3.1 Minh họa giao diện khuyến nghị cộng tác ........................................................... 78
Hình 3.2 Các bước khuyến nghị cộng tác mới dựa trên phân lớp ...................................... 80
Hình 3.3 Các bước thực hiện khuyến nghị cộng tác mới dựa trên phân cụm bán giám sát mờ
.................................................................................................................................... 81
Hình 3.4 So sánh giá trị chỉ số đánh giá Recall TBC giữa khuyến nghị cộng tác mới dựa trên
Classifier và SSSFC ................................................................................................... 86
Hình 3.5 So sánh giá trị chỉ số đánh giá Precision TBC giữa khuyến nghị cộng tác mới dựa
trên Classifier và SSSFC ............................................................................................ 87
Hình 3.6 So sánh giá trị chỉ số đánh giá F1-measure TBC giữa khuyến nghị cộng tác mới
dựa trên Classifier và SSSFC ..................................................................................... 87
Hình 3.7 Các bước thực hiện khuyến nghị cộng tác tăng cường ........................................ 88
Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (1.1) ...................... 93
Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (3.1) ...................... 93
Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường
hợp.............................................................................................................................. 94

10



MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, với sự phát triển của mạng xã hội liên quan đến thông tin cá nhân của nhiều
người, việc gợi ý tự động cho người sử dụng các thông tin cũng như các sản phẩm có thể họ
muốn mua hoặc quan tâm, các cá nhân có cùng sở thích hoặc cùng lĩnh vực nghiên cứu với
họ là một việc khả thi và đem lại nhiều lợi ích cho con người. Các hệ gợi ý hay còn gọi là hệ
khuyến nghị đã được quan tâm nghiên cứu và phát triển nhanh chóng trong thời gian gần
đây, đặc biệt các hệ khuyến nghị trong thương mại điện tử đem lại nhiều lợi nhuận cho các
nhà bán sản phẩm. Bên cạnh các hệ khuyến nghị trong thương mại điện tử, các hệ khuyến
nghị liên quan đến khoa học kỹ thuật cũng được quan tâm nghiên cứu. Ví dụ, LinkedIn và
ResearchGate khuyến nghị các công việc mà ai đó (hoặc người dùng nào đó) có thể ứng
tuyển, thông báo các thông tin liên quan đến các nhà khoa học có các công trình nghiên cứu
được tham chiếu trong các bài báo khoa học, v.v. Tuy nhiên, việc khuyến nghị các tác giả
có các nghiên cứu liên quan đến nhau để hợp tác trong tương lai còn chưa được đưa vào
trong các mạng xã hội này. Đây cũng là những khuyến nghị rất có giá trị giúp cho các nhà
nghiên cứu tăng cường hợp tác để tạo ra các công trình khoa học mới trong tương lai. Bài
toán khuyến nghị các nhà nghiên cứu có tiềm năng hợp tác còn được gọi với tên là bài toán
khuyến nghị cộng tác trong mạng đồng tác giả. Trong luận án này, khái niệm “khuyến nghị
cộng tác” (“Collaborations Recommendation” được sử dụng trong [54]) mang hàm ý về sự
khuyến nghị hợp tác trong việc xuất bản bài báo khoa học giữa các nhà nghiên cứu (tác giả).
Ở đây, mạng đồng tác giả là một mạng xã hội trong đó các nút là các nhà khoa học, các cạnh
là các mối cộng tác khoa học giữa các nhà khoa học.
Bài toán khuyến nghị cộng tác trong mạng đồng tác giả được phát biểu như sau:
Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t,
với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác

(Collaboration) với tác giả u trong tương lai (từ thời điểm t’ > t).
Các vấn đề nghiên cứu trong mạng đồng tác giả luôn thú vị bởi tính phức tạp chung
của bài toán khuyến nghị cộng tác. Mặt khác, việc xây dựng được một mô hình khuyến nghị
cộng tác nghiên cứu sẽ thúc đẩy quá trình giao lưu và hợp tác trong nghiên cứu khoa học.
Đây là một thách thức cần vượt qua nhưng cũng hứa hẹn nhiều ứng dụng thực tế.
Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng
xã hội, trong đó các độ đo liên kết giữa các cặp nút (tác giả) giữ vai trò quan trọng, làm cơ
sở để xác định khả năng hình thành liên kết (hợp tác) trong tương lai giữa các cặp nút (tác
giả). Hướng tiếp cận phổ biến là chuyển bài toán dự đoán liên kết về bài toán phân lớp nhị
phân [5] với lớp 1 là cặp nút có liên kết và lớp 0 là cặp nút không có liên kết. Ba yếu tố chính
ảnh hưởng đến độ chính xác của phân lớp bao gồm: phương pháp học máy, tập đặc trưng

11


(được xác định dựa trên giá trị độ đo liên kết) sử dụng trong phương pháp học máy, tỷ lệ
nhãn 0 hoặc 1 được dùng để phân lớp. Bài toán dự báo liên kết đã được nhiều nghiên cứu
quan tâm [23, 37, 39, 65, 66, 70, 82, 92, 96, 97, 98].
Các nghiên cứu trước đây về khuyến nghị cộng tác thường sử dụng một số độ đo liên
kết đã được đề xuất trong mạng xã hội để xây dựng tập đặc trưng. Thực nghiệm được tiến
hành trong các nghiên cứu đó đã chứng minh tính hiệu quả của các độ đo liên kết này trong
việc cải thiện độ chính xác đối với bài toán khuyến nghị cộng tác [5, 67, 70, 75, 92]
Tuy nhiên, mạng đồng tác giả là một mạng xã hội có nhiều đặc trưng riêng so với các
mạng xã hội nói chung. Ví dụ, mức độ cộng tác giữa hai tác giả cùng viết chung các bài báo
phụ thuộc vào số lượng bài báo, số lượng tác giả, thứ tự của các tác giả và thời gian công bố
của các bài báo mà hai tác giả đã viết chung. Ngoài ra, một nhân tố rất quan trọng có thể ảnh
hưởng đến việc cộng tác giữa các tác giả trong tương lai là sự tương đồng về lĩnh vực nghiên
cứu. Hai tác giả có thể nghiên cứu nhiều lĩnh vực khác nhau và nếu một số hướng nghiên
cứu chính có sự tương đồng cao thì tiềm năng cộng tác trong việc viết chung các bài báo
khoa học trong tương lai càng lớn.

Để đánh giá mức độ tương đồng về lĩnh vực nghiên cứu giữa hai tác giả đã có một số
nghiên cứu dựa trên cách thức khác nhau. Các nghiên cứu trong [5, 75, 92] dựa trên tập các
từ xuất hiện trong tên và nội dung tóm tắt của bài báo. Nghiên cứu [87] dựa trên việc biểu
diễn thông tin tên của tập các bài báo được viết bởi mỗi tác giả thông qua véc-tơ trọng số
TF-IDF còn nghiên cứu trong [54] lại dựa trên phân loại tên các bài báo vào các lĩnh vực
khác nhau để tính mức độ tương quan tổng thể giữa hai tác giả. Có thể nhận thấy, các phương
pháp đã đề xuất để đánh giá mức độ tương đồng, tương quan giữa hai tác giả dựa trên một
số thông tin của các bài báo khoa học như là tên, tập từ khóa, hay nội dung tóm tắt đã phản
ánh một phần mức độ tương đồng dựa trên ngữ nghĩa giữa hai tác giả.
Tuy nhiên, trên thực tế, mỗi nhà nghiên cứu khi công bố các bài báo khoa học ở các
tạp chí hoặc hội thảo có thể có cách hành văn khác nhau, trong đó một số từ ngữ đồng nghĩa
được sử dụng có thể phản ánh ý nghĩa tương tự nhau hoặc cùng có hàm ý về một số chủ đề
nghiên cứu nào đó. Chính vì thế, cần phải có một cách thức nào đó để biểu diễn mỗi bài báo
dựa trên thông tin bao gồm tên và nội dung tóm tắt, sao cho có thể phản ánh một cách đầy
đủ nhất sự tương đồng về mặt ngữ nghĩa giữa hai bài báo hoặc hai tập bài báo, làm cơ sở để
mở rộng các độ đo liên kết giữa hai tác giả, từ đó cải thiện độ chính xác đối với bài toán
khuyến nghị cộng tác trong mạng đồng tác giả.
Một số nghiên cứu gần đây [54, 57, 94, 100] đã đề xuất các mô hình để khuyến nghị
tập các ứng cử viên tiềm năng có thể tăng cường cộng tác hoặc sẽ cộng tác trong tương lai
đối với một nhà nghiên cứu. Một vấn đề cần được đặc biệt quan tâm đối với hệ khuyến nghị
cộng tác trong mạng đồng tác giả là tập các ứng cử viên được khuyến nghị cần phải thỏa
mãn về mức độ tương đồng về lĩnh vực nghiên cứu (thông qua tập các bài báo đã công bố).

12


Nếu khuyến nghị những ứng cử viên không có nhiều sự tương đồng về chuyên môn đối với
một tác giả nào đó thì sẽ không có ý nghĩa. Trên thực tế, việc thu thập thông tin đến lĩnh vực
nghiên cứu của từng tác giả là một vấn đề không dễ.
Do vậy, điều cần thiết nhằm tạo ra sự tin tưởng cho người được khuyến nghị là việc

xây dựng một mô hình khuyến nghị cộng tác cho các nhà nghiên cứu dựa trên các độ đo liên
kết và kèm theo minh chứng về mức độ tương đồng của lĩnh vực nghiên cứu dựa trên tập
các bài báo đã công bố.
Trong mạng đồng tác giả, vấn đề khó khăn là xác định mã duy nhất cho mỗi tác giả.
Có thể cách viết họ tên tác giả trong các bài báo như nhau nhưng thực ra lại là các tác giả
khác nhau. Điều đó dẫn đến việc xây dựng mạng đồng tác giả không phản ánh đúng thực tế
do không đảm bảo được việc định danh tác giả. Vì vậy, việc thu thập dữ liệu về mạng đồng
tác giả cần phải được thực hiện dựa trên việc đảm bảo sự định danh tác giả.
Từ những nhận xét và phân tích trên, có thể thấy rằng: để xây dựng được độ đo liên kết
mở rộng trong mạng đồng tác giả nhằm nâng cao hiệu quả khuyến nghị đồng thời làm cơ sở
xây dựng mô hình khuyến nghị với tính giải thích cao thông qua mức độ tương đồng về lĩnh
vực nghiên cứu cần phải tiến hành các bước nghiên cứu sau. Trước tiên, phải thu thập tập
dữ liệu xây dựng mạng đồng tác giả sao cho việc định danh chính xác nhất các tác giả. Sau
đó, mở rộng các độ đo liên kết dựa trên các thông tin đặc trưng của các bài báo như số lượng
tác giả, thứ tự xuất hiện của từng tác giả, thời gian công bố và nội dung (tên, nội dung tóm
tắt) của các bài báo.
2.

Mục tiêu nghiên cứu của luận án

Các mục tiêu chính của luận án là: Nghiên cứu, đề xuất một số độ đo liên kết mở rộng
dựa trên các thông tin đặc trưng (như thứ tự xuất hiện tên tác giả, thời gian công bố, nội dung
tóm tắt của các bài báo) và xây dựng phương pháp khuyến nghị cộng tác trong mạng đồng
tác giả. Thực nghiệm kiểm chứng đánh giá các độ đo liên kết mở rộng.
3.

Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:
(1) Nghiên cứu đặc trưng của mạng đồng tác giả, các độ đo liên kết và các phương
pháp, kỹ thuật sử dụng trong bài toán khuyến nghị cộng tác trên mạng đồng tác

giả.
(2) Nghiên cứu việc biểu diễn thông tin dựa trên nội dung các bài báo và cách thức
để xác định mức độ tương đồng giữa hai tập bài báo dựa trên nội dung làm cơ sở
để mở rộng các độ đo liên kết.
(3) Nghiên cứu và đề xuất giải pháp mở rộng độ đo liên kết áp dụng cho bài toán
khuyến nghị cộng tác trong mạng đồng tác giả.

13


(4) Nghiên cứu và đề xuất phương pháp khuyến nghị cộng tác trong mạng đồng tác
giả.
(5) Thu thập, chuẩn hóa dữ liệu về mạng đồng tác giả và tiến hành thực nghiệm kiểm
chứng các độ đo liên kết mở rộng đã được đề xuất và minh họa cho mô hình
khuyến nghị cộng tác.
4.

Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng và phạm vi nghiên cứu trọng tâm của luận án là bài toán dự đoán cộng tác
trong mạng đồng tác giả. Thông tin về các tác giả, đặc trưng của các bài báo, các độ đo liên
kết trên mạng đồng tác giả, và các kỹ thuật được sử dụng trong bài toán dự đoán liên kết
cũng là các đối tượng được nghiên cứu, phân tích. Để có được tập các đặc trưng như số
lượng tác giả, thứ tự xuất hiện của tác giả, thời gian công bố bài báo và thông tin về nội dung
tóm tắt của bài báo, luận án đã xây dựng một cơ sở dữ liệu về tập các bài báo được công bố
trên các tạp chí thông qua các nguồn chính như: AMC1 và BJ2.
5.

Phương pháp nghiên cứu


Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên cứu thực
nghiệm.
Về lý thuyết: luận án nghiên cứu tổng quan về mạng xã hội và mạng đồng tác giả, các
mô hình dự đoán liên kết và khuyến nghị trong mạng xã hội cũng như trong mạng đồng tác
giả. Ngoài ra, các kỹ thuật phân tích chủ đề, các phương pháp phân lớp nhị phân và các
phương pháp phân cụm bán giám sát mờ cũng được nghiên cứu để có thể áp dụng cho bài
toán khuyến nghị cộng tác.
Về thực nghiệm: luận án thu thập dữ liệu mạng đồng tác giả trên tập các bài báo được
công bố, tiến hành tiền xử lý dữ liệu để phân tích đặc trưng và đánh giá các độ đo liên kết
áp dụng vào bài toán khuyến nghị cộng tác, đồng thời so sánh các kết quả đạt được với những
kết quả thực nghiệm đã công bố.
6.

Ý nghĩa khoa học và thực tiễn của luận án

Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho
vấn đề khuyến nghị trong mạng đồng tác giả, làm cơ sở để tiến hành xây dựng phương pháp
khuyến nghị cộng tác có thể tích hợp trên một số hệ thống cơ sở dữ liệu học thuật như
ResearchGate, giúp các nhà nghiên cứu dễ dàng cộng tác trong khoa học, rút ngắn khoảng
cách về địa lý khi tìm kiếm đối tác nghiên cứu.

1
2

/> />
14


7.


Nội dung luận án
Nội dung chính của luận án được trình bày trong 3 chương như sau:
Chương 1. Tổng quan về bài toán khuyến nghị cộng tác

Trong chương này, luận án trình bày tổng quan về mạng xã hội và mạng đồng tác giả,
các nghiên cứu liên quan đến bài toán dự đoán liên kết và khuyến nghị cộng tác trong mạng
đồng tác giả. Luận án cũng hệ thống lại các độ đo liên kết và một số kỹ thuật được dùng
trong bài toán dự đoán liên kết và khuyến nghị cộng tác trên mạng đồng tác giả.
Chương 2. Các độ đo liên kết mở rộng trong mạng đồng tác giả
Nội dung chương này là đóng góp chính của luận án, trong đó tập trung trình bày cách
thức đề xuất mở rộng một số độ đo liên kết dựa trên trọng số và thông tin về nội dung tóm
tắt của các bài báo khoa học, tiến hành đánh giá hiệu quả của một số độ đo liên kết đã đề
xuất dựa trên phương pháp dự đoán dựa trên phân lớp và dựa trên độ đo liên kết.
Chương 3. Bài toán khuyến nghị cộng tác
Chương này tập trung đề xuất phương pháp khuyến nghị cộng tác trong mạng đồng tác
giả, có sử dụng đến mức độ tương đồng dựa trên bài báo với độ tương quan và các độ đo
liên kết mở rộng đã được đề xuất trong chương 2. Trong chương này, luận án trình bày các
thử nghiệm đã được tiến hành và đánh giá phương pháp.
Cuối cùng, chương kết luận tổng hợp các kết quả nghiên cứu đã đạt được, các đóng
góp khoa học của luận án, hướng mở rộng nghiên cứu và phát triển đề tài.

15


CHƯƠNG 1

1.

TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG
TÁC


Trong chương này, luận án trình bày tổng quan về bài toán khuyến nghị cộng tác trong
mạng đồng tác giả, các độ đo liên kết dựa trên trọng số và dựa trên ngữ nghĩa. Các kiến thức
liên quan như các phương pháp phân lớp, phân cụm mờ, phân cụm bán giám sát mờ và
phương pháp phân tích theo chủ đề cũng được trình trong chương này.

1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả
1.1.1 Mạng xã hội và mạng đồng tác giả
Sự bùng nổ của các dịch vụ trên Internet đã giúp cho con người trên toàn thế giới có thể
dễ dàng giao tiếp và trao đổi với nhau thông qua các cộng đồng ảo được biết đến như mạng
xã hội trực tuyến (Online Social Network - OSN). OSN đã trở thành một lĩnh vực nghiên
cứu kể từ năm 1967 [30] và công nghệ web 2.0 ra đời đã thúc đẩy sự phát triển các dịch vụ
mạng xã hội trực tuyến, trong đó các dịch vụ phổ biến có thể được kể đến như Facebook,
DBLP, LinkedIn, ResearchGate, Flickr, Youtube, v.v... Theo [80], “OSN hình thành các
cộng đồng trực tuyến có chung những sở thích, hoạt động, nền tảng kiến thức và (hoặc) tình
bạn. Phần lớn OSN dựa trên nền tảng web và cho phép người dùng đăng tải hồ sơ (văn bản,
hình ảnh, âm thanh và video), tương tác với nhau theo nhiều cách khác nhau”. Ngoài ra,
mạng xã hội được xem là một cấu trúc xã hội được tạo thành từ một tập hợp các tác nhân và
một tập hợp các mối quan hệ giữa các tác nhân này [89], một mạng xã hội có thể được biểu
diễn dưới dạng đồ thị, ở đó các nút đại diện cho các tác nhân (các cá nhân, các nhóm, hay
các tổ chức) và các cạnh tương ứng với mối ràng buộc/tương tác/mối quan hệ giữa các tác
nhân; như vậy các nút và các cạnh khác nhau sẽ cho ra các mạng loại xã hội khác nhau. Hầu
hết các nghiên cứu về dự đoán liên kết đã thực hiện [23, 43, 51, 52, 82, 102] đều tập trung
giải quyết vấn đề dự đoán liên kết trên các mạng xã hội vô hướng đồng nhất trực tuyến
(Online Homogeneous Undirected Social Networks – OHUSN). OHUSN là một OSN mà
các thực thể trong mạng cùng một loại, các liên kết giữa các thực thể là vô hướng và có cùng
một kiểu (chẳng hạn như Friendship Networks, Co-authorship Networks). Về một phương
diện nào đó, OHUSN đem lại cho người dùng một số tiện ích như sau [63]: Thứ nhất là hỗ
trợ việc tạo ra các kết nối bạn bè. Các mạng xã hội cho phép kết bạn như Facebook (có
khoảng trên một tỷ người dùng) và Twitter (có khoảng trên 200 triệu người dùng). Thứ hai

là hỗ trợ cộng tác. LinkedIn là một mạng xã hội bao gồm hơn 200 triệu chuyên gia, cho phép
người dùng chia sẻ thông tin khoa học và tìm kiếm các đối tác tiềm năng cộng tác. Thứ ba
là hỗ trợ việc trao đổi thông tin. Mạng thư điện tử là một ví dụ của mạng xã hội trao đổi

16


thông tin. Do số lượng người dùng rất lớn nên OHUSN đã tạo ra một khối lượng dữ liệu
khổng lồ theo thời gian và những dữ liệu này có các đặc trưng dễ nhận biết như chất lượng
cao, dữ liệu lớn, bán cấu trúc, thay đổi theo thời gian và phản ánh được một cách trực tiếp
con người trong xã hội thực [88].
Tuy nhiên, vấn đề khai phá và phân tích dữ liệu liên quan đến OSN nói chung cũng
như OHUSN nói riêng là một vấn đề không đơn giản vì gặp phải hai thách thức [87]: tính
không đầy đủ và tính biến động cao. Hầu hết dữ liệu mạng xã hội đã nhận được là không
đầy đủ vì chỉ có một phần thông tin xã hội được thu thập từ các nền tảng mạng xã hội. Mạng
xã hội còn có tính biến động cao do các nút và các liên kết có thể xuất hiện hoặc biến mất
trong tương lai.
Do vậy, việc dự đoán những liên kết bị khuyết hoặc không quan sát được trong OHUSN
hiện thời và việc thêm mới hoặc loại bỏ những liên kết trong OHUSN tương lai là một vấn
đề rất quan trọng [88]. Việc dự đoán này không chỉ nắm bắt được sự phát triển của OHUSN
mà còn làm cho OHUSN hiện tại trở nên đầy đủ hơn. Vấn đề này thường được biết đến như
vấn đề dự đoán liên kết trong OHUSN [88]. Cho tập các liên kết của một OHUSN tại thời
điểm t, hãy tìm cách dự đoán các liên kết sẽ được thêm vào OHUSN trong khoảng thời gian
từ thời điểm t đến thời điểm t’ trong tương lai [51]. Dự đoán liên kết là một trong những
nhiệm vụ của phân tích, khai phá liên kết [35] và có nhiều ứng dụng quan trọng. Có thể kể
đến ứng dụng cho các hệ khuyến nghị trong việc tìm kiếm thông tin và thương mại điện tử,
hệ này trợ giúp người dùng có thêm những người bạn mới [3] và những người cộng tác tiềm
năng [62, 93], cung cấp các mặt hàng được người dùng quan tâm trong mua bán trực tuyến
[4], khuyến nghị những đối tác đồng sáng chế trong mạng cộng đồng doanh nghiệp [88] và
các đối tác trong các lĩnh vực khác nhau [83], tìm những chuyên gia hoặc đồng tác giả trong

các mạng cộng đồng khoa học [70, 92].
Theo [88], phương pháp dự đoán liên kết trong mạng xã hội bao gồm hai hướng tiếp
cận (xem Hình 1.1 và Hình 1.2) như sau:
Thứ nhất, tiếp cận dựa trên độ đo liên kết hay còn gọi là học không giám sát. Trong
hướng tiếp cận này, hệ thống sẽ tính toán các giá trị tương đồng của các cặp nút ứng cử dựa
trên các độ đo liên kết (chẳng hạn như CN [67], AA [1], JC [76], v.v…), sau đó sắp xếp theo
chiều giảm dần về giá trị độ đo liên kết và lựa chọn ra danh sách các cặp nút ứng cử để dự
đoán có liên kết (Hình 1.1).

Tính các độ đo
liên kết

Sắp xếp các cặp
nút theo độ đo
liên kết

Danh sách Top
N cặp nút dự
đoán có liên kết

Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết

17


Thứ hai, tiếp cận dựa trên mô hình phân lớp, hướng tiếp cận này coi bài toán dự
đoán liên kết như là bài toán phân lớp nhị phân [5]. Để thực hiện được theo hướng tiếp cận
này, hệ thống sẽ xây dựng tập các đặc trưng cho các cặp nút không có liên kết dựa trên các
độ đo tương đồng và một số đặc trưng khác dựa trên thông tin từ mạng xã hội (chẳng hạn
như các thông tin dạng văn bản của các thuộc tính và các miền tri thức), và tiến hành gán

nhãn cho mỗi cặp nút theo cách thức sau: nếu có liên kết tiềm năng kết nối cặp nút thì cặp
nút sẽ được gán nhãn 1 (positive), ngược lại sẽ được gán nhãn 0 (negative) (Hình 1.2).

Các đặc trưng dựa
trên độ đo liên kết

Mô hình
phân lớp

Các đặc trưng
khác

Danh sách các
cặp nút dự đoán
có liên kết

Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp

Mạng đồng tác giả là một trong những mạng OHUSN được nhiều nhà nghiên cứu quan
tâm. Newman [65, 66] được biết đến như là một trong những người đầu tiên xây dựng mạng
đồng tác giả dựa trên bốn nguồn dữ liệu về các bài báo khoa học công khai trên mạng Internet
Los Alamos e-Print Archive, Medline, SPIRES và NCSTRL. Theo [31], mạng đồng tác giả
là một mạng xã hội mà ở đó các nút là các nhà khoa học và các cạnh (liên kết) là các quan
hệ đồng tác giả. Đây là một mạng vô hướng và phần lớn các tác giả có kết nối thưa trong khi
chỉ một số rất ít các tác giả có nhiều kết nối. Trên thực tế, hầu hết các nghiên cứu về bài toán
dự đoán liên kết trong mạng OHUSN đều lựa chọn mạng đồng tác giả là một trong những
mạng để tiến hành thực nghiệm.
Để minh họa cho mạng đồng tác giả, một định nghĩa hình thức về mạng đồng tác giả
được đề xuất như sau:
Định nghĩa 1.1

-

Một mạng đồng tác giả 𝐺 (𝑇) là một bộ bốn (𝑉 (𝑇) , 𝐸 (𝑇) , 𝑃(𝑇) , 𝑇), trong đó
𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑌 } là tập mốc thời gian liên tiếp (𝑡𝑖 < 𝑡𝑗 với i < j, và i, j = ̅̅̅̅̅
1: 𝑌),

với 𝑌 là số mốc thời gian,
-

𝑉 (𝑇) = {𝑣1 , 𝑣2 , . . . , 𝑣𝑁 } là một tập các tác giả, 𝑁 là số tác giả,

-

𝑃(𝑇) = {(𝑝1 , 𝑡𝑝1 , 𝑉𝑝1 ), (𝑝2 , 𝑡𝑝2 , 𝑉𝑝2 ), . . . , (𝑝𝑀 , 𝑡𝑝𝑀 , 𝑉𝑝𝑀 )} là tập các bài báo, 𝑉𝑝𝑖 ⊂

𝑉 (𝑇) là tập các tác giả trong bài báo pi, 𝑡𝑝𝑖 ∈ 𝑇 là thời gian công bố của bài báo pi, với 𝑀
là số bài báo và
-

𝐸 (𝑇) = {(𝑣𝑖 , 𝑣𝑗 , 𝑃𝑖𝑗 ): 𝑣𝑖 , 𝑣𝑗  𝑉 (𝑇) , 𝑣𝑖 ≠ 𝑣𝑗 , 𝑃𝑖𝑗  𝑃(𝑇) } là tập các liên kết (hay còn

gọi là các quan hệ cộng tác).

18


Định nghĩa 1.1 sẽ được minh họa thông qua ví dụ về mạng đồng tác giả được biểu diễn
trên Hình 1.3 dựa trên dữ liệu cho trong Bảng 1.1.
Hình 1.3 là đồ thị biểu diễn quan hệ cộng tác giữa các tác giả, mỗi ei biểu diễn một quan
hệ cộng tác giữa hai tác giả và được xác định trong Bảng 1.1. Trong ví dụ này, mạng đồng

tác giả bao gồm 8 tác giả (N = 8), 10 bài báo (M = 10) và các bài báo được xuất bản từ năm
2000 đến năm 2002 (K = 3). Tổng số cộng tác là 12 (xem Bảng 1.1).
Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo

Bài
báo
p1

Năm
công bố
2000

v5

Tập bài
báo
(𝑝1 , 𝑝2 , 𝑝4 , 𝑝9)
(𝑝1 , 𝑝2)

p2

2000

(𝑣5 , 𝑣2 , 𝑣4 )
(𝑣1 , 𝑣5 , 𝑣3 , 𝑣4 )

v2

v3


( 𝑝3 , 𝑝7 , 𝑝10)

p3

2000

(𝑣2 , 𝑣3 )

e4

v2

v1

( 𝑝2 )

p4

2000

(𝑣4 , 𝑣2 )

e5

v2

v6

( 𝑝8 )


p5

2001

(𝑣7 , 𝑣2 , 𝑣8 )

e6

v2

v7

( 𝑝5 )

p6

2001

(𝑣2 , 𝑣8 )

e7

v2

v8

( 𝑝5 , 𝑝6 , 𝑝8 )

p7


2001

(𝑣3 , 𝑣2 )

e8

v1

v4

( 𝑝2 )

p8

2002

(𝑣8 , 𝑣6 , 𝑣2 )

e9

v1

v5

( 𝑝2 )

p9

2002


(𝑣2 , 𝑣4 )

e10

v4

v5

(𝑝1 , 𝑝2)

p10

2002

(𝑣2 , 𝑣3 )

e11

v6

v8

( 𝑝8 )

e12

v7

v8


( 𝑝5 )

Quan hệ
cộng tác
e1

Tác
giả i
v2

Tác
giả j
v4

e2

v2

e3

Danh sách
các tác giả

v4

v3
e2

v2


e8
v5

e5

e4

v6

e9

e6
v1

e11
e12

v8

v7

Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến
2002 dưới dạng đồ thị

19


1.1.2 Bài toán khuyến nghị cộng tác
Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng
xã hội giả nhằm tìm ra những tác giả có tiềm năng cộng tác trong tương lai. Bài toán khuyến

nghị cộng tác được phát biểu như sau: Cho thông tin về các tác giả đã từng viết chung bài
báo khoa học đến thời điểm t, với một tác giả u nào đó, cần tìm ra một danh sách tác giả có
tiềm năng cộng tác với tác giả u trong tương lai (từ thời điểm t’ > t).
Như vậy, bài toán khuyến nghị cộng tác sẽ có hai trường hợp cần khuyến nghị:
Thứ nhất là khuyến nghị cộng tác mới. Hệ thống sẽ lựa chọn ra danh sách các ứng cử
viên chưa từng cộng tác với một tác giả nào đó có tiềm năng lớn sẽ cộng tác với họ trong
tương lai.
Thứ hai là khuyến nghị cộng tác tăng cường. Hệ thống sẽ khuyến nghị cho một nhà
nghiên cứu nào đó những tác giả đã từng cộng tác trước đó với họ có tiềm năng tiếp tục cộng
tác tăng cường trong tương lai.
Bài toán khuyến nghị cộng tác có sự khác biệt so với bài toán khuyến nghị truyền thống
trong đó tập các ứng cử viên được khuyến nghị cần phải thỏa mãn về mức độ tương đồng về
lĩnh vực nghiên cứu (thông qua tập các bài báo đã công bố); tức là người được khuyến nghị
cần được biết lý do vì sao họ sẽ có tiềm năng cộng tác với ứng cử viên được lựa chọn trong
tương lai.
Đối với bài toán khuyến nghị truyền thống, chủ yếu tập trung vào ba hướng tiếp cận
chính đó là: (i) hướng tiếp cận dựa trên lọc cộng tác [73, 77, 81, 84]. Trong đó, sử dụng
thông tin về những đánh giá đối với các người dùng khác nhau, việc xác định những người
dùng tương đồng (những người láng giềng) là người có lịch sử đánh giá tương tự như người
dùng hiện tại và đưa ra những khuyến nghị dựa trên lịch sử đánh giá của những láng giềng
đó. Một số thuật toán học máy khác nhau đã được áp dụng trong hướng tiếp cận này, chẳng
hạn như Naive Bayes [15] và dựa trên luật [6]; với sự nhấn mạnh hơn trên các mô hình nhân
tố tiềm ẩn đã được dùng trong thập kỷ qua như phân tích giá trị riêng (SVD) bởi Sarwar và
cộng sự [78], phân tích nhân tố bởi Canny [42], phân tích ngữ nghĩa tiềm ẩn (PLSA) bởi
Hofmann [41], và phân tích thừa số ma trận không âm [48]. (ii) hướng tiếp cận dựa trên nội
dung [13, 17, 91], ý tưởng chủ đạo của hướng tiếp cận này là đưa ra khuyến nghị những sản
phẩm tương tự (tương đồng) với những sản phẩm mà người dùng đã thích (quan tâm) trong
quá khứ sẽ được xem xét. Trong đó, độ tương tự giữa hai sản phẩm được tính toán dựa trên
những đặc điểm (đặc trưng) gắn với những sản phẩm được so sánh. Ví dụ, nếu người dùng
đã từng đánh giá một bộ phim nào đó thuộc thể loại hài kịch thì khi đó hệ thống sẽ học cách

để khuyến nghị những bộ phim khác cũng thuộc thể loại này cho người dùng. (iii) hướng
tiếp cận lai [18, 86], là một cách kết hợp hai hoặc nhiều phương pháp khuyến nghị nhằm đạt
được độ chính xác (hiệu suất) tốt hơn so với khi áp dụng riêng lẻ phương pháp bất kỳ nào

20


đó. Liên quan đến hướng tiếp cận khuyến nghị lai, luận án đã đề xuất mô hình khuyến nghị
được trình bày trong công trình CT1.
Bài toán khuyến nghị trên mạng xã hội cũng được nhiều nghiên cứu quan tâm. Trong
đó, một số nghiên cứu chỉ tập trung vào thông tin cấu trúc mạng (the topological information)
để đưa ra khuyến nghị [54] như là: Ogata và cộng sự [69] đã đề xuất hệ thống PeCoMediator-II để tìm kiếm sự cộng tác thông qua một chuỗi các kết nối cá nhân (personal
connections) trong mạng xã hội. Golbeck và cộng sự [36] xây dựng một trang web tích hợp
mạng xã hội với web ngữ nghĩa và khái niệm sự tin cậy (the concept of trust) để đưa ra
khuyến nghị về những bộ phim. Karagiannis và cộng sự [45] đã xây dựng một mạng xã hội
của một nhóm người dùng dựa trên việc phân tích quá trình trao đổi thông qua thư điện tử
của nhóm người này và đưa ra khuyến nghị xem ai sẽ là bạn của ai (friends of friends). Ngoài
ra, một số nghiên cứu xem xét dựa trên cả thông tin cấu trúc mạng và ngữ nghĩa (semantic)
trong các phương pháp khuyến nghị [54], có thể đề cập đến như là [47, 60, 101].
Trong những năm gần đây, ngày càng có nhiều nghiên cứu quan tâm đến bài toán
khuyến nghị cộng tác trong mạng đồng tác giả. Có thể kể đến những nghiên cứu tiêu biểu
như [14, 29, 50, 53, 54, 57, 68, 94, 100]. Những nghiên cứu này đặt nền móng cho việc phát
triển các phương pháp khuyến nghị cộng tác trên mạng đồng tác giả với mục đích chính là
giúp các nhà nghiên cứu tăng cường cộng tác đã có và thiết lập những mối cộng tác với
những nhà nghiên cứu mà chưa từng có mối cộng tác. Lopes và cộng sự [54] đã đề xuất
phương pháp khuyến nghị cộng tác. Trong đó, nhóm tác giả đã đề xuất cách tính trọng số
cộng tác và mức độ tương quan tổng thể để đưa ra khuyến nghị cộng tác cho các nhà nghiên
cứu. Nhóm tác giả đã mô hình hóa một mạng xã hội đối với quan hệ cộng tác a là một cặp:
SNa = (N, E), trong đó N và E tương ứng là tập các đỉnh và tập các cạnh có hướng. Mỗi một
cạnh e  E có dạng <vi, t, ω, vj> với cạnh có hướng từ vi đến vj, t ký hiệu kiểu cộng tác giữa

vi và vj, ω là trọng số tác động trên quan hệ cộng tác t nhận giá trị số trong khoảng (0, 1).
Khi đó, trọng số cộng tác tổng thể ( t _ Ca ) được tính theo công thức (1.1) [54]:

t _ Ca ( v  v ) 
i

j

v ji co _ authorship
(1.1)

vi author

Trong đó,
- t _ Ca ( vi v j ) tương ứng là trọng số cộng tác (trọng số từ vi→vj là khác với trọng số từ
vj→vi);
- v ji co _ authorship là số lần mà tác giả vj đã cộng tác viết báo với tác giả vi;
- vi author tương ứng với tổng số bài báo mà tác giả vi đã công bố.

21


Ngoài ra, nếu giá trị t _ Ca (vi v j ) càng cao thì có nghĩa rằng mức độ liên quan giữa vj với
vi càng nhiều. Mức độ tương quan tổng thể được tính theo công thức (1.2) [54].
n

 Ra (vi , xk ) Ra (v j , xk )

global _ correlation(vi , v j ) 


k 1

 Ra (vi , xk )    Ra (v j , xk ) 
n

2

k 1

Trong đó, n là số lĩnh vực,

Ra (vi , xk )

n

2

(1.2)

k 1

là trọng số ứng với lĩnh vực nghiên cứu xk mà

tác giả vi đóng góp vào so với toàn bộ bài báo của tác giả vi, và được tính theo công thức
(1.3) [54].

Ra (vi , x) 

vi authorresearch _ area _ x
vi author


(1.3)

Với vi authorresearch _ area _ x là số bài báo mà tác giả vi đăng trong lĩnh vực x.
Lee và cộng sự [50] đề xuất các xác định mức độ tương đồng giữa hai tác giả dựa trên
thông tin của các bài báo được công bố bởi họ như từ khóa đại diện và thứ tự của tác giả
trong bài báo.
Phương pháp khuyến nghị dựa trên nội dung và lọc cộng tác dựa trên mối quan hệ trong
mạng đồng tác giả đã được đề xuất kèm theo chiến lược lai ghép trong hệ khuyến nghị.
Brandão và cộng sự [14] đã đề xuất mô hình khuyến nghị cộng tác dựa trên sự cộng tác của
một tác giả u nào đó với những đồng nghiệp trong cùng một viện nghiên cứu với tác giả v
và dựa trên khoảng cách địa lý giữa hai tác giả. Xia và cộng sự [94] đề xuất phương pháp
MVCWalker trong việc khuyến nghị những người cộng tác phù hợp nhất thông qua trọng số
liên kết giữa các tác giả theo ba yếu tố: thứ tự của tác giả trong bài báo, thời gian cộng tác
gần nhất và số lần cộng tác. Xét hai tác giả 𝑢, 𝑣 trong danh sách các tác giả xuất hiện trong
một bài báo và thứ tự tương ứng của hai tác giả là du và dv. Giả sử dv > du và trong mỗi bài
báo có nhiều hơn một tác giả. Khi đó, mức độ liên kết giữa hai tác giả u, v (DCL(u, v)) trong
bài báo được tính theo công thức (1.4) [94].





DCL(d , d )  
u v







1
1

if 2  d  3
v
d
d
u
v
1
2

if d  3, 1  d  3
v
u
d
d
u
v
2
2

if d  3
u
d
d
u
v


22

(1.4)


Giả sử hai tác giả u và v viết chung P bài báo. Khi đó trọng số liên kết giữa hai tác giả
được tính theo công thức (1.5) [94].
P

 pt (u, v)   DCL(dup , dvp )* k (t p )
p 1

(1.5)

p
là thứ tự của tác giả u trong bài báo thứ p, tp là thời gian mà bài báo thứ
u
t p - t0
p được phản biện hoặc chấp nhận đăng và k (t p ) 
, với t0 = thời gian đầu tiên mà
tc - t0
Trong đó, d

hai tác giả này đã cộng tác - 1, tc là thời gian hiện tại.
Ngoài các nghiên cứu tiêu biểu đã nêu ở trên, còn nhiều nghiên cứu khác liên quan đến
bài toán khuyến nghị cộng tác, chẳng hạn như [5, 70, 75, 87, 92]. Mặc dù, những nghiên cứu
này không trực tiếp giải quyết bài toán khuyến nghị cộng tác, nhưng có thể là một tham khảo
hữu ích trong việc xác định mức độ tương tự giữa hai tác giả dựa trên ngữ nghĩa và xây dựng
phương pháp khuyến nghị cộng tác trong mạng đồng tác giả.
Pavlov và Ichise [70] đã đề xuất một phương pháp giúp nhà nghiên cứu có thể tìm đối

tác nghiên cứu trong mạng đồng tác giả thông qua hướng tiếp cận phân lớp. Cụ thể, Pavlov
và Ichise đã chuyển bài toán dự đoán liên kết về bài toán phân lớp nhị phân trong đó lớp 1
ứng với các cặp nút có liên kết, lớp 0 ứng với cặp nút không có liên kết và thực nghiệm bài
toán với các phương pháp phân lớp như SMO [71], J48 (được biết đến như C4.5) [72] và
AdaBoost [34]. Pavlov và Ichise đã xây dựng một mạng G = <V, E, W> là một đồ thị trọng
số với các nút (tác giả) vi  V và cách cạnh (vi, vj)  E, 1  i, j  |V|, trong đó ij  W là trọng
số của cạnh (vi, vj). Để xây dựng các đặc trưng cho cặp nút trong mạng đồng tác giả, [70] đã
lựa chọn một số độ đo liên kết đã được sử dụng phổ biến trong bài toán dự đoán liên kết trên
mạng xã hội như đường đi ngắn nhất, đếm số láng giềng chung giữa hai nút CN [67], và AA
[1] v.v.
Al Hansan và các cộng sự [5] đã đề xuất một số đặc trưng đại diện cho các cặp tác giả
cần dự đoán chưa từng viết chung bài báo nào dựa trên tổng số bài báo, tổng số láng giềng,
tổng số từ khóa, số từ khóa chung, v.v rồi áp dụng các phương pháp phân lớp nhị phân SVM,
cây quyết định, K – láng giềng, v.v để dự đoán những cặp tác giả sẽ cộng tác.
Wohlfarth và Ichise [92] đã đề xuất mô hình dự đoán dựa trên độ đo liên kết theo ngữ
nghĩa (semantic) trong đó độ đo liên kết theo ngữ nghĩa KMC (Keywords match count) dựa
trên tập từ khóa chung giữa hai tác giả. Đề xuất của [92] dựa trên ý tưởng của Al Hansan và
các cộng sự [5] và lấy cảm hứng từ độ đo liên kết dựa trên JC (Jaccard Coefficient) [76], tập
từ khóa được lấy ra từ tên các bài báo mà tác giả đã công bố. KMC được tính theo công thức
(1.6) [92].

23


KMC (i ,  j ) 

i   j
i   j

(1.6)


Tiếp tục phát triển vấn đề dự đoán liên kết từ [92], Sachan và Ichise [75] đã đề xuất độ
đo liên kết ngữ nghĩa giữa hai tác giả dựa trên tập các từ khóa xuất hiện trong nội dung tóm
tắt của các bài báo mà hai tác giả đó đã công bố AKMC (Abstract keywords match count).
Công thức tính AKMC tương tự như chỉ số KMC (công thức (1.6)) với sự khác biệt duy nhất
là tập các từ khóa sẽ được lấy từ nội dung tóm tắt của bài báo thay vì lấy từ tên của bài báo.
Ngoài ra, nhóm tác giả trong [87] đã sử dụng mô hình véc-tơ để biểu diễn thông tin về
tập các bài báo của từng tác giả (sử dụng tên và nội dung tóm tắt bài báo) và sử dụng phương
pháp TF-IDF để tính trọng số cho mỗi từ. Sau đó, mỗi tác giả được biểu diễn bởi một véctơ trọng số của các từ xuất hiện trong tập các bài báo mà tác giả đã công bố.
Các nghiên cứu về bài toán khuyến nghị trong mạng xã hội nói chung và mạng đồng
tác giả nói riêng đều tiếp cận giải quyết bài toán theo hướng học không giám sát. Tức là tính
toán độ tương tự giữa một nút (tác giả) v với các nút ứng cử dựa trên thông tin cấu trúc mạng
hoặc dựa trên ngữ nghĩa, sau đó lựa chọn ra N nút có mức độ tương tự lớn nhất với nút v.
Với cách tiếp cận này, việc đưa ra danh sách khuyến nghị sẽ được thực hiện một cách đơn
giản và nhanh chóng. Tuy nhiên, giữa hai tác giả trong mạng đồng tác giả có nhiều đặc trưng,
chẳng hạn những đặc trưng dựa trên thông tin cấu trúc mạng (chẳng hạn như các độ đo liên
kết trong mạng), dựa trên sự tương đồng về lĩnh vực nghiên cứu hay dựa trên việc cùng tham
gia các sự kiện khoa học (chẳng hạn báo cáo hoặc hội nghị khoa học, …). Việc sử đồng thời
nhiều đặc trưng để đưa ra khuyến nghị theo hướng tiếp cận học không giám sát là không dễ
và có thể không đạt được kết quả khuyến nghị mong muốn.
Trong các nghiên cứu về bài toán dự đoán liên kết [5, 28, 64, 67, 70, 75, 87, 92], hầu
hết các nghiên cứu đều tiếp cận giải quyết bài toán dự đoán liên kết theo hướng học có giám
sát, cụ thể là sử dụng các phương pháp phân lớp. Thông qua kết quả thực nghiệm, phần nào
đã khẳng định được tính hiệu quả khi áp dụng phương pháp phân lớp vào bài toán dự đoán
liên kết trong mạng xã hội nói chung cũng như mạng đồng tác giả nói riêng. Do vậy, việc
tiếp cận theo hướng học có giám sát (các phương pháp phân lớp có thể là một trong những
sự lựa chọn) để giải quyết bài toán khuyến nghị cộng tác là hoàn toàn có cơ sở.
Mục tiêu của bài toán toán dự đoán liên kết nói chung hay bài toán khuyến nghị cộng
tác nói riêng đó là xác định xem cặp nút nào sẽ mang nhãn 1 (tức là cặp nút có liên kết hay
cặp tác giả sẽ có sự cộng tác). Tuy nhiên, do hầu hết các mạng xã hội hay mạng đồng tác giả

thu thập được đều không đầy đủ. Vì thế, tổng số liên kết (sự cộng tác) thu được thường ít
hơn rất nhiều so với tổng số liên kết có thể có trong mạng. Do đó, tập dữ liệu huấn luyện
nhận được sẽ gặp phải vấn đề về mất cân bằng nhãn (cụ thể những cặp nút mang nhãn 1
thường ít hơn rất nhiều so với những cặp nút mang nhãn 0), dẫn đến mô hình huấn luyện

24


được xây dựng cho các phương pháp phân lớp đều ít nhiều ảnh hưởng đến việc xác định các
cặp nút nào sẽ mang nhãn 1. Vì vậy, hiệu quả của dự đoán liên kết hay khuyến nghị cộng tác
cũng sẽ bị ảnh hưởng.
Ngoài hướng tiếp cận học có giám sát, hướng tiếp cận học bán giám sát đã được nhiều
nghiên cứu quan tâm. Học có giám sát là quá trình học đi kèm với một tập mẫu huấn luyện.
Còn học bán giám sát là học có một số lượng nhỏ các mẫu huấn luyện sử dụng để điều hướng
quá trình học. Đối với hướng tiếp cận khuyến nghị cộng tác dựa trên phân lớp, dữ liệu tập
huấn luyện thường có số mẫu mang nhãn 1 là rất ít. Do đó, có thể áp dụng hướng tiếp cận
học bán giám sát để giải quyết bài toán khuyến nghị cộng tác. Một số nghiên cứu gần đây
cho thấy các phương pháp phân cụm bán giám sát mờ rất hiệu quả trong nhiều lĩnh vực như
xử lý ảnh [26, 9, 74], nhận dạng mẫu, nhận dạng khuôn mặt [2, 55], đánh giá rủi ro [24], dự
báo phá sản [58].
Theo tìm hiểu của tác giả luận án, đến thời điểm hiện tại, chưa có nghiên cứu nào ngoài
công trình nghiên cứu [CT4] áp dụng phương pháp phân cụm bán giám sát mờ để giải quyết
bài toán dự đoán liên kết cũng như bài toán khuyến nghị cộng tác. Do vậy, trong luận án này
sẽ tiến hành áp dụng phương pháp phân lớp và phương pháp phân cụm bán giám sát mờ để
thực nghiệm bài toán khuyến nghị cộng tác trong mạng đồng tác giả.
Trong bài toán khuyến nghị cộng tác được giải quyết theo hướng tiếp cận dựa trên học
có giám sát và bán giám sát, thì một trong những yếu tố quan trọng đó là thông tin đặc trưng
của các cặp tác giả. Các đặc trưng thường được lựa chọn dựa trên giá trị độ đo liên kết (được
xác định từ thông tin cấu trúc mạng) và dựa trên sự tương đồng về lĩnh vực nghiên cứu hay
còn gọi là độ đo liên kết theo ngữ nghĩa. Đối với độ đo liên kết dựa trên thông tin cấu trúc

mạng [1, 28, 61, 64, 76], độ đo liên kết dựa trên trọng số [28, 64] đã phần nào phát huy hiệu
quả trong bài toán dự báo liên kết so với các độ do liên kết không dựa trên trọng số [1, 61,
76]. Trong đó, các trọng số liên kết được xác định dựa trên thông tin như là số lượng bài báo
viết chung giữa hai tác giả [28] và số tác giả trong mỗi bài báo [66]. Ngoài ra, trong [94] đã
đề xuất cách xác định trọng số liên dựa trên: thứ tự của tác giả trong bài báo, thời gian cộng
tác gần nhất và số lần cộng tác (xem công thức (1.5)). Với cách xác định trọng số liên kết
như trong [94], luận án sẽ mở rộng độ đo liên kết trọng số tương tự như nghiên cứu [28, 64]
bằng cách sử dụng trọng số liên kết trong [94], cách thức mở rộng độ đo trọng số sẽ được
trình bày trong chương 2.
Đối với độ đo liên kết theo ngữ nghĩa, Lopes và cộng sự [54] đã đề xuất mức độ tương
quan giữa các tác giả dựa trên các lĩnh vực mà các bài báo họ đã công bố được phân vào
(xem công thức (1.2)). Tuy nhiên, việc phân loại các bài báo vào các lĩnh vực chuyên sâu
khác nhau cũng không hề dễ dàng đồng thời chưa phản ánh hết được mức độ tương quan
ngữ nghĩa bởi lẽ một bài báo có thể liên quan đến nhiều lĩnh vực khác nhau. Ngoài ra, các
nghiên cứu [75, 87, 92] đã xem xét đến mức độ tương đồng ngữ nghĩa giữa các cặp tác giả

25


×