Tải bản đầy đủ (.pdf) (108 trang)

Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.53 MB, 108 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Minh Chuẩn

NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT
TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC
Ngành: Hệ thống thông tin
Mã số: 9480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Thanh Hương
2. PGS.TS. Trần Đình Khang

Hà Nội - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nghiên cứu và phát triển một số
độ đo liên kết trong bài toán khuyến nghị cộng tác” là công trình nghiên cứu của riêng tôi,
dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Tất cả các
kết quả, số liệu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công
trình này.
Hà Nội, ngày tháng

năm 2018

TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC


TÁC GIẢ LUẬN ÁN

PGS.TS. Lê Thanh Hương

Phạm Minh Chuẩn

2


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Thầy và cô đã luôn tận tình giúp
đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình. Đồng thời tôi cũng xin cảm ơn TS. Lê Hoàng
Sơn Trung tâm Tính toán Hiệu năng cao – ĐH KHTN – ĐHQGHN đã tạo điều kiện, giúp
đỡ tôi hoàn thành luận án này.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông
tin, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi
học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá
trình nghiên cứu. Xin cám ơn các bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện
CNTT & TT, đặc biệt là bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài năng CNTT K58 đã hỗ
trợ tôi trong việc thu thập dữ liệu để phục vụ cho quá trình thực nghiệm.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên,
nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn
thành luận án này.
Xin gửi lời cám ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân
hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.

Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn
động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Nghiên cứu sinh

Phạm Minh Chuẩn

3


MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................. 2
LỜI CẢM ƠN........................................................................................................................ 3
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 6
DANH MỤC CÁC BẢNG .................................................................................................... 8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ............................................................................ 9
MỞ ĐẦU ............................................................................................................................. 11
1.

TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................. 16
1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả........................................... 16
1.1.1 Mạng xã hội và mạng đồng tác giả ..................................................................... 16
1.1.2 Bài toán khuyến nghị cộng tác ........................................................................... 20
1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả ................................ 26
1.2. Một số kiến thức liên quan ....................................................................................... 34
1.2.1. Các phương pháp phân lớp ................................................................................ 34
1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ ..................................................... 38
1.2.3. Phân tích theo chủ đề ......................................................................................... 41
1.3. Kết luận..................................................................................................................... 43


2.

CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ ............... 44
2.1. Độ đo liên kết dựa trên trọng số mở rộng ................................................................. 44
2.2. Các độ đo liên kết dựa trên nội dung bài báo ........................................................... 46
2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán .................... 50
2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả............................................... 58
2.4.1. Chuẩn bị dữ liệu ................................................................................................ 58
2.4.2. Kịch bản thực nghiệm........................................................................................ 60
2.4.3. Kết quả thực nghiệm.......................................................................................... 63
2.5 Kết luận...................................................................................................................... 77

3.

BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................................................ 78

4


3.1. Giới thiệu .................................................................................................................. 78
3.2. Khuyến nghị cộng tác mới ........................................................................................ 79
3.3. Khuyến nghị cộng tác tăng cường ............................................................................ 88
3.3. Kết luận..................................................................................................................... 96
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 97
TÀI LIỆU THAM KHẢO ................................................................................................... 99
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 108

5



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

Giải thích

AA

Adamic & Adar

Độ đo liên kết AA

AUC

Area under the curve

Tiêu chí đánh giá phân lớp

CN

Common Neighbours

Độ đo liên kết láng giềng chung

JC

Jaccard Coefficient

Độ đo liên kết JC


LDA

Latent Dirichlet Allocation

Phương pháp phân tích chủ đề

OSN

Online Social Network

Mạng xã hội trực tuyến

OHUSN

Online HomogeneousUndirected
Social Networks

Mạng xã hội vô hướng đồng nhất
trực tuyến

SMO

Sequential Minimal Optimization

Tối ưu hóa cực tiểu lần lượt

SVM

Support Vector Machines


Máy véc-tơ hỗ trợ

WAA

Weighted Adamic & Adar

Độ đo liên kết trọng số dựa trên
AA

WCN

Weighted Common Neighbours

Độ đo liên kết trọng số dựa trên
láng giềng chung

WJC

Weighted Jaccard Coefficient

Độ đo liên kết trọng số dựa trên
JC

TF-IDF

Term Frequency - Inverse
Document Frequency

Trọng số từ


SPIRES

Stanford Public Information
Retrieval System

Hệ thống truy xuất thông tin công
khai Stanford

NCSTRL

Networked Computer Science
Technical Reference Library

Mạng thư viện tham chiếu khoa
học máy tính

AMC

Applied Mathematics and
Computation

Tạp chí toán ứng dụng và tính
toán

BJ

Biophysical Journal

Tạp chí lý sinh


CF

Collaborative Filtering

Lọc cộng tác

CB

Content-based

Dựa trên nội dung

6


KMC

Keywords match count

Đếm các từ khóa chung

AKMC

Abtract keywords match count

Đếm các từ chung trong nội dung
tóm tắt

FCM


Fuzzy C-means

Phân cụm mờ

SSSFC

Semi-Supervised Standard Fuzzy
Clustering

Phân cụm bán giám sát mờ

7


DANH MỤC CÁC BẢNG
Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo .................................................. 19
Bảng 1.2 Các phương pháp phân lớp được sử dụng ........................................................... 33
Bảng 2.1 Thống kê trên các bộ dữ liệu ............................................................................... 59
Bảng 2.2 Thống kê tập dữ liệu ............................................................................................ 60
Bảng 2.3 Kịch bản thực nghiệm với các độ đo liên kế ....................................................... 60
Bảng 2.4 Kịch bản thực nghiệm với các độ đo liên kết mở rộng ........................................ 61
Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 2 .......................... 62
Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 3 .......................... 62
Bảng 2.7 Giá trị Recall@N với các tham số tối ưu trên AMC ........................................... 65
Bảng 2.8 Giá trị Recall ứng với các tham số tối ưu trên BJ ................................................ 67
Bảng 2.9 Giá trị chỉ số đánh giá trên AMC đối với các tổ hợp độ đo liên kết trọng số và mở
rộng ............................................................................................................................ 69
Bảng 3.1 Thống kê các tập dữ liệu ...................................................................................... 83
Bảng 3.2 Tập các đặc trưng trong thực nghiệm khuyến nghị cộng tác mới ....................... 83

Bảng 3.3 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 84
Bảng 3.4 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.5 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.6 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 85
Bảng 3.7 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 85
Bảng 3.8 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 85
Bảng 3.9 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 86
Bảng 3.10 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 86
Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và
(3.1) ứng với từng tác giả được khuyến nghị. ............................................................ 95

8


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết ......................................... 17
Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp........................................................ 18
Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002
dưới dạng đồ thị ......................................................................................................... 19
Hình 1.4 Quá trình sinh của LDA (Nguồn [10])................................................................. 42
Hình 2.1 Minh họa độ đo liên kết mở rộng......................................................................... 46
Hình 2.2 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên AMC . 63
Hình 2.3 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên BJ ...... 63
Hình 2.4 Giá trị Recall@N với số lượng chủ đề và tham số  đối với LDAcosin trên AMC

.................................................................................................................................... 64
Hình 2.5 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.6 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.7 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên AMC
.................................................................................................................................... 66
Hình 2.8 Giá trị Recall ứng với số lượng chủ đề và tham số  đối với độ đo liên kết LDAcosin
trên BJ ........................................................................................................................ 66
Hình 2.9 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 67
Hình 2.10 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.11 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.12 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên AMC ............................................................................................... 69
Hình 2.13 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và
Weight2_#) trên AMC ............................................................................................... 70
Hình 2.14 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên AMC ............................................................................................... 70
Hình 2.15 So sánh giá trị AUC ứng với các tổ hợp độ đo liên kết (Weight#, và Weight#_#)
trên AMC ................................................................................................................... 71

9


Hình 2.16 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên BJ .................................................................................................... 72
Hình 2.17 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và

Weight2_#) trên BJ .................................................................................................... 72
Hình 2.18 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên BJ .................................................................................................... 73
Hình 2.19 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên
BJ ............................................................................................................................... 73
Hình 2.20 Giá trị F1-measure của các tổ hợp độ đo liên kết Weight#_P_LDAcosin trên AMC
theo số lượng chủ đề .................................................................................................. 74
Hình 2.21 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 74
Hình 2.22 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 75
Hình 3.1 Minh họa giao diện khuyến nghị cộng tác ........................................................... 78
Hình 3.2 Các bước khuyến nghị cộng tác mới dựa trên phân lớp ...................................... 80
Hình 3.3 Các bước thực hiện khuyến nghị cộng tác mới dựa trên phân cụm bán giám sát mờ
.................................................................................................................................... 81
Hình 3.4 So sánh giá trị chỉ số đánh giá Recall TBC giữa khuyến nghị cộng tác mới dựa trên
Classifier và SSSFC ................................................................................................... 86
Hình 3.5 So sánh giá trị chỉ số đánh giá Precision TBC giữa khuyến nghị cộng tác mới dựa
trên Classifier và SSSFC ............................................................................................ 87
Hình 3.6 So sánh giá trị chỉ số đánh giá F1-measure TBC giữa khuyến nghị cộng tác mới
dựa trên Classifier và SSSFC ..................................................................................... 87
Hình 3.7 Các bước thực hiện khuyến nghị cộng tác tăng cường ........................................ 88
Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (1.1) ...................... 93
Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (3.1) ...................... 93
Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường
hợp.............................................................................................................................. 94

10



MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, với sự phát triển của mạng xã hội liên quan đến thông tin cá nhân của nhiều
người, việc gợi ý tự động cho người sử dụng các thông tin cũng như các sản phẩm có thể họ
muốn mua hoặc quan tâm, các cá nhân có cùng sở thích hoặc cùng lĩnh vực nghiên cứu với
họ là một việc khả thi và đem lại nhiều lợi ích cho con người. Các hệ gợi ý hay còn gọi là hệ
khuyến nghị đã được quan tâm nghiên cứu và phát triển nhanh chóng trong thời gian gần
đây, đặc biệt các hệ khuyến nghị trong thương mại điện tử đem lại nhiều lợi nhuận cho các
nhà bán sản phẩm. Bên cạnh các hệ khuyến nghị trong thương mại điện tử, các hệ khuyến
nghị liên quan đến khoa học kỹ thuật cũng được quan tâm nghiên cứu. Ví dụ, LinkedIn và
ResearchGate khuyến nghị các công việc mà ai đó (hoặc người dùng nào đó) có thể ứng
tuyển, thông báo các thông tin liên quan đến các nhà khoa học có các công trình nghiên cứu
được tham chiếu trong các bài báo khoa học, v.v. Tuy nhiên, việc khuyến nghị các tác giả
có các nghiên cứu liên quan đến nhau để hợp tác trong tương lai còn chưa được đưa vào
trong các mạng xã hội này. Đây cũng là những khuyến nghị rất có giá trị giúp cho các nhà
nghiên cứu tăng cường hợp tác để tạo ra các công trình khoa học mới trong tương lai. Bài
toán khuyến nghị các nhà nghiên cứu có tiềm năng hợp tác còn được gọi với tên là bài toán
khuyến nghị cộng tác trong mạng đồng tác giả. Trong luận án này, khái niệm “khuyến nghị
cộng tác” (“Collaborations Recommendation” được sử dụng trong [54]) mang hàm ý về sự
khuyến nghị hợp tác trong việc xuất bản bài báo khoa học giữa các nhà nghiên cứu (tác giả).
Ở đây, mạng đồng tác giả là một mạng xã hội trong đó các nút là các nhà khoa học, các cạnh
là các mối cộng tác khoa học giữa các nhà khoa học.
Bài toán khuyến nghị cộng tác trong mạng đồng tác giả được phát biểu như sau:
Cho thông tin về các tác giả đã từng viết chung bài báo khoa học đến thời điểm t,
với một tác giả u nào đó, cần tìm ra một danh sách tác giả có tiềm năng cộng tác

(Collaboration) với tác giả u trong tương lai (từ thời điểm t’ > t).
Các vấn đề nghiên cứu trong mạng đồng tác giả luôn thú vị bởi tính phức tạp chung
của bài toán khuyến nghị cộng tác. Mặt khác, việc xây dựng được một mô hình khuyến nghị
cộng tác nghiên cứu sẽ thúc đẩy quá trình giao lưu và hợp tác trong nghiên cứu khoa học.
Đây là một thách thức cần vượt qua nhưng cũng hứa hẹn nhiều ứng dụng thực tế.
Bài toán khuyến nghị cộng tác được bắt nguồn từ bài toán dự đoán liên kết trong mạng
xã hội, trong đó các độ đo liên kết giữa các cặp nút (tác giả) giữ vai trò quan trọng, làm cơ
sở để xác định khả năng hình thành liên kết (hợp tác) trong tương lai giữa các cặp nút (tác
giả). Hướng tiếp cận phổ biến là chuyển bài toán dự đoán liên kết về bài toán phân lớp nhị
phân [5] với lớp 1 là cặp nút có liên kết và lớp 0 là cặp nút không cước 3 và có cộng tác với ít nhất 14 tác giả trong những năm T1,
đồng thời trong những năm T2 lại tiếp tục có mối cộng tác với ít nhất 4 tác giả đã từng cộng
tác trong những năm T1. Ví dụ, giả sử tác giả A trong những năm T1 có mối cộng tác với
14 tác giả {A1, A2, A3, A4, A5, …, A14}, và trong những năm T2 lại tiếp tục cộng tác với
4 tác giả {A1, A2, A4, A5} thì tác giả A sẽ được lựa chọn để đánh giá mức độ chính xác của
mô hình khuyến nghị cộng tác. Với cách lựa chọn như vậy, đã lựa chọn được 65 trong 615
tác giả dùng để đánh giá mô hình.
(5) Tổng số bài báo trong những năm T1 là 4,856 những bài báo này sẽ được sử dụng
để phân tích theo K (trong bài báo này tác giả chọn K = 50) chủ đề, làm cơ sở cho việc tính
toán mức độ tương quan tổng thể.
Luận án sử dụng tiêu chí đánh giá độ bao phủ (Recall), độ chính xác (Precision) và F1measure để đánh giá kết quả khuyến nghị cộng tác tăng cường.
Luận án đã tiến hành thực nghiệm với hai trường hợp,
Trường hợp 1: sử dụng trọng số cộng tác tổng thể do nhóm tác giả trong [54] đã đề
xuất trong biểu thức (1.1) trong chương 1.
Trường hợp 2: sử dụng trọng số cộng tác tổng thể do luận án đề xuất trong biểu thức
(3.1).
Đối với mức độ tương quan tổng thể sử dụng theo công thức (3.5) do luận án đề xuất.
Do không có đủ dữ liệu mẫu để xây dựng một ontology về các lĩnh vực như nhóm tác giả
trong [54] đã thực hiện, vì thế luận án không thể thực nghiệm theo mức độ tương quan tổng
thể trong biểu thức (1.2) trong chương 1.


92


Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực nghiệm
trong trường hợp trọng số cộng tác tính theo công thức (1.1)

Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực nghiệm
trong trường hợp trọng số cộng tác tính theo công thức (3.1)

93


Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường hợp

Để xác định được giá trị của α và β luận án đã tiến hành thực nghiệm với các giá trị
khác nhau của α = {0.3, 0.31, …, 0.4} và β = {0.4, 0.41, …, 0.5}, kết quả F1-measure trung
bình chung của 65 tác giả được biểu diễn trong Hình 3.3 và Hình 3.4 tương ứng với hai
trường hợp thực nghiệm. Quan sát Hình 3.3 và Hình 3.4, dễ nhận thấy giá trị trung bình
chung F1-measure trong cả hai trường hợp đều đạt giá trị cao khi α = 0.4 và β >= 0.45; và
F1-measure trung bình đạt lớn nhất khi α = 0.4 và β = 0.49. Hình 3.5 cho biết giá trị trung
bình của Recall, Precision và F1-measure trong cả hai trường hợp ứng với α, β tối ưu. Các
giá trị trung bình của Recall, Precision và F1-measure trong trường hợp thứ 2 (sử dụng công
thức (3.1) trọng số cộng tác toàn phần do luận án đề xuất) đều nhỉnh hơn so với trường hợp
1, cụ thể Precision đạt 0.225309 so với 0.218866 và F1-measure 0.352285 so với 0.344331,
ngoài ra đối với giá trị Recall trong cả hai trường hợp đều khá cao và xấp xỉ nhau 0.922564
và 0.921026. Tuy kết quả cải thiện chưa nhiều nhưng có thể thấy việc áp dụng tính trọng số
cộng tác tổng thể theo công thức (3.1) cũng đã làm cho giá trị của nó mịn hơn (phân tách
hơn) giúp việc lựa chọn các ứng cử viên khuyến nghị cộng tác tăng cường thêm chính xác
hơn.
Để so sánh một cách chi tiết hơn giá trị của chỉ số F1-measure đối với từng tác giả được

thực hiện khuyến nghị cộng tác khi áp dụng trọng số cộng tác theo công thức (1.1) và (3.1),
giá trị F1-measure của những tác giả có sự khác biệt khi áp dụng trọng số cộng tác tổng thể
theo công thức (1.1) và (3.1) trong Bảng 3.11. Cụ thể, có 18/65 tác giả kết quả F1-measure
nhận được có sự khác biệt, trong đó đối với trọng số cộng tác theo công thức (3.1) có 15 tác
giả nhận được giá trị F1-measure ứng cao hơn so với công thức (1.1) và có 3 tác giả nhận
được giá trị F1-measure thấp hơn so với công thức (1.1). Về tỷ lệ phần trăm cải thiện, đối
với công thức (3.1) tỷ lệ cải thiện thấp nhất là 3.57 % và cao nhất là 42.86 %. Tuy nhiên, ba

94


tác giả có giá trị F1-measure ứng với công thức (3.1) thấp hơn công thức (1.1) lần lượt chiếm
tỷ lệ thấp hơn là 5 %, 25.93 % và 18.18 %.
Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và
(3.1) ứng với từng tác giả được khuyến nghị.

Mức độ cải thiện
Id

Trọng số cộng tác

Trọng số cộng tác

STT

tác giả

theo công thức (1.1)

theo công thức (3.1) so với (1.1) (%)


1

2

0.421053

0.47619

13.10

2

7

0.344828

0.357143

3.57

3

16

0.333333

0.363636

9.09


4

23

0.4

0.47619

19.05

5

25

0.1

0.142857

42.86

6

27

0.157895

0.15

-5.00


7

31

0.705882

0.736842

4.39

8

34

0.266667

0.352941

32.35

9

36

0.285714

0.333333

16.67


10

41

0.416667

0.434783

4.35

11

43

0.296296

0.344828

16.38

12

49

0.3

0.222222

-25.93


13

50

0.105263

0.117647

11.76

14

54

0.416667

0.434783

4.35

15

55

0.428571

0.5

16.67


16

56

0.428571

0.5

16.67

17

63

0.333333

0.375

12.50

18

64

0.333333

0.272727

-18.18


95

của công thức (3.1)


3.3. Kết luận
Trong mục này, để đánh giá sự hiệu quả của các độ đo liên kết mở rộng đã được đề
xuất trong chương 2, luận án đã tiến hành thực nghiệm phương pháp khuyến nghị cộng tác
mới dựa trên phân lớp và phân cụm bám giám sát mờ. Thông qua kết quả thực nghiệm, nhận
thấy độ đo liên kết mở rộng P_LDAcosin khi kết hợp với các độ đo liên kết trọng số đều cho
kết quả cải thiện đáng kể so với các tổ hợp chỉ bao gồm các độ đo liên kết trọng số trong 4
tập dữ liệu D1 - D4 đối với cải hai phương pháp khuyến nghị cộng tác mới. Ngoài ra, việc
áp dụng phương pháp phân cụm bán giám sát mờ vào khuyến nghị cộng tác mới cho hiệu
quả khuyến nghị tốt hơn so với dựa trên phân lớp. Điều này cho thấy, phân cụm bán giám
mờ có tiềm năng áp dụng cho bài toán khuyến nghị cộng tác nói chung và khuyến nghị cộng
tác mới nói riêng.
Ngoài ra, luận án còn đề xuất một phương pháp khuyến nghị cộng tác tăng cường trong
mạng đồng tác giả, nhằm trợ giúp các nhà nghiên cứu có cơ sở để quyết định xem mối cộng
tác nào cần tăng cường hơn nữa. Phương pháp đề xuất dựa trên trọng số cộng tác và mức độ
tương quan tổng thể nhằm tăng cường hiệu quả cho hệ thống khuyến nghị cộng tác. Kết quả
thực nghiệm trên mạng đồng tác giả được xây dựng từ tập các bài báo được đăng trên tạp
chí BJ từ năm 2006 đến 2017 cho thấy F1-measure đối với phương pháp đề xuất đạt giá trị
cao khi α = 0.4 và β >= 0.45; và F1-measure trung bình đạt lớn nhất khi α = 0.4 và β = 0.49.
Và giá trị trung bình chung F1-measure khi áp dụng trọng số cộng tác với công thức (3.1)
mà tác giả đề xuất là 0.35229 so với 0.34433 khi chỉ số cộng tác tính theo công thức (1.1).
Nội dung của chương này liên quan đến công trình nghiên cứu CT4 và CT6 đã được
công bố trên tạp chí trong nước.

96



KẾT LUẬN VÀ KIẾN NGHỊ
Kết luận:
Luận án đã hoàn thành các nội dung nghiên cứu, đáp ứng được các mục tiêu ban đầu đã
đặt ra là Nghiên cứu, đề xuất một số độ đo liên kết mở rộng dựa trên các thông tin đặc trưng
(như thứ tự xuất hiện tên tác giả, thời gian công bố, nội dung tóm tắt của các bài báo) và xây
dựng phương pháp khuyến nghị cộng tác trong mạng đồng tác giả. Thực nghiệm kiểm chứng
đánh giá các độ đo liên kết mở rộng.
Trên thực tế bài toán dự báo liên kết cũng như bài toán khuyến nghị cộng tác trong
mạng đồng tác giả gặp phải vấn đề về dữ liệu thưa, các độ đo liên kết đã được đề xuất chưa
phản ánh hết tính đặc thù trong mạng đồng tác, bởi thông tin đặc trưng trong mạng là khá đa
dạng như là thứ tự tác giả, thời gian công bố đặc biệt là nội dung của các bài báo. Từ những
nhận xét đó, luận án đã đề xuất một số cách thức để xây dựng các độ đo liên kết mở rộng,
nhằm góp phần vào việc cải thiện hiệu quả dự đoán liên kết nói chung trong mạng đồng tác
giả. Bước đầu luận án đã áp dụng thành công kỹ thuật phân tích chủ đề LDA [10] trong việc
xác định mức độ tương đồng giữa hai tập bài báo dựa trên thông tin tên và nội dung tóm tắt
của bài báo, chính việc áp dụng này đã giúp cho việc xây dựng các độ đo liên kết mở có thể
áp dụng cho bài toán khuyến nghị cộng tác trong mạng đồng tác giả.
Bài toán khuyến nghị trong mạng đồng tác giả có những đặc thù riêng bởi kết quả
khuyến nghị cần có tính giải thích cao để giúp người được tư vấn cộng tác nghiên cứu có
thêm thông tin để quyết định xem nên cộng tác với ai. Do vậy, việc sử dụng các độ đo liên
kết trong quá trình khuyến nghị cộng tác và đưa ra cho người dùng những minh chứng rằng
tại sao lại nên cộng tác với người nào đó là một việc hoàn toàn hợp lý.
Đóng góp khoa học của luận án:
1. Về xây dựng độ đo liên kết
- Đề xuất các độ đo liên kết trọng số dựa trên thứ tự của tác giả và thời gian công
bố của bài báo,
- Đề xuất độ đo liên kết mới dựa trên nội dung bài báo, sử dụng kỹ thuật phân tích
chủ đề (LDA) để biểu diễn bài báo làm cơ sở để xây dựng độ đo liên kết,

- Đề xuất độ đo liên kết kết hợp giữa độ đo liên kết dựa trên trọng số và dựa trên
nội dung bài báo.
2. Đề xuất phương pháp khuyến nghị cộng tác trên mạng đồng tác giả
- Sử dụng các độ đo liên kết mở rộng để khuyến nghị cộng tác mới dựa trên phân
lớp và phân cụm bán giám sát mờ.
- Sử dụng các trọng số cộng tác và mức độ tương quan tổng thể để khuyến nghị
cộng tác tăng cường

97


- Tiến hành thử nghiệm trên hai bộ dữ liệu thu thập từ hai tạp chí “Applied
Mathematics and Computation” và “Biophysical Journal”.
Kết quả chính thu được từ thực nghiệm
Trong chương 2, luận án đã tiến hành thực nghiệm để đánh giá sự hiệu quả của các độ
đo liên kết mở rộng đã được đề xuất trên hai bộ dữ liệu AMC và BJ. Thông qua kết quả thực
nghiệm cho thấy hầu hết các độ đo liên kết mở rộng đề xuất có cải thiện hơn so với các độ
đo trọng số. Đặc biệt, khi kết hợp độ đo liên kết trọng số với độ đo liên kết dựa trên nội dung
trong nhiều trường hợp cho kết quả cải thiện đáng kể khi sử dụng phương pháp phân lớp kết
hợp kỹ thuật lấy mẫu theo SMOTE [22]. Trong chương 3, luận án đã minh họa phương pháp
khuyến nghị cộng tác mới và khuyến nghị tăng cường trên bộ dữ liệu BJ. Kết quả thực
nghiệm cho thấy hiệu quả khuyến nghị có nhiều khả quan, đặc biệt khi áp dụng phân cụm
bán giám sát mờ để khuyến nghị cộng tác mới và quan trọng hơn là việc khuyến nghị những
nhà nghiên cứu kèm theo minh chứng về mức độ tương đồng về lĩnh vực nghiên cứu để
người được khuyến nghị có cơ sở tin tưởng và quyết định nên cộng tác với ai trong danh
sách những người được lựa chọn.
Những hạn chế:
Luận án mới tập chung nghiên cứu và đề xuất các độ đo liên kết dựa trên láng giềng
chung, chưa mở rộng độ đo liên kết giữa hai cặp tác giả có độ dài lớn hơn 2 (tức là cặp tác
giả có độ dài đường đi lớn hơn 2 trong mạng đồng tác giả).

Chỉ thực nghiệm dựa trên tập các bài báo được công bố trên một tạp chí cụ thể, chưa
thực nghiệm trên một tập dữ liệu đủ lớn bao gồm nhiều tạp chí và nhiều hội thảo.
Phương pháp khuyến nghị đề xuất trên mạng đồng tác giả còn đơn giản, chưa xem xét
thêm một số thông tin khác của tác giả như là địa chỉ công tác, các hướng nghiên cứu chính,
v.v.
Định hướng phát triển:
Từ những kết quả nghiên cứu đã thực hiện, các hạn chế, luận án đề xuất các kiến
nghị sau nhằm mở rộng hướng nghiên cứu hiện có.
1. Mở rộng các độ đo liên kết để có thể tính toán mức độ tương đồng giữa hai tác
giả bất kỳ trong mạng đồng tác giả.
2. Nghiên cứu các chiến lược khuyến nghị lai ghép trong hệ khuyến nghị truyền
thống để xây dựng mô hình khuyến nghị phù hợp hơn trong mạng đồng tác giả.
3. Tiếp tục nghiên cứu và áp dụng phương pháp phân cụm bán giám sát mờ để xây
dựng phương pháp khuyến nghị cộng tác hiệu quả hơn.
4. Xây dựng một tập dữ liệu đủ lớn để tiến hành các thực nghiệm nhằm đánh giá
hiệu quả của các độ đo liên kết và mô hình khuyến nghị.

98


TÀI LIỆU THAM KHẢO
[1]

L. A. Adamic and E. Adar (2003) "Friends and neighbors on the web," Social
networks, vol. 25, no. 3, pp. 211-230.

[2]

M. Agarwal, H. Agrawal, N. Jain and M. Kumar (2010) “Face recognition using
principle component analysis, eigenface and neural network,” IEEE

International Conference on, In Signal Acquisition and Processing IEEE, 2010
(ICSAP10), 310-314.

[3]

L. M. Aiello, A. Barrat, R. Schifanella, C. Cattuto, B. Markines and F. Menczer
(2012) "Friendship prediction and homophily in social media," ACM
Transactions on the Web, vol. 6, no. 3, p. 9.

[4]

C. G. Akcora, B. Carminati and E. Ferrari (2011) "Network and profile based
measures for user similarities on social networks," in In Information Reuse and
Integration (IRI), 2011 IEEE International Conference on.

[5]

M. Al Hasan, V. Chaoji, S. Salem and M. Zaki (2006) "Link prediction using
supervised learning," in SDM06: workshop on link analysis, counter-terrorism
and security.

[6]

C. Basu, H. Hirsh and W. Cohen (1998) "Recommendation as classification:
Using social and content-based information in recommendation," in Aaai/iaai,
pp. 714-720.

[7]

C. Becker, R. Rigamonti, V. Lepetit and P. Fua (2013) "Supervised feature

learning for curvilinear structure segmentation," in International Conference on
Medical Image Computing and Computer-Assisted Intervention, Springer, pp.
526-533.

[8]

J.C. Bezdek (1981) "Pattern Recognition with Fuzzy Objective Function
Algorithms," Plenum, New York.

[9]

J. Li, J. M. Bioucas-Dias and A. Plaza (2010) “Semisupervised hyperspectral
image segmentation using multinomial logistic regression with active learning,”
IEEE Transactions on, Geoscience and Remote Sensing, 48(11), 4085-4098.

[10] D. M. Blei (2012) "Probabilistic topic models," Communications of the ACM,
vol. 55, no. 4, pp. 77-84.
[11] D. M. Blei, A. Y. Ng and M. I. Jordan (2003) "Latent dirichlet allocation,"
Journal of machine Learning research, vol. 3, no. Jan, pp. 993-1022.

99


[12] D. Blei and J. Lafferty (2009) Text mining: Theory and applications, chapter
topic models, Taylor and Francis, London.
[13] T. Bogers and A. Van den Bosch (2008) "Recommending scientific articles
using citeulike," in In Proceedings of the 2008 ACM conference on
Recommender systems.
[14] M. A. Brandão, M. M. Moro, G. R. Lopes and J. P. Oliveira (2013) "Using link
semantics to recommend collaborations in academic social networks," in

Proceedings of the 22nd International Conference on World Wide Web, ACM,
pp. 833-840.
[15] J. S. Breese, D. Heckerman and C. Kadie (1998) "Empirical analysis of
predictive algorithms for collaborative filtering," in In Proceedings of the
Fourteenth conference on Uncertainty in artificial intelligence.
[16] L. Breiman (2001) "Random forests," Machine learning, vol. 45, no. 1, pp. 532.
[17] R. Burke (2002) "Hybrid recommender systems: Survey and experiments,"
User modeling and user-adapted interaction, vol. 12, no. 4, pp. 331-370.
[18] R. D. Burke (2007) "Hybrid web recommender systems," in P. Brusilovsky, A.
Kobsa, & W. Nejdl, editors, The Adaptive Web, Methods and Strategies of Web
Personalization, volume 4321 of Lecture Notes in Computer Science, Springer,
2007, pp. 377-408.
[19] T. M. Chang and W. F. Hsiao (2013) "LDA-based Personalized Document
Recommendation," In PACIS, pp. 13.
[20] C. C. Chang and C. J. Lin (2011) "LIBSVM: a library for support vector
machines," ACM transactions on intelligent systems and technology (TIST), vol.
2, no. 3, p. 27.
[21] N. V. Chawla (2009) "Data mining for imbalanced datasets: An overview," in
Data mining and knowledge discovery handbook, Springer, Boston, MA, pp.
875-886.
[22] N. V. Chawla, K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer (2002)
"SMOTE: synthetic minority over-sampling technique," Journal of artificial
intelligence research, vol. 16, pp. 321-357.
[23] B. Chen, F. Li, S. Chen, R. Hu and L. Chen (2017) "Link prediction based on
non-negative matrix factorization," PloS one, vol. 12, no. 8, p. e0182968.

100


[24] J. Chen, S. Zhao and H. Wang (2011) “Risk analysis of flood disaster based on

fuzzy clustering method,” Energy Procedia, 5, 1915-1919.
[25] T. Chen and C. Guestrin (2016) "Xgboost: A scalable tree boosting system," in
Proceedings of the 22nd acm sigkdd international conference on knowledge
discovery and data mining, ACM, pp. 785-794.
[26] K. S. Chuang, H. L. Tzeng, S. Chen, J. Wu and T. J. Chen (2006) “Fuzzy cmeans clustering with spatial information for image segmentation,”
computerized medical imaging and graphics, 30(1), 9-15.
[27] C. Cortes and V. Vapnik (1995) "Support-vector networks," Machine learning,
vol. 20, no. 3, pp. 273-297.
[28] H. R. De Sá and R. B. Prudêncio (2011) "Supervised link prediction in weighted
networks," in Neural Networks (IJCNN), The 2011 International Joint
Conference on, IEEE, pp. 2281-2288.
[29] G. A. de Sousa, M. A. Diniz, M. A. Brandão and M. M. Moro (2014) "CNARe:
Co-authorship Networks Analysis and Recommendations," in Proceedings of
the 9th ACM Conference on Recommender Systems, ACM, pp. 329-330.
[30] Y. Dhote, N. Mishra and S. Sharma (2013) "Survey and analysis of temporal
link prediction in online social networks," in In Advances in Computing,
Communications and Informatics (ICACCI), 2013 International Conference on.
[31] Y. Ding (2011) "Scientific collaboration and endorsement: Network analysis of
coauthorship and citation networks," Journal of informetrics, vol. 5, no. 1, pp.
187-203.
[32] R. O. Duda, P. E. Hart and D. G. Stork (2001) "Pattern classification. 2nd,"
Edition. New York, p. 55.
[33] R. C. Eberchart and J. Kennedy (1995) "Particle swarm optimization," in IEEE
International Conference on Neural Networks, Perth, Australia.
[34] Y. Freund and R. E. Schapire (1995) "A desicion-theoretic generalization of online learning and an application to boosting," in European conference on
computational learning theory, Springer, Berlin, Heidelberg, pp. 23-37.
[35] L. Getoor and C. P. Diehl (2005) "Link mining: a survey," Acm Sigkdd
Explorations Newsletter, vol. 7, no. 2, pp. 3-12.
[36] J. Golbeck and J. Hendler (2006, January) "Filmtrust: Movie recommendations
using trust in web-based social networks," In Proceedings of the IEEE


101


Consumer communications and networking conference, Vol. 96, No. 1, pp. 282286.
[37] Y. Guisheng, Y. Wansi and D. Yuxin (2014) "A new link prediction algorithm:
node link strength algorithm," in Computer Applications and Communications
(SCAC), 2014 IEEE Symposium on, IEEE, pp. 5-9.
[38] I. Günes, S. Gündüz-Öüdücü and Z. Çataltepe (2016) "Link prediction using
time series of neighborhood-based node similarity scores," Data Mining and
Knowledge Discovery, vol. 30, no. 1, pp. 147-180.
[39] S. Gupta, S. Pandey and K. K. Shukla (2015) "Comparison analysis of link
prediction algorithms in social network," International Journal of Computer
Applications, vol. 111, no. 16..
[40] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann and I. H. Witten
(2009) "The WEKA data mining software: an update," ACM SIGKDD
explorations newsletter, vol. 11, no. 1, pp. 10-18.
[41] T. Hofmann (2004) "Latent semantic models for collaborative filtering," ACM
Transactions on Information Systems (TOIS), vol. 22, no. 1, pp. 89-115.
[42] T. Hofmann and D. Hartmann (2005) "Collaborative filtering with privacy via
factor analysis," in In Proceedings of the 2005 ACM symposium on applied
computing.
[43] N. M. A. Ibrahim and L. Chen (2015) "Link prediction in dynamic social
networks by integrating different types of information," Applied Intelligence,
vol. 42, no. 4, pp. 738-750.
[44] G. Jeh and J. Widom (2002) "SimRank: a measure of structural-context
Silarity," in In Proceedings of the eighth ACM SIGKDD international
conference on Knowledge discovery and data mining.
[45] T. Karagiannis and M. Vojnovic (2009, April) "Behavioral profiles for
advanced email features," In Proceedings of the 18th international conference

on World wide web, pp. 711-720, ACM.
[46] L. Katz (1953) "A new status index derived from sociometric analysis,"
Psychometrika, vol. 18, no. 1, pp. 39-43.
[47] H. Kautz, B. Selman and M. Shah (1997) "Referral Web: combining social
networks and collaborative filtering," Communications of the ACM, 40(3), 6365.

102


[48] Y. Koren (2008) "Factorization meets the neighborhood: a multifaceted
collaborative filtering model," in In Proceedings of the 14th ACM SIGKDD
international conference on Knowledge discovery and data mining.
[49] M. Kubat and S. Matwin (1997) "Addressing the curse of imbalanced training
sets: one-sided selection," in ICML, vol. 97, pp. 179-186.
[50] D. H. Lee, P. Brusilovsky and T. Schleyer (2011) "Recommending
collaborators using social features and mesh terms," Proceedings of the
Association for Information Science and Technology, vol. 48, no. 1, pp. 1-10.
[51] D. Liben‐Nowell and J. Kleinberg (2007) "The link‐prediction problem for
social networks," Journal of the Association for Information Science and
Technology, vol. 58, no. 7, pp. 1019-1031.
[52] R. N. Lichtenwalter, J. T. Lussier and N. V. Chawla (2010) "New perspectives
and methods in link prediction.," in In Proceedings of the 16th ACM SIGKDD
international conference on Knowledge discovery and data mining.
[53] J. X. F. Li, W. Wang, Z. Chen, N. Y. Asabere and H. Jiang (2014) "Acrec: a coauthorship based random walk model for academic collaboration
recommendation," in Proceedings of the 23rd International Conference on
World Wide Web, ACM, pp. 1209-1214.
[54] G. R. Lopes, M. M. Moro, L. K. Wives and J. P. M. De Oliveira (2010)
"Collaboration recommendation on academic social networks," in In
International Conference on Conceptual Modeling.
[55] J. Lu, X. Yuan and T. Yahagi (2007) “A method of face recognition based on

fuzzy c-means clustering and associated sub-NNs,” IEEE Transactions on,
Neural Networks, 18(1), 150-160.
[56] Z. Lu, B. Savas, W. Tang and I. S. Dhillon (2010) "Supervised link prediction
using multiple sources," in Data Mining (ICDM), 2010 IEEE 10th International
Conference on, IEEE, pp. 923-928.
[57] I. Makarov, O. Bulanov and L. E. Zhukov (2016) "Co-author recommender
system," in In International Conference on Network Analysis.
[58] A. Martin, V. Gayathri, G. Saranya, P. Gayathri and P. Venkatesan (2011) “A
hybrid model for bankruptcy prediction using genetic algorithm, fuzzy c-means
and MARS,” International Journal on Soft Computing ( IJSC ), 2(1), 12-24.

103


[59] V. Martínez, F. Berzal and J. C. Cubero (2017) "A survey of link prediction in
complex networks," ACM Computing Surveys (CSUR), vol. 49, no. 4, p. 69.
[60] D. W. McDonald (2003, April) "Recommending collaboration with social
networks: a comparative evaluation," In Proceedings of the SIGCHI conference
on Human factors in computing systems, pp. 593-600, ACM.
[61] M. Mitzenmacher (2004) "A brief history of generative models for power law
and lognormal distributions," Internet mathematics, vol. 1, no. 2, pp. 226-251.
[62] J. Mori, Y. Kajikawa, H. Kashima and I. Sakata (2012) "Machine learning
approach for finding business partners and building reciprocal relationships.,
39(12), .," Expert Systems with Applications, vol. 39, no. 12, pp. 10402-10407.
[63] L. Munasinghe (2013) Time-aware methods for link prediction in social
networks (Doctoral dissertation, Ph. D. thesis, The Graduate University for
Advanced Studies).
[64] T. Murata and S. Moriyasu (2007) "Link prediction of social networks based on
weighted proximity measures," in the IEEE/WIC/ACM international conference
on In Web Intelligence.

[65] M. E. Newman (2001) "Scientific collaboration networks. I. Network
construction and fundamental results," Physical review E, vol. 64, no. 1, p.
016131.
[66] M. E. Newman (2001) "Scientific collaboration networks. II. Shortest paths,
weighted networks, and centrality," Physical review E, p. 016132.
[67] M. E. Newman (2001) "Clustering and preferential attachment in growing
networks," Physical review E, vol. 64, no. 2, p. 025102.
[68] M. E. Newman (2004) "Who is the best connected scientist? A study of
scientific coauthorship networks," in Complex networks, Springer, Berlin,
Heidelberg, pp. 337-370.
[69] H. Ogata, Y. Yano, N. Furugori and Q. Jin (2001) "Computer supported social
networking for augmenting cooperation", Computer Supported Cooperative
Work (CSCW), 10(2), 189-209.
[70] M. Pavlov and R. Ichise (2007) "Finding experts by link prediction in coauthorship networks," in In Proceedings of the 2nd International Conference on
Finding Experts on the Web with Semantics-Volume 290.

104


[71] J. Platt (1998) "Sequential minimal optimization: A fast algorithm for training
support vector machines".
[72] J. R. Quinlan (2014) C4. 5: programs for machine learning, Elsevier.
[73] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom and J. Riedl (1994)
"GroupLens: an open architecture for collaborative filtering of netnews," in
Proceedings of the 1994 ACM conference on Computer supported cooperative
work, ACM, pp. 175-186.
[74] M. R. Rezaee, P. M. Van der Zwet, B. P. Lelieveldt, R. J. Van Der Geest and J.
H. Reiber (2000) “A multiresolution image segmentation technique based on
pyramidal segmentation and fuzzy clustering,” IEEE Transactions on, Image
Processing, 9(7), 1238-1248.

[75] M. Sachan and R. Ichise (2010) "Using abstract information and community
alignment information for link prediction," in In Machine Learning and
Computing (ICMLC), 2010 Second International Conference on.
[76] G. Salton and M. J. McGill (1987) Introduction to Modern Information
Retrieval, New York: Mc.
[77] B. Sarwar, G. Karypis, J. Konstan and J. Riedl (2001) "Item-based collaborative
filtering recommendation algorithms," in In Proceedings of the 10th
international conference on World Wide Web.
[78] B. Sarwar, G. Karypis, J. Konstan and J. Riedl (2002) "Incremental singular
value decomposition algorithms for highly scalable recommender systems," in
In Fifth International Conference on Computer and Information Science.
[79] S. Scellato, A. Noulas and C. Mascolo (2011) "Exploiting place features in link
prediction on location-based social networks. (pp. ).," in In Proceedings of the
17th ACM SIGKDD international conference on Knowledge discovery and data
mining.
[80] F. Schneider, A. Feldmann, B. Krishnamurthy and W. Willinger (2009)
"Understanding online social network usage from a network perspective," in In
Proceedings of the 9th ACM SIGCOMM conference on Internet measurement
conference.
[81] U. Shardanand and P. Maes (1995) "Social information filtering: algorithms for
automating “word of mouth”," in Proceedings of the SIGCHI conference on
Human factors in computing systems, ACM Press/Addison-Wesley Publishing
Co., pp. 210-217.

105


[82] N. Shibata, Y. Kajikawa and I. Sakata (2012) "Link prediction in citation
networks," Journal of the Association for Information Science and Technology,
vol. 63, no. 1, pp. 75-85.

[83] J. Tang, S. Wu, J. Sun and H. Su (2012) "Cross-domain collaboration
recommendation.," in In Proceedings of the 18th ACM SIGKDD international
conference on Knowledge discovery and data mining.
[84] A. Töscher, M. Jahrer and R. Legenstein (2008) "Improved neighborhood-based
algorithms for large-scale recommender systems," in Proceedings of the 2nd
KDD Workshop on Large-Scale Recommender Systems and the Netflix Prize
Competition, ACM, p. 4.
[85] S. H. Walker and D. B. Duncan (1967) "Estimation of the probability of an
event as a function of several independent variables," Biometrika, vol. 54, no.
1-2, pp. 167-179.
[86] C. Wang and D. M. Blei (2011, August) "Collaborative topic modeling for
recommending scientific articles," In Proceedings of the 17th ACM SIGKDD
international conference on Knowledge discovery and data mining, pp. 448456, ACM.
[87] C. Wang, V. Satuluri and S. Parthasarathy (2007) "Local probabilistic models
for link prediction," in In Data Mining, 2007. ICDM 2007. Seventh IEEE
International Conference on.
[88] P. Wang, B. Xu, Y. Wu and X. Zhou (2015) "Link prediction in social networks:
the state-of-the-art," Science China Information Sciences, vol. 58, no. 1, pp. 138.
[89] S. Wasserman and K. Faust (1994) "Social Network Analysis in the Social and
Behavioral Sciences," in Social Network Analysis: Methods and Applications,
Cambridge University Press, pp. 1-27.
[90] D. Whitley (1994) "A genetic algorithm tutorial," Statistics and computing, vol.
4, no. 2, pp. 65-85.
[91] B. Whitman and S. Lawrence (2002) "Inferring Descriptions and Similarity for
Music from Community Metadata," in ICMC.
[92] T. Wohlfarth and R. Ichise (2008) "Semantic and Event-Based Approach for
Link Prediction," In Proceedings of the 7th International Conference on
Practical Aspects of Knowledge Management (PAKM), Yokohama - Japan.

106



×