BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Phạm Minh Chuẩn
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT
TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC
Ngành: Hệ thống thông tin
Mã số: 9480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Thanh Hương
2. PGS.TS. Trần Đình Khang
Hà Nội - 2018
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nghiên cứu và phát triển một số
độ đo liên kết trong bài toán khuyến nghị cộng tác” là công trình nghiên cứu của riêng tôi,
dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Tất cả các
kết quả, số liệu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công
trình này.
Hà Nội, ngày tháng
năm 2018
TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC
TÁC GIẢ LUẬN ÁN
PGS.TS. Lê Thanh Hương
Phạm Minh Chuẩn
2
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Thầy và cô đã luôn tận tình giúp
đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình. Đồng thời tôi cũng xin cảm ơn TS. Lê Hoàng
Sơn Trung tâm Tính toán Hiệu năng cao – ĐH KHTN – ĐHQGHN đã tạo điều kiện, giúp
đỡ tôi hoàn thành luận án này.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông
tin, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi
học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá
trình nghiên cứu. Xin cám ơn các bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện
CNTT & TT, đặc biệt là bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài năng CNTT K58 đã hỗ
trợ tôi trong việc thu thập dữ liệu để phục vụ cho quá trình thực nghiệm.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên,
nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn
thành luận án này.
Xin gửi lời cám ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân
hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn
động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Nghiên cứu sinh
Phạm Minh Chuẩn
3
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................. 2
LỜI CẢM ƠN........................................................................................................................ 3
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 6
DANH MỤC CÁC BẢNG .................................................................................................... 8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ............................................................................ 9
MỞ ĐẦU ............................................................................................................................. 11
1.
TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................. 16
1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả........................................... 16
1.1.1 Mạng xã hội và mạng đồng tác giả ..................................................................... 16
1.1.2 Bài toán khuyến nghị cộng tác ........................................................................... 20
1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả ................................ 26
1.2. Một số kiến thức liên quan ....................................................................................... 34
1.2.1. Các phương pháp phân lớp ................................................................................ 34
1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ ..................................................... 38
1.2.3. Phân tích theo chủ đề ......................................................................................... 41
1.3. Kết luận..................................................................................................................... 43
2.
CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ ............... 44
2.1. Độ đo liên kết dựa trên trọng số mở rộng ................................................................. 44
2.2. Các độ đo liên kết dựa trên nội dung bài báo ........................................................... 46
2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán .................... 50
2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả............................................... 58
2.4.1. Chuẩn bị dữ liệu ................................................................................................ 58
2.4.2. Kịch bản thực nghiệm........................................................................................ 60
2.4.3. Kết quả thực nghiệm.......................................................................................... 63
2.5 Kết luận...................................................................................................................... 77
3.
BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................................................ 78
4
3.1. Giới thiệu .................................................................................................................. 78
3.2. Khuyến nghị cộng tác mới ........................................................................................ 79
3.3. Khuyến nghị cộng tác tăng cường ............................................................................ 88
3.3. Kết luận..................................................................................................................... 96
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 97
TÀI LIỆU THAM KHẢO ................................................................................................... 99
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 108
5
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt
Chữ viết đầy đủ
Giải thích
AA
Adamic & Adar
Độ đo liên kết AA
AUC
Area under the curve
Tiêu chí đánh giá phân lớp
CN
Common Neighbours
Độ đo liên kết láng giềng chung
JC
Jaccard Coefficient
Độ đo liên kết JC
LDA
Latent Dirichlet Allocation
Phương pháp phân tích chủ đề
OSN
Online Social Network
Mạng xã hội trực tuyến
OHUSN
Online HomogeneousUndirected
Social Networks
Mạng xã hội vô hướng đồng nhất
trực tuyến
SMO
Sequential Minimal Optimization
Tối ưu hóa cực tiểu lần lượt
SVM
Support Vector Machines
Máy véc-tơ hỗ trợ
WAA
Weighted Adamic & Adar
Độ đo liên kết trọng số dựa trên
AA
WCN
Weighted Common Neighbours
Độ đo liên kết trọng số dựa trên
láng giềng chung
WJC
Weighted Jaccard Coefficient
Độ đo liên kết trọng số dựa trên
JC
TF-IDF
Term Frequency - Inverse
Document Frequency
Trọng số từ
SPIRES
Stanford Public Information
Retrieval System
Hệ thống truy xuất thông tin công
khai Stanford
NCSTRL
Networked Computer Science
Technical Reference Library
Mạng thư viện tham chiếu khoa
học máy tính
AMC
Applied Mathematics and
Computation
Tạp chí toán ứng dụng và tính
toán
BJ
Biophysical Journal
Tạp chí lý sinh
CF
Collaborative Filtering
Lọc cộng tác
CB
Content-based
Dựa trên nội dung
6
KMC
Keywords match count
Đếm các từ khóa chung
AKMC
Abtract keywords match count
Đếm các từ chung trong nội dung
tóm tắt
FCM
Fuzzy C-means
Phân cụm mờ
SSSFC
Semi-Supervised Standard Fuzzy
Clustering
Phân cụm bán giám sát mờ
7
DANH MỤC CÁC BẢNG
Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo .................................................. 19
Bảng 1.2 Các phương pháp phân lớp được sử dụng ........................................................... 33
Bảng 2.1 Thống kê trên các bộ dữ liệu ............................................................................... 59
Bảng 2.2 Thống kê tập dữ liệu ............................................................................................ 60
Bảng 2.3 Kịch bản thực nghiệm với các độ đo liên kế ....................................................... 60
Bảng 2.4 Kịch bản thực nghiệm với các độ đo liên kết mở rộng ........................................ 61
Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 2 .......................... 62
Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 3 .......................... 62
Bảng 2.7 Giá trị Recall@N với các tham số tối ưu trên AMC ........................................... 65
Bảng 2.8 Giá trị Recall ứng với các tham số tối ưu trên BJ ................................................ 67
Bảng 2.9 Giá trị chỉ số đánh giá trên AMC đối với các tổ hợp độ đo liên kết trọng số và mở
rộng ............................................................................................................................ 69
Bảng 3.1 Thống kê các tập dữ liệu ...................................................................................... 83
Bảng 3.2 Tập các đặc trưng trong thực nghiệm khuyến nghị cộng tác mới ....................... 83
Bảng 3.3 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 84
Bảng 3.4 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.5 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.6 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 85
Bảng 3.7 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 85
Bảng 3.8 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 85
Bảng 3.9 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 86
Bảng 3.10 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 86
Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và
(3.1) ứng với từng tác giả được khuyến nghị. ............................................................ 95
8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết ......................................... 17
Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp........................................................ 18
Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002
dưới dạng đồ thị ......................................................................................................... 19
Hình 1.4 Quá trình sinh của LDA (Nguồn [10])................................................................. 42
Hình 2.1 Minh họa độ đo liên kết mở rộng......................................................................... 46
Hình 2.2 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên AMC . 63
Hình 2.3 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên BJ ...... 63
Hình 2.4 Giá trị Recall@N với số lượng chủ đề và tham số đối với LDAcosin trên AMC
.................................................................................................................................... 64
Hình 2.5 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.6 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.7 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên AMC
.................................................................................................................................... 66
Hình 2.8 Giá trị Recall ứng với số lượng chủ đề và tham số đối với độ đo liên kết LDAcosin
trên BJ ........................................................................................................................ 66
Hình 2.9 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 67
Hình 2.10 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.11 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.12 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên AMC ............................................................................................... 69
Hình 2.13 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và
Weight2_#) trên AMC ............................................................................................... 70
Hình 2.14 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên AMC ............................................................................................... 70
Hình 2.15 So sánh giá trị AUC ứng với các tổ hợp độ đo liên kết (Weight#, và Weight#_#)
trên AMC ................................................................................................................... 71
9
Hình 2.16 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên BJ .................................................................................................... 72
Hình 2.17 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và
Weight2_#) trên BJ .................................................................................................... 72
Hình 2.18 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên BJ .................................................................................................... 73
Hình 2.19 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên
BJ ............................................................................................................................... 73
Hình 2.20 Giá trị F1-measure của các tổ hợp độ đo liên kết Weight#_P_LDAcosin trên AMC
theo số lượng chủ đề .................................................................................................. 74
Hình 2.21 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 74
Hình 2.22 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 75
Hình 3.1 Minh họa giao diện khuyến nghị cộng tác ........................................................... 78
Hình 3.2 Các bước khuyến nghị cộng tác mới dựa trên phân lớp ...................................... 80
Hình 3.3 Các bước thực hiện khuyến nghị cộng tác mới dựa trên phân cụm bán giám sát mờ
.................................................................................................................................... 81
Hình 3.4 So sánh giá trị chỉ số đánh giá Recall TBC giữa khuyến nghị cộng tác mới dựa trên
Classifier và SSSFC ................................................................................................... 86
Hình 3.5 So sánh giá trị chỉ số đánh giá Precision TBC giữa khuyến nghị cộng tác mới dựa
trên Classifier và SSSFC ............................................................................................ 87
Hình 3.6 So sánh giá trị chỉ số đánh giá F1-measure TBC giữa khuyến nghị cộng tác mới
dựa trên Classifier và SSSFC ..................................................................................... 87
Hình 3.7 Các bước thực hiện khuyến nghị cộng tác tăng cường ........................................ 88
Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng và thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (1.1) ...................... 93
Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng và thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (3.1) ...................... 93
Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường
hợp.............................................................................................................................. 94
10
Luận án đủ ở file: Luận án full