Tải bản đầy đủ (.pdf) (108 trang)

Nghiên cứu và phát triển một số độ đo liên kết trong bài toán khuyến nghị cộng tác (Luận án tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405.86 KB, 108 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Minh Chuẩn

NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ ĐỘ ĐO LIÊN KẾT
TRONG BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC
Ngành: Hệ thống thông tin
Mã số: 9480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Thanh Hương
2. PGS.TS. Trần Đình Khang

Hà Nội - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nghiên cứu và phát triển một số
độ đo liên kết trong bài toán khuyến nghị cộng tác” là công trình nghiên cứu của riêng tôi,
dưới sự hướng dẫn của PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Tất cả các
kết quả, số liệu trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công
trình này.
Hà Nội, ngày tháng

năm 2018

TM. TẬP THỂ HƯỚNG DẪN KHOA HỌC


TÁC GIẢ LUẬN ÁN

PGS.TS. Lê Thanh Hương

Phạm Minh Chuẩn

2


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ
Thông tin và Truyền thông, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Lê Thanh Hương và PGS.TS. Trần Đình Khang. Thầy và cô đã luôn tận tình giúp
đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai
và hoàn thành công việc nghiên cứu của mình. Đồng thời tôi cũng xin cảm ơn TS. Lê Hoàng
Sơn Trung tâm Tính toán Hiệu năng cao – ĐH KHTN – ĐHQGHN đã tạo điều kiện, giúp
đỡ tôi hoàn thành luận án này.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông
tin, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi
học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá
trình nghiên cứu. Xin cám ơn các bạn sinh viên thuộc Bộ môn Hệ thống thông tin, Viện
CNTT & TT, đặc biệt là bạn Nguyễn Đăng Tuấn Anh lớp kỹ sư tài năng CNTT K58 đã hỗ
trợ tôi trong việc thu thập dữ liệu để phục vụ cho quá trình thực nghiệm.
Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên,
nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn
thành luận án này.
Xin gửi lời cám ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân
hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.

Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn
động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Nghiên cứu sinh

Phạm Minh Chuẩn

3


MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................. 2
LỜI CẢM ƠN........................................................................................................................ 3
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 6
DANH MỤC CÁC BẢNG .................................................................................................... 8
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ............................................................................ 9
MỞ ĐẦU ............................................................................................................................. 11
1.

TỔNG QUAN VỀ BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................. 16
1.1 Bài toán khuyến nghị cộng tác trong mạng đồng tác giả........................................... 16
1.1.1 Mạng xã hội và mạng đồng tác giả ..................................................................... 16
1.1.2 Bài toán khuyến nghị cộng tác ........................................................................... 20
1.1.3. Tổng quan về các độ đo liên kết trong mạng đồng tác giả ................................ 26
1.2. Một số kiến thức liên quan ....................................................................................... 34
1.2.1. Các phương pháp phân lớp ................................................................................ 34
1.2.2 Phân cụm mờ và phân cụm bán giám sát mờ ..................................................... 38
1.2.3. Phân tích theo chủ đề ......................................................................................... 41
1.3. Kết luận..................................................................................................................... 43


2.

CÁC ĐỘ ĐO LIÊN KẾT MỞ RỘNG TRONG MẠNG ĐỒNG TÁC GIẢ ............... 44
2.1. Độ đo liên kết dựa trên trọng số mở rộng ................................................................. 44
2.2. Các độ đo liên kết dựa trên nội dung bài báo ........................................................... 46
2.3. Thuật toán tính độ đo liên kết và đánh giá độ phức tạp của thuật toán .................... 50
2.4. Đánh giá các độ đo liên kết trong mạng đồng tác giả............................................... 58
2.4.1. Chuẩn bị dữ liệu ................................................................................................ 58
2.4.2. Kịch bản thực nghiệm........................................................................................ 60
2.4.3. Kết quả thực nghiệm.......................................................................................... 63
2.5 Kết luận...................................................................................................................... 77

3.

BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC ................................................................ 78

4


3.1. Giới thiệu .................................................................................................................. 78
3.2. Khuyến nghị cộng tác mới ........................................................................................ 79
3.3. Khuyến nghị cộng tác tăng cường ............................................................................ 88
3.3. Kết luận..................................................................................................................... 96
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 97
TÀI LIỆU THAM KHẢO ................................................................................................... 99
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 108

5



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

Giải thích

AA

Adamic & Adar

Độ đo liên kết AA

AUC

Area under the curve

Tiêu chí đánh giá phân lớp

CN

Common Neighbours

Độ đo liên kết láng giềng chung

JC

Jaccard Coefficient

Độ đo liên kết JC


LDA

Latent Dirichlet Allocation

Phương pháp phân tích chủ đề

OSN

Online Social Network

Mạng xã hội trực tuyến

OHUSN

Online HomogeneousUndirected
Social Networks

Mạng xã hội vô hướng đồng nhất
trực tuyến

SMO

Sequential Minimal Optimization

Tối ưu hóa cực tiểu lần lượt

SVM

Support Vector Machines


Máy véc-tơ hỗ trợ

WAA

Weighted Adamic & Adar

Độ đo liên kết trọng số dựa trên
AA

WCN

Weighted Common Neighbours

Độ đo liên kết trọng số dựa trên
láng giềng chung

WJC

Weighted Jaccard Coefficient

Độ đo liên kết trọng số dựa trên
JC

TF-IDF

Term Frequency - Inverse
Document Frequency

Trọng số từ


SPIRES

Stanford Public Information
Retrieval System

Hệ thống truy xuất thông tin công
khai Stanford

NCSTRL

Networked Computer Science
Technical Reference Library

Mạng thư viện tham chiếu khoa
học máy tính

AMC

Applied Mathematics and
Computation

Tạp chí toán ứng dụng và tính
toán

BJ

Biophysical Journal

Tạp chí lý sinh


CF

Collaborative Filtering

Lọc cộng tác

CB

Content-based

Dựa trên nội dung

6


KMC

Keywords match count

Đếm các từ khóa chung

AKMC

Abtract keywords match count

Đếm các từ chung trong nội dung
tóm tắt

FCM


Fuzzy C-means

Phân cụm mờ

SSSFC

Semi-Supervised Standard Fuzzy
Clustering

Phân cụm bán giám sát mờ

7


DANH MỤC CÁC BẢNG
Bảng 1.1 Danh sách các quan hệ cộng tác và các bài báo .................................................. 19
Bảng 1.2 Các phương pháp phân lớp được sử dụng ........................................................... 33
Bảng 2.1 Thống kê trên các bộ dữ liệu ............................................................................... 59
Bảng 2.2 Thống kê tập dữ liệu ............................................................................................ 60
Bảng 2.3 Kịch bản thực nghiệm với các độ đo liên kế ....................................................... 60
Bảng 2.4 Kịch bản thực nghiệm với các độ đo liên kết mở rộng ........................................ 61
Bảng 2.5 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 2 .......................... 62
Bảng 2.6 Các độ đo liên kết tổ hợp sử dụng khi phân lớp với kịch bản 3 .......................... 62
Bảng 2.7 Giá trị Recall@N với các tham số tối ưu trên AMC ........................................... 65
Bảng 2.8 Giá trị Recall ứng với các tham số tối ưu trên BJ ................................................ 67
Bảng 2.9 Giá trị chỉ số đánh giá trên AMC đối với các tổ hợp độ đo liên kết trọng số và mở
rộng ............................................................................................................................ 69
Bảng 3.1 Thống kê các tập dữ liệu ...................................................................................... 83
Bảng 3.2 Tập các đặc trưng trong thực nghiệm khuyến nghị cộng tác mới ....................... 83

Bảng 3.3 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 84
Bảng 3.4 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.5 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 84
Bảng 3.6 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 85
Bảng 3.7 Số chủ đề tối ưu ứng với các tổ hợp đặc trưng trên các bộ dữ liệu ..................... 85
Bảng 3.8 Giá trị chỉ số Recall trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 85
Bảng 3.9 Giá trị chỉ số Precision trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ liệu
.................................................................................................................................... 86
Bảng 3.10 Giá trị chỉ số F1-measure trung bình ứng với các tổ hợp đặc trưng trên các bộ dữ
liệu .............................................................................................................................. 86
Bảng 3.11 So sánh giá trị chỉ số F1-measure giữa trọng số cộng tác theo công thức (1.1) và
(3.1) ứng với từng tác giả được khuyến nghị. ............................................................ 95

8


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Tiếp cận dự đoán liên kết dựa trên các độ đo liên kết ......................................... 17
Hình 1.2 Tiếp cận dự đoán liên kết dựa trên phân lớp........................................................ 18
Hình 1.3 Minh họa mạng đồng tác giả với dữ liệu trong Bảng 1.1 từ năm 2000 đến 2002
dưới dạng đồ thị ......................................................................................................... 19
Hình 1.4 Quá trình sinh của LDA (Nguồn [10])................................................................. 42
Hình 2.1 Minh họa độ đo liên kết mở rộng......................................................................... 46
Hình 2.2 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên AMC . 63
Hình 2.3 So sánh chỉ số đánh giá Recall@N giữa các độ đo liên kết trọng số trên BJ ...... 63
Hình 2.4 Giá trị Recall@N với số lượng chủ đề và tham số  đối với LDAcosin trên AMC

.................................................................................................................................... 64
Hình 2.5 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.6 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên
AMC........................................................................................................................... 65
Hình 2.7 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên AMC
.................................................................................................................................... 66
Hình 2.8 Giá trị Recall ứng với số lượng chủ đề và tham số  đối với độ đo liên kết LDAcosin
trên BJ ........................................................................................................................ 66
Hình 2.9 So sánh các độ đo liên kết trọng số (#CN) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 67
Hình 2.10 So sánh các độ đo liên kết trọng số (#AA) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.11 So sánh các độ đo liên kết trọng số (#JC) với các độ đo liên kết mở rộng trên BJ
.................................................................................................................................... 68
Hình 2.12 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên AMC ............................................................................................... 69
Hình 2.13 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và
Weight2_#) trên AMC ............................................................................................... 70
Hình 2.14 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên AMC ............................................................................................... 70
Hình 2.15 So sánh giá trị AUC ứng với các tổ hợp độ đo liên kết (Weight#, và Weight#_#)
trên AMC ................................................................................................................... 71

9


Hình 2.16 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight1, và
Weight1_#) trên BJ .................................................................................................... 72
Hình 2.17 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight2, và

Weight2_#) trên BJ .................................................................................................... 72
Hình 2.18 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight3, và
Weight3_#) trên BJ .................................................................................................... 73
Hình 2.19 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và Weight#_#) trên
BJ ............................................................................................................................... 73
Hình 2.20 Giá trị F1-measure của các tổ hợp độ đo liên kết Weight#_P_LDAcosin trên AMC
theo số lượng chủ đề .................................................................................................. 74
Hình 2.21 So sánh các tiêu chí đánh giá của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 74
Hình 2.22 So sánh giá trị AUC của các tổ hợp độ đo liên kết (Weight#, và
Weight#_P_LDAcosin) trên AMC ............................................................................ 75
Hình 3.1 Minh họa giao diện khuyến nghị cộng tác ........................................................... 78
Hình 3.2 Các bước khuyến nghị cộng tác mới dựa trên phân lớp ...................................... 80
Hình 3.3 Các bước thực hiện khuyến nghị cộng tác mới dựa trên phân cụm bán giám sát mờ
.................................................................................................................................... 81
Hình 3.4 So sánh giá trị chỉ số đánh giá Recall TBC giữa khuyến nghị cộng tác mới dựa trên
Classifier và SSSFC ................................................................................................... 86
Hình 3.5 So sánh giá trị chỉ số đánh giá Precision TBC giữa khuyến nghị cộng tác mới dựa
trên Classifier và SSSFC ............................................................................................ 87
Hình 3.6 So sánh giá trị chỉ số đánh giá F1-measure TBC giữa khuyến nghị cộng tác mới
dựa trên Classifier và SSSFC ..................................................................................... 87
Hình 3.7 Các bước thực hiện khuyến nghị cộng tác tăng cường ........................................ 88
Hình 3.8 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (1.1) ...................... 93
Hình 3.9 Kết quả trung bình chung của F1-measure đối với các giá trị ngưỡng  và  thực
nghiệm trong trường hợp trọng số cộng tác tính theo công thức (3.1) ...................... 93
Hình 3.10 Kết quả trung bình chung của Recall, Precision và F1-measure trong cả hai trường
hợp.............................................................................................................................. 94

10



Luận án đủ ở file: Luận án full
















×