Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 121 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG
CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHƠNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐỐN ĐỒNG TÁC GIẢ
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI−2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG

CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ

Ngành: Hệ thống thông tin
Mã số: 9480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. TRẦN ĐÌNH KHANG

HÀ NỘI−2024

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là cơng trình nghiên
cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu
tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS. Trần Đình
Khang. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực.
Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng
quy định.

Hà Nội, ngày tháng 02 năm 2024
Nghiên cứu sinh

Võ Đức Quang

GIÁO VIÊN HƯỚNG DẪN KHOA HỌC

PGS.TS. Trần Đình Khang

i

LỜI CẢM ƠN

Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn và
thử thách. Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thể
thiếu sự đồng hành dẫn dắt của những Thầy Cơ kính mến, sự hỗ trợ giúp
đỡ của những người đồng nghiệp, người bạn, người thân trong gia đình. Tơi
thực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vì
đã dành cho tơi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua.

Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Trần Đình Khang,
người Thầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tơi rất
nhiều trong suốt q trình nghiên cứu.

Tôi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tại Trường
Công nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội đã truyền
đạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiến thức, gợi mở
những ý tưởng nghiên cứu để hoàn thành luận án.

Tôi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, các
em sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người.

Cuối cùng, tơi muốn nói lời biết ơn chân thành đến gia đình thân yêu,
những người thân và bạn bè đã luôn động viên, ủng hộ tôi trong suốt q
trình nghiên cứu và giúp tơi vượt qua các giai đoạn khó khăn để đạt được
một số kết quả bước đầu hôm nay.

ii

MỤC LỤC

LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . . . v
DANH MỤC HÌNH VẼ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
DANH MỤC THUẬT TOÁN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
CHƯƠNG 1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU . . . . . 11

1.1. Bài toán phân lớp với dữ liệu không cân bằng. . . . . . . . . . . . . . . . . . . . . . 11
1.2. Một số thuật toán liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.1. Thuật toán SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2. Thuật toán Weighted-SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3. Fuzzy SVM-CIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.4. Thuật toán AdaBoost. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.5. Thuật toán CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.6. Phương pháp Cây quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.7. K-nearest neighbors và Tomek link . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3. Bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.2. Mơ hình hóa bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4. Phương pháp phân lớp cho bài toán dự đoán đồng tác giả . . . . . . . . . . 29
1.5. Phương pháp thực nghiệm và đánh giá. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.5.1. Tập dữ liệu thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.5.2. Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.5.3. Môi trường và kịch bản thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.6. Kết luận Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

iii

CHƯƠNG 2. CẢI TIẾN THUẬT TỐN ADABOOST CHO DỮ
LIỆU KHƠNG CÂN BẰNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Đề xuất thuật toán Im.AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.2.1. Phân tích thuật toán AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ
không cân bằng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2.3. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy

cảm với nhãn dương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.4. Mơ tả thuật tốn Im.AdaBoost kết hợp với WSVM . . . . . . . . . . . . 47
2.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.1. Thử nghiệm trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . 52
2.4. Kết luận Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
CHƯƠNG 3. ĐỀ XUẤT THUẬT TỐN ĐIỀU CHỈNH THÍCH
NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL . . . . . . . . 67
3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2. Đề xuất thuật toán trọng số mờ thích nghi. . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.1. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM. . . . . . . 69
3.2.2. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm . . . 71
3.2.3. Thuật toán phân lớp với trọng số mờ thích nghi. . . . . . . . . . . . . . . . 73
3.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.1. Thử nghiệm trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả . . . . . . . . . . . . . . . . 83
3.3.3. Thử nghiệm so sánh các thuật toán đã đề xuất . . . . . . . . . . . . . . . . 92
3.4. Kết luận Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . . . 98
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

iv

DANH MỤC CÁC TỪ VIẾT TẮT
VÀ THUẬT NGỮ

Viết tắt Tiếng Anh Tiếng Việt
AA Adamic-Adar Độ đo liên kết AA
ACT Average Commute Time Độ đo liên kết ACT

AdaBoost Adaptive Boosting Thuật toán học kết hợp tuần tự thích nghi
AdaBoost.SVM Adaptive Boosting with SVM AdaBoost kết hợp với SVM
AdaBoost.W-SVM Adaptive Boosting with W-SVM AdaBoost kết hợp với W-SVM
AdaBoost.DT Adaptive Boosting with Decision- AdaBoost kết hợp với DecisionTree
Tree
ASN Academic Social Network Mạng xã hội học thuật
AUC Area Under Curve Diện tích dưới đường cong ROC
CAR CAR-based Common Neighbor In- Độ đo CAR
dex)
CC Common Country Độ đo liên kết cộng đồng
CNN Convolutional neural network Mạng nơ-ron tích chập
CN Common Neighbor Độ đo liên kết CN
ENN Edited Nearest Neighbor Thuật toán giảm mẫu ENN
FSVM Fuzzy Support Vector Machine Máy véc-tơ hỗ trợ mờ
FSVM-CIL Fuzzy Support Vector Machines for Máy véc-tơ hỗ trợ mờ cho học trên dữ liệu
Class Imbalance Learning không cân bằng
G-mean Geometric Mean Độ đo trung bình hình học
HSM Hierarchical structure model Mơ hình cấu trúc phân cấp
JC Jaccard Coefficient Độ đo liên kết JC
KNN K -Nearest Neighbors K -láng giềng gần nhất
LDP local directed path Độ đo liên kết LDP
LP Link Prediction Dự đoán liên kết
MAG Microsoft Academic Graph Cơ sở dữ liệu khoa học MAG
MF Matrix Forest Index Độ đo liên kết MF
NCL Neighborhood Cleaning Rule Thuật toán giảm mẫu NCL
OSS One Sided Selection Thuật toán giảm mẫu OSS
PA Preferential Attachment Độ đo liên kết PA
RA Resource Allocation Độ đo liên kết RA
ROC Receiver operating characteristics Đường cong đặc tính
RWR Random Walk with Restart Độ đo liên kết RWR

SBM Stochastic block model Mơ hình khối ngẫu nhiên
SPRD Scholarly Paper Recommendation Cơ sở dữ liệu khoa học SPRD
Dataset

v

SVM Support Vector Machine Máy véc-tơ hỗ trợ
SMOTE Synthetic Minority Over-sampling Kỹ thuật tạo mẫu tổng hợp cho lớp thiểu
Technique số
SP Specificity Độ đo đặc hiệu
SE Sensitivity Độ đo nhạy cảm
SW Similar Work Độ đo liên kết SW
TLP Tomek Link Pair Cặp Tomek link
W-SVM Weight Support Vector Machine Máy véc-tơ hỗ trợ có trọng số

vi

DANH MỤC HÌNH VẼ

1.1 Các trường hợp của ξ trong Soft-SVM . . . . . . . . . . . . . . . . . . 15
1.2 Minh họa kiến trúc CNN-1D . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Minh họa các cặp TLPs . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Tổng quan quy trình giải quyết các bài toán trong mạng ASN . . . . 23
1.5 Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp . . . 31
2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM. . . . . . . . . . . 48
2.2 Các giá trị của Gmean trên θ thu được bởi Im.AdaBoost.WSVM . . . 55
2.3 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm I . . 58
2.4 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm II . . 61
2.5 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm III . 64
3.1 Vị trí tương đối của các mẫu giữa hai lớp . . . . . . . . . . . . . . . . 70

3.2 Minh họa cho bốn trường hợp mẫu nhạy cảm được chỉ ra bởi TLPs . 72

vii

DANH MỤC BẢNG

1.1 Bảng ứng viên đồng tác giả . . . . . . . . . . . . . . . . . . . . . . . . 31
1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017 . . . . 34
1.3 Mô tả bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.1 Các giá trị tốt nhất của tham số θ cho thuật
toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.2 Kết quả phân lớp các tập dữ liệu UCI . . . . . . . . . . . . . . . . . . 53
2.3 Mô tả các bộ dữ liệu đồng tác giả . . . . . . . . . . . . . . . . . . . . . 54
2.4 Các giá trị tốt nhất của tham số θ cho thuật

toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I . . . . . . . . . . . . 57
2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II . . . . . . . . . . . . 60
2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III . . . . . . . . . . . . 63

3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ . . . . . . . . . . . 76
3.2 So sánh kết quả phân lớp của FSVM-CILlin cen_2c và FSVM-CIL

trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụng

vào FSVM-CIL trên các bộ dữ liệu UCI . . . . . . . . . . . . . . . . . 80
3.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho các

bộ dữ liệu chuẩn UCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.5 Mô tả các bộ dữ liệu đồng tác giả . . . . . . . . . . . . . . . . . . . . 84
3.6 Kết quả phân lớp của FSVM-CIL và FSVM-CILlin cen_2c cho các bộ

dữ liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . . . 85
3.7 Kết quả phân lớp của FSVM-CIL và FSVM-CILlin cen_2c cho các bộ

dữ liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . . . 86
3.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

bộ dữ liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . 88
3.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

bộ dữ liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . 89

viii

3.10 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm I . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.11 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm II . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.12 Kết quả so sánh trên các tập dữ liệu UCI . . . . . . . . . . . . . . . . 93
3.13 Kết quả so sánh trên các tập dữ liệu Nhóm I . . . . . . . . . . . . . . 93

ix

DANH MỤC THUẬT TỐN

1.1 Thuật tốn SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Thuật toán AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Thuật toán huấn luyện Cây quyết định . . . . . . . . . . . . . . . . . . 20
1.4 Thuật toán KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Thuật toán Im.AdaBoost.WSVM . . . . . . . . . . . . . . . . . . . . . . 47
3.1 CalFW: Tính tốn trọng số mờ cho tập dữ liệu . . . . . . . . . . . . . 71
3.2 AdjFW: Điều chỉnh trọng số mờ dựa trên TLPs . . . . . . . . . . . . 74
3.3 Thuật toán F-AWA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.4 Thuật toán AFW-CIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

x

MỞ ĐẦU

1. Lý do chọn đề tài

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN-Academic
Social Networks) là khái niệm đề cập đến mối quan hệ tương tác về thông tin
trong cộng đồng các nhà nghiên cứu khoa học [1][2]. Trong đó, khái niệm mạng
đồng tác giả (co-authorship network) dùng để miêu tả mối quan hệ hợp tác cùng
nghiên cứu giữa các nhà khoa học. Mối quan hệ này được thể hiện trong việc
các nhà nghiên cứu là đồng tác giả trong một hoặc nhiều bài báo khoa học. Các
bài báo khoa học là sự trình bày nội dung các kết quả nghiên cứu và được cơng
bố trên các tạp chí khoa học. Có nhiều tạp chí khoa học thuộc các chủ đề lĩnh
vực nghiên cứu khác nhau. Một bài báo khoa học có thể là kết quả hợp tác của
nhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu. Mặt khác, tùy
theo năng lực và mơi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiều

nhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bố
các bài báo khoa học. Không gian quan hệ cộng tác nghiên cứu khoa học có thể
xem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, các
cạnh thể hiện mối liên kết giữa hai tác giả. Với những tính chất đó, mạng đồng
tác giả khơng chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quan
hệ lân cận chung và đường dẫn liên kết, mà còn chứa đựng các đặc trưng riêng
về chuyên môn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v.

Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa và
đóng góp quan trọng cho lĩnh vực khoa học thơng tin, khoa học dữ liệu và ứng
dụng trong phát triển cộng đồng nghiên cứu khoa học. Liên quan đến mạng
đồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i) các bài
tốn truy vấn tổng hợp thơng tin như: tìm kiếm, tra cứu thơng tin học thuật
(tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn,...) (ii) các bài
tốn dẫn xuất thơng tin như: phân tích mối quan hệ học thuật, phân tích xu
hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổ chức,
đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềm năng và
phát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tác giả,...) [2].

Trong thực tế, khả năng mở rộng và phát triển của khơng gian mạng đồng
tác giả phụ thuộc hồn tồn vào việc số lượng các bài báo được xuất bản trên

1

các tạp chí. Muốn có được các kết quả nghiên cứu tốt, địi hỏi các nhà nghiên
cứu phải tìm kiếm được các cộng sự có khả năng hợp tác phù hợp. Việc này
sẽ giúp cho các nhà khoa học thực hiện tốt các dự án nghiên cứu, kích thích
các ý tưởng sáng tạo hoặc cùng thực hiện các công việc chung khác. Khi phân
tích về mối quan hệ hợp tác khoa học và tác động khoa học dựa trên việc khảo
sát dữ liệu các bài báo xuất bản từ 1900 đến 2011, Larivière và các cộng sự đã

chỉ ra rằng các nhóm tác giả có số lượng đơng đảo và đa dạng sẽ giúp các cơng
trình khoa học có tác động ảnh hưởng cao hơn [3]. Do vậy, việc nghiên cứu các
phương pháp để xây dựng một hệ thống có thể dự đoán sự cộng tác đồng tác
giả trong mạng đồng tác giả là cần thiết và có nhiều ý nghĩa trong việc hợp tác
thúc đẩy các hoạt động nghiên cứu khoa học [1][4].

Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, được
phát biểu như sau:
Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thời
điểm hiện tại t, khi đưa thông tin đầu vào là một tác giả vi nào đó, hệ thống sẽ
phân tích xử lý và đưa ra một danh sách gợi ý các tác giả vj, vk, vh, . . . có tiềm
năng cộng tác hiệu quả với tác giả vi trong tương lai (tức là sẽ có cộng tác ở một
thời điểm t’ nào đó sau t).

Bài tốn dự đốn đồng tác giả có thể xem như là một bài toán dẫn xuất của
bài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụng
vào mạng đồng tác giả. Mục tiêu của bài toán này là dự đoán các mối quan hệ
(liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tin
về quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại. Trong
mạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễn
thông qua các cạnh và định lượng thông qua các độ đo liên kết. Các độ đo này
thường được hình thành và xác định dựa trên các thông tin liên kết như dựa
vào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết.
Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉ
có trong khơng gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tác
giả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v.

Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, các
phương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm:

• Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viên
đồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểm
số, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính tốn
dựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sử
dụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard...; và (ii)

2

sự tương đồng về cấu trúc và liên kết mạng. Một số nghiên cứu nổi bật theo
hướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (Common Neigh-
bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7], RA (Re-
source allocation) [8], JC (Jaccard Coefficient), Cosine similarity, Sorensen
Index, CAR (CAR-based Common Neighbor Index), Katz Index [9], RWR
(Random Walk with Restart), Shortest Path [10], ACT (Average Commute
Time), MF (Matrix Forest Index), SimRank, local random walk index, LDP
(local directed path),...

• Xây dựng các mơ hình dựa trên xác suất và khả năng tối đa (Probabilistic
and maximum likelihood models): sử dụng một lượng dữ liệu lớn để nghiên
cứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo sự
phát triển của mạng. Các kỹ thuật này thường áp dụng các ước lượng
xác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giá
khả năng xảy ra của một mối liên kết chưa tồn tại trong mạng. Mơ hình
dạng này thường u cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh các
tham số phức tạp và cần nhiều thời gian. Các nghiên cứu điển hình bao
gồm: Hierarchical structure model (HSM), Stochastic block model (SBM),
Parametric model, Non-parametric model, Local probabilistic model, Factor
graph model, Affiliation model.

• Khai phá đồ thị (graph mining): sử dụng các mơ hình đồ thị để khám phá

các tri thức và thơng tin hữu ích từ lượng dữ liệu lớn. Các phương pháp
chính bao gồm sử dụng các thuật toán dựa trên Apriori như AGM, ACGM,
path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM.

• Học máy (machine learning): hướng tiếp cận này bao gồm các phương pháp
học có giám sát (phân lớp), học khơng giám sát (phân cụm), học sâu và
giảm chiều dữ liệu. Phương pháp học có giám sát xây dựng mơ hình phân
lớp dựa trên các bộ dữ liệu huấn luyện. Các bộ dữ liệu này có thuộc tính
dựa trên thông tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựa trên
việc khảo sát sự mở rộng kết nối mạng theo chiều thời gian. Theo đó, bài
tốn dự đốn liên kết được xem như là bài toán phân lớp nhị phân với nhãn
lớp +1 biểu thị việc có liên kết, nhãn lớp −1 biểu thị khơng có liên kết. Các
thuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks,
Support Vector Machines, K-Nearest Neighbors, XGboost hay các mơ hình
dạng hồi quy. Trong khi phương pháp học không giám sát (phân cụm) tập
trung vào việc dự đoán nhãn lớp cho các mẫu không được gán nhãn dựa
trên tính chất quan hệ giữa các mẫu.

3

• Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật các
kiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng được
quan tâm nghiên cứu trong thời gian gần đây. Các kỹ thuật đặc trưng sử
dụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP [13],
Walklets [14], subgraph embedding, deep dynamic network embedding [15].

Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướng
phân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều
ưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạt
trong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh

và cải thiện mơ hình thơng qua quá trình huấn luyện,...

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phương
pháp học máy, nội dung của luận án này tiếp tục mở rộng nghiên cứu đề xuất
các cải tiến các thuật tốn học máy để đem lại các mơ hình dự đốn liên kết
có chất lượng tốt hơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và
là cơ sở cho việc xây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trong
mạng xã hội học thuật.

2. Vấn đề nghiên cứu

Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máy
phân lớp cho bài toán dự đoán cộng tác đồng tác giả có những ưu điểm nổi bật
và được quan tâm nghiên cứu. Tuy nhiên, để huấn luyện được một mơ hình gợi
ý phù hợp chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương pháp
xây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toán
huấn luyện.

Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyện
được nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết và
đánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượng mơ
hình phân lớp. Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựa trên
thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liên kết),
thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đề nghiên
cứu, đơn vị nghiên cứu, quốc gia,..). Trong nghiên cứu [16] các tác giả đã tổng
hợp có hơn 20 phương pháp tính tốn các độ đo tương đồng. Nhìn chung các
độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viên đồng tác giả
càng được mơ tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chất lượng đưa
đến thuận lợi cho việc huấn luyện các mơ hình. Tuy nhiên, một số nghiên cứu
thử nghiệm cho thấy rằng, một số độ đo liên kết chính có mức độ ảnh hưởng

4

cao hơn trong việc tạo ra mơ hình dự đốn chất lượng, các độ đo khác có mức
độ ảnh hưởng ít hơn, đóng vai trị là thuộc tính mang ý nghĩa bổ sung. Do vậy
khả năng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệu
quả cho việc nâng cao chất lượng mơ hình phân lớp là khá hạn chế.

Chúng ta biết rằng khơng có mơ hình học máy nào tốt cho tất cả các bộ dữ
liệu trong các bài toán khác nhau. Do vậy đối với từng bài toán cụ thể, cần
nghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựng
được các mơ hình phân lớp/dự đốn có chất lượng tốt.

Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp,
sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệu
huấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồng
tác giả, gọi tắt là bảng ứng viên. Mô tả sơ lược về dữ liệu bảng ứng viên như
sau. Khi đưa thông tin đầu vào là một tác giả vi nào đó, chúng ta xây dựng một
danh sách các tác giả vj, vk, vh, . . . có tiềm năng cộng tác hiệu quả với tác giả vi
trong tương lai. Các tác giả vj, vk, vh, . . . gọi là ứng viên đồng tác giả. Theo đó,
mỗi cặp (vi, vj) là một cặp ứng viên cộng tác tiềm năng và được xem như là một
mẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi một
véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng xảy ra
liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trong
mạng đồng tác giả theo chiều thời gian. Cụ thể hơn, giả sử rằng T2 là khoảng
thời gian sau T1 thì các độ đo liên kết được tính từ mạng đồng tác giả trong T1
và nhãn lớp +1/ − 1 được xác định bằng cách kiểm tra sự cộng tác thực tế của
các tác giả trong T2. Gán nhãn lớp +1 thể hiện rằng trong thực tế cặp tác giả
có viết chung bài báo, nhãn lớp −1 thể hiện cặp tác giả khơng có viết chung bài
báo nào. Trong thực tế, mạng đồng tác giả được biểu diễn bằng một đồ thị thưa

kết nối, do đó, trong khoảng thời gian T2 số lượng cặp tác giả có kết nối (tức là
cùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượng cặp ứng
viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều. Điều này
dẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãn lớp, trong
đó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả) có nhãn lớp
−1 và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp +1, gây ra sự không cân bằng
về số lượng mẫu giữa các lớp. Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệu học
máy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bài toán
phân lớp nhị phân.

Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tác
giả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữ
liệu huấn luyện ở mức rất cao. Điều này gây thách thức cho các thuật toán học

5

máy truyền thống vì các thuật tốn này thường xem xét các mẫu bình đẳng
nhau, dẫn đến các mơ hình phân lớp thiên về dự đoán sai các mẫu lớp thiểu số.

Gần đây, trong luận án Tiến sĩ của Phạm Minh Chuẩn (2018) trình bày cách
tiếp cận giải quyết bài toán dự đoán đồng tác giả theo phuong pháp phân lớp,
trong đó đã đề xuất mở rộng các độ đo liên kết mới để bổ sung thêm các đặc
trưng của dữ liệu nhằm nâng cao chất lượng của mơ hình phân lớp. Bên cạnh
đó luận án cũng đã nêu ra vấn đề dữ liệu rất không cân bằng về nhãn lớp trong
bảng ứng viên. Tiếp nối nghiên cứu này, kết hợp với khảo sát các nghiên cứu
gần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữ
liệu không cân bằng để áp dụng cho bộ dữ liệu đồng tác giả hầu như rất hạn
chế. Điều này mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến
thuật toán, điều chỉnh các tham số mơ hình để cải thiện chất lượng các mơ hình
dự đốn trong khung cảnh dữ liệu bảng ứng viên đồng tác giả có sự khơng cân

bằng mức cao về số lượng mẫu giữa các lớp.

Đối với bài toán học máy trên dữ liệu hai nhãn lớp nói chung thường khơng
có sự phân bố đồng đều số lượng mẫu giữa các lớp. Tùy thuộc vào từng trường
hợp bài toán cụ thể mức độ chênh lệch số lượng mẫu giữa các lớp là khác nhau,
cũng có trường hợp tỷ lệ khơng cân bằng là rất lớn. Trong một số trường hợp,
tỷ lệ giữa các phần tử thuộc lớp thiểu số (nhãn lớp có số mẫu ít), gọi tắt là
nhãn dương, ký hiệu +1, so với các phần tử thuộc lớp đa số (nhãn lớp có só mẫu
nhiều), gọi tắt là nhãn âm, ký hiệu −1, có thể lên đến 1:100 thậm chí 1:100,000.
Khi áp dụng các thuật toán học máy truyền thống cho các tập dữ liệu không
cân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân loại đúng trong khi
các phần tử thuộc lớp thiểu số dễ bị phân lớp sai thành lớp đa số. Việc này dẫn
đến kết quả là mơ hình huấn luyện có thể có độ chính xác (accuracy) rất cao
trong khi giá trị độ nhạy (sensitivity) lại rất thấp. Nhìn chung các phương pháp
phân lớp học máy truyền thống đều khó cho kết quả độ nhạy tốt với các tập dữ
liệu có tỷ lệ chênh lệch số lượng mẫu giữa các lớp ở mức cao. Điều này tạo nên
sự thú vị và đem đến động lực nghiên cứu trong việc tìm ra các phương pháp cải
tiến nhằm huấn luyện mơ hình phân lớp chất lượng khi áp dụng cho bài tốn
dữ liệu khơng cân bằng. Theo [19] nhiều phương pháp đã được đề xuất để giải
quyết vấn đề này, trong đó chủ yếu được phân thành hai nhóm cơ bản: tiếp cận
ở mức dữ liệu và tiếp cận ở mức thuật tốn.

• Các phương pháp tiếp cận ở mức dữ liệu nhằm mục đích thay đổi sự phân
bố số lượng mẫu trong bộ dữ liệu (resampling) bằng cách sinh thêm các
phần tử cho lớp thiểu số (over sampling), giảm bớt các phần tử thuộc lớp
đa số (under sampling) hoặc kết hợp cả hai phương pháp để bộ dữ liệu

6

trở nên cân bằng hơn, sau đó sử dụng các thuật tốn học máy mạnh để

tiến hành huấn luyện mô hình phân lớp. Một số kỹ thuật làm sạch dữ liệu
(data cleaning techniques) như Tomek links cũng được sử dụng để loại bỏ
sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thực
hiện các thuật toán sinh thêm các mẫu tổng hợp.

• Các phương pháp tiếp cận ở mức thuật toán hướng tới việc cải tiến các
thuật toán phân lớp mạnh truyền thống để có được hiệu quả cao trên các
tập dữ liệu không cân bằng. Các phương pháp phổ biến gồm: học mơ hình
dựa trên nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các tham
số thưởng phạt khác nhau gắn với các mẫu nhãn lớp khác nhau. Các giải
thuật học máy nổi bật được quan tâm nghiên cứu là: sử dụng Boosting, sử
dụng Cây quyết định nhạy cảm chi phí (Cost-Sensitive Decision Trees), sử
dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật học sâu,...

• Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật cân bằng hóa phân
bố số lượng mẫu trong bộ dữ liệu và các phương pháp điều chỉnh trọng số
chi phí để nâng cao chất lượng mơ hình huấn luyện, ví dụ: SMOTE kết hợp
Different Costs (SDCs), SVMs với Under/Over Sampling,...

Trong các phương pháp tiếp cận mức thuật toán, các nghiên cứu cải tiến
AdaBoost nhận được nhiều sự quan tâm chú ý. AdaBoost là thuật toán học kết
hợp tuần tự và thích nghi sửa lỗi qua mỗi lần lặp do Freund [20] đề xuất. Thuật
toán kết hợp sử dụng nhiều bộ phân lớp thành viên để tạo thành một bộ phân
lớp tổng hợp giúp xem xét kỹ hơn các đặc tính của bộ dữ liệu. Do đó thuật tốn
AdaBoost được chúng tơi lựa chọn để thực hiện nghiên cứu cải tiến.

Cũng cần lưu ý rằng, vấn đề dữ liệu không cân bằng là bài toán xảy ra rất
nhiều trong thực tế như là chẩn đoán bệnh trong y tế, dự báo những sự kiện
thiên tai hiếm gặp, phát hiện xâm nhập mạng,... nên các phương pháp thuật
toán hiệu quả trong bài toán dự đoán liên kết trong mạng đồng tác giả cũng có

nhiều tiềm năng mở rộng cho các bài tốn có dữ liệu không cân bằng trong các
lĩnh vực khác.

Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, một
vấn đề chung để nâng cao chất lượng mơ hình phân lớp là cần xử lý tốt việc
phân loại chính xác trong các vùng khơng gian nhạy cảm như: mẫu dữ liệu là
nhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân loại của hai
lớp. Với những dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờ
dựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả. Nhiều
nghiên cứu đã đề xuất các phương pháp xử lý mờ để giải quyết vấn đề này.

7

3. Đối tượng và phạm vi nghiên cứu

Trên cơ sở phân tích bối cảnh nghiên cứu và những ưu điểm hạn chế của các
nghiên cứu đã khảo sát, nội dung luận án này tập trung nghiên cứu tiếp cận giải
quyết bài toán dự đoán đồng tác giả theo phương pháp phân lớp. Trong đó trọng
tâm nghiên cứu là cải tiến các thuật toán học máy trên dữ liệu không cân bằng
hai nhãn lớp và áp dụng cho bài toán dự đoán đồng tác giả. Cụ thể hơn, luận án
nghiên cứu cải tiến các thuật toán mạnh mẽ và mềm dẻo như là AdaBoost [20],
SVM [21], Weighted SVM [22], các thuật toán xử lý mờ như Fuzzy SVM [23],
Fuzzy SVM-CIL [24]. Luận án tập trung nghiên cứu đề xuất cải tiến các phương
pháp phân lớp nhị phân để ứng dụng hiệu quả cho bài toán dự đoán đồng tác
giả. Trong đó trọng tâm là giải quyết vấn đề dữ liệu không cân bằng giữa các
lớp.

Về phạm vi nghiên cứu, luận án tập trung nghiên cứu bài toán dự đoán đồng
tác giả, đề xuất thử nghiệm các phương pháp cải tiến thuật toán nhằm nâng
cao chất lượng phân lớp trên các bộ dữ liệu có sự khơng cân bằng về số lượng

mẫu giữa các lớp nói chung và áp dụng cho dữ liệu bảng ứng viên được tạo ra
từ mạng đồng tác giả. Dữ liệu bảng ứng viên đồng tác giả sử dụng trong các
thử nghiệm kế thừa từ nguồn thông tin tác giả bài báo tự thu thập trước đây.
Các thuộc tính của mẫu dữ liệu ứng viên đồng tác giả được xây dựng đặc trưng
từ một số độ đo liên kết cơ bản. Các nội dung liên quan đến vấn đề về mở rộng
độ đo liên kết, phương pháp tiếp cận dự đoán đồng tác giả khác... cũng được đề
cập nhưng không phải là phạm vi nghiên cứu chính của luận án.

4. Mục tiêu nghiên cứu

Luận án này hướng tới cải tiến các phương pháp học máy để giải quyết tốt
hơn vấn đề học trên dữ liệu không cân bằng trong bài toán dự đoán đồng tác
giả. Luận án tập trung vào hai vấn đề nghiên cứu chính sau:

• Thứ nhất, nghiên cứu cải tiến phương pháp học kết hợp AdaBoost cho dữ
liệu khơng cân bằng ứng dụng trong bài tốn dự đốn đồng tác giả? Vấn đề
nghiên cứu này hướng đến việc cải tiến phương pháp học kết hợp mạnh mẽ
như AdaBoost [20] để phù hợp cho dữ liệu không cân bằng thông qua việc
thiết kế các tham số điều chỉnh thích nghi với mức độ khơng cân bằng của
dữ liệu.

• Thứ hai, nghiên cứu cải tiến thuật tốn phân lớp mờ Fuzzy SVM cho dữ liệu
không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề

8

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về