Tải bản đầy đủ (.doc) (182 trang)

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 182 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG
CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI−2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG

CẢI TIẾN THUẬT TOÁN PHÂN LỚP
CHO DỮ LIỆU KHÔNG CÂN BẰNG
VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ

Ngành: Hệ thống thông tin
Mã số: 9480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. TRẦN ĐÌNH KHANG

HÀ NỘI−2024

LỜI CAM ĐOAN



Tôi xin cam đoan các kết quả trình bày trong luận án là cơng trình nghiên
cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu
tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS. Trần Đình
Khang. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực.
Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng
quy định.

Hà Nội, ngày tháng 02 năm 2024
Nghiên cứu sinh

Võ Đức Quang

GIÁO VIÊN HƯỚNG DẪN KHOA HỌC

PGS.TS. Trần Đình Khang

i

LỜI CẢM ƠN

Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn và
thử thách. Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thể
thiếu sự đồng hành dẫn dắt của những Thầy Cơ kính mến, sự hỗ trợ giúp đỡ
của những người đồng nghiệp, người bạn, người thân trong gia đình. Tơi
thực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vì
đã dành cho tơi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua.
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Trần Đình Khang, người
Thầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tôi rất nhiều
trong suốt q trình nghiên cứu.


Tơi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tại
Trường Công nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội
đã truyền đạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiến
thức, gợi mở những ý tưởng nghiên cứu để hồn thành luận án.

Tơi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, các
em sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người.

Cuối cùng, tơi muốn nói lời biết ơn chân thành đến gia đình thân yêu,
những người thân và bạn bè đã ln động viên, ủng hộ tơi trong suốt q
trình nghiên cứu và giúp tôi vượt qua các giai đoạn khó khăn để đạt được
một số kết quả bước đầu hôm nay.

ii

MỤC LỤC

LỜI CAM ĐOAN...................................................................................i
LỜI CẢM ƠN..............................................................................................ii
MỤC LỤC...................................................................................................iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ......................v
DANH MỤC HÌNH VẼ......................................................................vii
DANH MỤC BẢNG...........................................................................viii
DANH MỤC THUẬT TỐN...............................................................x
MỞ ĐẦU................................................................................................. 1
CHƯƠNG 1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU............11

1.1. Bài tốn phân lớp với dữ liệu khơng cân bằng.......................................11
1.2. Một số thuật toán liên quan.....................................................................14


1.2.1. Thuật toán SVM...........................................................................14
1.2.2. Thuật toán Weighted-SVM................................................................15
1.2.3. Fuzzy SVM-CIL....................................................................................16
1.2.4. Thuật toán AdaBoost.........................................................................17
1.2.5. Thuật toán CNN...........................................................................19
1.2.6. Phương pháp Cây quyết định............................................................20
1.2.7. K-nearest neighbors và Tomek link..................................................21
1.3. Bài toán dự đoán đồng tác giả.................................................................23
1.3.1. Giới thiệu...............................................................................................23
1.3.2. Mơ hình hóa bài tốn........................................................................26
1.4. Phương pháp phân lớp cho bài toán dự đoán đồng tác giả....................29
1.5. Phương pháp thực nghiệm và đánh giá...................................................32
1.5.1. Tập dữ liệu thử nghiệm.....................................................................32
1.5.2. Độ đo đánh giá......................................................................................35
1.5.3. Môi trường và kịch bản thử nghiệm.................................................37
1.6. Kết luận Chương 1.......................................................................................38

iii

CHƯƠNG 2. CẢI TIẾN THUẬT TỐN ADABOOST CHO DỮ
LIỆU KHƠNG CÂN BẰNG...............................................................39

2.1. Đặt vấn đề................................................................................................39
2.2. Đề xuất thuật toán Im.AdaBoost............................................................41

2.2.1. Phân tích thuật tốn AdaBoost.........................................................41
2.2.2. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ
không cân bằng............................................................................................43
2.2.3. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy

cảm với nhãn dương.....................................................................................45
2.2.4. Mơ tả thuật tốn Im.AdaBoost kết hợp với WSVM........................47
2.3. Thử nghiệm...............................................................................................49
2.3.1. Thử nghiệm trên các bộ dữ liệu UCI................................................50
2.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả...............................52
2.4. Kết luận Chương 2......................................................................................65
CHƯƠNG 3. ĐỀ XUẤT THUẬT TỐN ĐIỀU CHỈNH THÍCH
NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL.................67
3.1. Đặt vấn đề................................................................................................67
3.2. Đề xuất thuật tốn trọng số mờ thích nghi.............................................69
3.2.1. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM...............69
3.2.2. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm.........71
3.2.3. Thuật toán phân lớp với trọng số mờ thích nghi..............................73
3.3. Thử nghiệm...............................................................................................75
3.3.1. Thử nghiệm trên các bộ dữ liệu UCI................................................77
3.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả...............................83
3.3.3. Thử nghiệm so sánh các thuật toán đã đề xuất...............................92
3.4. Kết luận Chương 3......................................................................................94
KẾT LUẬN........................................................................................... 96
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ.........................98
TÀI LIỆU THAM KHẢO...................................................................99

iv

DANH MỤC CÁC TỪ VIẾT TẮT
VÀ THUẬT NGỮ

Viết tắtt tắtt Tiết tắtng Anh Tiết tắtng Việtt
AA Adamic-Adar Độ đo liê đo liên kết AA t AA
ACT Average Commute Time Độ đo liê đo liên kết AA t ACT

AdaBoost Adaptive Boosting Thuật toán t toán học kết hc kết AA t hợp tuần p tuần tự thn tự thích thích nghi
AdaBoost.SVM Adaptive Boosting with SVM AdaBoost kết AA t hợp tuần p với SVMi SVM
AdaBoost.W-SVM Adaptive Boosting with W-SVM AdaBoost kết AA t hợp tuần p với SVMi W-SVM
AdaBoost.DT Adaptive Boosting with Decision- AdaBoost kết AA t hợp tuần p với SVMi DecisionTree
Tree
ASN Academic Social Network Mạng xã hng xã hộ đo liêi học kết hc thuật toán t
AUC Area Under Curve Diện tích n tích dưới SVMi đường congng cong ROC
CAR CAR-based Common Neighbor In- Độ đo liê đo CAR
dex)
CC Common Country Độ đo liê đo liên kết AA t cộ đo liêng đồngng
CNN Convolutional neural network Mạng xã hng nơ-ron tí-ron tích chật tốn p
CN Common Neighbor Độ đo liê đo liên kết AA t CN
ENN Edited Nearest Neighbor Thuật toán t toán giảm mẫu Em mẫu ENN u ENN
FSVM Fuzzy Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần mờng cong
FSVM-CIL Fuzzy Support Vector Machines for Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần mờng cong cho học kết hc trên dữ liệu liện tích u
Class Imbalance Learning không cân bằngng
G-mean Geometric Mean Độ đo liê đo trung bình hình học kết hc
HSM Hierarchical structure model Mơ hình cấu trúc u trúc phân
JC Jaccard Coefficient cấu trúc p Độ đo liê đo liên kết AA t JC
KNN K -Nearest Neighbors K -láng giềng gần ng gần tự thn nhấu trúc t
LDP local directed path Độ đo liê đo liên kết AA t LDP
LP Link Prediction Dự thích đoán liên kết AA t
MAG Microsoft Academic Graph Cơ-ron tí sở dữ liệ dữ liệu liện tích u khoa học kết hc MAG
MF Matrix Forest Index Độ đo liê đo liên kết AA t MF
NCL Neighborhood Cleaning Rule Thuật toán t toán giảm mẫu Em mẫu ENN u NCL
OSS One Sided Selection Thuật toán t toán giảm mẫu Em mẫu ENN u OSS
PA Preferential Attachment Độ đo liê đo liên kết AA t PA
RA Resource Allocation Độ đo liê đo liên kết AA t RA
ROC Receiver operating characteristics Đường congng cong đặc tính c tính
RWR Random Walk with Restart Độ đo liê đo liên kết AA t RWR

SBM Stochastic block model Mô hình khối ngẫu i ngẫu ENN u nhiên
SPRD Scholarly Paper Recommendation Cơ-ron tí sở dữ liệ dữ liệu liện tích u khoa học kết hc SPRD
Dataset

v

SVM Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần
SMOTE Synthetic Minority Over-sampling Kỹ thuật toán t tạng xã ho mẫu ENN u tổng hợp ng hợp tuần p cho lới SVMp thiểu u
Technique sối ngẫu
SP Specificity Độ đo liê đo đặc tính c hiện tích u
SE Sensitivity Độ đo liê đo nhạng xã hy cảm mẫu Em
SW Similar Work Độ đo liê đo liên kết AA t SW
TLP Tomek Link Pair Cặc tính p Tomek link
W-SVM Weight Support Vector Machine Máy véc-tơ-ron tí hỗ trợ mờ trợp tuần có trọc kết hng sối ngẫu

vi

DANH MỤC HÌNH VẼ

1.1 Các trường hợp của ξ trong Soft-SVM.......................................................15
1.2 Minh họa kiến trúc CNN-1D.......................................................................20
1.3 Minh họa các cặp TLPs...........................................................................22
1.4 Tổng quan quy trình giải quyết các bài tốn trong mạng ASN..............23
1.5 Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp...........31
2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM...............................48
2.2 Các giá trị của Gmean trên θ thu được bởi Im.AdaBoost.WSVM...........55
2.3 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm I........58
2.4 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm II.......61
2.5 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm III . 64
3.1 Vị trí tương đối của các mẫu giữa hai lớp..............................................70

3.2 Minh họa cho bốn trường hợp mẫu nhạy cảm được chỉ ra bởi TLPs . 72

vii

DANH MỤC BẢNG

1.1 Bảng ứng viên đồng tác giả......................................................................31
1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017.............34
1.3 Mô tả bộ dữ liệu UCI...............................................................................34
2.1 Các giá trị tốt nhất của tham số θ cho thuật

toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM.................................................................................... 52
2.2 Kết quả phân lớp các tập dữ liệu UCI.....................................................53
2.3 Mô tả các bộ dữ liệu đồng tác giả...........................................................54
2.4 Các giá trị tốt nhất của tham số θ cho thuật
toán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM và
Im.AdaBoost.WSVM.................................................................................... 56
2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I.....................................57
2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II....................................60
2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III..................................63
3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ..................................76

viii

3.2 So sánh kết quả phân lớp của FSVM-CILcen_2c n và FSVM-CIL
trên các bộ dữ liệu UCI...........................................................................78

3.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụng
vào FSVM-CIL trên các bộ dữ liệu UCI..................................................80


3.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho các
bộ dữ liệu chuẩn UCI...............................................................................81

3.5 Mô tả các bộ dữ liệu đồng tác giả...........................................................84
3.6 Kết quả phân lớp của FSVM-CIL và FSVM-CIL ncen_2c cho các bộ

dữ liệu đồng tác giả Nhóm I.....................................................................85
3.7 Kết quả phân lớp của FSVM-CIL và FSVM-CIL ncen_2c cho các bộ

dữ liệu đồng tác giả Nhóm II...................................................................86
3.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

bộ dữ liệu đồng tác giả Nhóm I...............................................................88
3.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

bộ dữ liệu đồng tác giả Nhóm II..............................................................89

ix

3.10 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm I.........................................................................90

3.11 Kết quả phân lớp của AFW-CIL và FSVM-CIL cho các bộ dữ
liệu đồng tác giả Nhóm II........................................................................91

3.12 Kết quả so sánh trên các tập dữ liệu UCI...............................................93
3.13 Kết quả so sánh trên các tập dữ liệu Nhóm I.........................................93

DANH MỤC THUẬT TỐN


1.1 Thuật tốn SVM...................................................................................14
1.2 Thuật toán AdaBoost.................................................................................18
1.3 Thuật toán huấn luyện Cây quyết định.....................................................20
1.4 Thuật tốn KNN...................................................................................22

2.1 Thuật tốn Im.AdaBoost.WSVM..............................................................47

3.1 CalFW: Tính tốn trọng số mờ cho tập dữ liệu...................................71
3.2 AdjFW: Điều chỉnh trọng số mờ dựa trên TLPs.....................................74
3.3 Thuật toán F-AWA...............................................................................74
3.4 Thuật toán AFW-CIL...........................................................................75

MỞ ĐẦU

1. Lý do chọn đề tài

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN-Academic
Social Networks) là khái niệm đề cập đến mối quan hệ tương tác về thông tin
trong cộng đồng các nhà nghiên cứu khoa học [1][2]. Trong đó, khái niệm mạng
đồng tác giả (co-authorship network) dùng để miêu tả mối quan hệ hợp tác cùng
nghiên cứu giữa các nhà khoa học. Mối quan hệ này được thể hiện trong việc
các nhà nghiên cứu là đồng tác giả trong một hoặc nhiều bài báo khoa học. Các
bài báo khoa học là sự trình bày nội dung các kết quả nghiên cứu và được cơng
bố trên các tạp chí khoa học. Có nhiều tạp chí khoa học thuộc các chủ đề lĩnh
vực nghiên cứu khác nhau. Một bài báo khoa học có thể là kết quả hợp tác của
nhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu. Mặt khác, tùy
theo năng lực và mơi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiều
nhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bố
các bài báo khoa học. Không gian quan hệ cộng tác nghiên cứu khoa học có thể

xem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, các
cạnh thể hiện mối liên kết giữa hai tác giả. Với những tính chất đó, mạng đồng
tác giả khơng chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quan
hệ lân cận chung và đường dẫn liên kết, mà còn chứa đựng các đặc trưng riêng
về chuyên môn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v.

Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa và
đóng góp quan trọng cho lĩnh vực khoa học thơng tin, khoa học dữ liệu và ứng
dụng trong phát triển cộng đồng nghiên cứu khoa học. Liên quan đến mạng

đồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i ) các
bài tốn truy vấn tổng hợp thơng tin như: tìm kiếm, tra cứu thơng tin học
thuật (tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn,...) (ii ) các
bài tốn dẫn xuất thơng tin như: phân tích mối quan hệ học thuật, phân tích
xu hướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổ
chức, đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềm
năng và phát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tác

giả,...) [2]. Trong thực tế, khả năng mở rộng và phát triển của không gian
mạng đồng tác giả phụ thuộc hoàn toàn vào việc số lượng các bài báo được

xuất bản trên
1

các tạp chí. Muốn có được các kết quả nghiên cứu tốt, địi hỏi các nhà nghiên
cứu phải tìm kiếm được các cộng sự có khả năng hợp tác phù hợp. Việc này
sẽ giúp cho các nhà khoa học thực hiện tốt các dự án nghiên cứu, kích thích
các ý tưởng sáng tạo hoặc cùng thực hiện các công việc chung khác. Khi phân
tích về mối quan hệ hợp tác khoa học và tác động khoa học dựa trên việc khảo
sát dữ liệu các bài báo xuất bản từ 1900 đến 2011, Larivière và các cộng sự đã

chỉ ra rằng các nhóm tác giả có số lượng đơng đảo và đa dạng sẽ giúp các cơng
trình khoa học có tác động ảnh hưởng cao hơn [3]. Do vậy, việc nghiên cứu các
phương pháp để xây dựng một hệ thống có thể dự đoán sự cộng tác đồng tác
giả trong mạng đồng tác giả là cần thiết và có nhiều ý nghĩa trong việc hợp tác
thúc đẩy các hoạt động nghiên cứu khoa học [1][4].

Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, được
phát biểu như sau:
Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thời
điểm hiện tại t, khi đưa thông tin đầu vào là một tác giả vi nào đó, hệ thống sẽ
phân tích xử lý và đưa ra một danh sách gợi ý các tác giả vj, vk, vh, . . . có tiềm
năng cộng tác hiệu quả với tác giả vi trong tương lai (tức là sẽ có cộng tác ở một
thời điểm t’ nào đó sau t).

Bài tốn dự đốn đồng tác giả có thể xem như là một bài toán dẫn xuất của
bài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụng
vào mạng đồng tác giả. Mục tiêu của bài toán này là dự đoán các mối quan hệ
(liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tin
về quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại. Trong
mạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễn
thông qua các cạnh và định lượng thông qua các độ đo liên kết. Các độ đo này
thường được hình thành và xác định dựa trên các thông tin liên kết như dựa
vào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết.
Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉ
có trong khơng gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tác
giả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v.

Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, các
phương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm:


• Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viên
đồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểm
số, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính tốn
dựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sử
dụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard...; và (ii)

2

sự tương đồng về cấu trúc và liên kết mạng. Một số nghiên cứu nổi bật theo
hướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (Common
Neigh- bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7],
RA (Re- source allocation) [8], JC (Jaccard Coefficient), Cosine similarity,
Sorensen Index, CAR (CAR-based Common Neighbor Index), Katz Index
[9], RWR (Random Walk with Restart), Shortest Path [10], ACT (Average
Commute Time), MF (Matrix Forest Index), SimRank, local random walk
index, LDP (local directed path),...

• Xây dựng các mơ hình dựa trên xác suất và khả năng tối đa (Probabilistic
and maximum likelihood models): sử dụng một lượng dữ liệu lớn để
nghiên cứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo
sự phát triển của mạng. Các kỹ thuật này thường áp dụng các ước lượng
xác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giá
khả năng xảy ra của một mối liên kết chưa tồn tại trong mạng. Mơ hình
dạng này thường u cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh các
tham số phức tạp và cần nhiều thời gian. Các nghiên cứu điển hình bao
gồm: Hierarchical structure model (HSM), Stochastic block model (SBM),
Parametric model, Non-parametric model, Local probabilistic model,
Factor graph model, Affiliation model.

• Khai phá đồ thị (graph mining): sử dụng các mơ hình đồ thị để khám phá

các tri thức và thơng tin hữu ích từ lượng dữ liệu lớn. Các phương pháp
chính bao gồm sử dụng các thuật toán dựa trên Apriori như AGM, ACGM,
path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM.

• Học máy (machine learning): hướng tiếp cận này bao gồm các phương
pháp học có giám sát (phân lớp), học khơng giám sát (phân cụm), học sâu
và giảm chiều dữ liệu. Phương pháp học có giám sát xây dựng mơ hình
phân lớp dựa trên các bộ dữ liệu huấn luyện. Các bộ dữ liệu này có thuộc
tính dựa trên thông tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựa
trên việc khảo sát sự mở rộng kết nối mạng theo chiều thời gian. Theo đó,
bài tốn dự đốn liên kết được xem như là bài toán phân lớp nhị phân với
nhãn lớp +1 biểu thị việc có liên kết, nhãn lớp −1 biểu thị khơng có liên
kết. Các thuật toán được sử dụng rất đa dạng như: Decision Tree, Neural
Networks, Support Vector Machines, K-Nearest Neighbors, XGboost hay
các mơ hình dạng hồi quy. Trong khi phương pháp học không giám sát
(phân cụm) tập trung vào việc dự đoán nhãn lớp cho các mẫu không được
gán nhãn dựa trên tính chất quan hệ giữa các mẫu.

3

• Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật các
kiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng được
quan tâm nghiên cứu trong thời gian gần đây. Các kỹ thuật đặc trưng sử
dụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP
[13], Walklets [14], subgraph embedding, deep dynamic network
embedding [15].

Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướng
phân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều
ưu điểm như: tích hợp đa dạng thơng tin liên kết, khả năng mở rộng linh hoạt

trong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh
và cải thiện mơ hình thơng qua q trình huấn luyện,...

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phương
pháp học máy, nội dung của luận án này tiếp tục mở rộng nghiên cứu đề xuất
các cải tiến các thuật toán học máy để đem lại các mơ hình dự đốn liên kết
có chất lượng tốt hơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và
là cơ sở cho việc xây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trong
mạng xã hội học thuật.

2. Vấn đề nghiên cứu

Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máy
phân lớp cho bài toán dự đốn cộng tác đồng tác giả có những ưu điểm nổi bật
và được quan tâm nghiên cứu. Tuy nhiên, để huấn luyện được một mơ hình gợi
ý phù hợp chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương pháp
xây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toán
huấn luyện.

Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyện
được nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết và
đánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượng
mơ hình phân lớp. Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựa
trên thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liên
kết), thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đề
nghiên cứu, đơn vị nghiên cứu, quốc gia,..). Trong nghiên cứu [16] các tác giả
đã tổng hợp có hơn 20 phương pháp tính tốn các độ đo tương đồng. Nhìn
chung các độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viên
đồng tác giả càng được mô tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chất
lượng đưa đến thuận lợi cho việc huấn luyện các mơ hình. Tuy nhiên, một số

nghiên cứu thử nghiệm cho thấy rằng, một số độ đo liên kết chính có mức độ

4

ảnh hưởng
5

cao hơn trong việc tạo ra mơ hình dự đốn chất lượng, các độ đo khác có mức
độ ảnh hưởng ít hơn, đóng vai trị là thuộc tính mang ý nghĩa bổ sung. Do vậy
khả năng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệu
quả cho việc nâng cao chất lượng mơ hình phân lớp là khá hạn chế.

Chúng ta biết rằng khơng có mơ hình học máy nào tốt cho tất cả các bộ dữ
liệu trong các bài toán khác nhau. Do vậy đối với từng bài toán cụ thể, cần
nghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựng
được các mơ hình phân lớp/dự đốn có chất lượng tốt.

Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp,
sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệu
huấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồng
tác giả, gọi tắt là bảng ứng viên. Mô tả sơ lược về dữ liệu bảng ứng viên như
sau. Khi đưa thông tin đầu vào là một tác giả vi nào đó, chúng ta xây dựng một
danh sách các tác giả vj, vk, vh, . . . có tiềm năng cộng tác hiệu quả với tác giả
vi trong tương lai. Các tác giả vj, vk, vh, . . . gọi là ứng viên đồng tác giả. Theo
đó, mỗi cặp (vi, vj) là một cặp ứng viên cộng tác tiềm năng và được xem như là
một mẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi
một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng
xảy ra liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết
trong mạng đồng tác giả theo chiều thời gian. Cụ thể hơn, giả sử rằng T2 là
khoảng thời gian sau T1 thì các độ đo liên kết được tính từ mạng đồng tác giả

trong T1 và nhãn lớp +1/ − 1 được xác định bằng cách kiểm tra sự cộng tác thực
tế của các tác giả trong T2. Gán nhãn lớp +1 thể hiện rằng trong thực tế cặp tác
giả có viết chung bài báo, nhãn lớp −1 thể hiện cặp tác giả khơng có viết
chung bài báo nào. Trong thực tế, mạng đồng tác giả được biểu diễn bằng một
đồ thị thưa kết nối, do đó, trong khoảng thời gian T2 số lượng cặp tác giả có kết
nối (tức là cùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượng
cặp ứng viên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều.
Điều này dẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãn
lớp, trong đó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả)
có nhãn lớp
−1 và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp +1, gây ra sự không cân bằng
về số lượng mẫu giữa các lớp. Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệu
học máy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bài
toán phân lớp nhị phân.

Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tác
giả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữ

6

liệu huấn luyện ở mức rất cao. Điều này gây thách thức cho các thuật toán học
7


×