BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------TRỊNH KHẮC LINH
DỰ BÁO LIÊN KẾT MẠNG ĐỒNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC
Chuyên ngành : Hệ thống thông tin
LUẬN VĂN THẠC SĨ KHOA HỌC
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC :
PGS.TS. Trần Đình Khang
Hà Nội – Năm 2018
LỜI CẢM ƠN
Đầu tiên, tôi vô cùng xúc động xin được gửi lời tri ân sâu sắc nhất đến Thầy giáo hướng
dẫn PGS.TS. Trần Đình Khang – người đã trực tiếp dành nhiều thời gian quý báu tận tình
hướng dẫn cho tôi những định hướng khoa học sâu sắc, động viên chỉ dẫn sát sao trong
suốt thời gian học tập, nghiên cứu và thực hiện luận văn này. Thầy cũng dành nhiều thời
gian thường xuyên hàng tuần bình luận về các ý tưởng, kết quả của tôi, truyền cho tôi sự
nghiêm túc, niềm cảm hứng trong nghiên cứu khoa học.
Tôi xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo công tác ở Viện Công
nghệ thông tin và Truyền thơng đã tận tình chỉ dạy, chia sẻ kinh nghiệm quý báu về cách
tiếp cận và nghiên cứu khoa học cơ bản.
Bên cạnh đó tơi cũng xin cảm ơn chân thành tới Ban giám hiệu nhà trường cùng tồn
thể các thầy cơ Phịng Sau đại học của trường đã quan tâm, tạo điều kiện cho tôi trong suốt
thời gian học.
Sau cùng tơi xin bày tỏ lịng biết ơn đến các bạn cùng lớp, cảm ơn gia đình đã luôn sát
cánh, động viên tôi.
Học viên
Trịnh Khắc Linh
i
LỜI CAM ĐOAN
Tôi – Trịnh Khắc Linh – xin cam kết Luận văn này là cơng trình nghiên cứu của bản
thân tơi dưới sự hướng dẫn của PGS.TS Trần Đình Khang.
Các kết quả trình bày trong Luận văn là trung thực, chưa từng được ai công bố trong bất
kỳ công trình nào khác. Tất cả các trích dẫn đều được tham chiếu rõ ràng.
Hà Nội, ngày
tháng 10 năm 2018
TÁC GIẢ LUẬN VĂN
Trịnh Khắc Linh
ii
MỤC LỤC
LỜI CẢM ƠN ............................................................................................................................ i
LỜI CAM ĐOAN ..................................................................................................................... ii
DANH MỤC CÁC THUẬT NGỮ CHÍNH ............................................................................ 1
DANH MỤC CÁC KÝ HIỆU CHÍNH ................................................................................... 2
DANH MỤC HÌNH VẼ ........................................................................................................... 3
DANH MỤC BẢNG BIỂU ...................................................................................................... 4
PHẦN 1: MỞ ĐẦU ................................................................................................................... 5
1. Lý do chọn đề tài. .............................................................................................................. 5
2. Lịch sử nghiên cứu. ........................................................................................................... 6
3. Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu. .......................... 7
4. Tóm tắt cơ đọng các luận điểm cơ bản và đóng góp mới của tác giả. .......................... 8
5. Phương pháp nghiên cứu. .............................................................................................. 10
PHẦN 2: NỘI DUNG ĐỀ TÀI .............................................................................................. 11
CHƯƠNG I. TỔNG QUAN VỀ DỰ BÁO LIÊN KẾT .................................................... 11
MẠNG ĐỒNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC ................................................. 11
1.1. Giới thiệu tổng quan về mạng xã hội và mạng đồng tác giả. ...................................... 11
1.1.1. Mạng xã hội. ................................................................................................... 11
1.1.2. Mạng đồng tác giả. .......................................................................................... 12
1.2. Bài toán dự báo liên kết trong mạng đồng tác giả ...................................................... 13
1.2.1. Tổng quan về các độ đo liên kết trong mạng đồng tác giả. ............................ 15
1.2.2. Tổng quan về các mơ hình học máy trong dự báo liên kết trong mạng đồng
tác giả. 17
1.3. Vấn đề mất cân bằng dữ liệu trong dự báo liên kết mạng đồng tác giả. ..................... 19
CHƯƠNG II. PHƯƠNG PHÁP SUPPORT VECTOR MACHINE ĐỐI VỚI DỮ LIỆU
MẤT CÂN BẰNG ............................................................................................................... 21
2.1. Phương pháp Support Vector Machine. ...................................................................... 21
2.1.1. Giới thiệu về phương pháp Support Vector Machine ........................................ 21
2.1.2. Tối ưu lề trong SVM. ......................................................................................... 25
2.1.3. Huấn luyện SVM. ............................................................................................... 27
2.2. Một số độ đo đánh giá hiệu năng cho phân lớp dữ liệu mất cân bằng. ....................... 29
2.3. Một số nghiên cứu cải tiến phương pháp SVM cho phân lớp dữ liệu mất cân bằng. ........ 31
2.2.1 Tiếp cận dựa trên SVM cho phân lớp dữ liệu mất cân bằng ............................... 31
2.2.2 Weighted-SVM. .................................................................................................. 31
2.2.3 z-SVM. ................................................................................................................ 32
2.2.4 New bias SVM. .................................................................................................. 33
CHƯƠNG III. PHƯƠNG PHÁP SVM CẢI TIẾN CHO DỮ LIỆU MẤT CÂN BẰNG
34
3.1. Phương pháp SVM cải tiến. ........................................................................................ 34
3.1.1 Học mơ hình Weighted-SVM.............................................................................. 35
3.1.2. Tìm giá trị tối ưu τ* ............................................................................................ 39
3.1.3. Phân tích độ phức tạp tính tốn .......................................................................... 39
3.2. Thực nghiệm, đánh giá ............................................................................................... 40
3.2.1. Tập dữ liệu thực nghiệm..................................................................................... 40
3.2.2. Cấu hình tham số ................................................................................................ 41
3.2.3. Kết quả thực nghiệm .......................................................................................... 42
CHƯƠNG IV: ỨNG DỤNG DỰ BÁO LIÊN KẾT .......................................................... 43
MẠNG ĐỒNG TÁC GIẢ ................................................................................................... 43
4.1. Áp dụng phương pháp SVM cải tiến để dự báo liên kết mạng đồng tác giả. ............. 43
4.2. Xây dựng chương trình dự báo liên kết mạng đồng tác giả ........................................ 44
4.2.1. Xây dựng cài đặt công cụ dự báo liên kết mạng đồng tác giả ............................ 44
4.2.2. Kết quả ............................................................................................................... 47
4.2. Đánh giá chương trình ................................................................................................ 50
4.3.1. Mơ tả dữ liệu mạng đồng tác giả thực nghiệm ................................................... 50
4.3.2. Cấu hình các phương pháp phân lớp .................................................................. 51
4.3.3. Độ đo đánh giá ................................................................................................... 51
4.3.3. Kết quả thực nghiệm .......................................................................................... 52
CHƯƠNG V: KẾT LUẬN .................................................................................................. 61
5.1. Những kết luận mới. ................................................................................................... 61
5.2. Đóng góp mới và kiến nghị của tác giả về sử dụng kết quả nghiên cứu .................... 62
TÀI LIỆU THAM KHẢO ..................................................................................................... 64
DANH MỤC CÁC THUẬT NGỮ CHÍNH
ACC: Accuracy.................................................................................................................. 36
CN: Common Neighbours ..................................................................................... 22, 23, 54
FN: False Negative ...................................................................................................... 36, 61
FP: False Positive ........................................................................................................ 36, 61
JC: Jaccard Coefficient ................................................................................................ 23, 54
KKT: Karush-Kuhn-Tucker ........................................................................................ 31, 34
PA: Preferential Attackment .............................................................................................. 23
QP: Quadratic Programming ................................................................................. 31, 32, 33
SMO: Sequential Minimal Optimization............................................................... 33, 34, 47
SV: Support Vector ........................................................................................................... 32
SVM: Support Vector Machine .. 4, 8, 14, 15, 24, 25, 26, 27, 29, 30, 32, 33, 37, 38, 39, 40,
41, 42, 46, 47, 50, 51, 56, 61, 62, 63
TN: True Negative ....................................................................................................... 36, 61
TP: True Positive ......................................................................................................... 36, 61
WAA: Weighted Adamic Adar ......................................................................................... 22
WCN: ................................................................................................................................. 22
WJC: Weighted Jaccard Coefficient ................................................................................. 23
WPA: Weighted Preferential Attackment ......................................................................... 23
1
DANH MỤC CÁC KÝ HIỆU CHÍNH
N
Số mẫu dữ liệu
w
Weight vector
b
Bias
𝒙𝒊
Vector đặc trưng
𝒚𝒊
Nhãn (label)
𝜉
Slack variable
C
Hằng số phạt
𝜏
Tham số học của mô hình cải tiến
K
Kernel
𝒛
Tham số học của mơ hình z-SVM
2
DANH MỤC HÌNH VẼ
Hình 2.1 Minh họa phân lớp dữ liệu SVM dữ liệu tuyến tính ................................................. 22
Hình 2.2 Minh họa phân lớp SVM dữ liệu nhiễu ..................................................................... 23
Hình 2.3. Minh họa ánh xạ dữ liệu vào không gian nhiều chiều ............................................. 24
Hình 2.4 Minh họa Weighted-SVM ......................................................................................... 32
Hình 3.1 Minh họa ràng buộc alpha trong Weighted-SVM ..................................................... 38
Hình 4.1. Mơ hình dự báo liên kết đồng tác giả dựa trên tiếp cận học máy ........................... 43
Hình 4.2. Sơ đồ đề xuất tổng quan của chương trình dự báo liên kết đồng tác giả ................. 44
Hình 4.3. Sơ đồ đề xuất chương trình dự báo liên kết đồng tác giả ......................................... 45
Hình 4.4. Màn hình huấn luyện mơ hình dự báo liên kết mạng đồng tác giả .......................... 47
Hình 4.5. Màn hình hiển thị kết quả huấn luyện ...................................................................... 48
Hình 4.6. Màn hình load ứng viên cần dự báo ......................................................................... 48
Hình 4.7. Màn hình lựa chọn ứng viên / tác giả dự báo ........................................................... 49
Hình 4.8. Màn hình kết quả dự báo cho ứng viên lựa chọn ..................................................... 49
Hình 4.9. Sự thay đổi của giá trị F1-score theo tỉ lệ mất cân bằng .......................................... 56
Hình 4.10 Sự biến thiên của Recall, Precision, F1-score, G-mean theo siêu tham số C ......... 59
Hình 4.11 Kết quả đánh giá thời gian chạy tìm 𝝉 theo kích cỡ mẫu dữ liệu ............................ 60
3
DANH MỤC BẢNG BIỂU
Bảng 1 Một số phương pháp phân lớp áp dụng cho dự báo liên kết ................................. 18
Bảng 2. Mô tả ma trận nhầm lẫn ....................................................................................... 30
Bảng 3. Mô tả bộ dữ liệu mất cân bằng UCI ..................................................................... 41
Bảng 4. Kết quả thực nghiệm so sánh các phương pháp với dữ liệu UCI ........................ 42
Bảng 5. Mô tả chia cách chia dữ liệu mạng đồng tác giả theo thời gian ........................... 44
Bảng 6. Minh họa dữ liệu mạng đồng tác giả thu được .................................................... 51
Bảng 7. Mô tả các tập dữ liệu mạng đồng tác giả cho thực nghiệm đánh giá ................... 51
Bảng 8. Kết quả đánh giá các phương pháp phân lớp đối với dữ liệu mạng đồng tác giả 52
Bảng 9. Kết quả đánh giá theo các siêu tham số C ........................................................... 58
4
PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài.
Với sự phát triển chóng mặt của khoa học, việc tìm kiếm thông tin khoa học để thực
hiện các công việc liên quan đến nghiên cứu là nhu cầu thường xuyên, không thể
thiếu đối với những người làm nghiên cứu khoa học. Mạng đồng tác giả nghiên cứu
khoa học hay còn gọi là mạng lưới học thuật (academic social network) là một loại
mạng xã hội đặc biệt, bao gồm các đỉnh (node mạng) là các tác giả, nhà nghiên cứu
đã từng viết một hoặc nhiều bài báo đã được công bố về chủ đề, lĩnh vực nào đó;
các cạnh thể hiện mối liên hệ giữa các tác giả, thường là mối liên hệ cộng tác giữa
hai tác giả khi cùng tham gia xuất bản một bài báo. Các mạng đồng tác giả hỗ trợ
người sử dụng hoặc các tổ chức để chia sẻ hồ sơ của họ cho mục đích trao đổi học
thuật. Những người sử dụng dịch vụ đó có thể tìm thấy các ứng cử viên thích hợp
những người mà phù hợp với mục tiêu hay nhu cầu hợp tác. Mạng đồng tác giả
mang nhiều đặc trưng học thuật và có nhiều tính chất khác biệt so với mạng xã hội
truyền thống. Ví dụ, mức độ cộng tác giữa hai tác giả cùng viết chung các bài báo
phụ thuộc vào số lượng bài báo, số lượng tác giả, thứ tự của các tác giả và thời gian
công bố của các bài báo mà hai tác giả đã viết chung. Do đó, việc phân tích và khai
phá thơng tin từ các mạng đồng tác giả mang nhiều ý nghĩa quan trọng và thiết thực
trong việc mơ hình hóa và nâng cao chất lượng của quá trình nghiên cứu học thuật.
Để giúp các nhà làm nghiên cứu dễ dàng hơn trong việc tiếp cận các thơng tin
học thuật hữu ích liên quan, các hệ thống dự báo liên kết trong lĩnh vực học thuật
(dự báo liên kết mạng đồng tác giả) là giải pháp đang được quan tâm nghiên cứu
trong những năm gần đây. Dự báo liên kết là vấn đề cơ bản nhất, việc dự báo liên
kết cố gắng để ước lượng khả năng về sự tồn tại của mối liên kết giữa hai node
mạng, dựa trên các liên kết đã quan sát và các đặc trưng của node. Mục tiêu của bài
toán dự báo liên kết trong mạng đồng tác giả là đưa ra các cặp tác giả có khả năng
hợp tác trong tương lai dựa vào cấu trúc của mạng quan sát được ở thời điểm hiện
5
tại, thể hiện qua các độ đo sự tương đồng giữa hai tác giả. Từ mạng đồng tác giả có
thể trích xuất được bảng dữ liệu về các cặp ứng viên với các thuộc tính là các độ đo
sự tương đồng và nhãn lớp 1/-1 thể hiện có / khơng liên kết đồng tác giả. Số liệu các
độ đo tương đồng được xem như các đặc trưng của ứng viên và được đưa vào một
mơ hình học máy để huấn luyện ra một mơ hình sử dụng cho dự báo các liên kết sau
này.
Cho đến nay, có rất nhiều nghiên cứu về phương pháp học máy được đề xuất để
giải quyết vấn đề dự báo liên kết, tuy nhiên hiệu năng của các phương pháp dự báo
liên kết còn thấp. Có nhiều nguyên nhân dẫn đến sự hạn chế về hiệu năng của các
phương pháp dự báo liên kết mạng đồng tác giả, một trong những vấn đề nghiêm
trọng là sự mất cân bằng dữ liệu. Thực tế, mạng đồng tác giả là mạng đặc thù có số
lượng ứng viên rất lớn, tỉ lệ hàm mũ bình phương với số lượng đỉnh của mạng, với
số lượng liên kết (cộng tác) thực sự của các ứng viên rất nhỏ so với số lượng ứng
viên trong mạng. Điều đó dẫn đến việc mất cân bằng về lớp và cản trở tính hiệu quả
của các phương pháp dự báo liên kết. Sự mất cân bằng này cản trở tính hiệu quả của
các phương pháp dự báo liên kết, gây ra khó khăn cho việc đánh giá mơ hình và
quan trọng hơn, định lượng mức độ tin cậy của việc dự báo.
Vì vậy đây là lý do để tác giả lựa chọn đề tài này, đề tài này có ý nghĩa thực tiễn
rất lớn ngoài việc nâng cao hiệu quả cho dự báo liên kết trong mạng đồng tác giả nó
cịn bổ sung cho cộng đồng nghiên cứu một phương pháp học máy hiệu quả áp dụng
đối với dữ liệu mất cân bằng.
2. Lịch sử nghiên cứu.
Trên thực tế hiện nay, đã có nhiều cơng trình, bài báo nghiên cứu về dự báo liên kết
trong mạng đồng tác giả. Hầu hết các bài báo tiếp cận dự báo liên kết trong mạng
đồng tác giả dựa trên những kết quả áp dụng từ mạng xã hội nói chung. Có một số
hướng tiếp cận cho dự báo liên kết. Một nhóm các thuật tốn tính tốn độ tương
đồng giữa các cặp node và do đó các phương pháp học có giám sát có thể được sử
dụng. Trong nhóm này cũng bao gồm các phương pháp sử dụng ma trận kernel, và
6
sử dụng phân lớp biên cực đạt. Một nhóm thuật tốn khác bao gồm các thuật tốn
dựa trên mơ hình xác suất bayes và mơ hình quan hệ xác suất (probabilistic relational
models). Bên cạnh đó, cũng có một số thuật tốn dự trên mơ hình đồ thị tiến hố
(graph evolution models) hoặc đại số tuyến tính. Liben-Nowell và Kleinberg [3] đã
đề xuất một trong các mơ hình dự báo liên kết đầu tiên. Mỗi đỉnh trong đồ thị biểu
diễn một người và một cạnh giữa hai đỉnh biểu diễn sự tương tác giữa hai người.
Mơ hình học được sử dụng để suy ra (extract) độ tương đồng giữa các cặp đỉnh
thông qua nhiều độ đo tương tự dựa trên đồ thị và sắp xếp theo giá trị độ tương đồng
để đưa ra dự báo liên kết giữa hai đỉnh. Họ tập trung chủ yếu vào sử dụng độ đo
tương tự dựa trên đồ thị đối với bài toán dự báo liên kết. Sau đó, Hasan và cộng sự
[4] đã mở rộng nghiên cứu này theo hai cách. Thứ nhất, họ cho thấy việc sử dữ liệu
mở rộng bên ngoài phạm vi của cấu trúc liên kết đồ thị có thể cải tiến kết quả dự
báo. Thứ hai, họ sử dụng nhiều độ đo tương tự khác nhau như là những đặc trưng
trong q trình học có giám sát khi mà vấn đề dự báo được đặt ra như là một vấn đề
phân lớp nhị phân. Khi đó, hướng tiếp cận phân lớp có giám sát được sử dụng phổ
biến trong những nghiên cứu khác khi giải quyết bài toán dự báo liên kết.
Cho đến nay đã có rất nhiều cơng trình nghiên cứu dự báo liên kết mạng đồng
tác giả nghiên cứu khoa học, hầu hết đều đi theo hướng thứ 2 trên. Tuy nhiên, việc
áp dụng các phương pháp học giám sát phổ biến cho dự báo liên kết mạng đồng tác
giả có thể gặp những khó khăn dẫn đến sự kém hiệu quả.
3. Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu.
a) Mục đích nghiên cứu: Mạng đồng tác giả hay còn gọi một mạng lưới học thuật
là một mạng xã hội đặc biệt, mang lại nhiều tiện ích cho các nhà khoa học, kết
nối các nhà nghiên cứu, giúp họ dễ dàng tìm kiếm, trao đổi thơng tin nghiên cứu,
tìm kiếm các đối tác phù hợp với lĩnh vực nghiên cứu của mình,… Dự báo liên
kết trong mạng đồng tác giả có vai trò qua trọng giúp khuyến nghị, đề xuất cho
các nhà nghiên cứu các ứng viên tiềm năng, phù hợp với lĩnh vực nghiên cứu
của bản thân, từ đó có thể nâng cao hiệu quả, chất lượng trong nghiên cứu khoa
7
học. Tuy nhiên, do mạng đồng tác giả là một mạng đặc thù mang nhiều đặc trưng
học thuật và tính chất khác biệt so với mạng xã hội, nên có nhiều thách thức ảnh
hưởng đến các phương pháp dự báo liên kết trong mạng đồng tác giả, dẫn đến
sự kém hiệu quả của các phương pháp trong dự báo liên kết mạng đồng tác giả.
Vì thế, đối với nhiệm vụ nghiên cứu dự báo liên kết mạng đồng tác giả, việc cải
tiến, nâng cao hiệu quả cốt lõi của phương pháp dự báo liên kết là vô cùng cần
thiết. Với phương pháp dự dự báo tốt, chúng ta sẽ có thể tạo ra hệ thống dự báo
liên kết mạng đồng tác giả tin cậy, tiện ích, hiệu quả dành cho các nhà nghiên
cứu.
Mục tiêu chính của đề tài này là xây dựng tiếp cận dự báo liên kết mạng đồng
tác giả. Trong đó luận văn chú trọng đến việc đề xuất phương pháp Support
Vector Machine (SVM) áp dụng với dữ liệu mất cân bằng về nhãn lớp, sau đó
áp dụng phương pháp SVM cải tiến này cho dự báo liên kết đồng tác giả. Kết
quả mong muốn đạt được gồm có:
- Đề xuất phương pháp SVM cải tiến cho dữ liệu mất cân bằng về nhãn lớp
(bài toán 2 lớp nhãn)
- Áp dụng triển khai phương pháp SVM cải tiến này cho dự báo liên kết mạng
đồng tác giả.
b) Đối tượng áp dụng: Áp dụng cho dữ liệu mạng đồng tác giả nghiên cứu khoa
học. Tuy nhiên, kết quả phương pháp phân lớp đề xuất có thể mở rộng áp dụng
cho tất cả các tập dữ liệu bị mất cân bằng lớp nhãn (2 lớp nhãn).
c) Phạm vi nghiên cứu: Phạm vi nghiên cứu trong quyển luận văn này là xây dựng
tiếp cận dự báo liên kết mạng đồng tác giả, trong đó chú trọng đưa ra mơ hình
phân lớp cho dữ liệu mất cân bằng và áp dụng cho dự báo liên kết mạng đồng
tác giả.
4. Tóm tắt cơ đọng các luận điểm cơ bản và đóng góp mới của tác giả.
Trong quyển luận văn này, tác giả xin tóm tắt lại một số luận điểm cơ bản và đóng
góp mới của tác giả như sau:
8
• Khảo sát và nghiên cứu các kỹ thuật trong dự báo liên kết mạng đồng tác giả,
tìm hiểu một số độ đo tương đồng phổ biến, các phương pháp học máy thông
dụng cho dự báo liên kết mạng đồng tác giả. Đồng thời, tìm hiểu nghiên cứu các
vấn đề tồn đọng dẫn đến sự kém hiệu quả của các phương pháp cho dự báo, và
một số cải tiến điển hình nhằm khắc phục vấn đề đó.
• Đề xuất phương pháp SVM cải tiến cho dữ liệu mất cân bằng về nhãn lớp (bài
toán 2 lớp nhãn). Cơ sở động lực là dựa trên sự hiểu rõ vấn đề mất cân bằng dữ
liệu, và nắm rõ ý tưởng, nguyên lý căn bản của các cải tiến đã có nhằm khắc
phục vấn đề mất cân bằng dữ liệu dựa trên phương pháp phân lớp Support Vector
Machine (SVM).
• Ý tưởng cơ bản của tác giả là đề xuất một cách điều chỉnh siêu mặt phân lớp sau
khi huấn luyện một mơ hình SVM đã cải tiến hiệu quả cho dữ liệu mất cân bằng,
cụ thể:
-
Ở bước huấn luyện mơ hình, tác giả sử dụng phương pháp WeightedSVM là một phương pháp rất hiệu quả được cải tiến dựa trên SVM cho
dữ liệu mất cân bằng.
-
Sau khi huấn luyện siêu mặt phân lớp sử dụng Weighted-SVM, siêu mặt
phân lớp có thể đạt tới một vị trí khá tốt cho phân lớp dữ liệu mất cân
bằng. Tuy nhiên, để có thể đạt được một siêu mặt phân lớp tốt hơn so với
siêu mặt huấn luyện được, tác giả đề xuất sửa đổi giá trị weight vector
của siêu mặt, bằng cách gia tăng cùng một đại lượng cho các nhân tử
Lagrange của lớp ý nghĩa hơn thu được từ huấn luyện mơ hình. Để tìm ra
được đại lượng tốt giúp tăng hiệu quả mơ hình, tác giả đề xuất sử dụng
một phương pháp tối ưu dựa trên kỹ thuật tìm kiếm lắt cắt vàng cho việc
tìm kiếm.
• Dựa trên tính tin cậy của phương pháp đề xuất thông qua thực nghiệm đánh giá
hiệu năng với một số tập dữ liệu bị mất cân bằng, tác giả đề xuất mơ hình áp
dụng phương pháp đề xuất cho dự báo liên kết mạng đồng tác giả. Chương trình
dự báo được tác giả xây dựng hỗ trợ huấn luyện và dự báo liên kết đồng tác giả
cho bất kỳ mạng đồng tác giả nào đưa vào chương trình. Chương trình sử dụng
9
phương pháp đề xuất để huấn luyện mơ hình. Từ đó, hỗ trợ dự báo các liên kết
có khả năng trong tương lai cho bất kỳ tác giả / ứng viên cần kiểm tra.
• Giải pháp của tác giả có cơ sở chứng minh tính tin cậy vững chãi; lý luận chặt
chẽ, đám bảo nâng cao hiệu quả cho dự báo liên kết mạng đồng tác giả. Đồng
thời cũng sẳn sàng áp dụng như một lựa chọn thích hợp cho các bài tốn mất cân
bằng dữ liệu nói chung. Sự hiệu quả của phương pháp đề xuất so với các phương
pháp cải tiến đã có được thể hiện thơng qua các thực nghiệm đánh giá với các
tập dữ liệu phong phú, trên nhiều tiêu chí, độ đo chuyên dụng đánh giá hiệu năng
của phương pháp học máy.
5. Phương pháp nghiên cứu.
Phương pháp nghiên cứu của tác giả tập trung vào bốn vấn đề chính sau:
• Tìm hiểu, nghiên cứu các hình thức, kỹ thuật dự báo liên kết đồng tác giả, tìm
hiểu một số độ đo tương đồng phổ biến, các phương pháp học máy thông dụng
cho dự báo liên kết mạng đồng tác giả.
• Dựa vào kết quả bước trên, tác giả đi nghiên cứu, tìm hiểu các vấn đề tồn đọng
dẫn đến sự kém hiệu quả của các phương pháp cho dự báo, và một số cải tiến
điển hình nhằm khắc phục vấn đề đó.
• Từ những kết quả nghiên cứu được tác giả đề xuất và cải tiến một phương pháp
phân lớp mới mang đến hiệu quả tốt hơn cho dự báo liên kết mạng đồng tác giả
và dữ liệu mất cân bằng. Từ đó, tác giả đề xuất áp dụng phướng pháp đó vào dự
báo liên kết mạng đồng tác giả.
• Thực nghiệm: tác giả tiến hành nhiều thực nghiệm khác nhau nhằm khẳng định
sự tin cậy, hiệu quả hơn của phương pháp đề xuất so với các phương pháp cải
tiến đã có trong dự báo liên kết đồng tác giả và dữ liệu mất cân bằng nói chung.
10
PHẦN 2: NỘI DUNG ĐỀ TÀI
CHƯƠNG I. TỔNG QUAN VỀ DỰ BÁO LIÊN KẾT
MẠNG ĐỒNG TÁC GIẢ NGHIÊN CỨU KHOA HỌC
1.1. Giới thiệu tổng quan về mạng xã hội và mạng đồng tác giả.
1.1.1. Mạng xã hội.
Mạng xã hội (social networks) là một mơ hình mạng có tính chất xã hội, có cấu trúc bao
gồm các thực thể và các quan hệ hoặc liên kết giữa chúng, các thực thể trong mạng có thể
là các thành viên, các nhóm hoặc các tổ chức. Với sự xuất hiện của mạng Internet, mạng
xã hội trực tuyến ngày càng phổ biến. Nó đã trở thành một trong những nguồn ảnh hưởng
và quan trọng nhất đối với việc cung cấp dịch vụ, chia sẻ thông tin hoặc kiến thức và
nhiều hoạt động khác dựa trên Internet. Mạng xã hội đem lại cho người dùng rất nhiều
tiện ích. Mạng xã hội hỗ trợ việc tổ chức và chia sẻ nội dung nhằm tạo ra các kết nối bạn
bè, hầu hết các dịch vụ mạng xã hội cung cấp những nền tảng giúp người dùng tạo, chia
sẻ và quản lý hồ sơ cá nhân của họ. Những dịch vụ này đã trở nên rất phổ biến bởi tính
hiệu quả của việc tương tác giữa những người dùng. Những trang mạng xã hội có tính
năng chia sẻ, quản lý nội dung và kết bạn chẳng hạn như Facebook (có khoảng trên một
tỷ người dùng) và Twitter (có khoảng trên 200 triệu người dùng). Những trang mạng cho
phép chia sẻ nội dung đa phương tiện như hình ảnh, video có thể kể đến là Flickr và
YouTube. Bên cạnh đó, mạng xã hội cũng hỗ trợ việc chia sẻ tri thức, học tập và cộng
tác: Các mạng xã hội tăng cường việc học khơng chính thức và hỗ trợ các kết nối xã hội
trong phạm vi người sử dụng hoặc các tổ chức để chia sẻ hồ sơ của họ cho mục đích trao
đổi học thuật và kinh doanh. Những người sử dụng dịch vụ đó có thể tìm thấy các ứng cử
viên thích hợp những người mà phù hợp với lợi ích cá nhân hoặc tổ chức. LinkedIn, một
mạng xã hội bao gồm hơn 200 triệu chuyên gia là một ví dụ đại diện các mạng xã hội
theo định hướng học thuật cũng như theo định hướng kinh doanh. Mạng xã hội đồng thời
hỗ trợ việc trao đổi thơng tin. Mạng thư điện tử là một ví dụ của mạng xã hội trao đổi
thông tin. Hệ thống thư điện tử hiện tại đã được tích hợp những kỹ thuật trao đổi thông
tin mới nhất chẳng hạn như là quay số, trị chuyện, hội nghị truyền hình nhằm trao quyền
cho người dùng, cho phép những kết nối phức tạp không đồng nhất giữa các người dùng.
11
Hình 1.1. Minh họa về mạng xã hội
1.1.2. Mạng đồng tác giả.
Mạng đồng tác giả hay còn gọi là mạng lưới học thuật (academic social network) là
một loại mạng xã hội đặc biệt, bao gồm các đỉnh là các tác giả, nhà nghiên cứu đã từng
viết một hoặc nhiều bài báo đã được công bố về chủ đề, lĩnh vực nào đó; các cạnh thể
hiện mối liên hệ giữa các tác giả, thường là mối liên hệ cộng tác giữa hai tác giả khi
cùng tham gia xuất bản một bài báo. Mạng đồng tác giả mang nhiều đặc trưng học
thuật và có nhiều tính chất khác biệt so với mạng xã hội truyền thống. Ví dụ, mức độ
cộng tác giữa hai tác giả cùng viết chung các bài báo phụ thuộc vào số lượng bài báo,
số lượng tác giả, thứ tự của các tác giả và thời gian công bố của các bài báo mà hai tác
giả đã viết chung. Ngồi ra, một nhân tố rất quan trọng có thể ảnh hưởng đến việc cộng
tác giữa các tác giả trong tương lai là sự tương đồng về lĩnh vực nghiên cứu. Hai tác
giả có thể nghiên cứu nhiều lĩnh vực khác nhau và nếu một số hướng nghiên cứu chính
có sự tương đồng cao thì tiềm năng cộng tác trong việc viết chung các bài báo khoa
học trong tương lai càng lớn. Do đó, việc phân tích và khai phá thông tin từ các mạng
đồng tác giả mang nhiều ý nghĩa quan trọng và thiết thực trong việc mơ hình hóa và
nâng cao chất lượng của q trình nghiên cứu học thuật [1] [2]. Một mạng đồng tác
12
giả có thể được định nghĩa là một đồ thị có dạng như sau: 𝐺 𝑇 = (𝑉 𝑇 , 𝐸 𝑇 , 𝑃𝑇 , 𝑇) trong
đó:
- 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑘 } là tập các nhãn thời gian
- 𝑉 𝑇 = {𝑣1 , 𝑣2 , … , 𝑣𝑁 } là tập các đỉnh được tạo trong thời gian 𝑇, mỗi nút đại diện
cho một tác giả.
- 𝑃𝑇 = {𝑝1 , 𝑝2 , … , 𝑝𝑀 } là tập các bài báo được công bố trong thời gian 𝑇
- 𝐸 𝑇 = {(𝑣𝑖 , 𝑣𝑗 , 𝑝𝑘 , 𝑡ℎ )} là tập các liên kết giữa các tác giả trong thời gian 𝑇, tức là
các tác giả 𝑣𝑖 , 𝑣𝑗 cùng công bố bài báo 𝑝𝑘 vào thời gian 𝑡ℎ
Trong mạng đồng tác giả nghiên cứu khoa học, hai tác giả được gọi là đồng tác giả
nếu họ cùng nhau công bố một bài báo khoa học. Những tác giả càng có nhiều quan
hệ cộng tác tốt thì càng có khả năng tạo ra nhiều tri thức mới trong khoa học. Dựa trên
những mối quan hệ cộng tác nghiên cứu khoa học, các tác giả có thể quen biết và cộng
tác với những đối tác mới thơng qua những mối quan hệ đã có. Như vậy các tác giả
từng cộng tác với các đối tác của một tác giả nào đó có khả năng trở thành đối tác của
tác giả đó, được gọi là một liên kết có khả năng xảy ra, và cặp tác giả trong liên kết đó
gọi là một cặp ứng viên.
1.2. Bài toán dự báo liên kết trong mạng đồng tác giả
Dự báo liên kết là vấn đề cơ bản nhằm cố gắng suy luận về khả năng xuất hiện các liên
kết mới trong một tương lai gần dựa trên những đặc trưng cấu trúc liên kết, node và
liên kết (cạnh) trong một mạng cụ thể. Đó là, nếu chúng được biểu diễn tại thời điểm
hiện tại, thì mục tiêu là dự báo những liên kết sẽ xuất hiện trong khoảng thời gian tiếp
theo. Bài toán dự báo liên kết trong mạng xã hội nói chung và mạng đồng tác giả nói
riêng là một vấn đề cơ bản của khai phá dữ liệu trong rất nhiều lĩnh vực ứng dụng, bao
gồm phân tích mạng, truy xuất thơng tin, hệ thống khuyến nghị.
Trong mạng đồng tác giả, mục tiêu của bài toán dự báo liên kết là đưa ra các cặp tác
giả có khả năng hợp tác trong tương lai dựa vào cấu trúc của mạng quan sát được ở
thời điểm hiện tại, thể hiện qua các độ đo sự tương đồng giữa hai tác giả. Từ mạng
đồng tác giả có thể trích xuất được bảng dữ liệu về các cặp ứng viên với các thuộc tính
là các độ đo sự tương đồng và nhãn lớp 1/-1 thể hiện có / khơng liên kết đồng tác giả.
13
Số liệu các độ đo tương đồng được xem như các đặc trưng của ứng viên và được đưa
vào một mơ hình học máy để huấn luyện ra một mơ hình sử dụng cho dự báo các liên
kết sau này
Bài báo dự báo liên kết có thể được phát biểu theo định nghĩa của Liben-Nowell và
Kleinberg [3] như sau: Cho một mạng xã hội ký hiệu G(V,E), trong đó e = (u,v) biễu
diễn một vài dạng tương tác giữa những điểm đầu cuối tại một thời gian t(e). Chúng ta
có thể ghi lại những tương tác phức hợp bởi những cạnh song song (parallel edges)
hoặc sử dụng nhãn thời gian phức hợp đối với cạnh. Đối với thời gian t t’, chúng ta
giả sử G[t,t’] là một đồ thị con của G trong đó tập cạnh được khống chế bởi các nhãn
thời gian trong khoảng [t, t’]. Trong việc thiết lập vấn đề huấn luyện có giám sát đối
với dự báo liên kết, chúng ta có thể lựa chọn khoảng thời gian huấn luyện là [t0, t’0] và
khoảng thời gian kiểm tra là [t1, t’1] sao cho t’0 < t1. Đầu ra của bài tốn dự báo liên kết
chính là tập các cạnh không xuất hiện trong G[t0, t’0] nhưng được dự báo xuất hiện
trong mạng G[t1, t’1].
Các nghiên cứu về bài toán dự báo liên kết trong mạng xã hội nói chung và mạng
đồng tác giả nói riêng đều tiếp cận giải quyết bài toán theo hướng học khơng giám sát.
Tức là tính tốn độ tương tự giữa một nút (tác giả) với các nút ứng cử dựa trên thông
tin cấu trúc mạng hoặc dựa trên ngữ nghĩa, sau đó lựa chọn ra N nút có mức độ tương
tự lớn nhất với nút đó. Với cách tiếp cận này, việc đưa ra dự báo sẽ được thực hiện
một cách đơn giản và nhanh chóng. Tuy nhiên, giữa hai tác giả trong mạng đồng tác
giả có nhiều đặc trưng, chẳng hạn những đặc trưng dựa trên thông tin cấu trúc mạng
(chẳng hạn như các độ đo liên kết trong mạng), dựa trên sự tương đồng về lĩnh vực
nghiên cứu hay dựa trên việc cùng tham gia các sự kiện khoa học (chẳng hạn báo cáo
hoặc hội nghị khoa học, …). Việc sử đồng thời nhiều đặc trưng để dự báo theo hướng
tiếp cận học không giám sát là không dễ và có thể khơng đạt được kết quả khuyến nghị
mong muốn.
Trong các nghiên cứu về bài toán dự báo liên kết [4] [5] [6] [7] [8] [9] [10] [11] hầu
hết các nghiên cứu đều tiếp cận giải quyết bài tốn dự báo liên kết theo hướng học có
giám sát, cụ thể là sử dụng các phương pháp phân lớp. Thông qua kết quả thực nghiệm,
phần nào đã khẳng định được tính hiệu quả khi áp dụng phương pháp phân lớp vào bài
14
tốn dự đốn liên kết trong mạng xã hội nói chung cũng như mạng đồng tác giả nói
riêng. Do vậy, việc tiếp cận theo hướng học có giám sát (các phương pháp phân lớp có
thể là một trong những sự lựa chọn) để giải quyết bài toán dự báo liên kết là hồn tồn
có cơ sở.
Có thể khái qt các bước thực hiện dự báo liên kết mạng đồng tác giả như sau:
Bước 1: Thu thập thông tin về dữ liệu các bài báo khoa học (tiêu đề bài báo, các tác
giả, tổ chức, thời gian công bố,...)
Bước 2: Xây dựng mạng đồng tác giả dựa trên dữ liệu thu thập được (đỉnh là tác giả
có bài báo khoa học, cạnh nối 2 tác giả thường là thông tin thể hiện sự cộng tác của 2
tác giả đó)
Bước 3: Xây dựng các cặp ứng viên trong tương lai dựa trên mạng đồng tác giả
Bước 4: Tính tốn các độ đo tương đồng (đặc trưng) của các cặp ứng viên
Bước 5: Huấn luyện một mơ hình học máy dựa trên q khứ cộng tác trong mạng
đồng tác giả để dự báo liên kết cho các ứng viên trong tương lai.
1.2.1. Tổng quan về các độ đo liên kết trong mạng đồng tác giả.
Có rất nhiều độ đo được sử dụng để tính tốn mức độ tương đồng giữa hai nút trong
mạng đồng tác giả. Độ tương đồng của các nút có thể được xác định bằng các tính chất
cơ bản của những nút đó: hai nút được coi là tương tự khi chúng có nhiều đặc điểm
chung với nhau (các đặc trưng giống nhau) [12]. Với mỗi nút 𝑥, ký hiệu 𝑇(𝑥) là tập
các hàng xóm của 𝑥 trong đồ thị mạng đồng tác giả. Dưới đây là một số độ đo phổ biến
thường được sử dụng để tính độ tương đồng ứng viên trong mạng đồng tác giả:
Độ đo Weighted Common Neighbours – WCN
Độ đo Common Neighbours CN [13] giữa hai nút 𝑢 và 𝑣 là tổng số hàng xóm chung
giữa 𝑢 và 𝑣. Số lượng hàng xóm chung càng cao thì độ tương đồng CN càng lớn, do
dó khả năng (𝑢, 𝑣) có liên kết trong tương lai càng cao.
𝑆𝐼𝑀𝐶𝑁 (𝑢, 𝑣) = |𝑇(𝑢) ∩ 𝑇(𝑣)|
(1)
Độ đo CN thể hiện được số lượng hàng xóm chung nhưng chưa tính đến mức độ
liên kết giữa các hàng xóm, trong trường hợp này là số lượng các bài báo công bố cùng
15
nhau. Với hai tác giả 𝑢 và 𝑣, ký hiệu 𝑤(𝑢, 𝑣) là số lượng bài báo chung, được sử dụng
làm trọng số liên kết giữa hai tác giả.
Theo đó, có thể mở rộng độ đo CN, tính tốn thêm với các 𝑤(𝑢, 𝑣) giữa các nút.
Với hai tác giả 𝑢 và 𝑣, xét tất cả các hàng xóm chung 𝑧 và trọng số liên kết giữa u và
𝑧, cũng như giữa 𝑣 và 𝑧, ta có cơng thức của độ đo WCN [14]:
𝑆𝐼𝑀𝑊𝐶𝑁 (𝑢, 𝑣 ) =
∑
𝑧∈𝑇(𝑢)∩𝑇(𝑣)
𝑤(𝑢, 𝑧) + 𝑤(𝑣, 𝑧)
2
(2)
Độ đo Weighted Adamic_Adar – WAA
Độ đo Adamic-Adar [15] quan sát thêm số lượng hàng xóm chung của hàng xóm
chung. Với 𝑧 là hàng xóm chung của cả 𝑢 và 𝑣, thì độ đo Adamic-Adar tỷ lệ nghịch
với số lượng hàng xóm chung của 𝑧. Tích lũy tất cả các hàng xóm chung, ta có cơng
thức độ đo Adamic-Adar của hai nút u và v như sau:
𝑆𝐼𝑀𝐴𝐴 (𝑢, 𝑣) = ∑
1
𝑧∈𝑇(𝑢)∩𝑇(𝑣) log(|𝑇(𝑧)|)
(3)
Cũng như với độ đo CN, xét thêm trọng số liên kết giữa các hàng xóm 𝑤(𝑢, 𝑣), ta
có cơng thức cho độ đo WAA [14]:
𝑆𝐼𝑀𝑊𝐴𝐴 (𝑢, 𝑣 ) =
∑
𝑧∈𝑇(𝑢)∩𝑇(𝑣)
(
𝑤(𝑢, 𝑧) + 𝑤(𝑣, 𝑧)
1
)
×
2
log(∑𝑧 ′∈𝑇(𝑧) 𝑤(𝑧, 𝑧 ′ ))
(4)
Độ đo Weighted Jaccard Coefficient – WJC
Độ đo Jaccard Coefficient JC [16] giữa hai nút 𝑢, 𝑣 tỷ lệ thuận với số lượng hàng
xóm chung của 𝑢, 𝑣, đồng thời tỷ lệ nghịch với tổng số hàng xóm của 𝑢 và 𝑣. Độ đo
JC cho tỉ lệ các đồng tác giả cùng làm việc với 𝑥 cũng làm việc với 𝑦.
𝑆𝐼𝑀𝐽𝐶 (𝑢, 𝑣 ) =
|𝑇(𝑢) ∩ 𝑇(𝑣 )|
|𝑇(𝑢) ∪ 𝑇(𝑣 )|
(5)
Cũng như với độ đo CN, xét thêm trọng số liên kết giữa các hàng xóm 𝑤(𝑢, 𝑣), ta
có cơng thức cho độ đo WJC [17]:
𝑤(𝑢, 𝑧) + 𝑤(𝑣, 𝑧)
∑𝑧∈𝑇(𝑢)∩𝑇(𝑣) (
)
2
𝑆𝐼𝑀𝑊𝐽𝐶 (𝑢, 𝑣 ) =
(∑𝑢′∈𝑇(𝑢) 𝑤 (𝑢, 𝑢′ ) + ∑𝑣′∈𝑇(𝑣) 𝑤(𝑣, 𝑣 ′ ))
16
(6)
Độ đo Weighted Preferential Attachment – WPA
Độ đo Preferential Attachment PA [18] thể hiện mức độ liên kết rộng rãi của cả nút
𝑢 và nút 𝑣, được tính bằng tích số lượng hàng xóm của cả hai nút.
𝑆𝐼𝑀𝑃𝐴 (𝑢, 𝑣 ) = |𝑇(𝑢)| ∗ |𝑇(𝑣 )|
(7)
Xét thêm trọng số liên kết giữa các hàng xóm, ta có cơng thức cho độ đo WPA [14]
như sau:
𝑆𝐼𝑀𝑊𝑃𝐴 (𝑢, 𝑣 ) = ∑ 𝑤(𝑢, 𝑢′ ) × ∑ 𝑤(𝑣, 𝑣 ′ )
𝑢′∈𝑇(𝑢)
(8)
𝑣′∈𝑇(𝑣)
Độ đo SimRank
Độ đo SimRank [19] thể hiện mức độ tương tự giữa hai nút. Ký hiệu mức độ tương
tự giữa hai nút 𝑢,𝑣 là 𝑆𝐼𝑀𝑆𝑖𝑚𝑅𝑎𝑛𝑘 (𝑢, 𝑣) ∈ [0,1], độ tương tự SimRank có thể được viết
dưới dạng cơng thức đệ quy như sau, nếu 𝑢 ≡ 𝑣 thì 𝑆𝐼𝑀𝑆𝑖𝑚𝑅𝑎𝑛𝑘 (𝑢, 𝑣) = 1, ngược lại
tính theo cơng thức (5) :
𝑆𝐼𝑀𝑆𝑖𝑚𝑅𝑎𝑛𝑘
∑𝑧∈𝑇(𝑢) ∑𝑧 ′∈𝑇(𝑣′) 𝑆𝐼𝑀𝑆𝑖𝑚𝑅𝑎𝑛𝑘 (𝑧, 𝑧 ′ )
=𝐶×
|𝑇(𝑢)| × |𝑇(𝑣 )|
(9)
Trong đó C∈ [0.1] là hằng số.
Độ đo Katz
Độ đo Katz [20]:
∞
𝑆𝐼𝑀𝐾𝑎𝑡𝑧 (𝑢, 𝑣 ) = ∑
𝑙
𝛽𝑙 . |𝑝𝑎𝑡ℎ𝑢𝑣
|
𝑙=1
(10)
𝑙
Trong đó 𝑝𝑎𝑡ℎ𝑢𝑣
là tập tất cả đường đi với độ dài 𝑙 giữa 𝑢 và 𝑣, 𝛽 là tham số tự
do để điều khiển trọng số của các đường đi.
1.2.2. Tổng quan về các mơ hình học máy trong dự báo liên kết trong mạng
đồng tác giả.
Trong bài toán dự báo liên kết, hầu hết các nghiên cứu đều đưa bài toán dự báo liên
kết về bài tốn phân lớp. Hiện nay, có rất nhiều phương pháp phân lớp. Về mặt lý
thuyết, các thuật tốn này đều có thể áp dụng để giải quyết bài toán dự đoán liên kết.
Bài toán dự đoán liên kết sẽ được giải quyết như một bài toán phân lớp nhị phân, trong
đó khả năng hai nút có thể liên kết với nhau trong tương lai được xác định thuộc về
17
một trong hai lớp, có liên kết: nhãn lớp là 1, và khơng có liên kết: nhãn lớp là -1. Mơ
hình phân lớp được xây dựng dựa trên các các biến đầu vào là các đặc trưng dựa trên
các độ đo liên kết giữa các cặp tác giả. Trong hướng tiếp cận dựa trên học máy, bài
toán dự báo liên kết trong mạng xã hội nói chung và mạng đồng tác giả nói riêng đều
được xem xét dưới dạng bài tốn phân lớp nhị phân. Đã có rất nhiều phương pháp học
có giám sát được áp dụng như Decision tree, Naive Bayes, mạng neural, SVM,
Bagging,... Các mơ hình hồi quy như Logistic Regression cũng được sử dụng.
Phần lớn các nghiên cứu đã sử dụng dữ liệu về các bài báo khoa học đã được trình bày
trong các hội nghị khoa học hay các tạp chí. Al Hansan và các cộng sự [4] đã thực
nghiệm trên hai cơ sở dữ liệu là BIOBASE1 và DBLP2 với phương pháp phân lớp J48
chạy trên mơi trường Weka (sử dụng thuật tốn C4.5). Nhóm tác giả trong [9] đã tiến
hành thực nghiệm với dữ liệu trên DBLP trong các hội nghị khoa học với chủ đề
“Artificial Intelligence” sử dụng phương pháp phân lớp SVM.
Bảng dưới đây tổng hợp một số phương pháp phân lớp được sử dụng trong các bài
toán dự báo liên kết:
Bảng 1 Một số phương pháp phân lớp áp dụng cho dự báo liên kết
Phương pháp phân lớp
STT
Nghiên cứu sử dụng
1
SVM [29]
[4] [21] [5]
2
J48 [22]
[4] [5] [21] [23] [8]
3
Random Forest [24]
[21]
4
AdaBoost [25]
[8]
5
Naïve Bayes [26]
[21] [5]
6
Logistic [27]
[28]
Tuy nhiên, khi so sánh hiệu năng của các phương pháp này trong bài toán dự báo
liên kết, một số phương pháp cho kết quả tốt hơn số khác trong thực nghiệm ở một số
1
2
/>
18
tập dữ liệu nhất định. Nhiều nghiên cứu đã cho thấy phương pháp học máy SVM
(Support vector machine) là phương pháp học giám sát phù hợp nhất cho dữ liệu 2 lớp,
thường cho kết quả tốt hơn các phương pháp khác [4].
1.3. Vấn đề mất cân bằng dữ liệu trong dự báo liên kết mạng đồng tác giả.
Thực tế, mạng đồng tác giả là mạng đặc thù có số lượng ứng viên rất lớn, tỉ lệ hàm mũ
bình phương với số lượng đỉnh của mạng, với số lượng liên kết (cộng tác) thực sự của
các ứng viên rất nhỏ so với số lượng ứng viên trong mạng. Điều đó dẫn đến việc mất
cân bằng về lớp. Tỷ lệ mất cân bằng của tập dữ liệu càng cao thì việc phát hiện đúng
các mẫu của lớp thiểu số càng khó khăn. Sự mất cân bằng cản trở tính hiệu quả của
các phương pháp dự báo liên kết và những nghiên cứu nhằm giải quyết vấn đề này rất
cần thiết trong tương lai. Hơn nữa, thực tế hầu hết các tập dữ liệu mạng đồng tác giả
đều rất thưa gây ra sự khó khăn của dự đốn liên kết. Khi đó nó gây ra khó khăn cho
cả việc đánh giá mơ hình và quan trọng hơn, định lượng mức độ tin cậy của việc đự
đoán bởi dẫn đến các bộ phân lớp thiên vị lớp đa số và bỏ qua lớp thiểu số. Những kết
quả thực nghiệm của vấn đề dự đoán liên kết thường cho kết quả đánh giá rất thấp, bởi
thế khả năng dự đốn chính xác dự đốn liên kết trong mạng đồng tác giả là một yếu
tố quan trọng cần phải giải quyết và khắc phục.
Đối với vấn đề mất cân bằng lớp nhãn trong mạng đồng tác giả, nhiều nghiên cứu
đã áp dụng phương pháp cải tiến bài tốn mất cân bằng lớp nói chung để giải quyết.
Trong bài tốn mất cân bằng dữ liệu nói chung, có 2 hướng tiếp cận nhằm giải quyết
vấn đề này: tiếp cận dựa trên dữ liệu và tiếp cận dựa trên mơ hình học máy:
- Tiếp cận dựa trên dữ liệu: mục tiêu là điều chỉnh tỉ lệ mất cân bằng giữa 2 lớp
nhãn. Các phương pháp này có nhiều hình thức như sinh thêm phần tử cho lớp nhãn ít
hơn (sinh ngẫu nhiên, sinh thêm phần tử nhân tạo,…), loại bỏ bớt các phần tử lớp nhãn
nhiều hơn, hoặc kết hợp cả 2 phương pháp trên.
- Tiếp cận dựa trên mơ hình học máy: hướng tiếp cận dựa trên mơ hình học máy là
điều chỉnh thuật tốn học máy để tăng độ chính xác khi phân lớp dữ liệu mất cân bằng
lớp nhãn. Mục đích của hướng tiếp cận này là bù đắp cho sự mất cân bằng lớp nhãn
trong huấn luyện mà không làm thay đổi sự phân bố lớp. Chẳng hạn, một số nghiên
19
cứu dựa trên mơ hình máy học SVM đã cải tiến mơ hình này bằng các cách khác nhau
như điều chỉnh hằng số phạt C, điều chỉnh ranh giới siêu mặt,…
Tuy nhiên, trong mạng đồng tác giả, để khắc phục vấn đề mất cân bằng lớp nhãn,
hầu hết các nghiên cứu đều tiếp cận dựa trên dữ liệu, tức làm cố gắng tìm cách cân
bằng lại sự phân bố của các lớp nhãn. Mặc dù hướng tiếp cận này đều cho kết quả có
độ chính xác cải thiện hơn so với lấy mẫu truyền thống, tuy nhiên, thực tế trong tương
lai, việc mất cân bằng lớp nhãn có thể tiếp tục xảy ra với các dữ liệu đã bị mất lớp nhãn
trước đó, vì thế, cải thiện được mơ hình huấn luyện có tính chịu lỗi cao trên tập dữ liệu
tự nhiên là một giải pháp bền bỉ và đáng tin cậy hơn cho dự báo trong tương lai.
20