Tải bản đầy đủ (.pdf) (123 trang)

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.69 MB, 123 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG

CẢI TIẾN THUẬT TOÁN PHÂN LỚPCHO DỮ LIỆU KHÔNG CÂN BẰNG

VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI−2024

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS. TRẦN ĐÌNH KHANG

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là cơng trình nghiên

cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu

tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS. Trần Đình

Khang. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực.

Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng

quy định.

Hà Nội, ngày tháng 5 năm 2024

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LỜI CẢM ƠN

Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn vàthử thách. Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thểthiếu sự đồng hành dẫn dắt của những Thầy Cơ kính mến, sự hỗ trợ giúpđỡ của những người đồng nghiệp, người bạn, người thân trong gia đình. Tôithực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vìđã dành cho tôi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua.Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Trần Đình Khang,người Thầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tơi rấtnhiều trong suốt q trình nghiên cứu.

Tơi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tại TrườngCông nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội đã truyềnđạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiến thức, gợi mởnhững ý tưởng nghiên cứu để hồn thành luận án.

Tơi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, cácem sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người.

Cuối cùng, tơi muốn nói lời biết ơn chân thành đến gia đình thân yêu,những người thân và bạn bè đã luôn động viên, ủng hộ tơi trong suốt qtrình nghiên cứu và giúp tơi vượt qua các giai đoạn khó khăn để đạt đượcmột số kết quả bước đầu hôm nay.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

CHƯƠNG 1. TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU. . . 11

1.1. Bài tốn phân lớp với dữ liệu khơng cân bằng. . . . 11

1.2. Một số thuật toán liên quan. . . . 14

1.2.6. Phương pháp Cây quyết định. . . . 20

1.2.7. K-nearest neighbors và Tomek link. . . . 21

1.3. Bài toán dự đoán đồng tác giả. . . . 23

1.3.1. Giới thiệu. . . . 23

1.3.2. Mơ hình hóa bài tốn. . . . 26

1.4. Phương pháp phân lớp cho bài toán dự đoán đồng tác giả. . . . 29

1.5. Phương pháp thực nghiệm và đánh giá. . . . 32

1.5.1. Tập dữ liệu thử nghiệm. . . . 32

1.5.2. Độ đo đánh giá. . . . 36

1.5.3. Môi trường và kịch bản thử nghiệm. . . . 38

1.6. Kết luận Chương 1. . . . 39

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

CHƯƠNG 2. CẢI TIẾN THUẬT TỐN ADABOOST CHO DỮ

LIỆU KHƠNG CÂN BẰNG. . . . 40

2.1. Đặt vấn đề. . . . 40

2.2. Đề xuất thuật tốn Im.AdaBoost. . . . 42

2.2.1. Phân tích thuật toán AdaBoost. . . . 42

2.2.2. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độkhơng cân bằng. . . . 44

2.2.3. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạycảm với nhãn dương . . . . 46

2.2.4. Mô tả thuật toán Im.AdaBoost kết hợp với WSVM. . . . 48

2.3. Thử nghiệm. . . . 50

2.3.1. Thử nghiệm trên các bộ dữ liệu UCI. . . . 52

2.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả. . . . 54

2.4. Kết luận Chương 2. . . . 67

CHƯƠNG 3. ĐỀ XUẤT THUẬT TỐN ĐIỀU CHỈNH THÍCHNGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL. . . . 69

3.1. Đặt vấn đề. . . . 69

3.2. Đề xuất thuật tốn trọng số mờ thích nghi. . . . 71

3.2.1. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM. . . . 71

3.2.2. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm. . . 73

3.2.3. Thuật tốn phân lớp với trọng số mờ thích nghi. . . . 75

3.3. Thử nghiệm. . . . 77

3.3.1. Thử nghiệm trên các bộ dữ liệu UCI. . . . 79

3.3.2. Thử nghiệm cho bài toán dự đoán đồng tác giả. . . . 85

3.3.3. Thử nghiệm so sánh các thuật toán đã đề xuất . . . . 95

3.4. Kết luận Chương 3. . . . 96

KẾT LUẬN . . . . 98

DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ . . . . 100

TÀI LIỆU THAM KHẢO. . . . 101

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

DANH MỤC CÁC TỪ VIẾT TẮTVÀ THUẬT NGỮ

<small>AdaBoost kết hợp với DecisionTree</small>

<small>Độ đo CAR</small>

<small>Class Imbalance Learning</small>

<small>Máy véc-tơ hỗ trợ mờ cho học trên dữ liệukhông cân bằng</small>

<small>Cơ sở dữ liệu khoa học SPRD</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>SVMSupport Vector MachineMáy véc-tơ hỗ trợ</small>

<small>Kỹ thuật tạo mẫu tổng hợp cho lớp thiểusố</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

DANH MỤC HÌNH VẼ

1.1 Các trường hợp của <small>ξ</small> trong Soft-SVM . . . 15

1.2 Minh họa kiến trúc CNN-1D . . . 20

1.3 Minh họa các cặp TLPs . . . 22

1.4 Tổng quan quy trình giải quyết các bài toán trong mạng ASN . . . . 23

1.5 Mơ hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp . . . 32

2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM. . . . 49

2.2 Các giá trị của <small>Gmean</small> trên <small>θ</small> thu được bởi Im.AdaBoost.WSVM . . . 57

2.3 Các giá trị <small>Gmean</small>, <small>SE</small>, và <small>SP</small> được xác định cho dữ liệu Nhóm I . . 60

2.4 Các giá trị <small>Gmean</small>, <small>SE</small>, và <small>SP</small> được xác định cho dữ liệu Nhóm II . . 63

2.5 Các giá trị <small>Gmean</small>, <small>SE</small>, và <small>SP</small> được xác định cho dữ liệu Nhóm III . 66

3.1 Vị trí tương đối của các mẫu giữa hai lớp . . . 72

3.2 Minh họa cho bốn trường hợp "mẫu nhạy cảm" được chỉ ra bởi TLPs74

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

DANH MỤC BẢNG

1.1 Bảng ứng viên đồng tác giả . . . 31

1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017 . . . . 34

1.3 Bảng dữ liệu ứng viên đồng tác giả . . . 35

1.4 Mô tả bộ dữ liệu UCI . . . 36

2.1 Các giá trị tốt nhất của tham số <small>θ</small> cho thuậttoán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM vàIm.AdaBoost.WSVM . . . 53

2.2 Kết quả phân lớp các tập dữ liệu UCI . . . 55

2.3 Mô tả các bộ dữ liệu đồng tác giả . . . 56

2.4 Các giá trị tốt nhất của tham số <small>θ</small> cho thuậttoán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM vàIm.AdaBoost.WSVM . . . 57

2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I . . . 59

2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II . . . 62

2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III. . . 64

3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ . . . 78

3.2 So sánh kết quả phân lớp của FSVM-CIL<sup>cen_2c</sup><sub>lin</sub> và FSVM-CILtrên các bộ dữ liệu UCI. . . 80

3.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụngvào FSVM-CIL trên các bộ dữ liệu UCI . . . 82

3.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho cácbộ dữ liệu chuẩn UCI . . . 84

3.5 Mô tả các bộ dữ liệu đồng tác giả . . . 86

3.6 Kết quả phân lớp của FSVM-CIL và FSVM-CIL<sup>cen_2c</sup><sub>lin</sub> cho các bộdữ liệu đồng tác giả Nhóm I . . . 87

3.7 Kết quả phân lớp của FSVM-CIL và FSVM-CIL<sup>cen_2c</sup><sub>lin</sub> cho các bộdữ liệu đồng tác giả Nhóm II . . . 88

3.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho cácbộ dữ liệu đồng tác giả Nhóm I . . . 90

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

3.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

3.12 Kết quả so sánh trên các tập dữ liệu UCI . . . 95

3.13 Kết quả so sánh trên các tập dữ liệu Nhóm I . . . 95

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

DANH MỤC THUẬT TỐN

1.1 Thuật tốn SVM . . . 14

1.2 Thuật toán AdaBoost . . . 18

1.3 Thuật toán huấn luyện Cây quyết định . . . 20

1.4 Thuật toán KNN . . . 22

2.1 Thuật toán Im.AdaBoost.WSVM . . . 48

3.1 CalFW: Tính tốn trọng số mờ cho tập dữ liệu . . . 73

3.2 AdjFW: Điều chỉnh trọng số mờ dựa trên TLPs . . . 76

3.3 Thuật toán F-AWA . . . 76

3.4 Thuật toán AFW-CIL . . . 77

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

MỞ ĐẦU

1. Lý do chọn đề tài

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN-AcademicSocial Networks) là khái niệm đề cập đến mối quan hệ tương tác về thông tintrong cộng đồng các nhà nghiên cứu khoa học [1][2]. Trong đó, khái niệm mạngđồng tác giả (co-authorship network) dùng để miêu tả mối quan hệ hợp tác cùngnghiên cứu giữa các nhà khoa học. Mối quan hệ này được thể hiện trong việccác nhà nghiên cứu là đồng tác giả trong một hoặc nhiều bài báo khoa học. Cácbài báo khoa học là sự trình bày nội dung các kết quả nghiên cứu và được côngbố trên các tạp chí khoa học. Có nhiều tạp chí khoa học thuộc các chủ đề lĩnhvực nghiên cứu khác nhau. Một bài báo khoa học có thể là kết quả hợp tác củanhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu. Mặt khác, tùytheo năng lực và môi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiềunhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bốcác bài báo khoa học. Không gian quan hệ cộng tác nghiên cứu khoa học có thểxem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, cáccạnh thể hiện mối liên kết giữa hai tác giả. Với những tính chất đó, mạng đồngtác giả khơng chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quanhệ lân cận chung và đường dẫn liên kết, mà cịn chứa đựng các đặc trưng riêngvề chun mơn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v.

Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa vàđóng góp quan trọng cho lĩnh vực khoa học thông tin, khoa học dữ liệu và ứngdụng trong phát triển cộng đồng nghiên cứu khoa học. Liên quan đến mạngđồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i ) các bàitốn truy vấn tổng hợp thơng tin như: tìm kiếm, tra cứu thơng tin học thuật(tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn,...) (ii ) các bàitốn dẫn xuất thơng tin như: phân tích mối quan hệ học thuật, phân tích xuhướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổ chức,đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềm năng vàphát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tác giả,...) [2].Trong thực tế, khả năng mở rộng và phát triển của không gian mạng đồngtác giả phụ thuộc hoàn toàn vào việc số lượng các bài báo được xuất bản trên

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

các tạp chí. Muốn có được các kết quả nghiên cứu tốt, địi hỏi các nhà nghiêncứu phải tìm kiếm được các cộng sự có khả năng hợp tác phù hợp. Việc nàysẽ giúp cho các nhà khoa học thực hiện tốt các dự án nghiên cứu, kích thíchcác ý tưởng sáng tạo hoặc cùng thực hiện các công việc chung khác. Khi phântích về mối quan hệ hợp tác khoa học và tác động khoa học dựa trên việc khảosát dữ liệu các bài báo xuất bản từ 1900 đến 2011, Larivière và các cộng sự đãchỉ ra rằng các nhóm tác giả có số lượng đơng đảo và đa dạng sẽ giúp các cơngtrình khoa học có tác động ảnh hưởng cao hơn [3]. Do vậy, việc nghiên cứu cácphương pháp để xây dựng một hệ thống có thể dự đốn sự cộng tác đồng tácgiả trong mạng đồng tác giả là cần thiết và có nhiều ý nghĩa trong việc hợp tácthúc đẩy các hoạt động nghiên cứu khoa học [1][4].

Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, đượcphát biểu như sau:

Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thờiđiểm hiện tại t, khi đưa thông tin đầu vào là một tác giả <small>vi</small> nào đó, hệ thống sẽphân tích xử lý và đưa ra một danh sách gợi ý các tác giả <small>v</small><sub>j</sub><small>, v</small><sub>k</sub><small>, v</small><sub>h</sub><small>, . . .</small> có tiềmnăng cộng tác hiệu quả với tác giả <small>v</small><sub>i</sub> trong tương lai (tức là sẽ có cộng tác ở mộtthời điểm t<sup>’</sup> nào đó sau t).

Bài tốn dự đốn đồng tác giả có thể xem như là một bài tốn dẫn xuất củabài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụngvào mạng đồng tác giả. Mục tiêu của bài toán này là dự đoán các mối quan hệ(liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tinvề quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại. Trongmạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễnthông qua các cạnh và định lượng thông qua các độ đo liên kết. Các độ đo nàythường được hình thành và xác định dựa trên các thông tin liên kết như dựavào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết.Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉcó trong khơng gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tácgiả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v.

Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, cácphương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm:

<small>•</small> Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viênđồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểmsố, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính tốndựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sửdụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard...; và (ii)

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

sự tương đồng về cấu trúc và liên kết mạng. Một số nghiên cứu nổi bật theohướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (Common Neigh-bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7], RA (Re-source allocation) [8], JC (Jaccard Coefficient), Cosine similarity, SorensenIndex, CAR (CAR-based Common Neighbor Index), Katz Index [9], RWR(Random Walk with Restart), Shortest Path [10], ACT (Average CommuteTime), MF (Matrix Forest Index), SimRank, local random walk index, LDP(local directed path),...

<small>•</small> Xây dựng các mơ hình dựa trên xác suất và khả năng tối đa (Probabilisticand maximum likelihood models): sử dụng một lượng dữ liệu lớn để nghiêncứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo sựphát triển của mạng. Các kỹ thuật này thường áp dụng các ước lượngxác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giákhả năng xảy ra của một mối liên kết chưa tồn tại trong mạng. Mơ hìnhdạng này thường u cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh cáctham số phức tạp và cần nhiều thời gian. Các nghiên cứu điển hình baogồm: Hierarchical structure model (HSM), Stochastic block model (SBM),Parametric model, Non-parametric model, Local probabilistic model, Factorgraph model, Affiliation model.

<small>•</small> Khai phá đồ thị (graph mining): sử dụng các mô hình đồ thị để khám phácác tri thức và thơng tin hữu ích từ lượng dữ liệu lớn. Các phương phápchính bao gồm sử dụng các thuật tốn dựa trên Apriori như AGM, ACGM,path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM.

<small>•</small> Học máy (machine learning): hướng tiếp cận này bao gồm các phương pháphọc có giám sát (phân lớp), học không giám sát (phân cụm), học sâu vàgiảm chiều dữ liệu. Phương pháp học có giám sát xây dựng mơ hình phânlớp dựa trên các bộ dữ liệu huấn luyện. Các bộ dữ liệu này có thuộc tínhdựa trên thơng tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựa trênviệc khảo sát sự mở rộng kết nối mạng theo chiều thời gian. Theo đó, bàitốn dự đoán liên kết được xem như là bài toán phân lớp nhị phân với nhãnlớp <small>+1</small> biểu thị việc có liên kết, nhãn lớp <small>−1</small> biểu thị khơng có liên kết. Cácthuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks,Support Vector Machines, K-Nearest Neighbors, XGboost hay các mơ hìnhdạng hồi quy. Trong khi phương pháp học không giám sát (phân cụm) tậptrung vào việc dự đốn nhãn lớp cho các mẫu khơng được gán nhãn dựatrên tính chất quan hệ giữa các mẫu.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<small>•</small> Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật cáckiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng đượcquan tâm nghiên cứu trong thời gian gần đây. Các kỹ thuật đặc trưng sửdụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP [13],Walklets [14], subgraph embedding, deep dynamic network embedding [15].

Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướngphân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiềuưu điểm như: tích hợp đa dạng thơng tin liên kết, khả năng mở rộng linh hoạttrong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnhvà cải thiện mơ hình thơng qua q trình huấn luyện,...

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phươngpháp học máy, nội dung của luận án tiếp tục mở rộng nghiên cứu, đề xuất cảitiến các thuật tốn phân lớp để đem lại các mơ hình phân lớp có chất lượng tốthơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và là cơ sở cho việcxây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trong mạng xã hội họcthuật.

2. Vấn đề nghiên cứu

Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máyphân lớp cho bài tốn dự đốn cộng tác đồng tác giả có những ưu điểm nổi bậtvà được quan tâm nghiên cứu. Tuy nhiên, để huấn luyện được một mơ hình dựđốn tốt chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương phápxây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toánhuấn luyện.

Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyệnđược nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết vàđánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượngmô hình phân lớp. Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựatrên thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liênkết), thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đềnghiên cứu, đơn vị nghiên cứu, quốc gia,..). Trong nghiên cứu [16] các tác giảđã tổng hợp có hơn 20 phương pháp tính tốn các độ đo liên kết. Nhìn chungcác độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viên đồng tácgiả càng được mô tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chất lượngđưa đến thuận lợi cho việc huấn luyện các mô hình. Tuy nhiên, một số nghiêncứu thử nghiệm cho thấy rằng, một số độ đo liên kết có mức độ ảnh hưởng cao

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

hơn trong việc tạo ra mơ hình dự đốn chất lượng, các độ đo cịn lại có mức độảnh hưởng ít hơn, đóng vai trị là thuộc tính mang ý nghĩa bổ sung. Do vậy khảnăng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệu quảcho việc nâng cao chất lượng mơ hình phân lớp là khá hạn chế.

Chúng ta biết rằng khơng có mơ hình học máy nào tốt cho tất cả các bộ dữliệu trong các bài toán khác nhau. Do vậy đối với từng bài toán cụ thể, cầnnghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựngđược các mơ hình phân lớp/dự đốn có chất lượng tốt.

Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp,sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệuhuấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồngtác giả, gọi tắt là bảng ứng viên. Mô tả sơ lược về dữ liệu bảng ứng viên nhưsau. Khi đưa thông tin đầu vào là một tác giả<small>v</small><sub>i</sub> nào đó, chúng ta xây dựng mộtdanh sách các tác giả <small>v</small><sub>j</sub><small>, v</small><sub>k</sub><small>, v</small><sub>h</sub><small>, . . .</small> có tiềm năng cộng tác hiệu quả với tác giả <small>v</small><sub>i</sub>trong tương lai. Các tác giả <small>vj, v</small><sub>k</sub><small>, v</small><sub>h</sub><small>, . . .</small> gọi là ứng viên đồng tác giả. Theo đó,mỗi cặp<small>(v</small><sub>i</sub><small>, v</small><sub>j</sub><small>)</small> là một cặp ứng viên cộng tác tiềm năng và được xem như là mộtmẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi mộtvéc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng xảy raliên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trongmạng đồng tác giả theo chiều thời gian. Cụ thể hơn, giả sử rằng <small>T</small><sub>2</sub> là khoảngthời gian sau<small>T</small><sub>1</sub> thì các độ đo liên kết được tính từ mạng đồng tác giả trong <small>T</small><sub>1</sub>và nhãn lớp <small>+1/ − 1</small> được xác định bằng cách kiểm tra sự cộng tác thực tế củacác tác giả trong <small>T2</small>. Gán nhãn lớp <small>+1</small> thể hiện rằng trong thực tế cặp tác giảcó viết chung bài báo, nhãn lớp <small>−1</small>thể hiện cặp tác giả khơng có viết chung bàibáo nào. Trong thực tế, mạng đồng tác giả được biểu diễn bằng một đồ thị thưakết nối, do đó, trong khoảng thời gian <small>T</small><sub>2</sub> số lượng cặp tác giả có kết nối (tức làcùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượng cặp ứngviên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều. Điều nàydẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãn lớp, trongđó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả) có nhãn lớp<small>−1</small>và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp<small>+1</small>, gây ra sự không cân bằngvề số lượng mẫu giữa các lớp. Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệu họcmáy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bài toánphân lớp nhị phân.

Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tácgiả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữliệu huấn luyện ở mức rất cao. Điều này gây thách thức cho các thuật toán học

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

máy truyền thống vì các thuật tốn này thường xem xét các mẫu bình đẳngnhau, dẫn đến các mơ hình phân lớp thiên về dự đốn sai các mẫu lớp thiểu số.Gần đây, trong luận án Tiến sĩ của Phạm Minh Chuẩn (2018) trình bày cáchtiếp cận giải quyết bài toán dự đoán đồng tác giả theo phuong pháp phân lớp,trong đó đã đề xuất mở rộng các độ đo liên kết mới để bổ sung thêm các đặctrưng của dữ liệu nhằm nâng cao chất lượng của mô hình phân lớp. Bên cạnhđó luận án cũng đã nêu ra vấn đề dữ liệu rất không cân bằng về nhãn lớp trongbảng ứng viên. Tiếp nối nghiên cứu này, kết hợp với khảo sát các nghiên cứugần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữliệu không cân bằng để áp dụng cho bộ dữ liệu đồng tác giả hầu như rất hạnchế. Điều này mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiếnthuật toán, điều chỉnh các tham số mơ hình để cải thiện chất lượng các mơ hìnhdự đốn trong khung cảnh dữ liệu bảng ứng viên đồng tác giả có sự khơng cânbằng mức cao về số lượng mẫu giữa các lớp.

Đối với bài toán học máy trên dữ liệu hai nhãn lớp nói chung thường khơngcó sự phân bố đồng đều số lượng mẫu giữa các lớp. Tùy thuộc vào từng trườnghợp bài toán cụ thể mức độ chênh lệch số lượng mẫu giữa các lớp là khác nhau,cũng có trường hợp tỷ lệ không cân bằng là rất lớn. Trong một số trường hợp,tỷ lệ giữa các phần tử thuộc lớp thiểu số (nhãn lớp có số mẫu ít), gọi tắt lànhãn dương, ký hiệu<small>+1</small>, so với các phần tử thuộc lớp đa số (nhãn lớp có só mẫunhiều), gọi tắt là nhãn âm, ký hiệu <small>−1</small>, có thể lên đến 1:100 thậm chí 1:100,000.Khi áp dụng các thuật tốn học máy truyền thống cho các tập dữ liệu khôngcân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân loại đúng trong khicác phần tử thuộc lớp thiểu số dễ bị phân lớp sai thành lớp đa số. Việc này dẫnđến kết quả là mơ hình huấn luyện có thể có độ chính xác (accuracy) rất caotrong khi giá trị độ nhạy (sensitivity) lại rất thấp. Nhìn chung các phương phápphân lớp học máy truyền thống đều khó cho kết quả độ nhạy tốt với các tập dữliệu có tỷ lệ chênh lệch số lượng mẫu giữa các lớp ở mức cao. Điều này tạo nênsự thú vị và đem đến động lực nghiên cứu trong việc tìm ra các phương pháp cảitiến nhằm huấn luyện mơ hình phân lớp chất lượng khi áp dụng cho bài toándữ liệu không cân bằng. Theo [19] nhiều phương pháp đã được đề xuất để giảiquyết vấn đề này, trong đó chủ yếu được phân thành hai nhóm cơ bản: tiếp cậnở mức dữ liệu và tiếp cận ở mức thuật tốn.

<small>•</small> Các phương pháp tiếp cận ở mức dữ liệu nhằm mục đích thay đổi sự phânbố số lượng mẫu trong bộ dữ liệu (resampling) bằng cách sinh thêm cácphần tử cho lớp thiểu số (over sampling), giảm bớt các phần tử thuộc lớpđa số (under sampling) hoặc kết hợp cả hai phương pháp để bộ dữ liệu

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

trở nên cân bằng hơn, sau đó sử dụng các thuật tốn học máy mạnh đểtiến hành huấn luyện mơ hình phân lớp. Một số kỹ thuật làm sạch dữ liệu(data cleaning techniques) như Tomek links cũng được sử dụng để loại bỏsự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thựchiện các thuật tốn sinh thêm các mẫu tổng hợp.

<small>•</small> Các phương pháp tiếp cận ở mức thuật toán hướng tới việc cải tiến cácthuật tốn phân lớp mạnh truyền thống để có được hiệu quả cao trên cáctập dữ liệu không cân bằng. Các phương pháp phổ biến gồm: học mơ hìnhdựa trên nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các thamsố thưởng phạt khác nhau gắn với các mẫu nhãn lớp khác nhau. Các giảithuật học máy nổi bật được quan tâm nghiên cứu là: sử dụng Boosting, sửdụng Cây quyết định nhạy cảm chi phí (Cost-Sensitive Decision Trees), sửdụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật học sâu,...<small>•</small> Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật cân bằng hóa phân

bố số lượng mẫu trong bộ dữ liệu và các phương pháp điều chỉnh trọng sốchi phí để nâng cao chất lượng mơ hình huấn luyện, ví dụ: SMOTE kết hợpDifferent Costs (SDCs), SVMs với Under/Over Sampling,...

Trong các phương pháp tiếp cận mức thuật toán, các nghiên cứu cải tiếnAdaBoost nhận được nhiều sự quan tâm chú ý. AdaBoost là thuật toán học kếthợp tuần tự và thích nghi sửa lỗi qua mỗi lần lặp do Freund [20] đề xuất. Thuậttoán kết hợp sử dụng nhiều bộ phân lớp thành viên để tạo thành một bộ phânlớp tổng hợp giúp xem xét kỹ hơn các đặc tính của bộ dữ liệu. Do đó thuật tốnAdaBoost được chúng tôi lựa chọn để thực hiện nghiên cứu cải tiến.

Cũng cần lưu ý rằng, vấn đề dữ liệu không cân bằng là bài toán xảy ra rấtnhiều trong thực tế như là chẩn đoán bệnh trong y tế, dự báo những sự kiệnthiên tai hiếm gặp, phát hiện xâm nhập mạng,... nên các phương pháp thuậttoán hiệu quả trong bài toán dự đoán liên kết trong mạng đồng tác giả cũng cónhiều tiềm năng mở rộng cho các bài tốn có dữ liệu khơng cân bằng trong cáclĩnh vực khác.

Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mơ hình phân lớp là cần xử lý tốt việcphân loại chính xác trong các vùng khơng gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân loại của hailớp. Với những dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờdựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả. Nhiềunghiên cứu đã đề xuất các phương pháp xử lý mờ để giải quyết vấn đề này.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

3. Đối tượng và phạm vi nghiên cứu

Trên cơ sở phân tích bối cảnh nghiên cứu và những ưu điểm hạn chế của cácnghiên cứu đã khảo sát, nội dung luận án này tập trung nghiên cứu tiếp cận giảiquyết bài toán dự đoán đồng tác giả theo phương pháp phân lớp. Trong đó trọngtâm nghiên cứu là cải tiến các thuật toán học máy trên dữ liệu không cân bằnghai nhãn lớp và áp dụng cho bài toán dự đoán đồng tác giả. Cụ thể hơn, luận ánnghiên cứu cải tiến các thuật toán mạnh mẽ và mềm dẻo như là AdaBoost [20],SVM [21], Weighted SVM [22], các thuật toán xử lý mờ như Fuzzy SVM [23],Fuzzy SVM-CIL [24]. Luận án tập trung nghiên cứu đề xuất cải tiến các phươngpháp phân lớp nhị phân để ứng dụng hiệu quả cho bài toán dự đoán đồng tácgiả. Trong đó trọng tâm là giải quyết vấn đề dữ liệu không cân bằng giữa cáclớp.

Về phạm vi nghiên cứu, luận án tập trung nghiên cứu bài toán dự đoán đồngtác giả, đề xuất thử nghiệm các phương pháp cải tiến thuật toán nhằm nângcao chất lượng phân lớp trên các bộ dữ liệu có sự khơng cân bằng về số lượngmẫu giữa các lớp nói chung và áp dụng cho dữ liệu bảng ứng viên được tạo ratừ mạng đồng tác giả. Dữ liệu bảng ứng viên đồng tác giả sử dụng trong cácthử nghiệm kế thừa từ nguồn thông tin tác giả bài báo tự thu thập trước đây.Các thuộc tính của mẫu dữ liệu ứng viên đồng tác giả được xây dựng đặc trưngtừ một số độ đo liên kết cơ bản. Các nội dung liên quan đến vấn đề về mở rộngđộ đo liên kết, phương pháp tiếp cận dự đoán đồng tác giả khác... cũng được đềcập nhưng không phải là phạm vi nghiên cứu chính của luận án.

4. Mục tiêu nghiên cứu

Luận án này hướng tới cải tiến các phương pháp học máy để giải quyết tốthơn vấn đề học trên dữ liệu khơng cân bằng trong bài tốn dự đốn đồng tácgiả. Luận án tập trung vào hai vấn đề nghiên cứu chính sau:

<small>•</small> Thứ nhất, nghiên cứu cải tiến phương pháp học kết hợp AdaBoost cho dữliệu không cân bằng ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đềnghiên cứu này hướng đến việc cải tiến phương pháp học kết hợp mạnh mẽnhư AdaBoost [20] để phù hợp cho dữ liệu không cân bằng thông qua việcthiết kế các tham số điều chỉnh thích nghi với mức độ khơng cân bằng củadữ liệu.

<small>•</small> Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệukhơng cân bằng và ứng dụng trong bài tốn dự đoán đồng tác giả? Vấn đề

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

nghiên cứu này hướng tới việc áp dụng điều chỉnh thích nghi các đại lượngtrọng số mờ kết hợp với thuật tốn học dựa trên chi phí, giúp huấn luyệncác mơ hình phân lớp hiệu quả hơn khi dữ liệu có sự khơng cân bằng caovề nhãn lớp. Ngồi ra, luận án cũng nghiên cứu xử lý các trường hợp dữliệu trong vùng nhạy cảm ảnh hưởng tới chất lượng mô hình phân lớp nhưmẫu dữ liệu gần đường biên phân lớp hoặc là mẫu dữ liệu là nhiễu.

<small>•</small> Luận án đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bàitốn dự đốn cộng tác đồng tác giả theo dạng học trên dữ liệu không cânbằng hai lớp. Thuật tốn đề xuất có hai cải tiến chính: (1) xây dựng mộthàm tính trọng số mờ cho các mẫu dữ liệu giàu ngữ nghĩa hơn dựa trênFuzzy SVM-CIL khi xem xét khoảng cách từ mỗi mẫu đến tâm của cả hailớp; (2) phương pháp điều chỉnh thích nghi các giá trị trọng số mờ của mẫunằm trong không gian phân lớp nhạy cảm như trên đường biên hoặc mẫulà nhiễu dựa trên KNN, Tomek link và SVM. Các kết quả nghiên cứu nàyđã được công bố các bài báo số [CT.2][CT.4][CT.5].

Các đóng góp của luận án trọng tâm hướng đến áp dụng cho bài toán dự đoánđồng tác giả trong mạng xã hội học thuật. Tuy nhiên các thuật tốn cải tiếnnày cũng có thể mở rộng áp dụng cho các bài toán học máy với dữ liệu khôngcân bằng mức cao trong các lĩnh vực khác.

6. Bố cục của luận án

Với các đóng góp nêu trên, luận án được trình bày trong 3 chương chính:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<small>•</small> Chương 1: Nội dung Chương 1 trình bày tổng quan về vấn đề nghiên cứu,bao gồm: bài toán dự đoán đồng tác giả và các phương pháp tiếp cận; cáckiến thức nền tảng liên quan như vấn đề học trên dữ liệu khơng cân bằng;các thuật tốn nghiên cứu cải tiến; các bộ dữ liệu thử nghiệm; môi trườngthử nghiệm và phương pháp đánh giá hiệu quả thuật tốn.

<small>•</small> Chương 2: Nội dung Chương 2 trả lời cho câu hỏi nghiên cứu: Nghiên cứucải tiến phương pháp học kết hợp AdaBoost cho dữ liệu không cân bằng vàứng dụng trong dự đoán đồng tác giả? Chương này đề xuất một số phươngpháp cải tiến thuật toán AdaBoost cho bài tốn dữ liệu khơng cân bằng,ứng dụng cho dự đốn cộng tác đồng tác giả.

<small>•</small> Chương 3: Nội dung Chương 3 trả lời câu hỏi nghiên cứu: Nghiên cứu cảitiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu khơng cân bằng và ứngdụng trong bài tốn dự đoán đồng tác giả? Chương này đề xuất một thuậttoán điều chỉnh trọng số mờ thích nghi nhằm giải quyết vấn đề dữ liệukhông cân bằng và xử lý vấn đề phân lớp cho các mẫu ở vùng nhạy cảm đểáp dụng cho bài toán dự đoán cộng tác đồng tác giả.

Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng vàchi tiết nội dung giải pháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quảcác thách thức nêu ra.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Chương 1

TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

Chương này của luận án giới thiệu các kiến thức cơ bản về bài tốn phân lớpnhị phân có tính chất dữ liệu không cân bằng và các vấn đề liên quan khi ứngdụng vào bài toán dự đoán đồng tác giả được mơ hình hóa theo dạng phân lớp.Một số phương pháp tiếp cận giải quyết bài toán và thuật toán phân lớp nhịphân nổi bật cũng được phân tích để đưa ra các định hướng nghiên cứu cải tiếncác thuật tốn.

1.1. Bài tốn phân lớp với dữ liệu khơng cân bằng

Dữ liệu không cân bằng là khái niệm đề cập đến các bộ dữ liệu có đặc điểmphân bố số lượng mẫu trong mỗi lớp có sự chênh lệch cao. Bài tốn phân lớptrên dữ liệu khơng cân bằng là một vấn đề thách thức trong học máy. Để giảiquyết bài tốn phân lớp trên dữ liệu khơng cân bằng nói chung, các nghiên cứutập trung vào hai hướng giải quyết chính đó là: sửa đổi tập dữ liệu để giảm mứcđộ không cân bằng mẫu giữa các lớp và cải tiến thuật tốn thơng qua việc điềuchỉnh các tham số.

Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào bộdữ liệu gốc để tạo ra bộ dữ liệu huấn luyện có tỷ lệ phân bố mẫu cân bằng hơn,từ đó làm cơ sở cho các thuật toán phân lớp truyền thống hoạt động hiệu quảhơn. Có thể thay đổi sự phân bố số lượng mẫu trong bộ dữ liệu (ReSampling)bằng cách sinh thêm các phần tử cho lớp thiểu số (Over Sampling) như Ran-dom Oversampling, Synthetic Minority Oversampling Technique (SMOTE) [25],Border-line-SMOTE [26], Adaptive Synthetic Sampling (ADA-SYN)[27] over-sampling dựa trên cụm (Cluster Based Sampling-CBO) [28], SMOTEBoost [29],OSD [30]... hay giảm bớt các phần tử thuộc lớp đa số (Under Sampling) nhưEasyEnsemble [31], BalanceCascade [32], KNN-NearMiss [33],... để bộ dữ liệutrở nên cân bằng hơn, từ đó sử dụng các thuật tốn học máy mạnh để phân lớp.Một số kỹ thuật làm sạch dữ liệu (data cleaning techniques) như Tomek linksđược dùng để loại bỏ sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệusau khi thực hiện các thuật toán tạo các mẫu tổng hợp (Over Sampling) [34][35].

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Các phương pháp tiếp cận ở mức thuật toán hướng tới việc điều chỉnh cácthuật toán phân lớp truyền thống để vẫn đạt được hiệu quả cao trên các tậpdữ liệu không cân bằng. Các phương pháp phổ biến như học dựa trên nhạycảm chi phí [36][37][38], điều chỉnh xác suất ước lượng [30][39], sử dụng cáchằng số phạt khác nhau cho các nhãn lớp khác nhau [40][41]. Một số thuậttốn được nghiên cứu cải tiến điển hình như: Boosting [20], AdaC1, AdaC2,AdaC3 [42][43][44][45][46], sử dụng Cây quyết định (Cost-Sensitive DecisionTrees) [38][47], sử dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹthuật học sâu,... Một số nghiên cứu khác sử dụng kết hợp cải tiến thuật toán vàsửa đổi mẫu như [19][48][49][50][51].

Việc sử dụng các phương pháp tiếp cận ở mức dữ liệu trong một số trườnghợp nào đó có thể dẫn đến mất đi những thơng tin quan trọng của bộ dữ liệuhoặc đưa nhiễu vào tập dữ liệu. Do đó, luận án tiếp cận giải quyết bài tốn códữ liệu khơng cân bằng ở mức thuật toán, tức là nghiên cứu cải tiến các thuậttoán truyền thống để nó đạt được hiệu quả phân lớp tốt trên dữ liệu khơng cânbằng. Trong đó, luận án lựa chọn các giải thuật mạnh như học kết hợp boostinghay SVM có trọng số để nghiên cứu cải tiến, giải quyết vấn đề phân lớp trên dữliệu không cân bằng.

Phân tích một số phương pháp tiếp cận ở mức thuật tốn để giải quyết khơngcân bằng dữ liệu, các phương pháp dựa trên cải tiến dựa trên AdaBoost [42],cải tiến dựa trên SVMs [21][52] và các phương pháp học sâu dựa trên CNN [53]thu hút rất nhiều sự quan tâm bởi tính tùy biến mở rộng của các thuật tốncho các bài tốn có dữ liệu có tính chất khác nhau là rất hiệu quả.

Thuật toán học kết hợp AdaBoost do Freund [20] đề xuất dựa trên quan điểmlà: khi sử dụng một bộ phân lớp đơn lẻ có thể sẽ không xem xét một cách đầyđủ các đặc điểm của tập dữ liệu, do đó việc kết hợp sử dụng nhiều bộ phân lớpthành viên khác nhau để tạo thành một bộ phân lớp tổng hợp có thể sẽ xemxét kỹ hơn các đặc tính của dữ liệu và đem lại hiệu quả phân lớp tốt hơn. Đểsử dụng kết hợp các bộ phân lớp con, thường có hai cách kết hợp là tuần tự(boosting) hoặc song song (bagging). AdaBoost là kiểu kết hợp tuần tự và sửalỗi phân lớp thích nghi qua mỗi lần lặp. Về phương pháp học kết hợp dạng songsong, nổi bật nhất là thuật toán rừng ngẫu nhiên (Random forest). Thuật toánnày chia nhỏ bộ dữ liệu gốc thành các tập dữ liệu con bằng kỹ thuật bootstrapvà sử dụng các bộ phân lớp thành viên cho các tập dữ liệu con, sau đó kết quảphân lớp chung cuối cùng sẽ được tổng hợp từ các bộ phân lớp thành viên. Tuy

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

nhiên trong trường hợp dữ liệu không cân bằng, đặc biệt là dữ liệu không cânbằng mức cao, số lượng mẫu nhãn dương<small>+1</small> là rất ít. Vì vậy việc lấy mẫu ngẫunhiên để tạo ra các bộ dữ liệu con khó đảm bảo đầy đủ tính chất của dữ liệu.Do đó, thuật tốn học kết hợp AdaBoost được luận án lựa chọn để thực hiệnnghiên cứu cải tiến.

SVM [21] là một thuật toán phân lớp mạnh trong học máy. SVM đã đượcnghiên cứu rộng rãi và được chứng minh là một phương pháp phân lớp mạnhtrong các kết quả thực nghiệm. Giải thuật này đặc biệt hiệu quả đối với các dữliệu phân biệt tuyến tính. Ngồi ra, thuật tốn cũng khá mềm dẻo và có khảnăng cải tiến mở rộng để đạt hiệu quả cao trên những bộ dữ liệu có đặc tínhkhác nhau. Đối với bài tốn phân lớp dữ liệu khơng cân bằng, đã có rất nhiềucác nghiên cứu cải tiến SVM như là Weighted-SVM [22], Kernel-SVM, đặc biệtlà Fuzzy SVM [23], Fuzzy SVM-CIL [24].

Một điều cần lưu ý nữa là hai thuật toán AdaBoost và SVM đều sử dụnghàm xét dấu <small>(−/+)</small> để đưa ra kết quả phân lớp nên nó trở thành lựa chọn hợplý và phù hợp để cải tiến cho bài tốn phân lớp nhị phân có dữ liệu khơng cânbằng mà luận án hướng tới.

Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mơ hình phân lớp là cần xử lý tốt việcphân lớp chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân lớp của hailớp. Để xác định các vùng không gian chứa các mẫu nhạy cảm này, chúng ta cầncác phương pháp đo lường khoảng cách hoặc xem xét phân bố các mẫu. Do vậychúng ta cần lưu ý đến việc sử dụng các thuật toán như K-nearest neighbors(KNN) và Tomek link để định vị các mẫu trong không gian phân bố. Mặt khácSVM là thuật tốn phân lớp dạng tuyến tính dựa trên lề và có các tham số điềuchỉnh để mở rộng hoặc co hẹp không gian biên lề phân lớp. Khi sử dụng SVMlàm bộ phân lớp cơ sở, chúng ta hoàn toàn có thể xác định được vùng khơnggian nhạy cảm là biên lề phân lớp. Ngồi ra, với dữ liệu khơng đầy đủ, khôngchắc chắn, phương pháp xử lý mờ dựa trên lý thuyết tập mờ của Zadeh [54] đưara vào năm 1965 tỏ ra hiệu quả. Nhiều nghiên cứu đã đề xuất các phương phápxử lý mờ để giải quyết vấn đề này. Vì vậy việc nghiên cứu vận dụng và cải tiếncác thuật tốn như AdaBoost, SVM có trọng số, KNN, Tomek link [55] và cácgải thuật phân lớp mờ Fuzzy SVM, Fuzzy SVM-CIL cho dữ liệu không cân bằngmang đến nhiều triển vọng.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Dựa vào việc phân tích trên, trong phần tiếp theo, luận án sẽ trình bày tómlược các thuật tốn liên quan làm cơ sở cho các nghiên cứu cải tiến nhằm hướngđến giải quyết bài toán phân lớp nhị phân trên dữ liệu khơng cân bằng nói chungvà ứng dụng trong bài tốn dự đốn cộng tác đồng tác giả nói riêng.

1.2. Một số thuật toán liên quan1.2.1. Thuật toán SVM

Thuật toán 1.1: Thuật toán SVM

Input: Tập dữ liệu <small>X = {(x</small><sub>1</sub><small>, y</small><sub>1</sub><small>), . . . , (x</small><sub>N</sub><small>, y</small><sub>N</sub><small>)}</small>với <small>y</small><sub>i</sub><small>= {−1, +1}</small>; <small>C</small>: thamsố điều chỉnh kiểm soát sự đồng nhất của siêu phẳng phân lớp.Output: Hệ số <small>w</small>: véc-tơ trọng số của các thuộc tính, <small>b</small>: thuộc tính độ

lệch để xác định siêu phẳng phân lớp.

<small>1</small> Khởi tạo <small>w</small> và <small>b</small>

<small>2</small> for Lặp đến khi hội tụ do

<small>3</small> for Duyệt từng mẫu huấn luyện <small>x</small><sub>i</sub> do

trong đó<small>ω</small> là ma trận tham số, <small>b</small> là hệ số. Các bước huấn luyện của SVM đượctrình bày cụ thể ở Thuật tốn 1.1.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

1.2.2. Thuật toán Weighted-SVM

Đối với vấn đề học máy trên dữ liệu không cân bằng hai nhãn lớp, đã có nhiềucải tiến của thuật tốn SVM được đề xuất như [24][56][57][58][59]. Một cải tiếnnổi bật, điển hình trong số đó là thuật tốn Weighted-SVM (WSVM) [22].

Weighted-SVM gán các trọng số cho các mẫu huấn luyện để biểu diễn mức độảnh hưởng của các mẫu trong việc huấn luyện mơ hình phân lớp. Trong WSVM,hàm mục tiêu được biểu diễn như sau:

Hàm mục tiêu mới ở Công thức (1.2) có hai mục đích, thứ nhất là tối đa hóabiên lề phân lớp, thứ hai là giảm thiểu số lượng mẫu bị phân lớp sai.

Hình 1.1: Các trường hợp của <small>ξ</small> trong Soft-SVM

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

1.2.3. Fuzzy SVM-CIL

Batuwita và các cộng sự đã đề xuất một thuật toán Fuzzy SVM-CIL trongnghiên cứu [24] dựa trên thuật toán Fuzzy SVM được công bố trong nghiêncứu [23] để cải thiện hiệu quả phân lớp cho các tập dữ liệu không cân bằng.Fuzzy SVM-CIL gán trọng số cho các mẫu dựa trên các hàm thuộc mờ theocách ưu tiên các giá trị trọng số cao hơn cho các mẫu thiểu số và các giá trịtrọng số thấp hơn cho các mẫu đa số. Sử dụng một bộ phân lớp cơ sở ban đầu,các trọng số của mẫu được tính tốn bằng các hàm thuộc mờ <small>f (xi)</small>.

Hàm thuộc mờ <small>f (x</small><sub>i</sub><small>)</small> được xác định dựa trên vị trí của mẫu <small>x</small><sub>i</sub> trong khơnggian đặc trưng <small>R</small><sup>n</sup>. Theo đó, các mẫu có khoảng cách gần hơn: tới "trung tâmlớp" thuộc về, tới siêu phẳng thực, tới siêu phẳng ước lượng thì được xem làcó ảnh hưởng cao hơn tới việc huấn luyện mơ hình khi so với các mẫu cịn lại.Nghĩa là chúng có giá trị trọng số mờ cao hơn các mẫu còn lại. Một mẫu ở xa"trung tâm lớp" hoặc các siêu phẳng của nó được coi là ít quan trọng hơn và dođó nó được gán bởi một giá trị trọng số mờ nhỏ hơn. Khái niệm "trung tâm lớp"ở đây là một mẫu đại diện cho các mẫu được phân loại về cùng một lớp bởi mộtbộ phân lớp cơ sở SVM. Giá trị véc-tơ đặc trưng của mẫu "trung tâm lớp" đượctính bằng trung bình cộng các giá trị thuộc tính của các mẫu được phân loại vềlớp đó. Trong FSVM-CIL, các hàm thuộc mờ được thiết kế để xác định các giátrị trọng số mờ nhằm đáp ứng các mục tiêu chính: giảm ảnh hưởng của sự khôngcân bằng giữa các lớp dữ liệu; phản ánh tầm quan trọng của các mẫu trong mộtmơ hình đào tạo; và giảm ảnh hưởng của các ngoại lệ và mẫu gây nhiễu. FSVM-CIL gán các giá trị trọng số mờ cao hơn, được biểu thị bằng<small>m</small><sup>+</sup><sub>i</sub> <small>(i = 1, 2, · · · , N )</small>,cho các mẫu thiểu số<small>x</small><sup>+</sup><sub>i</sub> (được gắn nhãn +1, được gọi là mẫu dương) và các giátrị trọng số mờ thấp hơn, được biểu thị bằng <small>m</small><sup>−</sup><sub>i</sub> <small>(i = 1, 2, · · · , N )</small>, cho các mẫuđa số <small>x</small><sup>−</sup><sub>i</sub> (được gắn nhãn -1, còn gọi là mẫu âm). Các giá trị trọng số mờ đượctính bằng:

<small>m</small><sup>+</sup><sub>i</sub> <small>= f x</small><sup>+</sup><sub>i</sub> <sup></sup><small>× r</small><sup>+</sup><small>,m</small><sup>−</sup><sub>i</sub> <small>= f x</small><sup>−</sup><sub>i</sub> <sup></sup><small>× r</small><sup>−</sup><small>,</small>

trong đó <small>f (xi) ∈ (0, 1)</small> là một hàm thuộc mờ phản ánh tầm quan trọng của <small>xi</small>

trong lớp của chính nó, trong khi <small>r</small><sup>+</sup> và <small>r</small><sup>−</sup> biểu thị mức độ ảnh hưởng của tỷ lệkhông cân bằng trong tập dữ liệu. FSVM-CIL chỉ định <small>r</small><sup>+</sup> <small>= 1</small> và <small>r</small><sup>−</sup> <small>= r</small>, trongđó <small>r</small> là tỷ lệ không cân bằng giữa tầng lớp thiểu số và tầng lớp đa số và do đó

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<small>(0, 1)</small>, trong khi các mẫu âm tính có giá trị trong khoảng <small>(0, r)</small>.

Trong FSVM-CIL, <small>f (x</small><sub>i</sub><small>)</small> sử dụng ba thước đo khoảng cách từ mẫu <small>x</small><sub>i</sub>: đếntrung tâm lớp của nó <small>(d</small><sup>cen</sup><sub>i</sub> <small>)</small>; đến siêu phẳng ước tính <small>(d</small><sup>shp</sup><sub>i</sub> <small>)</small> được xác định làtrung tâm của toàn bộ tập dữ liệu; đến siêu phẳng thực tế <small>(d</small><sup>hyp</sup><sub>i</sub> <small>)</small> được hìnhthành bởi mơ hình SVM cơ bản. Đối với mỗi phương pháp dựa trên khoảngcách, FSVM-CIL xây dựng 2 hàm thuộc mờ, một là hàm tuyến tính mờ <small>(lin)</small>vàhàm kia là hàm mũ mờ<small>(exp)</small>. Kết quả là 6 hàm thuộc mờ của mẫu<small>x</small><sub>i</sub> được hìnhthành như sau:

<small>+)</small> Dựa trên khoảng cách đến trung tâm lớp riêng:<small>f</small><sub>lin</sub><sup>cen</sup><small>(xi) = 1 −</small> <sup>d</sup>

<small>+ ∆</small>

<small>f</small><sub>exp</sub><sup>shp</sup><small>(x</small><sub>i</sub><small>) =</small> <sup>2</sup><small>1 + exp</small>

<small>+)</small> Dựa trên khoảng cách đến siêu phẳng thực tế:

<small>f</small><sub>lin</sub><sup>hyp</sup><small>(xi) = 1 −</small> <sup>d</sup>

<small>+ ∆</small>

<small>f</small><sub>exp</sub><sup>hyp</sup><small>(xi) =</small> <sup>2</sup><small>1 + exp</small>

trong đó<small>∆</small>là một giá trị dương nhỏ để tránh trường hợp các đại lượng<small>f</small><sub>lin</sub><sup>cen</sup><small>(x</small><sub>i</sub><small>) =0</small>, <small>f</small><sub>lin</sub><sup>shp</sup><small>(x</small><sub>i</sub><small>) = 0</small>, <small>f</small><sub>lin</sub><sup>hyp</sup><small>(x</small><sub>i</sub><small>) = 0</small> và <small>β ∈ [0, 1]</small> để kiểm soát độ dốc của các hàm số mũ<small>f</small><sub>exp</sub><sup>cen</sup><small>(x</small><sub>i</sub><small>)</small>, <small>f</small><sub>exp</sub><sup>shp</sup><small>(x</small><sub>i</sub><small>)</small> và <small>f</small><sub>exp</sub><sup>hyp</sup><small>(x</small><sub>i</sub><small>)</small>.

1.2.4. Thuật toán AdaBoost

Trong vấn đề phân lớp cho tập dữ liệu không cân bằng hai lớp, sử dụng mộtthuật tốn đơn lẻ có thể khơng xem xét đầy đủ các đặc điểm của tập dữ liệu.Do đó, nhiều nghiên cứu kết hợp các thuật toán phân lớp, được gọi là bộ phânlớp thành viên, để tạo thành một bộ phân lớp mạnh hơn [40][42]. Thuật toán

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

AdaBoost do Freund [20] đề xuất là một bộ phân lớp mạnh như vậy. Với một bộdữ liệu học máy cụ thể, ý tưởng chính của AdaBoost là gán các trọng số lỗi chomỗi mẫu và sử dụng các vịng lặp để thích nghi huấn luyện. Trong mỗi lần lặp,thực hiện điều chỉnh trọng số lỗi trên mỗi mẫu dữ liệu và đánh giá lại kết quảphân lớp của các bộ phân lớp thành viên. Quá trình này cho phép giải thuậtsửa lỗi phân loại sai trên các mẫu ở vịng lặp trước đó. Kết quả của q trìnhhuấn luyện là bộ phân lớp được tổng hợp từ các bộ phân lớp thành viên. Chitiết các bước của thuật tốn AdaBoost được trình bày trong Thuật tốn 1.2.

Thuật tốn 1.2: Thuật toán AdaBoost

Input: Tập dữ liệu <small>X = {(x</small><sub>1</sub><small>, y</small><sub>1</sub><small>), . . . , (x</small><sub>N</sub><small>, y</small><sub>N</sub><small>)}</small> với <small>y</small><sub>i</sub><small>= {−1, +1}</small>; <small>M</small>: sốbộ phân lớp thành viên; <small>h</small><sub>1</sub>: bộ phân lớp thành viên.

Output: <small>H(x)</small>: bộ phân lớp tập hợp.

<small>1</small> Khởi tạo tập trọng số lỗi <small>D</small><sup>1</sup><small>= {ω</small><sup>1</sup><sub>i</sub> <small>=</small> <sub>N</sub><sup>1</sup><small>}</small> trên mỗi mẫu dữ liệu<small>(x</small><sub>i</sub><small>, y</small><sub>i</sub><small>) ∈ X</small> (<small>i = 1, · · · , N</small>);

<small>2</small> for t = 1 to M do

<small>3</small> Đặt <small>ht←</small> Training(<small>X</small>) với tập trọng số lỗi <small>D</small><sup>t</sup>;

<small>4</small> Tính tổng lỗi của <small>h</small><sub>t</sub>: <small>ε</small><sub>t</sub> <small>=</small><sup>P</sup><sup>N</sup><sub>i=1</sub><small>ω</small><sup>t</sup><sub>i</sub><small>, y</small><sub>i</sub><small≯= h</small><sub>t</sub><small>(x</small><sub>i</sub><small>)</small>;

<small>5</small> Tính trọng số độ tin cậy của <small>h</small><sub>t</sub>: <small>α</small><sub>t</sub> <small>=</small> <sup>1</sup><sub>2</sub><small>ln</small><sup>1−ε</sup><small>t</small>

Nhãn phân lớp của một mẫu <small>x</small><sub>i</sub> được xác định dựa vào của hàm xét dấu<small>H(x</small><sub>i</sub><small>) = sign(</small>P<small>M</small>

<small>t=1α</small><sub>t</sub><small>h</small><sub>t</sub><small>(x</small><sub>i</sub><small>))</small>. Cụ thể: gán nhãn <small>+1</small> khi <small>H(x</small><sub>i</sub><small>) > 0</small> và nhãn <small>−1</small>khi <small>H(x</small><sub>i</sub><small>) < 0</small>. Nếu tổng lỗi <small>ε</small><sub>t</sub> trên tập dữ liệu bằng <small>0.5</small>, thì <small>α</small><sub>t</sub> <small>= 0</small>, nghĩa là bộphân lớp <small>h</small><sub>t</sub><small>(x)</small> khơng đóng góp vào quyết định phân lớp của bộ phân lớp tổng

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

hợp <small>H(x)</small>.

1.2.5. Thuật toán CNN

Mạng nơ-ron nhân chập (Convolutional Neural Networks – CNN) là một mạngđiển hình cho mơ hình học sâu lấy cảm hứng từ cấu trúc và chức năng của thịgiác con người. CNN là một mạng nơ-ron truyền thẳng có nhiều tầng, trong đótầng nhân chập (Convolutional Layer) và tầng gộp (Pooling Layer) được sắp xếphoán đổi lẫn nhau, tầng cuối cùng là một tầng kết nối đầy đủ (Dense Layer).Đặc trưng nổi bật của CNN là trong quá trình tích chập nó sử dụng nhiều bộlọc đặc trưng trượt trên các ma trận điểm dữ liệu để trích xuất các đặc trưngtương ứng của dữ liệu. Do đó, sau q trình tích chập sẽ thu được ma trận cácgiá trị đặc trưng và cần tới tầng gộp để giảm kích thước của đầu ra từ tầng tíchchập, giữ lại các đặc trưng quan trọng và giảm độ phức tạp của mơ hình. Saucác tầng tích chập và gộp, thông tin được chuyển đến các tầng kết nối đầy đủđể thực hiện phân loại hoặc dự báo. Các nơ-ron trong lớp này kết nối với tấtcả các nơ-ron trong lớp trước đó. Tầng tích chập có khả năng học các mẫu cụcbộ (local patterns) trong khi tầng kết nối đầy đủ có thể học các mẫu tổng thể(global patterns). Mơ hình phân lớp sử dụng kiến trúc CNN có thể được coi làsự kết hợp của hai giai đoạn: trích xuất đặc trưng và phân loại. Các tầng tíchchập và tầng gộp thực hiện chức năng trích xuất các đặc trưng của dữ liệu. Sauđó, các tầng được kết nối đầy đủ hoạt động như một bộ phân loại trên các đặctrưng này và chỉ định xác suất cho hình ảnh đầu vào thuộc nhãn nào. Trongkhi 2D-CNN thường được sử dụng đặc hiệu cho các ứng dụng trong lĩnh vựcthị giác máy tính thì 1D-CNN được thiết kế đặc biệt để hoạt động với dữ liệumột chiều. Có thể kể đến một số lợi ích khi sử dụng 1D-CNN so với 2D-CNNnhư độ phức tạp tính tốn được giảm xuống đáng kể, kiến trúc mạng nông dễhiểu và dễ triển khai hơn và việc huấn luyện 1D-CNN sử dụng ít tài nguntính tốn hơn so với 2D-CNN [60]. Đã có nhiều nghiên cứu chỉ ra việc áp dụng1D-CNN trong việc giải quyết các bài tốn thực tế có dữ liêu một chiều, điểnhình như bài tốn phát hiện tấn công mạng [60], phát hiện lỗi trong các thiếtbị công nghiệp [61], dự báo mức nicotin trong việc xây dựng các ứng dụng caithuốc lá [62], phân loại hỗn hợp cá hồi và cá tuyết [63]. Kiến trúc của một mạngCNN-1D điển hình được minh họa ở Hình 1.2.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Hình 1.2: Minh họa kiến trúc CNN-1D

1.2.6. Phương pháp Cây quyết định

Cũng giống như SVM, mơ hình Cây quyết định (Decision Trees) là các thuậttoán học máy có thể thực hiện cơng việc phân loại và hồi quy, có tiềm năngnghiên cứu mở rộng, hiệu suất ổn định khi thực hiện học trên các tập dữ liệuphức tạp. Trong học máy, mơ hình Cây quyết định nhận đầu ra là các giá trị rờirạc trong tập hữu hạn được gọi là cây phân loại (classification trees). Với mụcđích phân loại, các nút lá sẽ biểu diễn các kết quả phân loại của thuật toán, vàcác nhánh thể hiện phép giao giữa các đặc trưng dẫn tới các kết quả đốn nhận.

Mơ hình huấn luyện Cây quyết định được tóm tắt qua các bước như sau:Thuật tốn 1.3: Thuật toán huấn luyện Cây quyết định

Input: Tập dữ liệu <small>X = {(x</small><sub>1</sub><small>, y</small><sub>1</sub><small>), . . . , (x</small><sub>N</sub><small>, y</small><sub>N</sub><small>)}</small> với <small>y = {−1, +1}</small>.Output: Cây quyết định đã huấn luyện.

<small>1</small> if nếu tất cả các mẫu thuộc về cùng một lớp then

<small>2</small> trả về một nút lá với nhãn của lớp đó.

<small>3</small> if nếu khơng cịn đặc trưng nào để phân loại then

<small>4</small> trả về một nút lá với nhãn là lớp có số lượng mẫu nhiều nhất.

<small>5</small> Đo lường độ tinh khiết của tập dữ liệu hiện tại (gini, entropy, hay error).

<small>6</small> Chọn đặc trưng tốt nhất để phân loại mẫu

<small>7</small> Chia dữ liệu thành các tập con dựa trên giá trị của đặc trưng được chọn.

<small>8</small> for đối với mỗi tập con do

<small>9</small> Gọi đệ quy thuật tốn trên tập con đó.

<small>10</small> Gắn nhãn cho nút hiện tại bằng nhãn của nút lá trả về từ đệ quy.

<small>11</small> return <small>DT (x)</small>.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Ở dòng 8 của Thuật toán 1.3, để chọn lựa đặc trưng phân loại tốt nhất, cầnphải tính tốn đo lường độ tinh khiết của tập dữ liệu hiện tại. Việc đo lường độtinh khiết (impurity) của tập dữ liệu<small>D</small> thường sử dụng công thức gini, entropyhoặc error cụ thể như sau:

Tomek Links

Thuật toán Tomek link [55] dùng để xác định các cặp Tomek Links, cụ thể làTLPs (Tomek Links pairs), được định nghĩa là các cặp gồm hai mẫu thuộc hailớp khác nhau với khoảng cách ngắn nhất. Giả định rằng <small>S</small><sub>min</sub> và <small>S</small><sub>maj</sub> lần lượtlà tập hợp các mẫu đa số và thiểu số, và<small>d(x</small><sub>i</sub><small>, x</small><sub>j</sub><small>)</small> là khoảng cách giữa <small>x</small><sub>i</sub> <small>∈ S</small><sub>min</sub>và <small>x</small><sub>j</sub> <small>∈ S</small><sub>maj</sub>. Cặp (<small>x</small><sub>i</sub><small>, x</small><sub>j</sub>) được gọi là TLP nếu không tồn tại <small>x</small><sub>k</sub> bất kỳ sao cho

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Thuật toán 1.4: Thuật toán KNN

Input: Tập dữ liệu <small>X</small>; <small>K</small>: số láng giềng gần nhất sẽ xem xét; <small>d(x</small><sub>1</sub><small>, x</small><sub>2</sub><small>)</small>:độ đo khoảng cách.

Output: <small>H(x)</small>: Kết quả phân lớp.

<small>1</small> Bước 1: Tìm K hàng xóm gần nhất: đối với mỗi điểm dữ liệu trong tậpkiểm tra, tính khoảng cách đến tất cả các điểm trong tập huấn luyện vàchọn ra K điểm gần nhất.

<small>2</small> Bước 2: Xác định nhãn lớp: dựa trên K điểm gần nhất, xác định lớpcủa điểm dữ liệu kiểm tra bằng cách bầu chọn (voting).

<small>3</small> Bước 3: Lặp lại các bước cho các mẫu tiếp theo.

<small>4</small> return Kết quả dự đoán cho tất cả các điểm dữ liệu.

<small>Tomek Links Pairs</small>

Hình 1.3: Minh họa các cặp TLPs

<small>d(x</small><sub>i</sub><small>, x</small><sub>k</sub><small>) < d(x</small><sub>i</sub><small>, x</small><sub>j</sub><small>)</small> hoặc <small>d(x</small><sub>j</sub><small>, x</small><sub>k</sub><small>) < d(x</small><sub>i</sub><small>, x</small><sub>j</sub><small>)</small>. Hình 1.3 minh họa vị trí của cácTLP trong tập dữ liệu. Khi xác định được vị trí TLP, hai mẫu trong TLP sẽtạo ranh giới lớp hoặc một trong hai mẫu trong TLP bị nhiễu.

Trong vấn đề học máy cho bài tốn có dữ liệu không cân bằng về nhãn lớp,TLP thường được sử dụng để làm sạch bộ dữ liệu sau khi thuật toán SMOTEvà các biến thể của nó [25][26][29][34][35] tạo ra nhiều mẫu tổng hợp hơn cholớp thiểu số. Do đó, các bộ dữ liệu được tạo sẽ có sự cân bằng hơn và do đó, cácthuật tốn phân lớp cải thiện hiệu suất chính xác hơn trên các mẫu thiểu số.Cho đến nay, các phương pháp sử dụng và cải tiến thuật toán Tomek Links rấtđa dạng như OOS [64], CNN+Tomek links [49], NCL [65], SMOTE+ENN [66],v.v. Tuy nhiên, trong các phương pháp trên, việc xóa các TLP đó sẽ làm thayđổi bộ dữ liệu gốc. Cụ thể, một số mẫu thiểu số (nhãn dương, <small>+1</small> sẽ bị loại bỏ,trong khi chúng là nhãn quan trọng cần được giữ lại và ưu tiên phân lớp đúngtrong bộ dữ liệu không cân bằng.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

1.3. Bài toán dự đoán đồng tác giả1.3.1. Giới thiệu

Mạng đồng tác giả được tạo ra từ dữ liệu công bố học thuật trong lĩnh vựcnghiên cứu khoa học. Mạng thường được biểu diễn dưới dạng cấu trúc đồ thị.Từ thông tin trong mạng, các nhà nghiên cứu sẽ sử dụng các công cụ, cácphương pháp phân tích để hiểu về cấu trúc, mơ hình tương tác, và xu hướngnghiên cứu trong cộng đồng học thuật. Việc xây dựng mạng đồng tác giả vàgiải quyết các bài toán đặt ra trong mạng đồng tác giả đang thu hút sự quantâm của nhiều nhóm nghiên cứu và cơng bố nhiều cơng trình trên các tạp chínhư: [1][4][17][18][67][68][69]. Các bài toán trong mạng đồng tác giả rất đa dạng.Bên cạnh các các bài tốn biểu diễn, phân tích, truy vấn và tìm kiếm thơng tinnhư: phân tích mối quan hệ học thuật, tìm kiếm thơng tin học thuật, quản lýdanh tiếng học thuật, hỗ trợ trong tìm kiếm cơ hội nghiên cứu và công việc, hỗtrợ quản lý dự án nghiên cứu... thì các bài tốn dẫn xuất thông tin cũng thuhút nhiều quan tâm nghiên cứu như: phát triển hệ thống khuyến nghị, tìm kiếmcộng tác nghiên cứu, xác định các mối quan hệ học thuật tiềm năng, phân tíchxu hướng nghiên cứu, đo lường tầm ảnh hưởng và uy tín học thuật, đánh giá sựảnh hưởng của một nghiên cứu, phát hiện cộng đồng nghiên cứu,...

Hình 1.4: Tổng quan quy trình giải quyết các bài tốn trong mạng ASN

Tổng quan lược đồ quy trình giải quyết các bài tốn trong mạng đồng tácgiả được mơ tả trong Hình 1.4. Với các bài tốn đặt ra đa dạng như vậy, mạng

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

đồng tác giả đóng vai trị là một cơng cụ quan trọng trong cộng đồng nghiêncứu và học thuật, giúp tạo ra sự kết nối và hiểu biết sâu hơn giữa các tác giảvà những người tham gia trong lĩnh vực nghiên cứu cụ thể. Nó cung cấp thơngtin giá trị và cơ hội hợp tác để phát triển kiến thức và công trình nghiên cứu.Bằng cách xem xét mạng đồng tác giả, người nghiên cứu có thể khám phá cáclĩnh vực nghiên cứu mới hoặc nguồn tài liệu tham khảo mà họ có thể chưa biếtđến. Nó cũng giúp cải thiện hiệu suất nghiên cứu, xác định xu hướng và tạo racơ hội hợp tác trong cộng đồng học thuật.

Trong thực tế, việc mở rộng không gian mạng đồng tác giả phụ thuộc hoàntoàn vào việc số lượng các bài báo được xuất bản trên các tạp chí. Muốn có đượccác kết quả nghiên cứu tốt, đòi hỏi các nhà nghiên cứu phải tìm kiếm được cáccộng sự có khả năng hợp tác phù hợp. Điều này giúp cho các nhà khoa học thựchiện tốt các dự án nghiên cứu, kích thích sự sáng tạo trong nghiên cứu hoặccùng thực hiện các cơng việc chung khác. Do đó, việc nghiên cứu các phươngpháp để xây dựng một ứng dụng có thể khuyến nghị gợi ý cộng tác cùng nghiêncứu trong mạng đồng tác giả trở nên cần thiết và có nhiều ý nghĩa trong việcthúc đẩy các hoạt động nghiên cứu khoa học.

Bài tốn gợi ý đồng tác giả [4] có thể xem như là một bài toán dẫn xuất mởrộng theo hướng ứng dụng trong một cộng đồng cụ thể của bài tốn dự đốnliên kết trong mạng xã hội nói chung. Bài toán dự đoán liên kết trong mạngđồng tác giả được gọi là bài toán dự đoán đồng tác giả. Bài toán này liên quanđến việc dự đoán các mối quan hệ (liên kết) tiềm năng giữa các tác giả trongmạng đồng tác giả dựa trên thông tin về quan hệ và sự tương tác giữa họ trongquá khứ. Trong mạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút)được biểu diễn thông qua các cạnh và định lượng thông qua các độ đo liên kết.Các độ đo này thường được hình thành dựa trên các thơng tin liên kết như dựatrên số lượng hàng xóm chung, dựa trên chiều dài đường dẫn liên kết [2]. Ngoàira, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng của khônggian cộng đồng nghiên cứu học thuật như vị trí thứ tự tên tác giả trong bài báo,hay trích xuất thơng tin chủ đề lĩnh vực nghiên cứu [70], v.v.

Có nhiều phương pháp tiếp cận đã được các nhà nghiên cứu đề xuất cho bàitoán dự báo liên kết trong mạng đồng tác giả [1]. Cách tiếp cận truyền thống vàđơn giản nhất thường gặp là xây dựng các độ đo tương đồng (similarity measure)giữa hai nút của mạng, theo đó hai nút có độ tương đồng càng lớn thì càng có khảnăng xuất hiện liên kết trong tương lai. Các độ đo tương đồng thường được xác

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

định dựa trên hai thơng tin chính là tương đồng về nội dung và tương đồng vềcấu trúc của mạng, phổ biến như: độ đo hàng xóm chung (Common Neighbor),hệ số Jaccard, Adamic Adar, . . . Các độ đo sau khi tính có thể được sử dụngtrực tiếp để dự đốn liên kết bằng cách sắp thứ tự độ tương đồng giảm dần rồichọn top-N các liên kết có khả năng lớn nhất.

Một số phương pháp khác áp dụng các ước lượng xác suất có điều kiện kết hợpvới tối ưu hóa hàm mục tiêu để đánh giá khả năng xảy ra của một mối liên kếtchưa tồn tại trong mạng. Mơ hình dạng này thường u cầu nhiều thơng tin dữliệu, khó khăn trong việc điều chỉnh các tham số phức tạp và cần nhiều thời gian.Theo [16] các nghiên cứu điển hình bao gồm: Hierarchical structure model(HSM),Stochastic block model (SBM), Parametric model, Non-parametric model, Localprobabilistic model, Factor graph model, Affiliation model.

Đặc biệt, các nghiên cứu tiếp cận giải quyết bài tốn theo hướng học máytrong đó sử dụng các độ đo liên kết như là véc-tơ đặc trưng (feature vectors),xem xét bài toán dự báo liên kết như là bài toán phân lớp. Nghiên cứu [71] củaHasan và cộng sự đã đưa ra phương pháp học máy có giám sát để dự đốn cácliên kết trong mạng. Trong đó, các tác giả đã tạo ra một số mơ hình học máyđể nắm bắt thông tin cấu trúc liên kết với các nút và liên kết mạng. Với việctrích xuất các thơng tin xem như là thuộc tính phân lớp, các thử nghiệm đã chỉra rằng phương pháp có thể cải thiện đáng kể kết quả dự đoán. Ở cách tiếp cậnnày, việc dự báo liên kết thực chất là việc gán nhãn có/khơng có liên kết chotừng cặp tác giả trong tương lai, với các véc-tơ đặc trưng lấy từ thơng tin hiệntại của mạng. Phương pháp này có ưu điểm là có thể kết hợp nhiều độ đo liênkết khác nhau để tăng cường độ chính xác của quá trình dự báo. Các nghiên cứukhác áp dụng các thuật toán mạng nơ-ron học sâu [2]; sử dụng graph embeddingnhúng đồ thị [72] tạo các biểu diễn đồ thị có giá trị bằng cách gán các nút chomột vectơ có chiều thấp hơn; Các tác giả trong [72][73] đã đề xuất một phươngpháp sử dụng kỹ thuật nhúng mạng node2vec và một nhóm các tốn tử nhúngcạnh mới để đánh giá chất lượng của hệ thống đề xuất đồng tác giả trong các tácvụ hồi quy và phân lớp để dự đốn liên kết mạng có trọng số. Nghiên cứu [74]đề xuất một mơ hình tốn học cho hệ thống đề xuất đồng tác giả trong tin sinhhọc bằng cách sử dụng các kỹ thuật dữ liệu lớn và khai thác đồ thị. Mơ hình chothấy tiêu đề tạp chí và trích dẫn có trọng số cao nhất, trong khi phần tóm tắtcó trọng số thấp nhất. Nghiên cứu [4] giải quyết vấn đề dự đoán cộng tác trongmạng đồng tác giả bằng cách xây dựng nhiệm vụ dưới dạng vấn đề dự đoán liên

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

kết trên mạng đồng tác giả có trọng số. Trong đó các tác giả đã sử dụng mơhình học máy hồi quy dựa trên các tính năng mạng được xây dựng bằng cách sửdụng nhúng mạng và đánh giá các nhúng cạnh của chúng trên các mạng đồngtác giả AMiner và HSE lớn. Nghiên cứu [75] đã đề xuất Trans4E dựa trên nhúngbiểu đồ tri thức để cung cấp dự đoán liên kết cho các biểu đồ tri thức trong đósố lượng nút lớn hơn đáng kể so với số lượng cạnh. Phương pháp được đề xuấtthực hiện hiệu quả trên các sơ đồ phân lớp nơng và kích thước nhúng thấp.

Gần đây, đã có thêm các phương pháp học sâu xử lý rất hiệu quả cho dữ liệudạng đồ thị như: mạng nơ-ron đồ thị (Graph Neural Network - GNN) [76], GraphConvoluational Networks (GCN) [77], Graph Attention Networks (GAT) [78],...Trong đó, GCN là phương pháp nổi bật, đưa phép tích chập vào cấu trúc đồ thị,được công bố lần đầu tiên trong cơng trình nghiên cứu của N. Kipf và Wellingvào năm 2016. Nó sử dụng cơ chế tích chập đồ thị (Graph Convolution) trênkhông gian phổ của đồ thị để truyền thơng tin qua các đỉnh và cạnh. Tích chậpđồ thị là một cách hiệu quả để trích xuất/tóm tắt thông tin nút dựa trên cấutrúc biểu đồ.Nhiều kết quả thử nghiệm cho thấy hiệu quả vượt trội của GCN sovới các phương pháp khác, đồng thời chứng tỏ rằng GCN có khả năng mã hóacả cấu trúc đồ thị và đặc trưng của nút một cách hữu ích cho tác vụ phân loạibán giám sát, đánh dấu một hướng đi mới trong việc giải quyết các bài toán códữ liệu dạng đồ thị. GCN cũng đã được nghiên cứu ứng dụng trong rất nhiềulĩnh vực khác như thị giác máy tính, xử lý ngơn ngữ tự nhiên, hệ thống giaothông, tin sinh học,. . . và đã đạt được nhiều kết quả ấn tượng. Tuy nhiên, việcứng dụng GCN để xây dựng các mơ hình giải quyết bài toán khuyến nghị cộngtác đồng tác giả vẫn là một bài toán khá mới mẻ, hứa hẹn mang lại những kếtquả đáng mong đợi trong tương lai.

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết trong mạng đồngtác giả theo phương pháp học máy, nội dung của luận án hướng dến việc nghiêncứu đề xuất các phương pháp thuật toán phân lớp hiệu quả hơn cho bài toán dựđoán cộng tác đồng tác giả trong nghiên cứu trong mạng đồng tác giả. Phươngpháp mơ hình hóa của bài toán dự đoán gợi ý đồng tác giả theo dạng bài tốnphân lớp nhị phân được trình bày dưới đây.

1.3.2. Mơ hình hóa bài tốn

Bài tốn dự đốn cộng tác đồng tác giả trong mạng đồng tác giả có thể xemlà sự cụ thể hóa theo hướng ứng dụng của bài toán dự báo liên kết trong mạng

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

xã hội. Mục đích của bài tốn dự đoán đồng tác giả là xây dựng một ứng dụngcho phép đưa ra một danh sách gợi ý những ứng viên (nhà nghiên cứu/tác giả)có khả năng hợp tác hiệu quả trong tương lai cho một nhà nghiên cứu nào đó.Danh sách ứng viên được gợi ý này được sắp thứ tự mức độ khả năng cộng tác.Bài toán dự đoán cộng tác nghiên cứu (dự báo liên kết) trong mạng đồng tácgiả được mơ hình hóa về mặt biểu diễn như sau.

Cho mạng đồng tác giả được mô hình hóa như một đồ thị <small>G</small><sup>T</sup> với bốn yếutố đặc trưng <small>G</small><sup>T</sup> <small>= (V</small><sup>T</sup><small>, E</small><sup>T</sup><small>, P</small><sup>T</sup><small>, T )</small>, trong đó (i ) <small>T = {t</small><sub>1</sub><small>, t</small><sub>2</sub><small>, . . . , t</small><sub>k</sub><small>}</small> là một tậphợp các nhãn thời gian; (ii ) <small>V</small><sup>T</sup> <small>= {v</small><sub>1</sub><small>, v</small><sub>2</sub><small>. . . . , v</small><sub>N</sub><small>}</small> là tập hợp các đỉnh đại diệncho các tác giả xuất hiện trong bài báo tại một thời điểm nào đó trong <small>T</small>; (iii )<small>P</small><sup>T</sup> <small>= {p</small><sub>1</sub><small>, p</small><sub>2</sub><small>, . . . , p</small><sub>M</sub><small>}</small> là tập hợp các bài báo tại một thời điểm nào đó trong <small>T</small>;và (iv ) <small>E</small><sup>T</sup> <small>= {v</small><sub>i</sub><small>, v</small><sub>j</sub><small>, p</small><sub>k</sub><small>, t</small><sub>h</sub><small>}</small> là tập hợp các liên kết giữa các tác giả tại một thờiđiểm nào đó trong <small>T</small>, trong đó hai tác giả <small>(vi, vj) ∈ V</small><sup>T</sup> <small>× V</small><sup>T</sup> có viết chung mộtbài báo <small>p</small><sub>k</sub> <small>∈ P</small><sup>T</sup> tại thời điểm <small>t</small><sub>h</sub> <small>∈ T</small>. Ngoài ra, đỉnh <small>V</small><sup>T</sup> có thể chứa các thuộctính thơng tin bổ sung cụ thể của từng tác giả như thông tin về quốc tịch, mốiquan hệ cộng đồng, chủ đề nghiên cứu. Tập hợp các thuộc tính được ký hiệulà <small>A</small><sup>T</sup> <small>= {a</small><sub>1</sub><small>, a</small><sub>2</sub><small>, . . . , a</small><sub>N</sub><small>}</small>, trong đó <small>a</small><sub>i</sub> là một vectơ đặc trưng chứa thông tin vềcặp tác giả/đỉnh <small>(v</small><sub>i</sub><small>, v</small><sub>j</sub><small>) ∈ V</small><sup>T</sup> <small>× VT</small>. Các độ đo sự tương đồng giữa hai tác giả sẽđược xây dựng dựa trên thơng tin của các tập<small>E</small><sup>T</sup> và <small>A</small><sup>T</sup>.

Bài tốn dự đoán đồng tác giả (dự đoán liên kết cộng tác đồng tác giả) đượcdiễn giải như sau: cho hai khoảng thời gian <small>[t</small><sub>0</sub><small>, t</small><sup>′</sup><sub>0</sub><small>]</small>, và <small>[t</small><sub>1</sub><small>, t</small><sup>′</sup><sub>1</sub><small>]</small> thỏa mãn <small>t</small><sup>′</sup><sub>0</sub> <small>< t</small><sub>1</sub>.Dựa trên cấu trúc mạng quan sát được tại thời điểm <small>[t0, t</small><sup>′</sup><sub>0</sub><small>]</small>, ta sẽ dự đoán cácliên kết mới sẽ xuất hiện trong thời gian <small>[t1, t</small><sup>′</sup><sub>1</sub><small>]</small>mà chưa xuất hiện trong khoảngthời gian được quan sát. Các liên kết mới được dự đoán tương ứng với việc cặptác giả của liên kết đó có khả năng hợp tác mới trong tương lai. Trong mạngđồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễn thôngqua các cạnh và định lượng thông qua các độ đo liên kết. Các độ đo này thườngđược hình thành dựa trên các thông tin liên kết như dựa trên số lượng hàng xómchung, dựa trên chiều dài đường dẫn liên kết. Ngoài ra, một số độ đo liên kếtkhác xem xét đến những thông tin đặc trưng của khơng gian cộng đồng nghiêncứu học thuật như vị trí thứ tự tên tác giả trong bài báo, hay trích xuất thôngtin chủ đề lĩnh vực nghiên cứu [70], v.v.

Theo khảo sát trong nghiên cứu [16] có hơn hai mươi độ đo liên kết được xâydựng dựa vào sự xem xét các đặc tính tương đồng cục bộ và tương đồng toàncục. Do luận án chỉ tập trung vào vấn đề nghiên cứu đề xuất các phương pháp

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

cải tiến thuật tốn nên luận án chỉ trình bày một số độ đo phổ biến thuộc banhóm chính như sau:

a) Độ đo liên kết dựa trên hàng xóm: Giả sử<small>v</small><sub>i</sub><small>∈ V</small><sup>T</sup> là một đỉnh/nút/tácgiả, giả sử rằng <small>Γ(vi)</small> là tập các đỉnh/nút hàng xóm lân cận của <small>vi</small>. Các độ đoliên kết phổ biến là Common Neighbor (<small>CN</small>) [5], Adamic Adar (<small>AA</small>) [7], Jac-card Coefficient (<small>J C</small>), Preferential Attachment (<small>P A</small>) [6] và Resource Allocation(<small>RA</small>) [8]:

1. <small>CN</small> được tính bằng số hàng xóm chung của <small>v</small><sub>i</sub> và <small>v</small><sub>j</sub>:

trong đó <small>v</small><sub>k</sub> là hàng xóm chung của cả <small>v</small><sub>i</sub> và <small>v</small><sub>j</sub>.

3. <small>J C</small> được tính bằng tỷ lệ số lượng hàng xóm chung trên tổng số hàng xómcủa <small>v</small><sub>i</sub> và <small>v</small><sub>j</sub>:

</div>

×