Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (16.57 MB, 88 trang )

Trang 2<div class="page_container" data-page="2">

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG KHOA CÔNG NGHỆ THÔNG TIN I

Giảng viên hướng dẫn: TS. Trần Tiến Công

Sinh viên: Không Mạnh Tùng

Mã sinh viên: B19DCCN626

Lớp: DI9HTTT01

Khóa: 2019-2024

Hệ: Chính Quy

</div>Trang 3<div class="page_container" data-page="3">

HÀ NỘI 12-2023

</div>Trang 4<div class="page_container" data-page="4">

NHẬN XÉT, DANH GIA, CHO DIEM

NHAN XET, DANH GIA, CHO DIEM (Của người hướng dẫn)

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 5<div class="page_container" data-page="5">

NHẬN XÉT, DANH GIA, CHO DIEM

Đồng ý/Không đồng ý cho sinh viên bao vệ trước hội đồng cham đồ án tốt nghiệp?

Hà Nội, ngày... tháng 12 năm 2023

CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN

(Kỷ, ghi rõ họ tên)

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 6<div class="page_container" data-page="6">

LỜI CẢM ƠN

LỜI CẢM ƠN

Em xin chân thành cảm ơn Khoa Công nghệ Thông tin 1, Học viện Cơng nghệ Bưu

chính Viễn thơng đã tạo điều kiện tốt cho em thực hiện đề tài này. Em xin chân thành cảm ơn thầy Trần Tiến Công và thầy Phạm Văn Cường, là người đã tận tình hướng

dẫn em, giúp em giải quyết các vấn đề, chỉ bảo em trong suốt thời gian thực hiện đề

Em cũng xin gửi lời cảm ơn sâu sắc đến quý Thay Cô trong Khoa Công nghệ Thông tin 1 đã tận tình giảng dạy, trang bị cho em những kiến thức quí báu trong những năm học vừa qua. Em xin gửi lòng biết ơn sâu sắc đến Bố, Mẹ, các anh chị và

bạn bè đã ủng hộ, giúp đỡ và động viên em trong những lúc khó khăn cũng như trong

suôt thời gian học tập và nghiên cứu.

Mặc dù em đã cơ gắng hồn thành luận văn trong phạm vi va khả năng cho phép, nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong sự cảm thơng và tận tình chỉ bảo của q Thầy Cơ và các bạn.

Hà Nội, ngày 08 thang 12 năm 2023Tác giả

Không Mạnh Tùng

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 7<div class="page_container" data-page="7">

DANH SACH HINH VE

DANH MUC TU VIET TAT 1.1.4.3 Phuong thức Estimated Error Reduction... -- 13

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 8<div class="page_container" data-page="8">

MỤC LUC

1.2 Học chủ động cho bai toán phân loại nút trên Cn ccccccsxsxsxereee 14 1.3 Bài tốn phân loại nút trên đồ thị khơng hồn chỉnh...-- - - 25255: 15

1.5 Kết chương Ì...--- 7+ EE2E2E22E21217111211111121121121121111 11x11 re. 17 2_ MƠ HÌNH DE XUẤT 18 2.1 Tiếp cận bài toán...---c- + St E2E12E121121121121121111111 11111.111.111. 19 2.2 Giai đoạn truy 0 —... 21

VN: L6. ... 21

2.2.2 Kết hợp điểm...--- 252221 2E212212212210212111212110121 2 e0 22

2.3 Giai đoạn đào tạO...---- 2 1011111311 S ST 1T 1kg hy 24

2.4 Kết chương 2...-- 2 22 E1 E2E211217111711121121121121111211211 11111 xe. 27

3.1.3 Các phương phapcosd... 0.0.00. eee ee 35

3.4 Độ Nhạy Cảm Của Siêu Tham SỐ Œ...-- 2-52 E2EE+E+EEE2EeEEzEEErkrrersred 39

3.5 Tăng trọng lượng của [Ở... 5: c 2t S 3S E E112 Sky nườt 40

3.6 Kết chương 3...---++2+E2E2EEEEE21E7121111211211211211211211211 111211126 42

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 9<div class="page_container" data-page="9">

MỤC LỤC

4 KÉT LUẬN

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

45

</div>Trang 10<div class="page_container" data-page="10">

MỤC LUC

4.1 Kết quả thu được...--- + ++222SE2EE2EE2E2E21717171711121121 111111 cre. 46 4.2 Những điểm hạn chế... ¿2s s33 E8 E353535E1E5555511181E15115111 11151115111. exE. 46

4.3 Hướng nghiên cứu tiếp the0...cc.ccecccsscsssessessesssessessesssessessessseescsessssseesseseeees 47 TÀI LIỆU THAM KHẢO 48

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 11<div class="page_container" data-page="11">

Tóm tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị. Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được

cập nhật

dựa trên các trường hợp đã được gan nhãn mới... ...--- c5 +2 +++<ss++++ 14

Thống kê tóm tắt của các bộ dữ liệu...-.- - ¿2+2 Ex+EEEEEE2EEEEEESEEEErkrrrrrres 29 Kết quả về hiệu suất của GCN trên các tập dữ liệu. Ký tự đậm chỉ ra hiệu

suất tốt nhất và ký tự gạch dưới chỉ ra hiệu suất thứ hai tốt nhất... 43 Kết quả về hiệu suất của các GNN khác nhau trên tập dữ liệu Cora. Ký

tự đậm chỉ ra hiệu suất tốt nhất và ký tự gạch dưới chỉ ra hiệu suất thứ

I180nn PP... -.4äđŒgŸ%Ÿr11. . . .. 44

Kết quả về hiệu suất của các hàm tăng trọng lượng sử dụng GCN trên tập dữ liệu Cora. Các giá tri số thé hiện điểm số trung bình Macro-F1

của 3 thử nghiệm độc lập. Ký tự đậm chỉ ra hiệu suất tốt nhất và ký tự

gạch dưới chỉ ra hiệu suất thứ hai tốt nhất...--¿ ¿+ +s+x+EvEvEvEEEEztztsrsrrers 44

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 12<div class="page_container" data-page="12">

DANH SÁCH HÌNH VẼ

Danh sách hình vẽ

1.1 Ví dụ về của đồ thi (a) vơ hướng và (b) có hướng và ma trận kề của chúng. 5 1.2 Ví dụ về bài tốn dự đoạn liên kết giữa các người dùng trong mạng xã hội. 7

1.3 Kiến trúc GNN. Đầu tiên, GNN lựa chọn các hàng xóm theo một chiến

lược cụ thé. Sau đó, một hàm tổng hợp được áp dụng để trích xuất

thơng tin xung quanh nút trung tâm. Cuối cùng, thông tin đã tổng hợp

đi qua một mạng nơ-ron dé thực hiện biến đổi ph tuyến tính. Đầu ra

là biêu

diễn cập nhật của nút trung tâm...---- ¿+ + 52+k+E£EE+E£EEEE2EEEEEEzEerrrrrrrrei 10

2.1 Tổng quan về khung ALIN được dé xuất của em...---:-¿s5+55+2 22 3.1 Sơ đồ mơ tả Mạng tích chập đồ thị nhiều lớp (GCN) cho việc học ban

giám sát với C nhãn đầu vào và F thuộc tính ở lớp đầu ra. Cau trúc đồ

thị (cạnh là đường màu đen) được chia sẻ trên các lớp, nhãn được ký

hiệu là

3.2. Minh họa về GAT. GAT chỉ định các trọng số khác nhau cho các nút lân

3.3. Tống quan về kiến trúc của GraphSAGE... ¿+ 2 s+E£EE+EeE£EzEerxzxeree 34

3.4. Ảnh hưởng tới ALIN và ALINFar theo các giá trị siêu tham số đ khác

</div>Trang 13<div class="page_container" data-page="13">

DANH SÁCH HÌNH VẼ

“ĐA bi ... ...

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 14<div class="page_container" data-page="14">

DANH SÁCH HÌNH VẼ

4.3 Mã nguồn 3...--- 25222 E2E21E212111111110112112112111111111 21111111 re. 4.4 Mã nguén 4...--- 2222222 22E212171717111111121121121111 011121112111 re.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 15<div class="page_container" data-page="15">

DANH SÁCH HÌNH VẼ

Danh mục từ viết tắt

STT | Viết tắt Tiếng Anh Tiếng Việt/Giải thích

1 AI Artificial Intelligence Tri tué nhan tao2 ML Machine Learning Hoc may

3 DL Deep Learning Hoc sau

4 GNN Graph Neural Network Mang no-ron đồ thi

5 AL Active Learning Hoc chu dong6 QBC Convolutional Layer Lớp tích chap

7 SVM Support Vector Machine Máy vectơ hỗ trợ

8 GCN_ | Graph Convolutional Network Mang tích chap đồ thị 9 GAT Graph Attention Network Mạng chú ý đồ thị

10 | LSTM Long Short-Term Memory | Mạng nơ-ron trang thái ngắn hạn dài

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp

</div>Trang 16<div class="page_container" data-page="16">

MỞ ĐẦU

MỞ ĐẦU

Trong lĩnh vực học máy và trí tuệ nhân tạo, học giám sát đã trở thành một phương

pháp quan trọng dé giải quyết nhiều bài toán phân loại và du đốn. Mơ hình học giám

sát học dé hiểu cách xác định quy luật kết nối giữa các điểm di liệu và các nhãn thực tế tương ứng, sau đó, mơ hình có thể dự đốn các nhãn cho các mẫu dữ liệu mới mà nó

chưa từng thay dự đốn của mơ hình trên các mẫu mà mơ hình chưa được quan sát trước đó. Vì vậy, chúng ta cần có một lượng lớn dữ liệu huấn luyện và dữ liệu này phải

được gán nhãn đúng. Do đó, hiệu năng của các mơ hình học giám sát thường phụ

thuộc vào cả số lượng lẫn chất lượng của đữ liệu huấn luyện. Tuy nhiên, trong thực tế,

việc gan nhãn cho dữ liệu có thé rất khó khăn và tốn kém. Chang han, trong lĩnh vực y học va sinh học, việc thu thập va gan nhãn dữ liệu từ các thí nghiệm hay hồ sơ bệnh

nhân có thể địi hỏi nhiều ngày thậm chí nhiều tháng của các chuyên gia trong lĩnh vực. Trong việc phân loại quan hệ giữa các người trong mạng xã hội, chẳng hạn như

xác định liệu họ là bạn, người thân, đồng nghiệp, hoặc người dùng khơng liên quan, chúng ta có thé sử dụng mơ hình học máy dựa trên đồ thị. Tuy nhiên, để xây dựng một mơ hình học máy hiệu quả cho việc phân loại quan hệ trên đồ thị, chúng ta cần một tập

dữ liệu đủ lớn với các mối quan hệ đã được gán nhãn chính xác. Điều này đòi hỏi sự

tham gia của người chuyên nghiệp hoặc cộng đồng người dùng dé xác định các mối

quan hệ.

Đề vượt qua khó khăn trong việc gán nhãn đữ liệu của học giám sát, chúng ta có

thể áp dụng phương pháp học chủ động. Học chủ động là một phương pháp mà mơ

hình khơng chỉ học từ dữ liệu huấn luyện mà cịn có khả năng tương tác với môi trường, yêu cầu thêm dữ liệu khi cần thiết. Ban đầu, mơ hình học chủ động chỉ u cầu

một số lượng nhất định mẫu dữ liệu được gán nhãn. Sau đó, q trình học chủ động bao gồm việc mơ hình đưa ra các câu hỏi hoặc u cầu gán nhãn cho đữ liệu mà nó

khơng chắc chắn về kết quả. Qua đó, mơ hình sử dụng phản hồi từ các yêu cầu này để cải thiện khả năng dự đoán và thu thập dữ liệu mới cho việc huấn luyện. Quy trình học

chủ động này giúp giảm bớt công sức và thời gian cần thiết cho việc gán nhãn và tạo ra các mơ hình học máy hiệu quả hơn.

Mục tiêu của đồ án của em là trình bày giải pháp từ đầu tới cuối cho phương pháp

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1

</div>Trang 17<div class="page_container" data-page="17">

MỞ ĐẦU

học chủ động cho bài tốn phân loại nút trên dữ liệu đồ thị khơng hoàn chỉnh về cau trúc và các kết quả nghiên cứu. Đồ án sẽ nghiên cứu cách mơ hình học chủ động có thé tương tác với đồ thị và yêu cầu gán nhãn cho các nút trên đồ thị một cách hiệu quả.

Trong thực tế, nhiều dữ liệu đồ thị thường bị thiếu thông tin về mối quan hệ giữa các nút, và việc gán nhãn cho các nút này có thê địi hỏi nhiều cơng sức. Băng cách kết

hợp học chủ động với đồ thị, đồ án này hy vọng tạo ra một phương pháp mới để giải

quyết bài tốn phân loại nút trên đồ thị khơng hồn chỉnh một cách hiệu quả và tiết kiệm thời gian. Qua đó, đóng góp cho sự phát triển của học máy trong việc xử lý dữ

liệu đồ thị phức tạp và khuyết cạnh.

Thực trạng hiện nay, dit liệu đồ thị ngồi việc thiếu thơng tin nhãn cho các nút, cịn bị thiếu thông tin liên kết giữa các nút hay giữa các cụm của các nút. Nguyên nhân dẫn tới điều này có thé do q trình thu thập dữ liệu bi mat mát thông tin hoặc thực tế dữ liệu đồ thi đó là khơng hồn chỉnh. Qúa trình tổng hợp thông tin cho một nút dựa trên

các nút lân cận trong đồ thị là quá trình cốt lõi để phát triển các nhiệm vụ tiếp theo như

là phân loại nút, phân loại canh,...Dé quá trình này được diễn ra hiệu qua đòi hỏi cau

trúc đồ thị phải đầy đủ hoặc khơng sẽ kéo hiệu năng của mơ hình đi xuống. Như vậy,

cần phải kết hợp xử lý cả hai van đề thiếu thông tin nhãn và thiếu thông tin cấu trúc dé

giải quyết tốt bài toán phân loại nút và học chủ động kết hợp mạng nơ-ron đồ thị là một giải pháp phù hợp.

Trong đồ án em sẽ tập trung trình bày một số nội dung chính như sau:

* Chương 1: Tổng quan về bài toán phân loại nút trên đồ thị sử dụng giải

thuật học chủ động.

Nội dung của chương | tập trung vào việc cung cấp một cái nhìn tong quan về bài tốn phân loại nút trên đồ thị và cách sử dụng giải thuật học chủ động dé giải

quyết. Chương này trình bày kiến thức cơ bản liên quan đến bài toán, phân tích

phương pháp thực hiện giải thuật học chủ động cho các nhiệm vụ phân loại trên

đồ thị, và tập trung vào những khía cạnh liên quan đến việc phân loại trên đồ thị khơng hồn chỉnh.

- Chương 2: Áp dung học chủ động kết hợp mơ hình mạng nơ ron giải quyết

bài tốn phân loại nút trên đồ thị khơng hoàn chỉnh

Nội dung của chương 2 tập trung vào việc giải quyết bài tốn phân loại nút trên

đồ thị khơng hoàn chỉnh bằng cách áp dụng phương pháp hoc chủ động và kết hợp nó với mơ hình mạng nơ-ron. Chương này trình bày các hướng tiếp cận cụ

thé và phương thức triển khai giải thuật được đề xuất.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 2

</div>Trang 18<div class="page_container" data-page="18">

MỞ ĐẦU

* Chương 3: Thực nghiệm và kết qua

Nội dung của chương 3 tập trung vao việc trình bay q trình thu thập dữ liệu,

mơ tả phương pháp thực nghiệm và đánh giá mơ hình phân loại nút sử dụng

phương thức học chủ động kết hợp mạng nơ-ron đồ thị. Chương này cung cấp

cái nhìn sâu hơn về quy trình thực hiện nghiên cứu và bao gồm cả việc trình bày

kết quả thu được từ các thử nghiệm.

- Chương 4: Tổng kết

Tổng hợp lại bài tốn, tóm tắt những kết quả đã đạt được và điểm qua những

khía cạnh cịn chưa được khám phá hoặc đạt được. Từ đó, chương này đề xuất

mục tiêu hướng tới và các hướng nghiên cứu và phát triển tiếp theo trong lĩnh

vực này.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 3

</div>Trang 19<div class="page_container" data-page="19">

CHƯƠNG I. TONG QUAN BÀI TOÁN

Chương 1

TONG QUAN BÀI TOÁN

Trong chương | của đồ án, em trình bày kiến thức cơ sở liên quan đến bài toán học chủ động cho bài toán phân loại trên đồ thị nói chung và trên đồ thị khơng hồn chỉnh.

Chương 1 được trình bày qua các mục sau:

* Kiến thức cơ sở

* Hoc chủ động cho bai toán phân loại nút trên đồ thị * Bai toán phân loại nút trên đồ thị khơng hồn chỉnh

° Mục tiêu của đô án

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 4

</div>Trang 20<div class="page_container" data-page="20">

CHƯƠNG I. TONG QUAN BÀI TỐN

1.1 Kiến thức cơ sở

1.1.1 Bài tốn phân loại nút

Bài toán phân loại nút (node classification) là một bài toán quan trọng trong lĩnh

vực học máy và khai phá dữ liệu. Đồ thị G = (V, E) với N nút v; € V, một cặp nút

được liên kết bởi một cạnh (v¡, v ) € E.. Ma trận đặc trưng nút là X € R**? (tức là,

vectơ đặc trưng có kích thước # cho N nút), ma trận nhãn cho các nút đã gan nhãn Y

€ R**° (C là số nhãn của nút) (tức là, Y;; = 1 cho biết node i có nhãn /). Cạnh trong đồ thị có thể biểu diễn mối liên kết có hướng hoặc khơng có hướng giữa các nút.

Trong đơ án của em, em sẽ nghiên cứu đô thị vô hướng cho bài toán phân loại nút.

Trong bài toán này, các nghiên cứu cố gắng gan một nhãn (label) cho từng nút

trong một đồ thị hoặc mang (graph) dựa trên thông tin liên quan đến nút đó và cấu trúc của d6 thị. Đây là một phan quan trọng của nhiều ứng dụng thực tế như phân loại tài

liệu, dự đoán sự lan truyền thông tin trong mạng xã hội, phát hiện gian lận trong mạng

ngân hàng, và nhiều ứng dụng khác. Khái niệm về đồ thị (hoặc mạng) đã trở nên phổ biến trong nhiều lĩnh vực khác nhau, chăng hạn như đồ thị trích dẫn (citation graph) va đồ thị xã hội (social graph). Tương tự như các dạng dữ liệu khác, dữ liệu đồ thị đang

trải qua sự phát triển nhanh chóng, hiện đang đạt đến mức độ đáng kê. Do đó đặt ra những thách thức đáng ké trong việc cơ gắng phân tích loại dir liệu này một cách tồn

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 5

</div>Trang 21<div class="page_container" data-page="21">

CHUONG 1. TONG QUAN BÀI TỐN

Mục tiêu chính của bài tốn phân loại nút là dự đoán nhãn cho từng nút trong đơ thi

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 6

</div>Trang 22<div class="page_container" data-page="22">

CHƯƠNG I. TONG QUAN BÀI TỐN

một cách chính xác. Cụ thể, muốn xây dựng một mơ hình học máy hoặc thuật tốn có

khả năng tự động học và áp dụng tri thức từ các nút đã được gán nhãn cho các nútchưa được gan nhãn.

Các khó khăn thường gặp trong bài tốn phân loại nút, bao gồm:

* Dữ liệu thưa thớt: Trong nhiều trường hợp, đồ thị có thé rất lớn và thưa thớt,

điều này có nghĩa là chỉ có một số ít nút có nhãn và phần lớn nút khơng có. Điều

này khiến cho việc học hình dạng của đồ thị và phân loại các nút chưa gán nhãn

trở nên khó khăn.

* Chất lượng nhãn thấp: Trong một số ứng dụng thực tế, nhãn cho các nút có thé khơng chính xác hoặc không đủ chỉ tiết, gây ra van đề trong việc huấn luyện mô

» Không đồng nhất trong cấu trúc đồ thị: Đồ thị có thể có cấu trúc phức tạp, và các

nghiên cứu trước đây khơng ln có khả năng xử lý đồ thị với cấu trúc đa dạng. Các nghiên cứu gần đây trong bài toán phân loại nút đã đạt được nhiều tiến bộ

đáng kể nhờ vào sự phát triển của các mơ hình học máy sâu (deep learning) và đặc biệt

là mạng nơ-ron đồ thị (graph neural networks - GNNs). Các ưu điểm của các nghiên

cứu gân đây bao gôm:

° Sử dụng đồ thị dữ liệu: Các mơ hình GNNs có khả năng hiệu quả trong việc sử

dụng thông tin từ cấu trúc đồ thị, giúp cải thiện đáng ké hiệu suất phân loại nút.

- Kha năng học biểu diễn cấu trúc: Các mơ hình GNNs có khả năng học biểu diễn cho cấu trúc đồ thị, cho phép chúng biểu diễn thông tin từ các nút lân cận một

cách hiệu quả.

* Xử lý đồ thị lớn: Các nghiên cứu gần đây đã đưa ra các giải pháp cho việc xử lý đồ thị lớn và thưa thớt, giúp nâng cao khả năng ứng dụng của phân loại nút trong các ứng dụng thực tế.

* Tích hợp thơng tin đa dạng: Các mơ hình mới cho phép tích hợp nhiều loại thơng tin, bao gồm thơng tin nút, thông tin cạnh, và thông tin thuộc tinh của nút dé cải

thiện hiệu suất phân loại.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 7

</div>Trang 23<div class="page_container" data-page="23">

CHƯƠNG I. TONG QUAN BÀI TỐN

1.1.2 Bài tốn dự đoán liên kết

Dự đoán liên kêt là một van đê cơ bản cơ gang ước tính kha năng sự tơn tại cua

một liên kết giữa hai nút [26]. Quá trình nay cải thiện sự hiệu biệt của chúng ta vê môi

quan hệ giữa các nút cụ thê và sự tiên hóa của tồn bộ mạng.

aa arts

Kate ve] xen

Hình 1.2: Ví dụ về bài toán dự đoạn liên kết giữa các người dùng trong mạng xã hội.

Dự đoán liên kết đã được áp dụng rộng rãi trong nhiều lĩnh vực như sinh học [3] và mang xã hội [41, 39]. Có một loạt các phương pháp cho việc dự đoán liên kết trong các mạng. [7] cung cấp một khảo sát tồn điện bao gồm các thuật tốn dự đốn đa dạng các liên kết, với sự tập trung đặc biệt vào việc xem xét các hạn chế tổn tai trong

các phương pháp đó. [3] trình bày một khảo sát bang cách tóm tắt các phương pháp

khác nhau, giới thiệu các ứng dụng điền hình và chỉ ra các thách thức trong tương lai của các thuật toán dự đoán liên kết. Dựa trên nền tảng này, [6] cung cấp một góc nhìn hiện đại hơn bằng cách tích hợp các phương pháp gần đây và thực hiện một phân tích

so sánh tỉ mỉ của các kỹ thuật dựa trên độ tương tự.

Một số cách thường được sử dụng dé thực hiện bai toán này bao gồm:

* Phương pháp Heuristic: Phương pháp này tập trung chủ yếu vào việc tính tốn sự giống nhau giữa hai nút một cách heuristic (ví dụ như bậc của nút, lân cận chung....) để dự đốn xác suất có một liên kết giữa hai nút này. Cách này thì sẽ

dựa chủ yếu vào các đặc trưng về mặt cấu trúc của nút thay vì đi sâu vào các đặc

trưng về nội dung của nút.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 8

</div>Trang 24<div class="page_container" data-page="24">

CHƯƠNG I. TONG QUAN BÀI TOÁN

* Phương pháp đặc trưng ân (Latent-feature): Ý tưởng của phương pháp này giống

với ý tưởng của bài toán Embedding (hoặc là bài tốn là Matrix Factorization),

tức là sẽ tính tốn sự giống nhau giữa các nút nhưng trước đó thì sẽ phân rã ma trận biểu diễn đồ thị về một chiều khơng gian có số chiều nhỏ hơn dé dễ tính tốn hơn. Phương pháp này thì sẽ đi sâu hơn vào việc chọn lọc đặc trưng về nội

dung của nút để so sánh sự giống nhau, từ đó sẽ dự đốn có kết nối giữa hai

node nảy hay khơng.

» Phương pháp dựa trên nội dung (Content-based): Ca hai phương pháp phép

heuris- tic và phương pháp đặc trưng ân đối mặt với vấn đề khởi đầu lạnh

(cold-start prob- lem). Điều này có nghĩa rằng khi một nút mới tham gia vào đồ thị, cả hai phương pháp này có thể khơng dự đốn liên kết của nó một cách chính xác

do thiếu thơng tin liên kết hoặc chỉ có một vài liên kết hiện có với các nút khác.

Trong trường hợp này, các phương pháp dựa trên nội dung (content-based

methods) có thé hữu ích. Các phương pháp này sử dụng đặc trưng nội dung rõ

ràng liên kết với các nút để dự đốn liên kết, và chúng có ứng dụng rộng rãi

trong hệ thống đề xuất (rec- ommender systems). Tuy nhiên, thường thì các phương pháp dựa trên nội dung có hiệu suất kém hơn so với các phương pháp heuristic và đặc trưng an do không sử dụng cấu trúc đồ thị. Ví dụ, trong mạng xã

hội, hồ sơ của một người dùng, chang hạn như thông tin về độ tuổi và sở thích, có thể được sử dụng làm đặc trưng nội dung (content features) của họ dé dự

đoán các liên kết tiềm năng với những người khác. Tuy nhiên, thông tin về mối quan hệ bạn bè của họ khơng được sử dụng vì thơng tin đó thuộc về đặc trưng

cấu trúc đồ thị và được tính tốn từ cấu trúc đồ thị mạng xã hội. Việc sử dụng cả hai loại đặc trưng này có thể giúp dự đốn liên kết một cách chính xác hơn trong

mạng xã hội. Do đó, phương pháp dựa trên nội dung thường được sử dụng cùng

với hai loại phương pháp trên để cải thiện hiệu suất dự đoán liên kết.

Do khó khăn trong việc xác định một phương pháp có hiệu suất tốt nhất trong tất cả các mạng phức tạp, phụ thuộc mạnh vào các đặc điểm cấu trúc của mạng, nên tác giả trong [27] đã phân loại các chiến lược dự đoán liên kết khác nhau, bao gồm dựa

trên các hàng xóm chung, dựa trên đường dẫn, dựa trên mơ hình xác suất và thống kê,

dựa trên bộ phân loại và dựa trên nhúng mạng.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 9

</div>Trang 25<div class="page_container" data-page="25">

CHƯƠNG I. TONG QUAN BÀI TOÁN

1.1.3 Mang no-ron đồ thị

Mang Neuron Đồ Thị (Graph Neural Network - GNN) là một loại mạng nơ-ron được thiết kế để làm việc với dữ liệu có cấu trúc dạng đồ thị. GNN đã đạt được sự pho bién rong rai trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên, phân loại đồ thị, và dự

đoán đồ thị. Đặc biệt, GNN thường được sử dụng khi bạn muốn mô hình hóa các mối

quan hệ phức tạp giữa các phan tử trong dit liệu dạng đồ thị. Các mơ hình GNN đã cho

thấy hiệu năng, kết quả vượt trội so với các giải thuật nhúng đặc trưng đã được khi áp

dụng với bài toán phân loại nút, dự đoán liên kết. Điểm mạnh của mạng nơ-ron đồ thị GNN là khả năng kết hợp giữa thuộc tinh cau trúc và thuộc tinh nút. Trong GNN, dữ liệu được biểu diễn dưới dạng đồ thị, bao gồm các nút (nodes) và các cạnh (edges) kết nối các nút với nhau. Ta ký hiệu đồ thi bằng G = (V, E) với:

«_Ƒ là tập hợp các đỉnh, mỗi đỉnh thể hiện một thực thé hoặc đối tượng. ¢ EF là tập hợp các cạnh, biểu thị mối quan hệ hoặc kết nối giữa các đỉnh.

Mỗi đỉnh v € V có các đặc trưng (features) tương ứng, thường được biểu diễn

dưới dạng vector x,.

Ý tưởng trung tâm trong GNN là học cách nhúng (embed) mỗi nút trong đồ thị.

Nhung nút (node embeddings) chứa thông tin về cau trúc và mối quan hệ giữa các nút bằng cách tổng hợp thông tin từ các nút lân cận. Q trình tính tốn nhúng nút trong GNN có thê chia thành các bước sau:

Ban dau, mỗi nút v được khởi tạo với vector trạng thái ban đầu:

0 —_

h, _ f(x)

Ở đây, ƒ (x,) là một hàm biểu diễn định dang nút v với x, là vector đặc trưng của nút.

Sau đó, thơng tin từ các nút lân cận được truyên qua các cạnh đên nút hiện tại.

Cơng thức cho q trình này có thể được ký hiệu như sau:

</div>Trang 26<div class="page_container" data-page="26">

CHƯƠNG I. TONG QUAN BÀI TỐN

* AGGREGATE là hàm tổng hợp thơng tin từ các nút lân cận.

Cuối cùng, trạng thái của các nút được cập nhật dựa trên thông tin đã truyền tải:

ÿ*' = UPDATE(„', „*')

v M y

Ham UPDATE thường là một hàm kết hợp thông tin mới và trạng thái cũ của nút để

tạo ra trạng thái mới.

Hình 1.3: Kiến trac GNN. Đầu tiên, GNN lựa chon các hàng xóm theo một chiến lược cụ thé. Sau đó, một hàm tổng hợp được áp dụng dé trích xuất thơng tin xung quanh nút

trung tâm. Cuối cùng, thông tin đã tổng hợp đi qua một mạng nơ-ron đề thực hiện biến đổi phi tuyến tính. Dau ra là biéu diễn cập nhật của nút trung tâm.

Nguồn:

352526255

Nhung đồ thi (graph embedding), kỹ thuật biến đổi một đồ thi đã cho thành một

không gian chiều thấp (lower-dimensional space) trong khi vẫn bảo tồn các đặc điểm cau trúc cơ bản và các đặc điểm vốn có khác, hiện đang thu hút sự chú ý đáng ké trong

các lĩnh vực nghiên cứu ([22], [2]). Bằng cách tao ra các nhúng nút, một loạt các nhiệm vụ phân tích đồ thị, như là phân loại nút, phân cụm nút và dự đoán liên kết, có

thể được thực hiện một cách hiệu quả, tối ưu hóa cả mặt thời gian và khơng gian [16]. Các thuật toán nhúng đồ thị bán giám sát (semi-supervised graph embedding

algorithms) thường giả định rằng dữ liệu được gán nhãn đào tạo đã được cung cấp, điều này có thể không luôn đúng trong thực tế [23]. Với một ngân sách gán nhãn

(labeling budget), chiến lược lựa chọn các nút dé gan nhãn cho đào tạo dé tơi đa hóa

hiệu suất cuối cùng (eventual performance) là một van dé quan trọng. Dé giải quyết

vấn đề này, khái niệm Học tập chủ động (Active Learning - AL) đã được giới thiệu như một giải pháp [11]. Các chiến lược AL cung cấp một cơ chế hiệu qua dé cải thiện quá trình gán nhãn dữ liệu bằng cách ưu

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 11

</div>Trang 27<div class="page_container" data-page="27">

CHƯƠNG I. TONG QUAN BÀI TOÁN

tiên xác định và gán nhãn các trường hợp có nhiều thơng tin nhất. Điều này giúp tối ưu hóa hiệu suất và hiệu quả tong thé của các mơ hình học máy. Đặc biệt, các nhiệm vụ

dựa trên đồ thị, bao gồm nhiều ứng dụng như phân tích mạng xã hội, hệ thống đề xuất và suy luận mang sinh học, đã hưởng lợi lớn từ những phát triển này ([36], [40]).

1.1.4 Học chủ động

Trong nhiều lĩnh vực, đữ liệu đã được gán nhãn thường tốn kém về chỉ phí và thời gian. Do đó, học chủ động (Active Learning - AL) được đề xuất dé huấn luyện một bộ

phân loại có khả năng dự đoán nhãn của các trường hợp mới một cách chính xác trong

khi yêu cầu ít nhãn đào tạo nhất có thể. Một khung làm việc AL thường bao gồm hai thành phần chính: một hệ thống truy vấn chọn một trường hợp từ dữ liệu dao tao dé yêu cầu nhãn của nó và một "chuyên gia" gan nhãn cho trường hợp được truy van. Cac nhà nghiên cứu đã đề xuất nhiều thuật toán đề tối ưu hóa hiệu suất đào tạo trong một

lượng gán nhãn cơ định. Nói chung, các triển khai khác nhau của AL có thé được đề

xuất cho các thuật tốn phân loại khác nhau. Không tồn tại một giải pháp AL "tối ưu"

cho tất cả nhiệm vụ phân loại.

học một mô hình mơ hình học máy

tập nhãnđào tạo

—_

chon cac mau

Hình 1.4: Tổng quát các bước của phương thức hoc chủ động.

Nguồn: hftps:/medium.com/better-ml/introduetion-to-active-learning-23f50725ca§5

Các thuật tốn học tập chủ động truyền thống hoạt động bang cách truy vấn từng

mau dé gan nhãn một cách tuần tự. Tuy nhiên, cách tiếp cận như vậy thường khơng tối

ưu khi áp dụng cho các mơ hình học sâu vì thường xun tạo lại mơ hình nhưng cập

nhật rất ít và có nguy cơ q khớp (overfitting) [5]. Do đó, trong học tập chủ động sâu, truy van theo lơ (batch-mode setting), trong đó một tập hợp đa dạng các trường hợp được lấy mẫu và truy vấn, thường được sử dụng nhiều hơn. Trong những năm gần

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 12

</div>Trang 28<div class="page_container" data-page="28">

CHƯƠNG I. TONG QUAN BÀI TỐN

đây, ngun

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 13

</div>Trang 29<div class="page_container" data-page="29">

CHƯƠNG I. TONG QUAN BÀI TOÁN

tắc thiết kế thử nghiệm tối ưu (optimal experimental design principle) ({31], [30]) đã thúc day cộng đồng học máy dé giảm thiểu việc sử dụng tài nguyên đào tao và tránh

việc điều chỉnh (tuning) trên một tập kiểm định. Kết hợp các cai đặt của hoc tập một lần (one-shot learning) và học tập chủ động chế độ theo lô (batch-mode), một số nghiên cứu gần đây ([1], [14]) đã áp dung cài đặt học tập một lần theo lô (one-step

batch-mode active learning).

Tất cả các kịch bản hoc tập chủ động đều liên quan đến việc đánh giá tính thơng tin của các mẫu khơng được gan nhãn, có thé được tao mới hoặc lay mau từ một phân

nhất định. Dưới đây, em sử dụng ký hiệu x% dé chỉ mẫu có nhiều thơng tin nhất (tức là truy van tối ưu) theo một số thuật toán lựa chọn truy vẫn A.

1.1.4.1 Lay mẫu bat định

Có lẽ chiến lực truy vấn đơn giản nhất và được sử dụng phô biến nhất là lấy mẫu không chắc chắn [4]. Trong chiến lực này, một chiến lực học tích cực truy vẫn các

trường hợp mà nó ít chắc chắn nhất về cách gắn nhãn. Cách tiếp cận này thường đơn

giản đối với các mơ hình học tập xác suất. Ví dụ: khi sử dụng mơ hình xác suất để phân loại nhị phân, chiến lược lay mẫu không chắc chan chi cần truy vấn trường hop có

Trong đó y; là tat cả các nhãn có thé có. Entropy là thước đo về ly thuyết thông tin thé hiện lượng thông tin cần thiết dé “ma hóa” một phân phối. Vì vậy, nó thường được coi

là thước đo độ khơng chắc chắn trong học máy. Đối với phân loại nhị phân, việc lấy

mẫu bất định dựa trên entropy giống hệt với việc chọn mẫu có hậu nghiệm gần nhất với 0,5. Tuy nhiên, cách tiếp cận dựa trên entropy có thé được khái quát hóa dé dang

thành các bộ phân loại đa nhãn xác suất và các mơ hình xác suất cho các trường hợp có cấu trúc phức tạp hơn.

Chiến lược lay mẫu bat định cũng có thê được sử dụng với các mơ hình phi xác

suất. Một trong những cơng trình đầu tiên khám phá việc lay mẫu khơng chắc chắn đã

sử dụng bộ phân loại cây quyết định bang cách sửa đổi nó dé có đầu ra xác suất. Các cách tiếp cận tương tự đã được áp dụng cho việc học tập tích cực với các bộ phân loại

hàng xóm gần nhất, bằng cách cho phép mỗi người hàng xóm bỏ phiếu về nhãn lớp

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 14

</div>Trang 30<div class="page_container" data-page="30">

CHUONG I. TONG QUAN BÀI TOÁN

của x, với tỷ lệ phiêu bâu này đại diện cho xác suât nhãn sau.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 15

</div>Trang 31<div class="page_container" data-page="31">

CHƯƠNG 1. TONG QUAN BÀI TOÁN

1.1.4.2 Phuong thức Query-By-Committee

Một khung lựa chọn truy van khác là thuật toán truy vấn theo commitee

(Query-By-Committee) (QBC). Cách tiếp cận QBC liên quan đến việc duy trì một commitee

C= 6(I),..., Ø (C) của các mơ hình đều được huấn luyện trên tập L được gan nhãn hiện tại, nhưng đại diện cho các giả thuyết cạnh tranh với nhau. Sau đó, mỗi thành viên trong commitee được phép bỏ phiếu về việc gan nhãn cho các ứng cử viên truy van.

Truy vấn có nhiều thơng tin nhất được coi là trường hợp mà họ khơng đồng tình nhất. Tiền đề cơ bản đăng sau chiến lực QBC là giảm thiểu không gian phiên bản, là tập

hợp các giả thuyết phù hợp với dir liệu huấn luyện được gắn nhãn hiện tại L. Nếu chúng ta xem học máy là một cuộc tìm kiếm mơ hình “tốt nhất” trong khơng gian phiên bản thì mục tiêu của chúng ta trong học tích cực là hạn chế kích thước của không gian này càng nhiều càng tốt (dé việc tìm kiếm có thé chính xác hơn) với càng it

trường hợp được gán nhãn càng tốt. Đây chính xác là những gì QBC thực hiện bằng cách truy vân trong các vùng gây tranh cãi của không gian đâu vào.

1.1.4.3 Phuong thức Estimated Error Reduction

Các chiến lược truy van cô gang giảm thiểu lỗi tong quát hóa một cách trực tiếp cũng đã được xem xét như một chiến lực truy van (Estimated Error Reduction) (EER).

Các thuật toán trong phần trước giảm thiểu lỗi một cách gián tiếp bằng cách giảm

phương sai mơ hình, tuy nhiên, điều này khơng thể thực hiện được ở dạng đóng cho tất cả các lớp mơ hình. Thay vào đó, chúng ta có thé ước tính lỗi dự kiến trong tương lai sẽ xảy ra nếu một số phiên bản x mới được gắn nhãn và thêm vào L, sau đó chọn phiên

bản giảm thiểu kỳ vọng đó. Khung giảm lỗi ước tính có ưu điểm kép là gần tối ưu và

không phụ thuộc vào lớp mơ hình. Tất cả những gì cần thiết là một hàm mất mát thích hợp và một cách ước tính xác suất nhãn sau. Ví dụ, các chiến lược trong khuôn khô này đã được sử dụng thành cơng với nhiều mơ hình khác nhau bao gồm Naive Bayes,

Gaussian random fields, logistic regression va SVM.

Ngược lại, việc giảm lỗi ước tính cũng có thể là chiến lực lựa chọn truy vẫn cực ky

tốn kém. Nó khơng chi u cầu ước tính lỗi dự kiến trong tương lai trên U cho mỗi truy van mà một mơ hình mới còn phải được dao tạo lại dan dần cho từng nhãn truy

vấn có thé, từ đó lặp lại trên tồn bộ nhóm. Điều này dẫn đến sự gia tăng mạnh mẽ trong chỉ phí tính tốn. Do đó, các ứng dụng của khung giảm lỗi ước tính hầu hết chỉ xem xét các nhiệm vụ phân loại nhị phân đơn giản. Hơn nữa, do cách tiếp cận này

thường không thực tế nên một số nhà nghiên cứu đã sử dụng đến việc lấy mẫu con

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 16

</div>Trang 32<div class="page_container" data-page="32">

CHƯƠNG I. TONG QUAN BÀI TỐN

nhóm U khi chọn truy

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 17

</div>Trang 33<div class="page_container" data-page="33">

CHƯƠNG I. TONG QUAN BÀI TOÁN

van hoặc chỉ sử dụng các kỹ thuật dao tạo gần đúng.

1.2 Học chủ động cho bài toán phân loại nút trên đồ thị

Phương pháp AL trên đồ thị khác biệt với hầu hết các thuật toán AL theo hai cách:

các nút đào tạo nằm trong cấu trúc đồ thị thay vì độc lập và biểu dién của các nút đào

tạo được học trong quá trình đào tạo bộ phân loại thay vì được đưa vào như là một đầu vào có định. Phan lớn AL trên đồ thị có thé được chia thành bốn loại, bao gồm: EER,

Heuristics, Uncertainty và GraphPart. EER (Expected Error Reduction) ({19], [43],

[42]) là một tiêu chí trong hoc tập chủ động chon các trường hợp có kha năng giảm lỗi

phân loại dự kiến cao nhất, nhằm tối ưu hóa hiệu suất mơ hình một cách hiệu quả. Heuristics ([43], [S]) là các chiến lược theo nguyên tắc thông thường được sử dụng trong học tập chủ động dé hướng dan việc lựa chon các điểm dữ liệu thông tin cho việc

đánh nhãn, thường dựa trên các độ đo như sự không chắc chắn, đa dạng hoặc khơng

đồng tình giữa các mơ hình. Lay mẫu khơng chắc chắn (Uncertainty sampling) ([38], [8], [14], [33]) là một phương pháp học tập chủ động chọn các trường hợp dé đánh nhãn dựa trên độ không chắc chắn của xác suất phân loại dự kiến của họ, nhắm vào

các trường hợp mà mơ hình ít tự tin nhất trong dự đốn của mình. Gần đây, GraphPart [33]. đầu tiên chia đồ thị thành các phần không giao nhau và sau đó chọn các nút đại

diện trong mỗi phần để truy vấn. Cần lưu ý rằng tất cả công việc trước đây đều hoạt động dưới giả định về đồ thị day đủ, điều này không phan ánh hiện thực do tính khơng

day đủ của hầu hết các đồ thị thực tế. Trong Bảng 1.1, em tóm tắt các phương pháp học tập chủ động nêu trên cho nhiệm vụ phân loại nút.

¬- Phương pháp or so hi a

Thử nghiệm — - Đơ thi khơng hồn chỉnh | Thích ứngEER | Heuristics | Uncertainty | GraphPart

Zhu et al. [19] x Khong Khơng

Macskassy [43] X X Khơng CóGu and Han [42] x Khong Không

Ma and Yifei [38] x Không Không

Cai et al. [8] x x Khơng Có

Wu et al. [14] x Khong CoMa and Jiaqi [33] x x Khơng CóALIN x x Co Co

Bang 1.1: Tom tắt về các kỹ thuật học tập chủ động cho việc phân loại nút trên đồ thị.

Ở đây, cột "Thích ứng" cho biết rằng học tập chủ động được cập nhật dựa trên các

trường hop đã được gan nhãn mới.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 1§

</div>Trang 34<div class="page_container" data-page="34">

CHUONG 1. TONG QUAN BÀI TỐN

1.3 Bài tốn phân loại nút trên do thị khơng hồn chỉnh

Các phương pháp mới của AL trên đồ thị thường giả định rằng đồ thị gốc là hoàn

toàn đầy đủ ([33]). Tuy nhiên, giả định này thường q đơn giản vì đồ thị gốc khơng

thể được quan sát hoàn toàn trong nhiều ứng dụng thực tế của phân tích đồ thị ([24], [29]). Mặc dù, trong lý thuyết, có thể tận dụng thêm nguồn lực để khám phá toàn bộ cấu trúc đồ thị, việc thu thập cau trúc đồ thị toàn điện thường tỏ ra q tốn kém, địi

hỏi cơng sức hoặc hồn tồn khơng khả thi trong thực tế [24]. Ví dụ, dữ liệu mạng

trích xuất từ các nền tảng truyền thơng xã hội mang lại hạn chế về quyền riêng tư khi một tỷ lệ lớn 52,6% người dùng Facebook đã thực hiện biện pháp dé che giấu kết nối bạn bè của họ trong q trình phân tích dân số của Facebook tại New York City vào tháng 6 năm 2011.' Do đó, khi làm việc với dữ liệu đồ thị, người ta nên giả định một trường hợp thực tế hơn là chỉ một phan cấu trúc đồ thị có sẵn trong thực tế ([28], [35],

[20]). Điều này đặt ra một thách thức quan trọng: Làm thế nào chúng ta có thể điều chỉnh các phương pháp AL dé hoạt động hiệu quả trên những đồ thị không đầy đủ như

Dé giải quyết thách thức này, em giới thiệu một khung học tập chủ động mới được điều chỉnh một cách rõ ràng dé xử lý đồ thị khơng hồn chỉnh: ALIN (Active Learning

for Incomplete Networks). Em đề xuất một khung học tập chủ động mà tích hợp cơ

chế điểm số dựa trên cạnh vào khung làm việc. Thông thường, các phương pháp AL

trên đồ thị đã ưu tiên mục tiêu liên quan đến nút, chăng hạn như tối ưu hóa độ chính xác trong việc phân loại nút, điều này khơng cịn đủ và cần phải chọn các nút một cách chiến lược để đóng góp vào tính đầy đủ của đồ thị. Tuy nhiên, việc đơn giản chỉ giới

thiệu điểm cạnh có thé anh hưởng đến mục tiêu chính của việc phân loại nút, dẫn đến

sự giảm độ chính xác tông thé. Dé tạo ra sự cân bằng giữa việc nâng cao độ đầy đủ của đồ thị và bảo tồn độ chính xác trong việc phân loại nút, em giới thiệu một quy trình đào tạo hai pha. Trong các kỷ nguyên (epoch) ban đầu, em tập trung vào dự đoán liên

kết giữa các nút như một nhiệm vụ phụ. Giai đoạn sớm này nhằm thiết lập một sự hợp

tác hiệu quả giữa điểm số nút và điểm số cạnh, tạo điều kiện thuận lợi cho việc tạo ra các cạnh có thơng tin trong đồ thị khơng đầy đủ. Trong các kỷ nguyên sau, phương pháp của em chuyền một cách mượt mà đến việc ưu tiên nhiệm vụ cốt lõi của phân

loại nút, đảm bảo rằng mục tiêu cuối cùng được đạt được với độ chính xác cao. Bằng cách kết hợp mục tiêu nâng cao độ đầy đủ của đồ thị và tăng cường độ chính xác trong

việc phân loại nút, khung học tập chủ động mà em đề xuất giải quyết những thách thức đặc biệt của các đồ thị không đầy đủ. Phương pháp đột phá này không chỉ mở rộng khả

năng áp dụng của các kỹ thuật học tập chủ động đối với các tình huống thực tế mả cịn

mở ra cửa cho việc phân tích dữ liệu

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 19

</div>Trang 35<div class="page_container" data-page="35">

CHƯƠNG I. TONG QUAN BÀI TOÁN

'Em tham khảo [21] cho thống kê này.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 20

</div>Trang 36<div class="page_container" data-page="36">

CHƯƠNG I. TONG QUAN BÀI TỐN

dựa trên đồ thị tồn điện và chính xác hơn.

1.4 Mục tiêu của đô án

Trong đồ án của em, em sẽ trình bày một tập hợp các đóng góp, mỗi đóng góp đề cập đến một khía cạnh riêng biệt của vấn đề học tập chủ động trong ngữ cảnh của các đồ thi không day đủ:

+ Em giới thiệu khung học tập chủ động trên các đồ thị không day đủ (ALIN) được thiết kế tỉ mi dé giải quyết những thách thức mà cấu trúc đồ thị không day

đủ đặt ra, đồng thời cung cấp một giải pháp mạnh mẽ từ đầu đến cuối

(end-to-end solution).

- Em mở rộng phương pháp tính điểm nút thơng thường bằng cách giới thiệu điểm cạnh. Sáng kiến này được thiết kế đặc biệt để đáp ứng các yêu cầu tối ưu hóa của các đồ thị khơng đầy đủ, cho phép việc lựa chọn nút truy vấn một cách hiệu quả

+ Em đề xuất một hàm mat mát chung mới kết hợp một cách mượt mà giữa phân

loại nút và dự đoán liên kết. Sự kết hợp này đảm bảo rang tương tác giữa hai thành phần quan trọng này được tối ưu hóa. Hơn nữa, em giới thiệu một phương pháp dé điều hòa hai hàm mất mát này, từ đó đạt được kết quả xuất sắc trong

nhiệm vụ ci cùng của phân loại nút.

* Các đóng góp của em được chứng minh thông qua một loạt các thử nghiệm mở

rộng được tiến hành trên các bộ dit liệu. Các thử nghiệm này không chỉ xác định hiệu suất vượt trội của ALIN so với các phương pháp học tập chủ động truyền thống trên các đồ thị thử nghiệm chuẩn mà cịn nhấn mạnh tính 6n định của

phương pháp của em trên nhiều bộ đữ liệu và với các nền tảng GNN khác nhau.

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 21

</div>Trang 37<div class="page_container" data-page="37">

CHƯƠNG I. TONG QUAN BÀI TOÁN

1.5 Kết chương 1

Như vậy, trong chương 1 của đồ án, em đã trình bày kiến thức cơ sở liên quan đến

bài toán học chủ động cho bai toán phân loại trên đồ thị nói chung và trên đồ thị khơng hồn chỉnh. Bên cạnh đó, em cũng đưa ra mục tiêu đồ án của mình đó là giới thiệu

khung học tập mới tinh chỉnh trên đồ thị khuyết cạnh và đưa ra các kết quả thử nghiệm

chứng minh tính hiệu quả.

Sinh viên: Khơng Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 22

</div>Trang 38<div class="page_container" data-page="38">

CHƯƠNG 2. MƠ HÌNH DE XUẤT

Chương 2

MƠ HINH DE XUẤT

Trong chương 2 của đồ án, em sẽ trình bày vê hướng giải quyết bài toán và các

bước triển khai phương pháp đã đề xuất. Chương 2 bao gồm các đầu mục:

» Tiệp cận bai tốn¢ Giai đoạn truy van» Giai đoạn đào tạo

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp23

</div>Trang 39<div class="page_container" data-page="39">

CHƯƠNG 2. MƠ HÌNH DE XUẤT

2.1 Tiép cận bài tốn

Trong phần này, em mơ tả một định nghĩa chính thức của vấn đề học tập chủ động

trên một đồ thị không đầy đủ dưới cài đặt chế độ theo lô lặp (iterative batch-mode

settings) và giới thiệu một tập hợp thống nhất các biểu thức và kí hiệu tốn học.

Em ký hiệu một mạng cơ sở G = (V, E) với N nút v; € V, edges (v„ v;) C E,

ma trận đặc trưng nút là X € R**f (tức là, vectơ đặc trưng có kích thước F cho N nút),

ma trận nhãn cho các nút đã gan nhãn Y € R**€ (C là số nhãn của nút) (tức là, Y; ; = 1 cho biết nút i có nhãn /), một "chuyên gia" (oracle) dé gan nhãn cho các nút được

truy vân và các cạnh liên quan của chúng, và một ngân sách gan nhãn B.

Trong nghiên cứu này, em sẽ theo cài đặt chế độ batch lặp (iterative batch-mode setting) [14]. Trong cai đặt nay, cho mỗi lần lặp, em sử dụng một nguồn ngân sách xác

định trước dé chọn một lơ các nút dé gan nhãn, tối ưu hóa q trình truy vấn dé làm

giảm thiểu việc huấn luyện lặp lại không cần thiết. Em chia ngân sách đã cho B thành K phần có kích thước bằng nhau. Trong mỗi lần lặp k, em chọn b = [B/K] nút để truy

vấn, tạo thành một tập hợp các nút đã chọn, được ký hiệu là Q“). Mục tiêu chính của

phương pháp này là tận dụng thơng tin hữu ích được rút ra từ quá trình đào tạo, đồng

thời đảm bảo rằng không tiêu tốn quá nhiều nguồn lực. Điều này khác biệt so với cài

đặt học chủ động cơ bản, trong đó chỉ có một nút đơn lẻ được chọn vào một thời điểm,

có thê gây ra sự tăng đáng kể về nguồn lực đào tạo.

Vi em đang nghiên cứu một cài đặt trong đó dir liệu đồ thị khơng đầy đủ, cho mỗi

lần lặp k = {0,-+- , K}, em được cung cấp một đồ thị không đầy đủ GM= (V,

E )) và một tập nhãn không đầy đủ Y” an trong đó EM CE vay Me Y la tap

canh va tap nhan nut da cap nhat tai lần lặp thứ k. Tai lần lặp &, thông qua việc truy

k „ ~ ¬. yy ian , ~ „ rs . oe

van b nút, em thu được Y va E “ là tập hợp các nhãn nút mới thu được va các

cạnh mới sau truy vân. Ngoài

ngân sách b là sé luong tối đa của các nhãn nút được cập nhật tại một lần truy vấn.

Trong cài đặt này, em giả định rằng ma trận đặc trưng nút X là hoàn toàn quan sát

Mục tiêu của em là huấn luyện một mơ hình phân loại dựa trên GNN băng cách

cập nhật lặp lại các tham số của nó Ø (9, Mơ hình GNN ánh xạ (E~, X) thành các

(re . Lo, , , ig

và Eˆ®, Từ dự đốn và quan sát, em tính tốn mât mát phân loại

</div>Trang 40<div class="page_container" data-page="40">

CHUONG 2. MƠ HÌNH ĐỀ XUẤT

¬. aly. og, yaa

Inc ( Y : Y )vàmâtmát dự đốnlên (E

kết Ip

em tơng hợp Jvc và Jip với siêu tham số , được ký hiệu là L !.

~{k A ag Lo.

( š E &)), Đê kết hợp cả hai mât mát,

Sinh viên: Không Mạnh Tùng B19DCCN626 - Khóa D19 - Lớp 25

</div>

Tăng cường hiệu năng cho bài toán phân loại nút trong đồ thị khuyết thiếu cạnh bằng phương pháp học tích cực

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIỄN THONG KHOA CÔNG NGHỆ THÔNG TIN I

Giảng viên hướng dẫn: TS. Trần Tiến Công

Lớp: DI9HTTT01

HÀ NỘI 12-2023

LỜI CẢM ƠN

Danh sách hình vẽ

đi qua một mạng nơ-ron dé thực hiện biến đổi ph tuyến tính. Đầu ra

Danh mục từ viết tắt

MỞ ĐẦU

Chương 1

TONG QUAN BÀI TOÁN

1.1 Kiến thức cơ sở

» Không đồng nhất trong cấu trúc đồ thị: Đồ thị có thể có cấu trúc phức tạp, và các

1.1.2 Bài tốn dự đoán liên kết

Kate ve] xen

1.1.3 Mang no-ron đồ thị

Cuối cùng, trạng thái của các nút được cập nhật dựa trên thông tin đã truyền tải:

—_

1.2 Học chủ động cho bài toán phân loại nút trên đồ thị

1.3 Bài tốn phân loại nút trên do thị khơng hồn chỉnh

1.4 Mục tiêu của đô án

1.5 Kết chương 1

Chương 2

MƠ HINH DE XUẤT

2.1 Tiép cận bài tốn

lần lặp k = {0,-+- , K}, em được cung cấp một đồ thị không đầy đủ GM= (V,

E )) và một tập nhãn không đầy đủ Y” an trong đó EM CE vay Me Y la tap

van b nút, em thu được Y va E “ là tập hợp các nhãn nút mới thu được va các

ngân sách b là sé luong tối đa của các nhãn nút được cập nhật tại một lần truy vấn.

cập nhật lặp lại các tham số của nó Ø (9, Mơ hình GNN ánh xạ (E~, X) thành các

và Eˆ®, Từ dự đốn và quan sát, em tính tốn mât mát phân loại

Inc ( Y : Y )vàmâtmát dự đốnlên (E

( š E &)), Đê kết hợp cả hai mât mát,

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về