Tải bản đầy đủ (.doc) (159 trang)

Nghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.96 MB, 159 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC

VÀ CÔNG NGHỆ VIỆT NAM

<b>HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ</b>

<b>Vũ Chí Quang</b>

<b>NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁNCỰC ĐẠI ẢNH HƯỞNG TRÊN MẠNG XÃ HỘI</b>

<b>VỚI RÀNG BUỘC ƯU TIÊN VÀ CHI PHÍ</b>

<b>LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN</b>

<b>Hà Nội – Năm 2024</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘ GIÁO DỤC

VÀ CÔNG NGHỆ VIỆT NAM

<b>HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ</b>

<b>Vũ Chí Quang</b>

<b>NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁNCỰC ĐẠI ẢNH HƯỞNG TRÊN MẠNG XÃ HỘI</b>

<b>VỚI RÀNG BUỘC ƯU TIÊN VÀ CHI PHÍ</b>

<b>LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TINMã số: 9 48 01 04</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CAM ĐOAN</b>

<i><b><small>Tôi xin cam đoan luận án: “Nghiên cứu một số phương pháp giải bài toán cựcđại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí” là cơng trình</small></b></i>

<small>nghiên cứu của chính mình dưới sự hướng dẫn khoa học của tập thể các thầy hướngdẫn. Luận án sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau và cácthơng tin trích dẫn được ghi rõ nguồn gốc. Các kết quả nghiên cứu của tôi được côngbố chung với các tác giả khác đã được sự nhất trí của đồng tác giả khi đưa vào luận án.Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từngđược cơng bố trong bất kỳ một cơng trình nào khác ngồi các cơng trình cơng bố củatác giả. Luận án được hồn thành trong thời gian tơi làm nghiên cứu sinh tại Học việnKhoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.</small>

<i><small>Hà Nội, ngày 30 tháng 05 năm 2024</small></i>

<b><small>Tác giả luận án</small></b>

<b><small>Vũ Chí Quang</small></b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN</b>

<small>Tơi xin bày tỏ lịng biết ơn chân thành và sâu sắc tới tập thể thầy giáo hướngdẫn, TS Nguyễn Như Sơn và PGS.TS Ngô Quốc Dũng, các thầy đã giành nhiều thờigian, công sức để định hướng và hướng dẫn tơi hồn thành các nghiên cứu của mình.Tơi xin chân thành cảm ơn Ban lãnh đạo và các thầy cô Học viện Khoa học và Côngnghệ, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đãtạo điều kiện, giúp đỡ tơi trong q trình học tập và nghiên cứu tại Học viện.</small>

<small>Tôi xin gửi lời cảm ơn đến các nhà khoa học, các cộng sự đã có những góp ýq báu giúp tơi hồn thành các cơng bố cũng như hồn thành luận án này.</small>

<small>Tơi xin chân thành cảm ơn lãnh đạo và các đồng nghiệp của Khoa An ninhmạng và phịng chống tội phạm sử dụng cơng nghệ cao - Học viện An ninh nhân dânđã luôn hỗ trợ, giúp đỡ tơi trong suốt q trình nghiên cứu.</small>

<small>Xin cảm ơn những người thân, bạn bè đã cổ vũ động viên, chia sẻ những khókhăn cùng tơi trong thời gian qua. Cuối cùng, luận án này sẽ không thể hoàn thànhđược nếu thiếu sự động viên về mọi mặt của bố mẹ, anh chị em trong gia đình và củavợ, con tôi, những người luôn là động lực về tinh thần giúp tơi vững bước trong qtrình nghiên cứu và trong cuộc sống. Xin trân trọng cảm ơn!</small>

<i><small>Hà Nội, ngày 30 tháng 05 năm 2024</small></i>

<b><small>Tác giả luận án</small></b>

<b><small>Vũ Chí Quang</small></b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b><small>1.1Giới thiệu về mạng xã hội ... 17 </small></b>

<i><b><small>1.1.1Các thành phần cơ bản của mạng xã hội ... 18 </small></b></i>

<i><b><small>1.1.2Một số đặc trưng chung của mạng xã hội ... 19 </small></b></i>

<i><b><small>1.1.3Lợi ích của mạng xã hội ... 20 </small></b></i>

<i><b><small>1.1.4Mặt trái của mạng xã hội ... 21 </small></b></i>

<b><small>1.2Các mơ hình lan truyền thông tin trên mạng xã hội ... 23 </small></b>

<i><b><small>1.2.1Mơ hình lan truyền thơng tin rời rạc ... 24 </small></b></i>

<i><b><small>1.2.2Mơ hình Ngưỡng tuyến tính (LT) ... 25 </small></b></i>

<i><b><small>1.2.3Mơ hình Bậc độc lập (IC) ... 27 </small></b></i>

<i><b><small>1.2.4Mơ hình cạnh trực tuyến (LE) ... 29 </small></b></i>

<b><small>1.3Một số bài toán lan truyền thông tin trên mạng xã hội ... 32 </small></b>

<i><b><small>1.3.1Cực đại ảnh hưởng (Influence Maximization - IM) ... 33 </small></b></i>

<i><b><small>1.3.2 Phát hiện thông tin (Information Detection - ID)...34</small></b></i>

<i><b><small>1.3.3 Ngăn chặn ảnh hưởng (Influence Blocking - IB)...34</small></b></i>

<i><b><small>1.3.4Một số bài toán khác trên mạng xã hội ... 37 </small></b></i>

<b><small>1.4Bài toán tối ưu tổ hợp và một số phương pháp giải các bài toántối ưu tổ hợp...39</small></b>

<i><b><small>1.4.1Bài toán tối ưu tổ hợp ... 39 </small></b></i>

<i><b><small>1.4.2Phân loại các lớp bài toán trong tối ưu tổ hợp ... 40 </small></b></i>

<i><b><small>1.4.3Một số phương pháp giải bài toán tối ưu tổ hợp ... 41 </small></b></i>

<i><b><small>1.4.3.1 Phương pháp xấp xỉ...42</small></b></i>

<i><b><small>1.4.3.2 Phương pháp Monte Carlo...44</small></b></i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i><b><small>1.4.3.3 Phương pháp Heuristic...44</small></b></i>

<i><b><small>1.4.3.4 Thuật toán luồng...45</small></b></i>

<b><small>1.5Các nghiên cứu liên quan ... 46 </small></b>

<i><b><small>1.5.1Các nghiên cứu liên quan trong nước ... 4 61.5.2Các nghiên cứu liên quan bài toán cực đại ảnh hưởng ... 4 71.5.3Các nghiên cứu liên quan bài tốn cực đại ảnh hưởng lan truyềnthơng tin nhiều chủ đề...50</small></b></i>

<i><b><small>2.2.2Phát biểu bài toán ... 58 </small></b></i>

<b><small>2.3Thuật toán tham lam tích hợp ... 58 </small></b>

<b><small>2.4Thuật toán lấy mẫu dựa trên tham lam tích hợp ... 62 </small></b>

<i><b><small>2.4.1 Công cụ ước tính hàm ảnh hưởng...62</small></b></i>

<i><b><small>2.4.2Mơ tả thuật tốn và phân tích lý thuyết ... 65 </small></b></i>

<i><small>2.4.2.1Mô tả thuật toán ...</small><b><small> 65</small></b><small> </small></i>

<b><small>3.3Thuật toán luồng tất định khi </small></b><i><b><small> β = 1 </small></b></i><b><small>... 89 </small></b>

<i><b><small>3.3.1Thuật toán luồng tất định với giá trị tối ưu đã biết ... 89 </small></b></i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i><b><small>3.3.2 Thuật toán luồng tất định...95</small></b></i>

<b><small>3.4Thuật toán luồng ngẫu nhiên cho trường hợp tổng quát ... 99 </small></b>

<i><b><small>3.4.1Thuật toán luồng ngẫu nhiên với giá trị tối ưu đã biết ... 99 </small></b></i>

<i><b><small>3.4.2Thuật toán luồng ngẫu nhiên ... 106 </small></b></i>

<b><small>3.5Thực nghiệm và đánh giá ... 108</small></b>

<i><b><small>3.5.1Mục tiêu thực nghiệm ...108</small></b></i>

<i><b><small>3.5.2Thuật toán tham lam ... 109 </small></b></i>

<i><b><small>3.5.3Cực đại ảnh hưởng với k chủ đề bị hạn chế về chi phí ... 111 </small></b></i>

<b><small>3.6Kết luận chương ... 118</small></b>

<b><small>KẾT LUẬN ... 119 </small></b>

<b><small>DANH MỤC CƠNG TRÌNH CƠNG BỐ LIÊN QUAN ĐẾN LUẬN ÁN ... 121 </small></b>

<b><small>TÀI LIỆU THAM KHẢO ... 122 </small></b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>DANH MỤC CÁC KÝ HIỆU</b>

<small>�� �(� ), �𝑜�(� ) Tập nút vào và tập nút ra của nút ��� �(� ), �𝑜�</small><i><small>(� ) Bậc tương ứng vào và ra của nút v</small></i>

<i>R(g, S</i><i>U)<small>Ký hiệu tập hợp các nút trong U có thể tới từ S trong đồ thị g</small></i>

<small>𝑎��𝑔()Hàm trả về các đối số tại đó giá trị của hàm số đạt cực đại</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i>X<small>g</small>(S) và �</i><small>�</small>(�) <small>Biến ngẫu nhiên được xây dựng từ các mẫu RR và TRR</small>�<small>�</small><i>(S<small>2</small></i>, <i>ℛ</i><small>2</small>, δ) <small>Hàm tính cận dưới của � �2</small>

<i>F<small>u</small>(S<small>2</small>, </i>ℛ<small>2</small><i>, δ)</i> <small>Hàm tính cận trên của một giải pháp tối ưuKỳ vọng</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b><small>DANH MỤC CÁC TỪ VIẾT TẮT</small></b>

<small>Maximization problem</small>

<small>Bài toán cực đại ảnh hưởng lantruyền thơng tin nhiều chủ đề vớichi phí giới hạn</small>

<small>Ngưỡng tuyến tính cạnh tranh</small>

<i><small>Bài tốn cực đại ảnh hưởng với k</small></i>

<small>chủ đề bị hạn chế về chi phí</small>

<small>with Priority problem</small>

<small>Bài toán cực đại ảnh hưởng với ràng buộc ưu tiên</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>tiêu</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b><small>DANH MỤC CÁC BẢNG</small></b>

Bảng 2.1. Thống kê của bộ dữ liệu...74

<i>Bảng 2.2. So sánh về σ(S) và σ</i><small>U</small><i>(S) giữa IGS và các thuật toán khác với k = </i>

500, U = 1000 và T = 100 → 500...79Bảng 2.3. So sánh mức sử dụng bộ nhớ (MB) giữa IGS và các thuật tốn khác....83

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b><small>DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ</small></b>

<b>Tên hình vẽ, </b>

<small>Hình 1.1. Ví dụ lan truyền thơng tin cho mơ hình LT...27</small>

<small>Hình 1.2. Ví dụ lan truyền thơng tin cho mơ hình IC...28</small>

<small>Hình 1.3. Nhóm bài tốn lan truyền thơng tin trên SN ... 32 </small>

<small>Hình 1.4. Mơ tả thuật tốn luồng...46</small>

<small>Hình 2.1. Ví dụ cho thấy sự khác biệt giữa IM và IMP...55</small>

<b><small>Hình 2.2. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu netHEPT với</small></b><i><small>k=100 → 500, T=100 và U size =200...76</small></i>

<b><small>Hình 2.3. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu ENRON với</small></b><i><small>k=100 → 500, T=100 và U size =200...76</small></i>

<b><small>Hình 2.4. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu netPHY với</small></b><i><small>k=100 → 500, T=100 và U size =200...77</small></i>

<i><b><small>Hình 2 5. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu DBLP với k=100</small></b><small>→ 500, T=100 và U size =200...77</small></i>

<b><small>Hình 2.6. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệu RETWEET với</small></b><i><small>k=100 → 500, T=100 và U size =200...77</small></i>

<i><small>Hình 2.7. So sánh về thời gian chạy (s) với k thay đổi từ 150 đến 200 giữa IGS và </small></i><small>các thuật tốn khác...81</small>

<i><small>Hình 3.1. Kết quả về giá trị hàm ảnh hưởng của IMkB khi �=1...113</small></i>

<i><small>Hình 3.2. Kết quả về số lời gọi hàm mục tiêu của IMkB khi �=1...114</small></i>

<i><small>Hình 3.3. Kết quả về thời gian chạy (s) của IMkB khi �=1...115</small></i>

<small>Hình 3.4. Kết quả giá trị hàm ảnh hưởng của IMkB trong trường hợp tổng quát...116</small>

<i><small>Hình 3.5. Kết quả lời gọi hàm mục tiêu của IMkB trong trường hợp tổng quát...117</small></i>

<i><small>Hình 3.6. Kết quả về thời gian chạy (s) của IMkB trong trường hợp tổng quát...118</small></i>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>MỞ ĐẦU1. Lý do chọn đề tài</b>

<i>- Về mặt thực tiễn: Trong những năm gần đây, cùng với sự phát triển</i>

của công nghệ thông tin, mạng máy tính và cơng nghệ Web đã mang lại nhiềunền tảng để kết nối tồn cầu, trong đó nổi bật nhất là mạng xã hội (SocialNetwork - SN), trên SN mọi người cùng nhau kết nối, bất chấp không gian,thời gian để giải trí, học tập và kinh doanh. Khi sử dụng mạng xã hội ngườidùng có thể trở thành một phóng viên đưa tin và viết tin. Các vấn đề xã hộitrên thế giới nói chung và ở Việt Nam nói riêng nhờ có mạng xã hội đã lantruyền thơng tin đến được với nhiều người dùng hơn, nhanh hơn, từ đó giúpcon người nâng cao nhận thức xã hội, giúp đưa ra các giải pháp hiệu quả vàkịp thời cho những vấn đề cộng đồng quan tâm. Có thể nói mạng xã hội đãbùng nổ trong những năm gần đây, là mơi trường lan truyền thơng tin nhanhchóng và sâu rộng, làm ảnh hưởng sâu sắc và mạnh mẽ đến cuộc sống hàngngày của con người. Ngày nay, mạng xã hội trở thành một cơng cụ hữu ích đểlan truyền thông tin, quảng bá sản phẩm và là một kho tri thức mà mọi ngườicó thể dễ dàng tiếp cận.

Cùng với những lợi ích trên, thì mạng xã hội cũng mang lại nhiều rủi rocho người dùng, như lây nhiễm mã độc, lộ lọt thông tin cá nhân, mất tàikhoản, lừa đảo trên mạng, vv…

Đặc biệt, với khoảng gần 5 tỷ<small>1</small>người dùng trên khắp thế giới, SN đã vàđang trở thành nơi chia sẻ và lan truyền thông tin với tốc độ nhanh hơn bất kỳnền tảng nào khác. Theo các nghiên cứu gần đây, người dùng ngày càng thíchtrao đổi thơng tin trên SN nhiều hơn là các tin tức truyền thống [1], [2]. Vìvậy cần nghiên cứu các giải pháp hiệu quả để thông tin lan truyền đến ngườidùng trên mạng xã hội nhanh nhất, hiệu quả nhất.

<small>1 class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>- Về mặt khoa học: Nghiên cứu bài toán cực đại ảnh hưởng trên SN là</i>

hướng nghiên cứu được nhiều nhà khoa học quan tâm, bài tốn này thuộcnhóm các bài tốn lan truyền thơng tin (Spread Information - SI), đòi hỏi kếthợp giữa các phương pháp, kỹ thuật từ nhiều lĩnh vực khác nhau như: khaiphá dữ liệu đồ thị, học máy, học sâu, tính tốn tối ưu, vv... Bên cạnh đó, SNcó khối dữ liệu khổng lồ, phân tán và quá trình lan truyền thông tin ngẫunhiên, cấu trúc mạng phức tạp, không đồng nhất và liên tục biến động. Do đócần phải đưa ra các giải pháp hiệu quả về mặt thời gian và bộ nhớ. Mặc dù đãcó nhiều nghiên cứu được cơng bố, nhưng các bài tốn trên vẫn cịn nhiềuthách thức chưa được giải quyết như: xử lý các ràng buộc ưu tiên hay xử lývới chi phí giới hạn đối với các bài toán cực đại ảnh hưởng.

<b>Căn cứ vào những lý do trên, đề tài của luận án là: “Nghiên cứu mộtsố phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội vớiràng buộc ưu tiên và chi phí” có tính cấp thiết và quan trọng cả về mặt thực</b>

tiễn và khoa học trong việc tìm ra các giải pháp hiệu quả để cực đại ảnhhưởng lan truyền thơng tin trên SN, góp phần xây dựng hệ thống SN ngàycàng hữu ích hơn với người dùng.

Nội dung nghiên cứu của luận án bao gồm 02 bài toán như sau:

<i><b>a. Cực đại ảnh hưởng với ràng buộc ưu tiên (Influences Maximization</b></i>

<i><small>with Priority - </small><b>IMP)</b></i>

<i>Mục tiêu của bài tốn IMP là tìm tập nguồn S có kích thước k để bàitốn có ảnh hưởng đến U ít nhất là T (U là tập ưu tiên, T là Ngưỡng đạt được</i>

trong tập ưu tiên<small>) </small>và tổng ảnh hưởng đến các nút trong mạng đạt cực đại. Đâylà bài tốn thuộc nhóm bài tốn cực đại ảnh hưởng (<small>Influences Maximization -</small>IM) bài toán này đã và đang được nhiều nhà khoa học quan tâm nghiên cứu,điển hình là các công bố: [3] - [8], vv…

Ngày nay, các biến thể có tính ứng dụng cao của bài tốn IM đang đượcrất nhiều nhà khoa học quan tâm nghiên cứu.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i><b>b. Cực đại ảnh hưởng lan truyền thơng tin nhiều chủ đề với chi phígiới hạn (Budgeted k-Influence maximization - BkIM): Bài toán cực đại ảnh</b></i>

hưởng với nhiều chủ đề là một lớp bài tốn thuộc nhóm bài tốn cực đại ảnhhưởng (IM), trong đó mỗi người dùng trong mạng có thể được liên kết vớinhiều chủ đề khác nhau. Ví dụ, trong SN một người dùng có thể quan tâm đếnnhiều chủ đề khác nhau như thể thao, âm nhạc, du lịch, văn hóa, chính trị, vv...Bài toán cực đại ảnh hưởng với nhiều chủ đề sẽ giúp tìm ra tập người dùngtrong SN có tác động lớn nhất đến mỗi chủ đề cụ thể. Bài tốn cực đại ảnhhưởng với nhiều chủ đề có chi phí giới hạn là một biến thể của bài tốn cựcđại ảnh hưởng với nhiều chủ đề trên mạng xã hội, trong đó mỗi người dùngtrong mạng có thể được liên kết với nhiều chủ đề khác nhau và việc tối đa hóatác động của người dùng đến các chủ đề cụ thể có một chi phí tương ứng.Việc giải quyết bài tốn khơng chỉ đơn thuần tìm được tập người dùng có ảnhhưởng lớn nhất mà cịn phải thỏa mãn được tiêu chí khơng vượt q chi phíđề ra. Hiện nay, đã có nhiều nghiên cứu giải quyết cho bài toán cực đại ảnhhưởng với nhiều loại ràng buộc khác nhau, điển hình là các cơng bố: [23] -[30], vv…

<b>2. Một số thách thức</b>

Bài toán cực đại ảnh hưởng với ràng buộc ưu tiên (IMP) và bài toán cực

đã và đang nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa họctheo nhiều bối cảnh khác nhau. Tuy nhiên, vẫn còn nhiều vấn đề chưa được

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

giải quyết hoặc có thể cải tiến thêm. Khi nghiên cứu các bài toán này, các nhàkhoa học cũng như luận án phải đối mặt với một số thách thức, cụ thể như sau:- Các bài toán cực đại ảnh hưởng thường thuộc lớp bài toán tối ưu tổhợp có độ phức tạp tính tốn là NP-Khó. Bên cạnh đó, việc tính tốn hàmmục tiêu có độ phức tạp tính tốn là #P-Khó [5], [6]. Do đó, cần phải cónhững thuật tốn hiệu quả để đưa ra lời giải tốt trong thời gian cho phép.

- Với sự phát triển của các Mạng xã hội ngày nay (hàng triệu, hàng tỷngười dùng), cần đưa ra các thuật toán hoặc cách tiếp cận hiệu quả hơn chonhững bài toán trên để chúng mang tính thực tiễn cao.

- Để nâng cao tính ứng dụng của các bài tốn, cần nghiên cứu các biếnthể phù hợp với thực tế theo nhiều khía cạnh khác nhau như: ràng buộc ưutiên, chi phí, thời gian, lợi ích, khoảng cách, tính cạnh tranh, vv...

<b>3. Mục tiêu của luận án</b>

Để góp phần giải quyết các thách thức đối với các bài toán đề xuất, luậnán đưa ra các mục tiêu như sau:

- Nghiên cứu các bài tốn cực đại ảnh hưởng trên các mơ hình lantruyền thơng tin. Từ đó đề xuất các biến thể mới của bài toán như cực đại ảnhhưởng với ràng buộc ưu tiên và cực đại ảnh hưởng lan truyền thông tin nhiều

thực tiễn.

- Đưa ra các mơ hình để giải quyết các bài toán trên, nghiên cứu độphức tạp của chúng trên các mơ hình lan truyền thơng tin đang được các nhàkhoa học sử dụng rộng rãi.

- Đề xuất các thuật toán hiệu quả để giải quyết các bài tốn trên, trongđó cần chú trọng nâng cao chất lượng lời giải cũng như khả năng ứng dụngđối với các mạng xã hội cỡ lớn hàng trăm nghìn, hàng triệu, thậm chí hàng tỷcạnh hoặc nút.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

- Nghiên cứu và phân tích những cơng trình đã cơng bố liên quan đến cơchế, mơ hình và các bài tốn về lan truyền thơng tin. Từ đó, luận án đề xuất cácbài tốn mới có tính ứng dụng cao trong thực tiễn. Các bài toán này được chứngminh một cách chặt chẽ phù hợp cả về mặt lý thuyết lẫn thực nghiệm.

- Các thuật toán đề xuất mới đều được phân tích đánh giá, chứng minhchặt chẽ thơng qua phân tích lý thuyết dưới dạng các Bổ đề, Định lý. NCS kếthợp với các phương pháp thực nghiệm sử dụng các bộ dữ liệu khác nhau nhằmđảm bảo tính khách quan, tính hiệu quả của phương pháp đề xuất.

<b>4. Các đóng góp của luận án</b>

<b>Các nghiên cứu của luận án được cơng bố trên 02 tạp chí quốc tế thuộcdanh mục SCIE</b><small>/</small><b>SCOPUS; 01 bài báo hội thảo quốc tế thuộc danh mụcSCOPUS và 02 bài hội thảo trong nước. Trong đó, nội dung chính của luận</b>

án được thể hiện trong hai bài toán sau:

- Bài toán 1<i><b> : “Cực đại ảnh hưởng với ràng buộc ưu tiên", bài toán</b></i>

<b>được đặt tên là IMP (Influence Maximization with Priority). Mục tiêu của bài</b>

<i>tốn IMP là chọn tập nguồn S có k nút có thể ảnh hưởng của tập hợp ưu tiênnhất định U lớn hơn ngưỡng T nhằm điều chỉnh ảnh hưởng của tập nguồn đến</i>

tập ưu tiên. Mặc dù hàm mục tiêu (hàm ảnh hưởng) vẫn là một hàm đơn điệu

<i>và hàm Submodular, nhưng khi xem xét ràng buộc ưu tiên, các thuật tốn IM</i>

mới nhất khơng thể được áp dụng được. Để giải quyết thách thức này, luận ánđề xuất hai thuật toán IG (<small>Integrated Greedy</small>) và IGS (<small>Integrated Greedy - based</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<small>1−∝ �1+� �−�</small>

; IGS là một thuật toán xấp xỉ ngẫu nhiên hiệu quả dựa trên phươngpháp lấy mẫu trả về một nghiệm gần đúng 1 − 1 −

− � với xác suất ít

<i>nhất là 1 - δ với � > 0, δ </i>∈<i>(0, 1) làm tham số đầu vào của bài toán. Kết quả</i>

<b>nghiên cứu được xuất bản trên tạp chí Algorithms 2020, tập 13, số 183;doi:10.3390/a13080183.</b>

<i><b>- Bài toán 2: “Cực đại ảnh hưởng lan truyền thông tin nhiều chủ đềvới chi phí giới hạn”, bài tốn được đặt tên là BkIM (Budgeted k-Influence</b></i>

maximization). Luận án đề xuất hai thuật toán luồng duyệt dữ liệu một lần

<i>cung cấp giới hạn lý thuyết của bài toán BkIM.</i>

+ Đối với trường hợp đặc biệt: một phần tử chỉ có một giá trị chi phí

<i>khi được thêm vào phần tử thứ i bất kỳ, trước tiên luận án đề xuất thuật toán</i>

luồng tất định duyệt dữ liệu 1 lần, có độ phức tạp truy vấn là �( <small>��</small>

<small>�</small> log �), độphức tạp không gian là �( <small>�</small>

<small>�</small> log �) và trả về một tỷ lệ gần đúng là <small>1</small> − � khi<small>4</small>

<i>f là đơn điệu và </i><small>1</small><i> − � khi f không đơn điệu đối với bất kỳ tham số đầu vào</i>

<small>5</small>nào � ∈ (0, <small>1</small> ).

+ Đối với trường hợp tổng quát: luận án đề xuất thuật toán luồng ngẫunhiên duyệt dữ liệu 1 lần, có độ phức tạp truy vấn là �( <small>��</small>

<small>�</small> log �), độ phức tạpkhông gian là �( <small>�</small>

<small>�</small> log �) và trả về một tỷ lệ gần đúng là min { <small>∝</small> , } −<small>2</small>

<i>� khi f là đơn điệu và min { </i><small>∝</small> ,

<small>2</small> <i>} − � khi f không đơn điệu, ở đây</i>

� = ���<sub>�∈�, �, � ∈ �</sub><small>, � ≠� </small><sup>�</sup><sup>�</sup><sup>(�)</sup>

và � ∈ (0, 1) là tham số đầu vào. Kết quả đượcđăng trên kỷ yếu hội nghị quốc tế “In: Mohaisen, D., Jin, R. (eds) ComputationalData and Social Networks. CSoNet 2021. Lecture Notes in Computer Science(),

<small>1−∝ �1+2� �−2�</small>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>vol 13116. Springer, Cham.” thuộc danh mục SCOPUS và xuất bản trên tạp chíJournal of Combinatorial Optimization tập 44, trang 723–751.</b>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>5. Bố cục của luận án</b>

Bố cục của luận án được chia làm 3 chương như sau:

<b>Chương 1: Cơ sở lý thuyết của luận án và các nghiên cứu liên quan</b>

Trong chương này, luận án giới thiệu về mạng xã hội, các thành phầncơ bản, một số đặc trưng, những lợi ích và mặt trái của mạng xã hội; Giớithiệu các mơ hình và một số bài tốn lan truyền thơng tin phổ biến trên mạngxã hội; Một số kiến thức cơ bản sử dụng trong luận án; Đây là những kiếnthức tổng quan, mang tính nền tảng cho các chương sau của luận án.

<b>Chương 2: Cực đại ảnh hưởng với ràng buộc ưu tiên trên mạng xã hội</b>

Nội dung của chương này, luận án đặt vấn đề và định nghĩa bài toán

<b>IMP trên mơ hình lan truyền thơng tin; đề xuất thuật tốn tham lam tích hợp</b>

(IG) và thuật tốn lấy mẫu dựa trên tham lam tích hợp (IGS) cho bài tốn IMP;chứng minh hiệu suất thuật toán đạt xấp xỉ so với phương án tối ưu; Phân tíchlý thuyết và đánh giá thuật toán dựa trên thực nghiệm với các bộ dữ liệu củamạng xã hội trong thực tế.

<b>Chương 3: Cực đại ảnh hưởng lan truyền thông tin nhiều chủ đềvới chi phí giới hạn.</b>

Chương này luận án đề xuất mơ hình mới cho bài tốn cực đại ảnh

<i><b>hưởng lan truyền thơng tin nhiều chủ đề, định nghĩa bài toán BkIM, đề xuất</b></i>

hai thuật toán luồng duyệt dữ liệu một lần cung cấp giới hạn lý thuyết của bài

<i><b>toán BkIM. </b></i>Để xem xét hiệu suất của các thuật toán đề xuất trong thực tế,

<i>đề trong điều kiện chi phí giới hạn.</i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b>1.1 Giới thiệu về mạng xã hội</b>

Khái niệm mạng xã hội lần đầu được đề cập từ năm 1954 [31]. Sau đóvới sự ra đời và phát triển của cơng nghệ thơng tin, mạng máy tính và cơngnghệ Web đã dẫn tới sự hình thành các mạng xã hội như Facebook và Flickrnăm 2004, YouTube năm 2005, Twitter năm 2006, Sina Micro-blog năm2009 và Google<small>+</small> năm 2011, vv... Ngày nay thế giới đã chứng kiến hàng trămnghìn mạng xã hội lớn, nhỏ ra đời. Nhờ có mạng xã hội mà con người đã thayđổi cách thức tiếp cận thông tin. Người sử dụng trên mạng xã hội (gọi tắt làngười dùng) có thể trao đổi thơng tin, giao tiếp với nhau không kể thời gian,không gian và khoảng cách địa lý. Họ có thể chia sẻ thơng tin, quan điểm, ýkiến, hoặc chia sẻ các bài viết, ảnh, video của người khác vv... Đặc tính nàygiúp cho các thơng tin được lan truyền nhanh chóng trên SN và nội dung củathông tin ngày càng đa dạng và phong phú.

Bên cạnh đó, mạng xã hội cịn là nền tảng cho phép phát triển cácứng dụng, người dùng có thể tiến hành nhiều tiện ích khác do SN cungcấp. Cùng với sự phát triển của công nghệ và mạng xã hội hiện nay, ngàycàng có nhiều SN ra đời để khai thác nhiều khía cạnh khác nhau đáp ứngtồn diện nhu cầu của người dùng. Chính vì sự tiện ích này mà số lượngngười dùng SN đang ngày càng tăng lên. Với số lượng người dùng lớntrên toàn thế giới, SN đã và đang có những tác động không nhỏ đến thế

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

giới thực trên nhiều lĩnh vực như: kinh tế, chính trị, xã hội, vv… Trong đócó cả những tác động tích cực và tiêu cực. Vì vậy có rất nhiều cơng trìnhkhoa học nghiên cứu sâu về mạng xã hội, từ đó tìm ra những giải phápnhằm phát huy thế mạnh và hạn chế những tác động không mong muốncủa SN, để mạng xã hội ngày càng trở nên hữu ích và đáng tin cậy hơn vớingười dùng.

Mỗi mạng xã hội đều có mục đích, cấu trúc và tính chất riêng, nhưnghầu hết các mạng đều được cấu thành bởi các thành phần cơ bản như: Ngườidùng, liên kết, thông tin và tương tác của người dùng đối với thông tin.

<i><b>1.1.1 Các thành phần cơ bản của mạng xã hội</b></i>

<i>- Người dùng: Mỗi người dùng là một thực thể trên SN, thực thể này có</i>

thể là cá nhân, doanh nghiệp hoặc tổ chức nào đó, gọi chung là người dùnghay dân cư mạng. Ví dụ đối với Facebook người dùng có thể là một tài khoảncá nhân hoặc một nhóm có cùng sở thích (group) hoặc một trang người hâmmộ (fanpage), vv…

<i>- Liên kết: Trong một SN liên kết thể hiện mối quan hệ và sự ảnh hưởnggiữa những người dùng. Khái niệm liên kết trong mỗi SN là khác nhau. Ví dụ,với Facebook, Zalo thì liên kết tương ứng với quan hệ bạn bè, với Instagramliên kết tương ứng với chức năng “theo dõi”, còn với Tiktok liên kết tương</i>

ứng với “follow”, vv…

<i>- Thông tin: Trên mạng xã hội người dùng tự tạo nội dung thông tin và</i>

chia sẻ thông tin đến các thành viên khác theo các hình thức khác nhau.Thơng tin trên SN có thể là: bài viết, hình ảnh, âm thanh, video, đoạn tin ngắn(blog), vv.. có nội dung thuộc nhiều lĩnh vực khác nhau như: bài viết về chủđề thể thao, giải trí, âm nhạc hoặc bài viết về chủ đề kinh tế, chính trị, vv...

<i>- Tương tác: Thể hiện sự tương tác giữa những người dùng trên SN tạora mối quan hệ qua lại và hiểu biết lẫn nhau. Khái niệm “tương tác” được</i>

hiểu là sự phản hồi của người dùng đối với các thông tin của người dùng khác

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

lan truyền trên mạng xã hội, điều này được thể hiện thông qua việc: chia sẻ, đăng bài, theo dõi, bình luận, vv…

<i><b>1.1.2 Một số đặc trưng chung của mạng xã hội</b></i>

<i>- Đặc trưng thế giới nhỏ: Trong một số nghiên cứu đã chỉ ra rằng, đối</i>

với các mạng xã hội lớn khoảng cách trung bình kết nối giữa hai người dùngnhỏ hơn 6. Đây được coi là đặc trưng thế giới nhỏ của SN [32], [33]. Với đặctrưng thế giới nhỏ, thông tin dễ dàng lan truyền giữa những người dùng nhờtính kết nối nhanh chóng.

<i>- Đặc trưng tập nhân: Căn cứ vào cấu trúc và sự vận động của mọi</i>

mạng xã hội đều chịu sự ảnh hưởng của một số người dùng quan trọng (ngườicó chức sắc, địa vị hay người nổi tiếng, vv..). Những người dùng này có bậccao, được gọi là nút trung tâm hay nút nhân [34], “bậc” ở đây là số nút kháccó liên kết với người dùng đó. Các SN ln chứa một lượng lớn những nút cóbậc cao, bao quanh các nút này là các nút có bậc thấp hơn và quanh những nútcó bậc thấp hơn lại là các nút có bậc thấp hơn nữa, cứ như vậy tạo thành mộthệ thống phân cấp. Các nút nhân đóng vai trị quan trọng trong việc kết nốiluồng thông tin trong SN. Trong mạng xã hội nếu loại bỏ một nút thuộc tậpnhân ra khỏi mạng thì sẽ phân chia mạng thành các nhóm cơ lập và khi mộtnút mới thêm vào mạng thường có xu hướng kết nối đến những nút có bậc cao.Điều này lý giải tại sao người nổi tiếng thường được mời làm quảng cáo vàngười nổi tiếng cũng có thể bị lợi dụng để lan truyền thơng tin sai lệch, vv…

<i>- Đặc trưng cấu trúc cộng đồng: Tương tự như trong xã hội thực trong</i>

SN luôn tồn tại các nhóm hoạt động khác nhau như: nhóm bạn bè có cùng sởthích, nhóm các nhà khoa học cùng nghiên cứu về một lĩnh vực, các câu lạcbộ thích văn hóa, thể thao, vv… Các nhóm này gọi là các cộng đồng trựctuyến. Trong mạng xã hội được phân chia thành các cộng đồng lớn nhỏ khácnhau, bên trong các cộng lớn có những cộng đồng con nhỏ hơn. Trong mộtcộng đồng các nút có mật độ kết nối lớn hơn so với các nút bên ngoài cộng

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

đồng. Một người dùng có thể tham gia một hoặc nhiều cộng đồng khác nhauhoặc không thuộc cộng đồng nào. Như vậy trong mỗi mạng xã hội tồn tại hailoại cấu trúc cộng đồng là: cộng đồng chồng chéo và cộng đồng tách rời. Việcnghiên cứu tính chất cấu trúc cộng đồng trong SN có nhiều ứng dụng trongkhoa học và thực tiễn.

<i>- Đặc trưng phân bố lũy thừa: Phân bố bậc của các nút trong mạng</i>

được mô tả bởi hàm �(�), hàm này xác định xác suất của một nút có bậc là �.Phân bố bậc của một mạng theo lũy thừa nếu xác suất một nút có bậc là �được xác định là � � = <small>1</small> , với 2 < � < 3. Hiện nay, hầu hết các mạng xã

hội đều có phân bố bậc lũy thừa [35].

<i><b>1.1.3 Lợi ích của mạng xã hội</b></i>

Các nhà cung cấp dịch vụ trên mạng xã hội tận dụng tối đa các tínhnăng của SN để mang lại nhiều nhất lợi ích cho người dùng, góp phần đángkể vào sự phát triển của nền kinh tế toàn cầu.

<i>Ứng dụng kinh doanh. Các mạng xã hội ngày nay đóng vai trị quan</i>

trọng trong hoạt động của các công ty, doanh nghiệp. Các hoạt độngquảng cáo sản phẩm, lấy ý kiến phản hồi của người dùng, giao dịch vớikhách hàng, đối tác, vv.. đều có thể thực hiện dễ dàng và thuận lợi trêncác tiện ích của SN. Trong các hoạt động này, hoạt động quảng cáo sảnphẩm thông qua các dịch vụ trên SN đang đạt được nhiều thành công vàthu hút sự quan tâm nghiên cứu của nhiều nhà khoa học. Vì vậy, thơng tinvà các tính năng của sản phẩm được quảng bá nhanh chóng và tồn diệnđến người dùng mạng xã hội.

<i>Tìm kiếm mối quan hệ. Trong thời đại ngày nay con người có ít thời</i>

gian dành cho bản thân và mở rộng các mối quan hệ mới. Sử dụng các dịch vụtrên SN, người dùng có thể tìm kiếm các mối quan hệ mình quan tâm cũngnhư duy trì các mối quan hệ đã có. Người dùng chỉ cần sử dụng các dịch vụtrên SN để giữ mối liên lạc với người thân, bạn bè và đồng nghiệp của họ. Họ

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

có thể trị chuyện, trao đổi thơng tin, tương tác với nhau trên SN thay cho gặpnhau trực tiếp. Đặc biệt trong đại dịch Covid-19 vừa qua, các mối quan hệtrên mạng xã hội càng trở nên thuận tiện và hữu ích hơn khi mọi người bị hạnchế tiếp xúc trực tiếp với nhau.

<i>Ứng dụng đối với các hoạt động của tổ chức, chính phủ. Các mạng xã</i>

hội ngày nay đã mang lại nhiều lợi ích trong các hoạt động chính trị và xã hội.Chẳng hạn như trong cuộc cách mạng ở Ai Cập năm 2011, các mạng Twittervà Facebook đã đóng vai trò quan trọng trong việc kết nối các cá nhân vànhóm nổi dậy. Các nhóm hoạt động ở Ai Cập đã đưa kế hoạch hoạt động chonhóm người của họ trên các mạng này, đưa ra các bằng chứng cho cộng đồngvề sự tàn bạo của chính phủ qua các ảnh và video. Ngồi ra, trên các SN cịncho phép chính phủ giám sát ý kiến của người dân trong các hoạt động vănhóa, chính trị hoặc các hiệu ứng xã hội khác.

<i>Ứng dụng trong giáo dục và học tập trực tuyến. Mạng xã hội ngày nay</i>

có nhiều ứng dụng trong lĩnh vực giáo dục và học tập trực tuyến. Các nềntảng mạng xã hội cho phép các giáo viên và học sinh chia sẻ thông tin, tài liệu,video học tập và tương tác với nhau trong môi trường giảng dạy và học tậptrực tuyến.

<i>Truyền thông và phát thanh trực tuyến. Mạng xã hội đã trở thành công</i>

cụ hữu ích để truyền thông và phát thanh trực tuyến. Các nền tảng SN chophép các tổ chức truyền thông và phát thanh quảng cáo các chương trình, tintức, sự kiện và các nội dung khác cho khán giả của mình.

<i><b>1.1.4 Mặt trái của mạng xã hội</b></i>

<i>Phát tán virus, mã độc. Mạng xã hội là môi trường rất thuận lợi cho sự</i>

phát tán virus, mã độc. Các virus, mã độc là phần mềm độc hại được chủ độngphát triển nhằm thực hiện mục đích của kẻ tấn cơng như: Đánh cắp dữ liệu,phá hoại dữ liệu, nghe nén, thu thập thông tin cá nhân của người dùng, thựchiện các hành vi lừa đảo, vv… Nguy cơ này ngày càng bùng phát trong thờigian gần đây.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Một nguy cơ nữa đang bùng phát cùng với sự phát triển của SN đó làthư rác. Nội dung của thư rác thường là các thông tin quảng cáo, chứa virushoặc địa chỉ các trang Web khơng chính thống bằng nhiều hình thức khácnhau như: gửi thơng điệp, hình ảnh, bình luận trên các trang Web có nhiềungười theo dõi, vv...

<i>Lừa đảo trên mạng xã hội. Mục đích của các đối tượng sử dụng cách</i>

thức này nhằm đánh cắp thông tin cá nhân của người dùng bằng cách giả mạomột người đáng tin cậy trên mạng. Những kẻ lừa đảo có thể tấn công vào tàikhoản của người dùng và chiếm quyền đăng nhập vào tài khoản của họ sau đótiến hành các hoạt động trái phép như: tống tiền, giả mạo thông tin, thu thậpthông tin từ người thân của nạn nhân, vv... Một số nghiên cứu gần đây chothấy người dùng SN ngày càng bị lừa đảo bởi hình thức này cao hơn do bảnchất tương tác của SN giống như một xã hội thực. Trong thời gian gần đây,hoạt động lừa đảo trên SN có xu hướng tăng nhanh. Theo báo cáo của hãngMicrosoft, các cuộc tấn công lừa đảo nhắm vào người sử dụng trên các trangmạng xã hội chiếm 84,5%.

<i>Sự phát tán thông tin sai lệch. Thông tin sai lệch là những thơng tin</i>

giả mạo, khơng chính thống [36]. Đây là một thách thức lớn đối với cộngđồng người dùng sử dụng các dịch vụ trên SN tại tất cả các quốc gia. Nócó thể ảnh hưởng trực tiếp đến từng cá nhân và cịn có thể gây ra nhữngtổn hại về chính trị, kinh tế, văn hóa và nhận thức của cộng đồng. Nhưthông tin sai lệch về bùng phát dịch bệnh “Ebola” đã gây ra sự hoangmang cho dân chúng [37], hay theo các nghiên cứu gần đây, “thông tin sailệch” đã gây ảnh hưởng tới kết quả cuộc bầu cử tổng thống Mỹ vào năm2016 và ở Pháp vào năm 2017 [38].

Nhằm ngăn chặn sự phát tán và tác hại của “thông tin sai lệch”, cácquốc gia phát triển đã xây dựng hệ thống ngăn chặn thông tin giả mạo. Một sốquốc gia đã yêu cầu các hãng cung cấp dịch vụ trên mạng xã hội cam kết loạibỏ “thông tin sai lệch”.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<b>1.2 Các mơ hình lan truyền thông tin trên mạng xã hội</b>

Các mạng xã hội đều có ba yếu tố trong q trình lan truyền thông tinbao gồm: thành viên trong hệ thống SN, sự tương tác lẫn nhau và kênh truyềnthông. Nghiên cứu các mơ hình lan truyền thơng tin trong mỗi hồn cảnh cụthể là nền tảng giúp con người có thể giải quyết các vấn đề liên quan đến sựphát tán thông tin trong thực tế như: sự phát tán các ý kiến, tư tưởng giữa cáccá nhân trong xã hội, sự phát tán của dịch bệnh (trong y học), sự phát tán củavirus trên một mạng máy tính, sự phát tán thông tin trên các SN, vv... Trongcác mạng xã hội, thông tin được lan truyền từ người dùng này đến người dùngkhác thông qua các hoạt động tương tác giữa những người dùng như: đăng bài,bình luận, chia sẻ, vv... Quá trình tương tác diễn ra tương đối nhanh và cóđặc điểm khác với sự lan truyền thơng tin truyền thống. Hiểu rõ được qtrình phát tán thơng tin trên các mạng xã hội giúp SN ngày càng trở lên hữch. Từ mục đích đó, các nhà khoa học đã mơ tả q trình phát tán thơng tinbằng các mơ hình phát tán thơng tin (information diffusion models).

Các tác giả Domingo và Richardson [39] là những người đầu tiênnghiên cứu tác động giữa người dùng trong việc lan truyền ảnh hưởng tiếp thịvề sản phẩm. Trên cơ sở nghiên cứu này, Kempe và các cộng sự đã mô hìnhhóa q trình q trình lan truyền thơng tin bằng hai mơ hình là: Mơ hình Bậcđộc lập (Independent Cascade - IC) và mơ hình Ngưỡng tuyến tính (Linearthreshold - LT) [3]. Hai mơ hình này hoạt động theo các bước thời gian rờirạc. Kể từ khi đề xuất, hai mơ hình này được nhiều nhà khoa học sử dụng nhưnhững mơ hình lan truyền thơng tin cơ bản và phổ biến [40], [41]. Ngồi ra,các mơ hình này cịn được phát triển nghiên cứu theo nhiều biến thể khácnhau để phù hợp với thực tiễn, cụ thể là: biến thể theo thời gian liên tục [42],[43], biến thể theo khoảng cách [15], biến thể theo chủ đề được lan truyền ảnhhưởng [12], vv... Hiện nay trong các cơng trình nghiên cứu mơ hình lantruyền thơng tin theo thời gian rời rạc được sử dụng phổ biến hơn.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<i><b>1.2.1 Mơ hình lan truyền thơng tin rời rạc</b></i>

Mơ hình lan truyền thơng tin rời rạc trên SN được biểu diễn bằng một

<i>đồ thị có hướng G = (V, E) với các thành phần như sau:</i>

<i>- V là tập hợp các nút của đồ thị biểu diễn tập hợp tất cả người dùngtrên mạng xã hội với số nút |V | = n.</i>

<i>- E là tập hợp các cạnh của đồ thị, biểu diễn liên kết giữa các người</i>

dùng trong mạng xã hội với số cạnh <small>|�| = �</small>.

Để biểu diễn SN ta cũng có thể dùng đồ thị vơ hướng, nhưng ta cóthể xem là một đồ thị có hướng mà tất cả các cạnh đều có cạnh hướngngược lại. Do đó để khơng mất tính tổng qt, NCS dùng đồ thị có hướngđể biểu diễn một mạng xã hội trong các nghiên cứu.

Khái niệm “liên kết” trong các SN thường là khác nhau. Cụ thể đối vớimạng Facebook thì liên kết tương ứng với quan hệ bạn bè, với mạngInstagram tương ứng với chức năng “theo dõi” vv...

<i>Đối với đồ thị G = (V, E), Mỗi nút � ∈ � có tập nút vào, ký hiệu</i>

�<small>��</small> � = {�|(�, � ) ∈ �} và tập nút ra, ký hiệu �<small>���</small> � = {�|(�, �)∈ �}. Bậc vào và bậc ra của nút � được ký hiệu là �<small>��</small>(�) = |�<small>��</small>

<i><b>- Tập nguồn (tập hạt giống). Thông tin đầu tiên được phát tán từ tập</b></i>

<i>người dùng đầu gọi là tập nguồn S, S ⊆ V.</i>

<i><b>- Trạng thái của các nút. Với mỗi nút � ∈ � có thể ở một trong hai trạng</b></i>

<i>thái kích hoạt (active) và khơng kích hoạt (inactive). Nút v ở trạng thái kích</i>

hoạt khi người dùng bị ảnh hưởng bởi thông tin mới, sản phẩm mới hoặc ý

<i>tưởng mới lan truyền trên mạng từ tập nguồn S, ở trạng thái khơng kích hoạt</i>

tức là chưa chấp nhận, chưa bị thuyết phục bởi thông tin, ý tưởng hoặc thông

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

tin về sản phẩm. Trong luận án, hai thuật ngữ bị ảnh hưởng và kích hoạt lànhư nhau tùy từng ngữ cảnh.

<i><b>- Q trình lan truyền thơng tin. Q trình lan truyền thơng tin theo</b></i>

thời gian rời rạc hoạt động theo các bước thời gian rời rạc. Cụ thể với thời

<i>gian t = 0, 1, ... Gọi tập các nút S<small>t</small> ⊆ V là tập hợp các nút đã được kích hoạt tạithời điểm t. Q trình lan truyền từ bước t đến bước t + 1 theo một hàm (luật</i>

lan truyền) như sau:

<i>Q trình lan truyền thơng tin dừng lại tại thời điểm t nếu khơng cịnbất kỳ nút nào kích hoạt thêm ở bước t + 1, nghĩa là S<small>t</small> = S<small>t+1</small></i>.

<i><b>- Hàm ảnh hưởng (hàm mục tiêu). Hàm σ(S) là số lượng nút kích hoạt</b></i>

<i>(ảnh hưởng) sau q trình lan truyền thơng tin từ tập nguồn S.</i>

Trên đây là quá trình chung cho sự lan truyền thông tin rời rạc, tuy

<i>nhiên quy luật lan truyền thông tin từ S<small>t−1</small> tới S<small>t</small> trong mỗi mơ hình cụ thể lại</i>

khác nhau. Tiếp theo luận án trình bày hai mơ hình lan truyền thơng tin LT(Linear threshold) và IC (Independent Cascade). Đây là hai mơ hình cơ bảnđược sử dụng rộng rãi trong các cơng trình nghiên cứu. Trong luận án hai mơhình cơ bản cũng được NCS sử dụng.

<i><b>1.2.2 Mơ hình Ngưỡng tuyến tính (Linear threshold - LT)</b></i>

Mơ hình ngưỡng tuyến tính là một trong hai mơ hình lan truyền thôngtin được đề xuất năm 2003 [3], là một trong những mơ hình ngẫu nhiên rời rạcvì thơng tin được lan truyền theo các bước thời gian rời rạc và các tham số

<i>được chọn ngẫu nhiên. Trong mô hình LT, mỗi nút có một ngưỡng kích hoạt</i>

phụ thuộc theo thời gian (thơng tin càng cũ thì càng khó ảnh hưởng). Tất cả

<i>các nút hàng xóm đã bị kích hoạt (nhiễm) thơng tin của một nút sẽ cố gắngkích hoạt nút đó. Khi tổng ảnh hưởng của các nút hàng xóm vượt q ngưỡngkích hoạt thì nút đó sẽ bị kích hoạt. Một nút hàng xóm có nhiều lần cố gắng</i>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

kích hoạt nút hàng xóm của nó cho đến khi nút đó bị nhiễm thì thơi, hoặc khi q trình lan truyền kết thúc. Mơ hình LT được mơ tả chi tiết như sau:

<i>Trong mơ hình LT, mỗi cạnh của đồ thị e = (u, v) ∈ E có một trọng sốw(u, v) là một số thực dương biểu diễn ảnh hưởng của nút u đến nút v, </i><small>nếu</small>

<small>�, � ∉ � thì � �, � = 0</small>. Các trọng số thỏa mãn điều kiện chuẩn hóa:Σ

<i>- Bước 1: t = 0, tất cả các nút thuộc S đều bị kích hoạt, nghĩa là S<small>0</small> = S.- Bước tiếp theo: t ≥ 1, tất cả các nút u đang ở trạng thái khơng kích</i>

hoạt sẽ bị kích hoạt nếu tổng trọng số ảnh hưởng tại bước đó lớn hơn ngưỡng

<i>kích hoạt θ<small>u</small></i>, nghĩa là:

- Các nút khi đã ở trạng thái kích hoạt, nó sẽ giữ nguyên trạng thái đótrong các bước tiếp theo. Quá trình lan truyền kết thúc khi giữa hai bướckhơng có thêm nút mới nào được kích hoạt.

Mơ hình LT thể hiện hành vi ngưỡng của con người khi chịu sự tácđộng của các cá nhân khác trong cộng đồng. Khi các tác động lớn hơnngưỡng chịu đựng thì người đó sẽ bị ảnh hưởng. Điều này cũng biểu diễn choq trình nhận thức và tiếp nhận thơng tin của người dùng trên SN.

Tuy nhiên, các ngưỡng kích hoạt của các nút trong đồ thị thường khó xác

<i>định và ln thay đổi giá trị. Do đó trong mơ hình này ngưỡng kích hoạt θ<small>u</small> được</i>

chọn ngẫu nhiên trong khoảng [0, 1]. Việc chọn ngưỡng phải đảm bảo khả năngkích hoạt của một nút tỷ lệ với tổng ảnh hưởng của các nút lân cận.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Hình 1.1. Ví dụ lan truyền thơng tin cho mơ hình LT

Hình 1.1 là ví dụ lan truyền thơng tin cho mơ hình LT. Giả sử tập

<i>nguồn S ={a}, mỗi nút trong đồ thị có một ngưỡng kích hoạt và mỗi cạnh có</i>

trọng số tương ứng. Q trình lan truyền thơng tin trên mơ hình LT diễn ranhư sau:

<i>- Bước 1: t = 0, S<small>0</small> = S = {a}.</i>

<i>- Bước tiếp theo t = 1, tổng trọng số ảnh hưởng đến nút b là 0.8 lớn hơnngưỡng θ<small>b</small> = 0.5 do đó nút b bị kích hoạt. Nút c có tổng trọng số ảnh hưởng0.3 < θ<small>c</small> = 0.6 nên không bị kích hoạt. Ta có S<small>1</small> = {a, b}.</i>

<i>- Tại bước t = 2, nút c được kích hoạt. Bởi vì tổng trọng số ảnh hưởng đến nút c là 0.7 > θ<small>c</small> = 0.6. Khi đó ta có S<small>2</small> = {a, b, c}.</i>

<i>- Tại bước t = 3, nút d được kích hoạt. Bởi vì tổng trọng số ảnh hưởng đến nút d là 0.3+0.2 = 0.5 > θ<small>d</small> = 0.4, ta có S<small>3</small> = {a, b, c, d}.</i>

<i>- Tại bước t = 4, khơng có nút nào được kích hoạt thêm, q trình lan </i>

truyền kết thúc.

<i><b><small>1.2.3 Mơ hình Bậc độc lập (</small>Independent Cascade - <small>IC)</small></b></i>

Mơ hình lan truyền thơng tin IC [3] cũng là mơ hình ngẫu nhiên rời rạc.Đặc trưng của mơ hình IC là q trình lan truyền thông tin dọc theo các cạnh

<i>một cách độc lập. Trong mơ hình IC mỗi nút chưa bị kích hoạt thơng tin sẽ bị</i>

kích hoạt một cách độc lập bởi từng nút lân cận đã bị kích hoạt với một xácsuất nhất định. Khác với mơ hình LT, mỗi nút trên mơ hình IC chỉ có một cơ

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

hội duy nhất để kích hoạt một nút khác trong đồ thị. Mơ hình IC thường đượcdùng trong nghiên cứu ảnh hưởng và trong dự báo. Chi tiết mơ hình IC đượcmơ tả như sau:

Trong mơ hình IC, mỗi cạnh trong đồ thị (�, �) ∈ � được gán một xácsuất ảnh hưởng �(�, �) ∈ [0, 1] . Xác suất �(�, �) biểu diễn mức độ ảnhhưởng của nút � với nút �. Nếu (�, �) ∉ �, thì �(�, �) = 0. Mỗi nút trong đồ thị

<i>cũng chỉ có thể nhận một trong hai trạng thái kích hoạt hoặc khơng kích hoạt.</i>

Mơ hình IC cũng là một mơ hình lan truyền thông tin rời rạc tuy nhiên chúngtạo ra tập các nút kích hoạt theo một nguyên tắc khác. Cụ thể q trình lan

<i>truyền thơng tin từ tập nguồn S diễn ra như sau:</i>

<i>- Tại bước t = 0, chỉ có các nút trong tập nguồn S ở trạng thái kích hoạt,nghĩa là S<small>0</small> = S.</i>

<i>- Tại bước t ≥ 1, đầu tiên gán S<small>t</small> = S<small>t−1</small>. Mỗi nút u ∈ S<small>t−1</small> có một cơ hộiduy nhất để kích hoạt đến nút v ∈ N<small>out(u)</small> với xác suất thành cơng là p(u, v).Nếu kích hoạt thành cơng ta thêm nút v vào tập S<small>t</small> và nói rằng u đã ảnh hưởngv tại thời điểm t. Q trình kích hoạt tương tự với các nút cịn lại chưa được</i>

kích hoạt.

- Khi một nút đã ở trạng thái kích hoạt, nút đó sẽ giữ ngun trạng thái.Q trình lan truyền kết thúc khi giữa hai bước khơng có thêm nút nào bị kíchhoạt.

<i>Q trình kích hoạt theo xác suất p(u, v) có thể được thực hiện theo</i>

phương pháp quay bánh xe xổ số.

Hình 1.2. Ví dụ lan truyền thơng tin cho mơ hình IC

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Hình 1.2 là ví dụ của q trình lan truyền thơng tin trên mơ hình IC.

<i>Với tập nút nguồn là S = {a}, trên mỗi cạnh biểu diễn các xác suất lan truyền</i>

tương ứng. Q trình lan truyền thơng tin được diễn ra như sau:

<i>- Tại thời điểm t = 0, S<small>0</small> = S = {a}.</i>

<i>- Tại thời điểm t = 1, nút a kích hoạt nút b và nút c với xác suất là 0.8và 0.3. Giả sử nút b được kích hoạt. Ta thêm b vào S<small>1</small>, S<small>1</small> = {a, b}.</i>

<i>- Tại thời điểm t = 2, nút b kích hoạt nút d và c với xác suất thành cônglà 0.3 và 0.4. Nút a khơng được kích hoạt nút c do đã thực hiện ở bước trước.Giả sử trường hợp này c được kích hoạt, ta có S<small>2</small> = {a, b, c}.</i>

<i>- Tại thời điểm t = 3, tương tự nút b, c kích hoạt d với xác suất 0.3 và0.2. Trong trường hợp này nếu nút d khơng bị kích hoạt thì q trình lan</i>

truyền dừng lại.

Ý tưởng lan truyền thơng tin trong mơ hình IC xuất phát từ thực tếthơng tin có thể lan truyền dọc theo các đường đi trong đồ thị. Nghĩa là nếu

<i>giữa hai người dùng u và v trên mạng nếu có nhiều đường đi giữa họ thì khả</i>

năng lan truyền thơng tin càng lớn. Việc mơ hình hóa này hồn tồn phù hợpvới thực tế lan truyền thông tin trên các mạng xã hội.

Q trình lan truyền thơng tin trong hai mơ hình LT và IC với cùng mộttập nguồn thì mỗi q trình kích hoạt các nút có thể cho kết quả khác nhau.Việc tính tốn ảnh hưởng của tập nguồn các nhà khoa học thường lấy phéptính kỳ vọng theo biến ngẫu nhiên số nút bị ảnh hưởng trong mỗi lần lantruyền thơng tin.

<i><b>1.2.4 Mơ hình cạnh trực tuyến (<small>Live Edge - </small>LE)</b></i>

Các mơ hình lan truyền thông tin IC và LT là các mơ hình ngẫunhiên vì các mơ hình này chứa các yếu tố ngẫu nhiên (ngưỡng kích hoạtvà xác suất ảnh hưởng). Q trình phân bố tập các nút được kích hoạt theo

<i>thời gian S<small>t</small> là một quá trình ngẫu nhiên rời rạc [40]. Chen và các cộng sựđã chỉ ra việc tính tốn hàm ảnh hưởng σ(S) với tập nguồn S thuộc lớp bài</i>

tốn #P-Khó [5], [6].

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Để khắc phục được khó khăn trong việc tính tốn hàm σ(·), Kempe vàcác cộng sự đã chứng minh hai mơ hình IC và LT tương đương với mơ hìnhcạnh trực tuyến (LE). Từ kết quả này cho phép các nghiên cứu tiếp theo cóthể đề xuất các thuật tốn xấp xỉ hiệu quả cho các bài tốn lan truyền thơngtin [7], [8], [14], [44] - [46].

Hai mơ hình phát tán thơng tin tương đương được định nghĩa như sau:

<i><b>Định nghĩa 1.1: (Hai mơ hình tương đương [3]). Cho đồ thị G=(V, E), 2 mơ </b></i>

<i>hình phát tán thơng tin rời rạc M và M’. Gọi S là tập nút nguồn, S<small>0</small>, S<small>1</small>, . . . , S<small>t</small></i>

và �<small>'</small> , �<small>'</small> , …, �<small>'</small><i> là tập nút được kích hoạt trên hai mơ hình theo thời gian t. A<small>0</small>,</i>

<i>A<small>1</small>, . . . , A<small>t</small> ⊆ V là các tập nút bất kỳ. Hai mơ hình M và M’ là tương đương khi và chỉ khi với mọi t ≥ 1, hai biến cố {S<small>1</small> = A<small>1</small>, S<small>2</small> = A<small>2</small>, . . . , S<small>t</small> = A<small>t</small></i>} và{�<small>'</small><i> =A<small>1</small></i>, �<small>'</small><i> =A<small>2</small></i>, …, �<small>'</small><i> =A<small>t</small></i>} xảy ra với xác suất như nhau, nghĩa là:

<b>Định nghĩa 1.2: (Mơ hình cạnh trực tuyến tương đương với mơ hình LT [3]).</b>

<i>Cho đồ thị G = (V, E) biểu diễn mạng xã hội trên mơ hình LT, mơ hình cạnhtrực tuyến xây dựng một đồ thị mẫu g từ G theo các bước sau:</i>

<i>- Với mỗi nút v ∈ V trong đồ thị G chọn duy nhất một cạnh (u, v), u ∈N<small>in</small>(v) với xác suất w(u, v). Khơng có cạnh đến v nào được chọn với xác suất</i>

<small>��(�) </small><i>�(�, �). Các cạnh được chọn gọi là các cạnh trực tuyến,</i>

nghĩa là cho phép thông tin lan truyền theo cạnh đó.

<i>- Gọi tập các nút được kích hoạt ở thời điểm t là R<small>t</small>(g, S) = {u|d<small>g</small>(S, u) ≤t}, trong đó d<small>g</small>(S, u) là khoảng cách từ S đến u trên đồ thị g.</i>

<i>Do � ≤ � − 1 (đường đi đơn có độ dài lớn nhất trong đồ thị G ≤ � − 1)nên tập nút bị kích hoạt trên mơ hình cạnh trực tuyến là R(g, S) = R<small>n−1</small>(g, S).</i>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

<i>Từ đồ thị G ta có thể sinh ra nhiều đồ thị trực tuyến (ký hiệu g </i><small>~ </small><i>G vớig sinh ra từ G theo mơ hình cạnh trực tuyến) với xác suất khác nhau. Khi đóxác suất để sinh ra g từ G theo mơ hình cạnh trực tuyến là:</i>

<small>∈� �</small>

<i>với p(u, g, G) là xác suất lựa chọn cạnh tương ứng với nút u�(�, �)</i> , �ế<i>� (�, �) ∈ �.Pr(�, �, �)=</i> <sub>1 − </sub>

<i><b>Định lý 1.1: [3] Với tập nguồn S trên mơ hình lan truyền thơng tin LT, hai</b></i>

<i>phân bố sau là như nhau:</i>

<i>- Phân bố tập các nút kích hoạt thu được bởi mơ hình LT.</i>

<i>- Phân bố tập nút R(g, S) với g được sinh ra từ G theo mơ hình cạnhtrực tuyến.</i>

Chen và cộng sự [40] đã chứng minh sự tương đương giữa hai mơ hìnhLT và mơ hình cạnh trực tuyến. Về bản chất kết quả này tốt hơn so với kếtquả của Kempe và cộng sự trong [3]. Theo Định lý 1.1 trong [3], ta có:

� � = Σ Prg~G

Đối với mơ hình lan truyền thơng tin IC, mơ hình cạnh trực tuyến tươngứng được định nghĩa như sau:

<b>Định nghĩa 1.3: (Mơ hình cạnh trực tuyến tương ứng với mơ hình IC [47]).</b>

<i>Cho đồ thị G = (V, E) trên mô hình lan truyền thơng tin IC, mơ hình cạnh trựctuyến được xây dựng đồ thị g theo các bước sau:</i>

<i>- Mỗi cạnh (u, v)  E trong đồ thị G, chọn cạnh (u, v) vào đồ thị g vớixác suất p(u, v), không chọn cạnh này vào đồ thị g với xác suất 1−p(u, v).</i>

<i>- Tập các nút được kích hoạt ở thời điểm t là R<small>t</small>(g, S)={u|d<small>g</small>(S, u) ≤ t}.Khi đó xác suất để sinh ra đồ thị mẫu g từ G là:</i>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Pr g~G = ‡<small>�∈�(�)</small>

(1 − � � ). (1.7)

<i>Hàm ảnh hưởng của tập nguồn S</i>

� � = Σ Pr g~G R �, �.

Mô hình cạnh trực tuyến và các kết quả trên được sử dụng nhiều trongcác nghiên cứu và cũng được sử dụng trong các công bố của luận án.

<b>1.3 Một số bài tốn lan truyền thơng tin trên mạng xã hội</b>

Các bài tốn lan truyền thơng tin được phát sinh từ nhu cầu của thực tiễn,các nhà phát triển mạng, người dùng mạng và các nhà khoa học ln muốn tìm racác giải pháp tối ưu để khai thác những thế mạnh của SN nhằm phục vụ cho cácnhu cầu cần thiết của con người và hạn chế những ảnh hưởng tiêu cực khơngmong muốn. Bài tốn lan truyền thơng tin (SI) được đề xuất năm 2001 [48], cáctác giả đã thiết kế các chiến lược tiếp thị lan truyền (Viral Marketing) và phântích q trình SI sử dụng phương pháp khai phá dữ liệu. Đây là bài tốn có ýnghĩa thực tiễn và mang tính thời sự lúc bấy giờ. Từ cơ sở nghiên cứu này, năm2003, các công bố trong [3] đã đề xuất bài toán cực đại ảnh hưởng IM (InfluenceMaximization) trên SN theo phương pháp tối ưu rời rạc. Từ đó đến nay, đã có rấtnhiều bài tốn SI được đề xuất trên nhiều khía cạnh khác nhau. Xét về mục đíchnghiên cứu, có thể phân bài tốn SI thành 03 nhóm chủ yếu: Cực đại ảnh hưởng,Phát hiện thơng tin và Ngăn chặn ảnh hưởng. (Hình 1.3).

<small>Hình 1.3. Nhóm bài tốn lan truyền thơng tin trên SN</small>

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

<i><b>1.3.1 Cực đại ảnh hưởng (Influence Maximization - IM)</b></i>

Bài toán cực đại ảnh hưởng xuất phát từ yêu cầu chọn một tập ngườidùng để bắt đầu SI làm cho số người bị ảnh hưởng bởi thông tin lan truyềntrên SN đạt cực đại. Bài toán IM ứng dụng trong tiếp thị sản phẩm (viralmarketing), ngăn chặn thơng tin sai lệch, phân tích ảnh hưởng trên SN, vv...Mục tiêu của IM là chọn một tập nguồn (tập hạt giống) để bắt đầu q trìnhlan truyền thơng tin về sản phẩm sao cho thông tin ảnh hưởng nhiều nhất đếnngười dùng trên SN. Tập nguồn là những người dùng được chọn để các doanhnghiệp cung cấp các sản phẩm mẫu để dùng thử miễn phí. Kempe và các cộngsự [3] là những người đầu tiên phát biểu bài tốn IM trên hai mơ hình IC vàLT. Tiếp theo bài toán IM được nghiên cứu rộng rãi và mở rộng theo nhiềuhướng khác nhau [5]-[9], [13], [14], [40], [44] - [46], [49], [50]. Bài toán IMđược phát biểu như sau:

<b>Định nghĩa 1.4: (Cực đại ảnh hưởng - IM [3])</b>

<i>- Cho SN G = (V, E) trên mơ hình phát tán thơng tin M, số ngundương k > 0.</i>

<i>- Tìm tập S ⊆ V, |S| = k sao cho hàm ảnh hưởng σ(S) lớn nhất?</i>

Thách thức khi giải quyết bài tốn IM là chúng thuộc lớp NP-Khó [3]

<i>và tính tốn hàm mục tiêu (hàm ảnh hưởng σ(S)) thuộc lớp bài tốn #P-Khó</i>

[5], [6]. Đây là những thách thức đặt ra đối với nhóm bài tốn lan truyềnthơng tin.

Kempe [3] đề xuất áp dụng phương pháp mô phỏng Mote-Carlo với sốlần mô phỏng đủ lớn để ước lượng được hàm mục tiêu trong trường hợp này.Trong phiên bản mở rộng Kempe và các cộng sự [51] đã chỉ ra rằng nếu số

<i>lần mơ phỏng ảnh hưởng từ tập nguồn S ít nhất bằng Ω</i> �� <i>(n là số nút</i>

của đồ thị) thì sẽ thu được ước lượng �^(�) <i>thỏa mãn Pr[(1− � )σ(S) ≤ </i>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<i>Tuy nhiên, Kempe đã chỉ ra hàm mục tiêu σ(S) có tính chất đơn điệutăng và là hàm submodular. Tính chất này cho phép ta áp dụng thuật toántham lam để đạt được một tỷ lệ xấp xỉ là 1 − 1/e. Do tính ứng dụng cao của</i>

IM trong thực tế nên IM đã và đang thu hút được nhiều sự quan tâm của cácnhà khoa học.

<i><b>1.3.2<small>Phát hiện thông tin (Information Detection - ID)</small></b></i>

Giả sử đã biết trước tập người dùng � bị nghi ngờ lan truyền thông tin,mục tiêu của bài tốn ID là tìm tập � để đặt giám sát sao cho khả năng pháthiện thông tin từ tập người dùng � là lớn nhất. Bài tốn này có ứng dụng trongphát hiện thông tin sai lệch (<small>MisInformation - </small>MI) và phát hiện nguồn lantruyền MI, đánh giá xu hướng, quan điểm người dùng trên SN. Một số nghiêncứu tiêu biểu: [52]–[67], vv…

<i><b>1.3.3 Ngăn chặn ảnh hưởng (Influence Blocking - IB)</b></i>

Bài toán ngăn chặn ảnh hưởng IB ngược lại với IM, bài tốn IB nhằmmục đích hạn chế sự phát tán, lan truyền thông tin từ một nguồn tin biết trước.Mục tiêu của các bài toán IB nhằm hạn chế sự lan truyền của MI trên SN, baogồm: thông tin sai lệch, phát tán virus, thư rác, các tư tưởng cực đoan, thơngtin khơng chính thống, vv...

Các phương pháp để hạn chế ảnh hưởng của nguồn phát tán cho trướcbao gồm:

- Loại bỏ người dùng hoặc tập liên kết: phương pháp này loại bỏ tập núthoặc cạnh để miễn nhiễm với ảnh hưởng [66]-[69].

- Tẩy nhiễm thông tin: chọn tập nút nguồn để phát tán các ảnhhưởng tích cực nhằm chống lại ảnh hưởng của thông tin tiêu cực [18],[22], [70] - [74].

Các bài toán ngăn chặn ảnh hưởng thuộc nhóm bài tốn tối ưu tổ hợp cóđộ phức tạp là NP-khó [3] trên các mơ hình SI rời rạc và tính tốn hàm mục tiêuthuộc lớp bài tốn #P-khó [6], [40].

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

<i>1.3.3.1 Vơ hiệu hóa người dùng hoặc tập liên kết: Phương pháp này là</i>

loại bỏ tập người dùng hoặc tập liên kết hoặc tiêm vắc xin vào tập nút hoặc tậpcạnh để miễn nhiễm thơng tin sai lệch (MI). Tuy có nhiều khái niệm khác nhau,nhưng chiến lược này được hiểu rằng: Trên SN sẽ có một tập người dùng bị cơlập, MI lan truyền đến trước tập người dùng này và dừng lại, không thể lan truyềntiếp đến các người dùng khác. Tập người dùng này được xem như là hàng ràochắn, ngăn chặn lan truyền MI đến những người dùng tiếp theo.

Khalil và các cộng sự [75] là những người đầu tiên nghiên cứu các bài

<i>toán này, họ nghiên cứu loại bỏ tập k cạnh (edge deletion) sao cho ảnh hưởngtừ nguồn S cho trước đạt giá trị nhỏ nhất, tức là tìm tập cạnh X, |X| = k sao chohàm ảnh hưởng của S khi loại tập cạnh X σ(S \ X) đạt giá trị cực tiểu. Đồng thờicác tác giả chứng minh hàm mục tiêu σ(S \·) là supermodular và đơn điệu</i>

giảm. Căn cứ vào kết quả này, các tác giả đề xuất thuật toán tham lam tìm tập

<i>lời giải X, thỏa mãn điều kiện h(X) ≥ (1 - 1/e - �)h(X), với h(X) = σ(S) − σ(S\X).</i>

Về góc độ dịch tễ, một số nghiên cứu đã sử dụng phương pháp tiêm vắcxin miễn nhiễm vào tập các cạnh hoặc nút để miễn nhiễm với các thông tin sailệch [66] - [68], [76], [77]. Yang và các cộng sự trong [77] đã nghiên cứu bài

<i>toán DAVA (Data-Aware Vaccination) với yêu cầu tiêm vắc xin vào k nút</i>

“vào tập người dùng” trong một SN để ngăn chặn sự phát tán của tập nút đã

<i>nhiễm dịch bệnh I<small>0</small> trên mơ hình IC. Các tác giả chứng minh đây là bài tốnthuộc lớp NP-Khó và hàm mục tiêu khơng có tính chất submodular. Do đó</i>

khơng thể áp dụng thuật toán tham lam với tỷ lệ xấp xỉ 1 − 1/e. Các tác giả đềxuất ba thuật toán heuristic DAVA, DAVA-Fast và DAVA-prun cho bài toánDAVA, kết quả thực nghiệm của các tác giả cho thấy các thuật toán đề xuấtcho kết quả tốt hơn các thuật toán trước. Kế thừa hướng nghiên cứu này, Songvà các cộng sự đã mở rộng bài toán DAVA bằng việc thêm yếu tố thời gianlan truyền dịch bệnh [73].

Trong mô hình lan truyền thơng tin LT, các tác giả Zhang và các cộng sự[68] nghiên cứu bài tốn phân phối vắc xin đến từng nhóm các cạnh để điều

</div>

×