Tải bản đầy đủ (.docx) (161 trang)

Nghiên cứu một số phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.96 MB, 161 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC

VÀ CÔNG NGHỆ VIỆT NAM

<b>HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ</b>

<b>Vũ Chí Quang</b>

<b>NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁNCỰC ĐẠI ẢNH HƯỞNG TRÊN MẠNG XÃ HỘI</b>

<b>VỚI RÀNG BUỘC ƯU TIÊN VÀ CHI PHÍ</b>

<b>LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TIN</b>

<b>Hà Nội – Năm 2024</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

BỘGIÁO DỤC

VÀ CÔNG NGHỆ VIỆT NAM

<b>HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ</b>

<b>Vũ Chí Quang</b>

<b>NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP GIẢI BÀI TOÁNCỰC ĐẠI ẢNH HƯỞNG TRÊN MẠNG XÃ HỘI</b>

<b>VỚI RÀNG BUỘC ƯU TIÊN VÀ CHI PHÍ</b>

<b>LUẬN ÁN TIẾN SĨ HỆ THỐNG THƠNG TINMã số: 9 48 01 04</b>

<b><small>Xác nhận của Học viện</small></b>

<b><small>Khoa học và Công nghệ</small><sup>Người hướng dẫn1</sup></b><i><sub>(Ký, ghi rõ họtên)</sub></i> <b><sup>Người hướng dẫn 2</sup></b><i><sub>(Ký, ghi rõ họ tên)</sub></i>

<b>Hà Nội – Năm 2024</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CAM ĐOAN</b>

<i><b><small>Tôi xin cam đoan luận án: “Nghiên cứu một số phương pháp giải bài toán</small></b></i>

<i><b><small>cựcđại ảnh hưởng trên mạng xã hội với ràng buộc ưu tiên và chi phí” là cơng trình</small></b></i>

<small>nghiên cứu của chính mình dưới sự hướng dẫn khoa học của tập thể các thầy hướngdẫn. Luận án sử dụng thơng tin trích dẫn từ nhiều nguồn tham khảo khác nhau và cácthông tin trích dẫn được ghi rõ nguồn gốc. Các kết quả nghiên cứu của tôi được côngbố chung với các tác giả khác đã được sự nhất trí của đồng tác giả khi đưa vào luận án.Các số liệu, kết quả được trình bày trong luận án là hồn tồn trung thực và chưa từngđược công bố trong bất kỳ một cơng trình nào khác ngồi các cơng trình cơng bố củatác giả. Luận án được hoàn thành trong thời gian tôi làm nghiên cứu sinh tại Học việnKhoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.</small>

<i><small>Hà Nội, ngày 30 tháng 05 năm 2024</small></i>

<b><small>Tác giả luậnán</small></b>

<b><small>Vũ ChíQuang</small></b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN</b>

<small>Tơi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới tập thể thầy giáo hướngdẫn, TS Nguyễn Như Sơn và PGS.TS Ngô Quốc Dũng, các thầy đã giành nhiều thờigian, cơng sức để định hướng và hướng dẫn tơi hồn thành các nghiên cứu của mình.Tơi xin chân thành cảm ơn Ban lãnh đạo và các thầy cô Học viện Khoa học và Côngnghệ, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đãtạo điều kiện, giúp đỡ tơi trong q trình học tập và nghiên cứu tại Học viện.</small>

<small>Tôi xin gửi lời cảm ơn đến các nhà khoa học, các cộng sự đã có những góp ýq báu giúp tơi hồn thành các cơng bố cũng như hồn thành luận án này.</small>

<small>Tơi xin chân thành cảm ơn lãnh đạo và các đồng nghiệp của Khoa An ninhmạng và phòng chống tội phạm sử dụng công nghệ cao - Học viện An ninh nhân dânđã luôn hỗ trợ, giúp đỡ tôi trong suốt quá trình nghiêncứu.</small>

<small>Xin cảm ơn những người thân, bạn bè đã cổ vũ động viên, chia sẻ những khókhăn cùng tơi trong thời gian qua. Cuối cùng, luận án này sẽ khơng thể hồn thànhđược nếu thiếu sự động viên về mọi mặt của bố mẹ, anh chị em trong gia đình và củavợ, con tơi, những người ln là động lực về tinh thần giúp tơi vững bước trong qtrình nghiên cứu và trong cuộc sống. Xin trân trọng cảm ơn!</small>

<i><small>Hà Nội, ngày 30 tháng 05 năm 2024</small></i>

<b><small>Tác giả luậnán</small></b>

<b><small>Vũ ChíQuang</small></b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b><small>1.1 Giới thiệu về mạngxãhội...17</small></b>

<i><b><small>1.1.1 Các thành phần cơ bản của mạngxã hội...18</small></b></i>

<i><b><small>1.1.2 Một số đặc trưng chung của mạngxãhội...19</small></b></i>

<i><b><small>1.1.3 Lợi ích của mạngxãhội...20</small></b></i>

<i><b><small>1.1.4 Mặt trái của mạngxãhội...21</small></b></i>

<b><small>1.2 Các mơ hình lan truyền thơng tin trên mạngxãhội...23</small></b>

<i><b><small>1.2.1 Mơ hình lan truyền thơng tinrờirạc...24</small></b></i>

<i><b><small>1.2.2 Mơ hình Ngưỡng tuyếntính(LT)...25</small></b></i>

<i><b><small>1.2.3 Mơ hình Bậc độclập(IC)...27</small></b></i>

<i><b><small>1.2.4 Mơ hình cạnh trựctuyến(LE)...29</small></b></i>

<b><small>1.3 Một số bài tốn lan truyền thơng tin trên mạngxãhội...32</small></b>

<i><b><small>1.3.1 Cực đại ảnh hưởng (Influence Maximization-IM)...33</small></b></i>

<i><b><small>1.3.2 Phát hiện thông tin (Information Detection- ID)...34</small></b></i>

<i><b><small>1.3.3 Ngăn chặn ảnh hưởng (Influence Blocking-IB)...34</small></b></i>

<i><b><small>1.3.4 Một số bài toán khác trên mạngxãhội...37</small></b></i>

<b><small>1.4 Bài toántốiưutổhợpvàmộtsốphương pháp giảicác bàitoántốiưutổhợp...39</small></b>

<i><b><small>1.4.1 Bài toán tối ưutổhợp...39</small></b></i>

<i><b><small>1.4.2 Phân loại các lớp bài toán trong tối ưutổhợp...40</small></b></i>

<i><b><small>1.4.3 Một số phương pháp giải bài toán tối ưutổhợp...41</small></b></i>

<i><b><small>1.4.3.1 Phương phápxấpxỉ...42</small></b></i>

<i><b><small>1.4.3.2 Phương phápMonteCarlo...44</small></b></i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i><b><small>1.4.3.3 PhươngphápHeuristic...44</small></b></i>

<i><b><small>1.4.3.4 Thuậttoánluồng...45</small></b></i>

<b><small>1.5 Cácnghiêncứuliênquan...46</small></b>

<i><b><small>1.5.1 Các nghiên cứu liên quantrongnước...46</small></b></i>

<i><b><small>1.5.2 Các nghiên cứu liên quan bài toán cực đạiảnhhưởng...47</small></b></i>

<i><b><small>1.5.3 Các nghiên cứu liên quan bài toán cực đại ảnh hưởng lan truyềnthông tin nhiềuchủđề50</small></b></i><b><small>1.6 Kếtluậnchương...52</small></b>

<b><small>CHƯƠNG 2 CỰC ĐẠI ẢNH HƯỞNG VỚI RÀNG BUỘC ƯU TIÊNTRÊNMẠNG XÃHỘI...53</small></b>

<b><small>2.4 Thuậttốnlấymẫu dựa trêntham lamtíchhợp...62</small></b>

<i><b><small>2.4.1 Cơng cụ ước tính hàmảnhhưởng...62</small></b></i>

<i><b><small>2.4.2 Mơ tả thuật tốn và phân tíchlý thuyết...65</small></b></i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i><b><small>3.3.2 Thuật tốn luồngtấtđịnh...95</small></b></i>

<b><small>3.4 Thuậttốnluồngngẫu nhiênchotrường hợptổngquát...99</small></b>

<i><b><small>3.4.1 Thuật toán luồng ngẫu nhiên với giá trị tối ưuđãbiết...99</small></b></i>

<i><b><small>3.4.2 Thuật tốn luồngngẫunhiên...106</small></b></i>

<b><small>DANH MỤC CƠNG TRÌNH CƠNG BỐ LIÊN QUAN ĐẾN LUẬNÁN...121</small></b>

<b><small>TÀI LIỆUTHAM KHẢO...122</small></b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>�(�, �)�(�, �)�(�, �)(�(�, �)),�(�, �)�(�, �)�(�, �)�(�, �)(�(�, �)) Bậc tương ứng vào và ra của nútv</small>

<i><small>S</small></i> <small>Tập nguồn (Nguồn lan truyền thông tin)�(�, �) �(�, �)Hàm ảnh hưởng</small>

<small>�(�, �)�(�, �)</small> <i><small>Ngưỡng kích hoạt nútuw(u, v)Trọng số cạnh(u, v)</small></i>

<small>( , )</small>

<small>�(�, �) �(�, �) �(�, �)Xác suất ảnh hưởng</small>

<i><small>dg(S, u)Khoảng cách từSđếnutrên đồ thịg</small></i>

<small>^�(�, �)�(�, �)Hàm ước lượng~</small>

<small>�(�, �) �(�, �)Đồ thị mẫu sinh ra từ đồ thị�(�, �)</small>

<i><small>Ω</small></i> Tập các ràng buộc<small>OPTLời giải tối ưu</small>

<small>�(�, �)�(�, �)�(�, �)</small> <i><small>Ảnh hưởng độ lan truyền củaSđếnU</small></i>

<small>𝑎�(�, �)�(�, �) ()𝑔Hàmtrảvề các đối số tại đó giá trị của hàm số đạt cực đại</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i><b>Ký hiệuDiễn giải</b></i>

<i>ℛ</i> <small>Tập các bộ mẫu</small>

<small>�(�, �)�(�, �)</small> <i><small>Tập mẫu RR với nút nguồnucho đồ thị mẫu g</small></i>

�(�, �)<sub>�(�, �)</sub><sup>�(�, �)</sup> <i><sup>Tập mẫu TRR với nút nguồnucho đồ thị mẫu g</sup></i>

<i>X<small>g</small>(S) và�(�, �)�(�, �)( )</i>�(�, �) <small>Biếnngẫu nhiênđược xây dựng từ các mẫu RR và TRR</small>�(�, �)�(�, �)(S<i><small>2</small></i>,ℛ2,<i>δ)</i> <sub>Hàm tính cận dưới của </sub><small>�(�, �) �(�, �)2</small>

<i>F<small>u</small>(S<small>2</small>,</i>ℛ<small>2</small><i>, δ)</i> <small>Hàm tính cận trên của một giải pháp tối ưuKỳ vọng</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b><small>DANH MỤC CÁC TỪ VIẾT TẮT</small></b>

<small>Bài toán cực đại ảnh hưởng lantruyền thơng tin nhiều chủ đề vớichi phí giới hạn</small>

<small>CIM</small> <sup>Competitive</sup>

<small>Bài toán Cực đại ảnh hưởng cạnh tranh</small>

<small>CLT</small> <sup>Competitive Linear</sup><small>Threshold</small>

<small>Ngưỡng tuyến tính cạnh tranh</small>

<small>COCombination OptimizationTối ưu tổ hợp</small>

<small>IBInfluences BlockingNgăn chặn ảnh hưởngICIndependent CascadeBậc độc lập</small>

<small>IDInformation DetectionPhát hiện thông tin</small>

<small>IGIntegrated Greedy algorithmThuật tốn tham lam tích hợp</small>

<small>IGS</small> <sup>Integrated Greedy </sup>

<i><small>Bài toán cực đại ảnh hưởng vớik</small></i>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>LELive EdgeCạnh trực tuyếnLTLinear ThresholdNgưỡng tuyến tính</small>

<small>MIMisInformationThơng tin sai lệch</small>

<small>RRReverse ReachableTập mẫu ảnh hưởng ngượcSISpread InformationLan truyền thông tin</small>

<small>TRRTargeted Reverse Reachable</small> <sup>Tập mẫu ảnh hưởng ngược có mục </sup><small>tiêu</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b><small>DANH MỤC CÁC BẢNG</small></b>

Bảng 2.1. Thống kê của bộdữliệu...74

<i>Bảng 2.2. So sánh về σ(S) và σU(S) giữa IGS và các thuật toán khác với k = </i>

500, U = 1000 và T = 100→ 500...79Bảng 2.3. So sánh mức sử dụng bộ nhớ (MB) giữa IGS và các thuật tốnkhác....83

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b><small>DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ</small></b>

<small>Hình 1.1. Ví dụ lan truyền thơng tin cho mơhìnhLT...27</small>

<small>Hình 1.2. Ví dụ lan truyền thơng tin cho mơhìnhIC...28</small>

<small>Hình 1.3. Nhóm bài tốn lan truyền thơng tintrênSN...32</small>

<small>Hình 1.4. Mơ tả thuậttốnluồng...46</small>

<small>Hình 2.1. Ví dụ cho thấy sự khác biệt giữa IMvàIMP...55</small>

<b><small>Hình 2.2. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệunetHEPTvới</small></b><i><small>k=100 → 500,T=100 vàUsize=200...76</small></i>

<b><small>Hình 2.3. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệuENRONvới</small></b><i><small>k=100 → 500,T=100 vàUsize=200...76</small></i>

<b><small>Hình 2.4. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệunetPHYvới</small></b><i><small>k=100 → 500,T=100 vàUsize=200...77</small></i>

<i><b><small>Hình 2 5. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệuDBLPvớik=100</small></b><small>→ 500,T=100 vàUsize=200...77</small></i>

<b><small>Hình 2.6. So sánh mức độ lan truyền ảnh hưởng trên cơ sở dữ liệuRETWEETvới</small></b><i><small>k=100 → 500,T=100 vàUsize=200...77</small></i>

<i><small>Hình 2.7. So sánh về thời gian chạy(s)vớikthay đổi từ 150 đến 200 giữa IGS và các </small></i><small>thuậttốnkhác...81</small>

<i><small>Hình 3.1. Kết quả về giá trị hàm ảnh hưởng của IMkBkhi�(�, �) =1...113</small></i>

<i><small>Hình 3.2. Kết quả về số lời gọi hàm mục tiêu của IMkBkhi�(�, �) =1...114</small></i>

<i><small>Hình 3.3. Kết quả về thời gian chạy (s) của IMkBkhi�(�, �) =1...115</small></i>

<small>Hình 3.4. Kết quả giá trị hàm ảnh hưởng của IMkB trong trường hợptổngquát...116</small>

<i><small>Hình 3.5. Kết quả lời gọi hàm mục tiêu của IMkB trong trường hợptổngquát...117</small></i>

<i><small>Hình 3.6. Kết quả về thời gian chạy (s) của IMkB trong trường hợptổngquát...118</small></i>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>MỞ ĐẦU1. Lý do chọn đềtài</b>

<i>- Về mặt thực tiễn: Trong những năm gần đây, cùng với sự phát triển</i>

của công nghệ thông tin, mạng máy tính và cơng nghệ Web đã mang lại nhiềunền tảng để kết nối tồn cầu, trong đó nổi bật nhất là mạng xã hội (SocialNetwork - SN), trên SN mọi người cùng nhau kết nối, bất chấp không gian,thời gian để giải trí, học tập và kinh doanh. Khi sử dụng mạng xã hội ngườidùng có thể trở thành một phóng viên đưa tin và viết tin. Các vấn đề xã hộitrên thế giới nói chung và ở Việt Nam nói riêng nhờ có mạng xã hội đã lantruyền thông tin đến được với nhiều người dùng hơn, nhanh hơn, từ đó giúpcon người nâng cao nhận thức xã hội, giúp đưa ra các giải pháp hiệu quả vàkịp thời cho những vấn đề cộng đồng quan tâm. Có thể nói mạng xã hội đãbùng nổ trong những năm gần đây, là mơi trường lan truyền thơng tin nhanhchóng và sâu rộng, làm ảnh hưởng sâu sắc và mạnh mẽ đến cuộc sống hàngngày của con người. Ngày nay, mạng xã hội trở thành một cơng cụ hữu ích đểlan truyền thông tin, quảng bá sản phẩm và là một kho tri thức mà mọi ngườicó thể dễ dàng tiếpcận.

Cùng với những lợi ích trên, thì mạng xã hội cũng mang lại nhiều rủi rocho người dùng, như lây nhiễm mã độc, lộ lọt thông tin cá nhân, mất tàikhoản, lừa đảo trên mạng, vv…

Đặc biệt, với khoảng gần 5 tỷ<small>1người dùng trên khắp thế giới, SN đã và đang trở thành nơi chiasẻ và lan truyền thông tin với tốc độ nhanh hơn bất kỳ nền tảng nào khác. Theo các nghiên cứu gần đây, người dùng ngàycàng thích trao đổi thơng tin trên SN nhiều hơn là các tin tức truyền thống [1], [2]. Vì vậy cần nghiên cứu các giải pháphiệu quả để thông tin lan truyền đến người dùng trên mạng xã hội nhanh nhất, hiệu quả</small>nhất.

<small>1 class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>- Về mặt khoa học: Nghiên cứu bài toán cực đại ảnh hưởng trên SN là</i>

hướng nghiên cứu được nhiều nhà khoa học quan tâm, bài tốn này thuộcnhóm các bài tốn lan truyền thơng tin (Spread Information - SI), đòi hỏi kếthợp giữa các phương pháp, kỹ thuật từ nhiều lĩnh vực khác nhau như: khaiphá dữ liệu đồ thị, học máy, học sâu, tính tốn tối ưu, vv... Bên cạnh đó, SNcó khối dữ liệu khổng lồ, phân tán và quá trình lan truyền thông tin ngẫunhiên, cấu trúc mạng phức tạp, không đồng nhất và liên tục biến động. Do đócần phải đưa ra các giải pháp hiệu quả về mặt thời gian và bộ nhớ. Mặc dù đãcó nhiều nghiên cứu được cơng bố, nhưng các bài tốn trên vẫn cịn nhiềuthách thức chưa được giải quyết như: xử lý các ràng buộc ưu tiên hay xử lývới chi phí giới hạn đối với các bài toán cực đại ảnhhưởng.

<b>Căn cứ vào những lý do trên, đề tài của luận án là:“Nghiên cứu mộtsố phương pháp giải bài toán cực đại ảnh hưởng trên mạng xã hội vớiràng buộc ưu tiên và chi phí”có tính cấp thiết và quan trọng cả về mặt thực</b>

tiễn và khoa học trong việc tìm ra các giải pháp hiệu quả để cực đại ảnhhưởng lan truyền thơng tin trên SN, góp phần xây dựng hệ thống SN ngàycàng hữu ích hơn với ngườidùng.

Nội dung nghiên cứu của luận án bao gồm 02 bài toán như sau:

Ngày nay, các biến thể có tính ứng dụng cao của bài toán IM đang đượcrất nhiều nhà khoa học quan tâm nghiên cứu.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

- Biến thể theo thời gian [9], [10], theo chi phí [11] - [14], theo khoảngcách [15], theo chủ đề quan tâm[16].

- Trong trường hợp biến thể có các đối thủ cạnh tranh cần cực đại ảnhhưởng của một đối thủ khi lan truyền thơng tin có sự cạnh tranh (bài tốn cựcđại ảnh hưởng cạnh tranh - CIM) [4], [17] -[22].

<i><b>b. Cực đại ảnh hưởng lan truyền thông tin nhiều chủ đề với chiphígiới hạn (Budgeted k-Influence maximization-BkIM):Bài toán cực đại ảnh</b></i>

hưởng với nhiều chủ đề là một lớp bài tốn thuộc nhóm bài tốn cực đại ảnhhưởng (IM), trong đó mỗi người dùng trong mạng có thể được liên kết vớinhiều chủ đề khác nhau. Ví dụ, trong SN một người dùng có thể quan tâm đếnnhiều chủ đề khác nhau như thể thao, âm nhạc, du lịch, văn hóa, chính trị, vv...Bài tốn cực đại ảnh hưởng với nhiều chủ đề sẽ giúp tìm ra tập người dùngtrong SN có tác động lớn nhất đến mỗi chủ đề cụ thể. Bài toán cực đại ảnhhưởng với nhiều chủ đề có chi phí giới hạn là một biến thể của bài toán cựcđại ảnh hưởng với nhiều chủ đề trên mạng xã hội, trong đó mỗi người dùngtrong mạng có thể được liên kết với nhiều chủ đề khác nhau và việc tối đa hóatác động của người dùng đến các chủ đề cụ thể có một chi phí tương ứng.Việc giải quyết bài tốn khơng chỉ đơn thuần tìm được tập người dùng có ảnhhưởng lớn nhất mà cịn phải thỏa mãn được tiêu chí khơng vượt q chi phíđề ra. Hiện nay, đã có nhiều nghiên cứu giải quyết cho bài toán cực đại ảnhhưởng với nhiều loại ràng buộc khác nhau, điển hình là các cơng bố: [23] -[30], vv…

<b>2. Một số tháchthức</b>

Bài tốn cực đại ảnh hưởng với ràng buộc ưu tiên (IMP) và bài tốn cực

<b>đại ảnh hưởng lan truyền thơng tin nhiều chủ đề với chi phí giới hạn(</b><i>BkIM)</i>

đã và đang nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa họctheo nhiều bối cảnh khác nhau. Tuy nhiên, vẫn còn nhiều vấn đề chưa được

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

giải quyết hoặc có thể cải tiến thêm. Khi nghiên cứu các bài toán này, các nhàkhoa học cũng như luận án phải đối mặt với một số thách thức, cụ thể như sau:- Các bài toán cực đại ảnh hưởng thường thuộc lớp bài tốn tối ưu tổhợp có độ phức tạp tính tốn là NP-Khó. Bên cạnh đó, việc tính tốn hàmmục tiêu có độ phức tạp tính tốn là #P-Khó [5], [6]. Do đó, cần phải cónhững thuật toán hiệu quả để đưa ra lời giải tốt trong thời gian chophép.

- Với sự phát triển của các Mạng xã hội ngày nay (hàng triệu, hàng tỷngười dùng), cần đưa ra các thuật toán hoặc cách tiếp cận hiệu quả hơn chonhững bài toán trên để chúng mang tính thực tiễncao.

- Để nâng cao tính ứng dụng của các bài toán, cần nghiên cứu các biếnthể phù hợp với thực tế theo nhiều khía cạnh khác nhau như: ràng buộc ưutiên, chi phí, thời gian, lợi ích, khoảng cách, tính cạnh tranh,vv...

<b>3. Mục tiêu của luậnán</b>

Để góp phần giải quyết các thách thức đối với các bài toán đề xuất, luậnán đưa ra các mục tiêu như sau:

- Nghiên cứu các bài toán cực đại ảnh hưởng trên các mơ hình lantruyền thơng tin. Từ đó đề xuất các biến thể mới của bài toán như cực đại ảnhhưởng với ràng buộc ưu tiên và cực đại ảnh hưởnglan truyền thơng tin nhiều

- Đưa ra các mơ hình để giải quyết các bài toán trên, nghiên cứu độphức tạp của chúng trên các mơ hình lan truyền thơng tin đang được các nhàkhoa học sử dụng rộngrãi.

- Đề xuất các thuật toán hiệu quả để giải quyết các bài tốn trên, trongđó cần chú trọng nâng cao chất lượng lời giải cũng như khả năng ứng dụngđối với các mạng xã hội cỡ lớn hàng trăm nghìn, hàng triệu, thậm chí hàng tỷcạnh hoặcnút.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Để đạt được các mục tiêu trên, luận án đã sử dụng các phương phápnghiên cứu sau:

- Nghiên cứu lý thuyết các bài toán tối ưu tổ hợp (CombinationOptimization - CO), độ phức tạp tính tốn của các thuật toán. Nghiên cứu lýthuyết thiết kế các thuật toán cho các bài toán tối ưu tổ hợp thuộc các lớp NP-Khó, NP-đầy đủ,#P-Khó.

- Nghiêncứuvàphântíchnhữngcơng trìnhđãcơngbốliênquanđếncơchế,mơhìnhvàcácbàitốnvềlantruyền thơngtin. Từ đó,luậnánđềxuấtcácbàitốnmớicótínhứngdụngcaotrong thực tiễn. Các bàitốnnàyđượcchứngminhmộtcáchchặtchẽphùhợpcảvềmặtlýthuyếtlẫnthựcnghiệm.

- Cácthuật tốnđềxuấtmớiđềuđượcphân tích đánhgiá,chứng minh chặt chẽthơngquaphântíchlýthuyết dướidạngcácBổđề, Định lý.NCS kếthợp vớicácphương pháp thực nghiệmsửdụng cácbộdữliệu khácnhaunhằmđảmbảotínhkháchquan,tínhhiệuquảcủaphươngphápđềxuất.

<b>4. Các đóng góp của luậnán</b>

<b>Các nghiên cứu của luận án được cơng bố trên02tạp chí quốc tế thuộcdanh mụcSCIE</b><small>/</small><b>SCOPUS;01bài báo hội thảo quốc tế thuộc danhmụcSCOPUSvà02bài hội thảo trong nước. Trong đó, nội dung chính của luận</b>

án được thể hiện trong hai bài toánsau:

- Bài toán 1<i><b> :“Cựcđại ảnhhưởng vớiràngbuộcưutiên"</b></i>,bài toán được đặt

<b>tên làIMP(Influence Maximization with Priority). Mục tiêu của bài toán IMP</b>

<i>là chọn tập nguồnScóknút có thể ảnh hưởng của tập hợp ưu tiên nhấtđịnhUlớn hơn ngưỡngTnhằm điều chỉnh ảnh hưởng của tập nguồn đến tập ưu</i>

tiên. Mặc dù hàm mục tiêu (hàm ảnh hưởng) vẫn là một hàm đơn điệu và

<i>hàmSubmodular, nhưng khi xem xét ràng buộc ưu tiên, các thuật toán IM mới</i>

nhất không thể được áp dụng được. Để giải quyết thách thức này, luận án đềxuất hai thuật toán IG (Integrated Greedy) và IGS (Integrated Greedy - based<small>Sampling)vớicácđảmbảolýthuyếtcóthểchứngminhđược,luậnánchỉra</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<small>�(�, �)( )�(�, �)</small>

<small>1−∝ �(�, �)1+�(�, �) −�(�, �) �(�, �)1−∝ �(�, �)</small>

<i>nhất là 1 -δvới�(�, �)> 0,δ</i>∈<i>(0, 1)làm tham số đầu vào của bài toán. Kết quả</i>

<b>nghiên cứu được xuất bản trên tạp chíAlgorithms 2020, tập 13, số183;doi:10.3390/a13080183</b>.

<i><b>-Bài toán 2:“Cực đại ảnh hưởng lan truyền thơng tin nhiều chủ đềvớichi phí giới hạn”, bài toán được đặt tên là BkIM (Budgetedk-</b></i>

<i>Influencemaximization). Luận án đề xuất hai thuật toán luồng duyệt dữ liệu</i>

<i>một lần cung cấp giới hạn lý thuyết của bài toán BkIM.</i>

+ Đối với trường hợp đặc biệt: một phần tử chỉ có một giá trị chi phí

luồng tất định duyệt dữ liệu 1 lần, có độ phức tạp truy vấn là (�(�, �) <small>�(�, �)�(�, �)</small>

<small>�(�, �)</small> log )�(�, �) , độphức tạp không gian là (�(�, �) <small>�(�, �)</small>

<small>�(�, �)</small> log )�(�, �) và trả về một tỷ lệ gần đúng là<small>1</small>− �(�, �)khi<small>4</small>

<small>5</small>nào ∈ (0,�(�, �) <small>1</small>).

+ Đối với trường hợp tổng quát: luận án đề xuất thuật tốn luồng ngẫunhiênduyệtdữliệu1lần,cóđộphứctạptruyvấnlà (�(�, �) <small>�(�, �)�(�, �)</small>

<small>�(�, �)</small> log )�(�, �) , độ phức tạpkhông gian là (�(�, �) <small>�(�, �)</small>

<small>�(�, �)</small> log )�(�, �) và trả về một tỷ lệ gần đúng làmin {<small>∝</small>, }−<small>2</small>

<i>�(�, �)khiflà đơn điệu vàmin {</i><small>∝</small>,

<small>2</small> } − �(�, �)khifkhông đơn điệu, ở đây�(�, �)=�(�, �)�(�, �)�(�, �)<sub>�(�, �)∈�(�, �),�(�, �),�(�, �)∈�(�, �),�(�, �)≠�(�, �)�(�, �)</sub><sub>�</sub>

<small>�(�, �)</small>

và ∈ (0, 1)�(�, �) là tham số đầu vào. Kết quả đượcđăng trênkỷyếu hội nghị quốctế“In:Mohaisen,D.,Jin,R.(eds)ComputationalDataandSocialNetworks.CSoNet2021.Lecture

NotesinComputerScience(),vol13116.Springer,Cham.” thuộcdanh

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>mụcSCOPUSvàxuất bản trên tạp chíJournalofCombinatorialOptimizationtập44,trang723–751.</b>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>5. Bố cục của luậnán</b>

Bố cục của luận án được chia làm 3 chương như sau:

<b>Chương 1: Cơ sở lý thuyết của luận án và các nghiên cứu liên quan</b>

Trong chương này, luận án giới thiệu về mạng xã hội, các thành phầncơ bản, một số đặc trưng, những lợi ích và mặt trái của mạng xã hội; Giớithiệu các mơ hình và một số bài tốn lan truyền thơng tin phổ biến trên mạngxã hội; Một số kiến thức cơ bản sử dụng trong luận án; Đây là những kiếnthức tổng quan, mang tính nền tảng cho các chương sau của luậnán.

<b>Chương 2: Cực đại ảnh hưởng với ràng buộc ưu tiên trên mạng xã hội</b>

Nội dung của chương này, luận án đặt vấn đề và định nghĩa bài

<b>toánIMPtrên mơ hình lan truyền thơng tin; đề xuất thuật tốn tham lam tích</b>

hợp (IG) và thuật tốn lấy mẫu dựa trên tham lam tích hợp (IGS) cho bài tốnIMP; chứng minh hiệu suất thuật toán đạt xấp xỉ so với phương án tối ưu;Phân tích lý thuyết và đánh giá thuật toán dựa trên thực nghiệm với các bộ dữliệu của mạng xã hội trong thực tế.

<b>Chương3: Cực đạiảnhhưởnglan truyền thông tin nhiều chủđềvớichiphígiới hạn.</b>

Chương này luận án đề xuất mơ hình mới cho bài tốn cực đại ảnh

<i><b>hưởng lan truyền thông tin nhiều chủ đề, định nghĩa bài toánBkIM, đề xuất</b></i>

hai thuật toán luồng duyệt dữ liệu một lần cung cấp giới hạn lý thuyết của bài

<i><b>toánBkIM.</b></i>Để xem xét hiệu suất của các thuật toán đề xuất trong thực tế, luận

<i>đạiảnhhưởngvớikchủđềtrongđiềukiệnchiphígiớihạn.</i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b>1.1 Giới thiệu về mạng xãhội</b>

Khái niệm mạng xã hội lần đầu được đề cập từ năm 1954 [31]. Sau đóvới sự ra đời và phát triển của công nghệ thông tin, mạng máy tính và cơngnghệ Web đã dẫn tới sự hình thành các mạng xã hội như Facebook và Flickrnăm 2004, YouTube năm 2005, Twitter năm 2006, Sina Micro-blog năm2009 và Google<small>+</small>năm 2011, vv... Ngày nay thế giới đã chứng kiến hàng trămnghìn mạng xã hội lớn, nhỏ ra đời. Nhờ có mạng xã hội mà con người đã thayđổi cách thức tiếp cận thông tin. Người sử dụng trên mạng xã hội (gọi tắt làngười dùng) có thể trao đổi thơng tin, giao tiếp với nhau không kể thời gian,không gian và khoảng cách địa lý. Họ có thể chia sẻ thơng tin, quan điểm, ýkiến, hoặc chia sẻ các bài viết, ảnh, video của người khác vv... Đặc tính nàygiúp cho các thơng tin được lan truyền nhanh chóng trên SN và nội dung củathông tin ngày càng đa dạng và phongphú.

Bên cạnh đó,mạng xãhội cịnlànền tảngchophéppháttriểncácứngdụng,người dùngcóthểtiếnhànhnhiềutiệníchkhácdo SNcungcấp.Cùng vớisựphát triển của cơngnghệvà mạngxãhộihiệnnay,ngàycàngcónhiềuSN rađờiđểkhaithácnhiều khíacạnh khácnhauđápứng toàn diệnnhucầu của người dùng. Chínhvì sựtiệníchnày màsốlượngngười dùngSNđangngày càng tăng lên. Vớisốlượng ngườidùnglớntrêntoànthếgiới,S N đ ã vàđangc ó nhữngtácđộngkhơngnhỏđếnthế

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

giớithực trên nhiềulĩnh vựcnhư:kinhtế, chínhtrị,xãhội, vv… Trongđó có

cực.Vìvậycórấtnhiềucơngtrìnhkhoahọcnghiêncứusâuvềmạngxãhội,từđótìmranhững giải pháp nhằm pháthuythế mạnhvàhạnchếnhững tác độngkhôngmongmuốncủa SN,để mạng xã hộingày càng trở nên hữuíchvàđángtincậy hơn với ngườidùng.

Mỗi mạng xã hội đều có mục đích, cấu trúc và tính chất riêng, nhưnghầu hết các mạng đều được cấu thành bởi các thành phần cơ bản như: Ngườidùng, liên kết, thông tin và tương tác của người dùng đối với thông tin.

<i><b>1.1.1 Các thành phần cơ bản của mạng xãhội</b></i>

<i>-Người dùng: Mỗi người dùng là một thực thể trên SN, thực thể này có</i>

thể là cá nhân, doanh nghiệp hoặc tổ chức nào đó, gọi chung là người dùnghay dân cư mạng. Ví dụ đối với Facebook người dùng có thể là một tài khoảncá nhân hoặc một nhóm có cùng sở thích (group) hoặc một trang người hâmmộ (fanpage), vv…

<i>- Liên kết: Trong một SN liên kết thể hiện mối quan hệ và sự ảnh hưởng</i>

<i>giữa những người dùng. Khái niệmliên kếttrong mỗi SN là khác nhau. Ví dụ,với Facebook, Zalo thìliên kếttương ứng với quan hệ bạn bè, vớiInstagramliên kếttương ứng với chức năng “theo dõi”, còn với Tiktokliên</i>

<i>kếttương ứng với “follow”,vv…</i>

<i>- Thông tin: Trên mạng xã hội người dùng tự tạo nội dung thông tin và</i>

chia sẻ thông tin đến các thành viên khác theo các hình thức khác nhau.Thơng tin trên SN có thể là: bài viết, hình ảnh, âm thanh, video, đoạn tin ngắn(blog), vv.. có nội dung thuộc nhiều lĩnh vực khác nhau như: bài viết về chủđề thể thao, giải trí, âm nhạc hoặc bài viết về chủ đề kinh tế, chính trị,vv...

<i>- Tương tác: Thể hiện sự tương tác giữa những người dùng trên SN tạo</i>

<i>ra mối quan hệ qua lại và hiểu biết lẫn nhau. Khái niệm “tương tác”được hiểu</i>

là sự phản hồi của người dùng đối với các thông tin của người dùngkhác

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

lan truyền trên mạng xã hội, điều này được thể hiện thông qua việc: chia sẻ, đăng bài, theo dõi, bình luận, vv…

<i><b>1.1.2 Một số đặc trưng chung của mạng xãhội</b></i>

<i>- Đặc trưng thế giới nhỏ: Trong một số nghiên cứu đã chỉ ra rằng, đối</i>

với các mạng xã hội lớn khoảng cách trung bình kết nối giữa hai người dùngnhỏ hơn 6. Đây được coi là đặc trưng thế giới nhỏ của SN [32], [33]. Với đặctrưng thế giới nhỏ, thông tin dễ dàng lan truyền giữa những người dùng nhờtính kết nối nhanhchóng.

<i>- Đặc trưng tập nhân: Căn cứ vào cấu trúc và sự vận động của mọi</i>

mạng xã hội đều chịu sự ảnh hưởng của một số người dùng quan trọng (ngườicó chức sắc, địa vị hay người nổi tiếng, vv..). Những người dùng này có bậccao, được gọi là nút trung tâm hay nút nhân [34], “bậc” ở đây là số nút kháccó liên kết với người dùng đó. Các SN ln chứa một lượng lớn những nút cóbậc cao, bao quanh các nút này là các nút có bậc thấp hơn và quanh những nútcó bậc thấp hơn lại là các nút có bậc thấp hơn nữa, cứ như vậy tạo thành mộthệ thống phân cấp. Các nút nhân đóng vai trị quan trọng trong việc kết nốiluồng thơng tin trong SN. Trong mạng xã hội nếu loại bỏ một nút thuộc tậpnhân ra khỏi mạng thì sẽ phân chia mạng thành các nhóm cơ lập và khi mộtnút mới thêm vào mạng thường có xu hướng kết nối đến những nút có bậc cao.Điều này lý giải tại sao người nổi tiếng thường được mời làm quảng cáo vàngười nổi tiếng cũng có thể bị lợi dụng để lan truyền thông tin sai lệch,vv…

<i>- Đặc trưng cấu trúc cộng đồng: Tương tự như trong xã hội thực trong</i>

SN luôn tồn tại các nhóm hoạt động khác nhau như: nhóm bạn bè có cùng sởthích, nhóm các nhà khoa học cùng nghiên cứu về một lĩnh vực, các câu lạcbộ thích văn hóa, thể thao, vv… Các nhóm này gọi là các cộng đồng trựctuyến. Trong mạng xã hội được phân chia thành các cộng đồng lớn nhỏ khácnhau, bên trong các cộng lớn có những cộng đồng con nhỏ hơn. Trong mộtcộngđồngcácnútcómậtđộkếtnốilớnhơnsovớicácnútbênngồicộng

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<small>�(�, �)</small>

đồng. Một người dùng có thể tham gia một hoặc nhiều cộng đồng khác nhauhoặc không thuộc cộng đồng nào. Như vậy trong mỗi mạng xã hội tồn tại hailoại cấu trúc cộng đồng là: cộng đồng chồng chéo và cộng đồng tách rời. Việcnghiên cứu tính chất cấu trúc cộng đồng trong SN có nhiều ứng dụng trongkhoa học và thực tiễn.

<i>- Đặc trưng phân bố lũy thừa: Phân bố bậc của các nút trong mạng</i>

được mô tả bởi hàm ( ),�(�, �) �(�, �) hàm này xác định xác suất của một nút có bậclà�(�, �).Phân bố bậc của một mạng theo lũy thừa nếu xác suất một nút có bậc là�(�, �)được xác định là =�(�, �) �(�, �) <small>1</small>, với2 < < 3.�(�, �) Hiện nay, hầu hết các mạng xã

<small>�(�, �)</small>

hội đều có phân bố bậc lũy thừa [35].

<i><b>1.1.3 Lợi ích của mạng xãhội</b></i>

Các nhà cung cấp dịch vụ trên mạng xã hội tận dụng tối đa các tínhnăng của SN để mang lại nhiều nhất lợi ích cho người dùng, góp phần đángkể vào sự phát triển của nền kinh tế tồncầu.

<i>Ứngdụng kinhdoanh.Cácmạng xã hộingàynayđóngvaitrịquantrọng</i>

trong hoạt động của các côngty,doanhnghiệp.Cáchoạt động quảng cáo sảnphẩm, lấyýkiến phảnhồicủangười dùng,giaodịchvới khách hàng,đối tác,vv..đều có thể thực hiệndễdàngvàthuận lợitrêncáctiệníchcủa SN. Trong các hoạtđộngnày,hoạt động quảng cáo sản phẩm thôngquacác dịchvụtrênSNđangđạt đượcnhiềuthành cơngvàthuhútsự quantâmnghiêncứu củanhiềunhàkhoahọc.Vìvậy, thơngtinvàcác tính năngcủasản phẩm được quảngbánhanhchóngvàtồn diệnđến người dùngmạng xãhội.

<i>Tìm kiếm mối quan hệ.Trong thời đại ngày nay con người có ít thời</i>

gian dành cho bản thân và mở rộng các mối quan hệ mới. Sử dụng các dịch vụtrên SN, người dùng có thể tìm kiếm các mối quan hệ mình quan tâm cũngnhư duy trì các mối quan hệ đã có. Người dùng chỉ cần sử dụng các dịch vụtrên SN để giữ mối liên lạc với người thân, bạn bè và đồng nghiệp của họ.H ọ

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

có thể trị chuyện, trao đổi thơng tin, tương tác với nhau trên SN thay cho gặpnhau trực tiếp. Đặc biệt trong đại dịch Covid-19 vừa qua, các mối quan hệtrên mạng xã hội càng trở nên thuận tiện và hữu ích hơn khi mọi người bị hạnchế tiếp xúc trực tiếp vớinhau.

<i>Ứng dụng đối với các hoạt động của tổ chức, chính phủ. Các mạng xã</i>

hội ngày nay đã mang lại nhiều lợi ích trong các hoạt động chính trị và xã hội.Chẳng hạn như trong cuộc cách mạng ở Ai Cập năm 2011, các mạng Twittervà Facebook đã đóng vai trị quan trọng trong việc kết nối các cá nhân vànhóm nổi dậy. Các nhóm hoạt động ở Ai Cập đã đưa kế hoạch hoạt động chonhóm người của họ trên các mạng này, đưa ra các bằng chứng cho cộng đồngvề sự tàn bạo của chính phủ qua các ảnh và video. Ngoài ra, trên các SN cịncho phép chính phủ giám sát ý kiến của người dân trong các hoạt động vănhóa, chính trị hoặc các hiệu ứng xã hội khác.

<i>Ứng dụng trong giáo dục và học tập trực tuyến. Mạng xã hội ngày nay</i>

có nhiều ứng dụng trong lĩnh vực giáo dục và học tập trực tuyến. Các nềntảng mạng xã hội cho phép các giáo viên và học sinh chia sẻ thông tin, tài liệu,video học tập và tương tác với nhau trong môi trường giảng dạy và học tậptrựctuyến.

<i>Truyền thông và phát thanh trực tuyến.Mạng xã hội đã trở thành cơng</i>

cụ hữu ích để truyền thông và phát thanh trực tuyến. Các nền tảng SN chophép các tổ chức truyền thông và phát thanh quảng cáo các chương trình, tintức, sự kiện và các nội dung khác cho khán giả của mình.

<i><b>1.1.4 Mặt trái của mạng xãhội</b></i>

<i>Phát tán virus, mã độc.Mạng xã hội là môi trường rất thuận lợi cho sự</i>

phát tán virus, mã độc. Các virus, mã độc là phần mềm độc hại được chủ độngphát triển nhằm thực hiện mục đích của kẻ tấn công như: Đánh cắp dữ liệu,phá hoại dữ liệu, nghe nén, thu thập thông tin cá nhân của người dùng, thựchiện các hành vi lừa đảo, vv… Nguy cơ này ngày càng bùng phát trong thờigian gần đây.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Một nguy cơ nữa đang bùng phát cùng với sự phát triển của SN đó làthư rác. Nội dung của thư rác thường là các thông tin quảng cáo, chứa virushoặc địa chỉ các trang Web khơng chính thống bằng nhiều hình thức khácnhau như: gửi thơng điệp, hình ảnh, bình luận trên các trang Web có nhiềungười theo dõi,vv...

<i>Lừa đảo trên mạng xã hội.Mục đích của các đối tượng sử dụng cách</i>

thức này nhằm đánh cắp thông tin cá nhân của người dùng bằng cách giả mạomột người đáng tin cậy trên mạng. Những kẻ lừa đảo có thể tấn cơng vào tàikhoản của người dùng và chiếm quyền đăng nhập vào tài khoản của họ sau đótiến hành các hoạt động trái phép như: tống tiền, giả mạo thông tin, thu thậpthông tin từ người thân của nạn nhân, vv... Một số nghiên cứu gần đây chothấy người dùng SN ngày càng bị lừa đảo bởi hình thức này cao hơn do bảnchất tương tác của SN giống như một xã hội thực. Trong thời gian gần đây,hoạt động lừa đảo trên SN có xu hướng tăng nhanh. Theo báo cáo của hãngMicrosoft, các cuộc tấn công lừa đảo nhắm vào người sử dụng trên các trangmạng xã hội chiếm 84,5%.

<i>Sự phát tán thông tin sai lệch.Thôngtinsai lệch</i>

lànhữngthôngtingiảmạo, khơng chính thống [36].Đây làmột tháchthứclớnđối với cộng đồngngườidùngsửdụng cácdịch vụtrênSNtại

từngcánhânvàcịncóthểgâyranhữngtổnhạivềchính trị,kinhtế, văn hóavànhậnthứccủacộng đồng. Như thôngtinsailệchvềbùng phát dịchbệnh“Ebola”đãgâyrasựhoangmangchodân chúng [37],haytheocácnghiêncứugầnđây,“thôngtinsailệch”đãgâyảnhhưởng tới kếtquảcuộc bầucửtổng thốngMỹ vào năm2016 vàởPháp vào năm2017[38].

Nhằm ngăn chặn sự phát tán và tác hại của “thông tin sai lệch”, cácquốc gia phát triển đã xây dựng hệ thống ngăn chặn thông tin giả mạo. Một sốquốc gia đã yêu cầu các hãng cung cấp dịch vụ trên mạng xã hội cam kết loạibỏ “thông tin sai lệch”.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<b>1.2 Các mơ hình lan truyền thơng tin trên mạng xãhội</b>

Các mạng xã hội đều có ba yếu tố trong q trình lan truyền thơng tinbao gồm: thành viên trong hệ thống SN, sự tương tác lẫn nhau và kênh truyềnthơng. Nghiên cứu các mơ hình lan truyền thơng tin trong mỗi hoàn cảnh cụthể là nền tảng giúp con người có thể giải quyết các vấn đề liên quan đến sựphát tán thông tin trong thực tế như: sự phát tán các ý kiến, tư tưởng giữa cáccá nhân trong xã hội, sự phát tán của dịch bệnh (trong y học), sự phát tán củavirus trên một mạng máy tính, sự phát tán thơng tin trên các SN, vv... Trongcác mạng xã hội, thông tin được lan truyền từ người dùng này đến người dùngkhác thông qua các hoạt động tương tác giữa những người dùng như: đăng bài,bình luận, chia sẻ, vv... Quá trình tương tác diễn ra tương đối nhanh và cóđặc điểm khác với sự lan truyền thông tin truyền thống. Hiểu rõ được qtrình phát tán thơng tin trên các mạng xã hội giúp SN ngày càng trở lên hữuích. Từ mục đích đó, các nhà khoa học đã mơ tả q trình phát tán thơng tinbằng các mơ hình phát tán thơng tin (information diffusionmodels).

Các tác giả Domingo và Richardson [39] là những người đầu tiênnghiên cứu tác động giữa người dùng trong việc lan truyền ảnh hưởng tiếp thịvề sản phẩm. Trên cơ sở nghiên cứu này, Kempe và các cộng sự đã mơ hìnhhóa q trình q trình lan truyền thơng tin bằng hai mơ hình là: Mơ hình Bậcđộc lập (Independent Cascade - IC) và mơ hình Ngưỡng tuyến tính (Linearthreshold - LT) [3]. Hai mơ hình này hoạt động theo các bước thời gian rờirạc. Kể từ khi đề xuất, hai mơ hình này được nhiều nhà khoa học sử dụng nhưnhững mơ hình lan truyền thơng tin cơ bản và phổ biến [40], [41]. Ngồi ra,các mơ hình này cịn được phát triển nghiên cứu theo nhiều biến thể khácnhau để phù hợp với thực tiễn, cụ thể là: biến thể theo thời gian liên tục [42],[43], biến thể theo khoảng cách [15], biến thể theo chủ đề được lan truyền ảnhhưởng [12], vv... Hiện nay trong các cơng trình nghiên cứu mơ hình lantruyền thông tin theo thời gian rời rạc được sử dụng phổ biếnhơn.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<i><b>1.2.1 Mơ hình lan truyền thơng tin rờirạc</b></i>

Mơ hình lan truyền thơng tin rời rạc trên SN được biểu diễn bằng một

<i>đồ thị có hướngG = (V, E)với các thành phần như sau:</i>

<i>- Vlà tập hợp các nút của đồ thị biểu diễn tập hợp tất cả người dùng trênmạng xã hội với số nút |V| =n.</i>

<i>- Elà tập hợp các cạnh của đồ thị, biểu diễn liên kết giữa các người</i>

dùng trong mạng xã hội với số cạnh| | =<small>�(�, �)�(�, �)</small>.

Đểbiểu diễnSN tacũng có thể dùngđồthịvơhướng,nhưngta cóthể xemlàmộtđồthị có hướng mà tất cả các cạnh đềucócạnhhướng ngược lại.Do đóđểkhơngmấttính tổngqt,NCS dùngđồthị có hướngđểbiểu diễn mộtmạng xãhộitrong cácnghiêncứu.

Khái niệm “liên kết” trong các SN thường là khác nhau. Cụ thể đối vớimạng Facebook thì liên kết tương ứng với quan hệ bạn bè, với mạngInstagram tương ứng với chức năng “theo dõi”vv...

<i>Đối với đồ thịG = (V, E), Mỗi nút ∈ </i>�(�, �) �(�, �)có tập nút vào, ký hiệu�(�, �)�(�, �)�(�, �)�(�, �)={�(�, �)|(�(�, �),�(�, �))∈�(�, �)}vàtậpnútra,kýhiệu�(�, �)�(�, �)�(�, �)�(�, �)�(�, �)={�(�, �)|

(�(�, �),�(�, �))∈�(�, �)}.Bậcvàovàbậcracủanút�(�, �)đượckýhiệulà�(�, �)�(�, �)�(�, �)(�(�, �))=|�(�, �)�(�, �)�(�, �)�(�, �)|và�(�, �)𝑜�(�, �)( )�(�, �) =

|�(�, �)�(�, �)�(�, �)�(�, �)�(�, �)|.Trongluậnán,đểthuậnlợitrongcáchgọitênNCScoimộtmạngxã hội nhưmột đồ thị.

Các thành phần trong mơ hình lan truyền thơng tin rời rạc được mô tảnhư sau:

<i><b>- Tập nguồn (tập hạt giống).Thông tin đầu tiên được phát tán từ tập</b></i>

<i>người dùng đầu gọi là tập nguồnS, S⊆V.</i>

<i><b>-Trạng thái của các nút.Với mỗi nút ∈ </b></i>�(�, �) �(�, �)có thể ở một tronghaitrạng

<i>thái kích hoạt (active) và khơng kích hoạt (inactive). Nútvở trạng thái kích</i>

hoạt khi người dùng bị ảnh hưởng bởi thơng tin mới, sản phẩm mới hoặc ý

<i>tưởng mới lan truyền trên mạng từ tập nguồnS, ở trạng thái khơng kích hoạt</i>

tức là chưa chấp nhận, chưa bị thuyết phục bởi thông tin, ý tưởng hoặc thông

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

tin về sản phẩm. Trong luận án, hai thuật ngữ bị ảnh hưởng và kích hoạt lànhư nhau tùy từng ngữcảnh.

<i><b>- Quá trình lan truyền thơng tin.Q trình lan truyền thơng tin theo</b></i>

thời gian rời rạc hoạt động theo các bước thời gian rời rạc. Cụ thể với thời

<i>giant= 0, 1, ... Gọi tập các nútS<small>t</small>⊆Vlà tập hợp các nút đã được kích hoạt tại</i>

<i>thời điểmt. Q trình lan truyền từ bướctđến bướct + 1theo một hàm (luật lan</i>

truyền) nhưsau:

�(�, �)<small>�(�, �)+1</small>=�(�, �) ,�(�, �) �(�, �)�(�, �),�(�, �) (1.1)

<i>Quá trình lan truyền thơng tin dừng lại tại thời điểmtnếu khơng cịn bấtkỳ nút nào kích hoạt thêm ở bướct + 1, nghĩa làS<small>t</small>=S<small>t+1</small></i>.

<i><b>- Hàm ảnh hưởng (hàm mục tiêu).Hàmσ(S)là số lượng nút kích hoạt</b></i>

<i>(ảnh hưởng) sau q trình lan truyền thơng tin từ tập nguồnS.</i>

Trên đây là quá trình chung cho sự lan truyền thông tin rời rạc, tuy

<i>nhiên quy luật lan truyền thơng tin từS<small>t−1</small>tớiS<small>t</small>trong mỗi mơ hình cụ thể lạikhác nhau. Tiếp theo luận án trình bày hai mơ hình lan truyền thơng tin LT(Linear threshold) và IC (Independent Cascade). Đây là hai mơ hình cơ bảnđược sử dụng rộng rãi trong các cơng trình nghiên cứu. Trong luận án haimơ hình cơ bản cũng được NCS sử dụng.</i>

<i><b>1.2.2 Mơ hình Ngưỡng tuyến tính (Linear threshold -LT)</b></i>

Mơ hình ngưỡng tuyến tính là một trong hai mơ hình lan truyền thôngtin được đề xuất năm 2003 [3], là một trong những mơ hình ngẫu nhiên rời rạcvì thơng tin được lan truyền theo các bước thời gian rời rạc và các tham số

<i>được chọn ngẫu nhiên. Trong mô hình LT, mỗi nút có mộtngưỡng kích</i>

<i>hoạtphụ thuộc theo thời gian (thơng tin càng cũ thì càng khó ảnh hưởng). Tất</i>

<i>cả các nút hàng xóm đã bịkích hoạt(nhiễm) thơng tin của một nút sẽ cố gắng</i>

kích hoạt nút đó. Khi tổng ảnh hưởng của các nút hàng xóm vượt

<i>qngưỡngkích hoạtthì nút đó sẽ bị kích hoạt. Một nút hàng xóm có nhiều lần</i>

cố gắng

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

kích hoạt nút hàng xóm của nó cho đến khi nút đó bị nhiễm thì thơi, hoặc khi q trình lan truyền kết thúc. Mơ hình LT được mơ tả chi tiết như sau:

<i>�(�, �)(�(�, �),�(�, �))≤ 1, ∀�(�, �)∈ .</i>�(�, �) (1.2)

Tức là tổng trọng số các nút�(�, �)đến nút�(�, �) ≤ 1, ∀�(�, �) ∈�(�, �).Q

<i>trìnhlantruyền thơng tin theo các bướct = 0, 1, 2, ....Mỗi một nútucó mộtngưỡng kích hoạtθ<small>u</small>được chọn ngẫu nhiên trong khoảng [0, 1]. Q trìnhlan truyền thơng tin trong mơ hình LT từ tập nguồnSdiễn ra nhưsau:</i>

<i>- Bước 1:t= 0, tất cả các nút thuộcSđều bị kích hoạt, nghĩa làS<small>0</small>=S.</i>

<i>- Bước tiếp theo:t ≥1, tất cả các nútuđang ở trạng thái khơng kích hoạt</i>

sẽ bị kích hoạt nếu tổng trọng số ảnh hưởng tại bước đó lớn hơn ngưỡng kích

<i>hoạtθ<small>u</small></i>, nghĩalà:

Σ<small>�(�, �)∈�(�, �)</small><sub>�(�, �)�(�, �)(�(�, �))</sub><small>∩�(�, �)</small>

<small>�(�, �)−1</small>

<i>�(�, �)(�(�, �),�(�, �))≥θ�(�, �).</i> (1.3)

- Các nút khi đã ở trạng thái kích hoạt, nó sẽ giữ ngun trạng thái đótrong các bước tiếp theo. Q trình lan truyền kết thúc khi giữa hai bướckhơng có thêm nút mới nào được kíchhoạt.

Mơ hình LT thể hiện hành vi ngưỡng của con người khi chịu sự tácđộng của các cá nhân khác trong cộng đồng. Khi các tác động lớn hơnngưỡng chịu đựng thì người đó sẽ bị ảnh hưởng. Điều này cũng biểu diễn choquá trình nhận thức và tiếp nhận thông tin của người dùng trênSN.

Tuynhiên, các ngưỡngkíchhoạtcủa các nút trongđồthịthườngkhó xác

<i>nàyngưỡngkíchhoạtθ<small>u</small>đượcchọnngẫunhiên trong khoảng[0,1].Việc chọn ngưỡng</i>

phảiđảm bảo khả năng kíchhoạtcủa mộtnúttỷ lệvới tổngảnhhưởng củacácnútlâncận.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Hình 1.1. Ví dụ lan truyền thơng tin cho mơ hình LT

Hình 1.1 là ví dụ lan truyền thơng tin cho mơ hình LT. Giả sử tập

<i>nguồnS={a}, mỗi nút trong đồ thị có một ngưỡng kích hoạt và mỗi cạnh có</i>

trọng số tương ứng. Q trình lan truyền thơng tin trên mơ hình LT diễn ranhưsau:

<i>- Bước 1:t= 0,S<small>0</small>= S= {a}.</i>

<i>- Bước tiếp theot= 1, tổng trọng số ảnh hưởng đến nútblà 0.8 lớn hơnngưỡngθ<small>b</small>=0.5dođónútbbịkíchhoạt.Nútccótổngtrọngsốảnhhưởng</i>

<i>0.3 <θ<small>c</small>= 0.6 nên khơng bị kích hoạt. Ta cóS<small>1</small>= {a,b}.</i>

<i>- Tại bướct= 2, nútcđược kích hoạt. Bởi vì tổng trọng số ảnh hưởng đếnnútclà 0.7 >θ<small>c</small>= 0.6. Khi đó ta cóS<small>2</small>= {a, b,c}.</i>

<i>- Tại bướct= 3, nútdđược kích hoạt. Bởi vì tổng trọng số ảnh hưởng đếnnútdlà 0.3+0.2 = 0.5 >θ<small>d</small>= 0.4, ta cóS<small>3</small>= {a, b, c,d}.</i>

<i>- Tại bướct= 4, khơng có nút nào được kích hoạt thêm, q trình lan </i>

truyền kếtthúc.

Mơ hình lan truyền thơng tin IC [3] cũng là mơ hình ngẫu nhiên rời rạc.Đặc trưng của mơ hình IC là q trình lan truyền thơng tin dọc theo các cạnh

<i>một cách độc lập. Trong mơ hình IC mỗi nút chưa bịkích hoạtthơng tin sẽ bị</i>

kích hoạt một cách độc lập bởi từng nút lân cận đã bị kích hoạt với một xácsuất nhất định. Khác với mơ hình LT, mỗi nút trên mơ hình IC chỉ có một cơ

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

hội duy nhất để kích hoạt một nút khác trong đồ thị. Mơ hình IC thường đượcdùng trong nghiên cứu ảnh hưởng và trong dự báo. Chi tiết mơ hình IC đượcmơ tả như sau:

Trong mơ hình IC, mỗi cạnh trong đồ thị( , ) ∈ �(�, �) �(�, �) �(�, �)được gánmộtxácsuất ảnh hưởng ( , ) ∈ [0, 1]�(�, �) �(�, �) �(�, �) . Xác suất ( , )�(�, �) �(�, �) �(�, �) biểu diễn mứcđộảnhh ư ở n g củanút�(�, �)vớinút�(�, �).Nếu( ,�(�, �)�(�, �))

∉�(�, �),thì ( ,�(�, �) �(�, �) �(�, �) =0.Mỗinúttrongđồ thị cũng chỉ có thể nhận một trong hai trạng)

<i>tháikích hoạthoặckhơng kíchhoạt. Mơ hình IC cũng là một mơ hình lan truyền</i>

thơng tin rời rạc tuy nhiên chúng tạo ra tập các nút kích hoạt theo một nguyên

<i>tắc khác. Cụ thể quá trình lan truyền thơng tin từ tập nguồnSdiễn ra nhưsau:- Tại bướct= 0, chỉ có các nút trong tập nguồnSở trạng thái kích hoạt,nghĩa làS<small>0</small>=S.</i>

<i>- Tại bướct≥ 1, đầu tiên gánS<small>t</small>= S<small>t−1</small>. Mỗi nútu∈S<small>t−1</small>có một cơhộiduy</i>

<i>nhất để kích hoạt đến nútv∈N<small>out(u)</small>với xác suất thành cơng làp(u,v).Nếu kích</i>

<i>hoạt thành cơng ta thêm nútvvào tậpS<small>t</small>và nói rằnguđã ảnh hưởngvtại thời</i>

<i>điểmt. Quá trình kích hoạt tương tự với các nút cịn lại chưa được kíchhoạt.</i>

- Khimộtnútđãởtrạngtháikíchhoạt,nútđósẽgiữnguntrạngthái.Qtrìnhlantruyềnkếtthúckhigiữahaibướckhơngcóthêmnútnàobịkíchhoạt.

<i>Q trình kích hoạt theo xác suấtp(u, v)có thể được thực hiện theo</i>

phương pháp quay bánh xe xổ số.

Hình 1.2. Ví dụ lan truyền thơng tin cho mơ hình IC

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Hình 1.2 là ví dụ của q trình lan truyền thơng tin trên mơ hình IC.

<i>Với tập nút nguồn làS= {a}, trên mỗi cạnh biểu diễn các xác suất lan truyền</i>

tương ứng. Quá trình lan truyền thông tin được diễn ra nhưsau:

<i>- Tại thời điểmt= 0,S<small>0</small>= S={a}.</i>

<i>- Tại thời điểmt= 1, nútakích hoạt nútbvà nútcvới xác suất là 0.8 và 0.3.Giả sử nútbđược kích hoạt. Ta thêmbvàoS<small>1</small>,S<small>1</small>= {a,b}.</i>

<i>- Tại thời điểmt= 2, nútbkích hoạt nútdvàcvới xác suất thành công là0.3 và 0.4. Nútakhông được kích hoạt nútcdo đã thực hiện ở bước trước. Giảsử trường hợp nàycđược kích hoạt, ta cóS<small>2</small>= {a, b,c}.</i>

<i>giữa hai người dùnguvàvtrên mạng nếu có nhiều đường đi giữa họ thì khả</i>

năng lan truyền thơng tin càng lớn. Việc mơ hình hóa này hồn tồn phù hợpvới thực tế lan truyền thơng tin trên các mạng xãhội.

Q trình lan truyền thơng tin trong hai mơ hình LT và IC với cùng mộttập nguồn thì mỗi q trình kích hoạt các nút có thể cho kết quả khác nhau.Việc tính tốn ảnh hưởng của tập nguồn các nhà khoa học thường lấy phéptính kỳ vọng theo biến ngẫu nhiên số nút bị ảnh hưởng trong mỗi lần lantruyền thông tin.

<i><b>1.2.4 Mô hình cạnh trực tuyến (<small>Live Edge -</small>LE)</b></i>

Các mơ hìnhlantruyềnthơngtin ICvàLTlà cácmơhình ngẫunhiênvìcácmơhình nàychứacácyếutốngẫunhiên (ngưỡngkích hoạtvàxácsuấtảnhhưởng).Quá trình phânbốtậpcác nút được kích hoạt theo thời

<i>gianS<small>t</small>làmộtquátrình ngẫunhiên rờirạc [40].Chen và cáccộngsự đãchỉraviệc</i>

<i>tính tốn hàm ảnh hưởngσ(S)với tậpnguồnSthuộc lớp bài tốn#P-Khó[5],</i>

[6].

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Để khắc phục được khó khăn trong việc tính tốn hàm σ(·), Kempe vàcác cộng sự đã chứng minh hai mơ hình IC và LT tương đương với mơ hìnhcạnh trực tuyến (LE). Từ kết quả này cho phép các nghiên cứu tiếp theo cóthể đề xuất các thuật toán xấp xỉ hiệu quả cho các bài tốn lan truyền thơngtin [7], [8], [14], [44] -[46].

Hai mơ hình phát tán thơng tin tương đương được định nghĩa như

<i><b>sau:Định nghĩa 1.1:(Hai mơ hình tương đương [3]). Cho đồ thịG=(V, E), 2 </b></i>

<i>mơ hình phát tán thông tin rời rạcMvàM’. GọiSlà tập nút nguồn,S<small>0</small>,S<small>1</small>, . . . , S<small>t</small></i>

và�(�, �)<small>'</small>,�(�, �)<small>'</small>,…,�(�, �)<small>'</small>là tập nút ược kích hoạt trên hai mơ hình theo thời gianđ <i>t.A<small>0</small>,</i>

<small>01�(�, �)</small>

<i>chỉ khi với mọit≥ 1, hai biến cố {S<small>1</small>= A<small>1</small>,S<small>2</small>= A<small>2</small>, . . . ,S<small>t</small>= A<small>t</small></i>} và{�(�, �)<small>'</small>=<i>A<small>1</small></i>,�(�, �)<small>'</small>=<i>A<small>2</small></i>,…,�(�, �)<small>'</small>=<i>A<small>t</small></i>} xảy ra với xác suất như nhau, nghĩa là:

<b>Định nghĩa 1.2:(Mơ hình cạnh trực tuyến tương đương với mơ hình LT [3]).</b>

<i>Cho đồ thịG = (V, E)biểu diễn mạng xã hội trên mơ hình LT, mơ hình cạnhtrực tuyến xây dựng một đồ thị mẫugtừGtheo các bước sau:</i>

<i>- Với mỗi nútv∈Vtrong đồ thịGchọn duy nhất một cạnh(u,</i>

suất1−Σ<sub>�(�, �)∈�(�, �)</sub>

<small>�(�, �)�(�, �)(�(�, �))</small><i>�(�, �)(�(�, �),�(�, �)).Cáccạnhđượcchọngọilàcáccạnhtrựctuyến,nghĩalàch</i>

o phép thơng tin lan truyền theo cạnhđó.

<i>- Gọi tập các nút được kích hoạt ở thời điểmtlàR<small>t</small>(g, S)= {u|d<small>g</small>(S, u)≤</i>

Do ≤ − 1�(�, �) �(�, �) <i>(đường đi đơn có độ dài lớn nhất trong đồ thịG≤ − 1)</i>�(�, �)

<i>nên tập nút bị kích hoạt trên mơ hình cạnh trực tuyến làR(g, S)=R<small>n−1</small>(g, S).</i>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

<i>Từ đồ thịGta có thể sinh ra nhiều đồ thị trực tuyến (kýhiệug~Gvớigsinh ra từGtheo mơ hình cạnh trực tuyến) với xác suất khác</i>

<i>nhau. Khi đó xác suất để sinh ragtừGtheo mơ hình cạnh trực tuyếnlà:</i>

<small>Pr( ~ )�(�, �) �(�, �) =‡�(�, �) ,�(�, �)�(�, �)�(�, �).,(1.4)∈</small>

<i>�(�, �)(�(�, �),�(�, �))</i>

,�(�, �)ế<i>�(�, �)(�(�, �),�(�, �))∉ .</i>�(�, �) <sup>(1.5)</sup>Kempe và các cộng sự đã chứng minh sự đồng nhất giữa tập nút đượckích hoạt giữa hai mơ hình [3].

Đị<i><b>nh lý1.1:[3]Với tập nguồn S trên mơ hình lan truyền thơng tin LT, haiphân</b></i>

<i>bố sau là như nhau:</i>

<i>- Phân bố tập các nút kích hoạt thu được bởi mơ hìnhLT.</i>

<i>- PhânbốtậpnútR(g,S)vớigđượcsinhra từ Gtheo mơhìnhcạnhtrựctuyến.</i>

Chen và cộng sự [40] đã chứng minh sự tương đương giữa hai mơ hìnhLT và mơ hình cạnh trực tuyến. Về bản chất kết quả này tốt hơn so với kếtquả của Kempe và cộng sự trong [3]. Theo Định lý 1.1 trong [3], tacó:

=

�(�, �) �(�, �) ΣPrg~G<small>g~G</small>

R ,�(�, �) �(�, �)

Đối với mơ hình lan truyền thơng tin IC, mơ hình cạnh trực tuyến tươngứng được định nghĩa như sau:

<b>Định nghĩa 1.3:(Mơ hình cạnh trực tuyến tương ứng với mơ hình IC [47]).</b>

<i>Cho đồ thịG = (V, E)trên mơ hình lan truyền thơng tin IC, mơ hình cạnh trựctuyến được xây dựng đồ thịgtheo các bước sau:</i>

<i>- Mỗi cạnh (u, v)Etrong đồ thị G, chọn cạnh (u, v) vào đồ thịgvới xácsuấtp(u, v), không chọn cạnh này vào đồ thịgvới xác suất 1−p(u,v).</i>

<i>- Tập các nút được kích hoạt ở thời điểmtlàR<small>t</small>(g, S)={u|d<small>g</small>(S, u)≤t}.</i>

<i>Khi đó xác suất để sinh ra đồ thị mẫugtừGlà:</i>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Pr g~G =‡<small>�(�, �)∈�(�, �)(�(�, �))</small>

�(�, �)(�(�, �))

‡<small>�(�, �)∈�(�, �)\</small>

�(�, �) �(�, �).<small>g~G</small>

Mơ hình cạnh trực tuyến và các kết quả trên được sử dụng nhiều trongcác nghiên cứu và cũng được sử dụng trong các công bố của luận án.

<b>1.3 Một số bài tốn lan truyền thơng tin trên mạng xãhội</b>

Các bàitốnlantruyềnthơngtinđượcphátsinh từnhucầu của thực tiễn,cácnhàpháttriển mạng, ngườidùng mạngvàcácnhà khoa học lnmuốntìmracác giảipháptốiưuđểkhaithácnhững thế mạnh củaSNnhằm phụcvụ chocácnhucầucầnthiếtcủaconngườivà hạn chế nhữngảnhhưởng tiêu cựckhơngmong muốn.Bàitốnlantruyềnthơngtin (SI)đượcđềxuấtnăm 2001[48],các tác giảđãthiếtkếcácchiến lược tiếpthịlantruyền (ViralMarketing)vàphântích qtrìnhSIsửdụngphương phápkhai phádữliệu. Đâylà bàitốncóýnghĩa thựctiễnvàmang tính thờisựlúcbấygiờ.Từcơsởnghiêncứunày,năm2003,cáccơngbốtrong [3]đãđềxuấtbài tốn cực đạiảnhhưởngIM(InfluenceMaximization)trênSNtheophươngpháptốiưurời rạc.Từđóđến nay,đãcórấtnhiềubàitốnSIđượcđềxuấttrênnhiều khíacạnh khácnhau.Xétvềmụcđíchnghiêncứu,cóthểphânbàitốnSIthành03nhómchủ yếu:Cựcđạiảnhhưởng,Pháthiệnthơngtin vàNgănchặnảnhhưởng.(Hình 1.3).

<small>Hình 1.3. Nhóm bài tốn lan truyền thông tin trên SN</small>

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

<small>�(�, �)2�(�, �)2</small>

<small>1�(�, �)</small>

Bài toán cực đại ảnh hưởng xuất phát từ yêu cầu chọn một tập ngườidùng để bắt đầu SI làm cho số người bị ảnh hưởng bởi thông tin lan truyềntrên SN đạt cực đại. Bài toán IM ứng dụng trong tiếp thị sản phẩm (viralmarketing), ngăn chặn thông tin sai lệch, phân tích ảnh hưởng trên SN, vv...Mục tiêu của IM là chọn một tập nguồn (tập hạt giống) để bắt đầu q trìnhlan truyền thơng tin về sản phẩm sao cho thông tin ảnh hưởng nhiều nhất đếnngười dùng trên SN. Tập nguồn là những người dùng được chọn để các doanhnghiệp cung cấp các sản phẩm mẫu để dùng thử miễn phí. Kempe và các cộngsự [3] là những người đầu tiên phát biểu bài toán IM trên hai mơ hình IC vàLT. Tiếp theo bài toán IM được nghiên cứu rộng rãi và mở rộng theo nhiềuhướng khác nhau [5]-[9], [13], [14], [40], [44] - [46], [49], [50]. Bài toán IMđược phát biểu như sau:

<b>Định nghĩa 1.4:(Cực đại ảnh hưởng - IM [3])</b>

<i>- Cho SNG = (V, E)trên mô hình phát tán thơng tinM, số nguyêndươngk>0.</i>

<i>- Tìm tậpS⊆V, |S| =ksao cho hàm ảnh hưởng σ(S) lớnnhất?</i>

Thách thức khi giải quyết bài tốn IM là chúng thuộc lớp NP-Khó [3]

<i>và tính tốn hàm mục tiêu (hàm ảnh hưởng σ(S)) thuộc lớp bài tốn #P-Khó</i>

[5], [6]. Đây là những thách thức đặt ra đối với nhóm bài tốn lan truyềnthơngtin.

Kempe [3] đề xuất áp dụng phương pháp mô phỏng Mote-Carlo với sốlần mô phỏng đủ lớn để ước lượng được hàm mục tiêu trong trường hợp này.TrongphiênbảnmởrộngKempevàcáccộngsự[51]đãchỉrarằngnếusố

<i>lần mô phỏng ảnh hưởng từ tập nguồnSít nhấtbằngΩ</i> �(�, �)�(�, �) <i>(nlà sốnút</i>

củađồthị)thìsẽthuđượcướclượng�(�, �)^(�(�, �))t<i>hỏamãnPr[(1−�(�, �))σ(S)≤</i>�(�, �)^(�(�, �))≤(1+�(�, �))

<i>σ(S)] với xác suất ít nhất là 1−δ.</i>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<i>Tuy nhiên, Kempe đã chỉ ra hàm mục tiêu σ(S) có tính chất đơn điệutăng và là hàmsubmodular. Tính chất này cho phép ta áp dụng thuật toántham lam để đạt được một tỷ lệ xấp xỉ là 1 − 1/e. Do tính ứng dụng cao của</i>

IM trong thực tế nên IM đã và đang thu hút được nhiều sự quan tâm của cácnhà khoahọc.

<i><b><small>1.3.2 Phát hiện thông tin (Information Detection - ID)</small></b></i>

Giả sử đã biết trước tập người dùng�(�, �)bị nghi ngờ lan truyềnthôngtin,mục tiêu của bài tốn ID là tìm tập�(�, �)để đặt giám sát sao cho khảnăngpháthiệnthơngtintừtậpngườidùng�(�, �)làlớnnhất.Bàitốnnàycóứngdụngtrongphát hiện thơng tin sai lệch (MisInformation -MI)và phát hiện nguồn lan truyềnMI, đánh giá xu hướng, quan điểm người dùng trên SN. Một số nghiên cứutiêu biểu: [52]–[67],vv…

Bài toán ngăn chặn ảnh hưởng IB ngược lại với IM, bài tốn IB nhằmmục đích hạn chế sự phát tán, lan truyền thông tin từ một nguồn tin biết trước.Mục tiêu của các bài toán IB nhằm hạn chế sự lan truyền của MI trên SN, baogồm: thông tin sai lệch, phát tán virus, thư rác, các tư tưởng cực đoan, thơngtin khơng chính thống, vv...

Các phương pháp để hạn chế ảnh hưởng của nguồn phát tán cho trướcbao gồm:

- Loại bỏ người dùng hoặc tập liên kết: phương pháp này loại bỏ tập núthoặc cạnh để miễn nhiễm với ảnh hưởng[66]-[69].

- Tẩynhiễmthôngtin:chọn tập nútnguồnđểphát táncácảnh hưởng tíchcựcnhằmchốnglạiảnh hưởng của thơngtintiêu cực [18],[22],[70]-[74].

Các bàitốn ngăn chặnảnhhưởngthuộcnhóm bài tốn tốiưutổhợpcóđộphứctạp làNP-khó[3] trên cácmơhìnhSIrời rạcvàtínhtốnhàmmục tiêuthuộclớp bài tốn#P-khó[6],[40].

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

<i>1.3.3.1 Vơhiệuhóangườidùng hoặctậpliên kết: Phương phápnày</i>

làloạibỏtậpngườidùng hoặctậpliênkếthoặctiêm vắcxinvào tập núthoặctậpcạnhđểmiễn nhiễmthơngtinsailệch(MI).Tuy cónhiều khái niệm khácnhau,nhưngchiếnlượcnàyđượchiểurằng:TrênSNsẽcómộttậpngườidùngbịcơlập,MIlantruyềnđếntrướctậpngườidùng nàyvàdừng lại,khôngthểlantruyềntiếp đếncácngườidùng khác.Tập ngườidùng nàyđượcxemnhưlàhàngrào chắn,ngănchặnlantruyềnMIđếnnhữngngườidùngtiếptheo.

Khalil và các cộng sự[75]là nhữngngườiđầutiên nghiên cứucác bàitoánnày,họnghiên cứu <i>loạibỏtậpkcạnh</i> (edgedeletion)sao cho

<i>ảnhhưởngtừnguồnSchotrướcđạtgiátrịnhỏnhất, tứclàtìmtập cạnhX,|X|=ksaochohàmảnhhưởngcủaSkhiloại tậpcạnhX σ(S \ X) đạtgiátrịcực tiểu. Đồngthờicáctácgiảchứngminhhàmmụctiêuσ(S\·))làsupermodularvàđơnđiệugiảm. Căn</i>

cứ vàokếtquảnày,các tácgiảđềxuất thuật tốntham lamtìmtập

<i>lờigiảiX,thỏamãnđiềukiệnh(X)≥(1-1/e-�(�, �))h(X),vớih(X)=σ(S)−σ(S\X).</i>

Về góc độ dịch tễ, một số nghiên cứu đã sử dụng phương pháp tiêm vắcxin miễn nhiễm vào tập các cạnh hoặc nút để miễn nhiễm với các thông tin sailệch [66] - [68], [76], [77]. Yang và các cộng sự trong [77] đã nghiên cứu bài

<i>toán DAVA (Data-Aware Vaccination) với yêu cầu tiêm vắc xin vàoknút “vào</i>

tập người dùng” trong một SN để ngăn chặn sự phát tán của tập nút đã nhiễm

<i>dịch bệnhI<small>0</small>trên mơ hình IC. Các tác giả chứng minh đây là bài tốn thuộclớp NP-Khó và hàm mục tiêu khơng có tính chấtsubmodular. Do đó khơng thể</i>

áp dụng thuật tốn tham lam với tỷ lệ xấp xỉ 1 − 1/e. Các tác giả đề xuất bathuật toán heuristic DAVA, DAVA-Fast và DAVA-prun cho bài toán DAVA,kết quả thực nghiệm của các tác giả cho thấy các thuật toán đề xuất cho kếtquả tốt hơn các thuật toán trước. Kế thừa hướng nghiên cứu này, Song và cáccộng sự đã mở rộng bài toán DAVA bằng việc thêm yếu tố thời gian lantruyền dịch bệnh [73].

Trongmơhìnhlantruyền thơngtinLT,cáctácgiảZhangvàcáccộngsự[68] nghiên cứu bài tốn phânphốivắcxinđếnt ừ n g nhómcác cạnh đểđiều

</div>

×