Tóm tắt Luận văn Thạc sĩ: Giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.39 MB, 37 trang )

LỜI CAM ĐOAN
Tơi xin cam đoan, những kiến thức trình bày trong luận văn là do tơi tìm
hiểu, nghiên cứu và trình bày dưới sự hướng dẫn của PGS.TS Hồng Xn
Huấn. Trong q trình làm luận văn, tơi đã tham khảo các tài liệu có liên quan
và đều trích dẫn nguồn đầy đủ, rõ ràng. Những kết quả mới trong luận văn là
của riêng tôi, không sao chép từ bất kỳ một cơng trình nào khác. Nếu có điều gì
khơng trung thực, tơi xin hồn tồn chịu trách nhiệm.
Học viên

Vũ Minh Mạnh

LỜI CẢM ƠN
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Hoàng Xuân Huấn,
người thầy đã giành nhiều thời gian để hướng dẫn, góp ý giúp tơi hồn thành
luận văn này. Thầy ln truyền cho tơi cảm hứng, nhiệt huyết nghiên cứu khoa
học, động viên và cho tôi nhiều lời khuyên quý báu.
Tôi cũng xin bày tỏ lịng biết ơn chân thành tới các thầy, cơ giáo đã giảng dạy
tôi trong suốt 2 năm học tại Trường Đại học Công nghệ - Đại học Quốc gia Hà
Nội. Mỗi thầy cô đều cho tôi những bài giảng thật hay và bổ ích.
Tơi cũng xin gửi lời cảm ơn tới Ban giám đốc Học viện An ninh nhân dân,
Lãnh đạo Khoa Công nghệ và An ninh thông tin cùng các anh chị đồng nghiệp
đã tạo mọi điều kiện thuận lợi giúp tơi tham gia và hồn thành khóa học.
Cuối cùng, tôi xin gửi lời biết ơn đến bố mẹ, anh chị trong gia đình, bạn bè,
người thân đã ln ủng hộ, động viên tơi vượt qua những khó khăn trong cuộc
sống, để tơi có thể theo đuổi ước mơ và hồi bão của mình.
Học viên

Vũ Minh Mạnh

Mục lục

MỞ ĐẦU

1

1 GIỚI THIỆU VỀ MẠNG XÃ HỘI

5

1.1

1.2

1.3

Giới thiệu chung về mạng xã hội . . . . . . . . . . . . . . . . . . .

5

1.1.1

Lịch sử phát triển của mạng xã hội . . . . . . . . . . . . . .

5

1.1.2

Những tính năng của mạng xã hội . . . . . . . . . . . . . .

5

Các đặc trưng cơ bản của mạng xã hội . . . . . . . . . . . . . . . .

5

1.2.1

Đặc trưng thế giới nhỏ . . . . . . . . . . . . . . . . . . . . .

5

1.2.2

Đặc trưng tập nhân . . . . . . . . . . . . . . . . . . . . . . .

6

1.2.3

Phân bố luật lũy thừa . . . . . . . . . . . . . . . . . . . . .

6

1.2.4

Đặc trưng cấu trúc cộng đồng . . . . . . . . . . . . . . . . .

6

1.2.5

Các đặc trưng khác của mạng xã hội . . . . . . . . . . . . .

6

Một số chủ đề được nghiên cứu trên mạng xã hội . . . . . . . . . .

7

1.3.1

Phát hiện cấu trúc cộng đồng trên mạng xã hội . . . . . .

7

1.3.2

Dự đoán liên kết trên mạng xã hội . . . . . . . . . . . . . .

7

1.3.3

Tính riêng tư trên mạng xã hội . . . . . . . . . . . . . . . .

7

1.3.4

Tiến hóa động trên mạng xã hội . . . . . . . . . . . . . . .

7

1.3.5

Khai phá dữ liệu trên mạng xã hội . . . . . . . . . . . . . .

7

1.3.6

Tối đa hóa ảnh hưởng trên mạng xã hội . . . . . . . . . . .

7

1.3.7

Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên
mạng xã hội . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2 THÔNG TIN SAI LỆCH VÀ CÁC MƠ HÌNH LAN TRUYỀN
THƠNG TIN SAI LỆCH

8

2.1

Định nghĩa thông tin sai lệch . . . . . . . . . . . . . . . . . . . . .

8

2.2

Mơ hình lan truyền thơng tin sai lệch . . . . . . . . . . . . . . . .

8

2.2.1

Mơ hình tầng độc lập . . . . . . . . . . . . . . . . . . . . .

9

2.2.2

Mơ hình ngưỡng tuyến tính . . . . . . . . . . . . . . . . . .

9

2.3

Một số hướng nghiên cứu liên quan đến bài tốn hạn chế lan
truyền thơng tin sai lệch trên mạng xã hội trực tuyến . . . . . . .

10

3 GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO THÔNG
TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI TRỰC TUYẾN 12
3.1

Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

3.2

Độ khó của bài tốn . . . . . . . . . . . . . . . . . . . . . . . . . .

14

3.3

Các thuật toán đề xuất giải quyết bài toán MDM . . . . . . . . .

14

3.3.1

Thuật toán tham lam dựa trên hàm f (I) . . . . . . . . . .

15

3.3.2

Thuật toán tham lam dựa trên hàm α(v) . . . . . . . . . .

16

4 THỰC NGHIỆM

18

4.1

Mục đích thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . .

18

4.2

Dữ liệu tiến hành thực nghiệm . . . . . . . . . . . . . . . . . . . .

18

4.3

Cài đặt thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . .

19

4.4

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . .

19

4.5

Kết luận và nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . .

23

KẾT LUẬN

24

DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ

25

PHỤ LỤC

33

1

MỞ ĐẦU
Ngày nay, các mạng xã hội trực tuyến đã trở thành một phần không thể thiếu
trong cuộc sống của con người, cho phép mỗi chúng ta có thể tạo, chia sẻ và trao
đổi thông tin, ý tưởng một cách nhanh chóng và dễ dàng hơn bao giờ hết. Đối
với nhiều người dùng, các trang mạng xã hội trực tuyến như Facebook, Twitter,
Google+ được coi là những kênh tin tức chính. Trong nhiều trường hợp, các trang
mạng xã hội này còn đưa những tin tức quan trọng trước cả một số phương tiện
truyền thông đại chúng khác như phát thanh, truyền hình vv.. Ví dụ, tin tức về
trùm khủng bố Bin Laden bị tiêu diệt lan truyền trên Twitter trước khi Tổng

thống Mỹ chính thức thơng báo trên các phương tiện truyền thông công cộng [52]
hoặc câu chuyện về cái chết của ca sĩ Whitney Houston lan rộng trên Twitter,
trước 27 phút so với hãng tin AP (Associated Press) [53]. Có thể nói rằng, các
trang mạng xã hội ngày nay là một trong những nguồn cung cấp thông tin phong
phú, đa chiều và là "nơi khám phá tin tức" của nhiều độc giả, đặc biệt là những
độc giả trẻ và phụ nữ, chiếm số đơng nhất trong nhóm chọn mạng xã hội để cập
nhật tin tức.
Bên cạnh những thông tin tin cậy, chính xác thì những thơng tin sai lệch cũng
lan truyền rộng rãi trên mạng xã hội một cách dễ dàng. Một nhóm nghiên cứu
đến từ Đại học Columbia (New York, Mỹ) [23] đã chỉ ra rằng tốc độ lan truyền
của thông tin sai lệch ngang bằng so với những tin tức chính thống. Chính những
điều này đã gây ra những thiệt hại to lớn cho các cá nhân, tổ chức khơng những
về kinh tế, chính trị mà cịn tác động đến tâm lý, cuộc sống con người. Gần
đây, diễn đàn Kinh tế thế giới (World Economic Forum, 2014) đã coi sự gia tăng
nhanh chóng của thơng tin sai lệch trên các phương tiện xã hội trực tuyến là
một trong mười xu hướng hàng đầu mà thế giới phải đối mặt.
Trước những thách thức nêu trên, làm thể nào để có thể hạn chế sự lan truyền
của thơng tin sai lệch trên mạng xã hội một cách kịp thời và hiệu quả? là một
câu hỏi đang nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học trong
thời gian gần đây.
Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn
(Rumor) như nghiên cứu của Qazvinian, 2011, [6] và Kwwon, 2013, [7].
Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai

2

lệch ban đầu. Chẳng hạn, Dung T. Nguyen và các cộng sự, 2012, [65] đã nghiên
cứu bài toán xác định k nguồn phát tán thông tin sai lệch khả nghi nhất từ tập
người dùng bị kích hoạt bởi thơng tin sai lệch cho trước.

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tin
sai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thông
tin tốt, từ đó lan truyền những thơng tin này trên cùng mạng nhằm thuyết phục
những người dùng khác tin theo, trong đó sử dụng các mơ hình lan truyền thơng
tin khác nhau [2–4]. Budak và các cộng sự, 2011, [2], đã đưa ra mơ hình tầng độc
lập đa chiến dịch (Multi-Campaign Independent Cascade Model), gồm chiến dịch
phổ biến thông tin tốt và chiến dịch phổ biến thông tin sai lệch cùng cạnh tranh
với nhau. H. Zhang và các cộng sự, 2015, [3], đã nghiên cứu bài tốn hạn chế
sự lan truyền thơng tin sai lệch dưới mơ hình kích hoạt cạnh tranh (Competitive
Activation Model). Hay như trong nghiên cứu của N. P. Nguyen và các cộng sự,
2013, [4], đã nghiên cứu bài tốn hạn chế thơng tin sai lệch dưới hai mơ hình
tầng độc lập (Independent Cascade) và ngưỡng tuyến tính (Linear Threshold),
đồng thời đề xuất thuật toán xác định một tập nhỏ nhất các đỉnh có ảnh hưởng
lớn nhất, từ đó lan truyền những thông tin tốt nhằm hạn chế ảnh hưởng của
thơng tin sai lệch.
Đặc biệt, ngồi những hướng nghiên cứu kể trên còn một cách tiếp cận khác
trong việc ngăn chặn thông tin sai lệch lan truyền trên mạng xã hội được trình
bày trong cơng trình nghiên cứu của H. Zhang và các cộng sự, 2016, [1], bằng
cách đặt giám sát (Monitor Placement) trên một số đỉnh của đồ thị mạng nhằm
ngăn chặn thông tin sai lệch lây lan đến những đỉnh khác trong cùng mạng. Đặt
giám sát là phương pháp sử dụng các bộ lọc nội dung nhằm phát hiện thông tin
sai lệch ở người dùng (đỉnh) được cài đặt và ngăn chặn sự chia sẻ, lan truyền
thông tin sai lệch từ đỉnh này; hoặc trong ngữ cảnh khác có thể hiểu là việc
thuyết phục người dùng (đỉnh) không tin theo và lan truyền thông tin sai lệch.
Một số cơng trình nghiên cứu khác gọi phương pháp này với tên gọi đó là phương
pháp tạo miễn dịch (Immunize) cho các đỉnh trong đồ thị mạng xã hội.
Đứng trước những nguy cơ mất an tồn, an ninh thơng tin trên mạng xã hội
do thông tin sai lệch gây ra, đồng thời thúc đẩy bởi những cơng trình nghiên cứu
đã nêu ở trên, đặc biệt là nghiên cứu của H. Zhang, 2016, [1] đã tạo động lực
cho tác giả lựa chọn đề tài "Giảm thiểu tối đa thiệt hại do thông tin sai

lệch gây ra trên mạng xã hội trực tuyến" làm đề tài luận văn của mình.

3

Đóng góp chính của luận văn bao gồm:
- Thứ nhất, đề xuất một mơ hình ngưỡng tuyến tính cho bài tốn Cực tiểu
hóa thiệt hại do thơng tin sai lệch gây ra, đồng thời chứng mình bài tốn
này thuộc lớp bài tốn NP-khó.
- Thứ hai, đề xuất hai thuật tốn tham lam nhằm giải quyết bài toán đặt ra.
- Thứ ba, kết quả thực nghiệm cho thấy ưu điểm nổi trội của hai thuật toán
đề xuất so với các thuật tốn thơng dụng khác như thuật tốn bậc cực đại
(Max Degree) và thuật toán ngẫu nhiên (Random) trong việc hạn chế thơng
tin sai lệch lan truyền trên mạng.
Ngồi phần mở đầu và kết luận, bố cục chính của luận văn gồm bốn chương
như sau:
Chương 1: Giới thiệu về mạng xã hội
Chương này giới thiệu tổng quan về mạng xã hội gồm: Định nghĩa mạng xã
hội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xã hội.
Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liên quan
đến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiều học
giả trong thời gian gần đây.
Chương 2: Thông tin sai lệch và các mơ hình lan truyền thơng tin
sai lệch
Chương này tác giả trình bày định nghĩa thơng tin sai lệch, những nguy cơ
và hậu quả do thông tin sai lệch gây ra đối với các cá nhân, tổ chức. Đồng thời,
phân tích cơ chế lan truyền thơng tin và những đặc tính của hai mơ hình lan
truyền thông tin đang được sử dụng rộng rãi bao gồm: Mơ hình tầng độc lập
và mơ hình ngưỡng tuyến tính. Ngoài ra, ở Chương 2 tổng quan một số hướng
nghiên cứu liên quan đến bài toán hạn chế lan truyền thông tin sai lệch trên

mạng xã hội trực tuyến.
Chương 3: Giải pháp giảm thiểu tối đa thiệt hại do thông tin sai
lệch gây ra trên mạng xã hội trực tuyến
Từ thực trạng đã nêu trong Chương 2 và xuất phát từ những cơng trình
nghiên cứu liên quan trước đó, tác giả phát biểu bài tốn Cực tiểu hóa thiệt hại
do thông tin sai lệch gây ra trên mạng xã hội trực tuyến, chứng minh bài toán
này thuộc lớp bài toán NP-khó, đồng thời đề xuất thuật tốn nhằm giải quyết
bài toán này.

4

Chương 4: Thực nghiệm
Mô tả các bước tiến hành và kết quả thực nghiệm nhằm đánh giá hiệu quả
của thuật toán đề xuất trong việc ngăn chặn sự lan truyền của thông tin sai
lệch. Thực nghiệm tiến hành dựa trên ba bộ dữ liệu là các mạng xã hội thực,
bao gồm: Gnutella, CollegeMsg và Email. Kết quả thực nghiêm cho thấy, thuật
toán do tác giả đề xuất tốt hơn các thuật tốn thơng dụng khác như thuật tốn
bậc cực đại (Max Degree) và thuật toán ngẫu nhiên (Random).

5

Chương 1
GIỚI THIỆU VỀ MẠNG XÃ HỘI

Chương này giới thiệu tổng quan về mạng xã hội bao gồm: Định nghĩa mạng
xã hội, lịch sử hình thành, phát triển và những đặc trưng cơ bản của mạng xã
hội. Đặc biệt, trong chương này trình bày tổng quan một số chủ đề nổi bật liên
quan đến mạng xã hội, đã và đang nhận được sự quan tâm nghiên cứu của nhiều

học giả trong thời gian gần đây.

1.1

Giới thiệu chung về mạng xã hội

Theo Marin và Wellman [30], mạng xã hội (MXH) là một tập hợp các tác nhân
có yếu tố xã hội được kết nối với nhau bởi một hoặc nhiều các quan hệ xã hội.

1.1.1

Lịch sử phát triển của mạng xã hội

Lịch sử phát triển của MXH luôn đồng hành cùng với sự phát triển của Internet. Từ những email đầu tiên được gửi đi bởi các nhà nghiên cứu Thụy Sĩ vào
năm 1971 đến những MXH hiện đại như Facebook, Twitter vv..

1.1.2

Những tính năng của mạng xã hội

- Tính liên kết cộng đồng.
- Tính đa phương tiện.
- Tính tương tác.
- Khả năng truyền tải và lưu trữ thông tin.

1.2
1.2.1

Các đặc trưng cơ bản của mạng xã hội
Đặc trưng thế giới nhỏ

Vấn đề nghiên cứu cấu trúc MXH đã gây được sự chú ý và quan tâm sâu sắc
của các nhà nghiên cứu trong nhiều năm qua. Đầu tiên là thí nghiệm nổi tiếng

6

có tên gọi "thí nghiệm thế giới nhỏ" (Small World Experiment) được thực hiện
bởi Stanley Milgram, 1967, nhằm tính tốn số bước cần thiết để hai người bất
kỳ trong một dân số đã được xác định có thể biết nhau.

1.2.2

Đặc trưng tập nhân

Cấu trúc và sự vận động của MXH chịu tác động bởi các nút có số lượng lớn
các cung kết nối hay các nút có bậc cao. Người ta gọi những nút này là nút trung
tâm hay nút nhân. Phân tích cấu trúc MXH đã chỉ ra rằng, MXH ln chứa một
lượng lớn những nút có bậc cao [32]. Bao quanh các nút này là các nút có bậc
thấp hơn, và quanh những nút có bậc thấp hơn này lại là các nút có bậc thấp
hơn chúng, cứ như vậy tạo thành một hệ thống phân cấp.

1.2.3

Phân bố luật lũy thừa

Sự phân bố bậc của các nút trong mạng được mô tả bởi hàm P (k), hàm này
cho biết xác suất của một nút có bậc là k . Phân bố bậc mô tả các các liên kết
trong mạng phân bố như thế nào giữa các nút.

1.2.4

Đặc trưng cấu trúc cộng đồng

MXH có một đặc trưng quan trọng đó là cấu trúc cộng đồng, trong mạng được
phân chia thành các cộng đồng lớn nhỏ khác nhau; bên trong các cộng đồng lớn
có những cộng đồng con nhỏ hơn. Giữa các nút trong một cộng đồng có mật độ
kết nối lớn hơn so với các nút bên ngoài.

1.2.5

Các đặc trưng khác của mạng xã hội

Một mạng có đường kính d nếu mọi cặp nút trong mạng được kết nối với nhau
bằng một đường chiều dài tối đa bằng d. Leskovec, 2005, [34] đã chỉ ra rằng MXH
khơng chỉ có đường kính nhỏ (đặc trưng thế giới nhỏ) mà đường kính mạng cịn
co ngắn lại và sau đó giữ ổn định theo thời gian.

7

1.3

Một số chủ đề được nghiên cứu trên mạng xã hội

1.3.1

Phát hiện cấu trúc cộng đồng trên mạng xã hội

1.3.2

Dự đốn liên kết trên mạng xã hội

1.3.3

Tính riêng tư trên mạng xã hội

1.3.4

Tiến hóa động trên mạng xã hội

1.3.5

Khai phá dữ liệu trên mạng xã hội

1.3.6

Tối đa hóa ảnh hưởng trên mạng xã hội

1.3.7

Phát hiện, giám sát và ngăn ngừa thông tin sai lệch trên
mạng xã hội

8

Chương 2
THƠNG TIN SAI LỆCH VÀ CÁC MƠ HÌNH LAN
TRUYỀN THƠNG TIN SAI LỆCH

Chương này trình bày định nghĩa thơng tin sai lệch, phân tích q trình lan
truyền thơng tin sai lệch dưới hai mơ hình: Mơ hình tầng độc lập và mơ hình
ngưỡng tuyến tính, đây là hai mơ hình đang được sử dụng rộng rãi trong các
cơng trình nghiên cứu liên quan đến vấn đề lan truyền thông tin, lan truyền ảnh
hưởng trên MXH. Đồng thời, chương này cũng trình bày một số hướng nghiên
cứu khác nhau được công bố trong những năm gần đây, trong việc giải quyết bài
tốn hạn chế lan truyền thơng tin sai lệch.

2.1

Định nghĩa thơng tin sai lệch

Mặc dù có những định nghĩa khác nhau về thông tin sai lệch tuy nhiên về
nội hàm khái niệm có những điểm tương đồng nhau. Đó đều là những thơng tin
khơng đảm bảo tính chính xác hoặc thông tin giả mạo, xuyên tạc vấn đề, xuyên
tạc nội dung vv.. gây ảnh hưởng xấu đến cá nhân và tổ chức, đồng thời mỗi
quốc gia có những quy định riêng về những hành vị bị cấm khi đưa thơng tin
lên mạng và đều được cụ thể hóa trong văn bản pháp luật.

2.2

Mơ hình lan truyền thơng tin sai lệch

Hiện nay, có nhiều mơ hình lan truyền thơng tin khác nhau được nghiên cứu và
đề xuất như: mơ hình ngưỡng (Threshold Model) [26], mơ hình tầng (Cascading
Model) [27], mơ hình dịch bệnh (Epidemic Model) [28], mơ hình lan truyền ảnh
hưởng cạnh tranh (Competitive Influence Diffusion Model) [29]. Trong đó hai
mơ hình tầng độc lập (Independent Cascade - IC) và mơ hình ngưỡng tuyến tính
(Linear Threshold - LT) do Kempe, 2003, [47] đề xuất đang được dùng rộng rãi

trong nhiều cơng trình nghiên cứu.

9

2.2.1

Mơ hình tầng độc lập

Trong mơ hình IC, mỗi cạnh (u, v) ∈ E được gán một xác suất ảnh hưởng
(Influence Probability) p(u, v) ∈ [0, 1] biểu diễn mức độ ảnh hưởng của đỉnh u
đến đỉnh v . Nếu (u, v) ∈
/ E thì p(u, v) = 0. Mơ hình IC hoạt động theo bước thời
gian rời rạc t như sau:
- Tại thời điểm t = 0, tập đỉnh ở trạng thái kích hoạt chính là tập nguồn phát
thơng tin sai lệch S0 .
- Tại thời điểm t ≥ 1, mỗi đỉnh u ∈ (St−1 \St−2 ) được kích hoạt ở bước t − 1
có một cơ hội duy nhất để kích hoạt các đỉnh hàng xóm của nó ở trạng thái
khơng kích hoạt với xác suất kích hoạt thành cơng p(u, v) và sự kích hoạt
này là độc lập với các kích hoạt khác. Nếu đỉnh u khơng kích hoạt được đỉnh
v ở thời điểm t, nó sẽ khơng có cơ hội kích hoạt lại v ở các bước tiếp theo.

Nếu đỉnh v có nhiều đỉnh hàng xóm cùng kích hoạt tại một thời điểm, các
đỉnh này sẽ kích hoạt v theo thứ tự tùy ý. Nếu một đỉnh được kích hoạt, nó
sẽ giữ ngun trạng thái kích hoạt ở các bước tiếp theo.
- Quá trình lan truyền thơng tin kết thúc khi khơng có thêm đỉnh nào được
kích hoạt, tức là St = St−1 .

2.2.2

Mơ hình ngưỡng tuyến tính

Trong mơ hình LT, mỗi cạnh (u, v) ∈ E được gán một trọng số ảnh hưởng
(Influence Weight) w(u, v) ∈ [0, 1] biểu diễn mức độ ảnh hưởng của đỉnh u đến
đỉnh v . Nếu (u, v) ∈
/ E thì w(u, v) = 0. Các trọng số này được chuẩn hóa sao cho
với mỗi đỉnh v , tổng trọng số tất cả các cạnh đi đến đỉnh v lớn nhất bằng 1, tức
là:
w(u, v) ≤ 1

(2.1)

u∈N in (v)

Tùy vào đặc tính của từng người dùng tương ứng, mỗi đỉnh v ∈ V có một giá
trị θv ∈ [0, 1], biểu diễn ngưỡng đỉnh v bị ảnh hưởng bởi các đỉnh kích hoạt hàng
xóm mà trở thành kích hoạt. Nếu giá trị θv lớn, tức là cần nhiều đỉnh hàng xóm
để kích hoạt đỉnh v ; nếu giá trị θv nhỏ, tức là đỉnh v dễ dàng bị kích hoạt bởi
một vài đỉnh hàng xóm. Do thiếu thơng tin về ngưỡng của mỗi người dùng trong
mạng xã hội nên trong mơ hình này các giá trị ngưỡng θv được lựa chọn ngẫu
nhiên, độc lập phân bố đều trong đoạn [0, 1] và được cập nhật trong suốt quá

10

trình lan truyền, vì vậy mơ hình này cũng như mơ hình IC thuộc lớp mơ hình
ngẫu nhiên. Mơ hình LT hoạt động theo bước thời gian rời rạc t như sau:
- Tại thời điểm t = 0, tập đỉnh ở trạng thái kích hoạt chính là tập nguồn phát
thơng tin sai lệch S0 .
- Tại thời điểm t ≥ 1, với mỗi đỉnh ở trạng thái khơng kích hoạt v ∈ V \St−1

sẽ bị kích hoạt nếu tổng ảnh hưởng từ những đỉnh hàng xóm kích hoạt tới
nó vượt ngưỡng θv , tức là:
w(u, v) ≥ θv

(2.2)

u∈St−1 ∩N in (v)

Nếu một đỉnh được kích hoạt, nó sẽ giữ ngun trạng thái kích hoạt ở các
bước tiếp theo.
- Q trình lan truyền thơng tin kết thúc khi khơng có thêm đỉnh nào được
kích hoạt, tức là St = St−1 .

2.3

Một số hướng nghiên cứu liên quan đến bài toán hạn chế
lan truyền thông tin sai lệch trên mạng xã hội trực tuyến

Tối ưu hóa ảnh hưởng các đối tượng trên MXH là bài toán được nghiên cứu
lần đầu tiên bởi Domingos và Richardson, 2001 [62]. Sau đó, Kempe, 2003 [47]
là người đầu tiên xây dựng vấn đề tối ưu hóa ảnh hưởng trên MXH theo cách
tối ưu hóa rời rạc, bài toán được phát biểu như sau:
Định nghĩa 2.1 (Tối ưu hóa ảnh hưởng) Cho đồ thị G = (V, E) biểu diễn
một MXH, trong đó tập V biểu diễn các cá nhân trong MXH, tập E biểu diễn
mối quan hệ giữa các cá nhân. Với ngân sách k cho trước, tìm tập hạt giống
S0 ⊆ V với |S0 | = k , sao cho hàm lan truyền ảnh hưởng của tập S0 , σ(S0 ), dưới

mơ hình lan truyền thông tin ngẫu nhiên cho trước, đạt giá trị cực đại. Tức là,
cần tính S ∗ ⊆ V sao cho1 :
S ∗ = argmax σ(S0 )

(2.3)

S0 ⊆V,|S0 |=k

Trong bài báo đã công bố [47], Kempe và các cộng sự tập trung nghiên cứu
vấn đề tối ưu hóa ảnh hưởng trên hai mơ hình lan truyền thơng tin: Mơ hình IC
và mơ hình LT. Trong bài tốn tối ưu hóa ảnh hưởng, có hai nhiệm vụ tính tốn
1 Hàm

argmax trả về các tập hạt giống tối ưu, S ∗ là một tập trong số đó.

11

cần thực hiện: Đầu tiên, là việc xác định tập hạt giống nhằm cực đại hóa giá
trị hàm lan truyền ảnh hưởng như trong Định nghĩa 2.1. Thứ hai, là việc tính
giá trị hàm lan truyền ảnh hưởng σ(S0 ), với S0 là tập hạt giống. Cả hai nhiệm
vụ tính toán này đều đã được chứng minh là hai vấn đề #P-khó dưới cả hai mơ
hình IC và LT [60, 61].
Bên cạnh vấn đề lan truyền thông tin, lan truyền ảnh hưởng cũng có nhiều
nghiên cứu tập trung giải quyết bài tốn hạn chế thơng tin sai lệch lan truyền
trên các MXH trực tuyến.
Một số nghiên cứu tập trung vào việc nhận dạng thông tin sai lệch và tin đồn
(Rumor) dựa trên đặc trưng ngôn ngữ, cấu trúc, thời gian như nghiên cứu của
Qazvinian, 2011, [6] và Kwwon, 2013, [7].
Một số khác, nghiên cứu vấn đề xác định tập đỉnh là nguồn phát thông tin sai
lệch ban đầu. Chẳng hạn, Dung T. Nguyen và các cộng sự, 2012, [65] đã nghiên
cứu bài tốn xác định k nguồn phát tán thơng tin sai lệch khả nghi nhất từ tập
người dùng bị kích hoạt bởi thơng tin sai lệch cho trước.

Bên cạnh đó, một số tác giả đề xuất giải pháp hạn chế sự lan truyền thông tin
sai lệch trên mạng xã hội bằng cách chọn ra một số đỉnh ban đầu để tiêm thơng
tin tốt, từ đó lan truyền những thơng tin này trên cùng mạng nhằm thuyết phục
những người dùng khác tin theo, trong đó sử dụng các mơ hình lan truyền thông
tin khác nhau [2–4].
Liên quan gần nhất đến vấn đề nghiên cứu trong luận văn của tác giả đó là
cơng trình nghiên cứu của H. Zhang và các cộng sự, 2016, [1]. Trong nghiên cứu
của mình, H. Zhang đề xuất hai bài tốn:
- Bài tốn phát hiện thơng tin sai lệch (Misinformation Detection): Giả sử
không biết trước nguồn phát thông tin sai lệch (xác suất các đỉnh trở thành
nguồn phát thông tin sai lệch là như nhau), yêu cầu xác định k vị trí đặt
giám sát (Monitor) trên MXH sao cho cực đại hóa xác suất phát hiện thơng
tin sai lệch.
- Bài tốn đặt giám sát (τ -Monitor Placement): Giả sử biết trước nguồn phát
thông tin sai lệch là tập các đỉnh S , r là đỉnh ta cần bảo vệ. u cầu, tìm ra
tập đỉnh có kích thước nhỏ nhất để đặt giám sát (sử dụng bộ lọc nội dung
nhằm phát hiện thông tin sai lệch ở người dùng (đỉnh) được cài đặt và ngăn
chặn sự chia sẻ, lan truyền thông tin sai lệch từ đỉnh này đến những đỉnh
láng giềng.

12

Chương 3
GIẢI PHÁP GIẢM THIỂU TỐI ĐA THIỆT HẠI DO
THÔNG TIN SAI LỆCH GÂY RA TRÊN MẠNG XÃ HỘI
TRỰC TUYẾN

Chương này tập trung vào việc xây dựng bài toán Cực tiểu hóa thiệt hại do
thơng tin sai lệch gây ra - MDM, chứng minh bài toán thuộc lớp bài toán NP-khó,

đồng thời đề xuất hai thuật tốn tham lam nhằm giải quyết bài tốn.

3.1

Phát biểu bài tốn

Mơ hình hóa bài toán
Trong bài toán này, tác giả giả thuyết đã xác định được nguồn phát thông tin
sai lệch ban đầu là tập các đỉnh S ⊂ V , S = {s1 , s2 , ..., sp } và ta không can thiệp
trực tiếp được vào tập nguồn S nhưng có thể tạo miễn dịch (hay bố trí các máy
giám sát) ở các đỉnh khác để hạn chế sự lan truyền thông tin. Phương pháp đặt
giám sát cũng đã được Zhang [1] đề xuất sử dụng để ngăn chặn thông tin sai
lệch truyền từ nguồn cho trước tới một đỉnh cần bảo vệ.
Mỗi đỉnh u ∈ V có một chi phí c(u) ≥ 0 để tạo miễn dịch với thông tin sai lệch,
đồng thời đỉnh u khi bị thông tin sai lệch kích hoạt, tức là người dùng tương ứng
tin vào thơng tin này sẽ gây ra thiệt hại được lượng hóa bởi đại lượng r(u) ≥ 0.
Vì khó ước lượng thiệt hại cho mỗi đỉnh nên trong bài toán này ta xem thiệt hại
của mỗi đỉnh kích hoạt gây ra như nhau. Khơng mất tính tổng qt ta giả thiết
r(u) = 1 với mọi đỉnh u là đỉnh kích hoạt. Như vậy, với trường hợp r(u) = 1, tổng

thiệt hại do thơng tin sai lệch gây ra chính bằng tổng số đỉnh ở trạng thái kích
hoạt sau khi q trình lan truyền thông tin kết thúc. Tuy nhiên, về sau ta vẫn
dùng thuật ngữ thiệt hại để chỉ chung hai đại lượng này.
Như trình bày trong Chương 2, Chen [60, 61] đã chỉ ra mơ hình LT là tương
đương với mơ hình đồ thị mẫu. Bây giờ, ta sẽ sử dụng mơ hình đồ thị mẫu để
phân tích bài tốn đặt ra.
Gọi G là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G = (V, E), P r(GL )

13

là xác suất lựa chọn (xác suất sinh) đồ thị mẫu GL = (V, EGL ) từ tập G , ta có:
P r(GL ) =

p(v)

(3.1)

v∈V

Trong đó
p(v) =



w(u, v)

nếu ∃u : (u, v) ∈ EGL


1 −

ngược lại

u∈N in (v) w(u, v)

Ký hiệu σ(S) là kỳ vọng số đỉnh kích hoạt gây ra bởi nguồn thông tin sai lệch
S khi kết thúc quá trình lan truyền và R(GL , S) là tập hợp các đỉnh có thể đi

đến từ tập S trong đồ thị GL , khi đó σ(S) được xác định bởi công thức sau:

σ(S) =

P r(GL )|R(GL , S)|

(3.2)

GL ∈G

Ký hiệu D(S) là kỳ vọng thiệt hại tích hợp từ các đỉnh kích hoạt trong q
trình lan truyền gây bởi tập nguồn thông tin sai lệch S , như vậy D(S) tỉ lệ với
σ(S). Do mỗi đỉnh u ∈ V khi bị kích hoạt gây ra thiệt hại r(u) = 1, cho nên D(S)

trùng với kỳ vọng số đỉnh kích hoạt σ(S), tức là:
D(S) = σ(S) =

P r(GL )|R(GL , S)|

(3.3)

GL ∈G

Ký hiệu Rd (GL , S) là tập hợp các đỉnh có thể đi đến từ S trong đồ thị GL sau
d bước lan truyền hay d bước thời gian. Gọi dGL (S, v) là khoảng cách ngắn nhất

trong số tất cả các đường đi từ tập S đến đỉnh v trong đồ thị GL (nếu không
tồn tại đường đi từ S đến v thì dGL (S, v) = ∞, nếu v ∈ S thì dGL (S, v) = 0). Đại
lượng dGL (S, v) cũng được gọi là khoảng cách từ tập S đến đỉnh v trong đồ thị
GL . Khi đó ta có:
Rd (GL , S) = {v ∈ V | dGL (S, v) ≤ d}

(3.4)

Khi đó từ Công thức 3.3 ta xác định được thiệt hại DdS do nguồn thông tin
sai lệch S gây ra sau d bước lan truyền như sau:
DdS =

P r(GL )|Rd (GL , S)|

(3.5)

GL ∈G

Ta sẽ xét bài tốn tìm tập đỉnh I để tạo miễn dịch sao cho chi phí tạo miễn
dịch khơng vượt q ngân sách B cho trước và có thiệt hại sau d bước lan truyền
thông tin sai lệch nhỏ nhất.
Gọi G(I) là đồ thị con của G sau khi loại bỏ tập đỉnh I và tập các cạnh kề với
I . Khi đó, thiệt hại gây bởi nguồn thông tin sai lệch S trên đồ thị G sau khi tạo

14

miễn dịch cho tập đỉnh I chính bằng thiệt hại gây bởi nguồn thông tin sai lệch
S trên đồ thị G(I).

Ta dùng ký hiệu G(I) là tập hợp tất cả các đồ thị mẫu sinh ra từ đồ thị G(I)
và DdS (I) là hàm thiệt hại gây bởi nguồn S sau d bước lan truyền khi đã tạo miễn
dịch cho tập đỉnh I . Khi đó từ Cơng thức 3.5 ta có:
DdS (I) =

P r(GL )|Rd (GL , S)|

(3.6)

GL ∈G(I)

Với q trình lan truyền thơng tin sai lệch theo mơ hình LT, bài tốn Cực tiểu
hóa thiệt hai do thơng tin sai lệch gây ra (Minimize Damage of MisinformationMDM ) trên MXH trực tuyến được phát biểu như sau:
Định nghĩa 3.1 (Bài tốn Cực tiểu hóa thiệt hại-MDM) Cho đồ thị G =
(V, E) biểu diễn một MXH cùng với mơ hình lan truyền LT. S ⊂ V là tập nguồn

thơng tin sai lệch. Mỗi đỉnh u ∈ V có một chi phí c(u) ≥ 0 để tạo miễn dịch với
thông tin sai lệch và thiệt hại r(u) = 1 khi bị thơng tin sai lệch kích hoạt. Với
nguồn ngân sách giới hạn B > 0 và số bước lan truyền thông tin d ∈ Z+ cho
trước, mục tiêu của bài tốn là tìm tập đỉnh cần tạo miễn dịch I ⊂ V \S với tổng
chi phí khơng vượt q B,

u∈I

c(u) ≤ B , nhằm cực tiểu hóa hàm DdS (I).

Bài tốn MDM được viết gọn như sau: Tìm tập I ⊂ V \S làm cực tiểu hóa hàm
DdS (I) với điều kiện

3.2

u∈I

c(u) ≤ B .

Độ khó của bài tốn

Trong mục này, tác giả chỉ ra rằng bài toán MDM thuộc lớp bài tốn NP-khó
bằng cách dẫn nó từ bài toán Tập phủ dạng 0 − 1 (hay phiên bản quyết định của
bài toán Tập phủ).

3.3

Các thuật toán đề xuất giải quyết bài toán MDM

Ký hiệu Nk (S) là tập hợp các đỉnh có khoảng cách khơng q k tính từ tập
nguồn phát thông tin sai lệch S trong đồ thị G. Khi k = 1, Nk (S) là tập đỉnh
hàng xóm đi ra từ S . Để ngăn chặn thông tin sai lệch lan truyền sau d bước thời
gian thì các đỉnh được lựa chọn để tạo miễn dịch cũng phải nằm trong tập Nd (S)
với d ∈ Z+ .

15

Trong mục này, tác giả đề xuất hai thuật toán tham lam cho bài toán MDM,
thuật toán thứ nhất dựa trên đặc tính hàm số f (I) (cho bởi Cơng thức 3.7) đo
độ giảm thiệt hại sau khi chọn tập đỉnh I để tạo miễn dịch, thuật toán hai sử
dụng hàm số α(v) (cho bởi Công thức 3.8) đo độ tăng của hàm f (I) tính trên
một đơn vị chi phí khi thêm một đỉnh mới v vào tập I .
Hàm giảm thiệt hại. Với mỗi tập I ⊂ Nd (S), ta định nghĩa hàm giảm thiệt hại
f (I) thức sau:
f (I) = DdS (∅) − DdS (I) = DdS − DdS (I)

(3.7)

trong đó ngầm định DdS (∅) = DdS .

Hàm tăng giá trị của f (I) trên một đơn vị chi phí. Với mỗi tập I đã cho, hàm
α(v) đo độ tăng giá trị hàm f (I) khi thêm một đỉnh v ∈ Nd (S) vào tập I xác định

như sau:
α(v) =

3.3.1

(f (I ∪ {v}) − f (I))
c(v)

(3.8)

Thuật toán tham lam dựa trên hàm f (I)

Mục tiêu của bài tốn MDM là cực tiểu hóa tổng thiệt do thơng tin sai lệch
gây ra, tức là cực tiểu hóa hàm DdS (I) hoặc hiểu theo cách khác là cực đại hóa
độ giảm thiệt hại, tức là cực đại hóa hàm f (I). Như vậy, ta có thể sử dụng f (I)
như là một hàm mục tiêu thay thế trong bài toán MDM, thuật toán tác giả đề
xuất hoạt động dựa trên việc bổ sung dần tập I theo kiểu ăn tham.
Ý tưởng thuật toán: Khởi tạo I = ∅, tiếp theo thực hiện lặp việc chọn đỉnh
v ∈ Nd (S) sao cho hàm f (I ∪ {v}) đạt giá trị lớn nhất, nếu tổng chi phí hiện tại

để tạo miễn dịch chưa vượt ngưỡng ngân sách B thì bổ sung v vào I , ngược lại
thì dừng và trả về kết quả tập I . Quá trình này kết thúc khi tổng chi phí để tạo
miễn dịch cho tập đỉnh I vượt ngưỡng ngân sách B đã cho hoặc đã xét hết tất
cả các đỉnh trong tập Nd (S). Chi tiết thuật toán được đặc tả trong phần giả mã
của Thuật toán 5.
Dễ thấy rằng, trong trường hợp xấu nhất, Thuật tốn 5 thực hiện tối đa n21
vịng lặp việc tính lại giá trị hàm f (I), với n1 = |Nd (S)|, tuy nhiên theo Cơng

thức 3.7, để tính được giá trị hàm f (I) ta cần tính tốn được kỳ vọng số đỉnh bị
thơng tin sai lệch kích hoạt sau d bước lan truyền. Việc tính tốn chính xác giá
trị kỳ vọng số đỉnh bị kích hoạt là vấn đề #P-khó [21, 60]. Để giải quyết vấn đề
này, Wei Chen [21,60] đã sử dụng phương pháp mô phỏng Monte Carlo q trình
lan truyền thơng tin, từ đó ước lượng giá trị kỳ vọng số đỉnh bị kích hoạt. Ước

16

Algorithm 1: Thuật toán tham lam dựa trên hàm f (I)

1
2
3
4
5
6
7
8
9
10
11
12
13
14

Input : G = (V, E), w(u, v), d, B, tập nguồn phát thông tin sai lệch S.
Output: Tập đỉnh I là lời giải của bài toán MDM.
begin
I ← ∅;

N ← Nd (S);
C ← 0;
while (C < B) and (N = ∅) do
u ← argmaxv∈N f (I ∪ {v}); //Chọn ra đỉnh v sao cho f (I ∪ {v}) đạt giá trị lớn nhất
if C + c(u) ≤ B then
I ← I ∪ {u};
C ← C + c(u);
end
N ← N \{u};
end
Return I;
end

lượng giá trị hàm DdS (I) bằng pháp mô phỏng Mote Carlo q trình lan truyền
thơng tin được trình bày trong Thuật toán 2.
Algorithm 2: Thuật toán ước lượng giá trị hàm DdS (I)

1
2
3
4
5
6
7
8
9
10

Input : G = (V, E), w(u, v), tập nguồn phát thông tin sai lệch S, tập đỉnh I tạo miễn dịch.
Output: Giá trị ước lượng hàm DdS (I).

begin
Đồ thị G(I) thu được sau khi loại bỏ tập đỉnh I từ đồ thị G;
count ← 0;
for j = 1 to R do
mơ phỏng q trình lan truyền thông tin trên đồ thị G(I) từ tập nguồn S;
na ← số đỉnh kích hoạt sau d bước lan truyền;
count ← count + na ;
end
Return count/R;
end

Với mỗi tập hạt giống S , tiến hành mơ phỏng q trình lan truyền thơng tin
ngẫu nhiên R lần. Mỗi lần, tính số đỉnh ở trạng thái kích hoạt sau d bước lan
truyền, sau đó tính tổng trung bình trên R lần mơ phỏng. Khi số lần mơ phỏng
R càng lớn thì ước lượng giá trị kỳ vọng số đỉnh bị kích hoạt có độ chính xác

càng cao.
Như vậy, trong trường hợp xấu nhất, Thuật tốn 1 có độ phức tạp tính tốn
là O(n21 R), với n1 = |Nd (S)|, R là số lần mơ phỏng.

3.3.2

Thuật tốn tham lam dựa trên hàm α(v)

Trong mục trước, Thuật toán 1 dựa trên ý tưởng chọn ra những đỉnh thu được
độ giảm thiệt hại lớn nhất để thêm vào tập đỉnh cần tạo miễn dịch, tuy nhiên,

17

trong mục này tác giả đề xuất thuật toán khác dựa trên ý tưởng lựa chọn ra
những đỉnh thu được lợi nhuận lớn nhất nhưng xét đến yếu tố chi phí bỏ ra.
Ý tưởng thuật tốn: Khởi tạo I = ∅, tiếp theo thực hiện lặp việc chọn đỉnh
v ∈ Nd (S) sao cho hàm α(v) đạt giá trị lớn nhất, nếu tổng chi phí hiện tại để tạo

miễn dịch chưa vượt ngưỡng ngân sách B thì bổ sung v vào I , ngược lại thì dừng
và trả về kết quả tập I . Quá trình này kết thúc khi tổng chi phí để tạo miễn dịch
cho tập đỉnh I vượt ngưỡng ngân sách B đã cho hoặc đã xét hết tất cả các đỉnh
trong tập Nd (S). Chi tiết thuật toán được đặc tả trong phân giả mã của Thuật
toán 3.
Trong trường hợp xấu nhất, Thuật toán 3 cũng có độ phức tạp tính tốn là
O(n21 R), với n1 = |Nd (S)|, R là số lần mô phỏng.
Algorithm 3: Thuật toán tham lam dựa trên hàm α(v)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Input : G = (V, E), w(u, v), d, B, tập nguồn phát thông tin sai lệch S.
Output: Tập đỉnh I là lời giải của bài toán MDM.
begin
I ← ∅;
N ← Nd (S);
C ← 0;
while (C < B) and (N = ∅) do
(f (I ∪ {v}) − f (I))
α(v) =
, ∀v ∈ N ;
c(v)
u ← argmaxv∈N α(v); //Chọn ra đỉnh v sao cho α(v) đạt giá trị lớn nhất
if C + c(u) ≤ B then
I ← I ∪ {u};
C ← C + c(u);
end
N ← N \{u};
end
Return I;
end

18

Chương 4
THỰC NGHIỆM

Ở Chương 4 tác giả tập trung đánh giá chi tiết hiệu quả hai thuật toán đề
xuất: Thuật toán 1 và Thuật toán 3, so sánh với các thuật toán cơ sở khác như
thuật toán Max Degree và thuật tốn Random. Tính hiệu quả ở đây xét trong

ngữ cảnh độ giảm thiệt hại hay độ giảm số đỉnh bị thơng tin sai lệch kích hoạt
sau khi tạo miễn dịch cho tập đỉnh I .

4.1

Mục đích thực nghiệm

Trong phần này, luận văn trình bày cách thức tiến hành thực nghiệm và kết
quả thực nghiệm nhằm đánh giá hiệu quả hai thuật toán tham lam: Thuật toán
1 và Thuật toán 3, so sánh với các thuật toán cơ sở khác như thuật toán Max
Degree và thuật toán Random. Hai thuật toán cơ sở này được sử dụng nhiều
trong thực nghiệm nhằm so sánh với các thuật toán đề xuất: Kempe, 2003, [47];
Chen, 2010, [61]; Goyal, 2011, [64]. Ngoài ra, thực nghiệm cũng nhằm giải quyết
các câu hỏi: Khi ngân sách B thay đổi sẽ ảnh hưởng thế nào đến kết quả? Kích
thước của tập nguồn phát thơng tin sai lệch S thay đổi sẽ ảnh hưởng thế nào
đến kết quả?

4.2

Dữ liệu tiến hành thực nghiệm

Thông tin chi tiết về các bộ dữ liệu tiến hành thực nghiệm được mô tả trong
bảng 4.1 dưới đây:
Tên mạng
Email
CollegeMsg
Gnutella

Kiểu đồ thị
Có hướng

Có hướng
Có hướng

Số đỉnh
986
1,899
6,301

Số cạnh
332,334
59,835
20,777

Bậc lớn nhất
333
237
48

Bảng 4.1: Dữ liệu thực nghiệm

Bậc trung bình
25.2
10.6
3.2

19

4.3

Cài đặt thực nghiệm

Các thuật toán trong thực nghiệm được cài đặt bằng ngơn ngữ lập trình
Python.
Ngồi hai thuật tốn tham lam được đề xuất, tác giả sử dụng hai thuật toán
sau đây để so sánh, chi tiết hai thuật tốn xem trong phần phụ lục của luận văn:
• Max Degree: Lựa chọn những đỉnh có bậc cao nhất để tạo miễn dịch.
• Random: Lựa chọn ngẫu nhiên các đỉnh để tạo miễn dịch.

Trọng số ảnh hưởng w(u, v) trong mơ hình lan truyền thơng tin LT, được thiết
lập như trong nội dung thực nghiệm của Kempe, 2003, [47] và nhiều cơng trình
nghiên cứu khác [13, 61]: Mỗi cạnh đi đến đỉnh v được gán trọng số ảnh hưởng
bằng 1/d(v), với d(v) là bậc đi đến (In-degree) của v . Điều này có nghĩa rằng mỗi
cạnh đều có đóng góp như nhau trọng việc kích hoạt đỉnh v và tổng trọng số của
tất cả các cạnh đi đến đỉnh v bằng 1.
Chi phí tạo miễn dịch với thơng tin sai lệch đối với mỗi đỉnh u ∈ V được khởi
tạo ngẫu nhiên một số thuộc khoảng [1.0, 3.0].
Hơn nữa, tất cả những thuật tốn sử dụng phương pháp mơ phỏng Mote Carlo
đều được chọn số lần mô phỏng R = 10000.

4.4

Kết quả thực nghiệm

Ảnh hưởng khi ngân sách B thay đổi: Chúng ta so sánh hiệu quả của
Thuật toán 1 và Thuật tốn 3 với các thuật tốn cịn lại khi ngân sách B thay
đổi, B = {10, 25, 35, 50, 70, 110}, với d = 6 và tập nguồn phát thông tin sai lệch
được khởi tạo ngẫu nhiên, |S| = 10. Tổng thiệt hại do thông tin sai lệch gây
ra sau khi tạo miễn dịch cho tập đỉnh I được chỉ ra trong hình 4.1. Ở tất cả
các trường hợp, Thuật toán 1 và Thuật toán 3 đều tốt hơn hai thuật toán Max

Degree và Random, độ giảm thiệt hại khi áp dụng hai thuật toán này cao hơn
từ 1.017 lần đến 3.4781 lần so với thuật toán Max Degree. Đặc biệt, đối với mạng
Email, khi ngân sách B = 10, Thuật toán 1 và Thuật toán 3 hiệu quả hơn 3.4781
lần và 2.87 lần tương ứng, so với thuật toán Max Degree; đối với mạng Gnutella,
khi ngân sách B = 10, Thuật toán 1 và Thuật toán 3 hiệu quả hơn 3.0521 lần và
3.02781 lần tương ứng, so với thuật toán Max Degree.

Khi ngân sách B = {50, 70, 110}, áp dụng Thuật toán 1 và Thuật toán 3 hạn
chế được từ 43.11% đến 90.44% thông tin sai lệch lan truyền trên mạng. Đặc biệt,

20

đối với mạng Gnutella, khi B = 110, Thuật toán 1 và Thuật toán 3 hạn chế được
90.44% và 90.41% tương ứng, thông tin sai lệch lan truyền.
40
Algorithm 1
Max Degree

35

Random
Algorithm 3

Tổng thiệt hại

30
25
20
15

10
5
0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(a) Email

60
Algorithm 1
Max Degree
50

Random

Tổng thiệt hại

Algorithm 3
40

30

20

10

0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(b) CollegeMsg
120
Algorithm 1
Max Degree
100

Random

Tổng thiệt hại

Algorithm 3
80

60

40

20

0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(c) Gnutella

Hình 4.1: Tổng thiệt hại khi ngân sách B thay đổi, d = 6, |S| = 10

Khi ta tăng kích thức của tập nguồn phát thơng tin sai lệch lên |S| = 20, kết
quả được chỉ ra trong hình 4.2. Ta thấy rằng, ở tất cả các trường hợp, hai thuật
toán tham lam đề xuất đều tốt hơn hai thuật toán Max Degree và Random. Đặc
biệt, đối với mạng Gnutella, khi ngân sách B = 25, Thuật toán 1 và Thuật toán

21

3 hiệu quả hơn thuật toán Max Degree 3.466 lần xét về độ giảm thiệt hại sau khi
tạo miễn dịch với tập đỉnh I .
Nhìn chung, Thuật tốn 1 và Thuật tốn 3 có hiệu quả gần như nhau khi
ngân sách B thay đổi trên ba bộ dữ liệu.
90
Algorithm 1
80

Max Degree
Random

Tổng thiệt hại

70

Algorithm 3

60
50
40
30
20
10
0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(a) Email
160
Algorithm 1
Max Degree

140

Random

Tổng thiệt hại

120

Algorithm 3

100
80
60
40
20
0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(b) CollegeMsg
160
Algorithm 1
Max Degree

140

Random

Tổng thiệt hại

120

Algorithm 3

100

80

60

40

20

0
0

10

20

30

40

50

60

70

80

90

100

110

Ngân sách (B)

(c) Gnutella

Hình 4.2: Tổng thiệt hại khi ngân sách B thay đổi, d = 6, |S| = 20

Ảnh hưởng khi kích thước tập nguồn S thay đổi: Chúng ta so sánh
hiệu quả của hai thuật toán tham lam với các thuật tốn cịn lại khi kích thước

Tóm tắt Luận văn Thạc sĩ: Giảm thiểu tối đa thiệt hại do thông tin sai lệch gây ra trên mạng xã hội trực tuyến

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về