Tải bản đầy đủ (.pdf) (74 trang)

Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 74 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

NGUYỄN THỊ NGÂN VANG

ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG
PHÁT HIỆN TIN GIẢ

ĐỀ ÁN THẠC SĨ KHOA HỌC MÁY TÍNH

Bình Định - Năm 2023

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

NGUYỄN THỊ NGÂN VANG

ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG
PHÁT HIỆN TIN GIẢ

Ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

Người hướng dẫn: TS. LÊ QUANG HÙNG

Lời cam đoan

Tôi xin cam đoan đề án thạc sĩ “Ứng dụng học biểu diễn đồ thị trong phát
hiện tin giả” là kết quả tìm hiểu, nghiên cứu của tơi, được thực hiện dưới sự
hướng dẫn của TS. Lê Quang Hùng. Các nội dung trích dẫn từ các nghiên
cứu của các tác giả khác mà tơi trình bày trong đề án này đã được ghi rõ nguồn


trong phần tài liệu tham khảo.

Lời cảm ơn

Tôi xin gửi lời cảm ơn chân thành đến TS. Lê Quang Hùng đã định hướng
đề tài, hướng dẫn, giúp đỡ tận tình, chi tiết trong q trình học tập cũng như
trong việc hồn thành đề án.

Bên cạnh đó, tơi cũng xin cảm ơn thầy cô Khoa Công nghệ thông tin -
Trường Đại học Quy Nhơn đã tạo điều kiện giúp tôi hoàn thành đề án này.

Xin cảm ơn các anh chị và các bạn học viên ngành Khoa học máy tính đã
động viên, chia sẻ kinh nghiệm quý báu giúp tôi giải quyết các vướng mắc, vượt
qua giai đoạn khó khăn để có thể hồn thành đề án của mình.

Mặc dù bản thân có nhiểu cố gắng nhưng đề án khó tránh sai sót và có thể
hồn thiện tốt hơn. Kính mong sự chỉ dẫn và đóng góp của các Thầy/Cơ để đề
án của tơi được hồn thiện hơn.

Xin chân thành cảm ơn!

Tóm tắt

Trong xã hội hiện nay, lượng tin tức giả mạo lan truyền trên mạng xã hội
ngày càng gia tăng gây ảnh hưởng rất lớn đến đời sống xã hơi, kinh tế, chính trị.
Phát hiện tin giả thủ cơng khơng cịn phù hợp với lượng thơng tin khổng lồ phát
tán trên không gian mạng. Các nền tảng truyền thông xã hội tuân theo cấu trúc
đồ thị trong biểu diễn của chúng. Hiện nay tuy cũng đã có một số phương pháp
phát hiện tin giả bằng học máy truyền thống truyền thống (SVM, k-NN,. . . )
nhưng các phương pháp này chưa khai thác được cấu trúc (dữ liệu) đồ thị của

chúng, làm giảm hiệu quả trong phát hiện tin giả. Do đó cần thiết có phương
pháp thực hiện tự động trên cấu trúc đồ thị của tin tức truyền thông xã hội
nhằm đem lại hiệu quả việc phát hiện tin giả.

Theo các nghiên cứu hiện tại thường có các nhóm chính đề phát hiện tin giả:
theo nội dung tin, theo nguồn phát tán tin, theo sự lan truyền tin, . . . Trong đề
án này, chúng tôi đã nêu tổng quan về tin giả và phát hiện tin giả; giới thiệu
tổng quan về học biểu diễn đồ thị và nghiên cứu phương pháp phát hiện tin giả
bằng mạng tích hợp đồ thị (Graph Convolution Network - GCN, mạng chú ý đồ
thị (Graph Attention Network – GAT), đồ thị mẫu và tổng hợp (Graph Sample
and Aggregated - GRAPHSAGE). Sau đó, tiến hành cài đặt thực nghiệm trên
bộ dữ liệu FakenewsNet (Politifact, Gossipcop) để so sánh với phương pháp học
máy truyền thống và so sánh giữa các kỹ thuật học biểu diễn đồ thị với nhau.

Từ khóa: tin giả, phát hiện tin giả, mạng tích hợp đồ thị, sự lan truyền
tin giả, mạng nơ ron đồ thị, Graph Neural Network, GNN, Graph Convolution
Network, GCN, mạng chú ý đồ thị, Graph Attention Network, GAT, đồ thị mẫu
và tổng hợp, Graph Sample and Aggregated, GRAPHSAGE,. . .

Mục lục

Lời cam đoan

Lời cảm ơn

Tóm tắt

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC HÌNH VẼ


DANH MỤC CÁC BẢNG

MỞ ĐẦU 1

1 TỔNG QUAN 5

1.1 Tổng quan về tin giả . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Định nghĩa tin giả . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Các phương pháp phát hiện tin giả . . . . . . . . . . . . . . 12

1.2.1 Dựa trên tri thức . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2.2 Dựa trên văn phong . . . . . . . . . . . . . . . . . . . . . . 14

1.2.3 Dựa trên sự lan truyền . . . . . . . . . . . . . . . . . . . . . 16

1.2.4 Dựa trên độ tin cậy . . . . . . . . . . . . . . . . . . . . . . . 18

1.3 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . 20

1.4 Tổng kết chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT

HIỆN TIN GIẢ 23


2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Giới thiệu chung về phương pháp học biểu diễn đồ thị . . 24

2.3 Phát hiện tin giả sử dụng mơ hình GCN . . . . . . . . . . . 27
2.3.1 Giới thiệu chung về GCN . . . . . . . . . . . . . . . . . . . 27
2.3.2 Ứng dụng GCN để phát hiện tin giả . . . . . . . . . . . . . 29

2.4 Phát hiện tin giả sử dụng mơ hình GAT . . . . . . . . . . . 38
2.4.1 Giới thiệu chung về GAT . . . . . . . . . . . . . . . . . . . 38
2.4.2 Ứng dụng GAT để phát hiện tin giả . . . . . . . . . . . . . 43

2.5 Phát hiện tin giả sử dụng mơ hình GRAPHSAGE . . . . . 47
2.5.1 Giới thiệu chung về GRAPHSAGE . . . . . . . . . . . . . . 47
2.5.2 Ứng dụng GRAPHSAGE để phát hiện tin giả . . . . . . . . 49

2.6 Tổng kết chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 THỰC NGHIỆM 53

3.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Cài đặt thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 54

3.3 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Kết luận 59

Tài liệu tham khảo 60


DANH MỤC CÁC TỪ VIẾT TẮT

CHỮ VIẾT TẮT Ý NGHĨA
GNN Graph Neural Network
GCN Graph Convolutional Network
GAT Graph Attention Network
GRAPHSAGE Graph Sample and Aggregated
CNN Convolutional Neural Network
SVM Support Vector Machine
RNN Recursive Neural Networks
LSTM Long Short-Term Memory


DANH MỤC CÁC HÌNH VẼ

HÌNH NỘI DUNG
Hình 1.1 Tổng quan về các công cụ khác nhau chống lại tin tức giả
Hình 1.2. Đám mây từ thể hiện ý nghĩa khác nhau của tin giả
Hình 1.3. Sơ dồ tổng quan vòng đời của tin giả và phương pháp phát hiện
tin giả
Hình 1.4. Ví dụ xác minh thơng tin dựa trên tri thức
Hình 1.5. Minh họa sự lan truyền tin tức
Hình 2.1. Hình minh họa đồ thị cho từng mục tin tức
Hình 2.2. Sơ đồ tổng quan về GNN để phát hiện tin giả
Hình 2.3. Đồ thị gồm các nốt (A,B,C,D,E,F) và các trọng số tương ứng
Hình 2.4. Sơ đồ kiến trúc mơ hình GCN
Hình 2.5. Ma trận kề (adjacency matrix A) và ma trận bậc (degree matrix
D), Ma trận đặc trưng (Feature matrix X) của đồ thị G
Hình 2.6. Phép tính nhân ma trận cho hàng đầu tiên cho ma trận vectơ

AX
Hình 2.7. Bằng cách thêm một đoạn nối cho mỗi đỉnh, chúng ta thu được
ma trận kề mới
Hình 2.8. Ví dụ về ma trận kề (A ) và ma trận nghịch đảo D
Hình 2.9. Sơ đồ tổng quan của mơ hình GCN
Hình 2.10. Minh họa một cơ chế chú ý
Hình 2.11. Khung phân loại u cầu của mơ hình GAT
Hình 2.12. Minh họa trực quan về phương pháp tổng hợp và mẫu Graph-
SAGE
Hình 3.1. Trực quan hóa đồ thị mẫu có hướng
Hình 3.2. Sơ đồ trực quan hóa t-SNE của dữ liệu trước và sau khi thực thi

DANH MỤC CÁC BẢNG

BẢNG NỘI DUNG
Bảng 1.1 So sánh các khái niệm liên quan về tin tức giả mạo
Bảng 3.1 Mô tả dữ liệu dồ thị của bộ dữ liệu Politifact và Gossipcop
Bảng 3.2 So sánh kết quả của phương pháp học máy truyền thống và
GCN trên 2 tập dữ liệu gossipcop và politifact
Bảng 3.3 So sánh kết quả của các mơ hình GCN, GAT, GRAPHSAGE
trên tập dữ liệu FakenewsNet

MỞ ĐẦU

1. Lý do chọn đề tài
Tin giả là một vấn đề đang trở nên ngày càng phổ biến trong thời đại kỹ
thuật số. Đây là một loại thông tin sai lệch, giả mạo hoặc khơng chính xác được
phổ biến trên các nền tảng truyền thông xã hội đang được phát triển vô cùng
mạnh mẽ, các trang web tin tức, các diễn đàn và các kênh truyền thơng khác.
Tin giả có thể gây ra nhiều hậu quả và nguy hại đối với xã hội, cá nhân và tổ

chức như:
• Hoang mang và lo sợ: Tin giả có thể lan truyền và làm cho mọi người hoang
mang hoặc sợ hãi. Điều này có thể dẫn đến tác động tâm lý và tinh thần,
gây lo âu, căng thẳng và sự không ổn định trong xã hội.
• Thất thốt về sức khỏe: Tin giả về y tế có thể khiến người dân sử dụng các
phương pháp điều trị không hiệu quả hoặc nguy hiểm cho sức khỏe, gây
thất thoát về sức khỏe và thậm chí có thể dẫn đến tử vong.
• Ảnh hưởng đến kinh tế: Tin giả có thể gây ảnh hưởng đến kinh tế thơng
qua việc ảnh hưởng đến quyết định đầu tư của các công ty hoặc nhà đầu
tư. Những thông tin giả mạo về thị trường hoặc tình hình kinh tế có thể
dẫn đến những tác động tiêu cực đến tài chính và kinh tế của một quốc gia.
• Ảnh hưởng đến tính đáng tin cậy của các nguồn tin: Những tin giả đã làm
giảm tính đáng tin cậy của các nguồn thông tin trên Internet. Việc tin giả
tràn lan đã khiến người dùng không còn tin tưởng vào những nguồn tin
chính thống nữa.
• Kích thích sự chia rẽ và bất đồng quan điểm: Tin giả có thể thúc đẩy sự

1

2

chia rẽ trong xã hội bằng cách lan truyền thông tin sai lệch và thách thức
quan điểm của người khác. Điều này có thể làm gia tăng sự căng thẳng và
xung đột trong xã hội.

• Mất uy tín và thiệt hại cho doanh nghiệp: Các tổ chức và doanh nghiệp có
thể bị tổn thất uy tín khi tin giả lan truyền về họ hoặc sản phẩm/dịch vụ
của họ.

• Sự lừa dối và lừa đảo: Tin giả thường được sử dụng để lừa dối và lừa đảo

người tiêu dùng hoặc gây mất mát tài sản cá nhân.

• Đánh mất thời gian và tài nguyên: Người dùng mất thời gian và tài nguyên
để kiểm tra và xác minh thông tin trước khi tin tưởng hoặc chia sẻ nó, gây
ra sự phiền tối và lãng phí.

• Cơng cụ tấn cơng chính trị: Tin giả có thể ảnh hưởng đến quyết định chính
trị và bỏ phiếu của người dân bằng cách tạo ra thông tin sai lệch về các
ứng cử viên và vấn đề chính trị. Tin giả được sử dụng như một công cụ tấn
cơng chính trị để gây ảnh hưởng đến ý kiến của công chúng, đánh lừa cử tri
và các quyết định của nhà lãnh đạo. Điều này có thể ảnh hưởng đến tính
minh bạch và cơng bằng của q trình bầu cử.

• Sự lan truyền nhanh chóng: Với sự phát triển của mạng xã hội, các nền
tảng truyền thông xã hội và các ứng dụng di động, tin giả có thể lan truyền
nhanh chóng đến hàng triệu người chỉ trong vài phút.

Tóm lại, tin giả có thể gây ra nhiều hậu quả xấu cho xã hội và cá nhân. Việc
phát hiện và ngăn chặn tin giả là một nhiệm vụ quan trọng để đảm bảo tính tin
cậy và đúng đắn trong mơi trường trực tuyến.

Đã có một số phương pháp phát hiện tin giả một cách thủ công bằng cách
sử dụng các kỹ thuật để xác minh tin tức liên quan đến việc truy cập các trang
web. Đây có thể là nguồn cung cấp tin tức thực tế từ cộng đồng người dùng
internet để so sánh với tin tức chưa được xác minh. Tuy nhiên các kỹ thuật này
không phù hợp với lượng thông tin khổng lồ mới được tạo ra hàng ngày, đặc
biệt là trên phương tiện truyền thông xã hội. Các tin tức này lan truyền trên
mạng xã hội với tốc độ khó kiểm soát.

3


Các nền tảng truyền thông xã hội tuân theo cấu trúc đồ thị trong biểu diễn
của chúng. Hiện nay cũng đã có một số phương pháp phát hiện tin giả bằng học
máy truyền thống (SVM, k-NN,. . . ) nhưng các phương pháp này chưa khai thác
được cấu trúc (dữ liệu) đồ thị của tin tức, làm giảm hiệu quả trong phát hiện
tin giả. Học biểu diễn đồ thị - Graph neural networks (GNNs) là phương pháp
học sâu tiến hành dự đốn trên dữ liệu được mơ tả bằng đồ thị - một trong
những chủ đề phát triển nhanh nhất hiện nay trong lĩnh vực học sâu.

Điều này là động lực cho chúng tôi thực hiện đề tài “Ứng dụng học biểu
diễn đồ thị trong phát hiện tin giả”.

2. Mục tiêu của đề án
Trong đề án này, chúng tơi đặt ra hai mục tiêu chính:
• Nghiên cứu bài toán phát hiện tin giả, các cách tiếp cận phát hiện tin giả,
ứng dụng học biểu diễn đồ thị trong phát hiện tin giả.
• Cài đặt thực nghiệm ứng dụng học biểu diễn đồ thị trong phát hiện tin giả.
3. Đóng góp của đề án
Những đóng góp chính của đề án là:
• Thứ nhất, nghiên cứu mơ hình phát hiện tin giả sử dụng học biểu diễn đồ
thị.
• Thứ hai, cài đặt thực nghiệm mơ hình đã nghiên cứu.
• Thứ ba, thực nghiệm, đánh giá hiệu quả của mơ hình phát hiện tin giả đã
đưa ra.
4. Bố cục của đề án
Ngoài phần mở đầu và kết luận, đề án được tổ chức thành 3 chương với bố
cục như sau:
• Chương 1. TỔNG QUAN: Giới thiệu tổng quan về tin giả bao gồm: tin giả,
các phương pháp tiếp cận để phát hiện tin giả, một số nghiên cứu liên quan
về phát hiện tin giả.

• Chương 2. HỌC BIỂU DIỄN ĐỒ THỊ ĐỂ PHÁT HIỆN TIN GIẢ: trình

4

bày bài toán phát hiện tin giả; giới thiệu học biểu diễn đồ thị; phương pháp
học biểu diễn đồ thị trong phát hiện tin giả và ứng dụng; các kỹ thuật phát
hiện tin giả GCN, GAT, GRAPHSAGE.
• Chương 3. THỰC NGHIỆM: tiến hành cài đặt thực nghiệm trên các bộ dữ
liệu đã chọn: FakenewsNet (Politifact, Gossipcop); đưa ra kết quả và thảo
luận. .

Chương 1

TỔNG QUAN

Trong chương này, chúng tơi trình bày tổng quan về tin giả, sự phát triển
nhanh chóng và các tác hại của tin giả đến đời sống xã hội hiện nay; một số
phương pháp tiếp cận để phát hiện tin giả.

1.1 Tổng quan về tin giả

1.1.1 Giới thiệu
Sự ra đời của internet là một phát minh quan trọng, các nền tảng truyền

thông xã hội (như Facebook và Twitter) ra đời và phát triển mạnh mẽ chưa từng
có đã tạo điều kiện cho con người trên khắp thế giới có thể giao tiếp với nhau.
Với thế mạnh chi phí rẻ, tốc độ nhanh chóng, sử dụng một cách dễ dàng, các
nền tảng truyền thông mạng xã hội đã thu hút rất đông đảo người dùng. Họ có
thể truy cập, tìm kiếm hay đăng tải thơng tin mà khơng cần có sự kiểm soát
nào.


Cùng với sự phát triển mạnh mẽ của các nền tảng truyền thông xã hội, nhiều
tài khoản tạo và lan truyền các tin giả với mục đích trục lợi hoặc chống lại các
cá nhân, tổ chức khác. Tin giả được coi là mối đe dọa rất lớn đối với cộng đồng
[1]. Các cuộc tranh luận gần đây về dịch Covid-19 hoặc các cuộc tranh luận
điễn ra trong suốt các thập kỉ qua hoặc các vấn đề như thảm kịch thế giới, di
cư liên quan đến chiến tranh, hiện tượng nóng lên tồn cầu,. . . làm dấy lên các
cuộc thảo luận sôi nổi trong xã hội, báo chí và các nền tảng trực tuyến. Ảnh

5

6

hưởng của tin giả thể hiện rõ nhất trong cuộc bầu cử tổng thống Hoa Kỳ năm
2016 [2], nơi 20 câu chuyện bầu cử giả được thảo luận thường xuyên hàng đầu
đã tạo ra 8.711.000 lượt chia sẻ, phản ứng và bình luận trên Facebook, nhiều
hơn 7.367.000 cho 20 câu chuyện bầu cử được thảo luận nhiều nhất do 19 trang
web tin tức lớn đăng tải [3]. So với tin thật, tin giả trên Twitter thường được
nhiều người dùng retweet hơn và lan truyền nhanh hơn rất nhiều, đặc biệt là
các tin chính trị. Đại dịch COVID-19 và việc thiếu thông tin về nguyên nhân,
cách phòng ngừa hoặc chữa trị, đặc biệt là trong những tháng đầu tiên của đại
dịch, đã thúc đẩy sự lan truyền của nhiều tin đồn và trò lừa bịp một cách có tổ
chức nhằm truyền bá thơng tin sai lệch [4]. Các nền kinh tế của chúng ta cũng
không tránh khỏi sự lan truyền của tin giả, với tin giả có liên quan đến những
biến động của thị trường chứng khốn và các giao dịch lớn. Ví dụ, tin giả tuyên
bố rằng Barack Obama, Tổng thống thứ 44 của Hoa Kỳ, đã bị thương trong một
vụ nổ đã xóa sạch 130 tỷ đô la giá trị cổ phiếu [5].

Những sự kiện và tổn thất này đã thúc đẩy nghiên cứu tin tức giả mạo và
khơi mào cuộc thảo luận xung quanh tin tức giả mạo, thể hiện qua việc sử dụng

các thuật ngữ như “hậu sự thật” – được Từ điển Oxford chọn là từ ngữ quốc tế
của năm vào năm 2016 [6]; “tin tức giả” trở thành Từ của Năm trong Từ điển
Collins năm 2017 [7].

Sự gia tăng hoạt động của tin tức trực tuyến có thể bị nhiều đối tượng xấu
lợi dụng xuất bản và lan truyền tin giả nhằm trục lợi cho bản thân. Vì những
lợi nhuận mà tin giả đem lại mà càng ngày có nhiều cá nhận bị thu hút tham
gia vào các hoạt động phát tán, lan truyền tin tức giả. Không chỉ thế, khi các
đảng phái và các ông trùm kinh doanh đứng đằng sau việc tạo ra tin tức giả,
tìm kiếm quyền lực và lợi ích hấp dẫn của nó, thì sẽ có khả năng lớn làm cho
tin tức giả trở nên thuyết phục hơn và không thể phân biệt được đâu là thật
đối với công chúng. Các yếu tố xã hội và tâm lý đóng một vai trị quan trọng
trong việc tin tức giả tạo được lịng tin của cơng chúng và tạo điều kiện thuận
lợi hơn nữa cho việc lan truyền tin tức giả. Ví dụ một nghiên cứu của Rubin chỉ
ra rằng con người có khả năng phát hiện sự lừa dối trong khoảng 55-58

Khả năng đưa ra quyết định của chúng ta chủ yếu dựa vào loại thông tin mà

7

chúng ta sử dụng; thế giới quan của chúng ta được định hình dựa trên thông
tin mà chúng ta thu thập được. Ngày càng có nhiều bằng chứng cho thấy người
dùng đã phản ứng một cách vô lý trước những tin tức mà sau đó được chứng
minh là tin giả. Một trường hợp gần đây là sự lây lan của virus Covid19, khắp
internet lan truyền những tin tức giả về nguồn gốc, bản chất, hành vi của virus
và phương pháp điều trị. Điều này trở nên tồi tệ hơn khi ngày càng có nhiều
người đọc về các nội dung giả mạo trên mạng và tin vào điều đó.

Sự phổ biến của tin tức giả trên mạng xã hội và những tác động tiêu cực
nghiêm trọng của nó đã trở thành mối quan tâm hàng đầu của công chúng. Để

giảm thiểu những tác động tiêu cực do tin tức giả gây ra, điều cốt yếu là phải
ngăn chặn tin tức giả mạo trước khi nó đến được với nhiều đối tượng. Một trong
những bước quan trọng để đạt được mục tiêu này là phát hiện sớm tin tức giả
mạo, tức là phát hiện tin tức giả ngay sau khi nó bắt đầu lan truyền.

Việc phân định giữa tin đúng và tin giả là một trong những nhiệm vụ khó
khăn đối với con người. Phát hiện tin giả thủ công không phù hợp với lượng lớn
thông tin mới được tạo ra, đặc biệt là trên phương tiện truyền thơng xã hội.
Hiện nay có một số trang web phát hiện tin giả theo cách thủ công, như các
trang web xác minh tính xác thực “politiFact” và “Snopes” [9] [10], kiểm tra dữ
liệu dựa vào các chuyên gia để điều tra và đánh giá các bài báo giả mạo do độc
giả trực tuyến báo cáo. Kết quả đánh giá sau đó được cơng bố rộng rãi như một
tài liệu tham khảo để kiểm tra thực tế. Sau cuộc bầu cử năm 2016, các “ông
lớn” như Google và Facebook cũng đã thực hiện các bước để chống lại tin tức
giả mạo [5].

Mặc dù việc kiểm tra thực tế bằng thủ cơng trên các trang web có thể giúp
người dùng xác định tin tức giả nhưng chỉ có thể áp dụng vào một số lĩnh vực
cụ thể và cần chuyên môn của con người. Để phát hiện sớm tin giả là khó thực
hiện. Vào thời điểm một tin bài bị các trang web hoặc công cụ xác minh và cơng
bố là giả mạo, thì nó thường đã tiếp cận được nhiều đối tượng và gây hại cho
xã hội. Hơn nữa, lương thông tin xã hội bùng nổ hàng ngày trên mạng truyền
thông là quá lớn, việc xác minh thủ công gần như cho kết quả không đáng kể.
Trong bối cảnh như vậy, các phương pháp phát hiện tự động là cấp thiết (lý do

8

Hình 1.1: Tổng quan về các công cụ khác nhau chống lại tin tức giả

thứ nhất).

Các nền tảng truyền thông xã hội tuân theo cấu trúc đồ thị trong biểu diễn

của chúng [11]. Mạng nơ ron đồ thị là một kỹ thuật mới mẻ tập trung vào việc
sử dụng các thuật toán học sâu trên cấu trúc đồ thị. Trước khi được áp dụng
trong các hệ thống phát hiện tin giả, các mạng GNN đã được áp dụng thành
công trong nhiều nhiệm vụ liên quan đến học máy truyền thống và xử lý ngôn
ngữ tự nhiên như phát hiện đối tượng, phân tích tâm trạng, và dịch máy. Sự
phát triển nhanh chóng của các phương pháp dựa trên GNN cho các hệ thống
phát hiện tin giả trên mạng xã hội có thể được quy cho sự phát triển nhanh
chóng của các mạng xã hội về số lượng người dùng, lượng tin tức đăng và tương
tác người dùng. Do đó, mạng xã hội tự nhiên trở thành các cấu trúc đồ thị phức
tạp. Nếu chúng được áp dụng độc lập, điều này gây khó khăn cho các thuật
tốn phát hiện tin giả dựa trên học máy truyền thống và học sâu đã từng tồn
tại. Những lý do chính dẫn đến hiện tượng này là sự phụ thuộc của kích thước
đồ thị vào số lượng đỉnh và số lượng hàng xóm của các đỉnh khác nhau. Ngồi
ra, các thuật tốn phát hiện tin giả dựa trên bằng học máy truyền thống truyền
thống (SVM, k-NN,. . . ) có giả định chính các mục tin là độc lập. Giả định này
không thể áp dụng cho dữ liệu đồ thị vì các đỉnh có thể kết nối với nhau thơng

9

qua các loại mối quan hệ khác nhau, như trích dẫn, tương tác và liên kết bạn bè.
Do vậy, các phương pháp phát hiện tin giả bằng học máy truyền thống truyền
thống chưa khai thác được cấu trúc (dữ liệu) đồ thị của thông tin, làm giảm
hiệu quả trong phát hiện tin giả (lý do thứ hai).

Do vậy rất cần có phương pháp tự động phát hiện tin giả bằng ứng dụng
học biểu diễn đồ thị.

1.1.2 Định nghĩa tin giả


Trước khi có cơng nghệ số hóa và internet, tin giả thường được lan truyền
qua báo chí, sách, và các phương tiện truyền thông khác. Các bài viết sai lệch,
tin tức thiếu chính xác, và thơng tin có hại đã tồn tại từ thời kỳ đầu của báo
chí. Trong những năm gần đây, tin tức giả đã tiếp cận được nhiều đối tượng hơn
với sự trợ giúp của phương tiện truyền thông xã hội và gây ra tác hại xã hội
nghiêm trọng hơn. Có rất nhiều nghiên cứu về tin tức giả mạo, tuy nhiên đến
thời điểm hiện tại thì vẫn chưa có định nghĩa thống nhất về thuật ngữ này.

Có thể hiểu tin tức là siêu thơng tin và có thể bao gồm những đặc điểm sau:
• Nguồn: Nhà xuất bản tin tức, chẳng hạn như tác giả, trang web và mạng

xã hội.
• Tiêu đề: Mơ tả chủ đề chính của tin bằng một đoạn văn ngắn nhằm thu

hút sự chú ý của độc giả.
• Nội dung chính: Mơ tả chi tiết về tin tức, bao gồm các điểm nổi bật và đặc

điểm của nhà xuất bản.
• Hình ảnh/Video: Một phần nội dung cung cấp hình ảnh minh họa trực quan

để đơn giản hóa nội dung tin tức.
• Liên kết: Liên kết đến các nguồn tin tức khác.
Tuy nhiên, hiện nay tin tức là gì đã trở nên khó xác định hơn. Đặc biệt,
trong bối cảnh số hóa hiện nay, việc định nghĩa truyền thống về tin tức bị thách
thức. Không cần là nhà báo, những người dùng thơng thường cũng có thể tiếp
cận với số lượng đông đảo khán giả. Điều này dẫn đến việc khó kiểm chứng
thơng tin là thật hay giả.



×