phát hiện tự động tin giả y tế trên mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 86 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Cán bộ hướng dẫn khoa học:

PGS.TS. Quản Thành Thơ TS. Nguyễn Tiến Thịnh

Cán bộ chấm nhận xét 1:TS. Nguyễn Minh HảiCán bộ chấm nhận xét 2:TS. Bùi Thanh Hùng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày23 tháng 1 năm 2024.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1. Chủ tịch: PGS.TS Trần Minh Quang

2. Thư ký: TS. Phan Trọng Nhân3. Phản biện 1: TS. Nguyễn Minh Hải4. Phản biện 2: TS. Bùi Thanh Hùng5. Ủy viên: PGS.TS Dương Tuấn Anh

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngànhsau khi luận văn đã được sửa chữa (nếu có).

VÀ KỸ THUẬT MÁY TÍNH

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆTNAM

II. NHIỆM VỤ VÀ NỘI DUNG:

• Xây dựng mơ hình phát hiện tin giả dựa theo bằng chứng dựa vào mô hình họcsâu.

• Nghiên cứu và đề xuất các phương pháp nhằm đưa ra bằng chứng giúp kết quảcủa tác vụ kiểm tra tin giả trở nên chính xác và đáng tin cậy hơn.

• Đóng góp một bộ dữ liệu tin giả tiếng việt có bằng chứng và ngữ cảnh.• Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.

III. NGÀY GIAO NHIỆM VỤ: 04/09/2023

IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023

V. CÁN BỘ HƯỚNG DẪN: PGS.TS. Quản Thành Thơ, TS. Nguyễn Tiến Thịnh.

Tp. HCM, ngày ... tháng ... năm 2024CÁN BỘ HƯỚNG

DẪN 1

CÁN BỘ HƯỚNG

(Họ tên và chữ ký) (Họ tên và chữ ký) (Họ tên và chữ ký)

PGS.TS. Quản Thành Thơ TS. Nguyễn Tiến Thịnh

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH(Họ tên và chữ ký)

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Để hoàn thành luận văn tốt nghiệp này, học viên đã nhận được sự hỗ trợ tích cựctừ rất nhiều phía. Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chân thành đếngiảng viên hướng dẫn trực tiếp của em, thầy PGS.TS. Quản Thành Thơ. Thầy làngười định hướng chính, cung cấp tài liệu cũng như theo dõi quá trình thực hiện đềtài và hỗ trợ khi em gặp khó khăn. Hơn hết thầy đã truyền cảm hứng cho em từ khicòn là sinh viên của Đại học Bách Khoa về niềm đam mê với học máy, học sâu, xử língơn ngữ tự nhiên và nhiều vấn đề khác trong Lĩnh vực Khoa học Máy tính.

Em xin được gửi lời cảm ơn đến thầy TS. Nguyễn Tiến Thịnh, thầy đã địnhhướng, hỗ trợ em từ giai đoạn Đề cương luận văn, cũng như đưa ra những góp ý qbáu để em hồn thiện hơn Luận văn tốt nghiệp này.

Em xin được tỏ lòng biết ơn sự tận tình dạy dỗ, giúp đỡ của quý thầy cơ trongkhoa Khoa học và Kỹ thuật Máy tính nói riêng cũng như trường Đại học Bách khoaTP. Hồ Chí Minh nói chung. Những kiến thức nhận được từ q thầy cơ là vơ cũngq giá và bổ ích, hỗ trợ rất lớn cho em có thể hồn thành luận văn tốt nghiệp này.

Cuối cùng, em muốn gửi lời cảm ơn đến gia đình, người thân, bạn bè, những ngườiđã quan tâm, động viên, giúp đỡ cả về thể chất lẫn tinh thần để em có đủ nghị lực,sức khỏe hồn thành tốt luận văn tốt nghiệp này.

Với lịng biết ơn chân thành, em xin gửi lời chúc sức khỏe cũng như những lờichúc tốt đẹp nhất đến các quý thầy cô trong Khoa Khoa học và Kỹ thuật Máy tính -Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh.

TP. Hồ Chí Minh, ngày 01 tháng 12 năm 2023

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Tóm tắt luận văn

Với sự phát triển của khoa học và công nghệ, mạng xã hội đã trở nên vô cùng phổbiến trong đời sống. Cùng với sự gia tăng mạnh mẽ của số lượng người dùng trên mạngxã hội, số lượng các bài viết cũng tăng lên cực kỳ nhanh chóng. Mạng xã hội giờ đâykhông chỉ là nơi để giao lưu, trao đổi, giải trí mà nó cịn là nơi để mọi người cập nhậttin tức một cách dễ dàng, nhanh chóng và tiện lợi. Tuy nhiên, có nhiều cá nhân, tổchức lại lợi dụng mạng xã hội để phát tán những tin tức sai sự thật, hay còn gọi là tingiả, nhằm cho mục đích xấu, đặc biệt là những tin tức về y tế kể từ khi dịch COVID-19bùng phát và đây cũng là nguồn thông tin luôn thu hút được một lượng lớn người sửdụng mạng xã hội quan tâm và chú ý. Việc tiếp nhận các tin giả này không chỉ gâyhoang mang dư luận, nhiễu loạn xã hội mà cịn hủy hoại uy tín của cá nhân, tổ chức,doanh nghiệp, ngoài ra những tin tức giả về y tế còn gây nhiều hậu quả liên quan đếnsức khỏe, thâm chí là tính mạng đối với cá nhân tiếp nhận tin giả. Do đó, tự động pháthiện tin giả trên mạng xã hội đã và đang trở thành một chủ đề thu hút nhiều sự chúý. Đã có nhiều nghiên cứu trước hiện thực bài tốn này nhưng chủ yếu là trên ngônngữ tiếng anh. Trong luận văn này, học viên đề xuất một mơ hình ExFAN, tự độngphát hiện tin giả một cách có giải thích. Mơ hình được xây dựng dựa trên các mơ hìnhTransformer và mơ hình hố bài tốn thành tác vụ NLI (Suy luận ngơn ngữ tự nhiên).Bên cạnh đó, học viên cũng xây dựng một bộ dữ liệu tin giả ViFactCheckingOSNsdựa trên các bài đăng trên nền tảng OSNs (Online social network) có ngữ cảnh, bằngchứng. Kết quả đánh giá trên các bộ dữ liệu và cài đặt khác nhau cho thấy mơ hìnhđã đạt kết quả tốt hơn khi so sánh với các mơ hình cơ sở và kết quả cạnh tranh vớicác mơ hình State-of-art khác trong cùng hướng nghiên cứu.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

With the development of science and technology, social networks have becomeextremely popular in daily life. Along with the strong increase in the number of userson social networks, the number of posts has also increased rapidly. Social media is nownot only a place for socializing, exchanging, and entertainment, but also a place forpeople to easily, quickly, and conveniently update news. However, many individuals andorganizations exploit social media to disseminate misinformation, also known as fakenews, for malicious purposes, especially news related to healthcare since the COVID-19 pandemic, which has attracted a large number of social media users. Receivingthis fake news not only causes public anxiety and social disorder but also damagesthe reputation of individuals, organizations, and businesses. Furthermore, fake medicalnews can have serious health consequences, even endangering the lives of those whoreceive it. Therefore, automatically detecting fake news on social media has become atopic of great interest.

There have been many studies on this issue, mainly in English. In this thesis, thestudent proposes a model ExFAN to automatically detect fake news in an explainablemanner. The model is built based on Transformer models and conceptualizes the prob-lem as a NLI (Natural Language Inference) task. In addition, student also constructsa fake news dataset ViFactCheckingOSNs based on posts on the OSNs (Online So-cial Network) with context and evidence. Evaluation results on various datasets anddifferent setups show that the model has achieved better results compared to baselinemodels and competitive results with other state-of-the-art models in the same researchdirection.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Lời cam đoan

Tôi xin cam đoan luận văn tốt nghiệp: “PHÁT HIỆN TỰ ĐỘNG TIN GIẢ Y TẾTRÊN MẠNG XÃ HỘI” là cơng trình nghiên cứu của bản thân. Những phần tài liệuđược sử dụng trong luận văn đã được nêu rõ trong phần Tài liệu tham khảo. Các sốliệu, kết quả trình bày trong luận văn là hồn tồn trung thực, nếu có sai sót tơi xinchịu hồn tồn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.

Học viên

Trần Thị Thắm

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

1 GIỚI THIỆU ĐỀ TÀI 1

1.1 Giới thiệu chung . . . . 1

1.2 Mơ tả Bài tốn phát hiện tin giả . . . . 3

1.3 Mục tiêu và nhiệm vụ của luận văn . . . . 4

1.4 Giới hạn đề tài . . . . 5

1.5 Đóng góp của luận văn . . . . 6

1.6 Tóm tắt nội dung . . . . 6

2 CƠ SỞ LÝ THUYẾT 82.1 Tổng quan về Tin giả . . . . 8

2.1.1 Khái niệm về tin giả . . . . 8

2.1.2 Phân loại tin giả . . . . 8

2.2 Cơ sở kiến thức về mơ hình học sâu . . . . 10

2.2.1 Mơ hình Artificial Neural Network - ANN . . . . 10

2.2.2 Mô hình Transformer . . . . 14

2.2.2.1 Khái niệm Transformer . . . . 14

2.2.2.2 Tổng quan mơ hình Transformer . . . . 14

2.2.3 Mơ hình BERT . . . . 17

2.2.4 Mơ hình Sentence BERT . . . . 19

2.2.5 Suy Luận Ngôn Ngữ Tự Nhiên - NLI . . . . 21

3 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 243.1 Tự động phát hiện tin giả không diễn giải . . . . 25

3.1.1 Cách tiếp cận dựa vào nội dung . . . . 25

3.1.2 Cách tiếp cận dựa vào ngữ cảnh xã hội . . . . 27

3.2 Phát hiện tin giả một cách có diễn giải . . . . 28

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

5.2 Mơ hình đề xuất ExFAN . . . . 49

5.2.1 Tác vụ tự động truy xuất bằng chứng sử dụng cơng cụ tìm kiếm 505.2.2 Tác vụ đánh giá sự tương đồng về ngữ nghĩa . . . . 52

5.2.3 Tác vụ xác minh sự thật . . . . 53

6 THÍ NGHIỆM VÀ ĐÁNH GIÁ MƠ HÌNH ExFAN 566.1 Phương pháp đánh giá . . . . 56

6.2 Mô hình Baseline và cài đặt . . . . 58

6.3 Kết quả thực nghiệm và thảo luận . . . . 59

6.3.1 Trên các bộ dữ liệu tiếng anh . . . . 59

6.3.2 Trên các bộ dữ liệu tiếng việt . . . . 59

7 KẾT LUẬN 627.1 Kết quả đạt được . . . . 62

7.2 Hạn chế và vấn đề tồn đọng . . . . 63

7.3 Hướng phát triển . . . . 63

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

1.1 Minh họa về bài toán phát hiện tin giả. . . . 3

1.2 Ví dụ minh họa một cặp claim-evidence là support . . . . 4

2.1 Cấu trúc của một Perceptron . . . . 11

2.2 Các hàm phi tuyến được sử dụng trong Perceptron . . . . 11

2.3 Mơ hình neural network đơn giản . . . . 12

2.4 Kiến trúc tổng quát của transformer . . . . 15

2.5 Kiến trúc của Encoder . . . . 16

2.6 Kiến trúc mơ hình Sentence BERT trong dự đoán nhãn đối với tập dữliệu diễn giải ngôn ngữ tự nhiên (NLI) [9] . . . . 19

2.7 Kiến trúc mơ hình Sentence BERT trong tính tốn tương đồng giữa 2câu bằng hệ số cosine [9] . . . . 19

2.8 Kiến trúc của mơ hình NLI BERT . . . . 23

3.1 Taxonomy cho bài toán phát hiện tin giả . . . . 25

3.2 Các đặc trưng dựa trên Social Context được sử dụng để phát hiện tintức giả mạo . . . . 27

4.1 Tỉ lệ các nhãn trong tập test của dữ liệu HealthVer . . . . 33

4.2 Tỉ lệ các nhãn trong tập validation của dữ liệu HealthVer . . . . 34

4.3 Tỉ lệ các nhãn trong tập train của dữ liệu HealthVer . . . . 34

4.4 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệuHealthVer . . . . 36

4.5 Tỉ lệ các nhãn trong tập test của dữ liệu COVIDFact . . . . 37

4.6 Tỉ lệ các nhãn trong tập validation của dữ liệu COVIDFact . . . 37

4.7 Tỉ lệ các nhãn trong tập train của dữ liệu COVIDFact . . . . 38

4.8 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệuCOVIDFact . . . . 38

4.9 Tỉ lệ các nhãn trong tập dữ liệu DS01-ISE-ICHEVE . . . . 40

4.10 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu ISE-ICHEVE . . . . 42

DS01-4.11 Tỉ lệ các nhãn trong tập test của dữ liệu ViFactCheckingOSNs . . . 43

4.12 Tỉ lệ các nhãn trong tập train của dữ liệu ViFactCheckingOSNs . . 43

4.13 Tin giả . . . . 45

4.14 Tin thật . . . . 45

4.15 Các từ thường xuyên xuất hiện trong mỗi loại tin của tập dữ liệu FactCheckingOSNs . . . . 45

Vi-5.1 Kiến trúc mơ hình FacTeR-Check. . . 47

5.2 Kiến trúc của mơ hình đề xuất ExFAN . . . . 49

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

5.3 Kiến trúc của tác vụ Tự động truy xuất bằng chứng sử dụng cơngcụ tìm kiếm . . . . 505.4 Kiến trúc mơ hình SBERT tiếng Việt . . . . 525.5 Kết quả của mơ hình mDebertaV3 so sánh với các mơ hình đa ngôn ngữ

khác trên bộ dữ liệu XNLI [66] . . . . 53

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

4.1 Các thông số liên quan các tập dữ liệu kiểm tra tin giả . . . . 324.2 Thống kê độ dài tin tức trong tập dữ liệu HealthVer . . . . 354.3 Thống kê độ dài tin tức trong tập dữ liệu COVIDFact . . . . 394.4 Thống kê độ dài tin tức trong tập dữ liệu DS01-ISE-ICHEVE . . . . 414.5 Thống kê độ dài tin tức trong tập dữ liệu ViFactCheckingOSNs . . 445.1 Ví dụ của việc áp dụng logical reasoning cho phát hiện tin giả từ cặp

Claim (C) - Evidence (E). . . . 556.1 Điều kiện và giải thích các giá trị trong ma trận nhầm lẫn . . . . 576.2 Kết quả thực nghiệm mơ hình ExFAN so với các mơ hình baseline . . 606.3 Kết quả trên bộ dữ liệu ViFactCheckingOSNs . . . . 616.4 Kết quả cuộc thi UIT Data Science Challenge 2023 . . . . 61

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Thuật ngữ & từ viết tắt

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

GIỚI THIỆU ĐỀ TÀI

1.1Giới thiệu chung

Cùng với sự phát triển của Internet và mạng xã hội, tin tức giả mạo đã trởthành một vấn đề phổ biến bao gồm các loại thực thể gian lận khác nhau, chẳnghạn như những đánh giá sai lệch, tài khoản trực tuyến giả mạo và các trang webcó hại. Theo vnexpress <small>1</small>, mơ hình ngơn ngữ sinh tự động như ChatGPT đã đưaviệc tạo ra hàng loạt nội dung giả mạo lên một tầm cao mới, khiến việc phânbiệt thông tin thật và thơng tin sai lệch trở nên khó khăn hơn bao giờ hết. TheoNewsGuard, các trang web chứa nội dung giả mạo do AI tạo đã tăng lên đến hơn1.000% kể từ tháng 5, với hơn 600 trang chứa bài viết khơng chính xác được tạora mỗi ngày. Khơng chỉ có nội dung sai lệch về bầu cử, chiến tranh, hay thiêntai, mà còn cả những câu chuyện giả mạo được lan truyền trên nhiều nền tảngtruyền thông và mạng xã hội. Những nghiên cứu gần đây đã chỉ ra rằng việc tạora nội dung giả mạo bằng trí tuệ nhân tạo đã tạo ra một môi trường thông tintràn ngập thơng tin khơng chính xác, gây ảnh hưởng tiêu cực đến người tiêu dùng.Điều đáng ngại hơn nữa là việc lan truyền những tin tức giả mạo gây ảnh hưởngxấu tới đời sống, kinh tế của xã hội và sức khoẻ của mọi người. Ví dụ, trong đạidịch Covid-19, việc lan truyền thông tin sai lệch về virus diễn ra nhanh chóng vàgây thiệt hại nghiêm trọng. Ở Việt Nam, tin tức giả mạo về các phương pháp điềutrị COVID-19 đã khiến người dân tích trữ hydroxychloroquine, khiến cho nhữngbệnh nhân cần thiết không thể tiếp cận được thuốc quan trọng <sup>2</sup>. Theo thống kêcủa Trung tâm Xử lý tin giả Việt Nam (VAFC) thuộc Bộ Thông tin và Truyềnthông, trong sáu tháng đầu năm 2021, trung tâm nhận được hơn 1,1 nghìn lượtbáo cáo tin giả, xuất hiện nhiều nhất trên các mạng xã hội xuyên biên giới, như

<small>1Mối nguy AI ’siêu lan truyền’ thông tin sai lệch</small>

<small>2Chạy đua tìm ’thần dược’ - Kỳ 1: Tranh cãi thuốc sốt rét điều trị COVID-19</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

Facebook, YouTube và TikTok <sup>3</sup>.

Việc phát hiện tin giả trên mạng xã hội đặt ra một số vấn đề nghiên cứu mớivà đầy thách thức. Khi tin tức giả mạo được tạo ra bằng trí tuệ nhân tạo ngàycàng phức tạp hơn, nhiều mơ hình phát hiện gian lận dựa trên học máy tự độngđã được đề xuất.

Có rất nhiều hướng để tiếp cận với bài tốn phát hiện tin giả nhưng kháiquát có thể chia thành 2 hướng tiếp cận [1] đó là:

1. Phương pháp phát hiện tin giả không diễn giải2. Phương pháp phát hiện tin giả có diễn giải

Phương pháp phát hiện tin giả không diễn giải: Cách tiếp cận này dựavào nội dung mẫu, dựa vào phong cách của văn bản như cú pháp, ý nghĩa văn bảndựa trên những chiến thuật đơn giản như nắm bắt đầy đủ dấu câu, từ vựng, cảmxúc của văn bản đóng vai trị nền tảng cho cách tiếp cận này. Bên cạnh đó, cáchtiếp cận về ngữ cảnh, cách này tập trung sự quan tâm với các yếu tố của mạngxã hội liên quan tới người dùng (lý lịch của người dùng), các bài viết và bình luậncủa người dùng.

Cách tiếp cận trên có nhược điểm đó là kém trong việc tổng quát hóa và khógiải thích được cho người dùng. Với những tin giả đa dạng và có văn phong, đặcđiểm gần giống tin thật thì việc sử dụng cách dựa vào các đặc trưng của bài viếtsẽ khó đạt hiệu quả cao và mang tính thực tế. Bên cạnh đó, cách làm này cũngkhơng chỉ ra được những bằng chứng tin tức này là giả hay thật. Vì vậy, ở đề tàinày, tác giả tập trung vào sử dụng hướng tiếp cận dựa vào phương pháp phát hiệntin giả có diễn giải cụ thể đó là dựa vào bằng chứng (evidence-based).

Với Phương pháp phát hiện tin giả có diễn giải: Bài tốn được mơ hìnhhóa như một q trình lý luận, trong đó các bằng chứng bên ngoài được cung cấpđể xác thực lại thơng tin đúng hay sai. Mơ hình này cần giúp khám phá và tíchhợp các thơng tin hữu ích của bằng chứng cho việc xác nhận tin tức.

Bài toán tự động phát hiện tin giả là bài tốn có ý nghĩa thực tế và giúp đemlại lợi ích cho người dùng mạng xã hội. Vì vậy, trong khn khổ luận văn này, họcviên đã thực hiện đề tài "Phát hiện tự động tin giả y tế trên mạng xã hội"nhằm giải quyết vấn đề này trong các tin tiếng việt. Trong đề tài, tác giả trình bàycác cơng trình nghiên cứu liên quan, các phương pháp khác nhau được sử dụngtrong bài toán phát hiện tin giả và một số thử nghiệm trên các bộ dữ liệu tin giảcó diễn giải.

<small>3 class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

1.2Mơ tả Bài tốn phát hiện tin giả

Hình 1.1: Minh họa về bài tốn phát hiện tin giả.

Hình 1.1 mơ tả những bài tốn chính trong việc phát hiện tin giả sử dụngvăn bản bao gồm các bài tốn sau:

• Check worthiness: Xác định các tun bố cần xác minh

• Verify Claim: Đánh giá tính xác thực của tuyên bố dựa trên các đặc trưngcủa chính tun bố đó.

• Evidence Retrieval: Tìm kiếm các nguồn hỗ trợ hoặc bác bỏ tuyên bố.• Veracity Prediction: Xác minh tính đúng đắn tuyên bố dựa vào các bằng

chứng đã thu thập ở bước Evidence Retrieval.

Tuy nhiên, trong phạm vi nghiên cứu và thực hiện luận văn tốt nghiệp này,học viên sẽ tập trung vào một bài toán kiểm tra tin giả sử dụng chứngcứ, cụ thể các phát biểu được kiểm chứng bằng các tin tức, bài viết thu thập từcác nguồn khác và phân loại cặp tuyên bố - chứng cứ là SUPPORTS (Ủng hộ),REFUTES (Bác bỏ) hay là NEI (Khơng đủ thơng tin) (như Hình 1.2). Giới hạnnày giúp cho việc thiết lập dữ liệu huấn luyện đơn giản hơn nhưng lại được ứngdụng trong thực tế hiệu quả (vì giúp đưa ra được bằng chứng cụ thể cho việc kiểmtra tin).

Input: Các đầu vào cho bài toán phát hiện tin giả bao gồm một tuyên bố cOutput: Danh sách các evidence ˆε(e) và một label y(c, e) ∈ {SUPPORTS, RE-FUTES, NEI}

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

Hình 1.2: Ví dụ minh họa một cặp claim-evidence là support

1.3Mục tiêu và nhiệm vụ của luận văn

Đề tài này hướng đến mục tiêu tìm hiểu và xây dựng mơ hình tự động pháthiện tin giả y tế tiếng việt trên mạng xã hội bằng cách ứng dụng các kỹ thuật họcsâu. Trong đó, hệ thống nhận dữ liệu đầu vào là bài viết về tin tức y tế trên mạngxã hội. Từ mục tiêu tổng quát trên, học viên sẽ lần lượt giải quyết các vấn đề sauđể đưa ra một giải pháp thiết kế và hiện thực một kiến trúc hệ thống giải quyếtđược bài toán của đề tài:

– Tìm hiểu bài tốn phát hiện tin giả dựa trên bằng chứng sử dụng các mơhình học sâu

– Nắm được các phương pháp giải quyết cho Bài toán phát hiện tin giả, đặcbiệt là các phương pháp gần đây sử dụng các mơ hình học sâu. Từ đó chỉ rađược các ưu nhược điểm của từng phương pháp.

– Đưa ra được đề xuất có thể cải thiện hiệu suất của mơ hình dựa trên thựcnghiệm.

– Xây dựng mơ hình học sâu nhằm phát hiện tin tức là giả hay thật dựa trêncác bằng chứng thu thập từ bên ngồi.

– Xây dựng bộ dữ liệu tin giả có diễn giải trên mạng xã hội cho tiếng việt.Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong qtrình hồn thiện luận văn:

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

– Tìm hiểu về Hệ thống phát hiện tin giả, đặc biệt là nhóm Bài tốn phát hiệntin giả dựa trên cơ sở bằng chứng từ nguồn tin bên ngồi, các cơng trình liênquan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phươngpháp.

– Nghiên cứu và đề xuất các mơ hình giúp cải thiện độ chính xác cho Bài tốnPhát hiện tin tức giả dựa trên bằng chứng.

– Tìm kiếm các tập dữ liệu thực tế (đặc biệt là dữ liệu tiếng việt) đã được côngbố và thực hiện xử lý dữ liệu. Tập trung vào các tập dữ liệu thường được sửdụng trong các báo cáo khoa học để có được kết quả đánh giá khách quan.Bên cạnh đó, xây dựng bộ dữ liệu tin giả có diễn giải trên mạng xã hội chotiếng việt.

– Thực nghiệm, đánh giá kết quả của các mơ hình đề xuất trên các tập dữ liệuđã được xử lý trước đó.

– Chỉ ra những hạn chế và vấn đề tồn đọng, đề xuất các giải pháp cải tiến vàmở rộng của bài toán trong tương lai.

1.4Giới hạn đề tài

Xây dựng hệ thống tự động phát hiện tin giả là một bài tốn rộng và có nhiềutác vụ cũng như nhiều cách tiếp cận khác nhau, vì vậy nội dung của luận văn sẽđược giới hạn như sau:

– Tập trung vào bài toán Tự động phát hiện tin giả y tế tiếng việt sử dụngbằng chứng. Bằng chứng là các thông tin được khai thác từ các cơng cụ tìmkiếm như Bing, Google.

– Khảo sát trên 4 tập dữ liệu là CovidFact [2], HealthVer [3], DS01-ISE-ICHEVE(Information Checking and Verification)<small>4</small> và bộ dữ liệu ViFactCheckingOSNsdo học viên tự xây dựng .

– Các phương pháp tiếp cận cho bài tốn bao gồm các mơ hình học sâu nhưVietnamese SBERT và mDebertaV3

– Độ đo được sử dụng là F1 Score, Accuracy, Strict Accuracy

<small>4 class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

1.5Đóng góp của luận văn

Trong luận văn, học viên đề xuất 2 phương án giúp cải thiện hiệu suất củaphương pháp Tự động phát hiện tin giả y tế tiếng việt trên mạng xã hội sử dụngbằng chứng:

– Đề xuất một khung công cụ phát hiện tin tức giả sử dụng bằng chứng và mơhình bài tốn thành tác vụ NLI (Natural Language Inferene) giúp kết quảxác thực tin trở nên chính xác và đáng tin cậy hơn.

– Tăng khả năng học của mơ hình bằng các mơ hình pretrained mạnh, đa ngơnngữ, giải quyết bài tốn kiểm tra tin giả tiếng việt.

– Xây dựng một bộ dữ liệu ViFactCheckingOSNs tin giả tiếng việt trênmạng xã hội có bằng chứng và ngữ cảnh.

– Các thí nghiệm trên bốn bộ dữ liệu là CovidFact [2], HealthVer [3], bộ dữliệu DS01-ISE-ICHEVE (Information Checking and Verification)<sup>5</sup> và bộ dữliệu ViFactCheckingOSNs do học viên xây dựng cho thấy mơ hình đề xuấtđạt được cải tiến hiệu suất so với các mơ hình cơ sở, cụ thể là tăng 3 - 5 %F1 score trên bộ dữ liệu tiếng anh và tăng 3 - 10 % F1 score trên bộ dự liệutiếng việt.

– Mơ hình đề xuất đã đạt giải nhì trong cuộc thi UIT Data Science lenge 2023 được tổ chức bởi Khoa Khoa học và Kỹ thuật Thông tin, TrườngĐại học Công nghệ Thông tin – ĐHQG TP. HCM, chủ đề “phân biệt tin thật,tin giả trên mạng xã hội” <sup>6</sup>

– Chương 2, CƠ SỞ LÝ THUYẾT: Tổng hợp những vấn đề học thuật liênquan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dungcủa học sâu, từ Mạng nơ ron nhân tạo (Artificial Neural Network) và đặc

<small>6 class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

biệt là lý thuyết về tác vụ Suy luận ngôn ngữ tự nhiên (Natural LanguageInference).

– Chương 3, CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Trìnhbày một cách tổng quát về những nghiên cứu liên quan đã và đang được thựchiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán. Phầnnày cũng đưa ra những bàn luận và đánh giá cho các phương pháp kể trên vìđó là cơ sở quan trọng cho những nghiên cứu của học viên trong quá trìnhthực hiện luận văn.

– Chương 4, BỘ DỮ LIỆU KIỂM TRA TIN GIẢ CÓ BẰNG CHỨNG:Giới thiệu các bộ dữ liệu cho bài tốn phát hiện tin giả có bằng chứng cũngnhư xây dựng bộ dữ liệu dành riêng cho tin giả tiếng việt trên mạng xã hộicó bằng chứng.

– Chương 5, MƠ HÌNH ĐỀ XUẤT ExFAN: Giới thiệu mơ hình cơ sở choTự động phát hiện tin giả y tế tiếng việt trên mạng xã hội. Đồng thời đưa racác cải tiến và động lực cho mơ hình đề xuất.

– Chương 6, THÍ NGHIỆM VÀ ĐÁNH GIÁ MƠ HÌNH ExFAN: Ởchương này, học viên trình bày các bước tiến hành thí nghiệm trên những tậpdữ liệu khác nhau và đánh giá kết quả của những cải tiến so với mơ hình cơsở.

– Chương 7, KẾT LUẬN: Tổng hợp các kết quả đạt được trong quá trìnhthực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khaithực nghiệm. Phần này cũng trình bày những hạn chế và vấn đề tồn đọng,cuối cùng đề xuất các giải pháp cải tiến trong tương lai.

Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luậnvăn. Tài liệu tham khảo sẽ được trình bày ở cuối luận văn.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Chương 2

CƠ SỞ LÝ THUYẾT

2.1Tổng quan về Tin giả

2.1.1Khái niệm về tin giả

Thuật ngữ "tin giả" là một khái niệm tương đối mới xuất hiện cùng với sựbùng nổ về thông tin ngày nay.

Học giả về truyền thông Nolan Higdon đã định nghĩa "Tin tức giả là nội dungsai sự thật hoặc gây hiểu lầm được trình bày dưới dạng tin tức và được truyền đạtdưới các định dạng bao gồm truyền thơng nói, viết, in, điện tử và kỹ thuật số" [4].Tin tức giả mạo cũng đề cập đến những câu chuyện bịa đặt có rất ít hoặc khơngcó sự thật và khó có thể xác minh được.

2.1.2Phân loại tin giả

Các trường hợp điển hình của tin giả bao gồm quảng cáo lừa đảo (trong kinhdoanh và chính trị), tuyên truyền của chính phủ, các hình ảnh chỉnh sửa hoặc dùngsai mục đích ban đầu, tài liệu giả mạo, bản đồ giả, gian lận trên Internet, các trangweb giả mạo và mục từ trên Wikipedia khơng đúng sự thật,... Tin giả có thể gâyra tác hại đáng kể nếu mọi người để nó lừa dối. Để giải quyết mối đe dọa này đốivới chất lượng thơng tin, trước tiên chúng ta cần hiểu chính xác các loại tin giả.Có rất nhiều nghiên cứu về tin giả và phân loại tin giả, một trong những báo cáođược tham khảo và trích dẫn nhiều về phân loại tin giả là của Claire Wardle [5].

Theo phân loại này, các tin giả được phân thành 3 nhóm chính :

1) Thông tin sai lệch (Mis-information): Thông tin sai lệch được phổ biến màkhơng có ý định gây hại. Bao gồm 2 loại là Kết nối sai (False connection) khi tiêu

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

đề và chú thích khơng phù hợp nội dung như giật tít, loại 2 là nội dung gây hiểulầm (misleading content) là sử dụng sai thông tin và gây hiểu lầm cho người đọcví dụ như các trang lừa đảo hứa hẹn quảng cáo. Một trong những trò lừa bịp nổitiếng nhất của chiến dịch là việc tạo ra một phiên bản trùng lặp phức tạp củatờ báo Le Soir của Bỉ, với một bài báo sai sự thật cho rằng Macron được Ả RậpXê Út tài trợ<small>1</small>. Một ví dụ khác là việc lưu hành các tài liệu trực tuyến tuyên bốsai sự thật rằng Macron đã mở một tài khoản ngân hàng nước ngoài ở Bahamas<sup>2</sup>.Và cuối cùng, thông tin sai lệch được lan truyền thơng qua "các cuộc tấn cơngTwitter", trong đó các cá nhân có kết nối với nhau, đều đồng thời đưa lên Twittercác thẻ (hashtag) bắt đầu bằng , chứa thông điệp giống hệt nhau để lan truyền tinđồn về Macron (ví dụ: anh ta có quan hệ tình cảm với con gái riêng của mình).

2) Thơng tin giả mạo (Dis-information): Được tạo và chia sẻ bởi những ngườicó ý định gây hại. Bao gồm: bối cảnh sai (False context) là loại thông tin giả mạonày được sử dụng để mô tả nội dung xác thực nhưng đã được điều chỉnh lại theonhững cách nguy hiểm. Ví dụ, vào tháng 8 năm 2021, trên mạng xã hội chia sẻvới tốc độ chóng mặt về tin một người bác sĩ tên Trần Khoa, người này chia sẻ đãquyết định "nhường đi chiếc máy thở" của ba mẹ mình đang dùng cho một sảnphụ đang cần <small>3</small>. Thông tin này đi kèm với một lá thư rất lâm ly của bác sĩ Khoavà nhận được sự đồng cảm lớn từ cộng đồng mạng. Tuy nhiên, Sở Y tế Thànhphố Hồ Chí Minh cho biết sau, khi kiểm tra có đủ cơ sở khẳng định thông tin lantruyền về trường hợp một bác sĩ rút ống thở của người nhà để nhường máy thởcho mẹ con sản phụ là hư cấu.

3) Thông tin ác ý (Mal-information). Thơng tin dựa trên nội dung đã có trongthực tế, được sử dụng để gây hại cho một người, một tổ chức hoặc một quốc gia.Một ví dụ nổi bật về thông tin ác ý là khi các email của Emmanuel Macron bị ròrỉ vào thứ Sáu trước cuộc bỏ phiếu chung cuộc diễn ra vào ngày 7 tháng 5. Thôngtin chứa trong các email là thật nhưng chiến dịch tranh cử của Macron vẫn bị cáobuộc về việc sử dụng thông tin sai sự thật để làm giảm tác động từ ảnh hưởngcủa các cuộc rò rỉ thông tin tiềm ẩn <small>4</small>. Tuy nhiên, bằng cách tiết lộ thông tin cánhân ra công chúng vài phút trước khi các phương tiện truyền thông ở Pháp mấtđiện, vụ rò rỉ đã gây tổn hại lớn cho chiến dịch tranh cử của Macron.

<small> class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

2.2Cơ sở kiến thức về mơ hình học sâu

2.2.1Mơ hình Artificial Neural Network - ANN

Mơ hình Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) là mơhình tính tốn được xây dựng lấy ý tưởng từ cấu trúc và cách hoạt động của mạngnơ-ron thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập thôngtin đầu vào. Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinh họckết nối và hoạt động cùng nhau. Chúng hoạt động bằng cách tiếp nhận các thơngtin đưa vào từ các đi gai (dendrite), tính tốn và tổng hợp tại thân nơ-ron (cellbody), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon).Có thể dễ dàng rút ra nhận xét rằng nơ-ron sinh học nhận nhiều thông tinđầu vào nhưng chỉ đưa ra một kết quả duy nhất thông qua quá trìnhxử lý trung gian phức tạp.

Tương tự như cách thức hoạt động nêu trên của mạng nơ-ron thần kinh,ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc nhưHình 2.5. Trong đó:

– x<sub>1</sub>, x<sub>2</sub>, x<sub>3</sub>, ..., x<sub>n</sub> lần lượt là các biến đại diện cho dữ liệu đầu vào.

– phép cộng (summation) và hàm kích hoạt (activation function) là các phéptính tốn và tổng hợp các thông tin dữ liệu đầu vào.

– w<sub>1</sub>, w<sub>2</sub>, w<sub>3</sub>, ..., w<sub>n</sub> là các trọng số cần phải học, đóng vai trị tham gia q trìnhtính tốn và chuyển đổi các thông tin đầu vào thành thông tin đầu ra.– y là output của tiến trình, đại diện cho dữ liệu đầu ra.

Cụ thể hơn, phương thức tính tốn và tổng hợp dữ liệu của một perceptronđược mô tả theo từng bước sau:

1. Perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích sốcủa từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng:

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Hình 2.1: Cấu trúc của một Perceptron

Hình 2.2: Các hàm phi tuyến được sử dụng trong Perceptron

y =1 if f(a) ≥ threshold

0 if f (a) < threshold <sup>(2.2)</sup>Bằng cách kết hợp nhiều perceptron với nhau sẽ tạo nên cấu trúc mơ hìnhmạng ANN. Mạng ANN bao gồm nhiều perceptron như là các nút mạng tính toán

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

làm tăng tính phức tạp cũng như khả năng học cho mạng, các perceptron đó hìnhthành nên các tầng như hình sau:

Hình 2.3: Mơ hình neural network đơn giản

– Tầng đầu vào (input layer): là tầng đầu tiên, thể hiện các dữ liệu đầu vàocủa mơ hình.

– Tầng ẩn (hidden layer): là tầng nằm giữa gồm các phép tính tốn nhằmchuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra.

– Tầng kết quả (output layer): là tầng cuối cùng thể hiện dữ liệu đầu ra củamạng.

Quá trình suy luận từ tầng vào tới tầng ra của mạng NN là quá trình lantruyền tiến (feedforward), tức là đầu vào các nơ-ron tại 1 tầng đều lấy từ kết quảcác nơ-ron tầng trước đó mà khơng có q trình suy luận ngược lại. Mỗi nơ-ronsẽ nhận tất cả đầu vào từ các nơ-ron ở tầng trước đó và sử dụng một hàm kíchhoạt dạng (activation function) phi tuyến như sigmoid, ReLU, tanh để tính tốnđầu ra.

z<sup>(l+1)</sup> = W<sup>(l+1)</sup>· a<sup>(l)</sup>a<sup>(l+1)</sup> = f (z<sup>(l+1)</sup>)

Hàm lỗi của mạng cũng tương tự như logistic regression có dạng cross-entropy,tuy nhiên khác logistic regression ở chỗ mạng NN có nhiều đầu ra nên hàm lỗicũng phải lấy tổng lỗi của tất cả các đầu ra này:

J (W ) = −<sup>1</sup>m

(y<sup>(i)</sup><sub>k</sub> log(σ<sub>k</sub><sup>(i)</sup>) + (1 − y<sup>(i)</sup><sub>k</sub> )log(1 − σ<sup>(i)</sup><sub>k</sub> ))

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Để tối ưu được hàm lỗi J (W ) này người ta sử dụng giải thuật lan truyềnngược (backpropagation) để tính được đạo hàm của hàm lỗi này.

∂z<small>(l)</small> = <sup>∂J</sup>∂a<small>(l)</small>

∂z<small>(l)</small> = ((W<sup>(l+1)</sup>)<sup>T</sup> <sup>∂J</sup>∂z<small>(l+1)</small>)<sup>∂a</sup>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

2.2.2Mơ hình Transformer

2.2.2.1 Khái niệm Transformer

Năm 2017, một nhóm các nhà nghiên cứu làm việc tại Google đã trình bàyTransformer , một kiến trúc mạng mới dựa trên khái niệm attention(Chú ý) để xửlý các nhiệm vụ phức tạp liên quan đến ngôn ngữ con người, như dịch thuật. Kiếntrúc này đã làm cách mạng ngành xử lý ngôn ngữ tự nhiên, cho phép huấn luyệncác mô hình để giải quyết các nhiệm vụ cực kỳ phức tạp một cách hiệu quả. Kểtừ đó, một số lượng không đếm được các ứng dụng, kiến trúc và mô hình đã đượccơng bố để giải quyết các nhiệm vụ như phân tích cảm xúc [6], tạo văn bản hoặctrả lời câu hỏi [7]. Tuy nhiên, khái niệm attention cũng sớm được áp dụng vào cáclĩnh vực khác như tạo âm nhạc [8].

Một trong những đặc điểm quan trọng nhất của các kiến trúc này trong lĩnhvực hiểu ngôn ngữ tự nhiên nằm ở khả năng hiểu context (bối cảnh), cho phép thựchiện các nhiệm vụ như trả lời câu hỏi với hiệu suất cao. Trong khi ở các phươngpháp dựa trên thống kê NLP trước đó, các từ được xử lý độc lập mà không xemxét mối quan hệ giữa chúng trong một câu hoặc một đoạn văn, cơ chế dựa trênattention của kiến trúc Transformer cho phép xem xét các mối quan hệ này vàthiết lập các kết nối sâu.

Tương tự như các kiến trúc sâu khác như Mạng Nơ-ron Hồi tiếp (RNN) hoặcMạng Nơ-ron tích chập (CNN), Transformer bao gồm một loạt các lớp mã hóa vàgiải mã hoạt động theo trình tự trên đầu vào. Mục tiêu của kiến trúc này là thuđược một biểu diễn vector gọi là nhúng của câu đầu vào một cách tồn diện nhấtcó thể để sau này sử dụng trong các nhiệm vụ cụ thể. Ví dụ, BERT là một cài đặtcụ thể của kiến trúc Transformer, trong đó đầu ra cho một đầu vào cụ thể là mộtnhúng của 768 vị trí xác định nhiều đặc tính của đầu vào.

Đây cũng là một mơ hình học sâu được thiết kế để phục vụ giải quyết nhiềubài toán trong xử lý ngơn ngữ và tiếng nói, ví dụ như bài tốn dịch tự động, bàitốn sinh ngơn ngữ, phân loại, nhận dạng thực thể, nhận dạng tiếng nói, chuyểnvăn bản thành tiếng nói,... Tuy nhiên, khác với RNNs, Transformer khơng xử lýcác phần tử trong một chuỗi một cách tuần tự. Nếu dữ liệu đầu vào là một câungôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu trước rồi mớitới phần cuối câu. Do tính năng này, Transformer có thể tận dụng khả năng tínhtốn song song của GPU và giảm thời gian xử lý đáng kể.

2.2.2.2 Tổng quan mơ hình Transformer

Giống như những mơ hình dịch máy khác, kiến trúc tổng quan của mơ hìnhtransformer bao gồm 2 phần lớn là encoder và decoder. Encoder dùng để họcvector biểu của câu với mong muốn rằng vector này mang thơng tin hồn hảo của

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

câu đó. Decoder thực hiện chức năng chuyển vector biểu diễn kia thành ngơn ngữđích.

Một trong những ưu điểm của transformer là mơ hình này có khả năng xửlý song song cho các từ. Bộ Encoders của mơ hình Transformer là một dạngfeedforward neural nets, bao gồm nhiều encoder layer khác, mỗi encoder layer nàyxử lý đồng thời các từ. Trong khi đó, với mơ hình LSTM, thì các từ phải được xửlý tuần tự. Ngồi ra, mơ hình Transformer còn xử lý câu đầu vào theo 2 hướng màkhông cần phải thêm một LSTM nữa như trong kiến trúc Bidirectional LSTM.

Hình 2.4: Kiến trúc tổng quát của transformerBộ Encoder

Bộ Encoder của transformer sử dụng cơ chế Position Encoding dùng để đưa

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

thơng tin về vị trí của các từ vào mơ hình transformer.

Đầu tiên, các từ được biểu diễn bằng một vector sử dụng một ma trận wordembedding có số dịng bằng kích thước của tập từ vựng. Sau đó các từ trong câuđược tìm kiếm trong ma trận này, và được nối nhau thành các dòng của một matrận 2 chiều chứa ngữ nghĩa của từng từ riêng biệt. Transformer xử lý các từ songsong, do đó, với chỉ word embedding mơ hình khơng thể nào biết được vị trí cáctừ. Như vậy, chúng ta cần một cơ chế nào đó để đưa thơng tin vị trí các từ vàotrong vector đầu vào. Đó là lúc positional encoding xuất hiện và giải quyết vấn đềcủa chúng ta và ý nghĩa của position encoding sẽ khác nhau tùy thuộc vào độ dàicủa câu đó.

Encoder của mơ hình transformer có thể bao gồm nhiều encoder layer tượngtự nhau. Mỗi encoder layer của transformer lại bao gồm 2 thành phần chính làmulti head attention và feedforward network, ngồi ra cịn có cả skip connectionvà normalization layer.

Hình 2.5: Kiến trúc của Encoder

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Encoder đầu tiên sẽ nhận ma trận biểu diễn của các từ đã được cộng vớithơng tin vị trí thơng qua positional encoding. Sau đó, ma trận này sẽ được xử lýbởi Multi Head Attention. Multi Head Attention thực chất là self-attention.

Bộ Decoder

Decoder thực hiện chức năng giải mã vector của câu nguồn thành câu đích,do đó decoder sẽ nhận thông tin từ encoder là 2 vector key và value. Kiến trúc củadecoder rất giống với encoder, ngoại trừ có thêm một multi head attention nằmở giữa dùng để học mối liên quan giữ từ đang được dịch với các từ được ở câunguồn.

Do lượng dữ liệu lớn, thời gian thực hiện và tài ngun tính tốn cần thiếtđể huấn luyện loại mơ hình này, các nhà nghiên cứu thường sử dụng các kiến trúcđược huấn luyện trước sau đó điều chỉnh để giải quyết các nhiệm vụ cụ thể.

Một loạt các kiến trúc đã được đề xuất thực hiện cơ chế dựa trên sự chú ýkể từ khi nó được đề xuất. Các mơ hình như BERT, Roberta, XML hoặc XLM-RoBERTa đang được sử dụng trong một số lượng lớn các nhiệm vụ NLP với thànhcông lớn.

BERT (Bidirectional Encoder Representations from Transformers) là mộttrong những pre-trained model về xử lý ngôn ngữ tự nhiên được sử dụng rộngrãi nhất, được phát triển bới Google AI. BERT cũng là mơ hình gốc và là nềntảng cho sự hình thành các mơ hình phổ biến sau này như distilBERT, RoBERTa,ALBERT,... Các mơ hình BERT đều được hiện thực các tác vụ như phân loại(classification), hỏi đáp (Q&A), POS-Tagging,...

Trong học máy, máy tính khơng thể hiểu được các dữ liệu thơ như ảnh, vănbản, âm thanh, video,... Do đó máy tính cần đến q trình mã hóa đầu vào sangdạng số và từ dạng số giải mã ra kết quả đầu ra. Đây là 2 quá trình encoder vàdecoder. BERT ứng dụng kỹ thuật Transformer, một kỹ thuật được công bố bởiGoogle, một kiến trúc bao gồm 2 encoder và 1 decoder, với mục đích biểu diễn từ,hay cịn được gọi là Word Embedding.

Ưu điểm của BERT so với các mô hình Word Embedding khác đó chính làviệc embedding một từ phụ thuộc vào các từ xung quanh nó, được gọi là ngữ cảnhcủa từ (context). BERT được đánh giá là một mơ hình có độ chính xác cao và cóứng dụng lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên.

BERT có thể được sử dụng trong việc xác định mức độ tương đồng giữa haicâu văn bản. Việc này có thể được thực hiện bằng cách đưa riêng biệt hai câu vàoBERT, sau đó đầu ra sẽ được đưa vào một bộ phân loại (classification) để xácđịnh điểm tương đồng (similarity score).

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

Cơ chế hoạt động của BERT được mơ tả như sau:Định dạng đầu vào

Đầu vào của BERT chỉ có thể là một văn bản bao gồm 1 hoặc 2 câu.Các token đặc biệt

Token đặc biệt [SEP] để đánh dấu kết thúc của một câu, hoặc là ngăn cáchgiữa 2 câu.

Token đặc biệt [CLS] để đánh dấu bắt đầu của văn bản. Token này được sửdụng trong tác vụ phân loại (classification).

Tokenization là tác vụ phân tách một chuỗi văn bản thành danh sách cácphần tử được goi là các token. Bộ phân tích thực hiện tác vụ này được gọi là mộtTokenizer.

Tokenizer của BERT được tạo ra từ mơ hình WordPiece, một mơ hình nhằmphân chia văn bản thành các từ vựng (vocabulary) có trong dữ liệu của BERT.Từ vựng ở đây có thể là các ký tự (character), các từ (word) hoặc là các phụ tốtrong từ (subword). Kho từ vựng của BERT bao gồm tất cả ký tự tiếng Anh vàhơn 30000 từ và phụ tố của từ phổ biến trong tiếng Anh.

Khi phân tích một từ, bộ tokenizer sẽ kiểm tra xem từ đó có nằm trong từđiển hay khơng. Nếu khơng, từ đó sẽ được phân thành các phụ tố của nó. Trườnghợp xấu nhất, từ sẽ được phân thành các ký tự riêng biệt. Chính vì vậy, BERTsẽ khơng thể gặp phải trường hợp Out-of-Vocabulary (OOV), tức gặp phải các từkhơng có trong từ điển của BERT.

Segment ID

Mỗi token sẽ được đi kèm với một chỉ số segment ID chỉ bao gồm 2 giá trị 0hoặc 1 để xác định token đó thuộc về câu nào trong cặp câu đầu vào của BERT.

Q trình EmbeddingMơ tả đầu ra

Một câu sau khi trải qua quá trình embedding, kết quả trả về có thể đượcmơ tả thơng qua một đối tượng (object) có 4 chiều:

• Số layer: bao gồm 13 layer. Thơng thường, BERT chỉ có 6 layer cho mỗiencoder, như vậy sẽ có 12 layer tổng cộng. Layer thứ 13 sẽ là đầu vào của quátrình Embedding.

• Số batch: số lượng câu được đưa vào BERT.• Số token: Số lượng token có trong câu.

• Số lượng feature: giá trị feature được quy định. Đối với BERT, giá trị này là768.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Khởi tạo vector embedding

Để khởi tạo vector embedding dành cho một từ hoặc 1 câu, một tác vụ nàođó cần được thực hiện để tổng hợp các đầu ra của các layer thành một kết quảcuối cùng. Một số tác vụ có thể kể đến như phép nối (concatenate), phép tổng(sum), phép lấy trung bình (mean),...

Word Vector

Mỗi token sẽ có 2 giá trị bao gồm số layer và feature của nó tại layer đó. Wordvector được xác định bằng cách thực hiện một tác vụ đối với một số lượng layerxác định của mỗi token.

Sentence Vector

Sentence vector của 1 câu tại đầu ra của một layer được xác định bằng cáchthực hiện một tác vụ đối với toàn bộ các token vector của câu đó tại layer đangxét.

Nils và các cộng sự [9] đã giới thiệu Sentence BERT (hay SBERT), một mơhình Sentence Embedding nhằm giải quyết vấn đề nêu trên.

<small>BERT</small> <sup>Pooling</sup><small>Operation</small>

<small>Sentence Au (1 x 768)</small>

<small>BERT</small> <sup>Pooling</sup><small>Operation</small>

<small>Sentence Bv (1 x 768)</small>

Cosine-Hình 2.7: Kiến trúc mơ hình Sentence BERT trong tính tốn tương đồng giữa 2 câubằng hệ số cosine [9]

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

Khác với BERT, SBERT thực hiện việc embedding cho một câu mỗi lần thựcthi, và không sử dụng bộ phân loại tại đầu ra. Các câu đều được embedding quacùng một mơ hình BERT với trọng số giống nhau.

Pooling là một tác vụ để tổng hợp các output của các layer thành một vectorkết quả duy nhất. Một số tác vụ pooling có thể kể đến như phép lấy trung bình(mean), phép lấy lớn nhất (max),... Phép Mean pooling được đánh giá là có hiệusuất và kết quả tốt nhất trên các tập dữ liệu NLI và STSb.

Siamese Neural Network (SNN) [10] Siamese Neural Network (SNN) làmột kiến trúc mạng nơ-ron chứa hai hoặc nhiều mạng con giống hệt nhau (cácmạng có cùng cấu hình cũng như tham số và trọng số) và mọi cập nhật về thamsố nếu xảy ra sẽ được phản ánh ngay lập tức đến các mạng con của nó.

SNN chủ yếu được sử dụng để tìm sự giống nhau của dữ liệu đầu vào bằngcách so sánh các vectơ đặc trưng của chúng. Được sử dụng cho các bài toán nhưtác vụ suy luận ngôn ngữ, phát hiện ảnh giả mạo, ...

Thơng thường, một mạng thần kinh có xu hướng sử dụng các lớp ẩn để dựđoán các lớp của một vấn đề. Nhưng trong trường hợp các lớp mới sắp được thêmvào hoặc bị loại bỏ, phải đào tạo lại mơ hình trên tồn bộ tập dữ liệu (cả dữ liệumới và dữ liệu hiện có). Ngồi ra, các mạng lưới thần kinh sâu có thể cần mộtlượng lớn dữ liệu để dự đốn chính xác kết quả. SNN, lại học theo cách khác, đólà học cách tìm điểm tương đồng giữa các luồng dữ liệu đầu vào và cho phép việcphân loại các lớp dữ liệu mới mà không cần đào tạo lại toàn bộ mạng lưới thầnkinh.

Luồng làm việc của SNN như sau:

1. Chọn một cặp dữ liệu đầu vào được chọn từ dataset.2. Đưa mỗi câu qua mỗi mạng con của SNN để xử lý.3. Đầu ra của mạng con là một embedding vector

4. Tính khoảng cách Euclidean giữa 2 vector embedding này

5. Sử dụng hàm Sigmoid để đưa điểm giữa 2 câu về từ 0 tới 1, score càng lớnthì 2 embedding càng giống nhau và ngược lại.

Ưu điểm của SNN

SNN có một số ưu điểm nổi bật như sau:

Lượng dữ liệu cần thiết để huấn luyện SNN là rất ít. Chỉ cần vài amples làđủ (1-5 samples) huấn luyện SNN. Phương pháp mà nó sử dụng ở đây là One-ShotLearning hoặc Few-Shot Learning. Chính vì cần ít dữ liệu huấn luyện như vậy nênchúng ta cũng không lo lắng việc dữ liệu bị mất cân bằng (Image Imbalance).

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Khả năng kết hợp với các bộ phân loại khác cao. Do cơ chế học của SNNkhác biệt với các bộ phân lớp thông thường khác, nên chúng ta hồn tồn có thểkết hợp chúng lại với nhau. Việc làm này thường cho ra kết quả tốt hơn.

Học từ sự tương đồng về ngữ nghĩa: SNN tập trung vào việc học các Featuresở các lớp sâu hơn, nơi mà các Features giống nhau được đặt gần nhau. Do đó,nó có thể hiểu được phần nào sự tương đồng về ngữ nghĩa của các Input Data.Nhược điểm của SNN

SNN cũng có những nhược điểm sau: Thời gian huấn luyện lâu hơn. SNN họctheo từng cặp đơi một với nhau nên khả năng học của nó chậm hơn các NN khác.Không thể hiện xác suất mỗi lớp trong Output. SNN chỉ đưa đưa 1 giá trịScore trong đoạn [0,1], thể hiện sự giống nhau giữa 2 Input Data. Score càng gần1 thì 2 Input Data càng giống nhau và ngược lại.

Hàm Loss của SNN

Bởi vì, SNN học theo kiểu từng đôi một của Input Data nên Cross EntropyLoss Function thường không được sử dụng. Thay vào đó, 2 Loss Functions là TripleLoss và Contrastive Loss được sử dụng nhiều hơn.

Triple Loss function

Ý tưởng của Triple Loss là sử dụng bộ 3 Input Data bao gồm: Anchor (A),Positive (P) và Nagative (N) mà ở đó, khoảng cách từ A đến P được tối thiểuhóa, trong khi khoảng cách từ A đến N được tối đa hóa trong suốt q trình huấnluyện model.

Suy luận Ngơn ngữ Tự nhiên (NLI) là một nhiệm vụ xử lý ngôn ngữ tự nhiên,trong đó mục tiêu là đánh giá xem một câu gọi là giả thuyết có thể suy luận đượcdựa trên một câu gọi là tiền đề [11]. Nói cách khác, với hai câu a và b, có thể suyluận xem có sự liên hệ chặt chẽ giữa chúng khơng, có nghĩa là b dựa trên a, nếucó một mối quan hệ trung lập, trong đó b có thể đúng dựa trên a hoặc nếu mốiquan hệ là mâu thuẫn, có nghĩa là b không đúng dựa trên a [12]. Trong ba trườnghợp này, cặp câu có thể có độ tương đồng cao, nhưng việc phát hiện mối quan hệsuy luận đi một bước xa hơn, liên quan đến các mô hình hiểu ngơn ngữ tự nhiênsâu hơn.

Với một cặp câu, mơ hình sẽ xác định nhãn cho cặp câu đó thuộc 1 trong 3giá trị sau:

• 0 - Entailment. Cặp câu có nội dung tương tự nhau.• 1 - Neutral. Cặp câu có nội dung trung lập với nhau.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

• 2 - Contradiction. Cặp câu khơng có nội dung tương tự nhau.

Để xác định được nhãn, các vector embedding của từng câu cùng độ lớnkhoảng cách giữa chúng |u − v| sẽ được vào một mạng Feed Forward NeuronNetwork (FFNN). Từ đó các output được tính tốn soft-max để xác định nhãncuối cùng dành cho cặp câu đầu vào.

Có các tập dữ liệu khác nhau đã được thiết kế để huấn luyện và đánh giá cácmơ hình NLP cho NLI, tuy nhiên, chúng cũng thường được sử dụng để huấn luyệncác Transformer đa năng do tầm quan trọng của nhiệm vụ này trong tác vụ Hiểungôn ngữ tự nhiên (Natural Language Understanding – NLU). Bộ dữ liệu Suy luậnNgôn ngữ Tự nhiên Stanford (SNLI) [13] là một bộ dữ liệu gồm 570.000 cặp câuđược gán nhãn là mâu thuẫn, trung lập hoặc ủng hộ bởi 5 người gán nhãn. Suyluận Ngôn ngữ Tự nhiên qua nhiều thể loại (MultiNLI) [14] để vượt qua một sốhạn chế của bộ dữ liệu SNLI, trong đó tất cả các câu được trích xuất từ chú thíchhình ảnh. MultiNLI được giới thiệu như một bộ dữ liệu phức tạp hơn với ngônngữ đa dạng hơn. Tập dữ liệu Suy luận Ngôn ngữ Tự nhiên Đa ngôn ngữ (XNLI)[15] được xây dựng để phục vụ như một bộ dữ liệu đa ngôn ngữ bao gồm các cặpcâu từ 15 ngôn ngữ khác nhau. Mạng nơ-ron tái phát (LSTMs) [16], [17] đã chứngminh khả năng đạt hiệu suất cao trong lĩnh vực này. Một số phương pháp dựatrên Transformer cũng đã được đề xuất, cho phép so sánh các câu song ngữ [18].

NLI đóng một vai trị rất quan trọng trong việc tự động kiểm tra tin giả. Vớimột tập hợp các tuyên bố, việc xác minh các tuyên bố này là đúng hay sai có thểđược mơ hình hóa như một nhiệm vụ NLI, trong đó mục tiêu của chúng ta là pháthiện sự suy luận với một trong những tuyên bố sai đã thu thập. Tương tự, với mộtbộ sưu tập các sự thật đúng, chúng ta có thể mơ hình như một nhiệm vụ NLI qtrình xác định xem một sự thật mới có đúng dựa trên các sự thật hiện có trongtập hợp thơng tin đó hay khơng.

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Hình 2.8: Kiến trúc của mơ hình NLI BERT

Theo kiến trúc BERT trong Hình 2.8, một tiền đề và một giả thuyết của mộtmẫu sẽ được nối vào một đầu vào. Đầu vào này có thứ tự sau: token "[CLS]", sauđó tất cả các token của tiền đề, sau đó token "[SEP]", sau đó là tất cả các tokencủa giả thuyết, và token "[SEP]" ở cuối. Mỗi token đầu vào sẽ được chuyển đổithành một bộ nhúng từ, bộ nhúng phân đoạn và bộ nhúng vị trí. Những bộ nhúngnày sẽ đi qua kiến trúc BERT để tạo ra một vector ngữ cảnh cho mỗi token đầuvào và một vector ngữ cảnh cho toàn bộ đầu vào. Vector ngữ cảnh của toàn bộđầu vào được trả về tại vị trí "[CLS]". Vector này sẽ được sử dụng để xác địnhmối quan hệ giữa tiền đề và giả thuyết thông qua một bộ phân loại. Bộ phân loạinày là một mạng nơ-ron truyền thẳng được kết nối đầy đủ với vector ngữ cảnh củađầu vào. Nó sẽ được huấn luyện trong các bước điều chỉnh tinh chỉnh. Kiến trúcBERT giúp tính tốn vector ngữ cảnh với các đặc trưng cú pháp và ngữ nghĩa củađầu vào. BERT có ứng dụng trong việc tính tốn điểm tương đồng của hai câuvăn bản, tuy nhiên BERT chỉ có thể nhận một cặp câu cho mỗi lần thực hiện tínhtốn. Một vấn đề được nêu ra: nếu muốn so sánh sự tương đồng không chỉ mộtcặp câu mà rất nhiều cặp câu, thì cần phải so sánh từng cặp câu với nhau. Giảsử với một dataset có 100 nghìn câu, ta cần thực hiện khoảng 500 triệu phép sosánh. Đối với hệ thống phát hiện tin giả, việc so sánh từng cặp câu là khơng khảthi. Vì vậy, mơ hình Sentence BERT hỗ trợ tốt việc này.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Chương 3

CƠNG TRÌNH NGHIÊNCỨU LIÊN QUAN

Trong những năm gần đây, tác vụ phát hiện tin giả trên mạng xã hội đã thuhút sự chú ý của các nhà nghiên cứu. Trong chương này, học viên sẽ trình bày tổngquan về các nghiên cứu hiện có tập trung vào các cơng trình nghiên cứu liên quantới bài tốn phát hiện tin giả tự động. Các cơng trình nghiên cứu về phát hiện tingiả sẽ chia thành các cách tiếp cận như hình 3.1.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Hình 3.1: Taxonomy cho bài toán phát hiện tin giả

3.1Tự động phát hiện tin giả không diễn giải

Phương pháp phát hiện tin giả cơ bản dựa vào Neural Network để tự độngphát hiện được một số lượng các thơng tin dựa trên góc nhìn về nội dung bàiviết (content-based) và ngữ cảnh xã hội (context-based) của nó, từ đó tạonên mơ hình phân loại tin giả một cách hiệu quả.

3.1.1Cách tiếp cận dựa vào nội dung

Đối với việc xác minh tin tức, nội dung tin tức (ngơn ngữ và dữ liệu hìnhảnh) được sử dụng như một đặc trưng trong các mơ hình phát hiện tin giả [19].Kết quả từ nghiên cứu của Kim và các cộng sự [20] đã chứng minh rằng độ chínhxác trong việc phát hiện tin đồn chỉ sử dụng đặc trưng dựa trên nội dung cao hơnso với việc sử dụng tất cả các đặc trưng khác kết hợp đồng thời.

Các nghiên cứu về phát hiện tin giả dựa trên nội dung văn bản chủ yếu phụthuộc vào các đặc trưng được trích xuất từ văn bản mà bộ phân loại dựa vào để

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học và Kỹ Thuật Máy Tính

xác định tin giả, chẳng hạn như các đặc trưng ngôn ngữ học và cú pháp [21], đặctrưng cảm xúc [22], hoặc các đặc trưng dựa trên phong cách và chất lượng củavăn bản [23]. Các thử nghiệm đã chỉ ra rằng tin giả thường mang theo cảm xúcmạnh mẽ hoặc cực đoan để kích động và thu hút người đọc [23]. Hơn nữa, tin giảthường thể hiện tính hung hăng trong diễn đạt, chứa các từ mang tính chủ quanvà cảm xúc bạo lực [24]. Tiêu đề tin giả thường bao gồm nhiều dấu chấm than vàdấu hỏi hơn so với tin tức thật [25]. Ngoài ra, các tiêu đề tin giả thường xuất hiệntrong các từ viết hoa, hoặc các chữ trong một từ được lặp lại một cách khơng bìnhthường [36]. Nó cũng thường chứa từ vựng được lặp lại, khác với tin tức thật, màbao gồm một loạt từ vựng. Hơn nữa, hầu hết các tiêu đề tin giả dài hơn so vớicác tiêu đề tin tức thật [26]. Ngược lại, nội dung văn bản của bài báo tin giả ngắnhơn so với bài báo tin tức thật [27].

Cụ thể, cách dựa trên nội dung phần lớn học thông tin của n-gram (tác giảWang năm 2017 [28]), ngữ nghĩa (tác giả Khattar và các cộng sự năm 2019 [29]),cảm xúc (tác giả Ajao, Bhowmik, và Zargari năm 2019), lập trường (tác giả Ma,Gao và Wong năm 2018 ), và văn phong viết (tác gi Grăondahl v Asokan nm2019 [30]) t bi vit. Vớ dụ, tác giả Karimi và cộng sự (năm 2019) [31] đã pháthiện các thông tin về văn phong dựa trên cấu trúc nội dung của một vài ngôn ngữ,như cấp độ diễn ngôn dựa trên cú pháp tu từ nhằm giúp phát hiện tin giả. Vàonăm 2020, tác giả Zhou và các cộng sự [32] đã nghiên cứu nội dung tin tức tại 4cấp độ: từ vựng (lexicon), cú pháp (syntax), ngữ nghĩa (semantic) và diễn ngôn(discourse) và sử dụng một mơ hình học máy để khám phá mẫu chung của các tingiả.

Các phương pháp này tránh được công việc của các phương pháp dựa trêntrích xuất tính năng thủ cơng và tìm hiểu sâu sắc các biểu diễn thơng tin ở cấpđộ cao, giúp cải thiện hiệu quả độ chính xác của mơ hình.

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

3.1.2Cách tiếp cận dựa vào ngữ cảnh xã hội

Hình 3.2: Các đặc trưng dựa trên Social Context được sử dụng để phát hiện tin tứcgiả mạo

Các phương pháp phát hiện tin giả dựa vào Social Context được chia thànhhai loại đặc trưng là Đặc trưng dựa trên network và Đặc trưng dựa trênngười dùng như hình 3.2.

Đặc trưng dựa trên network

Đây là các đặc trưng được trích xuất thơng qua việc xây dựng các mạng chuyênbiệt như mạng lan truyền, mạng tương tác và mạng truyền bá. Các đặc trưng dựatrên mạng bao gồm:

• Mạng lan truyền: phân tích mơ hình lan truyền thơng tin và mơ hình truyềnbá để xác định tin giả [33].

• Mạng tương tác: phân tích mơ hình tương tác giữa người dùng và nội dungđược đăng trên mạng xã hội để phát hiện tin giả [34].

• Mạng truyền bá: phân tích cách thơng tin lan truyền qua mạng xã hội theothời gian để phát hiện tin giả [35].

Có nhiều đặc trưng dựa trên mạng được sử dụng để phát hiện tin giả [36], baogồm việc chia sẻ lại tin tức [37], mơ hình truyền bá thơng điệp qua mạng xã hội[38], thông tin thời gian và không gian về việc lan truyền thông điệp [39], cũngnhư mối quan hệ theo dõi-người theo dõi [40]. Hơn nữa, số lượng bình luận và lượtthích mà người dùng phản hồi cũng là những chỉ số về độ tin cậy của tin tức xéttừ quan điểm tương tác của các nhà nghiên cứu [36].

Đặc trưng dựa trên người dùng

Các đặc trưng dựa trên đặc điểm của người dùng có thể được sử dụng để pháthiện tin giả [40], [41]. Người dùng trên mạng xã hội đóng vai trị quan trọng trong

</div>