LỌC TIN THEO CHỦ đề và TRUY NGUỒN TRÊN MẠNG xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.62 MB, 77 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYỄN CHÍ TOÀN

Ngành: Khoa Học Máy Tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ PHÚC

LỜI CẢM ƠN
Luận văn Thạc Sỹ này được thực hiện tại Trường Đại Học Công Nghệ
Thông Tin TP. Hồ Chí Minh. Để hoàn thành khóa luận này, tôi xin tỏ lòng biết ơn
sâu sắc và gửi lời cảm ơn chân thành đến Thầy PGS.TS Đỗ Phúc, đã tận tình hướng
dẫn, giúp đỡ cho tôi trong suốt quá trình thực hiện tốt luận văn thạc sĩ.
Tôi xin chân thành cảm ơn quý thầy, cô trong khoa khoa học máy tính và
phòng sau đại học của Trường Đại Học Công Nghệ Thông Tin TP. Hồ Chí Minh đã
tận tình truyền đạt kiến thức, tạo điều kiện thuận lợi về mặt thủ tục cho hoạt động
học tập và thực hiện luận văn của tôi.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn lớp cao học khóa 8 đã
giúp tôi rất nhiều trong quá trình học tập cũng như hoàn thành luận văn.
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè đã
luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận văn thạc sỹ.

TP. Hồ Chí Minh, tháng 03, năm 2016

Nguyễn Chí Toàn

1

LỜI CAM ĐOAN
Tôi cam đoan các kết quả tìm hiểu đưa ra trong khóa luận này dựa trên các kết quả
thu được trong quá trình tìm hiểu của riêng tôi.
Nội dung của khóa luận có tham khảo và sử dụng một số thông tin, tài liệu từ
các nguồn sách, tạp chí, website được liệt kê trong danh mục các tài liệu tham khảo.
TP. Hồ Chí Minh, tháng 03, năm 2016

Nguyễn Chí Toàn

2

TÓM TẮT
Ngành công nghệ thông tin phát triển như vũ bảo kéo theo số lượng người sử
dụng internet tăng cao làm cho dữ liệu xung quanh chúng ta được tạo ra lớn hơn
bao giờ hết. Dữ liệu tăng lên rất nhanh, vượt qua giới hạn xử lý của các hệ quản trị
cơ sở dữ liệu truyền thống. Việc lưu trữ và khai thác lượng dữ liệu khổng lồ này để
lọc ra được những dữ liệu hữu dụng quả là một thử thách lớn nhất mà người ta gặp
phải trong xã hội hiện đại. Việc khai thác được khối lượng dữ liệu khổng lồ này
đang đặt ra những thuận lợi và thử thách vô cùng to lớn cho giới nghiên cứu về
khoa học máy tính. Nếu khai thác được lượng dữ liệu khổng lồ này, lọc được những
thông tin hữu ích cho từng lĩnh vực, nó sẽ góp phần to lớn trong việc xác định thị
hiếu người dùng, xác định hướng phát triển của công ty, hoặc là trong việc kiểm
soát và ngăn chặn phát tán thông tin trên mạng xã hội.
Kết quả của luận văn là một hệ thống xác định chủ đề thông tin, xác định
thông tin là tích cực hay tiêu cực, xác định đường đi của thông tin, thời điểm phát
tán thông tin và cuối cùng vẽ biểu đồ lan truyền của thông tin:

Trong luận văn này sẽ từng bước thực hiện các bước theo trình tự sau:
-

Nghiên cứu cơ sở lý thuyết về mô hình Latent Dirichlet Allowcation (LDA),
giải thuật lấy mẫu Gibbs cho mô hình LDA.

-

Nghiên cứu giải thuật Support Vector Machine (SVM).

-

Nghiên cứu giải thuật Naïve Bayes.

-

Nghiên cứu Waikato Environment for Knowledge Analysis (Weka).

-

Phân tích và thiết kế hệ thống.

-

Xây dựng hệ thống thực nghiệm.

Luận văn xây dựng hệ thống thực nghiệm để thực hiện các vấn đề đã nghiên
cứu, thực nghiệm này được xây dựng bằng ngôn ngữ lập trình JAVA, nhằm khai
thác được những tính năng mạnh mẽ của ngôn ngữ lập trình này.

3

MỤC LỤC
Chương 1: TỔNG QUAN----------------------------------------------------------------- 11
1.1

Tính khoa học và tính mới của đề tài ........................................................... 12

1.2

Lý do chọn đề tài .......................................................................................... 13

1.3

Mục tiêu nghiên cứu .................................................................................... 13

1.4

Đối tượng nghiên cứu .................................................................................. 13

1.5

Phạm vi nghiên cứu...................................................................................... 14

1.6

Tình hình nghiên cứu ................................................................................... 14
1.6.1 Tình hình nghiên cứu thế giới ----------------------------------------------- 14
1.6.2 Tình hình nghiên cứu trong nước ------------------------------------------- 15

1.7

Phương pháp thực hiện: ............................................................................... 15

1.8

Dự kiến kết quả đạt được: ............................................................................ 16

1.9

Dự kiến cấu trúc luận văn sẽ thực hiện: ....................................................... 16

Chương 2: CƠ SỞ LÝ THUYẾT ------------------------------------------------------- 18
2.1

Các khái niệm............................................................................................... 18
2.1.1 Khái niệm mạng xã hội------------------------------------------------------- 18
2.1.2 Cấu trúc mạng xã hội --------------------------------------------------------- 19
2.1.3 Ảnh hưởng của mạng xã hội------------------------------------------------- 19
2.1.4 Các lợi ích của việc khai phá dữ liệu mạng xã hội ----------------------- 20
2.1.5 Các trang mạng xã hội hiện nay -------------------------------------------- 20
2.1.6 Email tích cực, tiêu cực ------------------------------------------------------ 21

2.2

Mô hình LDA ............................................................................................... 21

2.3

Giải thuật lấy mẫu Gibbs cho mô hình LDA. .............................................. 23

2.4

Giải thuật SVM. ........................................................................................... 24

4

2.5

Giải thuật Naïve Bayes. ............................................................................... 26

2.6

Weka ............................................................................................................ 27

2.7

Lan truyền trên mạng xã hội ........................................................................ 29
2.8

Lan truyền theo thời gian ---------------------------------------------------- 33

Chương 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG----------------------------- 38
3.1

Giới thiệu Database của hệ thống ................................................................ 38

3.2

Mô hình các đối tượng. ................................................................................ 40

3.3

Mô hình hệ thống. ........................................................................................ 42
3.3.1 Chạy LDA trên tập dữ liệu Enron Email ---------------------------------- 42
3.3.1.1 Làm sạch dữ liệu ---------------------------------------------------------- 42
3.3.1.2 Tạo tập tin .dat ------------------------------------------------------------- 44
3.3.1.3 Chạy LDA ------------------------------------------------------------------ 44
3.3.2 Chạy LDA trên tập dữ liệu huấn luyện. ------------------------------------ 51
3.3.2.1 Chạy LDA ------------------------------------------------------------------ 51
3.3.2.2 Đọc tập tin đặc trưng------------------------------------------------------ 51
3.3.3 Gán nhãn chủ đề và tìm chủ đề ẩn của từng email ----------------------- 51
3.3.3.1 Gán nhãn chủ đề ----------------------------------------------------------- 51
3.3.3.2 Tìm chủ đề ẩn -------------------------------------------------------------- 53
3.3.4 Xác định tin xấu --------------------------------------------------------------- 54
3.3.5 Xác định lan truyền. ---------------------------------------------------------- 54
3.3.6 Xác định lan truyền theo thời gian. ----------------------------------------- 55

3.4

Thiết kế giao diện ......................................................................................... 56

Chương 4: XÂY DỰNG HỆ THỐNG THỰC NGHIỆM -------------------------- 60
4.1

Tập dữ liệu Enron Email. ............................................................................. 60

5

4.2

Xác định chủ đề ẩn. ...................................................................................... 61

4.3

Xác định tin tích cực. ................................................................................... 65

4.4 Xác định lan truyền. ....................................................................................... 65
4.5 Lan truyền theo thời gian. ............................................................................... 67
4.6 Lược đồ thống kê dữ liệu ................................................................................ 68
4.7 Tốc độ chương trình ......................................................................................... 68
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN------------------------------- 70
5.1 Một số kết quả đạt được ................................................................................... 70
5.1.1 Về mặt lý thuyết ---------------------------------------------------------------- 70
5.1.2 Về mặt ứng dụng---------------------------------------------------------------- 70
5.2 Những hạn chế ................................................................................................. 70
5.3 Hướng phát triển ............................................................................................... 70
TÀI LIỆU THAM KHẢO ------------------------------------------------------------------ 72
PHỤ LỤC ------------------------------------------------------------------------------------- 74
PHỤ LỤC 1 ---------------------------------------------------------------------------------- 74

6

DANH MỤC CÁC KÝ TỰ, CHỮ VIẾT TẮT

LDA

Latent Dirichlet Allocation

Gibbs

Giải thuật lấy mẫu Gibbs

SVM

Support Vector Machine

Naïve Bayes

Giải thuật Naïve Bayes

Weka

Waikato Environment for Knowledge Analysis

Markov

Markov Chain Monte Carlo

Enron Email

Tập ngữ liệu Enron Email

Reply, reply all

Gửi lại, gửi cho mọi người

Send, cc, bcc

Gửi, carbon copy, blind carbon copy

Forward

Gửi chuyển tiếp

Like, link, tag,comment

Thích, liên kết, liên kết, bình luận

Ebola

Dịch bệnh ebola

User

Người dùng

Culture

Văn hóa

Economics

Kinh tế

Lifestyle

Đời sống

Politics

Chính trị

Society

Xã hội

Technology

Kỹ thuật

API

Thư viện API

Fanpage

Website cho thành viên

News Feed

Cột ở giữa trong trang facebook

7

DANH MỤC CÁC BẢNG
Bảng 2.1: Danh sách mạng xã hội .............................................................................20
Bảng 3.1: Mô tả dữ liệu Message.............................................................................39
Bảng 3.2: Mô tả dữ liệu Referenceinfo .....................................................................39
Bảng 3.3: Mô tả dữ liệu Recipientinfo ......................................................................40
Bảng 3.4: Mô tả dữ liệu Employeelist ......................................................................40
Bảng 4.1: Thông tin cấu hình đề nghị cài đặt hệ thống. ...........................................60
Bảng 4.2: Bảng hiển thị danh sách từ vựng tương ứng với từng chủ đề. .................61
Bảng 4.3: Bảng từng email thuộc về từng chủ đề với xác suất tương ứng. ..............61
Bảng 4.4: Bảng tập dữ liệu huấn luyện .....................................................................62

8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 2.1: Mô hình mạng xã hội [12] ........................................................................19
Hình 2.2: Mô hình LDA [10] ....................................................................................22
Hình 2.3 Mô hình SVM ............................................................................................25
Hình 2.4 Giao diện chính của chương trình Weka....................................................28
Hình 2.5: Post và share..............................................................................................29
Hình 2.7: Email lan truyền theo thời gian .................................................................36
Hình 3.1: cơ sở dữ liệu mạng Enron email ...............................................................38
Hình 3.2: mô hình dữ liệu mạng Enron email ...........................................................41
Hình 3.3: mô hình dữ liệu hệ thống ..........................................................................42
Hình 3.4: Danh sách các từ dùng ..............................................................................43
Hình 3.5: Danh sách các dòng dữ liệu cần chạy LDA ..............................................44
Hình 3.6: Tập tin model-final.others .........................................................................45
Hình 3.7: Tâp tin model-final.phi .............................................................................46
Hình 3.8: Tâp tin modemodel-final.tassign ..............................................................47

Hình 3.9: Tâp tin Tập tin model-final.theta ..............................................................48
Hình 3.10: Tâp tin Tập tin model-final.twords .........................................................49
Hình 3.11: Tâp tin Tập tin model-final.twords .........................................................50
Hình 3.12: Chủ đề được đưa vào phân tích trên tập dữ liệu. ....................................52
Hình 3.13: Danh sách chủ đề được đưa vào để huấn luyện. .....................................52
Hình 3.14: Xác định được chủ đề .............................................................................53
Hình 3.15: API được cung cấp bởi Weka. ................................................................54
Hình 3.16: Lược đồ lan truyền ..................................................................................55
Hình 3.17: Lược đồ lan truyền theo thời gian ...........................................................55
Hình 3.18: Giao diện chính của chương trình ...........................................................56
Hình 3.19: Giao diện tab Training ............................................................................57
Hình 3.20: Giao diện tab Spread ...............................................................................57

9

Hình 3.21: Giao diện tab Spread Time .....................................................................58
Hình 3.22: Giao diện tab Chart .................................................................................59
Hình 4.1: Tập tin đặc trưng cho chủ đề Economics. .................................................63
Hình 4.2: Cập nhật đặc trưng cho chủ đề Economics. ..............................................63
Hình 4.4: Các bước thực hiện xác định chủ đề .........................................................64
Hình 4.5: Kết quả trả về ............................................................................................65
Hình 4.6: Sơ đồ lan truyền tin ...................................................................................66
Hình 4.7: Sơ đồ lan truyền tin theo thời gian ............................................................67
Hình 4.8: Biểu đồ thống kê chủ đề ............................................................................68

10

Chương 1: TỔNG QUAN

Chúng ta đang sống trong một thời đại mới, thời đại phát triển rực rỡ của
CNTT.Tác động của CNTT đối với xã hội loài người vô cùng to lớn. Sự phát triển
và ứng dụng của Internet đã làm thay đổi mô hình và cách thức hoạt động kinh
doanh của doanh nghiệp. CNTT đã ở một bước phát triển cao, đó là số hóa tất cả
các dữ liệu thông tin, luân chuyển mạnh mẽ và kết nối tất cả chúng ta lại với nhau.
Đồng thời cùng với sự phát triển của mạng xã hội, đã cho phép người dùng tự do
tạo các nội dung trên mạng xã hội, tốc độ tăng trưởng dữ liệu tràn lan đến chóng
mặt do sự phát triển của công nghệ. Hàng ngày số lượng dữ liệu về hình ảnh, blog,
cập nhật mạng xã hội hàng ngày, tài liệu điện tử, tập tin nhạc và video được phát
triển với một tốc độ nhanh chóng. Bên cạnh những trang web lớn có uy tín tồn tại
không ít các trang web, tiểu blog mang không ít các thông tin mà độ chính xác hay
tin cậy không được xác nhận. Đây là vấn đề bức xúc, nan giải trong việc kiểm soát
thông tin trên trang mạng gặp nhiều khó khăn. Đặc biệt là những mạng xã hội như
Facebook, LinkedIn, Twitter đã thu hút hằng triệu lượt truy cập mỗi ngày, cho phép
chia sẻ các thông điệp, tài liệu hình ảnh…
Mạng xã hội: Mạng xã hội được lan rộng thông qua các tương tác của các
thành viên. Mọi thành viên trong mạng xã hội cùng kết nối và mỗi người là một mắt
xích để tạo nên một mạng lưới rộng lớn truyền tải thông tin trong đó. Về cơ bản,
mạng xã hội giống như một trang web mở với nhiều ứng dụng khác nhau. Mạng xã
hội khác với trang web thông thường ở cách truyền tải thông tin và tích hợp ứng
dụng. Trang web thông thường cũng giống như truyền hình, cung cấp càng nhiều
thông tin, thông tin càng hấp dẫn càng tốt còn mạng xã hội tạo ra các ứng dụng mở,
các công cụ tương tác để mọi người tự tương tác và tạo ra dòng tin rồi cùng lan
truyền dòng tin đó.
Đặc điểm của mạng xã hội: Cho phép người dùng giao lưu và chia sẻ thông tin
một cách có hiệu quả, vượt ra ngoài những giới hạn về địa lý và thời gian. Xây
dựng lên một cộng đồng mạng trực tuyến nhằm phục vụ những yêu cầu công cộng
chung và những giá trị của cộng đồng. Nâng cao vai trò của mỗi công dân trong

11

việc tạo lập quan hệ và tự tổ chức xoay quanh những mối quan tâm chung trong
những cộng đồng thúc đẩy sự liên kết các tổ chức xã hội. Với các tính năng: chat, e‐
mail, phim ảnh, voice chat, chia sẻ file, blog và bình luận… cho phép mọi người kết
nối với nhau thông qua một trang web. Trang web này chứa đựng nhiều ứng dụng
cho phép nhiều người cùng tương tác, chia sẻ, kết bạn….
Phân tích mạng xã hội: là đánh giá, ánh xạ mối quan hệ giữa các thành viên
trên mạng xã hội. Thống kê, nghiên cứu về các thông điệp được trao đổi.
Tiếp thị mạng xã hội: là phương pháp lan truyền những thông tin cần tiếp thị
cho các cư dân mạng. Thông tin về các dịch vụ, sản phẩm ...sẽ được lan truyền từ
người này qua người khác một cách nhanh chóng.
Quản trị thông tin: kiểm soát, ngăn chặn một số tin đồng thời tìm ra nguồn
gốc phát tán để có biện pháp ngăn chặn kịp thời.
Với mong muốn nghiên cứu các phương pháp phân tích mạng xã hội theo
hướng nội dung, trong phạm vi luận văn này em xin sẽ giải quyết bài toán với đầu
vào là các thông điệp, các bài viết. Dữ liệu đầu ra sẽ là danh sách các chủ đề được
thảo luận trong các thông điệp, bài viết. Xác định thông điệp, bài viết nào có dấu
hiệu tiêu cực từ đó tìm ra ai là người lan truyền, phát tán thông điệp, bài viết đó.
1.1 Tính khoa học và tính mới của đề tài
Mạng xã hội trở nên vô cùng phổ biến, chính vì vậy nó cho phép mọi người đều có
thể cung cấp, đồng thời truy cập, khai thác, sử dụng tất cả các thông tin có trên
internet. Bên cạnh đó, các thông tin đưa lên internet hiện nay có rất nhiều nguồn. Có
nguồn từ các cơ quan báo chí, từ các trang thông tin điện tử của các cá nhân, cũng
như các tổ chức trong nước, lại cũng có nguồn từ các trang thông tin điện tử, các
website, blog của các cá nhân và các tổ chức ngoài nước. Vì vậy, việc quản lý thông
tin trên internet là một việc làm hoàn toàn không đơn giản. Việc thông tin tràn lan
trên phương tiên thông tin đại chúng nếu như không chọn lọc thì thông tin không có
lợi mà chỉ có hại, ít thì có thể gây ra ảnh hưởng tâm lý không thoải mái, khó chịu
cho người cần tìm hiểu thông tin, nhiều khi gây ra hành động mất kiểm soát tạo sự

mất trật tư xã hội, gây ra những xung đột dư luận không tốt.
12

Việc xây dựng một hệ thống thực nghiệm cho phép:
-

Xác định chủ đề ẩn.

-

Xác định thông điệp có dấu hiệu mang nội dung xấu.

-

Xác định lan truyền.

-

Xác định mức độ lan truyền theo thời gian.

Là hết sức cần thiết và mang tính cấp thiết. Trong đó, luận văn tập trung vào các mô
hình LDA, SVM và Naïve Bayes. Từ việc nghiên cứu này, luận văn hi vọng sẽ hỗ
trợ cho việc phân loại và kiểm soát các luồng thông tin trên mạng xã hội.
1.2 Lý do chọn đề tài
Do những nhu cầu của phân tích những luồng thông tin trên mạng là hết sức cần
thiết nên đây là một đề tài rất hợp với su thế, sự phát triển của CNTT. Luận văn
đóng một vai trò quan trọng trong việc cung cấp một cái nhìn mới về mạng xã hội,
các thông tin được lan truyền hằng giây, hằng phút, hằng giờ trên internet. Luận văn
mang hơi thở của thời đại, khi mà sức ảnh hưởng của mạng xã hội lớn hơn bao giờ

hết.
1.3 Mục tiêu nghiên cứu
Trong đó luận văn tập trung vào nghiên cứu đặc điểm của các mô hình LDA, SVM
và Naïve Bayes. Từ việc nghiên cứu này, luận văn sẽ hỗ trợ cho việc phân loại và
kiểm soát các luồng thông tin trên mạng xã hội. Nắm được cách thức tổ chức và cơ
chế hoạt động của mạng xã hội.
1.4 Đối tượng nghiên cứu
Tập trung vào nghiên cứu đặc điểm của các mô hình :
- LDA
- SVM
- Naïve Bayes
Đồng thời tiến hành nghiên cứu về mạng xã hội về các mục tiêu:
-

Cách thức tổ chức và cơ chế hoạt động của mạng xã hội

-

Hiểu được phương pháp nghiên cứu mạng xã hội

-

Chọn một phương pháp phân tích mạng xã hội
13

-

Thử nghiệm với một mạng xã hội cụ thể

1.5 Phạm vi nghiên cứu
Nghiên cứu về các mô hình LDA, SVM, Naïve Bayes. Nghiên cứu về Weka và
cách thức tổ chức và cơ chế hoạt động của mạng xã hội. Từ đó xây dựng một hệ
thống thực nghiệm giúp xác định chủ đề ẩn, xác định thông điệp có dấu hiệu mang
nội dung xấu. Tìm ra người lan truyền tin xấu và xác định mức độ lan truyền theo
thời gian của thông tin.
1.6 Tình hình nghiên cứu
1.6.1 Tình hình nghiên cứu thế giới
Nghiên cứu sự lan truyền dữ liệu và lọc tin theo chủ đề trên mạng xã hội lần đầu
tiên được nghiên cứu từ những năm 2000. Trong những công trình này, họ đã xây
dựng chiến lược tiếp thị lan truyền (Viral Marketing) và phân tích quá trình lan
truyền sử dụng cách tiếp cận theo khai phá dữ liệu. Xây dựng mô hình bài toán tối
đa hóa tầm ảnh hưởng (Influence Maximization) trên mạng xã hội như là 1 bài toán
tối ưu (optimization problem).
Trong những nghiên cứu đầu tiên đã tập trung nghiên cứu vào mô hình lan
truyền thông tin độc lập (independence cascades), theo ngưỡng tuyến tính (linear
threshold) và đưa ra mô hình chung tổng quát cho cả hai mô hình này, nghiên cứu
bài toán tối đa hóa tầm ảnh hưởng dưới bối cảnh phát hiện bùng phát. Đặc biệt, họ
đã đi sâu vào tìm ra tập các node trong mạng để phát hiện bùng phát cành sớm càng
tốt.
Ngoài ra còn nhiều công trình khác nghiên cứu trực tiếp về mạng xã hội, hỗ
trợ lý thuyết về khai phá dữ liệu những công trình này có thể kể đến như:
-

Công trình [5] trình bày lý thuyết về xích Markov và sử dụng giải thuật
Gibbs sampling để thực thi các mô hình trong văn bản.

-

Công trình [9] mô hình hóa chủ đề ẩn LDA dựa vào phân bố xác suất. Ứng

dụng vào bài toán chọn đặc trưng hay phân loại văn bản.

14

-

Công trình [6] nghiên cứu của Bing Liu về phân tích cảm xúc ở mức độ câu,
văn bản và thực thể.

-

Công trình [8] nghiên cứu của David Kempe về mô hình lan truyền thông tin
Independent Cascade và Linear Thresholds.

-

Công trình nghiên cứu [7] của nhóm tác giả Byung-Won On, Ee Peng Lim,
Jing Jiang, and Loo Nin về hành vi của người trong mạng xã hội từ đó dự
đoán thứ tự trả lời email và kết quả được chạy thử nghiệm trên tập ngữ liệu
Enron Email.

1.6.2 Tình hình nghiên cứu trong nước
-

Công trình [1] nghiên cứu, phát triển hệ thống lọc nội dung, hỗ trợ quản lý và
đảm bảo an toàn – an ninh thông tin trên mạng Internet – TS Nguyễn Viết
Thế. Công trình nghiên cứu này đề xuất một giải pháp hỗ trợ công tác quản
lý một cách hiệu quả, an toàn các luồng dữ liệu ra vào Việt Nam và thế giới
qua mạng Internet.

-

Công trình nghiên cứu của Thạc Sỹ Nguyễn Xuân Nghề tìm ra người có khả
năng lan truyền mạnh nhất, có ảnh hưởng lớn nhất trong mạng xã hội.

-

Công trình nghiên cứu của Thạc Sỹ Nguyễn Văn Muôn phân tích chủ đề trao
đổi trên mạng xã hội.

-

Công trình [17] của nhóm tác giả Muon Nguyen, Thanh Ho, Phuc Do nghiên
cứu mô hình lan truyền trên mạng xã hội LT-Linear Threshold và giải thuật
CELF Algorithm. Từ đó tìm ra người có khả năng lan truyền mạnh nhất
trong mạng xã hội.

-

Công trình [18] nghiên cứu của nhóm tác giả Nguyen Le Hoang, Pham Vu
Dang Khoa, Phuc Do về việc dự đoán chủ đề được ưa thích của những người
dùng trong mạng xã hội.

-

Công trình[19] nghiên cứu của nhóm tác giả Phan Xuân Hiếu, Nguyễn Cẩm
Tú về nhận dạng chủ đề ẩn đối với một tài liệu

1.7 Phương pháp thực hiện:

-

Nghiên cứu về các mô hình LDA, SVM, Naïve Bayes.
15

-

Nghiên cứu về Weka.

-

Nghiêm cứu cách thức tổ chức và cơ chế hoạt động của mạng xã hội.

-

Nghiên cứu các phương pháp nghiên cứu mạng xã hội.

-

Xây dựng hệ thống thực nghiệm thực hiện: xác định chủ đề ẩn, xác định
thông điệp có dấu hiệu mang nội dung xấu, tìm ra người lan truyền tin xấu,
xác định mức độ lan truyền theo thời gian, kiểm định thí nghiệm trang mạng
xã hội.

-

Đánh giá hệ thồng thực nghiệm, cho chạy thử và lấy ý kiến chuyên gia.

1.8 Dự kiến kết quả đạt được:

Am hiểu về các mô hình hình LDA, SVM, Naïve Bayes và kết hợp với Weka. Hiểu
tổng quan về cách thức tổ chức và cơ chế hoạt động của mạng xã hội và các phương
pháp nghiên cứu mạng xã hội.
Xây dựng hệ thống thực nghiệm thực hiện: xác định chủ đề ẩn, xác định thông
điệp có dấu hiệu mang nội dung xấu, tìm ra người lan truyền tin xấu, xác định mức
độ lan truyền theo thời gian.
1.9 Dự kiến cấu trúc luận văn sẽ thực hiện:
Chương 1 : Tổng quan: Trong chương này sẽ trình bày các vấn đề cần nghiên cứu
dựa vào các mục tiêu đã đặt ra, nêu lên ý nghĩa khoa học của công trình nghiên cứu,
tình hình nghiên cứu trong nước và ngoài nước, phương pháp thực hiện. Cuối cùng
là kết quả đạt được.
Chương 2: Cơ sở lý thuyết: Là các cơ sở lý thuyết làm nền tản cho việc nghiên cứu
của luận văn này. Các khái niêm liên quan đến mạng xã hội, mô hình LDA, giải
thuật SVM, Naïve bayes và Weka.
Chương 3: Phân tích và thiết kế hệ thống thực nghiệm: Trong chương này sẽ
trình bày các bước để hiện thực chương trình. Mô tả hệ thống, xử lý chi tiết cho
từng module.

16

Chương 4: Xây dựng hệ thống thực nghiệm: Trong chương này sẽ trình bày quá
trình thử nghiệm phần mềm ở chương 3. Thử nghiệm chương trình trên một bộ dữ
liệu thử nghiệm.
Chương 5: Kết luận và hướng phát triển : Trong chương này sẽ đưa ra những kết
quả đạt được, những hạn chế cũng như khó khăn trong quá trình làm luận văn và
đưa ra hướng phát triển của luận văn.
Kết chương:
Trong chương 1 này đã trình bày một số khái niệm mạng xã hội, phân tích mạng xã
hội….Tính khoa học, tính mới, mục tiêu nghiên cứu, phạm vi nghiên cứu của luận

văn. Bên cạnh đó trong chương này cũng trình bày về tình hình nghiên cứu trong
nước và ngoài nước. Hướng tiếp cận và kết quả đạt được của luận văn.

17

Chương 2: CƠ SỞ LÝ THUYẾT
Trong chương này tôi sẽ trình bày về các cơ sở lý thuyết về mạng xã hội, cấu trúc
mạng xã hội. Tôi sẽ lần lượt đi sâu vào các thuật toán được áp dụng trong luận văn
này.
2.1 Các khái niệm
2.1.1Khái niệm mạng xã hội
Mạng xã hội [3] là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với
nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian.
Những người tham gia vào mạng xã hội còn được gọi là cư dân mạng.
Mạng xã hội có những tính năng như chat, email, phim ảnh, voice chat, chia sẻ file,
blog và xã luận. Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm
bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên
thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá
nhân (như thể thao, phim ảnh, sách báo hoặc ca nhạc), lĩnh vực quan tâm: kinh
doanh, mua bán...
Fanpage
Fanpage [2] là nơi giao lưu, tương tác giữa doanh nghiệp và khách hàng (gọi là
thành viên) hoặc các sự kiện được các doanh nghiệp đưa lên để thành viên tham gia.
Mọi thông tin đưa lên sẽ được đăng lên tường của các trang cá nhân của các thành
viên. Từ những trang cá nhân, bạn bè của họ có thể nhìn thấy các thông tin qua đó
nội dung thông tin cần được quảng cáo sẽ được lan truyền.
Newfeed
News Feed [14] là nội dung nằm trong cột chính giữa trang chủ Facebook của bạn
một danh sách cập nhật liên tục những câu chuyện từ mọi người và các trang bạn

theo dõi trên Facebook. News feed bao gồm các status, hình ảnh, video, liên kết,
hoạt động ứng dụng và like. Đôi khi bạn sẽ thấy xuất hiện cả quảng cáo của các
trang fanpage trên News Feed của mình.

18

2.1.2 Cấu trúc mạng xã hội
Mạng xã hội là một đồ thị vô hướng trong đó mỗi thành viên trong mạng xã hội là
một nút. Mối liên hệ giữa các nút được gọi là các liên kết.

Hình 2.1: Mô hình mạng xã hội [12]

Hình 2.1 là một mạng xã hội tiêu biểu: Colin H.Kahl, Bruce Hoffman được gọi là
các nút. Cạnh nối giữ 2 nút này được gọi là liên kết
2.1.3 Ảnh hưởng của mạng xã hội
Với sự phát triển của CNTT, các trang mạng xã hội gây ảnh hưởng to lớn đến kinh
tế, chính trị, văn hóa đặc biệt là lối sống của các cư dân mạng. Bên cạnh những ảnh
hưởng tích cực thì những ảnh hưởng tiêu cực ngày càng thể hiện rõ.
-

Ảnh hưởng tích cực
-

Chia sẻ thông tin nhanh chóng, cung cấp tri thức cho con người.

-

Dễ dàng tìm ra những người có cùng quan điểm, sở thích.

-

Lan truyền thông tin nhanh chóng, tận dụng sức mạnh cộng đồng.
19

Hộ trợ đắc lực cho việc quảng cáo, tiếp thị sản phẩm.

-

Ảnh hưởng tiêu cực
-

Con người đắm chìm trong thế giới ảo, giảm tương tác ngoài đời sống
thực tế.

-

Không tập trung vào các mục tiêu trong cuộc sống.

-

Dễ bị kẻ xấu lợi dụng để phát tán những thông tin không đúng sự thật.

-

Nguy cơ mắc bệnh trầm cảm.

2.1.4 Các lợi ích của việc khai phá dữ liệu mạng xã hội
Từ những mặt tích cực và tiêu cực ta thấy cần có những công cụ hữu hiệu để khai

phá, phân tích mạnh xã hội. Tìm ra được nội dung đang được cộng đồng quan tâm,
thị hiếu của cộng đồng từ đó có những chiến lược phù hợp với những mục đích
khác nhau. Khi phát hiện một thông tin có nội dung không đúng, sai sự thật ta có
thể tìm ra được ai là người đứng sau phát tán nội dung để có biện pháp ngăn chặn
kịp thời.
2.1.5 Các trang mạng xã hội hiện nay
Hiện nay có rất nhiều mạng xã hội, bảng 2.1 là danh sách các mạng xã hội được sử
dụng nhiều nhất.
Bảng 2.1: Danh sách mạng xã hội
Tên

Miên tả

Số lượng thành viên
(đầu 2014)

Facebook

Facebook là một trang mạng xã hội. Được ra Hơn 1 tỉ
mắt vào 2/2004. Người dùng có thể kết bạn,
gửi tin nhắn, comment, chia sẻ thông tin,
hình ảnh ….

Twitter

Twitter là một trang mạng xã hội và tiểu Hơn 400 triệu
blog. Được thành lập 3/2006. Người dùng có
thể gửi và đọc các tin nhắn văn bản.

20

LinkedIn

LinkedIn là trang mạng xã hội dành cho Hơn 300 triệu
những người chuyên nghiệp. Được ra mắt
vào 5/2003

Google

Google plus+ là một lớp mạng xã hội bao Hơn 600 triệu

Plus+

gồm nhiều tài sản trực tuyến của google.

Pinterest

Printerest là một website chia sẻ ảnh theo Hơn 300 triệu
dạng mạng xã hội. Người dùng được post và
phân loại dưới dạng các tấm bảng dán ảnh.

2.1.6 Email tích cực, tiêu cực
Tích cực (positive): là đoạn văn (Email) chứa những từ ngữ mang ý nghĩa tốt,
lạc quan, yêu đời nó thường chứa các từ như: wonderful, good, cheerful, sweet…
Tiêu cực (negative): là đoạn văn (Email) mang ý nghĩa bi quan, chán nản, giận
dữ nó thường chứa các từ như bad, poor, terrible, furious, angry…
2.2 Mô hình LDA
Mô hình LDA [15] (Latent Dirichlet Allocation) được David Blei đề xuất để tìm ra
các chủ đề ẩn cho một tập ngữ liệu. Mô hình LDA dựa trên ý tưởng: mỗi tài liệu là

sự pha trộn của nhiều chủ đề, mỗi chủ đề là một phân bố trên một tập hợp từ vựng,
mỗi tài liệu có liên quan đến các chủ đề với xác suất khác nhau và bản chất LDA là
một mô hình Baysian ba cấp (cấp tập ngữ liệu, cấp văn bản và cấp từ) trong đó mỗi
phần của tập hợp được biểu diễn như một mô hình trộn hữu hạn trên cơ sở tập các
xác suất chủ đề.

21

Hình 2.2: Mô hình LDA [10]
Dưới đây là các bước để tạo ra một văn bản từ danh sách chủ đề. Mỗi chủ đề gồm
một tập hợp từ.
1)

Xác định số lượng các từ N trong văn bản.

2)

Chọn số lượng chủ đề cho tài liệu (k chủ đề) dựa theo phân bố đa thức

3)

Sinh ra các từ cho tài liệu này theo các bước:
-

Chọn một chủ đề dựa theo phân bố đa thức đã được xác định ở trên.

-

Sử dụng chủ đề đã được chọn để tạo ra các từ theo xác suất của từng chủ

đề đã xác định ở trên.

Ví dụ: Tạo ra tài liệu D với các từ được lấy từ các chủ đề cho trước (chủ đề
computer và economic)
-

Đầu tiên chọn “Asus” thuộc về chủ đề computer đưa vào D.

-

Đầu tiên chọn “laptop” thuộc về chủ đề computer đưa vào D.

-

Chọn “brand” thuộc chủ đề economic đưa vào D.

-

Chọn “market” thuộc chủ đề economic đưa vào D.

Sau các bước trên ta sẽ tạo ra một tài liệu D bao gồm “Asus is a good laptop
brand in the market”.

22

Trong bài toán tìm chủ đề ẩn của các tài liệu: chúng ta làm ngược lại các bước
phía trên để suy ra chủ đề từ các tài liệu.
2.3 Giải thuật lấy mẫu Gibbs cho mô hình LDA.
Để có thể tìm ra các chủ đề từ các văn bản, chúng ta dùng suy diễn hậu nghiệm.

Nghĩa là ta cần đảo lại quá trình sinh ra văn bản và học các phân bố hậu nghiệm của
các biến tiềm ẩn trên dữ liệu được quan sát. Các đại lượng này được xác định qua
biểu thức 2.1:
𝑝(𝜃, ∅, 𝑧|𝑤, 𝛼, 𝛽) =

𝑝(𝜃, ∅, 𝑧, 𝑤|𝛼, 𝛽)
𝑝(𝑤|𝛼, 𝛽)

(2.1)

Tuy nhiên trong thực tế, ta không thể tính toán chính xác p(w| α,β) do đó ta sẽ xử
dụng thuật toán lấy mẫu Gibbs [13].
Giải thuật lấy mẫu Gibbs là một trong những họ của giải thuật Markov Chain Monte
Carlo. Giải thuật này tạo ra xích Markov có phân bố hậu nghiệm ổn định. Điều này
có nghĩa là lặp lại nhiều lần trên xích Markov, mẫu từ phân bố nên hội tụ giống với
mẫu từ xác suất hậu nghiệm mong muốn.
Lấy mẫu Gibbs sẽ dựa vào việc lấy mẫu từ các phân bố điều kiện của các biến của
xác suất hậu nghiệm.
Giải thuật được thực hiện như sau:
Qui ước các tham số cho giải thuật:
-

D là tập ngữ liệu

-

d là một văn bản trong tập ngữ liệu

-

k là số chủ đề

-

w là một từ

-

nd,k số các từ được gán vào chủ đề k trong tập tài liệu d

-

nk,w là số lần từ w được gán vào chủ đề k

-

nk tổng số lần bất kỳ từ nào được gán vào chủ đề k

23

Giải thuật
Giải thuật được khởi tạo với các biến đếm ngẫu nhiên và chạy vòng lặp với số bước
lặp mong muốn (số bước lặp này thường từ 1000 đến 2000). Trong mỗi bước lặp,
lần lượt các chủ đề sẽ được lấy mẫu cho mỗi từ trong tập ngữ liệu. Kết thúc quá
trình lặp, các phân bố tiềm ẩn sẽ được tính dựa vào các biến đếm.
Đầu vào: Tập các từ w của tập văn bản d
Đầu ra: Các phép gán chủ đề và các biến đếm nk,w;nd,k; nk
Bắt đầu
Khởi tạo ngẫu nhiên tập z và tăng các biến đếm.

For mỗi bước lặp do
For i = 0 → N-1 do
Từ  w[i]
Chủ đề  z[i]
nd,chủ

đề-=1;

For k=0

ntừ,chủ

đề-=1;

nchủ

đề-=1

→ N-1 do

p(z=k|.)=(nd,k+αk)

𝑛𝑘,𝑤 +𝛽𝑤
𝑛𝑘 +𝛽∗𝑤

End
chủ đềlấy mẫu từ p(z|.)
z[i] chủ đề
nd,chủ

đề+=1;

ntừ,chủ

đề+=1;

nchủ

đề+=1

End
End
Kết thúc

2.4 Giải thuật SVM.
Support Vector Machines (SVM) là một phương pháp phân loại xuất phát từ lý
thuyết thống kê và khoa học máy tính cho một tập các phương pháp học có giám sát
có liên quan đến nhau về phân loại và phân tích hồi quy.
24

LỌC TIN THEO CHỦ đề và TRUY NGUỒN TRÊN MẠNG xã hội

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về