Tải bản đầy đủ (.pdf) (172 trang)

Phân tích mạng xã hội dựa theo mô hình chủ đề và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.95 MB, 172 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN

HỒ TRUNG THÀNH

PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO
MƠ HÌNH CHỦ ĐỀ VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

THÀNH PHỐ HỒ CHÍ MINH - 2018


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN

HỒ TRUNG THÀNH

PHÂN TÍCH MẠNG XÃ HỘI DỰA THEO
MƠ HÌNH CHỦ ĐỀ VÀ ỨNG DỤNG
Chuyên ngành Khoa học máy tính
Mã số: 62.48.01.01

Phản biện 1: PGS.TS Hồ Bảo Quốc
Phản biện 2: PGS.TS Quản Thành Thơ
Phản biện 3: PGS.TS Đinh Điền
Phản biện độc lập 1: PGS.TS Dương Tuấn Anh
Phản biện độc lập 2: GS.TS Nguyễn Thanh Thủy
Phản biện độc lập 3: PGS.TS Nguyễn Lê Minh
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ PHÚC



THÀNH PHỐ HỒ CHÍ MINH - 2018


LỜI CẢM ƠN

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc đến Thầy PGS.TS Đỗ Phúc,
người Thầy ln tận tình hướng dẫn, động viên và định hướng cho tôi trong suốt quá
làm nghiên cứu sinh và hồn thành luận án.
Tơi mong muốn bày tỏ lịng biết ơn đến GS.TS Phan Thị Tươi, PGS.TS Trần Văn
Lăng, PGS.TS Đỗ Văn Nhơn, PGS. TS Quản Thành Thơ, PGS. TS Nguyễn Phi Khứ,
PGS.TS Hồ Bảo Quốc, PGS.TS Nguyễn Đình Thuân, PGS.TS. Nguyễn Hoàng Tú
Anh, TS. Dương Minh Đức và TS. Ngơ Thanh Hùng đã có những lời khun q báo
cho tôi trong các buổi báo cáo chuyên đề, tiểu luận tổng quan, báo cáo học thuật tại
đơn vị chuyên mơn và trong q trình viết luận án.
Tơi xin chân thành gửi lời cảm ơn đến những Thầy/Cô phản biện đã có những lời nhận
xét và góp ý vơ cùng q báo để tơi có thể hồn thành luận án.
Tiếp theo, tơi xin gửi lời cảm ơn đến Q lãnh đạo, Thầy/Cô Trường Đại học Công
nghệ thông tin đã giúp đỡ, đóng góp ý kiến q báo cho tơi trong suốt quá trình học tập,
nghiên cứu và hỗ trợ thủ tục hồn thành luận án.
Sự biết ơn của tơi xin được gửi đến Q lãnh đạo, Thầy/Cơ Trường Đại học Kinh tế Luật nơi tôi đang công tác, đã tạo điều kiện cho tơi hồn thành luận án.
Kế đến, tơi xin được cảm ơn đến các anh chị nghiên cứu sinh và các bạn trong nhóm
nghiên cứu phân tích mạng xã hội đã có những ý đóng góp q báo cho tơi trong q
trình nghiên cứu.
Cuối cùng, tơi xin gửi lời cảm ơn sâu sắc đến Cha, Mẹ, Vợ và hai con trai đã luôn sát
cánh, động viên và chăm sóc tơi để tơi có thể hồn thành luận án này.

i



LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, báo cáo, kết
quả nghiên cứu trong luận án là trung thực và chưa từng được ai cơng bố trong bất kỳ
cơng trình nào khác ngoại trừ các cơng trình, tư liệu được trích dẫn trong phần tài liệu
tham khảo.
Tác giả luận án

Hồ Trung Thành

ii


MỤC LỤC
LỜI CẢM ƠN........................................................................................................................................... i
LỜI CAM ĐOAN .................................................................................................................................... ii
MỤC LỤC ..............................................................................................................................................iii
DANH MỤC HÌNH .............................................................................................................................viii
DANH MỤC BẢNG................................................................................................................................ x
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ ............................................................................... xii
TÓM TẮT............................................................................................................................................. xiv
ABSTRACT ........................................................................................................................................... xv
TỔNG QUAN VỀ LUẬN ÁN ................................................................................................................ 1

1. Động cơ nghiên cứu ................................................................................................................ 1
2. Mục tiêu nghiên cứu ............................................................................................................... 4
3. Sơ đồ nghiên cứu tổng thể luận án.......................................................................................... 7
4. Đóng góp của luận án ............................................................................................................. 9
5. Bố cục của luận án ................................................................................................................ 10
CHƯƠNG 1. PHÂN TÍCH MẠNG XÃ HỘI VÀ CÁC NGHIÊN CỨU LIÊN QUAN .................. 12


1.1 Giới thiệu chương ............................................................................................................... 12
1.2 Khái niệm mạng xã hội ....................................................................................................... 13
1.3 Phương pháp phân tích mạng xã hội ................................................................................... 14

1.3.1 Khái niệm về phân tích mạng xã hội .................................................................... 14
1.3.2 Phân tích MXH theo hướng phân tích nội dung................................................... 15
1.3.3 Phân tích MXH dựa theo mơ hình chủ đề ............................................................ 17
1.3.3.1 Khái niệm chủ đề ............................................................................................... 17
1.3.3.2 Mơ hình chủ đề trong phân tích MXH .............................................................. 18
1.3.3.3 Một số mơ hình chủ đề ...................................................................................... 19

iii


1.4 Lý thuyết mạng Bayes và các phân bố xác suất ................................................................. 21
1.4.1 Lý thuyết mạng Bayes ..................................................................................................... 21
1.4.2 Phân bố Dirichlet – hàm Gamma – hàm Beta ................................................................. 23
1.4.3 Phân bố hậu nghiệm ......................................................................................................... 24
1.4.4 Lý thuyết về phương pháp lấy mẫu Gibbs ....................................................................... 25

1.4.4.1 Lý thuyết xích Markov ...................................................................................... 25
1.4.4.2 Kỹ thuật lấy mẫu Gibbs ..................................................................................... 26
1.5 Các nghiên cứu liên quan đến phân tích MXH dựa theo mơ hình chủ đề ............... 27
1.5.1 Khám phá chủ đề quan tâm của cá nhân trên MXH ............................................. 28
1.5.1.1 Khái niệm chủ đề quan tâm của cá nhân ........................................................... 28
1.5.1.2 Mơ hình Author và mơ hình Author-Topic ....................................................... 28
1.5.1.3 Mơ hình khám phá chủ đề ART ........................................................................ 29
1.5.1.4 Mơ hình Dynamic Topic Model ........................................................................ 31
1.5.1.5 Mơ hình Topic-Over-Time ................................................................................ 31
1.5.1.6 Mơ hình Author-Topic-Time............................................................................. 32

1.5.2 Các nghiên cứu liên quan khám phá chủ đề quan tâm của cộng đồng trên MXH 32
1.5.2.1 Mơ hình khám phá nhóm GT ............................................................................ 32
1.5.2.2 Mơ hình khám phá cộng đồng CUT .................................................................. 32
1.5.2.3 Mơ hình khám phá cộng đồng CART ............................................................... 33
1.5.2.4 Mơ hình Author-Topic-Community .................................................................. 33
1.6 Nhận định chung và động lực nghiên cứu .......................................................................... 34
CHƯƠNG 2. KHÁM PHÁ VÀ GÁN NHÃN CHỦ ĐỀ ẨN TỪ THÔNG ĐIỆP TRÊN MẠNG XÃ
HỘI ......................................................................................................................................................... 38

2.1 Giới thiệu chương ............................................................................................................... 38

iv


2.2 Khám phá chủ đề ẩn từ thông điệp trên MXH áp dụng mơ hình chủ đề ................. 38
2.2.1 Khái niệm vector chủ đề ....................................................................................... 39
2.2.2 Khái niệm vector thông điệp ................................................................................ 39
2.2.3 Phát biểu bài toán khám phá chủ đề ẩn từ thông điệp trên MXH ........................ 39
2.3 Mô hình chủ đề LDA .......................................................................................................... 40

2.3.1 Phân bố xác suất liên hợp cho mơ hình LDA ....................................................... 42
2.3.2 Kỹ thuật lấy mẫu Gibbs cho mơ hình LDA.......................................................... 43
2.4 Thử nghiệm khám phá chủ đề ẩn bằng mơ hình LDA ........................................................ 48

2.4.1 Mô tả dữ liệu thử nghiệm ..................................................................................... 49
2.4.2 Tiền xử lý thông điệp tiếng Việt ...................................................................................... 51
2.4.3 Thử nghiệm mơ hình LDA trên dữ liệu diễn đàn và mạng xã hội Facebook .................. 52
2.4.4 Thử nghiệm mơ hình LDA trên dữ liệu của trang báo điện tử VnExpress.net ................ 53
2.4.5 Hạn chế của mơ hình LDA .............................................................................................. 54
2.5 Phương pháp gán nhãn chủ đề ẩn ....................................................................................... 54


2.5.1 Ý tưởng phương pháp gán nhãn cho chủ đề ẩn .................................................... 54
2.5.2 Xây dựng cây phân cấp chủ đề ........................................................................................ 57

2.5.2.1 Khái niệm cây phân cấp chủ đề ......................................................................... 57
2.5.2.2 Quy trình xây dựng cây phân cấp chủ đề .......................................................... 58
2.5.3 Thử nghiệm phương pháp gán nhãn và đánh giá kết quả ................................................ 62
2.6 Kết luận chương .................................................................................................................. 67
CHƯƠNG 3. KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CÁ NHÂN DỰA THEO MÔ HÌNH
CHỦ ĐỀ ................................................................................................................................................. 69

3.1 Giới thiệu chương ............................................................................................................... 69
3.2 Khám phá chủ đề quan tâm của cá nhân trên MXH theo thời gian .................................... 69

3.2.1 Khái niệm chủ đề quan tâm của cá nhân theo thời gian ....................................... 69
v


3.2.2 Bài toán khám phá chủ đề quan tâm của cá nhân trên MXH có yếu tố thời gian 70
3.3 Mơ hình khám phá chủ đề quan tâm cá nhân theo thời gian .............................................. 71
3.3.1 Xây dựng mơ hình TART ................................................................................................ 71

3.3.2 Phân bố xác suất liên hợp cho mô hình TART .................................................... 73
3.3.3 Kỹ thuật lấy mẫu Gibbs cho mơ hình TART ....................................................... 77
3.4 Thử nghiệm mơ hình TART và thảo luận kết quả .............................................................. 80
3.4.1 Mô tả dữ liệu thử nghiệm................................................................................................. 80

3.4.2 Thử nghiệm mơ hình TART trên dữ liệu diễn đàn sinh viên và MXH ................ 84
3.4.3 Thử nghiệm mơ hình TART trên dữ liệu trang báo điện tử VnExpress.net ......... 89
3.4.4 Khảo sát sự thay đổi chủ đề quan tâm của cá nhân theo thời gian ....................... 91

3.4.5 Tổng hợp so sánh mơ hình TART với mơ hình LDA và ART ........................................ 93
3.4.5.1 So sánh tham số mơ hình .............................................................................................. 93
3.4.5.2 So sánh kết quả thử nghiệm .......................................................................................... 94
3.5 Kết luận chương .................................................................................................................. 97
CHƯƠNG 4. KHÁM PHÁ CHỦ ĐỀ QUAN TÂM CỦA CỘNG ĐỒNG DỰA THEO MƠ HÌNH
CHỦ ĐỀ ................................................................................................................................................. 99

4.1 Giới thiệu chương ............................................................................................................... 99
4.2 Khám phá cộng đồng trên mạng xã hội ............................................................................ 100
4.3 Xây dựng phương pháp khám phá cộng đồng dựa theo mơ hình chủ đề.......................... 101

4.3.1. Ý tưởng về khám phá cộng đồng ...................................................................... 101
4.3.2 Phương pháp gom cụm và vấn đề trực quan hóa dữ liệu ................................... 103
4.3.3 Xây dựng phương pháp khám phá cộng đồng .................................................... 105
4.3.4 Phát biểu bài toán khám phá chủ đề quan tâm của cộng đồng trên MXH ......... 106
4.4 Thử nghiệm phương pháp khám phá cộng đồng .............................................................. 108

4.4.1 Mô tả dữ liệu thử nghiệm ................................................................................... 108
vi


4.4.2 Chuẩn hoá vector nhập ....................................................................................... 110
4.4.3 Thử nghiệm phương pháp khám phá cộng đồng ................................................ 110
4.4.4 Khảo sát sự biến thiên số cộng đồng dựa trên lớp ra Kohonen .......................... 114
4.5. Phân tích sự biến thiên đặc trưng của cộng đồng theo thời gian .......................... 115
4.5.1 Sự biến thiên đặc trưng của cộng đồng .............................................................. 116
4.5.2 Phương pháp phân tích sự biến thiên đặc trưng của cộng theo thời gian ........... 116
4.5.3 Kết quả thử nghiệm ............................................................................................ 117
4.6 Đánh giá kết quả thử nghiệm phương pháp khám phá cộng đồng ........................ 118
4.6.1 Đánh giá kết quả thông qua khảo sát hệ số Precision, Recall và độ đo F .......... 118

4.6.2 Đánh giá kết quả thông qua so sánh với phương pháp gom cụm K-Medoids.... 120
4.7 Kết luận chương ................................................................................................................ 123
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................................................... 124

1. Kết luận ............................................................................................................................... 124
2. Hạn chế và hướng phát triển ............................................................................................... 125
DANH MỤC CÁC CƠNG BỐ CHÍNH ............................................................................................ 128
DANH MỤC CÁC CƠNG BỐ LIÊN QUAN ................................................................................... 129
THAM GIA ĐỀ TÀI ........................................................................................................................... 129
TÀI LIỆU THAM KHẢO .................................................................................................................. 130
PHỤ LỤC 1: CÂY PHÂN CẤP CHỦ ĐỀ............................................................................................. a
PHỤ LỤC 2: XÂY DỰNG PHẦN MỀM PHÂN TÍCH MẠNG XÃ HỘI ......................................... d
PHỤ LỤC 3: DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ TỰ ĐẶC BIỆT ĐƯỢC DÙNG TRONG
THƠNG ĐIỆP TRÊN MXH ...................................................................................................................j
PHỤ LỤC 4. QUY TRÌNH LẤY DỮ LIỆU ........................................................................................m

vii


DANH MỤC HÌNH

Hình 1. Mối liên kết xã hội giữa các cá nhân (actors) trên MXH ................................... 1
Hình 2. Sơ đồ nghiên cứu tổng thể của luận án ............................................................... 7
Hình 1.1 Mơ hình MXH ................................................................................................ 13
Hình 1.2 Mơ hình PLSI khám phá chủ đề ẩn ................................................................ 19
Hình 1.3 Chủ đề trong thông điệp được chia sẻ và trao đổi trên MXH. ....................... 28
Hình 1.4. Mơ hình sinh của ART .................................................................................. 30
Hình 1.5. Mơ hình Topic over Time (TOT). ................................................................. 31
Hình 1.6. Mơ hình ATT................................................................................................. 32
Hình 2.1 Một ví dụ về kết quả khám phá chủ đề ẩn từ thông điệp của mơ hình chủ đề.

....................................................................................................................................... 40
Hình 2.2 Mơ hình LDA và phân bố xác suất liên hợp. ................................................. 41
Hình 2.3 Một số ví dụ về nội dung trao đổi của cá nhân trên MXH. ............................ 50
Hình 2.4. Tổ chức hệ thống chủ đề trên trang báo điện tử VnExpress.net.................... 50
Hình 2.5. Tổ chức bài viết và nội dung bình luận trên trang báo điện tử VnExpress.net
....................................................................................................................................... 50
Hình 2.6. Phương pháp gán nhãn chủ đề ẩn .................................................................. 55
Hình 2.7. Phân cấp chủ đề và tập từ đặc trưng thuộc chủ đề. ....................................... 58
Hình 2.8 Quy trình phát triển ontology. ........................................................................ 59
Hình 2.9. Phương pháp xây dựng cây phân cấp chủ đề trong trường đại học dựa theo
phương pháp xây dựng ontology. .................................................................................. 61
Hình 2.10. Một phần cây phân cấp chủ đề trong trường đại học .................................. 61
Hình 2.11. Một phần cây phân cấp chủ đề trên trang báo điện tử VnExpress.net ........ 62
Hình 3.1. Mơ hình TART khám phá chủ đề quan tâm của cá nhân theo thời gian ....... 72
Hình 3.2. Lịch sử thông điệp được gửi theo từng năm trong kho ngữ liệu thu thập. .... 81
Hình 3.3. Lịch sử số cá nhân tham gia gửi nhận thông điệp theo từng tháng và năm. . 82
Hình 3.4. Lịch sử thông điệp được gửi nhận bởi các cá nhân. ...................................... 82
Hình 3.5. Lịch sử thơng điệp đươc gửi và nhận trong giai đoạn từ năm 2011 đến năm
2015. .............................................................................................................................. 83
Hình 3.6. Lịch sử số cá nhân tham gia gửi nhận thông điệp theo từng tháng và năm từ
năm 2011 đến năm 2015. .............................................................................................. 84
Hình 3.7. Lịch sử thơng điệp được gửi nhận bởi các cá nhân. ...................................... 84
Hình 3.8. Kết quả phân tích sự thay đổi khả năng xuất hiện của từ “sinh_viên” trong
chủ đề “Giáo dục”. ........................................................................................................ 87
Hình 3.9. Kết quả phân tích trên 15 chủ đề trong thời gian từ tháng 01 đến tháng 12
năm 2015. ...................................................................................................................... 87

viii



Hình 3.10. Kết quả phân tích sự biến thiên số cá nhân gửi và nhận 25 chủ đề theo thời
gian. ............................................................................................................................... 88
Hình 3.11. Kết quả phân tích 25 chủ đề trong thời gian từ tháng 01 đến tháng 06 năm
2015. .............................................................................................................................. 91
Hình 3.12. Kết quả phân tích số cá nhân gửi hoặc nhận 25 chủ đề trong thời gian từ
tháng 01 đến tháng 06 năm 2015................................................................................... 92
Hình 3.13. Sự biến thiên quan tâm đến chủ đề “Thời sự” của 13 cá nhân thể hiện bằng
ID (chọn ngẫu nhiên) trong giai đoạn từ tháng 01-2015 đến tháng 06-2015. ............... 92
Hình 3.14. Sự biến thiên xác suất quan tâm đến 25 chủ đề của 7444 cá nhân trong
khoảng thời gian từ tháng 01-2014 đến 11-2014. ......................................................... 93
Hình 3.15. So sánh mơ hình TART với mơ hình LDA và mơ hình ART ..................... 93
Hình 3.16. Kết quả phân tích sự thay đổi xác suất xuất hiện của từ “dịch_vụ” trong chủ
đề “Thương mại điện tử”. .............................................................................................. 97
Hình 4.1 Các cộng đồng có liên hệ trong MXH .......................................................... 100
Hình 4.2 Các cộng đồng rời rạc trong MXH ............................................................... 100
Hình 4.3. Phương pháp khám phá cộng đồng cá nhân theo chủ đề và phân tích sự biến
thiên chủ đề quan tâm của cá nhân. ............................................................................. 105
Hình 4.4. Xác định nơron chiến thắng và vùng lân cận của mạng nơron Kohonen .... 108
Hình 4.5. Trực quan hóa kết quả khám phá cộng đồng cá nhân trong tháng 01-2015
hiển thị trực quan trên lớp ra Kohonen. ...................................................................... 111
Hình 4.6. Danh sách các chủ đề và xác suất quan tâm của cộng đồng 35 trên lớp ra
Kohonen. ..................................................................................................................... 111
Hình 4.7. Trực quan hóa kết quả cộng đồng 35 và các đặc trưng trong cộng đồng. ... 112
Hình 4.8. Trực quan hóa kết quả khám phá chủ đề 5 được các cộng đồng quan tâm. 112
Hình 4.9. Kết quả phân tích cộng đồng dựa trên bảng kết quả 4.7. ............................ 113
Hình 4.10. Kết quả phân tích cộng đồng trong tháng 01-2015. .................................. 113
Hình 4.11. Số cộng đồng tham gia MXH quan tâm đến 15 chủ đề theo từng giai đoạn
thời gian thể hiện trên lớp ra Kohonen ........................................................................ 114
Hình 4.12. Sự biến thiên số cộng đồng theo từng giai đoạn thời gian. ....................... 115
Hình 4.13. Cộng đồng quan tâm đến 9 chủ đề trong từng giai đoạn thời gian từ tháng

12-2008 đến tháng 07-2009 ......................................................................................... 117
Hình 4.14. Sự thay đổi mức độ quan tâm của cá nhân đối với chủ đề: “Tuyển sinh”
theo từng giai đoạn thời gian. ...................................................................................... 118

ix


DANH MỤC BẢNG
Bảng 2.1. Một số ký hiệu được dùng trong mơ hình LDA ........................................... 41
Bảng 2.2. Tham số đầu vào cho mơ hình LDA để thử nghiệm khám phá chủ đề ẩn .... 49
Bảng 2.3 Thống kê số thông điệp thu thập từ diễn đàn và MXH (tính đến tháng 122015).............................................................................................................................. 49
Bảng 2.4. Kết quả bước cải tiến tiền xử lý dữ liệu ........................................................ 52
Bảng 2.5 Danh sách 4 chủ đề (4 vector chủ đề) được khám phá (chưa gán nhãn) cùng
tập từ đặc trưng (kèm xác suất) đại diện cho mỗi chủ đề. ............................................. 53
Bảng 2.6 Danh sách 4 chủ đề (4 vector chủ đề) được khám phá (chưa gán nhãn) và tập
từ đặc trưng cùng với xác suất kèm theo xuất hiện trong mỗi chủ đề cụ thể. ............... 53
Bảng 2.7 Quá trình phân lớp để gán nhãn bằng phương pháp SVM kết hợp cây phân
cấp chủ đề ...................................................................................................................... 63
Bảng 2.8 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân cấp
chủ đề. ........................................................................................................................... 64
Bảng 2.9. Đánh giá kết quả gán nhãn chủ đề bằng phương pháp SVM và cây phân cấp
chủ đề trên dữ liệu MXH ............................................................................................... 65
Bảng 2.10 Trình bày 4 chủ đề đã được gán nhãn (4 vector chủ đề) dựa trên cây phân
cấp chủ đề ...................................................................................................................... 66
Bảng 2.11. Đánh giá kết quả gán nhãn chủ đề bằng phương pháp SVM và cây phân cấp
chủ đề trên dữ liệu trang VnExpress.net ....................................................................... 67
Bảng 3.1 Bảng các ký hiệu được sử dụng trong mơ hình TART .................................. 72
Bảng 3.2. Bảng giá trị cho tham số Dirichlet 𝛾 ............................................................. 80
Bảng 3.3. Bảng tham số đầu vào cho mơ hình TART................................................... 80
Bảng 3.4 Bảng thống kê số thông điệp thu thập từ diễn đàn và MXH trong trường đại

học (tính đến tháng 12-2015). ....................................................................................... 81
Bảng 3.5. Trình bày kết quả phân tích 4 chủ đề quan tâm của cá nhân trong tháng 082014 ............................................................................................................................... 85
Bảng 3.6. Kết quả phân tích chủ đề “Giáo dục” được cá nhân quan tâm trong giai đoạn
tháng 01-2014 đến tháng 07-2014. ................................................................................ 86
Bảng 3.7. Kết quả phân tích 4 chủ đề quan tâm của cá nhân trong giai đoạn tháng 082015. .............................................................................................................................. 89
Bảng 3.8. Kết quả phân tích chủ đề “Thương mại điện tử” được cá nhân quan tâm
trong tháng 02-2015 đến tháng 06-2015. ...................................................................... 90
Bảng 3.9. So sánh ba mơ hình TART, LDA và ART.................................................... 94
Bảng 3.10. Kết quả khám phá chủ đề “Thương mại điện tử” của mơ hình chủ đề LDA.
....................................................................................................................................... 94

x


Bảng 3.11. Kết quả khám phá chủ đề “Thương mại điện tử” của mơ hình ART.......... 95
Bảng 3.12. Kết quả khám phá chủ đề “Thương mại điện tử”của mơ hình chủ đề TART
....................................................................................................................................... 96
Bảng 4.1. Tập vector các chủ đề quan tâm của cá nhân .............................................. 102
Bảng 4.2. Tập vector các chủ đề quan tâm của cá nhân .............................................. 103
Bảng 4.3. Một số mẫu vector quan tâm chủ đề (vector nhập) của cá nhân tại tháng 082014 ............................................................................................................................. 109
Bảng 4.4. Một số mẫu vector quan tâm chủ đề (vector nhập) của cá nhân tại tháng 012015 ............................................................................................................................. 109
Bảng 4.5. Vector trọng 𝑤𝑖 với thành phần là xác suất quan tâm chủ đề của từng cộng
đồng trong giai đoạn tháng 01-2015............................................................................ 112
Bảng 4.6. Kết quả tính độ đo F giữa gom cụm bằng tay dựa trên dữ liệu được phân lớp
chủ đề trên diễn đàn và máy (Kohonen) trong thời gian tháng 03/2009 ..................... 119
Bảng 4.7. Kết quả tính độ đo F giữa gom cụm bằng tay dựa trên dữ liệu được phân lớp
chủ đề trên diễn đàn và máy (Kohonen) trong thời gian tháng 04/2009 ..................... 120
Bảng 4.8. Bảng kết quả giá trị trung bình RMSSTD dựa trên thử nghiệm hai phương
pháp gom cụm ............................................................................................................. 122
Bảng 4.9. Bảng kết quả giá trị trung bình RS dựa trên thử nghiệm hai phương pháp

gom cụm ...................................................................................................................... 122

xi


DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Tiếng Anh

Tiếng Anh

Tạm dịch

Actor

Actor

Cá nhân (người dùng mạng xã hội)

ART

Author-Recipient-Topic

Mơ hình Tác giả-Người nhận-Chủ đề

AT

Author-Topic

Mơ hình Tác giả-Chủ đề


ATC

Author-Topic-Community

Mơ hình Tác giả-Chủ đề-Cộng đồng

ATT

Author-Topic-Time
Community-AuthorRecipient-Topic
Content-Based Social
Network Analysis

Mơ hình Tác giả-Chủ đề-Thời gian
Mơ hình Cộng đồng-Tác giả-Người
nhận-Chủ đề
Phân tích mạng xã hội dựa trên nội
dung

Community

Community

Cộng đồng

CUT

Community-User-Topic

Mơ hình Cộng đồng – Người dùng –

Chủ đề

DTM

Dynamic Topic Model

Mơ hình DTM

Gibbs sampling

Gibbs sampling

Lấy mẫu Gibbs

GT

Group Topic

Mơ hình GT

Kohonen

Kohonen

Mạng nơron Kohonen

Labeling

Labeling


Gán nhãn

LDA

Latent Dirichlet Allocation

Mơ hình LDA

LSI

Latent Semantic Indexing

Mơ hình LSI

Message

Message

Thơng điệp

Model

Model

Mơ hình

MXH

Social network


Mạng xã hội

PLSI

Probabilistic Latent Semantic
Mơ hình PLSI
Indexing

SNA

Social Network Analysis

Phân tích mạng xã hội

Social links

Social links

Các liên kết xã hội

SOM

Self-Organizing Maps

Mạng nơron tự tổ chức

CART
CB-SNA

xii



SVM
TART
Topic
Taxonomy
Topic model
TOT

Support Vector Machine
Temporal-Author-RecipientTopic

Phương pháp máy học SVM

Topic Taxonomy

Cây phân cấp chủ đề

Topic model

Mơ hình chủ đề

Topic-Over-Time

Mơ hình TOT

xiii

Mơ hình TART



TĨM TẮT
Ngày nay, mạng xã hội có vai trị quan trọng trong lĩnh vực như kinh tế, xã hội, chính
trị, giáo dục và nhiều lĩnh vực khác. Mạng xã hội cho phép cá nhân hay cộng đồng có
thể chia sẻ thơng điệp, thảo luận hay góp ý kiến với những chủ đề quan tâm thông qua
các liên kết xã hội. Trong đó, thơng điệp là liên kết xã hội tiềm ẩn nhiều thơng tin và tri
thức hữu ích. Mỗi thơng điệp có nhiều đặc trưng, trong đó chủ đề quan tâm và cá nhân
gửi nhận chủ đề là các đặc trưng quan trọng. Khác với tiếp cận truyền thống xem mỗi
thông điệp thuộc về một chủ đề, tiếp cận dựa theo mơ hình chủ đề chỉ ra rằng mỗi
thơng điệp có sự pha trộn nhiều chủ đề, mỗi chủ đề có nhiều cá nhân hay cộng đồng
quan tâm.
Tiếp cận theo mơ hình chủ đề phù hợp cho hướng nghiên cứu phân tích mạng xã hội.
Tuy nhiên, các nghiên cứu trước vẫn còn những hạn chế về việc khám phá, gán nhãn
và phân tích sự biến thiên chủ đề quan tâm của cá nhân và cộng đồng dựa trên các liên
kết xã hội có yếu tố thời gian. Luận án đặt ra mục tiêu nghiên cứu trên cơ sở những hạn
chế của các nghiên cứu trước. Trong đó, luận án tập trung vào hai mục tiêu chính: (i)
Xây dựng mơ hình Thời gian-Tác giả-Người nhận-Chủ đề (mơ hình TART) dựa theo
mơ hình chủ đề. Nhiệm vụ của mơ hình TART là khám phá chủ đề quan tâm và phân
tích vai trị của cá nhân đối với chủ đề trong thông điệp được trao đổi trên mạng xã hội;
gán nhãn chủ đề; dùng yếu tố thời gian để chia nhỏ các yếu tố như: tập cá nhân gửi và
nhận chủ đề, tập chủ đề và tìm ra sự biến thiên chủ đề quan tâm của cá nhân theo thời
gian; phân tích sự thay đổi chủ đề quan tâm của cá nhân; (ii) Xây dựng phương pháp
khám phá cộng đồng trên mạng xã hội dựa theo mơ hình chủ đề có yếu tố thời gian và
phương pháp mạng nơron Kohonen. Nhiệm vụ của phương pháp khám phá cộng đồng
là gom cụm cá nhân dựa trên các đặc trưng như chủ đề, mức độ quan tâm để tìm ra các
cộng đồng cá nhân cùng quan tâm chủ đề; phân tích sự biến thiên đặc trưng của cộng
đồng trên mạng xã hội.
Qua thử nghiệm các mơ hình và phương pháp được đề xuất trên hai tập ngữ liệu thông
điệp tiếng Việt (thu thập từ mạng xã hội trong các trường đại học và trang báo điện tử)
bằng hệ thống phần mềm được xây dựng để phân tích mạng mạng xã hội, luận án đã

hồn thành mục tiêu.

xiv


ABSTRACT
At present, social networks play an important role in the many fields of economy,
society, politics, education, etc. Social networks allow actors or communities to share
messages, discuss and comment opinions on interested topics by social links in which
the message contains a lot of useful information and knowledge. Each message has
many special features, in which the interested topics and actors which send and receive
the topics are important features. Unlike the traditional approach about viewing each
message belonging to a topic, the topic model-based approach indicates that each
message has the mixture of many topics where each topic has a lot of topic-interest
actors and communities. The topic model-based approach is suitable to the research
orientation on the Social Network Analysis (SNA). However, the previous researches
have still had limitations about discovering, labeling and analyzing the variation of
interested topics of actors and communities from social links with the temporal factor.
The dissertation sets research goals based on limitations of previous researches with
the two main goals: (i) Developing the model Temporal-Author-Recipient-Topic
(TART) based on the topic model. The tasks of TART model are discovering interested
topics and analyzing the role of actors on social networks with the temporal factor;
labeling topics; applying the temporal factor to divide the elements, such as authors,
recipients, set of topics in the corpus and finding out the variation of interested topics
of actors in each period of time; and analyzing the changes of interested topics of
actors; (ii) Proposing the method for discovering communities on social networks
based on the topic model with the temporal factor. The tasks of this method are:
clustering actors based on features, such as interested topics, topic interest probability
to find out communities of actors; and analyzing the variation of community features
on social networks.

Through experimenting the proposed models and methods on two message corpora in
Vietnamese (collected from social networks at universities and online newspapers) by
the software system built for the Social Network Analysis, the dissertation is completed
as the planned goals.

xv


TỔNG QUAN VỀ LUẬN ÁN
1. Động cơ nghiên cứu
Mạng xã hội trực tuyến (MXH) đã đạt được những thành tựu lớn trong nhiều lĩnh vực như
kinh tế, chính trị, xã hội, giáo dục,… Mục tiêu phân tích MXH là phân tích sự tương tác
giữa con người, tổ chức với nhau và khám phá những thông tin, tri thức tiềm ẩn thơng qua
sự tương tác đó [27][28][41][59]. Xu hướng gần đây, các nghiên cứu tập trung vào khai
thác và phân tích MXH. MXH trực tuyến đã phát triển nhanh chóng vì cho phép cá nhân,
tổ chức tương tác dễ dàng. Chính MXH đã tạo nên sự không lệ thuộc vào không gian và
thời gian khi giao tiếp của cá nhân và cộng đồng. Mỗi cá nhân trên MXH đều có thể kết
bạn và trò chuyện với bất kỳ một cá nhân khác trên cùng MXH đó. Một số MXH trực
tuyến điển hình như Facebook1, LinkedIn2, MySpace3, Twitter4,… Các MXH này mang
lại lượng lớn dữ liệu là thông điệp trao đổi của cá nhân thơng qua các liên kết xã hội.
Hình 1 biểu diễn mối liên kết giữa các cá nhân trong MXH.

Hình 1. Mối liên kết xã hội giữa các cá nhân (actors) trên MXH5

Có thể biểu diễn dữ liệu này bằng cấu trúc đồ thị của MXH và nội dung dữ liệu là thông
tin trao đổi giữa các thành viên trên MXH trong đó bao gồm dữ liệu thơng điệp, dữ liệu

1

(truy cập lần cuối ngày 25-12-2017)

/>3
/>4
/>5

2

1


đa phương tiện,... Đây chính là nguồn dữ liệu để phân tích MXH tìm ra những thơng tin,
tri thức tiềm ẩn được chứa đựng trong dữ liệu trên MXH [28][31][41].
Nhiều ứng dụng được xây dựng và tích hợp trên MXH để hỗ trợ phân tích MXH như: rút
trích thơng tin, khai phá dữ liệu, phân tích dữ liệu văn bản, phân tích dữ liệu hình ảnh và
phim [17][28][41][42][59], tìm cụm dữ liệu tiếp cận theo lý thuyết thông tin [55]. Hơn thế
nữa, vấn đề phân tích sự tiến hóa của cấu trúc MXH rất được quan tâm vì qua đó có thể
tìm ra sự thay đổi và dự đốn sự ảnh hưởng lan truyền thông tin trong cộng đồng MXH
[20][39][43][61][78]. Bên cạnh đó, MXH trực tuyến dễ tiếp cận để thu thập dữ liệu với
lượng lớn. Do đó, vấn đề tính tốn lưu trữ và xử lý dữ liệu khơng cấu trúc (văn bản) cần
được quan tâm.
Với sự gia tăng ngày càng nhiều số lượng cá nhân, tổ chức sử dụng và khai thác nguồn tài
nguyên trên MXH, các MXH ngày nay đã tạo ra nguồn dữ liệu phong phú và ngày càng
phát triển tạo nền tảng hoạt động cho nhiều lĩnh vực khác nhau như giáo dục, kinh tế, xã
hội, chính trị,... Để phát triển các dịch vụ trên MXH, một vấn đề quan trọng là phân tích
liên kết xã hội giữa các thực thể (gồm cá nhân, thông điệp được trao đổi, chủ đề của thông
điệp,...) trên MXH. Xét ví dụ điển hình: một hệ thống dịch vụ quản lý khách hàng của
một cơng ty trên MXH, có thể đặt vấn đề như sau: nếu hai khách hàng cùng mua một mặt
hàng giống nhau hoặc giữa hai cá nhân cùng quan tâm đến sản phẩm, dịch vụ dựa trên
việc cùng trao đổi các chủ đề có liên quan nhau thì có thể giữa họ đã xuất hiện một liên
kết xã hội cùng quan tâm đến các chủ đề và điều này giúp cơng ty có thể hiểu được ý kiến
của khách hàng, khách hàng quan tâm đến chủ đề gì để cơng ty thực hiện chiến lược bán

hàng, tiếp thị lan truyền (viral marketing) hiệu quả hơn.
Thông điệp được cá nhân trao đổi trên MXH, diễn đàn hay hệ thống e-mail,… có sự pha
trộn nhiều chủ đề [11]. Chủ đề trong thông điệp được cá nhân quan tâm trao đổi và chia
sẻ tạo nên sự lan truyền thông tin từ cá nhân này đến cá nhân khác hình thành cộng đồng
MXH cùng quan tâm đến các chủ đề. Khai thác chủ đề quan tâm của cá nhân cũng như
phân tích mối liên kết xã hội giữa các cá nhân qua những thông điệp, dữ liệu trao đổi là
một công việc nhiều thách thức [11][69][79], đặc biệt chủ đề thường xuyên được thay đổi
2


theo thời gian hoặc đơi khi một chủ đề có thể được trao đổi thường xuyên, liên tục trong
một khoảng thời gian nào đó. Chẳng hạn, cá nhân A trong tháng 01/2009 có quan tâm đến
chủ đề “giáo dục” nhưng đến tháng 02/2009 lại quan tâm đến chủ đề “chính trị” hay “xã
hội”. Bên cạnh đó, chủ đề của thơng điệp được thảo luận có thể là khác nhau tuỳ theo sở
thích, hành vi, mức độ quan tâm, trao đổi của từng cá nhân theo từng giai đoạn thời gian.
Khám phá chủ đề quan tâm và phân tích vai trị của cá nhân trên MXH là một thách thức
đặt ra cho bài toán với mục tiêu trả lời được các câu hỏi “cá nhân đã trao đổi chủ đề gì
trên MXH theo thời gian?”, “mức độ quan tâm của cá nhân đến chủ đề cụ thể như thế
nào?”, “có bao nhiêu cá nhân quan tâm đến chủ đề?”, “chủ đề nào được quan tâm nhiều
nhất?” và “có thay đổi gì về sự quan tâm đến các chủ đề của cá nhân theo từng giai đoạn
thời gian?”.
Bên cạnh việc khám phá vai trò cá nhân trên MXH, một thách thức khác đặt ra là phân
tích MXH để khám phá nhóm cá nhân (cộng đồng) cùng quan tâm chủ đề theo từng giai
đoạn thời gian. Khám phá nhóm cá nhân hay khám phá cộng đồng là cách để nhận biết
nhóm các cá nhân có mối liên kết xã hội với nhau trên MXH và cùng chủ đề quan tâm
[2][19][22][49][74][81], đồng thời giúp hiểu được sự quan tâm của từng cá nhân trong
cộng đồng MXH theo từng chủ đề cụ thể. Những thay đổi xảy ra trong cộng đồng thường
liên quan đến các đặc trưng của cộng đồng như: chủ đề quan tâm, số cá nhân tham gia
cộng đồng, mức độ quan tâm chủ đề của cộng đồng tại từng thời điểm khác nhau, và sự
thay đổi chủ đề quan tâm trong cộng đồng dẫn đến thay đổi hành vi, sự quan tâm và trao

đổi chủ đề của các cá nhân trong cộng đồng. Nghiên cứu đặt ra là làm thế nào để có thể
khám phá cộng đồng cá nhân cùng quan tâm đến một hay một nhóm chủ đề thơng qua
những nội dung thông điệp được trao đổi của tập cá nhân trên MXH? Với một hay nhóm
chủ đề cụ thể có những cộng đồng nào trên MXH quan tâm trao đổi? sự biến thiên chủ đề
quan tâm và cá nhân tham gia cộng đồng? Tìm giải pháp cho các câu hỏi này rõ ràng là
việc không đơn giản nhưng kết quả nghiên cứu sẽ giúp cho việc phân tích và khám phá
chủ đề được cá nhân quan tâm hay tìm ra những cá nhân có ảnh hưởng trong cộng đồng
để phục vụ cho những chiến lược phát triển như quản lý cộng đồng cá nhân của công ty,

3


tổ chức hay của một quốc gia; hiểu cá nhân để thực hiện chiến lược tiếp thị hiệu quả, phát
triển loại hình đào tạo trực tuyến trong trường đại học,...
2. Mục tiêu nghiên cứu
Từ những động cơ nghiên cứu trên, luận án xây dựng hai mục tiêu chính và các nhiệm vụ
nghiên cứu cụ thể. Trong đó, luận án xây dựng các mơ hình và phương pháp trong phân
tích MXH dựa theo mơ hình chủ đề để khám phá chủ đề quan tâm, vai trò của cá nhân và
cộng đồng trên MXH theo từng giai đoạn thời gian. Cụ thể hai mục tiêu chính sau:
Xây dựng mơ hình khám phá và gán nhãn chủ đề quan tâm của cá nhân trên MXH

(i)

dựa theo mơ hình chủ đề có yếu tố thời gian và phân tích sự biến thiên chủ đề quan
tâm của cá nhân.
Nhiệm vụ nghiên cứu của mục tiêu (i) bao gồm:
-

Xây dựng phương pháp gán nhãn chủ đề quan tâm của cá nhân theo thời gian dựa
trên cây phân cấp chủ đề (Topic Taxonomy).


-

Xây dựng mơ hình TART dựa theo mơ hình chủ đề để khám phá chủ đề quan
tâm và phân tích vai trị của cá nhân trên MXH đối với từng chủ đề quan tâm cụ
thể theo từng giai đoạn thời gian.
Xây dựng phương pháp khám phá cộng đồng (gom cụm cá nhân có cùng đặc

(ii)

trưng: chủ đề, mức độ và thời gian quan tâm chủ đề) trên MXH dựa theo mơ hình
chủ đề có yếu tố thời gian và phân tích sự biến thiên những đặc trưng trong cộng
đồng MXH.
Nhiệm vụ nghiên cứu của mục tiêu (ii) bao gồm:
-

Xây dựng phương pháp khám phá cộng đồng trên MXH có cùng các chủ đề quan
tâm theo từng giai đoạn thời gian.

-

Xây dựng phương pháp khảo sát sự biến thiên các đặc trưng của cộng đồng.
Trong đó, luận án tập trung vào hai đặc trưng là chủ đề quan tâm và cá nhân
tham gia cộng đồng.

Các đối tượng trọng tâm trong nghiên cứu của luận án:
4


-


Mơ hình chủ đề LDA.

-

Các phương pháp, mơ hình phân tích MXH dựa theo mơ hình chủ đề.

-

Các liên kết xã hội: chủ đề và thông điệp được cá nhân trao đổi trên MXH.

-

Vai trò (cá nhân và cộng đồng): cá nhân là người gửi, người nhận6 chủ đề và cộng
đồng là nhóm những cá nhân có cùng sự quan tâm trao đổi các chủ đề.

-

Thời gian cá nhân quan tâm đến chủ đề thông qua liên kết xã hội là thơng điệp.

Từ hai mục tiêu chính và các nhiệm vụ nghiên cứu, hai bài tốn chính được đặt ra trong
phạm vi luận án, bao gồm:
Bài toán 1. Khám phá chủ đề quan tâm của cá nhân dựa theo mô hình chủ đề có yếu
tố thời gian.
Xây dựng mơ hình TART dựa theo mơ hình chủ đề để khám phá chủ đề quan tâm và phân
tích vai trị của cá nhân trên MXH theo từng giai đoạn thời gian và xây dựng phương
pháp gán nhãn chủ đề ẩn dựa trên cây phân cấp chủ đề [CB02][CB03][CB04][CB05]
[CB09].
Bài toán 1 được chia làm hai bài toán nhỏ: (i) Bài toán 1.1. Khám phá và gán nhãn chủ đề
ẩn từ thông điệp trên MXH; (ii) Bài toán 1.2. Khám phá chủ đề quan tâm của cá nhân trên

MXH có yếu tố thời gian.
Nội dung thực hiện của bài toán 1.1 bao gồm:
-

Nghiên cứu cho trường hợp dữ liệu là thông điệp tiếng Việt trên MXH. Thông điệp
trên MXH chứa đựng nhiều từ viết tắt, từ không rõ nghĩa, các ký hiệu. Trước khi phân
tích thơng điệp, luận án phải tiến hành tiền xử lý dữ liệu bằng cách lọc đi những từ
dừng (stopwords) và hệ thống các từ viết tắt và ký hiệu được ánh xạ sang từ rõ nghĩa,
từ đó hiểu được nội dung thơng điệp để phân tích.

-

Các nghiên cứu truyền thống xem mỗi thông điệp chỉ thuộc về duy nhất một chủ đề.
Tuy nhiên, theo tiếp cận mơ hình chủ đề, mỗi thông điệp tiềm ẩn nhiều chủ đề và mỗi

6

Trong các phương pháp và mơ hình được luận án phát triển, cụm từ “Author - Tác giả” được luận án xem là “Cá

nhân gửi” và cụm từ “Recipient - Người nhận” được xem là “Cá nhân nhận” để dễ dàng hơn khi trình bày các vấn đề
trong phân tích liên kết xã hội của cá nhân trên MXH của luận án. Tuy nhiên, những nội dung trình bày các mơ hình
được khảo sát và tham khảo, luận án vẫn trình bày theo cụm từ là “Author - Tác giả” và “Recipient - Người nhận”.

5


chủ đề được đặc trưng bởi tập từ đồng hiện trong thông điệp. Như vậy, vấn đề đặt ra là
làm thế nào để khám phá chủ đề ẩn trong thông điệp?
-


Chủ đề ẩn được khám phá từ thông điệp chưa được gán nhãn (tên của chủ đề). Như
vậy, để gán nhãn và chỉ rõ được chủ đề trao đổi, bài toán 1.1 xây dựng phương pháp
xây dựng cây phân cấp chủ đề và phương pháp học máy SVM để gán nhãn chủ đề.
Bài tốn 1.1 được trình bày chi tiết trong chương 2.

Nội dung thực hiện của Bài toán 1.2 bao gồm:
-

Xây dựng mơ hình Khám phá chủ đề, phân tích mức độ quan tâm chủ đề của cá nhân.

-

Phân tích vai trị của cá nhân quan tâm chủ đề trên MXH theo từng giai đoạn thời
gian.

-

Dùng yếu tố thời gian để chia nhỏ các yếu tố trong mơ hình ART như tập cá nhân gửi,
tập cá nhân nhận, tập chủ đề và tìm ra được sự thay đổi chủ đề quan tâm của cá nhân
trong tập thông điệp theo từng khoảng thời gian so với chủ đề quan tâm trong kho ngữ
liệu thông điệp.

-

Khảo sát sự biến thiên chủ đề quan tâm của từng cá nhân để chỉ ra trong từng giai
đoạn thời gian từng cá nhân quan tâm đến chủ đề gì. Tìm ra chủ đề được cá nhân quan
tâm nhiều nhất trên MXH.
Bài tốn 1.2 được trình bày chi tiết trong chương 3.

Bài toán 2. Khám phá chủ đề quan tâm của cộng đồng dựa theo mô hình chủ đề có

yếu tố thời gian.
Xây dựng phương pháp khám phá cộng đồng trên MXH có cùng các chủ đề quan tâm
theo từng giai đoạn thời gian và phương pháp khảo sát sự biến thiên các đặc trưng của
cộng đồng [CB01][CB06][CB10].
Nội dung thực hiện bài toán 2 bao gồm:
-

Một cộng đồng quan tâm nhiều chủ đề và một chủ đề có nhiều cộng đồng quan tâm.
Theo tính chất của MXH, nhiều người trao đổi với nhiều người khác về một hay một
số chủ đề mà không chịu sự giới hạn của khơng gian và thời gian. Mục tiêu tìm ra đặc
trưng của cộng đồng bao gồm: chủ đề quan tâm, số cá nhân và mức độ quan tâm đến
từng chủ đề cụ thể.
6


-

Các đặc trưng của cộng đồng sẽ thay đổi theo từng giai đoạn thời gian. Vì vậy, khảo
sát sự biến thiên của đặc trưng chủ đề như: số lượng chủ đề quan tâm, số cá nhân tham
gia cộng đồng trong từng thời gian để tìm ra xu thế quan tâm chủ đề của cá nhân và
cộng đồng trên MXH.

-

Trực quan hoá kết quả khám phá cộng đồng cũng là vấn đề được xem xét trong bài
toán 2.

-

Xây dựng phương pháp phân tích sự biến thiên các đặc trưng của cộng đồng.


Bài tốn 2 được trình bày chi tiết trong chương 4.
3. Sơ đồ nghiên cứu tổng thể luận án
Hình 2 trình bày quy trình nghiên cứu của luận án. Sơ đồ được chia làm 6 mô-đun.
/>M2. Khám phá chủ đề
tiềm ẩn trong thơng điệp
dựa theo mơ hình chủ đề
(mơ hình LDA)

M1. Tiền xử lý dữ liệu (lọc dữ
liệu, tách từ và gán nhãn từ
loại)
Thu thập

Thông tin cá nhân

Kho dữ liệu
mạng xã hội
(thông điệp
và thông tin
cá nhân)

Kho tập ngữ
liệu thông điệp
đã qua bước
tiền xử lý

Tập dữ liệu
huấn luyện để
gán nhãn


Tập vector chủ đề quan tâm của cá nhân theo thời gian

M6. Khảo sát sự biến thiên
những đặc trưng của cộng đồng

M3. Thực hiện phương pháp
gán nhãn cho chủ đề tiềm ẩn
(mô hình LDA + cây phân cấp
chủ đề + phương pháp SVM)

Tập chủ đề đã có nhãn

M4. Khám phá vai trị gửi và nhận
của cá nhân đối với chủ đề quan
tâm theo thời gian (mơ hình TART)

M5 : Khám phá cộng đồng cá nhân
trên MXH dựa theo mơ hình chủ đề
(TART) kết hợp mạng nơ ron Kohonen
Khảo sát sự biến thiên chủ đề
quan tâm của cá nhân

Hình 2. Sơ đồ nghiên cứu tổng thể của luận án

Mô-đun 1 (M1): Xử lý thu thập và tích hợp dữ liệu từ nguồn dữ liệu trên MXH, diễn đàn,
trang báo điện tử. Trong giai đoạn này dữ liệu cần được tiền xử lý, phân tách từ loại và
7



gán nhãn cho từ loại, bởi vì các thơng tin trao đổi trên MXH ln có những thơng tin, dữ
liệu nhiễu như các ký hiệu giao tiếp đặc biệt,… Chính vì thế việc tiền xử lý dữ liệu là
quan trọng, hệ thống sẽ lọc các thông tin nhiễu hay nội dung rác ra khỏi thơng điệp, sau
đó dùng các phương pháp tách từ như JVNTextPro7 để xác định từ loại là từ đơn, từ ghép
trong tiếng Việt. Tiếp đến công cụ JVnTagger8 được sử dụng để xác định nhãn từ loại của
mỗi từ đã được phân tách là danh từ, tính từ, động từ hoặc trạng từ…
Mơ-đun 2 (M2): Sau khi làm sạch dữ liệu, tại mô-đun này sẽ phân tích các thơng điệp
được cá nhân trao đổi, thơng điệp được phân lớp vào nhiều chủ đề, tuy nhiên chỉ chọn chủ
đề nào có độ chính xác cao để phân lớp cho thơng điệp đó. Tại mơ-đun này, mơ hình
LDA được dùng để khám phá chủ đề ẩn từ thông điệp. Kết quả thu được của mô-đun này
là các thông tin trao đổi được phân tách theo từng chủ đề riêng. Tuy nhiên, các chủ đề lúc
này vẫn chưa được gán nhãn mà chỉ đánh số thứ tự chẳng hạn như: chủ đề 1, chủ đề 2…
chủ đề n. Ứng với mỗi chủ đề là tập từ đặc trưng được rút trích thơng qua nội dung trao
đổi dựa trên tính chất đồng hiện của từ trong kho ngữ liệu thông điệp.
Mô-đun 3 (M3): Kết quả thu được ở mô-đun 2 là tập hợp danh sách các chủ đề ẩn chưa
được gán nhãn, nhiệm vụ của mô-đun M3 phân lớp chủ đề tương ứng với nhãn nội dung
(gán nhãn chủ đề). Để thực hiện nhiệm vụ này, luận án xây dựng cây phân cấp chủ đề.
Cây phân cấp chủ đề được xây dựng cùng lĩnh vực với nội dung dữ liệu khảo sát và phân
tích. Mục đích việc xây dựng cây phân cấp chủ đề nhằm tạo tập dữ liệu huấn luyện cho
quá trình phân lớp văn bản và gán nhãn chủ đề. Kết hợp cùng với phương pháp máy học
SVM (Support Vector Machine) [63][64] và bộ dữ liệu có được sau khi được phân tách
thành từng nhóm chủ đề ẩn ở giai đoạn trên. Giai đoạn này thực hiện phân lớp để gán
nhãn cho các chủ đề ẩn được khám phá trước đó. Kết quả là tập các thơng điệp được phân
lớp và chủ đề ẩn được gán nhãn.
Mô-đun 4 (M4): Xây dựng mơ hình TART để khám phá chủ đề quan tâm và vai trò của
cá nhân (người nhận và người gửi) trên MXH có yếu tố thời gian dựa theo mơ hình chủ
đề. Mơ hình TART được cơng bố trong [CB05] và một phần trong [CB01]. Mơ hình
7

8


(truy cập lần cuối ngày 25-12-2017)
(truy cập lần cuối ngày 25-12-2017)

8


×