Tải bản đầy đủ (.pdf) (90 trang)

KHẢO sát XU THẾ THAY đổi CHỦ đề QUAN tâm của một CỘNG ĐỒNG TRONG MẠNG xã hội THEO THỜI GIAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.89 MB, 90 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

ĐỖ THIỆN VŨ

Ngành: Khoa Học Máy Tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ PHÚC

HỒ CHÍ MINH - Năm 2016


LỜI CÁM ƠN

Trước tiên, tôi xin gửi lời cảm ơn tới thầy hướng dẫn luận văn của tôi,
PGS. TS Đỗ Phúc, đã tạo mọi điều kiện, động viên và giúp đỡ tôi hoàn thành
tốt luận văn này. Trong suốt quá trình nghiên cứu, thầy đã kiên nhẫn hướng
dẫn, quan tâm, giúp đỡ, thảo luận và đưa ra những chỉ dẫn, đề nghị cho luận
văn của tôi. Sự hiểu biết sâu sắc về khoa học, cũng như kinh nghiệm của thầy
chính là tiền đề giúp tôi đạt được những thành tựu và kinh nghiệm quý báu..
Xin cám ơn quí Thầy Cô, Khoa Khoa Học Máy Tính, Phòng sau đại học,
Trường đại học Công Nghệ Thông Tin đã tận tình truyền đạt kiến thức trong
những năm tôi học tập. Với vốn kiến thức được tiếp thu trong quá trình học
không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà còn là hành trang
quí báu để tôi bước vào đời một cách vững chắc và tự tin.
Tôi cũng xin cảm ơn bạn bè và gia đình đã luôn bên tôi, cổ vũ và động
viên tôi những lúc khó khăn để có thể vượt qua và hoàn thành tốt luận văn này.
Tôi xin chân thành cảm ơn!


TP. Hồ Chí Minh, tháng 3 năm 2016

Đỗ Thiện Vũ

3


LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự
hướng dẫn khoa học của PGS.TS Đỗ Phúc. Các nội dung nghiên cứu, kết quả
trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước
đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,
đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong
phần tài liệu tham khảo.
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như
số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích
nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách
nhiệm về nội dung luận văn của mình.

TP. Hồ Chí Minh, tháng 3 năm 2016
Tác giả luận văn

Đỗ Thiện Vũ

4


MỤC LỤC


LỜI CÁM ƠN .............................................................................................................3
LỜI CAM ĐOAN .......................................................................................................4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................8
DANH MỤC CÁC BẢNG..........................................................................................9
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................................10
TÓM TẮT .................................................................................................................12
CHƯƠNG 1: TỔNG QUAN .....................................................................................13
1. TÍNH THIẾT THỰC CỦA ĐỀ TÀI .......................................................................13
2. CÁC KHÁI NIỆM CƠ BẢN ................................................................................13
3. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ............................................................15
4. MỤC ĐÍCH VÀ NỘI DUNG LUẬN VĂN..............................................................17
5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ...........................................................18
6. BỐ CỤC LUẬN VĂN ........................................................................................18
7. GIỚI THIỆU MẠNG XÃ HỘI..............................................................................19
8. KẾT CHƯƠNG.................................................................................................23
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .........................................................................24
1. KHAI PHÁ DỮ LIỆU ...................................................................................24
2. KỸ THUẬT XỬ LÝ VĂN BẢN ..................................................................25
2.1 Đặc điểm của từ vựng tiếng Việt .......................................................25
2.2 Tiền xử lí dữ liệu ...............................................................................26
2.3. Tách từ tiếng Việt .............................................................................27
2.3.1. Giới thiệu ..............................................................................27
2.3.2. Phương pháp so khớp cực đại MM .......................................27
3. MÔ HÌNH PHÂN TÍCH CHỦ ĐỀ ẨN VÀ GÁN NHÃN CHỦ ĐỀ .............28
3.1. Giới thiệu về mô hình phân tích chủ đề ẩn .......................................28
3.2. Mô hình LDA ..................................................................................29
3.2. Thuật toán Gibbs Sampling cho mô hình LDA ................................33
5



2.3. Gán nhãn chủ đề ...............................................................................34
2.3.1. Giới thiệu ..............................................................................34
2.3.2. Phương pháp Naive Bayes ....................................................35
3. GIẢI THUẬT GOM CỤM ...........................................................................39
3.1. Khái niệm..........................................................................................39
3.2. Các kiểu dữ liệu trong bài toán gom cụm .........................................40
3.3. Các độ đo ..........................................................................................42
3.4. Thuật Toán K-Means ........................................................................43
3.5. Thuật toán Multi K-Means ...............................................................47
4. KHAI PHÁ LUẬT DÃY ..............................................................................48
4.1. Giới thiệu ..........................................................................................48
4.1.1. Một số khái niệm về luật kết hợp..........................................48
4.1.2. Thuật toán Apriori khai phá luật kết hợp ..............................49
4.1.4. Một số khái niệm và phương pháp khai phá luật dãy ...........53
4.2. Thuật toán khai phá luật dãy GSP ....................................................55
5. KẾT CHƯƠNG.................................................................................................60
CHƯƠNG 3. XÂY DỰNG HỆ THỐNG VÀ THU THẬP DỮ LIỆU .....................61
1. MÔ HÌNH HỆ THỐNG ................................................................................61
1.1.

Quá trình tìm chủ đề......................................................................61

1.3.

Quá trình gom cụm .......................................................................63

1.4.

Quá trình khai phá luật dãy ...........................................................63


1.5.

Triết lý việc dùng các thuật toán ...................................................63

2. THU THẬP DỮ LIỆU ..................................................................................64
2.1. Giới thiệu NodeXL ...........................................................................64
2.2. Một số tính năng điển hình của NodeXL .........................................64
2.3. Thu thập dữ liệu Facebook với NodeXL ..........................................65
2.4. Nguồn dữ liệu ...................................................................................67
2.4.1. Dữ liệu huấn luyện ................................................................67
2.4.2. Dữ liệu GroupFacebook ........................................................68
CHƯƠNG 4: THỬ NGHIỆM VÀ THỰC NGHIỆM ...............................................69
6


1. THỬ NGHIỆM: ............................................................................................69
1.1. Thử nghiệm mô hình LDA và gán nhãn chủ đề ...............................69
1.1.1. Dữ liệu thử nghiệm ...............................................................69
1.1.2. Môi trường và công cụ tích hợp............................................69
1.1.3. Quá trình thực hiện ...............................................................69
1.1.4. Kết quả và đánh giá...............................................................70
1.2. Thử nghiệm gom cụm Multi-Kmeans ..............................................72
1.2.1. Môi trường và công cụ ..........................................................72
1.2.2. Quá trình thực hiện ...............................................................72
1.3. Thử nghiệm với thuật toán GSP .......................................................75
1.3.1. Dữ liệu thử nghiệm ...............................................................75
1.3.2. Môi trường và công cụ ..........................................................75
1.1.3. Quá trình thực hiện ...............................................................75
1.4. Kết luận thử nghiệm .........................................................................78

2. THỰC NGHIỆM ...............................................................................................79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................88
1. KẾT QUẢ ĐẠT ĐƯỢC ...............................................................................88
1.1. Về mặt khoa học ...............................................................................88
1.2. Về mặt thực tiễn................................................................................88
2. HẠN CHẾ .....................................................................................................89
3. HƯỚNG PHÁT TRIỂN ................................................................................89
TÀI LIỆU THAM KHẢO .........................................................................................90

7


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

o ANCT: An ninh chính trị
o CSDL: Cơ sở dữ liệu
o CNTT: Công nghệ thông tin
o KHKT: Khoa học kỹ thuật
o KPDL: Khai phá dữ liệu
o MXH: Mạng xã hội
o TDTT: Thể dục thể thao
o YTGD: Y tế giáo dục
o API: Application Programming Interface
o ART: Author-Recipient-Topic
o DBLP: DataBase systems and Logic Programming
o IGATEC: Internet and Genetics Algorithm based Text Categorization
o GS: Gibbs Sampling
o GSP: Generalized Sequential Patterns
o KNN: K–Nearest Neighbor
o LDA: Latent Dirichlet Allocation

o LLSF: Linear Least Squares Fit
o LRMM: Left Right Maximum Matching
o LSA: Latent Semantic Analysis
o NB: Naïve Bayes
o PLSA: Probabilistic Latent Semantic Analysis
o SD: Sequence Database
o SPADE: Sequential Pattern Discovery using Equivalent Class
o SVM: Support Vector Machine
o SNA: Social Network Analysis
o TBL: Transformation – Based Learning

8


DANH MỤC CÁC BẢNG

Bảng 1. 1: Thống kê người dùng các mạng xã hội lớn trên thế giới .........................21
Bảng 2. 1: Các qui ước ký hiệu trong mô hình LDA ................................................31
Bảng 2. 2: Các qui ước trong NB ..............................................................................35
Bảng 2. 3: Số lượng từ trong tập huấn luyện ............................................................37
Bảng 2. 4: Tần suất của từ đặc trưng ........................................................................37
Bảng 2. 5 Giá trị xác suất các từ đặc trưng theo chủ đề ............................................38
Bảng 2. 6: CSDL TDB ..............................................................................................51
Bảng 2. 7: Kết quả tập luật kết hợp ...........................................................................52
Bảng 2. 8: CSDL minh họa các khái niệm luật dãy ..................................................53
Bảng 2. 9: CSDL minh họa thuật toán GSP ..............................................................57
Bảng 2. 10: Phân tích GSP các ứng viên C2 có 2 phần tử ........................................57
Bảng 2. 11: Phân tích GSP các ứng viên C2 có 1 phần tử ........................................58
Bảng 2. 12: Minh họa dãy phổ biến chiều dài 2 và 2 phần tử...................................58
Bảng 2. 13: Minh họa dãy phổ biến chiều dài 2 và 1 phần tử...................................59

Bảng 4. 1: Thời gian 1 lần thử nghiệm .....................................................................70
Bảng 4. 2: Thử nghiệm lần 1 .....................................................................................71
Bảng 4. 3: Thử nghiệm lần 2 .....................................................................................71
Bảng 4. 4: Thử nghiệm lần 3 .....................................................................................71
Bảng 4. 5: Kết quả thử nghiệm Multi-Kmeans .........................................................73
Bảng 4. 6: Kiểm tra thực tế trong CSDL ..................................................................78
Bảng 4. 7: Môi trường và công cụ thực nghiệm .......................................................79
Bảng 4. 8: Tổng kết thời gian thực nghiệm...............................................................80

9


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1. 1: Cấu trúc mạng xã hội ...............................................................................19
Hình 2. 1: Mô hình khai phá dữ liệu .........................................................................25
Hình 2. 2: Mô hình LDA ...........................................................................................30
Hình 2. 3: Quá trình sinh tài liệu trong mô hình LDA ..............................................31
Hình 2. 4: Quá trình sinh 1 tài liệu ............................................................................32
Hình 2. 5: Thuật toán LDA Gibbs Sampling ............................................................33
Hình 2. 6: Ma trận dữ liệu .........................................................................................40
Hình 2. 7: Ma trận phân biệt .....................................................................................40
Hình 2. 8: Thuật toán K-means .................................................................................44
Hình 2. 9: Các bước của thuật toán K-means ...........................................................44
Hình 2. 10: CSDL ví dụ K-means .............................................................................45
Hình 2. 11: Bước 1 trong k-means ............................................................................45
Hình 2. 12: Bước 2 trong k-means ............................................................................45
Hình 2. 13: Bước 3 thuật toán K-means....................................................................46
Hình 2. 14: Bước 4 thuật toán K-means....................................................................46
Hình 2. 15: Bước dừng thuật toán K-means .............................................................47

Hình 2. 16: Thuật toán Multi K-Means .....................................................................48
Hình 2. 17: Thuật toán Apriori ..................................................................................50
Hình 2. 18: Độ phức tạp thuật toán Apriori ..............................................................51
Hình 2. 19: Mô tả quá trình tìm tập phổ biến của Apriori ........................................52
Hình 2. 20: Thuật toán GSP ......................................................................................55
Hình 2. 21: Minh họa phân tích GSP ........................................................................59
Hình 3. 1: Mô hình hệ thống .....................................................................................61
Hình 3. 2: Cấu trúc mạng xã hội ...............................................................................65
Hình 3. 3: Giao diện kết nối MXH ............................................................................65
Hình 3. 4: Giao diện Import dữ liệu MXH Facebook ...............................................66
Hình 3. 5: Đăng nhập Facebook ................................................................................66
10


Hình 3. 6: Danh sách người dùng .............................................................................67
Hình 3. 7: Dữ liệu huấn luyện ...................................................................................68
Hình 3. 8: Dữ liệu Group Facebook ..........................................................................68
Hình 4. 1: CSDL thử nghiệm K-means .....................................................................72
Hình 4. 2: Kết quả gom cụm chưa tối ưu ..................................................................74
Hình 4. 3: Kết quả gom cụm đã tối ưu ......................................................................74
Hình 4. 4: CSDL thử nghiệm GSP ............................................................................75
Hình 4. 6: Dãy bệnh tật phổ biến ..............................................................................76
Hình 4. 5: Tham chiếu mã ICD .................................................................................76
Hình 4. 7: Chủ đề quan tâm của cộng đồng .............................................................81
Hình 4. 8: Chủ đề theo thời gian ...............................................................................82
Hình 4. 9: Danh sách gom cụm .................................................................................83
Hình 4. 10: Một khối thông tin cá nhân ....................................................................83
Hình 4. 11: Dãy phổ biến chủ đề theo thời gian .......................................................84
Hình 4. 12: Trích chọn thông tin nhanh ....................................................................85
Hình 4. 13: Trích chọn nhanh đối tượng nổi trội ......................................................86

Hình 4. 14: Menu song ngữ Anh-Việt ......................................................................86
Hình 4. 15: Danh sách lưu trữ đã sàng lọc ................................................................87

11


TÓM TẮT

Mục đích chính của luận văn là khảo sát xu thế thay đổi các chủ đề quan
tâm của một cộng đồng trong mạng xã hội. Để đạt được mục tiêu này, bài luận
văn sẽ trình bày mô hình khảo sát xu thế thay đổi chủ đề quan tâm theo thời
gian của người dùng trên mạng xã hội. Để thưc hiện được mô hình đầu tiên bài
luận sẽ tiếp cận mô hình phát hiện chủ đề ẩn [6] và phân loại văn bản [9] để
tìm ra các chủ đề theo thời gian của các thành viên trong cộng đồng. Tiếp đến
là tiếp cận thuật toán gom cụm Multi-Kmeans [18], đây thực chất là thuật toán
mở rộng của thuật toán K-means [13] qua việc tối ưu kết quả của thuật toán này
nhằm mục tiêu là gom nhóm thành viên trong cộng đồng theo các tiêu chí khác
nhau. Cuối cùng là tiếp cận thuật toán khai phá luật dãy GSP [16] để tìm ra
tập dãy các chủ đề phổ biến của các nhóm trong cộng đồng theo thời gian.

12


CHƯƠNG 1: TỔNG QUAN

1. Tính thiết thực của đề tài
Cùng với quá trình toàn cầu hóa và sự phát triển của CNTT, mạng Internet
trên thế giới và Việt Nam ngày càng phát triển mạnh mẽ. Sự tham gia của các trang
cá nhân, nhóm trên mạng ngày càng tích cực và nhu cầu chia sẻ thông tin, kết nối bạn
bè là nhu cầu thiết yếu. Làm thúc đẩy sự ra đời và phát triển của các mạng xã hội như

Facebook, Twitter, Zingme.. Những ứng dụng về khai thác mạng xã hội ở Việt Nam
hiện tại vẫn còn rất khiêm tốn, chưa đáp ứng đầy đủ với nhu cầu khai thác rất lớn ,
phát triển mạnh của mạng xã hội , đa phần chỉ ở mức thống kê, đánh giá mức độ sử
dụng, số lượng người dùng mà quan tâm chưa nhiều tới nội dung trao đổi, cấu trúc
của mạng xã hội.
2. Các khái niệm cơ bản
2.1.Mạng xã hội
Mạng xã hội (hay gọi là mạng xã hội ảo) là dịch vụ nối kết các thành viên cùng
sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt
không gian và thời gian. Những người tham gia vào mạng xã hội còn được gọi là cư
dân mạng [19].
2.2. Cộng đồng mạng
Cộng đồng mạng là những nhóm gồm nhiều thành viên đại điện cho những
vấn đề như sở thích, lợi ích, mối quan tâm..của một mạng xã hội.
Ví dụ : trong mạng xã hội Facebook có những nhóm nhỏ như nhóm cao học
khóa 7, cao học khóa 8, cao học khóa 9, lập trình C#, lập trình Java…Mỗi nhóm nhỏ
như vậy gọi là một cộng đồng.
2.3. Nhóm
Nhóm trong cộng đồng là cộng đồng thu nhỏ nhằm mục đích là chia nhỏ ở
mức sâu hơn số lượng các thành viên có cùng một số đặc điểm cá nhân.
Ví dụ: Các nhóm có thể chia nhỏ trong một cộng đồng như: nhóm giới tính
nam, nhóm giới tính nữ, nhóm quan tâm chủ đề A, nhóm quan tâm chủ đề B,….
13


2.3. Chủ đề quan tâm
Chủ để quan tâm trong mạng xã hội là những vấn đề miêu tả sự quan tâm, sở
thích..của các cư dân mạng. Chủ đề thường được mô tả qua tập từ khóa xác định. Ví
dụ chủ đề trong diễn đàn trường học như là: tin tức, tài liệu, thời khóa biểu…
2.4. Chủ đề quan tâm chính

Chủ để quan tâm chính là chủ đề được thể hiện nhiều nhất trong các chủ đề
trong một khoảng thời gian xác định.
Ví dụ: Nếu tần suất xuất hiện chủ đề 1 là 0.3 và chủ đề 2 là 0.7 trong nội dung
trao đổi của một cá nhân trên mạng năm 2014, thì chủ đề chính trong năm 2014 là
chủ đề 2.
2.5. Hành vi cá nhân
Hành vi cá nhân là những hành động thể hiện những sở thích, mối quan tâm..
của một cá nhân. Hành vi là một giá trị có thể thay đổi theo thời gian.
Theo Bách khoa tự điển Việt Nam thì hành vi là một chuỗi các hành động lặp
đi lặp lại. Là hành động hoặc phản ứng của đối tượng hoặc sinh vật, thường sử dụng
trong sự tác động đến môi trường, xã hội. Hành vi có thể thuộc về ý thức, tiềm thức,
công khai hay bí mật, và tự giác hoặc không tự giác. Hành vi là một giá trị có thể thay
đổi qua thời gian.
Ví dụ: Một cá nhân trong tháng 1 thường gửi các bài lên mạng xã hội quan
tâm tới vấn đề chính trị và trong tháng 2 người này lại gởi các bài khác quan tâm tới
vấn đề khoa học. Vậy hành vi cá nhân trong tháng 1 là quan tâm tới chủ đề chính trị
và hành vi trong tháng 2 là quan tâm chủ đề khoa học.
2.5. Hành vi tập thể
Hành vi tập thể: là sự kết hợp hành vi của các cá nhân trong môi trường kết
nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành vi
tương quan giữa những người tham gia kết nối.

14


3. Tổng quan tình hình nghiên cứu
3.1. Các công trình nghiên cứu ngoài nước
Trong những năm gần đây, các công trình nghiên cứu về phân tích, khai thác
mạng xã hội rất phổ biến và đặc biệt là quan tâm tới nội dung trao đổi trong mạng xã
hội. Một số công trình nghiên cứu tiêu biểu thông qua các bài báo sau:

3.1.1. Nghiên cứu sự hình thành nhóm trong mạng xã hội
Nghiên cứu sự hình thành nhóm trong mạng xã hội [11], trong đó trình bày
các vấn đề sau:
i.) Những đặc trưng cấu trúc nào làm ảnh hưởng đến những cá nhân sẽ tham
gia cộng đồng.
ii.) Những cộng đồng nào sẽ phát triển nhanh chóng.
iii.) Điểm tương đồng giữa hai cộng đồng thay đổi theo thời gian.
- Dùng mô hình phân cấp cây nhị phân tác giả đã tìm ra được xác suất phản
ánh khả năng mỗi cá nhân tham gia vào cộng đồng và xác suất này tăng theo mỗi
quan hệ của cá nhân đó với cộng đồng và dự đoán được sự phát triển của các cộng
đồng trong dữ liệu của tác giả.
- Dùng mô hình bùng phát thông tin tác giả chỉ ra các chủ đề thay đổi theo thời
gian trên dữ liệu DBLP ( DBLP được thu thập qua 87 cuộc hội thảo trong khoảng
thời gian ít nhất là 15 năm).
3.1.2. Nghiên cứu dự đoán hành vi tập thể
Nghiên cứu dự đoán hành vi tập thể [12], trong đó trình bày các vấn đề sau:
i.) Dự đoán hành vi tập thể trong mạng xã hội qua việc đưa về một chiều xã
hội ( cộng đồng) để xét.
ii.) Xác định các mối quan hệ dựa trên kết nối mạng trong cộng đồng để dự
đoán hành vi.
Tác giả đã tiếp cận vấn đề theo hướng phân cụm dữ liệu mạng theo nút (NodeView) và phân cụm theo cạnh (Edge-View). Bằng thực nghiệm trên các dữ liệu
BlogCatlog, Flicks, Youtube, tác giả chỉ ra rằng việc phân cụm dữ liệu theo hướng
Node-View và Edge-View tương đối tương đồng, nhưng hướng tiếp cận Edge-View
có thể xác định được các người dùng thuộc cồng đồng nào.
15


3.1.3. Khảo sát hành vi tập thể trong mạng xã hội
Khảo sát hành vi tập thể trong mạng xã hội [14], trong đó khảo sát các vấn đề:
i.) Hành vi cộng đồng.

ii.) Suy luận tập thể.
iii.) Sự ảnh hưởng của các mối quan hệ trong mạng xã hội.
Bài báo đã có các kết luận sau:
i). Hành vi tập thể: Là sự kết hợp hành vi của các cá nhân trong môi trường
kết nối, hành vi của các cá nhân này có xu hướng phụ thuộc lẫn nhau dẫn đến hành
vi tương quan giữa những người tham gia kết nối.
ii). Suy luận tập thể: Giả định hành vi của mỗi cá nhân phụ thuộc vào mối quan
hệ bạn bè, suy luận tập thể giúp làm cân bằng và giảm thiểu sự không thống nhất giữa
các nhân trong môi trường kết nối.
iii). Sự ảnh hưởng của các mối liên kết : Những người có liên kết với nhau có
khả năng chia sẻ lợi ích, đặc điểm cá nhân, và điều này xảy ra tương tự với người bạn
chung. Những người có lợi ích chung có xu hướng trở thành bạn bè.
3.2. Các công trình nghiên cứu trong nước
Các công trình nghiên cứu về mạng xã hội trong nước cũng đang được chú ý
đặc biệt trong những năm gần đây, điển hình là tên một số công trình tiêu biểu sau:
Nghiên cứu về hành vi sử dụng Facebook của con người [1]. Trong đó, tác giả
đã đưa ra những số liệu về việc sử dụng Facebook đã dẫn đến hàng loạt vấn
đề cụ thể như hành vi, trạng thái và những diễn tiến phức tạp trong đời sống
con người. Bằng những số liệu thống kê, tác giả cũng đưa ra kết luận là
Facebook có sức lan tỏa rất lớn và người dùng có xu hướng bị triệu chứng
nghiện Facebook.
Mô hình tích hợp khám phá, phân lớp và gán nhãn chủ đề tiếp cận theo mô
hình chủ đề. [2]. Trong đó, tác giả đề xuất một mô hình tích hợp khám phá chủ
đề nhằm phân tích các thông điệp trao đổi của người dùng trên mạng xã hội.
Phương pháp mà tác giả sử dụng là sử dụng phương pháp máy học trên tập dữ
liệu huấn luyện để gán nhãn chủ đề.

16



Nghiên cứu ứng dụng mạng xã hội Facebook trong việc đổi mới giảng dạy tại
trường đại học [5]. Trong đó, tác giả sử dụng mô hình khám phá chủ đề và gán
nhãn chủ đề [2] và kết hợp các yếu tố thời gian để tìm ra chủ đề quan tâm của
người dùng mạng xã hội theo thời gian. Ngoài ra, để tăng hiệu quả, đầy đủ và
khái quát hơn cho việc thực hiện phân tích chủ đề, tác giả đề xuất thêm 2 mô
hình là mô hình ART (Author-Recipient-Topic) và mô hình TART (TemporalAuthor-Recipient-Topic).
4. Mục đích và nội dung luận văn
4.1. Mục đích
Mục đích chính của luận văn là khảo sát xu thế thay đổi chủ đề quan tâm của
một cộng đồng trong mạng xã hội theo thời gian.
Mục đích được phân chia thành các nội dung sau:
4.1.1. Nội dung 1: Xác định và gán nhãn chủ đề
Là xác định được các chủ đề quan tâm, chủ đề quan tâm chính của một cá
nhân, một nhóm người trong một mạng xã ở các khoảng thời gian khác nhau.
Hướng tiếp cận giải quyết vấn đề là sử dụng mô hình LDA[6] và gán nhãn chủ
đề [9]. Đầu vào của mô hình là tập các nội dung văn bản trao đổi thông tin của các
cá nhân. Đầu ra là chủ đề quan tâm và các giá trị xác suất của các chủ đề trên từng
nội dung trao đổi thông tin của từng cá nhân.
Nhiệm vụ của nội dung này gồm các công việc sau:
- Thu thập dữ liệu một cộng đồng để khảo sát mạng xã hội Facebook.
- Thu thập dữ liệu huấn luyện các chủ đề quan tâm.
- Lọc và xử lí dũ liệu tiếng Việt .
- Tìm hiểu mô hình LDA và gán nhãn chủ đề.
- Thử nghiệm.
4.1.2. Nội dung 2: Gom nhóm
Gom nhóm được những cá nhân có tổ hợp các đặc điểm thông tin cá nhân, chủ
đề quan tâm tương đồng như các giá trị xác suất của giới tính, số lần gởi bài (total
post), số like nhận được (like-received), số like tạo (like-created), số lần nhận xét

17



(comment-created), số lần được nhận xét (comment-received) và giá trị trung bình
tần suất (xác suất) của các chủ đề quan tâm của cá nhân trong thời gian khảo sát.
Hướng giải quyết vấn đề là sử dụng giải thuật gom cụm Multi-Kmeans [18]
để phân loại các nhóm theo đặc điểm profile. Với đầu vào là giá trị xác suất của các
đặc điểm profile và đầu ra là các nhóm có đặc điểm cá nhân tương đồng với nhau.
Nhiệm vụ của nội dung này gồm các công việc sau:
- Tìm hiểu các độ đo tương đồng.
- Tìm hiểu thuật toán gom cụm Multi-Kmeans.
- Thử nghiệm.
4.2.3. Nội dung 3: Khảo sát xu thế thay đổi chủ đề theo thời gian
Nội dung chính là tìm các mẫu về chủ đề quan tâm chính của cộng đồng trong
các khoảng thời gian tuần tự và rút ra các luật từ các mẫu tuần tự này.
Hướng giải quyết vấn đề là sử dụng thuật toán khai phá luật dãy GSP [16].
Đầu vào là các dãy mẫu phổ biến tuần tự chủ đề quan tâm chính của người dùng tham
gia cộng đồng trong thời gian khảo sát. Và đầu ra là các chuỗi phổ biến về chủ đề
quan tâm chính của cộng đồng.
Nhiệm vụ nghiên cứu của nội dung này là tìm hiểu thuật toán GSP.
4.2.4. Nội dung 4: Xây dựng ứng dụng
5. Đối tượng và phạm vi nghiên cứu
5.1. Đối tượng nghiên cứu
Đối tượng nghiên cứu là một cá nhân, một nhóm, một cộng đồng cụ thể của
mạng xã hội Facebook.
5.2. Phạm vi nghiên cứu
Phạm vi nghiên cứu là những cộng đồng thuộc mạng xã hội.
6. Bố cục luận văn
Bố cục chính của luận văn gồm 4 chương:
- Chương 1: Tổng quan. Nội dung chương này trình bày các mục tiêu, nội
dung, nhiệm vụ bài luận văn sẽ thực hiện cùng với khái niệm sơ lược về mạng xã hội.


18


- Chương 2: Cơ sở lý thuyết. Nội dung của chương sẽ trình bày các cơ sở lý
thuyết liên quan mà bài luận văn sử dụng làm cơ sở cho việc xây dựng hệ thống khai
phá xu thế chủ đề quan tâm của người dùng mạng xã hội.
- Chương 3: Xây dựng mô hình hệ thống và thu thập dữ liệu. Nội dung của
chương trình bày mô hình hệ thống chung của luận văn và các nguồn dữ liệu sử dụng.
- Chương 4: Thử nghiệm và thực nghiệm. Nội dung trình bày các thử nghiệm
cùng với sự đánh giá các thư viện, các công cụ, các modul trong việc tích hợp vào
triển khai mô hình chung mà bài luận văn đã đặt ra. Tiếp đến là thực nghiệm mô hình
hệ thống chung cùng kết luận và hướng phát triển.
7. Giới thiệu mạng xã hội
7.1 Khái niệm:
Mạng xã hội thường được mô hình hóa như đồ thị (hình 1.1) gồm các nút và
các đường liên kết trong đó mỗi nút tương ứng cho từng cá nhân và các liên kết giao
tiếp truyền thông. Các thông tin truyền thông trên mạng xã hội thường là hình thức
văn bản như thư điện tử), cũng có thể là tập tin như hình ảnh, phim ảnh,...

Hình 1. 1: Cấu trúc mạng xã hội

Mạng xã hội liên kết các thành viên, người dùng trên mạng Internet lại với
nhau dựa theo tiêu chí nào đó, với nhiều mục đích khác nhau, không phân biệt thời
19


gian và không gian. Với cấu trúc liên kết này, một mạng xã hội có thể được biểu diễn
như một đồ thị. Hiện nay trên thế giới có rất nhiều mạng xã hội khác nhau. Trong đó
có MXH Orkut và Hi5 phổ biến ở Nam Mỹ, MXH MySpace và Facebook nổi tiếng

tại Bắc Mỹ và Tây Âu, Friendster tại Châu Á và Thái Bình Dương. Mạng xã hội khác
gặt hái được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld
tại Hàn Quốc, Mixi tại Nhật Bản và Facebook tại Việt Nam. [20]
7.2. Sự phát triển mạng xã hội:
Sự ra đời của mạng máy tính đã làm nền tảng cho sự xuất hiện và phát triển
của mạng xã hội. Có nhiều khái niệm khác nhau về mạng xã hội đã được định nghĩa
trên các trang Web như trang Wikipedia, trang VnExpres,... Khái niệm đầu tiên cho
rằng mạng xã hội là nơi để mọi người tương tác với nhau thông qua việc chia sẻ
thông tin cá nhân, nói chuyện trực tuyến qua các phòng trò chuyện, trao đổi ý tưởng
qua các chủ đề được tạo lập trên những trang cá nhân, mà về sau này được gọi là
blog. Khái niệm thứ hai thì cho rằng mạng xã hội là nơi mà các thành viên có thể kết
nối với nhau thông qua địa chỉ thư điện tử của họ. Mạng xã hội đầu tiên của dạng này
là mạng xã hội Classmaster, ra đời vào năm 1995 với mục đích kết nối các bạn học
với nhau. Mạng xã hội tiếp tục phát triển. Vào năm 1997 là sự xuất hiện của MXH
SixDegress, mục đích chính của MXH này là giao lưu kết bạn dựa theo sở thích.
Tiếp đến là sự ra đời của MXH Friendster vào năm 2002. Friendster đã mau chóng
trở thành trào lưu tại Mỹ. Tuy vậy do phát triển quá nhanh mà thiếu đi sự tính toán
kết nối cũng như lưu trữ đã khiến các máy chủ của dịch vụ này hay bị xảy ra hiện
tượng quá tải. Công ty này sau đó được Google đề nghị mua lại tuy nhiên thương vụ
không thành công. Năm 2004, mạng xã hội MySpace hình thành và nhanh chóng nổi
bật với các tính năng mới hấp dẫn, trong đó phải kể đến tính năng chia sẻ nhạc. Tính
năng này đã thu hút được rất nhiều những thành viên quan tâm và rồi làm cho
MySpace trở thành mạng xã hội lớn nhất thế giới. Thời kỳ đỉnh cao của mình,
MySpace từng có hơn 100 triệu thành viên. Tuy nhiên do việc các thành viên đăng
tải những nội dung xấu cũng như thiết lập bài hát tự động làm rất nhiều người sử dụng
khó chịu và dần ít quan tâm tới mạng xã hội này. Cũng trong năm 2004 mạng xã hội
Facebook được ra đời, tới năm 2006 thì Facebook đã mở rộng phạm vi ra toàn cầu.
20



Facebook là một mạng xã hội mở, thông qua việc cung cấp một nền tảng lập trình
gọi là Facebook Platform. Mạng xã hội này cho phép những thành viên lập trình có
thể tương tác tạo ra các ứng dụng cho chính cá nhân cũng như các thành viên khác
sử dụng. Chỉ trong thời gian ngắn, Facebook có được rất nhiều các ứng dụng đáp ứng
được đông đảo các đối tượng người dùng theo các sở thích khác nhau. Năm 2006,
một trào lưu mới xuất hiện nhưng cũng đã phát triển hết sức nhanh chóng và phổ biến
toàn cầu, đó là Twitter. Twitter là mạng xã hội miễn phí cho phép người dùng đọc,
nhắn và cập nhật những mẫu tin ngắn gọi là tweet. Những mẩu tweet được giới hạn
tối đa 140 ký tự được lan truyền nhanh chóng trong phạm vi nhóm bạn của người
nhắn hoặc có thể được phổ biến rộng rãi cho mọi người. Những tweet có thể chỉ là
dòng tin vặt cá nhân cho đến những cập nhật thời sự tại chỗ kịp thời và nhanh chóng
hơn cả truyền thông chính thống [1, 20].
Nói chung việc hình thành các mạng xã hội là sự cần thiết để đáp ứng nhu cầu
ngày càng cao của con người. Việc càng có nhiều người quan tâm tới mạng xã hội đã
được trang WiKi chỉ ra qua bảng thông kê vào vào tháng 5 năm 2012 qua bảng 1.1.
Bảng 1. 1: Thống kê người dùng các mạng xã hội lớn trên thế giới
Miêu tả

Tên
Windows Live paces

Số thành viên
(triệu

Blog

120

Twitter


Mạng nhắn tin nhanh, blog nhỏ

100

Tagged

Tagged.com

70

Orkut

Rất phổ biến ở Brasil và Ấn Độ

37

Netlog

Rất phổ biến tại Bỉ

35

Friendster

Rất phổ biến ở Philippines, Malaysia,
Indonesia và Singapore

115

Flixster


Thiết kế dành cho những người yêu phim
ảnh

69

21


Facebook

Tỉ lệ truy cập cao nhất ở Canada và ở
Anh

750

Classmates

Giúp mọi người tìm lại được những
người bạn học cũ

40

Bebo Bebo

Được sử dụng rộng rãi nhất ở Ireland

40

Chú thích: Nguồn số liệu được trích dẫn từ Wikipedia [20].

7.3. Ưu điểm của mạng xã hội
Mạng xã hội được phát triển mạnh mẽ như hiện nay là do có nhiều ưu điểm
đáng kể mà chúng mang lại so với các cách truyền thông truyền thống.
Do các mạng xã hội hiện nay hầu hết cho phép đăng ký và sử dụng miễn phí
nên chi phí tham gia mạng xã hội của người dùng cá nhân hay tổ chức là tương đối
thấp. Ngoài ra, việc tham gia làm thành viên của một mạng xã hội giúp các thành
viên có được rất nhiều thông tin hữu ích cho mối quan tâm, sự phát triển của mình.
Ví dụ như một công ty sau khi tham gia một mạng xã hội, chỉ cần vài thao tác nhấp
chuột là đã có thể tìm hiểu về các sở thích của người dùng và xu hướng của những sở
thích đó. Từ đó, công ty có thể phát hiện ra được những khách hàng tiềm năng, vạch
ra một chiến lược chăm sóc khách hàng hoặc mở ra hướng kinh doanh mới. Những
việc làm này rất cần thiết và giúp ích rất nhiều cho công ty trong môi trường kinh
doanh.
Nhờ vào việc đọc được những bài viết mang tính chất riêng tư, tâm sự của
bạn bè, hay con cái các thành viên mạng xã hội có thể có được những hiểu biết rõ
ràng hơn về bạn bè, con cái của mình, thấy được vấn đề mà người kia đang gặp phải,
từ đó giúp họ giải quyết vấn đề dễ dàng hơn. Nghiên cứu cho thấy, giới trẻ đang có
xu hướng kể ra những vấn đề cá nhân trên blog, mạng xã hội dễ dàng hơn là nói
chuyện trực tiếp với các bậc phụ huynh, hay cả với bạn bè. Khi ấy niềm tin trong mối
quan hệ cũng được nâng lên đáng kể.
Cũng nhờ vào mạng xã hội, người dùng ban đầu có thể thiết lập một mối quan
hệ với bất cứ ai, đơn giản chỉ khởi đầu bằng việc gửi đi một lời nhắn đề nghị được
kết bạn. Sau khi được chấp nhận bởi phía bên kia, việc cần làm để gìn giữ mối quan
hệ đó là cố gắng cân bằng giữa việc cho đi và nhận lại. Việc này ở trên mạng xã hội
22


tỏ ra đơn giản hơn so với việc duy trì mối quan hệ trong xã hội bình thường, bởi cho
đi và nhận về trong mạng xã hội nhiều khi chỉ nằm ở mức có những bình luận trong
những bài viết của bạn bè.

7.4 Hạn chế của mạng xã hội
Những ưu thế mà mạng xã hội mang lại như đã kể trên là rất hữu ích cho nhu
cầu của con người, tuy vậy cũng cần phải chỉ ra một số mặt hạn chế của mạng xã hội:
Khi đã kết nối vào mạng xã hội đồng nghĩa với việc người dùng phải đối mặt
với nguy cơ bị lợi dụng các thông tin cá nhân đăng tải lên đó. Mạng xã hội cũng như
mọi trang web khác, đều phải giải quyết các vấn đề liên quan tới bảo mật thông tin.
Thêm vào đó, các trang mạng xã hội còn gặp phải một số vấn đề riêng. Ví dụ như
tình trạng nhắn tin rác làm phiền những thành viên tham gia, sử dụng những công cụ
tự viết. Vấn đề này xuất hiện khá nhiều trên các phương tiện thông tin đại chúng gần
đây. Hoặc vấn đề về sự cố các tài khoản mạng xã hội của những người nổi tiếng bị
hacker kiểm soát, những thông tin nhạy cảm được tung ra ...
Việc tham gia một mạng xã hội, việc kiểm tra các thay đổi gần đây từ bạn bè,
cập nhật những thay đổi, thông tin cho chính các thành viên làm tiêu tốn rất nhiều
thời gian của người tham gia. Theo những phân tích gần đây thì có tình trạng khá
nhiều người trẻ bị hội chứng nghiện khi tham gia mạng xã hội. Nếu tình trạng này
xảy ra ở diện rộng thì sẽ có rất nhiều hiệu ứng không tốt xảy ra [1,20].
8. Kết chương
Chương này đã trình bày được một số khái niệm cơ bản về mạng xã hội, đưa
ra được những mục tiêu và nhiệm vụ cụ thể cho việc khai thác thông tin mạng xã hội.
Ngoài ra, chương cũng trình bày được sự phát triển của mạng xã hội nhằm cho thấy
việc phân tích và khai thác thông tin mạng xã hội là nhu cầu cần thiết hiện nay
Để thực hiện các mục tiêu, nội dung mà phần đầu chương này đã đặt ra, tiếp
đến bài luận văn sẽ trình bày phần cơ sở lý thuyết về các kỹ thuật, thuật toán liên quan
ở chương 2, phần cơ sở lý thuyết sẽ làm cơ sở trong việc xây dựng mô hình chung
trong việc khai phá xu thế chủ đề quan tâm của người dùng mạng xã hội.

23


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT


1. KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu (KPDL) là một quá trình lớn nhằm phát hiện ra tri thức từ dữ
liệu đã thu thập được. Đây cũng là vấn đề cốt lõi mà bài luận khai thác. Có nhiều định
nghĩa về KPDL.
Giáo sư Tom Mitchell đã đưa ra định nghĩa về KPDL “KPDL là việc sử dụng
dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương
lai.”.
Một cách tiếp cận cụ thể hơn, Tiến sĩ Fayyad đã phát biểu: “KPDL, thường được
xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất
những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui
luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”.
Ngoài ra theo tài liệu của Weldon năm 1996, khai phá dữ liệu là việc phát hiện
tri thức nhờ các công cụ hoàn thiện sử dụng thống kê truyền thống, trí tuệ nhân tạo
và đồ họa máy tính.
Nói tóm lại, KPDL là một quá trình học tri thức mới từ những dữ liệu đã thu
thập được. KPDL đã và đang được áp dụng trong nhiều lĩnh vực khác nhau như thiên
văn học, y tế, thể thao, giáo dục, ..
Quá trình KPDL không chỉ là một quá trình tuần tự từ bước ban đầu cho đến
bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã thực hiện. Các
bước cơ bản trong quá trình KPDL từ dữ liệu thu thập ban đầu gồm các bước như
phân nhóm hay còn được gọi là gom nhóm dữ liệu, trích lọc dữ liệu, tiền xử lý dữ
liệu, khai phá dữ liệu thông qua mô hình,...Các bước cơ bản này được biểu diễn trực
quan qua hình 2.1.

24


Hình 2. 1: Mô hình khai phá dữ liệu


2. KỸ THUẬT XỬ LÝ VĂN BẢN
2.1 Đặc điểm của từ vựng tiếng Việt
Tiếng Việt được biết đến là một ngôn ngữ đơn lâ ̣p, tức là mỗi mô ̣t tiế ng (âm
tiế t) đươ ̣c phát âm tách rời nhau và đươ ̣c thể hiê ̣n bằng mô ̣t chữ viế t. Đă ̣c điể m này
thể hiê ̣n rõ rê ̣t ở tấ t cả các mă ̣t ngữ âm, từ vựng, ngữ pháp. Khác với các ngôn ngữ
châu Âu, mỗi từ là một nhóm các ký tự có nghĩa được cách nhau bởi một khoảng
trắng. Còn tiếng Việt, và các ngôn ngữ đơn lập khác, thì khoảng trắng không phải
là căn cứ để nhận diện từ. Trong tiếng Việt mỗi tiếng đều có ý nghĩa. Từ tiếng có
thể tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng ví dụ như karaoke,
thư điện tử (e-mail), phiên bản (version),...Ngoài ra tiếng Việt rất coi trọng việc sắp
xếp trật tự của từ. Khi các từ kết hợp với nhau theo quan hệ chính phụ thì từ đứng
sau giữ vai trò phụ, từ đứng sau giữ vai trò chính, ví dụ như từ tình cảm sẽ khác với
từ cảm tình [21].
Qua một số đặc điểm điển hình của tiếng Việt, việc xử lý dữ liệu văn bản tiếng
Việt cũng là một vấn đề thách thức trong quá trình khai phá dữ liệu.
25


2.2 Tiền xử lí dữ liệu
Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các
mô hình là rất cần thiết, bước này nhằm cải thiện chất lượng và làm sạch dữ liệu có
được ban đầu qua thu thập dữ liệu và có thể áp dụng được tương thích với các mô
hình khai phá dữ liệu cụ thể. Các công việc cơ bản của tiền xử lý dữ liệu bao gồm
những công việc như:
-

Phân nhóm: dữ liệu thu thập từ internet sẽ ở nhiều định dạng khác nhau do vậy
cần phân loại chúng cho việc xử lý kế tiếp.

-


Trích lọc dữ liệu thô là dữ liệu được thu thập trên các trang mạng xã hội, diễn
đàn, lấy tin tức từ các trang website,...Dữ liệu này còn được gọi là dữ liệu gốc,
chúng sau khi được phân loại sẽ được sàng lọc lại và lưu trữ những thông tin
cần thiết.

-

Làm sạch gồm một số bước cơ bản như:
 Tách ngữ là bước xóa bỏ các ký tự đặc biệt, các con số không có ý
nghĩa, có thể nhờ các dấu câu mà ta tách ngữ trong quá trình phân tích
 Loại bỏ từ dừng (stop-words) là việc bỏ đi những loại từ xuất hiện quá
nhiều lần trong các văn bản nhưng về phần ý nghĩa thì không quan
trọng, không liên quan đến chủ đề. Các từ dừng không giúp ích trong
việc phân biệt nội dung của các tài liệu văn bản. Việc loại bỏ đi các từ
dừng giúp cho việc xử lý văn bản được cải thiện về mặt thời gian. Một
số từ dừng điển hình là các từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,

 Loại bỏ các thẻ tag, các link liên kết, link trích dẫn đến trang website,
hình ảnh,...
 Loại bỏ các ký tự khoảng trắng nhiều hơn 2 lần liên tiếp, các ký tự
xuống dòng, các ký tự lạ của các ngôn ngữ tượng hình, các biểu tượng
cảm xúc trong ngôn ngữ chat, trong mạng xã hội.
 Tách từ: đây là khâu quan trọng để gán nhãn từ loại được chính xác
giúp việc khai phá dữ liệu được hiệu quả hơn. Trong khai phá văn bản,
nếu tách từ không chính xác thì khó mà đạt kết quả cao được.
26



×