Tải bản đầy đủ (.pdf) (74 trang)

XÂY DỰNG mô HÌNH PHÁT HIỆN các XU HƯỚNG THÔNG TIN nổi lên TRÊN MẠNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.96 MB, 74 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


TRẦN NGỌC TRÍ

XÂY DỰNG MÔ HÌNH PHÁT HIỆN CÁC XU
HƯỚNG THÔNG TIN NỔI LÊN TRÊN MẠNG

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60 48 01.01

TP HỒ CHÍ MINH – 2016


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


TRẦN NGỌC TRÍ

XÂY DỰNG MÔ HÌNH PHÁT HIỆN CÁC XU
HƯỚNG THÔNG TIN NỔI LÊN TRÊN MẠNG

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60 48 01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Quản Thành Thơ

TP HỒ CHÍ MINH – 2016




LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến PGS. TS Quản Thành Thơ. Thầy là người đã hướng
dẫn luận văn cho tôi. Trong quá trình thực hiện luận văn, Thầy đã tận tình hướng dẫn,
động viên trong những lúc tôi gặp khó khăn, và giúp đỡ tôi rất nhiều, Thầy đã cho tôi
những giải pháp, những ý kiến đóng góp quý báu để tôi có thể hoàn thành tốt luận văn
này.
Tôi xin chân thành cảm ơn các Thầy Cô trường Đại Học Công Nghệ Thông Tin thuộc
Đại Học Quốc Gia Thành Phố Hồ Chí Minh đã tận tình giảng dạy cho tôi trong suốt quá
trình học Cao Học tại trường.
Tôi xin gửi lời cảm ơn gia đình, bạn bè và các đồng nghiệp nơi tôi làm việc đã động viên
và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn.
Mặc dù đã cố gắng hết sức có thể để hoàn thành tốt nhất luận văn trong phạm vi và khả
năng cho phép nhưng chắc chắn luận văn sẽ không tránh khỏi những thiếu sót, kính mong
nhận được sự chỉ bảo tận tình của quý Thầy Cô và các bạn.
TP. Hồ Chí Minh, tháng 04 năm 2016

Trần Ngọc Trí

1


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi. Các kết quả nêu trong luận văn là
trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.
Tôi cam đoan các tài liệu tham khảo được trích dẫn trong luận văn đều đã được chỉ rõ về
nguồn gốc khoa học.
TP. Hồ Chí Minh, tháng 04 năm 2016
Tác giả luận văn


Trần Ngọc Trí

2


TÓM TẮT
Sự phát triển lớn mạnh của mạng xã hội trong thời gian gần đây đã đưa đến nhiều cơ hội
cũng như thách thức cho các công ty quản lý dòng dữ liệu truyền thông này. Thông tin
được chia sẻ trên mạng xã hội ngày càng trở nên khổng lồ, khó kiểm soát và phân loại.
Chính những khó khăn đó đã thúc đẩy sự phát triển mạnh mẽ của các nghiên cứu liên
quan đến khai phá dữ liệu trong các mạng xã hội. Một trong những hướng nghiên cứu và
phát triển nổi bật hiện nay của khai phá dữ liệu trên mạng xã hội là phát hiện những xu
hướng nổi lên.
Ngày nay, các công việc về phát hiện xu hướng và thông tin nổi lên trên mạng đang thật
sự thu hút nhiều sự quan tâm của các nhà nghiên cứu. Nghiên cứu này cung cấp một
hướng đi mới: sử dụng phương pháp gom cụm trong khai phá dữ liệu kết hợp với thông
tin thời gian để phát hiện những xu hướng nổi lên trên mạng.

3


ABSTRACT
The growth of social network in recent years has brought many opportunities and
challenges to companies which manage social media data. Information shared on social
network became bigger and bigger so it’s really not easy to control and classify them. But
these difficulties have promoted the development of research relatived to data mining in
social network, one of them is detection of emerging trends.
Nowadays, detection trends and emerging information in social network is attracting
many researchers. This research provides a new approach: using clustering method in

data mining combine with temporal information to detect emerging trends in social
network.

4


MỤC LỤC
Chương 1: GIỚI THIỆU ................................................................................................. 10
1.1

Lý do chọn đề tài ................................................................................................ 10

1.2

Mục tiêu của đề tài ............................................................................................. 11

1.3

Giới thiệu đề tài .................................................................................................. 11

1.4

Ý nghĩa khoa học ................................................................................................ 12

1.5

Cấu trúc của luận văn........................................................................................ 12

Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN ............................................................ 13
2.1


Giới thiệu ............................................................................................................ 13

2.2

Các phương pháp phát hiện xu hướng ............................................................ 14

2.2.1 Phương pháp bán tự động (semi-automatic)................................................. 15
2.2.2 Phương pháp tự động (automatic) ................................................................. 16
2.2.3
2.3

Phương pháp phân tích cụm dựa trên ngữ cảnh ..................................... 18

Hướng tiếp cận của đề tài .................................................................................. 18

Chương 3: CƠ SỞ LÝ THUYẾT ................................................................................... 20
3.1

Mạng xã hội ........................................................................................................ 20

3.2

Tiền xử lý văn bản .............................................................................................. 24

3.3

Vector trọng số tf-idf ......................................................................................... 26

3.4


Lý thuyết về gom cụm........................................................................................ 28
3.4.1 Giới thiệu về gom cụm ................................................................................ 29
3.4.2 Ứng dụng của gom cụm dữ liệu ................................................................. 30
3.4.3 Các yêu cầu đối với kỹ thuật gom cụm dữ liệu ......................................... 31
3.4.4 Một số kỹ thuật gom cụm dữ liệu .................. Error! Bookmark not defined.
3.4.4.1 Phương pháp gom cụm theo phân hoạch ......................................... 33
3.4.4.2 Phương pháp gom cụm theo phân cấp ............................................. 34
3.4.4.3 Phương pháp gom cụm theo mật độ ................................................. 35
3.4.4.4 Phương pháp gom cụm trên lưới ...................................................... 35
3.4.4.5 Phương pháp gom cụm dựa trên mô hình ....................................... 36
3.4.4.6 Phương pháp gom cụm có dữ liệu ràng buộc .................................. 37
5


3.5

Giới thiệu một số thuật toán gom cụm ............................................................. 37
3.5.1 Thuật toán gom cụm K-Means................................................................... 37
3.5.1.1 Ý tưởng ................................................................................................ 38
3.5.1.2 Thuật toán ........................................................................................... 38
3.5.1.3 Độ phức tạp thuật toán ...................................................................... 38
3.5.1.4 Ưu nhược điểm.................................................................................... 38
3.5.2 Gom cụm phân cấp (Hierarchical Clustering) ......................................... 38
3.5.2.1 Ý tưởng ................................................................................................ 38
3.5.2.2 Thuật toán ........................................................................................... 39
3.5.2.3 Độ phức tạp thuật toán ...................................................................... 39
3.5.2.4 Ưu nhược điểm.................................................................................... 40
3.5.3 Gom cụm mô hình EM ................................................................................ 40
3.5.3.1 Ý tưởng ................................................................................................ 40

3.5.3.2 Thuật toán ........................................................................................... 40
3.5.3.3 Ưu nhược điểm.................................................................................... 40

3.6

Thuật toán DBSCAN ......................................................................................... 41

3.7

Phương pháp tính khoảng cách khi gom cụm ................................................. 47

3.8

Xây dựng CSDL để lưu trữ thông tin .............................................................. 47

Chương 4: MÔ HÌNH PHÁT HIỆN XU HƯỚNG ĐƯỢC ĐỀ XUẤT....................... 50
4.1

Kiến trúc của hệ thống ...................................................................................... 50

4.2

Dữ liệu đầu vào ................................................................................................... 50

4.3

Phân đoạn dữ liệu theo thời gian ...................................................................... 51

4.4


Tiền xử lý văn bản và Tìm từ khóa quan trọng .............................................. 52

4.5

Phát hiện xu hướng ............................................................................................ 53

Chương 5: THỰC NGHIỆM .......................................................................................... 61
5.1

Kết quả thí nghiệm................................................. Error! Bookmark not defined.

5.1.1 Cách xây dựng tập dữ liệu thí nghiệm ........................................................... 63
5.1.2

Kết quả thí nghiệm ....................................................................................... 63

5.2

Đánh giá .............................................................................................................. 66

5.3

Kết luận ............................................................................................................... 66
6


Chương 6: KẾT LUẬN ................................................................................................... 68
6.1

Tổng kết .............................................................................................................. 68


6.2

Hướng phát triển ................................................................................................ 69

7


DANH MỤC CÁC BẢNG
Bảng 3.1 – Các mạng xã hội trên thế giới phổ biến nhất hiện nay.................................... 22
Bảng 3.2 – Các mạng xã hội ở Việt Nam phổ biến nhất hiện nay ................................... 23
Bảng 3.3: Biểu diễn các vector văn bản ........................................................................... 26
Bảng 4.1: Bảng dữ liệu Posts của module thu thập dữ liệu .............................................. 37
Bảng 4.2: Ví dụ kết quả sau khi tách từ Tiếng Việt ......................................................... 38
Bảng 4.3: Bảng dữ liệu Result của module phân tích xu hướng ...................................... 45
Bảng 5.1: Thông tin cấu hình đề nghị để cài đặt hệ thống ............................................... 47
Bảng 5.2: Kết quả Tập dữ liệu 1 ....................................................................................... 48
Bảng 5.3: Kết quả Tập dữ liệu 2 ....................................................................................... 50

8


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 3.1 – Cấu trúc mạng xã hội ...................................................................................... 21
Hình 3.2: Quy trình tách từ ............................................................................................... 25
Hình 3.3: Các vector văn bản được biểu diễn trong không gian 2 chiều ......................... 27
Hình 3.4: Mô phỏng sự gom cụm dữ liệu ......................................................................... 29
Hình 3.5: Đối tượng biên và đối tuợng lõi ....................................................................... 37
Hình 4.1: Mô hình hệ thống phát hiện xu hướng nổi trên mạng xã hội ........................... 44
Hình 4.2: Đồ thịsorted 4-dsit ............................................................................................ 49

Hình 4.3: Lưu đồ trích xuất thông tin qua Graph API ...................................................... 51
Hình 5.1: Kết quả hệ thống ............................................................................................... 56
Hình 5.2: Biểu đồ kết quả Tập dữ liệu 1 .......................................................................... 58
Hình 5.3: Kết quả tập dữ liệu 1 ........................................................................................ 58
Hình 5.4: Biểu đồ kết quả Tập dữ liệu 2 .......................................................................... 59
Hình 5.5: Kết quả tập dữ liệu 2 ........................................................................................ 60

9


Chương 1: GIỚI THIỆU
1.1 Lý do chọn đề tài
Trong những năm gần đây mạng xã hội ngày càng phát triển mạnh mẽ ở Việt Nam
cũng như trên thế giới. Đây không những là nơi để con người trò chuyện, giải trí, kết nối
bạn bè mà còn là một kênh cung cấp và chia sẽ thông tin giữa người sử dụng hoặc các
doanh nghiệp, công ty muốn quảng cáo sản phẩm của mình.
Vì internet nơi mà con người có thể thoải mái chia sẻ thông tin dẫn đến nhiều tiềm
năng rủi ro như nói xấu người khác, quảng cáo sai sự thực, khủng bố chính trị…. Cũng là
một trong những nỗi lo lắng của mỗi quốc gia, của mỗi cá nhân tổ chức…Chỉ cần một
thông tin sai lệch có thể tổ chức, cá nhân, quốc gia đó phải gánh một hậu quả nặng nề.
Như vậy ta có thể thấy điểm tốt và điểm xấu của internet cụ thể là các trang mạng
xã hội do đó ta cần có những nghiên cứu để đưa ra các giải pháp tối ưu giúp phát triển
mặt lợi từ mạng xã hội và cũng như giảm thiểu ngăn ngừa các nguy cơ xấu phát sinh từ
mạng xã hội.
Sự phát triển nhanh chóng của mạng xã hội cũng kéo theo sự bùng nổ dữ liệu:
khối lượng dữ liệu trực tuyến, thông tin chia sẽ trên mạng xã hội ngày càng trở nên khổng
lồ. Đây là một nguồn thông tin rất hữu ích, được cập nhật liên tục. Với thực tế trên, vấn
đề đặt ra là làm thế nào để có thể khai thác được những thông tin hữu ích này từ mạng xã
hội. Các nguồn thông tin này phải được xử lý như thế nào để người dùng hay những nhà
quản lý có thể phát hiện được những chủ đề được thảo luận phổ biến trên mạng xã hội.

Việc xác định những chủ đề được thảo luận phổ biến của các thành viên trong một
mạng xã hội và từ đó phát hiện ra những xu hướng nổi lên trong một mạng xã hội có ý
nghĩa thật sự quan trọng trong việc giúp chúng ta có thể hiểu tốt hơn những mối quan tâm
của xã hội. Một hệ thống phát hiện xu hướng nổi lên trên mạng xã hội sử dụng tiếng Việt
là hết sức cần thiết. Nó giúp các nhà quản lý có những chiến lược quản lý thông tin hiệu
quả nhất và nắm bắt xu hướng thông tin một cách nhanh chóng.
10


1.2 Mục tiêu của đề tài
✓ Trích xuất được thông tin trên mạng xã hội Facebook và các đầu báo lớn ở Việt
Nam.
✓ Đưa ra những cơ sở lý thuyết và hướng tiếp cận mới từ đó hình thành nên
phương pháp xây dựng một hệ thống phát hiện những xu hướng nổi lên trên
mạng.
✓ Xây dựng được hệ thống có thể triển khai thực tế trong việc phát hiện những
xu hướng nổi lên trên mạng.
1.3 Giới thiệu đề tài
Tiến hành thu thập dữ liệu từ các đầu báo lớn ở Việt Nam và đưa chúng vào cơ sở dữ
liệu (database) lưu trữ. Cơ sở dữ liệu này là đầu vào cho hệ thống phát hiện xu hướng nổi
lên. Toàn bộ hệ thống sẽ được xây dựng dựa trên ngôn ngữ Java, quét dữ liệu từ các đầu
báo bằng PHP. Các kết quả đầu ra sẽ được lưu trữ vào cơ sở dữ liệu Mysql.
Phân đoạn dữ liệu theo thời gian: dữ liệu được thu thập sẽ chia thành nhiều phân đoạn
theo thời gian. Dựa trên những phân đoạn dữ liệu này sau khi tìm được xu hướng nổi lên
hệ thống cũng xác định được những xu hướng này nổi lên trong khoảng thời gian nào.
Tiến hành tiền xử lý dữ liệu và tìm từ khóa quan trọng trong từng phân đoạn.
Kết hợp sử dụng phương pháp gom cụm DBSCAN để gom nhóm các bài viết giống
nhau. Phương pháp gom cụm DBSCAN ưu điểm là có thể khám phá các cụm chủ đề có
hình dạng bất kì và hiệu quả cao trong cơ sở dữ liệu lớn.
Cuối cùng là tính trọng số tương tác của từng bài viết (trên mạng xã hội Facebook)

trong từng cụm chủ đề. Trọng số tương tác của từng bài viết trên mạng xã hội Facebook
chỉnh là tổng lượng Yêu thích, Bình luận và Chia sẻ của bài viết đó trên Facebook. Trọng
số này được trích xuất thông qua Graph API do Facebook cung cấp.

11


1.4 Ý nghĩa khoa học
Luận văn có các ý nghĩa khoa học sau:
✓ Cung cấp công cụ phân tích xu hướng thông tin, giúp các nhà nghiên cứu có thể áp
dụng để phát triển các hệ thống khác.
✓ Gom cụm được các thông tin nổi bật giúp các nhà quản lý nắm được nhanh nhất
các sự kiện, các thông tin nóng hoặc các thông tin có thể gây ảnh hưởng lớn.
1.5 Cấu trúc của luận văn
Chương này đã giới thiệu tổng quan về đề tài. Phần còn lại của luận văn sẽ được tổ
chức như sau:
Chương 2: Trình bày các nghiên cứu liên quan, giới thiệu phương pháp và hướng
tiếp cận của đề tài.
Chương 3: Trình bày cơ sở lý thuyết được sử dụng để xây dựng hệ thống phát hiện
xu hướng nổi lên trên mạng xã hội.
Chương 4: Trình bày chi tiết về hệ thống phát hiện xu hướng nổi lên trên mạng.
Chương 5: Trình bày kết quả thực nghiệm và đưa ra đánh giá về hệ thống.
Chương 6: Đưa ra kết luận.

12


Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Giới thiệu

2.1.1 Tình hình nghiên cứu trên thế giới
Sự phát triển lớn mạnh của truyền thông xã hội (Social Media) trong thời gian gần
đây hẳn chúng ta ai cũng có thể nhận ra. Các doanh nghiệp thì sử dụng mạng xã hội cho
việc quảng bá tên tuổi, sản phẩm công ty, tạo mạng lưới khách hàng.Các cá nhân thì dùng
mạng xã hội cho việc tạo lập tên tuổi cho bản thân, hay chỉ đơn giản là chia sẻ những cảm
xúc, kết nối bạn bè.
Với sự phát triển bùng nổ như vậy kéo theo khối lượng dữ liệu trực tuyến, thông
tin chia sẻ trên mạng xã hội ngày càng trở nên khổng lồ, khó kiểm soát và sàng lọc.
Chính những nhu cầu đó đã thúc đẩy sự phát triển mạnh mẽ của các nghiên cứu có liên
quan đến khai phá dữ liệu trong các mạng xã hội (Social Media Mining) như:
-

Phát hiện khả năng mở rộng của các chủ đề đang nổi trong dòng văn bảng bằng
cách băm các ngưỡng quan trọng của: ErichSchubert, Michael Weiler và HansPeter Kriegel [4].

-

Hệ thống phát hiện xu hướng của các chủ đề dựa trên dòng dữ liệu của các tài
khoản Twitter nhất định của: Duc T. Nguyen và Jai E. Jung [5].

-

Phát hiện chủ đề nổi lên trên mạng xã hội Twitter của: James Benhardus và Jugal
Kalita [6]. Yavuz Selim Yilmaz, Muhammed Fatih Bulut, Cuneyt Gurcan Akcora,
Murat Ali Bayir và Murat Demirbas [7]. Mario Cataldi, Luigi Di Caro và Claudio
Schifanella [11].

-

Khai phá dữ liệu trong các miền web xã hội (social web) khác nhau bao gồm cả

những trang nhật ký (blogs) và thư điện tử (email) của: Matthew A. Russell [8].

-

Phương pháp phát hiện xu hướng trên mạng xã hội dựa vào phân tích xu hướng có
cấu trúc của : Ceren Budak, Divyakant Agrawal và Amr El Abbadi [9]. Tác giả
đưa ra hai định nghĩa mới cho xu hướng có cấu trúc là xu hướng có liên kết và
13


không liên kết (coordinated and uncoordinated trends). Ý nghĩa chính của cách
tiếp cận này là sẽ cho điểm số cao đối với các chủ đề được thảo luận nhiều trong
một cụm các nút mạng có liên kết chặt chẽ với nhau và những chủ đề được thảo
luận nhiều nhưng có ít các nút mạng ngoài cụm của nó liên kết đến nó.
-

Phương pháp phát hiện xu hướng nổi lên bằng “dictionary learning” của: Shiva
Prasad Kasiviswanathan, Prem Melville, Arindam Banerjee và Vikas Sindhwani
[10].
2.1.2 Tình hình nghiên cứu tại Việt Nam
Hiện nay mạng xã hội là một đề tài mang tính thời đại, các nhà khoa học trong

nước rất quan tâm tới các vấn đề liên quan tới mạng xã hội. Cũng có một số công trình
phát hiện các chủ đề trên mạng xã hội và việc quan tâm tới cộng đồng trên mạng xã hội
sẽ ngày càng phổ biến.
Đã có một số công cụ hữu hiệu để tách từ tiếng việt của nhóm tác giả Nguyễn Thị
Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương đó là công cụ vnTokenizer [2], trợ
giúp đắc lực cho việc thực hiện đề tài này của tác giả.
Hiện nay theo thống kê thì Việt Nam là một trong những quốc gia có số lượng
người dùng sử dụng mạng xã hội khá lớn, các kênh bán hàng, tiếp thị được tận dụng tối

đa thông qua mạng xã hội. Theo hiểu biết của tác giả thì hiện nay ở Việt Nam chưa có
những nghiên cứu chuyên sâu về mạng xã hội được công bố và áp dụng, do đó các nhà
quản lý rất khó kiểm soát cũng như tận dụng tối đa lợi ích từ các thông tin người sử dụng
trao đổi trên mạng xã hội.
2.2 Các phương pháp phát hiện xu hướng
Có hai loại kỹ thuật chính khác nhau được áp dụng để phát hiện xu hướng [10].
Chúng là phương pháp bán tự động (semi-automatic) và tự động (automatic). Các
phương pháp này được áp dụng để phát hiện xu hướng từ các miền khác nhau như dữ liệu
văn bản, dữ liệu đa truyền thông, và các công bố khoa học.
14


2.2.1 Phương pháp bán tự động (semi-automatic)
Phương pháp đầu tiên được đề cập đến là phương pháp bán tự động, hướng tiếp
cận của phương pháp này chỉ dựa trên thông tin thống kê và công sức từ con người để
xác định các xu hướng dựa trên các thông tin thống kê đó. Để hỗ trợ con người trong việc
phát hiện xu hướng, một giao diện người dùng thường được phát triển để hiển thị các
thông tin thống kê một cách có tổ chức.
Hệ thống phân tích thời cơ công nghệ (Technology Opportunities Analysis System
- TOAS) [11] cung cấp những thông tin đo lường của tài liệu như số lượng từ, trích dẫn,
ngày và thông tin nhà xuất bản. TOAS cung cấp thông tin đo lường thu được từ những
truy vấn của người dùng trên các miền nghiên cứu.
Trong một hệ thống khác, Envision [12] người dùng có thể khám phá ra được thư
viện kỹ thuật số đa phương tiện dưới dạng biểu diễn đồ họa để xác định các xu hướng.
Trong Envision những công bố khoa học từ lĩnh vực khoa học máy tính được chứa trong
những định dạng khác nhau như text, video và hiệu ứng.
Envision hỗ trợ tìm kiếm theo đoạn trích dẫn hoặc đầy đủ nội dung. Kết quả tìm
kiếm được hiển thị dưới dạng đồ họa như ma trận của các biểu tượng màu. Từ sự hiển thị
kết quả đó, người dùng có thể quan sát các quan hệ động liên quan giữa các công bố. Như
vậy, người dùng có thể xác định được những chủ đề nổi lên và xu hướng trong các miền

nghiên cứu.
CIMEL (Constructive, Collaborative Inquiry-based Multimedia E-learning) [13]
là một hệ thống cộng tác có thể xác định các xu hướng nổi lên từ vùng được lựa chọn bởi
người dùng. Để làm được điều đó CI EL thu thập thông tin từ các hội nghị và workshop
có liên quan đến vùng được lựa chọn. Sau đó các thông tin thống kê sẽ được tạo ra. Công
sức của con người là cần thiết để tạo ra các ứng viên xu hướng nổi lên từ các thông tin
được tạo ra.

15


2.2.2 Phương pháp tự động (automatic)
Phương pháp tiếp theo là phương pháp tự động (automatic), áp dụng kỹ thuật khai
phá dữ liệu thông minh (intelligent data mining) để tìm ra các xu hướng một cách tự
động, phương pháp này gồm có hai thành phần chính là khai phá tài liệu và khai phá thời
gian. Thành phần khai phá tài liệu tập trung xác định xu hướng dựa vào tài liệu trong khi
thành phần khai phá thời gian tập trung trên thông tin thời gian như ngày đăng tải của tài
liệu để xác định xu hướng.
Khai phá tài liệu:
Trong thành phần khai phá tài liệu, thông tin của các xu hướng được khai phá từ nội dung
của tài liệu. Các tài liệu được nhóm vào các cụm bằng một kỹ thuật gom cụm. Sau đó,
thông tin trong cụm sẽ được phân tích để xác định xu hướng.
Hệ thống HDDI [14] áp dụng phương pháp khai phá tài liệu để phát hiện xu hướng
từ dữ liệu văn bản. Đầu tiên hệ thống sử dụng kỹ thuật lựa chọn điểm đặc trưng để rút
trích những từ khóa quan trọng từ tài liệu. Sau đó, dựa trên những điểm đặc trưng được
rút trích hệ thống tính toán độ tương tự của tài liệu và gom nhóm những tài liệu phù hợp.
Thông tin trên số lượng của cụm, tần suất và sự kết hợp những điểm đặc trưng chính
trong cụm được sử dụng để xác định xu hướng. Trong HDDI, một kỹ thuật dựa trên mạng
neural cũng được đề xuất [15] cho việc phát hiện xu hướng nổi lên.
Các đoạn trích dẫn cung cấp thông tin liên quan giữa các công bố khoa học, nó rất

hữu ích cho phát hiện xu hướng nghiên cứu. Các tác giả bài báo [16] đề xuất một kỹ thuật
dựa trên các đoạn trích dẫn cho việc phát hiện xu hướng trong CiteSeer sử dụng cơ sở dữ
liệu trích dẫn (citation database) . Đầu tiên gom cụm các tài liệu trong các citation
database dựa trên thông tin kết hợp của chúng. Mỗi một cụm được tạo ra được xem như
là một xu hướng. Thông tin thời gian của tài liệu (ví dụ như ngày công bố) trong mỗi cụm
được sử dụng để cung cấp thông tin thống kê trên mỗi xu hướng. Kỹ thuật này hỗ trợ tìm
xu hướng dựa trên từ khóa người dùng nhập. Tuy nhiên, kỹ thuật này không xem xét
thông tin thời gian của tài liệu trong suốt quá trình gom cụm. Do đó, mặc dù các cụm có

16


thể được tìm thấy tương ứng với các truy vấn trên miền nghiên cứu, nhưng nó khó có thể
được sử dụng cho việc xác định xu hướng hiện tại trong miền nghiên cứu.
Khai phá thời gian:
Trong thành phần khai phá thời gian, thông tin của các xu hướng được khai phá từ thông
tin thời gian của tài liệu. Tài liệu trong một cơ sở dữ liệu văn bản được gom cụm dựa trên
ngày công bố. Sau đó, xu hướng có thể được phát hiện dựa trên các mẫu tuần tự của
những tài liệu có liên quan thông qua thời gian (hoặc ngày).
Khai phá thông tin thời gian từ một tập dữ liệu văn bản được đánh nhãn được đề
cập đến trong tài liệu [17]. Đầu tiên, nó sử dụng phương pháp thống kê để rút trích những
điểm đặc trưng quan trọng liên quan đến những thời kỳ nhất định của thời gian. Sau đó,
với mỗi thời kỳ tiến hành nhóm các điểm đặc trưng được rút trích thành các chủ đề. Như
vậy, TimeMines có thể xác định đúng các chủ đề hoặc sự kiện quan trọng được chứa
trong các thời kỳ nhất định của thời gian. Thông tin thống kê của các sự kiện trong mỗi
thời kỳ thời gian cũng được cung cấp.
Tương tự với Time ines, ThemeRiver [18] cũng khai phá thông tin thời gian từ
một tập dữ liệu văn bản lớn để xác định các chủ đề. Đầu tiên, ThemeRiver phân loại tài
liệu vào các nhóm dựa vào ngày công bố của chúng. Mỗi nhóm được thể hiện bởi một tập
các từ khóa được xem như một chủ đề. Do đó, ThemeRiver có thể xác định các chủ đề

cho mỗi thời kỳ của thời gian. Bước tiếp theo, ThemeRiver tính toán mức độ tương tự
của các chủ đề chứa trong từng thời kỳ thời gian khác nhau, kết hợp lại như một dòng
chảy. Khi giao diện đồ họa được hiển thị, một dòng chảy có thể hỗ trợ người sử dụng
quan sát sự thay đổi trong các chủ đề theo thời gian một cách trực quan.
Trong dự án TDT [19], một hệ thống “Event Tracking” được phát triển để lấy một
tập dữ liệu văn bản như là đầu vào. Dữ liệu trong tập văn bản chứa một vài mẩu chuyện
tin tức. Những mẩu chuyện này được sắp xếp theo thời gian. Sau đó, trong mỗi mẩu
chuyện, hệ thống TDT rút trích một tập các từ khóa quan trọng. Thông qua việc so sánh
tập từ khóa vừa được rút trích từ một mẩu chuyện với những mẩu chuyện khác trong quá
khứ, hệ thống TDT có thể phán đoán xem mẩu chuyện này có giống với những mẩu
17


chuyện trong quá khứ hay không. Nếu mẩu chuyện này không giống với những mẩu
chuyện trong quá khứ, hệ thống sẽ ghi lại một sự kiện mới được phát hiện. Mỗi một sự
kiện được xem là một xu hướng mới được tìm thấy tại thời gian đó.
2.2.3 Phương pháp phân tích cụm dựa trên ngữ cảnh
Các tác giả trong bài báo [20] đã đề xuất một phương pháp phát hiện xu hướng
trong miền nghiên cứu dựa trên kỹ thuật phân tích cụm thông qua ngữ cảnh (Contextbased Cluster Analysis - CCA). Phương pháp này có thể phát hiện các xu hướng trong
nghiên cứu dựa trên một cơ sở dữ liệu trích dẫn một cách hoàn toàn tự động. CCA gồm
hai quá trình chính: phát sinh quan hệ và ngữ cảnh xuyên qua các cụm.
2.3 Hướng tiếp cận của đề tài
Xây dựng nên một hệ thống phát hiện xu hướng nổi lên trên mạng kết hợp giữa yếu tố nội
dung và thời gian.
Dựa vào nhãn chuyên mục trong quá trình quét dữ liệu từ các đầu báo lớn ở Việt
Nam, phân dữ liệu theo từng chuyên mục (xã hội, thế giới, thể thao, v.v…). Với cách chia
này sẽ giúp giảm khối lượng dữ liệu trong quá trình xử lý và tăng tốc độ tính toán. Đồng
thời chia khối lượng dữ liệu rất lớn của từng chuyên mục ra thành nhiều phân đoạn
(interval) theo thời gian. Với cách phân đoạn này sẽ giúp cho việc thao tác và tính toán
trên tập dữ liệu của từng chuyên mục được cải tiến đáng kể về mặt tốc độ. Nhờ vào phân

đoạn dữ liệu theo từng phân đoạn thời gian nên sau khi tìm được những xu hướng nổi lên
hệ thống cũng xác định được những xu hướng này nổi lên trong khoảng thời gian nào.
Thực thi gom cụm các bài viết giống nhau bằng phương pháp DBSCAN. Khoảng
cách dùng để gom cụm sử dụng độ tương tự Cosine.
Đánh giá độ bùng nổ của các cụm bài viết bằng cách tính trọng số tương tác của
mỗi bài viết trên mạng xã hội Facebook. Trọng số tương tác chính là tổng lượt Yêu thích,
Bình luận và Chia sẻ link bài viết đó trên Facebook. Trọng số này được rút trích từ
Facebook thông qua Graph API.
18


Phương pháp luận văn tập trung nghiên cứu:
➢ Kỹ thuật gom cụm: Tập trung nghiên cứu Thuật toán DBSCAN.
➢ Biểu diễn nội dung bài viết dưới dạng Vector trọng số TF-IDF.
➢ Cách sử dụng Grap API để rút trích lượt tương tác của mỗi bài viết.
➢ Hệ thống lưu trữ:
✓ Lưu trữ dữ liệu là nội dung các bài báo trước và sau khi tiền xử lý sử dụng
hệ cơ sở dữ liệu phân tán mã nguồn mở Cassandra.
✓ Lưu trữ dữ liệu là kết quả Gom cụm sử dụng hệ quản trị cơ sở dữ liệu
MySQL.

19


Chương 3: CƠ SỞ LÝ THUYẾT
Chương này trình bày những kiến thức nền tảng liên quan tới mạng xã hội, đồng thời đi
sâu vào việc phân tích và diễn giải các cơ sở lý thuyết được chọn để thực hiện hệ thống
phát hiện xu hướng nổi lên trên mạng.
3.1 Mạng xã hội
Mục này luận văn sẽ trình bày các khái niệm liên quan tới mạng xã hội, cấu trúc và

tính chất của mạng xã hội, tầm ảnh hưởng của mạng xã hội đối với cuộc sống công nghệ
hiện nay, các lợi ích khi khám phá mạng xã hội, đồng thời luận văn cũng giới thiệu sơ
lược các mạng xã hội lớn phổ biến hiện nay mà cộng đồng người dùng đang sử dụng.
3.1.1 Khái niệm mạng xã hội
Theo Wikipedia thì mạng xã hội là: dịch vụ nối kết các thành viên cùng sở thích
trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và
thời gian. Những người tham gia vào mạng xã hội còn được gọi là cư dân mạng.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ
file, blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở
thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới. Các
dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo
nhóm (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ
e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách
báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán...
Các mạng xã hội phổ biến nhất hiện nay trên thế giới là: Facebook, LinkedIn,
Twitter, Google Plus…
3.1.2 Cấu trúc và tính chất của mạng xã hội
Mạng xã hội được thể hiển ở các nút và các liên kết:
Nút (node): Là một thực thể trong mạng (cư dân mạng). Thực thể này có thể là
một cá nhân, một doanh nghiệp hoặc một tổ chức bất kỳ nào đó
20


Liên kết (tie):Là mối quan hệ giữa các thực thể đó. Trong mạng có thể có nhiều
kiểu liên kết. Ở dạng đơn giản nhất, mạng xã hội là một đơn đồ thị vô hướng các mối liên
kết phù hợp giữa các nút. Ta có thể biểu diễn mạng liên kết này bằng một biểu đồ mà các
nút được biểu diễn bởi các điểm còn các liên kết được biểu diễn bởi các đoạn thẳng.

Hình 3.1 – Cấu trúc mạng xã hội (nguồn Wikipedia)
3.1.3 Tầm ảnh hưởng của mạng xã hội

Với sự phát triển mạnh mẽ của công nghệ thông tin, cùng với sự bùng nổ các trang
mạng xã hội hiện nay đã gây ảnh hưởng to lớn tới mọi mặt kinh tế, chính trị, xã hội, văn
hóa, nghệ thuật, lối sống… của từng cá nhân. Bên cạnh những ảnh hưởng tích cực thì
những ảnh hưởng tiêu cực cũng ngày càng thể hiện rõ:
Ảnh hưởng tích cực:
-

Giúp kết nối bạn bè và chia sẻ thông tin nhanh chóng, giúp con người có thêm
nhiều tri thức.

-

Dễ dàng tìm ra nhóm cộng tác làm việc với chất lượng cao.

-

Có thể lưu trữ lại những thông tin quý giá trên mạng trường tồn theo thời gian.

-

Hỗ trợ đắc lực trong việc tiếp thị sản phẩm.

-

Tạo làn sóng tương tác mạnh mẽ với tốc độ chóng mặt

Ảnh hưởng tiêu cực:
-

Giảm tương tác thực tế ngoài đời sống giữa con người với nhau


-

Tăng cảm giác muốn gây sự chú ý, từ đây làm cho con người trở lên khác biệt
trong cuộc sống, gây ảnh hướng xấu.
21


-

Không tập trung vào những mục tiêu thực của cuộc sống.

-

Có nguy cơ mắc bệnh trầm cảm cao.

-

Chuyện tình cảm dễ bị tan vỡ do tiếp xúc với nhiều người trên mạng xã hội tạo ra
những luồng suy nghĩ lệch lạc.

-

Xuất hiện khái niệm mới “anh hùng bàn phím”, đưa ra những nhận định vô căn cứ
có thể làm tổn hại thanh danh của cá nhân, tổ chức, công ty…

-

Mất đi sự riêng tư vì cách sử dụng mạng xã hội không đúng mực.


-

Những tổ chức chống đối nhà nước dễ tuyên truyền và phá hoạt đất nước.

-

Người sử dụng dễ bị lừa đảo trên mạng xã hội do thiếu thông tin.
3.1.4 Các lợi ích khi khai phá mạng xã hội
Từ những ảnh hưởng tích cực và tiêu cực ta thấy rằng cần có những công cụ hữu

hiệu để khám phá, phân tích thông tin trên mạng xã hội. Cụ thể là khám phá xu hướng
thông tin bùng nổ dựa trên việc phân tích bài viết được tương tác nhiều trên mạng xã
hội… từ đó có thể giúp cá nhân cũng như các nhà hoạt động chính sách đưa ra những
quyết định đúng đắn, làm tăng thêm sức mạnh của mạng xã hội cũng như có thể ngăn
chặn được những ảnh hưởng xấu do mạng xã hội gây ra chẳng hạn như nói xấu công ty,
nói xấu chính quyền, lợi dụng mạng xã hội để trục lợi...
Trong phạm vi của luận văn, việc khai phá mạng xã hội sẽ dựa trên mức độ tương
tác của nội dung được chia sẻ trên mạng xã hội:
Gom cụm các bài viết được tương tác nhiều trên mạng xã hội: thành quả của loại
gom cụm này giúp các nhà quản lý có thể nhận biết được những loại thông tin gì đang
được cộng đồng trên mạng xã hội quan tâm.
3.1.5 Các mạng xã hội lớn phổ biến hiện nay
Hiện nay trên thế giới có nhiều mạng xã hội phổ biến, sau đây là danh sách các mạng xã
hội được sử dụng nhiều nhất:

22


Mạng xã hội


Mô tả

Số thành viên
(đầu năm 2014)

Facebook là một dịch vụ mạng xã hội ra mắt vào Hơn 1 tỉ.

Facebook

tháng 2 năm 2004, do Facebook.Inc điều
hành.Người sử dụng có thể kết bạn, gửi tin,
comment, chia sẻ thông tin, hình ảnh…
Twitter là một mạng xã hội trực tuyến và dịch Hơn 400 triệu.

Twitter

vụ tiểu blog cho phép người dùng gửi và đọc các
tin nhắn văn bản lên đến 140 ký tự, được gọi là
“tweet”. Được thành lập vào tháng 3 năm 2006.
LinkedIn là một mạng xã hội dành cho những Hơn 300 triệu.

LinkedIn

người chuyên nghiệp. Được ra mắt vào ngày 5
tháng 5 năm 2003.
Google Plus+

Google + ra mắt ngày 28 tháng 6 năm 2011. Hơn 600 triệu.
Google+ là một “lớp xã hội” không chỉ gồm một
website duy nhất, mà bao quát nhiều tài sản trực

tuyến của Google.

Pinterest

Pinterest là website chia sẻ ảnh theo dạng mạng Hơn 300 triệu.
xã hội, post và phân loại dưới dạng các tấm
bảng dán ảnh. Được thành lập bởi Ben
Silbermann và trang web này hiện đang được
quản lý bởi Cold Brew Labs.
Bảng 3.1 – Các mạng xã hội trên thế giới phổ biến nhất hiện nay

23


×