Tải bản đầy đủ (.pdf) (44 trang)

Dự báo chủ đề nóng trên mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.73 MB, 44 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHẠM TRUNG SƠN

DỰ BÁO CHỦ ĐỀ NÓNG
TRÊN MẠNG XÃ HỘI
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 6 năm 2019


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BACH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học :

GS. TS. Cao Hoàng Trụ
TS. Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 1 : .............................................................
Cán bộ chấm nhận xét 2 : .............................................................

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày ......... tháng . . . . năm ............
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 ................. .......... .................. .............................. .'...


2 .............................................................................
3 ................................................................
4 ................................................................
5 ................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ................


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH
KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHẠM TRUNG SƠN .......................... MSHV: 1670016
Ngày, tháng, năm sinh: 24/11/1993 ................................. Nơi sinh: Bình Dương
Chuyên ngành: Khoa Học Máy Tính ............................... Mã số : 60.48.01.01
I. TÊN ĐỀ TÀI:
Dự báo chủ đề nóng trên mạng xã hội
II.

NHIỆM VỤ VÀ NỘI DUNG:






Tìm hiểu bài toán phát hiện và dự báo chủ đề nóng trên mạng xã hội.
Tìm hiểu các công trình liên quan và cơ sở lý thuyết của đề tài.
Đe xuất phương pháp dự báo chủ đề nóng trên mạng xã hội.
Đánh giá phương pháp được đề xuất: chuẩn bị dữ liệu, thực hiện các thí nghiệm, và
phân tích và đánh giá kết quả theo các độ đo: Accuracy, Recall, Precision, và
F-measure.

III.

NGÀY GIAO NHIỆM vụ : 13/08/2018

IV.

NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019

V.

CÁN Bộ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên):
GS. TS. Cao Hoàng
Trụ TS. Võ Thị Ngọc
Châu

Tp. HCM, ngày
CÁN Bộ HƯỚNG DẢN
(Họ tên và chữ ký)

....


tháng. . . . năm 20....

CHỦ NHIẸM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

GS. TS. Cao Hoàng Trụ TS. Võ Thị Ngọc Châu
TRƯỞNG KHOA ........
(Họ tên và chữ ký)


LỜI CẢM ƠN
Đầu tiên, chúng tôi xin chân thành cảm ơn đến thầy Cao Hoàng Trụ và cô Võ Thị Ngọc
Châu, khoa Khoa Học và Kỹ Thuật Máy Tính đã tận tình huớng dẫn chúng tôi từ khâu lựa
chọn đề tài, theo dõi, sửa chữa, hoàn thiện cho chúng tôi suốt trong quá trình thực hiện,
cũng nhu theo sát trao đổi về nhiều vấn đề, mở mang cho chúng tôi nhiều huớng đi mới,
giúp chúng tôi hoàn thiện từ ý tuởng đến hiện thực, lí luận cũng nhu cách trình bày.
Chúng tôi chân thành biết ơn sự tận tình dạy dỗ, giúp đỡ của các thầy cô trong khoa Khoa
học và Kỹ thuật Máy tính đã truyền đạt những kinh nghiệm, kiến thức, những bài giảng vô
cùng sâu sắc và hữu ích mà ngày hôm nay đã đuợc vận dụng trong đề tài. Cuối cùng, chúng
tôi gửi lời cảm ơn đến gia đĩnh, bạn bè, những nguời đã quan tâm, động viên, giúp đỡ cả về
thể chất lẫn tinh thần để chúng tôi có đủ nghị lực, sức khỏe hoàn thành tốt đuợc đề tài, luận
văn
Với lòng biết ơn chân thành, chúng tôi xin gửi lời chúc sức khỏe, lời biết ơn và những điều
tốt đẹp nhất tới các thầy cô ở khoa Khoa học và Kỹ thuật Máy tính truờng Đại Học Bách
Khoa thành phố Hồ Chí Minh.

Trân trọng!


TÓM TẮT LUẬN VĂN



Với sự phát triển của mạng xã hội, ngày càng có nhiều thông tin, chủ đề được chia sẻ, bàn
luận, và thu hút nhiều người dùng hơn. Các bài toán phát hiện, phân tích, dự báo cho các
chủ đề nóng được quan tâm nghiên cứu do có ý nghĩa thực tiễn cao trong các lĩnh vực ứng
dụng khác nhau như tiếp thị, quảng bá nội dung.
Qua nghiên cứu bài toán và các công trình liên quan, chúng tôi đã nắm bắt, khảo sát được
bài toán dự báo chủ đề nóng về thực trạng, thách thức cũng như các đặc trưng và mô hĩnh
dự báo được sử dụng cho bài toán. Trên cơ sở đó, chúng tôi đã đề xuất kết hợp các nhóm
đặc trưng và xây dựng phương pháp hĩnh thành mẫu dữ liệu âm-dương cho bài toán dự báo
chủ đề nóng. Sau đó, chúng tôi giải quyết bài toán như bài toán phân lóp nhị phân với
hướng tiếp cận học máy, dùng các giải thuật học có giám sát. Với các đề xuất trên cho luận
văn, chúng tôi đã xây dựng bài toán, phát triển giải pháp, và thực hiện các thí nghiệm đánh
giá một cách chặt chẽ, đầy đủ nhằm tạo một cơ sở so sánh cho các công trình sau. Các kết
quả thí nghiệm khả quan, được cải thiện với các đề xuất đóng góp của luận văn, cho bài
toán dự báo chủ đề nóng.


ASBTRACT
With the development of social networks, more and more information, topics are shared,
discussed, and attracted a lot of users. The problems of detecting, analyzing and predicting
for hot topics are interested in research due to their high practical meaning in different
application areas such as marketing and content promotion. Through studying the problem
and related works, we have grasped and surveyed the hot topic prediction problem about
the situation and challenges as well as the characteristics and predictive models used for
the problem. On that basis, we have proposed combining feature groups and developing
methods to form positive and negative data samples for the problem of hot topic
prediction. Then we solve the problem as a binary classification problem with a machine
learning approach, using supervised learning algorithms. With the above suggestions for
the dissertation, we have stated a problem, developed a solution, and conducted rigorous

and complete evaluation experiments to create a comparative basis for the following
works. Experimental results were positive, improved with suggestions of the thesis, for the
hot topic prediction problem.


LỜI CAM ĐOAN
Chúng tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các nguồn khác có ghi
rõ trong tài liệu tham khảo, phụ lục thi các công việc trình bày trong luận văn tốt nghiệp
này đều cho chính tôi thực hiện và chua có phần nội dung nào của luận văn đuợc xuất bản,
sử dụng ở truờng hoặc nơi khác. Neu có bất kỳ sai phạm nào, tôi xin chịu hoàn toàn trách
nhiệm truớc Ban Chủ Nhiệm Khoa và Ban Giám Hiệu Nhà Trường.

Tp. Hồ Chí Minh, tháng 6 năm 2019
Học viên thực hiện

Phạm Trung Sơn


MỤC LỤC
DANH MỤC HÌNH........................................................................................................... 3
DANH MỤC BẢNG BIÊU ............................................................................................... 4
DANH MỤC TỪ VIẾT TẮT ............................................................................................ 5
Chương 1:

GIỚI THIỆU ............................................................................................. 6

1.1. TÔNG QUAN ..................................................................................................... 6
1.2. MỤC TIÊU CỦA ĐỀ TÀI ................................................................................. 8
1.3. PHẠM VI CỦA ĐỀ TÀI .................................................................................... 8
1.4. Ý NGHĨA ĐỀ TÀI ............................................................................................. 9

1.4.1.

Ý nghĩa thực tiễn ....................................................................................... 9

1.4.2.

Ý nghĩa khoa học....................................................................................... 9

1.5. CẤU TRÚC LUẬN VĂN ................................................................................... 9
Chương 2:

CÔNG TRÌNH LIÊN QUAN .................................................................. 11

Chương 3:

PHÂN TÍCH VẤN ĐỀ ............................................................................ 13

3.1. .................................................................................................................
PHÁT

BIÊU

BÀI

TOÁN

Dự

BÁO


CHỦ

ĐỀ

NÓNG

...................................................................................................................................... 1
3
3.2. CÁC CÂU HỎI NGHIÊN cứu .......................................................................... 14
3.3. THÁCH THỨC ................................................................................................. 15
Chương 4:

PHUONG PHÁP ĐỀ XUẤT................................................................... 16

4.1. TỒNG QUAN VỀ HUỚNG TIẾP CẬN GIẢI QUYẾT BÀI TOÁN
16
4.2. XÁC ĐỊNH MẢU DUONG, MẢU ÂM ............................................................. 17
4.2.1.

Phương pháp chuẩn bị dữ liệu theo cực đại toàn cục .............................. 17

4.2.2.

Phương pháp chuẩn bị dữ liệu theo ngưỡng số lượng bài đăng .............. 18
1
4.3. .................................................................................................................
RÚT

TRÍCH


ĐẶC

TRUNG


4.4. HIỆN THỰC MÔ HÌNH Dự BÁO ................................................................... 22
Chương 5:

ĐÁNH GIÁ ............................................................................................. 23

5.1. CÁC MỤC TIÊU ĐÁNH GIÁ .......................................................................... 23
5.2. MÔI TRƯỜNG THÍ NGHIỆM......................................................................... 23
5.2.1.

Dữ liệu ..................................................................................................... 23

5.2.2.

Các phương pháp phân lớp được sử dụng ............................................... 24

5.2.3.

Các độ đo và phương pháp đánh giá ....................................................... 24

5.3. KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ ..................................................... 24
5.3.1.

Nhóm thí nghiệm tổng quan các đặc trưng ............................................. 24

5.3.2.


Nhóm thí nghiệm kết hợp các đặc trưng ................................................. 26

5.3.3.

Nhóm thí nghiệm khảo sát phương pháp phân lớp ................................. 27

5.3.4.

Nhóm thí nghiệm khảo sát các tham số K * , u ....................................... 28

Chương 6:

KẾT LUẬN ............................................................................................. 32

6.1. TÔNG KẾT KẾT QUẢ..................................................................................... 32
6.2. HƯỚNG PHÁT TRIỂN .................................................................................... 33
TÀI LIỆU THAM KHẢO ............................................................................................... 34

2


DANH MỤC HÌNH


Hình 1 Sơ đồ tổng quát của hệ thống phát hiện và dự báo chủ đề nóng trên mạng xã
hội ...................................................................................................................................... 8
Hình 2 Bài toán dự báo chủ đề nóng ............................................................................... 13
Hình 3 Hướng tiếp cận học có giảm sát với các đặc trưng được rút trích cho bài toán
dự báo chủ đề nóng .......................................................................................................... 16

Hình 4 Mau âm và dương với phương pháp chuẩn bị dữ liệu theo cực đại toàn cục.... 18
Hình 5 Mau âm và mẫu dương với phương pháp chuẩn bị dữ liệu theo ngưỡng số
lượng bài đăng ................................................................................................................. 19
Hình 6 Sơ đồ xây dựng mô hình dự báo chủ đề nóng .................................................... 22
Hình 7 Biểu đồ độ đo F1 của thí nghiệm với phương pháp chuẩn bị dữ liệu theo cực
đại toàn cục ...................................................................................................................... 29
Hình 8 biểu đồ độ đo F1 của thí nghiệm với phương pháp chuẩn bị dữ liệu theo ngưỡng số
lượng bài đăng ................................................................................................................. 30

3


DANH MỤC BẢNG BIÊU
Bảng 1 Các đặc trưng sử dụng ........................................................................................ 19
Bảng 2 Các phương pháp phân lớp sử dụng ................................................................... 24
Bảng 3 Kết quả thí nghiệm về từng đặc trưng trên bộ dữ liệu với phương pháp chuẩn
bị dữ liệu theo cực đại toàn cục ....................................................................................... 25
Bảng 4 Kết quả thí nghiệm về từng đặc trưng trên bộ dữ liệu với phương pháp chuẩn
bị dữ liệu theo ngưỡng số lượng bài đăng ....................................................................... 25
Bảng 5 Kết quả thí nghiệm kết hợp các đặc trưng trên bộ dữ liệu với phương pháp
chuẩn bị dữ liệu theo cực đại toàn cục ............................................................................ 26
Bảng 6 Kết quả thí nghiệm kết hợp các đặc trưng trên bộ dữ liệu với phương pháp
chuẩn bị dữ liệu theo ngưỡng số lượng bài đăng ............................................................ 27
Bảng 7 Kết quả thí nghiệm về các phương pháp phân lớp trên bộ dữ liệu với phương
pháp chuẩn bị dữ liệu theo cực đại toàn cục ................................................................... 27
Bảng 8 Kết quả thí nghiệm về các phương pháp phân lớp trên bộ dữ liệu với phương
pháp chuẩn bị dữ liệu theo ngưỡng số lượng bài đăng.................................................... 28
Bảng 9 Kết quả độ đo F1 của thí nghiệm với phương pháp chuẩn bị dữ liệu theo cực
đại toàn cục...................................................................................................................... 29
Bảng 10 Kết quả độ đo F1 của thí nghiệm với phương pháp chuẩn bị dữ liệu theo ngưỡng

số lượng bài đăng ............................................................................................................ 30

4


DANH MỤC TỪ VIẾT TÁT
Từ viết tắt

Dạng đầy đủ

API

Application Programming Interface

NLTK

Natural Language Toolkit

GBDT

Gradient Boosting Decision Tree

SVM

Support Vector Machine

LR

Logistic Regression


PAA

Piecewise aggregate approximation


Chương 1:

GIỚI THIỆU

1.1. TỎNG QUAN
Ngày nay, với sự phát triển mạnh mẽ của công nghệ xử lí, lưu trữ, và truyền tải dữ liệu,
cách con người giao tiếp và tim kiếm thông tin cũng thay đổi. Thay vĩ chỉ tiếp nhận thông
tin một cách thụ động, giờ đây người dùng lại trở trành nhân tố chính trong việc chia sẻ
thông tin với nhu cầu và tốc độ tương tác tăng lên nhiều lần so với các phương pháp truyền
thống cũ. Các mạng xã hội ra đời và đang dần đi vào cuộc sống hằng ngày của con người.
Cùng với sự phát triển của các thiết bị di dộng, đặc biệt là điện thoại thông minh, người
dùng có thể dễ dàng đăng bài viết, trạng thái cá nhân, gửi tin nhắn, chia sẻ tin tức và tham
gia thảo luận các chủ đề trên nhiều lĩnh vực khác nhau.
Với hàng tỷ người dùng, mạng xã hội trở thành nơi, công cụ chính, để con người thu nhập
và chia sẻ thông tin. Một số ví dụ có thể kể đến như Facebook và Twitter. Facebook là một
mạng xã hội với số lượng người dùng hoạt động hàng tháng lên đến con số 2.38 tỷ1.
Twitter là một mạng xã hội chia sẻ, có thể có khoảng 6000 bài viết được đăng mỗi giây, và
khoảng 500 triệu mỗi ngày2. Thông tin được chia sẻ rất đa dạng, phong phú, từ những dòng
cập nhật trạng thái cá nhân, ý kiến, cảm xúc, kinh nghiệm... cho đến những tin tức mới
nhất, cũng như những cập nhật và thảo luận về những sự kiện nóng đang diễn ra trên thế
giới. Mạng xã hội còn có thể ghi nhận nhanh chóng các bĩnh luận, phản ứng, thái độ, và
cảm xúc của người đọc về các chủ đề. Bên cạnh đó, các chủ đề nóng cũng ảnh hưởng
ngược lại không nhỏ đến suy nghĩ, quyết định của người dùng trong các lĩnh vực như đầu
tư, tiếp thị, việc làm, ...
Vấn đề khai thác thông tin hiệu quả từ mạng xã hội trở nên cực kỳ cần thiết. Ta nhận ra

tiềm năng khai thác thông tin từ việc phát hiện, diễn dịch, phân tích các chủ đề được bàn
luận trên mạng xã hội. Ví dụ như các chủ đề có thể cung cấp nhiều thông tin hữu ích trong
tiếp thị sản phấm. Đặc tính lan tỏa nhanh chóng của các chủ đề nóng trên

1 />
2

/>

mạng xã hội cũng được tận dụng trong việc xây dựng thương hiệu và quảng bá nội dung.
Do đó, để đáp ứng nhu cầu nắm bắt được các chủ đề nóng cũng như nắm bắt được người
dùng và sự tương tác của họ, các bài toán liên quan đến phát hiện, phân tích, dự báo về các
chủ đề như phát hiện chủ đề nóng (hot topic detection), dự báo chủ đề nóng (hot topic
prediction) được đặt ra và quan tâm nghiên cứu.
Cùng với số lượng bài đăng, tin nhắn, bĩnh luận cũng như số lượng người dùng khổng lồ,
các thông tin trên mạng xã hội có thể lan tỏa một cách nhanh chóng so với các phương tiện
truyền thông trước đây. Bài toán xử lí thông tin về các chủ đề thảo luận như bài toán dự báo
chủ đề nóng đòi hỏi những yêu cầu về hiệu quả và thời gian xử lí khắt khe. Ngoài ra, các
thông tin, chủ đề, sự kiện được đăng tải trên mạng xã hội thường có tính mới, rất cập nhật
so với các kênh thông tin khác như báo chí truyền thống. Đặc điểm này khiến cho việc xử
lý của các bài toán liên quan trở nên khó khăn và phức tạp hơn.
Phát hiện chủ đề nóng là vấn đề đưa ra được một danh sách các chủ đề nóng từ tập hợp các
bài đăng, thông điệp thảo luận của người dùng tại thời điểm hiện tại. Ở bài toán phát hiện
chủ đề nóng, hiện tại đã có nhiều công trĩnh nghiên cứu được công bố với nhiều cách tiếp
cận khác nhau và cho kết quả rất khả quan như hệ thống TwitterNews [1], TwitterNews+
[2] với hướng tiếp cận gọm cụm gia tăng (Incremental-clustering- based) cho các chủ đề.
Hiện nay, hệ thống TwitterNews+ sau khi được tinh chỉnh và công bố năm 2018 [2] đạt kết
quả phát hiện lên đến trên 90% với bộ dữ liệu Event 2012 [3]. Ngoài ra còn có một số
hướng tiếp cận khác dựa trên độ thú vị của từ khóa (Term-interestingness-baseđ) được áp
dụng trong các công trĩnh tiêu biểu như hệ thống Twevent [4] và Twitinfo [5], hướng tiếp

cận dựa trên mô hĩnh hóa chủ đề (Topic-modelling-based) [6].
Ngược lại, các công trĩnh nghiên cứu về dự báo chủ đề nóng lại có nhiều kết quả rời rạc,
trên nhiều bộ dữ liệu khác nhau và hầu hết là không được công khai. Các kết quả này khiến
cho các đề xuất hiện tại cho bài toán dự báo chủ đề nóng mang tính lý thuyết, khó so sánh
(chúng tôi sẽ trình bày kỹ hơn ở Chương 2: Công trình liên quan).

7


1.2. MỤC TIÊU CỦA ĐỀ TÀI
Từ các vấn đề thực tiễn và quá trình nghiên cứu các vấn đề liên quan đến phát hiện và dự
báo các chủ đề nóng, mục tiêu chính của đề tài mà chúng tôi đặt ra là:
Nghiên cứu bài toán dự báo chủ đề nóng trên mạng xã hội, nghiên cứu các phương pháp
xây dựng bộ dữ liệu đánh giá cho bài toán, và đề xuất phương pháp dự báo chủ đề nóng, dể
giải quyết bài toán hiệu quả.
Trong Hình 1, hệ thống phát hiện và dự báo chủ đề nóng trên mạng xã hội đuợc giới thiệu.
Trong đó, nghiên cứu hệ thống phát hiện chủ đề, chủ đề nóng thuờng là buớc đầu tiên cho
bài toán dự báo chủ đề nóng [7], [8]. Khi này, đầu vào của bài toán dự báo chủ đề nóng là
các bài đăng cùng với các dữ liệu khác của các chủ đề đuợc phát hiện. Đầu ra sẽ là các danh
sách các chủ đề đuợc dự báo là chủ đề nóng trong các
khung thời gian trong tuơng lai.

Dòng dữ liệu

Hệ thống
phát hiện

trực tuyến các
bài đăng


chủ đề, chủ
đề nóng

1
1
1
1 Danh sách các chủ đề

1 với bài đăng và các
1 dữ liệu đi kèm
1

Hệ thống
dự báo

Kết quả dự
báo những
chủ đề sẽ
nóng

Mục tiêu, phạm vi chính của đề tài luận văn

Hình 1 Sơ đồ tổng quát của hệ thống phát hiện và dự báo chủ đề nóng trên mạng xã hội.
1.3. PHẠM VI CỦA ĐỀ TÀI
Trong phạm vi của đề tài, chúng tôi sử dụng lại bộ dữ liệu từ kết quả của hệ thống phát hiện
chủ đề (cũng là hệ thống xử lí từ đầu vào). Bộ dữ liệu này bao gồm các bài đăng trực tuyến
từ máy chủ của mạng xã hội. Các bài đăng đuợc xử lý dạng luồng, sau đó phát hiện và gọm
cụm các bài đăng lại thành danh sách các chủ đề.
Chúng tôi lựa chọn đối tuợng nghiên cứu là mạng xã hội nối tiếng Twitter đi kèm với bộ dữ
liệu đuợc công khai với các bài đăng của mạng xã hội này - Event 2012 [3]. Twitter là một

mạng xã hội nối tiếng đuợc sử dụng phố biến trên thế giới cũng nhu cung cấp nhiều API để
thu thập dữ liệu và chính sách khá cởi mở trong việc phục vụ cho mục đích nghiên cứu.
Chúng tôi cũng giới hạn phạm vi đề tài ở các mạng xã hội, bài đăng, bộ dữ liệu có nội dung
bằng tiếng Anh vĩ sự khó khăn khi tiếp cận các nguồn dữ liệu với ngôn ngữ khác

8


như tiếng Trung Quốc. Mặt khác các công cụ, thư viện xử lí nội dung bằng Tiếng Anh
cũng phát triển rộng rãi hơn, các kết quả xử lí cũng dễ dàng trình bày, diễn đạt hơn.
1.4.

Ý NGHĨA ĐỀ TÀI

1.4.1. Ý nghĩa thực tiễn
Luận văn đã đề xuất được phương pháp giải quyết bài toán dự báo chủ đề nóng.
Đây là bài toán vốn có nhiều ứng dụng thực tế. Với khối phát hiện chủ đề nóng đã
được các công trình trước hỗ trợ, phương pháp đề xuất có thể xác định các chủ đề
nóng trong tương lai. Các chủ đề nóng được dự báo này có thể được sử dụng trong
thực tiễn để nắm bắt đặc điểm của người dùng ở các chiến dịch tiếp thị sản phẩm,
quảng bá thương hiệu, nội dung, ...
1.4.2. Ý nghĩa khoa học
• Đề tài là sự tiếp thu các công trình đi trước vừa tổng hợp, vừa đề xuất được các đặc
trưng, nhóm đặc trưng phù hợp cho bài toán dự báo chủ đề nóng một cách chi tiết,
rõ ràng. Trên cơ sở đó, mô hĩnh dự báo được xây dựng hiệu quả. Các nhóm đặc
trưng tổng hợp, đề xuất cũng cho kết quả khả quan so với các đặc trưng đơn lẻ được
sử dụng trong các công trình liên quan.
• Đề tài đề xuất được các phương pháp xây dựng bộ dữ liệu dựa trên một bộ dữ liệu
công khai, và cung cấp các kết quả thí nghiệm đầy đủ tạo cơ sở cho việc so sánh với
các công trình trong tương lai.

1.5.

CẤU TRÚC LUẬN VĂN

Luận văn được trình bày theo cấu trúc như sau:
• Chương 1: Giới thiệu - Giới thiệu tổng quan về đề tài, nội dung nghiên cứu, mục
tiêu cũng như phạm vi của đề tài, ý nghĩa thực tiễn và khoa học của đề tài.
• Chương 2: Công trình liên quan - Giới thiệu, khảo sát và phân tích các công trình
liên quan đến bài toán dự báo chủ đề nóng.
• Chương 3: Phân tích vấn đề - Phát biểu bài toán một cách chi tiết, các câu hỏi
nghiên cứu và các thách thức của đề tài.

9




Chương 4: Phương pháp đề xuất - Trình bày các phương pháp đề xuất cho mô hình
bài toán dự báo, các đặc trưng sử dụng, phương pháp xây dựng bộ dữ liệu cho bài
toán dự báo.



Chương 5: Đánh giá - Trình bày các thí nghiệm và đánh giá cho các vấn đề được
giải quyết trong đề tài như các đặc trưng sử dụng, khảo sát các tham số trong việc
xây dựng bộ dữ liệu và quá trĩnh dự báo.



Chương 6: Kết luận - Tổng kết lại những vấn đề, câu hỏi nghiên cứu đã đặt ra và

hướng phát triển trong tương lai.

10


Chương 2:

CÔNG TRÌNH LIÊN QUAN

Bài toán dự báo chủ đề nóng với nhiều tên gọi khác nhau nhu “topic attention forecast”,
“trend detection”, “popularity prediction”. Mục tiêu chính của bài toán dự báo là đua ra
đuợc độ nóng của một chủ đề - có thể là luợng yêu thích, tuông tác, luợng bài đăng thảo
luận cũng nhu số nguời tham gia thảo luận ở các thời điểm, khung thời gian trong tuông lai.
Hiện tại có nhiều công trình nghiên cứu về bái toán này trên các mạng xã hội lớn nhu
Facebook, Twitter, Weibo ở Trung Quốc; từ những năm đầu của thập kỷ 2010 [9], [10],
[11] cho đến gần đây [7] [12]. Các nghiên cứu đuợc khảo sát theo nhiều khía cạnh khác
nhau. Dựa theo cách tiếp cận, có thể thấy các nghiên cứu đã sử dụng nhiều phuong pháp đa
dạng: theo huớng dự báo truyền thống trên dữ liệu chuỗi thời gian nhu Linear regression,
dạng điều chỉnh của Linear regression [7], auto regressive (AR) [13], Autoregressive
moving average (ARMA) [14], các mô hĩnh không tuyến tính nhu Markov chain [15], hay
mô hĩnh hóa bài toán theo huớng học có giám sát với phuong pháp phân lớp nhu SVM [16].
Trong khi nhiều nghiên cứu tập trung vào phát hiện chủ đề nóng và dự đoán chủ đề nóng
trong tuông lai, việc phát hiện, dự báo sự chim xuống và nổi lên lại của chủ đề cũng đuợc
nghiên cứu, khảo sát trong công trình [12]. Công trình [12] này đã sử dụng huớng tiếp cận
học không giám sát với phưcmg pháp Expectation Maximization Gaussianization (EMG).
Bên cạnh đó, nhiều đặc trung đuợc rút trích nhu các đặc trung về chuỗi thời gian [17] [16],
hành vi tuơng tác xã hội [18], thông tin nguời dùng và địa điểm [19] [16], sự ảnh huởng của
các nguời dùng nối bật [7], nhận nội dung của tin nhắn, bài đăng nhu một đặc trung [20]
[17], Đặc trung số luợng bài đăng thô cũng đuợc sử dụng nhiều trong các công trình [12]
[17], Một số công trĩnh tiêu biểu giới thiệu khá đầy đủ các đặc trung là Burst Time

Prediction in Cascades [16], Emerging Product Topics Prediction in Social Media
without Social Structure Information [17], Các công trĩnh này đã sử dụng và trình bày
khá rõ các đặc trung về chuỗi thời gian tổng quát, nhóm đặc trung về dao động, về nguời
dùng cũng nhu các quan hệ giữa các nguời dùng, và đặc trung về nội dung.

11


về

tập dữ liệu đánh giá, hiện tại các công trình đang sử dụng khá nhiều bộ dữ liệu khác

nhau nhung chúng tôi vẫn chua có kết quả tim kiếm các bộ dữ liệu công khai bằng tiếng
Anh. Các đề tài nổi bật gần đây chua công khai các bộ dữ liệu của minh [12] [15]. Một số
đề tài sử dụng các dữ liệu tiếng Trung khác rất khó tiếp cận [16] [8] 3. Do đó, trong luận
văn này, chúng tôi quyết định xây dựng bộ dữ liệu từ bộ dữ liệu đuợc sử dụng rộng rãi
trong bài toán phát hiện chủ đề nóng Event 2012 nhu đã đề cập ở trên.

về

các kết quả đạt đuợc trong bài toán dự báo, do có nhiều vấn đề con, phạm vi dự báo

khác nhau cũng nhu việc sử dụng các bộ dữ liệu không công khai và không thống nhất, nên
khó có đuợc sự so sánh giữa các kết quả từ các đề tài luận án và các công trình truớc. Một
vài kết quả đơn lẻ đáng chú ý nhu sau. Ở công trình Burst Time Prediction in Cascades
[16], kết quả dự báo đạt cao nhất là 0.928 với độ đo F1 nhung khung thời gian dự báo là
rộng. Ở công trình Realtime Online Hot Topics Prediction in Sina Weibo for News
Earlier Report [7] đua ra các kết quả dự báo vào khoảng
0.


6 với độ đo Precision. Phuơng pháp dự báo chủ đề nóng trở lại vốn là một nhánh

của bài toán dự báo chủ đề nóng đuợc đề xuất trong công trình When to Make a Topic
Popular Again? A Temporal Model for Topic Re-hotting Prediction in Online Social
Networks [12] đạt kết quả dự báo cao nhất với độ đo F1 0.324. Tuy nhiên, các tác giả cho
rằng mô hĩnh của minh là mô hĩnh học không giám sát, khung thời gian dự báo ngắn và dự
báo đuợc ở mức định luợng cho độ nóng của các chủ đề.
Với hiện trạng của các công trình liên quan dành cho bài toán dự báo chủ đề nóng nhu trên,
bài toán dự báo chủ đề nóng vẫn cần đuợc giải quyết hiệu quả hơn ở những khía cạnh nhu
phuơng pháp, đặc trung, và dữ liệu. 3

3

http s: //aminer. org/influencelo cality

12


Chương 3:
3.1.

PHÂN TÍCH VẤN ĐÈ

PHÁT BIÊU BÀI TOÁN DƯ BÁO CHỦ ĐÈ NÓNG

Bài toán dự báo chủ đề nóng trên mạng xã hội được mô tả như sau:
• Đầu vào: Các bài đăng, chuỗi dữ liệu, siêu dữ liệu theo thời gian của các chủ đề
• Đầu ra: Danh sách cảc chủ đề được dự bảo là chù đề nóng trong các khung thời
gian trong tương lai hoặc độ nóng tương ứng của chủ đề trong các khung thời
gian kế tiếp

i
K
I kf LI

un rrl'4
I
{
\

Các khung thời giíìn

Độ none — -Đỏ tiỏner dự bảo
^ Khung thời gian chủ đề được dự
bảo là trờ nền nóng

Hình 2 Bài toán dự báo chủ đề nóng.
Trong các công trình nghiên cứu về dự báo chủ đề nóng, độ nóng của chủ đề thường được
biểu thị bằng số lượng bài đãng, thảo luận trong một đơn vị thời gian. Đơn vị thời gian đó

,

thường được gọi là một khung thời gian (time slot time window), thường được chia bằng
nhau theo thời gian của chủ đề.
Một chủ đề thường được cho là nóng khi sổ lượng bài đăng lớn hơn một ngưỡng cho trước
[16] [21].
Một cách quỉ chuẩn, ta cỏ thề phát biểu lại bài toán: vối dữ liệu đầu vào là các bàỉ đăng ĩiị
cũng như các thông tin khác của một chủ đề Dị theo các khung thời gian tị, tức là một tập
hợp {(n0, ủ0> DQ), (nlt tlf D±),..., (nKt tK, DKy} với tK là khung thời gian hiện tại. Chủ đề ở
khung thời gian t được xem là nống khỉ hàm xảc định chủ đề nóng / nhận giá trị như sau:


13


if X > nh then fix') = true ;
else f ( x ) = false
với nh là một ngưỡng cho trước.
Qua quá trình tham khảo các công trình liên quan, chúng tôi nhận thấy bài toán dự báo chủ
đề nóng được phát biểu tổng quát như sau:
Cho trước một chủ đề, dự báo chủ đề đã cho có là chủ đề nóng hoặc độ nóng tương
ứng của chủ đề này, trong các khung thời gian kế tiếp, cũng là dự báo giá trị của f ( K
+ u) hoặc n K + u với u = 1,2 ...
Khỉ u= 1, bài toán trở thành: Dự báo chủ đề đã cho cố nỗi bật lên là chủ đề nóng trong
khung thời gian kế tiếp không hoặc dự báo độ nống của chủ đề này trong khung thời
gian kế tiếp, tức là dự báo giá trị của f ( K + 1) hoặc nk+1.
Khi xét về kết quả dự báo, bài toán dự báo có thể được chia thành hai loại: dự báo định tính
và dự báo định lượng. Dạng dự báo nào cần được thực hiện cho bài toán tùy vào mục đích
ứng dụng của các các kết quả dự báo trong thực tế.
A. Dự báo định tính, tức là dự báo liệu chủ đề có trở nên nóng hay không trong các
khung thời gian kế tiếp, khi này chỉ dự báo các giá trị hàm /.
B. Dự báo định lượng, tức là dự báo độ nóng tương ứng của các chủ đề trong các
khung thời gian kế tiếp, khi này dự báo các giá trị n.
Ket quả phụ thuộc rất lớn vào độ rộng của khung thời gian dự báo. Khi khung thời gian có
độ rộng lớn, kết quả dự báo mang tính chung chung, không chi tiết. Độ rộng của khung thời
gian cũng được điều chỉnh theo từng loại chủ đề. Với các chủ đề về các sản phấm kinh
doanh, độ rộng của khung thời gian có thể được đặt là một ngày. Với các chủ đề về sự kiện
và tin tức, độ rộng được đặt nhỏ hơn để đảm bảo tính cập nhật của các kết quả dự báo.
3.2.

CÁC CÂU HỎI NGHIÊN CỨU


Từ mục tiêu chính của luận văn là đề xuất giải pháp cho bài toán dự báo chủ đề nóng,
chúng tôi đặt ra các câu hỏi nghiên cứu cụ thể như sau:
1. Đe đề xuất phương pháp dự báo tốt, chúng tôi đã khảo sát các đặc trưng đã được sử
dụng cho bài toán trong các công trình liên quan. Từ kết quả khảo sát, câu hỏi 1 liên
quan đến các đặc trưng được sử dụng cho bài toán là: Đặc trưng

14


nào đem lại kết quả dự báo tốt và ổn định? Liệu có cách kết hợp nào để nhóm các
đặc trung với nhau để cho kết quả tốt hơn không?
2. Với các đặc trung, nhóm đặc trung nhu vậy, mô hình dự báo nào là thích hợp?
3. Nhu phần phát biểu bài toán, chúng tôi nhận thấy nhu cầu dự báo của nguời dùng
đuợc thể hiện qua giá trị của các tham số K và u. Nhu vậy, với các đặc trung và
nhóm đặc trung, với mô hĩnh dụ báo đuợc đề xuất, các tham số đó ảnh huởng nhu
thế nào đến kết quả dụ báo của bài toán?
4. Với các cách xác định đâu là chủ đề nóng khác nhau, không thống nhất nhu vậy,
liệu các kết quả dụ báo từ các đặc trung, phuơng pháp khác nhau có cho kết quả
đồng nhất không?
3.3. THÁCH THỨC
Bài toán dụ báo chủ đề nóng là một bài toán khó do sụ đa dạng của các chủ đề và các bài
đăng. Bài toán có nhiều dạng dụ báo khác nhau nhu đã đuợc trĩnh bày ở phần truớc. Với
dạng dụ báo trong các khung thời gian kế tiếp kết hợp với dụ báo định luợng cho mức độ
nóng của chủ đề, công trình [12] gần đây chỉ mới đạt kết quả chua tới 35% cho độ đo Fl.
Bên cạnh đó, vấn đề dữ liệu cũng là một thách thức không nhỏ. Một phần với đặc tính, điều
khoản cá nhân, riêng tu của các mạng xã hội đối với các tin nhắn, việc truy xuất đầy đủ các
tin nhắn rất khó khăn và giới hạn mặc dù Twitter đã có chính sách rất cởi mở. Một số bài
đăng đuợc thu thập trong các bộ dữ liệu thuờng không còn đuợc truy xuất đuợc.
Với bài toán dụ báo chủ đề nóng, hiện tại các công trình liên quan vẫn đang sử dụng rất
nhiều bộ dữ liệu với các tố chức khác nhau không đồng nhất và hầu hết là không công khai.

Một số bộ dữ liệu nhu Event 2012 [3] đuợc sử dụng trong một số công trĩnh phát hiện chủ
đề nóng [1] [2] có thể đuợc xem là bộ dữ liệu tốt nhất tại thời điểm hiện tại. Tuy nhiên,
khoảng 30% số tin nhắn, tweet trong Event 2012 là không còn đuợc truy xuất đuợc. [1]
Chúng tôi cũng đã khảo sát các bộ dữ liệu sử dụng trong các công trĩnh dụ báo chủ đề nóng
khác, tuy nhiên chua tìm đuợc bộ dữ liệu công khai nào hoặc gặp khó khăn về ngôn ngữ và
chính sách sử dụng với các bộ dữ liệu của mạng xã hội Weibo.

15


Chương 4:

PHƯƠNG PHÁP ĐỀ XUẤT

4.1. TỔNG QUAN VỀ HƯỚNG TIÉP CẬN GIẢI QUYÉT BÀI TOÁN
Trong phạm vỉ thực hiện đề tài, luận văn thực hiện hài toán dự háo chủ đề nóng như sau:
Cho trước một chủ đề, dự báo chủ đề đã cho có là chủ đề nóng trong các khung thòi
gian kế tiếp không, cũng là dự báo giá trị của f [ K + ù ) với u = 1 , 2 ...
Để giải quyết bài toán dự báo chủ đề nóng theo hướng định tính trên, đề tài áp dụng hướng
tiếp cận học có giám sát với các đặc trưng được rút trích từ các bài đăng, dữ liệu của các
chủ đề theo các khung thời gian. Ngoài ra, bài toán dự báo được đưa về bài toán phân lóp
nhị phân; trong đó, ỉởp dương gầm các mẫu dương tương ứng vối các thể hiện của các chủ
đề nóng và ỉởp âm gồm các mẫu âm tương ứng với các thể hiện của các chủ đề không
nóng. Hướng tiếp cận thực hiện bài toán được mô tả qua hình dưcti:

Các khung thời gian —Độ nónơ
4 Khung thời gian chù đề được xem
lả nỏnẹ

Hình 3 Hướng tiếp cận học cổ giảm sát với các đặc trưng được rút trích cho bài toán dự

bảo
chủ đề nóng
Hướng tiếp cận gồm các bước:

16


1. Xác định mẫu dương, mẫu âm của bài toán
2. Rút trích đặc trưng
3. Huấn luyện mô hình dự báo
4. Dự báo bằng mô hình đã huấn luyện
Hướng tiếp cận này được chúng tôi sử dụng lại dựa trên hướng tiếp cận tổng quát từ các
công trĩnh trước về bài toán dự báo chủ đề nóng [16] [17], đơn cử như Burst Time
Prediction in Cascades [16].
4.2. XÁC ĐỊNH MẪU DƯƠNG, MẪU ÂM
Như đã trình bày ở Chương 3. Phân tích vấn đề, chúng tôi nhận thấy chưa có một định
nghĩa rõ ràng, thống nhất cho việc xác định mẫu dương, mẫu âm của bài toán dự báo khi
được giải quyết bằng phương pháp phân lớp nhị phân. Nhiều công trình sử dụng một giá trị
ngưỡng số lượng bài đăng cho trước nh, so sánh với số lượng bài đăng trong khung thời
gian hiện tại, để xác định liệu chủ đề có là chủ đề nóng không hoặc sử dụng khung thời
gian có số bài đăng đạt cực đại như mẫu dương [16]. Các công trình trước cũng có nhiều
cách xác định khác như sử dụng so sánh với bảng xếp hạng chủ đề nóng của mạng xã hội
[7], có sự đánh giá lại của chuyên gia [2].
Trong đề tài luận án, chúng tôi quyết định sử dụng lại phương pháp chuẩn bị dữ liệu theo
cực đại toàn cục để giải quyết bài toán như được đề xuất trong công trình [16]. Bên cạnh
đó, chúng tôi giới thiệu một cách chi tiết phương pháp chuẩn bị dữ liệu theo ngưỡng số
lượng bài đăng để có thể đánh giá một cách toàn diện cũng như dễ dàng kiểm tra tính thống
nhất của các kết quả dự báo cho từng đặc trưng, giải thuật phân lớp, và bộ tham số khác
nhau.
4.2.1. Phương pháp chuẩn bị dữ liệu theo cực đại toàn cục

Phương pháp chuẩn bị dữ liệu theo cực đại toàn cục được phát triển từ đề xuất của công
trình [16].
Cực đại toàn cục là khung thời gian tị tương ứng có số lượng bài đăng riị là nhiều nhất
trong chuỗi dữ liệu của một chủ đề. Nhiều nghiên cứu đã chỉ ra, hầu hết các chủ đề thường
chỉ có một cực đại toàn cục cũng là thời điểm chủ đề nóng nhất và một số cực đại cục bộ ít
được chú ý hơn.
Gọi tmax là khung thòi gian có số lượng bài đăng lớn nhất nmax, ta có mẫu dương được xac
đựlh la {(jT-max-K-ui^max-K-ui^max-K-Ù)i •••i(j^max-ui^max-ui^max-ù)'ì
17


với K là tham số độ dài số khung thời gian của một mẫu, u là tham số chỉ số thứ tự khung
thời gian kế tiếp được dự báo. Đối với mẫu âm, ta chọn ngẫu nhiên một cực tiểu trước hoặc
sau cực đạỉ toàn cục.
Ví dụ: từ cực đại toàn cục là khung thời gian thứ 25, chúng tôi chọn mẫu dương tương ứng
với các tham số K = 10, u = 1 là từ khung thời gian thứ 15 đến khung thời gian thứ 24. Ví
dụ dưới khung thời gian thứ 25 đến 34 là mẫu âm.
70 I I

1

3

5

7

9

11


13

15

17

Cac khung thơi gian

19

21

23

25

27

29

31

33

số 1 LíƠI12 bài đăng

35

37


39

41

43

45

47

49

51

Hình 4 Mấu âm và dương với phương pháp chuẩn bị dữ liệu theo cực đại toàn cục
4.2.2. Phương pháp chuẩn bị dữ liệu theo ngưỡng số lượng bài đăng Việc xác định
giá trị cụ thể của ngưỡng bài đăng nh thường phụ thuộc vào tập dữ liệu, nhu cầu dự báo,
phát hiện của từng trường hợp. Chúng tôi đề xuất xây dựng giá trị của nh bằng trung bình
điều hòa cùa số lượng các bài đăng trong các khung thời gian kế cận cực đại toàn cục.
Chúng tôi cho cho rằng số lượng bài đăng trong cảc chủ đề có thề rất khác xa nhau trong
các lĩnh vực khác nhau. Tuy nhiên xét cho cùng, về mặt số lượng bài đăng, chúng phải đều
đạt đến một giá trị cụ thể nào đó để trờ thành chủ đề nống. Một chủ đề nhỏ thì phải ở đỉnh
điểm của sự phát triển mới có số lượng bài đăng mới bằng một chủ đề cỏ sức lan tỏa lớn
hơn ở giai đoạn đầu chưa bùng nổ và mới được xem xét là một chủ đề nóng. Giá trị trung
bình điều hòa các số dương với xu hướng thiên về các số nhỏ hơn, theo chúng tôi là vin
không bỏ sót, phù hợp để dự báo giai đoạn phát triển của các chủ đề nhỏ cũng như giai
đoạn khởi đầu của các chủ đề lớn.
Lúc này các mẫu dương, mẫu âm sẽ được xác định bằng chuỗi sau:
{Oh — K—u> tị— K-Ut Di- K—Ù)> ■■■ I (vi-u.1 ti-w

Di-uìì Với 7ij > nh trong trường hợp mẫu dương, 7ij < nh trong trường hợp mẫu
âm.

18


×