Luận án Tiến sĩ Khoa học máy tính: Khai phá luồng văn bản với kỹ thuật gom cụm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.68 MB, 140 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------

VÕ THỊ HỒNG THẮM

KHAI PHÁ LUỒNG VĂN BẢN
VỚI KỸ THUẬT GOM CỤM

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Đồng Nai, năm 2021

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
----------------

VÕ THỊ HỒNG THẮM

KHAI PHÁ LUỒNG VĂN BẢN
VỚI KỸ THUẬT GOM CỤM

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ PHÚC

Đồng Nai, năm 2021

LỜI CẢM ƠN
Xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn nghiên cứu sinh
hồn thành luận án tiến sĩ.
Xin chân thành cảm ơn quý thầy/cô khoa sau đại học, trường đại học Lạc Hồng đã
tạo điện kiện thuận lợi và hỗ trợ nghiên cứu sinh hoàn thành luận án.
Xin trân trọng cảm ơn trường đại học Thủ Dầu Một đã hỗ trợ nghiên cứu sinh tham
gia học tập tại trường đại học Lạc Hồng.
Xin chân thành cám ơn quý bạn bè, đồng nghiệp đã tạo điều kiện giúp đỡ nghiên
cứu sinh hoàn thành luận án.
Nghiên cứu sinh - Võ Thị Hồng Thắm

LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là cơng trình nghiên cứu của riêng tơi dưới sự hướng
dẫn của PGS.TS. Đỗ Phúc. Các số liệu và tài liệu trong nghiên cứu là trung thực và chưa
được công bố trong bất kỳ cơng trình nghiên cứu nào. Tất cả các tham khảo và kế thừa
đều được trích dẫn và tham chiếu đầy đủ.
Đồng Nai, ngày … tháng 5 năm 2021
Nghiên cứu sinh

Võ Thị Hồng Thắm

MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU .......................................................................................... 1
1.1 Tổng quan về đề tài luận án ................................................................................... 1
1.1.1 Bài toán nghiên cứu và ý nghĩa .......................................................................1
1.1.2 Thách thức của bài toán gom cụm luồng văn bản...........................................4

1.1.3 Các vấn đề nghiên cứu ....................................................................................8
1.1.4 Các bài tốn nghiên cứu ..................................................................................8
1.2 Đóng góp của luận án và các cơng trình đã được cơng bố .................................. 10
1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu ................................................... 11
1.3.1 Mục tiêu nghiên cứu......................................................................................11
1.3.2 Phạm vi nghiên cứu .......................................................................................12
1.3.3 Phương pháp nghiên cứu...............................................................................12
1.4 Cấu trúc của luận án ............................................................................................. 13
1.5 Kết chương ........................................................................................................... 13
CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN .................................................... 14
2.1 So sánh một số cách tiếp cận mới liên quan đến gom cụm luồng văn bản .......... 14
2.1.1 Phương pháp tiếp cận dựa trên mơ hình chủ đề truyền thống ......................14
2.1.2 Phương pháp tiếp cận dựa trên mơ hình hỗn hợp động ................................15
2.1.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ .........................16
2.1.4 Mô hình hóa chủ đề (Topic modeling)..........................................................16
2.1.5 Mơ hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) ..............................23
2.1.6 Đồ thị con phổ biến .......................................................................................32
2.1.7 Mơ hình hóa sự nổi bật trên luồng văn bản của Kleinberg ...........................35
2.2 Kết chương ........................................................................................................... 40
CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN
ĐỒ THỊ TỪ .................................................................................................................. 41
3.1 Phương pháp......................................................................................................... 41

3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) .....................41
3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) .....................................................43
3.1.3 Gom cụm luồng văn bản dựa trên mơ hình hỗn hợp.....................................49
3.2 Thực nghiệm và bàn luận ..................................................................................... 62
3.3 Kết chương ........................................................................................................... 74
CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN ....... 75

4.1 Phương pháp......................................................................................................... 75
4.2 Thực nghiệm và bàn luận ..................................................................................... 88
4.3 Kết chương ......................................................................................................... 103
CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN .......................................... 104
5.1 Các kết quả đạt được, hạn chế và hướng phát triển ........................................... 104
5.2 Ý nghĩa học thuật và thực tiễn của luận án ........................................................ 106

BẢNG THUẬT NGỮ ANH – VIỆT

Tiếng Anh

Viết tắt

Tiếng Việt

Allocation Dirichlet Latent

LDA

Phân bổ tiềm ẩn Direntlet

Bag of Word

BOW

Túi từ

Benchmark

Đối sánh

Cluster validation

Xác nhận cụm

Common sub GOWs

Đồ thị con phổ biến

Concept/topic drift

Dịng trơi khái niệm/chủ đề

Corpus

Kho ngữ liệu

Density-based

Dựa trên mật độ

Dirichlet Process

DP

Quy trình Dirichlet

Dirichlet-Hawkes Topic Model

DHTM

Mơ hình chủ đề Dirichlet-Hawkes

Document batch

Lơ tài liệu

Dynamic Clustering Topic

DCT

Mơ hình chủ đề gom cụm động

Dynamic Topic Model

DTM

Mơ hình chủ đề động

Features of meaning

Đặc trưng ngữ nghĩa

Filtering

Lọc

Frequent sub-graph

FSG

Đồ thị con phổ biến

Graph of Word

GOW

Đồ thị từ

Microblogs

Bài viết ngắn dạng blog

Model’s hyper-parameter
sensitivity

Độ nhạy của siêu tham số của mô hình
(viết ngắn là độ nhạy)

Mstream

MStream

Thuật tốn gom cụm luồng dữ liệu dựa
trên mơ hình hỗn hợp DP

Noise

Yếu tố nhiễu

Outlier

Ngoại lệ

Politeness

Độ sâu

Preprocess

Tiền xử lý

Proximity measure

Đo lường lân cận

Sequence Monte Carlo

SMC

Tuần tự Monte Carlo

Sparse nature

Tính rời rạc tự nhiên

Sparsity of text

Sự rời rạc của văn bản

Stemming and Lemmatization

Trả từ về nguyên mẫu

Stop word

Từ dừng

Streaming LDA
Survey

ST-LDA

Streaming LDA
Khảo sát

Tiếng Anh

Viết tắt

Tiếng Việt

Temporal Dynamic Process Model

TDPM

Mơ hình hỗn hợp quy trình Dirichlet
theo thời gian

Temporal model-LDA

TM-LDA

Mơ hình LDA theo thời gian

Temporal Text Mining

TTM

Khai phá văn bản theo thời gian

Term Frequency

TF

Tần số từ

Term Frequency-Invert Document TF-IDF
Frequency

Tần số từ -Tần số tài liệu nghịch đảo

Text corpus

Tập văn bản

Text similarity

Sự tương tự văn bản

Text to Graph

Text2graph Đồ thị hóa văn bản

Trendy Keyword Extraction System TKES

Hệ thống rút trích từ khóa tiêu biểu

Tokenization

Tách từ

Topic tracking model

TTM

mơ hình theo dõi chủ đề

Vector Space model

VSM

Mơ hình không gian vectơ

Visualize

Hiển thị trực quan

Word relatedness

Sự liên quan từ

Word segmentation

Tách từ

Word similarity

Sự tương tự từ

Word vector

Véc tơ từ

DANH MỤC BẢNG
Bảng 1.1: Phân tích các điểm mạnh và tồn tại của các mơ hình .....................................7
Bảng 3.1: Biểu diễn văn bản với BOW truyền thống....................................................42
Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF .......................................................42
Bảng 3.3: Biểu diễn văn bản với GOW .........................................................................48
Bảng 3.4: Biểu diễn văn bản kết hợp BOW và GOW ...................................................49
Bảng 3.5: Biểu diễn véc tơ chủ đề trong mơ hình GOW-Stream ..................................62
Bảng 3.6: Chi tiết về bộ dữ liệu thử nghiệm .................................................................64
Bảng 3.7: Chi tiết về cấu hình cho các mơ hình gom cụm luồng văn bản ....................66
Bảng 3.8: Kết quả đầu ra trung bình của tác vụ gom cụm văn bản với các mô hình khác
nhau với độ đo NMI ......................................................................................................67
Bảng 3.9: Kết quả đầu ra thử nghiệm của tác vụ gom cụm văn bản với các mơ hình khác
nhau với độ đo F1 ..........................................................................................................67

Bảng 4.1: Các thuộc tính của nút và mối quan hệ .........................................................80
Bảng 4.2: Một ví dụ về tính tốn chỉ số xếp hạng của từ ..............................................82
Bảng 4.3: Một ví dụ về tính tổng trọng số của từ khóa trong chun mục ...................83
Bảng 4.4: Thí dụ về cấu trúc lưu trữ Burst ....................................................................87
Bảng 4.5: Các Burst của từ khóa “Facebook” ...............................................................89
Bảng 4.6: Xác định danh sách từ xu thế chung với từ khóa “Facebook”......................90
Bảng 4.7: Thử nghiệm thời gian thực thi trên bộ thu thập thông tin .............................91
Bảng 4.8: Kiểm tra thời gian thực thi của việc thêm dữ liệu vào cơ sở dữ liệu đồ thị..91
Bảng 4.9: Kiểm tra thời gian chạy của bộ xử lý ............................................................91
Bảng 4.10: Thời gian xử lý số lượng bài viết khác nhau với độ dài khác nhau ...........92
Bảng 4.11: Tỷ lệ giống nhau của dữ liệu sinh ra từ 2 thuật toán TF-IDF viết bằng ngơn
ngữ lập trình khác nhau .................................................................................................93
Bảng 4.12: Tần số của từ khóa ......................................................................................94
Bảng 4.13: Một số tham số với word2Vec ....................................................................95
Bảng 4.14: Các từ liên quan đến từ khóa “Ứng dụng” ..................................................96

Bảng 4.15: So sánh mức độ tương đồng khi sử dụng các thước đo khoảng cách tương
đồng khác nhau ..............................................................................................................96
Bảng 4.16: Thời gian huấn luyện các mơ hình ..............................................................97
Bảng 4.17: Thời gian xử lý để tìm 10 từ liên quan .......................................................98
Bảng 4.18: Kiểm tra thời gian xử lý phát hiện Burst của các bài báo trong 19 ngày .100

DANH MỤC HÌNH
Hình 1.1: Mối liên hệ giữa các bài tốn và các cơng trình đã cơng bố đối với từng bài
tốn ................................................................................................................................11
Hình 2.1: Mơ hình sinh LDA ........................................................................................18
Hình 2.2: Mơ hình sinh của mơ hình hỗn hợp dựa trên quy trình Dirichlet ..................26
Hình 2.3: Mơ hình sinh của mơ hình hỗn hợp hữu hạn .................................................27

Hình 2.4: Tỉ lệ của các sự kiện mục tiêu .......................................................................39
Hình 3.1: Hình ảnh minh họa cấu trúc đồ thị hóa văn bản (text2graph) với đồ thị vơ
hướng .............................................................................................................................43
Hình 3.2: Biểu diễn đồ thị từ của tập tài liệu 𝐷 .............................................................47
Hình 3.3: Tập đồ thị con phổ biến chung của tập tài liệu 𝐷 ..........................................48
Hình 3.4: Mơ hình sinh của mơ hình GOW-Stream......................................................52
Hình 3.5: Mơ hình sinh của MStream & GOW-Stream ................................................53
Hình 3.6: Lưu đồ thuật tốn GOW-Stream ...................................................................59
Hình 3.7: Kết quả thử nghiệm đối với số lượng lô tài liệu khác nhau với độ đo NMI .68
Hình 3.8: Kết quả thử nghiệm trên số lượng lô tài liệu khác nhau với độ đo F1 ..........68
Hình 3.9: So sánh với k-means sử dụng độ đo NMI .....................................................69
Hình 3.10: So sánh với k-means sử dụng độ đo F1.......................................................69
Hình 3.11: Khả năng nâng cao hiệu suất của các kỹ thuật gom cụm luồng văn bản khác
nhau ...............................................................................................................................70
Hình 3.12: Tốc độ xử lý của GOW-Stream so với MStream khi tính ln chi phí tìm đồ
thị con phổ biến .............................................................................................................71
Hình 3.13: Đánh giá ảnh hưởng của số lần lặp đến tính chính xác của kết quả của mơ
hình GOW-Stream .........................................................................................................72
Hình 3.14: Kết quả thực nghiệm về ảnh hưởng của siêu tham số α ..............................73
Hình 3.15: Kết quả thực nghiệm về ảnh hưởng của siêu tham số β ..............................73
Hình 4.1: Hệ thống được đề xuất phục vụ tìm cụm từ xu thế .......................................76
Hình 4.2: Kiến trúc hệ thống TKES ..............................................................................77

Hình 4.3: Trình tự xử lý của hệ thống TKES ................................................................78
Hình 4.4: Luồng văn bản đến liên tục theo thời gian ....................................................79
Hình 4.5: Cấu trúc lưu trữ dạng cây ..............................................................................79
Hình 4.6: Cấu trúc lưu trữ chung và ví dụ .....................................................................80
Hình 4.7: Ví dụ về các bước xử lý rút trích từ khóa......................................................81
Hình 4.8: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật ...............................................86

Hình 4.9: Phát hiện sự nổi bật đối với từ khóa “Facebook” ..........................................89
Hình 4.10: Ảnh hưởng của chiều dài bài viết và số lượng bài viết đối với thời gian chạy
của bộ xử lý ...................................................................................................................92
Hình 4.11: So sánh chi phí giữa huấn luyện mới và huấn luyện cập nhật ....................97
Hình 4.12: Thời gian xử lý tìm 10 từ khóa liên quan ....................................................98
Hình 4.13: Thời gian xử lý phát hiện sự nổi bật..........................................................101
Hình 4.14: Cấu trúc lưu trữ dữ liệu chưa qua xử lý ....................................................101
Hình 4.15: Cấu trúc lưu trữ dữ liệu đã qua xử lý .......................................................102
Hình 4.16: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của bài viết ..................102
Hình 4.17: Cấu trúc lưu trữ danh sách các từ khóa hàng đầu của chuyên mục ..........103

DANH MỤC THUẬT TỐN

Thuật tốn 2.1: Thuật tốn Gibbs Sampling ..................................................................22
Thuật tốn 2.2: Mơ hình hỗn hợp Dirichlet hữu hạn .....................................................29
Thuật tốn 2.3: Mơ hình hỗn hợp Dirichlet vơ hạn .......................................................31
Thuật toán 2.4: Thuật toán gSpanAlgorithm .................................................................33
Thuật toán 2.5: Thuật tốn con Subgraph_Mining của gSpanAlgorithm .....................34
Thuật tốn 3.1: Rút trích các đồ thị con phổ biến từ tập tài liệu đã cho (D) .................45
Thuật toán 3.2: Thuật toán GOW-Stream .....................................................................60
Thuật toán 4.1: Thuật toán tổng quát.............................................................................83
Thuật toán 4.2: Thuật toán thu thập dữ liệu ..................................................................84
Thuật tốn 4.3: Tính tần số từ........................................................................................85

MỘT SỐ ĐỊNH NGHĨA
Luồng dữ liệu [53]: là một chuỗi các phần tử vô hạn đếm được. Cấu trúc của các
phần tử luồng trong các mơ hình luồng khác nhau sẽ khác nhau. Xử lý luồng là phân
tích các luồng dữ liệu đầu vào một cách nhanh chóng để đưa ra kết quả. Khi xử lý luồng,

thời gian là khái niệm trung tâm và mỗi phần tử luồng được liên kết với một hoặc nhiều
nhãn thời gian được chỉ định ví dụ như khi phần tử được tạo, hoặc khi phần tử sẵn sàng
để xử lý...
Luồng văn bản[10]: là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh
chóng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thơng xã hội.
Khai phá văn bản[16]: là khai phá dữ liệu từ các bộ sưu tập dữ liệu văn bản với
mục đích là khám phá kiến thức (hoặc thông tin, mẫu) từ dữ liệu văn bản khơng có cấu
trúc hoặc bán cấu trúc.
Gom cụm văn bản [47]: là tự động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu
ở dạng văn bản thuần túy, trang web, email, ...) thành các cụm (thường gọi là chủ đề)
dựa trên sự giống nhau (tương đồng) về nội dung của chúng.
Văn bản ngắn (short text): là các đoạn bình luận, trao đổi, nhận xét ngắn trên
mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài câu, chiều dài trung bình
của văn bản trong các tập dữ liệu ngắn tiêu chuẩn thường khoảng 8 từ) khác với các tài
liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn.
Sai lệch chủ đề (topic drift): là sự biến đổi các chủ đề kết quả gom cụm khi văn
bản đến liên tục theo thời gian, chủ đề mới có thể xuất hiện, chủ đề cũ có thể biến mất.
Đồ thị con phổ biến (Frequent subgraph/common sub GOW): là đồ thị con có
tần số xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước
(min support).
Khai phá đồ thị con phổ biến: là kỹ thuật dùng để rút trích ra tập hợp các đồ thị
con phổ biến của tập văn bản 𝐷 đã cho và dựa trên tập hợp này để biễu diễn đặc trưng
phân biệt cho các văn bản 𝑑 của tập văn bản.
Quan hệ đồng hiện từ: là mối quan hệ khi các từ cùng xuất hiện với nhau trong
văn bản. Trong phạm vi luận án này, mối quan hệ đồng hiện từ là sự xuất hiện cùng
nhau của từng cặp từ trong văn bản, giữa 2 từ đứng cạnh nhau trong văn bản được biểu
diễn bằng một cung nối (vô hướng) của đồ thị giữa 2 đỉnh là 2 từ.
Sự nổi bật (burst): là khoảng thời gian liên tục mà từ khóa xuất hiện một cách dồn
dập, khác thường trên luồng văn bản.

Phát hiện sự nổi bật (burst detection): là quá trình phát hiện ra sự nổi bật.
Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu
biểu xuất hiện nổi bật trong một sự nổi bật.
Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khóa
nào đó với trọng số sự nổi bật (burst weight) cao. Trọng số của sự nổi bật (burst weight)
được tính dựa vào tổng trọng số của từ khóa (keyword weight). Trọng số của từ khóa
(keyword weight) được tính dựa vào tổng tần số của từ khóa xuất hiện trong cùng một
sự nổi bật.

TÓM TẮT
Gần đây, với xu thế dữ liệu gia tăng, tốc độ cao, kích thước lớn và ln biến đổi
liên tục cần được xử lý theo thời gian thực, nhiều nghiên cứu liên quan đến luồng dữ
liệu đã ra đời. Khai phá luồng dữ liệu là hướng nghiên cứu thu hút được nhiều sự quan
tâm và Gom cụm là một kỹ thuật quan trọng.
Là một dạng thức của luồng dữ liệu, luồng văn bản là chuỗi các văn bản được sắp
xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức
và truyền thông xã hội. Gom cụm luồng văn bản là một vấn đề quan trọng trong cộng
đồng nghiên cứu khai phá dữ liệu văn bản có nhiều ứng dụng như phân nhóm văn bản,
sắp xếp tài liệu, phát hiện và theo dõi chủ đề … Gom cụm văn bản là một q trình phân
vùng/nhóm một tập hợp các tài liệu chưa được gắn nhãn vào k chủ đề cụ thể phục vụ
nhiều mục đích như: Trong ứng dụng phát hiện sự kiện xã hội, giúp xác định xu hướng
đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các
mạng xã hội phổ biến gần đây; Trong truy xuất văn bản, giúp nhóm các kết quả tìm kiếm
có liên quan để giúp người dùng dễ dàng rút trích thơng tin cần thiết. Trong kỷ ngun
BigData, với sự gia tăng mạnh mẽ của các mạng xã hội trực tuyến, số lượng lớn nội
dung do người dùng tạo ra thường ở dạng tài liệu văn bản ngắn như: bình luận của người
dùng, tweet, bài đăng, … trên Twitter hoặc Facebook, … chứa đựng nhiều thơng tin có
giá trị đại diện cho các sự kiện thực tế nóng bỏng. Văn bản ngắn là các đoạn bình luận,

trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường có vài từ, vài
câu) so với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Hầu
hết các nghiên cứu về gom cụm văn bản truyền thống chủ yếu tập trung vào các văn bản
tĩnh dài nên không thể áp dụng cho các luồng văn bản có tính chất thay đổi nhanh chóng
hay các tài liệu văn bản ngắn. Việc gom cụm tài liệu văn bản ngắn khó khăn hơn do ba
đặc tính chính, bao gồm: Độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài);
Độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh các chủ đề hiện có trong
các lô tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Do đó, khơng thể
áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các tập văn bản đến với
tốc độ cao, rời rạc và có độ dài ngắn này.
Vấn đề về tối ưu hóa khi gom cụm là một vấn đề quan trọng. Mơ hình chủ đề là
một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản.
Các mơ hình dựa trên mơ hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu
văn bản được tạo bởi một mô hình hỗn hợp. Sau đó, bằng cách ước tính các tham số của
mơ hình thơng qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte
Carlo (SMC), …, để rút ra các phân phối chủ đề văn bản trên tập văn bản. Tuy nhiên,
các mơ hình này chỉ có thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo

ngữ cảnh đủ phong phú. Gần đây, các mơ hình DCT và MStream/MStreamF được đề
xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, vẫn gặp phải
hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề
từ các tài liệu đã cho.
Có hai hạn chế chính khi gom cụm luồng văn bản từ các cơng trình đã cơng bố gần
đây là khơng xử lý tốt tài liệu có độ dài ngắn và thiếu đánh giá mối quan hệ của từ trong
khi suy ra sự phân bố chủ đề trên các tài liệu văn bản. Bên cạnh đó, vấn đề về nắm bắt
thơng tin ngữ nghĩa về thời gian xuất hiện của các từ trong văn bản đến theo thời gian
từ đó nắm bắt được xu thế của từ có thể là một thách thức trong gom cụm luồng dữ liệu
văn bản.
Để giải quyết hai thách thức chính nêu trên, luận án đề xuất mơ hình GOW-Stream

thực hiện gom cụm trên luồng văn bản ngắn và có xem xét mối quan hệ đồng hiện giữa
các từ trong nội dung văn bản. Từ các thách thức liên quan khác, luận án đề xuất hệ
thống TKES, thuật toán phát hiện cụm từ xu thế trên luồng văn bản. Để hoàn thành
nhiệm vụ phát hiện cụm từ xu thế, hệ thống TKES cũng nghiên cứu các cơ chế rút trích
từ khóa, từ khóa tương đồng, cơ chế tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả
nghiên cứu này dự kiến sử dụng để cải tiến thêm hiệu quả của mơ hình GOW-Stream
trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi thực hiện
gom cụm.
Như vậy các vấn đề nghiên cứu đặt ra trong luận án bao gồm: Vấn đề gom cụm
luồng văn bản ngắn; Vấn đề gom cụm luồng văn bản với chủ đề không cố định; Vấn đề
xét mối liên hệ đồng hiện giữa các từ trong gom cụm luồng văn bản; Vấn đề phát hiện
cụm từ xu thế trong nắm bắt ngữ nghĩa về xu thế của từ trong văn bản đến từ luồng; Vấn
đề biểu diễn đặc trưng văn bản khi gom cụm trên luồng văn bản. Từ đó, luận án đi giải
quyết hai bài tốn chính: gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ và nghiên
cứu phát hiện các cụm từ xu thế trên luồng dữ liệu văn bản.
Bài toán 1 đề xuất một cách tiếp cận áp dụng n-gram vào đồ thị hóa văn bản
(text2graph) sử dụng kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị
con phổ biến từ kho ngữ liệu văn bản đã cho. Sau đó, sự xuất hiện của các đồ thị con
phổ biến trong mỗi tài liệu văn bản được sử dụng để hỗ trợ q trình ước tính phân phối
của các chủ đề trên tài liệu. Mơ hình đề xuất GOW-Stream là một mơ hình dựa trên mơ
hình hỗn hợp dùng để xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết
hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ
cùng xuất hiện trong các đồ thị con phổ biến có xét mối quan hệ đồng hiện) không chỉ
giải quyết các thách thức về sự thay đổi chủ đề của luồng văn bản mà còn cải thiện được

độ chính xác so sánh với các mơ hình dựa trên đánh giá độc lập từ trước đó và đạt được
tốc độ suy luận chủ đề nhanh hơn sau khi tốn thêm chi phí đồ thị hóa văn bản và tìm đồ
thị con phổ biến. Các thử nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn của thế giới
thực đã chứng minh được tính hiệu quả của mơ hình GOW-Stream được đề xuất đối với

tác vụ gom cụm luồng văn bản ngắn so sánh với các thuật toán hiện đại gần đây, như:
DTM, Sumblr và MStream. Bài toán này được giải quyết dựa trên cơ sở lý thuyết bao
gồm: Kỹ thuật đồ thị hóa văn bản, Kỹ thuật tìm đồ thị con phổ biến gSpan, Gom cụm
luồng văn bản dựa trên mơ hình hỗn hợp động, quy trình Dirichlet và nguyên lý PolyUrn, nguyên lý nhà hàng Trung Hoa (CRP), kỹ thuật stick-breaking, kỹ thuật lấy mẫu
Gibbs. Kết quả thực nghiệm được thực hiện liên quan đến: Độ chính xác; Tốc độ xử lý
khi gom cụm; Tốc độ xử lý tồn cục có tính chi phí đồ thị hóa văn bản và tìm đồ thị con
phổ biến; Ảnh hưởng của số lần lặp; Độ ổn định của mơ hình khi thay đổi các tham số
cho thấy mơ hình đề xuất đạt được độ chính xác cao hơn các mơ hình được so sánh mà
khơng chịu ảnh hưởng nhiều về tốc độ xử lý, đạt được sự cân bằng về độ chính xác của
kết quả trong phạm vi 7-10 lần lặp, đạt được hiệu suất ổn định về độ chính xác với các
giá trị khác nhau của cả hai siêu tham số từ đó đưa ra kết luận là mơ hình GOW-Stream
đạt hiệu quả và ổn định trong việc thực hiện tác vụ gom cụm tài liệu trên luồng văn bản
ngắn.
Bài toán thứ 2 đề xuất hệ thống TKES với đóng góp chính là đề xuất thuật tốn
phát hiện sự nổi bật của từ khóa dựa trên thuật tốn Kleinberg, một thuật tốn đã được
chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Các thuật
toán được đề xuất cũng bao gồm cả việc phát hiện các cụm từ xu thế và các sự nổi bật
tiêu biểu hàng đầu của từ khóa. Để xây dựng hệ thống TKES, luận án cũng sử dụng các
cơ chế rút trích từ khóa với TF-IDF, tìm từ khóa tương đồng sử dụng mạng Nơ ron để
huấn luyện mô hình tìm tập từ khóa tương đồng, sử dụng mơ hình Skip-gram, các độ đo
so sánh độ tương đồng như Cosine, Euclidean, Manhattan, Minkowski, Jaccard, các kỹ
thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả thực nghiệm của nghiên cứu bao
gồm: tính tốn thời gian xử lý, so sánh thời gian xử lý giữa các giải pháp và giữa các tập
dữ liệu khác nhau; Thu thập các tập dữ liệu nguồn và kết xuất kết quả thành các tập dữ
liệu phục vụ cho các nghiên cứu liên quan.

Sử dụng phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực
nghiệm và so sánh, luận án công bố được 04 bài báo đăng kỷ yếu hội thảo quốc tế (ACM
và Springer) và 02 bài báo đăng tạp chí (01 bài thuộc danh mục Scopus/Q3 và 01 bài

thuộc danh mục SCIE/Q3). Sau cùng, báo cáo luận án được cấu trúc như sau: tóm tắt,
chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3&4 - 02 bài
tốn chính, chương 5 - kết luận và hướng phát triển, các cơng trình nghiên cứu đã thực
hiện.

Từ khóa: text stream clustering; topic model; graph-of-words; event detection;
burst detection; keyword extraction; Kleinberg; trendy keywords;

ABSTRACT
Coming continuously with high speed, large size, and changing rapidly, there is a
need for data to be processed in real-time and many studies related to data stream have
been carried out. Data stream mining is a research direction that has been attracting lots
of attention and data stream clustering is an important technique.
In form of a data stream, a text stream is a set of ordered texts that comes rapidly
and continuously over time in two main forms: News and social media. Text stream
clustering is an important issue in the text mining research community. This research
direction has a wide variety of applications such as text stream clustering, document
stream arrangement, topic detection, and tracking topic evolution. … Text clustering is
the process of partitioning/grouping a collection of documents that have not been labeled
into k specific categories/clusters/topics, serving many purposes such as: In a social
event detection application, helping identify trends being of interest or being discussed
regularly on topics in popular social networks; In text retrieval, helping to group relevant
search results to help users easily extract necessary information. During the BigData era,
with the proliferation of online social networks, the vast amount of content generated by
users is often in the form of short text documents such as user comments, tweets, posts,
etc on Twitter or Facebook, etc contain numerous valuable information representing
reallife hot events. Most studies on traditional text clustering mainly focus on long static
documents, so they cannot be applied to text streams that change rapidly or short length
texts. Short length text clustering is more difficult due to three main issues, including

different length (very short with only a few words or very long); the discrete of text
feature, and the rapid change/evaluation of existing clusters/topics in different batches
of text documents (coming sequentially from text streams). Therefore, it is not possible
to apply traditional text clustering techniques to process these short, discrete, and highspeed incoming text sets.
Optimization in clustering is an important issue. Topic modeling is one of the most
common approaches to text stream clustering. Topic model-based models are designed
on the assumption that the text document is generated by a mixed model. Then, by
estimating model parameters through a variety of techniques, such as Gibbs Sampling
(GS), Monte Carlo Sequence (SMC), etc, to infer subject/cluster distributions over text
collections. However, these models can only achieve high performance with long length
text streams which are rich enough contextual. Recently, DCT and MStream/MStreamF
models have been proposed to overcome the challenge of clustering short-length text
streams, however, they still encounter the limitation of mainly ignoring inside
relationships when inferring topics/clusters distributions for a given document.

There are two main limitations of recently published works when clustering text
streams, such as being unable to handle short texts and lack of word relationship
consideration, capturing semantic relations of words, while inferring topics distribution
on texts. In addition, the problem of ignoring timing features of word occurrences in the
text over time in order to capture the meaning of word trends can be a challenge in text
stream clustering.
To solve the two main challenges mentioned above, this thesis proposes the GOWStream model which can handle clustering over short-length text streams and
considering the relationships between words based on their co-occurences within text
contents. To tackle other related challenges, the thesis also proposes the TKES system
with an algorithm to detect bursty words on text streams. In order to complete the task
of detecting bursty words, the TKES system applies methods of extracting keywords,
finding related words of keywords, and preprocessing methods for Vietnamese texts.
The results from the TKES are expected to be used to improve the efficiency of the
GOW-Stream model by capturing the trends of words in texts coming from the stream

when performing clustering tasks.
Thus, the research issues of the thesis are as follows: The problem of clustering
short length text streams; The problem of clustering text stream with non-fixed topics;
The problem of considering the co-occurence relationships between words in text stream
clustering; The problem of detecting bursty words to capture semantics about the trend
of words in texts coming from text streams; The problem of text representation when
clustering text streams. In general, the thesis tackles two main issues: clustering
semantic text stream using graphs of words and detecting bursty words on text stream.
To solve the first issue, the thesis proposes an approach to apply n-gram to
text2graphs using frequent subgraph mining (FSM) technique to extract common sub
GOWs from the given text corpus. Then, the occurrences of the common sub GOWs in
each document are used to support the process of estimating the distribution of topics
assigned to the document. The proposed model GOW-Stream is a mixed model-based
model used to efficiently handle the task of clustering over short length text streams by
combining both independent word evaluations (separate words in each document ) and
dependent words evaluations (words that appear together in common sub GOWs based
on their co-occurrences in texts). The model not only solves the challenges of the topic
changes of the short length text streams but also improves accuracy compared to models
based on word independent evaluation as well as a little bit improve the speed of
clustering process while costing more for text2graph and frequent subgraph detecting
activities. Extensive experiments on standard real-world datasets have demonstrated the

effectiveness of the proposed GOW-Stream model for short text stream clustering
compared with recent modern algorithms, like DTM, Sumblr, and MStream. This
problem is solved based on the basis of theories including texts to graphs technique,
GSpan frequent subgraph mining technique, clustering text stream based on dynamic
mixed model, Dirichlet process, Poly-Urn principles, Chinese restaurant process (CRP),
stick-breaking techniques, and Gibbs sampling techniques. Experiments are performed
related to the accuracy, processing speed of the clustering process, processing speed of

the general process (including the text2graph and frequent subgraph detecting
activities), the effect of iterations, model stability when changing parameters shows that
the proposed model achieves higher accuracy than the compared models without much
influence on slowing down the processing speed, achieving a balance of accuracy of
results within 7-10 iterations, achieving stable performance in terms of accuracy with
different values of both hyperparameters from which it is concluded that the GOWStream model is effective, efficient, and stable in performing the task of clustering short
length text stream.
To tackle the second main problem, the thesis proposes the TKES system with the
main contribution of proposing an algorithm to detect keyword bursts based on the
Kleinberg algorithm, an algorithm that has been proven effective, trusted, and used in
many fields. The proposed algorithms also detect trendy keywords and trendy bursts.
To build this TKES system, the thesis applies the keyword extraction method using TFIDF, finds similar keywords using the Neural network to train the model in order to find
similar keyword sets, uses the Skip-gram model, similarity measures like Cosine,
Euclidean, Manhattan, Minkowski,
and Jaccard, and Vietnamese text data
preprocessing techniques. The experimental results of the study include processing
speed calculation, processing speed comparison between solutions and between
different data sets, data sets collection, and dataset exportation from results used for
related studies.

Using the theoretical research methodology and the experimental and comparative
research method, the thesis has published four articles in international conference
proceedings (ACM and Springer) and two journal articles (one articles in a Scopus/Q3
journal and another in a SCIE/Q3 journal). Finally, the thesis report is structured as
follows: summary, chapter 1 - introduction, chapter 2 - literature review, chapters 3 & 4
– the two main problems, chapter 5 – conclusions and future work, study work.

Keywords: text stream clustering; topic model; graph-of-words; event detection;
burst detection; keyword extraction; Kleinberg; trendy keywords;

1

CHƯƠNG 1: GIỚI THIỆU
Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên
cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện; Cấu trúc
của luận án.

1.1 Tổng quan về đề tài luận án
1.1.1 Bài toán nghiên cứu và ý nghĩa
Dữ liệu ngày càng tăng do ngày càng có nhiều mạng xã hội, diễn đàn, phương tiện
truyền thông, thiết bị cảm ứng và người dùng điện thoại thông minh cũng đã và đang
tạo ra lượng lớn dữ liệu. Số lượng thiết bị được kết nối đang tăng dần và các thiết bị này
liên tục tạo ra các luồng dữ liệu [106]. Theo [53], luồng dữ liệu là một chuỗi vô hạn các
phần tử đếm được. Các mô hình khác nhau của luồng dữ liệu có các cách tiếp cận khác
nhau liên quan đến khả năng thay đổi của luồng và cấu trúc của các phần tử luồng. Xử
lý luồng là việc phân tích các luồng dữ liệu để thu được kết quả mới với dữ liệu đầu vào
mới. Thời gian là yêu cầu trọng tâm trong xử lý luồng: trong hầu hết các mơ hình luồng,
mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian, ví dụ: nhãn thời
gian được xác định khi phần tử được tạo, dựa vào tính hợp lệ của nội dung, hoặc khi
phần tử sẵn sàng để xử lý. Gom cụm là một trong các hướng nghiên cứu liên quan đến
khai phá luồng dữ liệu.
Theo [55], các phương pháp gom cụm thường được sử dụng để hiểu về các nhóm
người dùng, tài liệu hoặc các nội dung khác. Một tập dữ liệu chẳng hạn như một tập hồ
sơ chứa đầy các con số và giá trị có thể sẽ rất khó hiểu, và người ta thường có nhu cầu
nhóm tồn bộ thành các nhóm nhỏ hơn, mỗi nhóm chứa các mục tương tự với nhau từ
đó có thể phân tích và kiểm tra dễ dàng hơn. Phương pháp phổ biến để gom cụm là sử
dụng một kho ngữ liệu văn bản chứa các tài liệu với nhiều chủ đề khác nhau. Để phân
loại tất cả các tài liệu theo chủ đề từ đó tài liệu có thể được sử dụng và truy xuất nhanh

hơn, toàn bộ kho tài liệu có thể được phân tích bằng phương pháp gom cụm, phân tách
tài liệu thành các nhóm sao cho tài liệu trong mỗi nhóm có liên quan hay tương đồng
với nhau và với các chủ đề của từng nhóm.
Là một dạng thức của luồng dữ liệu, luồng văn bản là một loại luồng dữ liệu đặc
biệt, trong đó dữ liệu là các tài liệu văn bản đến liên tục [10], luồng văn bản là chuỗi các
văn bản được sắp xếp theo thứ tự, đến nhanh chóng và liên tục theo thời gian trong hai

2
dạng chính: tin tức và truyền thơng xã hội. Khai phá văn bản, theo [16], là hoạt động
khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức
(hoặc thơng tin, mẫu) từ dữ liệu văn bản khơng có cấu trúc hoặc bán cấu trúc. Vấn đề
về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên
quan như: Xử lý ngôn ngữ tự nhiên, Thu thập thông tin [49], Phát hiện chủ đề, Định
nghĩa từ ngữ, Khai phá thơng tin, Phân tích mạng xã hội [35], Tóm tắt văn bản [25, 28],
Phân tích cảm xúc, Mơ hình khơng gian Vector, Phân lớp văn bản, Gom cụm văn bản,
vv…
Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một
vấn đề quan trọng trong cộng đồng nghiên cứu có nhiều ứng dụng như phân nhóm văn
bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề …Theo [47], gom cụm văn bản là tự
động nhóm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang
web, email, ...) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của
chúng. Vấn đề gom cụm văn bản có thể được định nghĩa như sau. Cho một tập hợp gồm
𝑛 tài liệu được ký hiệu là 𝐷 = {𝑑1 , 𝑑2 , … , 𝑑𝑛 } và một số cụm được xác định trước 𝐾
(thường do người dùng thiết lập), 𝐷 được nhóm thành 𝑘 cụm tài liệu Z={𝑧1 , 𝑧2 , … , 𝑧𝑘 }
sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm khơng
tương đồng nhau. Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác
nhau và tùy theo mơ hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng
khác nhau. Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì
văn bản đến trên luồng thay đổi. Do đó, khơng thể xác định trước được số cụm.

Hiện nay, gom cụm luồng văn bản là một vấn đề có ý nghĩa trong hoạt động khai
phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhóm tin tức, thu thập
văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email ... Ví dụ: trong
ứng dụng phát hiện sự kiện xã hội, gom cụm văn bản có thể giúp xác định xu hướng
đang được quan tâm hoặc đang được thảo luận thường xuyên về các chủ đề trong các
mạng xã hội phổ biến gần đây (như: COVID-19, cuộc chiến thương mại của Trung Quốc
Hoa Kỳ,…). Hoặc trong truy xuất văn bản, gom cụm văn bản có thể giúp nhóm các kết
quả tìm kiếm có liên quan (dưới dạng tài liệu văn bản) để giúp người dùng dễ dàng rút
trích thơng tin cần thiết. Gom cụm văn bản ban đầu được phát triển để cải thiện hiệu
suất của các cơng cụ tìm kiếm thơng qua phân nhóm trước tồn bộ ngữ liệu. Sau này,
gom cụm văn bản sau này cũng đã được được nghiên cứu để duyệt tài liệu kết quả sau
khi trích xuất. Một vài bài tốn liên quan đến gom cụm văn bản có thể kể đến:
 Cải thiện kết quả rút trích tài liệu bằng cách sử dụng các tài liệu đã được gom cụm.
 Phân loại được tài liệu giúp cải thiện quá trình duyệt nội dung các tài liệu văn bản.
 Kết quả gom cụm giúp nhận dạng nội dung tin tức giả [33].

Luận án Tiến sĩ Khoa học máy tính: Khai phá luồng văn bản với kỹ thuật gom cụm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về