Tải bản đầy đủ (.pdf) (98 trang)

Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 98 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
——————– * ———————

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

GOM CỤM VĂN BẢN DỰA TRÊN MƠ
HÌNH PHÁT HIỆN CHỦ ĐỀ
NGÀNH: KHOA HỌC MÁY TÍNH

HỘI ĐỒNG: Khoa học máy tính 10
GVHD: TS. Lê Thanh Vân
GVPB: TS. Nguyễn Đức Dũng
—o0o—
SVTH: Nguyễn Văn Quyền Lâm(1711901)

TP. HỒ CHÍ MINH, 8/2021


ĐẠI HỌC QUỐC GIA TP.HCM
---------TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA: KH & KT Máy tính
BỘ MƠN: Hệ thống & Mạng

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP

HỌ VÀ TÊN: Nguyễn Văn Quyền Lâm


NGÀNH: Khoa học máy tính

MSSV: 1711901
LỚP: ________________________

1. Đầu đề luận án:
Gom cụm văn bản dựa trên mô hình chủ đề.
2. Nhiệm vụ (yêu cầu về nội dung và số liệu ban đầu):
-! Tìm hiểu các cơng trình liên quan đến bài toán phát hiện chủ đề và gom cụm dữ liệu.
-! Xây dựng công cụ thu thập dữ liệu văn bản tiếng Việt từ trang tin tức điện tử.
-! Đề xuất mơ hình phát hiện chủ đề.
-! Đề xuất mơ hình xây dựng vector ngữ cảnh cho dữ liệu văn bản.
-! Tích hợp kết quả của mơ hình phát hiện chủ đề và vector ngữ cảnh để tạo dữ liệu đầu vào
và tiến hành gom cụm dữ liệu.
3. Ngày giao nhiệm vụ luận án: 01/03/2021
4. Ngày hoàn thành nhiệm vụ: 01/08/2021
5. Họ tên giảng viên hướng dẫn:

Phần hướng dẫn:

1) TS. Lê Thanh Vân

100%

Nội dung và yêu cầu LVTN đã được thông qua Bộ môn.
Ngày ........ tháng ......... năm ..........
CHỦ NHIỆM BỘ MƠN

GIẢNG VIÊN HƯỚNG DẪN CHÍNH


(Ký và ghi rõ họ tên)

(Ký và ghi rõ họ tên)

Lê Thanh Vân

PHẦN DÀNH CHO KHOA, BỘ MÔN:
Người duyệt (chấm sơ bộ): ________________________
Đơn vị: _______________________________________
Ngày bảo vệ: ___________________________________
Điểm tổng kết: _________________________________
Nơi lưu trữ luận án: _____________________________


TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KH & KT MÁY TÍNH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------------------Ngày
tháng
năm

PHIẾU CHẤM BẢO VỆ LVTN
(Dành cho người hướng dẫn/phản biện)
1. Họ và tên SV: Nguyễn Văn Quyền Lâm
MSSV: 1711901
Ngành (chuyên ngành):
2. Đề tài: Gom cụm văn bản dựa trên mơ hình chủ đề
3. Họ tên người hướng dẫn: TS. Lê Thanh Vân

4. Tổng quát về bản thuyết minh:
Số trang: 95
Số chương: 7
Số bảng số liệu: 7
Số hình vẽ: 31
Số tài liệu tham khảo: 61
Phần mềm tính tốn:
Hiện vật (sản phẩm)
5. Tổng quát về các bản vẽ:
- Số bản vẽ:
Bản A1:
Bản A2:
Khổ khác:
- Số bản vẽ vẽ tay
Số bản vẽ trên máy tính:
6. Những ưu điểm chính của LVTN:
- Luận văn đã tìm hiểu tốt các cơng trình nghiên cứu liên quan đến mơ hình phát hiện chủ đề, các
mơ hình xây dựng vector nhúng, tìm hiểu BERT, PhoBERT trong phân tích ngữ cảnh văn bản.
- Luận văn đã đề xuất mơ hình gom cụm kết hợp vector sinh ra từ mơ hình phát hiện chủ đề LDA
phát hiện các từ quan trọng đóng góp của chủ đề, vector nhúng từ PhoBERT để sinh ngữ cảnh nhằm
tổng hợp ưu điểm của LDA và PhoBERT, sau đó dùng mơ hình AutoEncoder để thu giảm số chiều
vector nhằm giữ lại những đặc trưng chủ yếu của văn bản. Kmeans++ được sử dụng để gom cụm
các vector nhúng đề xác định các văn bản cùng chủ đề. Cách thức kết hợp này nhằm giúp xác định
được số cụm cần thiết dựa trên LDA khi tiền xử lý loại bỏ được các topic có nhiễu, đồng thời thơng
qua PhoBERT lại xây dựng được vector ngữ cảnh mà LDA không xác định tốt. Kết quả thực
nghiệm cho kết quả khả quan khi so sánh với các phương pháp gom cụm chỉ dựa trên vector TFIDF, LDA, BERT, PhoBERT.
- Sinh viên có khả năng tự học, tự nghiên cứu tốt.
7. Những thiếu sót chính của LVTN:
Do hạn chế về thời gian nên luận văn chưa thử nghiệm với các mơ hình học sâu cải tiến hơn trong
XLNNTN.


8. Đề nghị: Được bảo vệ □
Bổ sung thêm để bảo vệ □
9. 3 câu hỏi SV phải trả lời trước Hội đồng:
10. Đánh giá chung (bằng chữ: giỏi, khá, TB):

Không được bảo vệ □

Điểm :

9.5/10

Ký tên (ghi rõ họ tên)

Lê Thanh Vân


TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KH & KT MÁY TÍNH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------------------Ngày 01 tháng 08 năm 2021

PHIẾU CHẤM BẢO VỆ LVTN
(Dành cho người hướng dẫn/phản biện)
1. Họ và tên SV: Nguyễn Văn Quyền Lâm
MSSV: 1711901
Ngành (chuyên ngành): KHMT
2. Đề tài: GOM CỤM VĂN BẢN DỰA TRÊN MƠ HÌNH PHÁT HIỆN CHỦ ĐỀ

3. Họ tên người hướng dẫn/phản biện: Nguyễn Đức Dũng
4. Tổng quát về bản thuyết minh:
Số trang:
Số chương:
Số bảng số liệu
Số hình vẽ:
Số tài liệu tham khảo:
Phần mềm tính tốn:
Hiện vật (sản phẩm)
5. Tổng qt về các bản vẽ:
- Số bản vẽ:
Bản A1:
Bản A2:
Khổ khác:
- Số bản vẽ vẽ tay
Số bản vẽ trên máy tính:
6. Những ưu điểm chính của LVTN:
Luận văn đã hiện thức được giải pháp cho bài toán gom cụm văn bản sử dụng cách tiếp cận học
máy. Về cơ bản, mơ hình đề xuất sử dụng thơng tin trích xuất từ LDA và PHOBERT LM để là đầu
vào cho bài toán gom cụm với kỳ vọng các đặc trưng thống kê và được trưng có ngữ cảnh sinh ra từ
BERT sẽ giúp phân loại tốt hơn. Nhóm đã sử dụng encoder của AutoEncoder để thu giảm số chiều
của dữ liệu trước khi sử dụng các kỹ thuật gom cụm không giám sát. Kết quả đạt được cho thấy mơ
hình cho kết quả gom cụm tốt hơn các phương pháp gom cụm truyền thống
7. Những thiếu sót chính của LVTN:
Việc sử dụng đặc trưng LDA không chắc thể hiện được nội dung văn bản, tức là hai văn bản có thể
có cùng thống kê LDA nhưng nội dung liên quan hai chủ đề hoàn toàn khác nhau. Việc sử dụng
nhiều đặc trưng kết hợp mang lại tính phân loại cao cho văn bản là một lựa chọn hợp lý nhưng cần
được chú ý phân tích hơn. Nhất là khi bản thân đặc trưng ngữ cảnh của văn bản có thể đã đủ tính
phân loại rồi nhưng do AutoEncoder chưa đủ tốt trong khi huấn luyện.
8. Đề nghị: Được bảo vệ o

Bổ sung thêm để bảo vệ o
Không được bảo vệ o
9. 3 câu hỏi SV phải trả lời trước Hội đồng:
a. Nhóm có cân nhắc giải pháp sử dụng các lớp tổng chập hoặc các mơ hình tuần tự cho đặc trưng
đầu vào trước khi đưa vào AutoEncoder hay không?
b. Liệu giải pháp thay thế AutoEncoder bằng các lớp tổng chập hoặc các mô hình tuần tự đã được
cân nhắc chưa? Nếu có thì kỳ vọng tốt hơn hay tệ hơn với đề xuất hiện tại?
c.
10. Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi

Điểm: 9.5 /10
Ký tên (ghi rõ họ tên)

Nguyễn Đức Dũng


LỜI CAM ĐOAN
Tôi tên là: Nguyễn Văn Quyền Lâm
Sinh ngày: 29/03/1999
Sinh viên khoa Khoa học và kỹ thuật Máy tính, mã số sinh viên: 1711901, chuyên ngành
Khoa học Máy tính, trường Đại học Bách Khoa thành phố Hồ Chí Minh.
Tơi xin cam đoan, toàn bộ nội dung liên quan đến đề tài được trình bày trong luận văn
là của bản thân tơi tìm hiểu và nghiên cứu, dưới sự hướng dẫn khoa học của Cô TS. Lê
Thanh Vân.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của cô hướng
dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng. Nếu sai tơi hồn tồn chịu
trách nhiệm trước hội đồng khoa học và trước pháp luật.
Tác giả luận văn

Nguyễn Văn Quyền Lâm



LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và
hướng dẫn tận tình của Cơ hướng dẫn TS. Lê Thanh Vân, luận văn với đề tài "Gom cụm văn
bản dựa trên mơ hình phát hiện chủ đề" đã hồn thành.
Tơi xin tỏ lịng biết ơn sâu sắc đến: Cơ TS. Lê Thanh Vân đã tận tình chỉ dẫn, giúp đỡ
tơi trong suốt q trình hồn thiện luận văn này.
Tơi xin cảm ơn đến khoa Khoa học và kỹ thuật Máy tính thuộc trường đại học Bách khoa
thành phố Hồ Chí Minh đã giúp đỡ tơi trong q trình học tập cũng như hồn thiện luận văn
này.
Tơi xin chân thành cảm ơn đến bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ,
tạo điều kiện giúp đỡ tơi trong suốt q trình học tập, thực hiện và hồn thiện luận văn này.
Tơi xin chân thành cảm ơn!
Hồ Chí Minh, ngày .... tháng .... năm 2021
Sinh viên

Nguyễn Văn Quyền Lâm


TĨM TẮT LUẬN VĂN

Luận văn này nói nêu lên vấn đề về phân tích dữ liệu thu thập được trên các trang báo mạng,
diễn đàn, mạng xã hội. Khi mà việc phân tích, tìm đặc trưng với lượng dữ liệu lớn nhằm mục
tiêu đưa ra các kế hoạch, giải pháp, hoặc đề xuất ứng phó với các nguy cơ dần xuất hiện. Nhưng
khó khăn trong vấn đề làm sao có thể phân tích với lượng dữ liệu lớn, phong phú, đa dạng như
vậy?
Mục tiêu của luận văn là có thể gom cụm các dữ liệu dạng văn bản này với nhau thành các
chủ đề lớn, từ các chủ đề đã phân cụm với những phương pháp khác nhau và mục đích khác
nhau lại phục vụ để có thể phân cụm thấp hơn, hoặc trở thành nguồn dữ liệu cho các tác vụ

khác. Hiện nay một trong những ứng dụng quan trọng mà bộ phân cụm đã thực hiện được đó
chính là đưa ra những chủ đề nóng, chủ đề nổi bật mà được người viết, người đọc trên các trang
diễn đàn quan tâm nhiều trong một khoảng thời gian nhất định.
Luận văn đã chứng minh được khả năng cải thiện tính chính xác và hiệu quả trong việc gom
cụm văn bản bằng cách kết hợp mơ hình phát hiện chủ đề với phương pháp hiện đại là phân
tích ngữ nghĩa văn bản sử dụng BERT. Mở ra những hướng nghiên cứu mới trong khoa học máy
tính, đặc biệt là đối với xử lý ngôn ngữ tự nhiên.


Mục lục

1

2

Giới thiệu đề tài

1

1.1

Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Mục tiêu, đối tượng và phạm vi giới hạn của đề tài . . . . . . . . . . . . . . . .

3


1.2.1

Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.2.2

Đối tượng và phạm vi giới hạn của đề tài . . . . . . . . . . . . . . . .

3

1.3

Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.4

Các thách thức gặp phải trong quá trình thực hiện luận văn . . . . . . . . . . .

5

1.5

Ý nghĩa của đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5


1.5.1

Ý nghĩa khoa học . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.5.2

Ý nghĩa thực tiễn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Tổng quan về mơ hình chủ đề

7

2.1

Tổng quan về chủ đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.2

Tổng quan về mơ hình chủ đề . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.2.1


Khái niệm về mơ hình chủ đề . . . . . . . . . . . . . . . . . . . . . .

7

2.2.2

Lịch sử của mô hình chủ đề . . . . . . . . . . . . . . . . . . . . . . .

8

i


2.3

3

4

Một số mơ hình chủ đề chính . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.3.1

Mơ hình LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9


2.3.2

Mơ hình pLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.3.3

Mơ hình LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.3.4

Mơ hình CTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.3.5

Một số mơ hình khác . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.4

Mơ hình LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16


2.5

Tổng kết chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

Gom cụm(Clustering)

23

3.1

Tổng quan về gom cụm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3.2

Phương pháp gom cụm dữ liệu với Kmeans++ . . . . . . . . . . . . . . . . . .

26

3.3

Tổng kết chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

Phương pháp khai thác ngữ nghĩa trong văn bản


29

4.1

Tổng quan về Sentence Embedding . . . . . . . . . . . . . . . . . . . . . . . .

29

4.2

Mô hình BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

4.2.1

Sự ra đời của BERT . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

4.2.2

Kiến trúc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

4.2.3

Kết quả BERT đạt được . . . . . . . . . . . . . . . . . . . . . . . . .


37

Khai thác ngữ nghĩa văn bản tiếng Việt với PhoBERT . . . . . . . . . . . . . .

38

4.3.1

38

4.3

Giới thiệu về RoBERTa . . . . . . . . . . . . . . . . . . . . . . . . . .


4.3.2
4.4
5

PhoBERT với văn bản tiếng Việt . . . . . . . . . . . . . . . . . . . . .

39

Tổng kết chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
nghĩa của văn bản


42

5.1

Đầu vào dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

5.2

Khối LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

5.2.1

Mô phỏng giản lược . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

5.2.2

Ví dụ thực tế với bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .

45

Khối PhoBERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46


5.3.1

Mô phỏng giản lược . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

5.3.2

Ví dụ thực tế với bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .

48

Khối Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

5.4.1

Tổng quan về giảm chiều dữ liệu . . . . . . . . . . . . . . . . . . . . .

49

5.4.2

Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

5.4.3


Khối Autoencoder trong mơ hình đề xuất . . . . . . . . . . . . . . . .

52

5.4.4

Mô phỏng giản lược . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

5.4.5

Ví dụ thực tế với bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .

53

Khối Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

5.5.1

Mô phỏng giản lược . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

5.5.2

Ví dụ thực tế với bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .


55

Tổng kết chương 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

5.3

5.4

5.5

5.6


6

Đánh giá thực nghiệm mơ hình gom cụm văn bản dựa trên mơ hình chủ đề đã đề
xuất
6.1

Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

6.1.1

Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57


6.1.2

Quá trình thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .

58

6.1.3

Kết quả thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .

58

6.2

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

6.3

Xây dựng các mơ hình so sánh . . . . . . . . . . . . . . . . . . . . . . . . . .

62

6.4

Đánh giá khách quan, chủ quan và so sánh các mơ hình . . . . . . . . . . . . .

62


6.4.1

Độ đo coherence và silhouette . . . . . . . . . . . . . . . . . . . . . .

62

Kết quả từ các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

6.5.1

Tập dữ liệu [I] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

6.5.2

Tập dữ liệu [II] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

6.6

Đánh giá ưu, nhược điểm của mơ hình đề xuất . . . . . . . . . . . . . . . . . .

72

6.7


Tổng kết chương 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

6.5

7

57

Kết luận

74


Danh sách bảng
6.1

Phân chia 2 tập dữ liệu để thực nghiệm . . . . . . . . . . . . . . . . . . . . . .

60

6.2

Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I] . . . . . . . . . .

61

6.3


Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II] . . . . . . . .

61

6.4

Bảng độ đo so sánh các mơ hình . . . . . . . . . . . . . . . . . . . . . . . . .

67

6.5

Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là
100% - Vị trí các chủ đề khơng giống nhau trên cùng một hàng, đây chỉ là trị số
index do mơ hình xuất ra)

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

6.6

Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4

. . . . . . . . . . . .

70

6.7


Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5

. . . . . . . . . . . .

71

v


Danh sách hình vẽ
2.1

Kiến trúc của mơ hình LSA(hashtags là những document) . . . . . . . . . . . .

10

2.2

Kiến trúc của mơ hình PLSA . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.3

Hai quá trình sinh của mơ hình PLSA mơ tả theo đồ thị . . . . . . . . . . . . .

13

2.4


Kiến trúc của Mơ hình CTM . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.5

Kiến trúc của Mơ hình LDA . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

3.1

Mơ phỏng thuật tốn Kmeans[55] . . . . . . . . . . . . . . . . . . . . . . . .

26

4.1

Kiến trúc BERT, OpenAI GPT và ELMo . . . . . . . . . . . . . . . . . . . . .

33

4.2

Kiến trúc BERT mô phỏng 3D(Mỗi layer huấn luyện tương ứng với một encoder
của transformer) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3


33

Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng
khối encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

4.4

Mơ phỏng q trình biểu diễn đầu vào của BERT . . . . . . . . . . . . . . . .

34

4.5

Mơ phỏng q trình che giấu token và dự đốn token được che giấu đó . . . . .

36

5.1

Kiến trúc của mơ hình phân cụm dựa trên mơ hình chủ đề . . . . . . . . . . . .

43

5.2

Kiến trúc của khối LDA trong mô hình đề xuất . . . . . . . . . . . . . . . . .

44


5.3

Mô phỏng quá trình sinh và kết quả với LDA . . . . . . . . . . . . . . . . . . .

45

vi


5.4

Ví dụ về khối LDA trong mơ hình đề xuất . . . . . . . . . . . . . . . . . . . .

46

5.5

Kiến trúc của khối PhoBERT trong mơ hình đề xuất . . . . . . . . . . . . . . .

47

5.6

Mơ phỏng q trình tạo sentence-embedding với PHOBERT . . . . . . . . . .

47

5.7


Ví dụ về khối phoBERT trong mơ hình đề xuất . . . . . . . . . . . . . . . . .

49

5.8

Kiến trúc của một Autoencoder [19] . . . . . . . . . . . . . . . . . . . . . . .

51

5.9

Kiến trúc của khối Autoencoder trong mơ hình đề xuất . . . . . . . . . . . . .

52

5.10 Mô phỏng quá trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết
quả với Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

5.11 Ví dụ về khối Autoencoder trong mơ hình đề xuất . . . . . . . . . . . . . . . .

54

5.12 Mơ phỏng q trình phân cụm và kết quả của Kmeans++ . . . . . . . . . . . .

55

5.13 Kiến trúc của khối Clustering trong mô hình đề xuất . . . . . . . . . . . . . . .


56

6.1

Phân cụm dữ liệu trên vector sinh bởi TF-IDF(mô phỏng với UMAP) . . . . . .

64

6.2

Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm
chiều bởi Autoencoder(mô phỏng với UMAP) . . . . . . . . . . . . . . . . . .

6.3

Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được
giảm chiều bởi Autoencoder(mô phỏng với UMAP) . . . . . . . . . . . . . . .

6.4

66

Phân cụm dữ liệu trên vector sinh bởi việc kết hợp BERT và LDA được giảm
chiều bởi Autoencoder(mô phỏng với UMAP) . . . . . . . . . . . . . . . . . .

6.5

65


66

Phân cụm dữ liệu trên vector sinh bởi việc kết hợp PhoBERT và LDA PhoBERT
và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) . . . . . . . . . .

67

6.6

Cụm ở index 0 của mơ hình để xuất . . . . . . . . . . . . . . . . . . . . . . .

68

6.7

Cụm ở index 1 của mơ hình để xuất . . . . . . . . . . . . . . . . . . . . . . .

68



Danh sách thuật ngữ
Tiếng Anh

Tiếng Việt

AI

Artificial Intelligence


artificial intelligence

trí tuệ nhân tạo, trí thơng minh nhân tạo

attribute

thuộc tính

BERT

Bidirectional Encoder Representations from
Transformers

BoW

Bag of Word

classification

phân loại

conditional probability

xác suất có điều kiện

continuous

liên tục

discrete


rời rạc

document

văn bản

EM

Expectation Maximization

entropy

độ hỗn loạn thông tin

label

nhãn

LDA

Latent Dirichlet Allocation

LSA

Latent Semantic Analysis

LSI

Latent Semantic Indexing


machine learning

học máy

machine learning

máy học, học máy

outcome

đầu ra của dữ liệu

overfitting

quá khớp

pLSA

Probabilistic Latent Semantic Analysis

supervised learning

học có giám sát
ix


Tiếng Anh

Tiếng Việt


SVD

Singular value decomposition

test error

mất mát trên dữ liệu kiểm tra

test data

dữ liệu kiểm tra

topic

chủ đề cụm văn bản

train error

mất mát trên dữ liệu huấn luyện

training score

độ chính xác khi huấn luyện

training data

dữ liệu huấn luyện

unsupervised learning


học không giám sát

unsupervised learning

học không giám sát

validation

một kĩ thuật để đánh giá độ chính xác của mơ
hình

validation set

tập dữ liệu đánh giá

validation error

mất mát trên tập đánh giá

word

từ có trong văn bản


Chương 1
Giới thiệu đề tài
1.1

Đặt vấn đề


Những năm gần đây vấn đề bùng nổ thông tin đem lại nhiều cơ hội và thách thức cho các
nhà khoa học. Lượng dữ liệu lớn khó kiểm sốt do sự phát triển nhanh chóng của cơng nghệ
thơng tin, các thiết bị điện tử và cả con người. Những nguồn dữ liệu này chứa nhiều thơng tin
q giá nhưng lại chưa có cách khai thác cụ thể nhằm đem lại sự hữu ích trong thực tiễn. Khoa
học và công nghệ phát triển, đặc biệt là ngành khoa học máy tính đóng vai trị tích cực trong
việc giải quyết vấn đề về dữ liệu lớn. Bước đầu những nghiên cứu về xử lý ngôn ngữ tự nhiên
nhất là trong khai thác, trích xuất đặc trưng từ dữ liệu đạt những kết quả hết sức ngạc nhiên và
có những đóng góp to lớn cho nghiên cứu khoa học. Đặc biệt trong lĩnh vực nghiên cứu dữ liệu
văn bản đạt được nhiều thành công lớn với những phương pháp và sự cải tiến không ngừng các
phương pháp này nhằm đạt kết quả chính xác cao hơn. Vấn đề dữ liệu lớn được giải quyết trong
khoa học, nhưng ứng dụng trong thực tiễn lại chưa rộng lớn. Quá trình từ khoa học đến thực tiễn
cịn trong sự khởi đầu, vẫn còn cần một thời gian dài để nghiên cứu, tuy nhiên những kết quả
mà khoa học đã đem lại đã chứng minh tương lai đáng mong chờ.
Quay lại với việc áp dụng khoa học vào thực tiễn của xử lý ngôn ngữ tự nhiên. Hiện nay
lượng dữ liệu trên các trang báo điện tử, mạng xã hội, diễn đàn online ... đặc biệt là các bài viết
thường liên quan đến thông tin đời sống hàng ngày, thông tin đặc sắc được người tham gia viết
hoặc chia sẻ. Đứng dưới góc độ là một nhà khoa học dữ liệu, doanh nghiệp cần biết xu hướng

1


thị trường, chính phủ cần quan tâm đến dư luận xã hội hoặc những người có nhu cầu về khuynh
hướng dữ liệu đang chuyển dịch sự chú ý trên các trang mạng, diễn đàn này. Vấn đề đặt ra làm
sao quan sát được sự chuyển dịch của luồng dư luận? Q trình quan sát sự dịch chuyển này có
thể được xử lý bởi con người, thực tế là có những người sử dụng phương pháp thống kê về số
liệu đã và đang cố gắng giải quyết bài toán này. Để giúp đỡ con người, những thuật toán mới
xuất hiện nhằm xây dựng những cơng cụ giải quyết bài tốn này cũng được quan tâm, một trong
số đó chính là làm sao gom cụm được dữ liệu, từ đó quan sát một số đặc tính, đặc trưng của dữ
liệu được gom cụm. Sự chuyển dịch chú ý đi liền với khoảng thời gian mà cụm này lớn hơn(được

chú ý) nhiều những cụm khác.
Nói về gom cụm dữ liệu có thể định nghĩa như sau: "Gom cụm dữ liệu: dựa trên đặc trưng,
thuộc tính mà các dữ liệu giống nhau thể hiện sự tương đồng nhau mà gom cụm chúng vào
những tập hợp khác nhau". Quá trình gom cụm này đã giải quyết được việc phát hiện được
những tập hợp dữ liệu có cùng thuộc tính. Ứng dụng trong quan sát luồng dữ liệu ta có thể khai
phá được rằng theo thời gian những cụm, chủ đề nào đang được dư luận chú ý bởi vì trọng số về
tần suất xuất hiện những bài viết trên diễn đàn của các cụm này sẽ cao hơn hẳn các cụm khác
trong khoảng thời gian đó.
Q trình gom cụm dữ liệu này đã được đề xuất trong rất nhiều các bài báo khoa học lâu
đời từ những năm 1999 với thuật toán K-Means[36] là thuật toán cơ bản. Tuy nhiên sau hơn 20
năm phát triển trong việc nghiên cứu phân loại văn bản, các thuật toán mới cũng xuất hiện, các
giải pháp đề xuất đem lại kết quả khả quan hơn các thuật toán đã cũ. Nhận định rằng các thuật
toán phân loại cũ kết hợp các phương pháp hiện đại sẽ đem lại kết quả tốt hơn nữa, do đó nhận
thấy điểm yếu của phương pháp cũ từ đó dùng các phương pháp mới để khắc phục nhược điểm
mong đợi kết quả thực nghiệm sẽ có những kết quả tốt.
Trước vấn đề thực tiễn về quan sát, theo dõi sự thay đổi của luồng dư luận. Với phương án sử
dụng thuật toán phân cụm cơ bản nhưng dựa trên mơ hình phát hiện chủ đề cho văn bản kết hợp
với véc-tơ sentence embedding. Đây là một phương án nhằm cải thiện khả năng của mơ hình
phát hiện chủ đề. Với hi vọng sẽ đạt được những kết quả khả quan từ mơ hình đề xuất. Nhận
thấy đây là một vấn đề cần nghiên cứu vì vậy tơi lựa chọn đề tài luận văn: "Gom cụm văn bản
dựa trên mơ hình phát hiện chủ đề". Nhằm giải quyết vấn đề thực tiễn đã nêu, cơ hội áp dụng
cho nhu cầu thực tế trong doanh nghiệp, cá nhân, tổ chức và tạo điều kiện cho các nghiên cứu
khoa học sau này có tiền đề so sánh, đối chiếu hoặc áp dụng phát triển hơn nữa.
2


1.2

Mục tiêu, đối tượng và phạm vi giới hạn của đề tài


1.2.1

Mục tiêu

Về kiến thức
• Hiểu được các phương pháp phân cụm dữ liệu và các mơ hình phát hiện chủ đề thơng dụng.
Tập trung vào thuật tốn K-Means++ và mơ hình Dirichlet tiềm ẩn phân bổ(LDA).
• Hiểu về cách hình thành véc-tơ sentence embedding. Hiểu về kiến trúc và hoạt động của
mơ hình BERT, sinh véc-tơ sentence embedding từ mơ hình BERT. Những khái niệm về
RoBERTa và sự cải tiến so với BERT, mơ hình PhoBERT đơn ngơn ngữ cho tiếng Việt.

Về sản phẩm
• Từ các ưu và nhược điểm của các mơ hình đã tìm hiểu, đề xuất phương án để xây dựng mơ
hình khắc phục các điểm yếu và khai thác được điểm mạnh để tạo thành một mơ hình phát
hiện chủ đề có độ chính xác tốt hơn.
• Xây dựng mơ hình trên phương pháp đã đề xuất. Kết hợp thực nghiệm với bộ dữ liệu đã
được thu thập nhằm rút ra được những so sánh, đánh giá về khả năng của mơ hình đã đề
xuất so với các mơ hình trước đó. Ngồi ra cũng nhìn nhận những nhược điểm cịn tồn tại
trong mơ hình và đề xuất phương án cải thiện độ chính xác của mơ hình đã đề xuất.

1.2.2

Đối tượng và phạm vi giới hạn của đề tài

Đối tượng nghiên cứu
• Các phương pháp phân cụm dữ liệu.
• Các mơ hình phát hiện chủ đề.
• Các phương pháp thu giảm chiều dữ liệu.
• Các mơ hình hiện đại khai thác tính mạch lạc ngữ nghĩa.
• Mơ hình kết hợp dựa trên phương pháp đề xuất.

• Đặc trưng của bài tốn phân cụm dữ liệu.
3


Phạm vi giới hạn của đề tài
• Một vài phương pháp phân cụm đặc trưng và chú trọng vào thuật tốn Kmeans++.
• Lịch sử sự phát triển của mơ hình chủ đề, một số mơ hình chủ đề nền tảng và trọng tâm vào
nghiên cứu mơ hình LDA.
• Một số phương pháp thu giảm chiều dữ liệu trong đó chủ yếu làm rõ phương pháp AutoEncoder.
• Hai mơ hình hiện đại khai thác tính mạch lạc ngữ nghĩa, trong đó bao gồm tìm hiểu cơ bản
về Transformer, hai mơ hình hiện đại là BERT và PhoBERT(Phát triển dựa trên RoBERTa).
• Dữ liệu thu thập trong khoảng thời gian hơn 3 tháng từ tháng 3 năm 2021 đến đầu tháng 6
năm 2021. Và tính thay đổi chủ đề theo thời gian trong hai tháng 4 và tháng 5 năm 2021.

1.3

Phương pháp nghiên cứu

Đề tài luận văn được thực hiện nghiên cứu dựa trên tổ hợp hai phương pháp là nghiên cứu lý
thuyết và nghiên cứu thực nghiệm
• Nghiên cứu lý thuyết: Tổng hợp các vấn đề lý thuyết liên quan từ các bài báo khoa học, sách
khoa học, luận văn, luận án, giáo trình, Internet.
• Nghiên cứu thực nghiệm:
– Nghiên cứu cài đặt thực hành các công cụ hỗ trợ thuật toán.
– Thu thập, xử lý, chọn lọc bộ dữ liệu trên các trang mạng xã hội để hình thành bộ dữ
liệu và giải quyết bài toán phân cụm văn bản trên các thuật tốn thơng dụng.
– Dựa vào các yếu điểm của các thuật toán nền tảng đã đề xuất, chọn phương pháp giải
quyết và tiến hành thử nghiệm mô hình đã cải tiến.
– Đánh giá, nhận xét kết quả thơng qua độ đo giữa mơ hình đề xuất với các phương pháp
chưa áp dụng cải tiến.


4


1.4

Các thách thức gặp phải trong quá trình thực hiện luận
văn

• Nguồn dữ liệu được lấy từ các trang báo mạng, diễn đàn nên gặp một số vấn đề trong lọc
dữ liệu ví dụ như các bài báo chỉ tồn hình ảnh, video, bài báo quảng cáo. Việc tiền xử lý
dữ liệu chỉ đảm bảo rằng hơn 95% dữ liệu mang đến thơng tin phù hợp cho thực nghiệm.
• Dữ liệu tiếng Việt phức tạp trong quá trình xử lý ngữ nghĩa cho văn bản. Số lượng dữ liệu
chỉ đạt ngưỡng trung bình, trên 10000 bài báo.
• Q trình hiện thực và chạy mơ hình trên Google Colab hạn chế nhiều trong việc sử dụng
tài ngun phần cứng.
• Q trình nghiên cứu lý thuyết chiếm trọn 1/2 thời gian hiện thực đề tài. Giới hạn về thời
gian nghiên cứu nên thiếu sót trong việc tìm hiểu sâu về cơng thức tốn học của các mơ
hình đã đề cập.

1.5

Ý nghĩa của đề tài

1.5.1

Ý nghĩa khoa học

Nghiên cứu về xử lý ngôn ngữ tự nhiên, đặc biệt trong phân cụm dữ liệu văn bản được các
nhà khoa học trên thế giới quan tâm và nghiên cứu. Đề tài hiện thực, đánh giá và đưa ra một

mơ hình gom cụm văn bản dựa trên bộ dữ liệu thực tế, qua đó góp phần cho sự nghiên cứu về
vấn đề gom cụm văn bản thuộc các nghiên cứu chuyên ngành khoa học máy tính. Bên cạnh đó
mơ hình này thể hiện tính hiệu quả cho các tác vụ đến dán nhãn dữ liệu(phân loại dữ liệu). Có
thể áp dụng cho q trình tạo ra nguồn dữ liệu cho các nghiên cứu khoa học phát triển về trí tuệ
thơng minh nhân tạo khi mà q trình thu thập dữ liệu, hoặc gán nhãn dữ liệu mất quá nhiều
thời gian.
Luận văn này góp phần làm quá trình nhận diện các yếu điểm của mơ hình khai thác chủ đề
hiện nay, đề ra phương pháp khắc phục các yếu điểm đó, kết hợp mơ hình gom cụm hình thành
nên một mơ hình mới với mong muốn đạt kết quả khả quan hơn trong thực nghiệm và đánh giá.
Luận văn nghiêng về đóng góp cho khoa học thực tiễn trên phương diện thử nghiệm dữ liệu và
5


phương pháp thực tế.

1.5.2

Ý nghĩa thực tiễn

Kết quả của luận văn đem đến một phương pháp mới trong nghiên cứu gom cụm văn bản
tiếng Việt. Đóng góp chính của luận văn là gom cụm văn bản và phân tích xu hướng dư luận.
Góp phần giúp các nhà phân tích dữ liệu, các chuyên gia có thể nhận thấy được các chủ đề nổi
bật được quan tâm trên các diễn đàn, báo mạng. Qua đó đề ra các quyết định, phương hướng, chỉ
đạo mục tiêu nhằm phục vụ cho công ty, doanh nghiệp trong cải tiến, sản xuất sản phẩm hoặc
chính phủ đưa ra các biện pháp khắc phục, phòng ngừa thiên tai, dịch bệnh...
Xây dựng mơ hình này sẽ là tiền đề cho những ứng dụng có sự liên quan đến việc phát hiện
những thông tin đặc biệt trong văn bản. Như hệ thống đề cử những bài báo có chủ đề liên quan
đến những blog, tweeter trên mạng xã hội; Chatbot với người dùng; nhận biết chủ đề quan trọng
từ những comment trên các đánh giá; ứng dụng trong lĩnh vực y học; giáo dục trong làm công
cụ chấm điểm tự động ...


6


Chương 2
Tổng quan về mơ hình chủ đề
2.1

Tổng quan về chủ đề

Chủ đề là vấn đề cơ bản, vấn đề cốt lõi mà người viết, người nói nêu lên thơng qua văn bản
hoặc lời nói. Chủ đề cung cấp cơ hội để có thể hiểu nội dung chính đang được đề cập và từ chủ
đề chi phối các nội dung khác trong văn bản và lời nói.
Chủ đề trong các trường hợp khác nhau có những định nghĩa khác nhau. Trong đề tài này
tập trung vào việc chủ đề là nội dung chính hoặc nội dung bao quát mà các văn bản đề cập. Một
văn bản luôn đề cập đến một chủ đề khác nhau, nhưng nhiều văn bản lại mang một chủ đề bao
quát giống nhau, vì thế nhờ tính liên quan đến chủ đề mà hình thành những mơ hình gom cụm
chủ đề cho văn bản.

2.2

Tổng quan về mơ hình chủ đề

2.2.1

Khái niệm về mơ hình chủ đề

Trong học máy và xử lý ngôn ngữ tự nhiên, mô hình chủ đề (Topic model) là một loại thuộc
mơ hình thống kê nhằm khám phá các định nghĩa trừu tượng về "chủ đề" xuất hiện trong một
bộ nhiều gồm văn bản. Mơ hình chủ đề là một cơng cụ khai phá văn bản được sử dụng thường

7


xuyên để khám phá cấu trúc ngữ nghĩa tiềm ẩn trong nội dung văn bản. Các "chủ đề" được tạo
ra bởi mơ hình chủ đề thường là một bộ các văn bản có những cụm từ giống nhau.

2.2.2

Lịch sử của mơ hình chủ đề

Mơ hình chủ đề đầu tiên được giới thiệu vào những năm 1998 bởi Papadimitriou, Raghavan,
Tamaki và Vempala[42] có tên là mơ hình "Lập chỉ mục ngữ nghĩa tiềm ẩn"(LSI). Vào năm
1999, mơ hình chủ đề tiếp theo được cơng bố với tên gọi "Phân tích xác suất ngữ nghĩa tiềm
ẩn"(pLSA) của giáo sư Thomas Hofmann[25]. Vào năm 2002, mơ hình "Phân bổ Dirichlet ngữ
nghĩa tiềm ẩn"(LDA) được công bố bởi David Blei, Andrew Ng, và Michael I. Jordan[9]. Mơ
hình LDA là mơ hình cải tiến hơn của mơ hình pLSA trong việc sử dụng phân bổ tiên nghiệm
Dirichlet cho quá trình phân phối xác suất của văn bản - chủ đề(document - topic) với chủ đề từ(topic - word). Hiện nay các mơ hình chủ đề phần nhiều dựa trên mơ hình LDA vì LDA vẫn
đem lại kết quả tốt. Các sửa đổi bổ sung mang tính cải thiện độ chính xác cho mơ hình chủ đề
hoặc áp dụng vào các bài toán phân cụm chủ đề cụ thể. Một ví dụ của việc cải thiện mơ hình
LDA là mơ hình "Phân bổ Panchinko"(Panchinko Allocation)[33], bằng việc mơ hình hố mối
liên hệ giữa các chủ đề bằng việc thêm vào mối liên hệ giữa những cụm từ hình thành nên các
chủ đề đó. Tuy nhiên, một điều phải thừa nhận là hầu hết các mơ hình được đề cập đều là mơ
hình học tập khơng giám sát(unsupervised learning) nhằm phát hiện ra các chủ đề trong một
kho văn bản.
Ngày nay đã cũng đã có những phương pháp, mơ hình, thuật tốn mới mang tính đột phá.
Lấy ví dụ như mơ hình "Phân tích cây tiềm ẩn phân cấp"(Hierarchical latent tree analysis)[35],
mơ hình này mơ hình hóa sự đồng xuất hiện của từ bằng cách sử dụng cây các biến tiềm ẩn và
trạng thái của các biến tiềm ẩn, tương ứng với các cụm tài liệu, được hiểu là chủ đề. Năm 2018,
một cách tiếp cận mới với mơ hình chủ đề là dựa trên mơ hình khối Stochastic[1].


8


×