Tải bản đầy đủ (.pdf) (181 trang)

(Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (20.24 MB, 181 trang )

LỜI CAM ĐOAN

Tôi tên là Lưu Minh Tuấn, xin cam đoan đây là cơng trình nghiên cứu của bản
thân nghiên cứu sinh trong thời gian học tập và nghiên cứu dưới sự hướng dẫn của
người hướng dẫn khoa học. Các kết quả nghiên cứu trình bày trong luận án là trung
thực, chính xác và chưa từng được cơng bố trong bất kỳ cơng trình nào khác. Các
kết quả nghiên cứu viết chung với các tác giả khác đều được sự đồng ý của đồng tác
giả trước khi đưa vào luận án. Các kết quả sử dụng để tham khảo đều được trích dẫn
đầy đủ và theo đúng quy định.

Hà Nội, ngày
tháng
năm 2022
Nghiên cứu sinh

Lưu Minh Tuấn

NGƯỜI HƯỚNG DẪN KHOA HỌC


LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được nhiều sự
giúp đỡ và ý kiến đóng góp q báu của các thầy cơ. Lời đầu tiên, nghiên cứu sinh
xin được bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS. TS. Lê Thanh Hương người hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể
hoàn thành được luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới
PGS. TS. Nguyễn Bình Minh về những ý kiến đóng góp quý báu trong những buổi
xê mi na khoa học nhiều gian nan trong suốt thời gian nghiên cứu và hoàn thành
luận án. Nghiên cứu sinh xin gửi lời cảm ơn đến các thầy cô của Bộ môn Hệ thống
thông tin, Viện Công nghệ thơng tin và truyền thơng, Phịng đào tạo, Trường Đại
học Bách khoa Hà Nội, nơi nghiên cứu sinh học tập và nghiên cứu đã tạo điều kiện
tốt nhất có thể cho nghiên cứu sinh trong suốt thời gian học tập và nghiên cứu để


nghiên cứu sinh có thể hồn thành luận án tiến sĩ một cách tốt nhất. Xin cảm ơn Ban
giám hiệu Trường Đại học Kinh tế Quốc dân, Ban Lãnh đạo Viện Công nghệ thông
tin và Kinh tế số, các thầy cô Bộ môn Công nghệ thông tin - nơi nghiên cứu sinh
công tác và các đồng nghiệp đã luôn quan tâm giúp đỡ, tạo điều kiện tốt nhất để
nghiên cứu sinh có thể hồn thành tốt kế hoạch học tập và nghiên cứu của mình. Lời
cuối, nghiên cứu sinh xin chân thành cảm ơn các thành viên trong gia đình, người
thân, bạn bè đã dành cho nghiên cứu sinh những tình cảm tốt đẹp, ln động viên,
giúp đỡ nghiên cứu sinh vượt qua những khó khăn trong quá trình học tập và nghiên
cứu để đạt được kết quả như ngày hơm nay. Đây cũng là món q tinh thần mà
nghiên cứu sinh trân trọng gửi tặng đến các thành viên trong gia đình và người thân.
Một lần nữa nghiên cứu sinh xin chân thành cảm ơn!


MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................ iv
DANH MỤC CÁC BẢNG....................................................................................... vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................ ix
DANH MỤC KÝ HIỆU TOÁN HỌC .................................................................... xi
MỞ ĐẦU .................................................................................................................... 1
Chương 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN ......................................... 11
1.1. Giới thiệu về tóm tắt văn bản .............................................................. 11
1.1.1. Giới thiệu bài tốn tóm tắt văn bản .................................................. 11
1.1.2. Phân loại bài tốn tóm tắt văn bản ................................................... 12
1.1.3. Các bước thực hiện trong tóm tắt văn bản ....................................... 13
1.1.4. Một số đặc trưng của văn bản .......................................................... 13
1.2. Một số phương pháp đánh giá văn bản tóm tắt tự động ................... 14
1.2.1. Phương pháp dựa trên độ tương tự về nội dung .............................. 14
1.2.2. Phương pháp dựa trên độ tương quan phù hợp ................................ 14
1.2.3. Phương pháp ROUGE ..................................................................... 15
1.3. Các phương pháp kết hợp văn bản trong tóm tắt đa văn bản ......... 18

1.4. Các phương pháp tóm tắt văn bản hướng trích rút cơ sở ................ 20
1.4.1. PageRank ......................................................................................... 20
1.4.2. TextRank .......................................................................................... 20
1.4.3. LexRank ........................................................................................... 20
1.4.4. Lead-Based ...................................................................................... 21
1.5. Các bộ dữ liệu thử nghiệm .................................................................. 21
1.5.1. Các bộ dữ liệu văn bản tiếng Anh .................................................... 21
1.5.2. Các bộ dữ liệu văn bản tiếng Việt .................................................... 24
1.6. Kết luận chương 1 ................................................................................. 25
Chương 2. CÁC KIẾN THỨC NỀN TẢNG ........................................................ 27
2.1. Các kỹ thuật học sâu cơ sở ................................................................... 27
2.1.1. Mạng Perceptron nhiều lớp .............................................................. 27
2.1.2. Mạng nơ ron tích chập ..................................................................... 28
2.1.3. Mạng nơ ron hồi quy........................................................................ 30
2.1.4. Các biến thể của RNN...................................................................... 31
2.1.5. Mơ hình chuỗi sang chuỗi cơ bản .................................................... 35
2.1.6. Cơ chế chú ý .................................................................................... 36
2.1.7. Cơ chế tự chú ý và mơ hình Transformer ........................................ 39
2.2. Các mơ hình ngơn ngữ dựa trên học sâu được huấn luyện trước .... 42
2.2.1. Mã hóa từ ......................................................................................... 42
i


2.2.2. Phương pháp Word2Vec .................................................................. 42
2.2.3. Mơ hình BERT ................................................................................. 44
2.2.4. Các phiên bản chủ yếu của mơ hình BERT ..................................... 47
2.3. Kỹ thuật học tăng cường Q-Learning ................................................. 49
2.3.1. Học tăng cường Q-Learning ............................................................ 49
2.3.2. Thuật toán học tăng cường Deep Q-Learning ................................. 50
2.4. Tìm kiếm Beam ..................................................................................... 51

2.5. Phương pháp độ liên quan cận biên tối đa ......................................... 51
2.6. Kết luận chương 2 ................................................................................. 53
Chương 3. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TĨM TẮT ĐƠN VĂN BẢN
HƯỚNG TRÍCH RÚT ........................................................................................... 54
3.1. Giới thiệu bài toán và hướng tiếp cận ................................................. 54
3.2. Mơ hình tóm tắt đơn văn bản hướng trích rút
RoPhoBERT_MLP_ESDS ................................................................................. 56
3.2.1. Giới thiệu mơ hình ........................................................................... 56
3.2.2. Mơ hình tóm tắt văn bản đề xuất ..................................................... 56
3.2.3. Thử nghiệm mơ hình ........................................................................ 59
3.2.4. Đánh giá và so sánh kết quả ............................................................. 63
3.3. Mơ hình tóm tắt đơn văn bản hướng trích rút mBERT_CNN_ESDS
.............................................................................................................................. 64
3.3.1. Giới thiệu mơ hình ........................................................................... 64
3.3.2. Mơ hình tóm tắt văn bản đề xuất ..................................................... 64
3.3.3. Thử nghiệm mơ hình ........................................................................ 67
3.3.4. Đánh giá và so sánh kết quả ............................................................. 71
3.4. Mơ hình tóm tắt đơn văn bản hướng trích rút mBERT-Tiny_
seq2seq_DeepQL_ESDS..................................................................................... 71
3.4.1. Giới thiệu mơ hình ........................................................................... 71
3.4.2. Mơ hình tóm tắt văn bản đề xuất ..................................................... 72
3.4.3. Huấn luyện mơ hình với kỹ thuật học tăng cường ........................... 74
3.4.4. Thử nghiệm mơ hình ........................................................................ 75
3.4.5. Đánh giá và so sánh kết quả ............................................................. 78
3.5. So sánh đánh giá ba mơ hình tóm tắt đơn văn bản hướng trích rút
đề xuất.................................................................................................................. 79
3.6. Kết luận chương 3 ................................................................................. 80
Chương 4. PHÁT TRIỂN PHƯƠNG PHÁP TÓM TẮT ĐƠN VĂN BẢN
HƯỚNG TÓM LƯỢC ........................................................................................... 82
4.1. Giới thiệu bài toán và hướng tiếp cận ................................................. 82

4.2. Mơ hình tóm tắt cơ sở ........................................................................... 84
4.2.1. Mơ hình seq2seq của mơ hình ......................................................... 84
ii


4.2.2. Cơ chế chú ý áp dụng trong mơ hình ............................................... 85
4.2.3. Mạng sao chép từ - sinh từ ............................................................... 86
4.2.4. Cơ chế bao phủ ................................................................................ 87
4.3. Mơ hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS 87
4.3.1. Các đặc trưng đề xuất thêm mới cho mơ hình ................................. 88
4.3.2. Mơ hình tóm tắt đơn văn bản hướng tóm lược đề xuất ................... 89
4.4. Thử nghiệm mơ hình ............................................................................ 89
4.4.1. Các bộ dữ liệu thử nghiệm ............................................................... 89
4.4.2. Tiền xử lý dữ liệu ............................................................................. 90
4.4.3. Thiết kế thử nghiệm ......................................................................... 90
4.5. Đánh giá và so sánh kết quả ................................................................. 91
4.6. Kết luận chương 4 ................................................................................. 93
Chương 5. PHÁT TRIỂN CÁC PHƯƠNG PHÁP TÓM TẮT ĐA VĂN BẢN 94
5.1. Giới thiệu bài tốn tóm tắt đa văn bản và hướng tiếp cận................ 94
5.2. Mơ hình tóm tắt đa văn bản hướng trích rút
Kmeans_Centroid_EMDS ................................................................................. 95
5.2.1. Giới thiệu mơ hình ........................................................................... 95
5.2.2. Các thành phần chính của mơ hình .................................................. 96
5.2.3. Mơ hình tóm tắt đa văn bản đề xuất ............................................... 100
5.2.4. Thử nghiệm mơ hình và kết quả .................................................... 104
5.2.5. So sánh và đánh giá kết quả ........................................................... 107
5.3. Các mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình
tóm tắt đơn văn bản được huấn luyện trước ................................................. 110
5.3.1. Đặt vấn đề ...................................................................................... 110
5.3.2. Mô hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình tóm

tắt đơn văn bản hướng tóm lược được huấn luyện trước PG_Feature_AMDS
110
5.3.3. Mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình tóm
tắt đơn văn bản hỗn hợp được huấn luyện trước Ext_Abs_AMDS-mds-mmr
121
5.4. Kết luận chương 5 ............................................................................... 132
KẾT LUẬN ........................................................................................................... 133
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ .......................................... 136
TÀI LIỆU THAM KHẢO.................................................................................... 137
PHỤ LỤC .................................................................................................................. 1
Phụ lục A: Văn bản nguồn của các văn bản tóm tắt ví dụ ......................... 1
Phụ lục B: Biểu đồ phân bố của các bộ dữ liệu thử nghiệm ...................... 3
Phụ lục C: Văn bản nguồn của các mẫu tóm tắt thử nghiệm .................... 9

iii


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt
AMDS
ASDS
Beam
BERT
BERT-Tiny
biGRU
biLSTM
BPTT
CNN
DE
Decoder

DeepQL
EMDS
Encoder
ESDS
GLUE
GRU
ILP
IR
LCS
LDA
LSA
LSTM
mBERT
mds
MLP
MMR
NLP

Tiếng Anh

Ý nghĩa tiếng Việt

Tóm tắt đa văn bản hướng
tóm lược
Tóm tắt đơn văn bản hướng
tóm lược
Thuật tốn tìm kiếm Beam
Mơ hình biểu diễn mã hóa
hai chiều từ Transformer
Mơ hình BERT thu nhỏ

Bidirectional Gated Recurrent Unit
Mạng GRU 2 chiều
Bidirectional Long Short Term Mạng LSTM 2 chiều
Memory
Backpropagation Through Time
Thuật toán lan truyền ngược
liên hồi
Covolutional Neural Network
Mạng nơ ron tích chập
Document Embedding
Mã hóa văn bản
Decoder
Bộ giải mã
Deep Q-Learning
Thuật tốn học tăng cường
dựa trên mạng nơ ron sâu
Extractive
Multi-Document Tóm tắt đa văn bản hướng
Summarization
trích rút
Encoder
Bộ mã hóa
Extractive
Single-Document Tóm tắt đơn văn bản hướng
Summarization
trích rút
General Language Understanding Đánh giá hiểu ngôn ngữ
Evaluation
chung
Gated Recurrent Unit

Mô hình đơn vị hồi quy có
kiểm sốt 1 chiều
Interger Linear Programming
Quy hoạch tuyến tính
ngun
Information Retrieval
Tìm kiếm thơng tin
Longest Common Subsequence
Dãy con chung lớn nhất
Latent Dirichlet Allocation
Mơ hình chủ đề ẩn
Latent Semantic Analysis
Phân tích ngữ nghĩa tiềm ẩn
Long Short Term Memory
Mơ hình mạng bộ nhớ ngắn
hạn dài hạn 1 chiều
BERT multilingual
Mơ hình BERT đa ngơn ngữ
multi-document summaryzation
Tóm tắt đa văn bản
Multi Layer Perceptron
Mạng Perceptron nhiều lớp
Maximal Marginal Relevance
Độ liên quan cận biên tối đa
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
Abstractive
Multi-Document
Summarization
Abstractive

Single-Document
Summarization
Beam Search
Bidirectional Encoder Representation
from Transformers

iv


OOV
PE
PG

Khơng có trong bộ từ vựng
Mã hóa vị trí
Mơ hình mạng Pointer –
Generator
Mơ hình tối ưu của BERT
hỗ trợ cho tiếng Việt
Huấn luyện trước
Học tăng cường
Mạng nơ ron hồi quy
Mô hình tối ưu của BERT
hỗ trợ cho tiếng Anh
for Độ đo Rouge

Out Of Vocabulary
Position Embedding
Pointer – Generator


PhoBERT
PT
RL
RNN
RoBERTa

Pre-trained
Reinforcement Learning
Recurent Neural Network

ROUGE

Recall-Oriented Understudy
Gisting Evaluation
Sentence Embedding
Mã hóa câu
Sequence to sequence
Mơ hình chuỗi sang chuỗi
Stanford Question Answering Dataset Bộ dữ liệu hỏi đáp của
Stanford
Support Vector Machine
Mơ hình máy véc tơ hỗ trợ
Term Frequency – Inverse Document Trọng số của từ (mức độ
Frequency
quan trọng của từ) trong văn
bản của một tập văn bản
Tóm tắt văn bản
warmup
Quá trình huấn luyện ban
đầu (số bước) với tỉ lệ học

nhỏ
Word Embedding
Mã hóa từ

SE
seq2seq
SQuAD
SVM
TF-IDF

TTVB
warmup

WE

v


DANH MỤC CÁC BẢNG
Bảng 1.1. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Anh ................... 12
Bảng 1.2. Ví dụ minh họa một văn bản tóm tắt của văn bản tiếng Việt ................... 12
Bảng 1.3. Phương pháp phân chia bộ dữ liệu CNN/Daily Mail .............................. 21
Bảng 1.4. Thống kê các thông tin của hai bộ dữ liệu CNN và Daily Mail............... 22
Bảng 1.5. Thống kê các thơng tin tóm tắt của bộ dữ liệu DUC 2001 và DUC 2002
sử dụng cho tóm tắt đơn văn bản ............................................................................. 22
Bảng 1.6. Thống kê các thơng tin tóm tắt của bộ dữ liệu DUC 2004 ...................... 23
Bảng 1.7. Thống kê các thơng tin tóm tắt của tập dữ liệu Main task của bộ dữ liệu
DUC 2007 ................................................................................................................. 23
Bảng 1.8. Thống kê các thơng tin tóm tắt của bộ dữ liệu Baomoi ........................... 24
Bảng 1.9. Thống kê các thông tin tóm tắt của bộ dữ liệu Corpus_TMV ................. 25

Bảng 1.10. Thống kê các thơng tin tóm tắt của bộ dữ liệu ViMs ............................. 25
Bảng 3.1. Kết quả thử nghiệm một số phương pháp tóm tắt văn bản cơ sở. Ký hiệu
‘*’ thể hiện phương pháp được triển khai thử nghiệm trên các bộ dữ liệu tương ứng
.................................................................................................................................. 60
Bảng 3.2. Giá trị các siêu tham số và thời gian huấn luyện các mơ hình xây dựng 61
Bảng 3.3. Kết quả thử nghiệm của các mơ hình xây dựng. Ký hiệu ‘-’ biểu diễn mơ
hình mà luận án khơng thử nghiệm trên bộ dữ liệu tương ứng ................................ 61
Bảng 3.4. Một mẫu tóm tắt trên bộ dữ liệu CNN ..................................................... 62
Bảng 3.5. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ................................................. 63
Bảng 3.6. So sánh và đánh giá hiệu quả các phương pháp. Ký hiệu ‘*’,‘-’ biểu diễn
các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ dữ liệu
tương ứng.................................................................................................................. 63
Bảng 3.7. Các kết quả thử nghiệm của các mơ hình xây dựng ................................ 69
Bảng 3.8. Kết quả thử nghiệm các phương pháp trên bộ dữ liệu DUC 2001 và DUC
2002. Ký hiệu ‘*’, ‘-’ biểu diễn các phương pháp được thử nghiệm, không được thử
nghiệm trên các bộ dữ liệu tương ứng...................................................................... 69
Bảng 3.9. Một mẫu tóm tắt trên bộ dữ liệu CNN ..................................................... 70
Bảng 3.10. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ............................................... 70
Bảng 3.11. So sáng và đánh giá hiệu quả của các phương pháp. Ký hiệu ‘*’, ‘-’
biểu diễn các phương pháp được thử nghiệm, không được thử nghiệm trên các bộ
dữ liệu tương ứng ..................................................................................................... 71
Bảng 3.12. Bảng giá trị các siêu tham số cài đặt cho mơ hình huấn luyện với kỹ
thuật học tăng cường Deep Q-Learning................................................................... 74
vi


Bảng 3.13. Giá trị các siêu tham số và thời gian huấn luyện các mơ hình xây dựng
.................................................................................................................................. 76
Bảng 3.14. Kết quả thử nghiệm của các mơ hình xây dựng ..................................... 77
Bảng 3.15. Một mẫu tóm tắt trên bộ dữ liệu CNN ................................................... 77

Bảng 3.16. Một mẫu tóm tắt trên bộ dữ liệu Baomoi ............................................... 78
Bảng 3.17. So sánh và đánh giá kết quả các phương pháp...................................... 78
Bảng 3.18. So sánh đánh giá độ chính xác của 3 mơ hình đề xuất .......................... 79
Bảng 3.19. So sánh đánh giá thời gian thực hiện của 3 mơ hình đề xuất ................ 80
Bảng 4.1. Kết quả thử nghiệm của các mơ hình trên bộ dữ liệu CNN/Daily Mail. Ký
hiệu ‘(*)’ là mô hình của See và cộng sự [43] ......................................................... 91
Bảng 4.2. Kết quả thử nghiệm của các mơ hình trên bộ dữ liệu Baomoi. Ký hiệu
‘(*)’ là mơ hình của See và cộng sự [43] ................................................................. 91
Bảng 4.3. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mơ hình trong
[43] và bản tóm tắt của mơ hình đề xuất trên bộ dữ liệu CNN/Daily Mail ............. 92
Bảng 4.4. Mẫu tóm tắt gồm bản tóm tắt tham chiếu, bản tóm tắt của mơ hình trong
[43] và bản tóm tắt của mơ hình đề xuất trên bộ dữ liệu Baomoi ........................... 93
Bảng 5.1. Giá trị của các tham số sử dụng khi thử nghiệm các mơ hình. Ký hiệu ‘-‘
biểu diễn mơ hình khơng sử dụng các tham số tương ứng ..................................... 105
Bảng 5.2. Kết quả thử nghiệm các mơ hình xây dựng trên hai bộ dữ liệu ............. 106
Bảng 5.3. Kết quả thử nghiệm các phương pháp tóm tắt trên bộ dữ liệu DUC 2007
................................................................................................................................ 106
Bảng 5.4. So sánh và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn
các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng ................... 107
Bảng 5.5. Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mơ
hình đề xuất và con người ...................................................................................... 109
Bảng 5.6. Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của
mơ hình đề xuất và con người ................................................................................ 109
Bảng 5.6. Giá trị các siêu tham số và thời gian huấn luyện mơ hình. Warmup là quá
trình huấn luyện ban đầu với tỷ lệ học nhỏ để hiệu chỉnh cơ chế chú ý ................ 118
Bảng 5.7. Kết quả thử nghiệm của các mơ hình tóm tắt đơn văn bản hướng tóm lược
PG_Feature_ASDS trên các bộ dữ liệu CNN và Baomoi ...................................... 118
Bảng 5.8. Kết quả thử nghiệm mơ hình PG_Feature_AMDS trên bộ DUC 2004 và
Corpus_TMV sử dụng mơ hình PG_Feature_ASDS chưa được huấn luyện tiếp trên
bộ DUC 2007 và bộ ViMs tương ứng ..................................................................... 118

Bảng 5.9. Kết quả thử nghiệm mơ hình PG_Feature_AMDS trên bộ DUC 2004 và
Corpus_TMV sử dụng mơ hình PG_Feature_ASDS đã được huấn luyện tiếp trên bộ
DUC 2007 và bộ ViMs tương ứng .......................................................................... 119
Bảng 5.10. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 ................................. 119
vii


Bảng 5.11. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV ............................. 120
Bảng 5.12. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn
các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng ............ 120
Bảng 5.13. Giá trị các siêu tham số và thời gian huấn luyện các mơ hình ............ 128
Bảng 5.14. Kết quả thử nghiệm của các mô hình tóm tắt đơn văn bản trên các bộ dữ
liệu CNN/Daily Mail và Baomoi ............................................................................ 129
Bảng 5.15. Kết quả thử nghiệm các mơ hình xây dựng trên bộ dữ liệu DUC 2004 và
Corpus_TMV .......................................................................................................... 129
Bảng 5.16. Một mẫu thử nghiệm trên bộ dữ liệu DUC 2004 ................................. 130
Bảng 5.17. Một mẫu thử nghiệm trên bộ dữ liệu Corpus_TMV ............................. 131
Bảng 5.18. So sáng và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn
các phương pháp không được thử nghiệm trên các bộ dữ liệu tương ứng ............ 131

viii


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các bước thực hiện trong tóm tắt văn bản ................................................ 13
Hình 1.2. Phương pháp xử lý tóm tắt từng đơn văn bản trong tóm tắt đa văn bản .. 19
Hình 2.1. Mơ hình mạng MLP một lớp ẩn và nhiều lớp ẩn [79] .............................. 27
Hình 2.2. Một kiến trúc CNN cho bài tốn phân loại ảnh [84] ................................ 28
Hình 2.3. Tính tốn với phương thức Average Pooling và Max Pooling [82] ......... 29
Hình 2.4. Mơ hình mạng nơ ron hồi quy [87] .......................................................... 30

Hình 2.5. Kiến trúc tổng quan một tế bào nhớ LSTM (nguồn: [Internet]) .............. 31
Hình 2.6. Chi tiết tế bào nhớ LSTM [91] ................................................................. 32
Hình 2.7. Kiến trúc tổng quan của mạng biLSTM [88] ........................................... 33
Hình 2.8. Minh họa biLSTM ở 3 bước (t-1), t và (t+1) [91] .................................... 34
Hình 2.9. Chi tiết tế bào nhớ GRU [89] ................................................................... 35
Hình 2.10. Mơ hình mạng chuỗi sang chuỗi [92] ..................................................... 36
Hình 2.11. Mơ hình minh họa cơ chế chú ý sinh từ mục tiêu yt từ câu nguồn
( x1 , x2 ,....xT ) [93] ...................................................................................................... 37
Hình 2.12. Mơ hình Transformer [97] ...................................................................... 40
Hình 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97] ................ 41
Hình 2.14. Mơ hình CBoW với một từ làm ngữ cảnh để dự đoán từ tiếp theo [101]
.................................................................................................................................. 42
Hình 2.15. Mơ hình CBoW với nhiều từ làm ngữ cảnh để dự đốn từ tiếp theo [101]
.................................................................................................................................. 43
Hình 2.16. Mơ hình Skip-Gram [101] ...................................................................... 43
Hình 2.17. Kiến trúc mơ hình BERT [102] .............................................................. 44
Hình 2.18. Biểu diễn đầu vào của mơ hình BERT [102] ......................................... 45
Hình 2.19. Mơ hình biểu diễn các bước chưng cất được huấn luyện trước của các
mơ hình BERT thu nhỏ [111] ................................................................................... 49
Hình 2.20. Mơ hình học tăng cường ......................................................................... 49
Hình 3.1. Khung xử lý chung cho các mơ hình tóm tắt đơn văn bản hướng trích rút
đề xuất....................................................................................................................... 55
Hình 3.2. Mơ hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_MLP_ESDS
.................................................................................................................................. 57
Hình 3.3. Kiến trúc mạng MLP đề xuất của mơ hình .............................................. 58
Hình 3.4. Mơ hình tóm tắt văn bản hướng trích rút mBERT_CNN_ESDS ............. 64
ix


Hình 3.5. Kiến trúc lớp Convolution với k-Max Pooling (k = 2) ............................ 66

Hình 3.6. Kiến trúc mơ hình Encoder-Decoder đề xuất ........................................... 66
Hình 3.7. Mơ hình tóm tắt văn bản hướng trích rút mBERTTiny_seq2seq_DeepQL_ESDS ................................................................................ 72
Hình 3.8. Mơ hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning....... 75
Hình 4.1. Mơ hình tóm tắt đơn văn bản hướng tóm lược cơ sở [128] ..................... 84
Hình 4.2. Mơ hình tóm tắt đơn văn bản hướng tóm lược đề xuất PG_Feature_ASDS
.................................................................................................................................. 89
Hình 5.1. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp vị trí tương đối
của câu .................................................................................................................... 100
Hình 5.2. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp vị trí câu ....... 101
Hình 5.3. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp MMR và vị trí
câu ........................................................................................................................... 102
Hình 5.4. Mơ hình sử dụng thuật toán phân cụm K-means kết hợp Centroid-based,
MMR và vị trí câu .................................................................................................. 103
Hình 5.5. Mơ hình tóm tắt đa văn bản hướng trích rút đề xuất
Kmeans_Centroid_EMDS ...................................................................................... 104
Hình 5.6. Minh họa phương pháp PG-MMR (k=2) [147] ...................................... 113
Hình 5.7. Mơ hình tóm tắt đa văn bản hướng tóm lược đề xuất PG_Feature_AMDS
................................................................................................................................ 114
Hình 5.8. Các giai đoạn huấn luyện mơ hình tóm tắt đa văn bản hướng tóm lược đề
xuất PG_Feature_AMDS........................................................................................ 116
Hình 5.9. Mơ hình tóm tắt đơn văn bản hướng trích rút RoPhoBERT_CNN_ESDS
................................................................................................................................ 122
Hình 5.10. Mơ hình tóm tắt đơn văn bản hướng tóm lược PG_TF-IDF_ASDS .... 123
Hình 5.11. Mơ hình tóm tắt đơn văn bản hỗn hợp Ext_Abs_ASDS ...................... 124
Hình 5.12. Mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình pretrained Ext_Abs_ASDS đề xuất (MMR áp dụng trên từng văn bản) ..................... 124
Hình 5.13. Mơ hình tóm tắt đa văn bản hướng tóm lược dựa trên mơ hình pretrained Ext_Abs_ASDS với phương pháp MMR áp dụng trên tập đa văn bản ..... 125
Hình 5.14. Các giai đoạn huấn luyện mơ hình tóm tắt đa văn bản hướng tóm lược đề
xuất Ext_Abs_AMDS-mds-mmr ............................................................................ 126

x



DANH MỤC KÝ HIỆU TOÁN HỌC
Ký hiệu

Ý nghĩa

AT

Ma trận chuyển vị của ma trận A

A-1

Ma trận nghịch đảo của ma trận A

[A; B]

Ghép 2 ma trận A và ma trận B

exp(x)

Hàm ex

f  x

log(x)

Hàm số 1 biến f theo biến x
logarit tự nhiên của số thực dương x
Tập hợp các số thực

Không gian véc tơ n chiều

n

Phần tử thứ i của véc tơ x

xi

Chuẩn (norm) của véc tơ x

x

x

2

[x;y]

Chuẩn cấp 2 của véc tơ x
Ghép 2 véc tơ x và véc tơ y

xi


MỞ ĐẦU
1. Bối cảnh nghiên cứu
Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài
nguyên trên internet như các trang web, đánh giá của người dùng, tin tức, blog,
mạng xã hội,... là những nguồn dữ liệu văn bản to lớn. Bên cạnh đó, có một khối
lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tin

tức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học,... Các nội
dung văn bản này tăng lên theo cấp số nhân hàng ngày. Do đó, người dùng mất rất
nhiều thời gian để tìm kiếm thơng tin mà mình mong muốn. Kết quả là người dùng
thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quả tìm kiếm.
Có nhiều thơng tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm
kiếm. Do đó, việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan
trọng hơn rất nhiều. Tóm tắt văn bản thủ công là một nhiệm vụ tốn kém và tiêu tốn
nhiều thời gian và công sức của con người. Trên thực tế, con người cũng rất khó
tóm tắt thủ cơng với lượng dữ liệu văn bản khổng lồ này [1]. Để giải quyết các vấn
đề này, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để
phát triển các hệ thống tóm tắt văn bản tự động.
Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao
gồm các ý chính của một văn bản hoặc nhiều văn bản đầu vào và thơng tin lặp lại ít
nhất [2,3]. Các hệ thống tóm tắt văn bản tự động sinh ra các bản tóm tắt giúp người
dùng nắm được những điểm chính của văn bản gốc mà khơng cần phải đọc toàn bộ
văn bản. Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết
kiệm được nhiều thời gian và cơng sức.
Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là
tóm tắt đơn văn bản và tóm tắt đa văn bản. Tóm tắt đơn văn bản sinh ra bản tóm tắt
từ một văn bản đầu vào, trong khi tóm tắt đa văn bản sinh ra bản tóm tắt từ một tập
các văn bản đầu vào. Các hệ thống tóm tắt văn bản tự động này được phát triển
bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản
hướng trích rút và tóm tắt văn bản hướng tóm lược.
 Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan
trọng nhất trong một văn bản nguồn (hoặc một tập văn bản nguồn) và sử dụng các
câu này để sinh bản tóm tắt. Phương pháp này bao gồm các nhiệm vụ xử lý chính
như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu, trích rút
các câu có điểm cao. Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành
các phương pháp chủ yếu sau:
 Phương pháp dựa trên thống kê: Trích rút các câu và các từ quan trọng từ văn

bản nguồn dựa trên phân tích thống kê của tập các đặc trưng. Các hệ thống dựa trên
phương pháp thống kê [4,5] thực hiện cho điểm câu bằng cách chọn và tính tốn
một số đặc trưng thống kê, sau đó gán các trọng số cho chúng và gán điểm cuối
cùng cho mỗi câu trong văn bản được xác định bởi biểu thức trọng số - đặc trưng
(nghĩa là tất cả điểm của các đặc trưng đã chọn được tính tốn và tính tổng để thu

1


được điểm của mỗi câu). Bên cạnh đó, hệ thống Lead [6] chọn các câu đưa vào bản
tóm tắt dựa vào trình tự thời gian đã cho kết quả khá cao.
 Phương pháp dựa trên khái niệm: Trích xuất các khái niệm từ một đoạn văn
bản từ các cơ sở tri thức bên ngồi như WordNet [7], Wikipedia,... Sau đó, độ quan
trọng của các câu được xác định dựa trên các khái niệm được lấy từ cơ sở tri thức
bên ngồi thay vì các từ. Các hệ thống này thực hiện cho điểm các câu bằng cách
trích xuất các khái niệm của một văn bản từ cơ sở tri thức bên ngồi, xây dựng một
véc tơ khái niệm hoặc mơ hình đồ thị để chỉ ra mối quan hệ giữa khái niệm và câu
rồi áp dụng một thuật toán xếp hạng để cho điểm các câu như trong [8].
 Phương pháp dựa trên chủ đề: Phương pháp này dựa vào việc xác định chủ đề
chính của văn bản. Có một số phương pháp biểu diễn chủ đề phổ biến là phương
pháp dựa trên từ chủ đề, tần suất xuất hiện của từ (TF), trọng số thể hiện mức độ
quan trọng của từ (TF-IDF), chuỗi từ vựng [9,10]. Các bước xử lý chung của các hệ
thống tóm tắt trích rút dựa trên chủ đề bao gồm chuyển đổi văn bản đầu vào thành
một biểu diễn trung gian, nắm bắt các chủ đề đã đề cập trong văn bản đầu vào và
gán điểm mức độ quan trọng cho mỗi câu trong văn bản đầu vào theo biểu diễn của
nó.
 Phương pháp dựa trên trọng tâm hay phân cụm câu: Trong phương pháp này,
hệ thống tóm tắt trích rút đa văn bản xác định các câu trọng tâm và quan trọng nhất
trong một cụm sao cho chúng chứa các thông tin quan trọng liên quan đến cụm chủ
đề chính [11,12,13]. Trọng tâm của câu được xác định bằng cách sử dụng trọng tâm

của các từ. Cách phổ biến để xác định trọng tâm của từ là tìm tâm của cụm văn bản
trong khơng gian véc tơ. Trọng tâm của một cụm bao gồm các từ có điểm trọng số
TF-IDF lớn hơn một giá trị ngưỡng xác định trước.
 Phương pháp dựa trên đồ thị: Phương pháp này sử dụng đồ thị dựa trên câu để
biểu diễn một văn bản hoặc cụm văn bản. Phương pháp biểu diễn này đã được sử
dụng phổ biến cho các hệ thống tóm tắt trích rút như: LexRank [11], TextRank [14].
Trong hệ thống LexRank [11], các câu được cho điểm bằng cách biểu diễn các câu
của văn bản sử dụng một đồ thị vô hướng sao cho mỗi nút trong đồ thị biểu diễn
một câu từ văn bản đầu vào, trọng số của cạnh kết nối là độ tương tự ngữ nghĩa giữa
hai câu tương ứng (sử dụng độ tương tự cosine) và sử dụng một thuật toán xếp hạng
để xác định độ quan trọng của từng câu. Các câu được xếp hạng dựa trên điểm
LexRank giống như thuật toán PageRank [15] chỉ khác là đồ thị LexRank là đồ thị
vô hướng.
 Phương pháp dựa trên ngữ nghĩa: Phân tích ngữ nghĩa tiềm ẩn (LSA - Latent
Semantic Analysis) là kỹ thuật học không giám sát biểu diễn ngữ nghĩa của văn bản
dựa trên sự đồng xuất hiện của các từ được quan sát. Các bước cho điểm câu của
các hệ thống tóm tắt trích rút dựa trên LSA [16,17] bao gồm: tạo ma trận đầu vào
(ma trận từ - câu) và áp dụng phương pháp phân tích giá trị suy biến (SVD Singular Value Decomposition) cho ma trận đầu vào để xác định mối quan hệ giữa
các từ và các câu.
 Phương pháp dựa trên học máy: Phương pháp này chuyển bài tốn tóm tắt văn
bản thành bài tốn phân loại văn bản có giám sát. Hệ thống học bởi các mẫu học để
phân loại một câu của văn bản đánh giá thuộc về lớp “được chọn” hoặc lớp “không
được chọn” sử dụng một tập các văn bản huấn luyện (tập các văn bản và các bản
tóm tắt tham chiếu tương ứng do con người tạo ra). Trong các hệ thống tóm tắt dựa
2













×