Tải bản đầy đủ (.doc) (174 trang)

“Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp học bán giám sát”.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.71 MB, 174 trang )

Lời cảm ơn

Sự động viên của gia đình, bạn bè, đồng nghiệp, những người luôn bên tôi là
động lực to lớn giúp tôi vượt qua bao khó khăn để có thể đặt bút viết lên luận án
này.
Từ khi tôi bắt đầu nghiên cứu cho đến khi hoàn thành luận án tiến sĩ, nhiều
người đã giúp đỡ và hỗ trợ tôi. Nếu không có họ, luận án sẽ không hoàn thành đúng
hạn. Nhân cơ hội này, tôi muốn bày tỏ lời cảm ơn của tôi đến họ.
Trước tiên, tôi muốn cảm ơn đến thầy giáo hướng dẫn của tôi, PGS.TS
Nguyễn Thiện Luận, vì sự hướng dẫn tận tình và khoa học. Từ thầy, tôi đã học được
cách lựa chọn vấn đề, cách giải quyết vấn đề và cách trình bày các lời giải.
Tôi trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo Sau Đại học
- Nghiên cứu Khoa học, GS.TSKH Phạm Thế Long - Giám đốc Học viện Kỹ thuật
Quân sự đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện luận án.
Tôi xin cảm ơn GS.TS Vũ Đức Thi, GS.TS Nguyễn Thanh Thủy, PGS.TS Đào
Thanh Tĩnh, PGS.TS Ngô Quốc Tạo, PGS.TS Hà Quang Thụy, những người đã
truyền đạt cho tôi kinh nghiệm nghiên cứu, lời khuyên, góp ý và hiệu chỉnh để luận
án được hoàn chỉnh.
Tôi cũng bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử lý ngôn ngữ tự
nhiên TS Nguyễn Lê Minh - Viện Khoa học và Công nghệ Tiên tiến Nhật bản
(JAIST), TS Nguyễn Phương Thái, TS Nguyễn Văn Vinh - Đại học Công nghệ, Đại
học Quốc gia Hà Nội đã hỗ trợ việc thu thập tài liệu, kho ngữ liệu tiếng Việt phục
vụ cho nghiên cứu của tôi và các góp ý hữu ích về ý tưởng và kỹ thuật cho nghiên
cứu.
Lời cảm ơn đặc biệt đến TS Nguyễn Hữu Quỳnh - Trưởng khoa Công nghệ
Thông tin, trường Đại học Điện lực, người đã hướng dẫn tôi cách viết các bài báo

1


quốc tế, cách nghiên cứu độc lập và khơi dậy niềm đam mê nghiên cứu trong tôi.


Tôi cũng cảm ơn đến các đồng nghiệp trong khoa Công nghệ Thông tin, trường Đại
học Điện lực đã động viên, hỗ trợ tôi về mặt công việc để tôi tập trung vào nghiên
cứu và tạo cho tôi một môi trường làm việc chuyên nghiệp và thú vị.
Tôi cảm ơn tất cả những người bạn của tôi, những người luôn chia sẻ và cổ
vũ tôi trong những lúc khó khăn và tôi luôn ghi nhớ điều đó.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với cha mẹ và gia đình đã
luôn ủng hộ, giúp đỡ tôi.

2


MỤC LỤC

DANH MỤC CÁC HÌNH VẼ.........................................................................9
DANH MỤC CÁC BẢNG...........................................................................12
DANH MỤC CÁC CHỮ VIẾT TẮT.............................................................13
PHẦN MỞ ĐẦU.........................................................................................15
CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN VÀ TÓM TẮT VĂN
BẢN TIẾNG VIỆT......................................................................................20
1.1 Tóm tắt văn bản...............................................................................................20
1.1.1 Giới thiệu về tóm tắt văn bản.......................................................................................... 20
1.1.2 Phân loại tóm tắt................................................................................................................. 22
1.1.3 Tỉ lệ trong tóm tắt văn bản............................................................................................... 23
1.1.4 Mô hình tóm tắt văn bản Cắt Dán (Cut and Paste)................................................24
1.2 Kỹ thuật máy học áp dụng trong tóm tắt văn bản........................................26
1.2.1 Máy học................................................................................................................................... 26
1.2.2 Kỹ thuật máy học trong tóm tắt văn bản.....................................................................28
1.2.2.1 Phương pháp tiếp cận tóm tắt dựa trên trích rút câu.............................28
1.2.2.2 Phương pháp tóm tắt văn bản dựa trên rút gọn câu..............................30
1.2.2.3 Một số đặc điểm chung của các phương pháp tóm tắt văn bản đã được

công bố.............................................................................................................31
1.3 Phương pháp đánh giá kết quả tóm tắt.........................................................32
1.3.1 Hai độ đo cơ bản.................................................................................................................. 32
1.3.2 Độ đo Chính xác – Độ đo Triệu hồi (Precision and Recall)..............................33

3


1.3.3 Đánh giá theo cách thủ công........................................................................................... 33
1.3.4 Phương pháp đánh giá BLEU.........................................................................................34
1.3.5 Phương pháp đánh giá ROUGE..................................................................................... 35
1.4 Hiện trạng tóm tắt văn bản tiếng Việt............................................................35
1.4.1 Đặc điểm tiếng Việt............................................................................................................ 35
1.4.2 Hiện trạng nghiên cứu tiếng Việt................................................................................... 36
1.4.3 Phương pháp tóm tắt văn bản tiếng Việt.....................................................................37
1.4.3.1 Phương pháp trích rút câu....................................................................38
1.4.3.2 Phương pháp rút gọn câu......................................................................38
1.4.3.3 Đặc điểm của các phương pháp tóm tắt tiếng Việt đã biết....................40
1.4.4 Đánh giá kết quả tóm tắt tiếng Việt..............................................................................41
1.4.5 Hiện trạng về kho ngữ liệu tiếng Việt phục vụ cho tóm tắt văn bản................41
1.5 Mô hình cải tiến tóm tắt văn bản tiếng Việt..................................................42
1.6 Kết luận chương 1...........................................................................................44
CHƯƠNG 2. KỸ THUẬT TRÍCH RÚT CÂU TRONG VĂN BẢN TIẾNG VIỆT
.................................................................................................................. 46
2.1 Tiếp cận tóm tắt văn bản dựa trên trích rút câu và biểu diễn văn bản.......46
2.1.1 Tóm tắt văn bản dựa trên trích rút câu.........................................................................46
2.1.2 Biểu diễn văn bản................................................................................................................ 49
2.1.2.1 Phương pháp biểu diễn văn bản............................................................49
2.1.2.2 Tính trọng số của từ..............................................................................49
2.1.3 Mô hình N-gram.................................................................................................................. 50

2.2 Kỹ thuật trích rút câu.....................................................................................51
2.2.1 Giới thiệu................................................................................................................................ 51
2.2.2 Kỹ thuật trích rút câu Baseimp_textsum.....................................................................54
2.2.2.1 Tính trọng số của câu...........................................................................54

4


2.2.2.2 Kỹ thuật Baseimp_textsum..................................................................58
2.2.3 Kỹ thuật trích rút câu Infor_textsum............................................................................72
2.2.3.1 Lý do đề xuất........................................................................................72
2.2.3.2 Kỹ thuật Infor_textsum........................................................................73
2.3 Các kết quả thực nghiệm................................................................................77
2.3.1 Kho ngữ liệu phục vụ phương pháp học bán giám sát..........................................77
2.3.2 Phương pháp đánh giá tóm tắt........................................................................................79
2.3.3 Các kết quả thực nghiệm.................................................................................................. 80
2.3.3.1 Kết quả thực nghiệm của kỹ thuật Baseimp_textsum...........................80
2.3.3.2 Kết quả thực nghiệm của kỹ thuật trích rút câu Infor-textsum............81
2.4 Kết luận chương 2...........................................................................................82
CHƯƠNG 3. KỸ THUẬT RÚT GỌN CÂU TRONG VĂN BẢN TIẾNG VIỆT
.................................................................................................................. 84
3.1 Giới thiệu..........................................................................................................84
3.2 Mô hình Markov ẩn.........................................................................................87
3.2.1 Khái niệm............................................................................................................................... 87
3.2.2 Thuật toán Forward............................................................................................................. 88
3.2.3 Thuật toán Viterbi................................................................................................................ 89
3.3 Đề xuất một số kỹ thuật rút gọn câu..............................................................90
3.3.1 Mô hình chung của kỹ thuật rút gọn câu....................................................................91
3.3.2 Kỹ thuật rút gọn câu dựa trên xác định chuỗi từ phù hợp (DLS)......................93
3.3.3 Kỹ thuật rút gọn câu dựa trên kết nối các chuỗi con phù hợp nhất - CMLS

.............................................................................................................................................................. 101

3.4 Các kết quả thực nghiệm..............................................................................109
3.4.1 Phương pháp thực nghiệm.............................................................................................. 109

5


3.4.2 Các kết quả thực nghiệm với hai kỹ thuật DLS và CMLS.................................112
3.4.2.1 Kết quả thực nghiệm với kỹ thuật DLS..............................................112
3.4.2.2 Kết quả thực nghiệm với kỹ thuật CMLS...........................................113
3.5 Kết luận chương 3..........................................................................................114
CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT.................................115
4.1 Thiết kế hệ thống tổng quát tóm tắt văn bản tiếng Việt VTS.....................115
4.2 Nhóm module trích rút câu...........................................................................116
4.2.1 Module trích rút câu Baseimp_textsum.....................................................................117
4.2.1.1 Kiến trúc của module Baseimp_textsum............................................117
4.2.1.2 Một số giao diện chính của module Baseimp_textsum.......................117
4.2.2 Module trích rút câu Infor_textsum............................................................................119
4.2.2.1 Kiến trúc của module trích rút câu Infor_textsum..............................119
4.2.2.2 Một số giao diện chính.......................................................................119
4.3 Nhóm module rút gọn câu.............................................................................121
4.3.1 Kiến trúc chung của module rút gọn câu..................................................................121
4.3.2 Module rút gọn câu DLS................................................................................................ 122
4.3.3 Module rút gọn câu CMLS............................................................................................ 123
4.4 Một số kết quả................................................................................................125
4.4.1 So sánh kết quả trích rút câu.......................................................................................... 125
4.4.2 So sánh kết quả rút gọn câu........................................................................................... 128
4.4.2.1 Kết quả rút gọn bởi module rút gọn câu dựa trên xác định chuỗi từ phù

hợp.................................................................................................................129
4.4.2.2 Kết quả rút gọn bởi module CMLS của hệ thống VTS.......................130
4.5 Kết luận chương 4.........................................................................................131

6


KẾT LUẬN..............................................................................................132
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ..............................................135
TÀI LIỆU THAM KHẢO...........................................................................136
PHỤ LỤC 1. XÂY DỰNG KHO NGỮ LIỆU DÙNG CHO THỰC NGHIỆM141
PHỤ LỤC 2. DANH MỤC CÁC CÂU SỬ DỤNG TÁCH TỪ VÀ GÁN NHÃN
TỪ CHỦ ĐỀ.............................................................................................149

7


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Văn bản gốc............................................................................................22
Hình 1.2. Văn bản tóm tắt.......................................................................................22
Hình 1.3. Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau........................23
Hình 1.4. Mô hình tóm tắt văn bản Cắt Dán...........................................................25
Hình 1.5. Mô hình Markov trích rút hai câu chính và các câu hỗ trợ....................29
Hình 1.6. Mô hình luật từ vựng...............................................................................40
Hình 1.7. Mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha...............................43
Hình 2.1. Mô hình cách tiếp cận dựa trên trích rút câu..........................................47
Hình 2.2. Văn bản tiếng Việt gốc A.........................................................................52
Hình 2.3. Văn bản tóm tắt được trích rút bởi hệ thống Vi_textsum từ văn bản gốc A.
................................................................................................................................ 52
Hình 2.4. Văn bản tiếng Việt gốc A’........................................................................53

Hình 2.5. Văn bản tóm tắt được trích rút bởi hệ thống Vi_textsum từ văn bản gốc
A’............................................................................................................................. 53
Hình 2.6. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích rút câu
Baseimp_textsum.....................................................................................................59
Hình 2.7. Thuật toán SIMBL...................................................................................60
Hình 2.8. Thuật toán WS tính trọng số của các câu...............................................62
Hình 2.9. Thuật toán TWF.......................................................................................64
Hình 2.10. Thuật toán LS tính mức độ ngôn ngữ của một từ...................................65
Hình 2.11. Thuật toán NDCTW...............................................................................66
Hình 2.12. Thuật toán DF.......................................................................................67
Hình 2.13. Thuật toán trích rút câu trong văn bản tiếng Việt SEBIL......................74
Hình 2.14. Hệ thống tóm tắt tiếng Việt trực tuyến Vi_textsum.................................80
Hình 2.15. Đồ thị so sánh kết quả của Baseimp_textsum với Vi_textsum................81
Hình 2.16. Đồ thị so sánh Infor_textsum và Vi_textsum..........................................82
Hình 3.1. Văn bản tiếng Việt gốc B.........................................................................85

8


Hình 3.2. Văn bản tóm tắt B’..................................................................................85
Hình 3.3. Câu gốc tiếng Việt C................................................................................86
Hình 3.4. Câu rút gọn C’........................................................................................86
Hình 3.5. Mô tả thuật toán Forward.......................................................................88
Hình 3.6. Mô tả thuật toán Viterbi..........................................................................89
Hình 3.7. Mô hình rút gọn câu tiếng Việt đề xuất....................................................92
Hình 3.8. Xác định câu rút gọn..............................................................................93
Hình 3.9. Thuật toán SRBLS...................................................................................94
Hình 3.10. Thuật toán ITW......................................................................................96
Hình 3.11. Thuật toán LLS......................................................................................98
Hình 3.12. Sơ đồ biểu diễn tập từ phù hợp và các xác suất có điều kiện...............103

Hình 3.13. Thuật toán rút gọn câu CLSS..............................................................105
Hình 3.14. Thuật toán xác định chuỗi con DS.......................................................106
Hình 3.15. Thuật toán xác định chuỗi con phù hợp nhất DMLS...........................107
Hình 3.16. Mẫu phiếu đánh giá kỹ thuật DLS........................................................111
Hình 3.17. Mẫu phiếu đánh giá kỹ thuật CMLS....................................................112
Hình 4.1. Giao diện quá trình huấn luyện của module trích rút câu
Baseimp_textsum...................................................................................................118
Hình 4.2. Quá trình tóm tắt của module trích rút câu Baseimp_textsum...............119
Hình 4.3. Quá trình huấn luyện của module Infor_textsum..................................120
Hình 4.4. Quá trình tóm tắt của module Infor_textsum.........................................121
Hình 4.5. Quá trình huấn luyện của module rút gọn câu DLS..............................122
Hình 4.6. Quá trình rút gọn câu của module rút gọn câu DLS.............................123
Hình 4.7. Quá trình huấn luyện của module rút gọn câu CMLS...........................124
Hình 4.8. Quá trình rút gọn của module rút gọn câu CMLS.................................125
Hình 4.9. Văn bản gốc E.......................................................................................126
Hình 4.10. Kết quả sinh bởi hệ thống tóm tắt trực tuyến Vi_textsum....................126
Hình 4.11. Kết quả trích rút câu Baseimp_textsum của hệ thống VTS..................127

9


Hình 4.12. Kết quả trích rút theo module trích rút câu Infor_textsum của hệ thống
VTS........................................................................................................................ 127
Hình 4.13. Văn bản gốc E’....................................................................................127
Hình 4.14. Kết quả trích rút bởi hệ thống Vi_textsum...........................................128
Hình 4.15. Kết quả tóm tắt bởi module Baseimp_textsum.....................................128
Hình 4.16. Kết quả trích rút câu bởi module trích rút câu Infor_textsum.............128

10



DANH MỤC CÁC BẢNG
Bảng 1.1. Hiện trạng các kho ngữ liệu tiếng Việt................................................42
Bảng 2.2 Các từ và mức độ ngôn ngữ tương ứng................................................72
Bảng 2.3. Danh sách một số văn bản trong kho ngữ liệu.....................................78
Bảng 2.4. Danh sách một số từ trong tập từ chủ đề của kho ngữ liệu và giá trị
thông tin tương ứng sau quá trình học.................................................................79
Bảng 2.5. Phương pháp đánh giá triệu hồi với hai hệ thống Baseimp_textsum và
Vi_textsum........................................................................................................... 80
Bảng 2.6. Phương pháp đánh giá triệu hồi với ba hệ thống Vi_textsum và
Infor_Textsum.....................................................................................................82
Bảng 3.1. Câu rút gọn tương ứng với các tỉ lệ thông tin 80%, 60% và 40%........99
Bảng 3.2 Số lượng mẫu thu thập đối với DLS...................................................110
Bảng 3.3 Số lượng mẫu thu thập đối với CMLS................................................111
Bảng 3.3. Đánh giá kỹ thuật DLS.....................................................................113
Bảng 3.4. Đánh giá kỹ thuật CMLS..................................................................113
Bảng 4.1. Kết quả với câu gốc thứ nhất cho bởi module rút gọn câu DLS........129
Bảng 4.2. Kết quả với câu gốc thứ hai cho bởi module rút gọn câu DLS..........129
Bảng 4.3. Kết quả với câu gốc thứ ba cho bởi module rút gọn câu DLS...........129
Bảng 4.4. Kết quả với câu gốc thứ nhất cho bởi module rút gọn câu CMLS.....130
Bảng 4.5. Kết quả với câu gốc thứ hai cho bởi module rút gọn câu CMLS.......130
Bảng 4.6. Kết quả với câu gốc thứ ba cho bởi module rút gọn câu CMLS........130

11


DANH MỤC CÁC CHỮ VIẾT TẮT
Ký hiệu
ACL


Diễn giải
Hiệp hội ngôn ngữ tính toán (Association for Computational

Baseimp_textsum

Linguistics)
Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ
(A New method for Vietnamese Sentence Extraction based on

BLEU

important information of topic word and linguistic score)
Phương pháp đánh giá dịch máy tự động (Bilingual Evaluation

CC
CMLS

Under Study)
Liên từ
Rút gọn câu tiếng Việt bằng cách kết nối các chuỗi con phù hợp
nhất (Concatenate the Most Likelihood Substrings for Vietnamese

COLING

sentence reduction).
Hội thảo quốc tế về ngôn ngữ tính toán (International Conference

CSDL
DLS


on COmputational LINGuistics)
Cơ sở dữ liệu
Rút gọn câu tiếng Việt bằng cách xác định chuỗi từ phù hợp
(Determining the Likelihood String for Vietnamese Sentence

DUC
HMM
Infor_textsum

Reduction)
Hội thảo hiểu văn bản (Document Understanding Conferrence)
Mô hình Markov ẩn (Hidden Markov Model)
Kỹ thuật trích rút câu dựa trên lượng thông tin và mức độ ngôn ngữ
(A new method for calculating weight of sentence based on amount

LSI
NIST

of information and linguistic score)
Đánh chỉ số ngữ nghĩa ngầm (Latent Semantic Indexing)
Viện công nghệ tiêu chuẩn (National Institute of Standards and

NLP
NNS
NP
PRP
RB
Rouge

Technology)

Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
Danh từ bổ ngữ
Cụm danh từ
Phụ ngữ chỉ mục đích lý do
Phó từ
Phương pháp đánh giá kết quả tóm tắt ROUGE (Recall – Oriented

SEBIL
SIGIR

Understudy for Gisting Evaluation)
Thuật toán trích rút câu dựa trên kỹ thuật Infor_textsum
Nhóm quan tâm trích rút thông tin (Special Interest Group on

12


SIMBL
SRLBS
TASA
tf_idf

Information Retrieval)
Thuật toán trích rút câu dựa trên kỹ thuật Baseim_textsum.
Thuật toán rút gọn câu tiếng Việt dựa trên kỹ thuật DLS
Touchstone Applied Science Associates
Tần suất từ- tần suất nghịch đảo văn bản (Term frequency – inverse

TREC
VBD

VBN
VBP
VP
VTS

document frequency)
Hội thảo tra cứu văn bản (Text Retrieval Conferrence)
Thời quá khứ động từ
Ngoại động từ
Động từ to be đã chia
Cụm động từ
Hệ thống tóm tắt văn bản tiếng Việt tự động (Vietnamese Text

WHNP
WP

Summarization)
Cụm danh từ nghi vấn
Tính từ nghi vấn

13


PHẦN MỞ ĐẦU
1. Tính cấp thiết của luận án
Những năm gần đây, chúng ta đã chứng kiến sự tăng nhanh lượng dữ liệu văn
bản cùng với sự phát triển bùng nổ của các ứng dụng trên Internet. Hàng ngày,
nhiều cơ quan, tổ chức và cá nhân đã tạo ra nhiều Exa-bytes dữ liệu văn bản và đưa
chúng lên Internet. Trong kho dữ liệu văn bản khổng lồ trên Internet, có một lượng
lớn là văn bản tiếng Việt. Tuy nhiên, không thể khai thác hiệu quả thông tin trong

các tập lớn các văn bản tiếng Việt này, nếu không có các phương pháp tóm tắt văn
bản tiếng Việt hiệu quả.
Tóm tắt văn bản là quá trình lọc thông tin quan trọng nhất từ một hoặc nhiều
nguồn để sinh ra một phiên bản ngắn gọn cho nhiệm vụ hoặc người sử dụng cụ thể
[12].
Với hơn nửa thế kỷ nghiên cứu về tóm tắt văn bản tiếng Anh, bắt đầu từ năm
1958 [15, 17], đã có nhiều phương pháp được đề xuất và được sử dụng để xây dựng
thành các hệ thống. Các hệ thống đã được đưa vào ứng dụng thực tế, mang lại hiệu
quả như: Copy và Paste [41], SweSum (Viện nghiên cứu công nghệ Hoàng Gia)
[36], FociSum (đại học Columbia - 1998) [39],….
Hầu hết các phương pháp tóm tắt văn bản tiếng Anh đã đề xuất sử dụng
phương pháp học truyền thống như học giám sát và không giám sát. Các phương
pháp này tập trung chủ yếu vào cách tiếp cận tóm tắt dựa trên trích rút câu hoặc tóm
tắt dựa trên rút gọn câu. Có một số hạn chế: Khi sử dụng học giám sát, các phương
pháp này yêu cầu tới kho dữ liệu dùng cho huấn luyện phải lớn. Để xây dựng được
kho dữ liệu này, cần nhiều thời gian và công sức theo cách thủ công. Bên cạnh đó,
các phương pháp tóm tắt văn bản sử dụng học giám sát đòi hỏi nhiều thời gian tính
toán. Chất lượng của văn bản tóm tắt đầu ra chưa tốt với các phương pháp sử dụng
học không giám sát. Hơn nữa, các phương pháp tóm tắt văn bản ở trên chưa đề cập
đến mức độ ngôn ngữ của câu (linguistic score) [8], dẫn đến văn bản tóm tắt thiếu
độ liền mạch (coherence) và súc tích (concise).

14


Cho đến thời điểm này, các nghiên cứu về tóm tắt văn bản tiếng Việt so với
tiếng Anh còn chưa nhiều. Hầu hết các nghiên cứu này sử dụng cách tiếp cận tóm
tắt văn bản dựa trên trích rút câu và sử dụng các phương pháp đã được đề xuất cho
tiếng Anh. Rất ít phương pháp tóm tắt văn bản tiếng Việt đề cập tới tóm tắt dựa trên
rút gọn câu. Các hạn chế của tóm tắt văn bản tiếng Việt như sau:

- Cần có kho ngữ liệu lớn dùng cho huấn luyện, trong khi đó hiện nay vẫn
chưa có kho ngữ liệu tiếng Việt dùng cho huấn luyện.
- Bản tóm tắt tiếng Việt thu được thường thiếu liền mạch và thiếu súc tích do
các phương pháp tóm tắt văn bản tiếng Việt chưa đề cập đến mức độ ngôn ngữ của
câu.
- Thời gian tính toán lớn do các phương pháp sử dụng học có giám sát và sử
dụng ma trận biểu diễn văn bản có kích cỡ lớn.
- Chất lượng của văn bản tóm tắt tiếng Việt (đối với các phương pháp tóm tắt
văn bản tiếng Việt sử dụng học không giám sát) chưa cao.
Do đó, việc đề xuất các giải pháp tóm tắt văn bản tiếng Việt để khắc phục các
hạn chế ở trên là một nhu cầu cấp thiết. Đó cũng là lý do mà luận án chọn đề tài
“Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp
học bán giám sát”.
2. Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật tóm tắt văn bản
thông qua phương pháp học bán giám sát, phục vụ xây dựng hệ thống tóm tắt văn
bản tiếng Việt hiệu quả. Các kỹ thuật này hướng tới giải quyết vấn đề tăng độ liền
mạch và súc tích của văn bản tóm tắt, không đòi hỏi kho ngữ liệu huấn luyện tiếng
Việt lớn và cho phép giảm thời gian xử lý, cụ thể:
- Đề xuất mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha: trích rút câu và
rút gọn câu.

15


- Đề xuất áp dụng phương pháp học bán giám sát nhằm khắc phục khó khăn
liên quan đến kho ngữ liệu tiếng Việt chưa đầy đủ.
- Tăng mức độ liền mạch và súc tích của văn bản tóm tắt sử dụng mức độ
ngôn ngữ của câu.
- Giảm cỡ của ma trận biểu diễn văn bản.

- Rút gọn các câu tiếng Việt theo các tỉ lệ thông tin khác nhau.
3. Các đóng góp của luận án
Các đóng góp chính của luận án thể hiện ở ba phần chính:
Đề xuất kỹ thuật tóm tắt văn bản tiếng Việt
Đề xuất các kỹ thuật tóm tắt văn bản tiếng Việt bao gồm: hai kỹ thuật tóm tắt
văn bản tiếng Việt dựa trên trích rút câu và hai kỹ thuật tóm tắt văn bản tiếng Việt
dựa trên rút gọn câu:
 Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ, có tên là
Baseimp_textsum [29]. Ngoài việc cho kết quả là văn bản tóm tắt có chất
lượng tốt, kỹ thuật còn không tốn nhiều thời gian để tính toán.
 Kỹ thuật trích rút câu dựa trên giá trị thông tin và mức độ ngôn ngữ với đặc
trưng lượng thông tin của câu được bổ sung, có tên là Infor_textsum [27]. Kỹ
thuật này là một cải tiến của kỹ thuật Baseimp_textsum, ngoài việc sử dụng
hai đặc trưng giá trị thông tin và mức độ ngôn ngữ, kỹ thuật còn sử dụng
thêm đặc trưng lượng thông tin.
 Kỹ thuật rút gọn câu tiếng Việt dựa trên việc xác định chuỗi từ phù hợp, có
tên là DLS [28]. Trong kỹ thuật này, ngoài việc cho kết quả là câu tiếng Việt
rút gọn có chất lượng tốt, kỹ thuật còn sử dụng ít thời gian tính toán.
 Kỹ thuật rút gọn câu dựa trên kết nối các chuỗi con khả năng nhất, có tên là
CMLS [26]. Kỹ thuật này là một cải tiến của kỹ thuật DLS, ngoài việc không

16


loại bỏ các từ chủ đề quan trọng trong quá trình sinh chuỗi từ phù hợp, kỹ
thuật còn tối ưu về mặt chiều dài của câu.
Xây dựng hệ thống
Áp dụng mô hình tóm tắt văn bản tiếng Việt hai pha cải tiến và sử dụng các kỹ
thuật đã được đề xuất ở trên, tác giả xây dựng hệ thống tóm tắt văn bản tiếng Việt
bao gồm hai pha: trích rút câu và rút gọn câu. Có bốn module được xây dựng phục

vụ cho quá trình thử nghiệm của luận án tương ứng với bốn kỹ thuật đã sử dụng làm
kết quả luận án.
Xây dựng kho ngữ liệu
Các văn bản tiếng Việt được tổng hợp từ các trang tin Việt nam
, và . Chúng tôi
đã xây dựng được kho ngữ liệu bao gồm 16,117 câu tiếng Việt. Kho ngữ liệu này
được sử dụng cho các kỹ thuật tóm tắt văn bản tiếng Việt sử dụng phương pháp học
bán giám sát đã được đề xuất.
4. Bố cục của luận án
Luận án này được bố cục thành bốn chương, gồm 140 trang.
Chương 1 giới thiệu tổng quan về tóm tắt văn bản và tóm tắt văn bản tiếng
Việt, trình bày mô hình cải tiến tóm tắt văn bản tiếng Việt hai pha và đưa ra một số
kết luận và định hướng cho nghiên cứu.
Chương 2 trình bày kỹ thuật tóm tắt văn bản tiếng Việt dựa trên trích rút câu
và các thử nghiệm.
Chương 3 trình bày kỹ thuật tóm tắt văn bản dựa trên rút gọn câu và các thử
nghiệm.
Chương 4 trình bày thiết kế và thực hiện hệ thống tóm tắt văn bản tiếng Việt
sử dụng bốn kỹ thuật được đề xuất cùng với một số kết quả.

17


Cuối cùng, luận án đưa ra một số kết luận và đề xuất các hướng nghiên cứu
trong tương lai.

18


Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN VÀ TÓM TẮT VĂN

BẢN TIẾNG VIỆT

Trong chương này, luận án giới thiệu tổng quan về tóm tắt văn bản và tóm tắt
văn bản tiếng Việt bao gồm các khái niệm cơ bản, một số nghiên cứu liên quan về
tóm tắt văn bản sử dụng máy học. Bên cạnh đó, luận án cũng trình bày đặc điểm của
tiếng Việt, các khó khăn về kho ngữ liệu của tiếng Việt, các công cụ hỗ trợ và hệ
thống đánh giá. Ngoài ra, luận án cũng trình bày mô hình cải tiến tóm tắt văn bản
tiếng Việt hai pha. Cuối chương là kết luận và định hướng nghiên cứu.

1.1 Tóm tắt văn bản
1.1.1 Giới thiệu về tóm tắt văn bản

Tóm tắt văn bản là kỹ thuật cho phép máy tính tự động tạo ra văn bản tóm tắt từ
một hoặc nhiều văn bản gốc khác nhau. Vào những năm 60, tóm tắt văn bản tự động
được nghiên cứu nhiều tại các phòng thí nghiệm của Mỹ, từ thời điểm đó cho đến
nay đã có nhiều phương pháp được đề xuất và nhiều hệ thống đã được xây dựng.
Hầu hết các phương pháp và hệ thống đều dựa trên những phương pháp cơ bản
được đề xuất bởi Luhn và Edmundson [17,49]. Ý tưởng cơ bản trong các phương
pháp của Luhn và Edmundson là trích rút các câu quan trọng (key sentences) từ
trong văn bản gốc và kết hợp lại thành văn bản tóm tắt.
Với sự phát triển của thông tin văn bản trên Internet, chủ đề tóm tắt văn bản đã
thu hút sự quan tâm của nhiều nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự
nhiên và tra cứu thông tin. Nhiều hội nghị về tóm tắt văn bản tự động ( WAS 2000,
2001, 2002), nhiều chủ đề đặc biệt trong các hội thảo ACL, COLING, SIGIR đã
được tổ chức. Chính phủ của nhiều nước trên thế giới như Nhật, Mỹ, Anh, Trung
Quốc,... đã đầu tư rất nhiều kinh phí cho việc phát triển các hệ thống tóm tắt văn
bản tự động trực tuyến (online) và ngoại tuyến (offline).

19



Tóm tắt văn bản được định nghĩa như sau:
Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt văn bản là quá
trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bản
ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng [12].
Dưới đây là ví dụ minh hoạ về tóm tắt văn bản.
Ví dụ 1.1: Văn bản gốc được cho như trong Hình 1.1, văn bản này được lấy từ
trang tin . Sau khi sử dụng công cụ tóm tắt Baseimp_textsum
(mục 4.2.1) với tỉ lệ 40% của văn bản gốc, chúng ta sẽ thu được văn bản tóm tắt
như trong Hình 1.2.
Lần đầu tiên, Bộ GD&ĐT chủ trì tổ chức một hội nghị về việc dạy học các môn Âm nhạc, Mỹ thuật ở
trường phổ thông (diễn ra tại Hà Nội từ 10 – 11/6).Tuy nhiên, mục đích của hội nghị không phải để ôn
lại “chặng đường phát triển và trưởng thành” mà là để những người trong cuộc cất lên tiếng nói phản
biện khi Bộ GD&ĐT có chủ trương điều chỉnh (thu hẹp) việc dạy hai môn học này.Nửa thế kỷ long
đong, những họa sĩ tên tuổi của nền Mỹ thuật đương đại Việt Nam như Tô Ngọc Vân, Nguyễn Tường
Lân, Lê Thị Lựu... vốn dĩ là GV của trường Bưởi – Chu Văn An trước năm 1945.Như vậy, sự hiện diện
của các môn Mỹ thuật, Âm nhạc trong nhà trường phổ thông là vấn đề không mới.Tuy nhiên, sau
ngày giải phóng Thủ đô cho đến trước năm 2000, các môn học này gần như xa lạ với phần lớn HS
miền Bắc cũng như HS cả nước (sau 1975). Nhạc sĩ Hoàng Lân cho biết: “Bộ GD&ĐT đã ghi 2 môn
Nhạc - Họa vào chương trình cấp 1 và cấp 2 từ năm 1956 – 1957. Nhưng do nhiều nguyên nhân, bộ
môn này không phát triển được. Ngay cả khi cải cách giáo dục năm 1980, các môn này cũng chưa
được quan tâm đúng mức.Mãi đến năm 1990, các môn Nhạc - Họa mới dần dần có vị thế như nó cần
phải có ở trường phổ thông như hiện nay. Năm 2002, các bộ SGK Âm nhạc, Mỹ thuật mới chính thức
được ra đời”. Theo nhạc sĩ Hoàng Lân, việc dạy các môn này trong nhà trường được xem là hiển
nhiên ở những nước văn minh.TS Nguyễn Anh Dũng, Phó Viện trưởng Viện Khoa học giáo dục (Bộ
GD&ĐT) cho biết, sở dĩ các môn nghệ thuật được “sánh vai cùng các môn học khác” trong nhà
trường là nhờ phần lớn ở sự nỗ lực của chính các nghệ sĩ. TS Nguyễn Anh Dũng kể: “Đợt cải cách GD
năm 1980 có các môn này trong kế hoạch dạy học nhưng trên thực tế không triển khai được.Sau đó,
các nhạc sĩ Hoàng Lân, Lê Minh Châu, Hàn Ngọc Bích... đã tự tìm đến một số UBND tỉnh, Sở GD&ĐT
để thuyết phục họ về ý nghĩa của việc dạy học các môn nghệ thuật trong nhà trường. Thậm chí các

nhạc sĩ đã phải vừa tự biên soạn sách rồi bỏ tiền túi ra in sách vừa đi bán sách dạy Âm nhạc cho
thầy trò các nhà trường”.Không hiệu quả nên “buông”?Hiện nay, Mỹ thuật và Âm nhạc là hai trong
số 9 môn học chính thức được dạy cho HS từ lớp 1 đến lớp 9. Nhưng trong một hội nghị đánh giá
chương trình – SGK gần đây, lãnh đạo Bộ GD&ĐT gợi ý các nhà chuyên môn, với cấp tiểu học, nên
chăng có sự điều chỉnh số lượng, thời lượng (theo hướng thu hẹp) một số môn học không cần thiết ở
những nơi điều kiện dạy học khó khăn. “Đích ngắm” được chĩa thẳng vào các môn Âm nhạc, Mỹ
thuật, Thủ công.Theo các lãnh đạo Bộ GD&ĐT, những môn này ở nhiều nơi tồn tại có tính hình thức,
không hiệu quả. Do đó, trường học ở một số nơi cần tập trung thời gian để nâng cao chất lượng dạy
học cho những môn như Toán, Tiếng Việt.Tại hội thảo Nâng cao chất lượng đội ngũ GV Mỹ thuật, Âm

20


nhạc trong nhà trường phổ thông (Cục Nhà giáo và cán bộ quản lý giáo dục và Dự án phát triển
THCS II phối hợp tổ chức), các đại biểu đều thẳng thắn thừa nhận, chất lượng dạy học các môn này
trong các nhà trường hiện nay đang ở mức độ kém.Có nhiều nguyên nhân dẫn đến tình trạng này,
nhưng một số đại biểu tham dự hội thảo cho rằng, vấn đề cơ bản là ở chất lượng đội ngũ GV.Lực
lượng GV dạy Âm nhạc, Mỹ thuật trong trường phổ thông hiện nay lên tới hơn 31.500 người. Dù cả
nước vẫn thiếu khoảng hơn 4.500 GV nhưng đó cũng là một con số “khổng lồ” so với cách đây
khoảng 40 năm khi mà số GV dạy các môn nghệ thuật chỉ “lèo tèo” mấy chục người - theo nhạc sĩ
Hoàng Lân.Nhưng về chất lượng, hầu hết các đại biểu có bài tham luận hoặc phát biểu tại hội nghị
đều cho rằng, đại đa số GV đều yếu về chuyên môn cũng như nghiệp vụ sư phạm. Việc các GV Âm
nhạc không biết chơi đàn phím điện tử hoặc GV Mỹ thuật không biết nhận xét tranh là “chuyện
thường tình”.Ngay cả những GV có năng lực về chuyên môn thì “bệnh” phổ biến và là “bệnh nặng”
của họ là không phân biệt được dạy nghệ thuật cho HS phổ thông khác với đào tạo nghệ sĩ chuyên
nghiệp như thế nào! Sự yếu kém đó là hệ quả trực tiếp từ khâu đào tạo và tuyển dụng. Nhưng theo
các đại biểu, dù hiệu quả dạy học các môn nghệ thuật trong nhà trường yếu kém như thế nào đi
chăng nữa thì điều quan trọng là tìm giải pháp cho vấn đề chứ không phải “buông” là xong
chuyện.Ông Phạm Ngọc Định, Phó Vụ trưởng Vụ GD Tiểu học cũng trăn trở: “Chúng ta đang hướng
tới một nền GD toàn diện, trong đó, GD nghệ thuật là một phần không thể thiếu trong GD tinh thần

(bên cạnh GD khoa học, GD đạo đức).Cá nhân tôi thấy nếu trong trường học chỉ có Toán, Tiếng Việt...
mà không có Âm nhạc, Mỹ thuật thì đời sống nhà trường và tâm hồn các em HS rất tẻ nhạt và nặng
nề”.

Hình 1.1. Văn bản gốc.
Lần đầu tiên, Bộ GD&ĐT chủ trì tổ chức một hội nghị về việc dạy học các môn Âm nhạc, Mỹ thuật ở
trường phổ thông (diễn ra tại Hà Nội từ 10 – 11/6). Ngay cả khi cải cách giáo dục năm 1980, các môn
này cũng chưa được quan tâm đúng mức. Mãi đến năm 1990, các môn Nhạc Họa mới dần dần có vị
thế như nó cần phải có ở trường phổ thông như hiện nay. TS Nguyễn Anh Dũng, Phó Viện trưởng Viện
Khoa học giáo dục (Bộ GD&ĐT) cho biết, sở dĩ các môn nghệ thuật được “sánh vai cùng các môn học
khác” trong nhà trường là nhờ phần lớn ở sự nỗ lực của chính các nghệ sĩ.Hiện nay, Mỹ thuật và Âm
nhạc là hai trong số 9 môn học chính thức được dạy cho HS từ lớp 1 đến lớp Nhưng trong một hội
nghị đánh giá chương trình – SGK gần đây, lãnh đạo Bộ GD&ĐT gợi ý các nhà chuyên môn, với cấp
tiểu học, nên chăng có sự điều chỉnh số lượng, thời lượng (theo hướng thu hẹp) một số môn học
không cần thiết ở những nơi điều kiện dạy học khó khăn.Tại hội thảo Nâng cao chất lượng đội ngũ
GV Mỹ thuật, Âm nhạc trong nhà trường phổ thông (Cục Nhà giáo và cán bộ quản lý giáo dục và Dự
án phát triển THCS II phối hợp tổ chức), các đại biểu đều thẳng thắn thừa nhận, chất lượng dạy học
các môn này trong các nhà trường hiện nay đang ở mức độ kém.

Hình 1.2. Văn bản tóm tắt.
1.1.2 Phân loại tóm tắt

Tuỳ theo yêu cầu và mục đích sử dụng, tóm tắt văn bản được phân thành các
kiểu khác nhau: Tóm tắt trình bày (indicative summary), tóm tắt thông tin
(informative summary), tóm tắt hướng truy vấn (queries –oriented summary), tóm

21


tắt khái lược (generic summary), tóm tắt dựa trên trích rút câu (extraction summary)

và tóm tắt dựa trên trừu tượng (abstraction summary). Trong các kiểu tóm tắt văn
bản này, tóm tắt trình bày quan tâm tới diễn giải văn bản mà bỏ qua ngữ cảnh, tóm
tắt thông tin đưa ra tóm tắt nội dung ở dạng ngắn nhất. Tóm tắt hướng truy vấn chỉ
đưa ra nội dung mà người đọc quan tâm. Tóm tắt khái lược đưa ra tổng quan văn
bản, tóm tắt dựa trên trích rút trích chọn ra những phần quan trọng trong văn bản
như câu, mệnh đề, thuật ngữ,... Tóm tắt dựa trên trừu tượng (rút gọn câu) tạo ra một
văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh
vi. Văn bản tóm tắt dựa trên rút gọn câu mang lại hiệu quả cao về mặt ngôn ngữ
[30, 32, 56].
Các phương pháp tóm tắt văn bản được đề xuất thường sử dụng tiếp cận tóm tắt
theo dựa trên trích rút câu. Lý do là cách tiếp cận tóm tắt dựa trên trích rút câu dễ
dàng thực hiện hơn so với cách tiếp cận tóm tắt dựa trên rút gọn câu. Tuy nhiên, sử
dụng cách tiếp cận tóm tắt văn bản dựa trên trích rút câu thường cho kết quả là
những văn bản tóm tắt với thông tin ít liền mạch hơn theo cách tiếp cận tóm tắt dựa
trên rút gọn câu. Chính vì điều này, hướng nghiên cứu tóm tắt dựa trên rút gọn câu
ngày càng thu hút nhiều sự quan tâm của giới chuyên môn [12].
Hình 1.3 mô tả một hệ thống tóm tắt với nhiều kiểu tóm tắt và nhiều tỉ lệ tóm tắt
khác nhau. Đầu vào của hệ thống có thể là một văn bản, nhiều văn bản, hoặc câu
truy vấn. Kiểu tóm tắt có thể là trích rút, rút gọn câu, tóm tắt truy vấn, tóm tắt khái
lược,... với các tỉ lệ khác nhau để cho ra được kết quả tóm tắt theo yêu cầu của
người dùng hoặc ứng dụng cụ thể.

22


Hình 1.3. Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau.
1.1.3 Tỉ lệ trong tóm tắt văn bản

Thông thường, khi tóm tắt văn bản người ta đề cập tới hai yêu cầu chính sau:
-


Văn bản tóm tắt phải ngắn hơn văn bản gốc.

-

Văn bản tóm tắt phải giữ được thông tin quan trọng của văn bản gốc [33].

Do đó, trong quá trình tóm tắt văn bản người ta thường quan tâm tới hai tỉ lệ
tóm tắt: tỉ lệ nén và tỉ lệ thông tin. Tỉ lệ nén (compression ratio) biểu thị chiều dài
của văn bản tóm tắt được rút ngắn so với văn bản gốc. Tỉ lệ thông tin (retention
ratio) biểu thị lượng thông tin giữ lại được từ văn bản gốc [11, 33]. Dưới đây là
định nghĩa về hai tỉ lệ tóm tắt này.
Định nghĩa 1.2 [Tỉ lệ nén (compression ratio)]: Tỉ lệ nén là sự mô tả độ nén
về mặt chiều dài của văn bản tóm tắt so với văn bản gốc [11, 33].
Tỉ lệ nén rl được xác định theo công thức (1-1) dưới đây.
rl 

Ls
,
Lo

1-1)

trong đó: rl là tỉ lệ nén, Ls là chiều dài của văn bản tóm tắt và Lo là chiều dài
của văn bản gốc.
Định nghĩa 1.3 [Tỉ lệ thông tin (retention ratio)]: Tỉ lệ thông tin là sự mô tả
lượng thông tin được lấy ra so với văn bản gốc [11, 33].

23



Tỉ lệ thông tin được xác định theo công thức (1-2) ở dưới.
rc 

Cs
,
Co

(1-2)

trong đó: rc là tỉ lệ thông tin, C s là số các từ mang thông tin của văn bản tóm
tắt và Co là số các từ mang thông tin của văn bản gốc.
1.1.4 Mô hình tóm tắt văn bản Cắt Dán (Cut and Paste)

Mô hình Cắt Dán được đề xuất bởi Jing [41] vào năm 2000. Mô hình này, kết
hợp cả hai cách tiếp cận tóm tắt dựa trên trích rút câu và tóm tắt dựa trên rút gọn
câu, trong mô hình này, sử dụng các công cụ hỗ trợ như công cụ tách từ, bộ kết hợp
từ vựng và từ điển wordnet. Ngoài ra, trong mô hình Cắt Dán, cần thiết phải xây
dựng kho dữ liệu tóm tắt trừu tượng (ở đây là các câu gốc, câu rút gọn) . Quá trình
tóm tắt văn bản theo mô hình Cắt Dán được minh họa như Hình 1.4 ở dưới.

Hình 1.4. Mô hình tóm tắt văn bản Cắt Dán.

Để cho ra được văn bản tóm tắt sau khi đã nhận được văn bản đầu vào, mô
hình tóm tắt văn bản Cắt Dán phải thực hiện qua các bước sau:
-

Bước 1: Tách văn bản gốc thành tập các câu.

24



-

Bước 2: Với các câu nhận được ở Bước 1, tính toán trọng số của câu và lựa
chọn ra các câu quan trọng (có trọng số cao nhất) thông qua tỉ lệ nén.

-

Bước 3: Từ tập các câu quan trọng được trích chọn ở Bước 2, mô hình sử
dụng thuật toán tìm kiếm từ trong kho dữ liệu được xây dựng theo cách thủ
công của các chuyên gia để rút gọn câu.

-

Bước 4: Kết hợp các câu rút gọn ở Bước 3 để tạo ra văn bản tóm tắt.

Với mô hình Cắt Dán, văn bản tóm tắt sẽ được nén hai lần qua hai quá trình,
trích rút và rút gọn. Do đó, văn bản tóm tắt được sinh ra bởi hệ thống sử dụng mô
hình này có tỉ lệ nén tốt hơn hệ thống chỉ sử dụng cách tiếp cận tóm tắt dựa trên
trích rút câu. Bên cạnh đó, do sử dụng kết hợp giữa hai cách tiếp cận tóm tắt dựa
trên trích rút câu và dựa trên rút gọn câu, văn bản tóm tắt được sinh ra bởi hệ thống
sử dụng mô hình Cắt Dán dễ đọc và dễ hiểu hơn văn bản tóm tắt được tạo ra bởi hệ
thống tóm tắt chỉ sử dụng cách tiếp cận dựa trên trích rút câu [22,41].
Tuy có một số ưu điểm như trên, mô hình Cắt Dán cũng có một số hạn chế
như sau:
- Kho dữ liệu sử dụng cho huấn luyện trong mô hình Cắt Dán bao gồm nhiều
cặp câu (câu gốc, câu rút gọn) phải lớn. Để xây dựng được kho dữ liệu huấn luyện
lớn như thế, chúng ta phải tiến hành theo cách thủ công do đó cần rất nhiều thời
gian và công sức của các chuyên gia. Lý do của yêu cầu về kho dữ liệu huấn luyện

lớn như trên là do mô hình Cắt Dán sử dụng phương pháp học giám sát.
- Mô hình cũng yêu cầu nhiều các công cụ hỗ trợ tóm tắt như: phân tích cú
pháp (parsing), từ điển ngữ nghĩa (wordnet), bộ kết hợp từ vựng (lexicon
combining),…

1.2 Kỹ thuật máy học áp dụng trong tóm tắt văn bản
1.2.1 Máy học

Định nghĩa 1.4 [Học (Learn)]

25


×