Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.78 MB, 80 trang )

i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO THÀNH CHUYÊN

TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH ĐỒ THỊ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018

ii
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO THÀNH CHUYÊN

TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH ĐỒ THỊ

Chuyên ngành khoa học máy tính
Mã số: 8 4 8 0 1 0 1

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Nguyễn Ngọc Cương

THÁI NGUYÊN, 2018

i

LỜI CAM ĐOAN
Em xin cam đoan tất cả các kết quả được trình bày trong luận văn: “Tìm
hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị” là công
trình nghiên cứu của riêng em, không sao chép nguyên bản từ bất kỳ một công
trình nào khác. Các số liệu, kết quả nghiên cứu trong luận văn được sử dụng là
trung thực, đã được kiểm chứng và chưa được công bố trong bất kỳ công trình
của tác giả nào khác.
Nếu sai em xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, ngày tháng năm 2018
Học viên

Đào Thành Chuyên

ii

LỜI CẢM ƠN
Trước hết em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS. Nguyễn
Ngọc Cương – Phó Cục trưởng cục Công nghệ thông tin, Bộ Công an là người
đã trực tiếp hướng dẫn, Nhóm của TS. Nguyễn Thị Thu Hà – Phó trưởng khoa
công nghệ thông tin, Đại học Điện lực đã chỉ bảo tận tình và hết lòng giúp đỡ
em trong suốt thời gian làm luận văn này.
Xin trân trọng cảm ơn tới Ban giám hiệu, các thầy cô giáo trường Đại
học Công nghệ thông tin và truyền thông Thái Nguyên đã chia sẻ và động viên
giúp đỡ em vượt qua mọi khó khăn để hoàn thành tốt công việc nghiên cứu của
mình.

Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp và những người đã
luôn ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt nhất và là chỗ dựa
vững chắc giúp em có thể hoàn thành luận văn.
Cuối cùng em xin gửi lời chúc sức khỏe và thành công tới tất cả quý thầy
cô và gia đình cùng toàn thể các bạn.
Thái Nguyên, ngày

tháng năm 2018

Học viên

Đào Thành Chuyên

iii

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
LỜI CẢM ƠN .................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................ v
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ....................................................... vi
DANH MỤC CÁC BẢNG BIỂU ................................................................. vii
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN
TIẾNG VIỆT ................................................................................................... 6
1.1. Bài toán tóm tắt đa văn bản .................................................................... 6
1.1.1. Các khái niệm cơ bản .............................................................................. 6
1.1.2. Phân loại bài toán tóm tắt....................................................................... 6
1.2. Kỹ thuật tóm tắt đa văn bản tiếng Anh ................................................. 9
1.2.1. Tóm tắt đơn văn bản tiếng Anh ............................................................... 9

1.2.2. Tóm tắt đa văn bản tiếng Anh ............................................................... 10
1.3. Kỹ thuật tóm tắt đa văn bản tiếng Việt................................................ 10
1.3.1. Tóm tắt đơn văn bản tiếng Việt ............................................................. 10
1.3.2. Tóm tắt đa văn bản tiếng Việt ............................................................... 15
1.4. Kết luận chương I................................................................................... 16
CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN MÔ
HÌNH ĐỒ THỊ ............................................................................................... 17
2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản ................................ 17
2.2. Các thách thức của quá trình tóm tắt đa văn bản .............................. 18
2.3. Phân cụm các văn bản ........................................................................... 22
2.4. Xây dựng mô hình chủ đề...................................................................... 27
2.5. Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị .......................... 31

iv

2.5.1 Trọng số câu ........................................................................................... 31
2.5.2 Độ tương đồng câu ................................................................................. 32
2.6. Xây dựng đồ thị tóm tắt văn bản .......................................................... 34
2.7. Phân tích thuật toán. .............................................................................. 38
2.8. Kết luận chương 2 .................................................................................. 43
CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM . 44
3.1. Xây dựng chương trình ......................................................................... 44
3.1.1. Xây dựng chương trình tóm tắt văn bản tiếng Việt sử dụng mô hình đồ
thị ..................................................................................................................... 44
3.1.2. Xây dựng chương trình bằng ngôn ngữ C# .......................................... 47
3.2. Thực nghiệm và đánh giá kết quả ........................................................ 53
3.2.1. Kịch bản và dữ liệu thực nghiệm .......................................................... 53
3.2.2. Kết quả thử nghiệm ............................................................................... 56
3.3. Kết luận chương 3 .................................................................................. 58

KẾT LUẬN .................................................................................................... 59
1. Kết luận ...................................................................................................... 59
2. Khuyến nghị ............................................................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................ 61
PHỤ LỤC ....................................................................................................... 64

v

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Từ gốc

Nghĩa tiếng việt

MMR

Maximal Maginal Relevance

Tối đa

Q&A

Question and Answering

Hệ thống hỏi đáp tự động

Document Understanding

Hội nghi chuyên về hiểu

Conferences

văn bản

DUC

TF

Term Frequency

Tần suất từ/cụm từ trong
văn bản

Crossdocument Structure

Taxonomy mối quan hệ

Theory

xuyên văn bản

PMI

Pointwise Mutual Information

Độ đo tương hỗ giữa các từ

LSI

Latent Semantic Indexing

Chỉ số ngữ nghĩa ẩn

CST

vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các cách tiếp cận trong tóm tắt văn bản ........................................ 11
Hình 1.2. Mô hình đồ thị vô hướng. ................................................................ 13
Hình 2.1. Tập văn bản chưa xử lý bị nhiễu ..................................................... 23
Hình 2.2. Các tập chủ đề được đặt tên và tính được xác suất ........................ 24
Hình 2.3. Văn bản sau khi sử dụng công cụ tách từ ....................................... 25
Hình 2.4. Quy trình xử lý phân cụm văn bản .................................................. 26
Hình 2.5. Mô hình chủ đề dựa trên xác xuất................................................... 29
Hình 2.6. Quy trình tóm tắt văn bản tiếng Việt ............................................... 34
Hình 2.7. Mô hình đồ thị trong tóm tắt văn bản tiếng Việt............................. 37
Hình 3.1. Cơ sở dữ liệu hệ thống .................................................................... 45
Hình 3.2. Chương trình tách từ Vntagger ....................................................... 46
Hình 3.3. Bảng gồm các thuật ngữ được tách ra từ tập dữ liệu văn bản ....... 47
Hình 3.4. Công cụ tách từ Vntagger ............................................................... 48
Hình 3.5. Các file định dạng xml được tạo ra khi thực hiện tách từ .............. 48
Hình 3.6. Kết quả của một file định dạng xml cụ thể...................................... 49
Hình 3.7. Giao diện chính của hệ thống tóm tắt văn bản tiếng Việt............... 49
Hình 3.8. Giao diện tạo tập từ chủ đề (Tập từ lõi) ......................................... 50
Hình 3.9. Giao diện module từ điển ................................................................ 50
Hình 3.10. Giao diện module huấn luyện ....................................................... 51

Hình 3.11. Giao diện module tóm tắt văn bản ................................................ 52
Hình 3.12. Giao diện thông tin của câu .......................................................... 52
Hình 3.13. Giao diện thông tin độ tương đồng của câu ................................. 53
Hình 3.14. Những văn bản không cho ra kết quả tóm tắt ............................... 54
Hình 3.15. Độ tương đồng không thể hiện khi không có kết quả tóm tắt ....... 55
Hình 3.16. Thông tin câu thể hiện rõ các thông số khi có kết quả tóm tắt ..... 55

vii

Hình 3.17. Giao diện phần tách từ và gán nhãn ............................................. 56
Hình 3.18. Tập văn bản huấn luyện ................................................................ 57
Hình 3.19. Thông tin của câu .......................................................................... 57
Hình 3.20. Kết quả độ tương đồng của câu .................................................... 58
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1. Bảng so sánh các phương pháp tiếp cận tóm tắt đa văn bản. ........ 18
Bảng 2.2. Taxonomy mối quan hệ xuyên văn bản........................................... 21
Bảng 2.3. Các từ chủ đề trong tập mô tả của Andrews năm 2009 ................. 27
Bảng 2.4. Mô hình chủ đề của nhóm tác giả Nguyễn Thị Thu Hà .................. 31
Bảng 2.5. Mô hình chủ đề học viên xây dựng ................................................. 31
Bảng 2.6. Đánh giá hiệu quả của thuật toán. ................................................. 39

1

MỞ ĐẦU
Sự phát triển nhanh chóng của mạng Internet cùng với những bước tiến
mạnh mẽ của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên
vô cùng lớn. Thông tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng
thông tin văn bản khổng lồ trong đó đã và đang mang lại lợi ích không nhỏ cho

con người, tuy nhiên, nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và
tổng hợp thông tin.
Giải pháp cho vấn đề này là tóm tắt văn bản tự động. Tóm tắt văn bản tự
động được xác định là một bài toán thuộc lĩnh vực khái phá dữ liệu văn bản;
việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết kiệm thời gian đọc, cải
thiện tìm kiếm cũng như tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Từ nhu
cầu thực tế như thế, bài toán tóm tắt văn bản tự động nhận được sự quan tâm
nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty
lớn trên thế giới. Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều
trong các hội nghị nổi tiếng như : DUC1 2001-2007, TAC2 2008, ACL3 20012007… bên cạnh đó cũng là sự phát triển của các hệ thống tóm tắt văn bản như:
MEAD, LexRank, Microsoft Word (Chức năng AutoSummarize)…
Một trong những vấn đề thách thức và được sự quan tâm trong những
năm gần đây đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quả tóm
tắt cho một tập văn bản liên quan với nhau về mặt nội dung hay còn gọi là tóm
tắt đa văn bản.
Tóm tắt văn bản là một trong những hướng nghiên cứu được các nhà
nghiên cứu quan tâm trong thời gian gần đây, bởi vì nó làm rút gọn đi những
nội dung thông tin dư thừa trong văn bản (chỉ để lại văn bản tóm tắt ở trạng
thái cô đọng nhất) điều này rất có ý nghĩa trong kỷ nguyên công nghệ thông tin
hiện nay.

2

Hiện nay, có hai cách tiếp cận để tóm tắt văn bản (để xây dựng các hệ
thống tóm tắt văn bản tự động thỏa mãn yêu cầu của người dùng ) là: cách tiếp
cận dựa trên trích xuất (extraction) và tóm lược (abstractions). Trong đó, cách
tiếp cận dựa trên trích xuất là phổ biến hơn cả, bởi độ phức tạp không quá lớn
và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được. Mặt khác,
đối với ngôn ngữ tiếng Việt, một số công cụ hỗ trợ trong việc xây dựng cách

biểu diễn ngôn ngữ chưa được xây dựng hoàn chỉnh, rất khó khăn trong việc
xây dựng cách biểu diễn tương đương hoặc đồng nghĩa.
Đối với tóm tắt văn bản tiếng Việt, một số tác giả, đã đề xuất một phương
pháp tương tự trong đó có sử dụng 3 thuật toán thống kê dựa trên từ vựng để
tính toán độ tương tự giữa các câu là Jaro, Contrast Model và Jaccard.
Để tính độ quan trọng câu được tính theo thuật toán PageRank[3]. Trong
các phương pháp sử dụng mô hình đồ thị để tạo ra các bản tóm tắt tự động
thường chỉ đề cập đến độ tương đồng ngữ nghĩa của câu, nhưng đối với xử lý
ngôn ngữ tự nhiên có rất nhiều các đặc trưng vì vậy việc lựa chọn các đặc trưng
để tính toán có ảnh hưởng rất lớn đến chất lượng của tóm tắt.
Sử dụng mô hình đồ thị có trọng số nhưng thêm vào đó là trọng số của
câu tại mỗi nút. Ngoài ra còn giảm chiều đặc trưng bằng mô hình chủ đề theo
phương pháp tiếp cận dựa trên mô hình xác suất có điều kiện.
Đối với tiếng Việt, hiện nay cũng có nhiều phương pháp được đề
xuất[1][3], tuy nhiên các đề xuất này thường sử dụng lại các phương pháp đã
áp dụng cho tiếng Anh. Một số các khác biệt về ngôn ngữ đều được xử lý thông
qua các công cụ xử lý tách từ, nhận dạng từ,… . qua nghiên cứu đặc điểm của
ngôn ngữ tiếng Việt và nhận thấy rằng, tiếng Việt là ngôn ngữ đơn âm tiết, khó
khăn khi tách từ, bởi các từ trong tiếng Việt không dựa trên khoảng trắng. Ví
dụ các từ: chuẩn_bị, xử_lý,… là những từ ghép, cần phải nhận dạng và dùng

3

các công cụ tách từ phù hợp khi xử lý. Chính vì điều này, xử lý ngôn ngữ tự
nhiên tiếng Việt là một thách thức cần được giải quyết.
Trong đề tài luận văn, học viên sẽ sử dụng một phương pháp cải tiến bài
toán tóm tắt văn bản tiếng Việt so với phương pháp thông thường bằng cách sử
dụng tập từ chủ đề tiếng Việt do các tác giả Nguyễn Thị Ngọc Tú, Nguyễn Thị
Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc

Cương [4] xây dựng. Tại pha tóm tắt, không cần sử dụng công cụ tách và gán
nhãn từ để xử lý văn bản đầu vào, nhờ vậy pha tóm tắt sẽ giảm bớt độ phức tạp
tính toán về mặt thời gian.
Với việc lựa chọn đề tài “Tìm hiểu kỹ thuật Tóm tắt đa văn bản tiếng
Việt sử dụng mô hình đồ thị”, học viên tập trung vào việc tìm hiểu, khảo sát,
đánh giá và đưa vào ứng dụng một phương pháp tóm tắt đa văn bản phù hợp
với ngôn ngữ tiếng Việt trong đơn vị mà học viên đang công tác.
Ngoài phần Mở đầu giới thiệu ý nghĩa khoa học và thực tiễn của đề tài
nghiên cứu, bài toán cần giải quyết. Phần Kết luận trình bày các kết quả thu
được của luận văn và hướng phát triển tiếp theo, nội dung chính của luận văn
gồm ba chương như mô tả dưới đây.
Chương 1: Tổng quan các kỹ thuật tóm tắt đa văn bản tiếng Việt.
1. Bài toán tóm tắt đa văn bản
1.1. Các khái niệm cơ bản
1.2. Phân loại bài toán tóm tắt
2. Kỹ thuật tóm tắt đa văn bản tiếng Anh
2.1. Tóm tắt đơn văn bản tiếng Anh
2.2. Tóm tắt đa văn bản tiếng Anh
3. Kỹ thuật tóm tắt đa văn bản tiếng Việt
3.1. Tóm tắt đơn văn bản
3.2. Tóm tắt theo trích xuất

4

3.3. Tóm tắt theo tóm lược
3.4. Tóm tắt đa văn bản
Chương 2. Phương pháp tóm tắt văn bản dựa trên mô hình đồ thị
1. Xây dựng mô hình chủ đề
2. Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị

2.1. Trọng số câu
2.2. Độ tương đồng câu
2.3. Xây dựng đồ thị tóm tắt văn bản
2.4. Phân tích thuật toán
Chương 3: Xây dựng chương trình và thực nghiệm
1. Xây dựng chương trình
- Xây dựng chương trình về tóm tắt văn bản tiếng việt sử dụng mô hình
đồ thị
- Xây dựng chương trình bằng ngôn ngữ C#
2. Thực nghiệm và đánh giá kết quả
- Kịch bản và dữ liệu thực nghiệm
- Kết quả thử nghiệm
Một số nghiên cứu có liên quan:
Mô hình đồ thị phân lớp câu trong truy vấn tóm tắt đa văn bản cũng đã
được Furu Wei và các cộng sự đề xuất trong báo cáo của mình năm 2008. Một
đồ thị có trọng số được đề xuất để xác định những ảnh hưởng của các câu trong
nội văn bản và liên văn bản, từ đó tạo ra một phân lớp các câu trong tóm tắt đa
văn bản.
Một sự kết hợp giữa mô hình chủ đề và học bán giám sát dựa trên đồ thị
cho các truy vấn trong tóm tắt đa văn bản được nhóm tác giả Yanran Li và
Sujian Li đề xuất năm 2014[16]. Một mô hình đồ thị hai lớp (lớp câu và lớp
chủ đề) được đưa ra với cách tiếp cận là mô hình quan hệ giữa các chủ đề và

5

câu. Đối với các nghiên cứu về tóm tắt tự động văn bản tiếng Việt gần đây cũng
đã có một số công trình công bố: Nguyễn Lê Minh tóm tắt văn bản tiếng Việt
bằng vector hỗ trợ SVM (Support Vector Machine). Đỗ Phúc và các cộng sự
rút trích nội dung chính của khối thông điệp bằng phương pháp gom cụm đồ

thị [1]. Nguyễn Hoàng Anh Tú với phương pháp sử dụng mô hình đồ thị trong
tóm tắt văn bản tiếng Việt. Ngoài ra còn có sự góp mặt của nhóm tác giả Lê
Thanh Hương sử dụng cấu trúc ngôn ngữ tiếng Việt đối với hệ thống tóm tắt tự
động [2]. Gần đây trong một báo cáo về “ giải pháp tóm tắt văn bản tiếng Việt
tự động” nhóm tác giả Trương Quốc Định và Nguyễn Quang Dũng cũng đã đề
cập đến phương pháp dựa trên mô hình đồ thị có trọng số. Mỗi đỉnh của đồ thị
biểu diễn một câu, cạnh nối hai câu có gán trọng số thể hiện độ tương đồng ngữ
nghĩa của chúng và cuối cùng một giải thuật PageRank dựa trên đồ thị được tùy
biến để tích hợp độ tương tự câu. Sau cùng các câu quan trọng nhất sẽ được
trích rút trong văn bản tóm tắt[3].

6

CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN
BẢN TIẾNG VIỆT

1.1. Bài toán tóm tắt đa văn bản
1.1.1. Các khái niệm cơ bản
Tỷ lệ nén (Compression Rate): là độ đo thể hiện bao nhiêu thông tin
được cô đọng trong văn bản tóm tắt được tính bằng công thức:
𝐶𝑜𝑚𝑝𝑟𝑒𝑠𝑠𝑖𝑜𝑛𝑅𝑎𝑡𝑒 =

𝑆𝑢𝑚𝑚𝑎𝑟𝑦𝐿𝑒𝑛𝑔𝑡ℎ
𝑆𝑜𝑢𝑟𝑐𝑒𝐿𝑒𝑛𝑔𝑡ℎ

SummaryLength: Độ dài văn bản tóm tắt
SourceLength: Độ dài văn bản nguồn
- Độ nổi bật hay liên quan (Salience or Relevance): là trọng số được gán
cho thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với

toàn văn bản hay để chỉ sự liên quan của thông tin đó đối với chương trình của
người sử dụng.
- Sự mạch lạc (Coherence): Một văn bản tóm tắt gọi là mạch lạc nếu tất
cả các thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung
và không có sự trùng lặp giữa các thành phần.
1.1.2. Phân loại bài toán tóm tắt.
Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân
loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào. Ở đây,
luận văn đề cập đến phân loại tóm tắt dựa trên 3 cơ sở là: dựa vào định dạng,
nội dung đầu vào, dựa vào định dạng, nội dung đầu ra, dựa vào mục đích tóm
tắt.
* Tóm tắt dựa trên cơ sở định dạng, nội dung đầu vào sẽ trả lời cho câu
hỏi “Cái gì sẽ được tóm tắt”. Cách chia này sẽ cho ta nhiều cách phân loại con
khác nhau. Cụ thể như:

7

- Kiểu văn bản (bài báo, bản tin, thư, báo cáo …). Với cách phân loại
này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa
học do những đặc trưng văn bản quy định.
- Định dạng văn bản: dựa vào từng định dạng văn bản khác nhau, tóm
tắt cũng chia ra thành các loại khác nhau như: tóm tắt văn bản không theo khuôn
mẫu (free-form) hay tóm tắt văn bản có cấu trúc. Với văn bản có cấu trúc, tóm
tắt văn bản thường sử dụng một mô hình hoặc dựa vào mẫu cấu trúc đã xây
dựng từ trước để tiến hành tóm tắt.
- Số lượng dữ liệu đầu vào: tùy vào số lượng đầu vào của bài toán tóm
tắt, người ta cũng có thể chia tóm tắt ra thành tóm tắt đa văn bản, tóm tắt đơn
văn bản. Tóm tắt đơn văn bản khi đầu vào chỉ là một văn bản đơn, trong khi đó
đầu vào của tóm tắt đa văn bản là một tập các tài liệu có liên quan đến nhau

như: các tin tức có liên quan đến cùng một sự kiện, các trang web cùng chủ đề
hoặc là cụm dữ liệu được trả về từ quá trình phân cụm.
- Miền dữ liệu: dựa vào miền của dữ liệu như cụ thể về một lĩnh vực nào
đó, ví dụ như: y tế, giáo dục… hay là miền dữ liệu tổng quát, có thể chia tóm
tắt ra thành từng loại tương ứng.
* Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích
tóm tắt là gì, tóm tắt phục vụ đối tượng nào ...
- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia
khác cách tóm tắt cho các đối tượng đọc thông thường.
- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục
vụ cho việc sắp xếp.
- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt chỉ thị
(Indicative) và tóm tắt thông tin (Informative). Tóm tắt chỉ thị (indicative) chỉ
ra loại của thông tin, ví dụ như là loại văn bản chỉ thị “tối mật”. Còn tóm tắt
thông tin chỉ ra nội dung của thông tin.

8

- Tóm tắt trên cơ sở truy vấn (Query-based) hay tóm tắt chung (General).
Tóm tắt general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản
mà nội dung của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó.
Tóm tắt trên cơ sở truy vấn thì nội dung của văn bản tóm tắt sẽ dựa trên truy
vấn của người dùng hay chương trình đưa vào, loại tóm tắt này thường được sử
dụng trong quá trình tóm tắt các kết quả trả về từ máy tìm kiếm.
* Tóm tắt trên cơ sở đầu ra cũng có nhiều cách phân loại.
- Dựa vào ngôn ngữ: Tóm tắt cũng có thể phân loại dựa vào khả năng
tóm tắt các loại ngôn ngữ:
+ Tóm tắt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tắt chỉ một
loại ngôn ngữ nhất định như: tiếng Việt hay tiếng Anh…

+ Tóm tắt đa ngôn ngữ (Multilingual): hệ thống có khả năng tóm tắt
nhiều loại văn bản của các ngôn ngữ khác nhau, tuy nhiên tương ứng với văn
bản đầu vào là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tương ứng.
+ Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả năng đưa ra
các văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào.
- Dựa vào định dạng đầu ra của kết quả tóm tắt: như bảng, đoạn, từ khóa.
* Ngoài hai cách phân loại trên, phân loại tóm tắt trên cở sở đầu ra còn
có một cách phân loại được sử dụng phổ biến là: tóm tắt theo trích xuất (Extract)
và tóm tắt theo tóm lược (Abstract).
+ Tóm tắt theo trích xuất: là tóm tắt có kết quả đầu ra là một tóm tắt bao
gồm toàn bộ các phần quan trọng được trích ra từ văn bản đầu vào.
+ Tóm tắt theo tóm lược: là tóm tắt có kết quả đầu ra là một tóm tắt không
giữ nguyên lại các thành phần của văn bản đầu vào mà dựa vào thông tin quan
trọng để viết lại một văn bản tóm tắt mới.
Hiện nay, các hệ thống sử dụng tóm tắt theo trích xuất được sử dụng phổ
biến và cho kết quả tốt hơn tóm tắt theo tóm lược. Nguyên nhân tạo ra sự khác

9

biệt này là do các vấn đề trong bài toán tóm tắt theo tóm lược như: biểu diễn
ngữ nghĩa, suy luận và sinh ra ngôn ngữ tự nhiên được đánh giá là khó và chưa
có nhiều kết quả nghiên cứu khả quan hơn so với hướng trích xuất câu của bài
toán tóm tắt theo trích xuất. Trong thực tế, theo đánh giá của Dragomir R.
Radev (Đại học Michigan, Mỹ) chưa có một hệ thống tóm tắt theo tóm lược đạt
đến sự hoàn thiện, các hệ thống tóm tắt theo tóm lược hiện nay thường dựa vào
thành phần trích xuất có sẵn. Các hệ thống này thường được biết đến với tên
gọi tóm tắt theo nén văn bản.
Tóm tắt theo nén văn bản (Text Compaction): là loại tóm tắt sử dụng các
phương pháp cắt xén (truncates) hay viết gọn (abbreviates) đối với các thông

tin quan trọng sau khi đã được trích xuất.
Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tắt khác nhau tuy nhiên
hai loại tóm tắt là tóm tắt đơn văn bản và tóm tắt đa văn bản vẫn được sự quan
tâm lớn của các nhà nghiên cứu về tóm tắt tự động.
1.2. Kỹ thuật tóm tắt đa văn bản tiếng Anh
1.2.1. Tóm tắt đơn văn bản tiếng Anh
Trong những năm qua đã có nhiều công trình nghiên cứu về tạo tóm tắt
tự động các văn bản tiếng Anh. Một số công trình tiêu biểu như: William
B.Cavnar (1994) đã biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn
truyền thống bằng từ khóa. Chinatsu Aone (1997) đã phát triển hệ DimSum để
tóm tắt văn bản sử dụng xử lý ngôn ngữ tự nhiên và kỹ thuật thống kê dựa trên
hệ số TF-IDF. Tác giả cũng đã sử dụng WordNet để xem xét ngữ nghĩa của từ
và đề xuất một số kỹ thuật lượng giá. Jaine Carbonell (1998) đã tóm tắt văn bản
bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra
các câu trội. Jade Goldstein (1999) đã phân loại tóm tắt dựa trên độ đo liên
quan. Phương pháp sử dụng kết hợp giữa ngữ học, thống kê. Mỗi câu được đặc
trưng bằng các đặc tính ngữ học và độ đo thống kê. J Larocca Neto (2000) đã

10

tạo tóm tắt văn bản dựa trên các dãy từ trong câu được chọn theo hệ số tf (term
frequency), sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt. D. Radev
(2000) đã tạo tóm tắt văn bản dựa trên trọng tâm sau đó rút trích câu quan trọng.
Yihong Gong (2001) đã đề xuất hai phương pháp tạo tóm tắt văn bản đơn giản:
tiếp cận độ đo dựa trên thống kê, tần suất và tiếp cận phân tích latent
semantic.J.Kathleen R (2001) sử dụng tiếp cận kiến trúc đẳng cấp cụm và chọn
câu trội trong mỗi cụm. Có hai phương pháp là rút câu dựa trên từ khóa và rút
câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa
hai từ. M. Mitra (2002) đã đề xuất phương pháp tạo tóm tắt dựa trên việc trích

rút các đoạn văn quan trọng bao gồm việc tạo bản đồ quan hệ văn bản dùng các
đoạn văn, phân tích bản đồ quan hệ của các văn bản để ấn định đoạn văn nào
là quan trọng nhất.
1.2.2. Tóm tắt đa văn bản tiếng Anh
Phương pháp tóm tắt văn bản sử dụng mô hình đồ thị vô hướng có trọng
số đã được R.Mihalcea sử dụng trong tóm tắt văn bản tiếng Anh từ năm 2004.
Văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh trong đồ thị biểu diễn một
câu trong văn bản, các cạnh nối giữa hai đỉnh biểu diễn độ tương đồng ngữ
nghĩa giữa hai câu tương ứng với hai đỉnh đó. Để tính độ quan trọng câu được
tính theo thuật toán PageRank. Trong các phương pháp sử dụng mô hình đồ thị
để tạo ra các bản tóm tắt tự động thường chỉ đề cập đến độ tương đồng ngữ
nghĩa của câu, nhưng đối với xử lý ngôn ngữ tự nhiên có rất nhiều các đặc trưng
vì vậy việc lựa chọn các đặc trưng để tính toán có ảnh hưởng rất lớn đến chất
lượng của tóm tắt.
1.3. Kỹ thuật tóm tắt đa văn bản tiếng Việt
1.3.1. Tóm tắt đơn văn bản tiếng Việt
Bài toán tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác,
là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn

11

mô tả ngắn gọn nội dung chính của văn bản đầu vào đó. Văn bản đơn có thể là
một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (.txt)…
Tóm tắt văn bản đơn là bước đệm cho việc xử lý tóm tắt đa văn bản và các bài
toán tóm tắt phức tạp hơn. Chính vì thế những phương pháp tóm tắt văn bản ra
đời đầu tiên đều là các phương pháp tóm tắt cho văn bản đơn.
Có khá nhiều các cách tiếp cận trong tóm tắt văn bản, một số các nghiên
cứu điển hình trong tóm tắt văn bản tập trung vào nhiều khía cạnh như: mức
ngôn ngữ, xác suất thống kê, mạng nơ ron...

Mô hình tóm tắt
đơn văn bản
Bổ sung đặc trưng
và cây quyết định

Các phương pháp
phân tích ngôn
ngữ tự nhiên sâu

Các phương pháp
Navie - Bayes

Mạng Nơ ron
3 lớp

Các phương pháp
Log tuyến tính
Hình 1.1. Các cách tiếp cận trong tóm tắt văn bản
* Bổ sung đặc trưng và cây quyết định: Đặc trưng vị trí câu được sử dụng
như một đặc trưng quan trọng trong câu, và ý tưởng của văn bản được mô tả
chung như là một cấu trúc diễn ngôn trên cây và theo xu hướng lựa chọn những
câu có trọng số về vị trí cao.

12

* Mô hình Markov ẩn: Trong một số các đề cập trước, các đặc trưng phần
lớn là không tuần tự, do vậy Conroy và các cộng sự đã mô hình hóa vấn đề trích
rút câu từ văn bản bằng cách sử dụng mô hình Markov ẩn (HMM).
* Mô hình Log tuyến tính: Osborne đã đưa ra một cách tiếp cận mới để

tóm tắt văn bản sử dụng các đặc trưng là không độc lập nhau. Ông đã sử dụng
mô hình Log tuyến tính như một giả thiết để đưa ra sản phẩm các văn bản tóm
tắt kiểu trích rút tốt hơn mô hình Naive Bayes.
* Phương pháp tần suất từ - tần suất nghịch đảo văn bản: Mô hình túi từ
(Bag of words) được xây dựng dựa trên mức câu, với tần suất từ và nghịch đảo
của tần suất câu, trong đó tần câu là số các câu trong văn bản chứa từ đó. Những
véc tơ câu này được tính trọng số bằng độ tương tự giữa truy vấn và trọng số
câu cao nhất được lấy ra từ một phần của tóm tắt. Đây là một mô hình ứng dụng
trực tiếp của tra cứu văn bản thực hiện với tóm tắt hay còn gọi là tóm tắt theo
hướng truy vấn.
* Phương pháp dựa trên các cụm: Các văn bản được viết thành các cụm
chủ đề khác nhau sau đó cấu thành nên bản tóm tắt. Các câu được lựa chọn dựa
trên độ tương tự của câu với chủ đề của cụm Ci. Một đặc trưng tiếp theo được
xem xét để trích rút câu là vị trí của câu trong văn bản (Li). Ngoài ra, trong ngữ
cảnh của một văn bản, câu đầu tiên của văn bản được coi như là câu có nội
dung liên quan tới văn bản nhất, do vậy độ tương tự giữa một câu bất kỳ trong
văn bản với câu này được coi là độ đặc trưng ngữ cảnh Fi. Tất cả các đặc trưng
trên được tổng hợp thành trọng số của câu:
Si = W1 * Ci + W2 * Fi + W3 * Li ………………
Trong đó:
Si: là trọng số của câu thứ i
Ci: là độ tương tự của câu i với cụm thứ C
Li: là đặc trưng vị trí câu trong văn bản

13

Fi: là độ tương tự của câu i với câu mở đầu văn bản
* Cách tiếp cận dựa trên lý thuyết đồ thị: Lý thuyết đồ thị đưa ra một
biểu diễn nhận ra các câu chủ đề dùng cho trích rút, sau khi loại bỏ các từ dừng,

từ tầm thường trong câu, các câu trong văn bản được biểu diễn như là các nút
trên đồ thị không có hướng. Trong đó cứ hai câu được kết nối với nhau tạo
thành một cạnh nếu như hai câu đó có cùng một số từ chung (còn gọi là góc
cosine) biểu diễn sự tương tự giữa chúng.

Hình 1.2. Mô hình đồ thị vô hướng.
* Phương pháp dựa trên học máy: Có khá nhiều các mô hình học máy
được sử dụng trong tóm tắt văn bản: HMM, Bayes, SVM, Neural
Network,...Đặc điểm của những phương pháp dựa trên học máy là cho tập tập
văn bản huấn luyện và bản tóm tắt trích rút tương đương của nó, quá trình tóm
tắt là một bài toán phân loại: các câu được phân loại thành hai lớp: lớp tóm tắt
và lớp không tóm tắt dựa trên những đặc trưng đã được lựa chọn và tính toán.
Giả sử đối với luật phân loại Bayes:
P(s∈

14

Trong đó s là một câu trong tập hợp văn bản, các Fi là các đặc trưng sử
dụng phân loại. S là tóm tắt được sinh ra và P (s∈< S | F1, F2, ..., FN) là xác
suất của câu s có được chọn hay không dựa trên các đặc trưng từ F1,F2…FN.
* Tóm tắt văn bản với mạng nơ ron: Phương pháp này sử dụng mạng nơ
ron để huấn luyện các câu được sử dụng để tạo ra tóm tắt. Kỹ thuật được thực
hiện với mạng nơ ron 3 lớp, các câu được trích rút sử dụng con người để đọc
và tạo ra một tập mẫu, mạng nơ ron học tập mẫu đó để điều chỉnh trọng số trên
mạng nơ ron để quyết định giá trị cho các đầu vào tiếp theo của mạng.
Tuy nhiên các phương pháp nhằm giải quyết bài toán tóm tắt văn bản
đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm tắt
theo tóm lược.
Tóm tắt theo trích xuất

Đa số các phương tóm tắt theo loại này đều tập trung vào việc trích xuất
ra các câu hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành
một văn bản tóm tắt. Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc
trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng
các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có
trọng số cao nhất cho văn bản tóm tắt [8],[9]. Các kỹ thuật tóm tắt gần đây sử
dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để
tìm ra các thành phần quan trọng của văn bản. Sử dụng các phương pháp học
máy có thể kể đến phương pháp của Kupiec, Penderson and Chen năm 1995 sử
dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [13] hay nghiên cứu
của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị
trí của các câu quan trọng trong văn bản [6] . Bên cạnh đó việc áp dụng các
phương pháp phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của
Barzilay và Elhadad vào năm 1997 [15].
Tóm tắt theo tóm lược

15

Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có
thể xem như là một phương pháp tiếp cận tóm tắt theo tóm lược. Các hướng
tiếp cận có thể kể đến như dựa vào trích xuất thông tin (information extraction),
ontology, hợp nhất và nén thông tin… Một trong những phương pháp tóm tắt
theo tóm lược cho kết quả tốt là các phương pháp dựa vào trích xuất thông tin,
phương pháp dạng này sử dụng các mẫu đã được định nghĩa trước về một sự
kiện hay là cốt truyện và hệ thống sẽ tự động điền các thông tin vào trong mẫu
có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra kết quả tốt tuy nhiên các
phương pháp dạng này thường chỉ áp dụng trong một miền nhất định [12].
1.3.2. Tóm tắt đa văn bản tiếng Việt
Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích

tổng hợp thông tin cô đọng nhất từ nhiều nguồn văn bản khác nhau. Là quá
trình trích xuất nội dung từ một tập các văn bản có liên quan đến nhau, trong
quá trình đó các thông tin dư thừa sẽ được loại bỏ và những thông tin quan
trọng sẽ được biểu diễn dưới hình thức cô đọng, xúc tích và giàu cảm xúc đến
người sử dụng hoặc chương trình cần dùng [ 11].
Tóm tắt đa văn bản được xác định là một bài toán có độ phức tạp cao,
ngoài những thách thức đã được biết đến đối với tóm tắt đơn văn bản như sự
cô đọng của thông tin và mạch lạc về nội dung, tóm tắt đa văn bản còn có những
thách thức như cần phải xác định những thông tin trùng lặp giữa các văn bản,
xác định thông tin quan trọng trong nhiều văn bản hay việc sắp xếp các thông
tin trong văn bản tóm tắt
Do vậy thường các phương pháp tóm tắt đa văn bản được xây dựng từ
các phương pháp tóm tắt đơn văn bản. Trong số các phương pháp hiện có thì
các thuật toán dựa trên đồ thị đã có hiệu quả tốt trong các truy vấn câu. Cụ thể
một đồ thị có trọng số được xây dựng, mỗi câu được mô phỏng là một nút, mối
quan hệ giữa các câu được mô hình hóa như một cạnh có hướng hoặc vô hướng.

16

Mô hình đồ thị phân lớp câu trong truy vấn tóm tắt đa văn bản cũng đã được
Furu Wei và các cộng sự đề xuất trong báo cáo của mình năm 2008. Trong luận
văn này một đồ thị có trọng số được đề xuất[4] để xác định những ảnh hưởng
của các câu trong nội văn bản và liên văn bản, từ đó tạo ra một phân lớp các
câu trong tóm tắt đa văn bản.
1.4. Kết luận chương I.
Chương 1 đã trình bày tổng quan các khái niệm cơ bản của tóm tắt văn
bản tiếng Anh, tóm tắt văn bản tiếng Việt và các cách tiếp cận trong tóm tắt
trong đó định hướng nghiên cứu về tóm tắt theo cách tiếp cận trích xuất câu và
theo tóm lược.

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị (LV thạc sĩ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về