Tải bản đầy đủ (.pdf) (66 trang)

Tóm Tắt Văn Bản Tự Động Dựa Trên Á Kỹ Thuật Phân Tíh Ma Trận.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.71 MB, 66 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN

TỐT NGHIỆP THẠC SĨ
CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH

Tóm tắt văn bản tự động dựa trên
các kỹ thuật phân tích ma trận
Học viên

: Trần Việt Cường

SHHV

: CB170304

Giáo viên hướng dẫn

: PGS.TS Lê Thanh Hương

HÀ NỘI 07 / 2020

1

Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132044001000000


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc



BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Trần Việt Cường.
Đề tài luận văn: Tóm tắt văn bản tự động dựa trên các kỹ thuật phân tích ma trận.
Chuyên ngành: Khoa học máy tính.
Mã số SV: CB170304.
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả
đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 27/06/2020 với các
nội dung sau: Đánh số trang, bổ sung trích dẫn tài liệu tham khảo, chỉnh sửa lại bìa
và chuyên ngành, nêu rõ sự khác biệt của các phần 2.3, 3.3, và 4.3, chỉnh sửa lại đề
mục cho hợp lý, giải thích kỹ các ký hiệu và cơng thức trong các thuật tốn mục
2.1, 3.1, 4.1, mơ tả và bổ xung các tập dữ liệu, bổ sung mô tả các đường cơ sở
(baseline), mô tả ngắn gọn lại các phương pháp được so sánh trong thực nghiệm,
mô ta các bước tiền xử lý với Tiếng Việt (nếu có).
Hà Nội, ngày 20 tháng 07 năm 2020
Giáo viên hướng dẫn

Tác giả luận văn

Trần Việt Cường

PGS TS Lê Thanh Hương
CHỦ TỊCH HỘI ĐỒNG

TS Vũ Tuyết Trinh

2


LỜI CAM ĐOAN

Tôi xin cam đoan luận văn về đề tài “Tóm tắt văn bản tự động dựa trên các kỹ
thuật phân tích ma trận” là cơng trình nghiên cứu cá nhân của tôi trong thời gian
qua. Mọi số liệu sử dụng phân tích trong luận văn và kết quả nghiên cứu là do tơi tự
tìm hiểu, phân tích một cách khách quan, trung thực, có nguồn gốc rõ ràng và đã
được công bố dưới các bài báo khoa học đã được trích dẫn. Tơi xin chịu hồn tồn
trách nhiệm nếu có sự khơng trung thực trong thơng tin sử dụng trong cơng trình
nghiên cứu này.”
Hà Nội, ngày 20 tháng 07 năm 2020
Tác giả luận văn

Trần Việt Cường

3


TÓM TẮT NỘI DUNG LUẬN VĂN
Trong suốt lịch sử, số lượng thơng tin ngày một nhiều và có q ít thời gian
đọc thông tin luôn là hai trở ngại lớn trong việc tìm kiếm thơng tin. Vì vậy, xác
định thơng tin quan trọng trong một văn bản là một việc vô cùng cần thiết. Để giải
quyết vấn đề quá tải thông tin và dư thừa thông tin, giúp chúng ta có thể xác định
nhanh chóng và hiệu quả các thơng tin cần thiết, có khá nhiều cách tiếp cận đã
được thực hiện, trong đó tóm tắt văn bản tự động giúp giải quyết khá tốt vấn đề
này.
Lĩnh vực nghiên cứu về ma trận, các kỹ thuật phân hủy ma trận (matrix
decomposition), phân tích ma trận (matrix factorizaton), phân tích tensor (tensor
analysis, tensor decomposition, tensor factorizatoin) là một trong những nền tảng
tốt trong học máy và khai phá dữ liệu, là một trong những kỹ thuật “the state of the
art”, mang lại kết quả tốt trong nhiều lĩnh vực. Ứng dụng các kỹ thuật phân tích ma
trận trong tóm tắt văn bản tự động đã có nhiều nghiên cứu và mang lại kết quả khả
quan. Luận văn này sẽ trình bày các kỹ thuật ma trận ứng dụng trong tóm tắt văn

bản đã được nghiên cứu và thử nghiệm.
Nội dung luận văn trong các chương:

• Chương 1: Giới thiệu tổng quan về bài tốn.
• Chương 2: Các vấn đề về bài tốn tóm tắt văn bản tự động, các bài tốn
tóm tắt văn bản chính và các phương pháp tóm tắt văn bản đã được sử
dụng.

• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự
động, trong đó tập trung vào các kỹ thuật phân tích ma trận không âm
NMF (Non-negative matrix factorization) và các kỹ thuật đồng phân tích
ma trận khơng âm NMCF (Non-negative matrix co-factorization) trong
bài tốn tóm tắt thơng tin trên mạng xã hội.

• Chương 4: Các thí nghiệm và kết quả đánh giá của các phương pháp
phân tích ma trận đã đề xuất ở chương 3.

• Chương 5: Kết luận và hướng phát triển.
4


Hà Nội, ngày 20 tháng 07 năm 2020
Tác giả luận văn

Trần Việt Cường

5


MỤC LỤC

TÓM TẮT NỘI DUNG LUẬN VĂN .............................................................................4
MỤC LỤC .......................................................................................................................6
DANH MỤC HÌNH.........................................................................................................9
DANH MỤC BẢNG .................................................................................................... 10
CHƯƠNG 1.

GIỚI THIỆU ...................................................................................... 11

1. Bài tốn tóm tắt văn bản tự động........................................................................ 11
1.1.

Tại sao lại cần nghiên cứu tóm tắt văn bản tự động. ................................... 11

1.2.

Định nghĩa tóm tắt văn bản tự động. ........................................................... 12

1.3.

Phân loại tóm tắt văn bản tự động. .............................................................. 12

2. Phân tích ma trận. ............................................................................................... 13
3. Tóm tắt nội dung luận văn. ................................................................................. 14
CHƯƠNG 2.

BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG. .............................. 15

1. Tóm tắt đơn văn bản. .......................................................................................... 15
1.1.


Giai đoạn tiền xử lý dữ liệu. ........................................................................ 15

1.2.

Trích chọn, trừu tượng, nén câu và dung hợp câu. ...................................... 18

2. Tóm tắt đa văn bản. ............................................................................................ 20
2.1.

Giới thiệu về tóm tắt đa văn bản.................................................................. 20

2.2.

Các vấn đề của tóm tắt đa văn bản. ............................................................. 21

3. Tóm tắt diễn tiến................................................................................................. 21
4. Tóm tắt thơng tin trên mạng xã hội. ................................................................... 22
5. Phân loại các phương pháp tóm tắt văn bản tự động. ........................................ 22
5.1.

Tiếp cận dựa trên cấu trúc văn bản. ............................................................. 22

5.2.

Tiếp cận dựa trên mơ hình khơng gian vector (Vector space model). ........ 23

5.3.

Tiếp cận dựa trên đồ thị (Graph based). ...................................................... 24


5.4.

Các phương pháp dựa trên cấu trúc diễn ngôn của văn bản. ....................... 26

5.5.

Tiếp cận dựa trên học máy (machine learning). .......................................... 28

CHƯƠNG 3.

PHÂN TÍCH MA TRẬN CHO TÓM TẮT VĂN BẢN. .................. 30
6


1. Phân tích ma trận khơng âm (non-negative matrix factorization)...................... 30
1.1.

Cơ sở lý thuyết của NMF. ........................................................................... 30

1.2.

Các thuật toán học cho NMF. ...................................................................... 31

1.3.

Ứng dụng NMF trong bài toán tóm tắt văn bản tự động. ............................ 35

2. Đồng phân tích ma trận khơng âm (Matrix CoFactorization) NMCF................ 37
2.1.


Cơ sở lý thuyết và ý tưởng của NMCF........................................................ 38

2.2.

Thuật toán học cho NMCF. ......................................................................... 38

2.3.

Ứng dụng NMCF vào bái tốn tóm tắt thông tin mạng xã hội. ................... 39

3. Đồng phân tích ma trận khơng âm 2 (Matrix Co 2 Factorization) NMC2F. ...... 41
3.1.

Cơ sở lý thuyết cho NMC2F. ....................................................................... 41

3.2.

Thuật toán học cho NMC2F. ........................................................................ 42

3.3.

Ứng dụng NMC2F vào bái tốn tóm tắt thơng tin mạng xã hội. ................. 43

4. Đồng phân tích ma trận khơng âm 3 (Matrix Co 3 Factorization) NMC3F. ...... 46
4.1.

Cơ sở lý thuyết cho NMC3F. ....................................................................... 46

4.2.


Thuật toán học cho NMC3F. ........................................................................ 47

4.3.

Ứng dụng NMC3F vào bái tốn tóm tắt thơng tin mạng xã hội. ................. 48

CHƯƠNG 4.

THÍ NGHIỆM. .................................................................................. 51

1. Tập dữ liệu. ......................................................................................................... 51
2. Tiêu chí đánh giá. ............................................................................................... 52
2.1.

ROUGE –N (N-gram Co-Occurrence Statistics). ....................................... 52

2.2.

ROUGE –L (Longest Common Subsequence)............................................ 53

2.3.

ROUGE-W (Weighted Longest Common Subsequence) ........................... 53

2.4.

ROUGE –S (Skip-Bigram Co-Occurrence Statistics)................................. 54

2.5.


ROUGE –SU (Extension of ROUGE-S). .................................................... 54

3. Kết quả................................................................................................................ 54
3.1.

Đồng phân tích ma trận không âm (Matrix Co Factorization). ................... 54

3.2.

Đồng phân tích ma trận khơng âm 2 (Matrix Co 2 Factoriation)................ 56

3.3.

Đồng phân tích ma trận khơng âm 3 (Matrix Co 3 Factorization). ............. 60

7


CHƯƠNG 5.

KẾT LUẬN. ...................................................................................... 62

1. Cách tiếp cận ma trận cho tóm tắt văn bản......................................................... 62
2. Đóng góp của luận văn. ...................................................................................... 62
3. Hướng nghiên cứu tiêp. ...................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................................ 64

8



DANH MỤC HÌNH
Hình 1: Một vài trọng số địa phương thơng dụng. ....................................................... 17
Hình 2: Một vài trọng số tồn cục hay sử dụng............................................................ 18
Hình 3: Tóm tắt văn bản tự động dựa trên trích chọn câu............................................ 19
Hình 4: Mơ hình của tóm tắt đa văn bản. ..................................................................... 21
Hình 5: Giá trị PAGERANK. ....................................................................................... 25
Hình 6: Các nhóm phương pháp tóm tắt văn bản tự động............................................ 29
Hình 7: Phân tích ma trận khơng âm. ........................................................................... 30
Hình 8: Ví dụ về phân tích ma trận khơng âm. ............................................................ 31
Hình 9: Tóm tắt văn bản tự động dựa trên phân tích ma trận khơng âm NMF............ 37
Hình 10 So sánh NMF với NMCF ............................................................................... 55
Hình 11. ROUGE score cho các thuật tốn NMCF. In đậm là giá trị tốt nhất, chữ
nghiêng là giá trị gần lớn nhất (chỉ đứng sau giá trị lớn nhất). .................................... 56
Hình 12. Ảnh hưởng của phương pháp chuẩn hóa trong NMCF. ................................ 56
Hình 13. So sánh các thuật tốn NM 2CF và NMF cổ điển........................................... 57
Hình 14. So sánh NM2CF với các phương pháp phức tạp hơn. ................................... 59
Hình 15. Kết quả thí nghiệm của thuật tốn NM3CF. .................................................. 61
Hình 16. Ảnh hưởng của phương pháp chuẩn hóa trong NM3CF. ............................... 61

9


DANH MỤC BẢNG
Bảng 1. Định nghĩa các thành phần của thuật toán NMC 3F......................................... 47
Bảng 2 Tổng quan tập dữ liệu. ..................................................................................... 51
Bảng 3 Mức độ overlap của bộ dữ liệu......................................................................... 52

10



CHƯƠNG 1. GIỚI THIỆU
1. Bài tốn tóm tắt văn bản tự động.
1.1.

Tại sao lại cần nghiên cứu tóm tắt văn bản tự động.
Trong thời đại internet với sự bùng nổ của thơng tin, vấn đề chính mà con

người phải đối mặt khơng cịn là vấn đề về sự thiếu hụt thơng tin mà là làm thế nào
để có thể xác định, chọn lọc ra những thơng tin mà mình cần trong lượng thông tin
khổng lồ được gia tăng hàng ngày trên toàn cầu. Mỗi một cá nhân hay tổ chức đều
phải giải quyết bài tốn dư thừa thơng tin để có thể hoạt động hiệu quả trong thời
đại

ngày

nay.



dụ

theo

thống



của

trang


web

, tới đầu tháng 12 năm 2011, có tối thiểu 50 tỷ
trang web được chỉ mục bởi google, hệ thống tìm kiếm thông tin phổ biến nhất hiện
nay. Khái niệm “quá nhiều thông tin giết chết thông tin” đã và đang xảy ra một
cách vô cùng mạnh mẽ. Vấn đề của chúng ta gặp phải hiện nay không chỉ là sự
thiếu hụt thông tin, mà với lượng thông tin khổng lồ này, làm cách nào có thể xác
định và chọn lọc các thơng tin mà mình cần trong lượng thơng tin q lớn như vậy?
Mặt khác, internet tồn tại dưới dạng đa ngơn ngữ, tuy nó khơng có vấn đề gì nhưng
sẽ gây rất nhiều khó khăn cho việc phân tích dữ liệu [1].
Để giải quyết vấn đề quá tải thông tin và dư thừa thơng tin, giúp chúng ta có
thể xác định nhanh chóng và hiệu quả các thơng tin cần thiết, có nhiều cách tiếp cận
đã được thực hiện như:

• Tìm kiểm thơng tin (information retrieval).
• Trích rút thơng tin (information extraction).
• Phân cụm văn bản (document clustering).
• Biểu diễn thơng tin trực quan (visualization).
• Các hệ thống hỏi đáp (question/answering System).
• Tóm tắt văn bản tự động (automatic text summarization).

11


Trong đó, tóm tắt văn bản tự động là phương pháp chủ đạo giúp còn người
giải quyết vấn đề trên. Các ưu điểm của việc tóm tắt văn bản tự động:

• Tóm tắt làm giảm thời gian đọc văn bản.
• Khi nghiên cứu văn bản, tóm tắt làm cho việc chọn lựa văn bản một cách

dễ dàng hơn.

• Tóm tắt tự động giúp cải thiện các chỉ mục trong văn bản.
• Tóm tắt tự động sẽ có ít “thành kiến” (bias) hơn là so với tóm tắt của con
người.

• Tóm tắt tự động sẽ cho phép các chúng ta xử lý các văn bản một cách
nhanh chóng, dễ dàng và hiệu quả hơn.
1.2.

Định nghĩa tóm tắt văn bản tự động.
Các định nghĩa về tóm tắt văn bản tự động.

• Định nghĩa 1 (Van Dijk) [1]: Chức năng chính của tóm tắt là chỉ ra, dự
đoán cấu trúc nội dung của văn bản.

• Định nghĩa 2 (Cleveland) [1]: Bản tóm tắt phải mang các nội dung quan
trọng của văn bản, và nó thực sự có thể thay thế văn bản.

• Định nghĩa 3 [1]: Bản tóm tắt là một phiên bản đặc biệt của văn bản và
có một một mục đích rất cụ thể: để cung cấp cho người đọc một nội dung
chính xác và ngắn gọn về văn bản gốc.

• Định nghĩa 4 [1]: Một bản tóm tắt tự động là một văn bản được tạo ra bởi
một phần mềm, nó mạch lạc và có chứa một lượng đáng kể các thơng tin
của văn bản gốc.
1.3.

Phân loại tóm tắt văn bản tự động.
Các tóm tắt có thể được phân loại theo các tiêu chí sau:


12


• Mục đích của tóm tắt: trần thuật, cung cấp, hay đánh giá thông tin. Trong
đề tài này tôi chủ yếu tập trung vào các tóm tắt dạng cung cấp thơng tin.

• Dạng tóm tắt: Tóm tắt bằng trích chọn (extract) (trích nguyên văn một số
đoạn, câu trong văn bản gốc) và tóm tắt bằng trừu tượng (abstract) (tạo
các câu tóm tắt nội dung văn bản, khơng nhất thiêt có trong văn bản).
Trong đề tài này chúng tôi, giống như đa phần các nhà nghiên cứu trên
thế giới, tập trung vào các tóm tắt dạng trích chọn. Tóm tắt bằng trừu
tượng (abstract) là bài tốn khó hơn rất nhiều so với tóm tắt bằng trích
chọn, vì ngồi việc phải giải quyết bài tốn tóm tắt văn bản, tóm tắt bằng
trừu tượng cịn phải giải quyết bài tốn sinh ngơn ngữ (language
generation) tự động trên máy tính. Ngồi ra, tóm tắt trừu tượng cũng rất
khó có thể đánh giá, vì đánh giá thế nào là một bản tóm tắt tốt cũng là
một vấn đề quan trọng cần phải nghiên cứu.

• Số lượng tài liệu: Tóm tắt đơn văn bản, đa văn bản (về cùng một chủ đề)
hoặc tóm tắt thơng tin trên mạng xã hội. Trong nghiên cứu này, tôi chủ
yếu nghiên cứu vào tóm tắt thơng tin trên mạng xã hội.

• Ngữ cảnh tóm tắt: Tóm tắt thơng tin theo định hướng của câu hỏi cụ thể
hay không phụ thuộc câu hỏi nào. Đề tài này tập trung vào giải quyết loại
ngữ cảnh tóm tắt (khơng phụ thuộc câu hỏi).
2. Phân tích ma trận.
Trong tóm tắt văn bản tự động sử dụng phương pháp trích chọn, một trong
những mục tiêu chính là lựa chọn những câu tốt nhất có thể. Một thể hiện tự nhiên
của các câu trong văn bản chính là một vector. Như vậy thể hiện tự nhiên của một

văn bản (gồm nhiều câu) chính là một ma trận. Vì vậy, các kỹ thuật phân tích ma
trận sẽ giúp chúng ta đánh giá được tầm quan trọng của các câu trong văn bản, từ
đó có thể trích chọn những câu quan trọng nhất.
Phân tích ma trận có một nền tảng toán học tốt, phù hợp với sự giải thích của
con người. Các kỹ thuật phân tích ma trận trong học máy, với ý nghĩa là học ra các
13


nhân tố ẩn (latent factor) có ý nghĩa trong khai phá văn bản (text mining), đặc biệt
trong việc tóm tắt văn bản tự động là học ra được các chủ đề ẩn (hidden topic), từ
đó có thể tính trọng số cho các câu dựa trên các chủ đề ẩn này.
Phân tích ma trận ứng dụng rất nhiều trong việc khai phá dữ liệu, nhất là khai
phá dữ liệu văn bản. Khơng những thế, đã có nhiều nghiên cứu chỉ ra rằng, rất
nhiều phương pháp học máy khá hiệu quả bây giờ đều được đưa về các kỹ thuật
phân tích ma trận.
3. Tóm tắt nội dung luận văn.
Trong luận văn này, em sẽ trình bày các kỹ thuật ma trận đã được ứng dụng
trong tóm tắt văn bản tự động, các kết quả và hướng nghiên cứu tiếp theo.
Nội dung luận văn trong các chương:

• Chương 2: Các vấn đề về bài tốn tóm tắt văn bản, các bài tốn tóm tắt
văn bản chính và một nhóm các phương pháp tóm tắt văn bản đã được sử
dụng.

• Chương 3: Các phương pháp phân tích ma trận cho tóm tắt văn bản tự
động, xoay quay phương pháp phân tích ma trận khơng âm NMF (Nonnegative matrix factorization) và các biến thể của nó cho các bài tốn
tóm tắt thơng tin trên mạng xã hội, cụ thể là kỹ thuật đồng phân tích ma
trận khơng âm NMCF (Non-negative matrix co-factorization).

• Chương 4: Các thí nghiệm và kết quả đánh giá của các phương pháp

phân tích ma trận đề cập ở chương 3.

• Chương 5: Kết luận và hướng phát triển.

14


CHƯƠNG 2. BÀI TỐN TĨM TẮT VĂN BẢN TỰ ĐỘNG.
1. Tóm tắt đơn văn bản.
1.1.

Giai đoạn tiền xử lý dữ liệu.

a. Tổng quan về tiền xử lý dữ liệu
Tóm tắt văn bản tự động là một quá trình phức tạp, cần phải được chia nhỏ
thành các thành phần (module). Một trong những thành phần quan trọng là tiền xử
lý văn bản. Tiền xử lý cho phép tài liệu văn bản được biến đổi thành một đối tượng
với các tính năng ngôn ngữ tối thiểu, chẳng hạn như từ và câu.
Tiền xử lý có hai mục tiêu: chuẩn hóa từ và giảm số lượng từ vựng trong một
văn bản. Cả hai chức năng này là cực kỳ quan trọng bởi vì không gian thể hiện của
văn bản được giảm đáng kể và trở nên dễ dàng quản lý. Do đó, tiền xử lý là rất cần
thiết, vì nó cung cấp cho các hệ thống tóm tắt một đại diện ngắn gọn, súc tích và
đầy đủ của văn bản gốc. Trong nghiên cứu của tơi, tơi có sử dụng 2 loại văn bản
Tiếng Việt và Tiếng Anh.
Trong điều kiện bình thường, tiền xử lý văn bản Tiếng Anh gồm các giai đoạn
sau:

• Tách văn bản thành các đoạn, các câu…
• Tách các đoạn thành các từ hoặc cụm từ.
• Chuẩn hóa từ (có thể sử dụng các phương pháp stemming hoặc

lemmatization). Trong nghiên cứu của tơi sử dụng phương pháp
stemming.

• Loại bỏ các từ dừng (stop word).
Với văn bản Tiếng Việt, tiền xử lý gồm các giai đoạn sau.

• Tách văn bản thành các đoạn, các câu…
• Tách từ (phân tách những từ đơn và từ kép trong văn bản).
15


• Tách các đoạn thành các từ hoặc cụm từ.
Tiền xử lý tùy chọn có thể bao gồm các bước sau:

• Nhận dạng tên các thực thể (NER).
• Khai thác các thuật ngữ và các từ khóa.
Các kỹ thuật stemming và lemmatization, ý tưởng chính là đưa các từ với các
biến thể khác nhau trở về từ gốc. Ví dụ: "going" sau khi qua các kỹ thuật stemming
hay lemmatization sẽ thành "go". Các kỹ thuật này rất quan trọng trong việc xử lý
văn bản Tiếng Anh, vì nó làm giảm rất lớn không gian từ của văn bản gốc.
Tách từ trong Tiếng Việt là gom nhóm các từ đơn liền kề thành một cụm từ
có ý nghĩa. Ví dụ: "Cách tách từ cho Tiếng Việt." sau khi tách từ thì thành "Cách
tách từ cho Tiếng_Việt ." Về hình thức, các từ đơn được gom nhóm với nhau bằng
cách nối với nhau bằng ký tự gạch dưới "_", trong trường hợp này là từ Tiếng_Việt.
Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi một
khoảng trắng, trong trường hợp này như "Tiếng_Việt ." thì từ "Tiếng_Việt" cách
đấu "." bởi 1 khoảng trắng. Đây là quy ước chung cho tất cả các ngơn ngữ của bài
tốn tách từ trong xử lý ngôn ngữ tự nhiên. Việc quy ước như vậy là để tạo thành
chuẩn chung và để dễ xử lý hơn trong lập trình.
Tiền xử lý là một nhiệm vụ khó khăn vì phụ thuộc phần lớn vào ngơn ngữ của

văn bản. Ranh giới câu, ví dụ, được phân định bởi dấu chấm câu, bối cảnh, việc sử
dụng ba chấm (…) thay đổi đáng kể từ ngôn ngữ này đến ngôn ngữ khác. Hơn nữa,
không phải tất cả các ngôn ngữ đều tách từ bằng dấu cách. Trong thực tế, có những
khác biệt đáng kể giữa tách một văn bản viết bằng một ngôn ngữ phương Tây sử
dụng ký tự La Tinh và một ngôn ngữ phương Đông như Trung Quốc, Nhật Bản hay
Hàn Quốc. Thậm chí loại bỏ từ dừng (stop word) (liên từ, giới từ, vv) cũng không
phải là một nhiệm vụ đơn giản.
b. Không gian vector (Vector space model).
Vấn đề tiền xử lý dữ liệu, ma trận đầu vào đã được tiền xử lý: loại bỏ các từ
dừng (stopword), sử dụng các kỹ thuật stemming, lemmatization… với Tiếng Anh,
16


và tách từ với Tiếng Việt đưa về một văn bản với tập từ điển nhỏ hơn (không gian
các từ sẽ nhỏ hơn) các phần nhỏ này được gọi là “term”. Một tập từ điển các từ
được lập ra (chỉnh là tổng số term khác nhau trong văn bản, và mỗi một term được
đánh số trong vị trí của tập từ điển), và đây chính là một chiều (chiều term) của
khơng gian vector. Chiều cịn lại chính là số câu có trong văn bản. Như vậy một ma
trận term × sentence được tạo ra.
Ma trận đầu vào thường được chuyển đổi, thường được gọi là “weight
functions”. Vị trí (i,j) của ma trận thể hiện về mối tương quan giữa term và văn bản,
được định nghĩa bởi:

a(i,j) = L(i,j) * G(i)
• Với L(i,j) là trọng số địa phương (local weight), thể hiện trọng số của
term đó trong câu [7].

Hình 1: Một vài trọng số địa phương thơng dụng.

• G(i) là trọng số toàn cục (global weight), thể hiện trọng số của term trong

văn bản [7].

17


Hình 2: Một vài trọng số tồn cục hay sử dụng.
Trong nghiên cứu của chúng tôi, chúng tôi sử dụng kết hợp chính là TF (Term
frequency) và IDF (inverse document frequency).
1.2.

Trích chọn, trừu tượng, nén câu và dung hợp câu.

a. Tiếp cận bằng trích chọn (Extract):
Trích chọn bao gồm việc lựa chọn đơn vị của văn bản (câu, phân đoạn của
câu, đoạn văn hoặc đoạn), được coi là có chứa lượng thông tin cần thiết của văn
bản (nội dung thông tin), và các lắp ghép các thành phần một cách hợp lý. Về cơ
bản, trích chọn là lắp ráp các phần đã được lấy ra từ một văn bản gốc, tạo thành
một bản tóm tắt. Mục đích của trích chọn là cung cấp cho một cái nhìn tổng quan
về nội dung của văn bản gốc [1].
Các thuật tốn để tóm tắt tự động bằng cách trích chọn có thể được phân
thành ba loại: bề mặt (Surface), trung bình (Intermediate) và kỹ thuật phân tích sâu
(Deep parsing) [1].

18


Hình 3: Tóm tắt văn bản tự động dựa trên trích chọn câu.
b. Tiếp cận bằng trừu tượng (Abstract):
Kỹ thuật trích chọn chỉ đơn thuần là sao chép các thơng tin được coi là quan
trọng nhất của văn bản để tạo thành một bản tóm tắt (ví dụ, các mệnh đề chính, câu

hoặc đoạn văn), trong khi trừu tượng liên quan đến việc diễn giải các phần của văn
bản. Nói chung, trừu tượng có thể tạo ra một tóm tắt văn bản tốt hơn trích chọn,
nhưng các hệ thống có thể làm điều này khó khăn hơn rất nhiều khi cần phải sử
dụng các công nghệ xử lý ngôn ngữ tự nhiên, mà bản thân nó là một lĩnh vực đang
phát triển. Trừu tượng (Abstract) là một trong những mục tiêu cuối cùng tóm tắt
văn bản tự động. Hệ thống tạo ra tóm tắt bằng cách trừu tượng (Abstract) dựa trên
sự hiểu biết văn bản và tìm cách tạo ra một bản tóm tắt đúng ngữ pháp, ngắn gọn và
mạch lạc.
c. Tiếp cận bằng nén câu và liên hợp (sentence compression and fusion).
Nén câu và dung hợp câu (Multi-sentence fusion) là hai đối tượng tương đối
mới trong nghiên cứu tóm tắt văn bản tự động. Hai lĩnh vực này cho phép một số
cải tiến được thực hiện, bao gồm cả việc giảm dư thừa và tạo ra bản tóm tắt tương
tự bản tóm tắt của con người, nhưng nén câu và dung hợp câu thuộc hai đối tượng
hoàn toàn khác nhau [1].

• Ý tưởng đằng sau nén câu rất đơn giản: để loại bỏ tất cả các thông tin
không cần thiết trong một câu trong khi vẫn giữ được cấu trúc ngữ pháp

19


của câu. Biến ý tưởng này thành một thuật toán, tuy nhiên, hiện nay chưa
có một giải pháp tốt cho vấn đề này [1].

• Ý tưởng của Multi-sentence Fusion hoặc nén đa câu (Multi-sentence
compression) phát sinh từ tóm tắt đa văn bản: các tài liệu có nhiều hơn
và sự trùng lặp nhiều, tạo ra dư thừa khi trích chọn tạo tóm tắt. Mục đích
cần làm là giảm sự dư thừa trong khi duy trì các thơng tin cần thiết chứa
trong một nhóm ngữ nghĩa tương tự câu. Barzilay và McKeown giới
thiệu ý tưởng này trong vấn đề tóm tắt đa văn bản của họ: một bộ câu

(trích chọn theo trọng số) từ các văn bản khác nhau được hợp nhất và nén
lại tạo ra bản tóm tắt [1].
2. Tóm tắt đa văn bản.
2.1.

Giới thiệu về tóm tắt đa văn bản.
Hệ thống tóm tắt đa văn bản được xem như là phần mở rộng của một số hệ

thống tóm tắt đơn văn bản, mà trong đó kết quả đầu ra được hợp nhất tạo thành một
bản tóm tắt duy nhất. Tuy nhiên khi làm việc với một số nguồn văn bản, hệ thống
tóm tắt đa văn bản có một xác suất dư thừa thông tin lớn hơn, thông tin không
mạch lạc và thậm chí mâu thuẫn. Một điều quan trọng là dư thừa khơng chỉ là vấn
đề duy nhất của tóm tắt đa văn bản, mà còn sự gắn kết thời điểm của các sự kiện
được mô tả cũng rất quan trọng.
Tóm tắt đa văn bản cần tạo ra các thơng tin súc tích và tồn diện. Mục tiêu
của tóm tắt đa văn bản là để đơn giản hóa việc tìm kiếm thông tin và giảm thời gian
tiếp nhận thông tin bằng cách chỉ quan tâm vào các chủ đề liên quan nhất, toàn diện
nhất, hạn chế truy cập các tập tin ban đầu trong các trường hợp không cần thiết.

20



×