Tóm tắt đa văn bản dựa vào trích xuất câu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (845.96 KB, 39 trang )

Header Page 1 of 27.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

TÓM TẮT ĐA VĂN BẢN
DỰA VÀO TRÍCH XUẤT CÂU

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ

Ngƣời hƣớng dẫn khoa học: PGS. TS. HÀ QUANG THỤY

HÀ NỘI – 2009

Footer Page 1 of 27.

Header Page 2 of 27.

Mục lục
Lời cảm ơn ................................................................................ Error! Bookmark not defined.
Lời cam đoan ............................................................................ Error! Bookmark not defined.
Mục lục ....................................................................................................................................... ii
Danh sách hình vẽ ..................................................................................................................... iv
Danh sách bảng........................................................................................................................... v
Danh sách bảng........................................................................................................................... v

Bảng từ viết tắt .......................................................................................................................... vi
Bảng từ viết tắt .......................................................................................................................... vi
Mở đầ u ........................................................................................................................................ 7
Chương 1.
Khái quát bài toán tóm tắt văn bản ................................................................... 10

1.1. Bài toán tóm tắt văn bản tự động ............................................................ 10
1.2. Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt .................. 10
1.3. Tóm tắt đơn văn bản ............................................................................... 14
1.4. Tóm tắt đa văn bản ................................................................................. 15
1.5. Tóm tắt chương một ............................................................................... 16
Chương 2.

Tóm tắt đa văn bản dựa vào trích xuất câu ....................................................... 16

2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản .................................... 16
2.2. Các thách thức của quá trình tóm tắt đa văn bản .................................... 18
2.3. Đánh giá kết quả tóm tắt ......................................................................... 21
2.4. Tóm tắt đa văn bản dựa vào trích xuất câu ............................................. 22
2.4.1. Loại bỏ chồng chéo và sắp xếp các văn bản theo độ quan trọng ........... 23
2.4.2. Phương pháp sắp xếp câu ....................................................................... 24
2.5. Tóm tắt chương hai ................................................................................. 24
Chương 3.
Độ tương đồng câu và các phương pháp tăng cường tính ngữ nghĩa cho độ
tương đồng câu ......................................................................................................................... 25

3.1. Độ tương đồng ........................................................................................ 25
3.2. Độ tương đồng câu ................................................................................. 25
3.3. Các phương pháp tính độ tương đồng câu.............................................. 26
3.3.1. Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine ................. 26

3.3.2. Phương pháp tính đô ̣ tương đồng câu dựa vào chủ đề ẩn ...................... 28
3.3.3. Phương pháp tính độ tương đồng câu dựa vào Wikipedia ..................... 30
3.4. Tóm tắt chương ba .................................. Error! Bookmark not defined.

Footer Page 2 of 27.

Header Page 3 of 27.

Chương 4.
Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu và áp dụng
vào mô hình tóm tắt đa văn tiếng Việt ..................................... Error! Bookmark not defined.

4.1. Đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu tiếng Việt
Error! Bookmark not defined.
4.1.1. Đồ thị thực thể và mô hình xây dựng đồ thị quan hệ thực thể ........ Error!
Bookmark not defined.
4.1.2. Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể ..... Error!
Bookmark not defined.
4.2. Độ tương đồng ngữ nghĩa câu tiếng Việt Error! Bookmark not defined.
4.3. Mô hình tóm tắt đa văn bản tiếng Việt ... Error! Bookmark not defined.
4.4. Mô hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bản .... Error!
Bookmark not defined.
4.5. Tóm tắt chương bốn................................ Error! Bookmark not defined.
Chương 5.

Thực nghiệm và đánh giá ................................. Error! Bookmark not defined.

5.1. Môi trường thực nghiệm ......................... Error! Bookmark not defined.
5.2. Quá trình thực nghiệm ............................ Error! Bookmark not defined.

5.2.1. Thực nghiệm phân tích chủ đề ẩn ........... Error! Bookmark not defined.
5.2.2. Thực nghiệm xây dựng đồ thị quan hệ thực thể .... Error! Bookmark not
defined.
5.2.3. Thực nghiệm đánh giá các độ đo tương đồng ....... Error! Bookmark not
defined.
5.2.4. Thực nghiệm đánh giá độ chính xác của mô hình tóm tắt đa văn bản
Error! Bookmark not defined.
5.2.5. Thực nghiệm đánh giá độ chính xác của mô hình hỏi đáp .............. Error!
Bookmark not defined.
Kế t luận .................................................................................... Error! Bookmark not defined.
Các công trình khoa học và sản phẩm đã công bố ................... Error! Bookmark not defined.
Tài liệu tham khảo .................................................................................................................... 34

Footer Page 3 of 27.

Header Page 4 of 27.

Danh sách hình vẽ
Hình 3.1. Tính độ tương đồng câu với chủ đề ẩn ...............................................28
Hình 3.2: Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia ............31
Hình 4.1: Mở rộng mối quan hệ và tìm kiếm các thực thể liên quan ......... Error!
Bookmark not defined.
Hình 4.2: Mô hình xây dựng đồ thị quan hệ thực thểError!

Bookmark

not

defined.

Hình 4.3: Mô hình tóm tắt đa văn bản tiếng ViệtError!

Bookmark

not

defined.
Hình 4.4: Mô hình hỏi đáp tự động tiếng Việt áp dụng tóm tắt đa văn bảnError!
Bookmark not defined.

Footer Page 4 of 27.

Header Page 5 of 27.

Danh sách bảng
Bảng 2.1. Bảng so sánh các phương pháp tiếp cận tóm tắt đa văn bản..............17
Bảng 2.2. Taxonomy mối quan hệ xuyên văn bản .............................................20
Bảng 4.1: Sự tương quan giữa đồ thị quan hệ thực thể, Wordnet và Wikipedia
....................................................................................... Error! Bookmark not defined.
Bảng 4.2. Danh sách các độ đo tương đồng ngữ nghĩa câuError!

Bookmark

not defined.
Bảng 5.1. Các công cụ phần mềm sử dụng trong quá trình thực nghiệm .. Error!
Bookmark not defined.
Bảng 5.2. Kết quả phân tích chủ đề ẩn ............... Error! Bookmark not defined.
Bảng 5.3: 20 từ có phân phối xác suất cao trong Topic ẩn 97Error! Bookmark
not defined.

Bảng 5.4. Kết quả dữ liệu thu được của mô hình xây dựng đồ thị quan hệ thực
thể .................................................................................. Error! Bookmark not defined.
Bảng 5.5. Một cụm dữ liệu dùng để đánh giá độ tương đồng ngữ nghĩa ... Error!
Bookmark not defined.
Bảng 5.6. Độ chính xác đánh giá trên 20 cụm dữ liệu tiếng Việt đối với các độ
đo tương đồng trên Wiki tiếng Việt............................... Error! Bookmark not defined.
Bảng 5.7. Kết quả đánh giá các độ đo trên cụm dữ liệu ở bảng 5.2 ........... Error!
Bookmark not defined.
Bảng 5.8. Độ chính xác đánh giá trên 20 cụm dữ liệu tiếng Việt và 10 cụm tiếng
Anh ................................................................................ Error! Bookmark not defined.
Bảng 5.9. Đánh giá kết quả thứ tự văn bản và thứ tự của 20 câu quan trọng nhất
....................................................................................... Error! Bookmark not defined.
Bảng 5.10. Kết quả tóm tắt trả về theo tỷ lệ trích xuất là 10 câu. .............. Error!
Bookmark not defined.
Bảng 5.11. Độ chính xác của mô hình hỏi đáp dựa vào tóm tắt đa văn bản cho
snippet ............................................................................ Error! Bookmark not defined.
Bảng 5.12. Độ chính xác của mô hình hỏi đáp dựa vào tóm tắt đa văn bản cho
trang web ....................................................................... Error! Bookmark not defined.

Footer Page 5 of 27.

Header Page 6 of 27.

Bảng 5.13. Danh sách một số kết quả trả lời của hệ thống hỏi đáp ........... Error!
Bookmark not defined.

Footer Page 6 of 27.

Header Page 7 of 27.

Bảng từ viết tắt
STT

Tƣ̀ hoă ̣c cu ̣m tƣ̀

Viế t tắ t

1

Maximal Maginal Relevance

MMR

2

Question and Answering

Q&A

(Hệ thống hỏi đáp tự động)
3

Document Understanding Conferences

DUC

(Hội nghi chuyên về hiểu văn bản)
4

Term Frequency
(Tần suất từ/cụm từ trong văn bản)

Footer Page 7 of 27.

TF

Header Page 8 of 27.

8

Mở đầ u
Sự phát triển nhanh chóng của mạng Internet cùng với những bước tiến mạnh mẽ
của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn. Thông
tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng thông tin văn bản khổng lồ
trong đó đó đã và đang mang lại lợi ích không nhỏ cho con người, tuy nhiên, nó cũng
khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin. Giải pháp cho vấn đề
này là tóm tắt văn bản tự động. Tóm tắt văn bản tự động được xác định là một bài toán
thuộc lĩnh vực khái phá dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng
tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả đánh chỉ mục cho máy
tìm kiếm.
Từ nhu cầu thực tế như thế, bài toán tóm tắt văn bản tự động nhận được sự quan
tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn trên
thế giới. Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều trong các hội nghị nổi
tiếng như : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007… bên cạnh đó cũng là sự
phát triển của các hệ thống tóm tắt văn bản như : MEAD, LexRank, Microsoft Word
(Chức năng AutoSummarize)…
Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần đây

đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quả tóm tắt cho một tập văn bản
liên quan với nhau về mặt nội dung hay còn gọi là tóm tắt đa văn bản.
Bài toán tóm tắt đa văn bản được xác định là một bài toán có độ phức tạp cao. Đa
số mọi người nghĩ rằng, tóm tắt đa văn bản chỉ là việc áp dụng tóm tắt đơn văn bản cho
một văn bản được ghép từ các văn bản trong một tập văn bản cho trước. Tuy nhiên điều
đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đề tóm tắt đa văn là do dữ
liệu đầu vào có thể có sự nhập nhằng ngữ nghĩa giữa nội dung của văn bản này với văn
1

Document Understanding Conference.
Text Analysis Conference. />3
Association for Computational Linguistics.
2

Footer Page 8 of 27.

Header Page 9 of 27.

9

bản khác trong cùng tập văn bản hay trình tự thời gian được trình bày trong mỗi một văn
bản là khác nhau, vì vậy để đưa ra một kết quả tóm tắt tốt sẽ vô cùng khó khăn [EWK].
Rất nhiều ứng dụng cần đến quá trình tóm tắt đa văn bản như: hệ thống hỏi đáp tự
động (Q&A System), tóm tắt các báo cáo liên quan đến một sự kiện, tóm tắt các cụm dữ
liệu được trả về từ quá trình phân cụm trên máy tìm kiếm… Hướng nghiên cứu ứng dụng
bài toán tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động đang là hướng
nghiên cứu chính của cộng đồng nghiên cứu tóm tắt văn bản nhưng năm gần đây. Rất
nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt đa văn bản dựa vào
câu truy vấn (Query-based multi-document summarization) đối với kho dữ liệu tri thức

để đưa ra một văn bản tóm tắt trả lời cho câu hỏi của người sử dụng đạt được nhiều kết
quả khả quan cũng như thể hiện đây là một hướng tiếp cận đúng đắn trong việc xây dựng
các mô hình hỏi đáp tự động [Ba07,YYL07].
Với việc lựa chọn đề tài “Tóm tắt đa văn bản dựa vào trích xuất câu”, chúng tôi
tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp tóm tắt
đa văn bản phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương pháp này vào
việc xây dựng một mô hình hệ thống hỏi đáp tiếng Việt.
Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 5 chương như sau:
 Chƣơng 1: Khái quát bài toán tóm tắt giới thiệu khái quát bài toán tóm tắt văn
bản tự động nói chung và bài toán tóm tắt đa văn bản nói riêng, trình bày một số
khái niệm và cách phân loại đối với bài toán tóm tắt.
 Chƣơng 2: Tóm tắt đa văn bản dựa vào trích xuất câu giới thiệu chi tiết về
hướng tiếp cận, thách thức và các vấn đề trong giải quyết bài toán tóm tắt đa văn
bản dựa vào trích xuất câu.
 Chƣơng 3: Độ tƣơng đồng câu và các phƣơng pháp tăng cƣờng tính ngữ
nghĩa cho độ tƣơng đồng câu trình bày các nghiên cứu về các phương pháp tính
độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào quá trình trích xuất câu quan
trọng của văn bản.

Footer Page 9 of 27.

Header Page 10 of 27.

10

 Chƣơng 4: Một số đề xuất tăng cƣờng tính ngữ nghĩa cho độ tƣơng đồng câu
và áp dụng vào mô hình tóm tắt đa văn tiếng Việt phân tích, đề xuất một
phương pháp tích hợp các thuật toán để giải quyết bài toán tóm tắt đa văn bản
tiếng Việt và trình bày việc áp dụng phương pháp được đề xuất để xây dựng mô

hình hệ thống hỏi đáp tiếng Việt đơn giản.


Chƣơng 5: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm của luận
văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được.

Footer Page 10 of 27.

Header Page 11 of 27.

11

Khái quát bài toán tóm tắt văn bản

Bài toán tóm tắt văn bản tự động
Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tắt tự động cho các
bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố của các từ
trong văn bản [Lu58]. Tuy nhiên mãi cho đến những năm cuối thế kỷ 20, với sự phát triển
của Internet, lượng thông tin bùng nổ nhanh chóng, việc thu nhận những thông tin quan
trọng cũng trở thành một vấn đề thiết yếu thì bài toán tóm tắt văn bản tự động mới được
sự quan tâm thiết thực của nhiều nhà nghiên cứu.
Theo Inderjeet Mani, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản
tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội
dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc
đối với người sử dụng hoặc một chương trình cần đến” [MM99].
Việc đưa ra được một văn bản kết quả tóm tắt có chất lượng như là văn bản do
con người làm ra mà không bị giới hạn bởi miền ứng dụng là được xác định là cực kỳ khó
khăn. Vì vậy, các bài toán được giải quyết trong tóm tắt văn bản thường chỉ hướng đến
một kiểu văn bản cụ thể hoặc một kiểu tóm tắt cụ thể.

Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt
- Tỷ lệ nén(Compression Rate): là độ đo thể hiện bao nhiêu thông tin được cô
đọng trong văn bản tóm tắt được tính bằng công thức:
CompressionRate 

SummaryLength
SourceLength

SummaryLength: Độ dài văn bản tóm tắt
SourceLength: Độ dài văn bản nguồn
- Độ nổi bật hay liên quan(Salience or Relevance): là trọng số được gán cho
thông tin trong văn bản thể hiện độ quan trọng của thông tin đó đối với toàn văn bản hay
để chỉ sự liên quan của thông tin đó đối với chương trình của người sử dụng.

Footer Page 11 of 27.

Header Page 12 of 27.

12

- Sự mạch lạc(coherence): Một văn bản tóm tắt gọi là mạch lạc nếu tất cả các
thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung và không có sự
trùng lặp giữa các thành phần.
Phân loại bài toán tóm tắt.
Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ
mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào. Ở đây, luận văn đề cập
đến phân loại tóm tắt dựa trên 3 cơ sở là: dựa vào định dạng, nội dung đầu vào, dựa vào
định dạng, nội dung đầu ra, dựa vào mục đích tóm tắt.

 Tóm tắt dựa trên cơ sở định dạng, nội dung đầu vào sẽ trả lời cho câu hỏi “Cái gì
sẽ được tóm tắt”. Cách chia này sẽ cho ta nhiều cách phân loại con khác nhau. Cụ thể
như:
- Kiểu văn bản (bài báo, bản tin, thƣ, báo cáo …). Với cách phân loại này, tóm
tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc
trưng văn bản quy định.
- Định dạng văn bản: dựa vào từng định dạng văn bản khác nhau, tóm tắt cũng
chia ra thành các loại khác nhau như: tóm tắt văn bản không theo khuôn mẫu (free-form)
hay tóm tắt văn bản có cấu trúc. Với văn bản có cấu trúc, tóm tắt văn bản thường sử dụng
một mô hình học dựa vào mẫu cấu trúc đã xây dựng từ trước để tiến hành tóm tắt.
- Số lƣợng dữ liệu đầu vào: tùy vào số lượng đầu vào của bài toán tóm tắt,
người ta cũng có thể chia tóm tắt ra thành tóm tắt đa văn bản, tóm tắt đơn văn bản. Tóm
tắt đơn văn bản khi đầu vào chỉ là một văn bản đơn, trong khi đó đầu vào của tóm tắt đa
văn bản là một tập các tài liệu có liên quan đến nhau như: các tin tức có liên quan đến
cùng một sự kiện, các trang web cùng chủ đề hoặc là cụm dữ liệu được trả về từ quá trình
phân cụm.
- Miền dữ liệu: dựa vào miền của dữ liệu như cụ thể về một lĩnh vực nào đó, ví
dụ như: y tế, giáo dục… hay là miền dữ liệu tổng quát, có thể chia tóm tắt ra thành từng
loại tương ứng.

Footer Page 12 of 27.

Header Page 13 of 27.

13

 Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là
gì, tóm tắt phục vụ đối tượng nào ...
- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm

tắt cho các đối tượng đọc thông thường.
- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục vụ cho
việc sắp xếp.
- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt chỉ thị
(Indicative) và tóm tắt thông tin (Informative). Tóm tắt chỉ thị (indicative) chỉ ra loại
của thông tin, ví dụ như là loại văn bản chỉ thị “tối mật”. Còn tóm tắt thông tin chỉ ra nội
dung của thông tin.
- Tóm tắt trên cơ sở truy vấn (Query-based) hay tóm tắt chung (General). Tóm
tắt general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản mà nội dung
của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó. Tóm tắt trên cơ sở truy
vấn thì nội dung của văn bản tóm tắt sẽ dựa trên truy vấn của người dùng hay chương
trình đưa vào, loại tóm tắt này thường được sử dụng trong quá trình tóm tắt các kết quả
trả về từ máy tìm kiếm.
 Tóm tắt trên cơ sở đầu ra cũng có nhiều cách phân loại.
- Dựa vào ngôn ngữ: Tóm tắt cũng có thể phân loại dựa vào khả năng tóm tắt các
loại ngôn ngữ:
•

Tóm tắt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tắt chỉ một loại
ngôn ngữ nhất định như: tiếng Việt hay tiếng Anh…

•

Tóm tắt đa ngôn ngữ (Multilingual): hệ thống có khả năng tóm tắt nhiều
loại văn bản của các ngôn ngữ khác nhau, tuy nhiên tương ứng với văn bản
đầu vào là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tương ứng.

•

Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả năng đưa ra các

văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào.

Footer Page 13 of 27.

Header Page 14 of 27.

14

- Dựa vào định dạng đầu ra của kết quả tóm tắt: như bảng, đoạn, từ khóa.
 Ngoài hai cách phân loại trên, phân loại tóm tắt trên cở sở đầu ra còn có một
cách phân loại được sử dụng phổ biến là: tóm tắt theo trích xuất (Extract) và tóm tắt theo
tóm lược (Abstract).
•

Tóm tắt theo trích xuất: là tóm tắt có kết quả đầu ra là một tóm tắt bao
gồm toàn bộ các phần quan trọng được trích ra từ văn bản đầu vào.

•

Tóm tắt theo tóm lƣợc: là tóm tắt có kết quả đầu ra là một tóm tắt không
giữ nguyên lại các thành phần của văn bản đầu vào mà dựa vào thông tin
quan trọng để viết lại một văn bản tóm tắt mới.

Hiện nay, các hệ thống sử dụng tóm tắt theo trích xuất được sử dụng phổ biến và
cho kết quả tốt hơn tóm tắt theo tóm lược. Nguyên nhân tạo ra sự khác biệt này là do các
vấn đề trong bài toán tóm tắt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận và sinh ra
ngôn ngữ tự nhiên được đánh giá là khó và chưa có nhiều kết quả nghiên cứu khả quan
hơn so với hướng trích xuất câu của bài toán tóm tắt theo trích xuất. Trong thực tế, theo
đánh giá của Dragomir R. Radev (Đại học Michigan, Mỹ) chưa có một hệ thống tóm tắt

theo tóm lược đạt đến sự hoàn thiện, các hệ thống tóm tắt theo tóm lược hiện nay thường
dựa vào thành phần trích xuất có sẵn. Các hệ thống này thường được biết đến với tên gọi
tóm tắt theo nén văn bản.
Tóm tắt theo nén văn bản (Text Compaction): là loại tóm tắt sử dụng các
phương pháp cắt xén(truncates) hay viết gọn(abbreviates) đối với các thông tin quan
trọng sau khi đã được trích xuất.
Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tắt khác nhau tuy nhiên hai loại
tóm tắt là tóm tắt đơn văn bản và tóm tắt đa văn bản vẫn được sự quan tâm lớn của
các nhà nghiên cứu về tóm tắt tự động.

Footer Page 14 of 27.

Header Page 15 of 27.

15

Tóm tắt đơn văn bản
Bài toán tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một
quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn
nội dung chính của văn bản đầu vào đó. Văn bản đơn có thể là một trang Web, một bài
báo, hoặc một tài liệu với định dạng xác định (ví dụ : .doc, .txt)… Tóm tắt văn bản đơn là
bước đệm cho việc xử lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn. Chính
vì thế những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt
cho văn bản đơn.
Các phương pháp nhằm giải quyết bài toán tóm tắt văn bản đơn cũng tập trung
vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm tắt theo tóm lược.
Tóm tắt theo trích xuất
Đa số các phương tóm tắt theo loại này đều tập trung vào việc trích xuất ra các
câu hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm

tắt. Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu
trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính toán
trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt
[Lu58, Ed69]. Các kỹ thuật tóm tắt gần đây sử dụng các phương pháp học máy và xử lý
ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản. Sử
dụng các phương pháp học máy có thể kể đến phương pháp của Kupiec, Penderson and
Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [PKC95]
hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác
định vị trí của các câu quan trọng trong văn bản [LH97]. Bên cạnh đó việc áp dụng các
phương pháp phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và
Elhadad vào năm 1997 [BE97].
Tóm tắt theo tóm lƣợc
Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể xem
như là một phương pháp tiếp cận tóm tắt theo tóm lược. Các hướng tiếp cận có thể kể đến

Footer Page 15 of 27.

Header Page 16 of 27.

16

như dựa vào trích xuất thông tin (information extraction), ontology, hợp nhất và nén
thông tin… Một trong những phương pháp tóm tắt theo tóm lược cho kết quả tốt là các
phương pháp dựa vào trích xuất thông tin, phương pháp dạng này sử dụng các mẫu đã
được định nghĩa trước về một sự kiện hay là cốt truyện và hệ thống sẽ tự động điền các
thông tin vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra kết quả tốt tuy
nhiên các phương pháp dạng này thường chỉ áp dụng trong một miền nhất định [MR95].

Tóm tắt đa văn bản

Tóm tắt đa văn bản có thể được coi như là một mở rộng của tóm tắt đơn văn bản.
Mục đích của tóm tắt đa văn bản:
Là quá trình trích xuất nội dung từ một tập các văn bản có liên quan đến nhau,
trong quá trình đó các thông tin dư thừa sẽ được loại bỏ và những thông tin quan trọng sẽ
được biểu diễn dưới hình thức cô đọng, súc tích và giàu cảm súc đến người sử dụng hoặc
chương trình cần dùng [MM99].
Tóm tắt đa văn bản được xác định là một bài toán có độ phức tạp cao, ngoài
những thách thức đã được biết đến đối với tóm tắt đơn văn bản như sự cô đọng của thông
tin và mạch lạc về nội dung, tóm tắt đa văn bản còn có những thách thức như cần phải
xác định những thông tin trùng lặp giữa các văn bản, xác định thông tin quan trọng trong
nhiều văn bản hay việc sắp xếp các thông tin trong văn bản tóm tắt.
Do tóm tắt đa văn bản là một mở rộng của tóm tắt đơn văn bản, cho nên cũng
như tóm tắt văn bản đơn các phương pháp giải quyết tóm tắt đa văn bản cũng đi theo hai
hướng tiếp cận là dựa vào trích xuất và dựa vào tóm lược. Tuy nhiên, do những hạn chế
của phương pháp giải quyết bằng tóm tắt theo tóm lược đã được nêu ở trên, các phương
pháp giải quyết tóm tắt đa văn bản hầu như tập trung vào phƣơng pháp tóm tắt đa văn
bản dựa vào trích xuất câu. Chính từ tình hình thực tế đấy, luận văn đã tập trung nghiên
cứu, khảo sát các kỹ thuật tóm tắt đa văn bản liên quan đến phương pháp tóm tắt văn bản
dựa vào trích xuất câu để giải quyết bài toán tóm tắt đa văn bản tiếng Việt.

Footer Page 16 of 27.

Header Page 17 of 27.

17

Tóm tắt chƣơng một
Trong chương này luận văn giới thiệu khái quát bài toán tóm tắt văn bản tự động
các vấn đề liên quan và cách phân loại đối với bài toán tóm tắt văn bản tự động. Trong

chương tiếp theo, luận văn sẽ làm rõ các vấn đề của bài toán tóm tắt đa văn bản nói chung
và bài toán tóm tắt đa văn bản dựa vào trích xuất câu nói riêng.

Tóm tắt đa văn bản dựa vào trích xuất câu
Hƣớng tiếp cận của bài toán tóm tắt đa văn bản
Như chúng ta đã biết ở trên tóm tắt văn bản nói chung và tóm tắt đa văn bản nói
riêng là bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Trong phân tích xử lý ngôn ngữ
tự nhiên có các mức độ sâu xử lý khác nhau được sắp xếp theo thứ tự như sau: đầu tiên là
mức hình thái (Morphological), tiếp theo là mức cú pháp (Syntactic), tiếp đến là mức ngữ
nghĩa (Semantic) và cuối cùng là mức ngữ dụng (Pragmatic). Tương tự như các độ sâu xử
lý của xử lý ngôn ngữ tự nhiên, phương pháp tiếp cận để giải quyết bài toán tóm tắt đa
văn bản cũng có thể được phân loại dựa vào độ sâu xử lý được thực hiện trong quá trình
tóm tắt. Tuy nhiên phương pháp tiếp cận để giải quyết bài toán tóm tắt đa văn bản chỉ có
ba mức, là các mức: hình thái, cú pháp và ngữ nghĩa.
Mức hình thái: tại mức xử lý này, trong các văn bản, đơn vị được sử dụng để so
sánh là các ngữ, câu hay đoạn văn (paragraph). Các phương pháp tại mức này thường sử
dụng độ đo tương đồng dựa trên mô hình không gian vector (Vector space model) áp
dụng trọng số TF.IDF cho các từ và các câu. Phương pháp tóm tắt MMR [CG98] là
phương pháp nổi bật tại mức xử lý này.
Mức cú pháp: đơn vị được sử dụng để so sánh tại mức xử lý này là sử dụng việc
phân tích những cấu trúc ngữ pháp tương ứng giữa các văn bản với nhau. Các phương
pháp tại mức này tập trung vào việc phân tích cấu trúc ngữ pháp giữa các câu hay các

Footer Page 17 of 27.

Header Page 18 of 27.

18

ngữ trong từng đoạn văn thuộc các văn bản. Phương pháp do Barzilay và các đồng tác giả
khác đề xuất năm 1999 [BME99] thuộc mức xử lý này.
Mức ngữ nghĩa: tại mức xử lý này tập trung nhiều vào việc phân tích các tên
thực thể, mối quan hệ giữa các thực thể cũng như các sự kiện nảy sinh thực thể để xác
định được độ quan trọng của thông tin. Phương pháp của McKeown và Radev đề xuất
năm 1995[MR95] là một dạng của tóm tắt tại mức xử lý này.
Dựa vào các đặc trưng của từng phương pháp tiếp cận, Inderjeet Mani đã đưa ra
bảng so sánh, đánh giá ba mức tiếp cận để giải quyết bài toán tóm tắt đa văn bản [Ma01].

Mức xử lý
Mức hình thái

Đặc tính

Ưu điểm

Nhược điểm

Sử dụng nhiều các Sử dụng rất phổ Không thể mô tả
độ đo tương đồng biến, xử lý dư thừa các đặc trưng khác,
giữa các từ vựng

tốt

khả năng tổng hợp
thông tin kém.

Mức cú pháp

So sánh giữa các Có khả năng phát Không thể mô tả

cây cú pháp của câu hiện các khái niệm các đặc trưng khác,
hay ngữ trong văn tượng đồng trong đòi hỏi phải mở
bản

các ngữ,cho phép rộng các luật so
tổng hợp thông tin.

sánh giữa các cây
cú pháp

Mức ngữ nghĩa

So sánh giữa các Có khả năng mô tả Các mẫu phải được
mẫu tài liệu đã nhiều
được ấn định.

đặc

khác nhau.

trưng tạo trước đối với
từng miền.

Bảng 2.1. Bảng so sánh các phương pháp tiếp cận tóm tắt đa văn bản [Ma01].

Footer Page 18 of 27.

Header Page 19 of 27.

19

Các thách thức của quá trình tóm tắt đa văn bản
Một trong những thách thức lớn nhất của tóm tắt đa văn bản chính là sự nhập
nhằng nội dung giữa các văn bản. Có ba nguyên nhân gây ra nhập nhằng nội dung trong
tóm tắt đa văn bản đó là: đồng tham chiếu xuyên văn bản, nhập nhằng về thời gian xuyên
văn bản, sự trùng lặp nội dung giữa các văn bản.
Trùng lặp đại từ và đồng tham chiếu
Thông thường, chúng ta đề cập đến một tên thực thể chính là nói đến tên ban đầu
của thực thể đấy và sau đó thường hay sử dụng một đại từ thay thế nói về thực thể trên.
Xác định chính xác được thực thể mà đại từ chỉ đến được gọi là việc xác định trùng lặp
đại từ (Pronominal Anaphora resolution).
Việc xác định đúng hai hay nhiều hơn các thực thể của nhiều văn bản khác nhau
cùng chỉ đến một thực thể được gọi là vấn đề xác định đồng tham chiếu xuyên văn bản
(Cross Document Co-Reference). Vấn đề này cần phải được giải quyết tốt thì kết quả đầu
ra của tóm tắt đa văn bản mới cho ra kết quả tốt và dễ hiểu.
Nhập nhằng mặt thời gian
Các văn bản trong cụm tài liệu có thể được chỉ đến bởi nhiều từ hay cụm từ chỉ
thời gian ví dụ: hôm qua, hôm nay… Việc xác định rõ ràng các mốc thời gian tương ứng
là một điều kiện cần để sắp xếp các câu hay các văn bản theo đúng trình tự hợp lý. Một
số hệ thống có khả năng xác định được mốc thời gian và thay thế các mốc thời gian tương
đối thành các mốc thời gian tuyệt đối bằng việc phân tích nội dung của văn bản.
Để đảm bảo tính có thể đọc được đối với văn bản tóm tắt của hệ thống tóm tắt đa
văn bản thì ba yếu tố: Xác định trùng lặp đại từ, xác định đồng tham chiếu xuyên văn bản
và nhập nhằng về mặt thời gian cần phải được giải quyết tốt. Mặc dù, trong tóm tắt đơn
văn bản hai yếu tố đầu tiên vẫn xuất hiện tuy nhiên giải quyết hai vấn đề này không phức
tạp như giải quyết trong tóm tắt đa văn bản. Bên cạnh đó, vấn đề nhập nhằng thời gian
không xuất hiện trong tóm tắt văn bản đơn, do các văn bản đơn đầu vào coi như đã đảm
bảo về mặt trật tự, yếu tố này do chính người tạo ra văn bản tạo nên [Ji98]. Mặc dù vậy

Footer Page 19 of 27.

Header Page 20 of 27.

20

đối với tóm tắt đa văn bản, vấn đề này trở nên cực kỳ khó khăn, các nghiên cứu xoay
quanh vấn đề này chỉ tập trung vào các loại dữ liệu có đi kèm với thời gian như tin tức
hay chuỗi các sự kiện. Một trong các phương pháp giải quyết tốt vấn đề này được
Barzilay, Elhadad và McKeown đưa ra vào năm 2002 [BME02]. Còn đối với các tập dữ
liệu không rõ ràng về mặt thời gian, các nhà nghiên cứu mặc định như các văn bản tương
đồng về mặt thời gian.
Sự chồng chéo nội dung giữa các tài liệu
Một câu hỏi mà nhiều người đặt ra đối với tóm tắt đa văn bản đó là:
- Liệu có thể ghép các văn bản lại với nhau rồi sử dụng tóm tắt đơn văn
bản?
- Câu trả lời ở đây là không!
Bằng cách đó chúng ta sẽ không tạo ra được một văn bản tóm tắt tốt do không
loại bỏ được sự chống chéo về mặt nội dung cũng như xác định được mối quan hệ giữa
các văn bản.
Mối quan hệ giữa các văn bản có rất nhiều loại khác nhau. Dragomir Radev đã
liệt kê ra 24 loại quan hệ giữa các văn bản [Ra00] như trong bảng 2.2. Các mối quan hệ
tồn tại ở nhiều mức khác nhau: mức từ (W), mức ngữ (P), mức đoạn hoặc mức câu (S),
mức toàn tài liệu (D).
Đây là một taxonomy của các mối quan hệ xuyên tài liệu được gọi là Crossdocument Structure Theory (CST). Việc sử dụng tốt CST sẽ tạo hiệu quả cực kỳ hữu
ích cho việc xác định sự trùng lặp giữa các văn bản trong bài toán tóm tắt đa văn bản.

Footer Page 20 of 27.

Header Page 21 of 27.

21

Bảng 2.2. Taxonomy mối quan hệ xuyên văn bản [Ra00]
Tỷ lệ nén
Bên cạnh các vấn đề nhập nhằng về mặt nội dung thì tỷ lệ nén cũng là một vấn đề
được đặt ra khi nói đến tóm tắt đa văn bản. Trong tóm tắt đơn văn bản, tỷ lệ 10% so với
chiều dài của văn bản gốc có thể đủ đối với một văn bản tóm tắt. Tuy nhiên đối với một
cụm tài liệu n tài liệu với tỷ lệ 10% ta có một văn bản có độ dài 0.1n độ dài trung bình
văn bản. Với n là biến, văn bản tóm tắt có thể sẽ trở nên lớn hơn nhiều so với nhu cầu của
người sử dụng muốn đọc. Chính vì vậy đối với tóm tắt đa văn bản, tỷ lệ nén cần có sự

Footer Page 21 of 27.

Header Page 22 of 27.

22

liên quan đến kích thước của cụm tài liệu đó. Đối với tóm tắt đa văn bản dựa vào trích
xuất câu để đưa ra một văn bản tóm tắt có độ dài phù hợp với yêu cầu của người sử dụng,
tỷ lệ nén thường được thay thế bằng số lƣợng câu của văn bản tóm tắt.

Đánh giá kết quả tóm tắt
Đánh giá kết quả tóm tắt văn bản là một việc làm khó khăn trong thời điểm hiện
tại. Việc sử dụng ý kiến đánh giá của các chuyên gia ngôn ngữ được xem là cách đánh
giá tốt nhất, tuy nhiên, cách làm này lại tốn rất nhiều chi phí. Bên cạnh các phương pháp
đánh giá thủ công do các chuyên gia thực hiện, vấn đề đánh giá tự động kết quả tóm tắt

cũng nhận được nhiều sự chú ý hiện nay. NIST 4 kể từ năm 2000 đã tổ chức hội nghị
DUC mỗi năm một lần để thực hiện việc đánh giá với quy mô lớn các hệ thống tóm tắt
văn bản.Việc đánh giá tự động này nhằm mục đích là tìm ra được một độ đo đánh giá tóm
tắt gần với những đánh giá của con người nhất.
Độ hồi tưởng (recall) tại các tỷ lệ nén khác nhau chính là thước đo đánh giá hợp
lý, mặc dù nó không chỉ ra được sự khác nhau về hiệu suất của hệ thống. Vì vậy độ đo về
sự bao phủ được tính theo công thức:
C=RE
Ở đây, R là độ hồi tưởng câu được trả về bởi công thức
R = Số đơn vị bao phủ/ Tổng số đơn vị trong mô hình tóm tắt.
E là tỷ lệ hoàn thành nằm trong khoảng từ 0 đến 1 (1 là hoàn thành tất cả, ¾ là
một phần, ½ là một số, ¼ là khó, 0 là không có)
DUC 2002 đã sử dụng một phiên bản để điều chỉnh chiều dài của thước đo bao
phủ, C’:

4

National Institute of Standards and Technology.

Footer Page 22 of 27.

Header Page 23 of 27.

23

Với B là sự ngắn gọn và α là tham số phản tầm quan trọng. Các loại nhãn cho
E cũng đã được thay đổi thành 100%, 80%, 60%, 40%, 20%, và 0% tương ứng.
Phương pháp ROUGE
BiLingual Evaluation Understudy (BLEU) [KST02] là một phương pháp của

cộng động dịch máy đưa ra để đánh giá tự động các hệ thống dịch máy. Phương pháp này
có hiểu qua nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con người.
Recall Oriented Understudy of Gisting Evaluation (ROUGE) [LH03] là một phương pháp
do Lin và Hovy đưa ra vào năm 2003 cũng dựa trên các khái niệm tương tự. Phương
pháp này sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của mô hình tóm
tắt và tập dữ liệu đánh giá. Phương pháp này đã cho ra kết quả khả quan và được sự đánh
giá cao của cộng đồng nghiên cứu tóm tắt văn bản.

Tóm tắt đa văn bản dựa vào trích xuất câu
Tóm tắt đa văn bản dựa vào trích xuất câu là phương pháp giải quyết bài toán
tóm tắt đa văn bản theo hướng tiếp cận ở mức hình thái. Phương pháp này có ưu điểm là
xử lý tốt các dự thừa do chồng chéo về mặt nội dung giữa các văn bản trong cụm và cho
ra hiệu quả cao đối với văn bản tóm tắt. Chính vì ưu điểm này nên tóm tắt đa văn bản dựa
vào trích xuất câu được sự quan tâm,phát triển và sử dụng rộng rãi của cộng động tóm tắt
văn bản tự động [HMR05, FMN07, BKO07]. Mặc dù có nhiều phương pháp được công
bố nhưng hầu hết các phương pháp đều tập trung vào giải quyết hai vấn đề chính, đó là:
-

Xác định và loại bỏ sự trùng lặp, chồng chéo về mặt nội dung giữa các văn
bản.

-

Sắp xếp các câu trong các văn bản theo độ nổi bật(quan trọng) về mặt nội
dung hoặc độ liên quan đến một truy vấn do người sử dụng hay chương trình
cung cấp.

Footer Page 23 of 27.

Header Page 24 of 27.

24

Loại bỏ chồng chéo và sắp xếp các văn bản theo độ quan trọng
Loại bỏ chồng chéo và sắp xếp độ quan trọng giữa các văn bản trong cụm văn
bản là một trong những vấn đề quan trọng nhất của bài toán tóm tắt đa văn bản. Một
trong các phương pháp phổ biến để tính được độ quan trọng này là phương pháp MMR
(Maximal Maginal Relevance) do Jaime Carbonell và Jade Goldstein đề xuất năm 1998
[CG98]. Đầu vào của phương pháp này là một cụm văn bản đã được sắp xếp sẵn và đầu
ra là cụm văn bản đã được sắp xếp lại theo thứ tự về ngữ nghĩa. Phương pháp này sắp xếp
các văn bản dựa vào việc xác định một độ đo làm rõ ranh giới về ngữ nghĩa giữa các văn
bản trong cụm. Mỗi một văn bản có độ đo này cực đại nếu độ đo về sự tương đồng giữa
văn bản với câu truy vấn cao và cực tiểu được sự tương đồng giữa văn bản này và các
văn bản khác đã được chọn trước đấy. Công thức để tính độ đo này như sau:
def

MMR  Arg max [ * ( Sim1 ( Di , Q)  (1   ) * max Sim 2 ( Di , D j ))]
Di R \ S

D j S

Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyết định việc đóng góp giữa 2 độ đo.
Nếu λ=1 thì độ quan trọng của văn bản chỉ phụ thuộc vào độ đo tương đồng giữa văn bản
và câu truy vấn, còn nếu λ=0 thì độ đo sự tương đồng giữa văn bản này và văn bản khác
sẽ đạt giá trị cực đại trong biểu thức trên.
C: cụm văn bản.
Di: văn bản thuộc cụm C.
Q: là câu truy vấn (hay câu hỏi người dùng đưa vào).

R=IR(C,Q,θ) : là tập các văn bản của C đã được sắp xếp thứ tự theo sự liên quan
với câu truy vấn Q dựa vào một ngưỡng xác định θ.
S: là tập các văn bản của R đã được chọn .
R\S: là tập các văn bản chưa được chọn của R.
Sim1,Sim2: là độ đo về sự tương đồng giữa hai văn bản.

Footer Page 24 of 27.

Header Page 25 of 27.

25

Phương pháp sắp xếp câu
Xác định độ quan trọng câu là bước xuất hiện hầu hết trong các phương pháp tóm
tắt đơn văn bản cũng như tóm tắt đa văn bản hiện nay. Độ đo quan trọng này có thể được
xây dựng bằng cách kết hợp nhiều độ đo độ tương đồng câu khác nhau với các phương
pháp cải tiến từ phương pháp MMR để làm tăng độ quan trọng đối với mức ngữ nghĩa
câu [HMR05, FMN07, BKO07]. Công thức của phương pháp MMR được cải tiến cho
mức ngữ nghĩa câu:

Score(si )  arg max[ * sim( s, q)  (1   ) * max sim( si , s j )]
si

Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyết định việc đóng góp giữa 2 độ đo.
q: là câu truy vấn (hay câu hỏi người dùng đưa vào).
si: là một câu trong cụm văn bản.
sj: các câu khác nằm trong cụm văn bản
sim: độ đo về sự tương đồng giữa hai câu

Nhận xét
Cả hai vấn đề cần giải quyết trong bài toán tóm tắt đa văn bản dựa vào trích xuất
câu đều tập trung vào việc xác định được sự tương đồng giữa hai văn bản nói chung và
giữa hai câu nói riêng. Trên thực tế, các phương pháp áp dụng và cải tiến cho tóm tắt đa
văn bản dựa vào đều tập trung vào vấn đề là tăng cường tính ngữ nghĩa cho độ đo tương
đồng giữa hai câu hay hai văn bản [HMR05, FMN07, BKO07]. Trong chương 3, luận
văn sẽ đi sâu vào giới thiệu chi tiết đến các phương pháp tăng cường tính ngữ nghĩa cho
độ tương đồng câu.

Tóm tắt chƣơng hai
Trong chương này luận văn đã giới thiệu chi tiết đến hướng tiếp cận, các vấn đề
đặt ra đối với bài toán tóm tắt đa văn bản và một số phương pháp để giải quyết các vấn đề
Footer Page 25 of 27.

Tóm tắt đa văn bản dựa vào trích xuất câu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về