Tải bản đầy đủ (.pdf) (62 trang)

Tóm tắt đa văn bản dựa vào trích xuất câu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 62 trang )

ĐA
̣
I HO
̣
C QUÔ
́
C GIA H NI
TRƢƠ
̀
NG ĐA
̣
I HO
̣
C CÔNG NGHÊ
̣





TRẦN MAI VŨ





TÓM TẮT ĐA VĂN BẢN
DỰA VO TRÍCH XUẤT CÂU








LUẬN VĂN THẠC SĨ












H NI - 2009



iii
Mc lc
Li cm ơn i

̀
i cam đoan ii
Mc lc iii
Danh sách hình vẽ v
Danh sách bng vi

Danh sách bng vi
Bng t vit tt vii
Bng t vit tt vii

̉
đầu 1
Chương 1. Khái quát ba
̀
i toa
́
n tóm tt văn bn 4
1.1. Bài toán tóm tt văn bn tự động 4
1.2. Một số khái niệm của bài toán tóm tt và phân loại tóm tt 4
1.3. Tóm tt đơn văn bn 7
1.4. Tóm tt đa văn bn 9
1.5. Tóm tt chương một 9
Chương 2. Tóm tt đa văn bn dựa vào trích xuất câu 10
2.1. Hướng tip cận của bài toán tóm tt đa văn bn 10
2.2. Các thách thức của quá trình tóm tt đa văn bn 11
2.3. Đánh giá kt qu tóm tt 15
2.4. Tóm tt đa văn bn dựa vào trích xuất câu 16
2.4.1. Loại bỏ chồng chéo và sp xp các văn bn theo độ quan trọng 16
2.4.2. Phương pháp sp xp câu 17
2.5. Tóm tt chương hai 18
Chương 3. Độ tương đồng câu và các phương pháp tăng cưng tính ngữ nghĩa cho
độ tương đồng câu 19
3.1. Độ tương đồng 19
3.2. Độ tương đồng câu 19
3.3. Các phương pháp tính độ tương đồng câu 20
3.3.1. Phương pháp tính độ tương đồng câu sử dng độ đo Cosine 20

3.3.2. Phương pháp tính đô
̣
tương đồng câu dựa vào chủ đề ẩn 21


iv
3.3.3. Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24
3.4. Tóm tt chương ba 28
Chương 4. Một số đề xuất tăng cưng tính ngữ nghĩa cho độ tương đồng câu và áp
dng vào mô hình tóm tt đa văn ting Việt 30
4.1. Đề xuất tăng cưng tính ngữ nghĩa cho độ tương đồng câu ting Việt 30
4.1.1. Đồ thị thực thể và mô hình xây dựng đồ thị quan hệ thực thể 30
4.1.2. Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể 33
4.2. Độ tương đồng ngữ nghĩa câu ting Việt 35
4.3. Mô hình tóm tt đa văn bn ting Việt 36
4.4. Mô hình hỏi đáp tự động ting Việt áp dng tóm tt đa văn bn 39
4.5. Tóm tt chương bốn 40
Chương 5. Thực nghiệm và đánh giá 41
5.1. Môi trưng thực nghiệm 41
5.2. Quá trình thực nghiệm 42
5.2.1. Thực nghiệm phân tích chủ đề ẩn 42
5.2.2. Thực nghiệm xây dựng đồ thị quan hệ thực thể 43
5.2.3. Thực nghiệm đánh giá các độ đo tương đồng 44
5.2.4. Thực nghiệm đánh giá độ chính xác của mô hình tóm tt đa văn bn 46
5.2.5. Thực nghiệm đánh giá độ chính xác của mô hình hỏi đáp 48
Kết luận 50
Các công trình khoa học và sn phẩm đã công bố 51
Tài liệu tham kho 52



v
Danh sách hình vẽ
Hình 3.1. Tính độ tương đồng câu với chủ đề ẩn 22
Hình 3.2: Mối quan hệ giữa đồ thị bài vit và đồ thị chủ đề Wikipedia 25
Hình 4.1: Mở rộng mối quan hệ và tìm kim các thực thể liên quan 31
Hình 4.2: Mô hình xây dựng đồ thị quan hệ thực thể 32
Hình 4.3: Mô hình tóm tt đa văn bn ting Việt 37
Hình 4.4: Mô hình hỏi đáp tự động ting Việt áp dng tóm tt đa văn bn 39


vi
Danh sách bảng
Bng 2.1. Bng so sánh các phương pháp tip cận tóm tt đa văn bn. 11
Bng 2.2. Taxonomy mối quan hệ xuyên văn bn 14
Bng 4.1: Sự tương quan giữa đồ thị quan hệ thực thể, Wordnet và Wikipedia 34
Bng 4.2. Danh sách các độ đo tương đồng ngữ nghĩa câu 36
Bng 5.1. Các công c phần mềm sử dng trong quá trình thực nghiệm 42
Bng 5.2. Kt qu phân tích chủ đề ẩn 43
Bng 5.3: 20 t có phân phối xác suất cao trong Topic ẩn 97 43
Bng 5.4. Kt qu dữ liệu thu được của mô hình xây dựng đồ thị quan hệ thực
thể 44
Bng 5.5. Một cm dữ liệu dùng để đánh giá độ tương đồng ngữ nghĩa 45
Bng 5.6. Độ chính xác đánh giá trên 20 cm dữ liệu ting Việt đối với các độ đo
tương đồng trên Wiki ting Việt 45
Bng 5.7. Kt qu đánh giá các độ đo trên cm dữ liệu ở bng 5.2 45
Bng 5.8. Độ chính xác đánh giá trên 20 cm dữ liệu ting Việt và 10 cm ting
Anh 46
Bng 5.9. Đánh giá kt qu thứ tự văn bn và thứ tự của 20 câu quan trọng nhất 47
Bng 5.10. Kt qu tóm tt tr về theo tỷ lệ trích xuất là 10 câu. 48
Bng 5.11. Độ chính xác của mô hình hỏi đáp dựa vào tóm tt đa văn bn cho

snippet 48
Bng 5.12. Độ chính xác của mô hình hỏi đáp dựa vào tóm tt đa văn bn cho
trang web 49
Bng 5.13. Danh sách một số kt qu tr li của hệ thống hỏi đáp 49


vii
Bảng t vit tt

STT

̀
hoă
̣
c cu
̣
m tư
̀

Viê
́
t tă
́
t
1
Maximal Maginal Relevance
MMR
2
Question and Answering
(Hệ thống hỏi đáp tự động)

Q&A
3
Document Understanding Conferences
(Hội nghi chuyên về hiểu văn bn)
DUC
4
Term Frequency
(Tần suất t/cm t trong văn bn)
TF


1

̉
đâ
̀
u
Sự phát triển nhanh chóng của mạng Internet cùng với những bước tin mạnh mẽ
của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn.
Thông tin được sinh ra liên tc mỗi ngày trên mạng Internet, lượng thông tin văn bn
khổng lồ trong đó đó đã và đang mang lại lợi ích không nhỏ cho con ngưi, tuy nhiên,
nó cũng khin chúng ta khó khăn trong việc tìm kim và tổng hợp thông tin. Gii pháp
cho vấn đề này là tóm tt văn bản tự động. Tóm tt văn bn tự động được xác định là
một bài toán thuộc lĩnh vực khái phá dữ liệu văn bn; việc áp dng tóm tt văn bn sẽ
giúp ngưi dùng tit kiệm thi gian đọc, ci thiện tìm kim cũng như tăng hiệu qu
đánh chỉ mc cho máy tìm kim.
T nhu cầu thực t như th, bài toán tóm tt văn bn tự động nhận được sự quan
tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn
trên th giới. Các bài báo liên quan đn tóm tt văn bn xuất hiện nhiều trong các hội
nghị nổi ting như : DUC

1
2001-2007, TAC
2
2008, ACL
3
2001-2007… bên cạnh đó
cũng là sự phát triển của các hệ thống tóm tt văn bn như : MEAD, LexRank,
Microsoft Word (Chức năng AutoSummarize)…
Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần
đây đối với bài toán tóm tt văn bn tự động đó là đưa ra kt qu tóm tt cho một tập
văn bn liên quan với nhau về mặt nội dung hay còn gọi là tóm tt đa văn bản.
Bài toán tóm tt đa văn bản được xác định là một bài toán có độ phức tạp cao.
Đa số mọi ngưi nghĩ rằng, tóm tt đa văn bn chỉ là việc áp dng tóm tt đơn văn bn
cho một văn bn được ghép t các văn bn trong một tập văn bn cho trước. Tuy nhiên
điều đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đề tóm tt đa văn là
do dữ liệu đầu vào có thể có sự nhập nhằng ngữ nghĩa giữa nội dung của văn bn này
với văn bn khác trong cùng tập văn bn hay trình tự thi gian được trình bày trong



1
Document Understanding Conference.
2
Text Analysis Conference.
3
Association for Computational Linguistics.


2
mỗi một văn bn là khác nhau, vì vậy để đưa ra một kt qu tóm tt tốt sẽ vô cùng khó

khăn [EWK].
Rất nhiều ứng dng cần đn quá trình tóm tt đa văn bn như: hệ thống hỏi đáp
tự động (Q&A System), tóm tt các báo cáo liên quan đn một sự kiện, tóm tt các
cm dữ liệu được tr về t quá trình phân cm trên máy tìm kim… Hướng nghiên
cứu ứng dng bài toán tóm tt đa văn bn vào việc xây dựng hệ thống hỏi đáp tự động
đang là hướng nghiên cứu chính của cộng đồng nghiên cứu tóm tt văn bn nhưng
năm gần đây. Rất nhiều nghiên cứu cho thấy rằng, việc sử dng phương pháp tóm tt
đa văn bn dựa vào câu truy vấn (Query-based multi-document summarization) đối
với kho dữ liệu tri thức để đưa ra một văn bn tóm tt tr li cho câu hỏi của ngưi sử
dng đạt được nhiều kt qu kh quan cũng như thể hiện đây là một hướng tip cận
đúng đn trong việc xây dựng các mô hình hỏi đáp tự động [Ba07,YYL07].
Với việc lựa chọn đề tài “Tóm tt đa văn bản dựa vào trích xuất câu”, chúng
tôi tập trung vào việc nghiên cứu, kho sát, đánh giá và đề xuất ra một phương pháp
tóm tt đa văn bn phù hợp với ngôn ngữ ting Việt, bên cạnh đó áp dng phương
pháp này vào việc xây dựng một mô hình hệ thống hỏi đáp ting Việt.
Ngoài phần mở đầu và kết luận, luâ
̣
n văn đươ
̣
c tô
̉
chư
́
c tha
̀
nh 5 chương như
sau:
 Chương 1: Khái quát bài toán tóm tt giới thiệu khái quát bài toán tóm tt
văn bn tự động nói chung và bài toán tóm tt đa văn bn nói riêng, trình bày
một số khái niệm và cách phân loại đối với bài toán tóm tt.

 Chương 2: Tóm tt đa văn bản dựa vào trích xuất câu giới thiệu chi tit về
hướng tip cận, thách thức và các vấn đề trong gii quyt bài toán tóm tt đa
văn bn dựa vào trích xuất câu.
 Chương 3: Độ tương đồng câu và các phương pháp tăng cường tính ngữ
nghĩa cho độ tương đồng câu trình bày các nghiên cứu về các phương pháp
tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dng vào quá trình trích xuất câu
quan trọng của văn bn.


3
 Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng
câu và áp dng vào mô hình tóm tt đa văn ting Việt phân tích, đề xuất một
phương pháp tích hợp các thuật toán để gii quyt bài toán tóm tt đa văn bn
ting Việt và trình bày việc áp dng phương pháp được đề xuất để xây dựng mô
hình hệ thống hỏi đáp ting Việt đơn gin.
 Chương 5: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm của luận
văn và đưa ra một số đánh giá, nhận xét các kt qu đạt được.


4
Chương 1. Khái quát bài toán tóm tt văn bản
1.1. Bài toán tóm tắt văn bản tự động
Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tt tự động cho
các bài báo kĩ thuật sử dng phương pháp thống kê thông qua tần suất và phân bố của
các t trong văn bn [Lu58]. Tuy nhiên mãi cho đn những năm cuối th kỷ 20, với sự
phát triển của Internet, lượng thông tin bùng nổ nhanh chóng, việc thu nhận những
thông tin quan trọng cũng trở thành một vấn đề thit yu thì bài toán tóm tt văn bn tự
động mới được sự quan tâm thit thực của nhiều nhà nghiên cứu.
Theo Inderjeet Mani, mc đích của tóm tt văn bn tự động là: “Tóm tắt văn
bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày

các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây
cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [MM99].
Việc đưa ra được một văn bn kt qu tóm tt có chất lượng như là văn bn do
con ngưi làm ra mà không bị giới hạn bởi miền ứng dng là được xác định là cực kỳ
khó khăn. Vì vậy, các bài toán được gii quyt trong tóm tt văn bn thưng chỉ hướng
đn một kiểu văn bn c thể hoặc một kiểu tóm tt c thể.

1.2. Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt
- Tỷ lệ nén(Compression Rate): là độ đo thể hiện bao nhiêu thông tin được
cô đọng trong văn bn tóm tt được tính bằng công thức:
thSourceLeng
gthSummaryLen
nRateCompressio 

SummaryLength: Độ dài văn bn tóm tt
SourceLength: Độ dài văn bn nguồn
- Độ nổi bật hay liên quan(Salience or Relevance): là trọng số được gán cho
thông tin trong văn bn thể hiện độ quan trọng của thông tin đó đối với toàn văn bn
hay để chỉ sự liên quan của thông tin đó đối với chương trình của ngưi sử dng.


5
- Sự mạch lạc(coherence): Một văn bn tóm tt gọi là mạch lạc nu tất c các
thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung và không có sự
trùng lặp giữa các thành phần.
Phân loại bài toán tóm tắt.
Có nhiều cách phân loại tóm tt văn bn khác nhau tuy nhiên sự phân loại chỉ
mang tính tương đối, ph thuộc vào việc tóm tt trên cơ sở nào. Ở đây, luận văn đề cập
đn phân loại tóm tt dựa trên 3 cơ sở là: dựa vào định dạng, nội dung đầu vào, dựa
vào định dạng, nội dung đầu ra, dựa vào mc đích tóm tt.

 Tóm tt dựa trên cơ sở định dạng, nội dung đầu vào sẽ tr li cho câu hỏi “Cái
gì sẽ được tóm tt”. Cách chia này sẽ cho ta nhiều cách phân loại con khác nhau. C
thể như:
- Kiểu văn bản (bài báo, bản tin, thư, báo cáo …). Với cách phân loại này,
tóm tt văn bn là bài báo sẽ khác với tóm tt thư, tóm tt báo cáo khoa học do những
đặc trưng văn bn quy định.
- Định dạng văn bản: dựa vào tng định dạng văn bn khác nhau, tóm tt
cũng chia ra thành các loại khác nhau như: tóm tt văn bn không theo khuôn mẫu
(free-form) hay tóm tt văn bn có cấu trúc. Với văn bn có cấu trúc, tóm tt văn bn
thưng sử dng một mô hình học dựa vào mẫu cấu trúc đã xây dựng t trước để tin
hành tóm tt.
- Số lượng dữ liệu đầu vào: tùy vào số lượng đầu vào của bài toán tóm tt,
ngưi ta cũng có thể chia tóm tt ra thành tóm tt đa văn bn, tóm tt đơn văn bn.
Tóm tt đơn văn bn khi đầu vào chỉ là một văn bn đơn, trong khi đó đầu vào của tóm
tt đa văn bn là một tập các tài liệu có liên quan đn nhau như: các tin tức có liên
quan đn cùng một sự kiện, các trang web cùng chủ đề hoặc là cm dữ liệu được tr về
t quá trình phân cm.
- Miền dữ liệu: dựa vào miền của dữ liệu như c thể về một lĩnh vực nào đó,
ví d như: y t, giáo dc… hay là miền dữ liệu tổng quát, có thể chia tóm tt ra thành
tng loại tương ứng.


6
 Tóm tt trên cơ sở mc đích thực chất là làm rõ cách tóm tt, mc đích tóm tt
là gì, tóm tt phc v đối tượng nào
- Nu ph thuộc vào đối tượng đọc tóm tt thì tóm tt cho chuyên gia khác cách
tóm tt cho các đối tượng đọc thông thưng.
- Tóm tt sử dng trong tìm kim thông tin (IR) sẽ khác với tóm tt phc v cho
việc sp xp.
- Dựa trên mc đích tóm tt, còn có thể chia ra thành tóm tt chỉ thị

(Indicative) và tóm tt thông tin (Informative). Tóm tt chỉ thị (indicative) chỉ ra
loại của thông tin, ví d như là loại văn bn chỉ thị “tối mật”. Còn tóm tt thông tin chỉ
ra nội dung của thông tin.
- Tóm tt trên cơ sở truy vấn (Query-based) hay tóm tt chung (General).
Tóm tt general mc đích chính là tìm ra một đoạn tóm tt cho toàn bộ văn bn mà nội
dung của đoạn văn bn sẽ bao quát toàn bộ nội dung của văn bn đó. Tóm tt trên cơ
sở truy vấn thì nội dung của văn bn tóm tt sẽ dựa trên truy vấn của ngưi dùng hay
chương trình đưa vào, loại tóm tt này thưng được sử dng trong quá trình tóm tt
các kt qu tr về t máy tìm kim.
 Tóm tt trên cơ sở đầu ra cũng có nhiều cách phân loại.
- Dựa vào ngôn ngữ: Tóm tt cũng có thể phân loại dựa vào kh năng tóm tt
các loại ngôn ngữ:
• Tóm tt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tt chỉ một
loại ngôn ngữ nhất định như: ting Việt hay ting Anh…
• Tóm tt đa ngôn ngữ (Multilingual): hệ thống có kh năng tóm tt nhiều
loại văn bn của các ngôn ngữ khác nhau, tuy nhiên tương ứng với văn
bn đầu vào là ngôn ngữ gì thì văn bn đầu ra cũng là ngôn ngữ tương
ứng.
• Tóm tt xuyên ngôn ngữ (Crosslingual): hệ thống có kh năng đưa ra
các văn bn đầu ra có ngôn ngữ khác với ngôn ngữ của văn bn đầu vào.
- Dựa vào định dạng đầu ra của kt quả tóm tt: như bng, đoạn, t khóa.


7
 Ngoài hai cách phân loại trên, phân loại tóm tt trên cở sở đầu ra còn có một
cách phân loại được sử dng phổ bin là: tóm tt theo trích xuất (Extract) và tóm tt
theo tóm lược (Abstract).
• Tóm tt theo trích xuất: là tóm tt có kt qu đầu ra là một tóm tt bao
gồm toàn bộ các phần quan trọng được trích ra t văn bn đầu vào.
• Tóm tt theo tóm lược: là tóm tt có kt qu đầu ra là một tóm tt

không giữ nguyên lại các thành phần của văn bn đầu vào mà dựa vào
thông tin quan trọng để vit lại một văn bn tóm tt mới.
Hiện nay, các hệ thống sử dng tóm tt theo trích xuất được sử dng phổ bin
và cho kt qu tốt hơn tóm tt theo tóm lược. Nguyên nhân tạo ra sự khác biệt này là
do các vấn đề trong bài toán tóm tt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận
và sinh ra ngôn ngữ tự nhiên được đánh giá là khó và chưa có nhiều kt qu nghiên
cứu kh quan hơn so với hướng trích xuất câu của bài toán tóm tt theo trích xuất.
Trong thực t, theo đánh giá của Dragomir R. Radev (Đại học Michigan, Mỹ) chưa có
một hệ thống tóm tt theo tóm lược đạt đn sự hoàn thiện, các hệ thống tóm tt theo
tóm lược hiện nay thưng dựa vào thành phần trích xuất có sẵn. Các hệ thống này
thưng được bit đn với tên gọi tóm tt theo nén văn bản.
Tóm tt theo nén văn bản (Text Compaction): là loại tóm tt sử dng các
phương pháp ct xén(truncates) hay vit gọn(abbreviates) đối với các thông tin quan
trọng sau khi đã được trích xuất.
Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tt khác nhau tuy nhiên hai loại
tóm tt là tóm tt đơn văn bản và tóm tt đa văn bản vẫn được sự quan tâm lớn của
các nhà nghiên cứu về tóm tt tự động.

1.3. Tóm tắt đơn văn bản
Bài toán tóm tt văn bn đơn cũng giống như các bài toán tóm tt khác, là một
quá trình tóm tt tự động với đầu vào là một văn bn, đầu ra là một đoạn mô t ngn
gọn nội dung chính của văn bn đầu vào đó. Văn bn đơn có thể là một trang Web,


8
một bài báo, hoặc một tài liệu với định dạng xác định (ví d : .doc, .txt)… Tóm tt văn
bn đơn là bước đệm cho việc xử lý tóm tt đa văn bn và các bài toán tóm tt phức
tạp hơn. Chính vì th những phương pháp tóm tt văn bn ra đi đầu tiên đều là các
phương pháp tóm tt cho văn bn đơn.
Các phương pháp nhằm gii quyt bài toán tóm tt văn bn đơn cũng tập trung

vào hai loại tóm tt là: tóm tt theo trích xuất và tóm tt theo tóm lược.
Tóm tt theo trích xuất
Đa số các phương tóm tt theo loại này đều tập trung vào việc trích xuất ra các
câu hay các ngữ nổi bật t các đoạn văn bn và kt hợp chúng lại thành một văn bn
tóm tt. Một số nghiên cứu giai đoạn đầu thưng sử dng các đặc trưng như vị trí của
câu trong văn bn, tần số xuất hiện của t, ngữ hay sử dng các cm t khóa để tính
toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bn
tóm tt [Lu58, Ed69]. Các kỹ thuật tóm tt gần đây sử dng các phương pháp học máy
và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của
văn bn. Sử dng các phương pháp học máy có thể kể đn phương pháp của Kupiec,
Penderson and Chen năm 1995 sử dng phân lớp Bayes để kt hợp các đặc trưng lại
với nhau [PKC95] hay nghiên cứu của Lin và Hovy năm 1997 áp dng phương pháp
học máy nhằm xác định vị trí của các câu quan trọng trong văn bn [LH97]. Bên cạnh
đó việc áp dng các phương pháp phân tích ngôn ngữ tự nhiên như sử dng mạng t
Wordnet của Barzilay và Elhadad vào năm 1997 [BE97].
Tóm tt theo tóm lược
Các phương pháp tóm tt không sử dng trích xuất để tạo ra tóm tt có thể
xem như là một phương pháp tip cận tóm tt theo tóm lược. Các hướng tip cận có
thể kể đn như dựa vào trích xuất thông tin (information extraction), ontology, hợp
nhất và nén thông tin… Một trong những phương pháp tóm tt theo tóm lược cho kt
qu tốt là các phương pháp dựa vào trích xuất thông tin, phương pháp dạng này sử
dng các mẫu đã được định nghĩa trước về một sự kiện hay là cốt truyện và hệ thống
sẽ tự động điền các thông tin vào trong mẫu có sẵn rồi sinh ra kt qu tóm tt. Mặc dù


9
cho ra kt qu tốt tuy nhiên các phương pháp dạng này thưng chỉ áp dng trong một
miền nhất định [MR95].
1.4. Tóm tắt đa văn bản
Tóm tt đa văn bn có thể được coi như là một mở rộng của tóm tt đơn văn

bn. Mc đích của tóm tt đa văn bn:
Là quá trình trích xuất nội dung t một tập các văn bn có liên quan đn nhau,
trong quá trình đó các thông tin dư tha sẽ được loại bỏ và những thông tin quan trọng
sẽ được biểu diễn dưới hình thức cô đọng, súc tích và giàu cm súc đn ngưi sử dng
hoặc chương trình cần dùng [MM99].
Tóm tt đa văn bn được xác định là một bài toán có độ phức tạp cao, ngoài
những thách thức đã được bit đn đối với tóm tt đơn văn bn như sự cô đọng của
thông tin và mạch lạc về nội dung, tóm tt đa văn bn còn có những thách thức như
cần phi xác định những thông tin trùng lặp giữa các văn bn, xác định thông tin quan
trọng trong nhiều văn bn hay việc sp xp các thông tin trong văn bn tóm tt.
Do tóm tt đa văn bn là một mở rộng của tóm tt đơn văn bn, cho nên cũng
như tóm tt văn bn đơn các phương pháp gii quyt tóm tt đa văn bn cũng đi theo
hai hướng tip cận là dựa vào trích xuất và dựa vào tóm lược. Tuy nhiên, do những
hạn ch của phương pháp gii quyt bằng tóm tt theo tóm lược đã được nêu ở trên,
các phương pháp gii quyt tóm tt đa văn bn hầu như tập trung vào phương pháp
tóm tt đa văn bản dựa vào trích xuất câu. Chính t tình hình thực t đấy, luận văn
đã tập trung nghiên cứu, kho sát các kỹ thuật tóm tt đa văn bn liên quan đn
phương pháp tóm tt văn bn dựa vào trích xuất câu để gii quyt bài toán tóm tt đa
văn bn ting Việt.
1.5. Tóm tắt chương một
Trong chương này luận văn giới thiệu khái quát bài toán tóm tt văn bn tự
động các vấn đề liên quan và cách phân loại đối với bài toán tóm tt văn bn tự động.
Trong chương tip theo, luận văn sẽ làm rõ các vấn đề của bài toán tóm tt đa văn bn
nói chung và bài toán tóm tt đa văn bn dựa vào trích xuất câu nói riêng.


10

Chương 2. Tóm tt đa văn bản dựa vào trích xuất
câu

2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản
Như chúng ta đã bit ở trên tóm tt văn bn nói chung và tóm tt đa văn bn
nói riêng là bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Trong phân tích xử lý
ngôn ngữ tự nhiên có các mức độ sâu xử lý khác nhau được sp xp theo thứ tự như
sau: đầu tiên là mức hình thái (Morphological), tip theo là mức cú pháp (Syntactic),
tip đn là mức ngữ nghĩa (Semantic) và cuối cùng là mức ngữ dng (Pragmatic).
Tương tự như các độ sâu xử lý của xử lý ngôn ngữ tự nhiên, phương pháp tip cận để
gii quyt bài toán tóm tt đa văn bn cũng có thể được phân loại dựa vào độ sâu xử lý
được thực hiện trong quá trình tóm tt. Tuy nhiên phương pháp tip cận để gii quyt
bài toán tóm tt đa văn bn chỉ có ba mức, là các mức: hình thái, cú pháp và ngữ
nghĩa.
Mức hình thái: tại mức xử lý này, trong các văn bn, đơn vị được sử dng để
so sánh là các ngữ, câu hay đoạn văn (paragraph). Các phương pháp tại mức này
thưng sử dng độ đo tương đồng dựa trên mô hình không gian vector (Vector space
model) áp dng trọng số TF.IDF cho các t và các câu. Phương pháp tóm tt MMR
[CG98] là phương pháp nổi bật tại mức xử lý này.
Mức cú pháp: đơn vị được sử dng để so sánh tại mức xử lý này là sử dng
việc phân tích những cấu trúc ngữ pháp tương ứng giữa các văn bn với nhau. Các
phương pháp tại mức này tập trung vào việc phân tích cấu trúc ngữ pháp giữa các câu
hay các ngữ trong tng đoạn văn thuộc các văn bn. Phương pháp do Barzilay và các
đồng tác gi khác đề xuất năm 1999 [BME99] thuộc mức xử lý này.
Mức ngữ nghĩa: tại mức xử lý này tập trung nhiều vào việc phân tích các tên
thực thể, mối quan hệ giữa các thực thể cũng như các sự kiện ny sinh thực thể để xác
định được độ quan trọng của thông tin. Phương pháp của McKeown và Radev đề xuất
năm 1995[MR95] là một dạng của tóm tt tại mức xử lý này.


11
Dựa vào các đặc trưng của tng phương pháp tip cận, Inderjeet Mani đã đưa
ra bng so sánh, đánh giá ba mức tip cận để gii quyt bài toán tóm tt đa văn bn

[Ma01].

Mức xử lý
Đặc tính
Ưu điểm
Nhược điểm
Mức hình thái
Sử dng nhiều các
độ đo tương đồng
giữa các t vựng
Sử dng rất phổ
bin, xử lý dư tha
tốt
Không thể mô t
các đặc trưng khác,
kh năng tổng hợp
thông tin kém.
Mức cú pháp
So sánh giữa các
cây cú pháp của câu
hay ngữ trong văn
bn
Có kh năng phát
hiện các khái niệm
tượng đồng trong
các ngữ,cho phép
tổng hợp thông tin.
Không thể mô t
các đặc trưng khác,
đòi hỏi phi mở

rộng các luật so
sánh giữa các cây
cú pháp
Mức ngữ nghĩa
So sánh giữa các
mẫu tài liệu đã
được ấn định.
Có kh năng mô t
nhiều đặc trưng
khác nhau.
Các mẫu phi được
tạo trước đối với
tng miền.
Bng 2.1. Bng so sánh các phương pháp tip cận tóm tt đa văn bn [Ma01].
2.2. Các thách thức của quá trình tóm tắt đa văn bản
Một trong những thách thức lớn nhất của tóm tt đa văn bn chính là sự nhập
nhằng nội dung giữa các văn bn. Có ba nguyên nhân gây ra nhập nhằng nội dung
trong tóm tt đa văn bn đó là: đồng tham chiu xuyên văn bn, nhập nhằng về thi
gian xuyên văn bn, sự trùng lặp nội dung giữa các văn bn.
Trùng lặp đại t và đồng tham chiu
Thông thưng, chúng ta đề cập đn một tên thực thể chính là nói đn tên ban
đầu của thực thể đấy và sau đó thưng hay sử dng một đại t thay th nói về thực thể


12
trên. Xác định chính xác được thực thể mà đại t chỉ đn được gọi là việc xác định
trùng lặp đại t (Pronominal Anaphora resolution).
Việc xác định đúng hai hay nhiều hơn các thực thể của nhiều văn bn khác
nhau cùng chỉ đn một thực thể được gọi là vấn đề xác định đồng tham chiu xuyên
văn bản (Cross Document Co-Reference). Vấn đề này cần phi được gii quyt tốt thì

kt qu đầu ra của tóm tt đa văn bn mới cho ra kt qu tốt và dễ hiểu.
Nhập nhằng mặt thời gian
Các văn bn trong cm tài liệu có thể được chỉ đn bởi nhiều t hay cm t
chỉ thi gian ví d: hôm qua, hôm nay… Việc xác định rõ ràng các mốc thi gian
tương ứng là một điều kiện cần để sp xp các câu hay các văn bn theo đúng trình tự
hợp lý. Một số hệ thống có kh năng xác định được mốc thi gian và thay th các mốc
thi gian tương đối thành các mốc thi gian tuyệt đối bằng việc phân tích nội dung của
văn bn.
Để đm bo tính có thể đọc được đối với văn bn tóm tt của hệ thống tóm tt
đa văn bn thì ba yu tố: Xác định trùng lặp đại t, xác định đồng tham chiu xuyên
văn bn và nhập nhằng về mặt thi gian cần phi được gii quyt tốt. Mặc dù, trong
tóm tt đơn văn bn hai yu tố đầu tiên vẫn xuất hiện tuy nhiên gii quyt hai vấn đề
này không phức tạp như gii quyt trong tóm tt đa văn bn. Bên cạnh đó, vấn đề nhập
nhằng thi gian không xuất hiện trong tóm tt văn bn đơn, do các văn bn đơn đầu
vào coi như đã đm bo về mặt trật tự, yu tố này do chính ngưi tạo ra văn bn tạo
nên [Ji98]. Mặc dù vậy đối với tóm tt đa văn bn, vấn đề này trở nên cực kỳ khó
khăn, các nghiên cứu xoay quanh vấn đề này chỉ tập trung vào các loại dữ liệu có đi
kèm với thi gian như tin tức hay chuỗi các sự kiện. Một trong các phương pháp gii
quyt tốt vấn đề này được Barzilay, Elhadad và McKeown đưa ra vào năm 2002
[BME02]. Còn đối với các tập dữ liệu không rõ ràng về mặt thi gian, các nhà nghiên
cứu mặc định như các văn bn tương đồng về mặt thi gian.
Sự chồng chéo nội dung giữa các tài liệu
Một câu hỏi mà nhiều ngưi đặt ra đối với tóm tt đa văn bn đó là:


13
- Liệu có thể ghép các văn bản lại với nhau rồi sử dng tóm tt đơn văn
bản?
- Câu tr li ở đây là không!
Bằng cách đó chúng ta sẽ không tạo ra được một văn bn tóm tt tốt do không

loại bỏ được sự chống chéo về mặt nội dung cũng như xác định được mối quan hệ giữa
các văn bn.
Mối quan hệ giữa các văn bn có rất nhiều loại khác nhau. Dragomir Radev đã
liệt kê ra 24 loại quan hệ giữa các văn bn [Ra00] như trong bng 2.2. Các mối quan
hệ tồn tại ở nhiều mức khác nhau: mức t (W), mức ngữ (P), mức đoạn hoặc mức câu
(S), mức toàn tài liệu (D).
Đây là một taxonomy của các mối quan hệ xuyên tài liệu được gọi là Cross-
document Structure Theory (CST). Việc sử dng tốt CST sẽ tạo hiệu qu cực kỳ
hữu ích cho việc xác định sự trùng lặp giữa các văn bn trong bài toán tóm tt đa văn
bn.


14

Bng 2.2. Taxonomy mối quan hệ xuyên văn bn [Ra00]
Tỷ lệ nén
Bên cạnh các vấn đề nhập nhằng về mặt nội dung thì tỷ lệ nén cũng là một vấn
đề được đặt ra khi nói đn tóm tt đa văn bn. Trong tóm tt đơn văn bn, tỷ lệ 10% so
với chiều dài của văn bn gốc có thể đủ đối với một văn bn tóm tt. Tuy nhiên đối với
một cm tài liệu n tài liệu với tỷ lệ 10% ta có một văn bn có độ dài 0.1n độ dài trung
bình văn bn. Với n là bin, văn bn tóm tt có thể sẽ trở nên lớn hơn nhiều so với nhu
cầu của ngưi sử dng muốn đọc. Chính vì vậy đối với tóm tt đa văn bn, tỷ lệ nén
cần có sự liên quan đn kích thước của cm tài liệu đó. Đối với tóm tt đa văn bn dựa


15
vào trích xuất câu để đưa ra một văn bn tóm tt có độ dài phù hợp với yêu cầu của
ngưi sử dng, tỷ lệ nén thưng được thay th bằng số lượng câu của văn bn tóm tt.

2.3. Đánh giá kết quả tóm tắt

Đánh giá kt qu tóm tt văn bn là một việc làm khó khăn trong thi điểm
hiện tại. Việc sử dng ý kin đánh giá của các chuyên gia ngôn ngữ được xem là cách
đánh giá tốt nhất, tuy nhiên, cách làm này lại tốn rất nhiều chi phí. Bên cạnh các
phương pháp đánh giá thủ công do các chuyên gia thực hiện, vấn đề đánh giá tự động
kt qu tóm tt cũng nhận được nhiều sự chú ý hiện nay. NIST
1
kể t năm 2000 đã tổ
chức hội nghị DUC mỗi năm một lần để thực hiện việc đánh giá với quy mô lớn các hệ
thống tóm tt văn bn.Việc đánh giá tự động này nhằm mc đích là tìm ra được một độ
đo đánh giá tóm tt gần với những đánh giá của con ngưi nhất.
Độ hồi tưởng (recall) tại các tỷ lệ nén khác nhau chính là thước đo đánh giá
hợp lý, mặc dù nó không chỉ ra được sự khác nhau về hiệu suất của hệ thống. Vì vậy
độ đo về sự bao phủ được tính theo công thức:
C = R  E
Ở đây, R là độ hồi tưởng câu được tr về bởi công thức
R = Số đơn vị bao phủ/ Tổng số đơn vị trong mô hình tóm tt.
E là tỷ lệ hoàn thành nằm trong khong t 0 đn 1 (1 là hoàn thành tất c, ¾ là
một phần, ½ là một số, ¼ là khó, 0 là không có)
DUC 2002 đã sử dng một phiên bn để điều chỉnh chiều dài của thước đo bao
phủ, C’:

Với B là sự ngn gọn và α là tham số phn tầm quan trọng. Các loại nhãn cho
E cũng đã được thay đổi thành 100%, 80%, 60%, 40%, 20%, và 0% tương ứng.



1
National Institute of Standards and Technology.



16
Phương pháp ROUGE
BiLingual Evaluation Understudy (BLEU) [KST02] là một phương pháp của
cộng động dịch máy đưa ra để đánh giá tự động các hệ thống dịch máy. Phương pháp
này có hiểu qua nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con
ngưi. Recall Oriented Understudy of Gisting Evaluation (ROUGE) [LH03] là một
phương pháp do Lin và Hovy đưa ra vào năm 2003 cũng dựa trên các khái niệm tương
tự. Phương pháp này sử dng n-gram để đánh giá sự tương quan giữa các kt qu của
mô hình tóm tt và tập dữ liệu đánh giá. Phương pháp này đã cho ra kt qu kh quan
và được sự đánh giá cao của cộng đồng nghiên cứu tóm tt văn bn.
2.4. Tóm tắt đa văn bản dựa vào trích xuất câu
Tóm tt đa văn bn dựa vào trích xuất câu là phương pháp gii quyt bài toán
tóm tt đa văn bn theo hướng tip cận ở mức hình thái. Phương pháp này có ưu điểm
là xử lý tốt các dự tha do chồng chéo về mặt nội dung giữa các văn bn trong cm và
cho ra hiệu qu cao đối với văn bn tóm tt. Chính vì ưu điểm này nên tóm tt đa văn
bn dựa vào trích xuất câu được sự quan tâm,phát triển và sử dng rộng rãi của cộng
động tóm tt văn bn tự động [HMR05, FMN07, BKO07]. Mặc dù có nhiều phương
pháp được công bố nhưng hầu ht các phương pháp đều tập trung vào gii quyt hai
vấn đề chính, đó là:
- Xác định và loại bỏ sự trùng lặp, chồng chéo về mặt nội dung giữa các văn
bn.
- Sp xp các câu trong các văn bn theo độ nổi bật(quan trọng) về mặt nội
dung hoặc độ liên quan đn một truy vấn do ngưi sử dng hay chương
trình cung cấp.

2.4.1. Loại bỏ chồng chéo và sp xp các văn bản theo độ quan trọng
Loại bỏ chồng chéo và sp xp độ quan trọng giữa các văn bn trong cm văn
bn là một trong những vấn đề quan trọng nhất của bài toán tóm tt đa văn bn. Một
trong các phương pháp phổ bin để tính được độ quan trọng này là phương pháp MMR
(Maximal Maginal Relevance) do Jaime Carbonell và Jade Goldstein đề xuất năm



17
1998 [CG98]. Đầu vào của phương pháp này là một cm văn bn đã được sp xp sẵn
và đầu ra là cm văn bn đã được sp xp lại theo thứ tự về ngữ nghĩa. Phương pháp
này sp xp các văn bn dựa vào việc xác định một độ đo làm rõ ranh giới về ngữ
nghĩa giữa các văn bn trong cm. Mỗi một văn bn có độ đo này cực đại nu độ đo về
sự tương đồng giữa văn bn với câu truy vấn cao và cực tiểu được sự tương đồng giữa
văn bn này và các văn bn khác đã được chọn trước đấy. Công thức để tính độ đo này
như sau:
))],(max*)1(),((*[max
21
\
ji
SD
i
SRD
def
DDSimQDSimArgMMR
ji




Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyt định việc đóng góp giữa 2 độ đo.
Nu λ=1 thì độ quan trọng của văn bn chỉ ph thuộc vào độ đo tương đồng giữa văn
bn và câu truy vấn, còn nu λ=0 thì độ đo sự tương đồng giữa văn bn này và văn bn
khác sẽ đạt giá trị cực đại trong biểu thức trên.
C: cm văn bn.

D
i
: văn bn thuộc cm C.
Q: là câu truy vấn (hay câu hỏi ngưi dùng đưa vào).
R=IR(C,Q,θ) : là tập các văn bn của C đã được sp xp thứ tự theo sự liên quan
với câu truy vấn Q dựa vào một ngưỡng xác định θ.
S: là tập các văn bn của R đã được chọn .
R\S: là tập các văn bn chưa được chọn của R.
Sim
1
,Sim
2
: là độ đo về sự tương đồng giữa hai văn bn.
2.4.2. Phương pháp sp xp câu
Xác định độ quan trọng câu là bước xuất hiện hầu ht trong các phương pháp
tóm tt đơn văn bn cũng như tóm tt đa văn bn hiện nay. Độ đo quan trọng này có
thể được xây dựng bằng cách kt hợp nhiều độ đo độ tương đồng câu khác nhau với
các phương pháp ci tin t phương pháp MMR để làm tăng độ quan trọng đối với


18
mức ngữ nghĩa câu [HMR05, FMN07, BKO07]. Công thức của phương pháp MMR
được ci tin cho mức ngữ nghĩa câu:
)],(max*)1(),(*[maxarg)(
ji
s
i
sssimqssimsScore
i




Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyt định việc đóng góp giữa 2 độ đo.
q: là câu truy vấn (hay câu hỏi ngưi dùng đưa vào).
s
i
: là một câu trong cm văn bn.
s
j
: các câu khác nằm trong cm văn bn
sim: độ đo về sự tương đồng giữa hai câu
Nhận xét
C hai vấn đề cần gii quyt trong bài toán tóm tt đa văn bn dựa vào trích
xuất câu đều tập trung vào việc xác định được sự tương đồng giữa hai văn bn nói
chung và giữa hai câu nói riêng. Trên thực t, các phương pháp áp dng và ci tin cho
tóm tt đa văn bn dựa vào đều tập trung vào vấn đề là tăng cưng tính ngữ nghĩa cho
độ đo tương đồng giữa hai câu hay hai văn bn [HMR05, FMN07, BKO07]. Trong
chương 3, luận văn sẽ đi sâu vào giới thiệu chi tit đn các phương pháp tăng cưng
tính ngữ nghĩa cho độ tương đồng câu.
2.5. Tóm tắt chương hai
Trong chương này luận văn đã giới thiệu chi tit đn hướng tip cận, các vấn
đề đặt ra đối với bài toán tóm tt đa văn bn và một số phương pháp để gii quyt các
vấn đề trên. Trong chương tip theo, luận văn tip tc tập trung vào việc giới thiệu các
phương pháp nhằm tương cưng tính ngữ nghĩa cho độ tương đồng giữa hai câu.



19
Chương 3. Độ tương đồng câu và các phương pháp

tăng cường tính ngữ nghĩa cho độ tương đồng câu
3.1. Độ tương đồng
Trong toán học, một độ đo là một hàm số cho tương ứng với một "chiều dài",
một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn. Nó
là một khái niệm quan trọng trong gii tích và trong lý thuyt xác suất.
Ví d, độ đo đm được định nghĩa bởi µ(S) = số phần tử của S
Rất khó để đo sự giống nhau, sự tương đồng. Sự tương đồng là một đại lượng
(con số) phn ánh cưng độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng.
Đại lượng này thưng ở trong phạm vi t -1 đn 1 hoặc 0 đn 1. Như vậy, một độ đo
tương đồng có thể coi là một loại scoring function (hàm tính điểm).
Ví d, trong mô hình không gian vector, ta sử dng độ đo cosine để tính độ
tương đồng giữa hai văn bn, mỗi văn bn được biểu diễn bởi một vector.
3.2. Độ tương đồng câu
Phát biểu bài toán độ tính tương đồng câu như sau: Xét một tài liệu d gồm có n
câu: d = s
1
, s
2
, , s
n
. Mc tiêu của bài toán là tìm ra một giá trị của hàm S(s
i
, s
j
) với
S

(0,1), và i, j = 1, , n. Hàm S(s
i
, s

j
) được gọi là độ đo tương đồng giữa hai câu s
i

s
j
. Giá trị càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều.
Ví d: Xét hai câu sau: “Tôi là nam” và “Tôi là nữ”, bằng trực giác có thể thấy
rằng hai câu trên có sự tương đồng khá cao.
Độ tương đồng ngữ nghĩa là một giá trị tin cậy phn ánh mối quan hệ ngữ
nghĩa giữa hai câu. Trên thực t, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ
nghĩa chỉ được hiểu đầy đủ trong một ngữ cnh c thể.

×