ĐA
̣
I HO
̣
C QUÔ
́
C GIA H NI
TRƢƠ
̀
NG ĐA
̣
I HO
̣
C CÔNG NGHÊ
̣
TRẦN MAI VŨ
TÓM TẮT ĐA VĂN BẢN
DỰA VO TRÍCH XUẤT CÂU
LUẬN VĂN THẠC SĨ
H NI - 2009
iii
Mc lc
Li cm ơn i
Lơ
̀
i cam đoan ii
Mc lc iii
Danh sách hình vẽ v
Danh sách bng vi
Danh sách bng vi
Bng t vit tt vii
Bng t vit tt vii
Mơ
̉
đầu 1
Chương 1. Khái quát ba
̀
i toa
́
n tóm tt văn bn 4
1.1. Bài toán tóm tt văn bn tự động 4
1.2. Một số khái niệm của bài toán tóm tt và phân loại tóm tt 4
1.3. Tóm tt đơn văn bn 7
1.4. Tóm tt đa văn bn 9
1.5. Tóm tt chương một 9
Chương 2. Tóm tt đa văn bn dựa vào trích xuất câu 10
2.1. Hướng tip cận của bài toán tóm tt đa văn bn 10
2.2. Các thách thức của quá trình tóm tt đa văn bn 11
2.3. Đánh giá kt qu tóm tt 15
2.4. Tóm tt đa văn bn dựa vào trích xuất câu 16
2.4.1. Loại bỏ chồng chéo và sp xp các văn bn theo độ quan trọng 16
2.4.2. Phương pháp sp xp câu 17
2.5. Tóm tt chương hai 18
Chương 3. Độ tương đồng câu và các phương pháp tăng cưng tính ngữ nghĩa cho
độ tương đồng câu 19
3.1. Độ tương đồng 19
3.2. Độ tương đồng câu 19
3.3. Các phương pháp tính độ tương đồng câu 20
3.3.1. Phương pháp tính độ tương đồng câu sử dng độ đo Cosine 20
3.3.2. Phương pháp tính đô
̣
tương đồng câu dựa vào chủ đề ẩn 21
iv
3.3.3. Phương pháp tính độ tương đồng câu dựa vào Wikipedia 24
3.4. Tóm tt chương ba 28
Chương 4. Một số đề xuất tăng cưng tính ngữ nghĩa cho độ tương đồng câu và áp
dng vào mô hình tóm tt đa văn ting Việt 30
4.1. Đề xuất tăng cưng tính ngữ nghĩa cho độ tương đồng câu ting Việt 30
4.1.1. Đồ thị thực thể và mô hình xây dựng đồ thị quan hệ thực thể 30
4.1.2. Độ tương đồng ngữ nghĩa câu dựa vào đồ thị quan hệ thực thể 33
4.2. Độ tương đồng ngữ nghĩa câu ting Việt 35
4.3. Mô hình tóm tt đa văn bn ting Việt 36
4.4. Mô hình hỏi đáp tự động ting Việt áp dng tóm tt đa văn bn 39
4.5. Tóm tt chương bốn 40
Chương 5. Thực nghiệm và đánh giá 41
5.1. Môi trưng thực nghiệm 41
5.2. Quá trình thực nghiệm 42
5.2.1. Thực nghiệm phân tích chủ đề ẩn 42
5.2.2. Thực nghiệm xây dựng đồ thị quan hệ thực thể 43
5.2.3. Thực nghiệm đánh giá các độ đo tương đồng 44
5.2.4. Thực nghiệm đánh giá độ chính xác của mô hình tóm tt đa văn bn 46
5.2.5. Thực nghiệm đánh giá độ chính xác của mô hình hỏi đáp 48
Kết luận 50
Các công trình khoa học và sn phẩm đã công bố 51
Tài liệu tham kho 52
v
Danh sách hình vẽ
Hình 3.1. Tính độ tương đồng câu với chủ đề ẩn 22
Hình 3.2: Mối quan hệ giữa đồ thị bài vit và đồ thị chủ đề Wikipedia 25
Hình 4.1: Mở rộng mối quan hệ và tìm kim các thực thể liên quan 31
Hình 4.2: Mô hình xây dựng đồ thị quan hệ thực thể 32
Hình 4.3: Mô hình tóm tt đa văn bn ting Việt 37
Hình 4.4: Mô hình hỏi đáp tự động ting Việt áp dng tóm tt đa văn bn 39
vi
Danh sách bảng
Bng 2.1. Bng so sánh các phương pháp tip cận tóm tt đa văn bn. 11
Bng 2.2. Taxonomy mối quan hệ xuyên văn bn 14
Bng 4.1: Sự tương quan giữa đồ thị quan hệ thực thể, Wordnet và Wikipedia 34
Bng 4.2. Danh sách các độ đo tương đồng ngữ nghĩa câu 36
Bng 5.1. Các công c phần mềm sử dng trong quá trình thực nghiệm 42
Bng 5.2. Kt qu phân tích chủ đề ẩn 43
Bng 5.3: 20 t có phân phối xác suất cao trong Topic ẩn 97 43
Bng 5.4. Kt qu dữ liệu thu được của mô hình xây dựng đồ thị quan hệ thực
thể 44
Bng 5.5. Một cm dữ liệu dùng để đánh giá độ tương đồng ngữ nghĩa 45
Bng 5.6. Độ chính xác đánh giá trên 20 cm dữ liệu ting Việt đối với các độ đo
tương đồng trên Wiki ting Việt 45
Bng 5.7. Kt qu đánh giá các độ đo trên cm dữ liệu ở bng 5.2 45
Bng 5.8. Độ chính xác đánh giá trên 20 cm dữ liệu ting Việt và 10 cm ting
Anh 46
Bng 5.9. Đánh giá kt qu thứ tự văn bn và thứ tự của 20 câu quan trọng nhất 47
Bng 5.10. Kt qu tóm tt tr về theo tỷ lệ trích xuất là 10 câu. 48
Bng 5.11. Độ chính xác của mô hình hỏi đáp dựa vào tóm tt đa văn bn cho
snippet 48
Bng 5.12. Độ chính xác của mô hình hỏi đáp dựa vào tóm tt đa văn bn cho
trang web 49
Bng 5.13. Danh sách một số kt qu tr li của hệ thống hỏi đáp 49
vii
Bảng t vit tt
STT
Tư
̀
hoă
̣
c cu
̣
m tư
̀
Viê
́
t tă
́
t
1
Maximal Maginal Relevance
MMR
2
Question and Answering
(Hệ thống hỏi đáp tự động)
Q&A
3
Document Understanding Conferences
(Hội nghi chuyên về hiểu văn bn)
DUC
4
Term Frequency
(Tần suất t/cm t trong văn bn)
TF
1
Mơ
̉
đâ
̀
u
Sự phát triển nhanh chóng của mạng Internet cùng với những bước tin mạnh mẽ
của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn.
Thông tin được sinh ra liên tc mỗi ngày trên mạng Internet, lượng thông tin văn bn
khổng lồ trong đó đó đã và đang mang lại lợi ích không nhỏ cho con ngưi, tuy nhiên,
nó cũng khin chúng ta khó khăn trong việc tìm kim và tổng hợp thông tin. Gii pháp
cho vấn đề này là tóm tt văn bản tự động. Tóm tt văn bn tự động được xác định là
một bài toán thuộc lĩnh vực khái phá dữ liệu văn bn; việc áp dng tóm tt văn bn sẽ
giúp ngưi dùng tit kiệm thi gian đọc, ci thiện tìm kim cũng như tăng hiệu qu
đánh chỉ mc cho máy tìm kim.
T nhu cầu thực t như th, bài toán tóm tt văn bn tự động nhận được sự quan
tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn
trên th giới. Các bài báo liên quan đn tóm tt văn bn xuất hiện nhiều trong các hội
nghị nổi ting như : DUC
1
2001-2007, TAC
2
2008, ACL
3
2001-2007… bên cạnh đó
cũng là sự phát triển của các hệ thống tóm tt văn bn như : MEAD, LexRank,
Microsoft Word (Chức năng AutoSummarize)…
Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần
đây đối với bài toán tóm tt văn bn tự động đó là đưa ra kt qu tóm tt cho một tập
văn bn liên quan với nhau về mặt nội dung hay còn gọi là tóm tt đa văn bản.
Bài toán tóm tt đa văn bản được xác định là một bài toán có độ phức tạp cao.
Đa số mọi ngưi nghĩ rằng, tóm tt đa văn bn chỉ là việc áp dng tóm tt đơn văn bn
cho một văn bn được ghép t các văn bn trong một tập văn bn cho trước. Tuy nhiên
điều đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đề tóm tt đa văn là
do dữ liệu đầu vào có thể có sự nhập nhằng ngữ nghĩa giữa nội dung của văn bn này
với văn bn khác trong cùng tập văn bn hay trình tự thi gian được trình bày trong
1
Document Understanding Conference.
2
Text Analysis Conference.
3
Association for Computational Linguistics.
2
mỗi một văn bn là khác nhau, vì vậy để đưa ra một kt qu tóm tt tốt sẽ vô cùng khó
khăn [EWK].
Rất nhiều ứng dng cần đn quá trình tóm tt đa văn bn như: hệ thống hỏi đáp
tự động (Q&A System), tóm tt các báo cáo liên quan đn một sự kiện, tóm tt các
cm dữ liệu được tr về t quá trình phân cm trên máy tìm kim… Hướng nghiên
cứu ứng dng bài toán tóm tt đa văn bn vào việc xây dựng hệ thống hỏi đáp tự động
đang là hướng nghiên cứu chính của cộng đồng nghiên cứu tóm tt văn bn nhưng
năm gần đây. Rất nhiều nghiên cứu cho thấy rằng, việc sử dng phương pháp tóm tt
đa văn bn dựa vào câu truy vấn (Query-based multi-document summarization) đối
với kho dữ liệu tri thức để đưa ra một văn bn tóm tt tr li cho câu hỏi của ngưi sử
dng đạt được nhiều kt qu kh quan cũng như thể hiện đây là một hướng tip cận
đúng đn trong việc xây dựng các mô hình hỏi đáp tự động [Ba07,YYL07].
Với việc lựa chọn đề tài “Tóm tt đa văn bản dựa vào trích xuất câu”, chúng
tôi tập trung vào việc nghiên cứu, kho sát, đánh giá và đề xuất ra một phương pháp
tóm tt đa văn bn phù hợp với ngôn ngữ ting Việt, bên cạnh đó áp dng phương
pháp này vào việc xây dựng một mô hình hệ thống hỏi đáp ting Việt.
Ngoài phần mở đầu và kết luận, luâ
̣
n văn đươ
̣
c tô
̉
chư
́
c tha
̀
nh 5 chương như
sau:
Chương 1: Khái quát bài toán tóm tt giới thiệu khái quát bài toán tóm tt
văn bn tự động nói chung và bài toán tóm tt đa văn bn nói riêng, trình bày
một số khái niệm và cách phân loại đối với bài toán tóm tt.
Chương 2: Tóm tt đa văn bản dựa vào trích xuất câu giới thiệu chi tit về
hướng tip cận, thách thức và các vấn đề trong gii quyt bài toán tóm tt đa
văn bn dựa vào trích xuất câu.
Chương 3: Độ tương đồng câu và các phương pháp tăng cường tính ngữ
nghĩa cho độ tương đồng câu trình bày các nghiên cứu về các phương pháp
tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dng vào quá trình trích xuất câu
quan trọng của văn bn.
3
Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng
câu và áp dng vào mô hình tóm tt đa văn ting Việt phân tích, đề xuất một
phương pháp tích hợp các thuật toán để gii quyt bài toán tóm tt đa văn bn
ting Việt và trình bày việc áp dng phương pháp được đề xuất để xây dựng mô
hình hệ thống hỏi đáp ting Việt đơn gin.
Chương 5: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm của luận
văn và đưa ra một số đánh giá, nhận xét các kt qu đạt được.
4
Chương 1. Khái quát bài toán tóm tt văn bản
1.1. Bài toán tóm tắt văn bản tự động
Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tt tự động cho
các bài báo kĩ thuật sử dng phương pháp thống kê thông qua tần suất và phân bố của
các t trong văn bn [Lu58]. Tuy nhiên mãi cho đn những năm cuối th kỷ 20, với sự
phát triển của Internet, lượng thông tin bùng nổ nhanh chóng, việc thu nhận những
thông tin quan trọng cũng trở thành một vấn đề thit yu thì bài toán tóm tt văn bn tự
động mới được sự quan tâm thit thực của nhiều nhà nghiên cứu.
Theo Inderjeet Mani, mc đích của tóm tt văn bn tự động là: “Tóm tắt văn
bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày
các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây
cảm xúc đối với người sử dụng hoặc một chương trình cần đến” [MM99].
Việc đưa ra được một văn bn kt qu tóm tt có chất lượng như là văn bn do
con ngưi làm ra mà không bị giới hạn bởi miền ứng dng là được xác định là cực kỳ
khó khăn. Vì vậy, các bài toán được gii quyt trong tóm tt văn bn thưng chỉ hướng
đn một kiểu văn bn c thể hoặc một kiểu tóm tt c thể.
1.2. Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt
- Tỷ lệ nén(Compression Rate): là độ đo thể hiện bao nhiêu thông tin được
cô đọng trong văn bn tóm tt được tính bằng công thức:
thSourceLeng
gthSummaryLen
nRateCompressio
SummaryLength: Độ dài văn bn tóm tt
SourceLength: Độ dài văn bn nguồn
- Độ nổi bật hay liên quan(Salience or Relevance): là trọng số được gán cho
thông tin trong văn bn thể hiện độ quan trọng của thông tin đó đối với toàn văn bn
hay để chỉ sự liên quan của thông tin đó đối với chương trình của ngưi sử dng.
5
- Sự mạch lạc(coherence): Một văn bn tóm tt gọi là mạch lạc nu tất c các
thành phần nằm trong nó tuân theo một thể thống nhất về mặt nội dung và không có sự
trùng lặp giữa các thành phần.
Phân loại bài toán tóm tắt.
Có nhiều cách phân loại tóm tt văn bn khác nhau tuy nhiên sự phân loại chỉ
mang tính tương đối, ph thuộc vào việc tóm tt trên cơ sở nào. Ở đây, luận văn đề cập
đn phân loại tóm tt dựa trên 3 cơ sở là: dựa vào định dạng, nội dung đầu vào, dựa
vào định dạng, nội dung đầu ra, dựa vào mc đích tóm tt.
Tóm tt dựa trên cơ sở định dạng, nội dung đầu vào sẽ tr li cho câu hỏi “Cái
gì sẽ được tóm tt”. Cách chia này sẽ cho ta nhiều cách phân loại con khác nhau. C
thể như:
- Kiểu văn bản (bài báo, bản tin, thư, báo cáo …). Với cách phân loại này,
tóm tt văn bn là bài báo sẽ khác với tóm tt thư, tóm tt báo cáo khoa học do những
đặc trưng văn bn quy định.
- Định dạng văn bản: dựa vào tng định dạng văn bn khác nhau, tóm tt
cũng chia ra thành các loại khác nhau như: tóm tt văn bn không theo khuôn mẫu
(free-form) hay tóm tt văn bn có cấu trúc. Với văn bn có cấu trúc, tóm tt văn bn
thưng sử dng một mô hình học dựa vào mẫu cấu trúc đã xây dựng t trước để tin
hành tóm tt.
- Số lượng dữ liệu đầu vào: tùy vào số lượng đầu vào của bài toán tóm tt,
ngưi ta cũng có thể chia tóm tt ra thành tóm tt đa văn bn, tóm tt đơn văn bn.
Tóm tt đơn văn bn khi đầu vào chỉ là một văn bn đơn, trong khi đó đầu vào của tóm
tt đa văn bn là một tập các tài liệu có liên quan đn nhau như: các tin tức có liên
quan đn cùng một sự kiện, các trang web cùng chủ đề hoặc là cm dữ liệu được tr về
t quá trình phân cm.
- Miền dữ liệu: dựa vào miền của dữ liệu như c thể về một lĩnh vực nào đó,
ví d như: y t, giáo dc… hay là miền dữ liệu tổng quát, có thể chia tóm tt ra thành
tng loại tương ứng.
6
Tóm tt trên cơ sở mc đích thực chất là làm rõ cách tóm tt, mc đích tóm tt
là gì, tóm tt phc v đối tượng nào
- Nu ph thuộc vào đối tượng đọc tóm tt thì tóm tt cho chuyên gia khác cách
tóm tt cho các đối tượng đọc thông thưng.
- Tóm tt sử dng trong tìm kim thông tin (IR) sẽ khác với tóm tt phc v cho
việc sp xp.
- Dựa trên mc đích tóm tt, còn có thể chia ra thành tóm tt chỉ thị
(Indicative) và tóm tt thông tin (Informative). Tóm tt chỉ thị (indicative) chỉ ra
loại của thông tin, ví d như là loại văn bn chỉ thị “tối mật”. Còn tóm tt thông tin chỉ
ra nội dung của thông tin.
- Tóm tt trên cơ sở truy vấn (Query-based) hay tóm tt chung (General).
Tóm tt general mc đích chính là tìm ra một đoạn tóm tt cho toàn bộ văn bn mà nội
dung của đoạn văn bn sẽ bao quát toàn bộ nội dung của văn bn đó. Tóm tt trên cơ
sở truy vấn thì nội dung của văn bn tóm tt sẽ dựa trên truy vấn của ngưi dùng hay
chương trình đưa vào, loại tóm tt này thưng được sử dng trong quá trình tóm tt
các kt qu tr về t máy tìm kim.
Tóm tt trên cơ sở đầu ra cũng có nhiều cách phân loại.
- Dựa vào ngôn ngữ: Tóm tt cũng có thể phân loại dựa vào kh năng tóm tt
các loại ngôn ngữ:
• Tóm tt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tt chỉ một
loại ngôn ngữ nhất định như: ting Việt hay ting Anh…
• Tóm tt đa ngôn ngữ (Multilingual): hệ thống có kh năng tóm tt nhiều
loại văn bn của các ngôn ngữ khác nhau, tuy nhiên tương ứng với văn
bn đầu vào là ngôn ngữ gì thì văn bn đầu ra cũng là ngôn ngữ tương
ứng.
• Tóm tt xuyên ngôn ngữ (Crosslingual): hệ thống có kh năng đưa ra
các văn bn đầu ra có ngôn ngữ khác với ngôn ngữ của văn bn đầu vào.
- Dựa vào định dạng đầu ra của kt quả tóm tt: như bng, đoạn, t khóa.
7
Ngoài hai cách phân loại trên, phân loại tóm tt trên cở sở đầu ra còn có một
cách phân loại được sử dng phổ bin là: tóm tt theo trích xuất (Extract) và tóm tt
theo tóm lược (Abstract).
• Tóm tt theo trích xuất: là tóm tt có kt qu đầu ra là một tóm tt bao
gồm toàn bộ các phần quan trọng được trích ra t văn bn đầu vào.
• Tóm tt theo tóm lược: là tóm tt có kt qu đầu ra là một tóm tt
không giữ nguyên lại các thành phần của văn bn đầu vào mà dựa vào
thông tin quan trọng để vit lại một văn bn tóm tt mới.
Hiện nay, các hệ thống sử dng tóm tt theo trích xuất được sử dng phổ bin
và cho kt qu tốt hơn tóm tt theo tóm lược. Nguyên nhân tạo ra sự khác biệt này là
do các vấn đề trong bài toán tóm tt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận
và sinh ra ngôn ngữ tự nhiên được đánh giá là khó và chưa có nhiều kt qu nghiên
cứu kh quan hơn so với hướng trích xuất câu của bài toán tóm tt theo trích xuất.
Trong thực t, theo đánh giá của Dragomir R. Radev (Đại học Michigan, Mỹ) chưa có
một hệ thống tóm tt theo tóm lược đạt đn sự hoàn thiện, các hệ thống tóm tt theo
tóm lược hiện nay thưng dựa vào thành phần trích xuất có sẵn. Các hệ thống này
thưng được bit đn với tên gọi tóm tt theo nén văn bản.
Tóm tt theo nén văn bản (Text Compaction): là loại tóm tt sử dng các
phương pháp ct xén(truncates) hay vit gọn(abbreviates) đối với các thông tin quan
trọng sau khi đã được trích xuất.
Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tt khác nhau tuy nhiên hai loại
tóm tt là tóm tt đơn văn bản và tóm tt đa văn bản vẫn được sự quan tâm lớn của
các nhà nghiên cứu về tóm tt tự động.
1.3. Tóm tắt đơn văn bản
Bài toán tóm tt văn bn đơn cũng giống như các bài toán tóm tt khác, là một
quá trình tóm tt tự động với đầu vào là một văn bn, đầu ra là một đoạn mô t ngn
gọn nội dung chính của văn bn đầu vào đó. Văn bn đơn có thể là một trang Web,
8
một bài báo, hoặc một tài liệu với định dạng xác định (ví d : .doc, .txt)… Tóm tt văn
bn đơn là bước đệm cho việc xử lý tóm tt đa văn bn và các bài toán tóm tt phức
tạp hơn. Chính vì th những phương pháp tóm tt văn bn ra đi đầu tiên đều là các
phương pháp tóm tt cho văn bn đơn.
Các phương pháp nhằm gii quyt bài toán tóm tt văn bn đơn cũng tập trung
vào hai loại tóm tt là: tóm tt theo trích xuất và tóm tt theo tóm lược.
Tóm tt theo trích xuất
Đa số các phương tóm tt theo loại này đều tập trung vào việc trích xuất ra các
câu hay các ngữ nổi bật t các đoạn văn bn và kt hợp chúng lại thành một văn bn
tóm tt. Một số nghiên cứu giai đoạn đầu thưng sử dng các đặc trưng như vị trí của
câu trong văn bn, tần số xuất hiện của t, ngữ hay sử dng các cm t khóa để tính
toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bn
tóm tt [Lu58, Ed69]. Các kỹ thuật tóm tt gần đây sử dng các phương pháp học máy
và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của
văn bn. Sử dng các phương pháp học máy có thể kể đn phương pháp của Kupiec,
Penderson and Chen năm 1995 sử dng phân lớp Bayes để kt hợp các đặc trưng lại
với nhau [PKC95] hay nghiên cứu của Lin và Hovy năm 1997 áp dng phương pháp
học máy nhằm xác định vị trí của các câu quan trọng trong văn bn [LH97]. Bên cạnh
đó việc áp dng các phương pháp phân tích ngôn ngữ tự nhiên như sử dng mạng t
Wordnet của Barzilay và Elhadad vào năm 1997 [BE97].
Tóm tt theo tóm lược
Các phương pháp tóm tt không sử dng trích xuất để tạo ra tóm tt có thể
xem như là một phương pháp tip cận tóm tt theo tóm lược. Các hướng tip cận có
thể kể đn như dựa vào trích xuất thông tin (information extraction), ontology, hợp
nhất và nén thông tin… Một trong những phương pháp tóm tt theo tóm lược cho kt
qu tốt là các phương pháp dựa vào trích xuất thông tin, phương pháp dạng này sử
dng các mẫu đã được định nghĩa trước về một sự kiện hay là cốt truyện và hệ thống
sẽ tự động điền các thông tin vào trong mẫu có sẵn rồi sinh ra kt qu tóm tt. Mặc dù
9
cho ra kt qu tốt tuy nhiên các phương pháp dạng này thưng chỉ áp dng trong một
miền nhất định [MR95].
1.4. Tóm tắt đa văn bản
Tóm tt đa văn bn có thể được coi như là một mở rộng của tóm tt đơn văn
bn. Mc đích của tóm tt đa văn bn:
Là quá trình trích xuất nội dung t một tập các văn bn có liên quan đn nhau,
trong quá trình đó các thông tin dư tha sẽ được loại bỏ và những thông tin quan trọng
sẽ được biểu diễn dưới hình thức cô đọng, súc tích và giàu cm súc đn ngưi sử dng
hoặc chương trình cần dùng [MM99].
Tóm tt đa văn bn được xác định là một bài toán có độ phức tạp cao, ngoài
những thách thức đã được bit đn đối với tóm tt đơn văn bn như sự cô đọng của
thông tin và mạch lạc về nội dung, tóm tt đa văn bn còn có những thách thức như
cần phi xác định những thông tin trùng lặp giữa các văn bn, xác định thông tin quan
trọng trong nhiều văn bn hay việc sp xp các thông tin trong văn bn tóm tt.
Do tóm tt đa văn bn là một mở rộng của tóm tt đơn văn bn, cho nên cũng
như tóm tt văn bn đơn các phương pháp gii quyt tóm tt đa văn bn cũng đi theo
hai hướng tip cận là dựa vào trích xuất và dựa vào tóm lược. Tuy nhiên, do những
hạn ch của phương pháp gii quyt bằng tóm tt theo tóm lược đã được nêu ở trên,
các phương pháp gii quyt tóm tt đa văn bn hầu như tập trung vào phương pháp
tóm tt đa văn bản dựa vào trích xuất câu. Chính t tình hình thực t đấy, luận văn
đã tập trung nghiên cứu, kho sát các kỹ thuật tóm tt đa văn bn liên quan đn
phương pháp tóm tt văn bn dựa vào trích xuất câu để gii quyt bài toán tóm tt đa
văn bn ting Việt.
1.5. Tóm tắt chương một
Trong chương này luận văn giới thiệu khái quát bài toán tóm tt văn bn tự
động các vấn đề liên quan và cách phân loại đối với bài toán tóm tt văn bn tự động.
Trong chương tip theo, luận văn sẽ làm rõ các vấn đề của bài toán tóm tt đa văn bn
nói chung và bài toán tóm tt đa văn bn dựa vào trích xuất câu nói riêng.
10
Chương 2. Tóm tt đa văn bản dựa vào trích xuất
câu
2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản
Như chúng ta đã bit ở trên tóm tt văn bn nói chung và tóm tt đa văn bn
nói riêng là bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Trong phân tích xử lý
ngôn ngữ tự nhiên có các mức độ sâu xử lý khác nhau được sp xp theo thứ tự như
sau: đầu tiên là mức hình thái (Morphological), tip theo là mức cú pháp (Syntactic),
tip đn là mức ngữ nghĩa (Semantic) và cuối cùng là mức ngữ dng (Pragmatic).
Tương tự như các độ sâu xử lý của xử lý ngôn ngữ tự nhiên, phương pháp tip cận để
gii quyt bài toán tóm tt đa văn bn cũng có thể được phân loại dựa vào độ sâu xử lý
được thực hiện trong quá trình tóm tt. Tuy nhiên phương pháp tip cận để gii quyt
bài toán tóm tt đa văn bn chỉ có ba mức, là các mức: hình thái, cú pháp và ngữ
nghĩa.
Mức hình thái: tại mức xử lý này, trong các văn bn, đơn vị được sử dng để
so sánh là các ngữ, câu hay đoạn văn (paragraph). Các phương pháp tại mức này
thưng sử dng độ đo tương đồng dựa trên mô hình không gian vector (Vector space
model) áp dng trọng số TF.IDF cho các t và các câu. Phương pháp tóm tt MMR
[CG98] là phương pháp nổi bật tại mức xử lý này.
Mức cú pháp: đơn vị được sử dng để so sánh tại mức xử lý này là sử dng
việc phân tích những cấu trúc ngữ pháp tương ứng giữa các văn bn với nhau. Các
phương pháp tại mức này tập trung vào việc phân tích cấu trúc ngữ pháp giữa các câu
hay các ngữ trong tng đoạn văn thuộc các văn bn. Phương pháp do Barzilay và các
đồng tác gi khác đề xuất năm 1999 [BME99] thuộc mức xử lý này.
Mức ngữ nghĩa: tại mức xử lý này tập trung nhiều vào việc phân tích các tên
thực thể, mối quan hệ giữa các thực thể cũng như các sự kiện ny sinh thực thể để xác
định được độ quan trọng của thông tin. Phương pháp của McKeown và Radev đề xuất
năm 1995[MR95] là một dạng của tóm tt tại mức xử lý này.
11
Dựa vào các đặc trưng của tng phương pháp tip cận, Inderjeet Mani đã đưa
ra bng so sánh, đánh giá ba mức tip cận để gii quyt bài toán tóm tt đa văn bn
[Ma01].
Mức xử lý
Đặc tính
Ưu điểm
Nhược điểm
Mức hình thái
Sử dng nhiều các
độ đo tương đồng
giữa các t vựng
Sử dng rất phổ
bin, xử lý dư tha
tốt
Không thể mô t
các đặc trưng khác,
kh năng tổng hợp
thông tin kém.
Mức cú pháp
So sánh giữa các
cây cú pháp của câu
hay ngữ trong văn
bn
Có kh năng phát
hiện các khái niệm
tượng đồng trong
các ngữ,cho phép
tổng hợp thông tin.
Không thể mô t
các đặc trưng khác,
đòi hỏi phi mở
rộng các luật so
sánh giữa các cây
cú pháp
Mức ngữ nghĩa
So sánh giữa các
mẫu tài liệu đã
được ấn định.
Có kh năng mô t
nhiều đặc trưng
khác nhau.
Các mẫu phi được
tạo trước đối với
tng miền.
Bng 2.1. Bng so sánh các phương pháp tip cận tóm tt đa văn bn [Ma01].
2.2. Các thách thức của quá trình tóm tắt đa văn bản
Một trong những thách thức lớn nhất của tóm tt đa văn bn chính là sự nhập
nhằng nội dung giữa các văn bn. Có ba nguyên nhân gây ra nhập nhằng nội dung
trong tóm tt đa văn bn đó là: đồng tham chiu xuyên văn bn, nhập nhằng về thi
gian xuyên văn bn, sự trùng lặp nội dung giữa các văn bn.
Trùng lặp đại t và đồng tham chiu
Thông thưng, chúng ta đề cập đn một tên thực thể chính là nói đn tên ban
đầu của thực thể đấy và sau đó thưng hay sử dng một đại t thay th nói về thực thể
12
trên. Xác định chính xác được thực thể mà đại t chỉ đn được gọi là việc xác định
trùng lặp đại t (Pronominal Anaphora resolution).
Việc xác định đúng hai hay nhiều hơn các thực thể của nhiều văn bn khác
nhau cùng chỉ đn một thực thể được gọi là vấn đề xác định đồng tham chiu xuyên
văn bản (Cross Document Co-Reference). Vấn đề này cần phi được gii quyt tốt thì
kt qu đầu ra của tóm tt đa văn bn mới cho ra kt qu tốt và dễ hiểu.
Nhập nhằng mặt thời gian
Các văn bn trong cm tài liệu có thể được chỉ đn bởi nhiều t hay cm t
chỉ thi gian ví d: hôm qua, hôm nay… Việc xác định rõ ràng các mốc thi gian
tương ứng là một điều kiện cần để sp xp các câu hay các văn bn theo đúng trình tự
hợp lý. Một số hệ thống có kh năng xác định được mốc thi gian và thay th các mốc
thi gian tương đối thành các mốc thi gian tuyệt đối bằng việc phân tích nội dung của
văn bn.
Để đm bo tính có thể đọc được đối với văn bn tóm tt của hệ thống tóm tt
đa văn bn thì ba yu tố: Xác định trùng lặp đại t, xác định đồng tham chiu xuyên
văn bn và nhập nhằng về mặt thi gian cần phi được gii quyt tốt. Mặc dù, trong
tóm tt đơn văn bn hai yu tố đầu tiên vẫn xuất hiện tuy nhiên gii quyt hai vấn đề
này không phức tạp như gii quyt trong tóm tt đa văn bn. Bên cạnh đó, vấn đề nhập
nhằng thi gian không xuất hiện trong tóm tt văn bn đơn, do các văn bn đơn đầu
vào coi như đã đm bo về mặt trật tự, yu tố này do chính ngưi tạo ra văn bn tạo
nên [Ji98]. Mặc dù vậy đối với tóm tt đa văn bn, vấn đề này trở nên cực kỳ khó
khăn, các nghiên cứu xoay quanh vấn đề này chỉ tập trung vào các loại dữ liệu có đi
kèm với thi gian như tin tức hay chuỗi các sự kiện. Một trong các phương pháp gii
quyt tốt vấn đề này được Barzilay, Elhadad và McKeown đưa ra vào năm 2002
[BME02]. Còn đối với các tập dữ liệu không rõ ràng về mặt thi gian, các nhà nghiên
cứu mặc định như các văn bn tương đồng về mặt thi gian.
Sự chồng chéo nội dung giữa các tài liệu
Một câu hỏi mà nhiều ngưi đặt ra đối với tóm tt đa văn bn đó là:
13
- Liệu có thể ghép các văn bản lại với nhau rồi sử dng tóm tt đơn văn
bản?
- Câu tr li ở đây là không!
Bằng cách đó chúng ta sẽ không tạo ra được một văn bn tóm tt tốt do không
loại bỏ được sự chống chéo về mặt nội dung cũng như xác định được mối quan hệ giữa
các văn bn.
Mối quan hệ giữa các văn bn có rất nhiều loại khác nhau. Dragomir Radev đã
liệt kê ra 24 loại quan hệ giữa các văn bn [Ra00] như trong bng 2.2. Các mối quan
hệ tồn tại ở nhiều mức khác nhau: mức t (W), mức ngữ (P), mức đoạn hoặc mức câu
(S), mức toàn tài liệu (D).
Đây là một taxonomy của các mối quan hệ xuyên tài liệu được gọi là Cross-
document Structure Theory (CST). Việc sử dng tốt CST sẽ tạo hiệu qu cực kỳ
hữu ích cho việc xác định sự trùng lặp giữa các văn bn trong bài toán tóm tt đa văn
bn.
14
Bng 2.2. Taxonomy mối quan hệ xuyên văn bn [Ra00]
Tỷ lệ nén
Bên cạnh các vấn đề nhập nhằng về mặt nội dung thì tỷ lệ nén cũng là một vấn
đề được đặt ra khi nói đn tóm tt đa văn bn. Trong tóm tt đơn văn bn, tỷ lệ 10% so
với chiều dài của văn bn gốc có thể đủ đối với một văn bn tóm tt. Tuy nhiên đối với
một cm tài liệu n tài liệu với tỷ lệ 10% ta có một văn bn có độ dài 0.1n độ dài trung
bình văn bn. Với n là bin, văn bn tóm tt có thể sẽ trở nên lớn hơn nhiều so với nhu
cầu của ngưi sử dng muốn đọc. Chính vì vậy đối với tóm tt đa văn bn, tỷ lệ nén
cần có sự liên quan đn kích thước của cm tài liệu đó. Đối với tóm tt đa văn bn dựa
15
vào trích xuất câu để đưa ra một văn bn tóm tt có độ dài phù hợp với yêu cầu của
ngưi sử dng, tỷ lệ nén thưng được thay th bằng số lượng câu của văn bn tóm tt.
2.3. Đánh giá kết quả tóm tắt
Đánh giá kt qu tóm tt văn bn là một việc làm khó khăn trong thi điểm
hiện tại. Việc sử dng ý kin đánh giá của các chuyên gia ngôn ngữ được xem là cách
đánh giá tốt nhất, tuy nhiên, cách làm này lại tốn rất nhiều chi phí. Bên cạnh các
phương pháp đánh giá thủ công do các chuyên gia thực hiện, vấn đề đánh giá tự động
kt qu tóm tt cũng nhận được nhiều sự chú ý hiện nay. NIST
1
kể t năm 2000 đã tổ
chức hội nghị DUC mỗi năm một lần để thực hiện việc đánh giá với quy mô lớn các hệ
thống tóm tt văn bn.Việc đánh giá tự động này nhằm mc đích là tìm ra được một độ
đo đánh giá tóm tt gần với những đánh giá của con ngưi nhất.
Độ hồi tưởng (recall) tại các tỷ lệ nén khác nhau chính là thước đo đánh giá
hợp lý, mặc dù nó không chỉ ra được sự khác nhau về hiệu suất của hệ thống. Vì vậy
độ đo về sự bao phủ được tính theo công thức:
C = R E
Ở đây, R là độ hồi tưởng câu được tr về bởi công thức
R = Số đơn vị bao phủ/ Tổng số đơn vị trong mô hình tóm tt.
E là tỷ lệ hoàn thành nằm trong khong t 0 đn 1 (1 là hoàn thành tất c, ¾ là
một phần, ½ là một số, ¼ là khó, 0 là không có)
DUC 2002 đã sử dng một phiên bn để điều chỉnh chiều dài của thước đo bao
phủ, C’:
Với B là sự ngn gọn và α là tham số phn tầm quan trọng. Các loại nhãn cho
E cũng đã được thay đổi thành 100%, 80%, 60%, 40%, 20%, và 0% tương ứng.
1
National Institute of Standards and Technology.
16
Phương pháp ROUGE
BiLingual Evaluation Understudy (BLEU) [KST02] là một phương pháp của
cộng động dịch máy đưa ra để đánh giá tự động các hệ thống dịch máy. Phương pháp
này có hiểu qua nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con
ngưi. Recall Oriented Understudy of Gisting Evaluation (ROUGE) [LH03] là một
phương pháp do Lin và Hovy đưa ra vào năm 2003 cũng dựa trên các khái niệm tương
tự. Phương pháp này sử dng n-gram để đánh giá sự tương quan giữa các kt qu của
mô hình tóm tt và tập dữ liệu đánh giá. Phương pháp này đã cho ra kt qu kh quan
và được sự đánh giá cao của cộng đồng nghiên cứu tóm tt văn bn.
2.4. Tóm tắt đa văn bản dựa vào trích xuất câu
Tóm tt đa văn bn dựa vào trích xuất câu là phương pháp gii quyt bài toán
tóm tt đa văn bn theo hướng tip cận ở mức hình thái. Phương pháp này có ưu điểm
là xử lý tốt các dự tha do chồng chéo về mặt nội dung giữa các văn bn trong cm và
cho ra hiệu qu cao đối với văn bn tóm tt. Chính vì ưu điểm này nên tóm tt đa văn
bn dựa vào trích xuất câu được sự quan tâm,phát triển và sử dng rộng rãi của cộng
động tóm tt văn bn tự động [HMR05, FMN07, BKO07]. Mặc dù có nhiều phương
pháp được công bố nhưng hầu ht các phương pháp đều tập trung vào gii quyt hai
vấn đề chính, đó là:
- Xác định và loại bỏ sự trùng lặp, chồng chéo về mặt nội dung giữa các văn
bn.
- Sp xp các câu trong các văn bn theo độ nổi bật(quan trọng) về mặt nội
dung hoặc độ liên quan đn một truy vấn do ngưi sử dng hay chương
trình cung cấp.
2.4.1. Loại bỏ chồng chéo và sp xp các văn bản theo độ quan trọng
Loại bỏ chồng chéo và sp xp độ quan trọng giữa các văn bn trong cm văn
bn là một trong những vấn đề quan trọng nhất của bài toán tóm tt đa văn bn. Một
trong các phương pháp phổ bin để tính được độ quan trọng này là phương pháp MMR
(Maximal Maginal Relevance) do Jaime Carbonell và Jade Goldstein đề xuất năm
17
1998 [CG98]. Đầu vào của phương pháp này là một cm văn bn đã được sp xp sẵn
và đầu ra là cm văn bn đã được sp xp lại theo thứ tự về ngữ nghĩa. Phương pháp
này sp xp các văn bn dựa vào việc xác định một độ đo làm rõ ranh giới về ngữ
nghĩa giữa các văn bn trong cm. Mỗi một văn bn có độ đo này cực đại nu độ đo về
sự tương đồng giữa văn bn với câu truy vấn cao và cực tiểu được sự tương đồng giữa
văn bn này và các văn bn khác đã được chọn trước đấy. Công thức để tính độ đo này
như sau:
))],(max*)1(),((*[max
21
\
ji
SD
i
SRD
def
DDSimQDSimArgMMR
ji
Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyt định việc đóng góp giữa 2 độ đo.
Nu λ=1 thì độ quan trọng của văn bn chỉ ph thuộc vào độ đo tương đồng giữa văn
bn và câu truy vấn, còn nu λ=0 thì độ đo sự tương đồng giữa văn bn này và văn bn
khác sẽ đạt giá trị cực đại trong biểu thức trên.
C: cm văn bn.
D
i
: văn bn thuộc cm C.
Q: là câu truy vấn (hay câu hỏi ngưi dùng đưa vào).
R=IR(C,Q,θ) : là tập các văn bn của C đã được sp xp thứ tự theo sự liên quan
với câu truy vấn Q dựa vào một ngưỡng xác định θ.
S: là tập các văn bn của R đã được chọn .
R\S: là tập các văn bn chưa được chọn của R.
Sim
1
,Sim
2
: là độ đo về sự tương đồng giữa hai văn bn.
2.4.2. Phương pháp sp xp câu
Xác định độ quan trọng câu là bước xuất hiện hầu ht trong các phương pháp
tóm tt đơn văn bn cũng như tóm tt đa văn bn hiện nay. Độ đo quan trọng này có
thể được xây dựng bằng cách kt hợp nhiều độ đo độ tương đồng câu khác nhau với
các phương pháp ci tin t phương pháp MMR để làm tăng độ quan trọng đối với
18
mức ngữ nghĩa câu [HMR05, FMN07, BKO07]. Công thức của phương pháp MMR
được ci tin cho mức ngữ nghĩa câu:
)],(max*)1(),(*[maxarg)(
ji
s
i
sssimqssimsScore
i
Trong đó:
λ: là tham số nằm trong ngưỡng [0,1] để quyt định việc đóng góp giữa 2 độ đo.
q: là câu truy vấn (hay câu hỏi ngưi dùng đưa vào).
s
i
: là một câu trong cm văn bn.
s
j
: các câu khác nằm trong cm văn bn
sim: độ đo về sự tương đồng giữa hai câu
Nhận xét
C hai vấn đề cần gii quyt trong bài toán tóm tt đa văn bn dựa vào trích
xuất câu đều tập trung vào việc xác định được sự tương đồng giữa hai văn bn nói
chung và giữa hai câu nói riêng. Trên thực t, các phương pháp áp dng và ci tin cho
tóm tt đa văn bn dựa vào đều tập trung vào vấn đề là tăng cưng tính ngữ nghĩa cho
độ đo tương đồng giữa hai câu hay hai văn bn [HMR05, FMN07, BKO07]. Trong
chương 3, luận văn sẽ đi sâu vào giới thiệu chi tit đn các phương pháp tăng cưng
tính ngữ nghĩa cho độ tương đồng câu.
2.5. Tóm tắt chương hai
Trong chương này luận văn đã giới thiệu chi tit đn hướng tip cận, các vấn
đề đặt ra đối với bài toán tóm tt đa văn bn và một số phương pháp để gii quyt các
vấn đề trên. Trong chương tip theo, luận văn tip tc tập trung vào việc giới thiệu các
phương pháp nhằm tương cưng tính ngữ nghĩa cho độ tương đồng giữa hai câu.
19
Chương 3. Độ tương đồng câu và các phương pháp
tăng cường tính ngữ nghĩa cho độ tương đồng câu
3.1. Độ tương đồng
Trong toán học, một độ đo là một hàm số cho tương ứng với một "chiều dài",
một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn. Nó
là một khái niệm quan trọng trong gii tích và trong lý thuyt xác suất.
Ví d, độ đo đm được định nghĩa bởi µ(S) = số phần tử của S
Rất khó để đo sự giống nhau, sự tương đồng. Sự tương đồng là một đại lượng
(con số) phn ánh cưng độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng.
Đại lượng này thưng ở trong phạm vi t -1 đn 1 hoặc 0 đn 1. Như vậy, một độ đo
tương đồng có thể coi là một loại scoring function (hàm tính điểm).
Ví d, trong mô hình không gian vector, ta sử dng độ đo cosine để tính độ
tương đồng giữa hai văn bn, mỗi văn bn được biểu diễn bởi một vector.
3.2. Độ tương đồng câu
Phát biểu bài toán độ tính tương đồng câu như sau: Xét một tài liệu d gồm có n
câu: d = s
1
, s
2
, , s
n
. Mc tiêu của bài toán là tìm ra một giá trị của hàm S(s
i
, s
j
) với
S
(0,1), và i, j = 1, , n. Hàm S(s
i
, s
j
) được gọi là độ đo tương đồng giữa hai câu s
i
và
s
j
. Giá trị càng cao thì sự giống nhau về nghĩa của hai câu càng nhiều.
Ví d: Xét hai câu sau: “Tôi là nam” và “Tôi là nữ”, bằng trực giác có thể thấy
rằng hai câu trên có sự tương đồng khá cao.
Độ tương đồng ngữ nghĩa là một giá trị tin cậy phn ánh mối quan hệ ngữ
nghĩa giữa hai câu. Trên thực t, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ
nghĩa chỉ được hiểu đầy đủ trong một ngữ cnh c thể.