Tải bản đầy đủ (.pdf) (114 trang)

Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (905.63 KB, 114 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC

NGHIÊN CỨU CÁC CÁCH TIẾP CẬN TRONG TÓM TẮT
VĂN BẢN VÀ THỬ NGHIỆM
NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ:3.04.3898
SAM CHANRATHANY

Người hướng dẫn khoa học: TS. LÊ THANH HƯƠNG

HÀ NỘI - 2008


LỜI CAM ĐOAN
Tôi – SAM CHANRATHANY Học viên lớp Cao học CNTT 2005-2007
Trường Đại học Bách Khoa Hà Nội – cam kết đây là công trình nghiên cứu
của bản thân tôi dưới sự hướng dẫn của TS. LÊ THANH HƯƠNG Bộ môn
HỆ THỐNG THÔNG TIN – Khoa CNTT – Trường Đại học Bách Khoa Hà
Nội.Các kết quả nêu trong luận văn là trung thực, không sao chép toàn văn
của bất kỳ công trình nào khác.
Hà Nội, tháng 04 năm 2008
SAM CHANRATHANY


Lời Cảm Ơn
Trước hết tôi xin gửi lời cảm ơn đặc biệt nhất tới TS.Lê Thanh Hương, Bộ
môn Hệ Thống Thông Tin, Khoa Công Nghệ Thông Tin, Trường Đại Học


Bách khoa Hà Nội, Người đã định hướng đề tài và tận tình hướng dẫn chỉ
báo tôi trong suốt quá trình thực hiện luận văn cao học này.
Tôi xin gừi lời cảm ơn sâu sắc tới Trung Tâm Đào Tạo Sau Đại Học
và các thầy cô giáo trong Khoa Công Nghệ Thông Tin, Trường Đại học
Bách Khoa Hà Nội đã tận tình giảng dậy và truyền đạt những kiến thức,
những kinh nghiệm quý báu trong suốt 2 năm học Cao Học.
Cuối cùng tôi xin bày tỏ lòng cảm ơn chân thành tới tất cả các bạn bè,
các thầy cô giáo, các bạn khoa nghệ thông tin 2005-2007, trường đại học
Bách khoa Hà Nội đã động viên, tạo điều kiện cho tôi trong suốt thời gian
thực hiện luận văn này.
Hà Nội, tháng 04 năm 2008
Sam chanrathany


1

MỤC LỤC
Trang

LỜI CẢM ƠN
LỜI CAM ĐOAN
Mục Lục……………………………………………………………… 1
Danh Mục Từ Viết Tắt……………………………………………….. 5
Danh Mục Bảng ……………………………………………………... 6
Danh Mục Hình Vẽ…………………………………………………... 7
Mở Đầu……………………………………………………………….

8

CHƯƠNG 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN


1.1. khái niệm tóm tắt văn bản ………………………………………. 10
1.2.phân loại bài toán tóm tắt văn bản……………………………….. 11
1.2.1. Phân loại theo đầu vào………………………………………… 11
1.2.1.1. Dựa trên nguồn………………………………………………. 11
1.2.1.2.Dựa Trên Ngôn Ngữ ………………………………………… 12
1.2.2.Phân Loại Theo Mục Đích …………………………………….

13

1.2.2.1.Dựa trên cách sử dụng……………………………………….

13

1.2.2.2.Dựa Trên mục đích tóm tắt ………………………………….

13

1.2.3.Phân Loại Theo Đầu ra ………………………………………..

14

1.2.3.1. Kiểu tóm tắt…………………………………………………

14

1.2.3.2.Ứng dụng trên Desktop và ứng dụng trên Web…………….

15


1.2.4.Phân Loại theo kỹ thuật………………………………………

15

1.2.4.1.Hướng tiếp cận cô điển…………………………………….

15

1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus………………

16


2

1.2.4.3.Hướng tiếp cận dựa trên tri thức……………………………..

17

1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ…………………

17

1.3.Các chi tiểu đánh giá………………………………………… 18
1.4. Hệ thống tóm tắt văn bản điển hình……………………………... 19
CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TÓM TẮT VĂN BẢN

2.1.Giới thiệu…………………………………………………………

22


2.2. Đánh giá bên trong…………………………………………. 24
2.2.1. Tính mạch lạc của tóm tắt ………………………………... 24
2.2.2. Độ hàm chứa thông tin của tóm tắt ……………………… 25
2.2.3.Độ chính xác và độ hồi tưởng……………………………... 25
2.2.4.Phương pháp xếp hạng câu………………………………... 27
2.2.5. Phương pháp Lợi ích liên quan…………………………… 27

2.2.6.Mức độ giống nhau về nội dung ………………………….. 28
2.3. Đánh giá bên ngoài…………………………………………. 29
2.3.1. Đánh giá trên độ phù hợp………………………………… 29
2.3.2.Đánh giá trên độ đọc hiểu…………………………………. 31
2.4. So sánh hai phương pháp ……………………………………….. 31
2.5. Hệ thống đánh giá có sẵn hiện này………………………………

32

2.5.1. MEADeval…………………………………………………….. 32
2.5.2. ROUGE………………………………………………………... 33
CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TÓM TẮT VĂN BẢN

3.1. Qúa trình tóm tắt văn bản………………………………………... 40
3.1.1. Bước Xác định chủ đề..………………………………………... 42
3.1.2.Bước Biến đổi ………………………………………................. 42


3

3.1.3. Bước Hiển Thị ………………………………………...............


43

3.2.Các phương pháp dùng trong các bước tóm tắt…………………..

44

3.2.1.Phương pháp xác định chủ đề …………………………………. 44
3.2.1.1. Phương Pháp dựa trên vị trí…………………………………. 44
3.2.1.2. Phương Pháp dựa trên từ gợi ý ……………………………… 45
3.2.1.3. Phương Pháp dựa trên tần số xuất hiện của thuận ngữ……… 46
3.2.1.4. Phương Pháp chống lấp tiêu đề và câu truy vấn…………….. 47
3.2.1.5. Phương Pháp mối quan hệ từ vựng …………………………. 47
3.2.1.6. Phương Pháp cấu trúc diễn ngôn…………………………….. 52
3.2.1.7. Lập luận dựa trên cơ sở tri thức……………………………... 53
3.2.1.9. Phương Pháp Phù Hợp Biên MMR………………………….

54

3.2.1.10.Phương pháp Ngữ nghĩa tiềm ẩn LSA……………………… 55
3.2.1.10.Trích rút thông tin ………………………………………...... 55

3.2.2.Quá trình biến đổi ………………………………………......... 57
3.2.2.1.Giản lược về cấu trúc câu………………………………….. 57
3.2.2.2.Giản lược về mặt ngữ nghĩa ……………………………… 58
3.3.Hiển thị………………………………………................................ 59
3.3.1. Phương pháp hiển thị phân đoạn ……………………………… 60
3.3.2.Phương pháp Hiển thị liên kết………………………………….. 61
3.3.3.So sánh 2 phương pháp……………………………………….... 61
CHƯƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG
4.1. Các hệ thống dùng để so sánh…………………………………… 63

4.2. Quý trình kiểm tra……………..………………………………… 71
4.3. Kết quả thu được….………………………………………........... 72


4

4.3.1.Văn bản tham khảo của hệ thống Mead

72

4.3.1.2.Đánh giá mức độ trích chọn chung…………………………... 72
4.3.1.2.Đánh giá mức độ giống nhau về nội dung…………………… 73
4.3.2.Văn bản SUM-TREE-BANK…………………………………..

76

4.4.NHẬN XÉT CHUNG…………………………………………..... 78
TÀI LIỆU THAM KHẢO……………………………………………

82

PHỤ LỤC ……………………………………………………………

87


5

DANH MỤC CHỮ VIẾT TẮT
Chữ viết tắt


Tiếng Anh

Tiếng Việt

DUC

Document Understanding

Hội nghị về hiểu văn bản

Conference
LCS

Longest common subsequence

Dãy con chung dài nhất

LSA

Latent Sematic Analysis

Phân tích ngữ nghĩa tiềm ẩn

MMR

Maximal Marginal Relevance

Phù hợp biên tối đa


WLCS

Weighted Longest common

Dãy con chung dài nhất dựa

subsequence

trên trọng số

RUM

Relative Utility Method

Phương pháp lợi ích liên quan

RST

Rhetorical Structure Theory

Lý thuyết cấu trúc diễn ngôn

SVD

Singular Value Decomposition

Phân tách giá trị đơn

TF


Term Frequency

Tần số xuất hiện thuận ngữ

TF-IDF

Term Frequency-inverse

Tân số kết hợp của tf và idf

document frequency


6

DANH MỤC BẢNG
Trang
Hình 2-1

Bảng kết quả đánh giá tóm tắt của ROUGE

39

Hình 4-4

Bảng mức độ trích chọn chung dựa trên độ chính 73
xác và độ hồi tưởng

Hình 4-5


Bảng trung bình cộng mức độ trích chọn chung 73
dựa trên độ chính xác và độ hồi tưởng

Hình 4-6

Bảng trung bình cộng mức độ trích chọn chung 74
dựa trên Kappa

Hình 4-7

Bảng mức độ giống nhau về nội dung cosin của 75
từng văn bản

Hình 4-8

Bảng trung bình cộng mức độ giống nhau về nội 75
dung Cosin.

Hình 4-9

Bảng trung bình cộng mức độ giống nhau về nội 76
dung dựa trên đơn vị trung lặp

Hình 4-11

Bảng trung bình cộng mức độ giống nhau về nội 77
dung Cosin so với Abstract.


7


DANH MỤC HÌNH

Trang
Hình 3-1

Mô hình chung của tóm tắt văn bản

41

Hình 3-2

Mô hình chung của trích rút văn bản

41

Hình 3-3

Hệ thống tóm tắt dựa trên mối quan hệ từ vựng

46

Hình 3-4

Văn bản dùng để tìm mối quan hệ từ vựng

48

Hình 3-5


Biểu đồ quan hệ từ vựng cho LC3

52

Hình 3-6

Biểu đồ cấu trúc diễn ngôn

53

Hình 4-1

Mô hình hệ thống tóm tắt Swesum

66

Hình 4-2

Giao diện Swesum

67

Hình 4-3

Giao diện đồ hoạ của hệ thống Mead

69


8


MỞ ĐẦU
………………………….
Ngày nay, Do sự phát triển mạnh mẽ của mạng máy tính toàn cầu và
Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản. Bên
cạnh những ưu điểm không thể phủ nhận, sự quá phong phú và đa dạng của
WWW cũng khiến con người phải đối mặt với tình trạng “quá tải thông tin”. Mặt
khác, trong bối cảnh một xã hội thông tin, nhu cầu nhận thông tin một cách nhanh
chóng, chính xác, cũng như nhu cầu thu nhận được các “tri thức” từ khối lượng
thông tin khổng lồ nói trên đã trở nên cấp thiết. Người sử dụng sẽ rất khó khăn
trong việc tìm kiếm thông tin và họ không thể có thời gian đọc tất cả các tài liệu
để tìm ra thông tin họ cần. Một văn bản tóm tắt sẽ tiết kiệm cho người đọc rất
nhiều thời gian và công sức để tìm kiếm thông tin một cách hiệu quả.
Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một
nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người
dùng cụ thể. Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính,
các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản. Trên
thế giới đã có rất nhiều các ứng dụng Tóm tắt văn bản, với những mục đích
nghiên cứu cũng như thương mại.
Thực ra khái niệm tóm tắt văn bản đã có từ lâu bắt đầu từ cuối thập niên 50 của
thế kỷ 20 và càng ngày càng có nhiều tổ chức tìm hiểu nghiên cứu tạo ra văn bản
tóm tắt dựa trên thuận toán khác nhau nhằm để giải quyết cho văn bản tóm tắt
càng ngày càng hiệu quả và chính xác hơn.
Tuy nhiên, làm thế nào để tóm tắt văn bản một cách hiệu quả và dựa trên thuận
toán nào là hiệu quả nhất vẫn là một thách thức lớn. Và hiện này các nhà nghiên
cứu cũng đưa ra nhiều phương pháp đánh giá trên nhiều tiểu chí khác nhau nhằm
để đánh giá các thuận toán cũng như hệ thống của họ.
Ví vậy mục đích của luận văn này nhằm để tìm hiểu cơ sở lý thuyết về
tóm tắt văn bản cũng như các thuận toán khác nhau thực hiện trong quá trình tóm



9

tắt đã có, các phương pháp đánh giá tóm tắt và đồng thời thực hiện thử nghiệm
so sánh về sự khác nhau và tính hiệu quả của các thuận toán đó.

Nội dung chính của luận văn bao gồm :
¾ Chương 1: Giới thiệu tổng quan về tóm tắt văn bản, các hướng tiếp cận và
việc phân loại bài toán.
¾ Chương 2: Trình bày chi tiết về các phương pháp đánh giá, và các chi tiểu
đánh giá hệ thống tóm tắt văn bản.
¾ Chương 3: Trình bày chi tiết các thuận toán, kiến trúc và hoạt động của hệ
thống tóm tắt tự động.
¾ Chương 4: Thử nghiệm đánh giá mức độ hoạt động các hệ thống và đưa ra
kết quả từ những thí nghiệm.
¾ Chương 5: Kết luận và đưa ra hướng nghiên cứu tiếp theo


10

CHƯƠNG 1
TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

Trong chương này sẽ đề cập đến khái niệm, việc phân loại bàii toán văn
bản cũng như các hệ thống tóm tắt có sẵn hiện này.
9 Khái niệm tóm tắt văn bản
9 Phân loại bài toán tóm tắt văn bản
9 Các hệ thống có sẵn hiện này

1.1. KHÁI NIỆM TÓM TẮT VĂN BẢN

Sự quan tâm đến tóm tắt văn bản xuất hiện vào cuối thập niên 50 bởi thư
viện tìm kiếm của Mỹ [22]. Số lượng bài báo và sách khoa học cực lớn được lưu
trữ dạng số và phải dễ dàng tìm kiếm. Dù sao khả năng lưu trữ bị hạn chế và toàn
bộ sách và bài báo không thể phù hợp với cơ sở dữ liệu lúc đó. Do đó bản tóm tắt
được lưu trữ, đánh chỉ số, và tạo ra việc tìm kiếm hiệu quả. Có lúc bài báo hoặc
sách đã hoàn toàn có bản tóm tắt gắn liên với chúng, nhưng trường hợp không có
thì ta cần tạo cho chúng. Do đó công nghệ tóm tắt đã bắt đầu phát triển ( Luhn
1958, Edmundson 1969, Salton 1988) và trong năm gần đây, với sự tăng lên việc
sử dụng internet làm cho kỹ thuật tóm tắt càng được quan tâm hơn.Từ khi kho
dữ liệu internet phát triển nhanh chống và càng ngày càng rộng lớn. Việc truy
cập vào kho dữ liệu internet khổng lồ và phong phú lại là nhược điểm cho việc
tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không
thống nhất về định dạng lưu trữ và hiển thị. Kể cả khi đã lấy được những thông
tin đó thông qua các hệ thống phân loại, tìm kiếm thì cũng không thể nắm bắt


11

toàn bộ vì thời gian có hạn mà số lượng thông tin trả về quá lớn. Đấy là chưa kể
đến việc những thông tin này liệu đã chính xác như mong muốn hay chưa, liệu
có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng
ta giải quyết phần lớn các nhu cầu vừa nêu. Hệ thống sẽ giúp chúng ta đọc nhanh
hơn, nắm bắt những tri thức cần thiết trong một tài liệu khoa học hàng trăm trang
bằng cách tóm lược tài liệu đó lại thành một đoạn văn bản vài ba chục trang.
Những văn bản tìm thấy từ internet, ta nhờ hệ thống quyết định liệu nên đọc văn
bản nào để có đúng thông tin ta cần. Những tóm lược ngắn gọn các công việc mà
cô thư ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức
email thương mại chỉ vài dòng.Đó là những khả năng mà một hệ thống Tóm tắt
văn bản có thể mang lại.
Vậy tóm tắt văn bản là gì ?

Tóm tắt văn là kỹ thuật mà máy tính tự động tạo ra bản tóm tắt của một
hay nhiều văn bản hoặc nói cách khác “tóm tắt văn bản là quá trình rút gọn
hóa thông tin để đưa ra các thông tin quan trọng nhất trong văn bản”.

1.2.PHÂN LOẠI BÀI TOÁN TÓM TẮT VĂN BẢN
Tóm tắt văn bản có thể chia thành nhiều loại, Mỗi loại được sử dụng cho
mục đích khác nhau, cho các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng
phương pháp và kỹ thuật riêng và có điểm mạnh và điểm yếu riêng. Bài toán tóm
tắt được nhà nghiên cứu phân thành các loại sau [7]:
1.2.1. Phân loại theo đầu vào
1.2.1.1. Dựa trên nguồn
ƒ Đơn Tài liệu ( single document )
Tóm tắt đơn tài liệu có đầu vào chỉ là một tài liệu riêng lẻ, từ tài liệu này hệ
thống tóm tắt tạo ra được một tóm tắt ngắn gọn, xúc tích giúp chúng ta hiểu được


12

nội dung của tài liệu. Đây là phương pháp tóm tắt đơn giản vì các câu, các đoạn
cùng nằm trên cùng một tài liệu, thuận lợi cho việc tìm kiếm các phần của văn
bản để tạo ra tóm tắt. Mặt khác, các câu, các đoạn đều là những mô tả chi tiết về
một chủ đề chung nên chúng ta cũng dễ dàng đưa ra được nội dung chính của tài
liệu .
ƒ Đa Tài liệu ( Multi-Đocument)
Nội dung của các tập tài liệu này thì vô cùng phong phú, có những tài liệu
có nội dung giống nhau, có những tài liệu lại có nội dung khác nhau. Tóm tắt đa
tài liệu sẽ chứa các thông tin chung giữa các tất cả các tài liệu, cộng thêm với các
thông tin khác của một vài tài liệu riêng biệt mà phù hợp trực tiếp với truy vấn
của người sử dụng. Để tạo ra một tóm tắt đa tài liệu là khó hơn tóm tắt đơn tài
liệu. Vì các tài liệu có liên quan với nhau bởi được lấy ra từ một truy vấn chung,

chúng có khả năng chứa nội dung tương tự. Một hệ thống không thể đơn giản nối
nhiều các tóm tắt đơn tài liệu với nhau để tạo thành một tóm tắt đa tài liệu vì sự
lặp lại các điểm quan trọng sẽ là kết quả của tóm tắt đa tài liệu. Nếu một hệ
thống tóm tắt văn bản tự động là một hệ thống tìm kiếm thông tin hữu ích thì
điều kiện tiên quyết là hệ thống đó có thể vận dụng được sự lặp lại nội dung
trong các tài liệu khác nhau.
1.2.1.2.Dựa Trên Ngôn Ngữ
ƒ Đơn ngôn ngữ
Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả ra là văn bản ngôn ngữ đó.
ƒ Đa ngôn ngữ
Mỗi văn bản nguồn chỉ có một loại ngôn ngữ. Nhưng ứng dụng có khả
năng tóm tắt trên nhiều loại ngôn ngữ. Tùy vào văn bản nguồn hoặc tham số đưa
vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn.


13

ƒ Đan xen ngôn ngữ
Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có
thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp. Đây là
loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ
1.2.2.Phân Loại Theo Mục Đích
1.2.2.1.Dựa trên cách sử dụng
ƒ Tóm Tắt chỉ dẫn ( indicative summary )
Mục đích chính của tóm tắt này là đoán nội dung của tài liệu mà không
quan tâm đến mức chỉ tiết của nó. Vì thế, một tóm tắt chỉ dẫn giúp người sử
dụng quyết định nên đọc tài liệu nguồn hay không. Bìa tài liệu (book jacket ),
bảng chỉ mục (card catalog entries ) và đoạn giới thiệu phim (movie trailer ) là
các ví dụ về các tóm tắt chỉ dẫn.
ƒ Tóm Tắt cung cấp thông tin (informative summary )

Ngược lại, tóm tắt cung cấp thông tin bao gồm tất cả các thông tin chính
trong tài liệu nguồn ở một mức độ chi tiết nào đó. Nó cũng phản ánh nội dung
ngữ nghĩa của văn bản đưa vào ở một mức độ nhất định.
1.2.2.2.Dựa Trên mục đích tóm tắt
ƒ Tóm tắt chung chung (generic summary )
Tóm tắt chung chung là tóm tắt cung cấp cho chúng ta một cái nhìn khái
quát nhất về toàn bộ tài liệu văn bản.
ƒ Tóm tắt dựa trên truy vấn ( query-based summary )
Một tóm tắt văn bản phù hợp truy vấn phải chứa các thông tin phù hợp với mục
đích tìm kiếm của người sử dụng, cũng như loại trừ các thông tin dưa thừa và
không phù hợp. Với một tài liệu d và một truy vấn q, hệ thống tóm tắt phù hợp


14

truy vấn sẽ trích rút ra một phần văn bản s (các câu hoàn chỉnh hoặc các đoạn )
từ d trả lời tốt nhất cho câu hỏi được đưa ra.
Thực tế trong tìm kiếm trực tuyến và thu thập thông tin người sử dụng
thích các tóm tắt phù hợp truy vấn hơn tóm tắt chung chung. Nó chỉ dẫn cho
người sử dụng tìm kiếm được các thông tin phù hợp với nhu cầu. Tuy nhiên để
hiểu được nội dung chính của các tài liệu được đưa ra cần phải đọc tóm tắt chung
chung.
1.2.3.Phân Loại Theo Đầu ra
1.2.3.1. Kiểu tóm tắt
ƒ Tóm tắt trích rút ( extractive-summary )
Các tóm tắt trích rút là các tóm tắt được tạo tự động bằng sự trích rút các
câu hay các đoạn nằm trong tài liệu. Các trích rút này được sắp xếp theo một thứ
tự (thường là giống với thứ tự trong tài liệu ban đầu ). Phương pháp này còn có
nhiều hạn chế, một trong những hạn chế đặc biệt quan trọng là: khả năng hệ
thống tóm tắt trích rút có thể tạo ra được các tóm tắt có độ dài ngắn hơn các

phần văn bản (text- spans ) đã được đánh giá và xếp hạng. Hầu hết các hệ thống
tóm tắt trích rút đều xem xét các câu trong một tập nhỏ văn bản đã được trích rút
. Điều này có nghĩa là các tóm tắt ngắn nhất mà các hệ thống này có thể tạo ra ít
nhất cũng phải là một câu dài. Nó có thể không tốt trong nhiều trường hợp, đặc
biệt nếu muốn đưa ra một dòng tiêu đề ngắn (headline ). Do các câu được lựa
chọn cho tóm tắt có xu hướng dài hơn các câu trung bình trong tài liệu và các
thông tin quan trọng nhất trong tài liệu thường nằm rải rác trong nhiều câu, tóm
tắt trích rút không thể kết hợp cú pháp cũng như ngữ nghĩa và các khái niệm
được đề cập trong các phần văn bản khác nhau (text-spans ) của tài liệu nguồn để
tạo ra một tóm tắt theo văn xuôi.


15

ƒ Tóm tắt tóm lược ( abstract-summary )
Một hệ thống tóm tắt trừu tượng có thể tạo ra một tóm tắt, hơn là trích rút ra một
tóm tắt. Tức là tóm tắt có thể chứa các phần văn bản (các từ hoặc các câu ) không
có trong tài liệu ban đầu.
1.2.3.2.Ứng dụng trên Desktop và ứng dụng trên Web
Phân theo môi trường cài đặt ứng dụng, ta có hai loại sau :
• Ứng dụng trên Desktop: Ứng dụng phát triển trên máy để bàn, đòi
hỏi độ chính xác cao, có khả năng Tóm lược (Abstract ), độ nén
không cao.
• Ứng dụng trên Web: Ứng dụng phát triển trên môi trường Web, đòi
hỏi thời gian thực hiện nhanh, nên thường là Trích rút (Extract ), độ
nén lớn. Ví dụ : Tóm tắt danh mục từ Search Engine, trang tin.
1.2.4.Phân Loại theo kỹ thuật
Theo inderjeet Mani và Mark T.Maybury thì [29] có 4 hướng tiếp cận cơ
bản : Hướng tiếp cận cô điển, Hướng tiếp cận dựa trên Corpus, Hướng tiếp cận
dựa trên tri thức, Khai thác cấu trúc ngôn ngữ.

1.2.4.1.Hướng tiếp cận cô điển
Hướng tiếp cận cô điển mô tả sự tìm kiếm mức bê mặt ( surface-level ) là
sự nghiên cứu cơ sở của bài toán tóm tắt văn bản, ví dụ bài báo của Luhn được
tạo ra năm 1958 dựa trên tấn số xuất hiện của thuận ngữ term frequency,
Edmundson năm 1969 [12] so sánh phương pháp tần số xuất hiện của thuận ngữ
với các đặc trưng khác, và Chemical Abstract Service được phát triển bởi
Pollock năm 1973 dựa trên Chemical cue-phrases.


16

Lunh mô tả thuận toán trích rút thông tin dựa trên tần số xuất hiện của câu
để đo câu thích hợp. Thuận toán Lunh chọn thuận ngữ dựa trên danh sách stoplist và tính toán tần số xuất hiện của thuận ngữ sau đó bằng cách tập hợp lại các
thuận ngữ với nhau dựa trên phép chiếu giống nhau. Các tần số xuất hiện của câu
này sau này được sử dụng để cho điểm và trích rút câu trong việc tóm lược.
Edmuson kết hợp phương pháp từ gợi ý, từ trong đầu đề và vị trí câu tạo ra
điểm lựa chọn cao nhất.
1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus
Hướng tiếp cận thứ 2 là mô tả các phương pháp dựa trên tập ngữ liệu
corpus khác nhau. Sự nghiên cứu mô tả cách sử dụng sự phân loại Baysian để
trích rút câu thường gọi là hướng tiếp cận KPC. Nó là một lớp của tầm nhìn
corpus dựa trên việc thống kê. Từ gợi ý Cue words, vị trí của câu sentence
location, từ trong đầu đề title word có ảnh hưởng quan trọng tới việc thống kê
corpus. Về hình thái học, các từ đồng nghĩa (synonym words), tên riêng proper
name và các thuộc tính ngôn ngữ khác nhấn mạnh sự thể hiện của tóm tắt văn
bản [29].
Okurowski,Gorilinsky, and Larsen, mô tả DimSum, hệ thống trích rút
câu sử dụng thông kế văn bản và thông kế corpus để nhận được từ đặc trưng cho
bản tóm tắt.
Houy and Lin thảo luận trên việc xác định chủ đề và hợp lại cho việc tóm

tắt văn bản. Trong việc xác định chủ đề, họ sử dụng thuật toán mới cho việc xác
định tự động vị trí của câu chứa chủ đề quan trọng. sau đó họ kết hợp vị trí của
câu với các đặc trưng thích hợp để cho điểm các cầu. Khi hợp lại chủ đề, họ triển
khai thác khái niệm sử dụng cơ sở dữ liệu từ vựng WordNet, phân loại văn bản
và phân cụm văn bản.


17

1.2.4.3.Hướng tiếp cận dựa trên tri thức
Khi 2 hướng tiếp cận trên dựa trên hướng tiếp cận hướng tiếp cận bê mặt
thì hướng tiếp cận thứ 3 ám chí tới các ứng dụng khác nhau tức là tóm tắt theo
văn bản chỉ định về lĩnh vực khác nhau: Hầu hết mọi nghiên cứu thường là biến
đổi thông tin từ nhiều sự kiện thành một câu đơn, tuy thuộc vào ràng buộc ngôn
ngữ khác nhau .
Hahn và Reimer 1990, thể hiện hướng tiếp cận tóm tắt văn bản dựa trên
cấu trúc miểu tả trí thức nhận từ hệ thống hiểu văn bản TOPIC. Họ định nghĩa
tập toán tử nổi bật về ngữ nghĩa logic thuận ngữ. Tập toán tử này được đặt trong
cơ sở dữ liệu tri thức được tạo ra bởi hệ thống TOPIC để chỉ định các khái niệm,
các thuộc tính và mối quan hệ thể hiện vài trò thích hợp trong văn bản.
McKeown, Robin và Kukich 1994, họ cài đặt hệ thống tóm tắt ngôn ngữ
trên 2 hệ thống: STEAK, cho lĩnh vực bóng rổ và PLANDOC sử dụng cấu trúc
tạo ra như một báo cáo chứa tóm tắt mạng telephone [29].
1.2.4.4.Hướng tiếp cận khai thác cấu trúc ngôn ngữ
Hướng tiếp cận này dựa trên thuộc tính văn bản như mối quan hệ của từ
cohesion, tính mạch lạc coherence và mối quan hệ tu từ để phục vụ cho việc tóm
tắt văn bản.
Boguraev và Kenndy 1997, phân loại chủ đề tự động dựa trên tiến trình xử
lý ngôn ngữ, ví dụ đơn vị cụm từ miêu tả trong nội dung tài liệu sử dụng giải
pháp trùng lặp.

Barzilay và ELhadad 1998, sử dụng chuỗi từ vựng cho bước biến đổi, ví
dụ dãy của câu được nhóm với nhau bằng mối quan hệ liên kết cohesion trong
WordNet [29], [37].


18

Daniel Marcu đưa ra thuận toán tóm tắt dựa trên cấu trúc ngôn ngữ mà sử
dụng đầu ra của việc phân tích từ loại tu từ để tạo ra việc tóm tắt văn bản.
Teufel and Moens khai thác cấu trúc văn bản khoa học như là biện pháp
để xây dựng tóm lược linh hoạt. hệ thống trích rút câu dựa trên việc phân loại
Bayesian: đầu tiên hệ thống tóm lược câu thích hợp và sau đó phân loại chúng
dựa trên vai trò tu từ.

1.3.CÁC CHI TIỂU ĐÁNH GIÁ
Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là
những tham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của
mình, thường gồm các giá trị như sau:
Độ rút gọn ( độ nén )
Là tỉ số giữa số lượng đơn vị ngữ liệu của văn bản kết quả trên số lượng
đơn vị ngữ liệu của tập văn bản vào.
• Tỉ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký
tự/ký tự, thường tính bằng %. Giá trị chuẩn của độ rút gọn thường là
khoảng 10% đến 30% của văn bản gốc, nhưng hiển nhiên giá trị nó
có thể là nằm từ khoảng 1% đến 99% được coi là đã tóm tắt theo định
nghĩa. Jing, et al (1998) tóm tắt tại độ rút gọn 10% thường được coi
là tốt hơn tóm tắt tại độ rút gọn 20%.
• Độ rút gọn tỉ lệ thuận với độ khó thuật toán.



19

Độ chính xác
• Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản đầu vào
và câu truy vấn. Nói cách khác, nó thể hiện sự phù hợp giữa kết quả
và truy vấn.
• Được đánh giá dựa trên các hệ thống đánh giá tóm tắt như DUC,
SUMMAC, ROUGE… và các tập dữ liệu, kiểm thử mẫu (Corpus ).
• Độ chính xác tỉ lệ thuận với độ khó thuật toán.
Mức độ liên kết
• Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với
nhau.
• Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và cú pháp.
• Mức độ liên kết cũng tỉ lệ thuận với độ khó của thuật toán tóm tắt.
Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay thế
cho tiêu chí mức độ liên kết này

1.4. HỆ THỐNG TÓM TẮT VĂN BẢN ĐIỂN HÌNH
ƒ SUMMARIST: Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng
Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc).
Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ
thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp
và indonesia.
ƒ WEBSUMM: Hệ thống trích rút câu từ một đơn tài liệu hoặc đa tài
liệu liên quan với công cụ tìm kiếm. Tóm tắt kết quả là trích rút của câu


20

dựa trên sự truy vấn của người sử dụng. Nó được tạo bởi sự miêu tả tài

liệu nguồn như mạng lưới cầu. Sử dụng thuận ngữ truy vấn để trích rút
nút liên quan, câu được trích rút .
ƒ LETSUM: Là một hệ thống mới được xây dựng để tóm tắt tài liệu
thuộc lĩnh vực luật pháp. Hệ thống này được cài đặt trong môi trường
CanLii, học viện thông tin luận pháp của Canada.
ƒ SweSUM: Ứng dụng Tóm tắt văn bản đa ngôn ngữ của Học viện công

nghệ hoàng gia Thụy Điển. SweSUM có thể tóm tắt các văn bản có
ngôn ngữ vùng Scandinavi như Thụy Điển, Đan Mạch, Na Uy và các
ngôn ngữ khác như tiếng Anh, Pháp, Đức, Tây Ban Nha và cả tiếng iran.
ƒ SumUM: Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu
xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada. SumUM có
thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt.
ƒ FJCL: Hệ thống trích rút văn bản tiếng Nhật được phát triển trong
phòng nghiên cứu ikeda của trường đại học Gifu. Đây là một hệ thống
sử dụng các phương pháp áp dụng cho hệ ngôn ngữ đơn âm tiết
(monosyllabic language system) như tiếng Nhật, Hàn Quốc, Trung
Quốc và Việt Nam.
ƒ Pertinence Summarizer: Hệ thống tóm tắt tin tức đa ngôn ngữ trực
tuyến nổi tiếng. Hiện tại để thử nghiệm khả năng của mình, Pertinence
đã được tích hợp với Google và tóm tắt tự động danh sách tìm kiếm trả
về từ Google thông qua câu truy vấn đưa vào. Chúng ta có thể thử
nghiệm hệ thống này trên trang web : www.pertinence.net .


21

ƒ MEAD: Nền tảng cho các hệ thống Tóm tắt đa văn bản và đa ngôn ngữ.
Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng
ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt

và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung tấp
cho chúng ta khung ứng dụng để cài đặt các ứng dụng tóm tắt văn bản
cho ngôn ngữ mà ta muốn. Ngoài ra MEAD cũng cung cấp các công cụ
để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và
các tập mẫu nổi tiếng. MEAD được xây dựng bởi các chuyên gia nổi
tiếng về xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của
chương trình nghiên cứu công nghệ thông tin của tổ chức khoa học
quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để nghiên
cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD.


22

CHƯƠNG 2.
CÁC PHƯƠNG PHÁP ĐÁNH GiÁ TÓM TẮT VĂN BẢN
Trong chương này sẽ cung cấp cho chúng ta biết về các phương pháp
khác nhau trong việc đánh giá hệ thống tóm tắt văn bản tự động.
9 Đánh giá bên trong
9 Đánh giá bên ngoài
9 So sánh phương pháp đánh giá bên trong và đánh giá bên ngoài
9 Hệ thống đánh giá có sẵn

2.1.GIỚI THIỆU
Trong chương 1 chúng ta đã biết qua về các tiêu chí đánh giá kết quả tóm
tắt văn bản như độ rút gọn, độ chính xác, mức độ liên kết. Tuy nhiên các tiêu chí
đó được trình bày như là những thông số đầu vào cho một hệ thống tóm tắt.
Thực ra bài toán tóm tắt đã có từ lâu, thậm chí trước khi khái niệm Khai phá văn
bản ra đời, do vậy vấn đề đánh giá kết quả tóm tắt cũng đã ra đời từ khá lâu và
được nghiên cứu một cách nghiêm túc, khoa học và có hệ thống.
Đối với việc đánh giá một ứng dụng tóm tắt văn bản, một số vấn đề sau

hiện đang là những thách thức lớn nhưng cũng là những khía cạnh làm cho việc
đánh giá tóm tắt đáng được quan tâm,
Lưu ý:
Tóm tắt liên quan đến việc máy tính sinh ra kết quả ở dạng giao tiếp ngôn
ngữ tự nhiên của con người. Trong trường hợp kết quả là một câu trả lời cho một
câu hỏi, chúng ta có thể xác định được câu trả lời đó đúng hay sai, nhưng trong
các trường hợp khác, thật khó trả lời liệu đầu ra là một kết quả đúng ? Thực tế


×