DSpace at VNU: Tự động sinh mục lục cho văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (364.92 KB, 19 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Việt Cƣờng

TỰ ĐỘNG SINH MỤC LỤC
CHO VĂN BẢN

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS.TS. HÀ QUANG THUỲ

HÀ NỘI – 2007

i

LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới
PGS.TS. Hà Quang Thuỵ, ngƣời thầy đã dìu dắt tôi suốt bao năm qua trên bƣớc
đƣờng nghiên cứu khoa học.
Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của TS.
Nguyễn Lê Minh (JAIST, Nhật Bản) và TS. Phan Xuân Hiếu (Đại học Tohoku,
Nhật Bản) trong suốt quá trình nghiên cứu và hoàn thành luận văn này.
Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi
trong quá trình làm việc và nghiên cứu của tập thể các thầy cô và anh chị em

trong Bộ môn Các hệ thống thông tin và Phòng thí nghiệm Công nghệ tri thức
và Tƣơng tác ngƣời máy.
Tôi xin cảm ơn sự hỗ trợ từ các đề tài: Đề tài cấp Nhà nƣớc “Nghiên cứu,
phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh
thông tin trên mạng Internet” mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10; Đề tài
cấp Đại học Quốc gia Hà Nội “Tóm tắt văn bản tiếng Việt: Rút gọn câu và Phát
hiện quan hệ ngữ nghĩa” mã số QC.07.09.
Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, ngƣời thân và bạn bè –
những ngƣời luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến
khích tôi trong cuộc sống và trong công việc.
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 11 năm 2007
Tác giả

Nguyễn Việt Cường

ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn đƣợc hoàn thành trên cơ sở nghiên cứu, tổng
hợp và phát triển các kĩ thuật trong tóm tắt văn bản trong nƣớc và trên thế giới
do tôi thực hiện.
Luận văn này là mới và không sao chép nguyên bản từ bất kì một nguồn
tài liệu nào khác.

iii

MỤC LỤC

LỜI CẢM ƠN ........................................................................................................ i
LỜI CAM ĐOAN.................................................................................................. ii
MỤC LỤC ............................................................................................................ iii
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ......................................... v
DANH MỤC CÁC BẢNG................................................................................... vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................. vii
MỞ ĐẦU ............................................................................................................... 1
Chƣơng 1. GIỚI THIỆU BÀI TOÁN ................................................................... 4
1.1. Bài toán tóm tắt văn bản............................................................................. 4
1.2. Bài toán xây dựng mục lục cho văn bản .................................................... 4
1.3. Phƣơng hƣớng giải quyết bài toán ............................................................. 5
1.4. Các công trình liên quan ............................................................................ 6
Chƣơng 2. PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ ... Error! Bookmark
not defined.
2.1. Phân đoạn văn bản.................................... Error! Bookmark not defined.
2.2. Các phƣơng pháp phân đoạn văn bản ...... Error! Bookmark not defined.
2.2.1. Sử dụng mối liên kết từ vựng ............ Error! Bookmark not defined.
2.2.2. Sử dụng mô hình nhát cắt cực tiểu .... Error! Bookmark not defined.
2.3. Sinh tiêu đề cho văn bản .......................... Error! Bookmark not defined.
2.4. Các phƣơng pháp sinh tiêu đề cho văn bản............. Error! Bookmark not
defined.
2.4.1. Phƣơng pháp trích chọn cụm từ ........ Error! Bookmark not defined.
2.4.2. Phƣơng pháp hai pha ......................... Error! Bookmark not defined.
2.5. Tóm tắt chƣơng hai .................................. Error! Bookmark not defined.
Chƣơng 3. XÂY DỰNG MỤC LỤC CHO VĂN BẢN..... Error! Bookmark not
defined.
3.1. Mô hình tích hợp thuật toán ..................... Error! Bookmark not defined.
3.2. Đảm bảo tính hợp lí của mục lục ............. Error! Bookmark not defined.
3.3. Các phƣơng pháp đánh giá ....................... Error! Bookmark not defined.
3.3.1. Đánh giá thuật toán phân đoạn.......... Error! Bookmark not defined.

3.3.2. Đánh giá thuật toán sinh tiêu đề ........ Error! Bookmark not defined.

iv
3.4. Tóm tắt chƣơng ba ................................... Error! Bookmark not defined.

v
Chƣơng 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ...... Error! Bookmark not defined.
4.1. Môi trƣờng thử nghiệm ............................ Error! Bookmark not defined.
4.2. Dữ liệu thử nghiệm .................................. Error! Bookmark not defined.
4.3. Quá trình thử nghiệm ............................... Error! Bookmark not defined.
4.4. Kết quả thử nghiệm .................................. Error! Bookmark not defined.
4.4.1. Kết quả phân đoạn văn bản ............... Error! Bookmark not defined.
4.4.2. Kết quả sinh tiêu đề ........................... Error! Bookmark not defined.
4.5. Đánh giá thử nghiệm ................................ Error! Bookmark not defined.
4.5. Phƣơng hƣớng cải tiến ............................. Error! Bookmark not defined.
4.6. Tóm tắt chƣơng bốn ................................. Error! Bookmark not defined.
KẾT LUẬN ......................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ..................................................................................... 8

vi

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
STT Kí hiệu/Viết tắt
1

TF

Diễn giải
Term Frequency
Tần suất của từ / cụm từ trong một văn bản

2

TF * IDF

Term Frequency * Inverse Document Frequency
Trọng số của từ / cụm từ đƣợc tính theo tần suất trong văn
bản và tần suất văn bản chứa từ / cụm từ đó.

3

DUC

Document Understanding Conferences
Hội nghị chuyên về hiểu văn bản.

4

ACL

The Association for Computational Linguistics
Hiệp hội xử lí văn bản trên máy tính.

5

SVO

Subject – Verb – Object
Cấu trúc ngữ pháp Chủ ngữ – Động từ – Tân ngữ.

vii

DANH MỤC CÁC BẢNG
Bảng 1. Biểu diễn vectơ của hai khối văn bản ví dụ .......... Error! Bookmark not
defined.
Bảng 2. Danh sách các công cụ phần mềm sử dụng để thử nghiệm ............ Error!
Bookmark not defined.
Bảng 3. Cấu trúc văn bản thử nghiệm ................. Error! Bookmark not defined.
Bảng 4. Danh sách từ dừng ................................. Error! Bookmark not defined.
Bảng 5. Tập nhãn từ loại (tập mở) ...................... Error! Bookmark not defined.
Bảng 6. Tập nhãn từ loại (tập đóng) ................... Error! Bookmark not defined.
Bảng 7. Kết quả phân đoạn văn bản.................... Error! Bookmark not defined.
Bảng 8. Sinh tiêu đề cho phân đoạn gốc ............. Error! Bookmark not defined.
Bảng 9. Sinh tiêu đề cho phân đoạn của C99...... Error! Bookmark not defined.
Bảng 10. Sinh tiêu đề cho phân đoạn của jTextTiling ....... Error! Bookmark not
defined.

viii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1. Đồ thị biểu diễn sự thay đổi độ đo tƣơng tự ......... Error! Bookmark not
defined.
Hình 2. Đồ thị dotplotting cho một văn bản ....... Error! Bookmark not defined.
Hình 3. Phân bố độ dài tiêu đề văn bản theo Reuters-1997 ..... Error! Bookmark
not defined.

Hình 4. Ví dụ đánh giá thuật toán phân đoạn...... Error! Bookmark not defined.
Hình 5. Cách xác định tham số cho độ đo Pk ...... Error! Bookmark not defined.
Hình 6. Kết quả phân đoạn văn bản .................... Error! Bookmark not defined.

1

MỞ ĐẦU
Hiện nay, lƣợng văn bản đƣợc số hoá đang tăng lên nhanh chóng và đặc
biệt đƣợc phổ biến rộng rãi cùng với sự tăng trƣởng của Internet. Các văn bản
này thuộc nhiều dạng khác nhau nhƣ văn bản chữ viết, văn bản âm thanh và văn
bản hình ảnh. Nguồn thông tin khổng lồ này vừa mang lại lợi ích giúp con ngƣời
tiếp cận và khai thác đƣợc nhiều thông tin hơn, nhƣng mặt khác cũng gây khó
khăn cho công việc lựa chọn và tổng hợp thông tin. Lĩnh vực xử lí ngôn ngữ tự
nhiên (xử lí ngôn ngữ trên máy tính một cách tự động) ra đời nhằm giải quyết
phần nào sự khó khăn này.
Lĩnh vực xử lí ngôn ngữ tự nhiên đã đặt ra hàng loạt bài toán nhằm giải
quyết các khó khăn và trợ giúp con ngƣời xử lí văn bản tốt hơn nhƣ: tìm kiếm
văn bản, phân lớp văn bản, rút trích thông tin, tóm tắt văn bản, hệ thống hỏiđáp,… Các hệ thống thông tin trực tuyến nhƣ Google, Yahoo!, MSN,… đã thể
hiện đƣợc các kết quả nghiên cứu giải quyết các bài toán này. Ví dụ nhƣ máy
tìm kiếm Google đảm nhận việc tìm kiếm các văn bản theo yêu cầu của ngƣời
dùng, trích ra các đoạn văn bản liên quan đến yêu cầu, tóm tắt lại dựa trên các
thông tin đó và hiển thị cho ngƣời dùng lựa chọn. Tuy chất lƣợng xử lí văn bản
chƣa đạt đƣợc mức độ nhƣ con ngƣời nhƣng sự lớn mạnh của các cỗ máy tìm
kiếm trên đã cho thấy tiềm năng và triển vọng thực sự của các bài toán trong xử
lí ngôn ngữ tự nhiên.
Tóm tắt văn bản là một bài toán trong xử lí ngôn ngữ tự nhiên, đó là “một
quá trình thu gọn văn bản đầu vào thành văn bản tóm tắt thông qua việc cô
đọng nội dung bằng cách lựa chọn và/hoặc tổng hợp những thông tin quan
trọng trong văn bản đầu vào” [18]. Trong thời gian gần đây, tóm tắt văn bản

đang nhận đƣợc sự quan tâm rộng rãi của cộng đồng nghiên cứu trên thế giới với
sự tăng trƣởng về số bài báo có liên quan trong các hội nghị DUC1 2001-2007,
ACL2 2001-2007,…; sự phát triển của các hệ thống tóm tắt văn bản3 nhƣ MEAD,
LexRank, Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft
Word,… Rất nhiều bài toán nhỏ của tóm tắt văn bản đã đƣợc đặt ra và giải quyết
[18] thông qua các hội nghị và phần mềm kể trên.

1

/>
2

/>
3

/>

2
Một trong những vấn đề đƣợc quan tâm nghiên cứu gần đây là xây dựng
mục lục cho văn bản một cách tự động [2, 5]. Đây là một bài toán tóm tắt văn
bản, trong đó các thông tin quan trọng của tài liệu đƣợc định nghĩa là tiêu đề của
các đoạn văn bản và đƣợc thể hiện dƣới dạng danh sách ở mục lục của văn bản.
Cấu trúc mục lục là một cấu trúc phổ biến ở trong các văn bản dài mà đặc biệt là
các cuốn sách, nó giúp ngƣời đọc tìm kiếm chủ đề quan tâm và định vị đƣợc vị
trí của chủ đề đó trong văn bản. Đối với các văn bản âm thanh, hình ảnh, việc
xây dựng đƣợc mục lục cho văn bản là rất cần thiết vì những văn bản dạng này
hầu nhƣ không có sẵn mục lục để định vị các phân đoạn thông tin khác nhau [3,
10, 18, 20]. Việc xây dựng mục lục cho văn bản gồm hai bƣớc, bƣớc thứ nhất là
phân đoạn văn bản, tức là phân văn bản thành các đoạn rời rạc, nối tiếp nhau,
mỗi đoạn nói về một chủ đề tƣơng đối khác nhau [2, 4, 6, 15, 16, 20] và bƣớc

thứ hai là sinh tiêu đề cho các đoạn văn bản, tức là sinh một cụm từ ngắn thể
hiện đƣợc chủ đề chính của đoạn văn [3, 10, 17, 28]. Trong [5], các tác giả đã
trình bày và thử nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới
dừng lại ở việc giải quyết nửa sau của bài toán xây dựng mục lục cho văn bản,
tức là sinh tiêu đề và xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân
đoạn sẵn có của văn bản. Hơn thế nữa, mô hình trong [5] là mô hình học giám
sát, đòi hỏi phải có dữ liệu huấn luyện trong khi loại dữ liệu này rất thiếu đối với
bài toán đƣợc đề cập.
Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn
này hƣớng tới việc tích hợp hai bƣớc phân đoạn và sinh tiêu đề trong quá trình
xây dựng mục lục cho văn bản một cách tự động. Trong luận văn này, các bài
toán của từng bƣớc đƣợc nghiên cứu chi tiết; phƣơng pháp tích hợp hai bƣớc với
nhau đƣợc đề xuất và tiến hành thử nghiệm thực tế trên văn bản khoa học. Kết
quả thực nghiệm khả quan của luận văn đã cho thấy tính khả thi và triển vọng
của bài toán này. Ngoài ra trong luận văn, tác giả cũng đƣa ra những phƣơng
hƣớng cải tiến cùng cơ sở khoa học của nó để làm tiền đề cho các nghiên cứu
tiếp theo.
Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chƣơng:
- Chƣơng 1 “Giới thiệu bài toán” sẽ giới thiệu bài toán tóm tắt văn bản
nói chung và bài toán xây dựng mục lục cho văn bản nói riêng; phân
tích các công trình có liên quan và đƣa ra các thức giải quyết bài toán
của luận văn.
- Chƣơng 2 “Phân đoạn văn bản và sinh tiêu đề” sẽ tiến hành nghiên
cứu và trình bày các phƣơng pháp và thuật toán tiêu biểu đƣợc sử dụng

3
trong các bƣớc phân đoạn và sinh tiêu đề trong quá trình xây dựng
mục lục cho văn bản.
- Chƣơng 3 “Xây dựng mục lục cho văn bản” sẽ phân tích và đề xuất

phƣơng án tích hợp các thuật toán của các bƣớc để giải quyết bài toán
chính của luận văn; đề xuất một số hƣớng cải tiến và cơ sở lí luận của
các cải tiến đó; và trình bày các phƣơng pháp đánh giá.
- Chƣơng 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử
nghiệm của luận văn cùng các kết quả đạt đƣợc, đồng thời phân tích và
đánh giá các kết quả đó để làm tiền đề cho các đề xuất cải tiến.

4

Chƣơng 1

GIỚI THIỆU BÀI TOÁN
1.1. Bài toán tóm tắt văn bản
Tóm tắt văn bản là một bài toán đã đƣợc đặt ra từ rất lâu, đó là “một quá
trình thu gọn văn bản đầu vào thành văn bản tóm tắt thông qua việc cô đọng nội
dung bằng cách lựa chọn và/hoặc tổng hợp những thông tin quan trọng trong
văn bản đầu vào” [18]. Trƣớc kia công việc này thƣờng đƣợc thực hiện một
cách thủ công bởi chính tác giả hoặc của ngƣời thủ thƣ. Tuy nhiên khi lƣợng văn
bản đƣợc số hoá ngày càng nhiều thì vấn đề tóm tắt văn bản một cách tự động đã
trở nên rất cần thiết. Năm 1958, trong bài báo của mình [19], Luhn đã trình bày
phƣơng pháp tóm tắt tự động cho các bài báo kĩ thuật sử dụng phƣơng pháp
thống kê thông qua tần suất và phân bố của các từ trong văn bản. Cho đến gần
đây, sự đột phá trong công nghệ máy tính đã giúp các bài toán xử lý ngôn ngữ tự
nhiên trở nên “thực tế” hơn. Theo [18], ngày càng có nhiều nghiên cứu về tóm
tắt văn bản và những tóm tắt này đƣợc chia ra làm hai hƣớng nghiên cứu chính:
tiếp cận theo hƣớng ngôn ngữ học (dựa trên luật), tiếp cận theo hƣớng thống kê
hoặc kết hợp cả hai.
Tóm tắt văn bản tự động bị ảnh hƣởng bởi rất nhiều yếu tố nhƣ: thể loại
văn bản, phong cách viết, các sử dụng từ, cấu trúc câu,… Những yếu tố này tạo

nên sự khác biệt rất lớn giữa các văn bản khác nhau. Do đó việc xây dựng một
công cụ tóm tắt tổng quát là một công việc khó. Vì vậy, các bài toán đƣợc giải
quyết trong tóm tắt văn bản thƣờng chỉ hƣớng đến một kiểu văn bản cụ thể hoặc
một kiểu tóm tắt cụ thể [14].
1.2. Bài toán xây dựng mục lục cho văn bản
Hiện nay, các nghiên cứu về tóm tắt văn bản hầu hết tập trung vào việc xử
lí các văn bản ngắn, đặc biệt là các mẩu tin tức, bài viết ngắn hoặc tập trung cho
các văn bản thuộc một lĩnh vực cụ thể nhƣ văn bản y tế, văn bản khoa học,… [5,
18]. Các văn bản loại này hầu hết chỉ tập trung nói về một vấn đề rất cụ thể và
không có sự phân biệt về chủ đề giữa các phần trong văn bản. Còn đối với các
văn bản dài hơn, mà ở đây là loại văn bản bao gồm nhiều phần, mỗi phần nói về
một chủ đề cụ thể và cả văn bản nói về một chủ đề rộng hơn thì lƣợng nghiên
cứu còn ít [5].
Trong luận văn này, một bài toán tƣơng đối mới trong tóm tắt văn bản sẽ
đƣợc đề cập và nghiên cứu, đó là bài toán xây dựng mục lục cho văn bản một

5
cách tự động. Mục lục cho một văn bản là một khái niệm rất phổ biến và xuất
hiện trong hầu hết các tài liệu có nhiều phần, đặc biệt là trong các tạp chí hay
quyển sách. Khi ngƣời sử dụng gặp một văn bản dài gồm nhiều phần khác nhau
thì thông thƣờng họ không đọc toàn bộ văn bản mà sẽ đi tìm mục lục hoặc một
hình thức tóm tắt nào đó để nhanh chóng nắm đƣợc ý chính của một văn bản.
Tuy nhiên, mục lục vẫn quan trọng và có ý nghĩa hơn cả vì ngoài khả năng cung
cấp thông tin về chủ đề của mỗi đoạn văn bản, nó còn có giúp ngƣời đọc có thể
định vị đƣợc vị trí của đoạn thông tin tƣơng ứng trong tài liệu.
Xét về mặt cấu trúc, mục lục có cấu trúc phân cấp nhằm chia nhỏ hơn các
phần trong một tài liệu dài. Cấu trúc đó thƣờng là phần, chƣơng, mục,… Tuy
nhiên qua khảo sát thực tế, các tài liệu có số phần không nhiều lắm (dƣới 10
phần) thì ngƣời ta thƣờng sử dụng mục lục chỉ có một cấp. Trong luận văn này,

dựa trên thuật toán giải quyết vấn đề thì mục lục đƣợc chia làm hai loại: mục lục
tuyến tính (một cấp) và mục lục phân cấp (đa cấp). Và trong luận văn này, tôi
tập trung giải quyết bài toán xây dựng mục lục tuyến tính (một cấp).
Bài toán xây dựng mục lục cho văn bản liên quan đến nhiều bài toán khác
nhau nhƣ: Tách câu, tách từ, phân cụm, gán nhãn chức năng từ loại, tìm cụm
danh từ. Các bài toán này hầu hết đã đƣợc xử lí với chất lƣợng khá tốt trong văn
bản tiếng Anh. Trong luận văn này, tôi chỉ đề cập đến việc sử dụng kết quả của
các bài toán này để giải quyết bài toán lớn hơn mà không đi trình bày từng bài
toán đó.
1.3. Phƣơng hƣớng giải quyết bài toán
Nhƣ đã đề cập ở phần trƣớc, mục lục của văn bản sẽ bao gồm tiêu đề và vị
trí của các đoạn tƣơng ứng cho văn bản. Do đó với một văn bản cho trƣớc thì để
có thể tiến hành xây dựng mục lục, chúng ta cần những bƣớc sau:
- Phân đoạn văn bản (Text Segmentation): phân văn bản thành các
đoạn độc lập và nối tiếp nhau với nội dung các phần có sự khác biệt về
mặt ngữ nghĩa và do đó có sự khác biệt về mặt chủ đề.
- Sinh tiêu đề (Title Generation): sinh ra các tiêu đề ngắn gọn, giàu
thông tin cho đoạn văn bản tƣơng ứng hay nói cách khác là tìm ra chủ
đề của đoạn văn bản và trình bày dƣới dạng ngắn gọn.
Phƣơng pháp giải quyết vấn đề của luận văn là chia quá trình xây dựng
mục lục thành hai giai đoạn tƣơng ứng với hai bƣớc trên.
Bài toán thứ nhất, phân đoạn văn bản, có thể đƣợc giải quyết bằng cách sử
dụng cấu trúc phân đoạn sẵn có của văn bản (chƣơng, mục, mục con,…) [5]

6
hoặc sử dụng một phƣơng pháp phân đoạn văn bản tự động [2, 4, 6, 15, 16, 20].
Trong luận văn này, phƣơng pháp phân đoạn tự động sẽ đƣợc áp dụng với một
số cải tiến để đạt đƣợc chất lƣợng tốt hơn.
Bài toán thứ hai, sinh tiêu đề cho một đoạn văn bản, có thể sử dụng rất

nhiều phƣơng pháp có sẵn để giải quyết [2, 3, 10, 17, 28]. Các phƣơng pháp này
đƣợc chia làm hai hƣớng chính, hƣớng thứ nhất sẽ tìm cách trích ra các cụm từ
thể hiện ý nghĩa của toàn đoạn và hƣớng thứ hai là trích ra các từ quan trọng
trong văn bản và tìm cách ghép cặp với nhau để đạt đƣợc tiêu đề “tốt nhất”. Mỗi
phƣơng pháp có ƣu và nhƣợc điểm riêng và sẽ đƣợc phân tích trong Chƣơng 2.
Tuy nhiên, luận văn sẽ sử dụng phƣơng pháp thứ nhất cho thực nghiệm và
phƣơng pháp thứ hai sẽ để lại làm hƣớng phát triển tiếp theo cho đề tài.
Phần tiếp theo sẽ trình bày một số công trình liên quan đƣợc sử dụng
trong quá trình thực hiện luận văn.
1.4. Các công trình liên quan
Trong phần này, một số công trình liên quan đến đề tài luận văn sẽ đƣợc
đề cập, tuy nhiên, các bài toán cơ sở nhƣ tách câu, tách từ, gán nhãn từ loại, tìm
cụm danh từ,… sẽ không đƣợc đề cập do đây không phải là mục tiêu chính của
luận văn, hơn nữa độ chính xác của các bài toán đó đã đạt đƣợc ở mức rất cao
đối với tiếng Anh (trên 90%), do đó hoàn toàn có thể sử dụng làm các bƣớc nền
để giải quyết các bài toán lớn hơn.
Về khía cạnh độ dài và thể loại văn bản, trong khi hầu hết các nghiên cứu
hiện tại tập trung vào các văn bản ngắn thì đã có một số hƣớng tiếp cận đƣợc
triển khai để tóm tắt những văn bản dài hơn. Hầu hết các cách tiếp cận này tập
trung vào một miền ngữ nghĩa cụ thể nhƣ văn bản y tế hoặc tài liệu khoa học.
Với việc đƣa ra các giả thiết mạnh về cấu trúc văn bản đầu vào và định dạng đầu
ra, các cách tiếp cận này đã thu đƣợc những kết quả tƣơng đối khả quan. Ví dụ,
[27] tóm tắt các văn bản khoa học bằng cách lựa chọn những yếu tố tu từ
(rhetorical elements) thƣờng đƣợc trình bày trong các đoạn tóm tắt của tài liệu
khoa học. [11] trình bày cách tiếp cận sinh tóm tắt của các tài liệu y tế bằng việc
sử dụng một số cấu trúc mẫu trong lựa chọn nội dung. Tuy nhiên, trong luận văn
này, tôi sử dụng cách tiếp cận độc lập thể loại, tức là tóm tắt văn bản mà không
sử dụng các yếu tố đặc trƣng liên quan để thể loại văn bản.
Về bài toán phân đoạn văn bản, đã có khá nhiều công trình nghiên cứu
liên quan đến vấn đề này [2, 4, 6, 15, 16, 20] . Hầu hết các công trình đều chỉ tập

trung nghiên cứu bài toán phân đoạn văn bản một cấp, hay nói cách khác là phân

7

8

TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Việt Cƣờng, Nguyễn Thị Thuỳ Linh, Phan Xuân Hiếu, Hà Quang
Thuỵ (2005), “Bài toán lọc và phân lớp nội dung web tiếng Việt với hƣớng
tiếp cận Entropy cực đại”, Kỉ yếu Hội thảo Quốc gia lần thứ 8 “Một số vấn
đề chọn lọc của công nghệ thông tin”, tr. 174-189, Hải Phòng, Việt Nam.
Tiếng Anh
2. Angheluta R., De Busser R.D., Moens M.F. (2002), “The Use of Topic
Segmentation for Automatic Summarization”, In Proceedings of the 40th
Annual Meeting of the Association of Computational Linguistics,
Philadelphia, USA.
3. Banko M., Mittal V.O., Witbrock M.J. (2000), “Headline Generation Based
on Statistical Translation”, In Proceedings of the 38th Annual Meeting of the
Association of Computational Linguistics, Hong Kong.
4. Beeferman D., Berger A., Lafferty J. (1999), “Statistical Models for Text
Segmentation”, Machine Learning, 34(1-3), pp. 177-210.
5. Branavan S.R.K., Deshpande P., Barzilay R. (2007), “Generating a Tableof-Contents”, In Proceedings of the 45th Annual Meeting of the Association
of Computational Linguistics, pp. 544-551, Prague, Czech Republic.
6. Choi F. (2000), “Advances in domain independent linear text segmentation”,
In Proceedings of NAACL '00, pp. 26-33, Seattle, USA.
7. Church K.W. (1993), “Char align: A Program for Aligning Parallel Texts at
the Character Level”, In Proceedings of the 31st Annual Meeting of the

Association of Computational Linguistics, pp. 1-8, Ohio, USA.
8. Collins M., Roark B. (2004), “Incremental Parsing with the Perceptron
Algorithm”, In Proceedings of the 42nd Annual Meeting of the Association
of Computational Linguistics, pp. 111-118, Barcelona, Spain.
9. Cuong N.V., Linh N.T.T., Thuy H.Q., Hieu P.X. (2006), “A Maximum
Entropy Model for Text Classification”, In Proceeding of International
Conference on Internet Information Retrieval 2006, pp. 143-149, Korea.
10. Dorr B., Zajic D., Schwartz R. (2003), “Hedge Trimmer: A parse-and-trim
approach to headline generation”, In Proceedings of the HLT-NAACL 2003
Workshop on Text Summarization, pp. 1-8, Edmonton, Canada.

9
11. Elhada N., McKeown K.R. (2001), “Towards generating patient specific
summaries of medical articles”, In Proceedings of NAACL Workshop on
Automatic Summarization, Pittsburgh, PA, USA.
12. Georgescul M., Clark A., Armstrong S. (2006), “An Analysis of
Quantitative Aspects in the Evaluation of Thematic Segmentation
Algorithms”, In Proceedings of the 7th SIGdial Workshop on Discourse and
Dialogue, pp. 144-151.
13. Givón T. (2001), “Syntax: An Introduction”, John Benjamins Publishing,
Amsterdam.
14. Goldstein J. (1999), “Automatic Text Summarization of Multiple
Documents”, Thesis Proposal, Carnegie Mellon University.
15. Hearst M.A. (1994), “Multi-paragraph segmentation of expository text”, In
Proceedings of the 32nd Annual Meeting of the Association of
Computational Linguistics, pp. 9-16, New Mexico, USA.
16. Hearst M.A. (1997), “TextTiling: Segmenting Text into Multi-Paragraph
Subtopic Passages”, Computational Linguistics, 23(1), pp. 33-64.
17. Jin R., Hauptmann A.G. (2002), “A New Probability Model for Title

Generation”, The 19th International Conference on Computational
Linguistics, Taiwan.
18. Jones K.S. (2007), “Automatic summarising: The state of the art”,
Information Processing and Management, doi:10.1016/j.ipm.2007.03.009.
19. Luhn H.P. (1958), “The automatic creation of literature abstracts”, IBM
Journal of Research and Development, 2, pp. 159-165.
20. Malioutov I., Barzilay R. (2006), “Minimum Cut Model for Spoken Lecture
Segmentation”, In Proceedings of the 21st International Conference on
Computational Linguistics and 44th Annual Meeting of the ACL, pp. 25-32,
Sydney, Australia.
21. Moens M.F., De Busser R. (2001), "Generic topic segmentation of
document texts", In Proceedings of the 24th Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval,
pp. 418-419, New York, USA.
22. Morris J., Hirst G. (1991), “Lexical Cohesion Computed by Thesaural
Relations as an Indicator of the Structure of Text”, Computational
Linguistics, 17(1), pp. 21-48.

10
23. Pevzner L., Hearst M.A. (2002), “A Critique and Improvement of an
Evaluation Metric for Text Segmentation”, Computational Linguistics, 28
(1), pp. 19-36.
24. Ponte J.M., Croft W.B. (1997), “Text Segmentation by Topic”, In
Proceedings of the First European Conference on Research and Advanced
Technology for Digitial Libraries, pp.120-129.
25. Reynar J.C. (1994), “An automatic method of finding topic boundaries”, In
Proceedings of the 32nd Annual Meeting of the Association for
Computational Linguistics, pp. 331-333.
26. Shi J., Malik J. (2000), “Normalized Cuts and Image Segmentation”, IEEE

Transactions on Pattern Analysis and Machine Intelligence, 22(8) pp. 888905.
27. Teufel S., Moens M. (2002), “Summarizing Scientific Articles: Experiments
with Relevance and Rhetorical Status”, Computational Linguistics, 28(4),
pp. 409-445.
28. Witbrock M.J., Mittal V.O. (1999), “Ultra-Summarization: A statistical
Approach to Generating Highly Condensed Non-Extractive Summaries”, In
Proceedings of the 22nd International Conference on Research and
Development in Information Retrieval (SIGIR '99), Poster Session, 315-316,
USA.

DSpace at VNU: Tự động sinh mục lục cho văn bản

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về