Tải bản đầy đủ (.pdf) (13 trang)

Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (398.32 KB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TR

NG ĐẠI H C CÔNG NGH

KIM XUÂN PHÚC

TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T
SỬ DỤNG CHUỖI TỪ VỰNG
Ngành: Công ngh thông tin
Chuyên ngành: H th ng thông tin
Mã s : 60.48.01.04

LU N VĂN THẠC SĨ

Ng

ih

ng d n khoa h c: PGS.TS. NGUYỄN PH ƠNG THÁI

HÀ NỘI - 2015


LỜI CAM ĐOAN
‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố
trong bất kỳ một công trình nào khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo,
công trình nghiên cứu liên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo
này, luận văn hoàn toàn là sản phẩm của riêng tôi.’


Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên ........................................................................

i


LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Nguyễn
Phương Thái, Ths. Vũ Huy Hiển đã tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốt
quá trình thực hiện luận văn này.
Tôi xin chân thành cảm ơn quý thầy cô và nhà trường đã luôn tạo điều kiện thuận lợi
nhất cho chúng tôi học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè của tôi. Những người luôn giành thời
gian ở bên cạnh quan tâm, động viên, và giúp đỡ tôi hết mình trong suốt quá trình học
tập cũng như làm luận văn tốt nghiệp này.

Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên ........................................................................

ii


Mục lục
1 Tổng quan về tóm tắt văn bản tự động
1.1 Các tiếp cận trên thế giới . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Các tiếp cận trong nước . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Giải pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Mạng từ
2.1 Mạng từ tiếng Anh - Wordnet . . . . . . . . . . . . .
2.1.1 Thông tin chung . . . . . . . . . . . . . . . .

2.1.2 Các quan hệ trong mạng từ Wordnet . . . . .
2.2 Mạng từ tiếng Việt . . . . . . . . . . . . . . . . . . .
2.2.1 Từ điển của Laconec . . . . . . . . . . . . . .
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15
2.3 Sử dụng mạng từ tiếng Việt . . . . . . . . . . . . . .
3 Ứng dụng xích từ vựng trong
3.1 Xích từ vựng . . . . . . . .
3.2 Xây dựng xích từ vựng . . .
3.3 Sử dụng xích từ vựng . . . .

tóm
. . .
. . .
. . .

4 Thực nghiệm và các kết quả
4.1 Dữ liệu sử dụng . . . . . . . . .
4.2 Phương pháp đánh giá . . . . .
4.2.1 Đánh giá đồng chọn . .
4.2.2 Đánh giá tự động . . . .
4.3 Thực nghiệm . . . . . . . . . .
4.3.1 Môi trường thực nghiệm
4.3.2 Tiền xử lý . . . . . . . .
4.3.3 Đánh giá kết quả . . . .

.
.
.
.
.

.
.
.

iii

tắt văn
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

3
3
4
6


.
.
.
.
.
.
.

8
8
8
8
10
10
11
11

bản
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .

13
13
13
16

.
.

.
.
.
.
.
.

18
18
20
20
21
22
22
22
22

.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


MỤC LỤC
4.4


iv

Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 KẾT LUẬN
30
5.1 Các công việc đã làm . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Hướng nghiên cứu trong tương lai . . . . . . . . . . . . . . . . . . . . 30


Danh sách hình vẽ
1.1

Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng . . . . . .

3.1

Thuật toán tính toán các xích từ vựng . . . . . . . . . . . . . . . . . 16

v

7


Danh sách bảng
2.1
2.2

Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt . . . . . . . 11

Số lượng từ tiếng Việt chia theo từng loại trong mạng từ . . . . . . . 11

3.1

Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng . 17

4.1
4.2
4.3
4.4
4.5

Thống kê chi tiết kho ngữ liệu Corpus_LTH . . . . . . . . . . . . .
Tập văn bản sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Chính trị
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Công nghệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Văn hóa .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Xã hội . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Giáo dục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Kinh tế .

4.8
4.9
4.6
4.7

vi


.
.
.
.

18
19
23
23

. 23
. 23
. 23
. 24
. 24


Danh mục từ viết tắt
ES
AS
CSDL
TF-IDF
PWN
NLTK

Extraction Summarization
Abstraction Summarization
Cơ sở dữ liệu
Term Frequency – Inverse Document Frequency

Princeton Wordnet
Natural Language Toolkit

vii


MỞ ĐẦU
Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữ
trên mạng Internet trở nên vô cùng lớn. Hằng ngày, số lượng thông tin văn bản tăng
lên không ngừng. Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ cho
con người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khó
khăn trong việc tìm kiếm, xử lý và tổng hợp thông tin. Để cải thiện khả năng tìm
kiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động
là giải pháp không thể thiếu để giải quyết vấn đề này. Đối với tiếng Việt, bài toán
tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu
quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có ứng dụng rất lớn
trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin...
Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp
vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn
thông tin một cách nhanh chóng.
Nội dung luận văn này được chúng tôi trình bày như sau:
• Chương 1: Tổng quan về tóm tắt văn bản tự động
• Chương 2: Mạng từ
• Chương 3: Xích từ vựng
• Chương 4: Thực nghiệm và các kết quả
• Chương 5: Kết luận
Chúng tôi đưa ra cái nhìn khái quát về hiện trạng tóm tắt văn bản tại Chương 1. Ở
Chương 2, chúng tôi giới thiệu về mạng từ bao gồm mạng từ tiếng Anh của trường
đại học Princeton, các mạng từ tiếng Việt hiện có. Chúng tôi giới thiệu các kiến
thức chung và các cách áp dụng xích từ vựng ở Chương 3. Trong Chương 4, chúng

1


DANH SÁCH BẢNG

2

tôi trình bày các thực nghiệm và các kết quả mà chúng tôi đã đạt được. Cuối cùng,
chúng tôi đưa ra kết luận và các công việc trong tương lai ở Chương 5.


Tài liệu tham khảo
Nguyễn Nhật An. Nghiên cứu, phát triển các kỹ tuật tự động tóm tắt văn bản tiếng Việt. Luận án
Tiến sĩ toán học, Viện khoa học và công nghệ quân sự, 2014.
Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley,
1999.
Regina Barzilay and Michael Elhadad. Using lexical chains for text summarization. In ACLIntelligent Scalable Text Summarization 1997, pages 10–17, 1997.
P B Baxendale. Machine-made index for technical literature: an experiment. In IBM Journal of
Research and Development 2, pages 354–361, 1958.
Jaime G. Carbonell and Jade Goldstein. The use of mmr, diversity-based reranking for reordering
documents and producing summaries. In SIGIR, pages 335–336, 1998.
Lin Chin-Yew. Rouge: a package for automatic evaluation of summaries. In n Proceedings of the
Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, 2004.
H. Edmundson. New methods in automatic abstracting. Journal of ACM, 16 (2), 1969.
Thanh-Le Ha, Quyet-Thang Huynh, and Chi-Mai Luong. A primary study on summarization of
documents in vietnamese. In Proceeding of the First International Congress of the International
Federation for Systems Research, Kobe, Japan, Nov 15-17, pages 234–239, 2005.
E. Hovy and C. Lin. Automatic Text Summarization in SUMMARIST. (In I. Mani and M. T.
Maybury, editors, Advanced in automatic text summarization. The MIT Press), 1999.
Karel Jezek and Josef Steinberger. Automatic Text Summarization. Vaclav Snasel (Ed.), 2008.

J. Kupiec, J.O. Pedersen, and F. Chen. A trainable document summarizer. In In the proceedings
of the 18th ACM SIGIR conference on research and development in information retrieval, pages
68–73, 1995.
C-Y Lin and E.H. Hovy. Identifying topics by position. In In Proceedings of the Applied Natural
Language Processing Conference (ANLP-97), page 283–290, 1997.

32


Bibliography

33

H.P. Luhn. The automatic creation of literature abstracts. IBM Journal of Research and Development, 2(2), 1958.
J. Lyons. Semantics. 2 vols. New York: Cambridge University Press, 1977.
Dat Quoc Nguyen, Dai Quoc Nguyen, Dang Duc Pham, and Son Bao Pham. RDRPOSTagger:
A Ripple Down Rules-based Part-Of-Speech Tagger. In Proceedings of the Demonstrations at
the 14th Conference of the European Chapter of the Association for Computational Linguistics,
pages 17–20, Gothenburg, Sweden, April 2014. Association for Computational Linguistics. URL
/>M.L. Nguyen, Shimazu Akira, Xuan-Hieu Phan, Tu-Bao Ho, and Horiguchi Susumu. Sentence
extraction with support vector machine ensemble. In Proceedings of the First World Congress
of the International Federation for Systems Research: The New Roles of Systems Sciences For
a Knowledge-based Society, 2005.
Phuong-Thai Nguyen, Van-Lam Pham, Hoang-An Nguyen, Huy-Hien Vu, Thi-Thu-Ha Truong,
and Ngoc-Anh Tran. A two-phase approach for building vietnamese wordnet. In The 8th Global
Wordnet Conference, 2015.
Tadashi Nomoto and Yuji Matsumoto. A new approach to unsupervised text summarization. In
SIGIR, pages 26–34, 2001.
Đỗ Phúc and Hoàng Kiếm. Rút trích ý chính từ văn bản tiếng Việt. Tạp chí Công nghệ Thông tin
và Truyền thông, 2004.

Nguyen Quang-Uy, Pham Tuan-Anh, Truong Cong-Doan, and Nguyen Xuan-Hoai. A study on
the use of genetic programming for automatic text summarization. In Fourth International
Conference on Knowledge and Systems Engineering (KSE), 2012.
Trương Quốc-Định and Nguyễn Quang-Dũng. Một giải pháp tóm tắt văn bản tiếng Việt tự động.
Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông
- Hà Nội, 2012.
G. Salton, A. Singhal, C. Buckley, and M. Mitra. Automatic text decomposition using text segments
and text themes. In In seventh ACM conference on Hypertext, pages 26–34, 1996.
Lê Thanh-Hương. Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng
cho tiếng Việt. Báo cáo tổng kết đề tài khoa học và công nghệ cấp bộ, Đại học Bách khoa Hà
nội, 2014.
Nguyễn Thị Thu-Hà. Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương
pháp học máy bán giám sát. Luận án Tiến sĩ, học viện Kỹ thuật Quân sự, 2012.


Bibliography

34

Ngoc Anh Tran, Phuong Thai Nguyen, Thanh Tinh Dao, and Hong Quan Nguyen. Identifying
reduplicative words for vietnamese word segmentation. In Computing Communication Technologies - Research, Innovation, and Vision for the Future (RIVF), 2015 IEEE RIVF International
Conference on, pages 77–82, Jan 2015. doi: 10.1109/RIVF.2015.7049878.
M. E. Winston, R. Chaffin, and D. J. Hermann. A taxonomy of part-whole relations. In Cognitive
Science 11, pages 417–444, 1987.



×