Tải bản đầy đủ (.pdf) (78 trang)

Phương pháp tóm tắt văn bản tiếng việt bằng textrank

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

TẠ HỒNG ĐÔNG

LUẬN VĂN THẠC SỸ
CÔNG NGHỆ THÔNG TIN

PHƢƠNG PHÁP TÓM TẮT
VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK

TẠ HỒNG ĐÔNG

2015-2017
HÀ NỘI - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

PHƢƠNG PHÁP TÓM TẮT
VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK

TẠ HỒNG ĐÔNG

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN LONG GIANG



HÀ NỘI - 2017

i


LỜI CAM ĐOAN
Tác giả xin cam đoan luận văn đƣợc hoàn thành trên cơ sở nghiên cứu, tổng
hợp và phát triển các nghiên cứu tóm tắt văn bản trong nƣớc và trên thế giới do tác
giả thực hiện.
Luận văn này là mới, các nghiên cứu trong luận văn do chính tác giả thực
hiện, qua quá trình nghiên cứu đƣa ra và không sao chép nguyên bản từ bất kì một
nguồn tài liệu nào khác.
TÁC GIẢ LUẬN VĂN

Tạ Hồng Đông

ii


LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô, cán bộ viên chức Khoa Sau đại học
của Viện Đại học Mở Hà Nội đã nhiệt tình quan tâm và tạo nhiều điều kiện thuận
lợi cho em trong quá trình thực hiện luận văn thạc sỹ này.
Em xin chân thành cảm ơn thầy giáo TS. Nguyễn Long Giang đã nhiệt tình
hƣớng dẫn, động viên, hỗ trợ em trong suốt quá trình thực hiện luận văn, giúp em
vƣợt qua những hạn chế của bản thân và những khó khăn trong quá trình nghiên cứu
để hoàn thành luận văn thành công, đúng thời hạn.
Em xin gửi lời cảm ơn tới các thầy cô đã giảng dạy em trong 02 năm học tập
tại trƣờng, những ngƣời đã truyền đạt cho em không chỉ kiến thức, kinh nghiệm quý

báu, mà cả những câu chuyện về cuộc sống, những bài học làm ngƣời ý nghĩa.
Những kiến thức, bài học đó đã, đang và sẽ tiếp tục là hành trang, động lực giúp em
tự hoàn thiện bản thân, vƣợt qua những khó khăn và vững bƣớc trên con đƣờng phía
trƣớc.
Em cũng xin cảm ơn thầy cô Phòng tin học quản lý - Viện Công Nghệ Thông
Tin, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam đã giúp đỡ, hỗ trợ em rất
nhiều để hoàn thành luận văn này.
Tôi cũng xin chân thành cảm ơn sự giúp đỡ nhiệt tình của bạn bè đã động
viên, giúp đỡ trong thời gian học tập và nghiên cứu.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, ngƣời thân và đồng nghiệp đã
động viên, giúp đỡ và khuyến khích tôi vƣợt qua những lúc khó khăn trong cuộc
sống, học tập và công việc.
Xin chân thành cảm ơn!
Hà Nội, tháng 12 năm 2017
Tác giả

Tạ Hồng Đông

iii


MỤC LỤC
LỜI CAM ĐOAN........................................................................................................i
LỜI CẢM ƠN.............................................................................................................ii
MỤC LỤC.................................................................................................................iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT................................................v
DANH MỤC CÁC HÌNH VẼ...................................................................................vi
CHƢƠNG 1. TỔNG QUAN TÓM TẮT VĂN BẢN.…………………………...….3
1.1. Giới thiệu chung về khai phá dữ liệu ............................................................... 3
1.1.1. Sự cần thiết của khai phá dữ liệu .............................................................. 3

1.1.2. Khai phá dữ liệu ........................................................................................ 3
1.2. Tóm tắt văn bản tự động ................................................................................... 7
1.2.1. Tóm tắt văn bản .......................................................................................... 7
1.2.2. Ứng dụng của tóm tắt văn bản ................................................................ 10
1.2.3. Phân loại tóm tắt ...................................................................................... 10
1.2.4. Mô hình tóm tắt văn bản .......................................................................... 14
1.2.5. Đánh giá văn bản tóm tắt ......................................................................... 18
1.2.6. Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt .............. 21
1.3. Phát biểu bài toán đơn văn bản tiếng Việt ................................................... 23
1.4. Kết luận chƣơng 1…………………………………………………………24
CHƢƠNG 2.TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK………………….25
2.1. Thuật toán xếp hạng đồ thị ............................................................................. 25
2.1.1. PageRank.................................................................................................. 25
2.1.2. HITS.......................................................................................................... 28
2.1.3. Đánh giá và so sánh giữa PageRank và HITS ......................................... 31
2.2. Mô hình TextRank .......................................................................................... 31
2.2.1. Đồ thị vô hướng………………………………………………..……………….31
2.2.2. Đồ thị có trọng số……………………………………………………...….…32
2.2.3. Đồ thị hoá văn bản…………………………………………………..........…34
2.2.4. Sử dụng TextRank trích xuất từ khoá………………………………………34
2.2.5. Sử dụng TextRank trích rút câu……………………………………….…….39
2.3. Giải thuật TextRank ....................................................................................... .39
2.3.1. Giải thuật TextRank.................................................................................. 39

iv


2.3.2. Các phương thức tính độ tương đồng ...................................................... 41
2.3.3. Nhận xét giải thuật TextRank ................................................................... 43
2.4. Kết luận chƣơng 2…………………………………………………………...45

CHƢƠNG 3. XÂY DỰNG ỨNG DỤNG VÀ KẾT QUẢ ....................................... 45
3.1. Tổng quan ứng dụng tóm tắt văn bản. ............................................................ 45
3.2. Cài đặt ứng dụng tóm tắt văn bản ................................................................... 46
3.2.1. Mô hình giải quyết bài toán...................................................................... 46
3.2.2. Tiền xử lý văn bản. ................................................................................... 47
3.2.3. Xây dựng đồ thị câu.................................................................................. 49
3.2.4. Tính hạng câu trên đồ thị ......................................................................... 50
3.2.5. Sinh văn bản tóm tắt ................................................................................. 51
3.3. Thực nghiệm thuật toán .................................................................................. 51
3.3.1. Cài đặt chương trình ................................................................................ 51
3.3.2. Đánh giá ứng dụng ................................................................................... 57
3.4. Kết luận chƣơng 3………………………………………..………………….62
TÀI LIỆU THAM KHẢO
PHỤ LỤC

v


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
ROUGE

Tiếng Anh
Recall-Oriented

Tiếng Việt

Understudy

for


Phƣơng pháp đánh giá độ
tƣơng tự văn bản

Gisting Evaluation

HITS

Hyperlinked - Induced Topic Search

DUC

Document Understanding Conference

LNP

Natural Language Processing

TAC

Text Analysis Conference

Thuật toán tính hạng dựa trên
phân tích liên kết
Hội nghị chuyên về hiểu văn
bản
Phƣơng pháp xử lý ngôn ngữ
tự nhiên
Hội nghị thƣờng niên về phân
tích văn bản


vi


DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Quy trình text mining……………………………………………………..7
Hình 1.2. Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản ....................9
Hình 1.3. Mô hình tóm tắt văn bản tự động ............................................................ 15
Hình 2.1. Mô hình PageRank. .................................................................................. 26
Hình 2.2. Ý tƣởng PageRank ....................................................................................26
Hình 2.3. Mô tả khái quát ý tƣởng PageRank ..........................................................27
Hình 2.4. Trang Authority .........................................................................................29
Hình 2.5. Trang Hub. ...............................................................................................29
Hình 2.6. Mô hình trang Authority và trang Hub. ....................................................30
Hình 2.7. Mô hình trang Authority tốt và trang hub tốt ............................................30
Hình 2.8. Hệ thống để thực hiện 1 thuật toán xếp hạng dựa trên đồ thị…………..32
Hình 2. 9. Đƣờng cong hội tụ của phƣơng pháp xếp hạng dựa trên đồ thị với đồ thị
vô hƣớng, có trọng số ………………………………………………………………….33
Hình 2.10. Đồ thị TextRank .....................................................................................40
Hình 2.11. Đồ thị TextRank với các giá trị trọng số và độ tƣơng đồng giữa các câu ...43
Hình 3.1. Các bƣớc thực hiện tóm tắt theo phƣơng pháp TextRank ........................46
Hình 3.2. Các bƣớc thực hiện JVnTextpro3 ……………………………………….47
Hình 3.3. Bảng PreText đầy đủ ...............................................................................51
Hình 3.4. Cấu trúc chƣơng trình ..............................................................................52
Hình 3.5. Giao diện chính của chƣơng trình ..........................................................53
Hình 3.6. Thanh chọn hiển thị yêu cầu ...................................................................53
Hình 3.7. Nút chọn tệp ............................................................................................53
Hình 3.8. Lựa chọn phần trăm độ dài tóm tắt ..........................................................54
Hình 3.9. Nút tóm tắt


.............................................................................................54

Hình 3.10. Nút hiển thị đồ thị

..............................................................................54

Hình 3.11. Chọn số nút hiển thị ...............................................................................54
Hình 3.12. Nút hiển thị toàn bộ .................................................................................54

vii


Hình 3.13. Nút hiển thị TextRank ...........................................................................54
Hình 3.14. Giao diện văn bản chi tiết ......................................................................55
Hình 3.15. Giao diện tóm tắt ...................................................................................55
Hình 3.16. Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút ........................ 56
Hình 3.17. Giao diện hiển thị 100% số nút ..............................................................56
Hình 3.18. Giao diện hiển thị TextRank cho các câu .............................................. 57
Hình 3.19. Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu……………59

viii


MỞ ĐẦU
1. Tính cấp thiết đề tài
Công nghệ thông tin, các dịch vụ trực tuyến đang phát triển mạnh mẽ kèm
theo với là sự bùng nổ của internet đã mang đến một lƣợng thông tin khổng lồ cho
con ngƣời. Rất nhiều ngƣời có nhu cầu tổng hợp và tóm tắt lại các thông tin để
thuận lợi cho việc tổng hợp các thông tin đó. Tóm tắt dữ liệu tự động là một lĩnh

vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu. Bài toán
tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn mở rộng ra
các loại dữ liệu đa phƣơng tiện nhƣ hình ảnh, âm thanh và video. Xuất phát từ nhu
cầu đó, các phƣơng pháp tóm tắt tự động đƣợc nghiên cứu và phát triển.
Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm
đến bài toán tóm tắt văn bản tự động. Tại các hội nghị nổi tiếng nhƣ: DUC 20012007, TAC 2008, ACL 2001-2007…, tóm tắt văn bản tự động đã đƣợc đề cập đến
nhiều trong các bài báo. Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc
tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức năng tự động tóm tắt trong
Microsoft Word. Tuy nhiên, kết quả của các nghiên cứu này vẫn chƣa đƣợc đánh
giá cụ thể. Đồng thời một số công cụ có sẵn thì không thích hợp cho tiếng Việt nên
kết quả tóm tắt rất thấp, chƣa đáp ứng đƣợc yêu cầu ngƣời dùng, ví dụ nhƣ công cụ
AutoSummarizer của phần mềm Microsoft Word.
Vì vậy tác giả lựa chọn nghiên cứu đề tài: “Phƣơng pháp tóm tắt văn bản
tiếng Việt bằng TextRank” là thực sự cần thiết.
2. Mục tiêu nghiên cứu
Tìm hiểu tổng quan về bài toán tóm tắt văn bản, thuật toán xếp hạng trên đồ
thị TextRank và ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu
trên đồ thị. Trên cơ sở đó, xây dựng ứng dụng thử nghiệm tóm tắt đơn văn bản tiếng
Việt bằng phƣơng pháp TextRank.
Hệ thống đƣa ra việc trích chọn văn bản dựa vào phƣơng pháp textRank với mục
tiêu tóm tắt một cách chủ động nhất với độ dài tóm tắt đi theo mong muốn của
ngƣời sử dụng, giúp ngƣời sử dụng nắm bắt các thông tin một cách dễ dàng, nhanh
chóng và chính xác nhất.

1


3. Đối tƣợng và phạm vi nghiên cứu
3.1 Đối tƣợng nghiên cứu
- Các văn bản tiếng Việt.

- Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu

3.2 Phạm vi nghiên cứu
Tóm tắt đơn văn bản tiếng Việt bằng phƣơng pháp TextRank sử dụng đồ thị câu.

4. Kết cấu của luận văn
Luận văn đƣợc bao gồm 3 chƣơng nhƣ sau:

Chƣơng 1: Tổng quan tóm tắt văn bản
Phƣơng pháp này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá
văn bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng nhƣ việc đánh giá
một văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung.

Chƣơng 2: Tóm tắt đơn văn bản theo TextRank
Trình bày phƣơng pháp thuật toán TextRank để giải quyết bài toán tóm tắt
văn bản đơn cũng nhƣ một số ý tƣởng để tạo nên thuật toán TextRank.

Chƣơng 3: Xây dựng ứng dụng và kết quả của thuật toán TextRank
Trình bày về việc xây dựng chƣơng trình sử dụng phƣơng pháp TextRank để
tóm tắt đơn văn bản và kết quả cài đặt ứng dụng thử nghiệm của nó.

Kết luận: Tóm lƣợc kết quả đạt đƣợc của luận văn và định hƣớng phát triển tƣơng
lai.

2


CHƢƠNG 1
TỔNG QUAN TÓM TẮT VĂN BẢN
1.1. Giới thiệu chung về khai phá dữ liệu

1.1.1 Sự cần thiết của khai phá dữ liệu
Khoảng hơn một thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ…) không ngừng tăng lên. Sự tích lũy
dữ liệu này xảy ra với một tốc độ bùng nổ. Ngƣời ta ƣớc đoán rằng lƣợng thông tin
trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lƣợng cũng nhƣ kích
cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng.
Data Mining ra đời nhƣ một hƣớng giải quyết hữu hiệu cho câu hỏi vừa đặt
ra ở trên. Có nhiều định nghĩa về Data Mining và sẽ đƣợc đề cập ở phần sau, tuy
nhiên có thể tạm hiểu rằng Data Mining nhƣ là một công nghệ tri thức giúp khai
thác những thông tin hữu ích từ những kho dữ liệu đƣợc tích trữ trong suốt quá trình
hoạt động của một công ty, tổ chức nào đó [4].

1.1.2 Khai phá dữ liệu
Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri thức trong
CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo
trong kinh doanh, các hoạt động sản xuất,... Khai phá dữ liệu làm giảm chi phí về
thời gian so với phƣơng pháp truyền thống trƣớc kia (ví dụ nhƣ phƣơng pháp thống
kê) [4].
Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá
dữ liệu.
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp
đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chƣa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong CSDL lớn”

3


Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm

thƣờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu
đƣợc”.
Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ
một số lƣợng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện đƣợc dùng cũng có nghĩa
tƣơng tự với từ Data Mining nhƣ Knowledge Mining (khai phá tri thức),
Knowledge Extraction (chắt lọc tri thức), Data/patern Analysis (phân tích dữ
liệu/mẫu), Data Archaeoloogy (khảo cổ dữ liệu), Data Dredging (nạo vét dữ liệu),...

1.1.2.1 Data Mining
Quy trình Data Mining.

Khai phá
dữ liệu

Đổi dạng

Tri thức

Tiền xử


Mẫu
Dữ liệu
chuyển
dạng

Chọn lựa

Dữ liệu
đích


Đánh giá
và trình
diễn

Dữ liệu
đã tiền
xử lý

Hình 1.1: Quy trình Data Mining

1. Làm sạch dữ liệu (Data cleaning & Preprocessing): Loại bỏ nhiễu và các dữ
liệu không cần thiết.
2. Tích hợp dữ liệu (Data Integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (Data Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý
(Data cleaning & Preprocessing).
3. Trích chọn dữ liệu (Data Selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình
này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy data), dữ liệu không đầy đủ
(Incomplete data)….

4


4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho
quá trình xử lý.
5. Khai phá dữ liệu (Data Mining): Là một trong các bƣớc quan trọng nhất,
trong đó sử dụng những phƣơng pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6. Ƣớc lƣợng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm
đƣợc thông qua các độ đo nào đó.

7. Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho ngƣời dùng.
Mục đích của khai phá dữ liệu:
Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực
khác nhau nhƣ thống kê, trí tuệ nhân tạo, CSDL, tính toán song song,… Đặc biệt,
nó rất gần gũi với lĩnh vực thống kê, sử dụng các phƣơng pháp thống kê để mô hình
hóa dữ liệu và phát hiện các mẫu.
 Ứng dụng tổng quan:
- Cung cấp tri thức và hỗ trợ ra quyết định.
- Dự báo.
- Khái quát dữ liệu.


Ứng dụng thực tế:
- Bảo hiểm, tài chính, thị trƣờng chứng khoán: phân tích tình hình tài chính

của một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trƣờng chứng
khoán để dự đoán đƣợc giá cổ phiếu, phát hiện gian lận…
- Thống kê phân tích dữ liệu và hỗ trợ ra quyết định.
- Y học: dựa vào mối quan hệ giữa các triệu chứng để chuẩn đoán bệnh và
hƣớng điều trị.
- Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hƣớng
ngƣời dùng và đƣa ra dự đoán hƣớng dịch vụ.

5


-Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu ngƣời dùng để đƣa ra
hƣớng phát triển đúng cho nhà sản xuất…
Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác

nhau của đời sống giúp đƣa ra những giải pháp hiệu quả cho các vấn đề nan giải của
đời sống.

1.1.2.2 Text Mining
Text Mining là một dạng nhỏ của Data mining. Tóm tắt văn bản cũng là một
phần chủ yếu của Text Mining.
Một phần quan trọng các thông tin có sẵn từ lƣu trữ trong cơ sở dữ liệu văn
bản (hoặc tài liệu cơ sở dữ liệu) gồm tập hợp rất lớn các tài liệu từ nhiều nguồn
khác nhau, nhƣ báo mới, các bài báo nghiên cứu, sách, thƣ viện điện tử, các trang
web hay thậm chí là hầu hết các thông tin chính phủ, công nghiệp, thƣơng mại và
các viện nghiên cứu đều lƣu trữ dƣới dạng điện tử… Cơ sở dữ liệu văn bản phát
triển nhanh do sự tăng lên đến chóng mặt của lƣợng thông tin điện tử có sẵn, các
xuất bản điện tử, các loại khác của tài liệu điện tử, thƣ điện tử và World Wide Web
(có thể xem nhƣ một lƣợng cơ sở dữ liệu lớn, liên kết và tự động)…. Gây khó khăn
trong việc tiếp nhận nội dung chính của nó.
Dữ liệu lƣu trữ trong CSDL văn bản là dữ liệu bán cấu trúc tức là chúng
không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc. Ví dụ: một tài liệu có
thể chứa một vài trƣờng cấu trúc nhƣ tiêu đề, tên tác giả, ngày xuất bản, phân loại.
Nhƣng cũng có thể chứa một lƣợng lớn các trƣờng phi cấu trúc nhƣ phần tóm tắt
hay nội dung của tài liệu.
Từ những vấn đề nêu trên, các kỹ thuật tìm kiếm tỏ ra không tƣơng xứng vì
ngƣời ta thậm chí không biết bên trong dữ liệu chứa gì nên thật khó để đƣa ra câu
truy vấn hiệu quả cho việc truy vấn và trích rút các thông tin từ dữ liệu cũng nhƣ
sắp xếp các thông tin dữ liệu. Do đó vấn đề đặt ra là làm sao có thể tìm kiếm và
khai thác nguồn dữ liệu nhƣ vậy. Các kỹ thuật để giải quyết vấn đề này đƣợc gọi là
Text Mining hay khai phá dữ liệu văn bản…

6



Quy trình:

Nguồn dữ liệu

Thu thập văn bản

Tiền xử lý
Làm sạch

Phân tích
Xử lý văn bản

Hiển thị văn bản

Hình 1.2: Quy trình Text Mining.

Các bài toán điển hình:
- Phân lớp văn bản.
- Phân loại văn bản.
- Đánh chỉ mục - tìm kiếm.
- Tóm tắt văn bản…

1.2. Tóm tắt văn bản tự động
1.2.1. Tóm tắt văn bản
Theo Inderjeet Mani, tóm tắt văn bản tự động nhằm đến mục đích: “Trích
xuất nội dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho

7



người sử dụng theo một khuôn dạng xúc tích và gây cảm xúc với người sử dụng
hoặc chương trình cần nhắm đến”[14].
Kết quả đầu ra của một hệ thống tóm tắt văn bản phải đảm bảo các đặc
điểm:


Giảm nội dung thông tin: Lƣợng nội dung trong văn bản tóm tắt phải ít hơn

so với văn bản gốc, nhƣng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật.
- Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số
lƣợng đơn vị ngữ liệu của tập văn bản nào.
- Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thƣờng tính bằng (%)
- Độ rút gọn tỉ lệ thuận với độ khó của thuật toán.
- Các văn bản tóm tắt thƣờng có một chiều dài nhất định đƣợc mong muốn.


Nội dung thông tin: Phải trung thực hoặc tƣơng đƣơng với văn bản nguồn.
- Phải liên quan,phù hợp với yêu cầu của ngƣời dùng.
- Đƣợc đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập

các dữ liệu, kiểm thử mẫu (Corpus). Độ chính xác tỷ lệ thuận với độ khó của
thuật toán.


Định dạng tốt:
- Định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của

từng loại văn bản) [6].
- Đọc và hiểu đƣợc đối với ngƣời dùng.
- Một hệ thống đƣợc đánh giá cũng dựa trên độ dễ đọc, dễ hiểu để thay thế

cho tiêu chí mức độ liên kết này.
Điều cốt lõi của một hệ thống tóm tắt văn bản theo lĩnh vực khai phá văn
bản đó là tìm ra những thành phần quan trọng trong văn bản tóm tắt. Các thành
phần này đƣợc gọi là các đơn vị ngữ liệu. Đơn vị ngữ liệu ở đây có thể hiểu là đơn
vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm lƣợc ở câu hoặc đoạn. Các đơn vị
ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng
của cả đoạn văn hay văn bản. Và sau khi chọn ngữ liệu quan trọng, hệ thống tóm
tắt có thể tóm lƣợc chúng, biến đổi chúng và sau cùng cho hiển thị ra màn hình,
thống kê.

8


Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản.

Tuy nhiên, khi tóm tắt văn bản thì hai yêu cầu đƣợc quan tâm nhất đó là:
- Văn bản tóm tắt phải ngắn hơn văn bản gốc.
- Văn bản tóm tắt phải giữ đƣợc thông tin quan trọng của văn bản gốc.
Do đó, trong quá trình tóm tắt văn bản ngƣời ta thƣờng để ý đến tỉ lệ nén và
tỉ lệ thông tin.
Tỷ lệ nén: Mô tả tỉ lệ nén về độ dài của văn bản tóm tắt so với văn bản gốc.

rl 

Ls
Lo

(1.1)

Trong đó:

o

rl : Tỷ lệ nén.

o Ls : Độ dài văn bản tóm tắt.
o Lo : Độ dài văn bản gốc.
Tỷ lệ thông tin (Retention ratio): Mô tả tỷ lệ nén về độ dài của văn bản tóm tắt so
với văn bản gốc.

rs 

Cs
Co

(1.2)

9


o

rs : Tỷ lệ thông tin.

o

cs : Số từ mang thông tin của văn bản tóm tắt.

o

co : Số từ mang thông tin của văn bản gốc.


1.2.2. Ứng dụng của tóm tắt văn bản
Tóm tắt văn bản đƣợc ứng dụng vào rất nhiều hệ thống xử lý ngôn ngữ tự
nhiên.
Một số ứng dụng tiêu biểu:
- Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo.
- Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer.
- Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác
thông tin).
- Tóm tắt bài báo khoa học, giản lƣợc trên các thiết bị cầm tay.
- Tóm tắt nội dung hội nghị, cuộc họp, webside, chƣơng trình phát thanh và
truyền hình, sổ tay công việc.
- Tóm tắt nội dung video, audio…
Ngoài ra, một số module và kết quả của bài toán cũng là đầu vào hay những
bƣớc tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản.

1.2.3. Phân loại tóm tắt
Tùy thuộc vào nhân tố khác nhau của quá trình tóm tắt văn bản, các nhân tố
khác nhau có thể phân loại thành những kiểu tóm tắt khác nhau. Trong luận văn này
xin đề cập đến 4 nhân tố cơ bản làm cơ sở cho việc phân loại tóm tắt văn bản đó là:

1.2.3.1. Nhân tố về đầu vào
 Tóm tắt đơn văn bản
Từ một văn bản nguồn cho ra bản tóm tắt ngắn gọn của văn bản đó. Bài toán
tóm tắt đơn văn bản cũng giống nhƣ các bài toán tóm tắt khác, là một quá trình tóm
tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn văn bản ngắn gọn mô tả
nội dung chính của văn bản đầu. Văn bản đơn có thể là một trang Web, một nội
dung đăng trên mạng xã hội, một bài báo, một tài liệu dạng văn bản (ví dụ: .doc,

10



.txt)... Tóm tắt văn bản đơn là bƣớc làm cơ sở cho việc xử lý tóm tắt đa văn bản và
các bài toán tóm tắt phức tạp hơn. Các phƣơng pháp nhằm giải quyết bài toán tóm
tắt văn bản đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm
tắt theo tóm lƣợc.
- Tóm tắt theo trích xuất
Đa số các phƣơng tóm tắt loại này tập trung vào việc trích xuất ra các câu
hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản
tóm tắt. Một số nghiên cứu giai đoạn đầu thƣờng sử dụng các đặc trƣng nhƣ vị trí của
câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính
toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản
tóm tắt [12], [13].
Các kỹ thuật tóm tắt gần đây sử dụng các phƣơng pháp học máy và xử lý
ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản.
Sử dụng các phƣơng pháp học máy có thể kể đến phƣơng pháp của Kupiec,
Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trƣng lại
với nhau [15] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phƣơng pháp học
máy nhằm xác định vị trí của các câu quan trọng trong văn bản [14]. Bên cạnh đó
việc áp dụng các phƣơng pháp phân tích ngôn ngữ tự nhiên nhƣ sử dụng mạng từ
Wordnet của Barzilay và Elhadad vào năm 1997 [24].
- Tóm tắt theo tóm lƣợc
Các phƣơng pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể
xem nhƣ là một phƣơng pháp tiếp cận tóm tắt theo tóm lƣợc. Các hƣớng tiếp cận có
thể kể đến nhƣ dựa vào trích xuất thông tin (Information Extraction), Ontology, hợp
nhất và nén thông tin...
Một trong những phƣơng pháp tóm tắt theo tóm lƣợc cho kết quả tốt là các
phƣơng pháp dựa vào trích xuất thông tin, phƣơng pháp dạng này sử dụng các mẫu
đã đƣợc định nghĩa trƣớc về một sự kiện hay là cốt truyện và hệ thống sẽ tự động
điền các thông tin vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra

kết quả tốt tuy nhiên các phƣơng pháp dạng này thƣờng chỉ áp dụng trong một miền
nhất định [15].

11




Tóm tắt đa văn bản: Từ một tập các văn bản nguồn cho ra đƣợc bản tóm tắt

ngắn gọn của những văn bản đó.
 Tất nhiên, tóm tắt đa văn bản khó hơn, vì ngoài những công việc của tóm tắt
đơn văn bản còn phải xử lý thêm công việc nhƣ tiền xử lý trích rút, tích hợp khuân
dạng, hiển thị theo cách riêng. Ngoài ra nó cũng phải đối mặt với những khó khăn
nhƣ: dƣ thừa dữ liệu, nội dung các văn bản nguồn phân tán,độ rút gọn yêu cầu cao,
thời gian xử lý cần phải nhanh trong khi sự phức tạp xử lý lớn.
Tóm tắt đơn văn bản là bƣớc đệm cho tóm tắt đa văn bản.
Ngoài ra, đối với nhân tố đầu vào là mỗi kiểu văn bản khác nhau (bài báo, tin
tức, bài báo khoa học,...) thì sẽ có những kiểu tóm tắt khác nhau.

1.2.3.2. Nhân tố về chức năng
Tóm tắt theo chức năng: Tóm tắt chỉ định, tóm tắt thông tin, tóm tắt đánh giá.
- Tóm tắt chỉ định: là kiểu đọc giúp ngƣời đọc phân biệt xem có nên tiếp tục
hay không.
Ví dụ: ứng dụng sinh tiêu đề, tóm tắt kết quả tìm kiếm.
- Tóm tắt thông tin: là kiểu tóm tắt tất cả các nội dung quan trọng nhất của
văn bản gốc, văn bản tạo ra để thay thế cho văn bản gốc.
Ví dụ: tóm tắt cuốn tiểu thuyết thành đoạn văn năm bảy trang.
- Tóm tắt đánh giá: là kiểu tóm tắt mà trong kết quả có cả đánh giá của ngƣời
tóm tắt.

Ví dụ nhƣ lời tựa của một cuốn sách hay một bản thảo. Kiểu bài tóm tắt này
không gặp trong một hệ văn bản tự động.

1.2.3.3. Nhân tố về mục đích của văn bản tóm tắt
- Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm
tắt là gì, tóm tắt phục vụ đối tƣợng nào…
- Nếu phụ thuộc vào đối tƣợng đọc tóm tắt thì tóm tắt cho chuyên gia khác
cách tóm tắt cho các đối tƣợng đọc thông thƣờng.
- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục vụ
cho việc sắp xếp.

12


- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt chỉ thị và tóm
tắt thông tin. Tóm tắt chỉ thị chỉ ra loại của thông tin.
Ví dụ nhƣ loại văn bản chỉ thị “tuyệt mật”. Còn tóm tắt thông tin chỉ ra nội
dung của thông tin.
- Tóm tắt trên cơ sở truy vấn (Query - Based) hay tóm tắt chung. Tóm tắt
chung có mục đích chính là tìm ra đoạn tóm tắt cho toàn bộ văn bản mà nội dung
của đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó.
Tóm tắt trên cơ sở truy vấn thì nội dung của văn bản tóm tắt sẽ dựa trên truy
vấn của ngƣời dùng hay chƣơng trình đƣa vào, loại tóm tắt này thƣờng đƣợc sử
dụng trong quá trình tóm tắt các kết quả trả về từ máy tìm kiếm.
1.2.3.4. Nhân tố về đầu ra của văn bản tóm tắt
- Dựa vào ngôn ngữ tóm tắt cũng có thể phân loại dựa vào khả năng tóm tắt
các loại ngôn ngữ [1]:
• Tóm tắt đơn ngôn ngữ (Monolingual): Hệ thống có thể tóm tắt chỉ một
loại ngôn ngữ nhất định nhƣ: tiếng Việt hay tiếng Anh…
• Tóm tắt đa ngôn ngữ (Multilingual): Hệ thống có khả năng tóm tắt nhiều

loại văn bản của các ngôn ngữ khác nhau, tuy nhiên tƣơng ứng với văn bản đầu vào
là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tƣơng ứng.
• Tóm tắt xuyên ngôn ngữ (Crosslingual): Hệ thống có khả năng đƣa ra các
văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào.
- Dựa vào định dạng đầu ra của kết quả tóm tắt: Nhƣ bảng, đoạn, từ khóa.
Ngoài hai cách phân loại trên, phân loại tóm tắt trên cở sở đầu ra còn có một
cách phân loại đƣợc sử dụng phổ biến là: Tóm tắt theo trích xuất (Extract) và tóm
tắt theo tóm lƣợc (Abstract).
- Tóm tắt trích rút (Extractive Summary): Văn bản tóm tắt chứa chính xác
ngữ liệu của văn bản gốc mà đƣợc trích rút ra trong quá trình tóm tắt.
- Tóm tắt tóm lƣợc (Abstractive Summary): Văn bản tóm tắt có thể chứa
những đơn vị ngữ liệu mới mà không có trong văn bản gốc.
Ví dụ đoạn văn sau (đƣợc đánh số thứ tự câu):

13


“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ1. Ba anh em
chúng em đã chờ những ngày này khá lâu rồi2. Chả là anh cả em được về phép
thăm gia đình nhân dịp Tết3. Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm
thật thịnh soạn4. Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình5. Bữa
ăn đã làm lên một cuối tuần tuyệt vời6”
Văn bản kết quả của quá trình trích rút:
“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm
lên một cuối tuần tuyệt vời”.
Văn bản kết quả của quá trình Tóm lƣợc:
“Một buổi cuối tuần vui vẻ của gia đình em”.
Rõ ràng qua ví dụ này, ta có thể thấy ƣu điểm của tóm tắt tóm lƣợc so với
tóm tắt trích rút, đó là sự rõ ràng mạch lạc, logic, dễ hiểu, tuy nhiên, để xây dựng
một hệ thống tóm lƣợc sẽ khó hơn là xây dựng một hệ thống trích rút. Khi xem mô

hình chung của một hệ thống tóm tắt văn bản ta sẽ thấy rõ điều này hơn.
Bài toán tóm tắt văn bản đƣợc chia thành nhiều loại. Mỗi loại đƣợc sử dụng
cho nhiều mục đích khác nhau. Mỗi bài toán có thể áp dụng cho nhiều phƣơng pháp
và kĩ thuật riêng. Không có một tóm tắt văn bản nào cài đặt và đáp ứng đƣợc hết các
yêu cầu đó.
Sau một thời gian tìm hiểu, tác giả quyết định nghiên cứu theo hướng tóm tắt
trích rút để giải quyết bài toán tóm tắt đơn văn bản tiếng Việt.

1.2.4. Mô hình tóm tắt văn bản
Nhìn chung, mô hình tổng quát của hệ thống tóm tắt văn bản theo hƣớng
trích rút có thể mô phỏng theo hình 2.1.
Đầu vào của hệ thống có thể là một văn bản hoặc một tập các văn bản, trong
phạm vi nghiên cứu của luận văn thì văn bản đầu vào là văn bản đơn (tóm tắt đơn
văn bản). Hệ thống tóm tắt văn bản có thể chia làm 3 giai đoạn chính:
- Tiền xử lý: Biểu diễn và hiểu văn bản nguồn
- Trích rút câu: Trích chọn những câu có nội dung quan trọng.
- Sinh văn bản tóm tắt: Tạo văn bản mới chứa những điểm quan chính, quan
trọng của văn bản gốc.

14


Văn bản
nguồn

Tiền xử


Trích rút
câu


Sinh văn
bản tóm tắt

Văn bản
Tóm tắt

Hình 1.4: Mô hình tóm tắt văn bản tự động.

Dƣới đây sẽ trình bày chi tiết về các bƣớc xử lý trong từng giai đoạn của hệ
thống văn bản.

1.2.4.1. Quy trình thực hiện tóm tắt văn bản
a. Quy trình xử lý
Trong quy trình tiền xử lý, từ văn bản đầu vào, ta thực hiện việc chuyển tự
văn bản nguồn thành văn bản có cấu trúc. Một số kỹ thuật có thể áp dụng trong
bƣớc này: Tách câu, tách từ, loại bỏ từ dừng, tính trọng số cho các từ trong câu...để
phù hợp với đầu vào của từng phƣơng pháp trong quá trình trích rút câu. Đây là giai
đoạn vô cùng quan trọng trong bài toán tóm tắt băn bản, nó làm giảm dữ liệu nhiễu,
dữ liệu dƣ thừa và giảm kích thƣớc của dữ liệu đầu vào. Sau khi tiền xử lý xong sẽ
thu đƣợc dạng biểu diễn phù hợp của dữ liệu. Nếu kết quả của bƣớc tiền xử lý
không chính xác, dẫn đến kết quả của những bƣớc sau sẽ không đúng. Đây là bƣớc
chung phải có của bất kỳ phƣơng pháp nào.
Nhƣ ở trong luận văn này, tác giả sử dụng tách theo hai thƣ viện. Không sử
dụng loại bỏ từ dừng vì đây là tóm tắt văn bản chung và không quá dài, không sử
dụng tóm tắt có loại bỏ từ dừng.
Pha xử lý này nhận đầu vào là tập các trang web thuộc tập dữ liệu. Các quá
trình thực hiện theo bƣớc sau:
- Loại bỏ văn bản có nội dung trùng lặp.
- Lọc nhiễu, loại bỏ các thẻ HTML, lấy nội dung chính của văn bản.


15


- Tách từ, tách câu các văn bản có đƣợc bằng công cụ JvnTextPro của tác giả
Nguyễn Cẩm Tú. Tách từ đối với nhãn cụm.
b. Quá trình trích rút câu quan trọng
Sau bƣớc tiền xử lý, ta sẽ thu đƣợc dữ liệu đã cấu trúc. Tùy thuộc vào
phƣơng pháp tiếp cận mà dữ liệu đƣợc cấu trúc hợp lý.
Pha này nhận đầu vào là các văn bản và nhãn cụm đã qua tiền xử lý, đầu ra là
danh sách các câu, các văn bản đã đƣợc sắp xếp theo độ quan trọng về mặt ngữ
nghĩa.
Việc sắp xếp các văn bản và câu theo độ quan trọng bên cạnh việc loại bỏ sự
chồng chéo giữa các văn bản là một bƣớc quan trọng trong mô hình tóm tắt văn bản.
Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên. Trong quá trình xử lý
thì văn bản phải đƣợc biểu diễn, cấu trúc để máy tính có thể hiểu đƣợc. Quá trình
phân tích, xử lý ngôn ngữ tự nhiên có các mức độ sâu xử lý khác nhau nhƣ: mức
hình thái, mức cú pháp, mức ngôn ngữ. Tƣơng tự, bài toán tóm tắt văn bản cũng xử
lý văn bản ở ba mức độ khác nhau nhƣ xử lý ngôn ngữ tự nhiên. Với mỗi mức độ sẽ
có các đặc trƣng khác nhau.
Đối với mỗi mức độ, thì sẽ có các phƣơng pháp tiếp cận khác nhau:
 Mức hình thái: Ở mức này thƣờng sử dụng các phƣơng pháp dựa trên độ đo
tƣơng đồng trên mô hình không gian vecto, áp dụng tính toán trọng số TF*IDF cho
các từ, các câu và phƣơng pháp thống kê.
Sơ lƣợc về phƣơng pháp thống kê:
- Các phƣơng pháp thống kê đều tập chung vào những đặc trƣng về hình thái
của văn bản để tính điểm cho các câu và trích rút các câu quan trọng đƣa vào tóm
tắt.
- Ý tƣởng: Lặp đi lặp lại các thuật toán logic để tính điểm cho các câu, tƣơng
đƣơng với việc các từ có tần suất xuất hiện nhiều nhất trong văn bản sẽ trở thành

chủ đề của văn bản đó.
Một số tư tưởng của phương pháp này:
- Dựa trên vị trí.
- Dựa trên từ ngữ cố định.

16


×