Tải bản đầy đủ (.pdf) (63 trang)

Luận văn phương pháp xếp hạng dựa trên đồ thị và ứng dụng vào tóm tắt văn bản tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 63 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

NGUYỄN THỊ NGỌC ÁNH

PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ
VÀ ỨNG DỤNG VÀO TÓM TẮT VĂN BẢN TỰ ĐỘNG

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI, 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

NGUYỄN THỊ NGỌC ÁNH

PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ
VÀ ỨNG DỤNG VÀO TÓM TẮT VĂN BẢN TỰ ĐỘNG
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS.TS. NGUYỄN LONG GIANG

HÀ NỘI, 2018


i



LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến PGS.TS Nguyễn Long Giang, ngƣời
thầy đã định hƣớng đề tài và tận tình hƣớng dẫn tôi trong suốt quá trình tôi nghiên
cứu khoa học và thực hiện luận văn thạc sỹ này.
Tôi cũng xin cảm ơn sự tận tình giảng dạy, chỉ bảo, truyền đạt những kiến
thức, những kinh nghiệm của thầy cô trƣờng Đại học Sƣ Phạm Hà Nội 2 trong thời
gian học tập và nghiên cứu.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, ngƣời thân và đồng nghiệp đã
động viên, giúp đỡ và khuyến khích tôi trong suốt thời gian học cao học cũng nhƣ
quá trình thực hiện luận văn cao học. Xin trân trọng cảm ơn!


ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là kết quả nghiên cứu của tôi dƣới sự hƣớng dẫn
của PGS.TS Nguyễn Long Giang. Trong toàn bộ nội dung của luận văn, những
điều đƣợc trình bày là của cá nhân tôi hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu.
Tất cả nguồn tài liệu tham khảo đều có nguồn gốc và trích dẫn rõ ràng, đầy đủ.
Hà Nội, 2018
Học viên

Nguyễn Thị Ngọc Ánh


iii

MỤC LỤC
LỜI CẢM ƠN ............................................................................................................. 1

LỜI CAM ĐOAN .......................................................................................................ii
MỤC LỤC ................................................................................................................. iii
DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT .................................................................. v
DANH MỤC HÌNH VẼ ............................................................................................. vi
MỞ ĐẦU ..................................................................................................................... 1
Chƣơng 1. TỔNG QUAN ........................................................................................... 3
1.1. Tổng quan về khai phá dữ liệu ......................................................................... 3
1.1.1. Khai phá dữ liệu ......................................................................................... 3
1.1.2. Quy trình khai phá dữ liệu ......................................................................... 4
1.1.3. Ứng dụng của khai phá dữ liệu .................................................................. 5
1.2. Khai phá dữ liệu văn bản.................................................................................. 6
1.2.1. Tổng quan về khai phá dữ liệu văn bản..................................................... 6
1.2.2. Quy trình khai phá dữ liệu văn bản ........................................................... 6
1.3. Tóm tắt văn bản tự động .................................................................................. 8
1.3.1. Tóm tắt văn bản ......................................................................................... 8
1.3.2. Ứng dụng của tóm tắt văn bản ................................................................ 10
1.3.3. Phân loại tóm tắt ..................................................................................... 10
1.3.4. Mô hình tóm tắt văn bản .......................................................................... 14
1.3.5. Quy trình thực hiện tóm tắt văn bản ........................................................ 14
1.3.6. Đánh giá văn bản tóm tắt ........................................................................ 17
1.3.7. Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt .............. 20
1.3.8. Phát biểu bài toán đơn văn bản tiếng Việt .............................................. 22
1.3.9. Tóm tắt chương I...................................................................................... 22
Chƣơng 2. PHƢƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ ............................ 23
2.1. Các thuật toán xếp hạng dựa trên đồ thị ......................................................... 23
2.1.1. Thuật toán PageRank ............................................................................... 23
2.1.2. Thuật toán HITS ....................................................................................... 26


iv


2.1.3. Đánh giá và so sánh giữa thuật toán PageRank và thuật toán HITS ...... 28
2.2. Thuật toán TextRank ...................................................................................... 29
2.2.1. Thuật toán TextRank ................................................................................ 29
2.2.2. Các công thức tính độ tương đồng ........................................................... 31
2.2.3. Nhận xét thuật toán TextRank .................................................................. 34
2.3. Tóm tắt Chƣơng 2 ........................................................................................... 35
Chƣơng 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ......................................... 36
3.1. Yêu cầu về bài toán tóm tắt đơn văn bản tiếng Việt ....................................... 36
3.1.1. Yêu cầu chức năng ................................................................................... 36
3.1.2. Các yêu cầu khác ...................................................................................... 36
3.1.3. Yêu cầu về môi trường thực nghiệm ......................................................... 36
3.1.4. Yêu cầu về dữ liệu thực nghiệm................................................................ 36
3.2. Mô hình giải quyết bài toán ............................................................................ 37
3.2.1. Tiền xử lý văn bản. ................................................................................... 38
3.2.2. Xây dựng đồ thị câu.................................................................................. 40
3.2.3. Tính hạng câu trên đồ thị ......................................................................... 41
3.2.4. Sinh văn bản tóm tắt ................................................................................. 42
3.3. Thực nghiệm, đánh giá kết quả....................................................................... 42
3.3.1. Cài đặt chương trình ................................................................................ 42
3.3.2. Đánh giá kết quả thực nghiệm ................................................................. 49
3.4. Tóm tắt Chƣơng 3 ........................................................................................... 50
KẾT LUẬN ............................................................................................................... 51
TÀI LIỆU THAM KHẢO ......................................................................................... 53


v

DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT


STT

Từ hoặc cụm từ

Từ viết tắt

1

Recall-Oriented Understudy for Gisting Evaluation

ROUGE

2

Hyperlinked Induced Topic Search

HITS

3

Document Understanding Conference

DUC

4

Natural Language Processing

LNP


5

Text Analysis Conference

TAC


vi

DANH MỤC HÌNH VẼ
Hình 1.1: Quy trình khai phá dữ liệu.

4

Hình 1.2: Quy trình khai phá dữ liệu văn bản.

7

Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản.

9

Hình 1.4. Mô hình tóm tắt văn bản tự động.

14

Hình 2.1: Mô hình PageRank.

24


Hình 2.2: Ý tƣởng PageRank.

24

Hình 2.3: Mô tả khái quát ý tƣởng PageRank

25

Hình 2.4: Trang Authority.

27

Hình 2.5: Trang Hub.

27

Hình 2.6: Mô hình trang Authority và trang Hub.

27

Hình 2.7: Mô hình trang Authority tốt và trang Hub tốt.

28

Hình 2.8: Đồ thị TextRank.

31

Hình 2.9: Đồ thị TextRank với các giá trị trọng số và độ tƣơng đồng giữa các câu.34
Hình 3.1: Các bƣớc thực hiện tóm tắt theo thuật toán TextRank.


37

Hình 3.2: Các bƣớc thực hiện JvnTextPro3.

38

Hình 3.3: Bảng PreText đầy đủ.

42

Hình 3.4: Cấu trúc chƣơng trình.

43

Hình 3.5: Giao diện chính của chƣơng trình

44

Hình 3.6: Thanh chọn hiển thị yêu cầu.

44

Hình 3.7: Nút chọn tệp.

45

Hình 3.8: Lựa chọn phần trăm độ dài tóm tắt.

45


Hình 3.9: Nút tóm tắt.

45

Hình 3.10: Nút hiển thị đồ thị.

45

Hình 3.11: Chọn số nút hiển thị.

45

Hình 3.12: Nút hiển thị toàn bộ.

46


vii

Hình 3.13: Nút hiển thị TextRank.

46

Hình 3.14: Giao diện văn bản chi tiết.

46

Hình 3.15: Giao diện tóm tắt.


47

Hình 3.16: Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút.

47

Hình 3.17: Giao diện hiển thị 100% số nút.

48

Hình 3.18: Giao diện hiển thị TextRank cho các câu.

48


1

MỞ ĐẦU
1. Tính cấp thiết đề tài
Ngày nay, sự phát triển mạnh mẽ của công nghệ thông tin và các dịch vụ trực
tuyến đã tạo ra nguồn thông tin khổng lồ, do vậy nhu cầu tổng hợp và tóm tắt lại các
thông tin quan trọng đang trở thành vấn đề cấp thiết. Tóm tắt dữ liệu tự động là
hƣớng nghiên cứu rất quan trọng trong khai phá dữ liệu và có tính ứng dụng thực
tiễn cao. Bài toán tóm tắt dữ liệu tự động bao gồm tóm tắt dữ liệu văn bản và tóm tắt
các dữ liệu đa phƣơng tiện nhƣ hình ảnh, âm thanh, các đối tƣợng đồ họa, video.
Tóm tắt văn bản giúp ngƣời dùng tiết kiệm đƣợc thời gian, tăng hiệu quả tìm kiếm
về vấn đề nào đó. Xuất phát từ nhu cầu đó, các phƣơng pháp tóm tắt dữ liệu tự động
đƣợc nghiên cứu và phát triển.
Bài toán tóm tắt văn bản tự động ngày càng nhận đƣợc nhiều sự quan tâm và
nghiên cứu của các nhà khoa học trên thế giới. Các bài báo liên quan đến tóm tắt

văn bản tự động đƣợc đề cập nhiều trong các hội nghị nổi tiếng nhƣ: DUC1 20012007, TAC2 2008, ACL3 2001-2007… Ngoài ra, có nhiều hệ thống tóm tắt văn bản
độc lập hoặc tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức năng tự động
tóm tắt trong Microsoft Word... Tuy nhiên, các nghiên cứu này vẫn chƣa đƣợc đánh
giá cụ thể. Nhƣ vậy ta thấy đƣợc tầm quan trọng của tóm tắt văn bản tự động và cần
có một tiêu chí để đánh giá kết quả của văn bản tóm tắt.
Với các phân tích trên, luận văn lựa chọn đề tài: “Phƣơng pháp xếp hạng
dựa trên đồ thị và ứng dụng vào tóm tắt văn bản tự động” để nghiên cứu.
2. Mục tiêu nghiên cứu
Tìm hiểu tổng quan về phƣơng pháp xếp hạng dựa trên đồ thị TextRank, bài
toán tóm tắt văn bản tự động và ứng dụng thuật toán

TextRank xây dựng đồ thị

câu, xếp hạng câu trên đồ thị. Trên cơ sở đó, cài đặt thử nghiệm tóm tắt đơn văn bản
tiếng Việt, đánh giá kết quả thu đƣợc sau thực nghiệm.
1

Document Understanding Conference.

2

Text Analysis Conference. />
3

Association for Computational Linguistics.


2

3. Đối tƣợng và phạm vi nghiên cứu

3.1. Đối tƣợng nghiên cứu

- Các văn bản tiếng Việt.
- Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu.
3.2. Phạm vi nghiên cứu
Tóm tắt đơn văn bản tiếng Việt bằng thuật toán TextRank sử dụng đồ thị câu.
4. Cấu trúc của luận văn
Luận văn có cấu trúc nhƣ sau:
Mở đầu: Lý do chọn đề tài.
Chƣơng 1: Tổng quan
Chƣơng này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá văn
bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng nhƣ việc đánh giá một
văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung.
Chƣơng 2: Phƣơng pháp xếp hạng dựa trên đồ thị
Trình bày các phƣơng pháp xếp hạng dựa trên đồ thị nhƣ PageRank, HITS,
đƣa ra việc sử dụng thuật toán TextRank để giải quyết bài toán tóm tắt văn bản
Tiếng Việt.
Chƣơng 3: Thử nghiệm và đánh giá kết quả
Xây dựng chƣơng trình sử dụng thuật toán TextRank để tóm tắt đơn văn bản
và kết quả cài đặt ứng dụng thử nghiệm.
Kết luận: Tóm tắt kết quả đạt đƣợc của luận văn và định hƣớng phát triển
tƣơng lai.


3

Chƣơng 1. TỔNG QUAN
1.1.

Tổng quan về khai phá dữ liệu

Những năm gần đây, với sự phát triển mạnh mẽ vƣợt bậc của khoa học công

nghệ, đặc biệt là công nghệ thông tin khiến dữ liệu tăng lên nhanh chóng. Ta có thể
nhìn thấy dữ liệu ở khắp mọi nơi nhƣ bài báo, thƣ điện tử, công văn, trang web,... và
hầu hết chúng đều ở dạng dữ liệu văn bản. Dữ liệu văn bản tăng nhanh đòi hỏi việc
lƣu trữ trên các bản ghi hay thiết bị điện tử nhƣ băng từ, ổ cứng, đĩa CD... cũng tăng
lên. Ngƣời ta ƣớc tính rằng sau khoảng hai năm, lƣợng thông tin có thể tăng gấp hai
lần hoặc hơn thế nữa. Vì vậy việc khai thác, tìm kiếm các thông tin hữu ích trong cơ
sở dữ liệu (CSDL) theo cách truyền thống ngày càng trở nên khó khăn khi số lƣợng
và kích cỡ CSDL ngày càng lớn. Vấn đề đặt ra là phải có những phƣơng pháp, kỹ
thuật mới để tìm ra đƣợc những thông tin quan trọng và có ích từ các CSDL đồ sộ.
Khai phá dữ liệu (Data Mining) ra đời nhƣ một kết quả tất yếu để giải quyết
vấn đề nêu trên. Thuật ngữ Data Mining đƣợc biết đến từ cuối những năm 80 của
thế kỷ XX và đƣợc các nhà khoa học quan tâm, có thể hiểu nó là quá trình trích
chọn ra tri thức để tìm ra các mẫu hoặc các mô hình bị che lấp trong CSDL.

1.1.1. Khai phá dữ liệu
Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri thức trong
CSDL. Kết quả của quá trình này là tìm ra các tri thức đang tồn tại trong CSDL
nhƣng bị che lấp để phục vụ cho mục đích nào đó. Khai phá dữ liệu giúp tìm kiếm
tri thức nhanh hơn và hiệu quả hơn, tri thức ở đây đƣợc hiểu là những thông tin
mới, hữu ích. Qua tìm hiểu, có nhiều định nghĩa về khai phá dữ liệu, luận văn xin
trình bày một số định nghĩa tiêu biểu của các tác giả:
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp
đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chƣa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong CSDL lớn”



4

Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thƣờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu
đƣợc”.
Tóm lại, Data Mining đƣợc hiểu là việc tìm ra một tập hợp nhỏ dữ liệu có giá
trị từ tập các dữ liệu thô ban đầu bằng việc sử dụng các kỹ thuật nhƣ thống kê, học
máy, nhận dạng, trí tuệ nhân tạo... Hiện nay có nhiều thuật ngữ đƣợc sử dụng có
nghĩa tƣơng tự thuật ngữ Data Mining nhƣ Knowledge Mining, Knowledge
Extraction, Data Dredging,...

1.1.2. Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu đƣợc mô tả ở Hình 1.1.

Đổi dạng

Khai phá
dữ liệu

Tri thức

Tiền xử


Mẫu

Chọn lựa

Dữ liệu
đích


Đánh giá
và trình
diễn

Dữ liệu
đã tiền
xử lý

Dữ liệu
chuyển
dạng

Hình 1.1: Quy trình khai phá dữ liệu.

1. Làm sạch dữ liệu (Data cleaning &Preprocessing): xử lý dữ liệu nhiễu, biến
đổi, rút gọn dữ liệu, bổ sung các giá trị bị mất. Sau bƣớc này dữ liệu sẽ nhất quán.
2. Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ nhiều cơ sở dữ liệu
hoặc từ các file thành những kho dữ liệu.
3. Chọn lựa dữ liệu (Data selection): Từ kho dữ liệu, lựa chọn dữ liệu cần
thiết, sau đó chuyển đổi về dạng phù hợp cho quá trình khai thác tri thức.
4. Biến đổi dữ liệu (Data traformation): Các dữ liệu đƣợc chuyển đổi về dạng
phù hợp nhất để phục vụ cho quá trình xử lý.


5

5. Khai phá dữ liệu (Data Mining): Đây là bƣớc quan trọng nhất để trích chọn
ra những mẫu dữ liệu tiềm ẩn quan trọng. Bƣớc này sử dụng một số kỹ thuật nhƣ
phân lớp, gom cụm, luật kết hợp.

6. Đánh giá mẫu (Knowledge Evaluation): Lựa chọn tiêu chuẩn đánh giá các
mẫu dữ liệu, xác định các mẫu cần thiết để biểu diễn tri thức.
7. Biểu diễn tri thức (Knowledge Presentation): Sử dụng các kỹ thuật để biểu
diễn các tri thức và thể hiện trực quan các tri thức đến với ngƣời dùng, nhƣ đồ thị,
bảng biểu, cây,...

1.1.3. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu không còn là khái niệm xa lạ với chúng ta, sự ra đời của các
ứng dụng của khai phá dữ liệu khẳng định tầm quan trọng của nó đối với thực tiễn.
Khai phá dữ liệu sử dụng kiến thức từ nhiều lĩnh vực khác nhau nhƣ thống kê, thuật
toán, trí tuệ nhân tạo, CSDL, tính toán song song,… Hiện nay các nhà khoa học hay
các công ty phần mềm lớn vẫn đang tiếp tục nghiên cứu và phát triển các ứng dụng
của khai phá dữ liệu để phục vụ cho cuộc sống. Qua tìm hiểu, luận văn đƣa ra một
số ứng dụng của khai phá dữ liệu nhƣ:
- Cung cấp tri thức, dự báo, khái quát dữ liệu.
- Ngân hàng: phân tích tình hình tài chính, dự báo rủi ro, phân loại khách hàng
mục tiêu, phân tích lãi suất, phát hiện gian lận...
- Thống kê: phân tích dữ liệu và hỗ trợ ra quyết định.
- Y tế: Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán bệnh và

đƣa ra phƣơng pháp điều trị.

- Mạng viễn thông: Phân tích các cuộc gọi, giám sát lỗi, sự cố, chất lƣợng
dịch vụ.
- Text mining và Web mining: Phân lớp văn bản, trang Web, tóm tắt văn bản.

- Sinh học: phân tích dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các
hệ gene và thông tin di truyền.



6

1.2.

Khai phá dữ liệu văn bản

1.2.1. Tổng quan về khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản (Text Mining) là quá trình xử lý và trích chọn những
thông tin có giá trị trong văn bản. Có thể thấy khái niệm này gần giống với khai phá
dữ liệu, tuy nhiên đây chỉ là một bƣớc nhỏ trong khai phá dữ liệu. Trong Text
Mining thì bài toán tóm tắt văn bản là điển hình nhất.
Nhƣ chúng ta đã biết, dữ liệu xuất hiện ở mọi nơi, bất kì một công ty hay tổ
chức nào đó đều có nhu cầu lƣu trữ lại dữ liệu để phục vụ mục đích riêng. Hiện nay,
hầu hết các thông tin, dữ liệu quan trọng đều đƣợc số hóa và lƣu trữ trong CSDL
văn bản, bao gồm các nguồn tài liệu từ nhiều lĩnh vực khác nhau nhƣ các bài báo
nghiên cứu, các trang web, báo điện tử, thƣ điện tử, World Wide Web, các thông tin
về chính phủ, thƣơng mại, công nghiệp, giáo dục,... Sự bùng nổ thông tin ở dạng số
là nguyên nhân khiến cho CSDL văn bản phát triển nhanh chóng, điều này gây khó
khăn trong việc tiếp nhận nội dung chính của nó.
Dữ liệu lƣu trữ trong CSDL văn bản là dữ liệu bán cấu trúc, nghĩa là chúng
không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc. Ví dụ: một tài liệu có
thể chứa một vài trƣờng cấu trúc nhƣ tiêu đề, tên tác giả, ngày xuất bản, phân loại…
Nhƣng cũng có thể chứa một lƣợng lớn các trƣờng phi cấu trúc nhƣ phần tóm tắt
hay nội dung của tài liệu.
Từ những vấn đề trên, rất khó để đƣa ra các câu truy vấn hiệu quả vì ngƣời ta
không biết bên trong dữ liệu có chứa những thông tin gì. Vì thế việc đƣa ra câu truy
vấn để trích rút các thông tin cần thiết cũng nhƣ sắp xếp lại dữ liệu trở nên khó
khăn. Do đó vấn đề đặt ra ở đây là làm sao có thể tìm kiếm, khai thác nguồn dữ liệu
một các hiệu quả nhất. Các kỹ thuật để giải quyết vấn đề này đƣợc gọi là Text
Mining hay còn gọi là khai phá dữ liệu văn bản…


1.2.2. Quy trình khai phá dữ liệu văn bản
Quy trình khai phá dữ liệu văn bản gồm các bƣớc trong Hình 1.2.


7

Nguồn dữ liệu

Thu thập văn bản

Tiền xử lý
Làm sạch

Phân tích
Xử lý văn bản

Hiển thị văn bản

Hình 1.2: Quy trình khai phá dữ liệu văn bản.

- Thu thập văn bản: Thu thập các dữ liệu, văn bản có liên quan, cần thiết
cho quá trình xử lý.
- Tiền xử lý: phân đoạn, tách nhỏ, biến đổi, xử lý nhiễu dữ liệu.
- Phân tích, xử lý văn bản: Loại bỏ các thông tin không cần thiết.

- Hiển thị văn bản sau khi đƣợc xử lý.
Các bài toán điển hình của Text Mining gồm:
- Tóm tắt văn bản.
- Phân lớp, phân loại văn bản.

- Thu thập thông tin
- Đánh chỉ mục, tìm kiếm...


8

1.3.

Tóm tắt văn bản tự động

1.3.1. Tóm tắt văn bản
Tóm tắt văn bản là bài toán điển hình của Text Mining. Tóm tắt văn bản là
quá trình chắt lọc những thông tin, dữ liệu quan trọng nhất từ văn bản gốc để tạo ra
một bản ngắn gọn đáp ứng yêu cầu của ngƣời dùng. Ngày nay với sự tăng lên không
ngừng của dữ liệu, các phƣơng pháp tóm tắt thủ công khó đáp ứng đƣợc yêu cầu
ngƣời dùng vì tốn rất nhiều thời gian. Thay vào đó là tóm tắt văn bản một cách tự
động bằng sử dụng các kỹ thuật hay phƣơng pháp nào đó.
Theo Inderjeet Mani, tóm tắt văn bản nhằm đến mục đích: “Trích xuất nội
dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho người sử
dụng theo một khuân dạng xúc tích và gây cảm xúc với người sử dụng hoặc chương
trình cần nhắm đến”[11]. Tóm tắt văn bản phải đảm bảo các đặc điểm sau đây:


Rút gọn văn bản: Nội dung trong văn bản tóm tắt phải ít hơn văn bản gốc,

nhƣng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật.
- Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số
lƣợng đơn vị ngữ liệu của tập văn bản nào.
- Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thƣờng tính bằng (%)
- Độ rút gọn tỉ lệ thuận với độ khó của thuật toán.

- Các văn bản tóm tắt thƣờng có một chiều dài nhất định đƣợc mong muốn.


Nội dung thông tin: Phải trung thực hoặc tƣơng đƣơng với văn bản nguồn.
- Phải liên quan, đáp ứng đƣợc yêu cầu của ngƣời dùng.
- Đƣợc đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập

các dữ liệu, kiểm thử mẫu (Corpus). Độ chính xác tỷ lệ thuận với độ khó của
thuật toán.


Định dạng tốt:
- Định dạng tốt về ngữ pháp và cấu trúc nội dung của từng loại văn bản.
- Ngƣời dùng đọc đƣợc và hiểu đƣợc.
Trong Text Mining, vấn đề mấu chốt của một hệ thống tóm tắt văn bản là

tìm ra những thành phần quan trọng nhất, chứa nội dung chính của văn bản đó.
Các thành phần này đƣợc gọi là các đơn vị ngữ liệu, là đơn vị nhỏ nhất có nghĩa


9

đƣợc lựa chọn để trích rút, tóm lƣợc ở câu hoặc đoạn văn. Sau khi chọn ra các ngữ
liệu, hệ thống thực hiện tóm tắt và hiển thị kết quả ra màn hình.

Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản.

Tóm tắt văn bản phải đảm bảo các yêu cầu sau:
- Văn bản tóm tắt phải ngắn hơn so với văn bản gốc.
- Văn bản tóm tắt phải giữ đƣợc thông tin quan trọng của văn bản gốc.

Vì vậy, trong quá trình tóm tắt văn bản ngƣời ta quan tâm đến tỉ lệ nén và tỉ
lệ thông tin.
Tỷ lệ nén: Mô tả tỉ lệ nén về độ dài của văn bản tóm tắt so với văn bản gốc.
(1.1)

Trong đó:
o rl: Tỷ lệ nén.
o Ls: Độ dài văn bản tóm tắt.
o Lo: Độ dài văn bản gốc.
Tỷ lệ thông tin (retention ratio): Mô tả tỷ lệ về số từ mang thông tin của
văn bản tóm tắt so với văn bản gốc.
(1.2)


10

o rs: Tỷ lệ thông tin.
o cs: Số từ mang thông tin của văn bản tóm tắt.
o co: Số từ mang thông tin của văn bản gốc.

1.3.2. Ứng dụng của tóm tắt văn bản
Một số ứng dụng tiêu biểu của tóm tắt văn bản:
- Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo.
- Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer.
- Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác
thông tin).
- Tóm tắt bài báo khoa học, giản lƣợc trên các thiết bị cầm tay.
- Tóm tắt nội dung hội nghị, cuộc họp, webside, chƣơng trình phát thanh và
truyền hình, sổ tay công việc.
- Tóm tắt nội dung video, audio…..

Có thể thấy rằng tóm tắt văn bản có nhiều ứng dụng trong xử lý ngôn ngữ tự
nhiên, ngoài ra một một số module và kết quả của bài toán cũng là đầu vào hay
những bƣớc tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản.

1.3.3. Phân loại tóm tắt
Bài toán tóm tắt văn bản đƣợc phân loại dựa trên các nhân tố khác nhau, luận
văn đƣa ra 4 nhân tố cơ bản để phân loại tóm tắt văn bản đó là:
- Đầu vào của văn bản tóm tắt.
- Chức năng của văn bản tóm tắt.
- Mục đích của văn bản tóm tắt.
- Đầu ra của văn bản tóm tắt.
1.3.3.1. Nhân tố về đầu vào
Dựa vào nhân tố đầu vào có thể chia văn bản tóm tắt thành tóm tắt đơn văn
bản và tóm tắt đa văn bản.
 Tóm tắt đơn văn bản
Từ một văn bản gốc, qua quá trình xử lý cho ra kết quả là một văn bản ngắn
gọn hơn nhƣng vẫn giữ đƣợc các thông tin quan trọng của văn bản đó. Văn bản ở
đây có thể là một bài báo, tin tức, bài báo khoa học, một tài liệu dạng văn bản, hay


11

một nội dung đăng trên mạng xã hội,... Đây là loại tóm tắt thƣờng gặp và đơn giản
vì đầu vào và đầu ra đều là đơn văn bản. Tóm tắt đơn văn bản là tiền đề cho việc xử
lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn. Phƣơng pháp để giải
quyết bài toán này bao gồm tóm tắt theo trích xuất và tóm tắt theo tóm lƣợc.
- Tóm tắt theo trích xuất
Đa số các phƣơng pháp tóm tắt loại này tập trung vào việc trích xuất ra các
câu hay các từ ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn
bản tóm tắt. Một số nghiên cứu giai đoạn đầu thƣờng sử dụng các đặc trƣng nhƣ vị trí

của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa để
tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn
bản tóm tắt [8],[21].
Để tìm ra các thành phần quan trọng trong văn bản, các kỹ thuật tóm tóm tắt
văn bản đƣợc sử dụng gần đây có thể kể đến phƣơng pháp học máy và xử lý ngôn
ngữ tự nhiên. Áp dụng phƣơng pháp học máy có thể kể đến phƣơng pháp của
Kupiec, Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc
trƣng lại với nhau [13] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phƣơng
pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [7]. Việc
áp dụng các phƣơng pháp phân tích ngôn ngữ tự nhiên nhƣ sử dụng mạng từ
Wordnet của Barzilay và Elhadad vào năm 1997 [20].
- Tóm tắt theo tóm lƣợc
Các phƣơng pháp tóm tắt không sử dụng trích xuất để tạo ra văn bản tóm tắt
có thể coi là một phƣơng pháp tiếp cận tóm tắt theo tóm lƣợc. Các hƣớng tiếp cận
có thể kể đến nhƣ dựa vào trích xuất thông tin (Information Extraction), Ontology,
hợp nhất và nén thông tin...
Một trong những phƣơng pháp tóm tắt theo tóm lƣợc cho kết quả tốt là các
phƣơng pháp dựa vào trích xuất thông tin. Phƣơng pháp dạng này sử dụng các mẫu
đã đƣợc định nghĩa trƣớc về một sự kiện hay là cốt truyện, hệ thống sẽ tự động điền
các thông tin, dữ liệu vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù
phƣơng pháp này cho ra kết quả tốt, tuy nhiên các phƣơng pháp dạng này thƣờng
chỉ áp dụng trong một miền nhất định [5], [13].


12

 Tóm tắt đa văn bản:
Đa văn bản có thể hiểu là rất nhiều văn bản có thể cùng một lĩnh vực, hay
nhiều lĩnh vực khác nhau. Đây là loại tóm tắt phức tạp hơn nhiều tóm tắt đơn văn
bản. Kết quả của quá trình này là một văn bản tóm tắt ngắn gọn đƣợc sinh ra từ một

tập các văn bản nguồn ban đầu nhƣng vẫn đảm bảo đƣợc nội dung. Việc xử lý tóm
tắt đa văn bản cũng khó khăn và phức tạp, bao gồm các công việc nhƣ: tóm tắt đơn
văn bản, tiền xử lý trích rút, tích hợp khuân dạng, hiển thị theo cách riêng.
Một số khó khăn tóm tắt đa văn bản vấp phải nhƣ: dƣ thừa dữ liệu, nội dung
các văn bản nguồn phân tán, thời gian xử lý cần phải nhanh trong khi sự phức tạp
xử lý lớn.
Có thể nói tóm tắt đơn văn bản là cơ sở, là tiền đề cho tóm tắt đa văn bản.
Ngoài ra, đối với nhân tố đầu vào là mỗi kiểu văn bản khác nhau (bài báo, tin tức,
bài báo khoa học,….) thì sẽ có những kiểu tóm tắt khác nhau.
1.3.3.2. Nhân tố về chức năng
Dựa vào nhân tố chức năng có thể chia thành ba loại tóm tắt sau: tóm tắt chỉ
định, tóm tắt thông tin, tóm tắt đánh giá.
- Tóm tắt chỉ định: chỉ ra loại thông tin.
- Tóm tắt thông tin: tóm tắt các nội dung quan trọng nhất của văn bản gốc.
- Tóm tắt đánh giá: trong kết quả tóm tắt có cả đánh giá của ngƣời tóm tắt.
1.3.3.3. Nhân tố về mục đích của văn bản tóm tắt
Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích của
tóm tắt là gì, tóm tắt phục vụ đối tƣợng nào. Mục đích, đối tƣợng khác nhau sẽ có
cách tóm tắt khác nhau, ví dụ nhƣ đối tƣợng chuyên gia sẽ khác đối tƣợng thông
thƣờng, mục đích tìm kiếm sẽ khác với sắp xếp. Dựa vào mục đích của văn bản tóm
tắt có hai loại tóm tắt sau:
- Tóm tắt văn bản chung (Generic): Mục đích là tìm ra văn bản tóm tắt bao
quát đƣợc toàn bộ nội dung của văn bản gốc.
- Tóm tắt hƣớng truy vấn (Query-Oriented): Dựa trên truy vấn của ngƣời
dùng hay chƣơng trình đƣa vào để đƣa ra văn bản tóm tắt. Đây là loại tóm đƣợc sử
dụng để trả về kết quả từ máy tìm kiếm.


13


1.3.3.4. Nhân tố về đầu ra của văn bản tóm tắt
- Dựa vào ngôn ngữ, có thể phân loại dựa vào khả năng tóm tắt các loại
ngôn ngữ nhƣ sau:
• Tóm tắt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tắt chỉ một loại
ngôn ngữ nhất định nhƣ: tiếng Việt, tiếng Anh, tiếng Pháp,...
• Tóm tắt đa ngôn ngữ (Multilingual): hệ thống có khả năng tóm tắt nhiều
loại văn bản của các ngôn ngữ khác nhau, tuy nhiên tƣơng ứng với văn bản đầu vào
là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tƣơng ứng.
• Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả năng đƣa ra các
văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào.
- Dựa vào định dạng đầu ra: nhƣ bảng, đoạn, từ khóa.
Ngoài ra, dựa vào đầu ra của văn bản tóm tắt có thể phân loại tóm tắt theo
trích rút (Extract) và tóm tắt theo tóm lƣợc (Abstract).
- Tóm tắt trích rút (Extractive Summary): văn bản tóm tắt chứa chính xác
ngữ liệu của văn bản gốc mà đƣợc trích rút ra trong quá trình tóm tắt.
- Tóm tắt tóm lƣợc (Abstractive Summary): văn bản tóm tắt có thể chứa
những đơn vị ngữ liệu mới mà văn bản gốc không có.
Ví dụ đoạn văn sau:
“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ1. Ba anh em
chúng em đã chờ những ngày này khá lâu rồi2. Chả là anh cả em được về phép
thăm gia đình nhân dịp Tết3. Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm
thật thịnh soạn4. Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình5. Bữa
ăn đã làm lên một cuối tuần tuyệt vời6”
Văn bản kết quả của quá trình Trích rút:
“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm
lên một cuối tuần tuyệt vời”.
Văn bản kết quả của quá trình Tóm lƣợc:
“Một buổi cuối tuần vui vẻ của gia đình em”.



14

Rõ ràng qua ví dụ này, ta có thể thấy ƣu điểm của tóm tắt tóm lƣợc so với
tóm tắt trích rút, đó là sự rõ ràng mạch lạc, logic, dễ hiểu. Tuy nhiên, việc xây dựng
một hệ thống tóm tắt tóm lƣợc sẽ khó hơn xây dựng một hệ thống tóm tắt trích rút.
Qua tìm hiểu, tác giả quyết định nghiên cứu theo hướng tóm tắt trích rút
để giải quyết bài toán tóm tắt đơn văn bản Tiếng Việt.

1.3.4. Mô hình tóm tắt văn bản
Nhìn chung, mô hình tổng quát của hệ thống tóm tắt văn bản theo hƣớng
trích rút đƣợc mô tả theo Hình 1.4.
Trong mô hình này, đầu vào của hệ thống tóm tắt có thể là một văn bản hoặc
một tập các văn bản. Với luận văn này, đầu vào của văn bản là một văn bản duy
nhất (đơn văn bản). Hệ thống tóm tắt văn bản có thể chia làm 3 giai đoạn nhƣ sau:
- Tiền xử lý: Biểu diễn và hiểu văn bản nguồn
- Trích rút câu: Trích chọn những câu có nội dung chính.
- Sinh văn bản tóm tắt: Tạo ra văn bản mới chứa những điểm chính, nội dung
quan trọng của văn bản gốc.

Hình 1.4. Mô hình tóm tắt văn bản tự động.

Dƣới đây sẽ trình bày chi tiết về các bƣớc xử lý trong từng giai đoạn của hệ
thống văn bản.

1.3.5. Quy trình thực hiện tóm tắt văn bản
a. Quy trình tiền xử lý
Ở giai đoạn này, từ văn bản đầu vào, ta thực hiện việc chuyển từ văn bản
nguồn thành văn bản có cấu trúc. Một số kỹ thuật có thể áp dụng trong bƣớc này:
Tách câu, tách từ, loại bỏ từ dừng, tính trọng số cho các từ trong câu...để phù hợp



15

với đầu vào của từng phƣơng pháp trong quá trình trích rút câu. Giai đoạn này rất
quan trọng trong bài toán tóm tắt băn bản, nó làm giảm dữ liệu nhiễu, dữ liệu dƣ
thừa và giảm kích thƣớc của dữ liệu đầu vào. Kết quả của giai đoạn này thu đƣợc
dạng biểu điễn phù hợp của dữ liệu, nếu kết quả của bƣớc này không chính xác, dẫn
đến kết quả của những bƣớc sau sẽ không đúng. Đây là bước chung phải có của
bất kỳ phương pháp nào.
Nhƣ ở trong luận văn này, sử dụng tách theo hai thƣ viện. Không sử dụng
loại bỏ từ dừng vì đây là tóm tắt văn bản chung và không quá dài  không sử dụng
tóm tắt có loại bỏ từ dừng.
Pha xử lý này nhận đầu vào là tập các bài báo thuộc tập dữ liệu. Các quá
trình thực hiện theo bƣớc sau:
- Loại bỏ các bài báo có nội dung trùng lặp.
- Lọc nhiễu, lấy nội dung chính của bài báo.
- Tách từ, tách câu các văn bản có đƣợc bằng công cụ JvnTextPro của tác giả
Nguyễn Cẩm Tú. Tách từ đối với nhãn cụm.
b. Quá trình trích rút câu quan trọng
Sau bƣớc tiền xử lý, ta sẽ thu đƣợc dữ liệu đã cấu trúc. Tùy thuộc vào
phƣơng pháp tiếp cận mà dữ liệu đƣợc cấu trúc hợp lý.
Pha này nhận đầu vào là các văn bản và nhãn cụm đã qua tiền xử lý, đầu ra là
danh sách các câu đã đƣợc sắp xếp theo độ quan trọng về mặt ngữ nghĩa.
Trong mô hình tóm tắt văn bản tự động, việc sắp xếp các câu theo mức độ
quan trọng, loại bỏ sự chồng chéo giữa các văn bản là một bƣớc quan trọng.
Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên. Trong quá trình xử lý
thì văn bản phải đƣợc biểu diễn, cấu trúc để máy tính có thể hiểu đƣợc. Bài toán
tóm tắt văn bản xử lý văn bản ở các mức độ nhƣ mức hình thái, mức cú pháp, mức
ngôn ngữ. Với mỗi mức độ sẽ có các đặc trƣng khác nhau và có các phƣơng pháp
tiếp cận khác nhau. Theo [1], thì có một số phƣơng pháp sau:

 Mức hình thái: Dùng các phƣơng pháp dựa trên độ đo tƣơng đồng trên mô
hình không gian vecto, áp dụng tính toán trọng số TF*IDF cho các từ, các câu và
phƣơng pháp thống kê.


16

Sơ lƣợc về phƣơng pháp thống kê:
- Các phƣơng pháp thống kê đều tập trung vào những đặc trƣng về hình thái
của văn bản để tính điểm cho các câu và trích rút các câu quan trọng đƣa vào văn
bản tóm tắt.
- Ý tƣởng: Lặp đi lặp lại các thuật toán logic để tính điểm cho các câu, tƣơng
đƣơng với việc các từ xuất hiện nhiều nhất sẽ trở thành chủ đề của văn bản đó. Tƣ
tƣởng của phƣơng pháp này dựa trên vị trí và tần suất xuất hiện các từ.
 Mức cú pháp: Phân tích những cấu trúc ngữ pháp tƣơng ứng giữa các câu
trong văn bản.
Sơ lƣợc về cấu trúc ngữ pháp.
Tƣ tƣởng chính: những đơn vị văn bản (các câu hoặc từ) mà có nhiều liên kết
với các đơn vị văn bản khác sẽ có độ quan trọng lớn. Một số phƣơng pháp cấu trúc
tiêu biểu:
- Phƣơng pháp sử dụng cấu trúc diễn ngôn: biểu diễn mối quan hệ diễn ngôn
giữa các đoạn văn bản nhƣ quan hệ nhân quả, liệt kê, diễn giải... Kết quả thu đƣợc ở
phƣơng pháp này là cây cấu trúc diễn ngôn, dựa vào đó sẽ đánh giá đƣợc độ quan
trọng của các câu, đoạn văn và thực hiện trích rút, tạo ra nội dung tóm tắt cho văn
bản.
- Phƣơng pháp sử dụng đồ thị: Văn bản đầu vào đƣợc biểu diễn dƣới dạng đồ
thị, trong đó mỗi nút của đồ thị đại diện cho một từ hoặc câu trong văn bản, mỗi
cạnh thể hiện sự liên kết từ ngữ hoặc ngữ nghĩa, hay sự tƣơng đồng giữa 2 đỉnh của
đồ thị. Các đỉnh trên đồ thị đƣợc xếp hạng dựa trên một giải thuật xếp hạng nào đó.
Tùy thuộc vào tỷ lệ rút gọn mà các đoạn văn bản tƣơng ứng với các đỉnh có trọng số

cao nhất sẽ đƣợc lựa chọn để đƣa vào văn bản tóm tắt.
 Mức ngữ nghĩa: Phân tích tên thực thể, mối quan hệ giữa các thực thể, sự
kiện nảy sinh thực thể để xác định độ quan trọng của thông tin, mức này sử dụng
phƣơng pháp học máy.
Sơ lƣợc về phƣơng pháp học máy.
- Cách tiếp cận này thực hiện việc tạo văn bản tóm tắt dựa trên các thuật toán
học máy. Các kỹ thuật học máy điển hình đƣợc áp dụng đó là Navie-Bayes,


×