Tải bản đầy đủ (.pdf) (160 trang)

Tóm tắt đoạn văn bản tiếng việt dựa trên cách tiếp cận tạo sinh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 160 trang )

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN

TRẦN TRUNG

TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT
DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH – Năm 2020


ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN

TRẦN TRUNG

TĨM TẮT ĐOẠN VĂN BẢN TIẾNG VIỆT
DỰA TRÊN CÁCH TIẾP CẬN TẠO SINH
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN TUẤN ĐĂNG
2. PGS. TS. PHẠM HỮU ĐỨC
PHẢN BIỆN ĐỘC LẬP:
1. PGS. TS. NGUYỄN LÊ MINH


2. TS. ĐẶNG TRƯỜNG SƠN

TP. HỒ CHÍ MINH – Năm 2020


LỜI CAM ĐOAN
Tôi tên là Trần Trung.
Tôi xin cam đoan đây là cơng trình nghiên cứu do tơi thực hiện dưới sự hướng dẫn
của PGS. TS. Nguyễn Tuấn Đăng và PGS. TS. Phạm Hữu Đức. Các số liệu, kết quả
nghiên cứu trình bày trong luận án là trung thực và chưa từng được công bố bởi tác
giả nào trong bất kỳ cơng trình nào khác.
Tác giả luận án

Trần Trung


LỜI CẢM ƠN
Luận án này được thực hiện và hoàn thành tại Khoa Khoa học máy tính, Trường Đại
học Cơng nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh.
Đầu tiên, xin bày tỏ lịng biết ơn sâu sắc đến PGS. TS. Nguyễn Tuấn Đăng và PGS.
TS. Phạm Hữu Đức, là những người Thầy đã tận tình hướng dẫn, động viên và
truyền đạt những kinh nghiệm quý báu trong nghiên cứu khoa học để em có thể
hồn thành tốt luận án này.
Tôi xin chân thành cảm ơn nhà trường vì trong suốt q trình học tập, tơi đã nhận
được sự quan tâm, giúp đỡ của thầy cô giáo trong Khoa Khoa học máy tính, Phịng
Đào tạo Sau đại học và Khoa học công nghệ và Ban giám hiệu Trường Đại học
Công nghệ thông tin.
Cuối cùng, tôi muốn bày tỏ lòng biết ơn sâu sắc đến Cha, Mẹ, Em gái ln là điểm
tựa vững chắc, đã chăm sóc, ủng hộ và tạo mọi điều kiện thuận lợi nhất cho tơi có
thể hồn thành tốt luận án này.

Tp. Hồ Chí Minh, tháng 06 năm 2020.
Tác giả luận án
Trần Trung


MỤC LỤC
MỤC LỤC.........................................................................................................................................1
Danh mục các ký hiệu và chữ viết tắt................................................................................................5
Danh mục các bảng...........................................................................................................................7
Danh mục các hình vẽ.......................................................................................................................8
MỞ ĐẦU...........................................................................................................................................9
Đặt vấn đề và lý do lựa chọn đề tài...............................................................................................9
Mục tiêu và nội dung nghiên cứu...............................................................................................12
Phạm vi và đối tượng nghiên cứu...............................................................................................13
Phạm vi nghiên cứu...............................................................................................................13
Đối tượng nghiên cứu............................................................................................................13
Phương thức tiếp cận..................................................................................................................16
Đóng góp khoa học của luận án..................................................................................................17
Bố cục của luận án......................................................................................................................19
CHƯƠNG 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN................................................................20
1.1. Hướng tiếp cận tóm tắt dựa trên trích xuất..........................................................................21
1.2. Hướng tiếp cận tóm tắt trừu tượng.......................................................................................24
1.2.1. Phương pháp tiếp cận dựa trên cấu trúc.......................................................................25
1.2.1.1. Phương pháp dựa trên cấu trúc mẫu....................................................................25
1.2.1.2. Phương pháp dựa trên ontology...........................................................................25
1.2.1.3. Phương pháp dựa trên những ngữ đoạn đầu và thân............................................25
1.2.1.4. Phương pháp dựa trên quy tắc.............................................................................26
1.2.2. Phương pháp tiếp cận dựa trên ngữ nghĩa....................................................................26
1.2.2.1. Phương pháp dựa trên ngữ nghĩa đa thể hiện.......................................................26
1.2.2.2. Phương pháp dựa trên mục tin tức.......................................................................26

1.2.2.3. Phương pháp dựa trên đồ thị ngữ nghĩa...............................................................27
1.2.3. Hướng tiếp cận trộn câu - nén câu...............................................................................27
1.2.3.1. Phương pháp sử dụng cây phụ thuộc...................................................................28
1.2.3.2. Phương pháp sử dụng đồ thị từ vựng...................................................................30
1.3. Kết chương..........................................................................................................................30
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT................................................................................................32
2.1. Giới thiệu.............................................................................................................................32
2.2. Phân tích và biểu diễn ngữ nghĩa.........................................................................................33

1


2.2.1. Lý thuyết biểu diễn diễn ngôn.....................................................................................33
2.2.2. Ngữ pháp dựa trên sự hợp nhất....................................................................................35
2.3. Nền tảng Ngôn ngữ học.......................................................................................................36
2.3.1. Những dạng câu tiếng Việt và yếu tố hồi chỉ trong Ngữ pháp chức năng....................36
2.3.1.1. Phân loại hình câu theo nghĩa biểu hiện của khung vị ngữ..................................36
2.3.1.2. Những dạng yếu tố hồi chỉ trong tiếng Việt.........................................................38
2.3.2. Những quy tắc cải biến trong Ngữ pháp cải biến – tạo sinh.........................................40
2.3.2.1. Ngữ pháp cải biến – tạo sinh giai đoạn I của Noam Chomsky.............................40
2.3.2.2. Một số quy tắc cải biến........................................................................................42
2.4. Tạo sinh ngôn ngữ tự nhiên.................................................................................................43
2.5. Kết chương..........................................................................................................................45
CHƯƠNG 3. PHÂN TÍCH VÀ BIỂU DIỄN NGỮ NGHĨA VĂN BẢN TIẾNG VIỆT..................46
3.1. Giới thiệu.............................................................................................................................46
3.2. Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt.................................................................47
3.2.1. Tạo dựng cấu trúc biểu diễn cấp độ bề mặt..................................................................47
3.2.1.1. Cơ chế tạo dựng cấu trúc ngữ đoạn bề mặt..........................................................47
3.2.1.2. Chuyển đổi về các câu tiếng Việt có cấu trúc đơn giản........................................50
3.2.2. Tạo dựng cấu trúc biểu diễn diễn ngôn........................................................................55

3.2.2.1. Phân tích đoạn văn bản và cấu trúc cú pháp câu tiếng Việt đầu vào....................55
3.2.2.2. Mô tả đặc điểm ngữ pháp từ vựng và tạo dựng cấu trúc biểu diễn diễn ngôn......57
3.2.2.3. Xử lý đại từ hồi chỉ và tạo dựng cấu trúc biểu diễn diễn ngôn.............................59
3.3. Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn...........................................64
3.3.1. Tạo dựng cấu trúc biểu diễn cấp độ bề mặt..................................................................64
3.3.1.1. Cấu trúc đồ thị ngữ đoạn được gán nhãn.............................................................64
3.3.1.2. Cơ chế tạo dựng cấu trúc đồ thị ngữ đoạn được gán nhãn...................................66
3.3.1.3. Xác định yếu tố tiền ngữ tương ứng cho các yếu tố hồi chỉ.................................69
3.3.2. Tạo dựng cấu trúc biểu diễn diễn ngôn........................................................................76
3.4. Kết chương..........................................................................................................................79
CHƯƠNG 4. TẠO SINH VĂN BẢN TIẾNG VIỆT.......................................................................80
4.1. Giới thiệu.............................................................................................................................80
4.2. Từ biểu diễn của các cặp câu có quan hệ hệ quả..................................................................81
4.2.1. Phân nhóm những cặp câu được biểu diễn...................................................................81
4.2.2. Cơ chế tạo sinh............................................................................................................83
4.2.2.1. Phân tích cấu trúc biểu diễn diễn ngôn và Xác định mối quan hệ........................83

2


4.2.2.2. Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới................................................84
4.2.2.3. Hoàn chỉnh câu tiếng Việt mới............................................................................85
4.2.3. Thử nghiệm và đánh giá..............................................................................................87
4.2.3.1. Thiết kế thử nghiệm.............................................................................................87
4.2.3.2. Đánh giá..............................................................................................................87
4.3. Từ biểu diễn của các cặp câu chỉ quá trình..........................................................................89
4.3.1. Phân nhóm những cặp câu được biểu diễn...................................................................89
4.3.2. Cơ chế tạo sinh............................................................................................................90
4.3.2.1. Phân tích cấu trúc biểu diễn diễn ngơn và xác định mối quan hệ.........................90
4.3.2.2. Tạo sinh cấu trúc cú pháp của câu tiếng Việt mới................................................91

4.3.2.3. Hoàn chỉnh câu tiếng Việt được tạo sinh.............................................................92
4.3.3. Thử nghiệm và đánh giá..............................................................................................93
4.3.3.1. Xây dựng bộ ngữ liệu thử nghiệm.......................................................................93
4.3.3.2. Thiết kế thử nghiệm.............................................................................................95
4.3.3.3. Đánh giá..............................................................................................................97
4.4. Từ biểu diễn của những đoạn văn bản có nhiều hơn hai câu..............................................100
4.4.1. Cơ chế tạo sinh..........................................................................................................100
4.4.1.1. Tạo sinh cấu trúc cú pháp của từng câu tiếng Việt mới......................................100
4.4.1.2. Tạo sinh đoạn văn bản tóm tắt tiếng Việt...........................................................104
4.4.2. Thử nghiệm và đánh giá............................................................................................108
4.4.2.1. Thiết kế thử nghiệm...........................................................................................108
4.4.2.2. Kết quả và Đánh giá..........................................................................................109
4.5. Kết chương........................................................................................................................111
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................................................113
5.1. Kết luận.............................................................................................................................113
5.2. Hướng phát triển................................................................................................................113
TÀI LIỆU THAM KHẢO.............................................................................................................115
6.1. DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN
..................................................................................................................................................115
6.2. TÀI LIỆU THAM KHẢO..................................................................................................118
6.2.1. Tiếng Việt..................................................................................................................118
6.2.2. Tiếng Anh..................................................................................................................118
PHỤ LỤC......................................................................................................................................139
PL.1. Tạo sinh đoạn văn bản ngôn ngữ tự nhiên từ Biểu diễn ý nghĩa phẳng...........................139

3


PL.1.1. Cấu trúc biểu diễn ý nghĩa phẳng............................................................................139
PL.1.2. Cơ chế tạo sinh........................................................................................................141

PL.1.2.1. Phân tích biểu diễn ý nghĩa phẳng và Xác định mối quan hệ..........................141
PL.1.2.2. Tập hợp ngữ liệu từ vựng và cụm từ...............................................................143
PL.1.2.3. Tạo sinh cấu trúc cú pháp và Hồn chỉnh đoạn văn bản ngơn ngữ tự nhiên....145
PL.1.3. Thử nghiệm và đánh giá..........................................................................................151
PL.1.3.1. Thử nghiệm và đánh giá với phần phát triển...................................................152
PL.1.3.2. Thử nghiệm và đánh giá với phần thử nghiệm E2E thực................................152
PL.1.4. Thảo luận................................................................................................................155

4


Danh mục các ký hiệu và chữ viết tắt
An-F-He-i

Heuristic thứ i xác định yếu tố tiền ngữ cho từng đại từ hồi chỉ –
Antecedent Finding Heuristic

An-F-Gr-NP-i

Chiến lược tìm kiếm yếu tố tiền ngữ thứ i cho từng yếu tố hồi chỉ
trên đồ thị – Antecedent Finding Graph Noun Phrase

CT-BD-NN-TT

Cấu trúc biểu diễn ngữ nghĩa trừu tượng

CT-BD-DN

Cấu trúc biểu diễn diễn ngôn


CT-BD-YN-P

Cấu trúc biểu diễn ý nghĩa phẳng

DRS

Cấu trúc biểu diễn diễn ngôn – Discourse Representation
Structure

DRT

Lý thuyết biểu diễn diễn ngôn – Discourse Representation Theory

E2E

Đầu cuối – End-to-End

En-NL-Ref

Văn bản ngôn ngữ tự nhiên tiếng Anh – English Natural Language
Reference

Flat MR

Biểu diễn ý nghĩa phẳng – Flat Meaning Representation

FP

Ngữ đoạn chức năng – Function Phrase


F-ConvRules

Bộ quy tắc chuyển đổi các câu tiếng Việt về câu có cấu trúc đơn
giản – Functional Conversion Rules

F-Conv-i

Quy tắc chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu trúc
đơn giản – Function Conversion

GULP

Lập trình logic hợp nhất đồ thị – Graph Unification Logic
Programming

KN-CĐ-i

Kinh nghiệm chuyển đổi thứ i từ các câu tiếng Việt về câu có cấu
trúc đơn giản – Kinh nghiệm chuyển đổi

NLG

Tạo sinh ngôn ngữ tự nhiên – Natural Language Generation

NP

Ngữ đoạn danh từ – Noun Phrase

OP


Ngữ đoạn đối tượng – Object Phrase

Pasp

Vị từ ngữ nghĩa của hành động / trạng thái / quá trình trong DRS –
Semantic Predicate of Action / State / Process

Po

Vị từ ngữ nghĩa của đối tượng trong DRS – Semantic Predicate of
Object

QH

Yếu tố quan hệ

5


QH-HQ

Yếu tố quan hệ hệ quả

QH-VT-i

Dạng quan hệ vị từ thứ i

S

Câu – Sentence


SBG

Hệ thống tạo sinh dựa trên cấu trúc – Structure-based Generation

TG-CĐ-i

Quy tắc tinh giản và chuyển đổi thứ i từ cấu trúc đồ thị về DRS

UBG

Ngữ pháp dựa trên hợp nhất – Unification-based Grammar

VP

Ngữ đoạn động từ – Verb Phrase

X

Dạng câu quá trình chuyển thái

Y

Dạng câu quá trình chuyển vị

Z

Dạng câu q trình tác động




Nhóm q trình 1 – QT-1



Nhóm q trình 2 – QT-2



Nhóm q trình 3 – QT-3

6


Danh mục các bảng
Bảng 0.1. Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một............................................................14
Bảng 0.2. Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B....................................14
Bảng 0.3. Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh.....................................15
Bảng 0.4. Nguồn dữ liệu trang web từ điển.....................................................................................15
Bảng 1.1. Một số hệ thống tóm tắt văn bản theo hướng tiếp cận dựa trên trích xuất.......................23
Bảng 2.1. Sự phân loại dạng câu đơn tiếng Việt được nghiên cứu trong luận án [Cao 2006, tr. 429]
.........................................................................................................................................................36
Bảng 2.2. Cấu trúc đơn giản của câu tiếng Việt được nghiên cứu trong luận án..............................38
Bảng 2.3. Những dạng yếu tố hồi chỉ trong tiếng Việt được nghiên cứu trong luận án....................39
Bảng 3.1. Bộ quy tắc chuyển đổi F-ConvRules...............................................................................51
Bảng 4.1. Kết quả thử nghiệm với các nhóm cặp câu có quan hệ hệ quả.........................................89
Bảng 4.2. Cấu trúc cú pháp của câu tiếng Việt mới cho các cặp câu chỉ quá trình...........................92
Bảng 4.3. Kết quả thử nghiệm các cặp câu chỉ quá trình.................................................................97
Bảng 4.4. Phân loại những dạng mối quan hệ cho từng cặp vị từ..................................................100
Bảng 4.5. Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-1................................102

Bảng 4.6. Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-2................................102
Bảng 4.7. Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-3................................103
Bảng 4.8. Cấu trúc cú pháp của câu tiếng Việt mới dựa theo dạng QH-VT-4................................103
Bảng 4.9. Độ ưu tiên của (Pasi-1 – Pasi) cao hơn độ ưu tiên của (Pasi – Pasi+1)...............................105
Bảng 4.10. Hai độ ưu tiên bằng nhau.............................................................................................105
Bảng 4.11. Độ ưu tiên của (Pasi-1 – Pasi) thấp hơn độ ưu tiên của (Pasi – Pasi+1)............................105
Bảng PL.1. Các dạng thuộc tính trong CT-BD-YN-P....................................................................139
Bảng PL.2. Kết quả đánh giá tự động khi thử nghiệm SBG trên phần phát triển...........................152
Bảng PL.3. Kết quả đánh giá tự động khi thử nghiệm SBG trên phần thử nghiệm E2E thực........153
Bảng PL.4. Điểm số “Tính chất lượng” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và
SBG...............................................................................................................................................154
Bảng PL.5. Điểm số “Tính tự nhiên” của hệ thống cao nhất trong từng cụm, hệ thống cơ sở và SBG
.......................................................................................................................................................154

7


Danh mục các hình vẽ
Hình 0.1. Mơ hình giải pháp tổng thể của luận án...........................................................................17
Hình 1.1. Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản........................................21
Hình 2.1. CT-BD-DN của đoạn văn bản “Nhân thơng minh. Nó viết chương trình.”.......................35
Hình 2.2. Sơ đồ các thành phần của Ngữ pháp cải biến – tạo sinh giai đoạn I ([Chomsky 2002, tr.
46])..................................................................................................................................................40
Hình 3.1. Sơ đồ tạo dựng cấu trúc bề mặt với Apache OpenNLP...................................................49
Hình 3.2. Minh họa quá trình ánh xạ về các cấu trúc đơn giản.......................................................54
Hình 3.3. Sơ đồ luồng xử lý cơ chế tạo dựng CT-BD-DN từ đoạn văn bản tiếng Việt rút gọn........55
Hình 3.4. Cấu trúc đồ thị cho đoạn văn bản trong Ví dụ 3.7...........................................................65
Hình 4.1. Sơ đồ kiến trúc cơ chế tạo sinh câu và đoạn văn bản tiếng Việt.......................................80
Hình 4.2. CT-BD-DN của đoạn văn bản “Nghĩa sửa angten. Sét đánh nó.”....................................83
Hình 4.3. CT-BD-DN của đoạn văn bản “Sét đánh cành cây. Nó bị gãy.”.......................................90

Hình 4.4. Kết quả so sánh hiệu năng giữa những phương pháp tạo sinh những đoạn văn bản tiếng
Việt mới.........................................................................................................................................110
Hình PL.1. Ví dụ về hai dạng biểu diễn của một CT-BD-YN-P....................................................140
Hình PL.2. Đồ thị biểu diễn mối quan hệ giữa những vị từ trong các CT-BD-YN-P....................141
Hình PL.3. Mơ tả từng thuộc tính trong CT-BD-YN-P.................................................................144
Hình PL.4: Xác định những từ tương đương nghĩa của “food”.....................................................145

8


MỞ ĐẦU
Đặt vấn đề và lý do lựa chọn đề tài
Được khởi đầu từ những năm 1950 với những nghiên cứu của [Baxendale
1958], [Edmundson 1969] và [Luhn 1958], vấn đề mà [Jones 1999, 2007] định
nghĩa là “một tiến trình biến đổi rút gọn một văn bản nguồn thành một văn bản tóm
tắt bằng cách lựa chọn và / hoặc tổng qt hóa những gì được xem là quan trọng
trong văn bản nguồn” hay cịn được gọi ngắn gọn là “tóm tắt văn bản” đã trở thành
một lĩnh vực nghiên cứu quan trọng trong cộng đồng Xử lý ngôn ngữ tự nhiên trong
suốt hơn nửa thế kỷ qua. Về cơ bản, [Jones 1999, 2007] đã đưa ra tiêu chuẩn cho
một hệ thống tóm tắt hồn chỉnh là thực hiện ba tiến trình liên tiếp để chuyển đổi
một văn bản nguồn thành một văn bản tóm tắt. Tiến trình thứ nhất là diễn giải văn
bản đầu vào để có được một biểu diễn văn bản, là một dạng cấu trúc dữ liệu giúp
biểu diễn tồn bộ nội dung thơng tin văn bản đầu vào. Tiến trình thứ hai là chuyển
đổi biểu diễn văn bản sang một biểu diễn tóm tắt, là một dạng cấu trúc dữ liệu giúp
biểu diễn những nội dung thơng tin chính của văn bản tóm tắt. Tiến trình thứ ba là
tạo sinh ngơn ngữ và hồn chỉnh văn bản tóm tắt từ biểu diễn tóm tắt.
Từ những năm cuối thế kỷ XX và đầu thế kỷ XXI, nhiều tác giả đã dựa trên
tiêu chuẩn của [Jones 1999, 2007] để đề xuất nhiều phương pháp khác nhau nhằm
nâng cao hiệu quả chuyển đổi văn bản nguồn thành văn bản tóm tắt [Das và Martins
2007; Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Lloret

2008; Mani và Maybury 1999; Mani 2001b]. Dựa trên cách thức tạo ra văn bản tóm
tắt, các phương pháp được phân loại theo hai hướng nghiên cứu chính [Das và
Martins 2007]: hướng nghiên cứu thứ nhất được gọi là tóm tắt trích xuất
(“Extractive Summarization”); hướng nghiên cứu thứ hai được gọi là tóm tắt trừu
tượng (“Abstractive Summarization”).
Cùng với sự phát triển của những phương pháp và kỹ thuật trong lĩnh vực
Máy học thống kê và Trích xuất thơng tin, đa phần các nghiên cứu được thực hiện
theo hướng tiếp cận tóm tắt trích xuất [Das và Martins 2007; Fattah và Ren 2008;
9


Jezek và Steinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999;
Mani 2001b]. Các tác giả đã áp dụng những phương pháp và kỹ thuật để tính tốn
và xác định mức độ quan trọng của từng câu trong văn bản ban đầu. Những đặc
điểm thường được sử dụng để tính tốn mức độ quan trọng của câu là từ khóa, tiêu
đề, vị trí hoặc độ dài của câu, những ngữ đoạn đặc thù,... Bằng việc đặt ra một
ngưỡng xác định, các hệ thống tóm tắt sẽ lựa chọn những câu hay ngữ đoạn có điểm
tính tốn cao hơn ngưỡng này để hợp thành văn bản tóm tắt. Tuy nhiên, cách thức
tạo thành văn bản tóm tắt như vậy cho thấy hầu hết các phương pháp theo hướng
tiếp cận tóm tắt trích xuất mới dừng lại ở tiến trình thứ nhất theo định nghĩa trong
[Jones 1999, 2007].
Một ưu điểm đáng chú ý của những phương pháp theo hướng tiếp cận tóm tắt
trích xuất là chúng áp dụng rất tốt những giải thuật và kỹ thuật Máy học thống kê và
Trích xuất thông tin [Das và Martins 2007; Lloret 2008]. Nhiệm vụ nghiên cứu chỉ
cần tập trung vào những yếu tố trên bề mặt mà không cần hiểu sâu về ngữ nghĩa của
toàn bộ văn bản. Theo [Das và Martins 2007; Lloret 2008], cách thức tạo văn bản
tóm tắt như vậy tỏ ra khá hiệu quả đối với các văn bản dài hoặc đa văn bản.
Theo [Das và Martins 2007; Lloret 2008], mặc dù đã có nhiều giải pháp được
đề xuất và đạt được những kết quả quan trọng, một số vấn đề cơ bản của hướng tiếp
cận tóm tắt trích xuất vẫn đang được các nhà khoa học nghiên cứu để khắc phục.

Thứ nhất, những câu được trích xuất dựa trên việc xếp hạng mức độ quan trọng như
vậy có thể không xuất hiện liên tiếp nhau trong văn bản ban đầu. Điều này dẫn đến
việc mất đi sự liền mạch thông tin đã được thể hiện xuyên suốt thông qua các câu
liên tiếp trong văn bản nguồn. Thứ hai, nhiều câu trong văn bản nguồn có sự xuất
hiện của các yếu tố hồi chỉ. Mỗi yếu tố hồi chỉ sẽ có một yếu tố tiền ngữ tương ứng
trong văn bản. Mối liên hệ giữa từng yếu tố hồi chỉ và yếu tố tiền ngữ tương ứng
cũng giúp thể hiện sự liền mạch về nội dung và ngữ cảnh trong văn bản nguồn. Việc
trích xuất những câu khơng liên tiếp có thể khiến mối liên hệ giữa một số yếu tố hồi
chỉ và yếu tố tiền ngữ tương ứng bị mất đi. Điều này dẫn đến việc nội dung và ngữ
cảnh thực sự của văn bản ban đầu sẽ không được thể hiện chính xác. Thứ ba, việc
10


trích xuất những ngữ đoạn khơng liên tiếp có thể khiến chúng bị rời rạc. Việc kết
hợp những ngữ đoạn này để tạo thành văn bản tóm tắt sẽ khiến nội dung bị lẫn lộn
và không liền mạch.
Trong hướng tiếp cận tóm tắt trừu tượng, văn bản tóm tắt được tạo thành từ
mơ hình biểu diễn nội dung ngữ nghĩa của văn bản nguồn [Das và Martins 2007;
Kasture và cộng sự 2014; Khan và Salim 2014]. Các từ vựng, ngữ đoạn và thậm chí
câu trong văn bản tóm tắt có thể hoàn toàn mới so với văn bản nguồn. Như vậy, hai
vấn đề quan trọng cần giải quyết trong hướng tiếp cận này là đề xuất được những
mơ hình và cơ chế để: (a) hiểu và biểu diễn được ngữ nghĩa của văn bản nguồn và
(b) tạo sinh được văn bản tóm tắt. Tuy nhiên, trên thực tế, hiện nay chưa có nghiên
cứu nào thực hiện đầy đủ ba tiến trình như trong định nghĩa của [Jones 1999, 2007].
Hầu hết các nghiên cứu đều khơng thực hiện tiến trình thứ hai mà đi từ tiến trình
thứ nhất thẳng đến tiến trình thứ ba. Do vậy, cách tạo ra các câu ngôn ngữ tự nhiên
mới chưa phải là tạo sinh theo đúng ý nghĩa được nêu bên trên.
Ưu điểm rõ nét nhất của những phương pháp theo hướng tiếp cận tóm tắt
trừu tượng là văn bản tóm tắt khá mạch lạc, giàu thơng tin. Từng câu có cấu trúc cú
pháp phù hợp với ngôn ngữ được áp dụng và nội dung đáp ứng yêu cầu đặt ra. Để

đạt được ưu điểm trên, những nhóm nghiên cứu theo hướng tóm tắt trừu tượng đã
cố gắng vượt qua những thách thức. Đầu tiên, các tác giả phải đề xuất được cơ chế
hiểu và biểu diễn được nội dung ý nghĩa của văn bản nguồn. Đặc biệt, những cơ chế
này phải phù hợp mục tiêu tóm tắt. Một số cấu trúc đã được áp dụng để biểu diễn
nội dung văn bản trong hướng tiếp cận tóm tắt trừu tượng như ontology [Lee và
cộng sự 2005], cây phụ thuộc [Barzilay và McKeown 2005; Filippova và Strube
2008a], đồ thị từ vựng [Filippova 2010; Lloret và Palomar 2011]. Những cấu trúc
này chưa biểu diễn được nhiều dạng đoạn văn bản khác nhau, và chưa thể hiện được
hết các mối quan hệ về ngữ cảnh ban đầu. Thứ hai, cần phải có một mơ hình biểu
diễn trừu tượng văn bản tóm tắt. Cho đến hiện tại, mới chỉ có một số nghiên cứu về
tóm tắt văn bản có đề xuất một mơ hình biểu diễn trừu tượng như vậy [Greenbacker
2011; Genest và Lapalme 2010, 2011, 2012; Moawad và Aref 2012]. Mặc dù đạt
11


được một số kết quả đáng chú ý, nhưng những mơ hình biểu diễn trừu tượng này
chưa bao phủ được nhiều dạng văn bản và cần tốn rất nhiều nỗ lực để xây dựng.
Cuối cùng là cơ chế tạo sinh câu và văn bản tóm tắt. Việc đề xuất được những cơ
chế tạo sinh câu và đoạn văn bản hoàn chỉnh vẫn đang là thách thức không nhỏ
ngay cả trong lĩnh vực Tạo sinh ngôn ngữ tự nhiên [Reiter và Dale 1997a, 1997b].
Ngoài ra, một điểm quan trọng là việc áp dụng kiến thức về Ngôn ngữ học nhằm
giúp văn bản tóm tắt có được tính đúng đắn ngữ pháp trong khi đảm bảo về mặt ngữ
nghĩa.
Dựa trên những khảo sát bên trên về lĩnh vực tóm tắt văn bản, luận án xác
định đi theo hướng tiếp cận tóm tắt trừu tượng với sự kết hợp những kỹ thuật về
khoa học máy tính như Hiểu và biểu diễn văn bản, Tạo sinh ngôn ngữ tự nhiên với
những kiến thức Ngôn ngữ học phù hợp.

Mục tiêu và nội dung nghiên cứu
Mục tiêu của luận án là đề xuất giải pháp tạo sinh đoạn văn bản tóm tắt nhằm

tóm tắt nội dung thông tin của đoạn văn bản tiếng Việt cho trước.
Để đạt được mục tiêu trên, luận án đề ra những nội dung cụ thể sau:
1. Đề xuất các phương pháp tạo dựng Cấu trúc biểu diễn ngữ nghĩa trừu tượng
(CT-BD-NN-TT) cho đoạn văn bản tiếng Việt đầu vào. Nội dung này bao
gồm việc giải quyết hai bài toán con:
a. Tạo dựng cấu trúc biểu diễn cấp độ bề mặt (CT-BD-CĐ-BM) cho đoạn
văn bản tiếng Việt đầu vào.
b. Chuyển đổi CT-BD-CĐ-BM về CT-BD-NN-TT.
2. Đề xuất các phương pháp tạo sinh đoạn văn bản tóm tắt dựa trên CT-BDNN-TT.

12


Phạm vi và đối tượng nghiên cứu
Phạm vi nghiên cứu
Đề xuất mơ hình giải pháp tạo sinh đoạn văn bản tóm tắt nhằm tóm tắt nội
dung thơng tin đoạn văn bản tiếng Việt cho trước theo hướng tiếp cận tóm tắt trừu
tượng, với sự kết hợp những kỹ thuật tạo sinh ngôn ngữ tự nhiên và kiến thức ngôn
ngữ học phù hợp trong Ngữ pháp chức năng [Cao 2006; Halliday và Matthiessen
2004].
Luận án nghiên cứu sự phân loại các dạng câu đơn tiếng Việt theo nghĩa biểu
hiện của chúng trong Ngữ pháp chức năng [Cao 2006], được thể hiện trong Bảng
2.1.

Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án là những dạng đoạn văn bản tiếng Việt,
những yếu tố hồi chỉ trong tiếng Việt:
1. Đối tượng nghiên cứu thứ nhất là những cặp câu tiếng Việt đơn giản. Từng
câu có cấu trúc đơn giản thuộc một trong các dạng trong Bảng 2.2. Mối quan
hệ giữa hai câu được thể hiện bởi một hoặc hai đại từ hồi chỉ trong câu thứ

hai. Những đại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3.
2. Đối tượng nghiên cứu thứ hai là những đoạn văn bản ngắn gồm nhiều hơn
hai câu tiếng Việt. Từng câu có cấu trúc đơn giản thuộc một trong các dạng
trong Bảng 2.2. Các câu có sự xuất hiện của một hoặc hai đại từ hồi chỉ. Các
đại từ hồi chỉ này thuộc dạng 1, 2 hoặc 3 trong Bảng 2.3.
3. Đối tượng nghiên cứu thứ ba là những đoạn văn bản tiếng Việt. Mỗi đoạn
văn bản có từ 2 đến 5 câu ở thể trần thuật. Từng câu có số lượng khơng q
25 từ vựng tiếng Việt. Trong từng đoạn văn bản có sự xuất hiện của các yếu
tố hồi chỉ thuộc các dạng trong Bảng 2.3.
4. Đối tượng nghiên cứu thứ tư là những dạng yếu tố hồi chỉ trong tiếng Việt.
Dựa trên sự phân loại những dạng yếu tố hồi chỉ trong tiếng Việt trong Ngữ

13


pháp chức năng [Cao 2006], luận án nghiên cứu những dạng yếu tố hồi chỉ
trong Bảng 2.3.
Luận án thu thập các đoạn văn bản tiếng Việt từ những nguồn dữ liệu:
1. Nguồn dữ liệu thứ nhất là bộ sách giáo khoa tiếng Việt cấp một:
Bảng 0.1. Nguồn dữ liệu sách giáo khoa tiếng Việt cấp một
Số

Nguồn tài liệu

1

Đặng Thị Lanh (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 1, tập 1 – 2,
Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo.

2


Nguyễn Minh Thuyết (chủ biên) (2012), Sách giáo khoa Tiếng Việt lớp 2, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo.

3

Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 3, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo.

4

Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 4, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo.

5

Nguyễn Minh Thuyết (chủ biên) (2014), Sách giáo khoa Tiếng Việt lớp 5, tập 1 –
2, Nhà xuất bản Giáo dục Việt Nam, Bộ Giáo dục và Đào tạo.

2. Nguồn tài liệu thứ hai là những bộ truyện ngắn song ngữ Anh – Việt:
Bảng 0.2. Nguồn dữ liệu truyện ngắn song ngữ Anh – Việt trình độ A và B
Số

Nguồn tài liệu

1

Tuyết Hồng, Minh Tâm (dịch) (1994), Tập dịch những mẩu chuyện vui tiếng
Anh – Mỹ [Nguyên bản: L. A. Hill, Elementary Anecdotes in American English],
tập 1, Nhà xuất bản Thành phố Hồ Chí Minh.


2

Kim Tiến (dịch và biên soạn) (1994), Luyện đọc những mẩu chuyện tiếng Anh B
[Nguyên bản: L. A. Hill, Further stories for reading comprehension B], Nhà xuất
bản Thành phố Hồ Chí Minh.

3

Nguyễn Ngọc Hiếu (dịch) (2002), Tuyển tập truyện cười song ngữ Anh – Việt
[Nguyên bản: Funny story collection in bilingual English – Vietnamese], Nhà
xuất bản Văn hóa – Thơng tin.

4

Nguyễn Thế Dương (dịch) (2004), O-henry, Những truyện ngắn hay nhất thế giới

14


[Nguyên bản: L. A. Hill, Further stories for reading comprehension B], Nhà xuất
bản Hải Phòng.

3. Nguồn tài liệu thứ ba là những trang web truyện cổ tích tiếng Việt và tiếng
Anh:
Bảng 0.3. Nguồn dữ liệu trang web truyện cổ tích tiếng Việt và tiếng Anh
Số

Nguồn tài liệu


1

/>
2

/>
3

/>
4

i/truyen-co-tich-c11.html

5

/>
6

/>
7

/>
8

/>
9

/>
4. Nguồn tài liệu thứ tư là những trang web từ điển:
Bảng 0.4. Nguồn dữ liệu trang web từ điển

Số

Nguồn tài liệu

1

/>
2

/>
3



4

/>
5

/>
6



7

/>
8

/>

9

/>
10

/>
15


11

/>
12



13

/>
Phương thức tiếp cận
Để thực hiện những nội dung nghiên cứu được xác định bên trên, phương
thức tiếp cận của luận án bao gồm các giai đoạn thực hiện sau:


Giai đoạn 1. Luận án phân tích các đối tượng nghiên cứu là những dạng
đoạn văn bản tiếng Việt khác nhau và những yếu tố hồi chỉ xuất hiện trong
từng đoạn văn bản.




Giai đoạn 2. Luận án đề xuất các quy tắc và giải thuật để tạo dựng CT-BDCĐ-BM giúp biểu diễn tồn bộ nội dung thơng tin của đoạn văn bản đầu vào.
Giai đoạn này tương ứng với tiến trình thứ nhất theo tiêu chuẩn cho một hệ
thống tóm tắt hồn chỉnh của [Jones 1999, 2007].



Giai đoạn 3. Luận án đề xuất các quy tắc và giải thuật để chuyển đổi CTBD-CĐ-BM về CT-BD-NN-TT giúp biểu diễn nội dung thông tin chính của
đoạn văn bản đầu vào. Giai đoạn này tương ứng với tiến trình thứ hai theo
tiêu chuẩn cho một hệ thống tóm tắt hồn chỉnh của [Jones 1999, 2007].



Giai đoạn 4. Luận án đề xuất các cơ chế tạo sinh các câu và đoạn văn bản
tóm tắt từ CT-BD-NN-TT. Giai đoạn này tương ứng với tiến trình thứ ba theo
tiêu chuẩn cho một hệ thống tóm tắt hồn chỉnh của [Jones 1999, 2007].
Phương thức tiếp cận của luận án được thể hiện qua mơ hình giải pháp được

trình bày trong Hình 0.1.

16


Hình 0.1. Mơ hình giải pháp tổng thể của luận án.

Mơ hình giải pháp trong Hình 0.1 bao gồm hai thành phần chính:
1. Thành phần thứ nhất được gọi là Phân tích và Biểu diễn ngữ nghĩa văn bản
tiếng Việt. Thành phần này nhận đầu vào là một đoạn văn bản tiếng Việt.
Đầu ra của thành phần này là một CT-BD-NN-TT.
2. Thành phần thứ hai được gọi là Tạo sinh văn bản tiếng Việt. Đầu vào của
thành phần này là CT-BD-NN-TT được tạo ra từ thành phần Phân tích và

Biểu diễn ngữ nghĩa văn bản tiếng Việt. Đầu ra của thành phần này, cũng là
kết quả cuối cùng của mô hình giải pháp, là một đoạn văn bản tiếng Việt
hồn chỉnh.

Đóng góp khoa học của luận án
Trong q trình thực hiện luận án, tác giả đã có những đóng góp khoa học
chính:
1. Đề xuất mơ hình giải pháp tạo sinh đoạn văn bản tóm tắt.
2. Đề xuất những phương pháp tạo dựng CT-BD-NN-TT:

17


a. Phương pháp sử dụng cấu trúc ngữ đoạn bề mặt gồm hai giai đoạn. Giai
đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một CT-BD-CĐBM được gọi là cấu trúc ngữ đoạn bề mặt. Cũng trọng giai đoạn này, luận
án đề xuất phương pháp dựa trên quy tắc để chuyển đổi CT-BD-CĐ-BM
về đoạn văn bản bao gồm các câu tiếng Việt có cấu trúc đơn giản, là
những cấu trúc được trình bày trong Bảng 2.2. Nội dung việc thực hiện
Giai đoạn thứ nhất được trình bày trong cơng trình [CT. 10] của tác giả
luận án. Giai đoạn thứ hai, luận án đề xuất phương pháp xác định mối
liên hệ giữa từng yếu tố hồi chỉ thuộc dạng 1, 2, 3 trong Bảng 2.3 với yếu
tố tiền ngữ tương ứng đồng thời tạo dựng CT- BD-NN-TT của đoạn văn
bản kết quả của Giai đoạn thứ nhất. Nội dung việc thực hiện Giai đoạn
thứ hai được trình bày trong các cơng trình [CT. 1, CT. 2, CT. 5, CT. 6,
CT. 8, CT. 13] của tác giả luận án.
b. Phương pháp sử dụng cấu trúc đồ thị ngữ đoạn được gán nhãn gồm hai
giai đoạn. Giai đoạn thứ nhất, luận án đề xuất phương pháp tạo dựng một
CT-BD-CĐ-BM được gọi là cấu trúc đồ thị ngữ đoạn được gán nhãn.
Trong giai đoạn này, luận án đồng thời đề xuất phương pháp xác định mối
liên hệ giữa từng yếu tố hồi chỉ trong Bảng 2.3 với yếu tố tiền ngữ tương

ứng. Nội dung việc thực hiện Giai đoạn thứ nhất được trình bày trong các
cơng trình [CT. 11, CT. 12] của tác giả luận án. Giai đoạn thứ hai, luận án
đề xuất phương pháp chuyển đổi mơ hình biểu diễn trung gian thành CTBD-NN-TT. Nội dung việc thực hiện Giai đoạn thứ hai được trình bày
trong cơng trình [CT. 12] của tác giả luận án.
3. Đề xuất những phương pháp xác định yếu tố tiền ngữ cho những dạng yếu tố
hồi chỉ khác nhau trong đoạn văn bản tiếng Việt nguồn. Nội dung việc thực
hiện những phương pháp này được trình bày trong các cơng trình [CT. 1, CT.
2, CT. 5, CT. 6, CT. 8, CT. 11, CT. 13] của tác giả luận án.
4. Đề xuất những phương pháp tạo sinh câu và đoạn văn bản tóm tắt tiếng Việt
dựa trên một dạng CT-BD-NN-TT. Nội dung việc thực hiện những phương
18


pháp này được trình bày trong các cơng trình [CT. 3, CT. 4, CT. 5, CT. 6, CT.
7, CT. 8, CT. 9, CT. 13] của tác giả luận án.

Bố cục của luận án
Luận án được bố cục gồm các Chương, Mục như sau:


Mở đầu. Chương này giới thiệu tóm tắt: đặt vấn đề nghiên cứu; mục tiêu
nghiên cứu; phạm vi và đối tượng nghiên cứu; phương pháp nghiên cứu và
cách tiếp cận; nội dung nghiên cứu; các đóng góp khoa học của luận án; bố
cục của luận án.



Chương 1. Chương này trình bày tổng quan về những nghiên cứu liên quan
trong lĩnh vực tóm tắt văn bản. Luận án phân tích một số ưu, nhược điểm của
những nghiên cứu đại diện cho hai hướng tiếp cận tóm tắt trích xuất và trừu

tượng trong chương này.



Chương 2. Chương này trình bày những kiến thức nền tảng trong Khoa học
máy tính và Ngôn ngữ học, là cơ sở để đề xuất những phương pháp, cơ chế
xử lý trong luận án.



Chương 3. Chương này trình bày các phương pháp được đề xuất để hiện thực
thành phần Phân tích và Biểu diễn ngữ nghĩa văn bản tiếng Việt trong mơ
hình giải pháp ở Hình 0.1.



Chương 4. Chương này trình bày các phương pháp được đề xuất để hiện thực
thành phần Tạo sinh văn bản tiếng Việt trong mơ hình giải pháp ở Hình 0.1.



Kết luận và hướng phát triển.



Tài liệu tham khảo.

19



CHƯƠNG 1.

TỔNG QUAN VỀ TÓM TẮT
VĂN BẢN

Trong hai thập kỉ gần đây, kể từ nghiên cứu của [Luhn 1958], vấn đề tóm tắt
văn bản ngày càng trở nên quan trọng trong bối cảnh có sự bùng nổ dữ liệu, đặc biệt
là các dạng dữ liệu văn bản. Các công cụ tóm tắt văn bản tự động đã trở thành một
cơng cụ hữu ích giúp cho chúng ta nhanh chóng nắm bắt được những thông tin quan
trọng từ các tài liệu, sách, báo điện tử và mạng xã hội.
Trong lĩnh vực tóm tắt văn bản, một câu hỏi được đặt ra là: Những nội dung
thông tin quan trọng nào trong văn bản nguồn sẽ được giữ lại trong văn bản tóm tắt?
Trong hơn nửa thế kỷ qua, nhiều mơ hình và phương pháp đã được đề xuất để trả lời
cho câu hỏi nói trên [Das và Martins 2007; Fattah và Ren 2008; Jezek và
Steinberger 2008; Jones 1999, 2007; Lloret 2008; Mani và Maybury 1999; Mani
2001b; Saranyamol và Sindhu, 2014]. Dựa trên cách thức xây dựng và tạo sinh văn
bản tóm tắt, lĩnh vực tóm tắt văn bản được phân loại thành các hướng tiếp cận:

20


Hình 1.1. Tổng quan các hướng tiếp cận trong lĩnh vực tóm tắt văn bản.

1.1.

Hướng tiếp cận tóm tắt dựa trên trích xuất
Các nghiên cứu tóm tắt văn bản theo hướng tiếp cận tóm tắt dựa trên trích

xuất thơng tin [Nguyễn và Lê 2008; Bracewell và cộng sự 2005; Brandow và cộng
sự 1995; Carenini và Cheung 2008; Chen và cộng sự 2002; Das và Martins 2007;

Fattah và Ren 2008; Jezek và Steinberger 2008; Jones 1999, 2007; Le và cộng sự
2010; Lloret 2008; Mani và cộng sự 1998; Mani và Maybury 1999; Mani 2001b;
Nguyen và Nguyen 2013; Nguyen và cộng sự 2013; Nguyen và cộng sự 2004] tìm
cách lựa chọn (trích xuất) những câu hoặc ngữ đoạn được đánh giá là quan trọng
nhất trong văn bản nguồn để tạo thành văn bản tóm tắt. Cách thức đánh giá tầm
quan trọng của các câu và ngữ đoạn trong văn bản nguồn được dựa trên những phân
tích thống kê về các đặc điểm hình thức của văn bản như tần số xuất hiện của từ

21


×