Tải bản đầy đủ (.doc) (71 trang)

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO KIỂU TÓM LƯỢC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (966.17 KB, 71 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ────────

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC
NGÀNH CƠNG NGHỆ THƠNG TIN

XÂY DỰNG HỆ THỐNG TĨM TẮT VĂN
BẢN THEO KIỂU TĨM LƯỢC

Tóm tắt văn bản là q trình chắt lọc những thông tin quan trọng nhất từ một
nguồn để tạo ra một bản ngắn gọn hơn nhằm đáp ứng các nhiệm vụ cụ thể và người
dùng cụ thể. Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các
câu quan trọng nên về bản chất, nó thuộc lĩnh vực Khai phá văn bản. Tuy nhiên
trong quá trình chắt lọc, rút gọn thì cần có sự áp dụng của các phương pháp Xử lý
ngơn ngữ tự nhiên nếu muốn kết quả ra là một văn bản dễ đọc, dễ hiểu và mang ý


nghĩa ngơn ngữ tự nhiên như đầu vào của nó. Hiện nay, trên thế giới đã có rất nhiều
các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương
mại. Trong khi đó việc nghiên cứu, giải quyết bài tốn tóm tắt văn bản tiếng Việt
mới bắt đầu được quan tâm trong vài năm gần đây và đa phần sử dụng các phương
pháp thống kê.
Nhu cầu cấp thiết cải thiện tính năng tìm kiếm cũng như tăng hiệu quả đánh
chỉ mục cho bộ máy tìm kiếm đặt ra yêu cầu xây dựng một hệ thống tóm tắt văn bản
hoàn chỉnh, đáp ứng tốt những mục tiêu đặt ra.Trong đồ án này em sẽ trình bày
những kết quả tìm hiểu về bài tốn Tóm tắt văn bản và Lý thuyết cấu trúc diễn
ngơn. Từ đó xây dựng một hệ thống tóm tắt văn bản tiếng Việt thử nghiệm, sử dụng
kết hợp các phương pháp của Khai phá văn bản (thống kê tần suất xuất hiện từ) và


Xử lý ngôn ngữ tự nhiên (cấu trúc diễn ngôn).
Bố cục nội dung của đồ án:


Phần 1: Đặt vấn đề và định hướng giải pháp

Chương I: Tổng quan về bài toán tóm tắt văn bản, đưa ra một số khái niệm
tổng quan và các tiêu chí đánh giá kết quả tóm tắt.
Chương II: Giới thiệu nội dung Lý thuyết cấu trúc diễn ngôn do Mann và
Thompson đề xuất cùng một số cải tiến của Marcu.
Trình bày ưu nhược điểm của phương pháp cấu trúc diễn ngôn.


Phần 2: Các kết quả đạt được

Chương I: Phân tích cấu trúc diễn ngơn.
Chương II: Xây dựng chương trình tóm tắt văn bản thử nghiệm.


Phần kết luận chung

Kết quả đạt được và hướng phát triển

Lời cảm ơn
Em xin bày tỏ lịng biết ơn vơ hạn đến tập thể các thầy cô giáo trường Đại Học
Bách Khoa Hà Nội, trong suốt 5 năm học vừa qua, đã trang bị cho em nhiều kiến
thức quý báu, rất cần thiết cho việc hoàn thành đồ án tốt nghiệp này. Các thầy cô
luôn là tấm gương mẫu mực về tác phong làm việc và nghiên cứu để em noi theo.
Đặc biệt, em xin bày tỏ sự biết ơn sâu sắc tới PGS.TS. Lê Thanh Hương đã tận tình
hướng dẫn em từ những ngày đầu nhận đề tài và chỉ bảo cho em trong suốt quá trình

làm đồ án này.

2


Xin gửi lời cảm ơn tới các bạn lớp HTTT - K52 , đã động viên tơi trong những lúc
khó khăn và ln nhiệt tình trao đổi tài liệu, kiến thức chuyên môn cũng như kinh
nghiệm trong lúc làm đồ án.

Cuối cùng, tôi muốn gửi lời cảm ơn sâu sắc đến cha mẹ, gia đình và tất cả bạn bè,
những người luôn kịp thời động viên và giúp đỡ tôi vượt qua những khó khăn trong
cuộc sống.

Mục lục
Mục lục.......................................................................................................................................3
Danh mục hình vẽ...................................................................................................................10
...................................................................................................................................................10
Danh mục thuật ngữ..............................................................................................................12
Lời mở đầu..............................................................................................................................13
PHẦN 1. ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP..............................................14
Hình 1.1. Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau...............................15

3


Hình 1.2: Mơ hình phương pháp quan hệ lẫn nhau..........................................................17
Hình 1.3: Liên kết từ vựng....................................................................................................18
Hình 2.1 – Cây mơ tả cấu trúc diễn ngơn của văn bản.....................................................25
Hình 2.2 – Một số quan hệ diễn ngôn được biểu diễn dưới dạng cây.............................26
Hình 2.3 – Một văn bản có nhiều cách phân tích khác nhau...........................................28

Hình 2.4 : Lựa chọn cây cấu trúc diễn ngơn......................................................................28
Hình 2.5 – Cây RS theo đề xuất của Marcu.......................................................................29
PHẦN 2. CÁC KẾT QUẢ ĐẠT ĐƯỢC..............................................................................29
Hình 2.6 : Tổng quan q trình phân tích diễn ngơn......................................................31
Hình 2.7: Các bước phân đoạn diễn ngơn..........................................................................32
Hình 2.8 : Sơ đồ các thao tác cần thực hiện trong bước tách câu thành các ĐVDNCB
...................................................................................................................................................37
Hình 2.9: Xây dựng cây CTDN cho các ĐVDNCB mức dưới câu ngay ở bước tách...41
Hình 2.10: Giải thuật xác định quan hệ diễn ngơn sử dụng từ hiệu...............................45
Hình 2.11 : Bộ tuyển các mối quan hệ diễn ngơn...............................................................46
Hình 2.12: Giải thuật xác định quan hệ diễn ngôn sử dụng độ tương đồng..................47
Hình 2.13: Các cây cấu trúc diễn ngơn thu được sau khi tách và xác định quan hệ
mức dưới câu...........................................................................................................................49
Hình 2.14: Các cây cấu trúc diễn ngơn thu được sau khi tách và xác định quan hệ
mức dưới câu...........................................................................................................................50
Hình 2.15: Giải thuật xây dựng văn phạm dạng chuẩn Chomsky từ tập các QHDN..54
Hình 2.16: Cây suy dẫn từ các ký hiệu S(1, N, status, rel, promotion_set,
used_relations) ra xâu............................................................................................................56
Hình 2.17: Cây cấu trúc diễn ngôn tương ứng với cây suy dẫn trên..............................56
Hình 2.18: Một đoạn văn có thể có tới 4 cây cấu trúc diễn ngơn...................................57
Hình 2.19 : Hàm lượng giá....................................................................................................59
Hình 3.1: Các mơ-đun chính của hệ thống tóm tắt văn bản dưa trên cấu trúc diễn
ngôn..........................................................................................................................................62

4


Hình 3.2: Ba phương pháp TFIPF, Position và Title được thực hiện độc lập với
phương pháp dựa trên RST..................................................................................................66
Hình 3.3 : Giao diện chính của chương trình.....................................................................67

Text : Nội dung văn bản load từ file xml (File - > Open - >file xml)...............................67
Percent : Tỷ lệ nén của văn bản (%)...................................................................................67
Show scores : Hiển thị bảng thống kê độ đo của các đơn vị văn bản. Đơn vị văn bản
có độ đo càng cao thì khả năng xuất hiện trong kết quả tóm tắt càng lớn....................67
Việc lựa chọn trọng số của các phương pháp được người dùng tự lựa chọn thông qua
bảng Config. Ảnh hưởng của các phương pháp là khác nhau, dẫn đến kết quả tóm tắt
sẽ khác nhau............................................................................................................................67
Hình 3.4 : Lựa chọn các thông số cho các phương pháp..................................................68
Hình 3.5 : Bảng thống kê các độ đo.....................................................................................68
KẾT LUẬN.............................................................................................................................71
TÀI LIỆU THAM KHẢO.....................................................................................................72
1. Daniel Marcu, The Rhetorical Parsing, Summarization and Generation, of Natural
Language Texts, Ph.D Thesis (1997) [page 19-219]...........................................................72
2. Lê Thanh Hương, An approach in automatically generating discourse structure of
text . PGS.TS Faculty of Information Technology, Hanoi University of Technology,
VietNam [page 1-12]..............................................................................................................72
3. Mani & Maybury, Automatic Summarization, ACL 2001...........................................72
4. Hoàng Trọng Phiến, Ngữ pháp tiếng Việt – Câu, Nhà xuất bản Đại học và Trung
học chuyên nghiệp 1980.........................................................................................................72
5. William.C.Mann, Sandra.A.Thompson, Rhetorical structure theory: A theory of
text organization. Reprinted from the Structure of Discourse, University of Southern
California.[page 2-46]............................................................................................................72
6. M.Suneetha, S. Sameen Fatima , Corpus based Automatic Text Summarization
System with HMM Tagger, International Journal of Soft Computing and Engineering
(IJSCE) ISSN: 2231-2307, Volume-1, Issue-3, July 2011 [page 1-6]...............................72
7. YihongGong & XinLiu, Generic Text Summarization Using Relevance Measure
and Latent Semanti Analysis. Proceedings of the 23rd International Conference on
Computational Linguistics (Coling2010), [page 869–876], Beijing, August 2010.........72

5



8. Yuhua Li, David McLean, Zuhair Bandar, James O'Shea, Keeley A. Crockett
(Sentence Similarity Based on Semantic Nets and Corpus Statistics. Volume 18 Issue
8, August 2006 [page 1138 – 1150] IEEE Trans.................................................................72
9. Hiroshi ISHII & Rihua LIN & Teiji FURUGORI, A System for Text
Summarization Based on Word Importance Measures, Department of Computer
Science The University of Electro-Communications 1-5-1 Chofugaoka, Chofu-shi,
Tokyo 182-8585, Japan.[page 3-5]........................................................................................72
10. Wauter Bosma, DiscourseOriented Summarization, 2008 , ISBN978-90-365-2649-4
[page 84-99].............................................................................................................................72
11. Martin Hassel, Resource Leanand Portable Automatic Text Summarization
(2007), KTH School of Computer Science and Communication , Stockholm. [page 712].............................................................................................................................................72
12. Simone Teufel, Argumentative Zoning: Information Extraction from Scientic
Text , University of Edinburgh 1999 [page 129-141].........................................................72
13. Debug and Fix code />15. Danh mục Stopword : />16. Regex : />PHỤ LỤC................................................................................................................................74
Các hằng số biểu thị quan hệ diễn ngôn.............................................................................74
Tên quan hệ diễn ngôn..........................................................................................................74
Hằng số....................................................................................................................................74
Ý nghĩa.....................................................................................................................................74
LEAF........................................................................................................................................74
0.................................................................................................................................................74
Đây là nhãn quan hệ giả, dùng để chỉ nút lá trong cây CTDN........................................74
CAUSE-EFFECT...................................................................................................................74
1.................................................................................................................................................74
Nhân – quả..............................................................................................................................74
CONDITION...........................................................................................................................74
2.................................................................................................................................................74

6



Điều kiện..................................................................................................................................74
LIST.........................................................................................................................................74
3.................................................................................................................................................74
Liệt kê.......................................................................................................................................74
EXPLANATION.....................................................................................................................74
4.................................................................................................................................................74
Giải thích.................................................................................................................................74
PARENTHETICAL...............................................................................................................74
5.................................................................................................................................................74
Chú thích.................................................................................................................................74
PURPOSE................................................................................................................................74
6.................................................................................................................................................74
Mục đích..................................................................................................................................74
JOINT......................................................................................................................................74
7.................................................................................................................................................74
Kết hợp – đây là quan hệ yếu nhất......................................................................................74
ELABORATION....................................................................................................................74
8.................................................................................................................................................74
Bổ nghĩa...................................................................................................................................74
EXAMPLE..............................................................................................................................74
9.................................................................................................................................................74
Ví dụ.........................................................................................................................................74
MANNER................................................................................................................................74
10...............................................................................................................................................74
Cách thức.................................................................................................................................74
CIRCUMSTANCE.................................................................................................................74
11...............................................................................................................................................74


7


Hoàn cảnh................................................................................................................................74
CONTRAST............................................................................................................................74
12...............................................................................................................................................74
Tương phản.............................................................................................................................74
SAME-UNIT...........................................................................................................................74
13...............................................................................................................................................74
Đây cũng là một nhãn quan hệ giả, dùng để chỉ 2 đơn vị văn bản phải kết hợp với
nhau mới có nghĩa..................................................................................................................74
Một số luật của các tập luật dùng để tách và xác định quan hệ diễn ngôn, tập luật
chưa đủ lớn và không áp dụng được cho tất cả các trường hợp.....................................75
Tập luật LL.............................................................................................................................75
vì | B | B | A | 1 | _{vì_}_<S_>_!_{nên_}_<S_> | 1 | 1 | 1 | -1 | -1........................................75
vì | B | B | A | 1 | _{vì_}_<S_>_!_{,_}_<S_> | 1 | 1 | 1 | -1 | -1..............................................75
nếu | B | B | A | 1 | _{nếu_}_<S_>_!_{thì_}_<S_> | 1 | 1 | 1 | -1 | -1....................................75
nếu | B | B | A | 1 | _{nếu_}_<S_>_!_{,_}_<S_> | 1 | 1 | 1 | -1 | -1.......................................75
để | B | B | A | 1 | _<SBAR_[để_]_>_!_{,_}_<T_>_{,_}_<SUB_>_<PRE_> | 1 | 6 | 1 | -1 |
-1...............................................................................................................................................75
để | B | B | A | 1 | __!_{,_}_<SUB_>_<PRE_> | 1 | 6 | 1 | -1 | -1.75
để | B | B | A | 1 | _{để_}_<S_>_!_{,_}_<S_> | 1 | 6 | 1 | -1 | -1............................................75
với | B | B | A | 1 | _...................................................................................................................................................75
không chỉ | M | B | A | 1 | _<SUB_>__<T_[mà_]_>_> | 0 | 7 | 1 | -1 | -1..........................................................................................75
vừa | B | B | A | 1 | _{vừa_}_<T_>_!_{vừa_}_<T_>_{lại vừa_}_<T_> | 2 | 7 | 1 | -1 | -1. 75
vừa | B | B | A | 1 | _{vừa_}_<T_>_!_{vừa_}_<T_>_{vừa_}_<T_> | 2 | 7 | 1 | -1 | -1.......75
vừa | B | B | A | 1 | _{vừa_}_<T_>_{,_}_!_{vừa_}_<T_> | 2 | 7 | 1 | -1 | -1........................75
vừa | B | B | A | 1 | _{vừa_}_<T_>_!_{vừa_}_<T_> | 2 | 7 | 1 | -1 | -1................................75

Tập luật LN.............................................................................................................................76
trong | B | N | A | 1 | __!_<SUB_>_<PRE_> | 1 | 11 | 1 | -1 | -1. .76

8


Tâp luật NL.............................................................................................................................76
để | N | B | A | 1 | _<SUB_>__> | 0 | 6 |
1 | -1 | -1....................................................................................................................................76
để | N | B | A | 1 | _<SUB_>__> | 0 | 6 | 1 | -1 |
-1...............................................................................................................................................76
để | N | B | A | 1|_<SUB_> ___>_> | 0 | 6 | 1 | -1 | -1...................................................................76
như | N | B | A | 1 | _<SUB_> _| 0 | 9 | 1 | -1 | -1........................................................................................................................76
như | N | B | A | 1 | _ <SUB_>_[,_]_>_>_> | 0 | 9 | 1 | -1 | -1....................................................................................................76
: | N | B | A | 1 | _<T_>_!_{:_}_<T_[,_]_> | 0 | 9 | 1 | -1 | -1.................................................76
trong | N | B | A | 1 | _<SUB_>_ | 0 | 11 | 1 |
-1 | -1.........................................................................................................................................76
song | B | N | B | 6 | _{song_}_<PP_>_<SUB_>_<PRE_> | 2 | 12 | 1 | 1 | -1.....................76
do đó | B | N | B | 6 | _{do đó_}_<T_> | 1 | 1 | 1 | 1 | -1........................................................76
tóm lại | B | N | B | 6 | _{do đó_}_<T_> | 1 | 1 | 1 | 1 | -1......................................................76
bởi vì | N | B | A | 1 | _<SUB_>__> | 0 | 1 | 1
| -1 | -1.......................................................................................................................................76

9


Danh mục hình vẽ

Hình 1.1. Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau...............................15
Hình 1.2: Mơ hình phương pháp quan hệ lẫn nhau..........................................................17
Hình 1.3: Liên kết từ vựng....................................................................................................18
Hình 2.1 – Cây mơ tả cấu trúc diễn ngơn của văn bản.....................................................25
Hình 2.2 – Một số quan hệ diễn ngơn được biểu diễn dưới dạng cây.............................26
Hình 2.3 – Một văn bản có nhiều cách phân tích khác nhau...........................................28
Hình 2.4 : Lựa chọn cây cấu trúc diễn ngơn......................................................................28
Hình 2.5 – Cây RS theo đề xuất của Marcu.......................................................................29
Hình 2.6 : Tổng quan q trình phân tích diễn ngơn......................................................31
Hình 2.7: Các bước phân đoạn diễn ngơn..........................................................................32
Hình 2.8 : Sơ đồ các thao tác cần thực hiện trong bước tách câu thành các ĐVDNCB
...................................................................................................................................................37
Hình 2.9: Xây dựng cây CTDN cho các ĐVDNCB mức dưới câu ngay ở bước tách...41
Hình 2.10: Giải thuật xác định quan hệ diễn ngôn sử dụng từ hiệu...............................45
Hình 2.11 : Bộ tuyển các mối quan hệ diễn ngơn...............................................................46
Hình 2.12: Giải thuật xác định quan hệ diễn ngơn sử dụng độ tương đồng..................47
Hình 2.13: Các cây cấu trúc diễn ngôn thu được sau khi tách và xác định quan hệ
mức dưới câu...........................................................................................................................49
Hình 2.14: Các cây cấu trúc diễn ngôn thu được sau khi tách và xác định quan hệ
mức dưới câu...........................................................................................................................50
Hình 2.15: Giải thuật xây dựng văn phạm dạng chuẩn Chomsky từ tập các QHDN..54
Hình 2.16: Cây suy dẫn từ các ký hiệu S(1, N, status, rel, promotion_set,
used_relations) ra xâu............................................................................................................56
Hình 2.17: Cây cấu trúc diễn ngơn tương ứng với cây suy dẫn trên..............................56
Hình 2.18: Một đoạn văn có thể có tới 4 cây cấu trúc diễn ngơn...................................57

10


Hình 2.19 : Hàm lượng giá....................................................................................................59

Hình 3.1: Các mơ-đun chính của hệ thống tóm tắt văn bản dưa trên cấu trúc diễn
ngơn..........................................................................................................................................62
Hình 3.2: Ba phương pháp TFIPF, Position và Title được thực hiện độc lập với
phương pháp dựa trên RST..................................................................................................66
Hình 3.3 : Giao diện chính của chương trình.....................................................................67
Text : Nội dung văn bản load từ file xml (File - > Open - >file xml)...............................67
Percent : Tỷ lệ nén của văn bản (%)...................................................................................67
Show scores : Hiển thị bảng thống kê độ đo của các đơn vị văn bản. Đơn vị văn bản
có độ đo càng cao thì khả năng xuất hiện trong kết quả tóm tắt càng lớn....................67
Việc lựa chọn trọng số của các phương pháp được người dùng tự lựa chọn thông qua
bảng Config. Ảnh hưởng của các phương pháp là khác nhau, dẫn đến kết quả tóm tắt
sẽ khác nhau............................................................................................................................67
Hình 3.4 : Lựa chọn các thơng số cho các phương pháp..................................................68
Hình 3.5 : Bảng thống kê các độ đo.....................................................................................68

11


Danh mục thuật ngữ
Tiếng Việt

Viết tắt

cấu trúc diễn ngôn CTDN
lý thuyết cấu trúc diễn Lý thuyết
ngôn CTDN
phân đoạn diễn ngôn PĐDN
đơn vị diễn ngôn cơ bản ĐVDNCB
quan hệ diễn ngôn QHDN


Tiếng Anh

Viết tắt

rhetorical structure RS
rhetorical structure RST
theory
discourse segmentation DS
elementary discourse EDU
unit
rhetorical relation RR

cấu trúc ngữ pháp CTNP
từ hiệu/ngữ cố định

cue phrase

12


Lời mở đầu
Q trình tóm tắt là q trình rút ra những thông tin quan trọng nhất từ một
hay nhiều nguồn văn bản để tạo ra một văn bản gọn hơn phục vụ cho một số nhiệm
vụ hay người dùng cụ thể. Bài tốn tóm tắt văn bản (Text Summarization) là một
trong những bài tốn khó cài đặt nhất nhưng cũng hữu ích nhất của lĩnh vực Khai
phá văn bản.
Ở Việt Nam hiện nay, hầu như tất cả các bài tốn tiếng Việt điển hình của
Khai phá văn bản đều đã được nghiên cứu và cài đặt thành ứng dụng như Tìm kiếm
văn bản, Phân lớp & Phân nhóm văn bản..., đóng góp rất nhiều vào sự phát triển của
lĩnh vực Xử lý văn bản tự động tiếng Việt. Song bài tốn Tóm tắt văn bản thì chưa

có nhiều nghiên cứu tiến hành đề xuất và xây dựng thành công ứng dụng. Có thể vì
bài tốn này khơng chỉ cần những công cụ và phương pháp của Khai phá văn bản
mà còn phải lưu ý đến những vấn đề về Xử lý ngôn ngữ tự nhiên (Natural Language
Processing). Điều này thật không tương xứng với nền thông tin tri thức hiện tại của
Việt Nam, khi mà đang có hàng ngàn nhu cầu khác nhau cần đến những ứng dụng
trợ giúp tóm lược văn bản hay sinh tiêu đề và hiển thị chúng theo những dạng mong
muốn.
Chính sự dễ dàng khi truy cập vào kho dữ liệu Internet khổng lồ và phong
phú lại là nhược điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi
chúng quá nhiều và không thống nhất về định dạng lưu trữ và hiển thị. Kể cả khi đã
lấy được những thông tin đó thơng qua các hệ thống phân loại, tìm kiếm thì cũng
khơng thể nắm bắt tồn bộ vì thời gian có hạn mà số lượng thơng tin trả về q lớn.
Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn hay
chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp
chúng ta giải quyết phần lớn các nhu cầu vừa nêu.
Đó cũng là lý do, em chọn đề tài “Xây dựng ứng dụng tóm tắt văn bản dựa
trên cấu trúc diễn ngôn” làm đồ án tốt nghiệp cho mình.

13


PHẦN 1. ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP
Chương I. Tổng quan tóm tắt văn bản
1. Phát biểu bài tốn
• Cho một văn bản, hãy đưa ra tóm tắt gồm các ý chính của văn bản đó. Bản
tóm tắt phải chứa đầy đủ thơng tin quan trọng, xúc tích,dễ hiểu đối với người
sử dụng.
• Phương pháp tóm tắt và kết quả tóm tắt phụ thuộc vào các yếu tố : đầu vào,
đầu ra, mục đích.
o Đầu vào :



Source : văn bản đơn và đa văn bản.



Ngôn ngữ: đơn ngữ và đa ngữ



Kích thước văn bản : ngắn, dài



Cấu trúc văn bản : nhiều đoạn, ít đoạn; 1 văn bản, nhiều văn
bản (có liên quan đến nhau), phức tạp, đơn giản.



Thể loại : báo cáo, bài báo, bài giảng, thuyết trình, Tin tức văn
bản khoa học…



Đặc tính : cụ thể và tổng quát



Chủ đề : chung, chuyên ngành.




Phương tiện: Văn bản,đồ họa,âm thanh.hình ảnh, và đa truyền
thơng.

o Đầu ra :
 Nội dung : tổng quát, chuyên về một khía cạnh, trích yếu
(abstract)
 Độ dài
 Độ chính xác
o Mục đích :
 Giúp nắm bắt thông tin nhanh khi đọc nhiều tài liệu
 Thơng báo
 Đọc tóm lược trước khi đọc chi tiết

14


Văn bản tóm tắt bao gồm: văn bản trực tuyến, văn bản ngoại tuyến, siêu văn
bản,...Tuỳ theo yêu cầu của tóm tắt mà tóm tắt văn bản được phân loại thành
nhiều kiểu tóm tắt văn bản khác nhau:
Tóm tắt trình bày (indicative summary): quan tâm tới diễn giải văn bản mà bỏ
qua ngữ cảnh.
Tóm tắt thơng tin (informative summary): đưa ra tóm tắt nội dung ở dạng ngắn
nhất.
Tóm tắt hướng truy vấn (queries –oriented summary): chỉ đưa ra nội dung mà
người đọc quan tâm.
Tóm tắt chung (generic summary): tóm tắt tổng quan văn bản.
Tóm tắt kiểu trích rút (extraction summary): trích chọn ra những phần quan
trọng trong văn bản như câu, mệnh đề, thuật ngữ,...

Tóm tắt kiểu trừu tượng (abstraction summary): tạo ra một văn bản tóm tắt
đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi, văn bản
tóm tắt kiểu trừu tượng mang lại hiệu quả cao về mặt ngơn ngữ.

Hình 1.1. Các kiểu tóm tắt văn bản với các tỉ lệ tóm tắt khác nhau.

2. Các phương pháp
2.1. Các phương pháp dựa trên kết quả thống kê

15


Là các phương pháp sử dụng các số liệu thống kê về độ quan trọng của các từ,
ngữ, câu hay đoạn. Qua đây, hệ thống có thể sẽ giảm được số lượng các đối tượng
phải xem xét và trích rút chính xác các đơn vị văn bản cần tìm. Các thống kê có thể
nhận được từ các nghiên cứu về ngôn ngữ học hay thông qua phương pháp học máy
từ các tập mẫu có sẵn. Từ đó, các thống kê này được dùng cho các tính tốn hiện
thời trên văn bản đầu vào.
Phương pháp vị trí (Position-Based): Phương pháp vị trí bao gồm các phương

pháp xác định độ quan trọng dựa trên thống kê về vị trí của từ, ngữ hay câu trong
văn bản. Các thống kê này tất nhiên phụ thuộc vào thể loại văn bản…
Chủ đề - Tiêu đề (Title-based): Chủ đề các đoạn văn bản hay tiêu đề các bảng
thường chứa các từ và ngữ quan trọng, nên trích rút thơng tin từ đây.
Đầu - cuối đoạn (First - Last Sentence): Xác suất câu đầu đoạn hay câu cuối
đoạn chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra, các
đoạn đầu và cuối trong văn bản cũng quan trọng hơn các đoạn giữa.
Minh họa - Chú thích (Comments): Trong các câu chú thích, câu minh họa cho
ảnh hay đồ thị thường chứa các thông tin quan trọng. Tuy nhiên, các câu này thường
chỉ được dùng để đánh giá độ quan trọng của các câu khác liên quan, chứ không

được chọn làm đầu vào cho pha tiếp.
Phương pháp dựa trên các cụm từ hiệu (Cue phrases-Based): Các cụm từ hiệu có

đặc điểm thống kê rất tốt. Sau các từ/cụm từ này thường là các câu hay từ có độ
quan trọng xác định. Người ta chia thành hai loại cụm từ hiệu, một loại mang lại độ
quan trọng cho thành phần đi sau, được gọi là ngữ nhấn mạnh, một loại giúp ta loại
bỏ, không xét đến những thành phần đi sau vì nó khơng có nhiều giá trị trong việc
trích rút, được gọi là ngữ dư thừa.
Ngữ nhấn mạnh (Bonus phrase - Emphasizer): Ngữ nhấn mạnh gồm các ngữ
như “nói chung là…”, “đặc biệt là…”, "cuối cùng thì…”, “trong bài viết này tơi
muốn chỉ ra…”, “bài viết nói về…”, “nội dung gồm…”,..v..v...
Ngữ dư thừa (Stigma phrases): Một số ngữ dư thừa : “hiếm khi mà…”, "bài này
khơng nói đến…”, "Khơng thể nào…”, ..v..v...
Phương pháp thống kê tần suất từ (Word frequency-Based): Độ quan trọng của từ

phụ thuộc vào số lần xuất hiện của từ đó trong các văn bản liên quan. Các kỹ thuật
như TFxIPF hay Tập thuật ngữ thường xuyên (Frequent Item Set) dùng cho công
việc xác định tần suất của từ.
2.2. Các phương pháp dựa trên cấu trúc ngữ nghĩa

16


Là các phương pháp sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác
định các đơn vị văn bản quan trọng. Tư tưởng chính của các phương pháp này là
những đơn vị văn bản nào có chứa các thành phần liên kết nhiều với các thành phần
khác sẽ có độ quan trọng lớn. Việc đánh giá các mối quan hệ sẽ dựa trên các mạng
ngữ nghĩa, các quan hệ cú pháp hoặc thông qua các phương pháp xác định độ liên
quan truyền thống.
Phương pháp quan hệ lẫn nhau: Phương pháp này xác định mối quan hệ giữa các


đoạn trong văn bản hay các câu trong đoạn với nhau thông qua các kỹ thuật thu thập
thông tin ở mức văn bản. Các đoạn (câu) trong văn bản nguồn được tính tốn độ
liên quan lẫn nhau giữa chúng. Có thể dùng các kỹ thuật xác định độ liên quan lẫn
nhau như Cô-sin, TFxIPF hay N-gram Overlap. Sau đó chọn ra đoạn (câu) có độ
liên quan lớn nhất.

Hình 1.2: Mơ hình phương pháp quan hệ lẫn nhau

Phương pháp liên kết từ vựng (Lexical Chains): Phương pháp liên kết từ vựng sử

dụng các từ điển quan hệ từ vựng đế xây dựng các chuỗi từ liên kết với nhau vể mặt
ngữ nghĩa. Ví dụ "cây" là một loại "thực vật", có bộ phận là "lá", chất liệu là "gỗ".
Các từ "cây", "thực vật", "lá", "gỗ" có quan hệ ngữ nghĩa nào đó với nhau. Sau khi
xây dựng được các chuỗi từ này, đánh giá độ mạnh của chúng và có những trích
chọn phù hợp. Các ứng dụng tóm tắt sử dụng phương pháp này đã được cài đặt bởi
Regina Barzilay hay Cláudia Santos. Tuy nhiên, có thể coi Morris và Hirst là những
người đầu tiên đưa ra ý tưởng này vào năm 1991. Lexical Chains không những chỉ
dùng trong Tóm tắt văn bản mà cịn được coi là lý thuyết tổng quát của vấn đề ngữ
nghĩa trong Xử lý ngôn ngữ tự nhiên. Sau này Chin-Yew Lin and Eduard Hovy đã
phát triển thành một lý thuyết mới, rộng hơn, được gọi là Nhận dạng chủ đề (Topic
Identification).

17


Hình 1.3: Liên kết từ vựng
Phương pháp dựa trên diễn ngôn (Discourse-Based): Dựa trên các từ thể hiện mối

quan hệ giữa các câu chúng ta cấu trúc hóa đoạn văn bản từ các đơn vị thành phần

như ngữ, mệnh đề, câu... Sau đó đơn vị trung tâm (nucleus) sẽ được trích chọn.
Phương pháp này dựa trên nghiên cứu và đề xuất nổi tiếng của Mann và Thompson
về Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory). Đoạn văn đang xét
sẽ được cấu trúc hóa thành dạng cây từ các nút lá, gọi là Cây diễn ngôn (Rhetorical
Tree). Bằng cách biểu diễn các mối quan hệ giữa các câu về mặt ngữ nghĩa như
quan hệ nền (Background), quan hệ dẫn chứng (Evidence), quan hệ bổ nghĩa
(Elaboration),...chúng ta có thể xác định các nút hạt nhân và các nút vệ tinh. Từ đó
chọn các nút hạt nhân để xây dựng nên cấp thấp hơn của Cây diễn ngôn. Gốc của
Cây diễn ngôn sẽ là đơn vị quan trọng nhất.
Đây là những ý tưởng cơ bản của Daniel Marcu trong việc sử dụng Lý thuyết
cấu trúc diễn ngơn vào các ứng dụng Tóm tắt và Sinh ngôn ngữ tự nhiên (Natural
Language Generating) và là hướng tiếp cận mà em sẽ sử dụng trong đồ án này.
2.3 Kết hợp các phương pháp khác


Phương pháp dựa trên Title

Title là câu tiêu đề của văn bản, phân biệt với các Heading - câu phụ đề cho mỗi
đoạn, câu chú thích cho ảnh, bảng, hình vẽ... Một văn bản chỉ có thể có một Title và
có thể khơng có Title. Việc xác định Title hiện tại dựa vào nhận xét : Title là câu duy
nhất của đoạn đầu tiên. Nghĩa là ta xét đoạn đầu tiên của văn bản, nếu đây chỉ có
một câu thì câu này là Title, ngược lại, ta coi văn bản khơng có Title. Cách xác định
này phụ thuộc định dạng của văn bản đầu vào.

18


Nếu một văn bản có Title, Title của văn bản sẽ được lấy làm Title hoặc câu đầu tiên
của văn bản kết quả.
Nếu một văn bản có Title, các term có trong Title sẽ được dùng để véc-tơ hóa các

câu khác trong văn bản. Sau đó, điểm TitleScore của một câu được tính theo cơng
thức cơ-sin :

Trong đó X là véc-tơ đặc trưng của câu, Y là véc-tơ đặc trưng của văn bản với cơ
sở là tập các term của câu tiêu đề.


Phương pháp dựa trên Position

Đây là phương pháp tóm tắt theo từng đoạn (Paragraph) của văn bản.
Thơng thường, trong mỗi đoạn, câu đầu tiên là câu quan trọng nhất. Do đó ta sẽ sử
dụng các term của câu đầu đoạn làm cơ sở để véc-tơ hóa các câu còn lại trong đoạn.
Điểm PositionScore của một câu sẽ được tính theo cơng thức cơ-sin trong đó Y là
véc-tơ đặc trưng của đoạn.


Phương pháp TFxIPF

TFxIPF là từ viết tắt của Term Frequency times Inverse Paragraph Frequency.
Theo cách đánh giá này một thuật ngữ là quan trọng và đặc trưng khi nó xuất hiện
nhiều trong văn bản này và ít xuất hiện trong các văn bản khác.
Ở đây, một thuật ngữ được xét ở trong một đoạn và nó được tính điểm TFxIPF theo
cơng thức :

Trong đó tf là số lần xuất hiện term i trong đoạn, N là tổng số đoạn trong văn bản, ni
là số đoạn chứa term i.
Sau đó tất cả các thuật ngữ đều được tính điểm TFxIPF, sắp xếp giảm dần theo điểm
này. Một phần trăm nào đó của các thuật ngữ có số điểm TFxIPF cao nhất sẽ được
dùng để đánh giá các câu trong văn bản giống như cách của các phương pháp Title,
Position: gán điểm TFxIPF cho mỗi câu dựa trên sự có mặt của các thuật ngữ

TFxIPF trong câu.


Loại bỏ chú thích

Chú thích thực ra phần lớn là một loại ngữ đồng vị, nhưng được phát hiện dễ dàng
hơn và thuật toán loại bỏ chúng cũng đơn giản hơn nhiều. Điều này kéo theo độ

19


chính xác của phương pháp là rất cao so với các phương pháp rút gọn khác. Hiện
tại, hệ thống chỉ coi những phần nào nằm trong dấu ngoặc đơn, nằm giữa hai dấu
ngạch ngang (- như thế này -) là chú thích. Sau khi nhận biết, chúng ta lập tức xóa
các chú thích đi. Thuật tốn chỉ đơn giản kiểm tra một câu có cặp “()” hay “- -” thì
xóa phần nằm giữa.


Loại bỏ trạng ngữ

Trạng ngữ là các ngữ bổ nghĩa cho câu (chính xác hơn là bổ nghĩa cho động từ
chính trong câu ) về mặt thời gian, nơi chốn, nguyên nhân, mục đích, cách thức
Ví dụ:
Từ ngày hôm nay, nhiều trường đại học trên địa bàn thành phố tiếp tục nhận hồ sơ
thí sinh trúng tuyển nguyện vọng một và hai. (Thời gian)
Đây là trường hợp xuất hiện nhiều nhất trong các mẩu tin và cũng là một phương
pháp có độ chính xác cũng như độ nén cao.

3. Đánh giá kết quả
3.1. Các phép đo

• Độ chính xác : tỉ lệ các câu đúng trong bản tóm tắt.
• Độ bảo tồn thơng tin (độ hồi tưởng): tỉ lệ thơng tin trong bản tóm tắt so với văn
bản gốc.
Xét một ứng dụng tóm tắt đang cần đánh giá (C) và một phương pháp tóm tắt khác.
Phương pháp này được gọi là Gold Standard (GS). Độ chính xác là số câu chọn ra
chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả.
Độ hồi tưởng là số câu chọn ra chính xác của văn bản kết quả chia cho tổng số câu
của văn bản có được do tóm tắt bằng GS.
Để minh họa rõ hơn cách xác định độ chính xác và độ hồi tưởng, giả sử ta có bảng
kết quả kiểm thử như sau:
Số câu được C chọn

Số câu không được C
chọn

A

B

Số câu không được C
GS chọn

D

Số câu được GS chọn

20


A

A+ B
A
Độ hồi tưởng R =
A+C

Độ chính xác P =

Người ta thường dùng một tiêu chí tổng hợp của độ chính xác và độ hồi tưởng :
1

F=

α⋅

1
1
+ (1 − α ) ⋅
P
R

Trong đó :
P: độ chính xác theo cơng thức trên.
R: độ hồi tưởng theo công thức trên.
α : số thực bất kỳ thỏa điều kiện 0< α <1.

3.2. Các phép đánh giá
• Đánh giá trong : so sánh với bản tóm tắt lý tưởng.
• Đánh giá ngồi : để người đọc nhận xét xem bản tóm tắt có thể thay thế được văn
bản gốc hay khơng.
• Trong phạm vi đồ án, do chưa có tập dữ liệu mẫu, nên em chưa thể thực hiện tính

tốn độ chính xác của hệ thống so với bản tóm tắt lý tưởng. Vì vậy, em thực hiện
phương pháp thủ công, để người dùng nhận xét và đánh giá kết quả tóm tắt,
thơng qua phiếu thăm dò. Việc xây dựng tập dữ liệu mẫu sẽ được thực hiện ngay
sau khi hoàn thành báo cáo này.

21


Chương II. Lý thuyết cấu trúc diễn ngôn
1. Các nghiên cứu trước đây về Lý thuyết cấu trúc diễn ngôn
1.1. Grosz và Sidner
Một trong những lý thuyết diễn ngơn chính đã được Grosz và Sidner đề xuất
vào năm 1986. Grosz và Sidner cho rằng chủ ý của tác giả khi tạo ra văn bản có vai
trị quyết định trong việc hình thành cấu trúc diễn ngơn (CTDN) của văn bản đó.
Một CTDN được tạo nên bởi 3 thành phần: cấu trúc ngôn ngữ học, cấu trúc chủ ý
và trạng thái chú ý.
Cấu trúc ngôn ngữ học gồm các PĐDN và quan hệ giữa chúng.
Cấu trúc chủ ý có được bằng cách nhận diện mục đích cụ thể của tác giả khi tạo ra
văn bản (được gọi là mục đích diễn ngơn - MĐDN), và cách mà mỗi PĐDN đóng
góp vào MĐDN chung (được gọi là mục đích phân đoạn diễn ngơn– MĐPĐDN).
Các quan hệ giữa các chủ ý góp phần thể hiện một chủ ý khác (quan hệ trội), hoặc
một chủ ý phải xuất hiện trước một chủ ý khác (quan hệ tiền định).
Tuy nhiên, lý thuyết của Grosz và Sidner để lại nhiều vấn đề chưa được giải quyết,
cần có thêm rất nhiều nỗ lực nữa để chuyển từ lý thuyết thành hệ thống thực tế - hệ
thống sinh tự động cấu trúc diễn ngôn.
1.2. Mann và Thompson
Một lý thuyết diễn ngôn khác tồn tại song song với lý thuyết của Grosz và
Sidner là Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory – RST) được đề
xuất bởi Mann và Thompson vào năm 1988. Mann và Thompson đã đề xuất và định
nghĩa một tập gồm 23 quan hệ diễn ngơn từ đó suy ra các cấu trúc diễn ngơn. Theo

họ, tập quan hệ này khơng phải là tập đóng, nó có thể được mở rộng và chỉnh sửa
cho phù hợp với các mục đích, thể loại cụ thể và các kiểu văn hóa khác nhau. Để
suy ra cấu trúc diễn ngôn của văn bản, đầu tiên phải chia văn bản thành các vế câu
và các đơn vị tương đương, sau đó nhận biết các quan hệ giữa các đơn vị này sử
dụng 23 quan hệ kể trên. Mann và Thompson cũng thừa nhận sự tồn tại nhiều kết
quả phân tích trong RST, điều này gây khó khăn trong việc xây dựng và đánh giá
các hệ thống diễn ngôn.
1.3. Daniel Marcu (1997)
Marcu đã kế thừa và phát triển các ý tưởng của Mann và Thompson trong luận án
tiến sỹ 1997 của mình. Trong đó, Marcu giới thiệu mơ hình phân tích diễn ngơn sử
dụng các luật được xây dựng một cách thủ công để tạo ra các cấu trúc diễn ngôn.

22


Tiếp cận này sử dụng các từ hiệu để tách văn bản thành các đơn vị diễn ngôn. Để
xác định các quan hệ diễn ngôn giữa các đơn vị này, Marcu sử dụng giải thuật dựa
trên các từ đánh dấu diễn ngôn và giải thuật dựa trên từ đồng hiện. Giải thuật dựa
trên từ đồng hiện được sử dụng để nhận biết 2 câu hoặc 2 đoạn có nói về cùng một
vấn đề hay không. Do giải thuật này dựa trên sự đồng hiện của các từ, nó khơng thể
dùng được trong trường hợp 2 câu hoặc đoạn sử dụng các từ đồng nghĩa hoặc các
ngữ cùng tham chiếu tới một nghĩa. Marcu cũng đề xuất một nguyên lý, cho rằng :
“một quan hệ diễn ngôn R giữa 2 phần văn bản cũng là quan hệ diễn ngôn giữa 2
đơn vị quan trọng nhất của 2 phần văn bản đó”. Từ quan điểm này, Marcu đã phân
tích các quan hệ giữa các phần văn bản bằng cách chỉ đánh giá các nhân tố nhận
biết của các nhân.
Mặc dù giải thuật của Marcu để xây dựng các biểu diễn RST khá tiến bộ so
với các phương pháp khác, vẫn còn nhiều vấn đề được đặt ra. Do hệ thống của
Marcu phụ thuộc nặng nề vào các từ hiệu, sẽ có vấn đề nếu các từ hiệu không xuất
hiện trong văn bản. Thêm vào đó, hệ thống này sinh ra mọi cây RST có thể được từ

các quan hệ giữa các cặp đơn vị văn bản và nảy sinh sự bùng nổ tổ hợp khi số quan
hệ tăng theo hàm mũ..
1.4. Các nghiên cứu khác
Trên đây là các nghiên cứu có ảnh hưởng lớn tới các nghiên cứu khác về bài
toán phân tích cấu trúc diễn ngơn, bao gồm đề xuất các khái niệm và cài đặt thử
nghiệm. Ngồi ra cịn một số các nghiên cứu khác của Poesio và Di Eugenio (2001),
kết hợp lý thuyết của Grosz và Sidner với RST); Kurohashi và Nagao (1994), lấy
câu làm đơn vị diễn ngôn cơ bản; Corston (1998), sử dụng cấu trúc ngữ nghĩa của
câu thay cho từ hiệu trong việc nhận biết các quan hệ diễn ngơn. Dưới đây, em sẽ đi
sâu trình bày nội dung lý thuyết cấu trúc diễn ngôn do Mann và Thompson đề xuất
cùng một số cải tiến của Marcu.

2. Lý thuyết cấu trúc diễn ngôn
2.1 Giới thiệu
Các nghiên cứu ngơn ngữ học và ngơn ngữ học tính tốn từ lâu đã chỉ ra rằng
văn bản không chỉ là một chuỗi đơn giản gồm các vế và câu mà còn là một cấu trúc
phức tạp, tinh vi. Đến nay, các lý thuyết hình thức về văn bản vẫn cịn được phát
triển và có thể dễ dàng cài đặt trên các hệ thống tính tốn. Thực tế thì rất ít lý thuyết
phản ánh đúng các hệ thống ngôn ngữ tự nhiên: hầu hết chúng xử lý văn bản dựa
trên cơ sở từng câu một. Để minh họa, ta xét 2 văn bản dưới đây :
(1.1)

23


Ðiểm nổi bật trong quan điểm giáo dục lý tưởng cho thanh niên của Bác Hồ là đưa
thanh niên vào các tổ chức chính trị, xã hội do Ðảng lãnh đạo để vừa giác ngộ lý tưởng
cách mạng cho họ, vừa đưa họ hoạt động thực tiễn đấu tranh cách mạng của toàn dân tộc.
Ðể chuẩn bị cho việc thành lập Ðảng, năm 1925, lãnh tụ Nguyễn Ái Quốc sáng lập Hội
Việt Nam Cách mạng Thanh niên là tiền thân của Ðảng ta sau này. Người trực tiếp lựa

chọn và bồi dưỡng, đào tạo những thanh niên yêu nước, có chí khí đấu tranh chống thực
dân, phong kiến. Cuốn sách “Ðường kách mệnh” là tập hợp các bài giảng của Nguyễn Ái
Quốc từ năm 1925 đến 1927 cho các lớp thanh niên ưu tú về lý tưởng, đạo đức cách mạng.
Những thanh niên yêu nước qua huấn luyện, giáo dục, đào tạo được Bác Hồ đưa về nước
hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành những
cán bộ cách mạng tiên phong trong cuộc đấu tranh giải phóng dân tộc. Trong đó có nhiều
người cộng sản trẻ tuổi xuất sắc như Trần Phú, Nguyễn Lương Bằng, Phạm Văn Ðồng, Lê
Hồng Phong, Hồ Tùng Mậu,...
(1.2)
Những thanh niên yêu nước qua huấn luyện, giáo dục, đào tạo được Bác Hồ đưa về
nước hoạt động để thâm nhập vào phong trào yêu nước, phong trào công nhân trở thành
những cán bộ cách mạng tiên phong trong cuộc đấu tranh giải phóng dân tộc. Cuốn sách
Ðường kách mệnh là tập hợp các bài giảng của Nguyễn Ái Quốc từ năm 1925 đến 1927
cho các lớp thanh niên ưu tú về lý tưởng, đạo đức cách mạng. Ðiểm nổi bật trong quan
điểm giáo dục lý tưởng cho thanh niên của Bác Hồ là đưa thanh niên vào các tổ chức chính
trị, xã hội do Ðảng lãnh đạo để vừa giác ngộ lý tưởng cách mạng cho họ, vừa đưa họ hoạt
động thực tiễn đấu tranh cách mạng của toàn dân tộc. Người trực tiếp lựa chọn và bồi
dưỡng, đào tạo những thanh niên u nước, có chí khí đấu tranh chống thực dân, phong
kiến. Ðể chuẩn bị cho việc thành lập Ðảng, năm 1925, lãnh tụ Nguyễn Ái Quốc sáng lập
Hội Việt Nam Cách mạng Thanh niên là tiền thân của Ðảng ta sau này. Trong đó có nhiều
người cộng sản trẻ tuổi xuất sắc như Trần Phú, Nguyễn Lương Bằng, Phạm Văn Ðồng, Lê
Hồng Phong, Hồ Tùng Mậu,...

Sự khác biệt giữa 2 văn bản này chỉ là ở thứ tự các câu, còn các cây cú pháp
và biểu diễn ngữ nghĩa của mỗi câu là như nhau. Nhưng văn bản (1.1) chặt chẽ hơn
(có thể hiểu được), cịn văn bản (1.2) thì khơng có mấy ý nghĩa (đơn thuần là một
tập các câu). Do đó khi xây dựng một hệ thống thuần thục ngôn ngữ tự nhiên, rõ
ràng hệ thống này phải không chỉ đưa ra được các suy diễn bên trong câu mà còn
phải đưa ra được các suy diễn giữa các câu. Bản chất diễn ngơn và có chủ ý của
mỗi văn bản cho phép một hệ thống hiểu được thông tin giữa các câu và vế câu liên

hệ với nhau như thế nào : đâu là vế câu, câu quan trọng trong văn bản,….
Có một cách để diễn tả tường mình các suy diễn này là sử dụng cấu trúc cây
như hình 2.1

24


Hình 2.1 – Cây mơ tả cấu trúc diễn ngơn của văn bản

Trong đó mỗi lá của cây được liên kết với một phần văn bản (textual span) liên tiếp,
các nút trong được gán nhãn bởi tên của các quan hệ diễn ngôn giữa các phần văn
bản là các nút con của nó; các hộp và đường thẳng đậm thể hiện các phần văn bản
quan trọng đối với mục đích người viết..
2.2 Một số tính chất cơ bản của cấu trúc văn bản
• Các đơn vị cơ bản của cấu trúc là các đoạn văn bản khơng gối lên nhau.
• Có các quan hệ diễn ngơn, sự thống nhất, sự cố kết giữa các đơn vị văn bản
• Một số đơn vị văn bản đóng vai trị quan trọng hơn trong văn bản so với các
đơn vị khác.
• Cấu trúc trừu tượng của hầu hết văn bản là cấu trúc dạng cây.
2.3 Lý thuyết cấu trúc diễn ngôn
Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory) [5] là một
phương pháp dùng để biểu diễn sự mạch lạc, chặt chẽ của văn bản,do Mann và
Thomson đề xuất,được phát triển bởi các nhà nghiên cứu như Hovy,Marcu và
Forbes. Nó mơ tả cấu trúc diễn ngôn của một văn bản bằng 1 cây phân cấp. Biểu đồ
cuả cây phân cấp này gọi là cây diễn ngôn hay cây RST. Lá của một cây RST tương
ứng với một đơn vị diễn ngôn (Elemetary discourse unit EDU).

25



×