Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (418.75 KB, 43 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TR

NG ĐẠI H C CÔNG NGH

KIM XUÂN PHÚC

TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T
SỬ DỤNG CHUỖI TỪ VỰNG
Ngành: Công ngh thông tin
Chuyên ngành: H th ng thông tin
Mã s : 60.48.01.04

LU N VĂN THẠC SĨ

Ng

ih

ng d n khoa h c: PGS.TS. NGUYỄN PH ƠNG THÁI

HÀ NỘI - 2015

LỜI CAM ĐOAN
‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố
trong bất kỳ một công trình nào khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo,
công trình nghiên cứu liên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo
này, luận văn hoàn toàn là sản phẩm của riêng tôi.’

Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên ........................................................................

i

LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Nguyễn
Phương Thái, Ths. Vũ Huy Hiển đã tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốt
quá trình thực hiện luận văn này.
Tôi xin chân thành cảm ơn quý thầy cô và nhà trường đã luôn tạo điều kiện thuận lợi
nhất cho chúng tôi học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè của tôi. Những người luôn giành thời
gian ở bên cạnh quan tâm, động viên, và giúp đỡ tôi hết mình trong suốt quá trình học
tập cũng như làm luận văn tốt nghiệp này.

Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên ........................................................................

ii

Mục lục
1 Tổng quan về tóm tắt văn bản tự động
1.1 Các tiếp cận trên thế giới . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Các tiếp cận trong nước . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Giải pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Mạng từ
2.1 Mạng từ tiếng Anh - Wordnet . . . . . . . . . . . . .
2.1.1 Thông tin chung . . . . . . . . . . . . . . . .

2.1.2 Các quan hệ trong mạng từ Wordnet . . . . .
2.2 Mạng từ tiếng Việt . . . . . . . . . . . . . . . . . . .
2.2.1 Từ điển của Laconec . . . . . . . . . . . . . .
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15
2.3 Sử dụng mạng từ tiếng Việt . . . . . . . . . . . . . .
3 Ứng dụng xích từ vựng trong
3.1 Xích từ vựng . . . . . . . .
3.2 Xây dựng xích từ vựng . . .
3.3 Sử dụng xích từ vựng . . . .

tóm
. . .
. . .
. . .

4 Thực nghiệm và các kết quả
4.1 Dữ liệu sử dụng . . . . . . . . .
4.2 Phương pháp đánh giá . . . . .
4.2.1 Đánh giá đồng chọn . .
4.2.2 Đánh giá tự động . . . .
4.3 Thực nghiệm . . . . . . . . . .
4.3.1 Môi trường thực nghiệm
4.3.2 Tiền xử lý . . . . . . . .
4.3.3 Đánh giá kết quả . . . .

.
.
.
.
.

.
.
.

iii

tắt văn
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

3
3
4
6

.
.
.
.
.
.
.

8
8
8
8
10
10
11
11

bản
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .

13
13
13
16

.
.

.
.
.
.
.
.

18
18
20
20
21
22
22
22
22

.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

MỤC LỤC
4.4

iv

Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 KẾT LUẬN
30
5.1 Các công việc đã làm . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2 Hướng nghiên cứu trong tương lai . . . . . . . . . . . . . . . . . . . . 30

Danh sách hình vẽ
1.1

Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng . . . . . .

3.1

Thuật toán tính toán các xích từ vựng . . . . . . . . . . . . . . . . . 16

v

7

Danh sách bảng
2.1
2.2

Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt . . . . . . . 11

Số lượng từ tiếng Việt chia theo từng loại trong mạng từ . . . . . . . 11

3.1

Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng . 17

4.1
4.2
4.3
4.4
4.5

Thống kê chi tiết kho ngữ liệu Corpus_LTH . . . . . . . . . . . . .
Tập văn bản sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Chính trị
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Công nghệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Văn hóa .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Xã hội . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học
Giáo dục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Kinh tế .

4.8
4.9
4.6
4.7

vi

.
.
.
.

18
19
23
23

. 23
. 23
. 23
. 24
. 24

Danh mục từ viết tắt
ES
AS
CSDL
TF-IDF
PWN
NLTK

Extraction Summarization
Abstraction Summarization
Cơ sở dữ liệu
Term Frequency – Inverse Document Frequency

Princeton Wordnet
Natural Language Toolkit

vii

MỞ ĐẦU
Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữ
trên mạng Internet trở nên vô cùng lớn. Hằng ngày, số lượng thông tin văn bản tăng
lên không ngừng. Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ cho
con người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khó
khăn trong việc tìm kiếm, xử lý và tổng hợp thông tin. Để cải thiện khả năng tìm
kiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động
là giải pháp không thể thiếu để giải quyết vấn đề này. Đối với tiếng Việt, bài toán
tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu
quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có ứng dụng rất lớn
trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin...
Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp
vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn
thông tin một cách nhanh chóng.
Nội dung luận văn này được chúng tôi trình bày như sau:
• Chương 1: Tổng quan về tóm tắt văn bản tự động
• Chương 2: Mạng từ
• Chương 3: Xích từ vựng
• Chương 4: Thực nghiệm và các kết quả
• Chương 5: Kết luận
Chúng tôi đưa ra cái nhìn khái quát về hiện trạng tóm tắt văn bản tại Chương 1. Ở
Chương 2, chúng tôi giới thiệu về mạng từ bao gồm mạng từ tiếng Anh của trường
đại học Princeton, các mạng từ tiếng Việt hiện có. Chúng tôi giới thiệu các kiến
thức chung và các cách áp dụng xích từ vựng ở Chương 3. Trong Chương 4, chúng

1

DANH SÁCH BẢNG

2

tôi trình bày các thực nghiệm và các kết quả mà chúng tôi đã đạt được. Cuối cùng,
chúng tôi đưa ra kết luận và các công việc trong tương lai ở Chương 5.

Chương 1
Tổng quan về tóm tắt văn bản tự
động
1.1

Các tiếp cận trên thế giới

Trên thế giới, bài toán tóm tắt văn bản xuất hiện từ lâu và không phải là bài toán
mới. Những kỹ thuật sơ khai được áp dụng để tóm tắt văn bản đã được đề xuất
từ những năm 50 của thế kỷ trước (Baxendale, 1958), (Luhn, 1958). Sau đó, những
kỹ thuật này tiếp tục được nghiên cứu và đạt nhiều kết quả ngày càng tốt hơn cho
nhiều loại ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Nhật, tiếng Trung. . . Các
nghiên cứu tập trung vào hai hướng chính: tóm tắt rút trích (ES - Extraction
Summarization) và tóm tắt tóm lược (AS - Abstraction Summarization) theo
(Jezek and Steinberger, 2008). Hầu hết các nghiên cứu về tóm tắt văn bản là tóm
tắt trích rút vì nó dễ thực hiện và có tốc độ nhanh hơn so với tóm tắt tóm lược.
Hướng tiếp cận tóm tắt trích rút chủ yếu là dựa vào các đặc trưng quan trọng của
văn bản để tính trọng số câu để trích rút. Trong khi đó, tóm tắt tóm lược là dựa
vào các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với thông tin về ngôn ngữ để tạo

ra các tóm tắt cuối cùng.
Phần lớn các phương pháp tóm tắt trích rút đều tập trung trích rút ra các câu
hay các từ ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn
bản tóm tắt. Một số nghiên cứu trong giai đoạn đầu thường sử dụng các đặc trưng
như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay tính toán độ
quan trọng của các câu sử dụng các cụm từ khóa hay các thuộc tính riêng biệt qua
đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt theo (Luhn, 1958),
3

1.2. Các tiếp cận trong nước

4

(Edmundson, 1969), (Carbonell and Goldstein, 1998). Các kỹ thuật tóm tắt gần đây
có sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích
để tìm ra các thành phần quan trọng của văn bản. Kupiec và cộng sự trong (Kupiec
et al., 1995) sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau. Lin và
Hovy (Lin and Hovy, 1997) áp dụng phương pháp học máy nhằm xác định vị trí của
các câu quan trọng trong văn bản. Sử dụng các phương pháp phân tích ngôn ngữ
tự nhiên trong tóm tắt văn bản có thể kể đến phương pháp sử dụng cơ sở dữ liệu
(CSDL) từ vựng Wordnet của Barzilay và Elhadad (Barzilay and Elhadad, 1997).
Mặc dù không sử dụng đến phân tích ngữ nghĩa ở mức sâu nhưng việc sử dụng
các phương pháp dựa trên kinh nghiệm (heuristic) trong các hệ thống này đem lại
kết quả tương đối khả quan. Ví dụ, hệ thống của Hovy và Lin (Hovy and Lin, 1999)
dựa trên vị trí câu trong văn bản và các từ gợi ý để đánh trọng số cho câu. Nomoto
và Matsumoto (Nomoto and Matsumoto, 2001) sử dụng học không giám sát để khai
thác sự liên hệ của các khái niệm trong văn bản.
Các phương pháp tóm tắt không sử dụng trích rút để tạo ra tóm tắt có thể xem
như là các phương pháp theo tiếp cận tóm tắt tóm lược. Các hướng tiếp cận có thể

kể đến như dựa trên thực thể hoặc dựa trên phân tích cấu trúc diễn ngôn của văn
bản. Cách tiếp cận dựa trên thực thể xây dựng một cách biểu diễn các thực thể, mô
hình hóa các thực thể trong văn bản và mối liên hệ giữa chúng. Điển hình cho cách
tiếp cận này là hệ thống của Salton và cộng sự (Salton et al., 1996). Hệ thống này
tự động sinh ra các liên kết ngữ nghĩa (ở dạng chỉ dẫn liên kết: hypertext) giữa các
đoạn trong văn bản. Đoạn càng nhiều liên kết thì càng quan trọng. Trên cơ sở đó,
các đoạn quan trọng được đưa vào bản tóm tắt.

1.2

Các tiếp cận trong nước

Đối với tiếng Việt, bài toán tóm tắt văn bản vẫn là bài toán khó do những đặc trưng
ngôn ngữ chỉ có ở tiếng Việt. Số lượng các nghiên cứu về tóm tắt văn bản tiếng
Việt vẫn còn ít so với các nghiên cứu cho tiếng Anh. Phần lớn các nghiên cứu hiện
nay chỉ là các nghiên cứu ngắn hạn, đơn lẻ và dừng lại ở mức đề tài tốt nghiệp hay
luận văn thạc sĩ, tiến sĩ hay đề tài nghiên cứu khoa học cấp bộ như các nghiên cứu
trong (Thanh-Hương, 2014), (Thu-Hà, 2012), (Quốc-Định and Quang-Dũng, 2012),
(Nguyen et al., 2005), (Quang-Uy et al., 2012), (Ha et al., 2005).... Các tiếp cận
được công bố về tóm tắt văn bản thường dựa trên hướng trích xuất, tuy nhiên vẫn

1.2. Các tiếp cận trong nước

5

có hai hướng tiếp cận là tóm tắt trích rút và tóm tắt tóm lược. Mặt khác, tại Việt
Nam, chưa có một kho ngữ liệu chuẩn nào được công bố để phục vụ cho tóm tắt
văn bản nên hầu hết các thử nghiệm được tiến hành đều dựa trên những kho ngữ
liệu tự xây dựng. Do vậy, việc đánh giá hiệu quả của từng phương pháp vẫn cần

phải xem xét kỹ hơn.
Ở Việt Nam, một số kết quả nghiên cứu về tóm tắt văn bản tiếng Việt đã được
công bố. Tuy nhiên, phần lớn các nghiên cứu đó mới chỉ là các nghiên cứu ngắn hạn
và đơn lẻ ở mức đề tài tốt nghiệp đại học, luận văn thạc sĩ và tiến sĩ. Các bài báo
công bố kết quả nghiên cứu về tóm tắt văn bản không nhiều và phần lớn dựa trên
trích xuất. Tuy nhiên vẫn có hai hướng là tóm tắt trích rút và tóm tắt theo tóm
lược.
Với tóm tắt trích rút có thể kể đến các công trình của Nguyễn Lê Minh và cộng
sự trong (Nguyen et al., 2005), Hà Thành Lê và cộng sự trong (Ha et al., 2005), Đỗ
Phúc và Hoàng Kiếm (Phúc and Kiếm, 2004). Nguyễn Lê Minh và cộng sự (Nguyen
et al., 2005) tóm tắt văn bản dựa trên trích rút và sử dụng phương pháp SVM để
phân loại câu quan trọng và câu không quan trọng trong văn bản. Các đặc trưng
được sử dụng trong việc học bao gồm vị trí câu, chiều dài câu, độ liên quan chủ đề,
tần suất từ, cụm từ chính và khoảng cách từ. Hà Thành Lê và cộng sự (Ha et al.,
2005) kết hợp một số phương pháp trích rút đặc trưng trong trích rút văn bản tiếng
Việt như đặc trưng về tần suất từ TFxIDF, vị trí, từ tiêu đề, từ liên quan. Các đặc
trưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc.
Đỗ Phúc, Hoàng Kiếm (Phúc and Kiếm, 2004) giới thiệu phương pháp trích rút
các ý chính từ văn bản hỗ trợ tạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụng
cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từ
điển để tìm các dãy từ có nghĩa, dùng WordNet tiếng Việt hoặc từ điển đồng hiện
để giải quyết vấn đề ngữ nghĩa của các từ. Cuối cùng dùng kỹ thuật gom cụm để
gom các các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector
đặc trưng cụm, sau đó rút ra các câu chứa nhiều thành phần của các vector đặc
trưng cụm.
Nguyễn Nhật An (An, 2014) đã sử dụng phương pháp trích rút dựa trên bộ hệ
số đặc trưng với những đặc trưng bao gồm độ dài thực từ trong câu, vị trí câu, số
lượng thực thể là số, tên riêng, trọng số TF.ISF, so sánh độ tương đồng với câu
trung tâm và kết hợp với các phương pháp học máy bao gồm giải thuật di truyền
và thuật toán bỏ phiếu để qua đó tự động học ra bộ hệ số đặc trưng, sau đó trích

rút được những câu quan trọng trong văn bản. Ngoài ra Lê Thanh Hương trong

1.3. Giải pháp đề xuất

6

(Thanh-Hương, 2014) đã đồ thị hóa các câu trong văn bản dưới dạng đồ thị, qua đó
kết hợp với giải thuật Page-rank để chọn ra những câu quan trọng trong văn bản,
tùy thuộc vào tỉ lệ trích rút, văn bản cuối cùng sẽ được sinh ra.
Với các tiếp cận theo hướng tóm tắt tóm lược, Nguyễn Lê Minh và cộng sự
(Nguyen et al., 2005) sử dụng cây cú pháp nhằm rút gọn câu tiếng Việt. Tuy nhiên,
các hệ thống phân tích cú pháp tiếng Việt hiện nay có độ chính xác chưa cao nên
cách tiếp cận này vẫn chưa thực sự khả thi.

1.3

Giải pháp đề xuất

Có thể thấy rằng, các tiếp cận tóm tắt văn bản tiếng Việt vẫn phần lớn dựa vào
cấu trúc câu và chưa tận dụng được thông tin ngữ nghĩa giữa các từ trong câu.
Với bài toán tóm tắt văn bản tiếng Anh, Barzilay và Elhadad trong (Barzilay and
Elhadad, 1997) đã sử dụng được thông tin ngữ nghĩa liên kết các từ trong câu (xích
từ vựng) dựa theo Wordnet và đạt được những kết quả khả quan trong tóm tắt văn
bản. Trong luận văn này, chúng tôi đề xuất phương pháp tóm tắt văn bản tiếng Việt
dựa vào xích từ vựng, các thông tin từ vựng được lấy từ Wordnet tiếng Việt từ đề
tài KC.01.20/11-15 do Phương-Thái và các cộng sự xây dựng theo (Nguyen et al.,
2015). Chúng tôi sử dụng xích từ vựng như một thông tin độc lập để đánh giá độ
quan trọng của các câu trong văn bản, từ đấy trích rút ra những câu quan trọng
nhất để tạo ra một văn bản tóm tắt từ văn bản gốc. Hình 1.1 dưới đây mô tả quy

trình tóm tắt văn bản của chúng tôi. Trước tiên văn bản gốc sẽ được đi qua bước
tiền xử lý, tại bước này, văn bản sẽ được tách từ và gán nhãn từ loại. Sau đó, chúng
tôi xây dựng các xích từ vựng có trong văn bản và xếp hạng độ quan trọng các câu
trong văn bản dựa vào xích từ vựng này. Cuối cùng, tùy thuộc vào tỉ lệ tóm tắt,
chúng tôi đưa ra kết quả tương ứng.

1.3. Giải pháp đề xuất

Hình 1.1: Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng

7

Chương 2
Mạng từ
Trong chương này, chúng tôi sẽ trình bày những kiến thức cơ sở về mạng từ tiếng
Anh của trường đại học Princeton, các mạng từ tiếng Việt hiện có.

2.1
2.1.1

Mạng từ tiếng Anh - Wordnet
Thông tin chung

WordNet là một cơ sở dữ liệu từ vựng tiếng Anh lớn được xây dựng bởi Đại học
Princeton bắt đầu từ năm 1985 với mục đích phục vụ việc phân tích văn bản tự
động, xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, v.v. Tính đến năm 2006, WordNet
bao gồm 155287 từ. Những từ trong WordNet được nhóm lại thành các bộ từ đồng
nghĩa (synonym sets - synsets), thể hiện một khái niệm khác biệt. Synsets được liên

kết với nhau bằng các quan hệ ngữ nghĩa.
Có thể coi WordNet như một từ điển, tuy nhiên WordNet có 1 vài sự khác biệt
so với từ điển thông thường. Thứ nhất là những từ trong WordNet không sắp xếp
theo thứ tự bảng chữ cái alphabet mà được tổ chức thành một cơ sở dữ liệu, thứ
hai là trong WordNet các từ được nhóm lại thành các tập đồng nghĩa, với những từ
trong cùng một tập thì sẽ có giải nghĩa (glossary) giống nhau.

2.1.2

Các quan hệ trong mạng từ Wordnet

Như ta đã biết, các tập từ đồng nghĩa trong WordNet có sự liên quan nhất định với
nhau thông qua các mối quan hệ về ngữ nghĩa, dựa vào các quan hệ này mà ta có
thể xét xem hai từ có liên quan gì đến nhau, hay nói cách khác là ta có thể xác định
8

2.1. Mạng từ tiếng Anh - Wordnet

9

được tính tương đồng của hai từ với nhau. Trong WordNet, có các quan hệ ngữ nghĩa
chính là: Synonymy–Antonymy (đồng nghĩa - trái nghĩa), Hypernymy–Hyponymy
(Bao nghĩa - Thuộc nghĩa), Meronymy–Holonymy (Phân nghĩa - Tổng nghĩa).
Quan hệ Synonymy (Đồng nghĩa)
Quan hệ này đóng vai trò chính yếu trong tổ chức từ vựng của WordNet vì biểu diễn
tính tương tự về nghĩa giữa các hình thái từ về mặt từ vựng. Chính mối quan hệ
này là cơ sở để các nhà xây dựng WordNet tập hợp các hình thái từ có cùng nghĩa
thành các synset. Synonymy được xác định bởi khái niệm như sau: “Hai biểu thức
là tương đương về nghĩa trong một ngữ cảnh C nếu sự thay thế giữa chúng trong C

không làm thay đổi giá trị đúng”. Tất cả những từ trong cùng một synset thì đều có
quan hệ synonym với nhau theo nghĩa của synset đó. Ví dụ ta có synset car, auto,
automobile, machine, motorcar thì car là synonym với auto, automobile, machine,
và motocar theo nghĩa: A motor vehicle with four wheels; usually propelled by an
internal combustion engine; "he needs a car to get to work”. Lưu ý rằng nếu nghĩa
A1 của từ A có quan hệ X với nghĩa B1 của từ B, thì mọi từ (nghĩa) trong synset
của A1 đều có quan hệ X với B1.
Quan hệ Antonymy (Trái nghĩa)
Quan hệ antonymy xác định mối quan hệ trái nghĩa của hai từ trong WordNet. Từ
trái nghĩa (antonym) của một từ đôi lúc là phủ định trực tiếp nhưng không phải
luôn luôn là phủ định trong các trường hợp. Quan hệ antonymy cung cấp quy tắc
tổ chức tính từ trong WordNet và những vấn đề phức tạp phát sinh khi quan hệ
antonymy nằm trong mối quan hệ ngữ nghĩa giữa các từ. Ví dụ: peace là antonym
của war.
Quan hệ hypernymy và hyponymy (Bao nghĩa và thuộc nghĩa)
Không giống như cặp quan hệ synonymy và antonymy, quan hệ hyponymy và hypernymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong đó nghĩa của khái
niệm này bao hàm nghĩa của khái niệm kia hay ngược lại. Cặp quan hệ hyponymy
và hypernymy còn có thể được xem là cặp quan hệ thượng danh (superordination)
và hạ danh (subordination), hay cặp quan hệ tập con(subset) và tập cha (superset),
hoặc cặp quan hệ IS-A và HAS-A. Một khái niệm được biểu diễn bởi synset x, x’, ...
được gọi là hyponymy của khái niệm y, y’, ... nếu mệnh đề“x is a (kind of) y”là đúng.

2.2. Mạng từ tiếng Việt

10

Ví dụ với hai từ car và vehicle: thì vehicle là hypernym của car, car là hyponym
của vehicle. Theo Lyons, quan hệ hyponymy là quan hệ có tính chất bắc cầu và
phản xứng trong (Lyons, 1977). Theo quan hệ hyponymy, việc thêm ít nhất một

thuộc tính mới vào khái niệm chi tiết sẽ giúp phân biệt khái niệm đó với một hoặc
những khái niệm tổng quát có các thuộc tính mà nó thừa kế. Quy định này cung
cấp nguyên tắc phân cấp cho việc xây dựng quan hệ danh từ trong WordNet.
Quan hệ meronymty và holonymy (Phân nghĩa - Tổng nghĩa)
Quan hệ meronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai synset
danh từ. Winston đã chia quan hệ meronymy và holonymy thành các loại như sau
trong (Winston et al., 1987):
• Thành phần - Đối tượng (Component - Object). Ví dụ: branch - tree
• Thành viên - Tập hợp (Member - Collection). Ví dụ: tree - forest
• Vật liệu - Đối tượng (Stuff - Object). Ví dụ: aluminium - airplane
• Phần - Khối (Portion - Mass). Ví dụ: slice - cake
• Đặc điểm - Hoạt động (Feature - Activity). Ví dụ: paying - shopping
• Địa điểm - Nơi chốn (Place - Area). Ví dụ: Princeton - New Jersey
• Gia đoạn - Quá trình (Phase - Process). Ví dụ: addolescence - growing up

2.2

Mạng từ tiếng Việt

2.2.1

Từ điển của Laconec

Từ điển Laconec 1 là một trong những từ điển đầu tiên công bố tại Việt Nam xây
dựng dựa theo cấu trúc của mạng từ tiếng Anh. Tư tưởng của Laconec là sử dụng
mạng từ tiếng Anh làm hạt nhân, Laconec sẽ dịch tương ứng những thuật ngữ tiếng
Anh ra tiếng Việt và các ngôn ngữ khác như tiếng Việt, tiếng Nhật hay Thái. Phần
lớn những dữ liệu của các ngôn ngữ không phải tiếng Việt của Laconec đến từ những
nguồn miễn phí trên mạng. Ưu điểm của từ điển Laconec là số lượng từ khá lớn
và có thể sử dụng miễn phí. Tuy nhiên một nhược điểm lớn của từ điển Laconec là

1

2.3. Sử dụng mạng từ tiếng Việt

11

không có giao diện lập trình cho các lập trình viên có thể tận dụng và khai thác sức
mạnh của mạng từ, ngoài ra cách thức hướng dẫn làm mạng từ không được trình
bày đầy đủ cũng như các lý giải khoa học về mạng từ chưa thực sự rõ ràng.

2.2.2

Mạng từ tiếng Việt của đề tài KC.01.20/11-15

Mạng từ tiếng Việt của đề tài KC.01.20/11-15 do Phương-Thái và các cộng sự xây
dựng theo (Nguyen et al., 2015), đây là mạng từ xây dựng dựa trên một phần của
mạng từ tiếng Anh (Princeton Wordnet), ngoài ra mạng từ cũng bổ xung những
đặc trưng ngôn ngữ tiếng Việt do vậy mạng từ không phải là bản dịch đơn thuần
từ chiều tiếng Anh sang tiếng Việt. Tài nguyên của mạng từ được cung cấp dưới
định dạng của Princeton Wordnet, do đó có thể được sử dụng và tích hợp trong
nhiều thư viện mã nguồn mở. Do phiên bản chúng tôi sử dụng chưa phải là phiên
bản hoàn thiện của mạng từ nên tính đến phiên bản ngày 24/11/2015, các con số
thống kê về mạng từ được đưa ra trong bảng 2.1. Chi tiết về số lượng từ của từng
loại được chúng tôi thể hiện trong bảng 2.2.
Bảng 2.1: Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt
Danh từ Động từ Tính từ Tổng
16785

9257

5725

31767

Bảng 2.2: Số lượng từ tiếng Việt chia theo từng loại
Danh từ Động từ
Số lượng từ tiếng Việt
45180
35066
Số lượng từ tiếng Việt
khi loại bỏ trùng lặp và
33994
17121
không phân biệt viết
hoa hay thường

2.3

trong mạng từ
Tính từ
19772
10998

Sử dụng mạng từ tiếng Việt

Chúng tôi sử dụng mạng từ tiếng Việt đã được cung cấp ở định dạng của Princeton
Wordnet, do vậy có khá nhiều lựa chọn để tích hợp vào công cụ tóm tắt văn bản,

có thể kể đến như thư viện JWI2 do viện công nghệ thông tin Massachusetts phát
2

/>

2.3. Sử dụng mạng từ tiếng Việt

12

triển hay thư viện NLTK 3 được cộng đồng xử lý ngôn ngữ tự nhiên phát triển trên
nền tảng ngôn ngữ Python. Trong nghiên cứu ở luận văn này, chúng tôi sử dụng thư
viện NLTK để phù hợp với việc tích hợp các công cụ khác vào chương trình.

3

/>

Chương 3
Ứng dụng xích từ vựng trong tóm
tắt văn bản
Phần này chúng tôi sẽ trình bày những kiến thức về xích từ vựng, cách thức xây
dựng xích từ vựng và cách sử dụng xích từ vựng vào tóm tắt văn bản.

3.1

Xích từ vựng

Xích từ vựng là một chuỗi các từ có liên kết với nhau về mặt ngữ nghĩa trong các
câu văn ngắn, đoạn dài hay cả văn bản. Xích từ vựng độc lập với cấu trúc ngữ pháp
của văn bản và thực ra, đây là một danh sách các từ nắm giữ một phần cấu trúc

kết dính của văn bản. Xích từ vựng có thể cung cấp văn cảnh cho việc xác định các
định nghĩa nhập nhằng trong văn bản cũng như xác định được khái niệm mà định
nghĩa này biểu diễn.

3.2

Xây dựng xích từ vựng

Để xây dựng được xích từ vựng, chúng tôi cần làm những bước chính như sau:
• Bước 1: Lấy ra những ửng cứ viên có thể đưa vào xích từ vựng
• Bước 2: Tính toán độ liên kết về mặt ngữ nghĩa giữa các ứng viên để đưa vào
các xích từ vựng

13

3.2. Xây dựng xích từ vựng

14

• Bước 3: Tìm ra các xích từ vựng đủ mạnh để tiến hành trích rút câu phục vụ
tóm tắt văn bản
Ở bước 1, chúng tôi lựa chọn những ứng cử viên là danh từ với nhãn là N làm
ứng cử viên. Vấn đề thực sự xuất hiện ở bước 2 khi mỗi từ có rất nhiều nghĩa, khi
chỉ đơn thuần sử dụng tính chất liên kết nghĩa của các từ, chúng ta không thể xác
định được nghĩa nào phù hợp với văn bản và nên giữ lại nghĩa nào. Do vậy chúng
tôi quyết định sẽ không sử dụng phương pháp tham lam để chọn ra những xích
từ vựng dài nhất như những phương pháp nghiên cứu về xích từ vựng trước đây.
Chúng tôi đi theo tiếp cận của Regina Barzilay và Michael Elhadad trong (Barzilay
and Elhadad, 1997) để chọn ra xích từ vựng hợp lý nhất. Chúng tôi định nghĩa một

diễn giải (interpretation) là một tập hợp của tất cả các ứng cử, trong đố mỗi từ
chỉ có duy nhất một nghĩa xác định. Các tính toán về độ liên quan giữa các xích
từ vựng sẽ diễn ra trong các diễn giải, từ đó chúng tôi chọn ra diễn giải mạnh nhất
và lựa chọn được xích từ vựng dùng để tóm tắt văn bản. Dưới đây là một ví dụ về
diễn giải và xích từ vựng trong dữ liệu thực tế, trong đó dấu "==" thể hiện tính
liên kết.
Ví dụ:
• Diễn giải 1: 1–Bộ_trưởng–secretary.n.01–0–0 == 2–Đại_sứ–ambassador.n.02–
6–1 == 2–Đại_sứ–ambassador.n.02–7–1==2–đại_diện–representative.n.01–
8–1
• Diễn giải 2: 1–Bộ_trưởng–minister.n.02–0–0 == 2–Đại_sứ–ambassador.n.02–
6–1 == 2–Đại_sứ–ambassador.n.02–7–1==2–đại_diện–representative.n.01–
8–1
Trong ví dụ trên, từ bộ trưởng có 2 nghĩa ứng với secretary.n.01 và minister.n.02,
do đó sẽ có hai diễn giải tương ứng.
Chúng tôi xây dựng xích từ vựng ở bước 2, tuy nhiên để có cái nhìn cụ thể hơn,
chúng tôi phân tích ví dụ sau để hình dung vấn đề rõ hơn. Trước tiên, chúng tôi
định nghĩa các loại liên kết như sau:
• Liên kết mạnh nếu hai từ nằm trong cùng một loạt đồng nghĩa (synset), loại
liên kết này được tính 3 điểm. Ví dụ: hai từ “bạn đọc” và “độc giả” nằm cùng
trong một loạt đồng nghĩa nên kết nối giữa hai từ “bạn đọc” và “độc giả” là
liên kết mạnh và được tính là 3 điểm

3.2. Xây dựng xích từ vựng

15

• Liên kết trung bình nếu hai từ có quan hệ trực tiếp với nhau, loại liên kết này
được tính 2 điểm: Ví dụ từ “bạn” là hypernym trực tiếp của từ “bạn đọc”, khi

đó kết nối giữa từ “bạn” và “bạn đọc” sẽ là liên kết trung bình và được tính là
2 điểm.
• Liên kết lỏng lẻo nếu đường đi hình thành giữa hai từ A B bằng quan hệ
hypernyms có độ dài dưới 5 và khoảng cách hai từ không quá 3 câu, loại liên
kết này được tính 1 điểm.
Chúng tôi sử dụng một đoạn văn bản từ thực nghiệm của mình để phân tích:
Nhận_lời mời của Bộ_trưởng Ngoại_giao Philippines_Albert_F._Del_Rosario
, trong hai ngày 31/7 và 1/8 , Bộ_trưởng Ngoại_giao Phạm_Bình_Minh đã thăm
Philippines và đồng chủ_trì Kỳ họp lần thứ 7 Uỷ_ban hợp_tác song_phương Việt_Nam
- Philippines .
Tương ứng với đoạn văn trên là đoạn văn đã được gán nhãn cú pháp như sau:
Nhận_lời/N mời/V của/E Bộ_trưởng/N Ngoại_giao/N Philippines_Albert_F/Np
Del_Rosario/Np ,/CH trong/E hai/M ngày/N 31/7/M và/Cc 1/8/M ,/CH Bộ_trưởng/N
Ngoại_giao/N Phạm_Bình_Minh/Np đã/R thăm/V Philippines/Np và/Cc đồng/Nu
chủ_trì/V Kỳ/N họp/V lần/N thứ/N 7/M Uỷ_ban/N hợp_tác/V song_phương/A
Việt_Nam/Np -/CH Philippines/Np ./CH
Các ứng viên trong đoạn văn trên và có xuất hiện trong mạng từ bao gồm:
Bộ_trưởng { minister.n.02,secretary.n.01 } , ngày{ date.n.01, day.n.04, date.n.07,
day_of_the_week.n.01, day.n.03, date.n.06, day.n.01, day.n.07, calendar_day.n.01},
Bộ_trưởng{minister.n.02, secretary.n.01}, lần{turn.n.03, time.n.01}, thứ{brand.n.02,
species.n.02, matter.n.01, sort.n.02, like.n.02, kind.n.01, degree.n.01, description.n.03},
Uỷ_ban{panel.n.04, committee.n.01, committee.n.02, board.n.01}. Quá trình bắt
đầu xây dựng xích từ vựng bắt đầu như sau: Với từ đầu tiên là Bộ_trưởng, chúng
ta có 2 nghĩa tương ứng là minister.n.02 và secretary.n.01, do vậy chúng ta có 2
diễn giải, mỗi diễn giải ứng với một nghĩa. Tiếp theo là từ ngày, chúng ta có tất
cả 9 nghĩa, tuy nhiên cả 9 nghĩa này đều không có liên kết với các nghĩa của từ bộ
trưởng nên chúng ta thêm 9 nghĩa này vào 2 diễn giải đã có và nhận được 18 diễn
giải. Với từ tiếp theo là từ thứ, chúng ta có 8 nghĩa. Chỉ có nghĩa degree.n.01 có liên
kết với cả từ ngày với nghĩa là day.n.01, vì thế chúng ta nối liên kết giữa từ thứ với
nghĩa degree.n.01 vào từ ngày và có thêm một diễn giải mới có liên kết giữa hai từ,

sau bước này chúng ta có tất cả 144 diễn giải. Cứ tiếp tục như vậy cho đến khi hết

3.3. Sử dụng xích từ vựng

16

các ứng viên, chúng ta nhận được danh sách toàn bộ các diễn giải chứa các xích từ
vựng có thể có. Lúc này chúng ta sẽ sắp xếp các diễn giải theo điểm quan hệ ở trên
và chọn ra diễn giải có điểm quan hệ mạnh nhất. Điểm của diễn giải được tính bằng
tổng điểm các liên kết của các xích từ vựng bên trong. Để giới hạn lại không gian
trạng thái tìm kiếm, chúng tôi chỉ chọn ra 20 diễn giải có điểm mạnh nhất để tiếp
tục thêm các ứng viên vào.
Thuật toán chi tiết cho quá trình thêm ứng viên và chọn ra diễn giải tốt nhất
được mô tả ở hình 3.1

Hình 3.1: Thuật toán tính toán các xích từ vựng

3.3

Sử dụng xích từ vựng

Chúng tôi vừa trình bày cách xây dựng xích từ vựng theo tiếp cận của Barzilay và
Elhadad trong (Barzilay and Elhadad, 1997), tuy nhiên công việc tiếp theo cần phải
xử lý là tóm tắt văn bản dựa vào những xích từ vựng này. Như chúng tôi đã đề cập
ở trên, sau khi tạo xích từ vựng, chúng tôi lấy ra diễn giải mạnh nhất dùng để tóm
tắt văn bản, và mỗi một xích từ vựng trong diễn giải này sẽ dùng để trích xuất ra
một câu. Nhưng trong một diễn giải có rất nhiều xích từ vựng, và đôi khi số xích từ
vựng còn nhiều gần bằng số câu trong văn bản, vậy nên chúng ta chỉ chọn ra những

3.3. Sử dụng xích từ vựng

17

xích từ vựng đủ tiêu chuẩn dùng tóm tắt. Chúng tôi sử dụng tiếp cận của dựa trên
kinh nghiệm của Barzilay và Elhadad để đưa ra tiêu chuẩn như sau:
• Độ dài: Số lần xuất hiện của các thành viên của xích từ vựng.
• Tính đồng nhất chỉ số (Homogeneity index)
– Homogeneity index = 1 – (số lần xuất hiện khác nhau) / (độ dài)
• Điểm xích = độ dài * tính đồng nhất chỉ số
• Điểm tiêu chuẩn = Điểm trung bình + Độ lệch tiêu chuẩn của (điểm tất cả
các xích từ vựng)/2
Một xích từ vựng đủ điều kiện thì phải có điểm lớn hơn một điểm tiêu chuẩn:
Điểm (xích) > điểm tiêu chuẩn
Sau khi chọn được những xích từ vựng đủ tiêu chuẩn, chúng tôi tiến hành xếp
hạng các câu bằng cách dựa trên tần suất các từ trong xích từ vựng tương ứng xuất
hiện với vị trí của các câu.
Ví dụ với xích từ vựng ở trên: 1–Bộ_trưởng–secretary.n.01–0–0 == 2–Đại_sứ–
ambassador.n.02–6–1 == 2–Đại_sứ–ambassador.n.02–7–1==2–đại_diện–representative.n.01–
8–1. Chúng tôi sắp xếp vị trí quan trọng của câu theo tần suất xuất hiện của các
từ trong xích từ vựng, với xích từ vựng ở ví dụ trên, kết quả xếp hạng sẽ là sẽ là:

Bảng 3.1: Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng
Câu Hạng Điểm
Câu 1 1
2
Câu 2 1
2
Câu 3 2

0
Câu 4 2
0
Câu 5 2
0
Câu 6 2
0

Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về