Tải bản đầy đủ (.pdf) (82 trang)

NGHIÊN cứu bài TOÁN NHẬN DIỆN QUAN hệ DIỄN NGÔN và xây DỰNG dữ LIỆU CHUẨN CHO TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.45 MB, 82 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN






TẠ THU THỦY

NGHIÊN CỨU BÀI TOÁN
NHẬN DIỆN QUAN HỆ DIỄN NGÔN
VÀ XÂY DỰNG DỮ LIỆU CHUẨN CHO TIẾNG VIỆT

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN LƯU THÙY NGÂN

TP HỒ CHÍ MINH – NĂM 2017


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình nghiên cứu khoa học của cá nhân
tôi được thực hiện dưới sự hướng dẫn khoa học của TS. Nguyễn Lưu Thùy Ngân.
Những kết quả nghiên cứu được trình bày trong luận văn là trung thực và chưa từng
được công bố dưới bất kỳ hình thức nào.
Tôi xin chịu trách nhiệm hoàn toàn về nghiên cứu của mình.
TP. Hồ Chí Minh, ngày 14 tháng 06 năm 2017



Tạ Thu Thủy


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến TS. Nguyễn Lưu Thùy Ngân. Cô đã
hướng dẫn tôi trong quá trình học tập và nghiên cứu khoa học, từ những kiến thức
cho đến những kỹ năng trong chuyên môn, đặc biệt hoàn thành luận văn. Một lần nữa,
tôi xin cảm ơn chân thành đặc biệt đến Cô.
Trong quá trình học tập và làm việc tại trường Đại học Công nghệ thông tin Đại học Quốc Gia TP. HCM, tôi cũng không thể nào quên được công ơn của quý
Thầy/Cô là Thầy, là đồng nghiệp đã hỗ trợ giúp đỡ động viên tôi rất nhiều. Tôi xin
được gửi lời cảm ơn chân thành đến quý Thầy/Cô.
Tôi cũng không thể quên được công ơn sinh thành và dưỡng dục của ba mẹ
tôi. Cảm ơn ba mẹ, em trai những người luôn dõi theo tôi và là nguồn động viên tinh
thần to lớn trong cuộc sống của tôi.
Dù có hoàn thiện đến đâu, tôi cũng không tránh khỏi những thiếu sót và hạn
chế trong việc hoàn thành luận văn này. Tôi hy vọng nhận được sự phản hồi và đóng
góp ý kiến quý báu từ quý Thầy/Cô. Tôi xin trân trọng cảm ơn.
TP. Hồ Chí Minh, tháng 6 năm 2017

Tạ Thu Thủy


MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC .................................................................................................................. 1
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.......................................... 4
DANH MỤC CÁC BẢNG ........................................................................................ 5

DANH MỤC CÁC HÌNH VẼ................................................................................... 6
DANH MỤC CÁC SƠ ĐỒ ....................................................................................... 7
MỞ ĐẦU .................................................................................................................... 8
Đặt vấn đề: ............................................................................................................. 8
Mục tiêu luận văn: ................................................................................................ 9
Đối tượng và phạm vi nghiên cứu: ....................................................................10
Ý nghĩa khoa học và thực tiễn: .......................................................................... 10
Cấu trúc luận văn: .............................................................................................. 10
Chương 1. TỔNG QUAN ....................................................................................... 12
1.1. Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing) .................. 12
1.2. Lịch sử phát triển nhận diện quan hệ diễn ngôn ....................................13
1.3. Công trình liên quan.................................................................................. 16
1.4. Kết luận ......................................................................................................21
Chương 2. CƠ SỞ LÝ THUYẾT ........................................................................... 22
2.1. Nhận diện quan hệ diễn ngôn rõ ràng ..................................................... 22
2.2. Các hướng tiếp cận nhận diện quan hệ diễn ngôn rõ ràng .................... 23
2.3. Bộ dữ liệu PDTB và Việt Treebank ......................................................... 24

1


2.4. Phương pháp tiếp cận................................................................................ 26
2.5. Các công cụ hỗ trợ ..................................................................................... 27
2.6. Kết luận ......................................................................................................28
Chương 3. NHẬN DIỆN QUAN HỆ DIỄN NGÔN VÀ PHÂN TÍCH CÁC ĐẶC
TRƯNG .................................................................................................................... 29
3.1. Mô hình nhận diện quan hệ diễn ngôn rõ ràng ......................................29
3.2. Phân tích các đặc trưng............................................................................. 32
3.3. Kết luận ......................................................................................................38
Chương 4. GÁN NHÃN TỪ NỐI TIẾNG VIỆT .................................................. 39

4.1. Bộ dữ liệu Việt Treebank .......................................................................... 39
4.2. Phương pháp gán nhãn từ nối ..................................................................40
4.3. Tập từ nối và hướng dẫn gán nhãn (Guideline) .....................................43
4.3.1.

Tập từ nối ......................................................................................... 43

4.3.2.

Hướng dẫn gán nhãn (Guideline) .................................................. 44

4.4

Kết luận ......................................................................................................52

Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................... 53
5.1. Dữ liệu thực nghiệm .................................................................................. 53
5.2. Các độ đo đánh giá .................................................................................... 53
5.3. Các kết quả thực nghiệm .......................................................................... 55
5.3.1.

Các thực nghiệm mức độ ảnh hưởng của các đặc trưng ............. 55

5.3.2.

Các thực nghiệm gán nhãn từ nối trên Việt Treebank ................ 57

5.4. Phân tích và đánh giá kết quả thực nghiệm ............................................ 58
5.4.1.


Ảnh hưởng của các đặc trưng ........................................................ 58

5.4.2.

Gán nhãn từ nối tiếng Việt ............................................................. 62

2


Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .......................................... 65
6.1. Kết luận ......................................................................................................65
6.2. Hướng phát triển ....................................................................................... 66
TÀI LIỆU THAM KHẢO ...................................................................................... 68
PHỤ LỤC ................................................................................................................. 76

3


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ý nghĩa

STT

Kí hiệu

1

POS

Part of Speech


2

NLP

Natural Language Processing

3

PDTB

4

MaxEnt

Maximum Entropy

5

CoNLL

Conference on Computational Natural Language Learning

Penn Discourse Tree Bank

4


DANH MỤC CÁC BẢNG
Bảng 1.1. So sánh các đặc trưng về xác định từ nối của các một số công trình

liên quan trong nhận diện quan hệ diễn ngôn………………………17
Bảng 1.2. Một số công trình nghiên cứu về dữ liệu trong tiếng Việt.…...…….20
Bảng 2.1. So sánh phương pháp trong nhận diện quan hệ diễn ngôn rõ ràng....26
Bảng 3.1. Danh sách các đặc trưng cho xác định từ nối…………………..…..32
Bảng 3.2. Danh sách các đặc trưng cho phân loại ý nghĩa………………….…34
Bảng 3.3. Danh sách các đặc trưng theo nhóm cho xác định từ nối…………..37
Bảng 3.4. Danh sách các đặc trưng theo nhóm cho phân loại ý nghĩa……...…38
Bảng 4.1. Một số từ nối trong tiếng Việt và nhãn được gán mặc định……..…44
Bảng 4.2. Kết quả gán nhãn bằng tay so với chương trình……………...…….49
Bảng 4.3. Độ đồng thuận gán nhãn………………..…………………….…….51
Bảng 5.1. Ma trận nhầm lẫn (Confusion Matrix) hay Bảng ngẫu nhiên
(Contingency table)…………………………………………………53
Bảng 5.2. Kết quả xác định từ nối khi bỏ đi một đặc trưng trong danh sách ở
Bảng 3.1…………………………………………………………….55
Bảng 5.3. Kết quả phân loại ý nghĩa khi bỏ đi một đặc trưng trong danh sách ở
Bảng 3.2…………………………………………………………….56
Bảng 5.4. Kết quả xác định từ nối khi sử dụng nhóm đặc trưng trong danh sách
ở Bảng 3.3.………………………………………………………….56
Bảng 5.5. Kết quả phân loại ý nghĩa khi sử dụng nhóm đặc trưng trong danh
sách ở Bảng 3.4….………………………………………………….57
Bảng 5.6. Kết quả gán nhãn bằng tay của tôi so với chương trình……...……..57
Bảng 5.7. Độ đồng thuận gán nhãn...………………………………………….57
Bảng 5.8. Tỉ lệ kết quả gán nhãn từ nối bằng tay so với chương trình (đơn vị
tính %)………………………………………………………………62

5


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Đoạn văn bản đầu vào………………………………….…………….…..13

Hình 1.2. Quan hệ diễn ngôn được nhận diện………………………………….…...13
Hình 2.1. Hệ thống cấp bậc ý nghĩa trong PDTB………………………….…….…23
Hình 2.2. Minh họa chuẩn CoNLL cho một câu tiếng Anh………………………...24
Hình 3.1. Mô hình minh họa chương trình nhận diện quan hệ diễn ngôn rõ
ràng…………………………………………………………………….....27
Hình 3.2. Từ “and” được gạch chân là từ nối, còn 2 từ “and” còn lại không phải....28
Hình 3.3. Đối số 2 nằm ở vị trí cả trước và sau từ nối……………………...………29
Hình 3.4. Từ “since” mang 2 nghĩa trong 2 trường hợp. Trong câu 1 từ “since” mang
nghĩa về thời gian (kể từ khi), câu 2 là về nguyên nhân (bởi vì)……...…29
Hình 3.5. Cây cú pháp cho ví dụ 3.1………………………………………………..33
Hình 4.1. Định dạng trong Việt Treebank………………………………...………..37
Hình 4.2. Hệ thống cấp bậc ý nghĩa trong PDTB……………………….………….39
Hình 4.3. Hệ thống cấp bậc ý nghĩa trong PDTB bằng tiếng Việt………………….40
Hình 4.4. Một số câu trong tập chương trình gán là có từ nối………………….…..43
Hình 4.5. Một số câu trong tập chương trình cho là không có từ nối………...…….43
Hình 4.6. Ví dụ về một nhãn từ nối mà chương trình gán đúng……………...…….44
Hình 5.1. Cây cú pháp cho một quan hệ diễn ngôn rõ ràng………………………...58

6


DANH MỤC CÁC SƠ ĐỒ
Sơ đồ 5.1.

Ảnh hưởng của từng đặc trưng đến kết quả xác định từ nối.................58

Sơ đồ 5.2.

Ảnh hưởng của từng đặc trưng đến kết quả phân loại ý nghĩa……......59


Sơ đồ 5.3.

Ảnh hưởng của từng nhóm đặc trưng đến kết quả xác định từ nối..….60

Sơ đồ 5.4.

Ảnh hưởng của từng nhóm đặc trưng đến kết quả phân loại ý nghĩa…61

7


MỞ ĐẦU
Đặt vấn đề:
Diễn ngôn (Discourse) là một phần của văn bản để truyền đạt các dữ liệu,
thông tin và tri thức cụ thể, có những mối quan hệ nội tại về nội dung [57].
Quan hệ diễn ngôn (Discourse relation) có thể được biểu diễn bằng các từ nối
rõ ràng như because, however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu
tượng. Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn từ một
hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề [56].
Nhận diện quan hệ diễn ngôn ( Discourse parsing) là nhận diện văn bản thành
những đoạn nhỏ liền kề hoặc không liền kề có quan hệ diễn ngôn với nhau (các cấu
trúc biểu nghĩa trong tương tác với ngữ cảnh để hiểu thực chất nội dung của diễn
ngôn). Cụ thể, đưa ra một văn bản tiếng Anh làm đầu vào, hệ thống được yêu cầu
phát hiện và phân loại các mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong
văn bản. Cũng như những hình thức ngữ pháp khác nhau và các khung biểu diễn trong
phân tích cú pháp, những quan niệm khác nhau về cấu trúc diễn ngôn của một văn
bản và dữ liệu được chú thích theo những khung lý thuyết khác nhau [40, 46, 52].
Bài toán nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn
bản để khám phá thông tin câu trúc trừu tượng. Trong xử lý ngôn ngữ tự nhiên
(Natural Language Processing-NLP), ứng dụng của bài toán phân tích diễn ngôn có

thể dùng để tóm tắt văn bản, hệ thống hỏi đáp, rút trích thông tin và dịch máy. Bởi vì
việc nhận diện được ý nghĩa của mối quan hệ giữa các đơn vị văn bản cung cấp các
thành phần cần thiết cho việc tính toán ngữ nghĩa của câu.
Từ khi có bộ dữ liệu Penn Discourse Tree Bank (PDTB) [41], phân tích quan
hệ diễn ngôn càng được chú ý nhiều hơn nữa. Nhất là 2 năm 2015 và 2016 có
Conference on Computational Natural Language Learning (CoNLL) Shared Task chủ
đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm 2016 [56]
mở rộng thêm tiếng Trung Quốc. Nhận diện quan hệ diễn ngôn cạn (Shallow
Discourse Parsing-SDP) là phát hiện và phân loại các mối quan hệ diễn ngôn riêng

8


biệt, vì việc nhận diện quan hệ diễn ngôn chỉ bao gồm việc nhận diện các mối quan
hệ diễn ngôn riêng rẻ trong văn bản mà không tính đến mối liên hệ với các mối quan
hệ diễn ngôn khác có trong văn bản.
Những công trình nghiên cứu nổi bật về Discourse Parsing như [12, 18, 22,
24, 50] đều chỉ thử nghiệm trên bộ dữ liệu PDTB, với kết quả cao nhất là F đạt 98.38%
[22]. Nhưng chủ yếu chỉ là liệt kê danh sách các đặc trưng đã được sử dụng, chưa
phân tích mức độ ảnh hưởng (chi tiết sẽ được trình bày cụ thể trong phần công trình
liên quan).
Trong tiếng Việt, có các nghiên cứu về gán nhãn từ loại [2], phân tích cú pháp
phụ thuộc [20], nhưng chưa có gán nhãn từ nối, việc này rất cần thiết cho các nghiên
cứu sau này liên quan đến nhận diện quan hệ diễn ngôn cho tiếng Việt.
Từ những vấn đề tồn tại và tầm quan trọng của nhận diện quan hệ diễn ngôn
thì việc nghiên cứu cần được quan tâm hơn. Vì vậy, luận văn này tiến hành thực hiện
các nghiên cứu để tìm ra mức độ ảnh hưởng của các đặc trưng tới kết quả bài toán, từ
đó áp dụng gán nhãn từ nối trên bộ dữ liệu Việt Treebank [20] để xây dựng dữ liệu
từ nối chuẩn cho tiếng Việt.


Mục tiêu luận văn:
Luận văn này thực hiện hai nhiệm vụ chính:
 Thứ nhất, phân tích, đánh giá mức độ ảnh hưởng đến kết quả nhận diện quan
hệ diễn ngôn của các đặc trưng. Cụ thể là, xây dựng hệ thống nhận diện quan
hệ diễn ngôn, từ đó nghiên cứu, phân tích kết quả nhận diện từ nối và phân
tích ý nghĩa của quan hệ diễn ngôn đó.
 Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank gồm hơn 9,100 câu, từ
đó xây dựng dữ liệu từ nối chuẩn, đóng góp vào nghiên cứu nhận diện quan
hệ diễn ngôn trên tiếng Việt.
Việc thực hiện gán nhãn mất nhiều thời gian và đề tài đòi hỏi nhiều thời gian,
và phải tìm hiểu các công cụ hỗ trợ xây dựng và đánh giá của các hệ thống nhận diện
quan hệ diễn ngôn hiện nay.

9


Đối tượng và phạm vi nghiên cứu:
Để đạt được những mục tiêu của đề tài, chúng tôi giới hạn phạm vi thực hiện
đề tài như sau:
 Đối tượng nghiên cứu:
 Hệ thống, phương pháp nhận diện quan hệ diễn ngôn.
 Ngôn ngữ: tiếng Anh, tiếng Việt.
 Phạm vi nghiên cứu: Bộ dữ liệu PDTB, bộ dữ liệu Việt Treebank.

Ý nghĩa khoa học và thực tiễn:
Luận văn này đạt được một số kết quả nghiên cứu như sau:
 Thứ nhất, phân tích mức độ ảnh hưởng của các đặc trưng đến kết quả nhận
diện quan hệ diễn ngôn, từ đó biết được những đặc trưng góp phần chính, ảnh
hưởng nhiều đến kết quả.
 Thứ hai, gán nhãn từ nối trên bộ dữ liệu Việt Treebank hơn 9,100 câu. Xây

dựng được dữ liệu từ nối chuẩn cho tiếng Việt. Góp phần phát triển nghiên
cứu nhận diện quan hệ diễn ngôn trên tiếng Việt sau này.

Cấu trúc luận văn:
Bố cục luận văn gồm 6 Chương với những nội dung chính như sau:
 Chương 1: Tổng quan
Chương này trình bày hướng tiếp cận chính trong nhận diện quan hệ diễn
ngôn. Đồng thời, thực hiện những phân tích và đánh giá các công trình nghiên
cứu tiêu biểu đã được công bố liên quan đến bài toán nhận diện quan hệ diễn
ngôn. Từ đó, xác định những vấn đề còn tồn tại và cũng như những thách thức
của bài toán nhận diện quan hệ diễn ngôn mà luận văn này tập trung giải quyết.
 Chương 2: Cơ sở lý thuyết
Trong chương này, luận văn sẽ trình bày những cơ sở lý thuyết và những
công cụ cần thiết hỗ trợ để xây dựng hệ thống nhận diện quan hệ diễn ngôn.

10


 Chương 3: Nhận diện quan hệ diễn ngôn và phân tích các đặc trưng
Nội dung chính của chương này là trình bày chi tiết về phương pháp nhận
diện quan hệ diễn ngôn rõ ràng, các đặc trưng và trình bày, phân tích, gom
nhóm các đặc trưng dùng để thực nghiệm và đánh giá ở chương 5.
 Chương 4: Gán nhãn từ nối tiếng Việt
Chương này là trình bày chi tiết về việc tìm hiểu, phân tích, gán nhãn và
viết hướng dẫn để phát triển bộ dữ liệu tiếng Việt sau này.
 Chương 5: Thực nghiệm và đánh giá
Trong chương này, trình bày kết quả thực nghiệm của hệ thống. Từ kết quả
thực nghiệm, đánh giá và phân tích mức độ ảnh hưởng của các đặc trưng. Cũng
trình bày kết quả gán nhãn từ nối trên Việt Treebank.
 Chương 6: Kết luận và hướng phát triển

Chương này tổng kết những kết luận của quá trình nghiên cứu bao gồm
những kết quả đạt được cũng như những khó khăn, hạn chế. Đồng thời, đề
nghị những định hướng nghiên cứu mở rộng cho những dự án nghiên cứu
tương lai về nhận diện quan hệ diễn ngôn.

11


Chương 1. TỔNG QUAN
1.1.

Bài toán nhận diện quan hệ diễn ngôn (Discourse Parsing)
Một đoạn văn bản thường không hiểu được ý nghĩa nếu đánh giá theo từng

đơn vị một, mà phải liên kết, xem xét nó với những đơn vị khác. Do đó, nhận diện
quan hệ diễn ngôn là nhận diện văn bản thành những đoạn nhỏ liền kề hoặc không
liền kề có quan hệ diễn ngôn với nhau.
Nhận diện quan hệ diễn ngôn là phân tích quan hệ giữa các đơn vị văn bản để
khám phá thông tin câu trúc trừu tượng. Trong xử lý ngôn ngữ tự nhiên, ứng dụng
của bài toán phân tích diễn ngôn có thể dùng để tóm tắt văn bản, hệ thống hỏi đáp,
rút trích thông tin và dịch máy. Bởi vì việc nhận diện được ý nghĩa của mối quan hệ
giữa các đơn vị văn bản cung cấp các thành phần cần thiết cho việc tính toán ngữ
nghĩa của câu và ảnh hưởng đến hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên,
được xem là một phần của các hệ thống xử lý ngôn ngữ tự nhiên thông minh.
Quan hệ diễn ngôn chia làm hai loại quan hệ diễn ngôn rõ ràng và quan hệ diễn
ngôn không rõ ràng. Quan hệ diễn ngôn rõ ràng thì có từ nối giữa các đơn vị văn bản
của quan hệ, còn quan hệ diễn ngôn không rõ ràng thì không có từ nối mà có thể là
ngầm hiểu, hoặc có quan hệ với nhau qua một thực thể. Luận văn tập trung nghiên
cứu quan hệ diễn ngôn rõ ràng.
Bài toán nhận diện quan hệ diễn ngôn rõ ràng được mô tả cụ thể như sau:

 Đầu vào: Một văn bản tiếng Anh.
 Đầu ra: Mối quan hệ diễn ngôn giữa các phân đoạn diễn ngôn trong văn bản,
với các thành phần:
 Từ nối.
 Đối số Arg1 và Arg2 của quan hệ diễn ngôn đó. Đối số này có thể là các
sự kiện, trạng thái, mệnh đề, ...
 Ý nghĩa quan hệ diễn ngôn đó.
Hình 1.1 là đoạn văn đầu vào, và Hình 1.2 là quan hệ diễn ngôn được nhận
diện và trả về ở đầu ra.

12


Hình 1.1. Đoạn văn bản đầu vào.

Hình 1.2. Quan hệ diễn ngôn được nhận diện.

Trong đó:
● Đối số Arg1: there are other spots on the globe, and in India, where the seed
could be grown.
● Đối số Arg2: no one has made a serious effort to transplant the crop.
● Từ nối giữa 2 đối số: But.
● Ý nghĩa: Comparison.Concession.Contraexpectation.

1.2.

Lịch sử phát triển nhận diện quan hệ diễn ngôn
Các nghiên cứu trước đây trong nhận diện quan hệ diễn ngôn đã bỏ qua vai trò

của dữ liệu quan hệ mà dựa chủ yếu vào thông tin về cú pháp và từ vựng, như vậy là

không đủ. Nhận diện quan hệ diễn ngôn là một chủ đề nghiên cứu lâu dài trong lĩnh
vực ngôn ngữ học, mục đích mong muốn chương trình máy tính có thể hiểu được ngữ
nghĩa của ngôn ngữ tự nhiên như con người, xử lý được các vấn đề về ngữ nghĩa.
Trong bốn thập kỷ qua, các nhà nghiên cứu đã đề xuất một số các mô hình khác nhau
về nhận diện quan hệ diễn ngôn: bắt đầu từ các thành phần liên kết [10], hay là mối

13


liên hệ chặt chẽ dựa trên lập luận bắt chước [11], cho đến mô hình diễn ngôn mà kết
hợp các quan hệ diễn ngôn trong một cấu trúc đồ thị [54] và còn nhiều nghiên cứu
khác. Tuy nhiên, thiết kế và xây dựng một hệ thống nhận diện quan hệ diễn ngôn là
một nhiệm vụ khó khăn, một phần là do thiếu các bộ dữ liệu được chú thích với quy
mô lớn [25]. Penn Discourse Treebank (PDTB) [41] được công bố đã giải quyết một
phần vấn đề thiếu dữ liệu được chú thích, PDTB hiện là bộ dữ liệu được chú thích
lớn nhất thế giới.
Trong những năm gần đây, nhận diện quan hệ diễn ngôn đã và đang được
nghiên cứu sôi nổi trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là 2 năm 2015 và
2016 có CoNLL Shared Task chủ đề về Shallow Discourse Parsing, năm 2015 [55]
cho tiếng Anh và năm 2016 [56] mở rộng thêm tiếng Trung quốc, đã thu hút thêm rất
nhiều nghiên cứu về nhận diện quan hệ diễn ngôn.
Quan hệ diễn ngôn có thể được biểu diễn bằng các từ nối rõ ràng như because,
however, but, hoặc ngầm suy ra giữa các đơn vị đối tượng trừu tượng. Trong phiên
bản hiện tại của PDTB, quan hệ diễn ngôn không rõ ràng được suy ra chỉ giữa các
đơn vị lân cận. Mỗi quan hệ diễn ngôn được dán nhãn với một ý nghĩa được lựa chọn
từ một hệ thống phân cấp ý nghĩa, và đối số của nó thường ở dạng câu, mệnh đề. Để
phát hiện mối quan hệ diễn ngôn, một chương trình cần:
● Xác định từ nối của quan hệ diễn ngôn.
● Xác định khoảng văn bản của hai đối số cho mỗi mối quan hệ diễn ngôn.
● Gán nhãn các đối số như (Arg1 hoặc Arg2) để chỉ ra thứ tự của các đối số.

● Nhận diện ý nghĩa của mối quan hệ diễn ngôn (ví dụ như: "Cause",
"Condition", "Contrast").
Quan hệ diễn ngôn rõ ràng là được nhận ra một cách rõ ràng bằng từ nối diễn
ngôn (connective) rút ra từ các lớp cú pháp được xác định rõ. Đối số của mối quan hệ
được xác định trong mỗi trường hợp, theo nguyên tắc tối thiểu là chọn ra tất cả các
đoạn cần thiết để giải thích các quan hệ diễn ngôn. Đối với các quan hệ diễn ngôn có
từ nối rõ ràng, đối số 2 (Arg2) là đối số mà các từ nối đi kèm, còn đối số 1 (Arg1) thì

14


không bị giới hạn về khoảng cách giữa nó và các từ nối. Ví dụ 1.1 về quan hệ diễn
ngôn rõ ràng.
Ví dụ 1.1: Big buyers like Procter & Gamble say there are other spots on the
globe, and in India, where the seed could be grown. “It’s not a crop that can’t be
doubled or tripled,” says Mr. Krishnamurthy. But no one has made a serious effort
to transplant the crop. (Comparison.Concession.Contraexpectation) [wsj_0515]
Quan hệ diễn ngôn không rõ ràng có 4 trường hợp:
● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà không có từ nối
để liên kết, thường được ngầm hiểu và chú thích chèn vào để thể hiện mối
quan hệ (VD 1.2).
● Các câu có thể được liên kết bởi một quan hệ diễn ngôn mà được thể hiện
thông qua một từ thay thế không phải từ nối (gọi là Altex), các từ thay thế
không phải từ nối được xác nhận chứa mối quan hệ diễn ngôn (VD 1.3).
● Các câu có thể được liên kết bởi một mối quan hệ gắn kết dựa trên thực thể
(người, vật, …), gọi là EntRel (VD 1.4).
● Các câu không liên quan đến nhau gọi là NoRel.
Các ví dụ:
(1.2) The Arabs had merely oil. Implicit=while These farmers may have a grip
on the world’s very heart. (Comparison.Contrast) [wsj_0515]


(1.3) Now, GM appears to be stepping up the pace of its factory consolidation
to get in shape for the 1990s. One reason is mounting competition from new
Japanese car plants in the U.S. that are pouring out more than one million vehicles
a year at costs lower than GM can match. (Contingency.Cause.Reason) [wsj_2338]

15


(1.4) Pierre Vinken, 61 years old, will join the board as a nonexecutive director
Nov. 29. EntRel Mr. Vinken is chairman of Elsevier N.V., the Dutch publishing
group. [wsj_0001]
Trong luận văn này, tôi tập trung nghiên cứu quan hệ diễn ngôn rõ ràng, đặc
biệt tập trung vào xác định từ nối và phân loại ý nghĩa, đánh giá các đặc trưng ảnh
hưởng như thế nào đến kết quả đó.

1.3.

Công trình liên quan
Những công trình liên quan với luận văn của tôi thực hiện hầu hết là trong 2

cuộc thi Conference on Computational Natural Language Learning (CoNLL) Shared
Task chủ đề về Shallow Discourse Parsing, năm 2015 [55] cho tiếng Anh và năm
2016 [56] cho tiếng Anh và tiếng Trung Quốc.
Năm 2014, công trình [24] được đánh giá là nổi bật khi kết quả xác định từ nối
đạt được là 93.62% với số lượng đặc trưng sử dụng là 9, theo thống kê của Google
scholar thì công trình này được tham khảo, trích dẫn hơn 200 lần, trong đó nhiều nhất
là năm 2015 và 2016. Trong cuộc thi CoNLL Shared Task 2015, công trình [50] đứng
đầu bảng xếp hạng cuộc thi với độ F đạt 91.86%, công trình này đã sử dụng các đặc
trưng từ công trình [24, 36] và đề xuất thêm 3 đặc trưng khác. Còn cuộc thi CoNLL

Shared Task 2016, công trình [22] đã đạt kết quả rất đáng nể là độ F đạt 98,38% với
chỉ 7 đặc trưng được được sử dụng. Một số nghiên cứu nổi bật về nhận diện quan hệ
diễn ngôn và các đặc trưng các nghiên cứu đã dùng được so sánh trong Bảng 1, các
kết quả đều lấy trên tập blind test.

16


Bảng 1.1. So sánh các đặc trưng về xác định từ nối của các một số công trình liên quan
trong nhận diện quan hệ diễn ngôn.
Lin’s
Jain’s 2016 [12]

Feature ID

2014

Wang’s 2015 [50]

[24]
1

Connective String

2

Lowercased Connective String

3


4

5

6

Word

to

first

word

of

to

first

word

of

2016 [18]

Li’s
2016
[22]


X

X

X

X

X

X

X

X

X

X

X

X

X

X

X


X

X

X

X

X

X

X

X

X

X

X

X

X

Connective String
Word

previous


Connective String + Connective String
Word next to last word of Connective
String
Connective String + Word next to last
word of connective String
Word

7

previous

Kong’s

previous

to

first

word

of

Connective String + Connective String +
Word next to last word of Connective
String

8
9


POS tag of Connective String
POS tag of Word previous to first word
of Connective String
POS tag of Word previous to first word

10

of Connective String + POS tag of
Connective String

11

POS tag of Word next to last word of
Connective String
POS tag of Connective String + POS tag

12

of Word next to last word of Connective
String
POS tag of Word previous to first word

13

of Connective String + POS tag of
Connective String + POS tag of Word
next to last word of Connective String

14


Path of connective to root in syntax tree

17


Compressed path of connective to root in

15

syntax tree

X

Self Category : Parent of connective to

16

X

root in syntax tree
Parent Category : Parent of Self Category

17

X

in syntax tree
Left Sibling Category : Left Sibling of


18

X

Self Category in syntax tree
Right Sibling Category : Right Sibling of

19

X

X

Self Category in syntax tree

20

C-syn features

X

21

Syn-syn features

X

22

The POS tags of


Location of

nodes from C’

connective

parent to root

in sentence

Parent catelogy

23

linked context
Right sibling

24

catelogy linked
context

Result

P

77.70

Acc


93.48

90.47

98.56

R

93.71

96.02,

90.29

92.80

98.21

F

84.96

91.86

91.62

98.38

F1

93.62

Chú thích: Nguồn thông tin và số liệu được trích dẫn từ công trình [12, 18, 22, 24, 50].

Xác định hai đối số là công việc khá khó khăn để có thể xác định đầy đủ và
chính xác kết quả hai đối số của một quan hệ diễn ngôn. Thường thì, đối số Arg2 sẽ
xác định dễ hơn so với đối số Arg1, do Arg2 đi với từ nối, còn Arg1 có thể ở vị trí
câu phía trước, câu phía sau hoặc cùng câu với Arg2. Nên sẽ có hai bước, bước thứ
nhất là xác định vị trí của Arg1 so với Arg2, bước thứ hai mới là rút trích hai đối số.
Đặc biệt, phải xác định đúng đối số đó chính xác là mệnh đề hoặc câu (đúng đến từng
token), nên kết quả của việc xác định đối số chỉ là 33.39% [22] và cao nhất trong
CoNLL 2016 là 43.95% [33].

18


Việc phân loại ý nghĩa quan hệ diễn ngôn không chỉ đơn thuần là đưa ra nghĩa
từ nối, mà còn tùy thuộc vào ngữ cảnh, hai đối số, …Nhiều khi, nghĩa của từ nối cũng
khá mập mờ do có nhiều nghĩa, hoặc là nhập nhằng trong việc phân loại nhãn ý nghĩa,
ví dụ như từ since thì có thể mang nghĩa về thời gian (kể từ khi) hoặc nguyên nhân
(bởi vì). Các công trình [33] có kết quả phân loại ý nghĩa tốt là 77.17%, cao nhất
trong CoNLL 2016 là 78.20% [16].
Những nghiên cứu này chỉ liệt kê ra những đặc trưng đã sử dụng mà chưa đánh
giá được mức độ ảnh hưởng của các đặc trưng. Ngoài ra, qua Bảng 1.1 tôi nhận thấy
công trình [12] có các đặc trưng gần như bao gồm hết các đặc trưng của những công
trình còn lại, nên luận văn cài đặt theo công trình này để phân tích mức độ ảnh hưởng
của các đặc trưng.
Trong tiếng Việt, công trình [1] đã gán nhãn từ loại cho 6,400 câu đạt độ F1
84.05%, công trình [20] phân tích cú pháp phụ thuộc cho hơn 9,100 câu, trong đó
cũng chỉ gán nhãn phụ thuộc, nhưng chưa chú thích gán nhãn về ý nghĩa của từ nối.


19


Bảng 1.2. Một số công trình nghiên cứu về dữ liệu trong tiếng Việt.
STT

1

2

Tên công
trình

Đặc điểm

Kết quả và hạn chế

 Dựa trên Việt Treebank để xây
dựng Treebank phụ thuộc.
 Định nghĩa tập nhãn phụ thuộc
theo lược đồ phụ thuộc được
phát triển bởi nhóm NLP của
Đại học Stanford và dựa trên
đặc điểm văn phạm tiếng Việt.
 Đề xuất thuật toán chuyển đổi
tự động treebank thành tố sang
treebank phụ thuộc.
 Thử nghiệm phân tích cú pháp
phụ thuộc cho tiếng Việt.


 Xây dựng treebank phụ
thuộc chứa 9,100 câu.
 Kết quả thử nghiệm:
+ MaxEnt: 91.03%
+ CRFs: 90.04%
 Hạn chế: Những hướng dẫn
cho việc gán nhãn cần phải
được định nghĩa rõ ràng
hơn. Tồn tại một vài lỗi trên
trebank như: xác định sai
gốc (root) trong các câu có
nhiều mệnh đề, xác định sai
các phụ thuộc giữa các
token đặc biệt.

Gán nhãn từ
 Trình bày phương pháp gán
loại
tiếng
nhãn từ loại tiếng Việt.
Việt
dựa
 So sánh, đánh giá kết quả gán
trên
các
nhãn với hai phương pháp máy
phương
học là Maximum Entropy
pháp

học
(MaxEnt) và Conditional
máy thống
Random Fields (CRF).
kê [1].

 Kết quả thử nghiệm trên
CRF cao hơn MaxEnt
nhưng không lệch nhau
nhiều.
 Trên CRF: F1: 84.05%
 Trên MaxEnt: F1: 83.35%
 Hạn chế: Đạt độ chính xác
khá cao, nhưng chưa chỉ ra
được những lỗi gây ảnh
hưởng độ chính xác.

Xây dựng
Treebank
cho
phân
tích cú pháp
phụ
thuộc
tiếng Việt
[20].

Chú thích: Thông tin trích dẫn từ công trình [1, 20].

Còn nhiều công trình gán nhãn từ loại khác, trong các công trình đó có gán

nhãn liên từ (CC) nhưng không phải tất cả liên từ là từ nối trong quan hệ diễn ngôn,
và cũng chưa có nghiên cứu về gán nhãn ý nghĩa của các từ nối đó.

20


1.4.

Kết luận
Với những thành tựu nhận diện quan hệ diễn ngôn rõ ràng trên bộ dữ liệu

PDTB, với độ chính xác cao nhất trong CoNLL 2016 đạt F1 là 98,38% của công trình
[22]. Các công trình nghiên cứu nhận diện quan hệ diễn ngôn đã đóng góp cho khoa
học về nhiều khía cạnh như các thuật toán phân tích, các thuật toán máy học, các mô
hình đặc trưng. Tuy nhiên, chưa có nghiên cứu về mức độ ảnh hưởng chi tiết của các
đặc trưng đến kết quả bài toán nhận diện quan hệ diễn ngôn. Đó là vấn đề còn tồn
đọng mà chúng tôi sẽ giải quyết trong luận văn này, hướng đến mục tiêu: Phân tích
mức độ ảnh hưởng của các đặc trưng đến kết quả nhận diện quan hệ diễn ngôn. Từ
đó, cho thấy những đặc trưng nổi bật, đóng góp chủ yếu vào kết quả bài toán.
Thêm vào đó, chúng tôi còn gom các đặc trưng theo nhóm nhỏ về đặc điểm từ
vựng hay cú pháp,... để đánh giá thêm về mức độ ảnh hưởng của các nhóm đặc trưng.
Các nghiên cứu về nhận diện quan hệ diễn ngôn chủ yếu áp dụng trên bộ dữ
liệu PDTB mà chưa mở rộng ra nhiều bộ dữ liệu và chú thích nhiều ngôn ngữ khác
nhau, đặc biệt trong tiếng Việt, trên bộ dữ liệu Việt Treebank chưa có chú thích về
gán nhãn từ nối.
Đóng góp của đề tài ở phần gán nhãn từ nối cho Việt Treebank hơn 9,100 câu
mà công trình [20] chưa thực hiện, góp phần cho nghiên cứu nhận diện quan hệ diễn
ngôn cho tiếng Việt.

21



Chương 2. CƠ SỞ LÝ THUYẾT
Nhận diện quan hệ diễn ngôn là một trong những bài toán nghiên cứu ngữ
nghĩa nền tảng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Quan hệ diễn ngôn được chia
làm hai loại: rõ ràng (explicit) và không rõ ràng (implicit). Trong luận văn, tôi tập
trung vào nhận diện quan hệ diễn ngôn rõ ràng. Trước khi tiến hành nghiên cứu và
thực nghiệm phân tích các mục tiêu đặt ra, tôi trình bày lại các kiến thức nền tảng,
phương pháp và các công cụ hỗ trợ việc nghiên cứu.

2.1.

Nhận diện quan hệ diễn ngôn rõ ràng
Quan hệ diễn ngôn rõ ràng là các mối quan hệ chú thích PDTB được nhận ra

một cách rõ ràng bằng từ nối diễn ngôn (connective) rút ra từ các lớp cú pháp được
xác định rõ, đối số của mối quan hệ được xác định trong mỗi trường hợp, theo nguyên
tắc tối thiểu là chọn ra tất cả các đoạn cần thiết để giải thích các quan hệ diễn ngôn.
Đối với các quan hệ diễn ngôn có từ nối rõ ràng, Arg2, được định nghĩa là các đối số
mà các từ liên kết là cú pháp liên quan, còn Arg1 không bị giới hạn về khoảng cách
giữa nó và các từ liên kết, nó có thể được tìm thấy ở bất cứ đâu trong các văn bản,
cùng câu hoặc ở câu trước, câu sau so với Arg2 [55].
Một quan hệ diễn ngôn rõ ràng được xác định khi tìm được các thành phần:
 Từ nối.
 Hai đối số Arg1, Arg2.
 Ý nghĩa quan hệ diễn ngôn.
Ý nghĩa của mối quan hệ diễn ngôn rõ ràng được xác định không chỉ dựa trên
nghĩa của từ nối là đủ, vì có những từ nối mang nhiều nghĩa, trong mỗi trường hợp sẽ
có một ý nghĩa, mà để xác định được ý nghĩa đó còn dựa vào hai đối số và các đặc
trưng khác. Hoặc, từ đó xuất hiện nhưng không mang vai trò là từ nối diễn ngôn, như

ví dụ 2.1.
Ví dụ 2.1: “Financial planners often urge investors to diversify and to hold a
smattering of international securities. And many emerging markets have outpaced

22


×