Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 215 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_______________________

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_______________________

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
Chuyên ngành:

Cơ sở toán cho tin học

Mã số:

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Lê Hồng Phương
PGS.TS. Đỗ Trung Tuấn
XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ
CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN
Chủ tịch hội đồng đánh giá

Người hướng dẫn khoa học

Luận án Tiến sĩ

PGS.TS. Phan Xuân Hiếu

Hà Nội - 2020

TS. Lê Hồng Phương

Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi. Các số liệu
sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo
đúng quy định. Các kết quả này chưa từng được công bố trong bất kỳ
nghiên cứu nào khác.
Hà Nội, ngày 10 tháng 3 năm
2020
Nghiên cứu sinh

Nguyễn Thị Lương

Lời cảm ơn
Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích cú
pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều sự
giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học và
khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội. Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó.

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Hồng Phương, PGS.TS. Đỗ
Trung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôi
hoàn thành luận án này.
Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệ
Thông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè
đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực
hiện và hoàn thành luận án này.
Hà Nội, ngày 10 tháng 3 năm
2020
Nghiên cứu sinh
Nguyễn Thị Lương

Mục lục
Danh sách bảng
Danh sách hình vẽ
Mở đầu
1 Cơ sở lý thuyết
1.1

1.2

1.3

1.4

1.5

1.6

Khái niệm cơ bản trong tiếng V
1.1.1
1.1.2
1.1.3
1.1.4
1.1.5
1.1.6
Cú pháp thành phần . . . . . . . .
1.2.1
1.2.2
1.2.3
Cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1
1.3.2
1.3.3
1.3.4
Gán nhãn vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1
1.4.2
1.4.3
Biểu diễn phân bố từ . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1
1.5.2

1.5.3
1.5.4
Kết luận . . . . . . . . . . . . . . . . . .
i

2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa

tiếng Việt
2.1
2.2

Kho ngữ liệu Treebank . . . . . .
Xây dựng kho ngữ liệu gán nhã
2.2.1
2.2.2
2.2.3
2.2.4

2.2.5
Xây dựng kho ngữ liệu gán nhã
2.3.1
2.3.2
2.3.3
2.3.4
Kết luận . . . . . . . . . . . . . . . . . .

2.3

2.4

3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt
3.1

3.2

3.3

Phân tích cú pháp thành phần .
3.1.1
3.1.2
3.1.3
3.1.4
3.1.5
Phân tích cú pháp phụ thuộc tiế
3.2.1
3.2.2
3.2.3
3.2.4
3.2.5
Kết luận . . . . . . . . . . . . . . . . . .

4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa
tiếng Việt

130 4.1 Mô tả thuật toán . . . . . . . . . .
. . . . . . . . . . . . . . . . 130 4.1.1 Khảo sát một số phương
pháp . . . . . . . . . . . . . . . 130 4.1.2 Phương pháp đề xuất . . . . . . . . . . . .
. . . . . . . . 132
ii

4.2 Quy hoạch tuyến tính nguyên .

4.3 Tập đặc trưng sử dụng . . . . . .
4.3.1
4.3.2
4.4 Đánh giá kết quả . . . . . . . . . . .
4.4.1
4.4.2
4.4.3
4.4.4
4.4.5
4.4.6
4.4.7
4.5 Kết luận . . . . . . . . . . . . . . . . . .
Kết luận
Các công trình công bố của luận án
Tài liệu tham khảo
Phụ lục

iii

Danh sách bảng
1.1
1.2
1.3
1.4
1.5
1.6

1.7
1.8
1.9

Tập nhãn từ loại tiếng Việt. . . . . . . . . . . . . . . . .
Tập nhãn cụm từ tiếng Việt. . . . . . . . . . . . . . . .
Tổ chức câu trong tiếng Việt. . . . . . . . . . . . . . .
Tập nhãn mệnh đề tiếng Việt. . . . . . . . . . . . . . .
Tập nhãn chức năng cú pháp tiếng Việt. . . . . .
Các đặc trưng dùng trong MSTParser . . . . . . . .
Các đặc trưng dùng trong MaltParser . . . . . . . .
Ví dụ về phân tích cú pháp dựa vào các bước c
Kết quả một số nghiên cứu phân tích cú pháp p
tiếng Anh và tiếng Trung . . . . . . . . . . . . . . . . . .
Kết quả một số nghiên cứu phân tích cú pháp p
tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Một số nghiên cứu vai nghĩa đánh giá OntoNote

1.10
1.11
2.1
2.2
2.3

2.8
2.9
2.10
2.11
2.12
2.13

2.14

Thống kê nhãn thành phần trong kho viettreeba
Một số kho ngữ liệu gán nhãn phụ thuộc tiếng V
So sánh tập nhãn phụ thuộc tiếng Việt với tập n
đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng A
Tập quy tắc xác định phần tử trung tâm. . . . . . .
Một số luật sử dụng để xác định nhãn phụ thuộc
Câu tiếng Việt theo định dạng CoNLL-X chưa đ
Câu tiếng Việt theo định dạng CoNLL-X đã đượ
thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28
Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28]
Tập nhãn phụ trợ tiếng Việt . . . . . . . . . . . . . . . .
Một số luật xác định gán nhãn vai nghĩa thô . . .
Một số câu tiếng Việt gán nhãn vai nghĩa dạng t
Một số nhãn vai nghĩa phổ biến . . . . . . . . . . . . .
Một số câu tiếng Việt gán nhãn vai nghĩa . . . . .

3.1
3.2

Tập luật sinh ra dữ liệu huấn luyện trong Shift-R
Luật suy diễn trong phân tích cú pháp Shift-redu

2.4
2.5
2.6
2.7

iv

3.3

Tập mẫu đặc trưng mở rộng . . . . . . . . . . . . . . .

3.4

Dãy bước chuyển phân tích câu “Mảnh đất của
còn người nghèo.” . . . . . . . . . . . . . . . . . . . . . . .
Tập đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . .
Đặc trưng cho phân tích cú pháp thành phần tiế

3.5
3.6
3.7
3.8
3.9

3.24

Kết quả với tập dữ liệu có số từ ≤ 10 . . . . . . . .
Kết quả với tập dữ liệu có số từ ≤ 35 . . . . . . . .
Một số kết quả phân tích theo mô hình tích hợp
bố từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh F1 sử dụng đặc trưng CharLSTM và E
Kết quả F1 khi độ dài của câu thay đổi sử dụng đ
STM.................................
Kết quả F1 khi độ dài của câu thay đổi sử dụng

Lỗi phân cụm trong phân tích cú pháp thành ph
Kết quả của MaltParser. . . . . . . . . . . . . . . . . . .
Kết quả của MSTParser. . . . . . . . . . . . . . . . . . .
Đặc trưng MaltParser cho tiếng Việt . . . . . . . . .
Đặc trưng MSTParser cho tiếng Việt . . . . . . . .
Đặc trưng Bist-parser phân tích cú pháp phụ thu
bước chuyển . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả phân tích cú pháp phụ thuộc với VTB_U
Kết quả phân tích cú pháp phụ thuộc với VTB_U
Kết quả phân tích cú pháp phụ thuộc với VTB_U
Kết quả phân tích cú pháp phụ thuộc với VTB tr
Kết quả so sánh các phương pháp phân tích cú
trên VTB_UD . . . . . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác ASL của một số nhãn phụ thuộc tr

4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9

Độ chính xác của 3 thuật toán rút trích . . . . . . .
Độ chính xác của hệ thống cơ bản . . . . . . . . . .
Độ chính xác của 2 chiến lược gán nhãn . . . . .
Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác của tập đặc trưng trong bảng 4.4

Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác của tập đặc trưng trong bảng 4.6
Ảnh hưởng của ILP . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác của mỗi loại đối số . . . . . . . . . . . .

3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
3.23

v

4.10 Độ chính xác của 2 thuật toán rút trích . . . . . . .

4.11 Độ chính xác của hệ thống . . . . . . . . . . . . . . . .
4.12 Ảnh hưởng véctơ từ của vị tự . . . . . . . . . . . . .
4.13 Ảnh hưởng véctơ từ của từ chính . . . . . . . . . .

vi

Danh sách hình vẽ
3

1 Các bước cơ bản trong xử lý ngôn ngữ tự nhiên . . . . . .
2 Mô hình tổng quát phân tích cú pháp và gán nhãn vai ngh
Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu
Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10

Phân loại từ trong tiếng Việt. . . . . . . . . . . . . . . .
Cây cú pháp thành phần trong tiếng Việt. . . . .
Quá trình phân tích cú pháp thành phần . . . . . .
Cấu trúc phụ thuộc. . . . . . . . . . . . . . . . . . . . . .
Đồ thị phụ thuộc của một câu tiếng Việt. . . . . . .
Ví dụ về phân tích cú pháp dựa trên đồ thị. . . .
Câu tiếng Anh được gán nhãn vai nghĩa. . . . . .
Khung vị từ Communication trong FrameNet . .
Khung vị từ Cognition trong FrameNet . . . . . . .

Mô hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . .

2.1

Cây cú pháp thành phần “Tôi mong_mỏi sự côn
thực_hiện và trả lại cho họ.” . . . . . . . . . . . . . . .
Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_b
và trả lại cho họ.”. . . . . . . . . . . . . . . . . . . . . . . .
Câu tiếng Việt được gán nhãn vai nghĩa. . . . . .

2.2
2.3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9

Toán tử thay thế . . . . . . . . . . . . . . . . . . . . . . . .
Toán tử nối . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quá trình phân tích cú pháp thành phần . . . . . .
Cây cú pháp thành phần “Mảnh đất của đạn bom
người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình phân tích cú pháp thành phần sử dụng
[53]
self-attention

...........................
[53]
Bước mã hóa tổng quát

.....................

[53]

Bước mã hóa tổng quát
................
Minh họa gán nhãn thành phần lỗi giữa cụm độ
đề trong tiếng Việt . . . . . . . . . . . . . . . . . . . . . . .
Minh họa gán nhãn thành phần lỗi giữa cụm dan
Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii

3.10

Minh họa gán nhãn thành phần lỗi cụm giới từ t

3.11
3.12
3.13
3.14
3.15
4.1
4.2
4.3
4.4

4.5

Minh họa gán nhãn thành phần lỗi cụm liên từ tr
Minh họa lỗi gán nhãn thành phần giữa thành p
trúc ngang cấp trong tiếng Việt. . . . . . . . . . . . . .
Minh họa lỗi gán nhãn thành phần giữa cấu trúc
trúc con do lỗi đính kèm cụm danh từ NP trong
Quá trình lặp lại module trong RNN chuẩn chứa
Sử dụng BiLSTM trong phân tích cú pháp phụ t
bước chuyển [32] . . . . . . . . . . . . . . . . . . . . . . .

Biểu diễn cú pháp thành phần và cú pháp phụ t
Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . .
Một số lỗi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cách tiếp cận C-by-C và W-by-W . . . . . . . . . . .
Trích xuất thành phần của câu “Bà nói nó là con
vị ngữ “là ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tốc độ học của hệ thống . . . . . . . . . . . . . . . . . .

viii

Danh mục từ viết tắt
Từ viết tắt
MST
CRF
PCFG
LTAG
LPCFG
SRL

ILP
LTAG
LSTM-LM
ELMo
biLM
GA-RNNG
GLUE

ix

Mở đầu
Giới thiệu
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các
hệ thống máy tính hiểu ngôn ngữ của con người và là vấn đề được nhiều
nhà khoa học trên thế giới quan tâm. Các ứng dụng về lĩnh vực này đa
đạng và phong phú như dịch máy, sinh văn bản, chuyển các văn bản thành
dữ liệu có cấu trúc, phân loại văn bản, rút trích thông tin, v.v. . . Quá trình xử
lý ngôn ngữ tự nhiên gồm một số vấn đề chính sau: phân tích hình thái từ,
phân tích từ loại, phân tích cú pháp và phân tích ngữ nghĩa như hình 1.
Phân tích
hình thái từ
Hình 1: Các bước cơ bản trong xử lý ngôn ngữ tự nhiên

Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ
tự nhiên. Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú
pháp của câu để hiểu được ý nghĩa của văn bản. Nó cung cấp một nền tảng
vững chắc cho lĩnh vực xử lý văn bản thông minh. Có nhiều văn phạm có
thể sử dụng trong phân tích cú pháp như phân tích cú pháp sử dụng văn
phạm phi ngữ cảnh, văn phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa,

văn phạm cấu trúc hướng trung tâm, văn phạm kết nối cây, v.v. . . Trong đó
phân tích cú pháp thành phần sử dụng văn phạm phi ngữ cảnh và phân tích
cú pháp phụ thuộc đang được nhiều nhóm quan tâm nghiên cứu.
Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]:
• Mức thứ nhất là tách từ và xác định thông tin từ loại;
• Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại

do bước trước cung cấp.
Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn
đề nhập nhằng ở cả hai mức. Tiếp theo sau của bước phân tích cú pháp là
bước phân tích ngữ nghĩa trong tiếng Việt. Gán nhãn vai nghĩa là một
nhánh trong phân tích ngữ nghĩa của câu. Kết quả của phân tích cú pháp và
gán nhãn vai nghĩa tốt có thể được tích hợp vào những ứng dụng trong xử
lý ngôn ngữ tự nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự
động, trích rút thông tin, v.v. . .
1

Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gán
nhãn vai nghĩa là sử dụng học máy thống kê. Học máy thống kê có mặt
trong hàng loạt ứng dụng hiện đại như: công nghệ tìm kiếm thông tin;
chương trình lọc thư rác; xe ô tô, máy bay không người lái; xử lý ngôn ngữ,
tiếng nói, hình ảnh; các chương trình bảo mật mạng,v.v. . . Mục tiêu chính
của học máy thống kê là phối hợp thuật toán máy tính và các mô hình thống
kê để tìm ra các cấu trúc có liên hệ về mặt toán học trong những tập dữ liệu
hỗn tạp, đa dạng và nhiều nhiễu như mạng Internet toàn cầu, giao dịch
chứng khoán, hình ảnh X-quang chẩn bệnh. Đặc biệt, trong nhưng năm gần
đây kết quả của phân tích cú pháp và gán nhãn vai nghĩa sử dụng học máy
thống kê đạt được kết quả cao trên nhiều ngôn ngữ khác như tiếng Anh,
tiếng Trung, v.v. . . Đối với tiếng Việt, đã có một số nghiên cứu về phân tích

cú pháp thành phần tuy nhiên độ chính xác chưa cao so với ngôn ngữ khác.
Do đó, luận án đã tập trung giải quyết bài toán sau:
• Đầu vào: Dữ liệu đã được tách từ và gán nhãn từ loại.
• Đầu ra: Dữ liệu được gán nhãn cú pháp thành phần, cú pháp phụ thuộc

và gán nhãn vai nghĩa.
• Phương pháp: sử dụng phương pháp học máy để giải quyết bài toán.

Gồm các bước chính sau:
1. Xây dựng kho ngữ liệu cú pháp phụ thuộc tiếng Việt.
2. Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt.
3. Tiếp cận các phương pháp học máy để giải quyết bài toán. Mô hình

tổng quát sử dụng học máy thống kê cho bài toán phân tích cú
pháp và gán nhãn vai nghĩa tiếng Việt trong hình 2.

Hình 2: Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa.
2

Mô hình sử dụng thuật toán học có giám sát. Dữ liệu huấn luyện là kho ngữ liệu
được gán nhãn cú pháp và gán nhãn vai nghĩa. Kết quả của bước huấn luyện sẽ
thu được mô hình phân tích cú pháp và gán nhãn vai nghĩa. Mô hình phân tích
chứa tập tham số cũng như một số đặc trưng riêng. Sử dụng mô hình phân tích
để dự đoán gán nhãn cú pháp và vai nghĩa cho dữ liệu mới. Để phân tích cú pháp
và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quan tâm đến hai vấn
đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp và vai nghĩa; phương
pháp phân tích cú pháp và gán nhãn vai nghĩa. Kho ngữ liệu gán nhãn cú pháp và
vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểm tra tính chính xác của
công cụ phân tích cú pháp và vai nghĩa. Đối với tiếng Việt, kho ngữ liệu hơn

10,000 câu được gán nhãn cú pháp thành phần của dự án VLSP chính là tập dữ
liệu chính thức đầu tiên được xây dựng và hiệu chỉnh trong những năm gần đây.
Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫn còn rất hạn chế kể cả số lượng
lẫn chất lượng và chưa có kho ngữ liệu gán nhãn vai nghĩa dẫn đến chưa có
nhiều nghiên cứu về vấn đề phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt
nói chung. Vì vậy, việc xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai
nghĩa tiếng Việt là giai đoạn quan trọng. Dựa trên thông tin cú pháp thành phần
trong viettreebank, tác giả đã rút trích các thông tin để xây dựng kho dữ liệu gán
cú pháp phụ thuộc và kho dữ liệu gán nhãn vai nghĩa. Xét ví dụ câu “Nam đá
bóng.” được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và vai nghĩa như
trong hình 3: Hình 3.a cho biết thông
Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng
S

NP-SUB

VP

N-H

Nam

a. Cây cú pháp thành phần

tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP. Từ hình 3.a
có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá là
động từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từ
chính từ đó xác định được thông tin phụ thuộc giữa (đá, bóng) có nhãn là tân
ngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được

3

các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ
đá, punct(đá, .) “.” là dấu câu phụ thuộc vào từ chính. Hoặc xác định thông
tin cho vai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác định
nhãn vai nghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũng
chính là vị từ (Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ
đá có nhãn vai nghĩa (Arg1). Qua khảo sát tác giả nhận thấy ngoài việc khai
thác thông tin cú pháp phụ thuộc từ viettreebank có thể khai thác thêm
thông tin gán nhãn vai nghĩa. Đó cũng là lý do bổ sung thêm nghiên cứu
gán nhãn vai nghĩa trong đề tài này.
Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án
đã nghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trên
tiếng Anh từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt.

Mục tiêu luận án
Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vai
nghĩa tiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trung
giải quyết các vấn đề chính sau:
• Xây dựng bộ nhãn phụ thuộc và bộ nhãn vai nghĩa cho tiếng Việt.
• Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai

nghĩa cho tiếng Việt.
• Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu quả

phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt.

Tóm tắt luận án

Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về
cú pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ. Xây dựng
tập nhãn phụ thuộc và vai nghĩa cho tiếng Việt. Sau đó luận án đề xuất
phương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán
nhãn vai nghĩa cho tiếng Việt. Sử dụng kho ngữ liệu gán nhãn cú pháp
thành phần tiếng Việt tác giả đã thử nghiệm phân tích cú pháp thành phần
trên 2 phương pháp chính: dựa trên phương pháp shift-reduce và phương
pháp self-attention. Tích hợp đặc trưng biểu diễn phân bố từ vào phương
pháp phân tích cú pháp phụ thuộc dựa trên đồ thị và dựa trên các bước
chuyển. Phần cuối cùng, dựa trên kho ngữ liệu gán nhãn vai nghĩa tác giả
đã xây dựng và trình bày phương pháp gán nhãn vai nghĩa trên tiếng Việt.
4

Đóng góp của luận án
Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhóm
VSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp về
mặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt.
1. Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩa trên

tiếng Việt. Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gán nhãn cú
pháp thành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa trên
tiếng Việt. Tác giả đã xây dựng thành công 10,165 câu tiếng Việt được gán
nhãn cú pháp phụ thuộc. Thực hiện gán nhãn phụ thuộc đa ngôn ngữ lại thủ
công được 3,000 câu tiếng Việt đưa lên kho ngữ liệu cú pháp phụ thuộc đa
ngôn ngữ tại địa chỉ Đồng thời, tác giả đã
xây dựng được 5,460 câu gán nhãn vai nghĩa cho tiếng Việt.
2. Về phương pháp, tác giả áp dụng phương pháp phân tích cú pháp và

gán nhãn vai nghĩa:

• Đối với bài toán phân tích cú pháp thành phần: đề xuất tích hợp

véctơ phân bố từ vào hệ thống phân tích cú pháp thành phần dựa
trên bước chuyển shift-reduce để nâng cao hiệu quả phân tích cú
pháp thành phần trên tiếng Việt. Phân tích lỗi dành cho tiếng Việt
dựa trên phương pháp phân tích cú pháp thành phần self-attention.
• Đối với bài toán phân tích cú pháp phụ thuộc: dựa trên kho ngữ liệu

đã xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống
phân tích cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser.
• Đối với bài toán gán nhãn vai nghĩa: áp dụng phương pháp quy

hoạch tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho
tiếng Việt và đề xuất thuật toán rút trích thành phần để nâng cao
hiệu quả gán nhãn vai nghĩa tiếng Việt.

Cấu trúc luận án
Phần tiếp theo của luận án được trình bày lần lượt như sau:
• Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếng

Việt. Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thành
phần, cú pháp phụ thuộc và vai nghĩa trong tiếng Việt. Tiếp theo là 4
phương pháp để biểu diễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo.
• Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụ

thuộc và vai nghĩa trên tiếng Việt. Đề xuất phương pháp chuyển kho ngữ
5

liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai

nghĩa tiếng Việt.
• Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú pháp

thành phần, cú pháp phụ thuộc trên tiếng Việt. Đầu tiên, luận án giới thiệu
một số văn phạm phổ biến phân tích cú pháp thành phần. Tiếp theo, trình
bày chi tiết và đánh giá kết quả thử nghiệm phân tích cú pháp thành phần
tiếng Việt trên 2 phương pháp: shift-reduce và self-attention. Cuối cùng,
tác giả trình bày và đánh giá thử nghiệm phân tích cú pháp phụ thuộc dựa
trên bước chuyển và đồ thị cho tiếng Việt. Đề xuất tích hợp đặc trưng biểu
diễn phân bố từ vào các hệ thống MaltPaser, MSTParser và Bist-Parser
cho phân tích cú pháp phụ thuộc tiếng Việt.
• Chương 4: tác giả mô tả tập đặc trưng và phương pháp quy hoạch

tuyến tính để gán nhãn vai nghĩa cho tiếng Việt. Đánh giá và phân tích
kết quả gán nhãn vai nghĩa tiếng Việt.
• Phần kết luận: tóm tắt một số kết quả đạt được và hướng phát triển

trong tương lai.

6

Chương 1

Cơ sở lý thuyết
Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong
luận án. Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt
[1,2,10] như từ, từ loại, cụm từ, ... Tiếp theo, mục 2, 3, 4 trình bày bài toán
phân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bài
toán gán nhãn vai nghĩa. Mục 5 trình bày các mô hình biểu diễn phân bố từ:

skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu.

1.1

Khái niệm cơ bản trong tiếng Việt

1.1.1

Từ

Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có

nghĩa và có thể hoạt động tự do trong câu. Đơn vị cơ sở cấu tạo của từ
tiếng Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt
và có thể tự mình không có nghĩa [1].
Từ có nhiều cách phân loại khác nhau. Xét về số lượng tiếng có:
• Từ chỉ chứa một tiếng: là từ đơn. Ví dụ: nhà, đã ...
• Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức. Ví dụ: nhà

cửa, xanh lè, sạch sẽ ...
Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất
có nghĩa, ta có:
• Từ chỉ có một từ tố, gọi là từ đơn tố. Ví dụ: nhà, đủng đỉnh ...
• Từ chứa nhiều tố, gọi là từ đa tố. Ví dụ: nhà cửa, xe đạp, sạch sẽ ...

Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách
ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ ... Kết hợp cả ba mặt
trên, có phân loại từ theo lược đồ trong hình 1.1:
1.1.2

Từ loại

Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau
về đặc trưng từ loại. Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự
7

Từ

Từ đơn
(1 tiếng)

Từ phức
(nhiều tiếng)

Từ láy

Từ ngẫu kết

Từ đơn tố

Từ ghép

Từ đa tố

Hình 1.1: Phân loại từ trong tiếng Việt.

nhất trí hoàn toàn. Các tiêu chuẩn đặc trưng để phân loại thường dùng bao
gồm:
• Ý nghĩa khái quát. Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ,

trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp
chung. Các từ loại đều phù hợp với định nghĩa của các phạm trù phân
loại. Đó là những nhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc
trưng phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái ...
• Khả năng kết hợp từ. Các từ có khả năng tham gia vào một kết hợp có

nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng
lần lượt thay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp,
các từ còn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của
những từ nói trên. Khả năng kết hợp của từ trong các ngôn ngữ thuộc
loại hình đơn lập, là sự phân bố trật tự và việc sử dụng các từ phụ để
biểu hiện các ý nghĩa ngữ pháp bên ngoài từ.
• Chức năng cú pháp. Tham gia vào cấu tạo câu, các từ có thể đứng ở một

vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở các
vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các
thành phần khác trong cấu tạo câu, có thể phân vào một từ loại. Tuy nhiên
phải xem xét chức năng cú pháp nào của từ là chủ yếu để làm căn cứ
8

phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau
trong câu.
Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tập
nhãn từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank
[72] như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn
từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.v...), thông tin hình thái (số
ít, số nhiều, thì, ngôi, v.v...), thông tin về phân loại con (ví dụ động từ đi với
danh từ, động từ đi với mệnh đề, v.v...), thông tin ngữ nghĩa, hay một số thông

tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông
tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại
con, v.v... Tiếng Việt có hệ thống từ loại theo bảng 1.1.2.
Bảng 1.1: Tập nhãn từ loại tiếng Việt.
STT
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

9

1.1.3

Cụm từ

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp tự do với nhau theo
những quan hệ ngữ pháp nhất định và không chứa kết từ ở đầu.
Ví dụ 1.1.1. Cụm từ: “tôi đã nói với anh hôm qua”, “nghèo nhưng tốt bụng” ...
Cụm từ được gọi tên theo từ loại của thành tố chính trong cụm. Trong tiếng
Việt, có thể gặp những loại cụm từ sau đây:
• Cụm danh từ: mấy người này, hai người ...
• Cụm động từ: đã đọc rồi, vừa làm ...
• Cụm tính từ: vẫn tốt hơn, tốt quá ...
• Cụm số từ: độ ba mươi, hơn ba mươi một chút ...
• Cụm đại từ: hai chúng tôi, tất cả chúng tôi đây ...

Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt:
• Phần phụ trước: là phần đứng trước thành tố chính.
• Phần trung tâm: là phần chứa thành tố chính.
• Phần phụ sau: là phần đứng sau thành tố chính.

Thành tố chính giữ vai trò quan trọng về ngữ pháp trong cụm từ, là đại
diện cho toàn bộ cụm từ trong mối liên hệ giữa các yếu tố khác nằm ngoài
cụm từ. Do đó, chức vụ cú pháp của toàn bộ cụm từ trong kiến trúc lớn hơn
nó gắn bó mật thiết với chức vụ cú pháp của thành tố chính. Thành tố chính
trong cụm từ còn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình,
nó quyết định chức vụ cú pháp của tất cả các thành tố phụ có liên quan. Nội
dung ý nghĩa của thành tố chính quyết định khả năng gia nhập các kiến trúc
lớn hơn của toàn bộ cụm từ. Tuy nhiên, phải nhờ có thành tố phụ thì mới có
thể xác định được bản chất từ loại, tiểu loại và thậm chí là ý nghĩa của từ
làm thành tố chính. Cách sử dụng của cụm từ hay các thành tố trong cụm
từ bao giờ cũng gắn với những tình huống cụ thể.
Ví dụ 1.1.2. Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất
cả những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” là
phần phụ sau.

Tóm lại, cụm từ là một thành phần quan trọng trong câu. Phân tích cụm từ là
bước quá độ trong quá trình phân tích cú pháp của một câu. Hiểu được cấu
tạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ
10

chính xác hơn. Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãn
cụm từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản là
cụm từ và mệnh đề. Nhãn thành phần cú pháp là thông tin cơ bản nhất trên
cây cú pháp, nó tạo thành xương sống của cây cú pháp. Tập nhãn cụm từ
của tiếng Việt theo bảng 1.2.

1.1.4

STT

Tên

1

NP

2

VP

3

AP

4

RP

5

PP

6

QP

7

MDP

8

WHNP

9

WHAP

10

WHRP

11

WHPP

Câu

Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từ
biểu thị một tư tưởng trọn vẹn. Tuy nhiên về mặt nghiên cứu khoa học, định
nghĩa về câu phải xét trên nhiều yếu tố sau:
• Yếu tố hình thức. Câu có cấu tạo ngữ pháp bên trong và bên ngoài có

tính chất tự lập và có một ngữ điệu kết thúc.
• Yếu tố nội dung. Câu có nội dung là một tư tưởng tương đối trọn vẹn và

có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm
của người nói.
• Yếu tố chức năng. Câu có chức năng hình thành và biểu hiện, truyền

đạt tư tưởng, tình cảm. Nó là đơn vị thông báo nhỏ nhất.
• Lĩnh vực nghiên cứu. Câu là đơn vị nghiên cứu của ngôn ngữ.
11

Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về