Tải bản đầy đủ (.pdf) (193 trang)

Luận án tiến sĩ nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 193 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_______________________

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
_______________________

Nguyễn Thị Lương

NGHIÊN CỨU NÂNG CAO HIỆU QUẢ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO TIẾP CẬN HỌC MÁY THỐNG KÊ
Chuyên ngành:

Cơ sở toán cho tin học

Mã số:

9460117.02



LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Lê Hồng Phương
PGS.TS. Đỗ Trung Tuấn
XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ
CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN
Chủ tịch hội đồng đánh giá

Người hướng dẫn khoa học

Luận án Tiến sĩ

PGS.TS. Phan Xuân Hiếu

Hà Nội - 2020

TS. Lê Hồng Phương


Lời cam đoan
Tơi xin cam đoan đây là cơng trình nghiên cứu khoa học của tôi. Các số liệu
sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúng
quy định. Các kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nào
khác.
Hà Nội, ngày 10 tháng 3 năm 2020
Nghiên cứu sinh

Nguyễn Thị Lương



Lời cảm ơn
Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích
cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều
sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học
và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội. Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó.
Tơi xin bày tỏ lịng biết ơn sâu sắc tới TS. Lê Hồng Phương, PGS.TS. Đỗ
Trung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tơi hồn
thành luận án này.
Tơi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệ
Thông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè đã
động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện
và hồn thành luận án này.
Hà Nội, ngày 10 tháng 3 năm 2020
Nghiên cứu sinh
Nguyễn Thị Lương


Mục lục
Danh sách bảng

iv

Danh sách hình vẽ

vii

Mở đầu


1

1 Cơ sở lý thuyết
1.1 Khái niệm cơ bản trong tiếng Việt . . . . . . . . . . . . . . . .
1.1.1 Từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Từ loại . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.4 Câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.5 Cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.6 Vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Cú pháp thành phần . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Bài tốn phân tích cú pháp thành phần . . . . . . . . .
1.2.2 Phương pháp phân tích cú pháp thành phần . . . . . . .
1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần
1.3 Cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Bài tốn phân tích cú pháp phụ thuộc . . . . . . . . . .
1.3.2 Biểu diễn cú pháp phụ thuộc . . . . . . . . . . . . . . .
1.3.3 Các thuật tốn phân tích cú pháp phụ thuộc . . . . . . .
1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc .
1.4 Gán nhãn vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Bài toán gán nhãn vai nghĩa . . . . . . . . . . . . . . . .
1.4.2 Các cơng trình liên quan . . . . . . . . . . . . . . . . . .
1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa . . . . . . .
1.5 Biểu diễn phân bố từ . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Mơ hình Skip-gram . . . . . . . . . . . . . . . . . . . . .
1.5.2 Mơ hình túi từ liên tục . . . . . . . . . . . . . . . . . . .
1.5.3 Mơ hình GloVe . . . . . . . . . . . . . . . . . . . . . . .
1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu . . . . . . . . . . . .
1.6 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i


7
7
7
7
10
11
14
17
20
21
22
25
28
28
29
31
37
43
43
44
48
49
50
51
52
52
54



2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa
tiếng Việt
2.1 Kho ngữ liệu Treebank . . . . . . . . . . . . . . . . . . . . . . .
2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc . . . . . . .
2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt . . . . . . . . . .
2.2.2 Xác định cụm từ trung tâm . . . . . . . . . . . . . . . .
2.2.3 Xác định nhãn phụ thuộc . . . . . . . . . . . . . . . . .
2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú
pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . .
2.2.5 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt . . . . . .
2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt . . . . . . . . . . . . .
2.3.2 Tập luật gán nhãn nhãn vai nghĩa . . . . . . . . . . . . .
2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô . . .
2.3.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . .
2.4 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt
3.1 Phân tích cú pháp thành phần . . . . . . . . . . . . . . . . .
3.1.1 Một số văn phạm phổ biến . . . . . . . . . . . . . . .
3.1.2 Phương pháp phân tích Shift-Reduce . . . . . . . . .
3.1.3 Phương pháp self-attention . . . . . . . . . . . . . . .
3.1.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . .
3.1.5 Kết luận phân tích cú pháp thành phần . . . . . . .
3.2 Phân tích cú pháp phụ thuộc tiếng Việt . . . . . . . . . . .
3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển .
3.2.2 Phân tích cú pháp dựa trên đồ thị . . . . . . . . . .
3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc
3.2.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . .
3.2.5 Kết luận phân tích cú pháp phụ thuộc . . . . . . . .
3.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn
tiếng Việt
4.1 Mơ tả thuật tốn . . . . . . . . . . . . . . . . . . . . .
4.1.1 Khảo sát một số phương pháp . . . . . . . . . .
4.1.2 Phương pháp đề xuất . . . . . . . . . . . . . . .
ii

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

55
56
57
59
69
70
70
75
78
78
81
82
82
83
86
87
87
92
99
102
112
113
113
116
118

122
128
129

vai nghĩa
130
. . . . . 130
. . . . . 130
. . . . . 132


4.2
4.3

4.4

4.5

Quy hoạch tuyến tính nguyên . .
Tập đặc trưng sử dụng . . . . . .
4.3.1 Đặc trưng cơ bản . . . . .
4.3.2 Đặc trưng mới . . . . . . .
Đánh giá kết quả . . . . . . . . .
4.4.1 Phương pháp đánh giá . .
4.4.2 Hệ thống cơ bản . . . . .
4.4.3 Chiến lược gán nhãn . . .
4.4.4 Phân tích đặc trưng . . .
4.4.5 Cải tiến dựa vào ILP . . .
4.4.6 Tốc độ học . . . . . . . .
4.4.7 Sử dụng biểu diễn phân bố

Kết luận . . . . . . . . . . . . . .

. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
từ trong
. . . . .

. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
SRL
. . .


.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

135
138
138
139
139
139
139
140
141
141
144
145
145

Kết luận

146

Các cơng trình cơng bố của luận án

148

Tài liệu tham khảo


150

Phụ lục

159

iii


Danh sách bảng
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9

Tập nhãn từ loại tiếng Việt. . . . . . . . . . . . . . . . . .
Tập nhãn cụm từ tiếng Việt. . . . . . . . . . . . . . . . . .
Tổ chức câu trong tiếng Việt. . . . . . . . . . . . . . . . .
Tập nhãn mệnh đề tiếng Việt. . . . . . . . . . . . . . . . .
Tập nhãn chức năng cú pháp tiếng Việt. . . . . . . . . . .
Các đặc trưng dùng trong MSTParser . . . . . . . . . . . .
Các đặc trưng dùng trong MaltParser . . . . . . . . . . . .
Ví dụ về phân tích cú pháp dựa vào các bước chuyển. . . .
Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc
tiếng Anh và tiếng Trung . . . . . . . . . . . . . . . . . . .

1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc
tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes . . . . .
2.1
2.2
2.3

. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
trên
. . .
trên
. . .
. . .

9
11
12
14
17
33
36
38
40

42
48

2.8
2.9
2.10
2.11
2.12
2.13
2.14

Thống kê nhãn thành phần trong kho viettreebank . . . . . . .
Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt . . . . . . .
So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc
đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD). . . .
Tập quy tắc xác định phần tử trung tâm. . . . . . . . . . . . . .
Một số luật sử dụng để xác định nhãn phụ thuộc . . . . . . . .
Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích. .
Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ
thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] . . . . . . . .
Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] . . . . . . . . .
Tập nhãn phụ trợ tiếng Việt . . . . . . . . . . . . . . . . . . . .
Một số luật xác định gán nhãn vai nghĩa thô . . . . . . . . . . .
Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô . . . . . . .
Một số nhãn vai nghĩa phổ biến . . . . . . . . . . . . . . . . . .
Một số câu tiếng Việt gán nhãn vai nghĩa . . . . . . . . . . . . .

76
77

77
79
81
82
83
85

3.1
3.2

Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce . . . . .
Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng . .

94
95

2.4
2.5
2.6
2.7

iv

57
58
68
69
70
76



3.3
3.4

3.24

Tập mẫu đặc trưng mở rộng . . . . . . . . . . . . . . . . . . . .
95
Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom khơng
cịn người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . .
97
Tập đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . . . . . .
98
Đặc trưng cho phân tích cú pháp thành phần tiếng Việt . . . .
98
Kết quả với tập dữ liệu có số từ ≤ 10 . . . . . . . . . . . . . . . 103
Kết quả với tập dữ liệu có số từ ≤ 35 . . . . . . . . . . . . . . . 103
Một số kết quả phân tích theo mơ hình tích hợp đặc trưng phân
bố từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
So sánh F1 sử dụng đặc trưng CharLSTM và EMLo . . . . . . . 105
Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharLSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106
Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt . 106
Kết quả của MaltParser. . . . . . . . . . . . . . . . . . . . . . . 116
Kết quả của MSTParser. . . . . . . . . . . . . . . . . . . . . . . 118
Đặc trưng MaltParser cho tiếng Việt . . . . . . . . . . . . . . . 124
Đặc trưng MSTParser cho tiếng Việt . . . . . . . . . . . . . . . 124
Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các
bước chuyển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126

Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126
Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127
Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127
Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc
trên VTB_UD . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD . 128

4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9

Độ chính xác của 3 thuật tốn rút trích . . . . .
Độ chính xác của hệ thống cơ bản . . . . . . . .
Độ chính xác của 2 chiến lược gán nhãn . . . .
Tập đặc trưng . . . . . . . . . . . . . . . . . . .
Độ chính xác của tập đặc trưng trong bảng 4.4
Tập đặc trưng . . . . . . . . . . . . . . . . . .
Độ chính xác của tập đặc trưng trong bảng 4.6
Ảnh hưởng của ILP . . . . . . . . . . . . . . . .
Độ chính xác của mỗi loại đối số . . . . . . . . .

3.5
3.6
3.7

3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
3.23

v

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

139
140
140
141
141
142
142
142
143



4.10
4.11
4.12
4.13

Độ chính xác của 2 thuật tốn rút
Độ chính xác của hệ thống . . . .
Ảnh hưởng véctơ từ của vị tự . .
Ảnh hưởng véctơ từ của từ chính

vi

trích
. . .
. . .
. . .

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

144
144
145

145


Danh sách hình vẽ
1
2
3

Các bước cơ bản trong xử lý ngôn ngữ tự nhiên . . . . . . . . .
Mơ hình tổng qt phân tích cú pháp và gán nhãn vai nghĩa. . .
Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu
Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Phân loại từ trong tiếng Việt. . . . . . . . . .
Cây cú pháp thành phần trong tiếng Việt. . .
Q trình phân tích cú pháp thành phần . . .
Cấu trúc phụ thuộc. . . . . . . . . . . . . . .
Đồ thị phụ thuộc của một câu tiếng Việt. . . .
Ví dụ về phân tích cú pháp dựa trên đồ thị. .
Câu tiếng Anh được gán nhãn vai nghĩa. . . .
Khung vị từ Communication trong FrameNet
Khung vị từ Cognition trong FrameNet . . . .
Mơ hình CBOW . . . . . . . . . . . . . . . . .

2.1

Cây cú pháp thành phần “Tôi mong_mỏi sự công_bằng được
thực_hiện và trả lại cho họ.” . . . . . . . . . . . . . . . . . . . .
71
Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_bằng được thực_hiện
và trả lại cho họ.”. . . . . . . . . . . . . . . . . . . . . . . . . .

71
Câu tiếng Việt được gán nhãn vai nghĩa. . . . . . . . . . . . . .
80

2.3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

3

1.1
1.2
1.3
1.4

1.5
1.6
1.7
1.8
1.9
1.10

2.2

.
.
.
.
.
.
.
.
.
.

1
2

Toán tử thay thế . . . . . . . . . . . . . . . . . . . . . . . . . .
Toán tử nối . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Q trình phân tích cú pháp thành phần . . . . . . . . . . . . .
Cây cú pháp thành phần “Mảnh đất của đạn bom khơng cịn
người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mơ hình phân tích cú pháp thành phần sử dụng phương pháp
self-attention[53] . . . . . . . . . . . . . . . . . . . . . . . . . . .

Bước mã hóa tổng quát[53] . . . . . . . . . . . . . . . . . . . . .
Bước mã hóa tổng quát[53] . . . . . . . . . . . . . . . . . . . . .
Minh họa gán nhãn thành phần lỗi giữa cụm động từ với mệnh
đề trong tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . .
Minh họa gán nhãn thành phần lỗi giữa cụm danh từ trong tiếng
Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii

8
20
21
28
30
34
44
45
45
51

90
90
93
96
99
100
101
107
108



3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt
3.11 Minh họa gán nhãn thành phần lỗi cụm liên từ trong tiếng Việt
3.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu
trúc ngang cấp trong tiếng Việt. . . . . . . . . . . . . . . . . . .
3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc riêng và cấu
trúc con do lỗi đính kèm cụm danh từ NP trong tiếng Việt . . .
3.14 Quá trình lặp lại module trong RNN chuẩn chứa tầng đơn giản
3.15 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc dựa trên
bước chuyển [32] . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
4.2
4.3
4.4
4.5

Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu
Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Một số lỗi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cách tiếp cận C-by-C và W-by-W . . . . . . . . . . . . . . . .
Trích xuất thành phần của câu “Bà nói nó là con trai tơi mà” với
vị ngữ “là ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tốc độ học của hệ thống . . . . . . . . . . . . . . . . . . . . . .

viii

109
110
111
112
119

121

131
132
132
135
144


Danh mục từ viết tắt
Từ viết tắt Tiếng Anh
MST
Maximum Spanning Tree
CRF
Conditional Random Field
PCFG
LTAG
LPCFG
SRL
ILP
LTAG
LSTM-LM
ELMo
biLM
GA-RNNG
GLUE

Ý nghĩa
Cây bao trùm cực đại
Trường ngẫu nhiên có điều

kiện
Probabilistic context free Văn phạm phi ngữ cảnh kết
grammar
hợp với xác suất.
Lexicalized tree adjoining Văn phạm kết nối cây từ vựng.
grammar
Lexicalized probabilistic con- Văn phạm phi ngữ cảnh xác
text free grammar
suất từ vựng.
Semantic Role Labelling
Gán nhãn vai nghĩa.
Integer Linear Programing
Quy hoạch tuyến tính số
nguyên.
Lexicalized Tree Adjoining Văn phạm kết nối cây từ vựng
Grammars
hóa.
Long Short Term Memory - mơ hình ngơn ngữ LSTM.
Language Model
Embedding from Language Mơ hình nhúng của ngơn ngữ
Model
Bidirectional Language Model Mơ hình ngơn ngữ hai chiều
Gated Attention Recurrent Văn phạm mạng nơ-rơn hồi
Neural Network Grammar
quy với cơ chế chú ý cổng
General Language Under- Chỉ số đánh giá mức độ hiểu
standing Evaluation
ngôn ngữ của hệ thống

ix



Mở đầu
Giới thiệu
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ
thống máy tính hiểu ngơn ngữ của con người và là vấn đề được nhiều nhà khoa
học trên thế giới quan tâm. Các ứng dụng về lĩnh vực này đa đạng và phong
phú như dịch máy, sinh văn bản, chuyển các văn bản thành dữ liệu có cấu trúc,
phân loại văn bản, rút trích thơng tin, v.v. . . Q trình xử lý ngơn ngữ tự nhiên
gồm một số vấn đề chính sau: phân tích hình thái từ, phân tích từ loại, phân
tích cú pháp và phân tích ngữ nghĩa như hình 1.
Phân tích

Phân tích

Phân tích

Phân tích

hình thái từ

từ loại

cú pháp

ngữ nghĩa

Hình 1: Các bước cơ bản trong xử lý ngôn ngữ tự nhiên

Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ tự

nhiên. Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú pháp của
câu để hiểu được ý nghĩa của văn bản. Nó cung cấp một nền tảng vững chắc cho
lĩnh vực xử lý văn bản thơng minh. Có nhiều văn phạm có thể sử dụng trong
phân tích cú pháp như phân tích cú pháp sử dụng văn phạm phi ngữ cảnh, văn
phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa, văn phạm cấu trúc hướng
trung tâm, văn phạm kết nối cây, v.v. . . Trong đó phân tích cú pháp thành
phần sử dụng văn phạm phi ngữ cảnh và phân tích cú pháp phụ thuộc đang
được nhiều nhóm quan tâm nghiên cứu.
Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]:
• Mức thứ nhất là tách từ và xác định thông tin từ loại;
• Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại do
bước trước cung cấp.
Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn đề
nhập nhằng ở cả hai mức. Tiếp theo sau của bước phân tích cú pháp là bước
phân tích ngữ nghĩa trong tiếng Việt. Gán nhãn vai nghĩa là một nhánh trong
phân tích ngữ nghĩa của câu. Kết quả của phân tích cú pháp và gán nhãn vai
nghĩa tốt có thể được tích hợp vào những ứng dụng trong xử lý ngơn ngữ tự
nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự động, trích rút thơng
tin, v.v. . .
1


Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gán nhãn
vai nghĩa là sử dụng học máy thống kê. Học máy thống kê có mặt trong hàng
loạt ứng dụng hiện đại như: công nghệ tìm kiếm thơng tin; chương trình lọc
thư rác; xe ơ tô, máy bay không người lái; xử lý ngôn ngữ, tiếng nói, hình ảnh;
các chương trình bảo mật mạng,v.v. . . Mục tiêu chính của học máy thống kê là
phối hợp thuật tốn máy tính và các mơ hình thống kê để tìm ra các cấu trúc
có liên hệ về mặt toán học trong những tập dữ liệu hỗn tạp, đa dạng và nhiều
nhiễu như mạng Internet toàn cầu, giao dịch chứng khốn, hình ảnh X-quang

chẩn bệnh. Đặc biệt, trong nhưng năm gần đây kết quả của phân tích cú pháp
và gán nhãn vai nghĩa sử dụng học máy thống kê đạt được kết quả cao trên
nhiều ngôn ngữ khác như tiếng Anh, tiếng Trung, v.v. . . Đối với tiếng Việt, đã
có một số nghiên cứu về phân tích cú pháp thành phần tuy nhiên độ chính xác
chưa cao so với ngơn ngữ khác.
Do đó, luận án đã tập trung giải quyết bài tốn sau:
• Đầu vào: Dữ liệu đã được tách từ và gán nhãn từ loại.
• Đầu ra: Dữ liệu được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và
gán nhãn vai nghĩa.
• Phương pháp: sử dụng phương pháp học máy để giải quyết bài tốn. Gồm
các bước chính sau:
1. Xây dựng kho ngữ liệu cú pháp phụ thuộc tiếng Việt.
2. Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt.
3. Tiếp cận các phương pháp học máy để giải quyết bài tốn. Mơ hình
tổng quát sử dụng học máy thống kê cho bài tốn phân tích cú pháp
và gán nhãn vai nghĩa tiếng Việt trong hình 2.

Hình 2: Mơ hình tổng qt phân tích cú pháp và gán nhãn vai nghĩa.
2


Mơ hình sử dụng thuật tốn học có giám sát. Dữ liệu huấn luyện là kho ngữ
liệu được gán nhãn cú pháp và gán nhãn vai nghĩa. Kết quả của bước huấn
luyện sẽ thu được mơ hình phân tích cú pháp và gán nhãn vai nghĩa. Mơ hình
phân tích chứa tập tham số cũng như một số đặc trưng riêng. Sử dụng mơ hình
phân tích để dự đốn gán nhãn cú pháp và vai nghĩa cho dữ liệu mới. Để phân
tích cú pháp và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quan
tâm đến hai vấn đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp và
vai nghĩa; phương pháp phân tích cú pháp và gán nhãn vai nghĩa. Kho ngữ liệu
gán nhãn cú pháp và vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểm

tra tính chính xác của cơng cụ phân tích cú pháp và vai nghĩa. Đối với tiếng
Việt, kho ngữ liệu hơn 10,000 câu được gán nhãn cú pháp thành phần của dự
án VLSP chính là tập dữ liệu chính thức đầu tiên được xây dựng và hiệu chỉnh
trong những năm gần đây. Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫn
còn rất hạn chế kể cả số lượng lẫn chất lượng và chưa có kho ngữ liệu gán nhãn
vai nghĩa dẫn đến chưa có nhiều nghiên cứu về vấn đề phân tích cú pháp và
gán nhãn vai nghĩa tiếng Việt nói chung. Vì vậy, việc xây dựng kho ngữ liệu gán
nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt là giai đoạn quan trọng. Dựa
trên thông tin cú pháp thành phần trong viettreebank, tác giả đã rút trích các
thơng tin để xây dựng kho dữ liệu gán cú pháp phụ thuộc và kho dữ liệu gán
nhãn vai nghĩa. Xét ví dụ câu “Nam đá bóng.” được gán nhãn cú pháp thành
phần, cú pháp phụ thuộc và vai nghĩa như trong hình 3: Hình 3.a cho biết thơng
Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng
S

N-H

.

VP

NP-SUB

V-H

S

Arg0

NP


.

.

VP

NP-SUB
Rel

Arg1

N-H

V-H

NP

Nam

đá

N

.

root
punct

Nam


đá

N
bóng

a. Cây cú pháp thành phần

nsubj

dobj

Nam đá bóng .
N V N .
b. Cây cú pháp phụ thuộc

bóng
c. Gán nhãn vai nghĩa

tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP. Từ hình 3.a
có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá là
động từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từ
chính từ đó xác định được thơng tin phụ thuộc giữa (đá, bóng) có nhãn là tân
ngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được
3


các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ đá,
punct(đá, .) “.” là dấu câu phụ thuộc vào từ chính. Hoặc xác định thơng tin cho
vai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác định nhãn vai

nghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũng chính là vị từ
(Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ đá có nhãn vai
nghĩa (Arg1). Qua khảo sát tác giả nhận thấy ngồi việc khai thác thơng tin cú
pháp phụ thuộc từ viettreebank có thể khai thác thêm thơng tin gán nhãn vai
nghĩa. Đó cũng là lý do bổ sung thêm nghiên cứu gán nhãn vai nghĩa trong đề
tài này.
Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án đã
nghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trên tiếng Anh
từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt.

Mục tiêu luận án
Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vai nghĩa
tiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trung giải quyết
các vấn đề chính sau:
• Xây dựng bộ nhãn phụ thuộc và bộ nhãn vai nghĩa cho tiếng Việt.
• Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩa
cho tiếng Việt.
• Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu quả phân
tích cú pháp và gán nhãn vai nghĩa tiếng Việt.

Tóm tắt luận án
Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về cú
pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ. Xây dựng tập
nhãn phụ thuộc và vai nghĩa cho tiếng Việt. Sau đó luận án đề xuất phương
pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩa
cho tiếng Việt. Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần tiếng Việt
tác giả đã thử nghiệm phân tích cú pháp thành phần trên 2 phương pháp chính:
dựa trên phương pháp shift-reduce và phương pháp self-attention. Tích hợp đặc
trưng biểu diễn phân bố từ vào phương pháp phân tích cú pháp phụ thuộc dựa
trên đồ thị và dựa trên các bước chuyển. Phần cuối cùng, dựa trên kho ngữ liệu

gán nhãn vai nghĩa tác giả đã xây dựng và trình bày phương pháp gán nhãn vai
nghĩa trên tiếng Việt.
4


Đóng góp của luận án
Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhóm
VSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp về
mặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt.
1. Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩa
trên tiếng Việt. Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gán
nhãn cú pháp thành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vai
nghĩa trên tiếng Việt. Tác giả đã xây dựng thành công 10,165 câu tiếng Việt
được gán nhãn cú pháp phụ thuộc. Thực hiện gán nhãn phụ thuộc đa ngôn
ngữ lại thủ công được 3,000 câu tiếng Việt đưa lên kho ngữ liệu cú pháp
phụ thuộc đa ngôn ngữ tại địa chỉ Đồng
thời, tác giả đã xây dựng được 5,460 câu gán nhãn vai nghĩa cho tiếng Việt.
2. Về phương pháp, tác giả áp dụng phương pháp phân tích cú pháp và gán
nhãn vai nghĩa:
• Đối với bài tốn phân tích cú pháp thành phần: đề xuất tích hợp véctơ
phân bố từ vào hệ thống phân tích cú pháp thành phần dựa trên bước
chuyển shift-reduce để nâng cao hiệu quả phân tích cú pháp thành phần
trên tiếng Việt. Phân tích lỗi dành cho tiếng Việt dựa trên phương pháp
phân tích cú pháp thành phần self-attention.
• Đối với bài tốn phân tích cú pháp phụ thuộc: dựa trên kho ngữ liệu đã
xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phân
tích cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser.
• Đối với bài tốn gán nhãn vai nghĩa: áp dụng phương pháp quy hoạch
tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt
và đề xuất thuật tốn rút trích thành phần để nâng cao hiệu quả gán

nhãn vai nghĩa tiếng Việt.

Cấu trúc luận án
Phần tiếp theo của luận án được trình bày lần lượt như sau:
• Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếng
Việt. Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thành
phần, cú pháp phụ thuộc và vai nghĩa trong tiếng Việt. Tiếp theo là 4
phương pháp để biểu diễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo.
• Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụ
thuộc và vai nghĩa trên tiếng Việt. Đề xuất phương pháp chuyển kho ngữ
5


liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai nghĩa
tiếng Việt.
• Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú pháp
thành phần, cú pháp phụ thuộc trên tiếng Việt. Đầu tiên, luận án giới
thiệu một số văn phạm phổ biến phân tích cú pháp thành phần. Tiếp theo,
trình bày chi tiết và đánh giá kết quả thử nghiệm phân tích cú pháp thành
phần tiếng Việt trên 2 phương pháp: shift-reduce và self-attention. Cuối
cùng, tác giả trình bày và đánh giá thử nghiệm phân tích cú pháp phụ
thuộc dựa trên bước chuyển và đồ thị cho tiếng Việt. Đề xuất tích hợp đặc
trưng biểu diễn phân bố từ vào các hệ thống MaltPaser, MSTParser và
Bist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt.
• Chương 4: tác giả mơ tả tập đặc trưng và phương pháp quy hoạch tuyến
tính để gán nhãn vai nghĩa cho tiếng Việt. Đánh giá và phân tích kết quả
gán nhãn vai nghĩa tiếng Việt.
• Phần kết luận: tóm tắt một số kết quả đạt được và hướng phát triển trong
tương lai.


6


Chương 1

Cơ sở lý thuyết
Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong luận
án. Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt [1,2,10] như
từ, từ loại, cụm từ, ... Tiếp theo, mục 2, 3, 4 trình bày bài tốn phân tích cú
pháp thành phần, bài tốn phân tích cú pháp phụ thuộc và bài tốn gán nhãn
vai nghĩa. Mục 5 trình bày các mơ hình biểu diễn phân bố từ: skip-gram, túi từ
liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu.

1.1
1.1.1

Khái niệm cơ bản trong tiếng Việt
Từ

Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có nghĩa
và có thể hoạt động tự do trong câu. Đơn vị cơ sở cấu tạo của từ tiếng Việt
là tiếng. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể tự
mình khơng có nghĩa [1].
Từ có nhiều cách phân loại khác nhau. Xét về số lượng tiếng có:
• Từ chỉ chứa một tiếng: là từ đơn. Ví dụ: nhà, đã ...
• Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức. Ví dụ: nhà cửa,
xanh lè, sạch sẽ ...
Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất có
nghĩa, ta có:
• Từ chỉ có một từ tố, gọi là từ đơn tố. Ví dụ: nhà, đủng đỉnh ...

• Từ chứa nhiều tố, gọi là từ đa tố. Ví dụ: nhà cửa, xe đạp, sạch sẽ ...
Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách
ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ ... Kết hợp cả ba mặt trên,
có phân loại từ theo lược đồ trong hình 1.1:
1.1.2

Từ loại

Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau
về đặc trưng từ loại. Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự
7


Từ

Từ đơn
(1 tiếng)

Từ phức
(nhiều tiếng)

Từ láy

Từ ngẫu kết

Từ đơn tố

Từ ghép

Từ đa tố


Hình 1.1: Phân loại từ trong tiếng Việt.

nhất trí hồn tồn. Các tiêu chuẩn đặc trưng để phân loại thường dùng bao
gồm:
• Ý nghĩa khái quát. Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ,
trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp
chung. Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại.
Đó là những nhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưng
phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái ...
• Khả năng kết hợp từ. Các từ có khả năng tham gia vào một kết hợp có
nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần
lượt thay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từ
cịn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ
nói trên. Khả năng kết hợp của từ trong các ngơn ngữ thuộc loại hình đơn
lập, là sự phân bố trật tự và việc sử dụng các từ phụ để biểu hiện các ý
nghĩa ngữ pháp bên ngồi từ.
• Chức năng cú pháp. Tham gia vào cấu tạo câu, các từ có thể đứng ở một
vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở
các vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với
các thành phần khác trong cấu tạo câu, có thể phân vào một từ loại. Tuy
nhiên phải xem xét chức năng cú pháp nào của từ là chủ yếu để làm căn cứ
8


phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trong
câu.
Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tập nhãn
từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank [72]
như sau: về nguyên tắc, các thơng tin về từ có thể được chứa trong nhãn từ loại

bao gồm: từ loại cơ sở (danh từ, động từ, v.v...), thơng tin hình thái (số ít, số
nhiều, thì, ngơi, v.v...), thơng tin về phân loại con (ví dụ động từ đi với danh
từ, động từ đi với mệnh đề, v.v...), thông tin ngữ nghĩa, hay một số thông tin
cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin
về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con,
v.v... Tiếng Việt có hệ thống từ loại theo bảng 1.1.2.
Bảng 1.1: Tập nhãn từ loại tiếng Việt.
STT

Tên

Chú thích

1

N

Danh từ

2

Np

Danh từ riêng

3

Nc

Danh từ chỉ loại


4

Nu

Danh từ đơn vị

5

V

Động từ

6

A

Tính từ

7

P

Đại từ

8

L

Định từ


9

M

Số từ

10

R

Phụ từ

11

E

Giới từ

12

C

Liên từ

13

I

Thán từ


14

T

Trợ từ, tiểu từ, từ tình thái

15

U

Từ đơn lẻ

16

Y

Từ viết tắt

17

X

Các từ không phân loại được

9


1.1.3


Cụm từ

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp tự do với nhau theo
những quan hệ ngữ pháp nhất định và không chứa kết từ ở đầu.
Ví dụ 1.1.1. Cụm từ: “tơi đã nói với anh hôm qua”, “nghèo nhưng tốt bụng” ...
Cụm từ được gọi tên theo từ loại của thành tố chính trong cụm. Trong tiếng
Việt, có thể gặp những loại cụm từ sau đây:
• Cụm danh từ: mấy người này, hai người ...
• Cụm động từ: đã đọc rồi, vừa làm ...
• Cụm tính từ: vẫn tốt hơn, tốt q ...
• Cụm số từ: độ ba mươi, hơn ba mươi một chút ...
• Cụm đại từ: hai chúng tơi, tất cả chúng tôi đây ...
Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt:
• Phần phụ trước: là phần đứng trước thành tố chính.
• Phần trung tâm: là phần chứa thành tố chính.
• Phần phụ sau: là phần đứng sau thành tố chính.
Thành tố chính giữ vai trị quan trọng về ngữ pháp trong cụm từ, là đại diện
cho toàn bộ cụm từ trong mối liên hệ giữa các yếu tố khác nằm ngồi cụm từ.
Do đó, chức vụ cú pháp của toàn bộ cụm từ trong kiến trúc lớn hơn nó gắn bó
mật thiết với chức vụ cú pháp của thành tố chính. Thành tố chính trong cụm
từ cịn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình, nó quyết định
chức vụ cú pháp của tất cả các thành tố phụ có liên quan. Nội dung ý nghĩa của
thành tố chính quyết định khả năng gia nhập các kiến trúc lớn hơn của toàn bộ
cụm từ. Tuy nhiên, phải nhờ có thành tố phụ thì mới có thể xác định được bản
chất từ loại, tiểu loại và thậm chí là ý nghĩa của từ làm thành tố chính. Cách
sử dụng của cụm từ hay các thành tố trong cụm từ bao giờ cũng gắn với những
tình huống cụ thể.
Ví dụ 1.1.2. Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất cả
những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” là phần phụ
sau.

Tóm lại, cụm từ là một thành phần quan trọng trong câu. Phân tích cụm
từ là bước q độ trong q trình phân tích cú pháp của một câu. Hiểu được
cấu tạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ
10


chính xác hơn. Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãn cụm
từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản là cụm từ và
mệnh đề. Nhãn thành phần cú pháp là thơng tin cơ bản nhất trên cây cú pháp,
nó tạo thành xương sống của cây cú pháp. Tập nhãn cụm từ của tiếng Việt theo
bảng 1.2.
Bảng 1.2: Tập nhãn cụm từ tiếng Việt.

1.1.4

STT

Tên

Chú thích

1

NP

Cụm danh từ

2

VP


Cụm động từ

3

AP

Cụm tính từ

4

RP

Cụm phụ từ

5

PP

Cụm giới từ

6

QP

Cụm từ chỉ số lượng

7

MDP


Cụm từ tình thái

8

WHNP

Cụm danh từ nghi vấn (ai, cái gì, con gì ...)

9

WHAP

Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao ...)

10

WHRP

Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn ...

11

WHPP

Cụm giới từ nghi vấn (với ai, bằng cách nào ...)

Câu

Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từ biểu

thị một tư tưởng trọn vẹn. Tuy nhiên về mặt nghiên cứu khoa học, định nghĩa
về câu phải xét trên nhiều yếu tố sau:
• Yếu tố hình thức. Câu có cấu tạo ngữ pháp bên trong và bên ngồi có tính
chất tự lập và có một ngữ điệu kết thúc.
• Yếu tố nội dung. Câu có nội dung là một tư tưởng tương đối trọn vẹn và
có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm của
người nói.
• Yếu tố chức năng. Câu có chức năng hình thành và biểu hiện, truyền đạt
tư tưởng, tình cảm. Nó là đơn vị thơng báo nhỏ nhất.
• Lĩnh vực nghiên cứu. Câu là đơn vị nghiên cứu của ngôn ngữ.
11


Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vị
nghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngồi) tự lập và có
ngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ, sự đánh
giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói, giúp
hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Câu đồng thời là đơn vị
thông báo nhỏ nhất của ngôn ngữ.
Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đến chức
năng cú pháp của các từ và tổ hợp từ trong câu. Mỗi từ, mỗi cụm từ, hay tổ
hợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ có tác dụng
đánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng và những liên
từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cú pháp. Có thể lược đồ
hóa tổ chức của câu như trong bảng 1.3:
Bảng 1.3: Tổ chức câu trong tiếng Việt.
Trạng ngữ
Liên từ

Đề ngữ


Chủ ngữ / Vị ngữ

Phụ ngữ câu

Giải ngữ

• Câu đơn: Là câu chỉ có một vế. Cần phân biệt câu đơn với câu ghép và câu
mở rộng thành phần. Câu đơn thường có một chủ ngữ, một vị ngữ và có thể
có một hoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn không
xác định được chủ ngữ, vị ngữ. Đó là trường hợp câu đặc biệt. Ví dụ:
– Câu đơn bình thường: Trời mưa.
– Câu đơn thuộc trường hợp đặc biệt: Vâng ạ!
• Câu ghép: Câu ghép là câu do nhiều vế câu ghép lại, mỗi vế câu thường có
cấu tạo giống câu đơn có cụm chủ-vị và thể hiện một ý có quan hệ chặt chẽ
với ý của những câu khác. Các câu ghép bắt buộc phải có hai cụm chủ-vị
trở lên. Hai vế của câu ghép được nói bằng nhiều cách. Nhưng cách cơ bản
nhất là nối trực tiếp, nối bằng quan hệ từ và cặp từ hô ứng.
– Câu ghép đẳng lập: Là câu ghép được nối với nhau bằng cách sử dụng
cách nối trực tiếp.
Ví dụ: Lan học khoa ngữ văn, Tình học khoa cơng nghệ thơng tin.
– Câu ghép chính – phụ: Là câu ghép được nối với nhau bằng cách sử
dụng quan hệ từ hoặc cặp từ hơ ứng.
Ví dụ: Nếu em học giỏi thì ba mẹ em sẽ rất mừng.
12


×