BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THỊ THU HƯƠNG
MƠ HÌNH
VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học:
GS. TS. NGUYỄN THÚC HẢI
GS.TS. NGUYỄN THANH THỦY
Hà Nội - Năm 2013
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................................ 4
DANH MỤC CÁC HÌNH VẼ ............................................................................................. 5
DANH MỤC BẢNG BIỂU ................................................................................................. 8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ................................................................. 9
MỞ ĐẦU............................................................................................................................. 11
CHƯƠNG 1
TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGÔN
NGỮ TỰ NHIÊN ............................................................................................................... 20
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ........................................ 20
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên ............................... 20
1.1.2. Văn phạm phi ngữ cảnh xác suất......................................................... 23
1.1.3. Văn phạm phi ngữ cảnh xác suất từ vựng hóa .................................... 26
1.1.4. Văn phạm kết nối cây .......................................................................... 28
1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất .......................................... 29
1.3. Cách tiếp cận phụ thuộc ................................................................................ 30
1.3.1. Một số khái niệm ................................................................................. 30
1.3.2. Tính chất của cây phụ thuộc ................................................................ 33
1.4. Văn phạm liên kết.......................................................................................... 35
1.4.1. Khái niệm văn phạm liên kết ............................................................... 35
1.4.2. Các định nghĩa hình thức về văn phạm liên kết .................................. 39
1.5. Kết luận ......................................................................................................... 41
CHƯƠNG 2 MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT ............................. 45
2.1. Văn phạm liên kết cho tiếng Việt .................................................................. 45
2.1.1. Cấu trúc từ điển liên kết ...................................................................... 45
2.1.2. Xây dựng liên kết cho danh từ ............................................................ 49
2.1.3. Các liên kết cho động từ ...................................................................... 57
2.1.4. Các liên kết cho tính từ........................................................................ 62
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản ................................... 63
2.2. Mở rộng từ điển văn phạm liên kết ............................................................... 65
2.2.1. Giải thuật mở rộng từ điển .................................................................. 67
1
2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt ................................. 69
2.2. Kết luận.......................................................................................................... 69
CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ................... 72
3.1. Bộ phân tích cú pháp liên kết ........................................................................ 72
3.1.1. Giải thuật phân tích cú pháp ................................................................ 72
3.1.2. Lược tỉa................................................................................................ 74
3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản ............ 76
3.2. Phân tích cú pháp cho câu ghép .................................................................... 79
3.2.1. Xây dựng cây diễn ngôn ...................................................................... 83
3.2.2. Giải thuật phân tích cú pháp câu ghép ................................................ 92
3.2.3. Tìm từ để kết nối mệnh đề................................................................... 94
3.2.4. Kết quả thử nghiệm phân tích câu ghép .............................................. 96
3.2.5. Độ phức tạp tính toán .......................................................................... 99
3.3. Khử nhập nhằng ............................................................................................ 99
3.3.1. Khử nhập nhằng thành phần .............................................................. 100
3.3.2. Khử nhập nhằng liên hợp .................................................................. 106
3.4. Kết luận ....................................................................................................... 110
CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI .
................................................................................................................. 112
4.1. Tổng quan về dịch máy ............................................................................... 112
4.1.1. Tình hình phát triển dịch máy ở Việt Nam ....................................... 112
4.1.2. Phương pháp đánh giá chất lượng dịch máy ..................................... 114
4.2. Khác biệt ngơn ngữ Việt - Anh ................................................................... 115
4.2.1. Khác biệt hình thái ............................................................................ 115
4.2.2. Khác biệt về trật tự từ ........................................................................ 118
4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải.................................... 119
4.3.1.Tìm nghĩa từ trong từ điển ADJ ......................................................... 121
4.3.2. Xây dựng bộ luật dịch ....................................................................... 122
4.3.3. Hoàn thiện câu dịch ........................................................................... 129
4.3.4. Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải .... 129
2
4.4. Kết luận ...................................................................................................... 134
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..................................................................... 136
Tóm tắt ............................................................................................................... 136
Các đóng góp chính của luận án......................................................................... 136
Về mặt khoa học .......................................................................................... 136
Về mặt thực tiễn .......................................................................................... 137
Hạn chế và hướng phát triển .............................................................................. 138
CÁC CÔNG TRÌNH ĐÃ CƠNG BỐ ............................................................................. 139
TÀI LIỆU THAM KHẢO............................................................................................... 140
TIẾNG VIỆT ...................................................................................................... 140
TIẾNG ANH ...................................................................................................... 142
TIẾNG NGA ...................................................................................................... 150
CÁC WEBSITE ................................................................................................. 150
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG
VIỆT ................................................................................................................................. 151
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ
CÂU GHÉP HAI MỆNH ĐỀ.......................................................................................... 169
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH ...................................................... 178
1. Luật xác định thuộc tính ................................................................................. 178
2. Luật dịch cụm từ............................................................................................. 179
3. Luật chuyển đổi cấu trúc ................................................................................ 182
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU............................... 183
3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
HMM
Hidden Markov Model: Mơ hình Markov ẩn
BNF
Backus Naur Form: Cơng thức siêu ngữ Backus
ADJ
Annotated Disjunct: Dạng tuyển có chú giải
RST
Rhetorical Structure Tree: Cây cấu trúc diễn ngôn
CCR
Chunks/Constituents/Relation
SVO
Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ
SVM
Support Vector Machine: Máy vectơ hỗ trợ
CRF
Conditional Random Fields: Trường ngẫu nhiên có điều kiện
EDU
Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố
HPSG
Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm
EBNF
Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng
4
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Cây ngữ cấu của câu “Tơi thích chân gà”. .............................................. 21
Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào
ngày mai”. ................................................................................................................. 22
Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM
bought Lotus” ........................................................................................................... 27
Hình 1.4. Phân tích câu “John loves a woman” trong một mơ hình văn phạm phụ
thuộc ......................................................................................................................... 31
Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial
market” ..................................................................................................................... 32
Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu khơng tới”........................................... 36
Hình 1.7. Kết nối lớn của từ “và” ........................................................................... 38
Hình 1.8. Chu trình trong phân tích câu .................................................................. 39
Hình 1.9. Nút liên kết............................................................................................... 41
Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố ............................................. 50
Hình 2.2. Liên kết trong cụm từ “những cái bàn” ................................................... 53
Hình 2.3. Liên kết trong cụm từ “cái giường lị xo” ............................................ .. 55
Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ”. ...............................................56
Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” .................................................. 56
Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tơi” ......................... 56
Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” .................................. 57
Hình 2.8. Thành tố phụ đi trước mọi động từ .......................................................... 58
Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” ................................................... 59
Hình 2.10. Liên kết trong cụm từ “khơng hay đọc sách này” ................................. 59
5
Hình 2.11. Liên kết trong cụm từ “đang rất sợ”...................................................... 61
Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét” ........................................... 63
Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa.................................. 64
Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy ........ 65
Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề ......... 65
Hình 2.16. Một đoạn trong từ điển văn phạm liên kết ............................................. 66
Hình 2.17. Ánh xạ trực cảm ..................................................................................... 68
Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt...................... 70
Hình 3.1. Giải thuật phân tích .................................................................................. 72
Hình 3.2. Lời giải cục bộ ......................................................................................... 72
Hình 3.3. Giải thuật phân tích cú pháp liên kết ....................................................... 73
Hình 3.4. Hàm COUNT cho số phân tích của câu.................................................. 73
Hình 3.5. Cây cho cơng thức (NN- &{NN+}) or ({PqNt-} & {NN+}) .................. 75
Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ................................. 76
Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tơi muốn giành các danh
hiệu” ......................................................................................................................... 77
Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt
trơi” ........................................................................................................................... 77
Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn cơn trùng” ... 78
Hình 3.10. Cây phân tích diễn ngơn của câu “[trời mưa rất to vàA1] [gió rất mạnh
nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” .......................................... 83
Hình 3.11. Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) ........................... 88
Hình 3.12. Hàm isClause ......................................................................................... 89
Hình 3.13. Các dạng cây cấu trúc diễn ngơn ........................................................... 92
Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ............................................ 93
6
Hình 3.15. Hàm Insert_Link_From_RST_Tree ....................................................... 94
Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tơi mua một bơng
hoa” .......................................................................................................................... 95
Hình 3.17. Phân tích câu “Tơi mua một bơng hoa” ................................................. 95
Hình 3.18. Phân tích cụm từ “một cái bút rất tốt” ................................................... 96
Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải
nghỉ học, mẹ tôi phải nghỉ làm” ............................................................................... 97
Hình 3.20. Hai phân tích của câu “Tơi mua một bơng hoa” ................................. 101
Hình 3.21. Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao nhất ..... 102
Hình 3.22. Mơ tả cách tính xác suất PrO ⊲ left L, W, l ⊳, ⊲ leftd ...................... 104
O
Hình 3.23. Minh họa mối liên kết để tính
............................................... 105
Hình 3.24. Phân tích câu “Tơi thích bánh và kẹo, anh thích rượu và bia” ........... 108
Hình 3.25. Một phân tích với kết nối F cho từ “và” .............................................. 109
Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”............................................. 110
Hình 4.1. Sắp xếp lại trật tự từ ............................................................................... 118
Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải .......................... 121
Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” .................. 126
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” ..... 131
Hình 4.5. So sánh điểm BLEU của các hệ thống................................................. 133
7
DANH MỤC BẢNG BIỂU
Bảng 1.1. Ví dụ của một từ điển .............................................................................. 36
Bảng 2.1.Các loại từ tiếng Việt ................................................................................ 47
Bảng 2.2. Các tiểu loại từ tiếng Việt ........................................................................ 47
Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết .................... 78
Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu ............................................. 78
Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngơn (chưa kết hợp phân tích cú
pháp) ......................................................................................................................... 81
Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng84
Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ....................................... 85
Bảng 3.6. Chi tiết tập mẫu câu ghép ........................................................................ 97
Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ................................................. 98
Bảng 3.8. So sánh kết quả phân tích diễn ngơn ..................................................... 108
Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 116
Bảng 4.2. Đại từ xưng hô tiếng Anh ...................................................................... 117
Bảng 4.3. Đại từ xưng hô tiếng Việt ...................................................................... 117
Bảng 4.4. So sánh kết quả các hệ thống dịch ......................................................... 132
8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG
CLI
Kết nối chỉ chất liệu (ẩn giới từ).
DI
Kết nối động từ “đi” với động từ khác.
DpN
Kết nối định từ chỉ số nhiều với danh từ.
DpNt
Kết nối định từ chỉ số nhiều với danh từ cụ thể.
DsN
Kết nối định từ chỉ số ít với danh từ.
DT_LA
Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”.
ĐT_XONG
Kết nối một động từ và động từ “xong”.
EoPp
Kết nối giới từ “của” với đại từ xưng hơ.
EpNt
Kết nối giới từ chỉ vị trí và danh từ cụ thể.
EsNt
Kết nối danh từ cụ thể và giới từ phạm vi.
LA_DT
Kết nối động từ “là” với danh từ.
McNu
Kết nối số từ và danh từ chỉ đơn vị.
NcNt1
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người.
NcNt2
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật.
NcNt3
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât.
NcNt4
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng.
NcNt5
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng.
NcNt6
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm.
NEo
Kết nối danh từ và giới từ chỉ sở hữu.
NN
Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm…
NtEm
Kết nối danh từ cụ thể và giới từ chỉ chất liệu.
NtEs
Kết nối giới từ phạm vi và danh từ cụ thể.
NtPd
Kết nối danh từ cụ thể với đại từ chỉ định.
NuNt
Kết nối danh từ chỉ đơn vị và danh từ cụ thể.
NHAT_DT
Kết nối từ “nhất” với danh từ đứng sau.
O
Kết nối động từ và bổ ngữ trực tiếp.
RcV
Kết nối động từ với phụ từ so sánh.
RfA
Kết nối phụ từ thời gian (tương lai) và tính từ.
9
RfVt
Kết nối định từ chỉ thì tương lai và động từ.
RfVt
Kết nối động từ với phụ từ thời gian (tương lai).
RhA
Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ.
RhV
Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ.
RmV
Kết nối động từ với phụ từ mệnh lệnh.
RnV
Kết nối phủ định từ và động từ.
RnV1
Kết nối động từ với phụ từ phủ định.
RpA
Kết nối phụ từ thời gian (quá khứ) và tính từ.
RpV
Kết nối động từ với phụ từ thời gian (quá khứ).
RpVt
Kết nối định từ chỉ thì quá khứ và động từ.
RtA
Kết nối phụ từ thời gian (hiện tại) và tính từ.
RtV
Kết nối động từ với phụ từ thời gian (hiện tại).
SA
Kết nối danh từ, đại từ xưng hơ với tính từ.
SA
Kết nối danh từ và tính từ.
SH
Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu.
SHA
Kết nối hai danh từ chỉ quan hệ sở hữu ẩn.
SS_NHAT
Kết nối tính từ với từ “nhất”.
SV
Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ.
THS
Kết nối các từ để hỏi đứng sau động từ và động từ.
THT
Kết nối các từ để hỏi đứng trước động từ và động từ.
VmVt
Kết nối động từ tình thái và động từ cụ thể.
VtAp
Kết nối ngoại động từ và tính từ chỉ tính chất.
VtEp
Kết nối ngoại động từ và giới từ vị trí.
VtVs
Kết nối động từ ngoại động và động từ trạng thái.
10
MỞ ĐẦU
Xử lý ngơn ngữ tự nhiên trên máy tính là một trong những bài tốn khó của cơng nghệ
thơng tin. Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của
thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử. Dù được bắt đầu muộn hơn, xử lý tiếng
Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên
mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào
tạo, hội thảo từ xa... Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp
cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản. Do phạm vi của đề tài, luận án
chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản.
Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ
phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm. Đầu tiên là những bộ phân tích
cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích
cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ
phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và
các đồng nghiệp [5]. Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng
văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng
trung tâm[15]. Nhiều mơ hình văn phạm khác cũng được xây dựng cho tiếng Việt với để
mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị
Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ
cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng
[26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của
Chomsky[63]: lớp ngôn ngữ loại 0.
Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn. Hiện nay
các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các
hướng tiếp cận khác nhau. Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự
nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song
ngữ [3]. Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của
Nacentech theo cách tiếp cận dựa trên luật [10]. Một hệ thống dịch khác đạt chất lượng khá
tốt là hệ thống Vietgle chuyên dịch Anh Việt của Lạc Việt. Ngồi ra cịn có các hệ dịch
máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê
Việt Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành phố
Hồ Chí Minh [124]. Cũng không thể không nhắc đến hệ thống dịch Google Translate theo
11
hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google. Nhìn chung, các sản phẩm
dịch tự động chủ yếu theo hướng Anh - Việt. Số lượng và chất lượng của các hệ thống dịch
Việt Anh còn hạn chế.
Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các
lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như
Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm
Hà Thành Lê [15]... Tuy nhiên, khơng có nhiều nghiên cứu được thực hiện trên văn bản
tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội
dung trang web tiếng Việt của nhóm Đỗ Phúc [19].
Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc
trong các hệ thống xử lý tiếng Việt. Công cụ phân tách từ vnTokenizer đã được Nguyễn
Thị Minh Huyền và các đồng nghiệp phát triển, sử dụng ôtô mat hữu hạn kết hợp phân tích
biểu thức chính quy để xác định các chuỗi từ [102]. Trường hợp nhập nhằng được giải
quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách cho kết quả chứa những
từ có độ dài lớn nhất. Phương pháp này đạt độ chính xác cao với bộ ngữ liệu mẫu (trên
98,5%) [116]. Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu [121] sử dụng công
nghệ CRF và SVM cũng cho kết quả 94%. Ngồi ra có thể kể đến bộ tách từ của Lê An Hà
[60] tính xác suất và độ hợp lý cực đại (maximum likelihood). Bài toán gán nhãn từ loại
thường được giải quyết cùng bài toán tách từ. Cùng với bộ JVnSegmenter, các tác giả của
nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và entropy cực đại [7]. Bộ
vnTokennizer cũng đi kèm với vnQTAG [13]. Một số nghiên cứu của các tác giả Việt Nam
cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường [45], [46], Đinh Điền
[48].
Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt. Các đề tài cấp
nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ
các bài báo điện tử. Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán
nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng. Đây cũng là
những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự
động.
Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể. tuy
nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền
xử lý như gióng hàng mức câu, mức từ. Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1,
có gán nhãn ngơn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng
12
Trụ là cơng trình cơng bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song
ngữ của nhóm Đinh Điền được cơng bố đầu tiên ở ngồi nước [47]. Đã có cơng trình
nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn
ngơn ngữ của Đinh Điền [48]. Cũng có những kết quả khác về xây dựng kho ngữ liệu cho
xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73]. Đề tài
KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu,
trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã
hội. Ngữ liệu song ngữ Việt Anh cịn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng kể.
Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính,
tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động. Đáng kể nhất là bộ
từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mơ hình LMF với ba
gói: hình thái, cú pháp, ngữ nghĩa. Bộ từ điển thể hiện khá tồn diện các thơng tin liên
quan đến từ pháp và cú pháp. Một số từ điển song ngữ được cung cấp miễn phí như từ
điển Anh Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt Anh cũng
do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh Việt của Hồ Ngọc Đức
bao gồm 110.000 mục từ, từ điển Việt Anh gồm 23.000 mục từ.
Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng
Việt với sự phát triển đáng kể trong thời gian vừa qua. Nếu so với tiếng Anh, các ngơn ngữ
châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý
tiếng Việt cịn nghèo nàn. Cho dù hiện nay đã có sự lấn át của các phương pháp học máy,
thống kê, rất ít nghiên cứu tách rời hồn tồn các mơ hình biểu diễn cú pháp. Việc tham
khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ
thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh
[124], nhóm nghiên cứu tại JAIST [115]. Sử dụng phương pháp học thống kê kết hợp biểu
diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực
dịch máy [115]. Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong
xử lý tiếng Việt.
Mơ hình văn phạm phi ngữ cảnh là mơ hình phổ biến nhất để biểu diễn cú pháp tiếng
Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5].
Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124].
Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của
văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu khơng
bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tơi mua hai thóc”. Câu này,
13
khơng tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ. Hiện
tượng này cũng rất phổ biến trong các ngôn ngữ khác. Xu hướng từ vựng hóa các văn
phạm được nhiều nhà nghiên cứu quan tâm. Nhiều mơ hình văn phạm từ vựng hóa đã được
xây dựng cho ngơn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức
năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng
hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết... Hiện nay, xu hướng từ vựng hóa cũng
đã ảnh hưởng tới các văn phạm tiếng Việt. Các mơ hình văn phạm phi ngữ cảnh từ vựng
hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho
tiếng Việt. Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn
phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ
[112]. Mơ hình hồn tồn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ
pháp của tiếng Việt.
Tập ký hiệu khơng kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi
ngữ cảnh trở nên phức tạp. Do vậy khi sử dụng cây phân tích cho những mục đích khác
như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây. Hơn
nữa, muốn tìm mối liên hệ giữa hai từ trong câu trong mô hình phi ngữ cảnh, phải vượt qua
một khoảng cách khơng nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời
gian khá lớn. Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan
trọng vì nó có thể cho biết thơng tin về số của danh từ, thì, thể của động từ, hay nhiều loại
quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu ...
Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp. Ưu điểm
đầu tiên của văn phạm phụ thuộc là khơng có tập ký hiệu khơng kết thúc. Cây phụ thuộc
thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ
cấu của mơ hình văn phạm phi ngữ cảnh. Khi sử dụng các quan hệ phụ thuộc có gán nhãn,
mơ hình phụ thuộc mã hóa trực tiếp cấu trúc vị ngữ - bổ ngữ . Do vậy có thể dịch (hiểu)
riêng từng đoạn trong câu.
Mơ hình văn phạm phụ thuộc khơng xạ ảnh có đặc điểm là cấu trúc phụ thuộc độc lập
với trật tự từ, rất thích hợp với các ngơn ngữ có trật tự từ tự do. Tất nhiên mơ hình văn
phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngơn ngữ có trật tự từ khá chặt chẽ. Chính vì
vậy, các bộ phân tích cú pháp xây dựng trên mơ hình phụ thuộc được phát triển cho hầu hết
các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng Anh của
Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford. Các bộ phân tích cú
pháp phụ thuộc cho các ngơn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng Nga của
14
nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning Huang
[118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So Young
Kwon [78]. Nhiều ngơn ngữ Đơng Nam Á cũng được phân tích cú pháp theo hướng phụ
thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani và Purwarianti [72],
tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng Tagalog (Philippines)
với bộ phân tích của Maguilimotan và Matsumoto [85]. Mơ hình văn phạm phụ thuộc cũng
rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108], rút trích thơng tin [42],
dịch máy [49], [55]...
Vai trị quan trọng của mơ hình phụ thuộc là rõ ràng. Tuy nhiên mơ hình văn phạm phụ
thuộc có những điểm khó về mặt ngôn ngữ học. Theo Nguyễn Tài Cẩn [2] còn nhiều tranh
luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có
thể đóng vai trị phụ về cú pháp, nhưng lại đóng vai trị chính về từ pháp hay vai trò trung
tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau.
Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có cơng trình nào về văn
phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học. Tiếng Việt có một bộ phân
tích cú pháp phụ thuộc theo mơ hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có
một hệ thống văn phạm phụ thuộc đầy đủ. Với mong muốn tiếp cận với mơ hình văn phạm
dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mơ hình
theo hướng phụ thuộc nhưng hồn tồn từ vựng hóa: mơ hình văn phạm liên kết.
Văn phạm liên kết là mơ hình do D.Sleator và D. Temperley đưa ra [111], cho phép mỗi
từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn một số u cầu về
tính phẳng, tính liên thơng, tính thỏa mãn, tính thứ tự và tính loại trừ. Văn phạm liên kết là
văn phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau:
1. Phân tích liên kết khơng chứa ký hiệu khơng kết thúc, thậm chí cấu trúc cịn đơn giản
hơn cây phụ thuộc. Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi
nút chứa khơng q 3 mối liên hệ với nút khác. Ngân hàng phân tích vì thế đơn giản
hơn ngân hàng cây ngữ cấu. Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân
tích lớn như ngân hàng dữ liệu đa phương tiện [128]. Phân tích liên kết được sử dụng
phổ biến cho những ứng dụng khác như trích chọn thơng tin [84], [106], [110], dịch
máy [35], hỏi đáp tự động [95], [105]... Nhiều bộ phân tích cú pháp cho các ngơn ngữ
khác nhau được xây dựng trên mơ hình văn phạm liên kết cho tiếng Anh[111], tiếng
Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]...
15
2. Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không
nhất thiết liền kề. Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự
do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất
mệt” không khác nhau. Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết.
Tất nhiên, theo Schneider [109], do mơ hình văn phạm liên kết địi hỏi tính phẳng nên
không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành
phần không liền kề (long distance dependency) trong câu. Điều này có thể chấp nhận
được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh
ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý khơng
nhiều.
3. Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa. Việc biểu diễn liên hệ ngữ
nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể
chứa chu trình.
4. Việc phân biệt các thành phần chính - phụ trong câu trở nên phức tạp hơn vì liên kết
khơng định hướng như phụ thuộc. Do vậy, với một số bài toán, chẳng hạn tóm tắt văn
bản, mơ hình văn phạm liên kết khơng thuận tiện bằng văn phạm phụ thuộc. Tuy nhiên
trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu
quả.
5. Văn phạm liên kết khơng địi hỏi quan hệ cai trị - phụ thuộc nên có thể dễ dàng gộp các
phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu
ghép nhiều mệnh đề dễ dàng hơn.
6. Văn phạm liên kết là một trong rất ít mơ hình hồn tồn từ vựng hóa, do vậy có thể
biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm
ngữ cấu (quan hệ chỉ định nghĩa đến loại từ). Đặc điểm này cho phép biểu diễn nhiều
hiện tượng trong tiếng Việt. Ví dụ, những động từ chỉ động tác có phương hướng như
“chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng:
“ra”, “vào”, “lên”, “xuống”. Liên kết DR được thiết lập giữa các loại từ nói trên mà
không tồn tại với bất cứ loại từ nào khác.
7. Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái
niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131]. Phân tích liên
kết cũng được sử dụng để trích chọn thơng tin [50], [52], [90], [97], đặc biệt là thông
tin ngữ nghĩa [82].
16
8. Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ và các mối liên hệ
khác, tạo thuận lợi cho việc dịch sang ngơn ngữ có biến đổi hình thái, tốt hơn những
mơ hình mà quan hệ phụ thuộc khơng được gán nhãn (theo Zamin [129]).
Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét:
1. Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thơng qua mơ
hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu. Tuy nhiên tiếng Việt có những
đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ,
sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu
diễn một cách linh hoạt và đơn giản qua mô hình liên kết. Đặc biệt khi giải quyết bài
tốn dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp
giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngơn ngữ đích với chất lượng
cao.
2. Phân tích câu theo mơ hình liên kết rất gần với suy nghĩ của con người, do vậy có thể
hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu. Kết quả
phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu. Tuy là một đồ thị,
nhưng phân tích liên kết gần như một danh sách tun tính của các từ, mỗi từ có mối
liên hệ với khơng q 3 từ khác. Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng
hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê.
3. Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân
tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt. Mơ hình
văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng
phân tích và xử lý câu ghép, câu phức một cách hiệu quả.
4. Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên
các hệ thống dịch máy chủ yếu theo hướng Anh - Việt và làm theo hướng tiếp cận dựa
trên luật. Do mơ hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng
cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ
dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật
xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngơn ngữ đích, hỗ trợ tốt nhiều
u cầu dịch thuật trong thực tế. Hệ thống này có thể tích hợp với những hệ thống theo
các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất
lượng tốt: trơi chảy và đúng về cú pháp cũng như từ pháp.
Từ đó, luận án xác định mục tiêu tập trung vào việc nghiên cứu, xây dựng một mơ hình
văn phạm liên kết tiếng Việt với những đặc điểm sau:
17
1. Dựa trên mơ hình văn phạm liên kết được Sleator và Temperley đưa ra [111].
2. Dựa trên các đặc điểm cú pháp và từ pháp tiếng Việt.
3. Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết.
Phạm vi của bộ phân tích cú pháp là câu đơn cũng như câu ghép bao gồm nhiều mệnh
đề đẳng lập và phụ thuộc.
4. Có thể ứng dụng để giải quyết bài toán dịch máy Việt - Anh.
5. Tạo ra các sản phẩm phục vụ công việc nghiên cứu: từ điển liên kết, từ điển song ngữ
với dạng tuyển có chú giải.
Để làm được điều đó, cần thiết phải thực hiện nhiều nội dung nghiên cứu cốt lõi như:
Các hướng tiếp cận để biểu diễn cú pháp (đặc biệt là hướng tiếp cận phụ thuộc), mơ hình
văn phạm liên kết và mối liên hệ với mơ hình văn phạm phụ thuộc, các mơ hình văn phạm
liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và một số ngơn ngữ khác. Bộ phân
tích cú pháp tiếng Anh và các giải thuật phân tách mệnh đề của câu ghép là những vấn đề
mà luận án nghiên cứu để xây dựng bộ phân tích liên kết tiếng Việt. Để minh họa cho khả
năng biểu diễn của mơ hình văn phạm liên kết tiếng Việt, luận án đi vào tìm hiểu các hệ
thống dịch để xây dựng bộ dịch máy sử dụng văn phạm liên kết.
Trong khuôn khổ của luận án, công việc sẽ được giới hạn trong phạm vi :
1. Xây dựng mơ hình liên kết để biểu diễn cú pháp tiếng Việt. Bộ từ điển liên kết của
tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú
pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế.
2. Bộ phân tích cú pháp liên kết tiếng Việt cũng phải qua những giai đoạn tiền xử lý như
bất cứ bộ phân tích cú pháp nào khác. Theo cách tiếp cận này, bộ phân tích cú pháp
khơng gán nhãn từ trước khi phân tích cú pháp, nhưng không thể bỏ qua giai đoạn tách
từ. Luận án đã sử dụng bộ tách từ vnTokenizer của TS. Lê Hồng Phương, được cung
cấp miễn phí trên mạng.
3. Nghiên cứu mơ hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú
pháp. Đây là mơ hình phức tạp hơn nhiều so với văn phạm phi ngữ cảnh xác suất. Luận
án giới hạn phạm vi làm việc là thử nghiệm các giải thuật được đề xuất.
4. Nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để
phân tách câu ghép thành các mệnh đề. Đề xuất các kết nối lớn cho các mệnh đề trên
cơ sở các quan hệ diễn ngơn để cho ra phân tích tổng thể của câu ghép.
5. Việc xây dựng hệ thống dịch Việt - Anh dựa trên dạng tuyển có chú giải là một minh
họa cho việc ứng dụng mơ hình văn phạm liên kết tiếng Việt. Hệ thống này được thử
18
nghiệm trên bộ ngữ liệu gồm các mẫu câu trong chương trình tiếng Việt cơ bản và nâng
cao để dạy cho người nước ngoài của khoa Việt nam học và tiếng Việt, Trường Đại học
Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội [18].
Luận án được chia làm 4 chương và 4 phụ lục như sau:
Chương 1: Tổng quan về các mơ hình văn phạm cho ngơn ngữ tự nhiên giới
thiệu các mơ hình văn phạm để mô tả cú pháp của ngôn ngữ tự nhiên và mối quan hệ của
mơ hình văn phạm liên kết với các mơ hình văn phạm khác.
Kết quả nghiên cứu của nghiên cứu sinh liên quan đến luận án được trình bày trong
các chương 2,3,4.
Chương 2: Mơ hình văn phạm liên kết tiếng Việt đưa ra chi tiết về hệ thống văn
phạm liên kết tiếng Việt đã được nghiên cứu sinh xây dựng.
Chương 3: Phân tích cú pháp trên văn phạm liên kết mơ tả bộ phân tích cú pháp
liên kết, hướng giải quyết vấn đề phân tích cú pháp cho câu ghép, vấn đề nhập nhằng cú
pháp và hướng giải quyết.
Chương 4: Hệ thống dịch dựa trên dạng tuyển có chú giải thể hiện việc thử
nghiệm mơ hình văn phạm liên kết trong bài toán dịch máy Việt Anh.
Kết luận và hướng phát triển.
Phần phụ lục bao gồm 4 phụ lục:
Phụ lục 1: Công thức liên kết cho các tiểu loại từ tiếng Việt.
Phụ lục 2: Kết quả phân tích cú pháp một số mẫu câu đơn và câu ghép hai mệnh đề.
Phụ lục 3: Một số luật điển hình trong tập luật dịch Việt Anh.
Phụ lục 4: So sánh kết quả dịch một số mẫu câu.
19
CHƯƠNG 1
TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM
CHO NGƠN NGỮ TỰ NHIÊN
Theo Jurafsky [70], quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn
phạm truyền thống như chủ ngữ hay bổ ngữ và những mối quan hệ khác. Nhiều mơ hình
văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency), quan hệ văn
phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency).
Hai hướng tiếp cận phổ biến nhất hiện nay là cấu trúc và phụ thuộc. Chương này sẽ giới
thiệu các mơ hình văn phạm phổ biến và vị trí của văn phạm liên kết trong hệ thống các mơ
hình văn phạm đó.
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh
Vấn đề đầu tiên đặt ra khi mô tả các quy tắc cú pháp là biểu diễn được các quy luật để
nhóm các từ lại thành câu. Nếu ngữ pháp tiếng Việt [28] quy định câu phải chứa một nòng
cốt (đơn hoặc ghép), nòng cốt đơn phải chứa chủ ngữ, vị ngữ với chủ ngữ luôn đi trước vị
ngữ, thì vấn đề mơ tả quy tắc cú pháp sẽ chuyển thành vấn đề tạo lập các cấu trúc
(constituent) và đưa ra các quy tắc về vị trí của các cấu trúc.
Mơ hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy chính là mơ
hình văn phạm phi ngữ cảnh. Mơ hình hình thức này tương đương với dạng chuẩn BNF
(Backus Naur Form) của ngơn ngữ lập trình.
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên
Văn phạm phi ngữ cảnh bao gồm một tập các luật hay sản xuất, mỗi luật biểu diễn cách
thức mà các ký hiệu của ngôn ngữ được nhóm lại rồi sắp theo thứ tự và một tập từ vựng
bao gồm các từ và ký hiệu.
Ví dụ: Một tập sản xuất của văn phạm phi ngữ cảnh tiếng Việt với ý nghĩa của các ký
hiệu không kết thúc: S - câu, NP - danh ngữ, VP - động ngữ, N - danh từ, V - động từ, P đại từ.
S NP VP
NP P
NP N P
VP V NP
20
Tập sản xuất này có thể mơ tả cấu trúc cú pháp của câu “Tôi yêu mẹ tôi” với đại từ
“tơi”, danh từ “mẹ” và động từ “u”.
Một cách hình thức, có thể mơ tả văn phạm phi ngữ cảnh như sau:
Định nghĩa 1.1. [70] Văn phạm phi ngữ cảnh là bộ 4 G = (N, , R, S), trong đó:
N: tập ký hiệu khơng kết thúc (biến).
: tập ký hiệu kết thúc (không giao với N).
R: tập luật, hay tập sản xuất dạng A , A là ký hiệu không kết thúc, là xâu gồm
hữu hạn ký hiệu trên tập vô hạn ( N)* (tập tất cả các xâu trên bảng chữ N).
S: ký hiệu đầu.
Trong mơ hình văn phạm phi ngữ cảnh, bài tốn phân tích cú pháp là bài tốn tìm ra cây
ngữ cấu cho câu đưa vào. Mỗi nút của cây ngữ cấu có nhãn là một ký hiệu khơng kết thúc
biểu diễn một cấu trúc. Theo [56], cây ngữ cấu thể hiện những thông tin sau về cú pháp:
Thứ tự tuyến tính của các từ trong câu.
Tên các phạm trù cú pháp của các từ và nhóm từ.
Cấu trúc phân cấp của các phạm trù cú pháp.
Các bộ phân tích cú pháp theo mơ hình văn phạm phi ngữ cảnh cổ điển chủ yếu theo hai
phương pháp CYK (Cocke – Younger - Kasami) và Earley. Đã có những bộ phân tích cú
pháp tiếng Việt được xây dựng theo phương pháp CYK [12], Earley [5], [27] với những
cải tiến thích hợp.
Trong hình 1.1 là cây ngữ cấu cho câu “Tơi thích chân gà”. Cây ngữ cấu này nếu khơng
tính nhãn của các nút lá, thì giống hệt cây ngữ cấu của câu “Tơi thích áo lụa”,tuy nhiên,
nếu đem dịch sang tiếng Anh, hai câu này phải dịch khác hẳn nhau. Quan hệ giữa danh từ
chỉ bộ phận cơ thể động vật và danh từ chỉ động vật là quan hệ sở hữu, do vậy chân gà phải
hiểu là “chân của gà”, trong khi quan hệ giữa “áo” và “lụa” lại là quan hệ về mặt chất liệu
“áo bằng lụa”. Mơ hình phi ngữ cảnh chưa thể hiện được mối liên hệ này.
Hình 1.1. Cây ngữ cấu của câu “Tơi thích chân gà”.
21
Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân tích cú
pháp phải giải quyết. Theo [70], trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng
hướng về cấu trúc (structural ambiguity). Giả thiết ta chỉ xét câu đơn, tức là câu chỉ có một
nịng cốt và bỏ qua vấn đề nhập nhằng từ loại. Vấn đề nhập nhằng cấu trúc xảy ra khi một
câu có nhiều hơn một cây phân tích. Trong hình 1.2 là hai cây ngữ cấu khác nhau cho câu
“Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” (câu ví dụ trong [20]) với văn
phạm phi ngữ cảnh
S → NP VP
NP → P
VP → R VP | R R V N PP PP PP-TMP | VP PP | V NP PP
PP → E NP
PP-TMP →E NP
Ý nghĩa của các ký hiệu: S - câu, NP - danh ngữ, VP- động ngữ, PP - giới ngữ, N danh từ, V - động từ, P - đại từ, R - phụ từ, E - giới từ, PP-TMP - giới ngữ chỉ thời gian.
Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”.
22
Một trong những cách tiếp cận đầu tiên để giải quyết vấn đề nhập nhằng khi phân tích
cú pháp trên mơ hình văn phạm phi ngữ cảnh là mơ hình văn phạm phi ngữ cảnh xác suất
(Probabilistic Context Free Grammar).
1.1.2. Văn phạm phi ngữ cảnh xác suất
Trong mơ hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác suất
cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không.
Định nghĩa 1.2. [70] Văn phạm phi ngữ cảnh xác suất là bộ bốn
N: tập ký hiệu không kết thúc (biến).
: tập ký hiệu kết thúc (không giao với N).
R: tập luật, hay tập sản xuất dạng A | p |, trong đó A là ký hiệu khơng kết thúc, là
xâu gồm hữu hạn ký hiệu trên tập vô hạn ( N)*, p là số trong đoạn [0,1] biểu thị xác
suất Pr ( | A ).
S: ký hiệu đầu.
Xác suất của một cây ngữ cấu là tích các xác suất của n luật được sử dụng để mở rộng n
nút trong của nó:
Pr T, S
Pr RHS |LHS
LHSi và RHSi là vế trái và vế phải của sản xuất được dùng cho nút thứ i của cây ngữ
cấu.
Cây được chọn là cây có xác suất lớn nhất [41]
T S
argmax
Pr T|S
argmax
Pr T, S
..
..
argmax
Pr T, S
Pr S
argmax
Pr T
..
..
Biểu thức T.s.t.S = yield(T) yêu cầu tính trên tất cả các cây ngữ cấu T có kết quả là câu S.
Trong trường hợp lý tưởng, nếu có một treebank đủ lớn, có thể tính xác suất của mỗi
luật theo cơng thức:
Pr |A
Count A
∑ Count A
Count A
Count A
Vấn đề là khi bắt đầu cơng việc, treebank chưa có hoặc chưa đủ lớn. Do vậy cần chọn
một bộ ngữ liệu, phân tích các câu của nó để bổ sung dần vào ngân hàng cây và tính ra các
xác suất nói trên. Ta lại đối mặt với vấn đề khác, khi một câu có thể có nhiều phân tích:
23
phân tích nào sẽ được chọn? Việc giải quyết vấn đề nhập nhằng lại rơi vào tình thế “con gà
và quả trứng”.
Vấn đề nói trên được giải quyết bởi giải thuật trong - ngoài (Inside - Outside Algorithm)
do Baker đề xuất năm 1979 cho văn phạm phi ngữ cảnh [81]. Đây thực chất là biến thể của
giải thuật tiến - lùi của mơ hình Markov ẩn (Hidden Markov Model - HMM). Giải thuật
cho phép tính xác suất trong và xác suất ngồi cho câu vào S theo cách đệ quy.
Mơ hình Markov ẩn được Manning và Schütze [87] giới thiệu, quan tâm đến dãy các
quan sát O1,... Om sản sinh bởi các luật Ni NjNk và Ni wj. Trong đó Oi, i
1, mthực
chất là các ký hiệu kết thúc (từ) w1,... wm của xâu đưa vào.
Theo mơ hình HMM, ma trận tham số của văn phạm phi ngữ cảnh xác suất là α [i, j, k]
và β [i, r] với:
α[i,j,k]=Pr(NiNjNk|G)
β[i,r]=Pr(Nir|G)
Để có thể xây dựng ma trận tham số như trên, văn phạm phi ngữ cảnh được giả thiết là
ở dạng chuẩn Chomsky. Điều này khơng làm giảm tính tổng qt của mơ hình, vì theo
[63], mọi văn phạm phi ngữ cảnh có thể chuyển về dạng chuẩn Chomsky. Ràng buộc sau
là bắt buộc cho các tham số :
∑ , α i, j, k
∑ β i, r
1vơimọ ii
́
Ràng buộc này (liên quan đến ký hiệu không kết thúc thứ i trong văn phạm) cho thấy
mọi khả năng áp dụng sản xuất mà vế trái là ký hiệu không kết thúc thứ i chỉ có thể sinh ra
hoặc hai ký hiệu không kết thúc hoặc một ký hiệu kết thúc (do văn phạm ở dạng chuẩn
Chomsky).
Dưới đây là quy ước về ký hiệu theo [87]:
Tập ký hiệu không kết thúc của văn phạm được ký hiệu là { N1,..., Nn }. Ký hiệu đầu
là N1.
Tập ký hiệu kết thúc của văn phạm là {w1, ..., wV}.
Câu được phân tích w1... wm.
wpq là bộ phận của câu cần phân tích từ từ thứ p đến từ thứ q.
N là ký hiệu không kết thúc Nj sinh ra dãy các từ ở vị trí từ p đến q trong câu.
j (p, q) là xác suất ngoài.
j (p, q) là xác suất trong.
24