Tải bản đầy đủ (.pdf) (469 trang)

mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 469 trang )


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
---------oOo--------Nguyễn Chí Hiếu
MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ
ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ
CƠ SỞ TƯƠNG ỨNG ANH-VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP. HCM - Năm 2008
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
---------oOo--------Nguyễn Chí Hiếu
MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ
ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ
CƠ SỞ TƯƠNG ỨNG ANH-VIỆT
Chuyên ngành : Khoa học máy tính
Mã số: 60.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS-TS. PHAN THỊ TƯƠI
2. TS. NGUYỄN XUÂN DŨNG
TP. HCM - Năm 2008
i


Lời cam đoan
Tôi xin cam đoan luận án này là công trình nghiên
cứu khoa học của tôi. Các kết quả của luận án là trung
thực và chưa từng được ai khác công bố trong bất kỳ
công trình nào khác.
Tp. Hồ Chí Minh, ngày 27 tháng 12 năm 2007


Người thực hiện
NCS. Nguyễn Chí Hiếu
ii
LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS-TS. Phan Thị
Tươi, TS. Nguyễn Xuân Dũng – Cô và Thầy đã trực tiếp hướng dẫn, động viên tôi
trong suốt quá trình thực hiện luận án này. Chân thành cảm ơn quý Thầy Cô trường
Đại học Bách khoa – Đại học Quốc gia TP. HCM, đặc biệt là các Thầy Cô ở bộ
môn Phần mềm ứng dụng của Khoa Công nghệ Thông tin đã cung cấp cho tôi
những tài liệu cần thiết và cho tôi những lời khuyên bổ ích để hoàn thành luận án
này.
Tôi cũng xin được bày tỏ lòng biết ơn chân thành của mình tới Hiệu trưởng,
Ban giám Hiệu, và các đồng nghiệp của tôi ở Khoa Công nghệ Thông tin trường
Đại học Công nghiệp TP. HCM, những người đã luôn tạo điều kiện thuận lợi, giúp
đỡ tinh thần và vật chất cho tôi trong việc thực hiện luận án. Luận án của tôi cũng
khó có thể hoàn thành nếu không có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là
nhóm NLP – Đại học Bách khoa TP. HCM, những người đã trực tiếp đóng góp
những ý kiến thiết thực cho thành công của nghiên cứu.


Cuối cùng, tôi xin cảm ơn các bạn sinh viên lớp ĐHTH1- Trường Đại học
Công nghiệp TP. HCM đã trực tiếp hỗ trợ tôi trong việc xây dựng kho ngữ liệu song
ngữ và đánh giá kết quả thực nghiệm. Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội đã giúp tôi trong việc chỉnh lý bộ dữ liệu chuẩn để hỗ trợ cho
việc đánh giá kết quả của luận án.
TP.HCM, ngày 27-12-2007
Người thực hiện
NCS. Nguyễn Chí Hiếu
iii
MỤC LỤC
Lời cam đoan ..........................................................................................................................i LỜI

CẢM ƠN........................................................................................................................ii MỤC LỤC
............................................................................................................................iii DANH MỤC CÁC
TỪ VIẾT TẮT .......................................................................................v DANH MỤC CÁC
HÌNH...................................................................................................viii DANH MỤC CÁC BẢNG
....................................................................................................x Chương 1 MỞ ĐẦU
...........................................................................................................1
1.1 Động cơ nghiên cứu....................................................................................................1
1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu ...............................................3
1.3 Phạm vi nghiên cứu và các bài toán chính..................................................................4
1.4 Đóng góp của luận án .................................................................................................5
1.5 Cấu trúc của luận án....................................................................................................8
Chương 2 CƠ SỞ LÝ THUYẾT ........................................................................................9
2.1 Các định nghĩa và phát biểu hình thức......................................................................10
2.2 Cụm danh từ..............................................................................................................15
2.2.1 Cấu trúc của cụm danh từ tiếng Việt ..............................................................15
2.2.2 Cấu trúc của cụm danh từ tiếng Anh ..............................................................28


2.2.3 Sự tương đồng và khác biệt giữa cụm danh từ tiếng Anh và tiếng Việt.........33
2.3 Các phương pháp đối sánh từ ...................................................................................41
2.3.1 Xác định bài toán ............................................................................................42
2.3.2 Các mô hình đối sánh......................................................................................43
2.3.3 Mô hình đối sánh thống kê .............................................................................46
2.3.4 Phương pháp từ điển .......................................................................................51
2.4 Nguồn tài nguyên dùng trong luận án.......................................................................54
2.4.1 Gate.................................................................................................................54
2.4.2 Giza++ ............................................................................................................55
2.4.3 Penn Treebank ................................................................................................56
2.4.4 Phân đoạn từ tiếng Việt ..................................................................................56
2.4.5 Tiêu chí nhận diện từ ......................................................................................57

Chương 3 CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT..................................................59
3.1 Mở đầu ......................................................................................................................60
3.2 Lý do thực hiện bài toán chuyển đổi trật tự từ..........................................................71
3.3 Mô hình chuyển đổi trật tự từ ...................................................................................74
3.4 Kết quả thử nghiệm và đánh giá ...............................................................................91
3.4.1 Dữ liệu đánh giá..............................................................................................92
3.4.2 Tiêu chuẩn đánh giá........................................................................................93
iv
3.4.3 Kết quả đánh giá .............................................................................................95
Chương 4 MÔ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.......98
4.1 Mở đầu ......................................................................................................................98
4.2 Mô hình thống kê khai thác đặc tính ngôn ngữ đích...............................................101


4.3 Đánh giá kết quả .....................................................................................................111
4.3.1 Ngữ liệu huấn luyện và đánh giá ..................................................................112
4.3.2 Kết quả thực nghiệm.....................................................................................116
Chương 5 MÔ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.........121
5.1 Mở đầu ....................................................................................................................121
5.2 Mô hình đối sánh điểm neo.....................................................................................123
5.2.1 Dẫn nhập .......................................................................................................123
5.2.2 Các mô hình thực nghiệm.............................................................................127
5.2.3 Bài toán chồng chéo và xung đột..................................................................145
5.3 Kết quả thực nghiệm...............................................................................................153
Chương 6 CÁC NGHIÊN CỨU LIÊN QUAN...............................................................158
6.1 Các phương pháp phân đoạn câu ............................................................................158
6.1.1 Các phương pháp tạo văn phạm bằng tay.....................................................158
6.1.2 Các phương pháp máy học ...........................................................................159
6.2 Rút trích cụm danh từ song ngữ..............................................................................161
Chương 7 KẾT LUẬN....................................................................................................166

7.1 Các kết quả đạt được...............................................................................................166
7.2 Hướng phát triển .....................................................................................................168
7.3 Lời kết.....................................................................................................................168
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ..................................................................171
TÀI LIỆU THAM KHẢO .................................................................................................173
PHỤ LỤC A DỮ LIỆU ĐÁNH GIÁ...........................................................................187
PHỤ LỤC B LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK ............................193
PHỤ LỤC C CHẠY GIZA++ .....................................................................................207


PHỤ LỤC D BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .............................209
PHỤ LỤC E CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT.......................................210
PHỤ LỤC F BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN ..............................219
PHỤ LỤC G ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM .................................................221
PHỤ LỤC H CÁC PHƯƠNG PHÁP HỌC MÁY ......................................................223
PHỤ LỤC I TÍNH NHẬP NHẰNG ...........................................................................226
PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT..............................................................229
v
DANH MỤC CÁC TỪ VIẾT TẮT
STT Từ viết tắt Diễn giải tiếng Anh
Diễn giải tiếng Việt
1 AER
Alignment
Error
Lỗi đối sánh
2
AI
Artificial Intelligence
Trí tuệ nhân tạo
3

ANN
Artificial Neural Networks Mạng Neural nhân tạo
4 APAP
Anchor Point Alignment &


Projection
Chiếu qua đối sánh điểm neo
Anchor Point Alignment & Chiếu qua đối sánh điểm neo
5 APAP-LCC Projection – Language
khai thác đặc tính ngôn ngữ
Characteristic Combination đích
Anchor Point Alignment & Chiếu qua đối sánh điểm neo
6 APAP-STT Projection – Syntax Tree
Transfer
khai thác đặc tính trật tự từ
Anchor Point Alignment & Chiếu qua đối sánh điểm neo
7 APAP-WS Projection – Word
khai thác đặc tính phân đoạn
Segmentation
từ
8 BaseNP
Base-Noun
Phrase
Cụm danh từ cơ sở
Bilingual evaluation
Phương pháp để đánh giá tự
9 BLEU
Understudy.
động cho Dịch máy.



Conference on
Hội nghị về ngôn ngữ học
10 CoNLL
Computational Natural
tính toán
Language Learning
Truy hồi thông tin xuyên
11 CLIR
Cross-language information
retrieval
ngôn ngữ
12
DictAlign
Dictionary Alignment
Đối sánh từ điển
13
DL
Decision List
Danh sách quyết định
14
DP
Decision Pylon
Tháp quyết định
Example Based Machine


15 EBMT
Dịch máy trên cơ sở ví dụ

Translation
vi
16
EBT
Example Based Transfer Chuyển đổi trên cơ sở ví dụ
17 EM
Expected
Maximal
kỳ vọng cực đại
Finding Noun Phrase
18 FNPC
Tìm cụm danh từ tương ứng
Corresponding
General Architecture for Kiến trúc tổng quát cho kỹ
19 GATE
Text Engineering
thuật văn bản
20
HMM
Hidden Markov Models
Mô hình Markov ẩn
21


IE
Information Extraction
Rút trích thông tin
22
IR
Information Retrieval

Truy hồi thông tin
Knowledge-Based Natural Dịch ngôn ngữ tự nhiên trên
23 KANT
Language Translation
cơ sở tri thức
24
MBL
Memory-based learning Học trên cơ sở bộ nhớ
25 MT
Machine
Translation
Dịch máy
26
ME
Maximal Entropy
Entropy cực đại
Natural Language
27 NLP


Xử lý ngôn ngữ tự nhiên
Processing
Nondeterministic Finite
Automat hữu hạn không đơn
28 NFA
Automata
định
29 NP
Noun
Phrase

Cụm danh từ
30 POS
Part–Of-Speech

từ loại
31
QA
Question & Answer
Hỏi và trả lời
Rule Base Machine
32 RBMT
Dịch máy dựa vào luật sinh
Translation
Statistical Machine


33 SMT
Dịch máy thống kê
Translation
Structured Query
34 SQL
Ngôn ngữ hỏi có cấu trúc
Language
35 SR
Speech
Recognition
Nhận dạng giọng nói
36
SVM
Support vector machine Máy véc tơ hỗ trợ

vii
37 TA
Treebank
Approach
Tiếp cận Treebank
Treebank Approach +
38 TA+LR
Treebank + hiệu chỉnh cục bộ
Local Repair
Transformation Based


39 TBL
Học trên cơ sở chuyển đổi
Learning
40 WA
Word
Alignment
Đối sánh từ
Word Alignment &
41 WAP
Chiếu qua đối sánh từ
Projection
Word Alignment &
Chiếu qua đối sánh từ khai
42 WAP-LCC Projection –Language
Characteristic Combination thác đặc tính ngôn ngữ đích
Word Alignment &
Chiếu qua đối sánh từ khai
43 WAP-STT Projection – Syntax Tree

Transfer
thác đặc tính trật tự từ
Word Alignment &
Chiếu qua đối sánh từ khai
44 WAP-WS Projection – Word
Segmentation


thác đặc tính phân đoạn từ
viii
DANH MỤC CÁC HÌNH
Hình 2.1 Giải thuật đối sánh từ trên cơ sở từ điển...........................................................52
Hình 2.2 Giải thuật đối sánh từ trên cơ sở từ điển phân lớp từ........................................54
Hình 3.1 Ví dụ về các loại đối sánh.................................................................................71
Hình 3.2 Vấn đề chồng chéo và xung đột trong phép chiếu............................................72
Hình 3.3 Chuyển đổi trật tự từ để xác định đúng điểm neo.............................................73
Hình 3.4 Một ví dụ về cụm danh từ cơ sở .......................................................................76
Hình 3.5 Giải thuật tìm từ trung tâm................................................................................76
Hình 3.6 Giải thuật nhận biết liên từ trong thành phần Y5..............................................80
Hình 3.7 Giải thuật phân tách các thành phần phụ trước.................................................81
Hình 3.8 Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt..................................83
Hình 3.9 Giải thuật chuyển đổi trật tự từ tiếng Anh theo tiếng Việt ...............................85
Hình 4.1 Ví dụ về đối sánh của mô hình WAP..............................................................102
Hình 4.2 Mô hình WAP.................................................................................................102
Hình 4.3 Giải thuật WAP...............................................................................................103
Hình 4.4 Ví dụ về đối sánh của mô hình WAP-WS ......................................................104
Hình 4.5 Giải thuật WAP-WS ........................................................................................104
Hình 4.6 Mô hình WAP-WS..........................................................................................105
Hình 4.7 Ví dụ về đối sánh của mô hình WAP-STT .....................................................106
Hình 4.8 Giải thuật WAP-STT ......................................................................................106

Hình 4.8 Mô hình WAP-STT ........................................................................................107
Hình 4.10 Ví dụ về đối sánh của mô hình WAP-LCC ....................................................108


Hình 4.12 Mô hình WAP-LCC........................................................................................109
Hình 4.13 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................110
Hình 5.1 Ví dụ về đối sánh điểm neo ............................................................................124
Hình 5.2 Ví dụ về xác định cụm danh từ tương ứng Anh-Việt .....................................125
Hình 5.3 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................126
Hình 5.4 Mô hình APAP................................................................................................128
Hình 5.5 Mô hình APAP-WS ........................................................................................129
Hình 5.6 Mô hình APAP-STT .......................................................................................130
Hình 5.7 Mô hình APAP-LCC ......................................................................................131
ix
Hình 5.8 Mô đun đối sánh điểm neo.............................................................................132
Hình 5.9 Giải thuật tính hệ số tương đồng từ kho ngữ liệu song ngữ ..........................139
Hình 5.10 Giải thuật chọn điểm neo theo hệ số tương đồng ...........................................140
Hình 5.11 Giải thuật tìm cụm danh từ cơ sở tiếng Việt theo từ đặc trưng ......................143
Hình 5.12 Giải thuật đối sánh điểm neo ..........................................................................144
Hình 5.13 Vấn đề đối sánh rỗng, chồng chéo và xung đột ..............................................145
Hình 5.14 Xung đột ngoài cụm danh từ cơ sở dạng 1 .....................................................147
Hình 5.15 Xung đột ngoài cụm danh từ cơ sở dạng 2 .....................................................147
Hình 5.16 Xung đột ngoài cụm danh từ cơ sở dạng 3 .....................................................147
Hình 5.17 Xung đột trong cùng cụm danh từ cơ sở dạng 4.............................................147
Hình 5.18 Giải thuật giải quyết chồng chéo và xung đột ................................................148
Hình 5.19 Các tổ hợp của cụm danh từ cơ sở đã chuyển đổi trật tự................................149
Hình 5.20 Giải thuật giải quyết nhập nhằng tính từ.........................................................151
x



DANH MỤC CÁC BẢNG
Bảng 2.1 Một ví dụ về cặp cụm danh từ cơ sở song ngữ Anh-Việt.................................13
Bảng 2.2 Một số ví dụ về từ phân lớp khi dịch Anh-Việt ...............................................17
Bảng 2.3 Một số ví dụ về vị trí của từ đo lường và từ phân lớp......................................18
Bảng 2.4 Ví dụ về sự khác nhau giữa từ phân lớp và đo lường.......................................18
Bảng 2.5 Sự khác nhau về nghĩa khi sử dụng từ phân lớp và từ đo lường ......................18
Bảng 2.6 Các khả năng kết hợp của danh từ đếm được...................................................19
Bảng 2.7 Tổng hợp các từ chỉ tổng lượng .......................................................................22
Bảng 2.8 Phân tích một cụm danh từ tiếng Việt..............................................................26
Bảng 2.9 Các biến thể trong cụm danh từ tiếng Việt.......................................................27
Bảng 2.10 Cấu trúc cơ bản của cụm danh từ .....................................................................28
Bảng 2.11 Phân loại các nhóm tính từ ...............................................................................29
Bảng 2.12 Trật tự từ trong cấu trúc cụm danh từ tiếng Anh..............................................30
Bảng 2.13 Các biến thể trong cụm danh từ tiếng Anh.......................................................32
Bảng 2.14 Cấu trúc của cụm danh từ tiếng Anh, tiếng Việt ..............................................34
Bảng 2.15 Cấu trúc cụm danh từ tiếng Anh theo John Eastwood .....................................36
Bảng 2.16 Cấu trúc cụm danh từ tiếng Anh theo Vũ Ngọc Tú..........................................36
Bảng 2.17 Cấu trúc bảy thành phần trong cụm danh từ tiếng Việt....................................37
Bảng 2.18 Bảng so sánh các lược đồ huấn luyện ..............................................................55
Bảng 3.1 Cấu trúc của cụm danh từ tiếng Anh và tiếng Việt ..........................................65
Bảng 3.2 Bảng so sánh các thành phần trong cụm danh từ .............................................66
Bảng 3.3 Luật sinh rút trích từ Penn Treebank................................................................67
Bảng 3.4 Các dạng luật rút ra từ đối sánh từ của ví dụ 3.6..............................................69
Bảng 3.5 Các luật sinh dự tuyển của cụm danh từ cơ sở tiếng Việt ................................90


Bảng 3.6 Kết quả phân tích cụm danh từ tiếng Anh........................................................95
Bảng 3.7 Kết quả chuyển đổi trật tự từ và xác định điểm neo.........................................96
Bảng 4.1 Thời gian thực hiện và khối lượng của một số Treebank.................................99
Bảng 4.2 Một số ngữ liệu song ngữ...............................................................................113

Bảng 4.3 Kết quả nguồn ngữ liệu song ngữ sưu tập được.............................................114
Bảng 4.4 Thống kê chiều dài câu của các ngữ liệu sưu tập ...........................................115
Bảng 4.5 Một ví dụ về kết quả đối sánh từ bằng Giza++ ..............................................116
xi
Bảng 4.6 Kết quả đối sánh từ Anh-Việt trong mô hình WAP .......................................117
Bảng 4.7 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-WS................................118
Bảng 4.8 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-STT...............................118
Bảng 4.9 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-LCC ..............................119
Bảng 4.10 Bảng so sánh kết quả đối sánh và nhận biết cụm danh từ cơ sở ....................120
Bảng 5.1 Ví dụ về sự xuất hiện nhiều lần của từ trong câu tiếng Anh ..........................134
Bảng 5.2 Kết quả khảo sát ảnh hưởng của ngưỡng δ ....................................................136
Bảng 5.3 Collocation(today) huấn luyện từ ngữ liệu song ngữ.....................................140
Bảng 5.4 Các khả năng tìm điểm neo tương ứng bằng từ đặc trưng và luật..................141
Bảng 5.5 Kết quả phối hợp các tầng trong mô hình đối sánh điểm neo ........................145
Bảng 5.6 Ví dụ về điểm neo thuộc thành phần d có nhiều tính từ.................................150
Bảng 5.7 Thống kê các luật có bổ ngữ nhiều tính từ .....................................................152
Bảng 5.8 Phân rã luật sinh thành các thành tố ...............................................................152
Bảng 5.9 Bộ ngữ liệu mẫu .............................................................................................153
Bảng 5.10 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu mẫu ..........153
Bảng 5.11 Bộ ngữ liệu kiểm tra.......................................................................................154


Bảng 5.12 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu kiểm tra ....155
Bảng 5.13 Kết quả rút trích cụm danh từ cơ sở của một số tác giả .................................157
Bảng 6.1 Bảng so sánh kết quả nhận biết cụm danh từ cơ sở tiếng Anh.......................160
1
Chương 1
MỞ ĐẦU
1.1 Động cơ nghiên cứu
Xử lý ngôn ngữ tự nhiên ( Natural language processing) là lĩnh vực nghiên

cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý ngôn ngữ của con người.
Trong những năm gần đây, rất nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như
rút trích thông tin, truy hồi thông tin xuyên ngôn ngữ, tóm lược văn bản, hỏi đáp và
dịch máy tự động phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực. Trong các
ứng dụng kể trên, cụm danh từ cơ sở đóng một vai trò quan trọng. Vì thế, việc rút
trích tự động cụm danh từ cơ sở đơn ngữ cũng như song ngữ từ ngữ liệu được nhiều
nhà khoa học quan tâm nghiên cứu, ví dụ như Kupiec [75], Le [76], Wantanabe
[131], Yarowsky [139], Riloff [112], Wang [129] và Hwang [68]. Tuy nhiên, việc
nhận biết và rút trích cụm danh từ tiếng Việt nói riêng và cụm danh từ cơ sở song
ngữ Anh-Việt nói chung vẫn còn là bài toán mở. Bốn vấn đề được liệt kê dưới đây
làm rõ nhận định này.
Thứ nhất là vấn đề nghiên cứu về rút trích cụm danh từ cơ sở song ngữ AnhViệt. Trong những năm gần đây, cụm danh từ tiếng Việt đã được nhiều nhà ngôn
ngữ học nghiên cứu và cho kết quả khả quan về mặt lý luận. Luận án tiến sĩ của
Dương Thanh Bình [03], Tuong Hung Nguyen [22], Vũ Ngọc Tú [23] đã cho thấy
tầm quan trọng của cụm danh từ trong tiếng Việt. Tuy vậy, cho đến nay việc nghiên


cứu tỉ mỉ về xác định và rút trích tự động cụm danh từ song ngữ nói chung và cụm
danh từ cơ sở song ngữ nói riêng, vẫn là vấn đề mở. Vì thế, việc nghiên cứu này là
2
cần thiết.
Thứ hai là vấn đề xây dựng hệ thống rút trích cụm danh từ cơ sở song ngữ
Anh-Việt từ ngữ liệu song ngữ. Ở Việt nam, ngôn ngữ học tính toán mới được phát
triển vài chục năm trở lại đây, tuy đã đạt được một số thành công nhất định song
việc rút trích và nhận biết thông tin, đặc biệt là cụm danh từ cơ sở tiếng Việt và cụm
danh từ cơ sở song ngữ Anh-Việt vẫn còn nhiều thách thức. Thách thức càng trở
nên lớn hơn khi chúng ta thiếu các công cụ xử lý ngôn ngữ cho tiếng Việt, như các
công cụ phân tích hình thái, gán nhãn từ loại, phân đoạn câu, phân tích cú pháp...
Do vậy vấn đề này cần được nghiên cứu.
Thứ ba là trong bối cảnh của tiếng Việt, cũng giống như hơn 200 ngôn ngữ

khác trên thế giới, muốn phát triển nhanh các ứng dụng về xử lý ngôn ngữ tự nhiên
lại phải đối mặt với vấn đề thiếu vắng nguồn tài nguyên, như các ngữ liệu đơn ngữ
và song ngữ…, nhưng việc xây dựng nguồn tài nguyên này không dễ và cũng không
rẻ. Một tiếp cận để khắc phục mặt hạn chế về nguồn tài nguyên là tiếp cận chiếu
thông qua ngôn ngữ giàu tài nguyên như tiếng Anh, được Yarowsky [138] đề xuất,
nhưng với tiếp cận này vẫn còn có nhiều thách thức. Đó là vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột, như Yarowsky đã trình bày trong nghiên cứu với
cặp ngôn ngữ Anh-Pháp. Vấn đề đối sánh rỗng, chồng chéo và xung đột cũng là
thách thức cơ bản cho cặp ngôn ngữ Anh-Việt khi sử dụng tiếp cận chiếu thông qua
kết quả đối sánh từ tiếng Anh và tiếng Việt để xác định cụm danh từ cơ sở Anh-Việt
tương ứng. Vì vậy, việc nghiên cứu để vượt qua những thách thức này là cần thiết.


Cuối cùng, xét về mặt thực tiễn việc thu thập các cụm danh từ cơ sở song ngữ
chuẩn làm dữ liệu cho các ứng dụng về xử lý ngôn ngữ tự nhiên, như dịch máy, truy
hồi thông tin xuyên ngôn ngữ, xây dựng từ điển, nhận dạng tiếng nói, .v.v. trong đó,
cụm danh từ cơ sở đơn ngữ và song ngữ đóng vai trò quan trọng. Vì vậy, việc xác
định và rút trích cụm danh từ cơ sở Anh-Việt tương ứng cần được nghiên cứu.
Những vấn đề nêu trên chính là động cơ thúc đẩy chúng tôi chọn đề tài “Mô
hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương
ứng Anh-Việt”.
3
1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu
Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm
danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh-Việt. Trên kết quả nhận biết
này, chúng tôi rút trích các cụm danh từ cơ sở tương ứng Anh-Việt. Xét về mặt lý
luận, có nhiều phương pháp và mô hình khác nhau để nhận biết và rút trích cụm
danh từ cơ sở tiếng Việt. Mỗi phương pháp và mô hình khác nhau có thể có những
bước thực hiện khác nhau. Nhưng tổng thể hiện nay, có hai hướng tiếp cận để nhận
biết cụm danh từ cơ sở.

Hướng thứ nhất là tiếp cận đơn ngữ. Với hướng tiếp cận này, người ta tiến
hành theo hai nhóm phương pháp chính là các phương pháp tạo văn phạm bằng tay
và các phương pháp máy học. Cả hai nhóm phương pháp này khi áp dụng vào tiếng
Việt, còn nhiều vấn đề cần giải quyết như vấn đề gán mã từ loại cho tiếng Việt, xây
dựng Treebank tiếng Việt, tạo luật sinh cho văn phạm tiếng Việt .v.v. Theo báo cáo
của Nguyễn Thị Minh Huyền trong tài liệu [17] việc gán từ loại cho tiếng Việt mới
đạt khoảng 85%. Nâng cao kết quả gán từ loại cũng là một vấn đề đang được nghiên


cứu. Xây dựng Treebank tiếng Việt lại là một vấn đề khác nằm ngoài luận án này.
Hướng tiếp cận thứ hai là tiếp cận song ngữ. Tiếp cận này có hai phương
pháp chính là thống kê qua phân tích cú pháp của cả hai ngôn ngữ (nguồn và đích)
và chiếu thông qua kết quả phân tích của ngôn ngữ nguồn để thu được kết quả trên
ngôn ngữ đích.
Tiếng Việt có thể dựa vào tiếng Anh để giải quyết bài toán nghiên cứu thông
qua việc chiếu qua kết quả đối sánh từ như nghiên cứu của Yarowsky [138] cho cặp
Anh-Pháp và Hwa [67] cho cặp Anh Trung. Như vậy, bài toán nhận biết cụm danh
từ cơ sở tương ứng Anh-Việt sẽ được chúng tôi chọn theo tiếp cận chiếu qua kết
quả đối sánh từ. Với đối sánh từ, về tổng thể có hai phương pháp chính là phương
pháp đối sánh từ dựa trên thống kê (Brown et.al [38]) và đối sánh từ dựa trên từ
điển (Ker và Chang [70]). Luận án thực hiện trên cả hai phương pháp này như được
trình bày trong phần đóng góp của luận án (mục 1.4).
Nhiệm vụ chính của luận án cần thực hiện như sau:
4
- Nghiên cứu về đối sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở
giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm
danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt. Xây dựng
mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm
danh từ tiếng Việt.
- Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ

liệu Penn Treebank và thống kê tần suất xuất hiện của nó để xây dựng bộ ngữ liệu
mẫu để đánh giá các giải thuật trong chương 3. Kết hợp với kết quả đối sánh,
chuyển đổi trật tự từ của cụm danh từ tiếng Anh để xây dựng tập luật sinh dự tuyển


cho cụm danh từ cơ sở tiếng Việt.
- Nghiên cứu các mô hình đối sánh từ
- Nghiên cứu và đề xuất những giải pháp khắc phục các vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột
- Xây dựng và hiện thực các mô hình nhận biết cụm danh từ cơ sở tương ứng
Anh-Việt
- Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực
nghiệm. Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mô hình đề
xuất.
1.3 Phạm vi nghiên cứu và các bài toán chính
Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của
cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở
tương ứng Anh-Việt. Việc giới hạn nghiên cứu ở mức cụm danh từ cơ sở suất phát
từ những lý do chính sau: Thứ nhất cụm danh từ nói chung rất phức tạp, các nghiên
cứu hiện nay trong xử lý ngôn ngữ tự nhiên tiếng Anh cũng chỉ giới hạn ở mức cụm
danh từ cơ sở (BaseNP). Cụm danh từ cơ sở là cụm danh từ không đệ quy, không
chứa các cụm giới từ (prepositional phrases) hoặc mệnh đề (clauses) [106]. Thứ hai
là tiếp cận của luận án theo phương pháp chiếu thông qua kết quả đối sánh từ và
ngôn ngữ nguồn được chọn là tiếng Anh sẵn có các công cụ với mã nguồn mở. Các
5
nghiên cứu của các nhà ngôn ngữ học như Tuong Hung Nguyen [22], Vũ Ngọc Tú
[23] cho thấy cấu trúc cụm danh từ cơ sở tiếng Anh và tiếng Việt có nhiều điểm
tương đồng và một chút khác biệt (stopWord trong tiếng Anh, từ phân lớp trong
tiếng Việt, trật tự từ…). Các điểm khác biệt giữa chúng có thể hình thức hóa được



như trình bày trong chương 3 của luận án.
Luận án thực nghiệm có giới hạn trên một số ngữ liệu song ngữ như: tin học,
từ điển bách khoa dành cho thanh thiếu niên, bộ luật lao động, các trang Web song
ngữ của đại sứ quán Mỹ [147], [148], và Úc [79]. Các cặp câu song ngữ trong
nghiên cứu của luận án chỉ giới hạn ở những cặp có cách dịch là 1-1, nghĩa là một
câu tiếng Anh được dịch thành một câu tiếng Việt, không có đảo ngữ khi dịch từ
câu tiếng Anh sang câu tiếng Việt.
Từ nhiệm vụ nghiên cứu kể trên, luận án cần giải quyết các bài toán chính
sau đây:
- Bài toán chuyển đổi cây cú pháp Anh-Việt mức cụm từ.
- Cho ngữ liệu song ngữ Anh-Việt đã đối sánh mức câu, câu tiếng Anh đã
được gán nhãn từ loại và đã xác định được các cụm danh từ cơ sở, câu tiếng Việt đã
được phân đoạn từ (tùy thuộc vào mô hình thực nghiệm mà việc phân đoạn từ có
được sử dụng hay không). Từ đó, chúng tôi có thể nhận biết được cụm danh từ cơ
sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh-Việt.
- Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt. Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng
Việt thông qua quá trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng
các từ đặc trưng trong tiếng Việt.
- Giải quyết vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột trong quá
trình nhận biết cụm danh từ cơ sở tiếng Việt.
1.4 Đóng góp của luận án
Trong quá trình thực hiện luận án, chúng tôi đã có một số đóng góp về mặt
khoa học và thực tiễn như sau.


6
• Đóng góp về mặt khoa học
Luận án đã đưa ra ý tưởng “Khai thác đặc tính ngôn ngữ đích vào bài toán
xác định các cụm danh từ cơ sở tương ứng Anh-Việt” . Trong luận án này, chúng tôi

khai thác hai đặc tính của ngôn ngữ tiếng Việt là phân đoạn từ và trật tự từ vào bài
toán nhận biết cụm danh từ cơ sở tiếng Việt. Ngoài hai đặc tính kể trên, yếu tố từ
đặc trưng của tiếng Việt cũng được đề xuất sử dụng trong bài toán này. Từ ý tưởng
“khai thác đặc tính ngôn ngữ đích” kể trên, luận án có ba đóng góp chính sau đây:
- Đóng góp thứ nhất là đề xuất và hiện thực kỹ thuật “chuyển đổi cây cú pháp
Anh-Việt”. Do khác biệt về loại hình ngôn ngữ, trật tự từ trong cụm danh từ cơ sở
tiếng Việt và tiếng Anh cơ bản là khác nhau (như phân tích trong chương 3). Yếu tố
trật tự từ là một đặc tính của ngôn ngữ. Để khai thác đặc tính ngôn ngữ này, chúng
tôi đề xuất kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” (được trình bày trong
chương 3). Kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” là mô đun quan trọng
trong các mô hình đề xuất của luận án. Ngoài ra, kỹ thuật chuyển đổi cây cú pháp
còn giúp cho việc xây dựng tập luật sinh dự tuyển để giải quyết bài toán “dữ liệu
thưa”1, bài toán “chồng chéo và xung đột” cũng như bài toán “học luật chuyển đổi
từ ngữ liệu song ngữ”. Điểm khác biệt chính giữa mô hình đề xuất của luận án với
các mô hình hiện có là ở chỗ, mô hình của luận án khai thác đặc tính trật tự từ trong
tiếng Việt. Đặc tính trật tự từ này dựa trên cơ sở nghiên cứu của các nhà ngôn ngữ
học. Các mô hình khác như của tác giả Đinh Điền [7], Nguyễn Phương Thái [19] và
Katharina Probst [103] dựa trên nền tảng xác suất thống kê.
1.
“Dữ liệu thưa” là dữ liệu không được thiết lập hoặc tần suất xuất hiện quá nhỏ để thiết lập xác


×