Tải bản đầy đủ (.pdf) (252 trang)

Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 252 trang )

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
---------oOo---------

Nguyễn Chí Hiếu

MƠ HÌNH KHAI THÁC ĐẶC TÍNH NGƠN NGỮ
ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ
CƠ SỞ TƯƠNG ỨNG ANH-VIỆT
Chuyên ngành : Khoa học máy tính
Mã số: 60.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS-TS. PHAN THỊ TƯƠI
2. TS. NGUYỄN XUÂN DŨNG

TP. HCM - Năm 2008


DISSERTATION ABSTRACT
The Doctoral Dissertation:
Characteristic Exploitation Model of the Target Language to Identify
English-Vietnamese Base-Correspondence Noun Phrases.
- Field: Computer Science
- Field code: 60.48.01.01
- Name of the PhD. Candidate: Nguyen Chi Hieu
- Supervisors:
1. Ass. Prof. Dr. Phan Thi Tuoi


2. Dr. Nguyen Xuan Dung
- Institution: University of Technology,
Vietnam National University of Ho Chi Minh City
1. Dissertation Abstract
In recent years, many applications in natural language processing such as Information Extraction,
Cross-language Information Retrieval, Text summarization, Question Answering and Machine
Translation have grown powerfully and yield a lot of practical benefits. In these applications, BaseNoun Phrase (baseNP) plays an important role. Therefore, the automatic identification and from
corpora have been researched by a number of scientists. However, identification and extraction of
English-Vietnamese base-correspondence Noun Phrases remains unexplored. To fill this gap we
decided to do a research on ‘Characteristic Exploitation Model of the Target Language to Identify
English-Vietnamese Base-Correspondence Noun Phrases’.
The object of study is baseNP (the main part of a noun phrase). To carry out the research, the
following research methods have been used:
9 Description of the objects (the word order of English and Vietnamese base noun phrases), then
performing by the form language.
9 Bidirectional comparison and alignment to find out the transfer and extraction rules of baseNP.
9 Statistic and dictionary method for word alignment.
9 Data-driven method and linguistic knowledge (Characteristic Exploitation target) to identify and
extract English-Vietnamese bilingual baseNP.
Based on the study of contrastive linguistics, the dissertation proposed a syntax tree transfer
model (the noun phrase level). The dissertation exploits the differences in word order between
English and Vietnamese to implement the statistic and dictionary model.
2. Contributions of the dissertation
2.1 Scientific contributions
The dissertation proposed the idea “Characteristic Exploitation of the Target Language to
Identify English-Vietnamese Base-Correspondence Noun Phrases”. In this dissertation, we exploit
two characteristics of Vietnamese, which are word segmentation and order to identify Vietnamese
baseNP problem. From this idea, the dissertation have the following three contributions:
9 The first contribution is the technical proposal and implementation of “English-Vietnamese
syntax tree transfer”. Due to the differences in linguistics family, the word order of Vietnamese


1


baseNP is basically different from that of English baseNP. For this reason, word order is an
important characteristic of Vietnamese. To exploit this language characteristic, we proposed the
technique “English-Vietnamese syntax tree transfer”.
9 The second contribution is the proposal of “the exploitation language characteristic in the statistic
word alignment model”. The dissertation exploits the characteristic of word segmentation and
word order in the pre-process step. Then we implement word alignment by the Giza++. In
addition, we also use the other characteristics (as the classifiers) in the post-process step. In other
words, we’ll project across aligned corpora to induce Vietnamese baseNPs when we achieved
English baseNPs by the Gate 3.1. Finally, we use some rules to extend Vietnamese baseNPs.
9 The third contribution is the proposal of “the exploitation language characteristic in the dictionary
word alignment model”. Based on results of the syntax tree transfer model, the dissertation
proposed an Anchor point alignment model for the identification of Vietnamese baseNP in a pair
of a bilingual sentence. The Anchor point alignment model solved the existing problems such as
the miss-aligned or aligned to null, overlap and conflict. These problems had been solved via the
candidate rules which were generated by the syntax tree transfer and the Vietnamese
characteristics.
2.2 Realistic contributions
The research results of the dissertation can be used for English-Vietnamese Machine Translation
based on baseNP. Besides, they can also be used for EBMT (Example Base Machine Translation); EI
(Extraction Information); CLIR (Cross-Language Information Retrieval), resource exploitation of
other languages on the internet via Vietnamese; served as data for building bilingual dictionaries,
survey, check the similarities and differences between English and Vietnamese by experiment. In
particular, they can be used to make transfer rules via learning process from English-Vietnamese
bilingual corpora.
3. Recommendations of the future works
9 To develop a syntax tree transfer model for English-Vietnamese bilingual sentence.

9 To develop English-Vietnamese Machine Translation model relying on baseNP.
9 To develop Cross-Language Information Retrieval model.
First Supervisor

Second Supervisor

PhD. Candidate

Ass. Prof. Dr. Phan Thi Tuoi

Dr. Nguyen Xuan Dung

Nguyen Chi Hieu

2


i

Lời cam đoan
Tôi xin cam đoan luận án này là cơng trình nghiên
cứu khoa học của tơi. Các kết quả của luận án là trung
thực và chưa từng được ai khác cơng bố trong bất kỳ
cơng trình nào khác.

Tp. Hồ Chí Minh, ngày 27 tháng 12 năm 2007
Người thực hiện

NCS. Nguyễn Chí Hiếu



ii

LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS-TS. Phan Thị
Tươi, TS. Nguyễn Xuân Dũng – Cô và Thầy đã trực tiếp hướng dẫn, động viên tơi
trong suốt q trình thực hiện luận án này. Chân thành cảm ơn quý Thầy Cô trường
Đại học Bách khoa – Đại học Quốc gia TP. HCM, đặc biệt là các Thầy Cô ở bộ
môn Phần mềm ứng dụng của Khoa Công nghệ Thông tin đã cung cấp cho tôi
những tài liệu cần thiết và cho tơi những lời khun bổ ích để hồn thành luận án
này.
Tơi cũng xin được bày tỏ lịng biết ơn chân thành của mình tới Hiệu trưởng,
Ban giám Hiệu, và các đồng nghiệp của tôi ở Khoa Công nghệ Thông tin trường
Đại học Công nghiệp TP. HCM, những người đã luôn tạo điều kiện thuận lợi, giúp
đỡ tinh thần và vật chất cho tôi trong việc thực hiện luận án. Luận án của tơi cũng
khó có thể hồn thành nếu khơng có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là
nhóm NLP – Đại học Bách khoa TP. HCM, những người đã trực tiếp đóng góp
những ý kiến thiết thực cho thành công của nghiên cứu.
Cuối cùng, tôi xin cảm ơn các bạn sinh viên lớp ĐHTH1- Trường Đại học
Công nghiệp TP. HCM đã trực tiếp hỗ trợ tôi trong việc xây dựng kho ngữ liệu song
ngữ và đánh giá kết quả thực nghiệm. Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội đã giúp tôi trong việc chỉnh lý bộ dữ liệu chuẩn để hỗ trợ cho
việc đánh giá kết quả của luận án.
TP.HCM, ngày 27-12-2007
Người thực hiện

NCS. Nguyễn Chí Hiếu


iii


MỤC LỤC
Lời cam đoan ..........................................................................................................................i
LỜI CẢM ƠN........................................................................................................................ii
MỤC LỤC ............................................................................................................................iii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................................v
DANH MỤC CÁC HÌNH...................................................................................................viii
DANH MỤC CÁC BẢNG ....................................................................................................x
Chương 1 MỞ ĐẦU ...........................................................................................................1
1.1 Động cơ nghiên cứu....................................................................................................1
1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu ...............................................3
1.3 Phạm vi nghiên cứu và các bài tốn chính..................................................................4
1.4 Đóng góp của luận án .................................................................................................5
1.5 Cấu trúc của luận án....................................................................................................8
Chương 2 CƠ SỞ LÝ THUYẾT ........................................................................................9
2.1 Các định nghĩa và phát biểu hình thức......................................................................10
2.2 Cụm danh từ..............................................................................................................15
2.2.1 Cấu trúc của cụm danh từ tiếng Việt ..............................................................15
2.2.2 Cấu trúc của cụm danh từ tiếng Anh ..............................................................28
2.2.3 Sự tương đồng và khác biệt giữa cụm danh từ tiếng Anh và tiếng Việt.........33
2.3 Các phương pháp đối sánh từ ...................................................................................41
2.3.1 Xác định bài tốn ............................................................................................42
2.3.2 Các mơ hình đối sánh......................................................................................43
2.3.3 Mơ hình đối sánh thống kê .............................................................................46
2.3.4 Phương pháp từ điển .......................................................................................51
2.4 Nguồn tài nguyên dùng trong luận án.......................................................................54
2.4.1 Gate.................................................................................................................54
2.4.2 Giza++ ............................................................................................................55
2.4.3 Penn Treebank ................................................................................................56
2.4.4 Phân đoạn từ tiếng Việt ..................................................................................56
2.4.5 Tiêu chí nhận diện từ ......................................................................................57

Chương 3 CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT..................................................59
3.1 Mở đầu ......................................................................................................................60
3.2 Lý do thực hiện bài tốn chuyển đổi trật tự từ..........................................................71
3.3 Mơ hình chuyển đổi trật tự từ ...................................................................................74
3.4 Kết quả thử nghiệm và đánh giá ...............................................................................91
3.4.1 Dữ liệu đánh giá..............................................................................................92
3.4.2 Tiêu chuẩn đánh giá........................................................................................93


iv

3.4.3 Kết quả đánh giá .............................................................................................95
Chương 4 MƠ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGƠN NGỮ ĐÍCH.......98
4.1 Mở đầu ......................................................................................................................98
4.2 Mơ hình thống kê khai thác đặc tính ngơn ngữ đích...............................................101
4.3 Đánh giá kết quả .....................................................................................................111
4.3.1 Ngữ liệu huấn luyện và đánh giá ..................................................................112
4.3.2 Kết quả thực nghiệm.....................................................................................116
Chương 5 MƠ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGƠN NGỮ ĐÍCH.........121
5.1 Mở đầu ....................................................................................................................121
5.2 Mơ hình đối sánh điểm neo.....................................................................................123
5.2.1 Dẫn nhập .......................................................................................................123
5.2.2 Các mơ hình thực nghiệm .............................................................................127
5.2.3 Bài toán chồng chéo và xung đột..................................................................145
5.3 Kết quả thực nghiệm...............................................................................................153
Chương 6 CÁC NGHIÊN CỨU LIÊN QUAN...............................................................158
6.1 Các phương pháp phân đoạn câu ............................................................................158
6.1.1 Các phương pháp tạo văn phạm bằng tay .....................................................158
6.1.2 Các phương pháp máy học ...........................................................................159
6.2 Rút trích cụm danh từ song ngữ..............................................................................161

Chương 7 KẾT LUẬN....................................................................................................166
7.1 Các kết quả đạt được...............................................................................................166
7.2 Hướng phát triển .....................................................................................................168
7.3 Lời kết.....................................................................................................................168
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ..................................................................171
TÀI LIỆU THAM KHẢO .................................................................................................173
PHỤ LỤC A
DỮ LIỆU ĐÁNH GIÁ...........................................................................187
PHỤ LỤC B
LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK ............................193
PHỤ LỤC C
CHẠY GIZA++ .....................................................................................207
PHỤ LỤC D
BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .............................209
PHỤ LỤC E
CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT.......................................210
PHỤ LỤC F
BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN ..............................219
PHỤ LỤC G
ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM .................................................221
PHỤ LỤC H
CÁC PHƯƠNG PHÁP HỌC MÁY ......................................................223
PHỤ LỤC I
TÍNH NHẬP NHẰNG ...........................................................................226
PHỤ LỤC J
ĐỘ PHỨC TẠP GIẢI THUẬT..............................................................229


v


DANH MỤC CÁC TỪ VIẾT TẮT
STT

Từ viết tắt

Diễn giải tiếng Anh

Diễn giải tiếng Việt

1

AER

Alignment Error

Lỗi đối sánh

2

AI

Artificial Intelligence

Trí tuệ nhân tạo

3

ANN

Artificial Neural Networks Mạng Neural nhân tạo


4

APAP

Anchor Point Alignment &
Projection

5

APAP-LCC

Anchor Point Alignment & Chiếu qua đối sánh điểm neo
Projection – Language
khai thác đặc tính ngơn ngữ
Characteristic Combination đích

6

APAP-STT

Anchor Point Alignment &
Projection – Syntax Tree
Transfer

Chiếu qua đối sánh điểm neo
khai thác đặc tính trật tự từ

7


APAP-WS

Anchor Point Alignment &
Projection – Word
Segmentation

Chiếu qua đối sánh điểm neo
khai thác đặc tính phân đoạn
từ

8

BaseNP

Base-Noun Phrase

Cụm danh từ cơ sở

9

BLEU

Bilingual evaluation

Phương pháp để đánh giá tự
động cho Dịch máy.

Understudy.

Chiếu qua đối sánh điểm neo


10

CoNLL

Conference on
Computational Natural
Language Learning

11

CLIR

Cross-language information Truy hồi thông tin xuyên
retrieval
ngôn ngữ

12

DictAlign

Dictionary Alignment

Đối sánh từ điển

13

DL

Decision List


Danh sách quyết định

14

DP

Decision Pylon

Tháp quyết định

15

EBMT

Example Based Machine
Translation

Dịch máy trên cơ sở ví dụ

Hội nghị về ngơn ngữ học
tính tốn


vi

16

EBT


Example Based Transfer

Chuyển đổi trên cơ sở ví dụ

17

EM

Expected Maximal

kỳ vọng cực đại

18

FNPC

Finding Noun Phrase
Corresponding

Tìm cụm danh từ tương ứng

19

GATE

General Architecture for
Text Engineering

Kiến trúc tổng quát cho kỹ
thuật văn bản


20

HMM

Hidden Markov Models

Mơ hình Markov ẩn

21

IE

Information Extraction

Rút trích thơng tin

22

IR

Information Retrieval

Truy hồi thông tin

23

KANT

Knowledge-Based Natural Dịch ngôn ngữ tự nhiên trên

Language Translation
cơ sở tri thức

24

MBL

Memory-based learning

Học trên cơ sở bộ nhớ

25

MT

Machine Translation

Dịch máy

26

ME

Maximal Entropy

Entropy cực đại

27

NLP


Natural Language
Processing

Xử lý ngôn ngữ tự nhiên

28

NFA

Nondeterministic Finite
Automata

Automat hữu hạn không đơn
định

29

NP

Noun Phrase

Cụm danh từ

30

POS

Part–Of-Speech


Mã từ loại

31

QA

Question & Answer

Hỏi và trả lời

32

RBMT

Rule Base Machine
Translation

Dịch máy dựa vào luật sinh

33

SMT

Statistical Machine
Translation

Dịch máy thống kê

34


SQL

Structured Query
Language

Ngôn ngữ hỏi có cấu trúc

35

SR

Speech Recognition

Nhận dạng giọng nói

36

SVM

Support vector machine

Máy véc tơ hỗ trợ


vii

37

TA


Treebank Approach

Tiếp cận Treebank

38

TA+LR

Treebank Approach +
Local Repair

Treebank + hiệu chỉnh cục bộ

39

TBL

Transformation Based
Learning

Học trên cơ sở chuyển đổi

40

WA

Word Alignment

Đối sánh từ


41

WAP

Word Alignment &
Projection

Chiếu qua đối sánh từ

WAP-LCC

Word Alignment &
Chiếu qua đối sánh từ khai
Projection –Language
Characteristic Combination thác đặc tính ngơn ngữ đích

WAP-STT

Word Alignment &
Projection – Syntax Tree
Transfer

Chiếu qua đối sánh từ khai
thác đặc tính trật tự từ

WAP-WS

Word Alignment &
Projection – Word
Segmentation


Chiếu qua đối sánh từ khai
thác đặc tính phân đoạn từ

42

43

44


viii

DANH MỤC CÁC HÌNH
Hình 2.1

Giải thuật đối sánh từ trên cơ sở từ điển...........................................................52

Hình 2.2

Giải thuật đối sánh từ trên cơ sở từ điển phân lớp từ........................................54

Hình 3.1

Ví dụ về các loại đối sánh.................................................................................71

Hình 3.2

Vấn đề chồng chéo và xung đột trong phép chiếu............................................72


Hình 3.3

Chuyển đổi trật tự từ để xác định đúng điểm neo.............................................73

Hình 3.4

Một ví dụ về cụm danh từ cơ sở .......................................................................76

Hình 3.5

Giải thuật tìm từ trung tâm................................................................................76

Hình 3.6

Giải thuật nhận biết liên từ trong thành phần Y5..............................................80

Hình 3.7

Giải thuật phân tách các thành phần phụ trước.................................................81

Hình 3.8

Mơ hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt..................................83

Hình 3.9

Giải thuật chuyển đổi trật tự từ tiếng Anh theo tiếng Việt ...............................85

Hình 4.1


Ví dụ về đối sánh của mơ hình WAP..............................................................102

Hình 4.2

Mơ hình WAP.................................................................................................102

Hình 4.3

Giải thuật WAP...............................................................................................103

Hình 4.4

Ví dụ về đối sánh của mơ hình WAP-WS ......................................................104

Hình 4.5 Giải thuật WAP-WS ........................................................................................104
Hình 4.6

Mơ hình WAP-WS..........................................................................................105

Hình 4.7

Ví dụ về đối sánh của mơ hình WAP-STT .....................................................106

Hình 4.8

Giải thuật WAP-STT ......................................................................................106

Hình 4.8

Mơ hình WAP-STT ........................................................................................107


Hình 4.10 Ví dụ về đối sánh của mơ hình WAP-LCC ....................................................108
Hình 4.12 Mơ hình WAP-LCC........................................................................................109
Hình 4.13 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................110
Hình 5.1

Ví dụ về đối sánh điểm neo ............................................................................124

Hình 5.2

Ví dụ về xác định cụm danh từ tương ứng Anh-Việt .....................................125

Hình 5.3

Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................126

Hình 5.4

Mơ hình APAP................................................................................................128

Hình 5.5

Mơ hình APAP-WS ........................................................................................129

Hình 5.6

Mơ hình APAP-STT .......................................................................................130

Hình 5.7


Mơ hình APAP-LCC ......................................................................................131


ix

Hình 5.8

Mơ đun đối sánh điểm neo.............................................................................132

Hình 5.9

Giải thuật tính hệ số tương đồng từ kho ngữ liệu song ngữ ..........................139

Hình 5.10 Giải thuật chọn điểm neo theo hệ số tương đồng ...........................................140
Hình 5.11 Giải thuật tìm cụm danh từ cơ sở tiếng Việt theo từ đặc trưng ......................143
Hình 5.12 Giải thuật đối sánh điểm neo ..........................................................................144
Hình 5.13 Vấn đề đối sánh rỗng, chồng chéo và xung đột ..............................................145
Hình 5.14 Xung đột ngoài cụm danh từ cơ sở dạng 1 .....................................................147
Hình 5.15 Xung đột ngồi cụm danh từ cơ sở dạng 2 .....................................................147
Hình 5.16 Xung đột ngồi cụm danh từ cơ sở dạng 3 .....................................................147
Hình 5.17 Xung đột trong cùng cụm danh từ cơ sở dạng 4.............................................147
Hình 5.18 Giải thuật giải quyết chồng chéo và xung đột ................................................148
Hình 5.19 Các tổ hợp của cụm danh từ cơ sở đã chuyển đổi trật tự................................149
Hình 5.20 Giải thuật giải quyết nhập nhằng tính từ.........................................................151


x

DANH MỤC CÁC BẢNG
Bảng 2.1


Một ví dụ về cặp cụm danh từ cơ sở song ngữ Anh-Việt.................................13

Bảng 2.2

Một số ví dụ về từ phân lớp khi dịch Anh-Việt ...............................................17

Bảng 2.3

Một số ví dụ về vị trí của từ đo lường và từ phân lớp......................................18

Bảng 2.4

Ví dụ về sự khác nhau giữa từ phân lớp và đo lường.......................................18

Bảng 2.5

Sự khác nhau về nghĩa khi sử dụng từ phân lớp và từ đo lường ......................18

Bảng 2.6

Các khả năng kết hợp của danh từ đếm được...................................................19

Bảng 2.7

Tổng hợp các từ chỉ tổng lượng .......................................................................22

Bảng 2.8

Phân tích một cụm danh từ tiếng Việt ..............................................................26


Bảng 2.9

Các biến thể trong cụm danh từ tiếng Việt.......................................................27

Bảng 2.10 Cấu trúc cơ bản của cụm danh từ .....................................................................28
Bảng 2.11 Phân loại các nhóm tính từ ...............................................................................29
Bảng 2.12 Trật tự từ trong cấu trúc cụm danh từ tiếng Anh..............................................30
Bảng 2.13 Các biến thể trong cụm danh từ tiếng Anh.......................................................32
Bảng 2.14 Cấu trúc của cụm danh từ tiếng Anh, tiếng Việt ..............................................34
Bảng 2.15 Cấu trúc cụm danh từ tiếng Anh theo John Eastwood .....................................36
Bảng 2.16 Cấu trúc cụm danh từ tiếng Anh theo Vũ Ngọc Tú..........................................36
Bảng 2.17 Cấu trúc bảy thành phần trong cụm danh từ tiếng Việt....................................37
Bảng 2.18 Bảng so sánh các lược đồ huấn luyện ..............................................................55
Bảng 3.1

Cấu trúc của cụm danh từ tiếng Anh và tiếng Việt ..........................................65

Bảng 3.2

Bảng so sánh các thành phần trong cụm danh từ .............................................66

Bảng 3.3

Luật sinh rút trích từ Penn Treebank................................................................67

Bảng 3.4

Các dạng luật rút ra từ đối sánh từ của ví dụ 3.6..............................................69


Bảng 3.5

Các luật sinh dự tuyển của cụm danh từ cơ sở tiếng Việt ................................90

Bảng 3.6

Kết quả phân tích cụm danh từ tiếng Anh........................................................95

Bảng 3.7

Kết quả chuyển đổi trật tự từ và xác định điểm neo.........................................96

Bảng 4.1

Thời gian thực hiện và khối lượng của một số Treebank.................................99

Bảng 4.2

Một số ngữ liệu song ngữ...............................................................................113

Bảng 4.3

Kết quả nguồn ngữ liệu song ngữ sưu tập được.............................................114

Bảng 4.4

Thống kê chiều dài câu của các ngữ liệu sưu tập ...........................................115

Bảng 4.5


Một ví dụ về kết quả đối sánh từ bằng Giza++ ..............................................116


xi

Bảng 4.6

Kết quả đối sánh từ Anh-Việt trong mơ hình WAP .......................................117

Bảng 4.7

Kết quả đối sánh từ Anh-Việt trong mô hình WAP-WS................................118

Bảng 4.8

Kết quả đối sánh từ Anh-Việt trong mơ hình WAP-STT...............................118

Bảng 4.9

Kết quả đối sánh từ Anh-Việt trong mơ hình WAP-LCC ..............................119

Bảng 4.10 Bảng so sánh kết quả đối sánh và nhận biết cụm danh từ cơ sở ....................120
Bảng 5.1

Ví dụ về sự xuất hiện nhiều lần của từ trong câu tiếng Anh ..........................134

Bảng 5.2

Kết quả khảo sát ảnh hưởng của ngưỡng δ ....................................................136


Bảng 5.3

Collocation(today) huấn luyện từ ngữ liệu song ngữ .....................................140

Bảng 5.4

Các khả năng tìm điểm neo tương ứng bằng từ đặc trưng và luật..................141

Bảng 5.5

Kết quả phối hợp các tầng trong mơ hình đối sánh điểm neo ........................145

Bảng 5.6

Ví dụ về điểm neo thuộc thành phần d có nhiều tính từ.................................150

Bảng 5.7

Thống kê các luật có bổ ngữ nhiều tính từ .....................................................152

Bảng 5.8

Phân rã luật sinh thành các thành tố ...............................................................152

Bảng 5.9

Bộ ngữ liệu mẫu .............................................................................................153

Bảng 5.10 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu mẫu ..........153
Bảng 5.11 Bộ ngữ liệu kiểm tra .......................................................................................154

Bảng 5.12 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu kiểm tra ....155
Bảng 5.13 Kết quả rút trích cụm danh từ cơ sở của một số tác giả .................................157
Bảng 6.1

Bảng so sánh kết quả nhận biết cụm danh từ cơ sở tiếng Anh.......................160


1

Chương 1

MỞ ĐẦU
1.1 Động cơ nghiên cứu
Xử lý ngôn ngữ tự nhiên (Natural language processing) là lĩnh vực nghiên
cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý ngôn ngữ của con người.
Trong những năm gần đây, rất nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như
rút trích thơng tin, truy hồi thơng tin xun ngơn ngữ, tóm lược văn bản, hỏi đáp và
dịch máy tự động phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực. Trong các
ứng dụng kể trên, cụm danh từ cơ sở đóng một vai trị quan trọng. Vì thế, việc rút
trích tự động cụm danh từ cơ sở đơn ngữ cũng như song ngữ từ ngữ liệu được nhiều
nhà khoa học quan tâm nghiên cứu, ví dụ như Kupiec [75], Le [76], Wantanabe
[131], Yarowsky [139], Riloff [112], Wang [129] và Hwang [68]. Tuy nhiên, việc
nhận biết và rút trích cụm danh từ tiếng Việt nói riêng và cụm danh từ cơ sở song
ngữ Anh-Việt nói chung vẫn cịn là bài toán mở. Bốn vấn đề được liệt kê dưới đây
làm rõ nhận định này.
Thứ nhất là vấn đề nghiên cứu về rút trích cụm danh từ cơ sở song ngữ AnhViệt. Trong những năm gần đây, cụm danh từ tiếng Việt đã được nhiều nhà ngôn
ngữ học nghiên cứu và cho kết quả khả quan về mặt lý luận. Luận án tiến sĩ của
Dương Thanh Bình [03], Tuong Hung Nguyen [22], Vũ Ngọc Tú [23] đã cho thấy
tầm quan trọng của cụm danh từ trong tiếng Việt. Tuy vậy, cho đến nay việc nghiên
cứu tỉ mỉ về xác định và rút trích tự động cụm danh từ song ngữ nói chung và cụm

danh từ cơ sở song ngữ nói riêng, vẫn là vấn đề mở. Vì thế, việc nghiên cứu này là


2

cần thiết.
Thứ hai là vấn đề xây dựng hệ thống rút trích cụm danh từ cơ sở song ngữ
Anh-Việt từ ngữ liệu song ngữ. Ở Việt nam, ngôn ngữ học tính tốn mới được phát
triển vài chục năm trở lại đây, tuy đã đạt được một số thành công nhất định song
việc rút trích và nhận biết thơng tin, đặc biệt là cụm danh từ cơ sở tiếng Việt và cụm
danh từ cơ sở song ngữ Anh-Việt vẫn còn nhiều thách thức. Thách thức càng trở
nên lớn hơn khi chúng ta thiếu các công cụ xử lý ngôn ngữ cho tiếng Việt, như các
cơng cụ phân tích hình thái, gán nhãn từ loại, phân đoạn câu, phân tích cú pháp...
Do vậy vấn đề này cần được nghiên cứu.
Thứ ba là trong bối cảnh của tiếng Việt, cũng giống như hơn 200 ngôn ngữ
khác trên thế giới, muốn phát triển nhanh các ứng dụng về xử lý ngôn ngữ tự nhiên
lại phải đối mặt với vấn đề thiếu vắng nguồn tài nguyên, như các ngữ liệu đơn ngữ
và song ngữ…, nhưng việc xây dựng nguồn tài nguyên này không dễ và cũng không
rẻ. Một tiếp cận để khắc phục mặt hạn chế về nguồn tài nguyên là tiếp cận chiếu
thông qua ngôn ngữ giàu tài nguyên như tiếng Anh, được Yarowsky [138] đề xuất,
nhưng với tiếp cận này vẫn cịn có nhiều thách thức. Đó là vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột, như Yarowsky đã trình bày trong nghiên cứu với
cặp ngôn ngữ Anh-Pháp. Vấn đề đối sánh rỗng, chồng chéo và xung đột cũng là
thách thức cơ bản cho cặp ngôn ngữ Anh-Việt khi sử dụng tiếp cận chiếu thông qua
kết quả đối sánh từ tiếng Anh và tiếng Việt để xác định cụm danh từ cơ sở Anh-Việt
tương ứng. Vì vậy, việc nghiên cứu để vượt qua những thách thức này là cần thiết.
Cuối cùng, xét về mặt thực tiễn việc thu thập các cụm danh từ cơ sở song ngữ
chuẩn làm dữ liệu cho các ứng dụng về xử lý ngôn ngữ tự nhiên, như dịch máy, truy
hồi thông tin xuyên ngôn ngữ, xây dựng từ điển, nhận dạng tiếng nói, .v.v. trong đó,
cụm danh từ cơ sở đơn ngữ và song ngữ đóng vai trị quan trọng. Vì vậy, việc xác

định và rút trích cụm danh từ cơ sở Anh-Việt tương ứng cần được nghiên cứu.
Những vấn đề nêu trên chính là động cơ thúc đẩy chúng tơi chọn đề tài “Mơ
hình khai thác đặc tính ngơn ngữ đích nhằm xác định các cụm danh từ cơ sở tương
ứng Anh-Việt”.


3

1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu
Chúng tơi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm
danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh-Việt. Trên kết quả nhận biết
này, chúng tơi rút trích các cụm danh từ cơ sở tương ứng Anh-Việt. Xét về mặt lý
luận, có nhiều phương pháp và mơ hình khác nhau để nhận biết và rút trích cụm
danh từ cơ sở tiếng Việt. Mỗi phương pháp và mơ hình khác nhau có thể có những
bước thực hiện khác nhau. Nhưng tổng thể hiện nay, có hai hướng tiếp cận để nhận
biết cụm danh từ cơ sở.
Hướng thứ nhất là tiếp cận đơn ngữ. Với hướng tiếp cận này, người ta tiến
hành theo hai nhóm phương pháp chính là các phương pháp tạo văn phạm bằng tay
và các phương pháp máy học. Cả hai nhóm phương pháp này khi áp dụng vào tiếng
Việt, cịn nhiều vấn đề cần giải quyết như vấn đề gán mã từ loại cho tiếng Việt, xây
dựng Treebank tiếng Việt, tạo luật sinh cho văn phạm tiếng Việt .v.v. Theo báo cáo
của Nguyễn Thị Minh Huyền trong tài liệu [17] việc gán từ loại cho tiếng Việt mới
đạt khoảng 85%. Nâng cao kết quả gán từ loại cũng là một vấn đề đang được nghiên
cứu. Xây dựng Treebank tiếng Việt lại là một vấn đề khác nằm ngoài luận án này.
Hướng tiếp cận thứ hai là tiếp cận song ngữ. Tiếp cận này có hai phương
pháp chính là thống kê qua phân tích cú pháp của cả hai ngơn ngữ (nguồn và đích)
và chiếu thơng qua kết quả phân tích của ngôn ngữ nguồn để thu được kết quả trên
ngôn ngữ đích.
Tiếng Việt có thể dựa vào tiếng Anh để giải quyết bài tốn nghiên cứu thơng
qua việc chiếu qua kết quả đối sánh từ như nghiên cứu của Yarowsky [138] cho cặp

Anh-Pháp và Hwa [67] cho cặp Anh Trung. Như vậy, bài toán nhận biết cụm danh
từ cơ sở tương ứng Anh-Việt sẽ được chúng tôi chọn theo tiếp cận chiếu qua kết
quả đối sánh từ. Với đối sánh từ, về tổng thể có hai phương pháp chính là phương
pháp đối sánh từ dựa trên thống kê (Brown et.al [38]) và đối sánh từ dựa trên từ
điển (Ker và Chang [70]). Luận án thực hiện trên cả hai phương pháp này như được
trình bày trong phần đóng góp của luận án (mục 1.4).
Nhiệm vụ chính của luận án cần thực hiện như sau:


4

- Nghiên cứu về đối sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở
giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm
danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt. Xây dựng
mơ hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm
danh từ tiếng Việt.
- Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ
liệu Penn Treebank và thống kê tần suất xuất hiện của nó để xây dựng bộ ngữ liệu
mẫu để đánh giá các giải thuật trong chương 3. Kết hợp với kết quả đối sánh,
chuyển đổi trật tự từ của cụm danh từ tiếng Anh để xây dựng tập luật sinh dự tuyển
cho cụm danh từ cơ sở tiếng Việt.
- Nghiên cứu các mơ hình đối sánh từ
- Nghiên cứu và đề xuất những giải pháp khắc phục các vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột
-

Xây dựng và hiện thực các mơ hình nhận biết cụm danh từ cơ sở tương ứng

Anh-Việt
- Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực

nghiệm. Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mơ hình đề
xuất.

1.3 Phạm vi nghiên cứu và các bài tốn chính
Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của
cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở
tương ứng Anh-Việt. Việc giới hạn nghiên cứu ở mức cụm danh từ cơ sở suất phát
từ những lý do chính sau: Thứ nhất cụm danh từ nói chung rất phức tạp, các nghiên
cứu hiện nay trong xử lý ngôn ngữ tự nhiên tiếng Anh cũng chỉ giới hạn ở mức cụm
danh từ cơ sở (BaseNP). Cụm danh từ cơ sở là cụm danh từ không đệ quy, không
chứa các cụm giới từ (prepositional phrases) hoặc mệnh đề (clauses) [106]. Thứ hai
là tiếp cận của luận án theo phương pháp chiếu thông qua kết quả đối sánh từ và
ngôn ngữ nguồn được chọn là tiếng Anh sẵn có các cơng cụ với mã nguồn mở. Các


5

nghiên cứu của các nhà ngôn ngữ học như Tuong Hung Nguyen [22], Vũ Ngọc Tú
[23] cho thấy cấu trúc cụm danh từ cơ sở tiếng Anh và tiếng Việt có nhiều điểm
tương đồng và một chút khác biệt (stopWord trong tiếng Anh, từ phân lớp trong
tiếng Việt, trật tự từ…). Các điểm khác biệt giữa chúng có thể hình thức hóa được
như trình bày trong chương 3 của luận án.
Luận án thực nghiệm có giới hạn trên một số ngữ liệu song ngữ như: tin học,
từ điển bách khoa dành cho thanh thiếu niên, bộ luật lao động, các trang Web song
ngữ của đại sứ quán Mỹ [147], [148], và Úc [79]. Các cặp câu song ngữ trong
nghiên cứu của luận án chỉ giới hạn ở những cặp có cách dịch là 1-1, nghĩa là một
câu tiếng Anh được dịch thành một câu tiếng Việt, khơng có đảo ngữ khi dịch từ
câu tiếng Anh sang câu tiếng Việt.
Từ nhiệm vụ nghiên cứu kể trên, luận án cần giải quyết các bài tốn chính
sau đây:

- Bài tốn chuyển đổi cây cú pháp Anh-Việt mức cụm từ.
- Cho ngữ liệu song ngữ Anh-Việt đã đối sánh mức câu, câu tiếng Anh đã
được gán nhãn từ loại và đã xác định được các cụm danh từ cơ sở, câu tiếng Việt đã
được phân đoạn từ (tùy thuộc vào mơ hình thực nghiệm mà việc phân đoạn từ có
được sử dụng hay khơng). Từ đó, chúng tơi có thể nhận biết được cụm danh từ cơ
sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh-Việt.
- Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt. Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng
Việt thơng qua q trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng
các từ đặc trưng trong tiếng Việt.
- Giải quyết vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột trong quá
trình nhận biết cụm danh từ cơ sở tiếng Việt.

1.4 Đóng góp của luận án
Trong q trình thực hiện luận án, chúng tơi đã có một số đóng góp về mặt
khoa học và thực tiễn như sau.


6



Đóng góp về mặt khoa học
Luận án đã đưa ra ý tưởng “Khai thác đặc tính ngơn ngữ đích vào bài toán

xác định các cụm danh từ cơ sở tương ứng Anh-Việt”. Trong luận án này, chúng tôi
khai thác hai đặc tính của ngơn ngữ tiếng Việt là phân đoạn từ và trật tự từ vào bài
toán nhận biết cụm danh từ cơ sở tiếng Việt. Ngồi hai đặc tính kể trên, yếu tố từ
đặc trưng của tiếng Việt cũng được đề xuất sử dụng trong bài toán này. Từ ý tưởng
“khai thác đặc tính ngơn ngữ đích” kể trên, luận án có ba đóng góp chính sau đây:
- Đóng góp thứ nhất là đề xuất và hiện thực kỹ thuật “chuyển đổi cây cú pháp

Anh-Việt”. Do khác biệt về loại hình ngơn ngữ, trật tự từ trong cụm danh từ cơ sở
tiếng Việt và tiếng Anh cơ bản là khác nhau (như phân tích trong chương 3). Yếu tố
trật tự từ là một đặc tính của ngơn ngữ. Để khai thác đặc tính ngơn ngữ này, chúng
tơi đề xuất kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” (được trình bày trong
chương 3). Kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” là mơ đun quan trọng
trong các mơ hình đề xuất của luận án. Ngoài ra, kỹ thuật chuyển đổi cây cú pháp
còn giúp cho việc xây dựng tập luật sinh dự tuyển để giải quyết bài toán “dữ liệu
thưa”1, bài toán “chồng chéo và xung đột” cũng như bài toán “học luật chuyển đổi
từ ngữ liệu song ngữ”. Điểm khác biệt chính giữa mơ hình đề xuất của luận án với
các mơ hình hiện có là ở chỗ, mơ hình của luận án khai thác đặc tính trật tự từ trong
tiếng Việt. Đặc tính trật tự từ này dựa trên cơ sở nghiên cứu của các nhà ngôn ngữ
học. Các mơ hình khác như của tác giả Đinh Điền [7], Nguyễn Phương Thái [19] và
Katharina Probst [103] dựa trên nền tảng xác suất thống kê.

1.

“Dữ liệu thưa” là dữ liệu không được thiết lập hoặc tần suất xuất hiện quá nhỏ để thiết lập xác
suất của nó. Trong luận án “dữ liệu thưa” xuất hiện ở hai loại hình: Với mơ hình đối sánh từ
bằng phương pháp từ điển, “dữ liệu thưa” được hiểu là trường hợp mà nghĩa tiếng Việt của từ
tiếng Anh chưa được thiết lập trong từ điển song ngữ Anh-Việt. Với mơ hình thống kê, “dữ
liệu thưa” được hiểu là những trường hợp mà tần suất xuất hiện của từ quá nhỏ để thiết lập
giá trị xác suất của nó và chúng có giá trị xác suất bằng 0. Cụm từ “dữ liệu thưa” được dịch
từ cụm từ “sparse-data” [p.198, 29].


7

- Đóng góp thứ hai của luận án là đề xuất “mơ hình thống kê khai thác đặc tính
ngơn ngữ đích”. Điểm khác biệt chính giữa mơ hình của luận án với các mơ hình
đối sánh thống kê hiện có là, với mơ hình HMM (Och và Ney [97]) người ta chỉ dự

đốn khoảng cách giữa các vị trí từ trong ngơn ngữ nguồn, với mơ hình 4 (Brown
[38]) người ta chỉ dự đốn các từ trong ngơn ngữ đích.
- Trong luận án này, chúng tơi khai thác đặc tính ngơn ngữ đích như phân
đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngơn
ngữ đích. Với đặc tính phân đoạn từ và đặc tính trật tự từ, luận án tiến hành khai
thác các đặc tính này ở bước tiền xử lý. Sau đó mới thực hiện đối sánh từ trên mơ
hình thống kê thơng qua mã nguồn mở Giza++ [98]. Với các từ đặc trưng của tiếng
Việt (ví dụ như các từ phân lớp), luận án sử dụng ở bước hậu xử lý. Nghĩa là sau khi
có kết quả đối sánh từ bằng Giza++, chúng tôi sẽ chiếu để thu được cụm danh từ
tiếng Việt tương ứng với cụm danh từ cơ sở tiếng Anh. Ở giai đoạn này, chúng tôi
sử dụng một số luật mở rộng cụm danh từ tiếng Việt (trình bày trong chương 4).
- Đóng góp thứ ba của luận án là đề xuất “mơ hình từ điển khai thác đặc tính
ngơn ngữ đích”. Điểm khác biệt chính giữa mơ hình của luận án với các mơ hình từ
điển hiện có là: với mơ hình từ điển truyền thống người ta đo độ không đối sánh
đúng (dislocation) bằng thực nghiệm (Ker và Chang [70] như trình bày trong mục
2.3.4). Luận án của chúng tôi khai thác đặc tính ngơn ngữ đích như phân đoạn từ,
đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngơn ngữ
đích. Ngồi ra luận án còn xây dựng một ngưỡng δ bằng thực nghiệm để giới hạn
khơng gian tìm kiếm. Thêm vào đó, trên cơ sở kết quả của mơ hình chuyển đổi cây
cú pháp, luận án đề xuất “mơ hình đối sánh điểm neo” cho bài toán nhận biết cụm
danh từ cơ sở tiếng Việt trong cặp câu song ngữ. Mơ hình chiếu trên kết quả đối
sánh từ truyền thống thực hiện đối sánh cho tất cả các từ trong câu, nên làm nảy
sinh vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột, như các thực nghiệm
trên mơ hình thống kê của Yarowsky [138], Hwa [67], đối sánh lỗi hoặc đối sánh
rỗng trên mơ hình từ điển của Đ.Điền [9]. Mơ hình đối sánh điểm neo cho phép
giảm thiểu vấn đề đối sánh rỗng. Mơ hình này có các giải pháp khắc phục được vấn


8


đề chồng chéo và xung đột bằng tập luật dự tuyển (học được trong quá trình chuyển
đổi cây cú pháp và các từ đặc trưng trong tiếng Việt). Giải pháp khắc phục vấn đề
chồng chéo và xung đột được trình bày trong chương 5.
Chúng tôi thực hiện đánh giá độ chính xác (Precision), độ thu hồi (Recall), tỷ
suất lỗi (AER) và trọng số điều hòa (Fβ: F-measure) trên cả 9 mơ hình là mơ hình
chuyển đổi cây cú pháp (chương 3), bốn mơ hình thống kê (chương 4) và bốn mơ
hình từ điển (chương 5). Q trình đánh giá trên hai bộ ngữ liệu là bộ ngữ liệu mẫu
1.000 cặp câu do “Trung tâm Nghiên cứu Ngôn ngữ -Viện Khoa học xã hội” thực
hiện và bộ ngữ liệu chọn ngẫu nhiên 2.700 cặp câu từ bộ ngữ liệu 35.000 cặp câu do
chúng tôi sưu tập. Kinh nghiệm thực nghiệm cho thấy rằng các kết quả được cải
thiện đáng kể. Mức độ cải thiện tăng theo mức độ khai thác đặc tính ngơn ngữ vào
các mơ hình như được trình bày trong chương 4 và 5.


Đóng góp về mặt thực tiễn
Kết quả xác định cụm danh từ cơ sở tương ứng Anh-việt trong nghiên cứu

của luận án có thể sử dụng cho dịch máy thống kê Anh-Việt dựa trên cụm danh từ
cơ sở. Dịch máy dựa trên cơ sở cụm từ là hướng nghiên cứu mới cho kết quả khả
quan hiện nay (Anh-Đức, Anh–Trung,…). Ngoài ra, kết quả của luận án cịn dùng
cho phương pháp dịch máy dựa trên ví dụ, rút trích thơng tin, truy xuất thơng tin
xun ngơn ngữ, khai thác nguồn tài nguyên trên mạng của ngôn ngữ khác bằng
tiếng Việt, làm ngữ liệu cho công tác xây dựng từ điển song ngữ, khảo sát, kiểm
chứng các điểm tương đồng và dị biệt giữa tiếng Anh và tiếng Việt bằng thực
nghiệm. Đặc biệt có thể thiết lập được tập luật sinh chuyển đổi thơng qua q trình
học từ ngữ liệu song ngữ Anh-Việt [16]. Kết quả nghiên cứu của luận án cịn nhằm
mục đích làm tiền đề cho các nghiên cứu tiếp theo của chúng tôi về dịch máy AnhViệt [15].

1.5 Cấu trúc của luận án
Phần còn lại cùa luận án được cấu trúc như sau: Chương 2 trình bày cơ sở lý

luận về cụm danh từ cơ sở tiếng Anh, cụm danh từ cơ sở tiếng Việt, so sánh sự


9

tương đồng và khác biệt về trật tự từ giữa cụm danh từ tiếng Anh và tiếng Việt. Cơ
sở lý thuyết về đối sánh từ thống kê, đối sánh từ điển cũng như các nguồn tài
nguyên sử dụng trong luận án. Chương 3 trình bày những đề xuất về mơ hình
chuyển đổi cây cú pháp Anh-Việt. Kết quả của quá trình chuyển đổi cây cú pháp
khơng những tạo cơ sở cho việc khai thác đặc tính ngơn ngữ đích vào các mơ hình
trong chương 4 và chương 5 mà cịn tạo được tập luật sinh dự tuyển cụm danh từ cơ
sở tiếng Việt. Tập luật sinh dự tuyển này là thành phần quan trọng trong bài toán
học luật chuyển đổi từ ngữ liệu song ngữ. Kết quả nghiên cứu của chương 3 được
trình bày trong bài báo [16]. Chương 4 trình bày đề xuất của chúng tơi với tên gọi
“Mơ hình thống kê khai thác đặc tính ngơn ngữ đích”. Trong chương này, chúng tơi
thực hiện bốn mơ hình thực nghiệm với các mức cải thiện khác nhau. Mức đơn
thuần sử dụng kết quả thống kê (mơ hình WAP). Mức thống kê có sử dụng kết quả
phân đoạn từ tiếng Việt (mơ hình WAP-WS). Mức khai thác đặc tính trật tự từ vào
mơ hình thống kê (mơ hình WAP-STT) và cuối cùng là mức khai thác cả hai đặc
tính phân đoạn từ và chuyển đổi cây cú pháp Anh-Việt vào mơ hình thống kê (mơ
hình WAP-LCC). Kết quả nghiên cứu của chương 4 đã được trình bày trong bài báo
[12]. Chương 5 trình bày những đề xuất của chúng tơi về mơ hình đối sánh từ điển
kết hợp đặc tính ngơn ngữ đích. Các đặc tính ngơn ngữ được sử dụng trong chương
này là phân đoạn từ tiếng Việt và chuyển đổi cây cú pháp Anh-Việt. Kết quả của
chương 5 được trích lược và đăng trong bài báo [14]. Để thuận lợi cho việc so sánh
các đóng góp của luận án với các nghiên cứu khác về nhận biết và rút trích cụm
danh từ cơ sở song ngữ, các nghiên cứu liên quan đến nghiên cứu của luận án sẽ
được trình bày trong chương 6. Chương 7 trình bày kết luận của luận án.



10

Chương 2

CƠ SỞ LÝ THUYẾT

Chương này trình bày những kiến thức về cụm danh từ tiếng Việt, cụm danh
từ tiếng Anh, đối sánh cụm danh từ Anh-Việt của các nhà ngơn ngữ học [22], [23],
trình bày các phương pháp đối sánh từ dựa trên thống kê của Och và Ney [97], [98],
phương pháp đối sánh từ dựa trên từ điển của Ker và Chang [70]. Những kiến thức
này làm cơ sở nghiên cứu và hiện thực cho các chương của luận án. Cấu trúc
chương 2 bao gồm 4 mục. Mục 2.1 trình bày các định nghĩa và phát biểu hình thức.
Mục 2.2 trình bày những kiến thức cơ bản về cụm danh từ tiếng Việt, cụm danh từ
tiếng Anh, đối sánh sự tương đồng và khác biệt giữa. Mục 2.3 trình bày các phương
pháp đối sánh từ hiện nay. Mục 2.4 mô tả khái quát các nguồn tài nguyên sử dụng
trong luận án và các tiêu chí nhận diện từ trong tiếng Việt.

2.1 Các định nghĩa và phát biểu hình thức


Cụm danh từ cơ sở
Định nghĩa 2.1: Cụm danh từ cơ sở tiếng Anh (BaseNP) là một cụm danh từ,

nó bao gồm từ trung tâm là danh từ, các bổ ngữ trước (như các hạn định từ, các tính
từ,..) và không chứa các bổ ngữ sau của cụm danh từ là cụm giới từ và mệnh đề.
(Tjong Kim Sang [123])
Định nghĩa 2.2: Cụm danh từ tiếng Việt là tổ hợp từ tự do khơng có kết từ


11


đứng đầu, có quan hệ chính phụ giữa thành tố chính với thành tố phụ và thành tố
chính là danh từ (Diệp Quang Ban [1, tr.24, t2]).
Định nghĩa 2.3: Mệnh đề là nhóm từ có chủ từ và động từ chia ra và đồng
thời được dùng như một thành phần của câu (Hà Văn Bửu [4]).
Định nghĩa 2.4: Câu là đơn vị của nghiên cứu ngơn ngữ có cấu tạo ngữ pháp
tự lập và ngữ điệu kết thúc, mang một ý nghĩ tương đối trọn vẹn hay thái độ, sự
đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói,
giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Câu đồng thời là đơn vị
thông báo nhỏ nhất bằng ngôn ngữ (Diệp Quang Ban [1, tr.107, t2]).
Trong luận án, chúng tôi gọi cụm từ được dịch từ cụm danh từ cơ sở tiếng
Anh sang tiếng Việt là cụm danh từ cơ sở tiếng Việt tương ứng. Trước khi phát biểu
hình thức bài tốn của luận án, chúng tơi trình bày khái niệm về phân đoạn nhóm
(cụm) từ (chunking) trong tiếng Anh.


Phân đoạn nhóm từ
Phân đoạn nhóm từ là một thuật ngữ được dùng trong xử lý ngôn ngữ tự

nhiên để mô tả q trình nhóm các từ thành những nhóm (chunk) trong câu. Nó chia
câu thành những nhóm từ tách rời nhau. Những nhóm từ này khơng giao nhau và
tương ứng với các thành phần chính trong câu, như các cụm danh từ, các cụm động
từ, các cụm trạng từ, .v.v. Cụm danh từ cơ sở có thể là một thành phần trong các
nhóm từ này. Thí dụ minh họa về kết quả của việc phân đoạn câu như sau.
Câu “He can fly high” sau khi phân đoạn nhóm từ có dạng:
[NP He/pronoun] [VP can/modal fly/verb high/adverb] [121].
Abney [27] phát biểu rằng các nhóm từ tương ứng các mẫu và xác định
chúng có thể là bước tiền đề cho phân tích đầy đủ. Nhiều q trình phân tích cú
pháp thống kê cũng có bước khởi tạo dựa trên cấu trúc cụm từ cơ sở, các cụm từ cơ
sở như cụm danh từ cơ sở được xác định và được thay thế bởi một ký hiệu đặc biệt

tương ứng, thí dụ, phân tích cú pháp của Collins [43] sử dụng ký hiệu NPB. Ejerhed
và Church [53] mô tả ngữ pháp ràng buộc trên các luật của cụm danh từ cơ sở trước
khi thực hiện phân tích cú pháp cho câu. Collins sử dụng ngữ pháp phụ thuộc mà


×