Tải bản đầy đủ (.pdf) (251 trang)

Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 251 trang )

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
---------oOo---------

Nguyễn Chí Hiếu

MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ
ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ
CƠ SỞ TƯƠNG ỨNG ANH-VIỆT

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HCM - Năm 2008


ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
---------oOo---------

Nguyễn Chí Hiếu

MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ
ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ
CƠ SỞ TƯƠNG ỨNG ANH-VIỆT
Chuyên ngành : Khoa học máy tính
Mã số: 60.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT


NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS-TS. PHAN THỊ TƯƠI
2. TS. NGUYỄN XUÂN DŨNG

TP. HCM - Năm 2008


i

Lời cam đoan
Tôi xin cam đoan luận án này là công trình nghiên
cứu khoa học của tôi. Các kết quả của luận án là trung
thực và chưa từng được ai khác công bố trong bất kỳ
công trình nào khác.

Tp. Hồ Chí Minh, ngày 27 tháng 12 năm 2007
Người thực hiện

NCS. Nguyễn Chí Hiếu


ii

LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS-TS. Phan Thị
Tươi, TS. Nguyễn Xuân Dũng – Cô và Thầy đã trực tiếp hướng dẫn, động viên tôi
trong suốt quá trình thực hiện luận án này. Chân thành cảm ơn quý Thầy Cô trường
Đại học Bách khoa – Đại học Quốc gia TP. HCM, đặc biệt là các Thầy Cô ở bộ
môn Phần mềm ứng dụng của Khoa Công nghệ Thông tin đã cung cấp cho tôi
những tài liệu cần thiết và cho tôi những lời khuyên bổ ích để hoàn thành luận án

này.
Tôi cũng xin được bày tỏ lòng biết ơn chân thành của mình tới Hiệu trưởng,
Ban giám Hiệu, và các đồng nghiệp của tôi ở Khoa Công nghệ Thông tin trường
Đại học Công nghiệp TP. HCM, những người đã luôn tạo điều kiện thuận lợi, giúp
đỡ tinh thần và vật chất cho tôi trong việc thực hiện luận án. Luận án của tôi cũng
khó có thể hoàn thành nếu không có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là
nhóm NLP – Đại học Bách khoa TP. HCM, những người đã trực tiếp đóng góp
những ý kiến thiết thực cho thành công của nghiên cứu.
Cuối cùng, tôi xin cảm ơn các bạn sinh viên lớp ĐHTH1- Trường Đại học
Công nghiệp TP. HCM đã trực tiếp hỗ trợ tôi trong việc xây dựng kho ngữ liệu song
ngữ và đánh giá kết quả thực nghiệm. Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội đã giúp tôi trong việc chỉnh lý bộ dữ liệu chuẩn để hỗ trợ cho
việc đánh giá kết quả của luận án.
TP.HCM, ngày 27-12-2007
Người thực hiện

NCS. Nguyễn Chí Hiếu


iii

MỤC LỤC
Lời cam đoan ..........................................................................................................................i
LỜI CẢM ƠN........................................................................................................................ii
MỤC LỤC ............................................................................................................................iii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................................v
DANH MỤC CÁC HÌNH...................................................................................................viii
DANH MỤC CÁC BẢNG ....................................................................................................x
Chương 1 MỞ ĐẦU ...........................................................................................................1
1.1 Động cơ nghiên cứu....................................................................................................1
1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu ...............................................3

1.3 Phạm vi nghiên cứu và các bài toán chính..................................................................4
1.4 Đóng góp của luận án .................................................................................................5
1.5 Cấu trúc của luận án....................................................................................................8
Chương 2 CƠ SỞ LÝ THUYẾT ........................................................................................9
2.1 Các định nghĩa và phát biểu hình thức......................................................................10
2.2 Cụm danh từ..............................................................................................................15
2.2.1 Cấu trúc của cụm danh từ tiếng Việt ..............................................................15
2.2.2 Cấu trúc của cụm danh từ tiếng Anh ..............................................................28
2.2.3 Sự tương đồng và khác biệt giữa cụm danh từ tiếng Anh và tiếng Việt.........33
2.3 Các phương pháp đối sánh từ ...................................................................................41
2.3.1 Xác định bài toán ............................................................................................42
2.3.2 Các mô hình đối sánh......................................................................................43
2.3.3 Mô hình đối sánh thống kê .............................................................................46
2.3.4 Phương pháp từ điển .......................................................................................51
2.4 Nguồn tài nguyên dùng trong luận án.......................................................................54
2.4.1 Gate.................................................................................................................54
2.4.2 Giza++ ............................................................................................................55
2.4.3 Penn Treebank ................................................................................................56
2.4.4 Phân đoạn từ tiếng Việt ..................................................................................56
2.4.5 Tiêu chí nhận diện từ ......................................................................................57
Chương 3 CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT..................................................59
3.1 Mở đầu ......................................................................................................................60
3.2 Lý do thực hiện bài toán chuyển đổi trật tự từ..........................................................71
3.3 Mô hình chuyển đổi trật tự từ ...................................................................................74
3.4 Kết quả thử nghiệm và đánh giá ...............................................................................91
3.4.1 Dữ liệu đánh giá..............................................................................................92
3.4.2 Tiêu chuẩn đánh giá........................................................................................93


iv


3.4.3 Kết quả đánh giá .............................................................................................95
Chương 4 MÔ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.......98
4.1 Mở đầu ......................................................................................................................98
4.2 Mô hình thống kê khai thác đặc tính ngôn ngữ đích...............................................101
4.3 Đánh giá kết quả .....................................................................................................111
4.3.1 Ngữ liệu huấn luyện và đánh giá ..................................................................112
4.3.2 Kết quả thực nghiệm.....................................................................................116
Chương 5 MÔ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.........121
5.1 Mở đầu ....................................................................................................................121
5.2 Mô hình đối sánh điểm neo.....................................................................................123
5.2.1 Dẫn nhập .......................................................................................................123
5.2.2 Các mô hình thực nghiệm .............................................................................127
5.2.3 Bài toán chồng chéo và xung đột..................................................................145
5.3 Kết quả thực nghiệm...............................................................................................153
Chương 6 CÁC NGHIÊN CỨU LIÊN QUAN...............................................................158
6.1 Các phương pháp phân đoạn câu ............................................................................158
6.1.1 Các phương pháp tạo văn phạm bằng tay .....................................................158
6.1.2 Các phương pháp máy học ...........................................................................159
6.2 Rút trích cụm danh từ song ngữ..............................................................................161
Chương 7 KẾT LUẬN....................................................................................................166
7.1 Các kết quả đạt được...............................................................................................166
7.2 Hướng phát triển .....................................................................................................168
7.3 Lời kết.....................................................................................................................168
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ..................................................................171
TÀI LIỆU THAM KHẢO .................................................................................................173
PHỤ LỤC A
DỮ LIỆU ĐÁNH GIÁ...........................................................................187
PHỤ LỤC B
LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK ............................193

PHỤ LỤC C
CHẠY GIZA++ .....................................................................................207
PHỤ LỤC D
BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .............................209
PHỤ LỤC E
CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT.......................................210
PHỤ LỤC F
BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN ..............................219
PHỤ LỤC G
ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM .................................................221
PHỤ LỤC H
CÁC PHƯƠNG PHÁP HỌC MÁY ......................................................223
PHỤ LỤC I
TÍNH NHẬP NHẰNG ...........................................................................226
PHỤ LỤC J
ĐỘ PHỨC TẠP GIẢI THUẬT..............................................................229


v

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Từ viết tắt

Diễn giải tiếng Anh

Diễn giải tiếng Việt

1


AER

Alignment Error

Lỗi đối sánh

2

AI

Artificial Intelligence

Trí tuệ nhân tạo

3

ANN

Artificial Neural Networks Mạng Neural nhân tạo

4

APAP

Anchor Point Alignment &
Projection

5


APAP-LCC

Anchor Point Alignment & Chiếu qua đối sánh điểm neo
Projection – Language
khai thác đặc tính ngôn ngữ
Characteristic Combination đích

6

APAP-STT

Anchor Point Alignment &
Projection – Syntax Tree
Transfer

Chiếu qua đối sánh điểm neo
khai thác đặc tính trật tự từ

7

APAP-WS

Anchor Point Alignment &
Projection – Word
Segmentation

Chiếu qua đối sánh điểm neo
khai thác đặc tính phân đoạn
từ


8

BaseNP

Base-Noun Phrase

Cụm danh từ cơ sở

9

BLEU

Bilingual evaluation

Phương pháp để đánh giá tự
động cho Dịch máy.

Understudy.

Chiếu qua đối sánh điểm neo

10

CoNLL

Conference on
Computational Natural
Language Learning

11


CLIR

Cross-language information Truy hồi thông tin xuyên
retrieval
ngôn ngữ

12

DictAlign

Dictionary Alignment

Đối sánh từ điển

13

DL

Decision List

Danh sách quyết định

14

DP

Decision Pylon

Tháp quyết định


15

EBMT

Example Based Machine
Translation

Dịch máy trên cơ sở ví dụ

Hội nghị về ngôn ngữ học
tính toán


vi

16

EBT

Example Based Transfer

Chuyển đổi trên cơ sở ví dụ

17

EM

Expected Maximal


kỳ vọng cực đại

18

FNPC

Finding Noun Phrase
Corresponding

Tìm cụm danh từ tương ứng

19

GATE

General Architecture for
Text Engineering

Kiến trúc tổng quát cho kỹ
thuật văn bản

20

HMM

Hidden Markov Models

Mô hình Markov ẩn

21


IE

Information Extraction

Rút trích thông tin

22

IR

Information Retrieval

Truy hồi thông tin

23

KANT

Knowledge-Based Natural Dịch ngôn ngữ tự nhiên trên
Language Translation
cơ sở tri thức

24

MBL

Memory-based learning

Học trên cơ sở bộ nhớ


25

MT

Machine Translation

Dịch máy

26

ME

Maximal Entropy

Entropy cực đại

27

NLP

Natural Language
Processing

Xử lý ngôn ngữ tự nhiên

28

NFA


Nondeterministic Finite
Automata

Automat hữu hạn không đơn
định

29

NP

Noun Phrase

Cụm danh từ

30

POS

Part–Of-Speech

Mã từ loại

31

QA

Question & Answer

Hỏi và trả lời


32

RBMT

Rule Base Machine
Translation

Dịch máy dựa vào luật sinh

33

SMT

Statistical Machine
Translation

Dịch máy thống kê

34

SQL

Structured Query
Language

Ngôn ngữ hỏi có cấu trúc

35

SR


Speech Recognition

Nhận dạng giọng nói

36

SVM

Support vector machine

Máy véc tơ hỗ trợ


vii

37

TA

Treebank Approach

Tiếp cận Treebank

38

TA+LR

Treebank Approach +
Local Repair


Treebank + hiệu chỉnh cục bộ

39

TBL

Transformation Based
Learning

Học trên cơ sở chuyển đổi

40

WA

Word Alignment

Đối sánh từ

41

WAP

Word Alignment &
Projection

Chiếu qua đối sánh từ

WAP-LCC


Word Alignment &
Chiếu qua đối sánh từ khai
Projection –Language
Characteristic Combination thác đặc tính ngôn ngữ đích

WAP-STT

Word Alignment &
Projection – Syntax Tree
Transfer

Chiếu qua đối sánh từ khai
thác đặc tính trật tự từ

WAP-WS

Word Alignment &
Projection – Word
Segmentation

Chiếu qua đối sánh từ khai
thác đặc tính phân đoạn từ

42

43

44



viii

DANH MỤC CÁC HÌNH
Hình 2.1

Giải thuật đối sánh từ trên cơ sở từ điển...........................................................52

Hình 2.2

Giải thuật đối sánh từ trên cơ sở từ điển phân lớp từ........................................54

Hình 3.1

Ví dụ về các loại đối sánh.................................................................................71

Hình 3.2

Vấn đề chồng chéo và xung đột trong phép chiếu............................................72

Hình 3.3

Chuyển đổi trật tự từ để xác định đúng điểm neo.............................................73

Hình 3.4

Một ví dụ về cụm danh từ cơ sở .......................................................................76

Hình 3.5


Giải thuật tìm từ trung tâm................................................................................76

Hình 3.6

Giải thuật nhận biết liên từ trong thành phần Y5..............................................80

Hình 3.7

Giải thuật phân tách các thành phần phụ trước.................................................81

Hình 3.8

Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt..................................83

Hình 3.9

Giải thuật chuyển đổi trật tự từ tiếng Anh theo tiếng Việt ...............................85

Hình 4.1

Ví dụ về đối sánh của mô hình WAP..............................................................102

Hình 4.2

Mô hình WAP.................................................................................................102

Hình 4.3

Giải thuật WAP...............................................................................................103


Hình 4.4

Ví dụ về đối sánh của mô hình WAP-WS ......................................................104

Hình 4.5 Giải thuật WAP-WS ........................................................................................104
Hình 4.6

Mô hình WAP-WS..........................................................................................105

Hình 4.7

Ví dụ về đối sánh của mô hình WAP-STT .....................................................106

Hình 4.8

Giải thuật WAP-STT ......................................................................................106

Hình 4.8

Mô hình WAP-STT ........................................................................................107

Hình 4.10 Ví dụ về đối sánh của mô hình WAP-LCC ....................................................108
Hình 4.12 Mô hình WAP-LCC........................................................................................109
Hình 4.13 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................110
Hình 5.1

Ví dụ về đối sánh điểm neo ............................................................................124

Hình 5.2


Ví dụ về xác định cụm danh từ tương ứng Anh-Việt .....................................125

Hình 5.3

Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................126

Hình 5.4

Mô hình APAP................................................................................................128

Hình 5.5

Mô hình APAP-WS ........................................................................................129

Hình 5.6

Mô hình APAP-STT .......................................................................................130

Hình 5.7

Mô hình APAP-LCC ......................................................................................131


ix

Hình 5.8

Mô đun đối sánh điểm neo.............................................................................132

Hình 5.9


Giải thuật tính hệ số tương đồng từ kho ngữ liệu song ngữ ..........................139

Hình 5.10 Giải thuật chọn điểm neo theo hệ số tương đồng ...........................................140
Hình 5.11 Giải thuật tìm cụm danh từ cơ sở tiếng Việt theo từ đặc trưng ......................143
Hình 5.12 Giải thuật đối sánh điểm neo ..........................................................................144
Hình 5.13 Vấn đề đối sánh rỗng, chồng chéo và xung đột ..............................................145
Hình 5.14 Xung đột ngoài cụm danh từ cơ sở dạng 1 .....................................................147
Hình 5.15 Xung đột ngoài cụm danh từ cơ sở dạng 2 .....................................................147
Hình 5.16 Xung đột ngoài cụm danh từ cơ sở dạng 3 .....................................................147
Hình 5.17 Xung đột trong cùng cụm danh từ cơ sở dạng 4.............................................147
Hình 5.18 Giải thuật giải quyết chồng chéo và xung đột ................................................148
Hình 5.19 Các tổ hợp của cụm danh từ cơ sở đã chuyển đổi trật tự................................149
Hình 5.20 Giải thuật giải quyết nhập nhằng tính từ.........................................................151


x

DANH MỤC CÁC BẢNG
Bảng 2.1

Một ví dụ về cặp cụm danh từ cơ sở song ngữ Anh-Việt.................................13

Bảng 2.2

Một số ví dụ về từ phân lớp khi dịch Anh-Việt ...............................................17

Bảng 2.3

Một số ví dụ về vị trí của từ đo lường và từ phân lớp......................................18


Bảng 2.4

Ví dụ về sự khác nhau giữa từ phân lớp và đo lường.......................................18

Bảng 2.5

Sự khác nhau về nghĩa khi sử dụng từ phân lớp và từ đo lường ......................18

Bảng 2.6

Các khả năng kết hợp của danh từ đếm được...................................................19

Bảng 2.7

Tổng hợp các từ chỉ tổng lượng .......................................................................22

Bảng 2.8

Phân tích một cụm danh từ tiếng Việt ..............................................................26

Bảng 2.9

Các biến thể trong cụm danh từ tiếng Việt.......................................................27

Bảng 2.10 Cấu trúc cơ bản của cụm danh từ .....................................................................28
Bảng 2.11 Phân loại các nhóm tính từ ...............................................................................29
Bảng 2.12 Trật tự từ trong cấu trúc cụm danh từ tiếng Anh..............................................30
Bảng 2.13 Các biến thể trong cụm danh từ tiếng Anh.......................................................32
Bảng 2.14 Cấu trúc của cụm danh từ tiếng Anh, tiếng Việt ..............................................34

Bảng 2.15 Cấu trúc cụm danh từ tiếng Anh theo John Eastwood .....................................36
Bảng 2.16 Cấu trúc cụm danh từ tiếng Anh theo Vũ Ngọc Tú..........................................36
Bảng 2.17 Cấu trúc bảy thành phần trong cụm danh từ tiếng Việt....................................37
Bảng 2.18 Bảng so sánh các lược đồ huấn luyện ..............................................................55
Bảng 3.1

Cấu trúc của cụm danh từ tiếng Anh và tiếng Việt ..........................................65

Bảng 3.2

Bảng so sánh các thành phần trong cụm danh từ .............................................66

Bảng 3.3

Luật sinh rút trích từ Penn Treebank................................................................67

Bảng 3.4

Các dạng luật rút ra từ đối sánh từ của ví dụ 3.6..............................................69

Bảng 3.5

Các luật sinh dự tuyển của cụm danh từ cơ sở tiếng Việt ................................90

Bảng 3.6

Kết quả phân tích cụm danh từ tiếng Anh........................................................95

Bảng 3.7


Kết quả chuyển đổi trật tự từ và xác định điểm neo.........................................96

Bảng 4.1

Thời gian thực hiện và khối lượng của một số Treebank.................................99

Bảng 4.2

Một số ngữ liệu song ngữ...............................................................................113

Bảng 4.3

Kết quả nguồn ngữ liệu song ngữ sưu tập được.............................................114

Bảng 4.4

Thống kê chiều dài câu của các ngữ liệu sưu tập ...........................................115

Bảng 4.5

Một ví dụ về kết quả đối sánh từ bằng Giza++ ..............................................116


xi

Bảng 4.6

Kết quả đối sánh từ Anh-Việt trong mô hình WAP .......................................117

Bảng 4.7


Kết quả đối sánh từ Anh-Việt trong mô hình WAP-WS................................118

Bảng 4.8

Kết quả đối sánh từ Anh-Việt trong mô hình WAP-STT...............................118

Bảng 4.9

Kết quả đối sánh từ Anh-Việt trong mô hình WAP-LCC ..............................119

Bảng 4.10 Bảng so sánh kết quả đối sánh và nhận biết cụm danh từ cơ sở ....................120
Bảng 5.1

Ví dụ về sự xuất hiện nhiều lần của từ trong câu tiếng Anh ..........................134

Bảng 5.2

Kết quả khảo sát ảnh hưởng của ngưỡng δ ....................................................136

Bảng 5.3

Collocation(today) huấn luyện từ ngữ liệu song ngữ .....................................140

Bảng 5.4

Các khả năng tìm điểm neo tương ứng bằng từ đặc trưng và luật..................141

Bảng 5.5


Kết quả phối hợp các tầng trong mô hình đối sánh điểm neo ........................145

Bảng 5.6

Ví dụ về điểm neo thuộc thành phần d có nhiều tính từ.................................150

Bảng 5.7

Thống kê các luật có bổ ngữ nhiều tính từ .....................................................152

Bảng 5.8

Phân rã luật sinh thành các thành tố ...............................................................152

Bảng 5.9

Bộ ngữ liệu mẫu .............................................................................................153

Bảng 5.10 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu mẫu ..........153
Bảng 5.11 Bộ ngữ liệu kiểm tra .......................................................................................154
Bảng 5.12 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu kiểm tra ....155
Bảng 5.13 Kết quả rút trích cụm danh từ cơ sở của một số tác giả .................................157
Bảng 6.1

Bảng so sánh kết quả nhận biết cụm danh từ cơ sở tiếng Anh.......................160


1

Chương 1


MỞ ĐẦU
1.1 Động cơ nghiên cứu
Xử lý ngôn ngữ tự nhiên (Natural language processing) là lĩnh vực nghiên
cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý ngôn ngữ của con người.
Trong những năm gần đây, rất nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như
rút trích thông tin, truy hồi thông tin xuyên ngôn ngữ, tóm lược văn bản, hỏi đáp và
dịch máy tự động phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực. Trong các
ứng dụng kể trên, cụm danh từ cơ sở đóng một vai trò quan trọng. Vì thế, việc rút
trích tự động cụm danh từ cơ sở đơn ngữ cũng như song ngữ từ ngữ liệu được nhiều
nhà khoa học quan tâm nghiên cứu, ví dụ như Kupiec [75], Le [76], Wantanabe
[131], Yarowsky [139], Riloff [112], Wang [129] và Hwang [68]. Tuy nhiên, việc
nhận biết và rút trích cụm danh từ tiếng Việt nói riêng và cụm danh từ cơ sở song
ngữ Anh-Việt nói chung vẫn còn là bài toán mở. Bốn vấn đề được liệt kê dưới đây
làm rõ nhận định này.
Thứ nhất là vấn đề nghiên cứu về rút trích cụm danh từ cơ sở song ngữ AnhViệt. Trong những năm gần đây, cụm danh từ tiếng Việt đã được nhiều nhà ngôn
ngữ học nghiên cứu và cho kết quả khả quan về mặt lý luận. Luận án tiến sĩ của
Dương Thanh Bình [03], Tuong Hung Nguyen [22], Vũ Ngọc Tú [23] đã cho thấy
tầm quan trọng của cụm danh từ trong tiếng Việt. Tuy vậy, cho đến nay việc nghiên
cứu tỉ mỉ về xác định và rút trích tự động cụm danh từ song ngữ nói chung và cụm
danh từ cơ sở song ngữ nói riêng, vẫn là vấn đề mở. Vì thế, việc nghiên cứu này là


2

cần thiết.
Thứ hai là vấn đề xây dựng hệ thống rút trích cụm danh từ cơ sở song ngữ
Anh-Việt từ ngữ liệu song ngữ. Ở Việt nam, ngôn ngữ học tính toán mới được phát
triển vài chục năm trở lại đây, tuy đã đạt được một số thành công nhất định song
việc rút trích và nhận biết thông tin, đặc biệt là cụm danh từ cơ sở tiếng Việt và cụm

danh từ cơ sở song ngữ Anh-Việt vẫn còn nhiều thách thức. Thách thức càng trở
nên lớn hơn khi chúng ta thiếu các công cụ xử lý ngôn ngữ cho tiếng Việt, như các
công cụ phân tích hình thái, gán nhãn từ loại, phân đoạn câu, phân tích cú pháp...
Do vậy vấn đề này cần được nghiên cứu.
Thứ ba là trong bối cảnh của tiếng Việt, cũng giống như hơn 200 ngôn ngữ
khác trên thế giới, muốn phát triển nhanh các ứng dụng về xử lý ngôn ngữ tự nhiên
lại phải đối mặt với vấn đề thiếu vắng nguồn tài nguyên, như các ngữ liệu đơn ngữ
và song ngữ…, nhưng việc xây dựng nguồn tài nguyên này không dễ và cũng không
rẻ. Một tiếp cận để khắc phục mặt hạn chế về nguồn tài nguyên là tiếp cận chiếu
thông qua ngôn ngữ giàu tài nguyên như tiếng Anh, được Yarowsky [138] đề xuất,
nhưng với tiếp cận này vẫn còn có nhiều thách thức. Đó là vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột, như Yarowsky đã trình bày trong nghiên cứu với
cặp ngôn ngữ Anh-Pháp. Vấn đề đối sánh rỗng, chồng chéo và xung đột cũng là
thách thức cơ bản cho cặp ngôn ngữ Anh-Việt khi sử dụng tiếp cận chiếu thông qua
kết quả đối sánh từ tiếng Anh và tiếng Việt để xác định cụm danh từ cơ sở Anh-Việt
tương ứng. Vì vậy, việc nghiên cứu để vượt qua những thách thức này là cần thiết.
Cuối cùng, xét về mặt thực tiễn việc thu thập các cụm danh từ cơ sở song ngữ
chuẩn làm dữ liệu cho các ứng dụng về xử lý ngôn ngữ tự nhiên, như dịch máy, truy
hồi thông tin xuyên ngôn ngữ, xây dựng từ điển, nhận dạng tiếng nói, .v.v. trong đó,
cụm danh từ cơ sở đơn ngữ và song ngữ đóng vai trò quan trọng. Vì vậy, việc xác
định và rút trích cụm danh từ cơ sở Anh-Việt tương ứng cần được nghiên cứu.
Những vấn đề nêu trên chính là động cơ thúc đẩy chúng tôi chọn đề tài “Mô
hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương
ứng Anh-Việt”.


3

1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu
Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm

danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh-Việt. Trên kết quả nhận biết
này, chúng tôi rút trích các cụm danh từ cơ sở tương ứng Anh-Việt. Xét về mặt lý
luận, có nhiều phương pháp và mô hình khác nhau để nhận biết và rút trích cụm
danh từ cơ sở tiếng Việt. Mỗi phương pháp và mô hình khác nhau có thể có những
bước thực hiện khác nhau. Nhưng tổng thể hiện nay, có hai hướng tiếp cận để nhận
biết cụm danh từ cơ sở.
Hướng thứ nhất là tiếp cận đơn ngữ. Với hướng tiếp cận này, người ta tiến
hành theo hai nhóm phương pháp chính là các phương pháp tạo văn phạm bằng tay
và các phương pháp máy học. Cả hai nhóm phương pháp này khi áp dụng vào tiếng
Việt, còn nhiều vấn đề cần giải quyết như vấn đề gán mã từ loại cho tiếng Việt, xây
dựng Treebank tiếng Việt, tạo luật sinh cho văn phạm tiếng Việt .v.v. Theo báo cáo
của Nguyễn Thị Minh Huyền trong tài liệu [17] việc gán từ loại cho tiếng Việt mới
đạt khoảng 85%. Nâng cao kết quả gán từ loại cũng là một vấn đề đang được nghiên
cứu. Xây dựng Treebank tiếng Việt lại là một vấn đề khác nằm ngoài luận án này.
Hướng tiếp cận thứ hai là tiếp cận song ngữ. Tiếp cận này có hai phương
pháp chính là thống kê qua phân tích cú pháp của cả hai ngôn ngữ (nguồn và đích)
và chiếu thông qua kết quả phân tích của ngôn ngữ nguồn để thu được kết quả trên
ngôn ngữ đích.
Tiếng Việt có thể dựa vào tiếng Anh để giải quyết bài toán nghiên cứu thông
qua việc chiếu qua kết quả đối sánh từ như nghiên cứu của Yarowsky [138] cho cặp
Anh-Pháp và Hwa [67] cho cặp Anh Trung. Như vậy, bài toán nhận biết cụm danh
từ cơ sở tương ứng Anh-Việt sẽ được chúng tôi chọn theo tiếp cận chiếu qua kết
quả đối sánh từ. Với đối sánh từ, về tổng thể có hai phương pháp chính là phương
pháp đối sánh từ dựa trên thống kê (Brown et.al [38]) và đối sánh từ dựa trên từ
điển (Ker và Chang [70]). Luận án thực hiện trên cả hai phương pháp này như được
trình bày trong phần đóng góp của luận án (mục 1.4).
Nhiệm vụ chính của luận án cần thực hiện như sau:


4


- Nghiên cứu về đối sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở
giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm
danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt. Xây dựng
mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm
danh từ tiếng Việt.
- Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ
liệu Penn Treebank và thống kê tần suất xuất hiện của nó để xây dựng bộ ngữ liệu
mẫu để đánh giá các giải thuật trong chương 3. Kết hợp với kết quả đối sánh,
chuyển đổi trật tự từ của cụm danh từ tiếng Anh để xây dựng tập luật sinh dự tuyển
cho cụm danh từ cơ sở tiếng Việt.
- Nghiên cứu các mô hình đối sánh từ
- Nghiên cứu và đề xuất những giải pháp khắc phục các vấn đề đối sánh rỗng,
vấn đề chồng chéo và xung đột
-

Xây dựng và hiện thực các mô hình nhận biết cụm danh từ cơ sở tương ứng

Anh-Việt
- Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực
nghiệm. Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mô hình đề
xuất.

1.3 Phạm vi nghiên cứu và các bài toán chính
Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của
cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở
tương ứng Anh-Việt. Việc giới hạn nghiên cứu ở mức cụm danh từ cơ sở suất phát
từ những lý do chính sau: Thứ nhất cụm danh từ nói chung rất phức tạp, các nghiên
cứu hiện nay trong xử lý ngôn ngữ tự nhiên tiếng Anh cũng chỉ giới hạn ở mức cụm
danh từ cơ sở (BaseNP). Cụm danh từ cơ sở là cụm danh từ không đệ quy, không

chứa các cụm giới từ (prepositional phrases) hoặc mệnh đề (clauses) [106]. Thứ hai
là tiếp cận của luận án theo phương pháp chiếu thông qua kết quả đối sánh từ và
ngôn ngữ nguồn được chọn là tiếng Anh sẵn có các công cụ với mã nguồn mở. Các


5

nghiên cứu của các nhà ngôn ngữ học như Tuong Hung Nguyen [22], Vũ Ngọc Tú
[23] cho thấy cấu trúc cụm danh từ cơ sở tiếng Anh và tiếng Việt có nhiều điểm
tương đồng và một chút khác biệt (stopWord trong tiếng Anh, từ phân lớp trong
tiếng Việt, trật tự từ…). Các điểm khác biệt giữa chúng có thể hình thức hóa được
như trình bày trong chương 3 của luận án.
Luận án thực nghiệm có giới hạn trên một số ngữ liệu song ngữ như: tin học,
từ điển bách khoa dành cho thanh thiếu niên, bộ luật lao động, các trang Web song
ngữ của đại sứ quán Mỹ [147], [148], và Úc [79]. Các cặp câu song ngữ trong
nghiên cứu của luận án chỉ giới hạn ở những cặp có cách dịch là 1-1, nghĩa là một
câu tiếng Anh được dịch thành một câu tiếng Việt, không có đảo ngữ khi dịch từ
câu tiếng Anh sang câu tiếng Việt.
Từ nhiệm vụ nghiên cứu kể trên, luận án cần giải quyết các bài toán chính
sau đây:
- Bài toán chuyển đổi cây cú pháp Anh-Việt mức cụm từ.
- Cho ngữ liệu song ngữ Anh-Việt đã đối sánh mức câu, câu tiếng Anh đã
được gán nhãn từ loại và đã xác định được các cụm danh từ cơ sở, câu tiếng Việt đã
được phân đoạn từ (tùy thuộc vào mô hình thực nghiệm mà việc phân đoạn từ có
được sử dụng hay không). Từ đó, chúng tôi có thể nhận biết được cụm danh từ cơ
sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh-Việt.
- Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt. Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng
Việt thông qua quá trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng
các từ đặc trưng trong tiếng Việt.
- Giải quyết vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột trong quá

trình nhận biết cụm danh từ cơ sở tiếng Việt.

1.4 Đóng góp của luận án
Trong quá trình thực hiện luận án, chúng tôi đã có một số đóng góp về mặt
khoa học và thực tiễn như sau.


6



Đóng góp về mặt khoa học
Luận án đã đưa ra ý tưởng “Khai thác đặc tính ngôn ngữ đích vào bài toán

xác định các cụm danh từ cơ sở tương ứng Anh-Việt”. Trong luận án này, chúng tôi
khai thác hai đặc tính của ngôn ngữ tiếng Việt là phân đoạn từ và trật tự từ vào bài
toán nhận biết cụm danh từ cơ sở tiếng Việt. Ngoài hai đặc tính kể trên, yếu tố từ
đặc trưng của tiếng Việt cũng được đề xuất sử dụng trong bài toán này. Từ ý tưởng
“khai thác đặc tính ngôn ngữ đích” kể trên, luận án có ba đóng góp chính sau đây:
- Đóng góp thứ nhất là đề xuất và hiện thực kỹ thuật “chuyển đổi cây cú pháp
Anh-Việt”. Do khác biệt về loại hình ngôn ngữ, trật tự từ trong cụm danh từ cơ sở
tiếng Việt và tiếng Anh cơ bản là khác nhau (như phân tích trong chương 3). Yếu tố
trật tự từ là một đặc tính của ngôn ngữ. Để khai thác đặc tính ngôn ngữ này, chúng
tôi đề xuất kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” (được trình bày trong
chương 3). Kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” là mô đun quan trọng
trong các mô hình đề xuất của luận án. Ngoài ra, kỹ thuật chuyển đổi cây cú pháp
còn giúp cho việc xây dựng tập luật sinh dự tuyển để giải quyết bài toán “dữ liệu
thưa”1, bài toán “chồng chéo và xung đột” cũng như bài toán “học luật chuyển đổi
từ ngữ liệu song ngữ”. Điểm khác biệt chính giữa mô hình đề xuất của luận án với
các mô hình hiện có là ở chỗ, mô hình của luận án khai thác đặc tính trật tự từ trong

tiếng Việt. Đặc tính trật tự từ này dựa trên cơ sở nghiên cứu của các nhà ngôn ngữ
học. Các mô hình khác như của tác giả Đinh Điền [7], Nguyễn Phương Thái [19] và
Katharina Probst [103] dựa trên nền tảng xác suất thống kê.

1.

“Dữ liệu thưa” là dữ liệu không được thiết lập hoặc tần suất xuất hiện quá nhỏ để thiết lập xác
suất của nó. Trong luận án “dữ liệu thưa” xuất hiện ở hai loại hình: Với mô hình đối sánh từ
bằng phương pháp từ điển, “dữ liệu thưa” được hiểu là trường hợp mà nghĩa tiếng Việt của từ
tiếng Anh chưa được thiết lập trong từ điển song ngữ Anh-Việt. Với mô hình thống kê, “dữ
liệu thưa” được hiểu là những trường hợp mà tần suất xuất hiện của từ quá nhỏ để thiết lập
giá trị xác suất của nó và chúng có giá trị xác suất bằng 0. Cụm từ “dữ liệu thưa” được dịch
từ cụm từ “sparse-data” [p.198, 29].


7

- Đóng góp thứ hai của luận án là đề xuất “mô hình thống kê khai thác đặc tính
ngôn ngữ đích”. Điểm khác biệt chính giữa mô hình của luận án với các mô hình
đối sánh thống kê hiện có là, với mô hình HMM (Och và Ney [97]) người ta chỉ dự
đoán khoảng cách giữa các vị trí từ trong ngôn ngữ nguồn, với mô hình 4 (Brown
[38]) người ta chỉ dự đoán các từ trong ngôn ngữ đích.
- Trong luận án này, chúng tôi khai thác đặc tính ngôn ngữ đích như phân
đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn
ngữ đích. Với đặc tính phân đoạn từ và đặc tính trật tự từ, luận án tiến hành khai
thác các đặc tính này ở bước tiền xử lý. Sau đó mới thực hiện đối sánh từ trên mô
hình thống kê thông qua mã nguồn mở Giza++ [98]. Với các từ đặc trưng của tiếng
Việt (ví dụ như các từ phân lớp), luận án sử dụng ở bước hậu xử lý. Nghĩa là sau khi
có kết quả đối sánh từ bằng Giza++, chúng tôi sẽ chiếu để thu được cụm danh từ
tiếng Việt tương ứng với cụm danh từ cơ sở tiếng Anh. Ở giai đoạn này, chúng tôi

sử dụng một số luật mở rộng cụm danh từ tiếng Việt (trình bày trong chương 4).
- Đóng góp thứ ba của luận án là đề xuất “mô hình từ điển khai thác đặc tính
ngôn ngữ đích”. Điểm khác biệt chính giữa mô hình của luận án với các mô hình từ
điển hiện có là: với mô hình từ điển truyền thống người ta đo độ không đối sánh
đúng (dislocation) bằng thực nghiệm (Ker và Chang [70] như trình bày trong mục
2.3.4). Luận án của chúng tôi khai thác đặc tính ngôn ngữ đích như phân đoạn từ,
đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn ngữ
đích. Ngoài ra luận án còn xây dựng một ngưỡng δ bằng thực nghiệm để giới hạn
không gian tìm kiếm. Thêm vào đó, trên cơ sở kết quả của mô hình chuyển đổi cây
cú pháp, luận án đề xuất “mô hình đối sánh điểm neo” cho bài toán nhận biết cụm
danh từ cơ sở tiếng Việt trong cặp câu song ngữ. Mô hình chiếu trên kết quả đối
sánh từ truyền thống thực hiện đối sánh cho tất cả các từ trong câu, nên làm nảy
sinh vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột, như các thực nghiệm
trên mô hình thống kê của Yarowsky [138], Hwa [67], đối sánh lỗi hoặc đối sánh
rỗng trên mô hình từ điển của Đ.Điền [9]. Mô hình đối sánh điểm neo cho phép
giảm thiểu vấn đề đối sánh rỗng. Mô hình này có các giải pháp khắc phục được vấn


8

đề chồng chéo và xung đột bằng tập luật dự tuyển (học được trong quá trình chuyển
đổi cây cú pháp và các từ đặc trưng trong tiếng Việt). Giải pháp khắc phục vấn đề
chồng chéo và xung đột được trình bày trong chương 5.
Chúng tôi thực hiện đánh giá độ chính xác (Precision), độ thu hồi (Recall), tỷ
suất lỗi (AER) và trọng số điều hòa (Fβ: F-measure) trên cả 9 mô hình là mô hình
chuyển đổi cây cú pháp (chương 3), bốn mô hình thống kê (chương 4) và bốn mô
hình từ điển (chương 5). Quá trình đánh giá trên hai bộ ngữ liệu là bộ ngữ liệu mẫu
1.000 cặp câu do “Trung tâm Nghiên cứu Ngôn ngữ -Viện Khoa học xã hội” thực
hiện và bộ ngữ liệu chọn ngẫu nhiên 2.700 cặp câu từ bộ ngữ liệu 35.000 cặp câu do
chúng tôi sưu tập. Kinh nghiệm thực nghiệm cho thấy rằng các kết quả được cải

thiện đáng kể. Mức độ cải thiện tăng theo mức độ khai thác đặc tính ngôn ngữ vào
các mô hình như được trình bày trong chương 4 và 5.


Đóng góp về mặt thực tiễn
Kết quả xác định cụm danh từ cơ sở tương ứng Anh-việt trong nghiên cứu

của luận án có thể sử dụng cho dịch máy thống kê Anh-Việt dựa trên cụm danh từ
cơ sở. Dịch máy dựa trên cơ sở cụm từ là hướng nghiên cứu mới cho kết quả khả
quan hiện nay (Anh-Đức, Anh–Trung,…). Ngoài ra, kết quả của luận án còn dùng
cho phương pháp dịch máy dựa trên ví dụ, rút trích thông tin, truy xuất thông tin
xuyên ngôn ngữ, khai thác nguồn tài nguyên trên mạng của ngôn ngữ khác bằng
tiếng Việt, làm ngữ liệu cho công tác xây dựng từ điển song ngữ, khảo sát, kiểm
chứng các điểm tương đồng và dị biệt giữa tiếng Anh và tiếng Việt bằng thực
nghiệm. Đặc biệt có thể thiết lập được tập luật sinh chuyển đổi thông qua quá trình
học từ ngữ liệu song ngữ Anh-Việt [16]. Kết quả nghiên cứu của luận án còn nhằm
mục đích làm tiền đề cho các nghiên cứu tiếp theo của chúng tôi về dịch máy AnhViệt [15].

1.5 Cấu trúc của luận án
Phần còn lại cùa luận án được cấu trúc như sau: Chương 2 trình bày cơ sở lý
luận về cụm danh từ cơ sở tiếng Anh, cụm danh từ cơ sở tiếng Việt, so sánh sự


9

tương đồng và khác biệt về trật tự từ giữa cụm danh từ tiếng Anh và tiếng Việt. Cơ
sở lý thuyết về đối sánh từ thống kê, đối sánh từ điển cũng như các nguồn tài
nguyên sử dụng trong luận án. Chương 3 trình bày những đề xuất về mô hình
chuyển đổi cây cú pháp Anh-Việt. Kết quả của quá trình chuyển đổi cây cú pháp
không những tạo cơ sở cho việc khai thác đặc tính ngôn ngữ đích vào các mô hình

trong chương 4 và chương 5 mà còn tạo được tập luật sinh dự tuyển cụm danh từ cơ
sở tiếng Việt. Tập luật sinh dự tuyển này là thành phần quan trọng trong bài toán
học luật chuyển đổi từ ngữ liệu song ngữ. Kết quả nghiên cứu của chương 3 được
trình bày trong bài báo [16]. Chương 4 trình bày đề xuất của chúng tôi với tên gọi
“Mô hình thống kê khai thác đặc tính ngôn ngữ đích”. Trong chương này, chúng tôi
thực hiện bốn mô hình thực nghiệm với các mức cải thiện khác nhau. Mức đơn
thuần sử dụng kết quả thống kê (mô hình WAP). Mức thống kê có sử dụng kết quả
phân đoạn từ tiếng Việt (mô hình WAP-WS). Mức khai thác đặc tính trật tự từ vào
mô hình thống kê (mô hình WAP-STT) và cuối cùng là mức khai thác cả hai đặc
tính phân đoạn từ và chuyển đổi cây cú pháp Anh-Việt vào mô hình thống kê (mô
hình WAP-LCC). Kết quả nghiên cứu của chương 4 đã được trình bày trong bài báo
[12]. Chương 5 trình bày những đề xuất của chúng tôi về mô hình đối sánh từ điển
kết hợp đặc tính ngôn ngữ đích. Các đặc tính ngôn ngữ được sử dụng trong chương
này là phân đoạn từ tiếng Việt và chuyển đổi cây cú pháp Anh-Việt. Kết quả của
chương 5 được trích lược và đăng trong bài báo [14]. Để thuận lợi cho việc so sánh
các đóng góp của luận án với các nghiên cứu khác về nhận biết và rút trích cụm
danh từ cơ sở song ngữ, các nghiên cứu liên quan đến nghiên cứu của luận án sẽ
được trình bày trong chương 6. Chương 7 trình bày kết luận của luận án.


10

Chương 2

CƠ SỞ LÝ THUYẾT

Chương này trình bày những kiến thức về cụm danh từ tiếng Việt, cụm danh
từ tiếng Anh, đối sánh cụm danh từ Anh-Việt của các nhà ngôn ngữ học [22], [23],
trình bày các phương pháp đối sánh từ dựa trên thống kê của Och và Ney [97], [98],
phương pháp đối sánh từ dựa trên từ điển của Ker và Chang [70]. Những kiến thức

này làm cơ sở nghiên cứu và hiện thực cho các chương của luận án. Cấu trúc
chương 2 bao gồm 4 mục. Mục 2.1 trình bày các định nghĩa và phát biểu hình thức.
Mục 2.2 trình bày những kiến thức cơ bản về cụm danh từ tiếng Việt, cụm danh từ
tiếng Anh, đối sánh sự tương đồng và khác biệt giữa. Mục 2.3 trình bày các phương
pháp đối sánh từ hiện nay. Mục 2.4 mô tả khái quát các nguồn tài nguyên sử dụng
trong luận án và các tiêu chí nhận diện từ trong tiếng Việt.

2.1 Các định nghĩa và phát biểu hình thức


Cụm danh từ cơ sở
Định nghĩa 2.1: Cụm danh từ cơ sở tiếng Anh (BaseNP) là một cụm danh từ,

nó bao gồm từ trung tâm là danh từ, các bổ ngữ trước (như các hạn định từ, các tính
từ,..) và không chứa các bổ ngữ sau của cụm danh từ là cụm giới từ và mệnh đề.
(Tjong Kim Sang [123])
Định nghĩa 2.2: Cụm danh từ tiếng Việt là tổ hợp từ tự do không có kết từ


11

đứng đầu, có quan hệ chính phụ giữa thành tố chính với thành tố phụ và thành tố
chính là danh từ (Diệp Quang Ban [1, tr.24, t2]).
Định nghĩa 2.3: Mệnh đề là nhóm từ có chủ từ và động từ chia ra và đồng
thời được dùng như một thành phần của câu (Hà Văn Bửu [4]).
Định nghĩa 2.4: Câu là đơn vị của nghiên cứu ngôn ngữ có cấu tạo ngữ pháp
tự lập và ngữ điệu kết thúc, mang một ý nghĩ tương đối trọn vẹn hay thái độ, sự
đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói,
giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Câu đồng thời là đơn vị
thông báo nhỏ nhất bằng ngôn ngữ (Diệp Quang Ban [1, tr.107, t2]).

Trong luận án, chúng tôi gọi cụm từ được dịch từ cụm danh từ cơ sở tiếng
Anh sang tiếng Việt là cụm danh từ cơ sở tiếng Việt tương ứng. Trước khi phát biểu
hình thức bài toán của luận án, chúng tôi trình bày khái niệm về phân đoạn nhóm
(cụm) từ (chunking) trong tiếng Anh.


Phân đoạn nhóm từ
Phân đoạn nhóm từ là một thuật ngữ được dùng trong xử lý ngôn ngữ tự

nhiên để mô tả quá trình nhóm các từ thành những nhóm (chunk) trong câu. Nó chia
câu thành những nhóm từ tách rời nhau. Những nhóm từ này không giao nhau và
tương ứng với các thành phần chính trong câu, như các cụm danh từ, các cụm động
từ, các cụm trạng từ, .v.v. Cụm danh từ cơ sở có thể là một thành phần trong các
nhóm từ này. Thí dụ minh họa về kết quả của việc phân đoạn câu như sau.
Câu “He can fly high” sau khi phân đoạn nhóm từ có dạng:
[NP He/pronoun] [VP can/modal fly/verb high/adverb] [121].
Abney [27] phát biểu rằng các nhóm từ tương ứng các mẫu và xác định
chúng có thể là bước tiền đề cho phân tích đầy đủ. Nhiều quá trình phân tích cú
pháp thống kê cũng có bước khởi tạo dựa trên cấu trúc cụm từ cơ sở, các cụm từ cơ
sở như cụm danh từ cơ sở được xác định và được thay thế bởi một ký hiệu đặc biệt
tương ứng, thí dụ, phân tích cú pháp của Collins [43] sử dụng ký hiệu NPB. Ejerhed
và Church [53] mô tả ngữ pháp ràng buộc trên các luật của cụm danh từ cơ sở trước
khi thực hiện phân tích cú pháp cho câu. Collins sử dụng ngữ pháp phụ thuộc mà


12

phần tử được xác định trước tiên cũng là cụm danh từ cơ sở. Ratnaparkhi [109] sử
dụng tiếp cận phân tích cú pháp bao gồm ba bước là xác định từ loại của mỗi từ, sau
đó xác định các nhóm từ và cuối cùng là cây phân tích đầy đủ.

Tuy nhiên có một số lý do khiến cho thông tin nhóm từ được người ta thích
sử dụng hơn là phân tích cú pháp đầy đủ.
- Một số tình huống trong đời sống thực cho thấy rằng việc xác định tất cả các
thông tin trong phân tích đầy đủ thường là không cần thiết, người ta chỉ cần xác
định thông tin trong nhóm từ là đủ cho quá trình xử lý. Thí dụ, trong truy xuất thông
tin (IR), người ta thường dùng cụm danh từ cơ sở để rút trích, vì chúng chứa hầu hết
các nội dung thông tin trong tài liệu: Evans và Zhai [55] đạt được 13% sự cải thiện
về độ chính xác trong bài toán rút trích thông tin khi sử dụng chỉ số cơ sở dựa trên
cụm danh từ.
- Phân tích đầy đủ luôn luôn không ăn khớp rõ ràng trong việc xác định cụm
từ, và có thể cho kết quả thấp hơn khi phân lớp riêng biệt các cụm từ. Thí dụ, phiên
bản cải tiến phân tích của Collins đạt F-measure là 92.49% [45] trong khi mô hình
trên cơ sở chuyển đổi đạt F-measure là 93.07%, tương tự kết quả được khảo sát bởi
Tjong Kim Sang [124].
- Phân tích đầy đủ thường mất nhiều thời gian hơn so với phân tích từng phần,
do chúng cần khảo sát không gian thực thể của các thành phần phụ thuộc lớn hơn,
trong khi đó các phương pháp phân tích từng phần để xác định cụm từ luôn nhanh
hơn các phương pháp phân tích đầy đủ, là nhờ không gian tìm kiếm nhỏ hơn.


Phát biều hình thức
Trước khi xây dựng các phát biểu hình thức, chúng ta xem ví dụ về cụm danh

từ cơ sở song ngữ Anh-Việt được rút trích, như trình bày ở bảng 2.1. Ví dụ này
được trích ra từ ngữ liệu của Penn Treebank (chương 15-18), phần tiếng Việt do
Trung tâm nghiên cứu ngôn ngữ - Viện KHXH tại thành phố Hồ Chí Minh dịch.


×