Tải bản đầy đủ (.pdf) (98 trang)

Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng anh sang tiếng việt tương ứng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 98 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------

CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
---oOo---

Tp. HCM, ngày 30 tháng 11 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Huỳnh Thị Ngọc Thuý

Giới tính : Nam / Nữ

Ngày, tháng, năm sinh : 20/07/1982

Nơi sinh : Trà Vinh

Chuyên ngành : Khoa học Máy tính
Khố : 2006
1- TÊN ĐỀ TÀI :
Xây dựng mơ hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng
Việt tương ứng.
2- NHIỆM VỤ LUẬN VĂN :
-

Nghiên cứu văn phạm tiếng Anh trong phạm vi động từ và trợ động từ.

Nghiên cứu văn phạm tiếng Việt trong phạm vi động từ và các thành tố
phụ phía trước của động từ.


Nghiên cứu các phương pháp ánh xạ cấu trúc cú pháp động từ tiếng Anh
sang tiếng Việt, chú ý những nét tương đồng và khác biệt giữa hai cấu trúc.
Xây dựng tập luật ánh xạ từ cấu trúc của động từ tiếng Anh sang tiếng
Việt.
-

Viết chương trình để dịch động từ tiếng Anh sang tiếng Việt.

3- NGÀY GIAO NHIỆM VỤ : 15/06/2008
4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông
qua.
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN

(Họ tên và chữ ký)

QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)

PGS.TS Phan Thị Tươi


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS. Phan Thị Tươi


Cán bộ chấm nhận xét 1 : TS. Nguyễn Xuân Dũng

Cán bộ chấm nhận xét 2 : TS. Quản Thành Thơ

Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009


i

Lời cảm ơn
Tôi xin chân thành cảm ơn PGS.TS. Phan Thị Tươi, cơ đã tận tình hướng dẫn,
chỉ bảo tơi trong suốt q trình hồn thành luận văn này.
Xin chân thành cảm ơn sự tận tình dạy dỗ của quý thầy cơ trường Đại học Bách
Khoa thành phố Hồ Chí Minh, nhất là quý thầy cô trong khoa Khoa học và kỹ thuật
máy tính.
Xin cảm ơn các bạn cùng lớp, gia đình, những người đã giúp đỡ, động viên tơi
rất nhiều trong q trình hồn thành luận văn này.


ii

Tóm tắt
Dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation_CBMT)
là mơ hình dịch máy chiếm ưu thế trong thập kỉ vừa qua. Trong các hệ thống
CBMT có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus)
gồm các chuỗi văn bản ở ngôn ngữ nguồn (source language) cùng với các chuỗi văn
bản tương ứng ở ngơn ngữ đích (target language). Một trong hai hướng chính của

CBMT là dịch máy dựa trên ví dụ (Example-Based Machine Translation_ EBMT).
Hệ thống EBMT dùng kỹ thuật so trùng các chuỗi trong văn bản đầu vào với các
chuỗi ngôn ngữ nguồn trong kho ngữ liệu, rút trích các chuỗi ngơn ngữ đích tương
ứng và kết hợp các chuỗi ngơn ngữ đích này lại để cho ra kết quả là văn bản đầu ra.
Đơn vị cơ bản của các đoạn văn bản trong kho ngữ liệu là chuỗi từ (cụm từ –
phrase hoặc đoạn – fragment). Mức cụm từ được chọn để lưu trữ khi xây dựng kho
ngữ liệu thay vì mức câu hay mức từ là do độ chính xác khi dịch ở mức cụm từ cao
hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn mức
câu. Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động
từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho
ngữ liệu cụm động từ song ngữ Anh-Việt. Các luật ánh xạ được chúng tơi rút ra từ
q trình khảo sát cấu trúc cụm động từ tiếng Anh, tiếng Việt, các qui luật văn
phạm của động từ tiếng Anh và dùng phương pháp chiếu thông qua kết quả đối sánh
từ.


iii

Abstract
Corpus-Base Machine Translation (CBMT) has been the dominant model of
machine translation in the last decade. In CBMT, there is existence of bilingual
parallel corpus comprises of texts in source language together with correlative texts
in target language. Example-Based Machine Translation (EBMT) is one of the two
main trends of CBMT. The basic techniques for EBMT are the matching of the
input strings again source strings in the corpus, the extraction of corresponding
target language strings and the recombination the strings as output result.
The basic unit in the corpus is sequence of words (phrase or fragment). To
constructing the corpus, examples at phrase-level are chosen for storage instead of
word-level or sentence-level. It can explain that the translating at phrase-level is
more exact than at word-level and the capacity as well as the gathering of examples

in phrase-level is more possible than in sentence level. In this thesis, we construct a
mapping rule set of verb phrase structure from English to Vietnamese, this set is a
foundation for constructing English-Vietnamese verb-phrase bilingual parallel
corpus. The rules were shaped as the results of the studying processes in English
verb phrase structure, Vietnamese verb phrase structure, English grammar and
applying “projection across word-alignment” method.


iv

MỤC LỤC
Lời cảm ơn ......................................................................................................i
Tóm tắt ...........................................................................................................ii
Abstract .........................................................................................................iii
Mục lục ..........................................................................................................iv
Danh mục hình .............................................................................................vi
Danh mục bảng biểu ...................................................................................vii
Chương 1. Tổng quan ................................................................................... 1
Chương 2. Các Nghiên Cứu Liên Quan...................................................... 5
Chương 3. Cơ Sở Lý Thuyết ........................................................................ 9
3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh . 10
3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh........................ 10
3.1.2 Các thành tố phụ phía trước .......................................................................... 11
3.1.3 Trung tâm của cụm động từ tiếng Anh.......................................................... 14

3.2 Phần phụ trước và động từ chính của cụm động từ tiếng Việt .............. 15
3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt ................................................. 15
3.2.2 Các thành tố phụ phía trước .......................................................................... 16
3.2.3 Trung tâm của cụm động từ tiếng Việt .......................................................... 20
3.2.4 Các phạm trù ngữ pháp và trật tự.................................................................. 21


Chương 4. Tập luật ánh xạ Anh-Việt........................................................ 23
4.1 Mơ hình chuyển đổi cấu trúc “trợ động từ và động từ chính” tiếng Anh
sang cấu trúc tiếng Việt tương ứng................................................................. 23
4.2 Tập luật ánh xạ Anh-Việt .......................................................................... 26


v

4.2.1 Các khái niệm ................................................................................................. 26
4.2.2 Diễn tả sự cho phép (permission): can, could, may ...................................... 28
4.2.3 Diễn tả sự suy đoán về khả năng xảy ra (possibility): can, could, may, might
................................................................................................................................. .32
4.2.4 Diễn tả khả năng thực hiện (ability): can và be able .................................... 35
4.2.5 Diễn tả bổn phận (obligation): ought to, should, must, need ....................... 38
4.2.6 Diễn tả sự suy diễn (deduction) và giả định (assumption): must, have, will và
should ....................................................................................................................... 41
4.2.7 Dare, need và used to ...................................................................................... 45
4.2.8 “Be, have, do” với vai trò là trợ động từ ........................................................ 47
4.2.9 Diễn đạt ý tương lai ........................................................................................ 55

Chương 5. Hiện thực và đánh giá .............................................................. 63
5.1 Hiện thực ..................................................................................................... 63
5.1.1 Tiền xử lý......................................................................................................... 64
5.1.2 Ánh xạ cụm động từ tiếng Anh sang tiếng Việt ............................................ 65
5.1.3 Giải quyết nhập nhằng ................................................................................... 66

5.2 Đánh giá độ chính xác của chương trình ................................................. 68

Chương 6. Kết luận ..................................................................................... 72

6.1 Đóng góp của luận văn ............................................................................... 72
6.2 Hướng phát triển ........................................................................................ 73

Tài Liệu Tham Khảo................................................................................... 74
Phụ lục A. GATE_công cụ rút trích cụm từ và gán nhãn từ loại cho câu
tiếng Anh ..................................................................................................... 77
Phụ lục B. Bảng thống kê tập luật ánh xạ theo từng ý nghĩa
Phụ lục C. Bảng thống kê tập luật ánh xạ theo từng trợ động từ


vi

Danh mục hình
Hình 4.1 Cây cú pháp của câu “The boy will be playing the football”…………..24
Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp tiếng
Việt tương ứng …………………………………………………………………….24
Hình 4.3 Minh hoạ phép chiếu đối sánh từ ………………………………………25
Hình 5.1 Mơ hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt……...64
Hình 5.2 Mơ hình biểu diễn ý nghĩa của CAN dưới dạng tập mờ……………......67


vii

Danh mục bảng biểu
Bảng 5.1 Kết quả đánh giá trên tập câu song ngữ huấn luyện rút ra từ tài liệu “Ngữ
pháp tiếng Anh thực hành- A Practical English Grammar”………………………..69
Bảng 5.2

Kết quả đánh giá trên tập câu rút ra từ tài liệu“The semantics of the


modal auxiliaries” ..………………………………………………………………..69
Bảng 5.3 Ví dụ cặp câu song ngữ Anh-Việt và kết quả đầu ra tương

ứng khi chạy

chương trình ……………………………………………………………………….69
Bảng 5.4 Kết quả đánh giá trên tập câu song ngữ huấn luyện ..………………….71
Bảng 5.5 Kết quả đánh giá trên tập câu trong tài liệu “The semantics of the modal
auxiliaries” ……………...........................................................................................71


1

Chương 1 :

Tổng quan

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực
nghiên cứu rất quan trọng, động cơ thúc đNy nhiều nhà khoa học máy tính quan tâm
đến lĩnh vực này chính là khả năng xử lý ngơn ngữ tự nhiên sẽ cách mạng hố cách
thức máy tính được sử dụng. Bởi vì phần lớn tri thức của con người được ghi lại
dưới dạng ngôn ngữ, máy tính nếu có khả năng hiểu được ngơn ngữ tự nhiên sẽ tiếp
cận được tồn bộ nguồn thơng tin này. Thêm vào đó, máy tính dùng những giao
diện diễn đạt bằng ngôn ngữ tự nhiên sẽ cho phép mọi người, kể cả những người
không chuyên, tiếp cận dễ dàng các hệ thống phức tạp.
Dịch máy (machine translation - MT) là một trong nhiều ứng dụng của lĩnh vực
xử lý ngơn ngữ tự nhiên, mục đích của dịch máy là làm cho máy tính có thể chuyển
văn bản hay giọng nói từ một ngơn ngữ tự nhiên này sang một ngôn ngữ tự nhiên
khác mà vẫn giữ nguyên ngữ nghĩa và sự trong sáng của nó. Trong thập kỉ vừa qua,
các mơ hình dịch máy dựa trên kho ngữ liệu (copus-based hoặc data-driven) có ưu

thế vượt trội, điều này tương phản sâu sắc với các mơ hình ở những năm 1980 và
các thập kỉ trước, đó là mơ hình dịch máy dựa trên luật (rule-based) [9].
Trong các hệ thống dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine
Translation – CBMT) có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual
parallel corpus) gồm các đoạn (segments) văn bản ở ngôn ngữ nguồn cùng với các
đoạn văn bản tương ứng ở ngơn ngữ đích, kích thước của các đoạn khác nhau tuỳ
từng hệ thống, nhưng tiêu biểu là ở mức câu (sentence). Kho ngữ liệu này được sử
dụng cho mục đích tra cứu, tham khảo để thu được các tri thức cần thiết cho mỗi lần
dịch mới. Trong mơ hình CBMT lại phân ra làm hai hướng phân biệt: dịch máy
thống kê (Statistical Machine Translation – SMT) và dịch máy dựa trên ví dụ


2

(Example-Based Machine Translation – EBMT). SMT chủ yếu dựa trên tần số xuất
hiện của từ (word frequency) và sự kết hợp các từ (word combinations) còn EBMT
dựa trên sự rút trích và kết hợp các cụm từ (hoặc các đoạn ngắn hơn mức cụm từ)
[9].
Một hệ thống dịch máy được gọi là một hệ thống EBMT nếu nó dùng những
đoạn (chuỗi từ chứ không phải từng từ riêng rẽ) văn bản ngôn ngữ nguồn được rút
ra từ kho ngữ liệu chứa các ví dụ mẫu để tạo nên các văn bản ngơn ngữ đích với
cùng một nghĩa. Đơn vị cơ bản của EBMT là chuỗi từ (cụm từ – phrase hoặc đoạn –
fragment); và các kỹ thuật cơ bản là tìm kiếm các chuỗi ngơn ngữ nguồn trong kho
ngữ liệu phù hợp với các chuỗi trong văn bản đầu vào, rút trích các chuỗi ngơn ngữ
đích tương ứng và kết hợp lại các chuỗi ngơn ngữ đích này cho ra kết quả là câu ở
ngơn ngữ đích có thể chấp nhận được.
Vì EBMT là mơ hình dịch máy dựa trên kho ngữ liệu, nên điều cần thiết đầu
tiên là việc xây dựng kho ngữ liệu song ngữ song song. Kho ngữ liệu có thể được
xây dựng dựa vào các nguồn dữ liệu sẵn có như các trang World Wide Web (được
trình bày bằng hai hoặc nhiều hơn hai ngơn ngữ). Ngồi ra kho ngữ liệu của hệ

thống EBMT có thể do chính đội ngũ phát triển xây dựng, hoặc được trích lọc kỹ
càng từ nguồn dữ liệu trong thực tế. Cách làm thứ nhất có khuyết điểm là nếu lấy
trực tiếp từ nguồn dữ liệu to lớn bên ngồi thì sẽ bao gồm những ví dụ (examples)
trùng lắp lên nhau, điều này có thể dẫn đến việc cùng một ví dụ ở ngôn ngữ nguồn
lại tương ứng với hơn một ví dụ ở ngơn ngữ đích [14]. Đối với cách làm thứ hai,
người ta đã sưu tập kho ngữ liệu song ngữ ở mức cụm từ thay vì mức câu hay mức
từ. Người ta chọn mức cụm từ là do độ chính xác khi dịch dựa trên mức cụm từ cao
hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn ở mức
câu (vì chúng ta khơng thể lưu trữ hết tất cả các câu song ngữ trong quá khứ, hiện
tại và tương lai) [5].
Để xây dựng kho ngữ liệu dựa trên cụm từ thì vấn đề cần quan tâm là việc nhận
dạng và rút trích cụm từ (cụm danh từ, cụm động từ,…) trong văn bản song ngữ
song song. Vấn đề này đã được nhiều tác giả trên thế giới quan tâm nghiên cứu trên


3

nhiều ngơn ngữ khác nhau, ví dụ đối với tiếng Anh đã có cơng cụ GATE để nhận
diện và rút trích cụm từ. Cịn trong tiếng Việt, các nghiên cứu trong lĩnh vực này
vẫn cịn khá ít ỏi, chủ yếu tập trung ở các trường Đại học Khoa học tự nhiên , Đại
học Bách Khoa; ví dụ như cơng trình của tác giả Nguyễn Chí Hiếu [5] về nhận biết
và rút trích cụm danh từ tiếng Việt. Như vậy cụm từ tiếng Việt vẫn còn nhiều vấn
đề mở cần được nghiên cứu, đặc biệt là cụm động từ vẫn chưa được nhiều người
quan tâm. Thế nhưng một cản trở cơ bản của tiếng Việt (cũng như hơn 200 ngôn
ngữ khác trên thế giới) khi muốn phát triển các ứng dụng về xử lý ngơn ngữ tự
nhiên đó là vấn đề thiếu vắng nguồn ngữ liệu có chú thích. Để vượt qua cản trở đó,
người ta có thể dựa vào kho ngữ liệu sẵn có và các cơng cụ xử lý ngôn ngữ của một
ngôn ngữ giàu tài nguyên như tiếng Anh. Ý tưởng này xuất phát từ cơng trình
nghiên cứu của Yarowsky[18], trong đó tác giả đề xuất cách tiếp cận dùng phương
pháp chiếu (projection) dựa trên kết quả đối sánh từ (word-alignment) để xác định

cụm danh từ cơ sở, áp dụng cho cặp Anh-Pháp.
Trong đề tài này, chúng tôi sẽ dựa trên những nét cơ bản về đối sánh từ của
Yarowsky, tức là việc “xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh
sang tiếng Việt tương ứng” sẽ dựa trên tiếp cận chiếu qua kết quả đối sánh từ AnhViệt. Kết quả là từ cụm động từ tiếng Anh (ngôn ngữ nguồn) thông qua luật ánh xạ
có thể đưa ra được cấu trúc cụm động từ tiếng Việt (ngơn ngữ đích) tương ứng. Dựa
vào tập luật ánh xạ này, từ một câu đơn tiếng Anh có chứa trợ động từ, ta có thể suy
ra được cụm động từ tiếng Việt có ý nghĩa tương đương với cụm động từ trong câu
tiếng Anh, góp phần trong việc tạo ra kho ngữ liệu cụm động từ song ngữ Anh-Việt.
Tuy nhiên, trong cụm động từ có thể chứa cả cụm danh từ, cụm giới từ, trạng
từ, … , nếu xét cả cụm động từ thì khối lượng công việc rất lớn. Cho nên trong luận
văn này chúng tôi chỉ giới hạn ở mức “xây dựng tập luật ánh xạ từ cấu trúc trợ động
từ và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng” hơn nữa, chúng
tôi cũng không xem xét dạng câu hỏi (interrogative) và dạng bị động (passive).
Trong phần này, chúng tôi tạm gọi cấu trúc trợ động từ và động từ chính tiếng
Anh và cấu trúc phụ từ và động từ chính tiếng Việt lần lượt là động từ tiếng Anh và


4

động từ tiếng Việt. Qua quá trình nghiên cứu, phân tích và tổng hợp chúng tơi đã
đưa ra được những mối tương quan giữa động từ tiếng Anh và động từ tiếng Việt từ
đó tạo ra tập luật ánh xạ song ngữ từ động từ tiếng Anh sang động từ tiếng Việt trên
cơ sở phương pháp chiếu đối sánh từ.
Trên nền tảng của tập luật ánh xạ, chúng tôi xây dựng một chương trình ánh xạ
cấu trúc từ động từ tiếng Anh sang tiếng Việt với đầu vào là câu đơn tiếng Anh và
đầu ra sẽ là động từ tiếng Việt có ý nghĩa tương đương với động từ tiếng Anh trong
câu đầu vào.
Tập luật ánh xạ này sẽ là cơ sở để xây dựng kho ngữ liệu song ngữ của cặp cụm
động từ Anh-Việt trợ giúp cho những nghiên cứu liên quan trong lĩnh vực xử lý
ngôn ngữ tự nhiên.



5

Chương 2 :

Các nghiên cứu liên quan

Để xây dựng kho ngữ liệu song ngữ cho cụm từ, có thể có nhiều cách khác
nhau như dựa trên tập ngữ liệu các câu song ngữ, hoặc có thể dựa trên một ngơn
ngữ giàu tài ngun (ví dụ tiếng Anh), từ đó thơng qua các mơ hình dịch cụm từ để
thu được cụm từ ở ngơn ngữ đích (ví dụ tiếng Việt). Ta xem xét các nghiên cứu với
hướng tiếp cận dựa trên ngôn ngữ [10],[11], [12], [16], [17]. Các nghiên cứu này
chủ yếu dựa trên các yếu tố ngôn ngữ như các luật ánh xạ cấu trúc, các mối quan hệ
phụ thuộc giữa các cụm từ, … để thu được tri thức song ngữ.
Trong [17], các tác giả mô tả hệ thống và phương pháp tìm cấu trúc tương ứng
từ cặp cấu trúc phụ thuộc của cặp câu nguồn và câu đích. Hệ thống này đầu tiên là
tìm từ tương ứng, sau đó mới tìm cụm từ tương ứng trên cơ sở các từ tương ứng.
Đầu vào của phương pháp là cặp câu đã được phân tích. Phương pháp này gồm hai
bước chính như sau:
B1 : Tìm các cặp từ tương ứng, nghĩa là sự tương ứng giữa các nút trên cây
phân tích cú pháp nguồn và đích.
B2 : Tìm các cặp cụm từ tương ứng dựa trên các cặp từ tương ứng đã tìm
được ở bước B1, nghĩa là tìm một tập các cặp cụm từ tương ứng sao cho
chúng bao phủ hết các thành phần của cây phân tích cú pháp.
Ở bước B1, việc tìm các từ tương ứng dựa trên cơ sở dịch từ điển và giải quyết
nhập nhằng bằng cách thiết lập từ dự tuyển tương ứng và chọn từ tương ứng thích
hợp bằng cách tính khoảng cách ngữ nghĩa từ các cặp từ tương ứng dự tuyển đến
một cặp từ tương ứng đã được giải quyết nhập nhằng. Tuy nhiên yếu điểm của
phương pháp là ngưỡng độ đo sẽ không chuNn, khi áp dụng cho các cặp ngôn ngữ

khác nhau (xa nhau về ngữ hệ).


6

Trong giải thuật tìm cụm từ tương ứng, các tác giả đưa ra các khái niệm về cây
giới hạn, cụm đóng và cụm mở, với các điểm neo là các từ tương ứng; cụm đóng là
cụm mà các nút lá của cụm nguồn đều có điểm neo trong cụm đích; cụm mở là cụm
cịn ít nhất một nút lá khơng có điểm neo trên cụm đích. Ý tưởng của giải thuật như
sau :
1) Đầu tiên, tìm các cặp cụm từ tương ứng sao cho khơng có nút nào khác
ngồi nút đầu và nút cuối là điểm neo.
2) Kết hợp các cặp cụm mở tương ứng có chung nút mở để tạo thành cụm
đóng.
3) Kết hợp các cặp cụm tương ứng có chung nút mà khơng phải điểm neo.
4) Tìm các đường đi mở. Nếu nút gốc của đường đi là điểm neo thì trộn
đường đi vào trong cặp cụm tương ứng chứa nút gốc đó. Ngược lại, tạo một
cặp cụm tương ứng mới bằng cách kết hợp các đường đi có nút gốc đó.
Tuy nhiên cụm từ của họ khơng phải là cụm đúng như nghĩa của ngôn ngữ
học, và dữ liệu kiểm tra tương đối nhỏ để đánh giá (130 cặp câu).
Trong một nghiên cứu khác của các tác giả Hwang Y. S., Paik K. H. và,
Saraki Y. [10], một phương pháp mới được đề xuất để thu được tri thức song ngữ,
bằng cách khai thác mối quan hệ phụ thuộc giữa cụm từ trong câu. Sau quá trình đối
sánh, có thể thu được các mối quan hệ phụ thuộc giữa các cụm từ trong câu đích
dựa vào mối quan hệ trong câu nguồn, nghĩa là câu đích sẽ đồng nhất cú pháp với
câu nguồn mà không cần dùng đến cơng cụ phân tích cú pháp cho câu đích.
Các tác giả đã tiến hành nghiên cứu trên cặp câu Nhật-Hàn. Đầu vào của hệ
thống là một cặp câu gồm một câu đã được phân tích cú pháp có những thông tin
phụ thuộc đi kèm và một câu đã được gán nhãn từ loại. Quá trình đối sánh sẽ được
thực hiện ở cả mức cụm từ và từ, và gồm có ba bước chính như sau:

1) Đối sánh từ dựa trên từ điển song ngữ. Ở bước này, hệ thống sẽ cố gắng
dịch các từ dựa trên từ điển. Các biến thể khác nhau, các hình thái khác
nhau của từ, các danh từ riêng, … cũng được xem xét. Để giải quyết nhập
nhằng, các tác giả đã sử dụng mộ số ràng buộc ngơn ngữ như : vị trí của


7

một từ tương ứng sẽ chỉ nằm trong một kích thước cửa sổ cho trước vì
trật tự từ trong hai ngôn ngữ là như nhau; một từ loại sau khi đối sánh sẽ
vẫn giữ nguyên chức năng của nó.
2) Đối sánh cụm từ bằng phương pháp thống kê với các ràng buộc là kết quả
đối sánh từ ở bước 1) và dưạ trên đường biên của cụm từ trong ngôn ngữ
nguồn. Ở bước này, các tác giả đã sử dụng các luật đối sánh dựa trên cấu
trúc cụm danh từ nguồn, sự tương tự về cấu trúc giữa hai ngôn ngữ cũng
như các đối sánh tương ứng có được ở bước 1). Tuy nhiên, các luật đơn
giản chỉ giải quyết được những trường hợp hai câu nguồn và đích có cấu
trúc tương tự nhau. Để giải quyết vấn đề trên, các tác giả đã sử dụng mơ
hình thống kê cho việc đối sánh cụm từ.
3) Đối sánh từ bằng phương pháp thống kê. Sau khi các cụm từ tương ứng
đã được đối sánh, các từ trong các cụm từ đó sẽ được tiếp tục đối sánh để
cho kết quả cuối cùng.
Với việc rút trích tri thức song ngữ, đầu tiên họ thu về các kết quả phân tích cú
pháp song ngữ bằng cách chia sẻ những mối quan hệ phụ thuộc giữa từng cặp câu
được đối sánh mức từ và mức cụm từ. Kế đó họ duyệt đệ quy các kết quả phân tích
cú pháp đó để tiếp nhận những tri thức song ngữ khác nhau và áp dụng phương
pháp lọc qua từng bước để thu được những thông tin có giá trị.
Khác với các phương pháp thơng thường, đối sánh dựa trên cây phân cấp cú
pháp, các tác giả trong [16] đưa ra phương pháp gọi là phương pháp phân nhóm từ
song ngữ, dựa trên hướng tiếp cận đối sánh các nhóm từ của ngơn ngữ nguồn và

ngơn ngữ đích. Mơ hình của các tác giả gồm có ba thành phần : hai mơ hình phân
nhóm từ của hai ngơn ngữ nguồn và đích và sự ràng buộc của nhóm từ tương ứng
trong hai ngơn ngữ. Sự ràng buộc u cầu nhóm từ trong một ngơn ngữ chỉ tương
ứng nhiều nhất với một nhóm từ của một ngơn ngữ khác. Để thỏa mãn ràng buộc
này trong cài đặt, các nhóm từ có lúc bị chia thành các đơn vị nhỏ hơn. Ví dụ cụm
từ “the first man” có thể bị chia làm hai cụm là “the first” và “man”. Cụ thể, mơ
hình phân nhóm từ bao gồm các bước chính như sau :


8

1) Đối sánh từ giữa hai câu trong ngôn ngữ nguồn và ngơn ngữ đích
2) Phân nhóm từ trong câu ngơn ngữ nguồn
3) Phân nhóm từ trong câu ngơn ngữ đích
Trong đó, bước 2) và 3) phải tn theo ngun tắc ràng buộc giữa các nhóm từ
song ngữ.
Ở giai đoạn phân nhóm từ, họ sử dụng mơ hình “inter-chunk” và “intrachunk”, để xác định nhóm từ của cả hai ngơn ngữ Anh-Trung. Phương pháp đánh
giá nhóm từ trên các chiều dài khác nhau, từ 1 đến 7 và kết quả tốt nhất với chiều
dài cụm từ là 4. Tuy nhiên bất lợi của phương pháp là các nhóm từ này khơng phải
là nhóm từ do các nhà ngơn ngữ học định nghĩa và khi chiều dài câu cũng như trật
tự từ trong câu khơng đồng nhất thì độ chính xác sẽ bị giảm.
Trong [11], các tác giả đưa ra hai hướng tiếp cận cho vấn đề rút trích tự động
cụm danh từ song ngữ Anh-Việt từ kho ngữ liệu song ngữ. Cách tiếp cận thứ nhất
tập trung vào việc giải quyết vấn đề đối sánh rỗng và vấn đề đối sánh chồng chéo,
bằng cách biến đổi cấu trúc cú pháp của câu trong ngôn ngữ nguồn sang dạng cấu
trúc cú pháp tương ứng của câu trong ngơn ngữ đích, cơng việc này được tiến hành
trong giai đoạn tiền xử lý.
Cách tiếp cận thứ hai cung cấp một mơ hình dịch máy dựa trên phương pháp
thống kê. Ý tưởng của cách tiếp cận thứ hai là đối với các cụm danh từ trong câu chỉ
để lại những từ tiêu biểu cho cụm danh từ, và loại bỏ những từ không tiêu biểu. Và

mỗi cụm danh từ cơ sở lúc này sẽ được hợp nhất lại như một từ đại diện
(representative word). Kế đó dùng cơng cụ GIZA++ để tiến hành việc đối sánh từ
trên các cặp câu mà trong đó các cụm danh từ đã được chuyển thành các từ đại diện.
Cách tiếp cận này thu được độ chính xác 88.2% và độ hồi quy 82.3% khi tiến hành
trên bộ ngữ liệu vàng (golden standard data).


9

Chương 3 :

Cơ sở lý thuyết về động từ tiếng Anh, tiếng
Việt.

Động từ là từ loại được dùng để chỉ các dạng của vận động như:
- Chỉ hành động: drink (uống), listen (nghe), play (chơi), eat (ăn), throw
(ném)…
- Chỉ tiến trình: change (thay đổi), grow (phát triển), widen (mở rộng),
deteriorate (tồi tệ đi),…
- Chỉ cảm giác: ache (đau), feel (cảm thấy), hurt (đau)…
- Chỉ sự kiện quá độ: arrive (đến), die (chết), fall(ngã), land (hạ cánh), leave
(dời đi),…
- Chỉ trạng thái: believe (tin tưởng), intend (dự định), know (biết), remember
(nhớ), think (nghĩ), understand (hiểu), apply to (áp dụng cho), belong to (thuộc về),
require (yêu cầu),…
Cụm động từ là một tổ hợp từ tự do có quan hệ chính phụ giữa thành tố chính
với thành tố phụ, có động từ làm thành tố chính (trung tâm), có các đặc điểm sau:
- Cụm động từ cấu trúc theo nguyên tắc bao gồm một thành tố chính (trung
tâm) do động từ đảm nhiệm và các thành tố phụ đứng trước hoặc đứng sau trung
tâm.

- Quan hệ giữa trung tâm và các thành tố phụ là quan hệ chính phụ trên nguyên
tắc trung tâm không thể bị lược bỏ [4], [6].


10

3.1

Trợ động từ và động từ chính trong cấu trúc cụm

động từ tiếng Anh
3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh
Các thành tố phụ ở phần đầu cụm động từ tiếng Anh bao giờ cũng là các trợ
động từ (auxiliary verb) mà trợ động từ tình thái (modal verb) nếu có bao giờ cũng
đứng ở vị trí đầu tiên. Các thành tố phía sau có thể là danh từ, tính từ, động từ
khơng chia, số từ, trạng từ, cụm giới từ hoặc mệnh đề.


Ở dạng đầy đủ nhất, cụm động từ bao gồm 3 phần:
Các thành tố phụ phía trước + trung tâm + các thành tố phụ phía sau của cụm

động từ, được mô tả ở sơ đồ dưới đây:
Cụm động từ

Thành tố phụ phía trước

Trung tâm

Thành tố phụ phía sau


(You)

can

do

anything.

(You)

must have

had

enough of them…



Ở dạng khơng đầy đủ, cụm động từ tiếng Anh cũng có thể xuất hiện dưới

dạng một thành phần (phần trung tâm) hoặc hai thành phần:
- Dạng đơn giản nhất: chỉ có phần trung tâm
Trung tâm
(The sun)
-

rises.

Thành tố phụ phía trước + trung tâm



11

Thành tố phụ phía trước
(He)

is

Trung tâm

punished.

- Trung tâm + thành tố phụ phía sau
Trung tâm
(She)

laughs

Thành tố phụ phía sau
at me.

3.1.2 Các thành tố phụ phía trước
1/ Trợ động từ và trật tự
Trợ động từ (auxiliary verb) trong tiếng Anh gồm có ba trợ động từ chính “be,
have, do”, mười trợ động từ tình thái (modal verb) “can, could, may, might, must,
ought to, shall, should, will, would” và các trợ động từ bán khiếm khuyết (semimodal verb) “dare, need, used to”.
Ngoài việc dùng để thành lập các thì (tense), trợ động từ khác với động từ chính
(động từ mang ý nghĩa từ vựng _ lexical verb) ở chỗ chúng có thể xuất hiện với 4
cấu trúc ngữ pháp sau: phủ định, nghi vấn, mã (code) và khẳng định nhấn mạnh.
(i)


Phủ định: chỉ có trợ động từ mới có dạng phủ định, tức là đứng trước thành

tố phủ định “not” theo trật tự:
Trợ động từ (Aux) + not + động từ chính (V)
Ví dụ:
She is

not studying.

Hầu hết các trợ động từ trong tiếng Anh đều có dạng phủ định rút gọn và trong
trường hợp đó trợ động từ + từ phủ định “not” được xem như một từ.
Ví dụ:
She isn’t
(ii)

studying.

Nghi vấn: chỉ có trợ động từ mới có thể xuất hiện trước chủ ngữ (S) để tạo

thành câu nghi vấn:


12

Trợ động từ (Aux) + S + V
Ví dụ:
Does
(iii)


she sing?

Mã (code): chỉ có trợ động từ mới có thể thay thế cho toàn bộ cụm động từ

đã được đề cập trước đó, hoặc được ngầm hiểu trong những ngữ cảnh nhất định.
Ví dụ:
“You want your money back, I suppose”, said George with a sneer.
“Of course. I do – I always did…” says Dobbin.
Trong ví dụ trên “do” thay thế cho “want my money back” và “did” thay thế
cho động ngữ “wanted my money back” đã được đề cập tới ở câu trước đó.
(iv)

Khẳng định, nhấn mạnh: chỉ có trợ động từ mới được dùng dưới dạng

khẳng định nhấn mạnh:
Trợ động từ + động từ chính
Ví dụ:
“You did have a round with the coachman”, Captain Dobbin said.
“Anh chắc đã đánh nhau với người lái xe”, Đại úy Dobbin nói.
2/ Trật tự các thành tố phụ phía trước
Các thành tố phụ phía trước của cụm động từ tiếng Anh bao gồm trợ động từ và
trạng ngữ. Trong cùng một cụm động từ có thể có nhiều trợ động từ xuất hiện và
trong trường hợp đó trật tự của chúng rất nghiêm ngặt: trợ động từ tình thái bao giờ
cũng xuất hiện ở vị trí đầu rồi mới đến các trợ động từ khác. Chúng ta có thể gặp
các dạng cấu trúc có trật tự sau:
A. Trợ động từ tình thái: bao giờ cũng đứng trước động từ trung tâm ngun
dạng khơng có tiểu từ “to” theo trật tự: modal + V
Ví dụ:
I can see John at this minute… <Tơi có thể gặp John bây giờ…>
Trợ động từ tình thái có một số ý nghĩa khác nhau như: diễn đạt khả năng

(possibility); diễn đạt năng lực (ability); diễn đạt sự chắc chắn, tính tất yếu logic;


13

diễn đạt sự phỏng đoán (prediction); diễn đạt dự đoán, khả năng có thể có
(probability); diễn đạt bổn phận (obligation); diễn đạt sự cho phép (permission);
diễn đạt lời khuyên, gợi ý.
B. Hoàn thành: trợ động từ “have” bao giờ cũng đứng trước dạng quá khứ phân
từ (past participle) của động từ trung tâm (có đi “ed” đối với động từ có qui tắc)
theo trật tự:

“have” + V-ed

Ví dụ:
I have nourished a viper in my bosom. <Tôi đã nuôi ong tay áo.>
C. Tiếp diễn: trợ động từ “be” bao giờ cũng đứng trước dạng hiện tại phân từ
(present participle) của động từ trung tâm theo trật tự:

“be” + V-ing

Ví dụ:
She is coming with me… <Cô ta sẽ đi cùng tôi…>
D. Bị động: trợ động từ “be” bao giờ cũng đứng trước dạng quá khứ phân từ (past
participle) của động từ trung tâm (có đi “ed” đối với động từ có qui tắc) theo trật
tự:

“be” + V-ed

Ví dụ:

I dreamed last night that I was flogged by Dr. Raine.
<Tối hôm qua tôi mơ mình bị tiến sỹ Raine trừng phạt.>
Bốn dạng cấu trúc cơ bản trên có thể kết hợp với nhau để tạo thành những cụm
động từ phức tạp hơn với sự xuất hiện nhiều thành tố phụ phần đầu, nhưng sự kết
hợp này bao giờ cũng phải theo thứ tự: A + B + C + D. Trong thực tế, chúng ta ít
gặp những cụm động từ có đầy đủ cả bốn thành phần trên cùng xuất hiện mà chỉ có
hai hoặc ba dạng cấu trúc này cùng xuất hiện mà thơi
Ví dụ:
- He may have gone.
A

B

<Có lẽ ơng ta đã đi rồi.>
- The phone have been ringing for two minutes.
B

C


14

<Chuông điện thoại đã (đang) reng hai phút.>
- One can’t be always thinking about Joseph...
A

C

<Người ta không thể lúc nào cũng nghĩ về Joseph được...>
- I have been treated worse than any servants in the kitchen.

B

D

<Tôi đã bị đối xử tồi tệ hơn bất cứ người hầu nào ở dưới bếp.>
- ...she should have been robbed of her perquisites...
A

B

D

<Lẽ ra cô ta đã bị cướp hết của cải rồi...>
Như vậy, có thể nói rằng việc xuất hiện hình thái nào của trợ động từ là do trợ
động từ đứng trước của nó quy định và theo một nguyên tắc rất chặt chẽ.
Ngồi ra cịn có một số thành tố khác điển hình là trạng ngữ chỉ tần xuất thường
xuất hiện ở vị trí giữa của phần đầu cụm động từ như: “always”, “generally”,
“regularly”, “sometimes”, “rarely”,…Tuy nhiên, đôi khi chúng không nằm trong
cụm động từ mà lại xuất hiện ở đầu câu. Cũng có thể vì lý do đó nên khi khảo sát
cụm động từ, các nhà Anh ngữ học thường không nghiên cứu chúng trong cấu trúc
cụm động từ mà thường xếp chúng vào một chương riêng.

3.1.3 Trung tâm của cụm động từ tiếng Anh
Trung tâm của cụm động từ tiếng Anh là động từ. Việc xác định động từ trung
tâm trong tiếng Anh khá dễ dàng ngay cả trong trường hợp có nhiều động từ xuất
hiện trong cùng một cụm động từ.
Đối với cụm động từ có nhiều trợ động từ xuất hiện thì động từ trung tâm bao
giờ cũng là động từ chính (main verb hay lexical verb) và đứng sau tất cả các trợ
động từ này. Về mặt hình thái, động từ chính khi xuất hiện với các trợ động từ thì
có các hình thái sau:

-

Ngun mẫu khơng có “to”.

-

Hình thái “V-ing”: hiện tại phân từ (present participle)


15

-

Hình thái “V-ed”: quá khứ đơn (simple past) và quá khứ phân từ (past
participle).

Khi có nhiều động từ có ý nghĩa từ vựng (lexical verb) cùng xuất hiện trong
một cụm động từ, thì chỉ có một động từ đã chia và động từ đó ln đứng trước các
động từ có ý nghĩa từ vựng khác và đó chính là động từ trung tâm.
Ví dụ:
-They agreed to pay two guineas a weeks…
<Họ đồng ý trả 2 ghi-nê một tuần…>
Trong ví dụ trên, “agreed” là động từ trung tâm.

3.2

Phần phụ trước và động từ chính của cụm động từ

tiếng Việt
3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt

1/ Tổ chức nội bộ của cụm động từ
a)

Ở dạng đầy đủ, cụm động từ gồm ba thành phần: phần giữa dành cho trung tâm

và phần đầu, phần cuối dành cho các thành tố phụ.
Phần đầu
Ví dụ: (Nó)

đang

Phần trung tâm
học

Phần cuối
bài này.

b) Cụm động từ cũng có khả năng xuất hiện dưới dạng chỉ có hai phần:
- Dạng chỉ có phần đầu và phần trung tâm:
Phần đầu
Ví dụ: (Nó)

đang

Phần trung tâm
học.

-Dạng chỉ có phần trung tâm và phần cuối:
Phần trung tâm
Ví dụ: (Nó)


học

Phần cuối
bài này.


16

c) Xu thế bố trí thành tố phụ:
Phần cuối của cụm động từ gồm những thành tố phụ có ý nghĩa từ vựng chân
thực. Những thành tố phụ này rất đa dạng về mặt ngữ nghĩa cũng như về mặt tổ
chức.
Phần đầu của cụm động từ gồm những thành tố phụ mà phần lớn đều mang ý
nghĩa thiên về ngữ pháp, phần lớn đều là những từ đơn có số lượng khơng nhiều
lắm và khơng có khả năng phát triển thành cụm từ (trong đó các thành phần có quan
hệ chính-phụ). Do đó phần đầu thường có bề ngồi đơn giản hơn phần cuối.
2/ Những nét đặc biệt của cụm động từ
Khơng có khả năng tồn tại cụm động từ ở dạng lý tưởng, tức là cụm động từ mà
bao gồm hầu hết mọi thành tố phụ như trong cụm danh từ. Cũng khơng có khả năng
quy thành tố phụ vào vị trí rõ ràng dứt khốt giống như trong cụm danh từ.
Động từ là một từ loại lớn bao gồm rất nhiều kiểu khác nhau, thường thường
mỗi kiểu lại có những loại thành tố phụ của riêng mình. Và trên thực tế khơng có
động từ nào tập trung đầy đủ tất cả mọi khả năng kết hợp có ở các kiểu động từ
khác. Hơn nữa số lượng thành tố phụ ở cụm động từ cũng rất lớn [1], [2], [3].

3.2.2 Các thành tố phụ phía trước
1/ Phụ từ
Số lượng những từ có khả năng đứng ở phần đầu cụm động từ nói chung khơng
nhiều lắm: tất cả chỉ có độ vài chục từ. Có thể chia nhỏ chúng thành mấy nhóm như

sau:
a) Nhóm đều, cũng, vẫn, cứ… với ý nghĩa khái quát là chỉ sự tiếp diễn tương tự
của hành động.
b) Nhóm từng, đã, vừa, mới, đang, sẽ,… với ý nghĩa khái quát là chỉ thời gian của
hành động.
c) Nhóm hãy, đừng, chớ…dùng để nêu lên ý sai khiến, bảo thực hiện hay không
thực hiện một hành động nào đấy.


×