ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
TRONG DỊCH MÁY
TS. Nguyễn Chí Hiếu
Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM
TÓM TẮT
Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song
ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]
và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh
từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu
đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm
từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật
chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở
cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả
quan.
ABSTRACT
This paper proposes the method Extracting English – Vietnamese Noun Phrases
automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -
2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the
quality of word alignment in the pre-processing phase of Machine Translation by
transferring sentence structures from the source language to target language and then
using heuristics to extract noun phases. It also proposes the method of building the Phase
and Word tables from Bilingual Corpus including semantics, probability and transfer
rules [8]. The other components of the English – Vietnamese machine translation also
are described in this paper. The result of the experiment was satisfactory.
MỘT
SỐ
TỪ
VIẾT
TẮT
NLP: Natural Language Processing
MT: Machine Translation
RBMT: Rule Based Machine Translation
EBMT: Example Based Machine Translation
SMT: Statistical Machine Translation
PBMT: Phrase Based Machine Translation
1. GIỚI THIỆU
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống
máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng
chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển
hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã
được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch
còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp
như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ [18]. Do
những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các
phương pháp dịch máy hiện hữu thường gặp trở ngại khi áp dụng vào cặp ngôn ngữ Anh
– Việt.
Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp,
ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa,
ngữ dụng, Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều
thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi.
Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho cặp Anh –
Việt và kết quả nghiên cứu của N.P.Thai [20] cũng hết sức khiêm tốn. Do sự khác biệt
khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng
đến chất lượng đối sánh từ Anh – Việt, mà kết quả của đối sánh từ lại quyết định đến chất
lượng dịch. Hiện nay, đối sánh từ cho cặp Anh – Trung [17] chỉ đạt được độ chính xác
50% - 60%. Kết quả này có thể tương tự khi áp dụng đối sánh từ cho cặp tiếng Anh –
Việt [20]. Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay
còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin
như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.
Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ
sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân
lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của
câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là
xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví
dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp).
Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ
chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực
tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ
trong kho ngữ liệu là nhiều vô kể. Với hai ngôn ngữ khác biệt như tiếng Anh và tiếng
Việt với nguồn tài nguyên khá nghèo nàn, thì việc xây dựng kho câu mẫu sẽ càng cần
nhiều thời gian và tiền bạc và là công việc của nhiều nhà ngôn ngữ học thực hiện trong
nhiều năm.
Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động
trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự
động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp
dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện
không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ. D.Marcu và W.Wong
[7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] đã cho
kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm
từ của ngôn ngữ học.
2. CỤM DANH TỪ TIẾNG VIỆT
Cụm từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm
nghiên cứu như Nguyễn Tài Cẩn [14], Hồ Lê [9], Nguyễn Kim Thản [13], Diệp Quang
Ban [6] và gần đây nhất là luận văn tiến sĩ của Tuong Hung Nguyen [19].
2.1 Những công trình nghiên cứu ở nước ngoài
Shum biểu diễn cụm danh từ tiếng Việt cả ở dạng luật sinh và dạng cây như sau:
Beatty đưa ra hai khả năng có thể có của cụm danh từ tiếng Việt được biểu diễn
qua cấu trúc cây như sau:
Tuy nhiên Beatty đã không xem xét đến các mạo từ (articles : một, những, các), và
từ chỉ xuất cái (cái con mèo này – this cat).
2.2 Những công trình nghiên cứu trong nước
Nguyễn Tài Cẩn cho rằng cụm danh từ (danh ngữ) gồm có ba phần: phần đầu,
phần trung tâm và phần cuối như sơ đồ sau:
Phần đầu Phần trung tâm Phần sau
Ba
Cả hai
Tất cà những cái
người
tỉnh
chủ trương
này
nhỏ ấy
chính xác đó
Nom → NP Mod
NP → Nu N Dem
NP → Pron
NP → Npr
Nu → PL CL
Nu → Q CL
Nu → Num CL
N → N’ N”
Trong đó:
Nom: Chủ ngữ
Mod: Bổ ngữ
Nu: Số đếm
Dem: Chỉ định từ
Pron: Đại từ
Npr: Danh từ riêng
N: Danh từ
N’: danh từ phân loại
N”: danh từ không phân loại
PL: Số nhiều
Q: Lượng từ
Nom
NP
Mod
Nu N Dem
PL
Q
Num
CL
Nom
NP Mod
Pron
Npr
Hình : Cấu trúc cụm danh từ tiếng Việt của Shum [19]
(b)
(a)
NP
Num NP
CL N’
N’ Dem
N AP
NP Dem
N’ AP
Num N’
CL N
NP
Trong đó:
AP: Cụm tính từ
Hình 2
:
C
ấu trúc cụm danh từ tiếng Việt của Beatty [19]
(a)
(b)
Trong thực tế danh ngữ còn có thể xuất hiện cả dưới những dạng chỉ có hai phần:
- Dạng chỉ có phần đầu và phần trung tâm,
Phần đầu Phần trung tâm
Ba bát
- Dạng chỉ có phần trung tâm và phần sau,
Phần trung tâm Phần sau
bát này
- Dạng chỉ có phần đầu và phần sau,
Phần đầu Phần sau
Ba tái
Diệp Quang Ban đưa ra cấu tạo chung của cụm danh từ có ba phần là phần trung
tâm, phần phụ trước và phần phụ sau. Phần trung tâm thường là một danh từ hoặc một
ngữ danh từ. Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp
theo một trật tự nhất định. Ở phần phụ sau thường nhận được hai vị trí có trật tự ổn định.
Phần phụ trước cụm danh từ thường dùng chỉ yếu tố số lượng của sự vật nêu ở trung tâm,
phần phụ sau chủ yếu dùng chỉ yếu tố chất lượng của sự vật nêu ở thành phần trung tâm.
Phần phụ trước (-1, -2, -
3)
Phần trung tâm
(0)
Phần phụ sau (1, 2)
Ví dụ 1:
- vị trí 0 là vị trí của danh từ chính,
- vị trí -1 là vị trí của từ chỉ xuất cái,
- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai…; vài, ba, dăm, dăm ba…;
mỗi, từng, mọi ; những, các, một…; mấy,
- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ: tất cả, hết thảy, cả…
- vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau
như: danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc,
phòng hẹp, phòng 14, phòng ngoài, phòng (của) chúng tôi, chuyến trước,
- vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
Tuong Hung Nguyen phát triển thêm những vấn đề mà Beatty chưa bàn đến và đưa
ra cấu trúc tổng quát của cụm danh từ như hình 3.
tất cả những cái con mèo đen ấy
-3 -2 -1 0 1 2
Qua khảo sát các nghiên cứu về cụm danh từ tiếng Việt chúng ta thấy rằng: cho
đến nay chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu
trúc cụm danh từ tiếng Việt. Trong đặc tả của bài báo này chủ yếu dựa vào các phân tích
của Tuong Hung Nguyen và Nguyễn Tài Cẩn.
3. DỊCH MÁY TRÊN CƠ SỞ CỤM TỪ
Phương pháp dựa trên cơ sở từ có nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi
xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ
cảnh. Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó
trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock”
có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ
nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn
và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của
câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp.
Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc
xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là
do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả các câu trong thực tế và các
đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể.
3.1 Giải pháp
DP
D’
D
Các
DemP
NumP
i
Dem’
Num’
CLP
FocP
NÀY
this
Mèo
cat
CL
Num
CLP
CL’
NP
t
i
CÁI
con
NumP Dem
Ví dụ 2: Các CÁI con mèo Này
These very cats
Trong đó:
DP: Determiner Phrase
D: Determiner
DemP: Demonstrative Phrase
NumP: Numeral Phrase
Num: Numeral
CLP: Classifier Phrase
CL: Classifier
FocP: Focus
NP: Noun Phrase
Hình 3: Cấu trúc cụm danh từ tiếng Việt của
Tuong Hung Nguyen
Để khắc phục những hạn chế đã trình bày ở phần 1, bài báo đề xuất một phương
pháp dịch máy mới với tên gọi là dịch máy dực trên cơ sở cụm từ (Phrase Based Machine
Translation – PBMT). Phương pháp này được xây dựng trên cơ sở sử dụng hai phương
pháp EBMT và SMT với những nét ngữ cảnh trong cơ sở tri thức.
Ví dụ câu: Old men love classical music (Những người đàn ông già thích nhạc cổ
điển).
Hình 4: Phương pháp PBMT cho câu: Old men love classical music
Qua hai ví dụ trên hình 4, chúng ta thấy rằng nếu các cụm danh từ (Noun Phrase –
NP) song ngữ (như những cây con của các cây cú pháp) được lưu trữ trong kho ngữ liệu,
nó sẽ giúp cho tốc độ dịch và chất lượng dịch máy được cải thiện đáng kể. Những cây
con này được rút trích ra từ kho ngữ liệu (corpus) song ngữ Anh – Việt đã được huấn
luyện trước. Độ chính xác của sản phẩm dịch phụ thuộc nhiều vào kho dữ liệu này và số
lượng mẫu song ngữ mức cụm từ được rút trích được. Điều này có thể thực hiện được
bằng phương pháp PBMT. Nếu NP được coi là một nút (mà không còn phải quan tâm các
thành phần con của cây NP) thì hầu như trật tự từ và cụm từ khác trên cây cú pháp của
hai ngôn ngữ hầu như không có sự thay đổi.
Hình 5: Đối sánh một-nhiều
Để rút trích cụm danh từ tiếng Việt tương ứng với cụm danh từ tiếng Anh trong cặp
câu song ngữ thì vấn đề đối sánh từ có ảnh hưởng quyết định đến việc rút trích. Tuy
nhiên trong thực tế ngôn ngữ luôn tồn tại một số vấn đề trong đối sánh. Ví dụ trên hình 5,
từ “saw” ở vị trí thứ 2 trong câu tiếng Anh được đối sánh với hai từ trong tiếng Việt là từ
“thấy” ở vị trí 4 và từ “quan sát” ở vị trí 10 trong tiếng Việt.
Trong giải thuật đối sánh cụm danh từ cơ sở nguyên thủy của Yarowsky [2], độ
chính xác của việc rút trích phụ thuộc vào độ chính xác của đối sánh từ, nhưng vấn đề tồn
tại là trong quá trình đối sánh từ người ta luôn gặp phải vấn đề chồng chéo và xung đột,
vấn đề “stopword”. Stopword là từ của ngôn ngữ nguồn không được dịch sang ngôn ngữ
đích và ngược lại như ví dụ trên hình 9. Vấn đề biên trái và phải của cụm từ đối sánh
cũng là một vấn đề như hình 6. Để giải quyết vấn đề này, bài báo thực hiện chuyển đổi
trật tự từ câu tiếng Anh theo trật tự từ trong câu tiếng Việt trước khi đối sánh như ví dụ
trên hình 7.
Hình 6: Đối sánh từ Anh-Việt
Trong thực tế ngôn ngữ, các mô hình đối sánh từ thống kê của Och và Ney [10],
hay mô hình từ điển của Ker và Chang [12] áp dụng cho cặp Anh - Việt còn hạn chế [4].
Nguyên nhân của các hạn chế này là do sự khác biệt về ngữ hệ, ngữ cảnh, ngữ nghĩa của
từ, từ đặc trưng,… Đối sánh điểm neo là một giải pháp cho bài toán này như ví dụ trên
hình 7.
Hình 7: Đối sánh điểm neo
[Tôi
1
]
thích
2
[sáu
3
cái
á
o dài
4
Vi
ệt Nam
5
đ
ầ
u tiên
6
c
ủa
cô ta
7
]
(a)
(b)
[I
1
] like
2
[her
3
first
4
six
5
Vietnamese
6
dresses
7
]
[I
1
] like
2
[six
3
dresses
4
Vietnamese
5
first
6
her
7
]
(c)
[Tôi
1
]
thích
2
[sáu
3
cái
á
o dài
4
Vi
ệt Nam
5
đ
ầ
u tiên
6
c
ủa
cô ta
7
]
(d)
Trong quá trình dịch máy, việc thêm hay xóa từ trong câu được thực hiện trong quá
trình kiểm tra ngữ nghĩa. Mô hình dịch dựa trên cơ sở từ thường cho độ chính xác rất hạn
chế [5, 20]. Mô hình PBMT khắc phục hạn chế này bằng cách xác định ngữ nghĩa của
cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch [8].
Mô hình PBMT bao gồm hai giai đoạn chính như mô tả trong mục 3.2.
3.2 Phương pháp dịch trên cơ sở cụm từ (PBMT)
3.2.1
Giai đoạn huấn luyện
Trong những năm gần đây, nhiều nhà nghiên cứu quan tâm đến việc rút trích cụm
danh từ song ngữ. Yarowsky [2] phát triển mô hình chiếu để thu nhận mã từ loại, cụm
danh từ cơ sở, tên thực thể và phân tích hình vị của ngôn ngữ đích thông qua ngôn ngữ
nguồn. E.Riloff [3] xây dựng hệ thống rút trích thông tin cho ngôn ngữ mới thông qua mô
hình chiếu. Mô hình của chúng tôi thực hiện trên phương pháp của Yarowsky với một số
cải thiện để khắc phục vấn đề chống chéo, xung đột trong mô hình của chiếu.
• Các bước rút trích cụm danh từ:
Bước 1: Phân tích câu nguồn để xác định các cụm từ,
Bước 2: Gán nhãn mã từ loại (POS: Part-Of-Speech) câu nguồn.
Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích.
Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích.
Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán
nhãn.
Bước 6: Rút trích cụm danh từ hoặc từ Anh – Việt tương ứng.
• Giải thuật trích rút cụm danh từ:
a) Xác định cụm danh từ (NP) đích qua đối sánh từ:
Với mỗi một NP nguồn có vị trí từ j
1
tới j
2
, thì NP đích tương ứng được xác định
bởi i
min
và i
max
.
Trong đó:
i
min
= min
j
{i = a(j)} (từ nguồn ở vị trí j được đối sánh (align) với từ đích
ở vị trí i)
i
max
= max
j
{i = a(j)}
với j = j
1
… j
2
b) Mở rộng NP đích theo các quy tắc sau:
b.1 Nếu từ thứ i
min – 1
thuộc lớp từ phân loại CL (CL: Classifier) thì i
min
= i
min – 1
b.2 Nếu từ thứ i
min – 1
là từ “CÁI” thì i
min
= i
min – 1
b.3 Nếu từ thứ i
min – 1
thuộc lớp mạo từ Ar (Ar: Articles) thì i
min
= i
min – 1
, Ar =
{một, những, các}
một [- PL; - Definite] : tương ứng với cụm NP tiếng Anh là số ít và không
xác định
những [+PL; - Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và
không xác định
các [+PL; + Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và
xác định
Hình 8 : Mở rộng cụm danh từ theo từ đặc trưng
Thay vì đối sánh (i) với (iii) bài báo đối sánh (ii) với (iii), ở ví dụ trên hình 8 (a)
“CÁI
2
con
3
” được lấy thêm tự động cho dù không được đối sánh, ở ví dụ trên hình 8 (b)
“CÁC
1
CÁI
2
cuốn
3
” được lấy thêm nhờ các quy tắc b.1, b.2, và b.3. Do đó làm tăng thêm
độ chính xác của đối sánh cụm danh từ.
• Dữ liệu đầu vào là các cặp câu song ngữ
Hình 9 : Giai đoạn huấn luyện
• Kết quả của quá trình huấn luyện là các bảng:
+ Bảng cụm từ (Ps, Rs, Pt, Rt, C, Pr),
+ Bảng từ (Ws, Wt, POS, Pr).
Trong đó:
Ps: cụm từ nguồn
Pt: cụm từ đích
Rs: chuỗi luật sinh nguồn
Rt: chuỗi luật sinh đích
C: nét ngữ cảnh
Anh Việt
Gằn từ loại và
phân đoạn câu
tiếng Anh
(fnTBL
|
TnT)
Đối sánh từ trong
cặp câu song ngữ
(GIZA++)
Ánh xạ
Chuyển đổi
Lọc
Kho ngữ liệu cho
dịch máy
Rút trích luật sinh và
tạo bảng cụm từ
Hai
1
CÁI
2
con
3
chó
4
đen
5
này
6
(iii)
These
1
two
2
black
3
dogs
4
(i)
Two
1
dogs
2
black
3
these
4
(ii)
(a)
Books
1
yellow
2
these
3
(ii)
CÁC
1
CÁI
2
cuốn
3
sách
4
vàng
5
này
6
(iii)
These
1
yellow
2
books
3
(i)
(b)
Pr: xác suất
Ws: từ nguồn
Wt: từ đích
POS: từ loại
• Các bước thực hiện:
Gắn nhãn từ loại cho câu tiếng Anh.
Phân tích cú pháp và phân đoạn câu tiếng Anh.
Đối sánh từ.
Tạo bảng cụm từ và bảng từ.
3.2.2
Giai đoạn áp dụng
Có thể mô tả mô hình dịch đơn giản như sau: đầu tiên câu nhập ở ngôn ngữ
nguồn được gán nhãn từ loại và phân tích cú pháp (giống như cách phân tích để rút ra các
cụm từ). Tiếp theo hệ thống tìm các cụm từ này trong bảng từ để thay thế bằng cụm từ
tương ứng ở ngôn ngữ xuất. Các từ không thuộc bảng cụm từ thì tìm trên bảng từ. Sau đó
thêm một số thao tác chèn và sắp xếp lại nếu cần theo các quy tắc đã xác định trước.
Giải thuật: Mô hình dịch đơn giản trên cơ sở cụm từ Anh – Việt
Nhập: câu tiếng Anh (mà thông tin đã có trong bảng cụm từ hoặc bảng từ).
Xuất: câu tiếng Việt đã được dịch.
Phương pháp:
− Gắn nhãn từ loại cho các từ của câu nhập
− Phân tích cú pháp và phân đoạn câu nhập
− Tìm cụm từ tương ứng trong bảng cụm từ, nếu so trùng cụm từ thì lấy ra cụm từ
tiếng Việt tương ứng. Trong trường hợp không tìm được cụm từ tương ứng thì tìm
từ trong bảng từ và lấy từ tiếng Việt tương ứng. Nếu không tìm thấy thì báo lỗi.
− Sắp xếp lại câu dịch cho phù hợp với cấu trúc cú pháp của câu tiếng Việt
Câu tiếng Anh
Gắn từ loại, phân tích cú
pháp và phân đo
ạn câu
Câu ti
ếng Anh đ
ã phân tích
Kho ngữ liệu cho
d
ịch máy
Hình 10 : Giai đoạn ứng dụng
4. KẾT QUẢ THỰC NGHIỆM
4.1 Tiêu chuẩn đánh giá
Bài báo này sử dụng tiêu chuẩn đánh giá của Och và Ney năm 2003 [8] trong đối
sánh từ (WA: Word-Alignment). Och và Ney đưa ra ba tiêu chuẩn để đánh giá chất lượng
WA là Recall, Precision và AER (Alignment Error Rate) theo các công thức sau:
Recall = Precision = AER(S,P,A) = 1 -
Trong đó:
A = {(j, a
j
) | a
j
>0}
S : Đối sánh chắc chắn cho các trường hợp đối sánh không nhập nhằng,
P : Có khả năng đối sánh,
Tập các cặp câu lấy để đối sánh bằng tay được lấy ngẫu nhiên từ ngữ liệu huấn
luyện. Để khách quan sẽ có hai người đánh giá với các kết quả tương ứng là S1, S2, P1,
P2 và kết quả tổng hợp S và P được tính theo công thức:
P = P
1
∪ P
2
và S = S
1
∩ S
2
4.2 Kết quả
Bài báo sử dụng bộ ngữ liệu bao gồm bộ từ điển bách khoa - Heinemann, 2003
(The Fahasa/Heinemann Illustrated Encyclopedia), Penn Treebank và các câu chuyên
song ngữ.
Kết quả đối sánh từ bằng Giza++
Anh -Anh Anh - Viet
Ngữ liệu
Gốc đảo
danh từ
Gốc Phân đoạn
từ
Phân đoạn
và đảo
Ghi chú
| A
∩
S |
| S |
| A
∩
P |
| A |
| A
∩
S | + |A
∩
P|
| A | + | S |
và tính
từ
1
Penn Treebank,
8827 cặp câu
99,99%
99,1% - - -
Tính trực
tiếp
2
Encyclopedia,
6118 cặp câu
- - 59,1%
68,3% 79,2% [10]
3
Story, 10014 cặp
câu
- - 54,5%
70,5% 84,7% [10]
5. KẾT LUẬN
Sử dụng tri thức ngôn ngữ tiếng Việt để sắp xếp trật tự từ cho câu tiếng Anh theo
trật tự từ của câu tiếng Việt trước khi đối sánh từ bằng Giza++ (như đã mô tả trong mục
3.2) cho kết quả rất khả quan. Việc sắp xếp trật tự từ trong câu tiếng Anh theo tiếng Việt
không những đạt kết quả cao trong đối sánh từ, mà còn cho kết quả cao trong rút trích
cụm danh từ song ngữ Anh-Việt. Tuy nhiên để có sự đánh giá chính xác hơn, mô hình đề
xuất cần thực nghiệm trên bộ ngữ liệu lớn hơn với các ngữ cảnh khác nhau (khoảng
500.000 cặp câu). Công việc này là bước tiếp theo trong nghiên cứu của chúng tôi trong
thời gian tới. Kết quả của nghiên cứu của bài báo cũng có thể ứng dụng cho các cặp ngôn
ngữ khác, các nghiên cứu và các ứng dụng dựa trên ngữ liệu song ngữ như:
- Ứng dụng trong bài toán rút trích cụm danh từ, cụm động từ, cụm giới từ,…
- Xây dựng các ngữ liệu song ngữ mức cụm từ cho các mô hình dịch máy thống kê,
ví dụ, các mô hình nhận biết tiếng nói,…
6.
TÀI
LIỆU
THAM
KHẢO
[1] H.Cunningham, D.Maynard, K.Bontcheva and V.Tablan (2002), “GATE: A
framework and graphical development environment for robust NLP tools and
applications” Proceedings of The 40th Anniversary Meeting of the Association
for Computational Linguistics.
[2] David Yarowsky và Grace Ngai, (2001). “Inducing Multilingual POS Taggers and
NP Bracketers via Robust Projection across Aligned Corpora”. Johns Hopkins
University Baltimore, MD 21218, USA.
[3] Ellen Riloff, Charles Schafer and David Yarowsky, “Inducing Information
Extraction Systems for New Languages via Cross-Language Projection”, In
Proceedings of the 19th International Conference on Computational Linguistics
(COLING 2002)
[4] D.Dien, H.Kiem, T.Ngan, X.Quang, Q.Hung, P.Hoi, V.Toan. (2002) “Word
alignment in English – Vietnamese bilingual corpus”, Proceedings of
EALPIIT’02, Hanoi, Vietnam, pp. 3-11.
[5] Đinh Điền (2003), “Mô hình học luật chuyển đổi từ ngữ liệu song ngữ cho hệ dịch
tự động Anh-Việt”, Luận án tiến sĩ, Đại học Quốc gia Tp.HCM.
[6] Diệp Quang Ban, Ngữ Pháp Tiếng Việt, Nhà xuất bản giáo dục, 2004.
[7] D.Marcu and W.Wong, 2002, “A phrase-based, joint probability model for
statistical machine translation”. In Proc, Conf, on Empirical Methods for Natural
Language Processing, pages 133-139, Philadelphia, PA, July.
[8] Hieu Chi Nguyen, Tuoi Thi Phan, Dung Xuan Nguyen (2007), “Learning Transfer
Rules of Base Noun Phrases from Bilingual Corpus”, Proceeding of The 10th
International Oriental COCOSDA 2007 Conference -O-COCOSDA’07, pp.96-
101.
[9] Hố Lê, Cú pháp tiếng Việt, Nhà xuất bản Khoa học xã hội Hà nội, 1992.
[10] Franz Josef Och, Herman Ney, “A Systematic Comparision of Various Statistical
Alignment Models”. Association for Computational Linguistics, 2003.
[11] Kenji Yamada and Kevin Knight, “A Syntax-based Statistical Translation
Model”, In Proc, of the 39th Annual Meeting of ACL, Nancy, France, 2001.
[12] S.J.Ker and J.S.Chang (1997), “A Class-based Approach to Word Alignment”,
Computational Linguistics, Vol 23, No.2, p.313-343.
[13] Nguyễn Kim Thản, Nghiên cứu ngữ pháp tiếng Việt, NXB Giáo dục, 1997.
[14] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà nội,
1999.
[15] P.Koehn, F.J.Och, and D.Marcu. “Statistical phrase-based translation”. In Proc, of
the Human Language Technology Conf. (HLT-NAACL), pp.127-133, Edmonton,
Canada, May-June 2003.
[16] Philipp Koehn, “Noun Phrase Translation”, Ph.D. dissertation, University of
Southern California, 2003.
[17] Rebecca Hwa, “Breaking the resource bottleneck for multilingual processing”.
University of Endinburgh IGK Summer School September 6, 2004.
[18] Ruslan Mitkov, Computational Linguistics, The Oxford University Press, First
Published, 2003.
[19] Tuong Hung Nguyen, “The structure of the Vietnamese Noun Phrase”, Ph.D.
dissertation, Boston University Graduate School of Arts and Sciences, 2004.
[20] N.P.Thai and A.Shimazu (2006), “Improving Phrase-Based SMT with Morpho-
Syntactic Analysis and Transformation”, Proceedings of the 7th Conference of the
Association for Machine Translation in the Americas, pages 138-147, Cambridge,
August.