Tải bản đầy đủ (.pdf) (8 trang)

Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (867.3 KB, 8 trang )

TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM

SỐ 01 THÁNG 10 NĂM 2013

KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ”
TRONG DỊCH TỰ ĐỘNG HOA – VIỆT
Trần Thanh Phƣớc, Trần Văn Thọ*
TÓM TẮT
Cấu trúc “之前/之后”là dạng ngữ pháp thƣờng gặp trong tiếng Hoa ở cả văn nói và văn viết. Trong dịch tự
động thống kê Hoa – Việt, các hệ thống dịch máy thƣờng dịch sai ngữ nghĩa và trật tự từ của cấu trúc ngữ pháp
này. Trong bài báo này, chúng tơi sẽ trình bày phƣơng pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại
cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tơi
tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt. Chúng tôi đã thực
nghiệm phƣơng pháp này trên ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000
mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian của tiếng Hoa và kết quả điểm BLEU dịch
Hoa-Việt đạt đƣợc là 47,23 so với 14,15 của Google Translator cho những câu tiếng Hoa có chứa cấu trúc này.
ABSTRACT
Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written. InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about
semanticand word orderofthisgrammatical structure. In this paper, we will present a methodto fixthe abovewrong
translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and
thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto
Vietnamese. We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and
80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach
the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator
forChinesesentencescontainingthese structures.

1. GIỚI THIỆU
Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chƣa thấy cơng bố chính thức ngoại trừ
Google Translator đã có thực hiện thơng qua
ngơn ngữ trung gian là tiếng Anh. Việc dịch
Hoa-Việt-Hoa ở các wesbite khác (nhƣ


EVTrans[11], website dichhay.com[12], ...)
đều dựa trên Google Translator. Chất lƣợng
dịch Hoa – Việt - Hoa theo cách thức bắc cầu
nhƣ thế này sẽ cho ra kết quả dịch thấp do kết
quả dịch Hoa-Việt phải chịu sai sót qua hai lần
dịch (từ Hoa sang Anh và từ Anh sang Việt).
Trong nghiên cứu này, chúng tôi sẽ dịch tự
động trực tiếp từ tiếng Hoa sang tiếng Việt
theo phƣơng pháp thống kê dựa trên kho ngữ
liệu song ngữ Hoa-Việt (Statistical Machine
Translation). Chất lƣợng dịch tự động Hoa Việt cho ra kết quả tƣơng đối tốt do tiếng Hoa
và Việt cùng loại hình đơn lập nên có một số
đặc điểm ngữ pháp giống nhau. Tuy nhiên,
trong một số cấu trúc đặc biệt của ngữ pháp
tiếng Hoa, hệ thống lại cho ra kết quả dịch
không mong muốn. Một trong những cấu trúc
đặc biệt này là cấu trúc “之前/之后” (sẽ trình
*ThS. Trần Thanh Phƣớc – Khoa CNTT
- Trƣờng ĐH Công nghiệp Thực phẩm Tp.HCM

bày ở phần 2), gây ra các lỗi nhƣ: dịch sai
nghĩa, sai trật tự từ,...
Để khắc phục các cấu trúc ngữ pháp đặc
biệt nói trên của tiếng Hoa đã có nhiều phƣơng
pháp khác nhau và một trong những phƣơng
pháp đó là khử mơ hồ ngữ nghĩa. Ví dụ trong
tiếng Hoa, từ 的 rất thƣờng xuất hiện trong cả
văn nói cũng nhƣ viết và đƣợc dịch sang các
ngôn ngữ khác với nhiều nghĩa khác nhau tùy
vào ngữ cảnh trƣớc và sau của nó. Vì vậy,

nhóm tác giả Pi-Chuan Chang, Dan Jurafsky
và Christofer D.Manning của trƣờng đại học
Stanford đã giải quyết vấn đề này theo cách
khử mơ hồ nghĩa của từ “的”[6]. Chính sự mơ
hồ nghĩa này là nguyên nhân gây ra lỗi dịch dù
ngay cả trong các mơ hình dịch thống kê theo
ngữ (Phrase-Based SMT). Theo [6], dựa vào
ngữ pháp từ 的, nhóm tác giả đã chia từ 的 ra
thành 5 lớp riêng biệt. Tƣơng ứng với mỗi
phân lớp, nhóm tác giả đã tách các ngữ đứng
trƣớc và sau từ 的, đánh nhãn từ 的 theo từng
lớp phân biệt; sau đó dựa vào cấu trúc ngữ
pháp của từng phân lớp, nhóm tác giả đã đảo

81


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM
trật tự các ngữ đứng trƣớc và sau từ 的 . Kết
quả thử nghiệm với MT02[6] (878 câu), với hệ
cơ sở (Baseline)[5] của hệ dịch Hoa-Anh cho
kết quả điểm BLEU là 32.51 và sau khi khử
mơ hồ nghĩa từ 的 thì điểm BLEU tăng thêm
1.24 điểm.
Trong bài báo này, chúng tôi cũng sẽ sử
dụng cùng cách tiếp cận này nhƣng áp dụng
cho cấu trúc “之前/之后 ”. Cấu trúc này cũng
xuất hiện thƣờng xuyên trong các văn bản
tiếng Hoa và tùy vào ngữ đứng trƣớc hoặc sau
của chúng mà cấu trúc này sẽ cho ra các ý

nghĩa khác nhau. Đây chính là nguyên nhân
gây ra các lỗi sai về nghĩa và sai về trật tự từ
khi chuyển ngữ Hoa - Việt. Để khử mơ hồ
nghĩa cấu trúc này chúng tôi chia chúng ra
thành các loại khác nhau, cụ thể là cấu trúc “之
前” chia làm 3 loại, cấu trúc “之后” chia làm 3

TRẦN THANH PHƢỚC

loại. Tƣơng ứng với từng loại, chúng tôi sẽ
biến đổi từ và đảo trật tự từ trong ngữ đứng
trƣớc cấu trúc này trƣớc khi cho qua hệ thống
huấn luyện và dịch.
2. PHÂN LOẠI CẤU TR C “之前/之后”
Cấu trúc này dùng để biểu thị sớm hay
muộn so với một mốc thời gian nào đó hay
trƣớc hoặc sau một địa điểm nào đó. Cách
dùng này thƣờng thấy trong văn viết. Từ “前”
có nghĩa gốc là “trƣớc”; từ “后” có nghĩa gốc
là “sau”. Khi kết hợp với từ “之” tạo thành “之
前 - 之后”. Tùy vào ngữ cảnh mà cụm từ “之
前 - 之后” sẽ có nghĩa khác nhau.
2.1 Cấu trúc 之前
Cấu trúc này sẽ có các nghĩa sau:

“Phía trước”: Nếu ngữ đứng trƣớc “之前” là danh từ hoặc cụm danh từ

“Trước”: Nếu ngữ đứng trƣớc “之前” thuộc phạm trù chỉ thời gian.

“Trước khi”: Nếu ngữ đứng trƣớc “之前” là động từ


2.2. Cấu trúc 之后
Cấu trúc “之后” gồm các nghĩa sau:
“Phía sau”: Nếu ngữ đứng trƣớc “之后” là danh từ hoặc cụm danh từ

“Sau”: Nếu ngữ đứng trƣớc “之后” thuộc phạm trù chỉ thời gian.

82


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM

TRẦN THANH PHƢỚC

“Sau khi”: Nếu ngữ đứng trƣớc “之后” là động từ

3. KHỬ MƠ HỒ NGHĨ CẤU TR C “
之前/之后 ”
Trong hệ dịch máy thống kê Hoa-Việt, khi
gặp câu có cấu trúc “之前/之后 ”, hệ thống sẽ
dịch sai về ngữ nghĩa và trật tự từ của cấu trúc
này. Để khắc phục các lỗi này, chúng tơi sẽ
tiền xử lý các câu có cấu trúc nhƣ thế trƣớc khi
đƣa vào hệ thống dịch máy. Đầu tiên, tách ngữ
đứng trƣớc chúng (ngữ P); sau đó chúng tơi sử
dụng phƣơng pháp Maximum Matching[4] trên
từ điển 80.000 từ để tách từ trong ngữ P. Dựa
vào từ điển từ loại động từ, từ loại chỉ thời gian
để phân loại ngữ P và đƣa ra các phƣơng pháp
xử lý cho từng trƣờng hợp cụ thể (hình 1).

3.1 Ngữ P chỉ chứa từ loại chỉ thời gian:

“之前/之后” đƣợc dịch là “trƣớc sau”

“之前” đƣợc chuyển đổi thành
“trƣớc”; “之后” đƣợc đổi thành “sau”


Đảo trật tự: “Trƣớc sau” đƣợc chuyển
ra trƣớc ngữ P (hình 2).
3.2 Ngữ P chứa từ chỉ thời gian, chứa
cụm động từ :

“之前/之后” đƣợc dịch là “trƣớc
khi sau khi”

“之前” đƣợc chuyển đổi thành “trƣớc
khi”; “之后” đƣợc đổi thành “sau khi”

Đảo trật tự: „trƣớc khi sau khi” đƣợc
chuyển đến vị trí sau từ chỉ thời gian, trƣớc
cụm động từ (hình 3)
3.3 Ngữ P chứa từ chỉ thời gian, chứa
cụm danh từ:

“之前/之后” đƣợc dịch là “phía
trƣớc phía sau”

Đảo trật tự: “phía trƣớc phía sau” đƣợc
chuyển đến vị trí sau từ chỉ thời gian, trƣớc

cụm danh từ (hình 4)

83


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM

TRẦN THANH PHƢỚC

Hình 1. Lƣu đồ khử mơ hồ nghĩa cấu trúc “之前/之后”

Hình 2. Trƣớc ngữ P chỉ chứa từ chỉ thời gian

Hình 3. Ngữ P chứa từ chỉ thời gian + cụm động từ
84


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM

TRẦN THANH PHƢỚC

Hình 4. Ngữ P chứa từ chỉ thời gian + danh từ
3.4 Ngữ P không chứa từ chỉ thời gian, chứa cụm động từ




“之前/之后” đƣợc dịch là “trƣớc khi sau khi”
“之前” đƣợc chuyển đổi thành “trƣớc khi”; “之后” đƣợc đổi thành “sau khi”
Đảo trật tự: “trƣớc khi sau khi” đƣợc chuyển ra trƣớc ngữ P (hình 5)


Hình 5. Ngữ P chứa động từ
3.5 Ngữ P không chứa từ chỉ thời gian, chứa cụm danh từ



“之前/之后” đƣợc dịch là “phía trƣớc phía sau”
Đảo trật tự: “phía trƣớc phía sau” đƣợc chuyển ra trƣớc ngữ P (hình 6)

Hình 6. Ngữ P khơng chứa từ chỉ thời gian – chứa cụm danh từ
4. KẾT QUẢ THỬ NGHIỆM VÀ THẢO
LUẬN
Chúng tôi đã thực hiện hai thử nghiệm sau:

Thử nghiệm 1: Dùng 10.000 cặp câu
song ngữ tự tạo; chủ yếu đƣợc lấy từ các quyển
sách dạy tiếng Hoa[7][8]; các website diễn đàn
tiếng Hoa[9][10] ; trong đó 9.000 câu dành cho

(dev). Chúng tơi sử dụng tập ngữ liệu này
thực hiện các thử nghiệm sau:

Thử nghiệm dịch tự động với hệ SMT
cơ sở (SMT Baseline)[5]: Không xử lý cấu trúc

Thử nghiệm dịch tự động với hệ SMT
cơ sở [5] đã qua tiền xử lý cấu trúc.
85



TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM
Trong 500 câu test có 19 câu dạng cấu
trúc. Điểm BLEU[5] cơ sở: 47,58; Điểm
BLEU có xử lý cấu trúc: 48,85 (tăng 1,07).

Thử nghiệm 2: Để việc đánh giá kết
quả một cách trực quan, chúng tôi tiến hành
thử nghiệm bằng cách sử dụng 4 câu tiếng Hoa
có cấu trúc “之前/之后” trong bài 41 của sách
“301 Câu Đàm Thoại Tiếng Hoa – Tập 2”[3]
và trong bài 2 của sách “Giáo Trình Ngữ Pháp
Tiếng Hoa”[2]. Tổng cộng 4 câu này đƣợc dịch
qua ba hệ thống: Dịch cơ sở dùng tool
Moses[5], dịch sau khi đã phân loại cấu trúc
(dùng tool Moses[5]) và dịch bởi Google

Translator. Kết quả dịch đƣợc thể hiện
ở bảng 1, hình 7.
Cả ba hệ thống: Dịch đã phân loại, dịch cơ
sở và dịch bởi Google đều chứa những lỗi về
dịch sai từ. Tuy nhiên, chúng tôi không bàn về
những lỗi này. Ở đây chúng tôi chỉ quan tâm
đến những lỗi do cấu trúc “之前/之后” gây ra.


TRẦN THANH PHƢỚC

Những phần tô màu đỏ cho thấy các lỗi của
dịch cơ sở và Google. Có hai lỗi chủ yếu khi
dịch cấu trúc này: dịch sai nghĩa và sai trật tự

từ. Ví dụ nhƣ ở câu số 4: “早上起床以后,你
做哪些事?” Trong ngữ cảnh này, từ “之后”
dịch đúng sẽ là “sau khi”; trong khi đó dịch cơ
sở cho kết quả là “sau này” và Google cho kết
kết quả là “hơm sau” (sai ngữ nghĩa). Bên cạnh
đó, ngữ “早上起床以后” dịch đúng sẽ là “sáng
sớm sau khi thức dậy”; trong khi đó dịch cơ sở
cho kết quả là “sáng sớm thức dậy sau này,” và
Google cho kết quả là “thức dậy vào sáng hôm
sau” (sai trật tự từ). Ở đây, chúng tôi không đi
sâu vào nguyên nhân dịch sai của hệ thống
Google, vì hệ thống này phải trải qua hai lần
dịch khi dịch câu Hoa – Việt; lỗi ở câu tiếng
Việt bao gồm lỗi khi dịch từ Hoa sang Anh và
từ Anh sang Việt. Trong phần này, chúng tôi
chỉ bàn luận về nguyên nhân dịch sai của dịch
cơ sở.

Bảng 1. So sánh kết quả dịch qua ba hệ thống.

Hình 7. Hình chụp bản dịch google ngày 15 8 2 13.

Trong ngữ liệu huấn luyện của hệ dịch cơ sở, các từ trong câu 4 sẽ đƣợc dịch tƣơng ứng nhƣ sau
(hình 8):
86


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM

TRẦN THANH PHƢỚC


Hình 8. Kết quả dịch cơ s
Trong kho ngữ liệu huấn luyện, từ “之后”
Theo nhƣ phân loại ở phần 2, do ngữ “早上
đƣợc dịch là “sau này” có xác suất cao hơn
起床” (đứng trƣớc “之后”) có chứa từ chỉ thời
đƣợc dịch thành “sau khi” hoặc “sau”. Do đó,
gian (早上) và động từ (起床) nên trƣớc khi
hệ thống dịch cơ sở sẽ dịch “之后” thành “sau
cho quả hệ thống dịch cơ sở, chúng tôi đã khử
này”. Kết quả này không đúng với ý nghĩa của
mơ hồ nghĩa cấu trúc của câu này bằng cách
ngƣời dịch, gây ra hai lỗi: sai nghĩa, sai trật tự
biến đổi và đảo trật tự từ (hình 9).
từ.

Hình 9. Biến đổi và đảo trật tự từ
Tƣơng ứng với câu sau khi đã biến đổi và
đảo trật tự từ, kết quả dịch có chất lƣợng cao
hơn nhiều so với câu dịch cơ sở và Google,
gần đúng với câu do con ngƣời dịch hơn.
5. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Trong bài báo này, chúng tôi đã khử mơ hồ
ngữ nghĩa của cấu trúc “之前/之后” trong
tiếng Hoa bằng cách phân loại chúng để từ đó
có thể biến đổi cũng nhƣ đảo trật tự từ trong
ngữ đứng trƣớc cấu trúc này. Việc biến đổi và
đảo trật tự từ giúp cho việc đối chiếu, gióng
hàng giữa các từ trong câu tiếng Hoa và tiếng
Việt đƣợc tốt hơn, chính xác hơn và kết quả

thử nghiệm trên hệ dịch thống kê Hoa-Việt cho
thấy điểm BLEU cao hơn so với dịch cơ sở và
Google Translator. Trong tƣơng lai, chúng tôi
sẽ áp dụng cách tiếp cận này để xử lý các cấu
trúc mơ hồ khác trong tiếng Hoa để góp phần
nâng cao chất lƣợng dịch tự động Hoa-Việt.

TÀI LIỆU THAM KHẢO
[1] Đinh Điền, (2006), Giáo tr nh xử lý ngôn
ngữ tự nhiên, NXB Đại Học Quốc Gia, 2006.
[2] Tô Cẩm Duy (2008), Giáo tr nh Ngữ pháp
tiếng Hoa, NXB Trẻ.
[3] Học Viện Ngôn Ngữ Bắc Kinh, (2010), 301
Câu Đàm Thoại Tiếng Hoa – Tập 2, NXB
Khoa Học Xã Hội.
[4] Pak-kwong and Chorkin Chan, (1996),
Chinese Word Segmentation based on
Maximum Matching and Word Binding Force,
in proceedings of 16th conference on
Computational linguistics – volume 1 (pp. 200
– 203).
[5] Philipp Koehn, (2010), Statistical Machine
Translation System – User Manual and Code
Guide, Cambdrige University Press.
[6]
Pichuan
and
Jurafsky,
(2009),
Disambiguating “DE” for Chinese – English

Machine Translation, in proceedings of the

87


TẠP CHÍ KHOA HỌC CƠNG NGHỆ VÀ THỰC PHẨM
fourth workshop on statistical machine
translation, (pp. 215 - 223).
[7] Học viện ngôn ngữ Bắc Kinh, (2010), 301
câu đàm thoại đàm thoại tiếng Hoa – Tập 1,
NXB Khoa học xã hội.
[8] Hữu Lý – Tuấn Anh, (2008), 3.000 Câu
đàm thoại tiếng Hoa, NXB Giao thông vận tải.

TRẦN THANH PHƢỚC

[9] Tiếng_hoa_online_DTT,
www.dantiengtrung.com.vn
[10]Học_tiếng_Hoa_online, www.tienghoa.net
[11]Dịch_tự_động_online,
/>[12]Dịch_tự_động_online,
/>
88



×