Một phương pháp dịch từ mới trong dịch máy Hoa-Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (596.99 KB, 6 trang )

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Một Phương Pháp Dịch Từ Mới Trong
Dịch Máy Hoa-Việt
Trần Thanh Phước

Nguyễn Thị Thanh Thảo
Khoa Công nghệ Thông tin
Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM

Khoa Công nghệ Thông tin
Trường Đại Học Tôn Đức Thắng

Đinh Điền

Trịnh Thanh Duy

Khoa Kinh tế Kỹ thuật
Trường Bách Khoa Sài Gịn

Khoa Cơng nghệ Thơng tin
Trường Đại Học Khoa Học Tự Nhiên, TP.HCM

Tóm tắt — Từ mới (UKW: Unknown word) là vấn đề
hiển nhiên trong dịch máy nói chung và trong dịch

thống kê Hoa-Việt nói riêng. Hơn nữa, so với các ngôn
ngữ giàu tài nguyên khác như tiếng Hoa, Anh thì kho
ngữ liệu song ngữ Hoa-Việt cịn hạn chế, vì vậy, UKW
trong dịch máy Hoa-Việt lại càng nhiều hơn. Mặt khác,
ranh giới từ trong tiếng Hoa và tiếng Việt không được
phân định bởi khoảng trắng, phân đoạn từ thường được
thực hiện đầu tiên trong dịch máy Hoa, Việt sang các
ngôn ngữ khác hoặc ngược lại. Việc phân đoạn từ làm
tăng chất lượng dịch chung cuộc nhưng lại phát sinh
nhiều UKW. Chúng tôi chia UKW làm hai phần là
UKW dạng thực thể có tên và UKW khơng thuộc thực
thể có tên (NNE-UKW). Trong bài báo này, chúng tơi sẽ
trình bày một phương pháp dịch NNE-UKW dựa vào
việc phân rã từ và mơ hình ngơn ngữ. Kết quả thử
nghiệm cho thấy phương pháp của chúng tôi đã tăng
điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn
từ.

Không giống như các ngôn ngữ phương Tây (điển
hình là tiếng Anh), từ trong tiếng Hoa và tiếng Việt
không được phân định bởi khoảng trắng. Một câu
tiếng Hoa bao gồm một dãy các ký tự nằm liên tiếp
nhau và khơng có khoảng trắng giữa các ký tự này.
Trong tiếng Việt, các từ chính tả được cách với nhau
bởi một khoảng trắng, dấu câu nằm liền sau từ chính
tả. Do đó, việc phân đoạn từ thường được giải quyết
đầu tiên trong dịch máy Hoa, Việt sang các ngôn ngữ
khác. Việc phân đoạn từ làm tăng chất lượng dịch
nhưng thường phát sinh nhiều UKW hơn so với hệ
dịch cơ sở (hệ dịch không phân đoạn từ, xem mỗi ký

tự tiếng Hoa và từ chính tả tiếng Việt là đơn vị độc
lập). Một ví dụ trong ngữ liệu thử nghiệm của chúng
tôi như sau: từ tiếng Hoa 车票 (vé xe: bus ticket) là
một UKW đối với hệ dịch phân đoạn từ nhưng khơng
là UKW trong hệ dịch cơ sở (Hình 1).

Từ khóa — NNE-UKW, unknown word, dịch máy HoaViệt, phân rã từ, mơ hình ngơn ngữ.

I.

GIỚI THIỆU

Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn
và chất lượng của kho ngữ liệu song ngữ. Kho ngữ
liệu càng lớn và càng tinh khiết thì chất lượng của hệ
dịch sẽ càng cao. Để có được ngữ liệu song ngữ cho
hệ dịch máy thống kê (SMT: statistical machine
translation), bên cạnh phương pháp thu thập bằng tay
tốn kém thì phương pháp rút trích tự động từ các
website song ngữ ngày càng được sử dụng rộng rãi.
Phương pháp rút trích tự động này được thực hiện
bằng cách dị tìm các các trang web song ngữ là bản
dịch của nhau. Các trang web song ngữ Hoa-Việt
hoặc Việt-Hoa hiện tại khơng nhiều, và nếu có thì các
bản dịch của nhau thường chưa thực sự song song.
Do đó, việc thu thập tự động ngữ liệu song ngữ HoaViệt từ web hiện nay cịn khó khăn và chất lượng ngữ
liệu thu được thường không cao. Hiện tại, kho ngữ
liệu của hệ thống dù chất lượng khá tốt nhưng số
lượng cặp câu chưa nhiều. Với kho ngữ liệu hạn chế
như thế, thì từ mới (UKW: Unknown word) trong hệ

dịch Hoa-Việt càng hiển nhiên hơn so với các hệ dịch
cho cặp ngơn ngữ giàu tài ngun khác.

ISBN: 978-604-67-0635-9

Hình 1. Một ví dụ về hệ dịch cơ sở (dựa vào ký tự)

Từ 2 câu của ngữ ngữ liệu huấn luyện, chúng ta
có được một gióng hàng ký tự 车 (xe) và 票 (vé)
(chúng tơi khơng quan tâm đến các gióng hàng ký tự
khác). Do đó, ở câu kiểm tra, khi gặp hai ký tự 车 và
票, hệ thống sẽ dịch được chúng. Ngược lại, khi phân
đoạn từ, 2 character 车 và 票 kết hợp thành một từ
duy nhất 车票, hệ thống sẽ không dịch được từ này
do ngữ liệu huấn luyện không tồn tại nó. Do đó,
UKW 车票 sẽ được phát sinh.
Chúng tôi chia UKW tiếng Hoa thành hai loại:
UKW dạng thực thể có tên và UKW khơng thuộc
thực thể có tên (NNE-UKW: Not Named Entity
UKW). Một từ tiếng Hoa có thể là một ký tự có nghĩa
hoặc bao gồm nhiều ký tự kết hợp lại với nhau và
UKW thường là những từ bao gồm nhiều ký tự hợp
lại. Chúng tôi sẽ phân rã UKW thành những từ con
nhỏ hơn và dịch các từ con này. Sau đó, chúng tơi sẽ

206
206

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
chọn ra nghĩa tiếng Việt tốt nhất dựa vào xác suất
đồng xuất hiện của các nghĩa tiếng Việt của các từ
con.

theo kiểu: “A is to B as C is to D”, ví dụ như:
[comfortable : uncomfortable = translatable :
untranslatable] trong tiếng Anh. Nhóm tác giả phát
hiện rằng phương pháp của họ có thể dịch chính xác
đến 80% các UKW khơng thuộc thực thể có tên.
Phương pháp này đã được thử nghiệm trên các cặp
ngôn ngữ như: Pháp-Anh, Đức-Anh và Tây Ban NhaAnh.

Bài báo này được trình bày như sau: ở Phần 2,
chúng tơi sẽ trình bày các cơng trình liên quan đến
bài tốn xử lý UKW trong dịch máy. Phần nhận dạng
cũng như dịch UKW sẽ được trình bày ở Phần 3.
Trong khi đó, ở Phần 4, chúng tôi sẽ mô tả các thử
nghiệm cũng như một số thảo luận. Phần kết luận sẽ
được trình bày ở Phần 5.
II.

CƠNG TRÌNH LIÊN QUAN

Hiện nay có rất nhiều nghiên cứu với các hướng
tiếp cận khác nhau nhằm dịch lại UKW, nâng cao
hiệu suất dịch máy. Dựa vào phép chính tả của từ,
nhóm tác giả Joao Silva và các đồng sự [1] đã đề xuất
hai phương pháp nhằm khắc phục các UKW, đó là:

phát hiện từ cùng nguồn gốc (cognates’ detection) và
độ tương tự hợp lý (logical analogy) để dịch lại UKW.
Hướng tiếp cận này đã thực hiện thành công cho cặp
ngơn ngữ biến hình Anh - Bồ Đào Nha.
Một hướng tiếp cận khác để xử lý UKW được
thực hiện bởi tác giả Matthias Eck và các đồng sự [2].
Nhóm tác giả này đã tìm các định nghĩa của các
UKW ở ngôn ngữ nguồn và dịch các định nghĩa của
UKW này (thay vì dịch các UKW). Các định nghĩa
của UKW sẽ được rút trích tự động từ các từ điển
trực tuyến và các bách khoa tồn thư, sau đó chúng
được dịch lại qua hệ thống SMT. Kết quả dịch này sẽ
thay thế các UKW ở bản dịch cũ. Phương pháp đã
được các tác giả thử nghiệm trên cặp ngôn ngữ Anh –
Tây Ban Nha. Trong bài báo này, chúng tôi cũng có
áp dụng từ điển trực tuyến để tìm và dịch nghĩa cho
UKW.

Riêng đối với các cặp ngơn ngữ giàu hình thái thì
nhóm tác giả Karunesh Arora và đồng sự [5] đã sử
dụng các kỹ thuật xấp xỉ từ vựng để nhận diện chính
tả cũng như các biến thể của từ trong kho ngữ liệu
huấn luyện. Tất cả UKW trong câu nguồn sẽ được
thay thế bằng các từ biến thể tương ứng được tìm
thấy trong ngữ liệu huấn luyện, điều này đã làm giảm
khá nhiều số lượng UKW trong câu đầu vào. Phương
pháp này được các tác giả thử nghiệm trên cặp ngôn
ngữ Hin Đi - Nhật.
III. PHƯƠNG PHÁP DỊCH NNE-UKW
Chúng tôi phân đoạn từ cho ngữ liệu tiếng Hoa và

tiếng Việt trước khi huấn luyện và dịch bởi công cụ
SMT. Trong thử nghiệm, chúng tôi sử dụng công cụ
Stanfor Segmenter1 để phân đoạn từ tiếng Hoa, công
cụ VnTokenizer2 để phân đoạn từ tiếng Việt, công cụ
MOSES3 để thực hiện huấn luyện và dịch. Kết quả
dịch của SMT tiếp tục được chúng tơi nhận diện
NNE-UKW và dịch lại theo mơ hình ở Hình 2.

Ở khía cạnh khác, tác giả Ruiqiang Zhang và
đồng sự [6] đã dịch lại các UKW bằng cách phân rã
các UKW thành các từ con (subwords). Nhóm tác giả
đã phân rã các UKW tiếng Hoa thành các từ con và
dịch dựa vào các từ con này (subword-based
translation). Từ con là một đơn vị ở giữa ký tự và từ.
Bên cạnh đó, nhóm tác giả cịn phát hiện ra rằng, chất
lượng dịch sẽ tăng đáng kể nếu áp dụng nhận dạng
tên riêng (Named Entity recognition: NER) để dịch
các UKW trước khi áp dụng dịch dựa vào từ con.

Hình 2. Mơ hình dịch NNE-UKW

WordNet và phiên âm quốc tế (IPA) cũng được sử
dụng để xử lý UKW. Khan MD và đồng sự [3] đã sử
dụng hai yếu tố này để dịch UKW trong dịch máy
dựa trên ví dụ (EBMT) từ tiếng Anh sang tiếng
Bangla. Đầu tiên, hệ thống sẽ tìm trong WordNet các
từ tiếng Anh có nghĩa liên quan đến UKW. Từ những
từ có nghĩa liên quan này, hệ thống sẽ chọn ra từ có
nghĩa gần nhất nhất tồn tại trong từ điển Anh-Bangla.
Giả sử như khơng tìm được từ thỏa mãn, hệ thống sẽ

sử dụng phiên âm quốc tế để chuyển ngữ cho UKW.

 Bước 1: Chúng tơi tìm kiếm nghĩa của NNEUKW trên từ điển Hoa-Việt trực tuyến. Chúng tôi
tận dụng sự phong phú từ vựng của từ điển trực
tuyến với mong muốn có thể tìm được nghĩa tiếng
Việt của UKW. Trong thử nghiệm, chúng tôi sử

1

Download tại:
/>2
Download tại:
:8080/demo/?page=resources
3
Download at:
/>
Bên cạnh đó, tác giả Philippe Langlais và các
đồng sự [4] đã sử dụng phương pháp học tương tự để
dịch lại UKW. Khái niệm về sự tương tự được định
nghĩa như sau: [A : B = C : D], thể hiện mối quan hệ

207

207

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
dụng từ điển Hoa-Việt trực tuyến từ trang web

“ để tra cứu các
UKW. Ví dụ như từ 咖哩 (món cà ri: curry), từ
này là UKW đối với kho ngữ liệu song ngữ HoaViệt nhưng lại là từ vựng có trong từ điển HoaViệt trực tuyến.

𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖2 ) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖(𝑛𝑛−1) )

Nghĩa tiếng Việt tốt nhất là nghĩa có tổng xác suất
lớn nhất. Hình 3 minh họa quá trình phân rã và dịch
UKW 手提包 (túi xách tay: handbag), từ này không
tồn tại trong từ điển Hoa-Việt trực tuyến.

 Giả sử phương pháp sử dụng từ điển ở bước (1)
vẫn không giải quyết được UKW, hệ thống phân rã
UKW thành các từ con và dịch nghĩa của các từ
con này. Phương pháp phân rã và dịch từ con như
sau:
─ Phân rã một UKW thành các từ con dựa vào
từ điển. Từ con ở đây có thể là một từ gồm
nhiều ký tự (hiển nhiên là nhỏ hơn UKW), cũng
có thể là một ký tự riêng biệt. Một ký tự tiếng
Hoa đều có nghĩa tương ứng ở tiếng Việt và
chúng ta hồn tồn có thể xem ký tự tiếng Hoa
là một từ có nghĩa độc lập. Từ tiếng Hoa là vô
hạn nhưng ký tự tiếng Hoa là hữu hạn và được
lưu trữ trong từ điển. Do đó, khi đã phân rã
UKW đến mức ký tự thì vấn đề UKW là khơng
cịn.

Hình 3. Minh họa phân rã và dịch NNE-UKW

“túi xách tay” là từ có tổng xác suất 2-gram cao nhất,
vì vậy từ này sẽ thay thế UKW 手提包 trong bản
dịch tiếng Việt cuối cùng.
IV.

─ Bước kế tiếp, hệ thống sẽ dịch các từ con này
dựa vào từ điển. Một từ con có thể có nhiều
nghĩa, có nghĩa phổ biến và có một số nghĩa ít
xuất hiện. Để hạn chế không gian từ phát sinh,
trong thử nghiệm, chúng tôi chỉ chọn nghĩa đầu
tiên trong từ điển. Sau bước này, một tập hợp
nghĩa của các từ con sẽ được phát sinh.

A. Ngữ liệu thử nghiệm
Kho ngữ liệu thử nghiệm của chúng tôi bao gồm
30.000 cặp căp Hoa-Việt được lấy từ các sách dạy
đàm thoại tiếng Hoa, các diễn đàn tiếng Hoa trực
tuyến và các website song ngữ Hoa-Việt. Cụ thể như:
sách “301 câu đàm thoại tiếng Hoa” website
“”, website song
ngữ “”, ... Chúng tôi sử
dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra
và 5% cho điều chỉnh tham số. Các kho ngữ liệu huấn
luyện được huấn luyện bởi công cụ Moses với các
tham số mặc định. Chúng tôi sử dụng ngữ liệu của
nhóm VLSP với 212.454 câu tiếng Việt để huấn
luyện mơ hình ngơn ngữ tiếng Việt.

─ Từ tập hợp nghĩa của các từ con, hệ thống
phát sinh tập hợp nghĩa tiếng Việt bằng cách kết

hợp không theo thứ tự tất cả các nghĩa của các
từ con của một UKW. Sau bước này, chúng ta
đã có được tập hợp nghĩa tiếng Việt của UKW.
─ Kế tiếp, hệ thống lọc ra nghĩa tốt nhất từ tập
hợp nghĩa của các từ con. Giả sử rằng từ wi (wi
= wi1wi2...win) là một trong các nghĩa tiếng Việt
của UKW, với wij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) là một nghĩa tiếng
Việt của từ con và n là tổng số từ chính tả trong
từ wi. Chúng tơi sử dụng mơ hình ngơn ngữ ngram được huấn luyện trên ngữ liệu tiếng Việt
như sau: (công thức (1)).
𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 )
… 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 … 𝑤𝑤𝑖𝑖(𝑛𝑛−1) )

B. Thực hiện thử nghiệm
Chúng tôi sử dụng các ngữ liệu này để thực hiện
ba thử nghiệm sau:
 Hệ dịch cơ sở (1): chúng tơi xem ký tự tiếng
Hoa và từ chính tả tiếng Việt như những đơn vị
độc lập có nghĩa. Chúng tơi chèn một khoảng
trắng vào giữa các ký tự tiếng Hoa và chèn một
khoảng trắng vào giữa dấu câu và từ chính tả
trong tiếng Việt.
 Hệ dịch phân đoạn từ (2): chúng tôi phân đoạn
từ tiếng Hoa bằng công cụ Stanford Segmenter,
và cơng cụ VnTokenizer cho tiếng Việt.
 Sau đó, chúng tôi tiến hành dịch ngữ liệu kiểm
tra tiếng Hoa bằng công cụ Moses cho cả hai
trường hợp (1) và (2). Kết quả dịch của trường
hợp (2) tiếp tục được nhận dạng và dịch lại NNEUKW.

(1)

Trong thử nghiệm, chúng tôi sử dụng cơng cụ
SRILM 4 với mơ hình ngơn ngữ 2-gram để chọn ra
nghĩa tiếng Việt phù hợp nhất. Để tránh xác suất 2gram bằng không, chúng tôi tiến hành cộng các xác
suất với nhau thay vì nhân chúng lại (cơng thức (2).
𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 ) +
4

THỬ NGHIỆM VÀ THẢO LUẬN

(2)

Tùy thuộc vào việc chọn lựa các câu trong ngữ
liệu kiểm tra mà điểm BLEU có giá trị khác nhau.
Hình 4 minh họa điểm BLEU cho cách chọn lựa ngữ

Download tại:
/>l

208
208

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Kết quả dịch NNE-UKW trong 1.500 câu kiểm tra
được trình bày ở Bảng 1.

liệu kiểm tra theo định dạng như sau: mỗi 20 câu
trong kho ngữ liệu thì 18 câu đầu tiên dành cho huấn
luyện, câu thứ 19 cho điều chỉnh tham số và câu thứ
20 cho kiểm tra.

Bảng 1. Độ chính xác của dịch NNE-UKW

Dịch dựa vào từ
điển trực tuyến
Dịch dựa vào từ
con
All NNE-UKW

Bên cạnh đó, chúng tơi cũng đánh giá độ chính
xác của việc dịch NNE-UKW dựa vào công thức 3
như sau:
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 đú𝒏𝒏𝒏𝒏

𝑻𝑻𝑻𝒏𝒏𝒏𝒏 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄

Câu tiếng Hoa
1. 能给我一张
说明书吗？
2. 去美术馆在
这乘车吗？
3. 我想知道票
价从上海到北
京
4. 你喜欢平面
银幕的吗？

5. 越南有很多
传统节日，如
端午节、中秋
节
6. 这件晚装我
要在今晚的宴
会上穿

Dịch
đúng

Độ chính
xác (P)

95

60

63,15%

1220

599

49,09%

1315

659

50.11%

C. Thảo luận
Với kết quả thử nghiệm như trên, chúng tôi nhận
thấy rằng kết quả dịch trong hệ dịch phân đoạn từ
thường tốt hơn so với hệ dịch cơ sở. Tuy nhiên, hệ
dịch phân đoạn từ lại xuất hiện UKW nhiều hơn. Bên
cạnh đó, chất lượng của hệ thống dịch lại UKW của
chúng tôi thường tốt hơn so với trường hợp dịch phân
đoạn từ. Điều này cũng dễ hiểu vì chất lượng của hệ
dịch lại UKW đã bao gồm chất lượng của hệ dịch
phân đoạn từ cộng với chất lượng dịch UKW. Giả sử
kết quả dịch lại sai hoàn tồn thì chất lượng của hệ
dịch lại cũng khơng thấp hơn hệ dịch phân đoạn từ.
Bảng 2 trình bày sáu trường hợp trong ngữ liệu kiểm
tra.

Hình 4. Các kết quả thử nghiệm

𝑷𝑷 𝑷

Tổng
UKW

(3)
Bảng 2. Một số kết quả dịch qua ba hệ thống

Nghĩa đúng
tiếng Việt
Có thể cho tơi

một bản thuyết
minh khơng?
Đi phịng tranh
đón xe ở đây phải
khơng?
Tơi muốn biết giá
vé từ Thượng Hải
đến Bắc Kinh

Hệ dịch cơ sở
Có thể cho tôi 1
tờ cho thấy sách
không ?
Đi tàng mỹ thuật
ở đây đón xe phải
khơng ?
Tơi muốn biết giá
vé từ Thượng Hải
đến Bắc Kinh

Bạn thích loại
màn hình phẳng
khơng?
Việt Nam có rất
nhiều ngày lễ
truyền thống ,
như tết đoan
ngọ , tết trung thu

bạn thích bình

diện bạc mạc
khơng ?
Việt Nam có rất
nhiều
truyền
thống như lễ tết ,
trung
thu
lễ
chương.

Bộ đồ dạ hội này
tôi cần mặc trong
buổi tiệc tối nay

tôi muốn cái này
trang tối nay
chúng tôi mặc

Tất cả hệ dịch đều có lỗi về nghĩa và trật tự từ, tuy
nhiên, chúng tôi không đề cập về những lỗi này. Ở
đây, chúng tôi chỉ tập trung về những lỗi của các hệ
thống khi dịch các câu có chứa NNE-UKW. Hệ dịch

Hệ dịch phân
doạn từ
Có thể cho tơi
một 说明书
khơng ?
Đi 美术馆 ở đây

đi
xe
phải
không ?
Tôi muốn biết 票
价 từ Thượng
Hải đến Bắc
Kinh
bạn thích 平面
của 银幕 khơng ?
Việt Nam có rất
nhiều ngày hội
truyền thống, như
端午节 , 中秋节
Cái này 晚装 tôi
muốn ở tối của
宴会 trên mặc

Hệ dịch lại
NNE-UKW
Có thể cho tơi
một bản thuyết
minh khơng?
đi phịng tranh ở
đây đón xe phải
khơng?
Tơi muốn biết giá
vé từ Thượng Hải
đến Bắc Kinh
Bạn thích mặt

bằng của màn
hình khơng?
Việt Nam có rất
nhiều ngày hội
truyền thống, như
tết đoan ngọ ,
trung thu liên
hoan
Cái này tối hóa
trang tơi muốn ở
tối của yến hội
trên mặc

cơ sở đã dịch được tất cả 6 trường hợp, nhưng kết quả
dịch của hệ dịch này thường khơng chính xác trừ câu
số 3 (nhận dạng, dịch và đảo trật tự đúng hai ký tự 票
/“vé” và 价/ “giá”). Trong những trường hợp còn lại,

209
209

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
các ký tự trong câu tiếng Hoa đều tồn tại trong kho
ngữ liệu huấn luyện, vì thế hệ dịch cơ sở đã chọn
nghĩa tiếng Việt có xác suất cao nhất làm kết quả dịch.
Tuy nhiên, những nghĩa này thường bị sai. Điển hình
như từ tiếng Hoa 说明书 ở trường hợp 1, nghĩa dịch

đúng của từ này là “bản thuyết minh”. Tuy nhiên, hệ
dịch cơ sở lại dịch thành “cho thấy sách”. Sở dĩ như
vậy là vì nghĩa ký tự tương ứng “明/thấy” và “书
/sách” có xác suất cao nhất trong kho ngữ liệu ở hệ
dịch cơ sở. Các lỗi sai tương tự ở những trường hợp
còn lại.
Ở hệ dịch phân đoạn từ, do tổng số từ trong kho
ngữ liệu của trường hợp này ít hơn so với hệ dịch cơ
Phân
từ

sở nên số lượng gióng hàng từ cũng như khả năng
nhận dạng từ của hệ dịch này kém hơn so với hệ dịch
cơ sở. Và kết quả là hệ dịch này phát sinh nhiều
UKW hơn. Mặc khác, từ trong ngôn ngữ tự nhiên là
tập mở nên dù kho ngữ liệu có lớn đến mức nào đi
nữa cũng khơng thể bao phủ hơn tất cả các từ, vì vậy
việc phát sinh UKW là điều không thể tránh khỏi
trong dịch máy. Kết quả dịch ở trường hợp phân đoạn
từ được dịch lại qua hệ thống của chúng tôi.
Chúng ta tiếp tục thảo luận về sự cải tiến của hệ
thống dịch lại thơng qua các câu ví dụ bên trên. Bảng
3 sẽ minh họa các bước xử lý của hệ dịch lại đối với
những trường hợp ở Bảng 3.

Bảng 3. Minh họa các bước nhận dạng và dịch NNE-UKW

đoạn

1. 能给我

一张说明
书吗？

2. 去美术
馆在这
乘车吗？

3. 我想知道票
价从上海到北
京

Kết quả dịch
phân đoạn
từ

Có thể cho
tơi một 说
明
书
khơng ?

Đi 美术馆
ở đây đi xe
phải không
?

Tôi muốn biết 票
价 từ Thượng
Hải đến Bắc
Kinh

Nhận dạng
NNE-UKW

Có thể cho
tơi một 说
明书/UKW
khơng ?

đi 美术馆
/UKW ở
đây đi xe
phải
không ?

Tôi muốn biết 票
价 /UKW
từ
Thượng Hải đến
Bắc Kinh

Dịch NNEUKW

...说明书...

… 美术
馆…
... phòng
tranh …

… 票价 …

- Dịch dựa
vào từ điển
trực tuyến

- Phân rã UKW
và dịch dựa vào
từ con và mơ
hình ngơn ngữ

...
bản
thuyết
minh ...
Giải thích sơ
lược

- Dịch dựa
vào từ điển
trực tuyến

… giá vé …

Bên cạnh những cải tiến như trên, chúng tôi cũng
phát hiện một số trường hợp dịch lại bị sai. Lỗi sai ở
trường hợp dịch dựa vào từ điển trực tuyến thường là
sai ngữ cảnh. Ví dụ như UKW 平面 (ở câu 4 của
Bảng 2). Theo từ điển thì từ này có nghĩa lần lượt là
“mặt bằng”, “mặt phẳng”, “phẳng”. Hệ thống dịch lại

đã chọn nghĩa “mặt bằng” để thay thế cho UKW. Tuy
nhiên, nghĩa thứ ba “phẳng” mới là sự chọn lựa đúng
cho trường hợp này. Mặc dù nghĩa “mặt bằng” không
phù hợp với ngữ cảnh nhưng nó cũng gần với nghĩa
của từ “phẳng”.

4. 你喜
欢平面
银幕的
吗？
bạn thích
平面 của
银
幕
khơng ?
bạn thích
平
面
/UKW
của 银幕
/UKW
khơng ?
... 平面 ...
银幕 ...
...
mặt
bằng ...
màn
hình ...
Dịch

dựa vào
từ
điển
trực tuyến

5. 越南有很
多传统节
日，如端午
节、中秋节
Việt Nam có
rất nhiều ngày
hội
truyền
thống, như 端
午节 , 中秋节
Việt Nam có
rất nhiều ngày
hội
truyền
thống, như 端
午节 /UKW ,
中秋节/UKW
... 端午节 , 中
秋节
... tết đoan
ngọ, trung thu
liên hoan

6. 这件晚装
我要在今晚

的宴会上穿

- Dịch dựa
vào từ điển
trực tuyến

- 宴会 được
dịch dựa vào từ
điển
- 晚装 được
dịch dựa vào từ
con và mơ hình
ngơn ngữ

Cái này 晚装
tơi muốn ở tối
của 宴会 trên
mặc
Cái này 晚装
/UKW tôi muốn
ở tối của 宴会
/UKW trên mặc
... 晚装 ... 宴
会 ...
...
tối
hóa
trang ... yến
hội ...

từ con này dựa vào từ điển và mô hình ngơn ngữ. Để
hạn chế khơng gian từ phát sinh, chúng tôi chỉ lấy
nghĩa tiếng Việt đầu tiên trong từ điển và kết hợp
không theo thứ tự các nghĩa này lại với nhau. Việc
chọn lựa như vậy có thể bị sai nếu nghĩa đúng của từ
con không phải là nghĩa đầu tiên trong từ điển. Bên
cạnh đó, hệ thống dịch lại sẽ chọn nghĩa tiếng Việt tốt
nhất dựa vào xác suất 2-gram cao nhất. Tuy nhiên ở
một số trường hợp thì xác suất cao nhất khơng đi đơi
với nghĩa tốt nhất. Điển hình như UKW 晚装 ở câu 6
Bảng 2 có nghĩa là “đồ dạ hội” hay “trang phục dạ hội”
nhưng xác suất 2-gram cao nhất tương ứng của từ này
là “tối hóa trang”.

Đối với các UKW khơng tồn tại trong từ điển,
chúng tôi phân rã chúng thành các từ con và dịch các

210
210

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
V.

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Trong bài báo này, chúng tôi đã đề xuất một
phương pháp dịch NNE-UKW trong dịch máy HoaViệt dựa vào từ điển và mơ hình ngôn ngữ. Kết quả
thực nghiệm cho thấy hệ dịch lại của chúng tôi đã cho
chất lượng dịch tốt hơn so với hệ dịch cơ sở, đã dịch
đúng nhiều UKW của trường hợp phân đoạn từ, góp
phần làm tăng hiệu suất dịch máy. Bên cạnh đó,
chúng tơi cũng thấy rằng hệ dịch lại UKW còn nhập
nhằng về nghĩa ở cả hai trường hợp: dịch dựa vào từ
điển trực tuyến cũng như dịch dựa vào phân rã thành
từ con.

[1]

[2]

[3]

[4]

Trong tương lai, chúng tơi sẽ tích hợp thêm thơng
tin từ đồng nghĩa và mơ hình ngơn ngữ vào hệ thống
để khắc phục các lỗi của trường hợp dịch dựa vào từ
điển trực tuyến. Đối với phương pháp dịch dựa vào
phân rã thành từ con, chúng tôi sẽ điều chỉnh phân rã
cách phân rã NNE-UKW cũng như mở rộng không
gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp
nhất.

[5]

[6]

211
211

Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso,
Dealing with unknown words in statistical machine
translation, in proceedings of the Eight International
Conference on Language Resources and Evaluation
(LREC'12), pp. 176-187, 2012.
Matthias Eck, Stephan Vogel, Alex Waibel, Communicating
Unknown words in machine translation, in International
Conference on Language Resources and Evaluation, pp.15421547, 2008.
Khan Md. Anwarus Salam, Setsuo Yamada and Setsuo
Yamada, How to Translate Unknown Words for English to
Bangla Machine Translation Using Transliteration, Journal of
computers, vol. 8, no. 5, pp.481-486, 2013.
Philippe Langais and Alexandre Patry, Translating Unknown
Words by Analogical Learning, Conference on Empirical
Methods in Natural Language Processing, pp.877-886, 2007.
Karunesh Arora and Michael Paul and Eiichiro Sumita,
Translation of unknown words in phrase-based statistical
machine translation for languages of rich morphology, The
first International Workshop on Spoken Languages
Technologies for Under-resourced languages (SLTU - 2008),
p.70-75, 2008.
Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word
Translation by Subword Re-segmentation, in International
Joint Conference on Natural Language Processing, pp.225232, 2008.

Một phương pháp dịch từ mới trong dịch máy Hoa-Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về