Tải bản đầy đủ (.pdf) (81 trang)

Cải tiến chất lượng dịch máy thống kê dựa vào thông tin cú pháp phụ thuộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.39 MB, 81 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

BÁO CÁO TỎNG KẾT
KÉT QUẢ THỰC HIỆN ĐÈ TÀI KH&CN
CẤP ĐẠI HỌC QUÓC GIA

Tên đề tài: “Cải tiến chất lượng dịch máy thống kê dựa vào thông tin
CÚ pháp phụ thuộc”
M ã số đề tài: QG.15.23
Chủ nhiệm đề tài: TS. Nguyễn Văn Vinh


ĐẠI HỌC QUỐC GIA HÀ NỘI

n

n\

í»KữGKM Ị

V

BÁO CÁO TỒNG KỂT
KÉT QUẢ T H ự C HIỆN ĐÊ TÀI KH&CN
CẤP ĐẬI h ọ c q u ố c g i a

Tên đề tài: “Cải tiến chất lượng dịch máy thếng kê dựa vào thông tin
cú pháp phụ thuộc”
Mã số đề tài: QG.15.23

Chủ nhiệm đề tài: TS. Nguyễn Văn Vinh




PHẦN I. THÔNG TIN CHƯNG
1.1. Tên đề tài: Cải tiến chất lượng dịch máy thống kê dựa vào thông tin cú pháp phụ thuộc
1.2. Mã số: QG.15.23
1.3. Danh sách chủ trì, thành viên tham gia thực hiện đề tài _______________________
Đơn vị công tác

Vai trò thực hiện đề tài

1 TS. Nguyễn Văn Vinh

Trường Đại học Công
nghệ - ĐHQGHN

Chủ nhiệm đê tài

2 NCS . Trần Hồng Việt

Trường Đại học Kinh tế
- Kỹ thuật Công nghiệp

Thư ký đề tài

TT

Chức danh, học vị, họ và tên

3


PGS. TS. Lê Anh Cường

Trường Đại học Công
nghẹ - ĐHQGHN

Thành viên

4

PGS. TS. Nguyễn Phương Thái

Trường Đại học Công
nghẹ - ĐHQGHN

Thành viên

Trường Đại học Hải
Phòng

Thành viên

5 NCS. Phạm Nghĩa Luân

1.4. Đơn vị chủ trì: Đại học Công nghệ - Đại học Quốc Gia Hà Nội
1.5. Thời gian thực hiện:
1.5.1. Theo hợp đồng: 24 tháng từ tháng 2 năm 2015 đến tháng 2 năm 2017
1.5.2. Gia hạn (nếu có): tháng 2 năm 2017 đến tháng 8 năm 2017
1.5.3. Thực hiện thực tế: từ tháng 2 năm 2015 đến tháng 12 năm 2017
1.6. Những thay đổi so vối thuyết minh ban đầu (nêu có)i
(về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên nhân; Y

kiến của Cơ quan quản lý)
1.7. Tổng kinh phí được phê duyệt của đề tài: 200 triệu đồng.
PHẢN II. TỎNG QUAN KẾT QUẢ NGHIÊN c ứ u
1. Đặt vấn đề
Sự bùng nổ của cách tiếp cận dịch máy đã tạo ra các sản phâm thương mại đươc sư dụng rọng
rãi ừên thế giới (hệ dịch của Googỉe

Microso/t2, ...)• Một ừong những vấn đề quan trọng của

dịch máy thống kê dựa vào cụm liên quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm) chính
xác trong ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm (Phrase-Based Statistical
Machine Translation- PBSMT), việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao. Bên
caiủ đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác nhau vê thứ tự tư trong
các ngôn ngữ) dẫn tới không thể mô hình hóa chính xác trong quá trình dịch [Och và Ney, 2004].
Điều này dẫn đến có nhiều hướng quan tâm nghiên cứu để giải quyết vấn đề đảo trật tự từ bên ĩrong
hệ thống dịch máy thống kê dựa vào cụm. Một sô nghiên cứu theo hướng tiep cạn tien xư ly cho
2^

S; ^

$latf - ạ0° l e-C0f ♦

h tp ://w w w .m icrosofttran slator,com

I

ĐẬĨ H Ọ C Q U Ỗ C Gí A HẢ NỤ.

I TRUNG TAM ĨH Q N G ĨiN THƯ V IẺ' ■




"ọ O O Ẽ

0000509

1


vấn đề đảo trật tự tò cho kết quả tổt [Peng Xu và cộng sự, 2009; Jason Katz-Brown và cộng sự,
2011; C a i và c ộ n g sự, 2014].
Ý tưởng chính của vấn đề đào cụm từ tiền xử lý câu trong ngôn ngữ nguồn (tiếng Anh) để có
thứ tự từ gần nhất có thể trong ngôn ngữ đích (tiếng Việt). Hai hướng nghiên cứu chính để giải
quyết vấn đề nêu trên dựa vào tiền xử lý là: phân tích cú pháp thành phần câu nguồn và phân tích cú
pháp phụ thuộc câu nguồn.
Một số nghiên cứu sử dụng thông tin cú pháp nhằm giải quyết bài toán đảo trật tự từ. Một trong
những phương pháp đó là phân tích cú pháp ngôn ngữ nguồn và các luật sắp xếp như các bước tiền
xử lý. Ý tưởng chính là chuyển đổi các câu nguồn để các câu đích có thứ tự từ gần nhất có thể, do
đó việc huấn luyện sẽ dễ dàng hơn và chất lượng gióng từ cũng tốt hon.
2. Mục tiêu


Đề xuất và cải tiến các phương pháp giải quyết bài toán đảo cụm tò trong dịch máy
thống kê dựa vào cụm theo hướng tiếp cận tiền xử lý dựa trên cây phân tích cú pháp phụ
thuộc.



Tìm ra cách tích hợp thông tin về cây phân tích cú pháp phụ thuộc vào hệ dịch máy
thống kê (lựa chọn thông tin cú pháp, xây dựng luật đảo trật tự thủ công và tự động giữa

2 cặp ngôn ngữ). Tập trung thừ nghiệm & đánh giá trên cặp ngôn ngữ Anh-Việt.



Xây dựng chương trình thủ nghiệm dịch từ Việt sang Anh, tích hợp các kỹ thuật đề xuất
và cải tiến trong đề tài.

3 . Phương pháp nghiên cứu
Chúng tôi áp dụng các phương pháp, kỹ thuật sau:
- Dựa vào cây cú pháp phụ thuộc của ngôn ngữ nguồn & thông tin ngôn ngữ để đưa ra giải
pháp hiệu quả cho bài toán đảo cụm từ trong bước tiền xử lý áp dụng cho cặp ngôn ngữ
Anh-Việt.
- Dựa vào các kỹ thuật học máy để tích hợp hiệu quả thông tin cú pháp phụ thuộc vào hệ
thống dịch máy thống kê. Tìm hiểu, khai phá và mở rộng các luật thủ công (xây dựng bằng
tay), các luật tự động (trích rút tự động từ kho ngữ liệu) chuyển đổi giữa 2 cặp ngôn ngữ và
áp dụng để cải thiện chất lượng dịch máy thống kê.
-

Đề xuất các kỹ thuật tích hợp hiệu quả các trí thức ngôn ngữ (cú pháp phụ thuộc) vào hệ
thổng dịch máy thống kê.

2


4. Tổng kết kết quả nghiên cứu
Đe tài đã thực hiện các nội dung nghiên cứu. Bao gồm:
Nội dung 1: Nghiên cứu các phương pháp giải quyết đảo cụm từ dựa vào cách tiếp cận tiền xừ lý
- Nghiên cứu các mô hình, kỹ thuật đảo cụm từ giữa 2 cặp ngôn ngữ dựa vào tiền xử lý.
- Cài đặt và thừ nghiệm các kỹ thuật đảo cụm từ dựa vào tiền xử lý.
Nội dung 2: Nghiên cứu cách tích họp thông tin về cây cú pháp phụ thuộc vào hệ dịch máy thống


- Nghiên cứu các kỹ thuật tích hợp thông tin cây cú pháp phụ thuộc vào hệ dịch máy thống kê.
- Cài đặt và thủ nghiệm các mô hình tích họp.
Nội dung 3: Thu thập tài nguyên và tiền xử lý phục vụ việc khai phá dữ liệu song ngữ.
- Nghiên cứu nguồn tài nguyên văn bản thích hợp và thu thập.
- Nghiên cứu và xây dựng modul phân tích từ tố cho tiếng Anh.
- Nghiên cứu và áp dụng các kỹ thuật phân tách từ cho tiếng Việt.
Nội dung 4: Xây dựng hệ thống dịch máy thống kê Việt-Anh thử nghiệm
- Xây dựng hệ dịch Việt-Anh cơ sở.
5. Đánh giá về các kết quả đã đạt được và kết luận
Kết quả đạt được gồm:
-

Nghiên cứu tìm hiểu các phương pháp giải quyết đảo cụm từ dựa vào cách tiếp cận tiền xử lý.

-

Nghiên cứu các mô hình, kỹ thuật đảo cụm từ giữa 2 cặp ngôn ngữ dựa vào tiền xử lý.

-

Thử nghiệm các kỳ thuật đảo cụm từ dựa vào tiền xử lý.

-

Nghiên cửu cách tích hợp thông tin về cây cú pháp phụ thuộc vào hệ dịch máy thống kê.

-

Nghiên cứu các kỹ thuật tích hợp thông tin cây cú pháp phụ thuộc vào hệ dịch máy thống kê.

Cài đặt và thử nghiệm các mô hình tích hợp.

Sản phẩm đã có:
-

Mô đun chương trình về kỹ thuật đảo cụm từ.

-

Kho ngữ liệu song ngữ Anh-Việt.

-

02 báo cáo về mô hình và kỹ thuật đảo cụm từ.

-

01 bài báo tạp chí và 05 báo cáo về phương pháp đảo cụm từ tại hội thảo quốc tế.
Hệ thống dịch máy thống kê Việt - Anh thử nghiệm.

6. Tóm tắt kết quả (tiếng Việt và tiếng Anh)
Tiếng Việt
Cải tiến chất lượng dịch máy thống kê dựa vào thông tin cú pháp phụ thuộc
Tóm tắt:

3


Sự bùng nổ của cách tiếp cận dịch máy đã tạo ra các sản phấm thương mại đươc sử dụng rộng
rãi trên thế giới (hệ dịch của Googỉe J Microsoýt 4, ...). Một trong những vấn đề quan trọng của

dịch máy thống kê dựa vào cụm liên quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm) chính
xác trong ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm (Phrase-Based Statistical
Machine Translation- PBSMT), việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao. Bên
cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác nhau về thứ tự từ trong
các ngôn ngữ) dẫn tới không thể mô hình hỏa chính xác trong quá trình dịch. Điều này dẫn đến có
nhiều hướng quan tâm nghiên cứu để giải quyết vấn đề đảo trật tự từ bên trong hệ thống dịch máy
thống kê dựa vào cụm.
Ý tưởng chính của vấn đề đảo cụm từ tiền xừ lý câu trong ngôn ngữ nguồn (tiếng Anh) đê có
thứ tự từ gần nhất có thể trong ngôn ngữ đích (tiếng Việt). Hai hướng nghiên cứu chính để giải
quyết vấn đề nêu trên dựa vào tiền xử lý là: phân tích cú pháp thành phần câu nguồn và phân tích cú
pháp phụ thuộc câu nguồn.
Đã có một số nghiên cứu về hệ thống dịch máy thống kê dựa vào cụm cho cặp ngôn ngữ AnhViệt. Nghiên cứu về dịch máy thống kê dựa vào cụm sử dụng tiền xử lý với cây cú pháp phụ thuộc
chưa nhiều. Nghiên cứu về đảo cụm từ sử dụng tiền xử lý chủ yếu cho chiều dịch Anh-Việt bằng
cây cú pháp thành phần. Những vấn đề thách thức đặt ra:
- Các nghiên cứu chủ yếu áp dụng cho chiều dịch Anh-Việt, chưa có chiều dịch Việt-Anh.
- Một sổ nghiên cứu đã áp dụng đảo trật tự tò dựa trên cây cú pháp phụ thuộc cho chiều AnhViệt. Tuy nhiên những nghiên cứu này chủ yếu dùng các luật bằng tay, chưa áp dụng các
luật tự động trong bài toán dịch.
- Có ít nghiên cứu sử dụng tiền xử lý dựa vào cây củ pháp phụ thuộc cho chiều Việt-Anh và
tồn tại nhiều hạn chế cần cải tiến để nâng cao chất lượng.
Đề tài:”Cải tiến chất lượng dịch máy thống kê dựa vào thông tin cú pháp phụ thuộc ’ tập
trung giải quyết thách thức trên nhằm cải tiến chất lượng dịch máy thống kê, nhiều nỗ lực nghiên
cứu theo hướng sử dụng cây phân tích cú pháp phụ thuộc vào dịch thống kê đã được áp dụng.

Tiếng Anh:
Improving Statistical Machine Translation using Dependency Syntax Information
Abstract:
The explosion of the machine translation approach has created commercial Products widely used in
the world (Google, Microsoít, Facebook, ...). One of the key issues of phrase-based statistical
3
4


4


machine translation deals with how to generate the exact sequence of words in the target ỉanguage.
In Phrase-Based Statistical Machine Translation (PBSMT), phrase translation is still simple and the
quality is not high. In addition, since languages have many different characteristics (especially
differences in order in words), it can not be accurately modeled during translation. This led to many
research directions to solve the problem of order reversal from within the cluster-based statistical
machine translation system.
The main idea of the problem is to preíĩx the phrase pre-sentence in the source language
(English) to get the closest possible order in the target language (Vietnamese). The two main
research directions for addressing the problem based on preprocessing are: parsing the source
sentence component and parsing the source sentence.
There have been some studies on cluster-based statistical machine translation systems for
the English-Vietnamese language pair. The research on statistical machine translation based on preprocessing using the syntactic tree is not very dependent. Research on phrase islands uses
preprocessing for the English-Vietnamese dimension using the syntaetical tree. Some of challenges:
- There are a lot of research applying for the English-Vietnamese translation. However, there are no
Vietnamese-English translation.
- Some of research have applied the dependency-based pre-ordering for English-Vietnamese
Statistical Machine Translation. But, these research use manual rules, no applying automatic rules
in the translation.
- There are a lot of research using dependency-based pre-ordering on the Vietnamese-English
direction and need improving the quaỉity of translation.
The topic: “Improving Statistical Machine Translation using Dependency Syntax Iníbrmation
focus on the above challenges to improve the quality of statistical machine translation.

PHẦN III. SẢN PHẨM, CÔNG BỐ VÀ KỂT QUẢ ĐÀO TẠO CỦA ĐÊ TÀI
3.1. Kết quả nghiên cứu
Yêu cầu khoa học hoặc/và chỉ tiêu kinh tế -k ỹ thuật

TT

Tên sản phẩm

1
2
3
4
5

Đăng ký

Đạt được

Mô đun chương trình vê kỹ
thuât đảo cum từ.

01

01

Báo cáo về mô hình và kỹ
thuât đảo cum từ
Bài báo vê phương pháp
đảo cum từ
Kho ngữ liệu song ngữ
Anh-Viêt
Hệ thông dịch máy thông kê
Việt - Anh thử nghiệm


03

03

03

05

01

01

01

01
5


3.2. Hình thức, cấp độ công bổ kết quả
Ghi địa chỉ
và cảm 0'n
sự tài trợ
Sản phẩm
của
TT
ĐHQGHN
đúng quy
định
Công
trình

công
bổ
trên
tạp
chí
khoa
học
quốc
tế
theo
hệ
thống
ISI/Scopus
1
1.1
1.2
2 Sách chuyên khảo được xuât bản hoặc ký hợp đông xuât bản
2.1
2.2
3 Đăng ký sở hữu trí tuệ
3.1
3.1
4 Bài báo quốc tế không thuộc hệ thống ISI/Scopus
4.1
4.2
5 Bài báo trên các tạp chi khoa học của ĐHQGHN, tạp chí khoa học chuyên ngành
quốc gia hoặc báo cáo khoa học đăng trong kỷ yếu hội nghị quốc tế

Đã in
5.1 Viet-Hong Tran, Huyen Vu Thuong,

Vinh Van Nguyen and Minh Le
Nguyen, “Dependency-based PreTình trạng
(Đã in/ chấp nhận in/ đã nộp
đơn/ đã được chấp nhận đơn
hợp lệ/ đã được cấp giấy xác
nhận SHTT/ xác nhận sử dụng
sàn phẩm)

Đánh giá
chung
(Đạt,
không đạt)

Đạt

o rd erin g F o r E ng lish -V ietn am ese

Statistical Machine Translation”, In
VNU Joumal of Science.
5.2 Viet Tran Hong, Vinh Van Nguyen Đã in
and Minh Le Nguyen, “Improving
English-Vietnamese
Statistical



Đạt

Đã in




Đạt

Châp nhận in



Đạt

Đã in



Đạt

M ach in e
T ra n sla tio n
U sin g
Prep ro cessin g D e p e n đ e n c y S y n tactic” ,

Proceedings of Pacling 2015
5.3 Viet Tran Hong, Huyen Vu Thuong,
Pham Nghia Luan, Vinh Nguyen Van
and Trung Le Tien, “The EngỉishV ietn am ese M a c h in e T ran slatio n

System for IWSLT 2015”,
Proceedings of IWSLT 2015.
5.4 Viet Tran Hong, Huyen Vu Thuong,
V inh N g u y en V a n and M in h N gu y en


Le “A Classiíĩer-based Preordering
Approach for English-Vietnamese
Statistical Machine Translation”,
Proceedings of Ciclings 2016
(ISI/SCORPUS)
5.5 Viet Tran Hong, Huyen Vu Thuong,
Thu Pham Hoai, Vinh Nguyen Van
and N guy en L e M in h “ A R eo rd erin g

Model For Vietnamese-English
Statistical M ac h in e T ran slatio n U sin g

6


Dependency Iníòrmation”,
Próceedings of RIVF 2016 (IEEE).

5.6 Luan Nghia Pham, Vinh Van Nguyen Châp nhận in
and Huy Quang Nguyen, Transỉation
model adaptation for Statistical
Machine Translation with domain
classiíier, Proceeeding of the 31 st
Pacifìc Asia Conference on Language,
Iníòrmation and Computation
(PACLIC 31), 2017 (SCORPUS)
6 Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt hàng của đơn vị sử dụng
6.1
6.2

7 Kết quả dự kiến được ứng dụng tại các cơ quan hoạch định chính sách hoặc cơ sở
ứng dụng KH&CN
7.1
7.2

Đạt

Ghi chú:
Cột sàn phẩm khoa học công nghệ: Liệt kê các thông tin các sản phẩm KHCN theo thứ tự
công trình, mã công trình đăng tạp chí/sách chuyên khảo (DOI), loại tạp chí ISI/Scopus>
Các ấn phẩm khoa học (bài báo, báo cảo KH, sách chuyên khảo...) chỉ đươc chấp nhân nếu
có ghi nhận địa chỉ và cảm ơn tài trợ của ĐHQGHN đủng quy định.
Bản phô tô toàn văn các ẩn phẩm này phải đưa vào phụ lục các minh chứng của báo cáo.
Riêng sách chuyển khảo cần có bản phô tô bìa, trang đầu và trang cuối có ghi thông tin mã sổ xuất
bản.
3.3. Kết quả đào tạo
Thời gian và kỉnh phí
TT Họ và tên
tham gia đề tài
(sổ tháng/sổ tiền)
Nghiên cứu sinh
24 tháng
1 Trân Hông
Việt

Công trình công bố liên quan
(Sản phẩm KHCN, luận án, luận văn)

Đã bảo vệ


1.Viet Tran Hong, Vinh Van Nguyen
and Minh Le Nguyen, “Improving
English-Vietnamese Statistical Machine
Translation
Using
Pre-processing
Dependency Syntactic”, Proceeđings of
the
Pacling
Association
for
Computational Linguistics 2015, pl 15pl21.
2.
Viet Tran Hong, Huyen Vu Thuong,
Pham Nghĩa Luan, Vinh Nguyen Van
and Trung Le Tien, “The EnglishVietnamese Machine Translation System
for IWSLT 2015”, Proceeding of the
12th International Workshop on Spoken
7


2 Phạm Nghĩa
Luân

24 tháng

Language Translation, 2015, p80-p84
3. Viet Tran Hong, Huyen Vu Thuong,
Vinh Nguyen Van and Minh Nguyen Le

“A
Classiíĩer-based
Preordering
Approach
for
English-Vietnamese
Statistical
Machine
Translation”,
Proceedings of the 17th International
Coníerence
on
Intelligent
Text
Processing
and
Computational
Linguistics,
2016.
Available:
/>4. Viet Tran Hong, Huy en Vu Thuong,
Thu Pham Hoai, Vinh Nguyen Van and
Nguy en Le Minh “A Reordering Model
For
Vietnamese-English
Statistical
Machine Translation Using Dependency
Iníòrmation”,
Proceedings
of

International Conference on Computing
&
Communication
Technologies,
Research, Irmovation, and Vision for the
Future (RIVF), 2016.
5. Viet-Hong Tran, Huyen Vu Thuong,
Vinh Van Nguyên and Minh Le Nguyen,
“Dependency-based Pre-ordering For
English-Vietnamese Statistical Machine
Translation”, In VNU Joumal of
Science:
Computer
Science
and
Communication Engineering, pages 175179,2017.
Viet Tran Hong, Huyen Vu Thuong,
Pham Nghia Luan, Vinh Nguyen Van
and Trung Le Tien, “The EnglishVietnamese Machine Translation System
for IWSLT 2015”, Proceeding of the
12th International Workshop on Spoken
Language Translation, 2015, p80-p84.
Available:
http ://workshop2015.iwslt.org
Luan Nghia Pham, Vinh Van Nguyen
and Huy Quang Nguyen, Translation
model adaptation for Statistical Machine
Translation with domain classiĩier,
Proceeeding of the 31 st Pacific Asia
Conference on Language, Information

and Computation (PACLIC 31), 2017

Hoc viên cao hoc
1 Vũ Thương
12 tháng
Huyền

1. Viet Tran Hong, Huyen Vu Thuong, Đã bảo vệ
Vinh Nguyen Van and Trung Le Tien,
“The English-Vietnamese Machine
Translation System for IWSLT 2015”,
8


Proceeding of the 12th International
Workshop on Spoken Language
Translation, 2015, p80-p84. Available:
http://workshop2015 .iwslt.org
2. Viet Tran Hong, Huyen Vu Thuong,
Vinh Nguyen Van and Minh Nguyen Le
“A
Classifíer-based
Preordering
Approach
for
English-Vietnamese
Statistical
Machine
Translation”,
Proceedings of the 17th International

Conference
on
Intelligent
Text
Processing
and
Computational
Linguistics,
2016.
Available:
/>3. Viet Tran Hong, Huyen Vu Thuong,
Thu Pham Hoai, Vinh Nguyen Van and
Nguyen Le Minh “A Reordering Model
For
Vietnamese-English
Statistical
Machine Translation Using Dependency
Iníòrmation”,
Proceedings
of
International Conference on Computing
&
Communication
Technologies,
Research, Innovation, and Vision for the
Future (RIVF), 2016
4. Luận văn thạc sỹ: Nghiên cứu mô
___________________________________________ hình ngôn ngữ dựa trên mạng neural__________________

Ghi chú:

Gửi kèm bản photo trang bìa luận án/ luận văn/ khóa luận và bằng hoặc giấy chứng nhận
nghiên cứu sinh/thạc sỹ nếu học viên đã bảo vệ thành công luận án/ luận văn;
Cột công trình công bố ghi như mục III. 1.
PHẦN IV. TỎNG HỢP KÉT QUẢ CÁC SẢN PHẢM KH&CN VÀ ĐÀO TẠO CỦA ĐÈ TÀI
Số lượng Số lượng đã
TT
Sản phâm
đăng ký hoàn thành
1 Bài báo công bố trên tạp chí khoa học quốc tế theo hệ thống
ISI/Scopus
2 Sách chuyên khảo được xuât bản hoặc ký hợp đông xuât
bản
3 Đăng ký sở hữu trí tuệ
4 Bài báo quôc tê không thuộc hệ thông ISI/Scopus
06
06
5 Số lượng bài báo trên các tạp chí khoa học của ĐHQGHN,
tạp chí khoa học chuyên ngành quốc gia hoặc báo cáo khoa
học đăng trong kỷ yếu hội nghị quốc tế
6 Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt
hàng của đơn vị sử dụng
7 Kết quả dự kiến được ứng dụng tại các cơ quan hoạch định
chính sách hoặc cơ sở ứng dụng KH&CN
02
02
8 Đào tao/hỗ trơ đào tao NCS
01
01
9 Đào tao thac sĩ
9



PHẦN V. TÌNH HÌNH s ử DỤNG KINH PHÍ
TT
A
1
2
3
4
5
6
B
1
2

Nội dung chi
Chi phí trực tiêp
Thuê khoán chuyên môn
Thu thập và viêt tông quan tài liệu
Xây dụng đê cương chi tiêt
Hội nghị, Hội thảo, kiêm tra tiên độ, nghiệm
thu
In ấn, Văn phòng phẩm
Chi phí khác
Chi phí gián tiêp
Quản lý phí
Chi phí điện, nước
X

Tông so

rp

Kinh phí
được duyệt
(triệu đồng)
188
153
3
2
25

Kinh phí
thực hiện
(triệu đồng)
188
153
3
2
25

3
2

3
2

Ghi chú

12


12
8
4
200

8
4
200

PHẦN V. KIẾN NGHỊ (về phát triển các kết quả nghiên cứu của đề tài; về quản lý, tổ chức thực
hiện ở các cấp)
Trường Đại học Công nghệ- Đại học Quốc Gia hỗ trợ, tạo điều kiện để phát triển thêm các nghiên
cứu trong đề tài, ứng dụng kết quả nghiên cứu nhằm cung cấp cho cộng đồng nghiên cứu, các công
ty, tổ chức phát triển các sản phẩm về dịch máy. Nâng cao hơn nữa kết quả cho bài toán dịch cũng
như mở rộng với các bài toán xử lý ngôn ngữ đặc biệt là ngôn ngữ tiếng Việt.

PHẢN VI. PHỤ LỤC (minh chứng các sản phẩm nêu ở Phần III)
1. Bài báo hội nghị
[1]. Viet Tran Hong, Vinh Van Nguyen and Minh Le Nguyen, “Improving English-Vietnamese
Statistical Machine Translation Using Pre-processing Dependency Syntactic”, Proceedings of the
Paciíic Association
for Computational Linguistics 2015, pl 15-pl 21. Available:
i.ìtb.ac.id/?page_id=784
[2]. Viet Tran Hong, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, “The EnglishVietnamese Machine Translation System for IWSLT 2015”, Proceeding of the 12th International
Workshop
on
Spoken
Language
Translation,
2015,

p80-p84.
Available:

[3]. Viet Tran Hong, Huyen Vu Thuong, Vinh Nguyen Van and Minh Nguyen Le “A Classiíierbased Preordering Approach for English-Vietnamese Statistical Machine Translation”, Proceedings
of the 17th ĩntemational Conference on Intelligent Text Processing and Computational Linguistics,
2016. Available: (ISI)
[4]. Viet Tran Hong, Huyen Vu Thuong, Thu Pham Hoai, Vinh Nguyen Van and Nguyen Le Minh
“A Reordering Model For Vietnamese-English Statistical Machine Translation Using Dependency
Iníòrmation”, Proceedings of International Conference on Computing & Commimication
Technologies, Research, Innovation, and Vision for the Future (RIVF), 2016 (IEEE).
[5]. Luan Nghia Pham, Vinh Van Nguyen and Huy Quang Nguyen, Translation model adaptation
for Statistical Machine Translation with domain classiĩier, Proceeeding of the 3 lst Pacific Asia
Conference on Language, Information and Computation (PACLIC 31), 2017. Available:
id=302 (SCOPUS).
10


2. Bài báo tạp chí khoa học chuyên ngành quốc gia (tạp chí chuyên ngành thuôc danh muc hôi
đồng chức danh chấp nhận như: tạp chí chuyên ngành CNTT và TT của ĐHQG Hà nội/Tạp
chí Tin học điêu khiên/Chuyên san Bưu chính Viên Thông/...)
[1] Viet-Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen, “Dependencybased Pre-ordering For English-Vietnamese Síatistical Machine Translation”, In VNƯ Joumal of
Science: Computer Science and Communication Engineering, pages 175-179, 2017.

Hà Nội, ngày ats... tháng.:iiL. năm 2017.
Chủ nhiệm đề tài
(Họ tên, chữ kỷ)

Đơn vị chủ trì đề tài
(Thủ trưởng đơn vị kỷ tên, đóng dấu)
T/L HIỆU TRƯỞNG


.JRƯỎHG PHÒNGKHOA HỌC CÔNG NGHÉ

T râ n X u ân

Nguyễn Văn Vinh

n

11


Accepted Manuscript

i ĐẠI HỌC QUỐC GIA HA NỘI

Available Online: 3 ỉ M ay, 2017

T h is is a P D F file o f an u n ed ited m a n u sc rip t th a t h as been
ac c e p ted fo r p u b lic a tio n . A s a Service to o u r c u sto m e rs w e are
providing this early v ersion o f the manuscript. The manuscript
w ill

u n đ e rg o

c o p y e d itin g ,

ty p e se ttin g ,

and


rev ie w

o f the

resulting proof before it is published in its final form. Please
n o te

th a t

d u rin g

th e

p ro d u c tio n

p ro c e ss

e ư o rs

m ay

be

discovered which could affect the content, and all legal
d isc la im e rs th a t a p p ly to the jo u m a l p ertain . A rtic les in P ress

are accepted, peer revievved articles that are not yet assigned to
v o lu m e s/issu e s, b u t a re c ita b le u sin g D O I.


bữĩtÊM Tỉtôxr;


VNU -lournal o f Science: Corap. Science & Com. Eng., Vol. 31, No. 3 (2017) 1-13

Dependency-based Pre-ordering For English-Vietnamese
Statistical Machine Translation
T ra n H o n g V ìe t !'2, N g u y e n V an V in h 2, Vu T h u o n g H u y e n 3, N g u y en L e M in h 4
1University o f Economic and Technical Industries, Hanoi, Vietnam
•'University o f Engineering and Technology, Vietnam National Universitỵ, Hanoi, Vietnam
’ThuyLoi University, Hanoi, Vietnam
4Japan Advanced ỉnstitute o f Science and Technology
Email: , vinhnv@ vnu.edu.vn, ,

Abstract
Reordering is a major challenge in machine translation (MT) betvveen two languages with significant differences
in word order. In this paper, vve present an approach as pre-processing step based on a dependency parser in
phrase-based statistical machine translation (SMT) to learn automatic and manual reordering rules from English
to Vietnamese. The dependency parse trees and transíormation rules are used to reorder the source sentences and
applied for systems translating from English to Vietnamese. We evaluateđ our approach on English-Vietnamese
machine translation tasks, and showed that it outperíorms the baseline phrase-based SMT system.
Keywords: Natural Language Processing, Machine Translation, Phrase-based Statistical Machine Translation.

X. Introduction

O ther kinđs o f syntax reordering methcxis require
parser trees, such as the work in [4]. The parsed
tree is m ore powerful in capturing the sentence
structure. However, it is expensive to create tree
structure and build a good quality parser. All the

above approaches require much decoding time,
w hich is expensive.

P hrase-based statistical m achine translation
[1] is the state-of-the-art o f SM T because o f its
pow er in m odelling short reordering and local
context. Hoxvever, w ith phrase-based SMT, long
distance reordering is still problem atic. The reordering problem (global reordering) is one of
the m ạịor problem s, since different languages
have different word order requirem ents. In recent
years, m any reordering m ethods have been proposed to tackle the long distance reordering problem.
M any solutions solving the reordering problem have been proposed, such as syntax-based
m odel [2], lexicalized reordering [3]. Chiang [2]
shows signiíicant im provem ents by keeping the
strengths o f phrases, w hile incorporating syntax
into SM T. Som e approaches were applied at the
w ord level [4]. They are useíul for language with
rich m orphology, for reducing data sparseness.

The approach that we are interested in is balancing the quality o f translation wìth decoding
time. R eordering approaches as a preprocessing
step [5, 6, 7] are very effective (significant improvem ent over State of-the-art phrase-based and
hierarchical m achine translation systems and separately quality evaluation o f each reordering models).
The end-to-end neural M T (NM T) approach
[8] has recently been proposed for MT. However,
the N M T method has some lim itations that may
jeopardize its ability to generate better translation. The N M T system usually causes a serious
out-of-vocabulary (OOV) problem , the translation quality would be badly hurt; The N M T de-

* Corresponding author. Email:


1


T. H. Viet et a l / VNU Journal o f Science: Comp. Science & Com. Eng., Vol. 31, No. 3 (2017) 1-13

2

(a) Dependency tree representing the preordering

amod
d«t

• UI

prep pobj
11 il

n»ubj
1
I

tn

(W w

looking 31

uac


M


a

new

OT JJ

jewelry

NM

an input sentence to an order that is natural in the
target languages. Section 6 describes experimental results; Section 7 discusses the experimental
results. And, conclusions are given in Section 8.

site

M
M

(b) Preordering for English-Vietnamese transiation

Figure 1: A example of preorđering for English-Vietnamese
translation.

coder lacks a m echanism to guarantee that all
the source w ords are ư an slated and usually favors
short translations. It is difficult for an N M T system to b en efit from target language m odel trained

on target m onolingual corpus, which is proven
to be useíul for im proving translation quality in
statistical m achine translation (SM T). N M T need
m uch m ore training tim e. In [9], N M T requires
longer tím e to train (18 days) com pared to their
best SM T system (3 days).

2. Related works
The difference o f the word order between
source and target languages is the major problem in phrase-based statistical m achine translation. Fig 1 describes an example that a reordering approach m odiíies the word order o f an input
sentence o f a source languages (English) in order
to generate the word order o f a target languages
(Vietnamese).
M any preordering m ethods using syntactic iníòrm ation have been proposed to solve the reordering problem. (Collin 2005; Xu 2009) [4, 5]
presented a preordering m ethod which used manually created rules on parse trees. In addition, linguistic knowledge for a ỉanguage pair is necessary
to create such rules. O ther preordering methods
using autom atic created reordering rules or a statistical classifier were studied [12, 7]
Collins [4] developed a clause detection and

used some handvvritten rules to reorder words
Inspire by this preprocessing approaches, we
propose a com bined approach w hich preserves
the strength o f phrase-based SM T in reordering
and decoding tim e as well as the strength o f
integrating syntactic iníorm ation in reordering.
Firstly, the proposed m ethod uses a dependency
parsing for preprocessing step with training and
testing. Secondly, transíòrm ation rules are applied to reorder the source sentences. The experim ental resulting from English-V ietnam ese pair
shows that our approach achieved im provem ents
in BLEƯ scores [10] w hen translating from English, com pared to M O SE S [11] w hich is the

State of-the-art phrase-based SM T system.
T his p aper is structured as follows: Section
1 introduces the reordering problem . Section 2
reviews the related w orks. Section 3 introduces
phrase-based SMT. Section 4 expresses how to
apply transíorm ation rules for reordering the
source sentences. Section 5 presents a the leam ing m odel in order to tran sío rm the word order of

in the clause. Partly, (H abash 2007)[ 13] built an
autom atic extracted syntactic rules. Xu [5] described a method using a dependency parse tree
and a flexible rule to perform the reordering of
subject, object, etc... These rules were w ritten
by hand, but [5] showed that an autom atic rule
learner can be used.
Bach [14] propose a novel source-side dependency tree reordering model for statistical machine translation, in w hich subtree movements
and constraints are represented as reordering
events associated w ith the w idely used ]exicalized
reordering models.
(Genzel 2010; L erner and Petrov 2013) [6, 7]
described a m ethod using discrim inative classiíiers to directly predict the final word order.
Cai [15] introduced a novel pre-ordering approach based on dependency parsing for ChineseEnglish SMT.
Isao Goto [16] described a preordering method
using a target-language parser via cross-language


3

T. H. Viel el al / VNU Journal o f Science: Comp. Science & Com. Eng., Vol. 31, No. 3 {2017) 1-13

syntactic prọịection for statistical m achine translation.

Joachim D aiber [17] presented a novel examining the relationship betw een preordering and
worđ order ĩreedom in M achine Translation,
C henchen Ding, [18] proposed extra-cbunk
pre-ordering o f m orphem es w hich allovvs
Japanese íunctional m orphem es to move across
chunk boundaries.
C hristian H adiw inoto presented a novel reordering approach utilizing sparse íeatures based
on dependency word pairs [19] and presented a
novel reordering approach utilizing a neural network and dependency-based em bedding to predict w hether the translations o f two source words
linked by a dependency relation should rem ain in
the sam e order o r should be swapped in the translated sentence [9]. This approach is com plex and
spend much tim e to process.
However, there were not deíinitely many studies on English-V ietnam ese to SM T system tasks.
To o u r knowledge, no research address reordering m odels for English-V ietnam ese SM T based
on dependency parsing. In com parison with these
m entioned approaches, our proposed m ethod has

some differences as follows: We investigate to use
a reordering m odels for English-V ietnam ese SM T
using dependency inform ation. We study s v o
language in English-V ietnam ese in order to recognize the differences about English-V ietnam ese
word labels, phrase label as well as dependency
labels. We use dependency parser o f English
sentence for translating from English to Vietnamese. B ase on above studies, we utilize the English - V ietnam ese transíorm ation rules (m anual
and autom atic rules are extracted from EnglishV ietnam ese parallel corpus) that directly predict
target-side word as a preprocessing step in phrasebased m achine translation. As the sam e with [13],
vve also applied preprocessing in both training and
decoding time.

3. B rief D escription o f the B aseline Phrasebased SM T

In this section, we will describe the phrasebased SM T system w hich was used for the ex-

ROOT

I

'm

lo o lđ n g

PRP

VHP

VBG

NOUN VERB

VERB

/

pobj

ai

a

new


IN DT

JJ

ADP DET ADJ

je w e lry
NN
NƠƯN

s ite

.

NN

.

NOƯN .

Figure 2: A example with POS tags and dependency parser.

perim ents. Phrase-based SMT, as described by [1]
translates a source sentence into a target sentence
by decom posing the source sentence into a sequence o f source phrases, w hich can be any contiguous sequences o f words (or tokens treated as
words) in the source sentence. For each source
phrase, a target phrase translation is selected, and
the target phrases are arranged in some order to
produce the target sentence. A set o f possible
translation candidates created in this way were

scored according to a w eighted linear combination o f íeature values, and the highest scoring
translation candidate was selected as the translation o f the source sentence. Symbolically,
n

ỉ = argmax t, a

À ịfj(s, t, ữ)('l)
i= i

when s is the input sentence, t is a possible output sentence, and a is a phrasal alignm ent that
speciíies how t is constructed from s, and t is
the selected output sentence. The vveights À i associated with each feature fi are tuned to maxim ize the quality o f the translation hypothesis selected by the decoding procedure that com putes
the argmax. The log-linear model is a natural
fram ework to integrate many íeatures. The probabilities o f source phrase given target phrases, and
target phrases given source phrases, are estim ated
from the bilingual corpus.
Koehn [1] used the following distortion model
(reordering model), which simply penalizes nonmonotonic phrase alignm ent based on the word
distance o f successively translated source phrases
w ith an appropriate value for the param eter a:
d(dj - b ị-ị) =

(2)


4

T. H Viet eí aì / VNU io u rn a l o f Science: Comp. Science & Com. Eng., Vòi. 31. No. 3 (2017) 1-13

M oses [11] is open source toolkit for statistical

m achine translation system that allovvs autom atically train translation m odels for any language
pair. W hen we have a trained m odel, an efficient
search algorithm quickly finds the highest probability translation among the exponential num ber
o f choices. In our work, we also used M oses lo
evaluate on English-V ietnam ese m achine translation tasks.

L abel

det

Token

th a t

Reordering approaches on English-V ietnam ese
translation task have lim itation. In this paper, we
íirstly produce a parse tree using dependency
parser tools [20]. Figure 3 shows an exam ple of
parsed a English sentence.

ROOT

am o d

am o d

m *nv

dobj


r o m a n tic

p

songs

POS

DT

NN

VBD

JJ

JJ

NNS

C a te g o ry

DT

N

V

JJ


JJ

N

.

imod

nfubj
đet

4. D ependency Syntactic Preprocessing For
SM T

nsubj

s o n g w r ite r w r o te

]

í
Tììat

0T

songw titer

amođ
dobj


i

1
w rote

VBC

m any

JJ

rom antic

JJ

songs

NHS

Figure 4: Representation o f the Staníord Dependencies for
the English source sentence

English to create a set o f the reordering rules.
There are approxim ately 50 gram m atical relations
in English, m eanwhile there are 27 ones in VietSoorce sevtence:
nam ese based on [21] and the differences o f word
t h a i s o n g T v r i t a ' W T O te m a n y r o m a n t i c s o n g s .
order between English and Vietnam ese to creTaggõtg:
ate the set o f the reordering rules. Base on these
that/DT songwriiar/NN wrote/VBDmany/JJ romanũc/n songs/NNS J.

rules, we propose an our m ethod which is capaParse:
ble o f applying and com bining them sim ultane(ROOT
ously. We utilize the word labels in [21] to ana(NP (ĐT thít) (NN iongwrit®))

(VP (VBD wrotc)
(NP (JJ many) ỢJ rơmantic) (NNS songs)))

( )))
đet(songwiiter-2, that-1)
nsubj(wiote-3, songwntex-2)
root(R0C>T-0, wrotc-3)
amod(songs-6, many-4)
amod(songs-6, romantic-5)
đobj(wrotc-3, songs-6)
Higure 3: Example about Depenđency Parser o f an English
sentence using Staníord Parser

Then, we utilize som e dependency relations extracted from a statistical dependency parser to
create the dependency based on reordering rules.
Dependency parsing am ong words typed with
gram m atical relations are proven as useíul inform ation in some applications relative to syntactic
Processing.
We use the dependency gram m ars and the differences o f w ord order betw een V ietnam ese and

lyze the extraet POS tags and head modifier dependencies.
In addition, we focus on analyzing some popular structures o f English language w hen translating to V ietnam ese language. This analysis can
achieve rem arkable im provem ents in translation
períorm ance. Because English and V ietnam ese
both are s v o languages, the order of verb rarely

change, we focus mainly on some typical relations as noun phrase, adjectival and adverbial
phrase, preposition and created manually written reordering rule set for English-Vietnam ese
language pair. Inspired from [5], our study employ dependency syntax and transyntaxsibrm ation rules to reorder the source sentences and applied to English-V ietnam ese translation system.
For example, w ith noun phrase, there always
exists a head noun and the com ponents beíòre and
after it. These auxiliary com ponents wilì move to
new positions according to V ietnam ese translational order.
Let us consider an exam ple in Figure 6, Fig-


T. H. Via et a l / VNU JournaI o f Science: Comp. Science & Com. Eng., Vơi. 31, No. 3 (2017) 1-13

ure 7 to the difference o f w orđ order in English
and V ietnam ese noun phrase and adjectival and
adverbial phrase.
4.1. Transýormation R uỉe

E n g lish sen te n ccs

R e o r d e r se o te n c e s

M e tn a m e s e s e n te n c e s

det
f

1

ì


1

songwriter

wrote

T oken

That

POS

DT

NN

Category

DT

N

amod

XI
dofej

many

VBD

n

V

romantic

sc n te n c M

E S ^



NNS

JJ

N

a p e ! 3 0 « a l C o m p u te r

Ọĩf «"
Smiences with Depcndcncles

'^ 1

g peraora) eompuw

R eo rd e r sc n le n c e s

E ssJ>


Vletnamese ỉeBleoces

8 ^

a ram pm eí pereona)

mộí

Ịh ẹ rn ộ sỊ

b e a u t ií u í

the beautiíui m ost

ịđẹp \

,
nhât

Figure 7: An example o f word reordering phenomenon in
adjectival phrase with adverbial modiíier (advmod) and
determiner modifier (det).

songs

Figure 5; An Example o f using Dependency Syntactic
bcíore and after our preprocessing

English


the most beauưíul
a ^ ậ É s^ -Ạ a

S e n te n c e s w lth D e p e n đ e n c le s CZ4 >

T his section, we describe a transíorm ation rule.

nsubi

i—v>.

5

máy tính cá nhãn

Figure 6: An example o f word reordering phenomenon in
noun phrase with adjectival rnodifier (amod) and
determiner modiíìer (det). In this example, the noun

“Computer” is swapped vvith thc adjectival “personal” .

O ur rule set is for E nglish-V ietnam ese phrasebased SMT. Table 1 show s handw ritten ru les using dependency syntactic preprocessing to reorder from English to V ietnam ese.

In the proposed approach, a transform ru le is a
m apping from T to a set o f tuples (L, w , O)
• T is the part-of-speech (PO S) tag o f the head
in a dependency parse tree node

• L is a dependency label for a child node.



w is a w eight indicating the order o f that
child node.



o is the type o f order (either N O R M A L or
R E V E R SE ).

O ur rule set provides a valuable resource for
preordering in English-V ietnam ese phrase-based
SMT.
4,2. D ependency Svntactic Processing
We aim to reorder an English sentence to get a
new E nglish, and som e words in this sentence are
arranged as V ietnam ese vvords order. The type of
order is only used w hen we have m ultiple children
w ith the sam e w eight, w hile the w eight is used to
determ ine the relative order o f the children, going from the largest to the smallest. The weight
can be any real valueđ number. The order type
N O R M A L m eans w e preserve the original order
o f the children, w hile R EV ER SE m eans we flip
the order. W e reserve a special label self to refer to
the head node itself so that we can apply a weight
to the head, too. W e w ill call this tuple a precedence tuple in later discussions. In this study, we
use m anually created rules only.
Suppose w e have a reordering rule: NNS -»
(prep, 0, N O R M A L ), (rcm od, 1, NORM AL),
(seừ , 0, N O R M A L ), (poss, -1, NORM AL)

(adm od,-2, R E V E R SE ). For the exam ple shown
in Figure 4, w e w ould apply it to the ROOT node
and result in "songvvriter that wrote many songs
rom antic."
W e apply them in a dependency tree recursively starting from the root node. If the POS tag


6

T, H. Viet et aì /V N U ỉo u m a l o f Science: Comp. Science & Com. Eng., Vol. 31, No. 3 (2017) 1-13

T
JJ or JJS or JJR

N N or NNS

IN or TO

(L, w, O)
(advcl, 1,NORMAL)
(self,-l,NORMAL)
(aux,-2,REVERSE)
(auxpass,-2,REVERSE)
(nég,-2,REVERSE)
(cop,0,REVERSE)
(prep.O.NORMAL)
(rcmod, 1,NORM AL)
(self,ũ,NORMAL)
(poss,-l, NORMAL)
(admod,-2,REVERSE)

(pobj,l,NORMAL)
(self,2,NORMAL)

Table 1: HandvvriUen rules For Reordering English to Vietnamese using Dependcncy syntactic preproccssing

used M oses to evaluate on English-Vietnam ese
machine translation tasks.

o f a node m atches the left-hand-side o f a rule, the
rule is applied and the order o f the sentence is
changed. W e go through all the children o f the
node and get the precedence vveights for them
from the set o f precedence tuples. If we encounter
a chilđ node that has a dependency label not listed
in the set o f tuples, we give it a default w eight o f
0 and default order type o f N O RM A L. The children nodes are sorted according to their weights

In this section, we describe a the learning
m odel that can transíorm the word order o f an input sentence to an order that is natural in the target language. English is used as source language,
w hile V ietnam ese is used as target language in

from highest to lowest, and nodes with the same

our discussion about the word orders.

weights are ordered according to the type o f order
defined in the rule.
Figure 5 gives exam ples o f original and preprocessed phrase in English. The íirst line is the original E nglish sentences: "that songw riter wrote
many songs rom antic.", and the íourth line is the
target V ietnam ese reordering "Nhạc sĩ đó đã viết

nhiều bài hát lãng m ạn.". This sentences is arranged as the V ietnam ese order. We aim to preprocess as in Figure 5. V ietnam ese sentences is
the output o f our method. As you can see, after reordering, original English line has the same word
order.

For example, when translating the English sentence:

5.7. Cỉassifier-based Preordering

I ’m looking at a new jew elry site.
to Vietnam ese, we would like to reorder it as:
I 'm looking at a site new jewelry.
A nd then, this m odel w ill be used in com bination with translation model.
The feature is built for "site, a, new, jew elry"
family in Figure 2:
NN, DT, det, JJ, amod, NN, an, 1230, 1023

5. C lassifier-based Preordering for Phrasebased SM T
Current tim e, state-of-the-art phrase-based
SM T system using the lexicalized reordering
model in M oses toolkit. In our work, we also

We use the dependency gram m ars and the
differences o f word order betw een English and
V ietnam ese to create a set o f the reordering
rules. From part-of-speech (POS) tag and parse
the input sentence, producing the POS tags and
heađ-m odifier dependencies shown in Figure 2.
Traversing the dependency tree starting at the



T. H. Viel et al / VNU Juurnal u f Science: Cump. Science & Com. Ettg., Vul. 31, Nu. 3 (2017) 1-13

Corpus
General
Training

Development

Test

Sentence pairs
132636

Training Set
131236

Sentences
Average Length
Word
Vocabulary
Sentencẹs
Average Length
Word
Vocabulary
Sentences
Average Length
Word
Vocabulary

Development Set

400
Vietnamese
131236
18.91
2481762
39071
400
22.73
9092
1537
1000
22.70
22707
2882

Test Set
1000
English
17.98
2360727
54086
21.41
8567
1920
21.42
21428
3816

Table 2: Corpus Statistical


Feature

Description

T
1T
1L
2T
2L
3T
3L
4T
4L
Oi

The head’s POS tag
The first child’s POS tag
The first child’s syntactic label
The second child’s POS tag
The second chilcTs syntactic label
The third child’s POS tag
The third chilcTs syntactic label
The íourth child’s POS tag
The íourth child’s syntactic label
The sequence of head and its chíldren
in source alignment
The sequence of head and its children
in target alignment.

02


Table 3: Set o f íeatures used in training data from corpus
English-Vietnamese

5.2. Features
The íeatures extracted based on dependency
tree includes POS tag and alignm ent iníòrm ation.
We traverse the tree from the top, in each family
we create features with the following information:
• The head’s POS tag,
• The first child’s POS tag, the first child’s
syntactic label.
• The second child’s POS tag, the second
child’s syntactic label.
• The third child’s POS tag, the third chilcTs
syntactic label.

root to reordering. We determ ine the order o f
the head and its children (independently o f other
decisions) for each head word and continue the
traversal recursively in that order. In the above exam ple, we need to decide the order o f the head
"looking" and the children "I", "’m", and "site.".
T he words in sentence are reordered by a
new sequence learned from training data using
m ulti-classifier m odel. We use SVM classiíication m odel [22] that supports m ulti-class prediction. The class labels are corresponding to reordering sequence, so it is enable to select the best
one from m any possibỉe sequences.

• The fourth chilcTs POS tag, the íòurth child’s
syntactic label.
• The sequence o f head and its children in

source alignm ent.
«* The sequence o f head and its children in target alignm ent. It is class label for SVM classifier model.
We lim ited our self by Processing íam ilies that
have less than five children based on counting total families in each group: 1 head and 1 child, 1
head and 2 children, 1 head and 3 children, 1 head


T. H. Viet el aì / VNU J o u m a l o f Science: Comp. Science & Com. Eng., Vo!. 31, No. 3 (2017ì 1 -1 3

Pattern
NN, DT, det,

Order

JJ, amod, NN. nn

NNS, JJ, amod,

cc, cc, NNS, con

NNP, NNP, nn, NNP, nn

1,0,2,3
2,1,0,3
2,1,0

Example
I ’m looking at a new jewelry site .
—>1 ’m looking at a site new jewelry .
it faced a blank w all.

—» it faced a wall blank .
it ’s a social phenomenon .
—> it ’s a phenomenon social .

Table 4: Examples of rules and reorder source sentences

A lgorithm 1 Extract rules
input: dependency trees of source sentences
and alignment pairs;
output: set of automatic rules;
for each íamily in dependency trees of subset
and alignment pairs of sentences do
generate feature (pattern + o rder);
end for
Build model from set of features;
for each fami]y in đependency trees in the rest
of the sentences do
generate pattern for prediction;
get predicted order from model;
add (pattern, order) as new rule in set of rules;
cnd for

Algoríthm 2 Apply rule
input: source-side dependency trees , set of rules;
output: set of new sentcnces;
for each dependency tree do
for each family in tree do
generate pattern
get order from set of rules based on pattern
apply transíorm

end for
Build new sentence;
end for

5.3. Trainỉng D a ta /o r Preordering
and 4 children ... We found out that the most com -

In this section, we đescribe a method to build

mon ỉam ilies appear (80% ) in our training sentences is less than and equal four children.
W e trained a separate classifier for each num ber o f possible children, In hence, the classiíiers
learn to trade o ff between a rich set o f overlapping
features. List o f íeatures are given in table 3.
W e use SVM classiíĩcation m odel in the
W E K A tools [23] that supports m ulti-class prediction. Since it naturally supports m ulti-class
prediction and can thereíòre be used to select one
out o f m any possible perm utations. The learning
algorithm produces a sparse set o f íeatures. In our
experim ents, the m odels were based on features
that generated from 100k English - V ietnam ese
sentence pairs.
W hen extracting the íeatures, every word can
be represented by its word identity, its PO S-tags
from the treebank, syntactic label. We also include pairs o f these íeatures, resulting in potentially bilexical íeatures.

training data íòr a pair English to Vietnamese.
O ur purpose is to reconstruct the word order o f
input sentence to an order that is arranged as Vietnamese words order.
For exam ple with the English sentence in Figure 2:
/ ’m looking at a new jew elry site.

is transíòrm ed into V ietnam ese order:
I 'm looking at a site new jewelry.
For this approach, we first do preprocessing to
encode som e special vvords and parser the sentences to dependency tree using Staníord Parser
[24]. Then, we use target to source alignment
and dependency tree to generate features. We add
source, target alignm ent, POS tag, syntactic label
o f word to each node in the dependency tree. For
each family in the tree, we generate a training instance if it has less than and equal four children. In


T. H. Viel et al / VNU J o u m a l o f Science: Comp. Science & Com. Eng., Vol. 31, No. 3 (2017) 1-1 ỉ

case. a fam ily has m ore than and equal five children, we discard this íam ily but still keep traversing at each child.
Hach rule consists of: pattern and order. For every node in the dependency tree, from the topdown, w e find the node m atching against the pattern, and if a match is found, the associated order applies. We arrange the words in the English
sentence, w hich is covered by the m atching node,
like V ietnam ese words order. A nd then, we do the
sam e for each children o f this node, If any rule
is applied, we use the order o f original sentence.
These ru les are learnt autom atically from bilingual corpora. The our algorithm ’s outline is given
as Alg. 1 and Alg. 2
A lgorithm 1 extracts autom atically the rules
w ith input incluđing dependency trees o f source
sentences and alignm ent pairs.
A lgorithm 2 proceeds by considering all rules
aíter íĩn ish A lgorithm 1 and source-side dependency trees to build new sentence.
5.4. C lassi/ication M odel
The reordering decisions are m ađe by m ulticlass c1assifiers (correspond with num ber o f per-

mutation: 2, 6, 24, 120) where class labels eorrespond to perm utation sequences. We train a separate classifier for each num ber o f possible children. Crucially, we do not learn explicit tree transíorm ations rules, but let the classiílers learn to

trade o ff betw een a rich set o f overlapping features. To build a classiíication m odel, we use
SVM classiíication m odel in the W E K A tools.
T he follow ing result are obtained using 10 foldscross validation,
We apply them in a dependency tree recursively starting from the root node. If the PO S-tags
o f a node m atches the left-hand~side o f the rule,
the rule is applied and the order o f the sentence
is changed. W e go through all the chilđren o f the
node and m atching rules for them from the set of
autom atically rules.
Table 4 gives exam pies o f original and preprocessed phrase in English. The first line is the
original English: " Ị ’ra looking at a new jew elry site
and the target V ietnam ese reordering
" Tôi đang xem một trang web mới về nữ_trang

9

This sentences is arranged as the Vietnamese
order. V ietnam ese sentences are the output of
our m ethod. As you can see, after reordering, the
original English line has the same word order: " I
’m looking at a site nevv jew elry in Figure 1.
6. E xperim ental Results
6.1. Data set and Experim ental Setup
For evaluation, we used an V ietnam ese-English
corpus [25], including about 131236 pairs for
training, 1000 pairs for' testing and 400 pairs for
developm ent test set. Table 2 gives m ore statistical iníorm ation about our corpora. We conducted
some experim ents w ith SM T M oses D ecoder [11]
and SRILM [26]. We trained a trigram language
model using interpolate and kndiscount smoothing with V ietnam ese m ono corpus. Beíore extracting phrase table, we use G IZA ++ [3] to build

word alignm ent with grow -diag-final-and algorithm . Besides using preprocessing, we also used
default reordering m odel in M oses Decoder: using w ord-based extraction (wbe), splitting type of
reordering orientation to three classes (monotone,
swap and discontinuous - msd), com bining back-

ward and forward direction (bidirectional) and
m odeling base on both source and target language
(fe) [11]. To contrast, we tried preprocessing the
source sentence with manual rules and autom atic
rules.
We im plem ented as follows:
• We used Staníord Parser [24] to parse
source sentence and apply to preprocessing
source sentences (English sentences).
• We used classifier-based preordering by using SVM classiíication model [22] in W eka
tools [23] for training the features-rich discrim inative classifiers to extract autom atic
rules and apply them for reordering words ÍĨ1
English sentences according to Vietnam ese
word order.
• We im plem ented preprocessing step during
both training and decoding time.
• Using the SM T M oses decoder [11] for decoding.


10

T. H. v ie ie t ai / VNU J o u m a l o f Science: Comp. Science & Com. Eng., Voi. 31, No. 3(2 0 1 7 ) 1-13

We give som e deíinitions for our experim ents:
• Baseline: use the baseline phrase-based

SM T system using the lexicalized reordering
m odel in M oses toolkit.
• M anual Rules: the phrase-based SM T system s applying manual rules [27].
• A u to R u les : the phrase-based SM T systems
applying autom atic rules [28].
• A u to R u les + Manual Rules: the phrasebased SM T systems applying autom atic
rules, then applying m anual rules.

6.2. Using M anual Rules
In this section, we present our experim ents to
translate from English to V ietnam ese in a statistical m achine translation system. We used Stanford
Parser [24] to parse source sentence and apply
to preprocessing source sentences (English sentences). A ccording to typical differences o f w ord
order betw een English and V ietnam ese, we have
created a set o f dependency-based rules for reordering w ords in English sentence according to
V ietnam ese word order and types o f rules including noun phrase, adjectival and adverbial phrase,
preposition w hich is described in table 1.
6.3. Using A utom atic Rules
We present our experim ents to translate from
English to V ietnam ese in a statistical m achine
translation system. In hence, the language pair
chosen is English-V ietnam ese. We used Staníord
Parser [24] to parse source sentence (English sentences).
We used dependency parsing and rules extracted from training the features-rich discrim inative classifiers for reordering source-side sentences. T he rules are autom atically extracted from
English-V ietnam ese parallel corpus and the dependency parser o f English examples. Finally,
they used these rules to reorder source sentences. W e evaluated our approach on EnglishV ietnam ese m achine translation tasks w ith system s in table 5 vvhich shows thát it can outperform
the baseline phrase-based SM T system.

6.4. B L E U score
The result o f our experim ents in table 6 shovved

size o f phrase tables built from translation model
base on our method. In this method, vve can find
out varíous phrases in the translation m odel. So
that, they enable us to have m ore options for decoder to generate the best translation.
Table 7 describes the BLEU score o f our experiments. As we can see, by applying preprocessing
in both training and decoding, the BLEU score of
"Auto Rules" system is lower by 0.49 point than
"M anual Rules" system. This result ỉs due to the
fact that m anual rules have better quality than autom atic rules. However, "Auto Rules + M anual
Rules" system is the best system because applying
the com bination rules can cover much linguistic
phenom ena.
The above result proved that the effect o f applying transíorm ation rule base on the dependency
parse tree.

7. Analysis and D ỉscussion
We have found that in our experim ents work
is sufficiently correlated to the translation quality done manually. Besides, we also have found
some errors cause such as parse tree source sentence quality, word alignm ent quality and quality o f corpus. All the above errors can effect automatic reordering rules. Table 9 shovved the
translation output examples are better than baseline system produced by our system for the input sentences from English-Vietnaraese test set.
Go here for m ore examples o f translations for input sentences sam pled random ly from our corpus.
Sorae phrases in English source sentence were reordered corresponding to Vietnam ese target sentence order. We focus m ainly on some typical relations as noun phrase, adjectival and adverbial
phrase, preposition and created manually written reordering rule set for Engíish-Vietnam ese


T. H. Vịẹt et al / VNU Joưrnal o f Science: Comp. Science & Com. Eng., Vol. 31, No. 3 (2017) 1-13

Name
Baseline
Manual Rules

Auto Rules
Auto Rules + Manual Rules

11

Description
Phrase-based system
Phrase-based system with corpus
which preprocessed using manual rules
Phrase-based system with corpus which preprocessed using
automatic learning rules
Phrase-based system with corpus which preprocessed using
automatic learning rules and manual rules

Table 5: Our experimental systems on English-Vietnamese parallel corpus

Name
Baseline
Manual Rules
Auto Rules
Auto Rules + Manual Rules

Size of phrase-table
1152216
1231365
1213401
1253401

Table 6: Size o f phrase tables


System
Baseline
Manual Rules
Auto Rules
Auto Rules + Manual Rules

BLEU (%)
36.89
37.71
37.12
37.85

Number
children of head
1
2
3
4
5
6
7
8
9

Number

Description

79142
40822

26008
15990
7442
2728
942
307
83

Family has 1 children
Fami]y has 2 children
Family has 3 children
Family has 4 children
Family has 5 children
Family has 6 children
Family has 7 children
Family has 8 children
Family has 9 children

Table 8: Statistical number of íamily on corpus
English-Vietnamese

Table 7: Transiation períormance for the
English-Vietnamese task

analysis sentences and compared to the golden
language pair. O ur study em ployed dependency
syntactic and transform ation rules to reorder the
source sentence and applied to English to Vietnam ese translation systems.
For exam ple, with noun phrase, there always
exists a head noun and the com ponents beíòre and

after it. These auxiliary coraponents will move to
new positions according to V ietnam ese translational order. These rules can popular source linguistic phenom ena equivalent to target language
ones as follows:
• The phrase-based systems applyịng rules
with category JJ or JJS
• The phrase-based systems applying rules
w ith category NN or NNS
• The phrase-based systems applying rules
w ith category LN or TO
Based on these phenom ena, translation quality
has significantly improved. We carried out error

reordering. O ur analysis has also the benefits of
autom atic reordering rules on translation quality.
In com bination with machine leam ing m ethod in
relateđ work [7], it is shown that applying classiíier m ethod to solve reordering problem s automatically.
According to typical differences o f word order between English and Vietnam ese, we have
created a set o f autom atic rules for reordering
words in English sentence according to Vietnam ese word order and types o f rules including
noun phrase, adjectival and adverbial phrase, as
well as preposition phrase. Table 8 gives statistical fam ilies w hich have larger or equal 4 children
in our corpus. The num ber o f children in each
íam ily has lim ited 4 children in our approach. So
in target language (Vietnam ese), the num ber of
children in each íam ily is the same.
The m anual rules have good quality [5, 13],
the phrase-based SM T systems applying manual
rules is better than the phrase-based SM T sys-



×