Tải bản đầy đủ (.pdf) (7 trang)

Dịch máy mạng neural Anh - Việt theo chủ đề

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (523.56 KB, 7 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0087

DỊCH MÁY MẠNG NEURAL ANH - VIỆT THEO CHỦ ĐỀ
Hồng Trung Chính1, Nguyễn Hồng Bửu Long1, Lương An Vinh2
Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
2
Khoa Cơng nghệ Thơng tin, Đại học Cơng nghệ Sài Gịn

1

, ,
TĨM TẮT: Trong những năm gần đây, dịch máy mạng neural đã và đang được áp dụng vào nhiều lĩnh vực khác nhau và
đạt được nhiều thành tựu đáng kể. Trong lĩnh vực dịch máy theo chủ đề, mặc dù dịch máy mạng neural đã đạt được nhiều kết quả
cao, tuy nhiên, mơ hình vẫn cần được huấn luyện bởi nguồn dữ liệu được dịch bởi con người vốn tốn nhiều chi phí và thời gian.
Trong bài báo này, chúng tôi nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế.
Việc chọn lọc dữ liệu giàu thơng tin trước khi tinh chỉnh một mơ hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn
dữ liệu nghèo thơng tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. Cụ thể hơn, chúng tôi thử nghiệm phương pháp
chọn lọc mới và đạt được kết quả tốt hơn từ 0,47 đến 2,31 điểm BLEU trong các bộ ngữ liệu Anh - Việt khác nhau.
Từ khóa: Dịch máy, dịch máy mạng neural, dịch máy theo chủ đề.

I. GIỚI THIỆU
Dịch máy mạng neural (Neural Machine Translation - NMT) là một phương pháp dịch máy rất phổ biến trong
những năm gần đây, phương pháp này để đạt được kết quả cao đòi hỏi mơ hình cần được huấn luyện trên một lượng dữ
liệu song ngữ rất lớn. Chất lượng của bản dịch phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu huấn luyện thông
thường được dịch bởi con người. Việc tìm nguồn dữ liệu song ngữ vốn đã khó với các chủ đề mang tính phổ thơng như
tin tức, báo chí,… nhưng trong nhiều chủ đề chun mơn khác, nguồn dữ liệu lại càng khan hiếm địi hỏi chi phí rất lớn
cho việc xây dựng bộ ngữ liệu chất lượng cao.
Nhằm giảm bớt chi phí cũng như tăng hiệu quả của các mơ hình dịch máy trong các chủ đề đặc thù, một trong
những phương pháp phổ biến thường được sử dụng là tinh chỉnh (fine-tune) [1], [2] một mô hình tiền huấn luyện bằng
một lượng nhỏ dữ liệu thuộc chủ đề đặc thù. Ví dụ chúng ta có một mơ hình dịch máy được huấn luyện từ một triệu


cặp câu song ngữ thuộc chủ đề tin tức. Mơ hình này sẽ đạt được kết quả rất cao nếu câu cần dịch (input) thuộc cùng
chủ đề tin tức, nhưng kết quả có thể rất thấp nếu thuộc một chủ đề đặc thù nào khác như Pháp luật (vốn đã không được
huấn luyện trước đó). Do điều kiện hạn chế về tài ngun (thời gian, tiền bạc,…) nên khơng có nhiều dữ liệu về các
chủ đề đặc thù trên, do đó phương án tinh chỉnh lại mơ hình dịch máy chủ đề tin tức bằng một lượng nhỏ dữ liệu thuộc
chủ đề khác (ví dụ: Pháp luật) dễ thực thi hơn do có chi phí thấp hơn.
Câu hỏi được đặt ra: vậy lượng nhỏ dữ liệu để tinh chỉnh nên được lựa chọn như thế nào để mơ hình đạt được
kết quả tốt nhất? Trong bài báo này chúng tôi sẽ trình bày một phương pháp nhằm chọn lọc dữ liệu giàu thơng tin để
tinh chỉnh mơ hình dịch máy sẵn có. Chúng tơi thử nghiệm trên cặp ngơn ngữ Anh - Việt của chủ đề Pháp luật và Biến
đổi khí hậu. Kết quả cho thấy phương pháp này có thể thực hiện được với chi phí thấp, hiệu quả cải thiện với chất
lượng bản dịch tăng 0,47 đến 2,31 điểm BLEU [3].
Bài báo được trình bày với cấu trúc: Phần I giới thiệu chung. Phần II giới thiệu các nghiên cứu liên quan. Trong
phần III chúng tơi trình bày phương pháp đề xuất. Phần IV trình bày các thử nghiệm và kết quả. Kết luận và hướng
phát triển được tóm tắt trong phần V.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trước đây, các nghiên cứu về dịch máy theo chủ đề [4], [5], [6] được thực hiện bằng phương pháp dịch máy
thống kê (Statistical Machine Translation - SMT). Trong những năm gần đây, với sự trỗi dậy của phương pháp dịch
máy mạng neural, rất nhiều nghiên cứu [7], [8], [9], [10] chỉ ra rằng dịch máy mạng neural đạt được kết quả tối ưu
trong nhiều nhiệm vụ liên quan đến dịch thuật.
Có khá nhiều bài báo nghiên cứu về đề tài dịch máy mạng neural theo chủ đề. Nghiên cứu [11] đưa ra một
phương pháp nhằm chọn ra những cặp câu song ngữ có nội dung gần với chủ đề mong muốn, sau đó tiến hành huấn
luyện trên dữ liệu đó. Cách làm này tương đối đơn giản để có được mơ hình nhưng địi hỏi phải huấn luyện từ đầu,
khơng có sự kế thừa từ những mơ hình sẵn có. Nhóm tác giả [1] trình bày một phương pháp mang tên “mixed fine
tuning” (kết hợp giữa fine tuning và multi domain). Nhóm đã huấn luyện mơ hình bằng dữ liệu thuộc lĩnh vực đặc thù
và tinh chỉnh mơ hình bằng dữ liệu được trộn từ lĩnh vực đặc thù và lĩnh vực khác, để rồi giải quyết được vấn đề quá
khớp (over-fitting) trong việc tinh chỉnh. Công bố [12] đề xuất một phương án nhằm chọn lựa dữ liệu giàu thông tin
trong lĩnh vực đặc thù nhằm tinh chỉnh mơ hình của lĩnh vực khác đã được huấn luyện trước đó. Kết quả chứng minh
rằng việc lựa chọn dữ liệu giàu thơng tin giúp mơ hình đạt được kết quả tốt hơn so với việc chọn lựa dữ liệu một cách
ngẫu nhiên.



Hồng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh

441

Các nghiên cứu trên đa phần áp dụng với những cặp ngôn ngữ phổ biến như Anh - Pháp, Anh - Nhật, Đức Anh,… Gần đây nhóm tác giả [13] đã trình bày một phương pháp nhằm áp dụng dịch máy mạng neural theo chủ đề với
cặp ngôn ngữ Anh - Việt. Nhóm đã dịch các câu tiếng Anh (input) từ miền đặc thù sang các câu tiếng Việt (output)
bằng một mơ hình được huấn luyện với dữ liệu trong lĩnh vực tổng quan, sau đó input và output được huấn luyện nhằm
tạo ra một mơ hình có khả năng dịch theo chủ đề đặc thù. Phương pháp này dễ thực hiện, không cần nguồn dữ liệu song
ngữ trong lĩnh vực đặc thù nhưng có khả năng đạt kết quả khơng cao khi các lĩnh vực có sự khác biệt từ vựng quá lớn.
III. PHƯƠNG PHÁP ĐỀ XUẤT
A. Tổng quan dịch máy mạng neural



Cấu trúc một hệ dịch máy mạng neural gồm 2 phần:
Encoder (Mã hóa): nhận thơng tin từ câu cần dịch rồi trả về một chuỗi số đại diện (vector).
Decoder (Giải mã): xử lý vector đầu vào và trả về bản dịch của ngơn ngữ đích.
Q trình encoder - decoder được minh họa ở Hình 1.

I love cat

Encoder

0.5
0.2
-0.1
-0.3
0.4
12


Tơi u mèo

Decoder

Hình 1. Kiến trúc Encoder-Decoder

Khơng giống như phương pháp dịch máy thống kê: tách từng từ hoặc cụm từ, dịch máy mạng neural sử dụng
toàn bộ câu khi dịch, do đó lấy được những thơng tin liên quan giữa các từ với nhau như loại từ, trật tự từ,… vốn là
những đặc trưng của từng ngơn ngữ.
Bộ mã hóa và giải mã có thể lựa chọn nhiều kiến trúc mơ hình khác nhau, mơ hình phổ biến hiện nay được
nhiều người sử dụng là kiến trúc Transformer [14].
Tôi yêu mèo <eos>
Softmax
Linear
Decoder

Encoder

Decoder


Add & Norm
Encoder

Feedforward

Add & Norm

Add & Norm


Feedforward

Multi-Head Attention

Add & Norm

Add & Norm

Multi-Head Attention

Masked Multi-Head

Positional Encoding

Positional Encoding

Embedding

Embedding

I love cat

<sos> Tơi u

Hình 2. Kiến trúc mơ hình Transformer


DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ

442


B. Tổng quan phương pháp nhúng câu
Nhúng câu (Sentence Embeding) là một kỹ thuật cho phép biểu thị toàn bộ câu và thông tin ngữ nghĩa của
chúng dưới dạng vector. Điều này giúp máy hiểu ngữ cảnh và các sắc thái khác nhau trong văn bản.
Có nhiều phương pháp nhúng câu: sử dụng các phép toán trên vector và ma trận như nghiên cứu [15], [16], [17];
sử dụng mạng neural hồi quy RNN như [18], [19].
Nghiên cứu [20] trình bày về một phương pháp nhúng câu đơn giản mang tên SIF. SIF sử dụng một mơ hình có
sẵn để ánh xạ câu cần dịch thành các các vector, sau đó tinh chỉnh các vector đó bằng các trọng số lấy từ một kho ngữ
liệu không gán nhãn, cuối cùng điều chỉnh chúng với PCA/SVD. Bằng cách đơn giản này, SIF tạo ra các vector từ các
mơ hình có sẵn một cách nhanh chóng.
SBERT (Sentence-BERT) [21] là một phương pháp nhúng câu được tạo ra bằng cách tinh chỉnh mơ hình BERT.
Để làm điều đó, kiến trúc mạng siamese và triplet được sử dụng nhằm nhằm cập nhật các trọng số của BERT, từ đó tạo
ra các vector có ý nghĩa về mặt ngữ nghĩa (những câu có ngữ nghĩa gần nhau sẽ có vector tương ứng gần nhau trong
khơng gian vector).
Cả SIF và SBERT đều được chúng tôi sử dụng cho quá trình nhúng câu trong bài báo này.
C. Phương pháp đề xuất
Nhóm chúng tơi trình bày một phương pháp kế thừa từ [12], áp dụng với cặp ngôn ngữ Anh - Việt. Phương
pháp này mơ tả như Hình 3, gồm các giai đoạn:
Giai đoạn 1: Huấn luyện mơ hình tổng quan. Chúng tôi sử dụng một lượng lớn dữ liệu thuộc chủ đề tổng quan
để huấn luyện mơ hình dịch máy mạng neural, thu được một mơ hình (gọi là mơ hình tổng quan).
Giai đoạn 2: Chọn lọc dữ liệu tinh chỉnh. Đặt giả thiết chúng tơi có sẵn một bộ ngữ liệu đơn ngữ thuộc chủ đề
đặc thù, các ngữ liệu này được chọn lọc rồi được dịch sang ngơn ngữ đích bởi con người. Việc chọn lọc là cần thiết bởi
vì chi phí để th người dịch rất lớn, không thể dịch tất cả câu trong bộ ngữ liệu mà phải chọn lọc ưu tiên để dịch
những câu giàu thông tin.
Giai đoạn 3: Tinh chỉnh. Dữ liệu thu được trong giai đoạn 2 được dùng để tinh chỉnh mơ hình tổng quan, kết quả
thu về mơ hình đặc thù. Mơ hình này cho phép dịch các văn bản thuộc chủ đề đặc thù đạt được chất lượng cao hơn so
với mơ hình tổng quan.
Ngữ liệu song ngữ

Ngữ liệu đơn ngữ


Chủ đề tổng quan
0
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠


𝑛𝑛
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

0
𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑


𝑛𝑛
𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑

Chủ đề đặc thù
0
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠


𝑚𝑚
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

Huấn luyện

0
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠



𝑚𝑚−𝑗𝑗
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

0
𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑


𝑚𝑚−𝑗𝑗
𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑

Dịch bởi
con người
Chọn lọc

Tinh chỉnh

Mơ hình
tổng quan

Mơ hình
đặc thù

Hình 3. Minh họa phương pháp đề xuất

Trong [12], nhóm tác giả đã chứng minh được việc chọn lọc dữ liệu tinh chỉnh (giai đoạn 2) giúp đạt được mơ
hình tốt hơn so với chọn lọc ngẫu nhiên. Vậy nên bài báo này chúng tôi sẽ không đề cập đến chọn lọc ngẫu nhiên, thay
vào đó sẽ so sánh phương pháp chọn lọc chúng tôi đề xuất với phương pháp của tác giả. Cụ thể hơn, chúng tơi sử dụng
SBERT 1 cho q trình nhúng câu và so sánh kết quả đạt được với cơng cụ SIF 2 mà tác giả đã trình bày.
0F


1

/>
1F


Hồng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh

443

Tuy cùng thử nghiệm trên cặp ngôn ngữ Anh - Việt nhưng hướng tiếp cận của chúng tơi và [13] hồn toàn khác.
Nghiên cứu [13] chỉ sử dụng ngữ liệu đơn ngữ để tinh chỉnh mơ hình, trong khi đó chúng tôi lựa chọn ngữ liệu song
ngữ giàu thông tin cho quá trình tinh chỉnh.
IV. THỰC NGHIỆM VÀ KẾT QUẢ
A. Dữ liệu
Chúng tôi sử dụng bộ ngữ liệu TED thuộc chủ đề tin tức làm ngữ liệu cho chủ đề tổng quan. Bộ ngữ liệu TED
được cung cấp bởi CLC 3 là tổng hợp những bài diễn thuyết trên . Với chủ đề đặc thù chúng tôi
chọn hai bộ ngữ liệu thuộc hai chủ đề Pháp luật (Law) và Biến đổi khí hậu (Climate). Hai bộ ngữ liệu này được chúng
tơi xây dựng thủ công từ .
2F

Cả 3 bộ ngữ liệu chúng tôi đều không sử dụng phân đoạn từ Tiếng Việt. Chi tiết thống kê các bộ ngữ liệu được
liệt kê trong Bảng 1.
Bảng 1. Thống kê các bộ ngữ liệu

SỐ CẶP CÂU
TED
Law
Climate


82,899
17,000
400

SỐ TỪ TRUNG BÌNH CÂU 4
Tiếng Anh
Tiếng Việt
19.6
23.6
22.1
28.6
21.8
30.4

CHỦ ĐỀ

3F

Tin tức (chủ đề tổng quan)
Pháp luật (chủ đề đặc thù)
Biến đổi khí hậu (chủ đề đặc thù)

Với bộ ngữ liệu TED, chúng tôi chia làm 3 phần với tỉ lệ 8:1:1. Phần để huấn luyện chiếm 80%, 10% cho việc
thẩm định (validation), còn lại cho việc kiểm thử (test).
Do số cặp câu của hai bộ ngữ liệu Law và Climate khác nhau, vậy nên để công bằng: chúng tôi lấy ngẫu nhiên
400 cặp câu của 2 chủ đề (400 là số cặp câu tối đa bộ ngữ liệu Climate cho phép), sau đó chia theo tỉ lệ 8:2 với 80%
cho việc tinh chỉnh, 20% để kiểm thử.
B. Thực nghiệm
Để huấn luyện và tinh chỉnh các mơ hình, chúng tơi sử dụng công cụ OpenNMT 5 [22]. Đây là công cụ mã
nguồn mở được rất nhiều các nghiên cứu sử dụng. Mơ hình của chúng tơi sử dụng kiến trúc transformer cho cả bộ mã

hóa và giải mã. Chi tiết các tham số được liệt kê trong Bảng 2.
4F

Bảng 2. Các tham số huấn luyện/tinh chỉnh mơ hình

THAM SỐ
Layers
Heads
Learning rate
Size of hidden transformer feed-forward
Size of word embedding
Batch size
Size of rnn hidden states
Word embedding size for src and tgt
Dropout
Maximum batches of words in a sequence to run the generator on in parallel
Batch type
Normalization method of the gradient
Accumulate count
Optimization method
The beta2 parameter used by Adam
Decay method
Number of training steps
Tồn bộ q trình được thực hiện qua 2 giai đoạn:

2

/>Trung tâm Ngôn ngữ học Tính Tốn, Trường Đại học Khoa học Tự nhiên Tp.HCM.
4
Ranh giới từ là khoảng trắng giữa các từ.

5
.
3

GIÁ TRỊ
6
8
2
2014
512
4096
512
512
0,1
2
tokens
tokens
2
adam [23]
0,998
noam
30000


DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ

444

Giai đoạn 1: Huấn luyện mơ hình tổng quan với các tham số trong Bảng 2. Việc huấn luyện được thực hiện
bằng NVPA P100 GPU của Google Colab 6.

5F

Giai đoạn 2: Chọn lọc dữ liệu tinh chỉnh: Chúng tôi sử dụng lại phương pháp chọn lọc của [12] gồm các bước:
- Bước 1: Thực hiện nhúng câu với cả 3 bộ ngữ liệu. Ngồi việc sử dụng cơng cụ SIF như bài báo gốc, chúng
tôi cũng thử nghiệm thêm với SBERT. Với cơng cụ SIF, mơ hình tiền huấn luyện được sử dụng là glove.6B 7,
trọng số đếm từ (word count) được lấy từ những bài báo trong bộ ngữ liệu của Wikipedia 8. Với SBERT,
chúng tơi sử dụng mơ hình tiền huấn luyện stsb-bert-large.
6F

7F

- Bước 2: Tính độ tương đồng. Với bộ ngữ liệu thuộc chủ đề tổng quan, chúng tơi tính vector trung bình của tất
cả dữ liệu (𝑒𝑠𝑠𝑒𝑓 ), sau đó tính độ tương đồng cosine 𝑒𝑠𝑠𝑒𝑓 với tất cả các câu (𝑠𝑠𝑖 ) của cả 3 bộ ngữ liệu.
Độ tương đồng cosine�𝑠𝑠𝑖 , 𝑒𝑠𝑠𝑒𝑓 � =

𝑠𝑠𝑖 ∙ 𝑒𝑠𝑠𝑒𝑓

‖𝑠𝑠𝑖 ‖ × �𝑒𝑠𝑠𝑒𝑓 �

Kết quả phân bố dữ liệu sau khi tính độ tương đồng được biểu diễn trong Hình 4.

- Bước 3: Chọn lọc dữ liệu. Tìm ngưỡng 25% và 75% dựa vào sự phân bố của bộ ngữ liệu tổng quan. Sau đó,
ứng với mỗi bộ ngữ liệu: chọn ra những câu dưới ngưỡng 25% và trên 75%. Sự lựa chọn này tương đương với
việc chọn ra những câu có độ tương đồng gần nhất và xa nhất so với những câu thuộc chủ đề tổng quan. Sau
khi lựa chọn, số lượng các câu còn lại được thống kê trong Bảng 3.

Hình 4. Ước tính mật độ hạt nhân cho sự phân bố độ tương đồng Cosine giữa các bộ ngữ liệu và eref. Hai đường kẻ nét đứt màu
xanh thể hiện tỉ lệ 25% và 75% của phân bố chủ đề tổng quan (TED). Hình bên trái sử dụng SIF, bên phải sử dụng SBERT.
SIF tạo ra sự phân bố trong [-1, 1] trong khi các giá trị của SBERT đều thuộc [0, 1]
Bảng 3. Thống kê số lượng cặp câu trước và sau khi chọn lọc


Law
Climate

TRƯỚC KHI
CHỌN LỌC
(A)
320
320

SAU KHI
CHỌN LỌC (B)
SIF
SBERT
118
117
120
191

TỈ LỆ %
(B/A)
SIF
SBERT
36.8 %
36.6 %
37.5 %
59.7 %

Giai đoạn 3: Tinh chỉnh mơ hình với những tham số của giai đoạn huấn luyện (giai đoạn 1).
C. Kết quả

Kết quả thử nghiệm của chúng tơi (Hình 5) chứng tỏ việc lựa chọn dữ liệu bằng SBERT tốt hơn so với SIF. Cụ
thể, đối với bộ ngữ liệu Law: SBERT chỉ kém hơn SIF tại 3 điểm là 5 epoch/100 câu, 10 epoch/50 câu và 15 epoch/50
câu, 9 điểm còn lại SBERT đều chứng tỏ vượt trội hơn, trung bình SBERT tăng hơn 0,47 điểm BLEU so với SIF.
Với bộ ngữ liệu Climate: Ngoại trừ 2 điểm 5 epoch/50 câu, 20 epoch/100 câu của 2 phương pháp xấp sỉ ngang
bằng nhau, tất cả các điểm còn lại của SBERT đều cao hơn, trung bình SBERT tăng 2,31 điểm BLEU so với SIF.

6


/>8
/>7


Hồng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh

445

Hình 5. Điểm BLEU của hai phương pháp sử dụng SIF và SBERT ứng với hai bộ ngữ liệu Law và Climate

Trong cả 2 bộ ngữ liệu, điểm BLEU trung bình của mỗi epoch của SBERT đều cao hơn so với SIF. Chi tiết
được thống kê trong Bảng 4.
Bảng 4. Trung bình điểm BLEU

TRUNG BÌNH EPOCH
10
15

5
Law
Climate


TRUNG BÌNH

20

SIF

SBERT

SIF

SBERT

SIF

SBERT

SIF

SBERT

SIF

SBERT

4.35
13.37

4.6
13.83


3.37
10.40

3.65
13.44

1.25
4.16

1.57
7.05

1.09
5.13

2.12
7.95

2.51
8.26

2.98
10.57

V. KẾT LUẬN
Trong bài báo này, chúng tôi sử dụng dịch máy mạng neural vào trong việc dịch theo chủ đề. Bằng cách cải tiến
phương pháp sẵn có, chúng tơi chọn lựa dữ liệu giàu thơng tin cho việc tinh chỉnh mơ hình chủ đề tổng quan để có
được mơ hình chủ đề đặc thù. Qua các thí nghiệm, chúng tơi đạt được những cải thiện rõ rệt về chất lượng kết quả dịch
máy mạng neural theo chủ đề.

Trong tương lai, chúng tôi sẽ tiếp tục nghiên cứu để thử nghiệm với chiều dịch Việt - Anh, cũng như mở rộng
với những chủ đề khác như chính trị, tơn giáo,… Chúng tơi sẽ bổ sung ngữ cảnh của câu cần dịch để tăng cường chất
lượng bản dịch. Ngồi ra chúng tơi cũng sẽ khảo sát thêm về các ngưỡng phân bố dữ liệu khác (10%, 20%, 80%, 90%),
thử nghiệm với số lượng epoch lớn hơn, từ đó rút ra mối tương quan giữa điểm BLEU và ngưỡng phân bố, số lượng
epoch, chủ đề của dữ liệu.
TÀI LIỆU THAM KHẢO
[1] Chenhui Chu, Raj Dabre, Sadao Kurohashi, “An empirical comparison of domain adaptation methods for neural machine
translation”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short
Papers), 2017.
[2] Haoran Xu, Seth Ebner, Mahsa Yarmohammadi, Aaron Steven White, Benjamin Van Durme, Kenton Murray, “Gradual FineTuning for Low-Resource Domain Adaptation”, 2021.


446

DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ

[3] Kishore Papineni, Salim Roukos, Todd Ward, WeiJing Zhu, “BLEU: A method for automatic evaluation of machine
translation”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, 2002.
[4] Philipp Koehn, Josh Schroeder, “Experiments in domain adaptation for statistical machine translation”, StatMT '07:
Proceedings of the Second Workshop on Statistical Machine Translation, 2007.
[5] Nicola Ueffing, Gholamreza Haffari, Anoop Sarkar, “Semi-supervised model adaptation for statistical machine translation”,
2008.
[6] Nicola Bertoldi, Marcello Federico, “Domain adaptation for statistical machine translation with monolingual resources”, 2009.
[7] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, “Neural machine translation by jointly learning to align and translate”,
2014.
[8] Sébastien Jean, Kyunghyun Cho, Roland Memisevic, Yoshua Bengio, “On using very large target vocabulary for neural
machine translation”, 2014.
[9] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, Hang Li, “Modeling coverage for neural machine translation”, 2016.
[10] Haitao Mi, Zhiguo Wang, Abe Ittycheriah, “Vocabulary manipulation for neural machine translation”, in Proceedings of the
54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Berlin, Germany, 2016.

[11] Rui Wang, Andrew Finch, Masao Utiyama, Eiichiro Sumita, “Sentence embedding for neural machine translation domain
adaptation”, vol. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short
Papers), p. 560-566, 2017.
[12] Marimuthu Kalimuthu, Michael Barz, Daniel Sonntag, “Incremental domain adaptation for neural machine translation in lowresource settings”, Proceedings of the 4th Arabic Natural Language Processing Workshop, 2019.
[13] Phạm Nghĩa Luân, Nguyễn Văn Vinh, Nguyễn Huy Hoàng, “Thích ứng miền trong dịch máy nơron cho cặp ngơn ngữ AnhViệt”, Kỷ yếu Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR), 2019.
[14] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin,
“Attention is all you need”, 2017.
[15] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin, “A neural probabilistic language model”, Journal of
Machine Learning Research, 2003.
[16] Jeff Mitchell and Mirella Lapata, “Vector-based models of semantic composition”, Association for Computational Linguistics,
2018.
[17] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean, “Distributed representations of words and phrases
and their compositionality”, Advances in Neural Information Processing Systems, 2013.
[18] Richard Socher, Eric H Huang, Jeffrey Pennin, Christopher D Manning, and Andrew Y Ng, “Dynamic pooling and unfolding
recursive autoencoders for paraphrase detection”, Advances in Neural Information Processing Systems, 2011.
[19] Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, and Andrew Y Ng, “Grounded compositional
semantics for finding and describing images with sentences”, Transactions of the Association for Computational Linguistics,
2014.
[20] Sanjeev Arora, Yingyu Liang, Tengyu Ma, “A simple but tough-to-beat baseline for sentence embeddings”, ICLR, 2017.
[21] Nils Reimers, Iryna Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, Conference on
Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing,
Hong Kong, China, 2019.
[22] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, Alexander M. Rush, “OpenNMT: open-source toolkit for neural
machine translation”, 2017.
[23] Diederik P. Kingma, Jimmy Lei Ba, “Adam: A method for stochastic optimization”, 2015.

DOMAIN ADAPTATION FOR ENGLISH - VIETNAMESE NEURAL MACHINE TRANSLATION
Hoang Trung Chinh, Nguyen Hong Buu Long, Luong An Vinh
ABSTRACT: In recent years, neural machine translation has been applied in many different fields and has achieved many
remarkable achievements. In domain adaptation, although neural machine translation has achieved many results, the model still

needs to be trained by the human-translated data source which is expensive and time-consuming. In this paper, we study a method
to increase the quality of domain translation with limited resources. Selecting information-rich data before fine-tuning a pretrained
model achieves higher accuracy than selecting information-poor data, which in turn saves costs in manual translation. More
specifically, we tested the new selection method and got better results from 0.47 to 2.31 BLEU score in English - Vietnamese corpus.



×