Tải bản đầy đủ (.pdf) (158 trang)

Luận án Tiến sĩ Toán học: Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh ứng dụng cho dịch máy theo miền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.96 MB, 158 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
———————

NGUYỄN TIẾN HÀ

NGHIÊN CỨU XÂY DỰNG
TÀI NGUYÊN SONG NGỮ VIỆT-ANH
ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
———————

NGUYỄN TIẾN HÀ

NGHIÊN CỨU XÂY DỰNG
TÀI NGUYÊN SONG NGỮ VIỆT-ANH
ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN

Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 9460117.02

LUẬN ÁN TIẾN SĨ TOÁN HỌC



NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Thị Minh Huyền
2. PGS.TS. Nguyễn Hữu Ngự

Hà Nội - 2020


LỜI CAM ĐOAN

Tơi xin cam đoan các nội dung trình bày trong luận án này là kết quả nghiên
cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Nguyễn Thị Minh Huyền
và PGS. TS. Nguyễn Hữu Ngự. Các nội dung trích dẫn từ các nghiên cứu của
các tác giả khác trình bày trong luận án này được ghi rõ nguồn trong phần tài
liệu tham khảo.

Nguyễn Tiến Hà


LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Thị Minh Huyền và PGS.TS.
Nguyễn Hữu Ngự đã trực tiếp hướng dẫn, chỉ bảo tận tình, ln hỗ trợ và tạo
những điều kiện tốt nhất cho tôi trong q trình học tập và nghiên cứu.
Tơi xin gửi lời cảm ơn đến các thầy/cơ giáo ở Khoa Tốn - Cơ - Tin học,
Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các
thầy/cô giáo ở Bộ môn Tin học, những người đã trực tiếp giảng dạy và giúp đỡ
tơi trong q trình học tập và nghiên cứu ở trường.
Tôi xin gửi cảm ơn đến TS. Nguyễn Văn Vinh, PGS. TS. Nguyễn Phương
Thái, PGS. TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia

Hà Nội; TS. Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS. TS.
Lê Thanh Hương, TS. Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội;
PGS. TS Đỗ Trung Tuấn, TS. Đỗ Thanh Hà, TS. Lê Hồng Phương, PGS. TS.
Lê Trọng Vĩnh, TS. Nguyễn Thị Bích Thủy, TS. Vũ Tiến Dũng Trường Đại học
Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy/cơ đã có những góp ý
chỉnh sửa để tơi hồn thiện luận án.
Tơi xin gửi lời cảm ơn đến tất cả anh, chị, em ở Bộ môn Tin học, Khoa ToánCơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội và
Bộ môn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình,
các bạn bè, đồng nghiệp nơi tơi công tác đã luôn ủng hộ, chia sẻ, động viên và
khích lệ tơi học tập, nghiên cứu.


Mục lục

Danh mục các chữ viết tắt

4

Mở đầu

9

1 Tổng quan về dịch máy và tài nguyên ngôn ngữ
1.1

1.2


15

Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1

Lịch sử về dịch máy . . . . . . . . . . . . . . . . . . . . . . 16

1.1.2

Kiến trúc của hệ thống dịch máy . . . . . . . . . . . . . . . 19

1.1.3

Các phương pháp dịch máy . . . . . . . . . . . . . . . . . . 22

1.1.4

Các hệ thống dịch máy có thể sử dụng để thực nghiệm . . 30

1.1.5

Đánh giá các hệ thống dịch máy . . . . . . . . . . . . . . . 32

Tài nguyên ngôn ngữ cho hệ thống dịch máy . . . . . . . . . . . . 35
1.2.1

Tài nguyên đa ngữ cho dịch máy . . . . . . . . . . . . . . . 35

1.2.2


Tài nguyên song ngữ Việt-Anh . . . . . . . . . . . . . . . . 38

1.3

Thích ứng miền trong dịch máy . . . . . . . . . . . . . . . . . . . . 41

1.4

Các công cụ tiền xử lý văn bản . . . . . . . . . . . . . . . . . . . . 43

1.5

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu
theo miền
2.1

47

Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền . . . . . . . 48
2.1.1

Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu 48
1


2.1.2
2.2


2.3

Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch . 49

Dóng hàng văn bản song ngữ Việt-Anh . . . . . . . . . . . . . . . 52
2.2.1

Phương pháp dóng hàng văn bản song ngữ mức câu . . . . 52

2.2.2

Cải tiến cơng cụ dóng hàng câu XAlign . . . . . . . . . . . 54

Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ thống
dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.4

2.3.1

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 65

2.3.2

Một số lỗi của hệ thống dịch . . . . . . . . . . . . . . . . . 68

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3 Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh
3.1


72

Xây dựng tự động kho từ vựng song ngữ Việt - Anh . . . . . . . . 73
3.1.1

Xây dựng kho từ vựng song ngữ . . . . . . . . . . . . . . . 73

3.1.2

Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh 77

3.1.3

Phương pháp xây dựng tự động từ vựng song ngữ ViệtAnh miền du lịch . . . . . . . . . . . . . . . . . . . . . . . . 79

3.1.4
3.2

Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 84

Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn ngữ tiếng
Việt dựa vào tập luật . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.2.1

Các công trình nghiên cứu có liên quan . . . . . . . . . . . 90

3.2.2

Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ

văn bản đơn ngữ tiếng Việt . . . . . . . . . . . . . . . . . . 93

3.2.3
3.3

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 104

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4 Khai thác kho ngữ liệu song ngữ Việt-Anh cho dịch máy
4.1

108

Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron . . . . . . . . 108
4.1.1

Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron . . 110

2


4.2

4.1.2

Phương pháp trích rút cụm từ ExtPhrase . . . . . . . . . 112

4.1.3


Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 115

Phương pháp sinh tự động chú giải tiếng Việt cho hình ảnh . . . . 119
4.2.1

Các cơng trình có liên quan đến sinh chú giải cho ảnh . . . 119

4.2.2

Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng
Việt cho ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4.3

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Kết luận

131

Danh mục cơng trình khoa học của tác giả liên quan đến luận án 133
Tài liệu tham khảo

135

3


Danh mục các chữ viết tắt


ALPAC

Automatic Language Processing Advisory Committee
(Hội đồng cố vấn xử lý ngôn ngữ tự động)

BiTES

Bilingual Term Extraction System
(Hệ thống trích rút thuật ngữ song ngữ)

BLEU

BiLingual Evaluation Understudy
(Chỉ số đánh giá chất lượng dịch song ngữ)

CNN

Convolutional Neural Network (Mạng nơ-ron tích chập)

DTW

Dynamic Time Warping
(Thuật tốn căn chỉnh thời gian động)

GRU

Gated Recurrent Unit (Đơn vị hồi quy cổng)

LSTM


Long Short Term Memory (Bộ nhớ dài ngắn hạn)

MI

Mutual Information (Thông tin tương hỗ)

NLP

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

NMT

Neural Machine Translation (Dịch máy mạng nơ-ron)

OPUS

The open parallel corpus (Kho ngữ liệu song song mở)

PBSMT Phrase-Based Statistical Machine Translation
(Dịch máy dựa trên cụm từ)
PER

Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí)

RNN

Recurrent Neural Network (Mạng nơ-ron hồi quy)

SMT


Statistical Machine Translation (Dịch máy thống kê)

SALM

Suffix Array tool kit for empirical Language Manipulations
(Công cụ lọc bảng cụm từ trong Moses)

4


TER

Translation Error Rate (Tỷ lệ lỗi dịch)

TV

Television (Truyền hình)

VLSP Vietnamese Language Speech Processing
(Xử lý ngơn ngữ và tiếng nói tiếng Việt)
WER

Word Error Rate (Tỷ lệ lỗi từ)

5


Danh sách hình vẽ
1.1


Tam giác Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2

Mơ hình dịch trực tiếp . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3

Mơ hình dịch qua ngơn ngữ trung gian

1.4

Mơ hình dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . 24

1.5

Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron . . . . . . 27

1.6

Cấu trúc của hệ thống dịch máy MOSES . . . . . . . . . . . . . . 30

3.1

Phương pháp xây dựng tự động từ vựng Việt-Anh . . . . . . . . . 77

3.2

Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch . . 82


3.3

Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng
Việt

3.4

. . . . . . . . . . . . . . . 22

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Mơ hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ
song ngữ Việt-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.1

Mơ hình chú ý tồn cục . . . . . . . . . . . . . . . . . . . . . . . . 111

4.2

Mơ hình chú ý cục bộ. . . . . . . . . . . . . . . . . . . . . . . . . . 111

4.3

Mơ hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống
dịch máy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.4

Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi

là câu tiếng Việt dài . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4.5

Mô hình chú giải tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . 123

4.6

So sánh chất lượng dịch máy với Google . . . . . . . . . . . . . . . 125
6


Danh sách bảng
2.1

Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập
được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.2

Giá trị penalty cho mỗi kiểu dóng hàng . . . . . . . . . . . . . . . 62

2.3

Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince" . . . . . 63

2.4

Dóng hàng trên kho ngữ liệu du lịch Việt-Anh . . . . . . . . . . . 63


2.5

Điểm BLEU của 6 hệ thống dịch . . . . . . . . . . . . . . . . . . . 67

2.6

Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra
gồm 10.000 câu tiếng Việt sang tiếng Anh, so với Hệ thống dịch
máy Google Translate năm 2017 . . . . . . . . . . . . . . . . . . . . 69

3.1

Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389
cặp câu song ngữ Việt – Anh . . . . . . . . . . . . . . . . . . . . . 86

3.2

Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu
CorTurism3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.3

Kết quả tra một số từ trong từ điển được xây dựng bằng phương
pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.4

Thống kê về trích rút ứng viên thuật ngữ . . . . . . . . . . . . . . 104

3.5


Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế . . . . . . . 105

3.6

Số lần áp dụng luật trên dữ liệu Wikipedia . . . . . . . . . . . . . 105

3.7

Đánh giá kết quả các cặp thuật ngữ thu được . . . . . . . . . . . . 105

3.8

Phân tích kết quả từ các cặp thuật ngữ được trích rút . . . . . . . 106

7


4.1

Thống kê kho ngữ liệu song ngữ

. . . . . . . . . . . . . . . . . . . 116

4.2

Kết quả trích rút cặp cụm từ song ngữ . . . . . . . . . . . . . . . . 116

4.3


Kết quả tiền xử lý câu dài trong dịch máy nơ-ron . . . . . . . . . 117

4.4

Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ . . . . . . . 119

4.5

Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ
tiếng Anh sang tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 125

4.6

Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh
sang tiếng Việt sử dụng kỹ thuật xử lý từ mới . . . . . . . . . . . 128

4.7

Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt . 130

8


MỞ ĐẦU

Từ xa xưa, con người đã có mong ước dùng máy móc để dịch văn bản từ ngơn
ngữ này sang ngôn ngữ khác. Đặc biệt trong giai đoạn hiện nay, các nước đều có
xu hướng hội nhập quốc tế sâu rộng. Trong q trình hội nhập, con người ln
có mong muốn nắm bắt các thông tin được viết từ các ngơn ngữ khác nhau một
cách nhanh chóng, do đó rất cần đến sự trợ giúp của các hệ thống dịch máy.

Ngày nay, với sự hỗ trợ mạnh mẽ của phần cứng máy tính và Internet, dịch
máy đã cho kết quả dịch có thể chấp nhận được và nhiều ứng dụng dịch đã được
đưa vào sử dụng: dịch tiếng nói; dịch tự động giữa nhiều ngôn ngữ khác nhau
(Google Translate hỗ trợ dịch giữa hơn 100 thứ tiếng khác nhau); dịch các phụ
đề phim; dịch các trang Web; . . . Chất lượng dịch máy ngày càng được cải thiện,
hứa hẹn sẽ mang đến nhiều ứng dụng trong nhiều lĩnh vực khác nhau.
Trong nghiên cứu xây dựng hệ thống dịch máy, có một số hướng tiếp cận
khác nhau, như: Dịch dựa trên luật, dịch dựa trên thống kê; dịch dựa vào mạng
nơ-ron; dịch dựa trên cơ sở tri thức. Trong các hướng tiếp cận này, tiếp cận dịch
máy dựa vào mạng nơ-ron được đánh giá là có ưu thế vượt trội và được kỳ vọng
là thu hẹp khoảng cách ngôn ngữ giữa con người và máy tính [116].
Các hệ thống dịch máy, đặc biệt là hệ thống dịch máy dựa vào thống kê hay
dựa vào mạng nơ-ron, rất cần đến một kho ngữ liệu song ngữ kích thước lớn
và có chất lượng để huấn luyện và nâng cao chất lượng dịch. Đã có nhiều cơng
trình nghiên cứu, đề xuất phương pháp xây dựng kho ngữ liệu song ngữ cho các
cặp ngơn ngữ. Ban đầu, các cơng trình tập trung vào nghiên cứu xây dựng kho
ngữ liệu cho từng cặp ngôn ngữ đơn lẻ:
Cơng trình của Resnik năm 1999 [87] đã xây dựng được kho ngữ liệu song
ngữ Anh-Pháp với 2.491 cặp văn bản, xấp xỉ 1, 5 triệu từ trên mỗi văn bản.
Cơng trình của Chang Baobao năm 2004 [10] đã xây dựng được kho ngữ liệu với

9


400.000 cặp câu. Cơng trình của Megyesi và cộng sự năm 2006 [12] đã xây dựng

được kho ngữ liệu xấp xỉ 15.000 từ tiếng Thụy Điển và 10.000 từ tiếng Thổ Nhĩ
Kỳ.
Các cơng trình nghiên cứu xây dựng kho ngữ liệu song ngữ gần đây tập trung
vào xây dựng kho ngữ liệu song song đa ngơn ngữ với kích thước lớn:

1. Cơng trình của Tiedemann năm 2016 [50], xây kho ngữ liệu OPUS dóng
hàng mức câu với trên 60 ngơn ngữ có tổng số 2,6 tỷ cặp câu. Dữ liệu trong
kho OPUS (The open parallel corpus) được thu thập từ Internet và chủ yếu
là từ phụ đề phim ảnh và phụ đề trên các chương trình TV (Television).
OPUS được xây dựng dựa trên các công cụ mã nguồn mở và chia sẻ trong
cộng đồng nghiên cứu.
2. Cơng trình của Abate và cộng sự năm 2018 [98] xây dựng được kho ngữ
liệu song song cho 7 cặp ngôn ngữ: (i)Amharic - Tigrigna: 34.349 cặp câu;
(ii)Amharic - Afan Oromo: 11.457 cặp câu; (iii) Tigrigna - Afan Oromo:
10.987 cặp câu; (iv) Amharic - Wolaytta: 9.400 cặp câu; (v) Ge’ez - Amharic:
11.546 cặp câu; (vi)Wolaytta - Afan Oromo: 2.923 cặp câu; (vii)Tigrigna -

Wolaytta: 2.504 cặp câu.
3. Cơng trình của Kenji Imamura và Eiichiro Sumita năm 2018 [55] đã xây
dựng kho ngữ liệu song song của 10 ngơn ngữ với kích thước lớn: (i)
Tiếng Nhật: 2.029.111 câu; (ii) Tiếng Anh: 2.029.111 câu; (iii) Tiếng Trung:
2.026.608 câu; (iv) Tiếng Hàn Quốc: 2.026.608 câu; (v) Tiếng Thái: 1.150.070

câu; (vi) Tiếng Việt: 1.150.070 câu; (vii) Tiếng In-đô-nê-xi-a: 1.150.070 câu;
(vii) Tiếng Ma-lai-xi-a: 1.150.070 câu; (ix) Tiếng Tây Ba Nha: 337.654 câu;
(x) Tiếng Pháp 340.499 câu.
Đối với tiếng Việt, đã có các đề tài, cơng trình nghiên cứu xây dựng kho ngữ
liệu song ngữ Anh-Việt như:
10


1. Kho ngữ liệu trong đề tài VLSP (Vietnamese Language Speech Processing)
nhánh đề tài xử lý văn bản1 có 100.000 cặp câu song ngữ Anh-Việt và đã
được chia sẻ cho cộng đồng nghiên cứu.
2. Kho ngữ liệu trong cơng trình "Trích rút văn bản song ngữ từ trang Web"

năm 2010 của Lê Quang Hùng và Lê Anh Cường [59] có trên 35.000 cặp câu.
3. Kho ngữ liệu trong cơng trình "Kho ngữ liệu song ngữ Anh - Việt EVBCorpus cho nghiên cứu các tác vụ trong Ngôn ngữ học so sánh" năm 2013
của Ngô Quốc Hùng và Cộng sự [75]. Ở cơng trình này, nhóm tác giả đã
xây dựng được kho ngữ liệu song ngữ Anh-Việt 800.000 cặp câu, trong đó
có trên 45.000 cặp câu được dóng hàng mức từ.
4. Kho ngữ liệu trong cơng trình về xây dựng kho ngữ liệu song song đa ngôn
ngữ cho 10 cặp ngôn ngữ của các tác giả Triệu Hải Long và Nguyễn Lê
Minh năm 2017 [104] có kích thước hơn 1, 1 triệu cặp câu.
5. Kho ngữ liệu trong cơng trình của các tác giả Ngô Quốc Hùng công bố năm
2018 với trên 2 triệu cặp câu song ngữ Anh-Việt và trên 20 triệu cặp từ
song ngữ 2 .
Liên quan đến xây dựng kho ngữ liệu trên thế giới và ở Việt Nam gần đây,
các nhà nghiên cứu tập trung vào xây dựng kho ngữ liệu song song đa ngơn ngữ
với kích thước lớn [104] [55] [41]. Khó khăn mà hầu hết các cơng trình nghiên
cứu xây dựng kho ngữ liệu song song đang phải đối mặt là sự thiếu tài nguyên
song ngữ và chưa tận dụng được hết các dạng tài ngun. Ngồi ra các cơng
trình chỉ tập trung vào kỹ thuật khai phá miền chung và chưa nghiên cứu các
kỹ thuật khai phá dữ liệu theo miền cụ thể.
Các nguồn văn bản song ngữ sẵn có cho tiếng Việt và một ngơn ngữ khác
như cặp ngơn ngữ Việt-Anh vốn cịn hạn chế, nên việc xây dựng kho ngữ liệu
1 />2 />
11


song ngữ Việt-Anh kích thước lớn là một vấn đề khó khăn. Do đó chất lượng
dịch máy Việt-Anh cịn chưa cao.
Bên cạnh đó, miền dữ liệu huấn luyện hệ thống dịch máy cũng có ảnh hưởng
đến chất lượng của các hệ thống dịch máy. Cơng trình nghiên cứu của Koehn
và cộng sự năm 2017 về 6 thách thức đối với hệ thống dịch máy nơ-ron [85] đã
chỉ ra hệ thống dịch máy nơ-ron bị giảm chất lượng khi dịch các văn bản ngoài

miền huấn luyện hệ thống. Để khắc phục hạn chế này, các nhà nghiên cứu sử
dụng phương pháp thích ứng miền trong đó các kho ngữ liệu song ngữ theo miền
đóng vai trị quan trọng [89] [52] [102] [119] [53] [24].
Du lịch là một lĩnh vực ưu tiên phát triển tại Việt Nam. Lượng khách nước
ngoài đến Việt Nam ngày càng tăng. Theo thống kê của Tổng cục Du lịch Việt
Nam, lượng khách quốc tế đến Việt Nam năm 2019 là 1.809.580 lượt.3 Nhu cầu
dịch tự động Việt-Anh trong lĩnh vực du lịch do vậy cũng rất lớn.
Trong thời gian gần đây, tình hình về bệnh dịch và sự xuất hiện các loại bệnh
mới ngày một nhiều, dẫn đến nhu cầu tìm hiểu và tra cứu các văn bản thuộc
miền y tế ngày càng cao. Do đó hệ dịch Anh-Việt có chất lượng trong lĩnh vực
y tế để hỗ trợ nhu cầu này đang trở nên cần thiết. Vì vậy việc khai phá dữ liệu
để xây dựng kho ngữ liệu song ngữ miền y tế cần được quan tâm.
Từ những lý do nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ
Việt-Anh theo miền cho các hệ thống dịch máy và miền dữ liệu được ưu tiên
xây dựng là du lịch và y tế.
Mục tiêu cụ thể của luận án:
• Xây dựng kho ngữ liệu song ngữ Việt-Anh có dóng hàng cho dịch máy theo

miền.
• Nghiên cứu các phương pháp nâng cao hiệu suất của kho ngữ liệu song ngữ

Việt-Anh trong dịch máy.
3 />
12


Để thực hiện các mục tiêu này, luận án triển khai thực hiện các nội dung sau:
1. Thu thập dữ liệu song ngữ Việt-Anh miền chung (các văn bản chứa nội
dung của nhiều lĩnh vực khác nhau) và các miền của từng lĩnh vực, trong
đó miền du lịch và miền y tế được ưu tiên.

2. Nghiên cứu nâng cao hiệu quả cơng cụ dóng hàng câu cho cặp ngơn ngữ
Việt-Anh và xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền.
3. Nghiên cứu đề xuất các phương pháp trích rút tự động các cặp từ, cụm từ
song ngữ để xây dựng kho ngữ liệu từ và cụm từ song ngữ Việt-Anh.
4. Nghiên cứu một số kỹ thuật khai thác kho ngữ liệu song ngữ Việt-Anh thu
thập được trong dịch máy.
Luận án đạt được các kết quả sau:
1. Luận án đã đề xuất kỹ thuật cải tiến cơng cụ dóng hàng XAlign cho cặp
ngơn ngữ Việt-Anh.4 Sử dụng cơng cụ dóng hàng này luận án đã thu thập
và xây dựng được: trên 20.000 cặp câu miền du lịch5 ; trên 270.000 cặp câu
miền chung.6 Kết quả này được công bố trong [CT1].
2. Luận án đã đề xuất và triển khai các phương pháp trích rút từ và cụm từ
song ngữ từ kho ngữ liệu song ngữ và kho ngữ liệu đơn ngữ. Từ đó đã xây
dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm:
trên 1.000 cặp cho miền du lịch,7 trên 600 cặp cho miền y tế,8 còn lại thuộc
miền chung.9 Các kết quả liên quan được công bố trong [CT3] và [CT4].
3. Luận án đã đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải
thiện chất lượng dịch. Kết quả này được công bố trong [CT2].
4

/>
5 />6 />7

/> />9 />8

13


4. Luận án triển khai một phương pháp sinh chú giải tiếng Việt tự động cho
hình ảnh dựa vào dịch máy Anh-Việt. Để nâng cao chất lượng dịch, luận án

đã đề xuất một kỹ thuật khai thác từ diển để xử lý các từ mới (unknown
words) đối với hệ thống dịch. Kết quả này được trình bày trong [CT6]
[CT7].
Cấu trúc luận án

Sau phần mở đầu, nội dung chính của luận án bao gồm 4 chương.
• Chương 1: Giới thiệu tổng quan về dịch máy và tài nguyên ngôn ngữ. Trong

chương này, luận án trình bày các hướng tiếp cận của dịch máy, độ đo dùng
trong đánh giá chất lượng các hệ thống dịch máy và vai trò của kho ngữ
liệu song ngữ.
• Chương 2: Tập trung vào vấn đề xây dựng kho ngữ liệu song ngữ Việt-Anh

có dóng hàng mức câu. Đóng góp chính của chương này là đề xuất cải tiến
cơng cụ dóng hàng câu cho cặp ngơn ngữ Việt-Anh. Bên cạnh đó là việc
xây dựng kho ngữ liệu song ngữ Việt-Anh trên miền du lịch.
• Chương 3: Trình bày một số phương pháp xây dựng kho ngữ liệu từ, cụm

từ song ngữ Việt-Anh, từ kho ngữ liệu song ngữ Việt-Anh có dóng hàng
mức câu và từ văn bản đơn ngữ tiếng Việt.
• Chương 4: Trình bày hai kỹ thuật nâng cao chất lượng hệ thống dịch máy

nơ-ron. Kỹ thuật thứ nhất là thực hiện tiền xử lý câu dài để làm giàu mơ
hình dịch. Kỹ thuật thứ hai là khai thác từ điển để xử lý các từ mới đối với
hệ thống dịch, kỹ thuật này đã được ứng dụng trong hệ thống dịch tự động
chú giải ảnh từ tiếng Anh sang tiếng Việt.
Phần kết luận: Trình bày tóm lược các kết quả và đóng góp của luận án đồng
thời nêu ra những hạn chế và hướng phát triển của luận án.
14



Chương 1

Tổng quan về dịch máy và tài
nguyên ngôn ngữ
Chương này trình bày tổng quan về dịch máy và tài nguyên ngôn ngữ được
sử dụng trong dịch máy: lịch sử về dịch máy; kiến trúc của hệ thống dịch máy;
các hướng tiếp cận của dịch máy; đánh giá hệ thống dịch máy; tài nguyên ngôn
ngữ và tài nguyên ngôn ngữ cho các hệ thống dịch máy; thích ứng miền trong
dịch máy và các công cụ tiền xử lý văn bản tiếng Việt. Chúng tơi phân tích,
đánh giá các cơng trình nghiên cứu liên quan, đưa ra vấn đề còn tồn tại mà luận
án sẽ giải quyết.

1.1

Tổng quan về dịch máy

Dịch máy là gì?
Dịch máy là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết
trong ngơn ngữ tự nhiên này thành bản dịch tương đương trong ngơn ngữ khác.
Ngơn ngữ của văn bản cần dịch cịn gọi là ngôn ngữ nguồn, ngôn ngữ của bản
dịch được gọi là ngơn ngữ đích.

15


1.1.1

Lịch sử về dịch máy


Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có
từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong
việc xây dựng một cách biểu diễn chung cho tất cả các ngơn ngữ.
Năm 1933 có hai phát minh được cấp bằng sáng chế liên quan đến việc xây
dựng các thiết bị dịch ngôn ngữ [48]:
1. Tác giả George Artsrouni đã thiết kế một thiết bị lưu trữ có thể tìm kiếm
nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ.
2. Tác giả Petr Smirnov Troyanskii đã thiết kế một thiết bị dịch máy gồm 3
công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết
kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng
cơ bản cho nhiều loại máy dịch được thiết kế sau này.
Đến cuối năm 1940 khi máy tính được phát minh và ứng dụng thành công
trong việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính
trong việc dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng
Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại
mật mã nào đó. Vấn đề dịch máy được Warren Weaver đưa ra năm 1949 [110].
Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp
dịch từ sang từ đã cho những kết quả còn hạn chế vì từ ngữ có nghĩa khác nhau
trong những ngữ cảnh khác nhau.
Năm 1966 tại Hoa Kỳ, Hội đồng cố vấn xử lý ngôn ngữ tự động ALPAC
(Automatic Language Processing Advisory Committee) đã soạn một báo cáo
nhận định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả
[49]. Sau báo cáo này, các chính phủ đã khơng cịn trợ cấp cho các chương trình
nghiên cứu về dịch máy và các chương trình này cũng chấm dứt. Việc nghiên
cứu và phát triển dịch máy chỉ với một vài hoạt động của các cá nhân và tổ chức
16


nhỏ bên ngoài nước Hoa Kỳ. Tuy nhiên các đầu tư cho dịch máy trong lĩnh vực
quân sự vẫn được tiếp tục như hệ thống dịch Nga-Anh của không lực Hoa Kỳ,

hệ Mark II được phát triển từ năm 1964.
Đến đầu những năm 1970, sau một số thành công trong nghiên cứu về lý
thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng
kể, nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy.
Năm 1979 [117], Yorick Wilks giới thiệu một hệ thống dịch tự động Anh-Pháp
cho kết quả khá tốt. Để đạt được thành quả này, hệ thống của Wilks đã sử dụng
các tri thức có tính “khái niệm” trong việc dịch thuật. Ví dụ: Từ “drink” khơng
đơn thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những
khái niệm như “động từ có tính hoạt động”, “có liên hệ đến những chất lỏng”,...
Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ giữa
các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ
cảnh hơn.
Đến năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi
thông tin bùng nổ cùng với sự tích lũy kiến thức về mặt ngơn ngữ, sức mạnh
của máy tính tăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc
phát triển các hệ thống dịch tự động trở nên rất cần thiết. Dịch máy đã bước
sang một giai đoạn phát triển mới, đạt được nhiều thành tựu. Các phương pháp
dịch áp dụng các kỹ thuật khai phá tri thức từ kho ngữ liệu, điều mà trước kia
chưa thể thực hiện được do khả năng hạn chế của máy tính, điều này đã làm
thay đổi hoàn toàn các phương pháp dịch truyền thống và mang lại chất lượng
cho các hệ thống dịch. Trong giai đoạn này, xuất hiện một số hệ thống dịch máy
có chất lượng:
• Năm 2005: Xuất hiện trang Web dịch tự động đầu tiên của Google.1
• Năm 2006: Hệ thống dịch máy METIS-II được sử dụng, đó là hệ thống dịch
1 />
17


máy kết hợp các ưu điểm giữa dịch máy thống kê, dựa vào ví dụ và dựa
trên tập luật [109].

Đến ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được
và một số các ứng dụng dịch tự động đã đi vào cuộc sống. Theo ước tính của
John Hutchins, vào năm 2001, có khoảng 1.000 phần mềm dịch tự động các
ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong thời điểm hiện nay
là các máy chủ dịch tự động trên Internet: Google Translate1 , Bing Microsoft
Translator2
Ở Việt Nam, đã có một số nhóm nghiên cứu xây dựng hệ thống dịch máy
trên các cặp ngôn ngữ khác nhau. Điển hình là một số nghiên cứu sau:
• Dự án nghiên cứu về việc học luật chuyển đổi từ ngữ liệu song ngữ của

nhóm nghiên cứu của Đinh Điền Trường Đại học Khoa học Tự nhiên - Đại
học Quốc gia thành phố Hồ Chí Minh, năm 2005.
• Đề tài nghiên cứu phương pháp phân tích cú pháp có xác suất để dịch văn

bản Anh-Việt, Việt-Anh của nhóm nghiên cứu của PGS.TS Phan Thị Tươi,
trường Đại học Bách khoa Hồ Chí Minh.
• Dự án ERIM của trường Đại học Bách khoa Đà Nẵng kết hợp với GETA -

Đại học Bách khoa Grenoble về nghiên cứu thử nghiệm hệ dịch máy AnhViệt, Pháp-Việt của Đồn Ngun Hải tại LATL.
• Nhóm nghiên cứu của TS. Lê Khánh Hùng - Viện nghiên cứu ứng dụng

công nghệ, Bộ khoa học công nghệ, năm 2005. Hệ thống dịch máy này đã
được đưa thành sản phẩm thương mại với tên ban đầu của hệ thống là
EVTRAN. Hiện nay hệ thống có tên là EV-shuttle 4.0 Full.
• Đề tài nghiên cứu xây dựng hệ dịch tự động văn bản tiếng Việt ra tiếng nói

tiếng Mường, hướng đến áp dụng cho các ngôn ngữ dân tộc thiểu số chưa có
2 />
18



chữ viết ở Việt Nam của TS. Mạc Đăng Khoa tại Viện Nghiên cứu quốc tế
về Thông tin đa phương tiện, Truyền thông và Ứng dụng (MICA), Trường
Đại Học Bách Khoa Hà Nội, năm 2017.
Hiện nay, các nghiên cứu để nâng cao chất lượng hệ thống dịch máy vẫn đang
được các nhóm nghiên cứu tiến hành. Trong đó phương pháp dịch máy dựa trên
mạng nơ-ron là một hướng tiếp cận được xem là có ưu thế hơn hẳn so với các
hướng tiếp cận dịch máy khác.
1.1.2

Kiến trúc của hệ thống dịch máy

Có ba hướng tiếp cận cơ bản được sử dụng để phát triển các hệ thống dịch
máy:
1. Dịch trực tiếp;
2. Dịch chuyển đổi;
3. Dịch qua ngôn ngữ trung gian.
Mỗi phương pháp có ưu và nhược điểm riêng. Hình 1.1 là sơ đồ của Bernard
Vauquois [13] tóm tắt kiến trúc của các hệ thống dịch máy theo ba hướng tiếp
cận trên.
1.1.2.1

Dịch trực tiếp

Theo hướng tiếp cận này, hệ thống sẽ dịch bằng cách thay thế một cách đơn
giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằng những từ hoặc cụm từ
tương ứng trong ngơn ngữ đích. Đặc điểm của hướng tiếp cận dịch này là đơn
giản, nhanh, không cần phân tích cú pháp sâu, thích hợp cho những văn bản
dịch có khối lượng từ vựng nhỏ và số dạng câu giới hạn. Nó thích hợp đối với các
ngơn ngữ cùng loại hình, có sự tương ứng 1-1 về từ vựng, ngữ pháp, . . . chẳng

hạn như: tiếng Pháp và tiếng Anh. Nhưng chúng gặp phải khó khăn khi dịch
19


Hình 1.1: Tam giác Vauquois

cặp ngơn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách: Từ
biến đổi hình thái) và tiếng Việt (loại hình đơn lập: Từ khơng biến đổi hình
thái). Mơ hình dịch theo hướng tiếp cận dịch này được thể hiện trong Hình1.2.
1.1.2.2

Dịch chuyển đổi

Tiếp cận theo hướng dịch chuyển đổi được thực hiện theo 3 bước:
• Bước 1: Chuyển văn bản ở ngơn ngữ nguồn thành một dạng biểu diễn trung

gian, thường là cây phân tích cú pháp.
• Bước 2: Chuyển các biểu diễn trung gian này, thành dạng văn bản tương

ứng trong ngơn ngữ đích.
• Bước 3: Sinh ra văn bản ở ngơn ngữ đích.

Trong hướng tiếp cận dịch chuyển đổi, văn bản nguồn được phân tích thành
một dạng biểu diễn nào đó, mà vẫn mang đầy đủ các đặc tính của nó. Biểu diễn
này có thể nằm trong phạm vi từ cú pháp đến ngữ nghĩa.

20


Hình 1.2: Mơ hình dịch trực tiếp


1.1.2.3

Dịch qua ngơn ngữ trung gian

Theo hướng tiếp cận này, hệ thống sẽ chuyển đổi văn bản từ ngôn ngữ nguồn
thành văn bản ở ngơn ngữ trung gian hay cịn gọi là liên ngơn ngữ, sau đó thực
hiện việc chuyển văn bản từ ngơn ngữ trung gian thành văn bản ở ngơn ngữ
đích. Mơ hình của hướng tiếp cận này được thể hiện trong hình 1.3.
Một liên ngơn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn
ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế
nhất của mọi ngơn ngữ có trong hệ dịch đó. Ví dụ: tiếng Việt phân biệt các từ:
lúa, thóc, gạo, cơm, . . . cịn tiếng Anh thì khơng. Tương tự, tiếng Anh thì phân
biệt các từ : remember, miss, . . . còn tiếng Việt thì chỉ dùng từ nhớ. Chính vì
vậy, việc xây dựng một hệ liên ngôn ngữ đủ mạnh để biểu diễn tất cả các thơng
tin của mọi ngơn ngữ có thể có, cùng với bộ phân giải và bộ tạo sinh thích hợp
là một việc vơ cùng phức tạp mà đến nay vẫn chưa thực hiện được.
Các phương pháp dịch máy hiện nay chủ yếu được xây dựng theo kiến trúc
dịch chuyển đổi.

21


×