Tải bản đầy đủ (.pdf) (146 trang)

Cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.75 MB, 146 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC

Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH


NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Văn Vinh
2. PGS.TS. Nguyễn Lê Minh

Hà Nội - 2019


Lời cam đoan
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện
dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh.
Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong
luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.

Trần Hồng Việt


TÓM TẮT
Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên
quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong
ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và
Ney, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.
Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác
nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chính
xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp
xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một
số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ
cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã
qua thực hiện tiền xử lý quá trình sắp xếp lại.
Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong

một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc
phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận
án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê
Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".
Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp
xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất
có thể với câu được dịch trong ngôn ngữ đích. Các đề xuất này thực hiện như
bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để
đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.
Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ
thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT
và PBSMT.
Đóng góp của luận án cụ thể như sau:
2


• Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựa

chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp
dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch
máy Anh-Việt.
• Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự

động. Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề học
máy trong việc dự đoán chính xác vị trí các thành phần của luật để đoán
thứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu ở
ngôn ngữ đích. Với hai đề xuất gồm:
– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử
dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể
là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con

trên cây phân tích phụ thuộc biểu diễn câu đầu vào.
– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc
và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án
đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán
đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào
hệ dịch để nâng cao chất lượng dịch.
• Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú

pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối
với câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các
phương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích
cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt.
Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ
thuộc, dịch máy thống kê dựa trên cụm từ.

3


Mục lục
Lời cảm ơn

8

Danh mục các chữ viết tắt

9

Danh sách hình vẽ

10


Danh sách bảng

13

Lời mở đầu

16

1 Tổng quan các vấn đề liên quan luận án

22

1.1

Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . .

22

1.2

Dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . . . . .

25

1.2.1

Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . .

25


1.2.2

Cấu trúc hệ thống dịch máy . . . . . . . . . . . . . . . . .

27

1.3

Dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . .

29

1.4

Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . .

31

1.5

Vấn đề đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . .

35

1.5.1

Sự khác nhau về thứ tự từ giữa các ngôn ngữ . . . . . . .

35


1.5.2

Đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . .

36

1.6

Bài toán đảo trật tự từ trong mô hình dịch máy dựa trên cụm từ 37
1.6.1

Mô hình dịch máy dựa trên cụm từ . . . . . . . . . . . .

37

1.6.2

Bài toán đảo trật từ tự dựa trên tiền xử lý . . . . . . . .

39

4


1.7

1.8

Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . .


43

1.7.1

Sử dụng các luật thủ công cho vấn đề tiền xử lý . . . . .

44

1.7.2

Sử dụng các luật tự động cho vấn đề tiền xử lý . . . . . .

45

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự
từ trong dịch máy thống kê
2.1

48

Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch
máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48


2.2

Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . .

50

2.3

Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê . . . . . .

52

2.3.1

Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại . .

52

2.3.2

Luật chuyển đổi trật tự từ . . . . . . . . . . . . . . . . . .

55

2.3.3

Tập các luật đảo trật tự từ thủ công . . . . . . . . . . . .

57


2.3.4

Tập dữ liệu và cài đặt thực nghiệm . . . . . . . . . . . . .

59

2.3.5

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . .

62

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

2.4

3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ
phân lớp quan hệ

65

3.1

Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ . .

65

3.1.1


Vấn đề tiền xử lý dựa trên phân lớp . . . . . . . . . . . .

66

3.1.2

Đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

3.1.3

Mô hình phân lớp . . . . . . . . . . . . . . . . . . . . . . .

70

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.2.1

Tập dữ liệu và cấu hình thực nghiệm . . . . . . . . . . . .

73

3.2.2

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . .


74

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.2

3.3

5


4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ
cảnh

79

4.1

Thông tin ngữ cảnh từ word embedding . . . . . . . . . . . . . .

79

4.2

Mô hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ

4.3


thuộc cho dịch máy thống kê . . . . . . . . . . . . . . . . . . . . .

81

4.2.1

Đặc trưng cho phân lớp và huấn luyện mô hình . . . . .

82

4.2.2

Khung làm việc cho đảo trật tự từ . . . . . . . . . . . . .

87

Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp
thông tin ngữ cảnh . . . . . . . . . . . . . . . . . . . . . . . . . .

90

4.4

Phân tích và thảo luận . . . . . . . . . . . . . . . . . . . . . . . .

93

4.5


Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch
máy Anh-Việt

96

5.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96

5.2

Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . .

97

5.2.1

Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . .

98

5.2.2

Định dạng dữ liệu theo chuẩn CoNLL . . . . . . . . . . .


98

5.2.3

Sử dụng tập nhãn cho cú pháp phụ thuộc . . . . . . . . . 100

5.3

Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng
dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3.1

Phương pháp phân tích lỗi . . . . . . . . . . . . . . . . . . 102

5.3.2

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.3.3

Phân tích nguyên nhân gây lỗi đảo trật tự từ . . . . . . . 108

5.4

Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc . 110

5.5

Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112


Kết luận

114

6


Danh mục công trình khoa học của tác giả liên quan đến luận án117
Tài liệu tham khảo

119

7


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn
Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và
tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô
giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp
đỡ tôi trong quá trình học tập và nghiên cứu ở trường.
Tôi xin gửi cảm ơn đến GS.TS. Nguyễn Thanh Thủy, PGS. TS. Lê Sỹ
Vinh, PGS.TS. Nguyễn Phương Thái, PGS.TS. Phan Xuân Hiếu, TS. Trần
Quốc Long, TS. Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc
gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội),
TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội), TS. Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễn

thông), TS. Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam) các Thầy/Cô đã có những góp ý chỉnh sửa để tôi
hoàn thiện luận án.
Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộ
môn Khoa học máy tính (Khoa Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình
đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu.

8


Danh mục các chữ viết tắt
MT

Machine Translation (Dịch máy)

NLP

Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

POS-tags Part Of Speech tags (Nhãn từ loại)
SMT

Statistical Machine Translation (Dịch máy thống kê)

PBSMT

Phrase-Based Statistical Machine Translation

(Dịch máy dựa trên cụm từ)

NMT

Neural Machine Translation (Dịch máy mạng nơ-ron)

BLEU

BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu)

SVM

Support Vector Machine (Máy véc-tơ hỗ trợ)

ME

Maximum Entropy (Độ hỗn loạn cực đại)

WEKA

Waikato Environment for Knowledge Analysis
(Môi trường Waikato cho phân tích tri thức)

9


Danh sách hình vẽ
1.1

Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau. . .


23

1.2

Kiến trúc cơ bản của hệ thống dịch máy thống kê . . . . . . . .

27

1.3

Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 28

1.4

Hệ thống dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . .

30

1.5

Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ.

33

1.6

Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL. . .

33


1.7

Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngôn
ngữ tiếng Pháp sang tiếng Anh. . . . . . . . . . . . . . . . . . . .

37

1.8

Kiến trúc của mô hình dịch dựa trên cụm từ . . . . . . . . . . .

38

1.9

Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ. 40

1.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền
xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

1.11 Kiến trúc hệ thống trong luận án. . . . . . . . . . . . . . . . . . .

43

2.1

Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt. . . . . . . . . .


49

2.2

Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh. 50

2.3

Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt. 51

2.4

Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sử

2.5

dụng công cụ phân tích của Stanford. . . . . . . . . . . . . . . .

51

Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt. . . . . . . . . . .

53

10


2.6


Ví dụ về hiện tượng ngôn ngữ trong cụm danh từ với amod và
det. Trong ví dụ này, danh từ “computer” được đảo với tính từ
“personal”

2.7

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Ví dụ về hiện tượng ngôn ngữ trong cụm tính từ với advmod và
det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.8

55

Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags,
các nhãn phụ thuộc và gióng hàng từ. . . . . . . . . . . . . . . .

2.9

54

55

Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếp
lại thứ tự từ trong câu. . . . . . . . . . . . . . . . . . . . . . . . .

57

2.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắp

xếp lại thứ tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

2.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãn
phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

2.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếng
Việt sử dụng tiền xử lý trên cây cú pháp phụ thuộc. . . . . . . .

61

3.1

Ví dụ về mô hình học máy dựa trên phân lớp. . . . . . . . . . .

66

3.2

Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc. 67

3.3

Cây phân tích phụ thuộc tiếng Anh. . . . . . . . . . . . . . . . .

3.4


Thuật toán trích xuất tự động các luật sử dụng cây cú pháp phụ
thuộc các câu nguồn và cặp gióng hàng từ . . . . . . . . . . . . .

3.5

4.1

72

Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu song
ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.7

72

Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất
tự động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6

68

76

Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệu
song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77


Một ví dụ về về biểu diễn word embedding . . . . . . . . . . . .

80

11


4.2

Ví dụ về mô hình phân lớp quan hệ. . . . . . . . . . . . . . . . .

4.3

Mô hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạng

82

nơ-ron với cây phân tích phụ thuộc . . . . . . . . . . . . . . . . .

83

4.4

Các đặc trưng cho quan hệ head-child trong mô hình phân lớp .

84

4.5

Các đặc trưng cho quan hệ sibling trong mô hình phân lớp . . .


85

4.6

Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệu
song ngữ Anh-Việt. . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.7

Thuật toán xây dựng mô hình huấn luyện cho mạng. . . . . . .

88

4.8

Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn. .

89

4.9

Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp. .

90

5.1


Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc . .

98

5.2

So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh. . . . 103

5.3

Mô tả phương pháp phân tích lỗi. . . . . . . . . . . . . . . . . . . 104

5.4

Kết quả đánh giá dựa trên độ đo Kendall’s tau . . . . . . . . . . 107

5.5

Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếng
Việt sử dụng công cụ phân tích cú pháp phụ thuộc JPTDP. . . 109

5.6

Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây được
sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . 110

5.7

Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh
dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ

liệu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.8

Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịch
trên kho ngữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . 112

5.9

Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) . . . . 134

5.10 Thống kê các ngôn ngữ với từ loại Tính từ, Danh từ . . . . . . . 135
5.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ . . . 136
5.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ . . . . . 136

12


5.13 Phép phi chiếu trong ngôn ngữ Latinh . . . . . . . . . . . . . . . 137
5.14 Dịch từ ngôn ngữ tiếng Đức sang ngôn ngữ tiếng Anh . . . . . . 137
5.15 Dịch từ ngôn ngữ tiếng Trung sang ngôn ngữ tiếng Anh . . . . . 138
5.16 Dịch từ ngôn ngữ tiếng Hàn sang ngôn ngữ tiếng Anh . . . . . . 139
5.17 Dịch từ ngôn ngữ tiếng Ả rập sang ngôn ngữ tiếng Anh . . . . . 140
5.18 Mô tả các luật sắp xếp lại . . . . . . . . . . . . . . . . . . . . . . 141

13


Danh sách bảng
2.1


Phân tích cú pháp phụ thuộc cho câu tiếng Việt biểu diễn dưới
dạng chuẩn CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . .

52

2.2

Thống kê ngữ liệu song ngữ Anh-Việt . . . . . . . . . . . . . . .

62

2.3

Thực nghiệm sử dụng các luật thủ công cho kho ngữ liệu song
ngữ Anh-Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

3.1

Ví dụ về các luật và đảo trật tự từ trong câu nguồn. . . . . . . .

69

3.2

Tập đặc trưng được sử dụng trong dữ liệu huấn luyện từ kho
ngữ liệu song ngữ Anh – Việt . . . . . . . . . . . . . . . . . . . .


3.3

71

Thống kê số luật tự động trích xuất theo phương pháp sử dụng
bộ phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

3.4

Kích cỡ bảng cụm từ . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.5

Đánh giá kết quả trên hệ thống dịch máy Anh- Việt . . . . . . .

78

4.1

Hệ thống thực nghiệm trên kho ngữ liệu song ngữ Anh-Việt . .

92

4.2

Đánh giá hệ thống cho chiều dịch Anh- Việt . . . . . . . . . . . .


93

5.1

Các trường dữ liệu theo định dạng của CoNLL cho ngôn ngữ
tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2

99

Biểu diễn theo định dạng chuẩn CoNLL cho câu đầu vào tiếng
Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.3

Nhãn cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5.4

Nhãn mệnh đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14


5.5

Nhãn chức năng cú pháp . . . . . . . . . . . . . . . . . . . . . . . 143

5.6


Nhóm các nhãn đa ngôn ngữ . . . . . . . . . . . . . . . . . . . . . 144

15


Mở đầu
1. Tính cấp thiết của luận án
Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhân
tạo. Đã có nhiều nỗ lực để giải quyết vấn đề này từ những giai đoạn đầu tiên
khi sử dụng máy tính. Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn
bộ văn bản với chất lượng cao vẫn còn là thách thức. Các vấn đề dịch thuật có
liên quan đến nhiều ngôn ngữ và các vấn đề văn hóa trở nên khó khăn.
Dịch máy dựa trên cách tiếp cận thống kê và gần đây dịch máy mạng nơ-ron
đang là một hướng phát triển tiềm năng bởi những ưu điểm so với các cách
tiếp cận khác. Nhiều sản phẩm thương mại được sử dụng rộng rãi trên thế giới
(hệ dịch của Google1 , M icrosof t2 . . .).
Các mô hình dịch máy được sử dụng nhiều nhất là dịch máy thống kê dựa
trên cụm từ (PBSMT) (Koehn và cộng sự, 2003; Och và Ney, 2004) [59, 89] và
dịch máy nơ-ron (Neural MT) (Bahdanau và cộng sự, 2014; Sutskever và cộng
sự, 2014; Cho và cộng sự, 2014) [4, 20, 98]. Trong thập kỷ qua, bên cạnh dịch
máy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi
trong quá trình dịch, gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng lớn
và trong nhiều trường hợp đã vượt qua dịch máy dựa trên cụm từ (Bentivogli
và cộng sự, 2016; Junczys-Dowmunt và cộng sự, 2016; Chung và cộng sự, 2016;
Shterionov và cộng sự, 2017) [9, 21, 48, 94]. Các ưu điểm của dịch máy nơ-ron
là: dịch trôi chảy hơn, sát nghĩa hơn. Tuy nhiên, nhiều trường hợp dịch không
đầy đủ, hiện tượng không rõ từ (unkown word) nhiều, quá trình dịch như hộp
đen lên khó can thiệp xử lý và gỡ lỗi. Những vấn đề của dịch máy mạng nơ-ron
được chỉ ra trong các nghiên cứu gần đây như (Zheng và cộng sự, 2018; Ott và

cộng sự, 2018; Koehn và cộng sự, 2017) [58, 91, 112].
1
2




16


Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng
nơ-ron là mô hình dịch máy theo hướng dữ liệu, phụ thuộc vào dữ liệu song
ngữ được sử dụng để huấn luyện. Chất lượng dịch của một hệ thống liên quan
đến số lượng và chất lượng của tập dữ liệu huấn luyện. Dịch máy thống kê
dựa trên cụm từ và đặc biệt vấn đề đảo trật tự từ vẫn thể hiện các ưu điểm
trong các trường hợp các ngôn ngữ với nguồn tài nguyên hạn chế (Koehn và
cộng sự, 2017) [58], các câu ngắn3 . Trong dự án về dịch máy cho các ngôn ngữ
hạn chế về tài nguyên năm 2018, Philip Koehn và nhóm nghiên cứu4 đã giành
được khoản tài trợ 10,7 triệu đô la để dịch các ngôn ngữ có nguồn tài nguyên
hạn chế, đã đề cập: "Thách thức lớn nhất đối với chúng ta là việc có ít dữ liệu.
Điều này đòi hỏi cần nhiều và rất nhiều dữ liệu". Với những ngôn ngữ này, hệ
dịch dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy
thống kê dựa trên cụm từ. Các ưu điểm của dịch thống kê dựa trên cụm từ
vẫn là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch
máy mạng nơ-ron.
Vấn đề quan trọng của dịch máy liên quan đến việc làm thế nào để sinh ra
thứ tự các từ (cụm từ) chính xác trong ngôn ngữ đích. Trong dịch máy thống
kê dựa trên cụm từ (PBSMT), việc đảo cụm từ vẫn còn đơn giản và chất lượng
chưa cao. Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc
biệt sự khác nhau về thứ tự từ trong các ngôn ngữ, ví dụ: Anh - Việt) dẫn

tới không thể mô hình hóa chính xác trong quá trình dịch [89]. Điều này dẫn
đến có nhiều hướng quan tâm nghiên cứu để giải quyết vấn đề đảo trật tự từ
bên trong hệ thống dịch máy thống kê dựa vào cụm đang là thách thức đối với
các nhà nghiên cứu về dịch máy trong nhiều năm qua. Các nghiên cứu theo
hướng tiếp cận tiền xử lý quá trình sắp xếp lại [108], [33], [65] một cách hiệu
3

/>
launches-a-hybrid-machine-translation-system/
4
/>
17


quả (cải thiện so với các hệ thống dịch máy dựa trên cụm và phân cấp), chất
lượng được đánh giá khả quan trong các mô hình sắp xếp lại.
Sử dụng phương pháp tiền xử lý có ưu điểm là giữ được điểm mạnh của hệ
thống dịch máy dựa trên cụm từ, giảm thiểu thời gian giải mã, cũng như giữ
điểm mạnh của dịch máy theo cú pháp trong bài toán đảo trật tự từ.
Hiện nay, đã có nghiên cứu về hệ thống dịch máy thống kê dựa trên cụm
từ cho cặp ngôn ngữ Anh-Việt. Tuy nhiên, nghiên cứu về dịch máy thống kê
dựa trên cụm từ sử dụng tiền xử lý với cây cú pháp phụ thuộc chưa nhiều. Bên
cạnh đó, cú pháp phụ thuộc có ưu điểm trong việc thể hiện quan hệ phụ thuộc
từ, tốc độ nhanh, phù hợp với vấn đề sắp xếp lại trật tự từ (một trong những
vấn đề quan trọng trong bài toán dịch). Những vấn đề thách thức đặt ra:
- Các nghiên cứu chủ yếu áp dụng cho chiều dịch Anh-Việt, chưa có chiều
dịch Việt-Anh.
- Một số nghiên cứu đã áp dụng đảo trật tự từ dựa trên cây cú pháp phụ
thuộc cho chiều Anh-Việt. Tuy nhiên những nghiên cứu này chủ yếu dùng
các luật bằng tay, chưa áp dụng các luật tự động trong bài toán dịch.

- Có ít nghiên cứu sử dụng tiền xử lý dựa vào cây cú pháp phụ thuộc cho
chiều Việt-Anh và tồn tại nhiều hạn chế cần cải tiến để nâng cao chất
lượng.
Để giải quyết thách thức trên nhằm cải tiến chất lượng dịch máy thống kê,
nhiều nỗ lực nghiên cứu theo hướng sử dụng cây phân tích cú pháp phụ thuộc
vào dịch thống kê đã được áp dụng. Chính điều này đã gợi ý và thúc đẩy chúng
tôi lựa chọn nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê
Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".
2. Mục tiêu của luận án
• Nghiên cứu đề xuất các phương pháp giải quyết bài toán đảo cụm từ
18


trong dịch máy thống kê dựa vào cụm theo hướng tiếp cận tiền xử lý dựa
trên cây cú pháp phụ thuộc áp dụng cho cặp ngôn ngữ Anh-Việt.
• Nghiên cứu đề xuất các luật thủ công, các luật tự động áp dụng để cải

thiện chất lượng dịch máy thống kê.
• Nghiên cứu các hệ thống dịch thống kê đã có như Moses, các phương pháp

tích hợp tri thức ngôn ngữ, đề xuất các phương pháp mới, thực nghiệm.
3. Đóng góp của luận án
• Trước tiên, luận án áp dụng phương pháp đảo trật tự từ để nâng cao chất

lượng dịch của hệ thống dịch máy Anh-Việt. Đề xuất các luật thủ công
từ việc lựa chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc.
Trong phương pháp này xác định hiện tượng ngôn ngữ phía các câu nguồn
tương ứng với thứ tự từ các câu ở ngôn ngữ đích. Tìm hiểu các nguyên tắc
sắp xếp lại từ đặc trưng của các ngôn ngữ như: ngôn ngữ SVO (SubjectVerb-Object), ngôn ngữ SOV (Subject-Object Verb). . . Cuối cùng, luận
án lựa chọn các đặc trưng về ngôn ngữ sử dụng cú pháp phụ thuộc để

đưa ra các luật đảo trật tự từ phù hợp giữa ngôn ngữ tiếng Việt và ngôn
ngữ tiếng Anh.
• Luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động. Xem

việc xây dựng luật đảo trật tự từ như vấn đề học máy trong việc dự đoán
chính xác vị trí các thành phần của luật để đoán thứ tự đúng các câu
trong ngôn ngữ nguồn tương ứng với thứ tự câu ở ngôn ngữ đích. Với hai
đề xuất gồm:
– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử
dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể
là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con
trên cây phân tích phụ thuộc biểu diễn câu đầu vào.
19


– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc
và ưu điểm của việc biểu diễn dưới dạng word embedding, chúng tôi
đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán
đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào
hệ dịch để nâng cao chất lượng dịch.
• Luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú pháp đến

chất lượng dịch qua việc áp dụng các luật đảo trật tự từ phía câu nguồn.
Kết hợp phương pháp thực nghiệm và mô tả để thực hiện phân tích so
sánh về mối quan hệ giữa phân tích cú pháp và đảo trật tự từ. Công
việc này được sử dụng để mang lại lợi ích không chỉ cho việc cải tiến các
phương pháp đảo trật tự từ mà còn cho sự phát triển phân tích cú pháp
phụ thuộc đặc biệt với ngôn ngữ tiếng Việt.
Các nội dung và kết quả nghiên cứu trình bày trong luận án đã được công
bố trong 10 công trình. Trong đó, 8 báo cáo trong kỷ yếu của hội nghị quốc

tế có phản biện, được xuất bản bởi IEEE và Springer; 1 báo cáo trong kỷ yếu
của hội thảo quốc gia có phản biện và 1 bài báo ở tạp chí trong nước có phản
biện.
4. Bố cục của luận án
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương, với bố
cục như sau:
• Chương 1 Giới thiệu tổng quan về vấn đề nghiên cứu trong luận án.
• Chương 2 Trình bày nội dung, kết quả nghiên cứu về vấn đề đảo cụm

trong dịch máy thống kê sử dụng các luật thủ công cho bài toán đảo trật
tự từ trong dịch máy thống kê.
• Chương 3 Trình bày nội dung, kết quả nghiên cứu sử dụng các luật trích

xuất tự động bằng phương pháp học máy với các bộ phân lớp quan hệ.
20


• Chương 4 Trình bày nội dung, kết quả nghiên cứu phương pháp sử dụng

mạng nơ-ron kết hợp các thông tin ngữ cảnh.
• Chương 5 Trình bày ảnh hưởng của cây phân tích cú pháp phụ thuộc

với chất lượng dịch máy Anh - Việt theo hướng tiếp cận tiền xử lý.

21


Chương 1
Tổng quan các vấn đề liên quan
luận án

Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận án,
bao gồm: dịch máy (Machine Translation - MT), dịch máy thống kê (Statistical
Machine Translation - SMT), dịch máy nơ-ron (Neural Machine Translation),
mô hình dịch máy thống kê dựa trên cụm từ (Phrase-based SMT), phân tích
cú pháp phụ thuộc, bài toán đảo cụm; Đưa ra phân tích, đánh giá các công
trình nghiên cứu liên quan, các vấn đề còn tồn tại mà luận án sẽ tập trung giải
quyết và xác định nội dung nghiên cứu của luận án ở phần cuối chương.

1.1

Tổng quan về dịch máy

Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhân
tạo [45, 49, 50]. Một trong những động lực chính cho dịch máy là sự quan tâm
của các cơ quan tình báo để tăng khả năng nhận biết những gì đang xảy ra ở
nước ngoài. Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn bộ với chất
lượng cao là khó đạt được. Việc dịch thuật có liên quan đến nhiều ngôn ngữ
và liên quan đến văn hóa là các vấn đề khó.
Dịch là một quá trình chuyển nghĩa của các từ hay văn bản sang ngôn ngữ
22


(a) Tháp chuyển đổi thể hiện quá trình dịch

(b) Tháp chuyển đổi thể hiện các kiểu phân

theo các phương pháp khác nhau

tích trong sơ đồ hình tháp


Hình 1.1: Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau.

khác. Nó liên quan đến việc giải mã nghĩa của ngôn ngữ nguồn và sau đó mã
hóa lại theo nghĩa vào ngôn ngữ đích. Quá trình này liên quan đến một loạt
hoạt động phức tạp, đòi hỏi kiến thức đầy đủ về ngôn ngữ bao gồm: hình
thái học, cú pháp, ngữ nghĩa và ngữ cảnh như trong nghiên cứu (Jurafsky và
Martin,2009;) [50]. Ngữ cảnh xung quanh văn bản dịch được xem như là độc
lập có thể có nghĩa khác nhau. Nó cũng đòi hỏi có kiến thức sâu phía các ngôn
ngữ đích để mã hóa lại nghĩa.
Trước những năm 1990, cách tiếp cận dựa trên luật là chủ yếu. Các luật
khác nhau được thiết kế cho phân tích cú pháp, dịch chuyển từ vựng, hình thái
học . . . Ban đầu, ba loại mô hình chính được đưa ra là: mô hình dịch trực tiếp,
mô hình chuyển đổi và mô hình liên ngữ. Các mô hình này được bắt nguồn từ
việc phân tích cách các ngôn ngữ được hình thành.Bernard Vauquois [102] đưa
ra sơ đồ hình kim tự tháp nổi tiếng trình bày các kiến trúc của các hệ thống
dịch máy trong hình 1.1.
Nhiều nhà nghiên cứu tập trung vào các hệ thống sử dụng các ngôn ngữ
đại diện trung gian về nghĩa. Liên ngữ [30, 75] là một trường hợp của hệ thống
hướng ngữ nghĩa. Nó sử dụng một ngôn ngữ quốc tế đại diện cho nghĩa trừu
tượng, độc lập của một ngôn ngữ cụ thể. Vấn đề thu hút sự quan tâm của các
23


×