Dịch máy Anh - Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (901.64 KB, 63 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Phương Thảo

DỊCH MÁY ANH-VIỆT
DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ
TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ

LUẬN VĂN THẠC SĨ

Hà Nội - 2008

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Phương Thảo

DỊCH MÁY ANH-VIỆT
DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ
TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ

Ngành : Công nghệ thông tin
Chuyên ngành : Khoa học máy tính
Mã số : 60 48 01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TSKH. Hồ Tú Bảo
PGS.TS. Lương Chi Mai

Hà Nội – 2008
3

MỤC LỤC
MỤC LỤC 3
BẢNG CÁC TỪ VIẾT TẮT 5

BẢNG CÁC THUẬT NGỮ ANH-VIỆT 6
LỜI MỞ ĐẦU 7
CHƯƠNG I - TỔNG QUAN VỀ DỊCH MÁY 9
1.1 Khái niệm dịch máy 9
1.2 Kiến trúc chung của một hệ dịch máy 9
1.3 Những khó khăn trong dịch máy 11
1.4 Tình hình dịch máy trong và ngoài nước 15
CHƯƠNG II – DỊCH MÁY THỐNG KÊ 17
2.1 Giới thiệu 17
2.2 Mô hình ngôn ngữ 18
2.2.1 Mô hình N-gram 18
2.2.2 Mô hình ngôn ngữ 19
2.2.3 Làm mịn 20
2.3 Mô hình dịch 21
2.3.1 Mô hình dịch thống kê dựa trên đơn vị từ 22
2.3.2 Mô hình dịch thống kê dựa trên đơn vị cụm từ 23
2.3.3 Mô hình dịch thống kê dựa trên cú pháp 25
2.4 Mô hình giải mã 26
2.4.1 Các khả năng dịch 26
2.4.2 Giải mã bằng kỹ thuật mở rộng không gian giả thuyết 27
CHƯƠNG III – CÁC THÀNH PHẦN TRONG HỆ DỊCH THỐNG KÊ
DỰA TRÊN ĐƠN VỊ CỤM TỪ 30

3.1 Mô hình log-linear áp dụng cho bài toán dịch máy 30
3.2 Các đặc trưng khác sử dụng trong mô hình dịch phrase-based 32
CHƯƠNG IV – DỊCH MÁY THỐNG KÊ TÍCH HỢP THÊM THÔNG TIN
NGÔN NGỮ 35

4.1 Hạn chế của mô hình dịch thống kê dựa trên đơn vị cụm từ 35
4

4.2 Giới thiệu mô hình 36
4.2.1 Các mô hình xác suất mới 38
4.2.2 Xử lý hình thái 39
4.2.3 Đưa ra quyết định tốt hơn 40
4.3 Các thành phần trong hệ dịch FTM 43
4.4 Tình hình ứng dụng mô hình FTM 43
CHƯƠNG V – THỰC NGHIỆM 45
5.1 Công cụ và ngữ liệu cho hệ dịch 45
5.1.1 Chuẩn bị ngữ liệu 45
5.1.2 Các công cụ tiền xử lý 46
5.1.3 Công cụ sử dụng thử nghiệm mô hình FTM 47
5.1.4 Công cụ đánh giá chất lượng hệ dịch 47
5.2 Các thực nghiệm 47
5.2.1 Cấu hình cơ sở T
f1
48
5.2.2 Cấu hình T
f1
+ C 50
5.2.3 Cấu hình T
f1
+ T
f2
+ C 50
5.2.4 Cấu hình T
f3,f4
+ C 51
5.3 Kết quả thực nghiệm 52
5.4 Nhận xét 53

KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 58
PHỤ LỤC A 61

5

BẢNG CÁC TỪ VIẾT TẮT

Thuật
ngữ
Ý nghĩa
POS part-of-speech – nhãn từ loại
FTM
Factored Translation Model – Mô hình dịch dựa trên các yếu tố
ngôn ngữ
SMT Statistical Machine Translation - Dịch máy thống kê

6

BẢNG CÁC THUẬT NGỮ ANH-VIỆT

Tiếng Anh Tiếng Việt
Decoder Hệ giải mã

Factor Các yếu tố ngôn ngữ được sử dụng trong hệ dịch
Factored Translation Model Mô hình dịch dựa trên các yếu tố ngôn ngữ
Feature Function Hàm đặc trưng
Language Model Mô hình ngôn ngữ
Lemma Từ gốc ở dạng phân tích đơn giản
Machine Translation Dịch máy
Morphology Hình thái từ
Part-of-speech tag Nhãn từ loại
Phrase Các cụm từ trong mô hình dịch thống kê dựa trên
đơn vị cụm từ
Phrase-based SMT Dịch máy thống kê dựa trên đơn vị cụm từ
Smoothing Kỹ thuật làm mịn
Statistical Machine
Translation
Dịch máy thống kê
Syntax-based SMT Dịch máy thống kê dựa trên cú pháp
Translation Model Mô hình dịch
Word-based SMT Dịch máy thống kê dựa trên đơn vị từ

7

LỜI MỞ ĐẦU
Những năm gần đây, dịch máy đóng một vai trò quan trọng trong việc hỗ trợ con
người cập nhật thông tin từ nhiều nguồn ngôn ngữ khác nhau một cách nhanh
chóng. Trong sự phát triển của dịch máy, có 3 cách tiếp cận chủ yếu là dịch
chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Trong đó, dịch máy thống kê,
một trong những phương pháp theo cách tiếp cận dựa vào dữ liệu, hiện
đang là
một hướng phát triển đầy tiềm năng, thu hút được sự quan tâm của các nhà
nghiên cứu.
Trên thế giới, có khá nhiều hệ dịch dựa trên thống kê đã được thương mại hóa và
có chất lương dịch khá cao như
CANDIDE của IBM, hệ dịch Trung - Anh của đại
học Johns Hopkins, Ưu điểm vượt trội của phương pháp này là thay vì xây
dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch tự động thiết lập các
từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu.
Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng được
cho bấ
t kỳ cặp ngôn ngữ nào.
Dịch máy thống kê hiện nay đi theo 3 hướng tiếp cận chính, đó là dịch máy thống
kê dựa trên đơn vị từ; dựa trên đơn vị cụm từ và dựa trên cú pháp. Trong đó dịch
máy thống kê dựa trên đơn vị cụm từ hiện đang là cách tiếp cận thu hút được
nhiều sự quan tâm nhất của giới nghiên cứu dịch máy.
Tuy nhiên, cách tiếp cận thống kê nói chung vẫn phả
i đối mặt với những hạn chế
do sự thiếu hụt về thông tin ngôn ngữ. Mô hình dịch thống kê vẫn chưa giải
quyết được một số vấn đề cơ bản của dịch máy như trật tự từ, khả năng lựa chọn
cụm từ phù hợp, và vấn đề về dữ liệu thưa. Các cải tiến làm tăng chất lượng dị
ch

bằng cách tích hợp các thông tin ngôn ngữ vào các bước tiền xử lý, hậu xử lý hay
tích hợp trực tiếp vào mô hình dịch đã được đề xuất.
Gần đây, với sự xuất hiện của phương pháp dịch máy thống kê tích hợp thêm các
thông tin ngôn ngữ, những hạn chế trên đã được cải thiện một cách đáng kể.
Phương pháp này không những duy trì được những ưu điểm của phương pháp
d
ịch máy thống kê dựa trên đơn vị cụm từ mà còn có thêm thế mạnh từ tri thức
ngôn ngữ được kết hợp một cách linh hoạt vào mô hình dịch dưới dạng các yếu
tố tương ứng với từ. Đây là một cách tiếp cận mới đã đạt được kết quả tốt với
nhiều cặp ngôn ngữ như Anh-Czech, Anh-Đức,
Tuy nhiên, các thực nghiệm đã cho thấy càng nhiều các yế
u tố ngôn ngữ được
thêm vào không hẳn đã làm tăng chất lượng của hệ thống. Mỗi cặp ngôn ngữ sẽ
8

có một cấu hình kết hợp các yếu tố ngôn ngữ phù hợp cho mình. Theo những
quan sát và đánh giá đó, luận văn hướng đến việc nghiên cứu và xây dựng tổ hợp
các yếu tố ngôn ngữ ở mức từ vựng phù hợp cho hệ dịch thống kê Anh-Việt. Một
cấu hình phù hợp với đặc trưng ngôn ngữ trong lĩnh vực kinh tế và hội thoại đã
cho thấy tiềm năng
ứng dụng của phương pháp này đối với cặp ngôn ngữ Anh-
Việt.

Luận văn có bố cục gồm 5 chương chính:
Chương I là tổng quan về dịch máy, giới thiệu những đặc điểm trong quá trình
dịch máy và tình hình dịch máy trong và ngoài nước.
Chương II giới thiệu về mô hình dịch máy thống kê, các phương pháp dịch máy
thống kê.
Chương III đi sâu vào mô hình dịch máy thống kê có tích hợp với các thông tin
ngôn ngữ.

Chương IV nêu lên các thành phần s
ử dụng trong hệ dịch thống kê có tích hợp
với các thông tin ngôn ngữ.
Chương V là các mô hình thực nghiệm và kết quả thực nghiệm.
Cuối cùng là một số kết luận cũng như hướng phát triển trong tương lai.

9

CHƯƠNG I - TỔNG QUAN VỀ DỊCH MÁY
1.1 Khái niệm dịch máy
Dịch máy (Machine Translation) là một hướng phát triển có lịch sử lâu đời từ
thập kỷ 50 và được phát triển mạnh mẽ vào thập kỷ 80 [19]. Dịch máy (hay dịch
tự động) là việc dịch một ngôn ngữ này sang một ngôn ngữ khác bằng máy tính
[12]. Ngôn ngữ của văn bản cần dịch được gọi là ngôn ngữ nguồn, ngôn ngữ của
văn bản đã dịch gọi là ngôn ngữ đích.

1.2 Kiến trúc chung của một hệ dịch máy
Kiến trúc hiện thời của một hệ dịch máy có thể được phân thành 3 lớp chính
sau: trực tiếp, chuyển đổi, và liên ngữ [12]. Ba lớp này tương ứng với các loại
khác nhau (Hình 1.1) phụ thuộc vào mức độ phân tích của hệ thống.

Hình 1.1: Các loại hệ thống dịch máy

Kiến trúc dịch trực tiếp (Direct Architecture): Thay thế từng từ trong văn bản
nguồn thành từ trong văn bản đích rồi sinh trở lại văn bản đích theo đúng thứ tự
văn bản nguồn. Kiến trúc này đơn giản nhưng không đạt hiệu quả cao vì các khác
10

biệt về cú pháp và tính đa nghĩa của từ. Kiến trúc này được áp dụng vào những
năm đầu của lịch sử dịch máy và đạt được thành công trong những ngữ cảnh hẹp
hoặc trong bài toán đòi hỏi chất lượng không cao lắm.

Kiến trúc dịch chuyển đổi (Transfer Architecture): Gồm hai mức, chuyển đổi
cú pháp và chuyển đổi ngữ nghĩa, thực hiện chuyển đổi các tri thức ngôn ngữ từ
ngôn ng
ữ nguồn sang ngôn ngữ đích (từ, cú pháp, nghĩa, ). Kiến trúc này có độ
chính xác cũng như dễ đọc dễ hiểu, giải quyết mập mờ tốt hơn nhiều kiến trúc
dịch trực tiếp. Tuy vậy thường phải tốn nhiều công sức trong việc tiến hành việc
chuyển đổi tri thức ngôn ngữ cho từng cặp ngôn ngữ.

Kiến trúc dịch qua ngôn ngữ trung gian (Interlingual Architecture): Phân tích
ngôn ngữ nguồn và đưa ra mô tả
về tri thức ngôn ngữ tương ứng trên một ngôn
ngữ trung gian, độc lập với ngôn ngữ nguồn. Từ đó tạo ra văn bản cho ngôn ngữ
đích. Nói cách khác, các cặp ngôn ngữ nguồn và đích đều được dịch thông qua

một ngôn ngữ trung gian. Đây là kiến trúc hoàn hảo mà các hệ dịch máy vươn tới.

Ba lớp kiến trúc cho hệ dịch máy trên cùng đưa ra câu trả lời cho câu hỏi là
những thể hiện nào được sử d
ụng và những bước nào được thực thi cho một quá
trình dịch. Tuy nhiên, còn có một cách tiếp cận khác cho bài tóan dịch máy –
cách tiếp cận dựa trên dữ liệu (corpus-based), trong đó tập trung vào kết quả chứ
không tập trung vào tiến trình thực hiện. Các phương pháp theo cách tiếp cận này
là dịch dựa trên ví dụ
(Example-based) và phương pháp dịch máy thống kê
(Statistical).

Hình 1.2: Một ví dụ dịch máy ghi nhớ

11

Ý tưởng của phương pháp dịch máy ghi nhớ là tìm trong kho ngữ liệu song ngữ
các câu nguồn có đoạn giống câu cần dịch, phân tích để chỉ ra phần tương ứng
của câu đích trong cặp câu ngữ liệu, sau đó tổng hợp và đưa ra kết quả [31]. Hình
1.2 đưa ra một ví dụ dịch câu tiếng Anh “He buys a book on international
politics” sang tiếng Nhật sử dụng phương pháp dịch máy ghi nhớ.
Tuy nhiên, phương pháp này sẽ đem lại kết quả
dịch không tốt khi dịch với các
cặp ngôn ngữ khác biệt nhiều về cấu trúc ngữ pháp và đòi hỏi một lượng ngữ liệu
song ngữ rất lớn.

Dịch máy thống kê thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng
tay, hay ghi nhớ các đoạn giống nhau từ kho ngữ liệu, hệ dịch này tự động xây
dựng các từ điển, các quy luật dựa trên kế
t quả thống kê có được từ các kho ngữ

liệu. Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng
được cho bất kỳ cặp ngôn ngữ nào. Đây là hướng tiếp cận đang được đánh giá
cao và thu được nhiều kết quả ấn tượng nhất. Trong các phần tiếp theo của luận
văn tôi sẽ đi sâu vào hướng tiếp cận này.
1.3 Những khó khăn trong dịch máy
Mỗi ngôn ngữ đều có đặc trưng riêng khiến cho việc dịch tự động từ ngôn ngữ
này sang ngôn ngữ khác phải đối mặt với những thách thức ghê gớm. Dưới đây
là những khó khăn tiêu biểu cho việc dịch các ngôn ngữ tự nhiên nói chung và
dịch Anh-Việt nói riêng.
a. Nhập nhằng
Sự nhập nhằng trong các ngôn ngữ tự nhiên là rất lớn. Đây chính là khó khăn lớn
nhất của quá trình dịch tự
động khi phải lựa chọn từ với nghĩa phù hợp nhất trong
rất nhiều nghĩa khác nhau của một từ đầu vào.
Có các loại nhập nhằng sau:
- Nhập nhằng từ vựng
Một từ có thể có nhiều chức năng ngữ pháp. Mỗi chức năng ngữ pháp lại có thể
có nhiều nghĩa. Các loại từ này là gặp thường xuyên trong ngôn ngữ tự nhiên.
Ví dụ:
Trong tiếng Anh bình quân một t
ừ có ít nhất 2 nghĩa: từ make có 14 nghĩa, từ
nervous có 4 nghĩa,
Từ train có chức năng noun (danh từ) và có nghĩa là tàu hoả, hoặc đoàn tuỳ tùng.
Từ train có chức năng là Verb (động từ) và có nghĩa là đào tạo, hoặc dạy dỗ.
12

Thông thường loại nhập nhằng này có thể khắc phục bằng cách dựa vào phân tích
ngữ pháp và dựa vào ngữ cảnh câu.
Ví dụ: I love you (tôi yêu bạn).
Ở câu này love tuy có hai nghĩa: tình yêu (noun), yêu (verb). Nhưng theo cấu trúc

của câu tiếng Anh bắt buộc trong câu phải có động từ đi kèm cho nên love ở đây
được hiểu nghĩa là yêu (verb).

- Nhập nhằng về cú pháp (syntactic ambiguity)

Trong ngôn ngữ tự nhiên một câu có thể có các cấu trúc ngữ pháp khác nhau, từ

đó dẫn đến một câu có thể hiểu theo nhiều nghĩa khác nhau.
Đôi khi một cấu trúc ngữ pháp cũng có thể hiểu theo các nghĩa khác nhau.
Ví dụ:
Câu 1: I saw a horse with a telescope.
- I saw a horse
with a telescope.
- I saw a horse with a telescope.

Câu 2: I saw a man with a telescope.
- I saw a man
with a telescope.
- I saw a man with a telescope.

Câu 1 có thể hiểu theo hai nghĩa:
- Tôi nhìn thấy con ngựa qua ống nhòm.
- Tôi nhìn thấy một con ngựa (mà nó) có cái ống nhòm.
Câu 2 cũng có thể hiểu được theo hai nghĩa:
- Tôi nhìn thấy một người đàn ông qua ống nhòm.
- Tôi nhìn thấy một người đàn ông (mà ông ta) có cái ống nhòm.
Việc phân tích nghĩa cho phép ta chọn nghĩa đúng (trong ngữ cảnh thông thường)
của câu 1, nhưng không thể xác định được trong câu 2.

- Nhập nhằng nói năng

Bao gồm cả sự m
ơ hồ về từ ngữ lẫn cú pháp.
John took the fruit from the table, then he cleaned it.
(John lấy trái cây ra khỏi bàn, rồi anh ta lau nó)
it (nó) ở đây là fruit (trái cây) hay table (cái bàn) ?

- Mơ hồ về phân đoạn

Chỉ tồn tại trong các thứ tiếng các nước châu Á-ngôn ngữ loại đơn lập. Và là một
vấn đề mà dịch theo chiều Việt-Anh gặp phải.
Ví dụ: Ông già đi nhanh quá.
13

Ở ví dụ này ta có thể hiểu Ông là chủ ngữ (là người mà đang nói đến), hoặc ta
cũng có thể hiểu đang nói đến một ông già nào đó làm chủ ngữ, dẫn đến câu này
không thể biết chính xác nghĩa như thế nào cả.
b. Không đủ thông tin
Trong ngôn ngữ thông thường đặc biệt trong hội thoại, ta thường gặp các đoạn
văn, câu văn không đầy đủ, thiếu đi các thành phần của câu. Th
ường thì người
nghe có thể tự sửa lại câu và hiểu được câu, nhưng đó là một vấn đề khó cho máy
dịch.
Ví dụ: Mary tidied up the kitchen and John the living room.
(Mary dọn dẹp bếp và John - phòng khách.)
Như vậy ở đây đã lược bỏ đi cụm “tidied up”.
Trong nhiều trường hợp, để hiểu đúng nghĩa của câu phải căn cứ vào các câu
đứng trước hoặc đứng sau nó.
Ví dụ:
The room has two cabinets. He keeps books in them

.
(Cái phòng đó có hai cái tủ. Anh ta cất các quyển sách trong chúng.)
Trong câu thứ 2, muốn xác định được từ “them” biểu đạt ý nghĩa như thế nào ta
buộc phải biết nghĩa của câu trước.
c. Cấu trúc ngữ pháp phức tạp
Hệ thống ngữ pháp của một ngôn ngữ bất kỳ thường rất phức tạp và đa dạng.
Trước hết từ những luật đơn giản có thể b
ổ sung và phát triển thành những luật
phức tạp. Tiếp theo để mô tả đầy đủ được các luật trong ngôn ngữ tự nhiên chúng
ta không thể mô tả chúng dưới dạng văn phạm phi ngữ cảnh. Do đó hiện nay
chưa có một thuật toán phân tích cấu trúc ngữ pháp toàn vẹn cho ngôn ngữ tự
nhiên.
Ví dụ: Một luật ngữ pháp cho tiếng Anh có thể biểu diễn dưới dạng:
S::=S conjt S
Luật này mang tính chất đệ quy do đó ta có thể
xây dựng được các câu rất dài.
Kasprop win Deep Blue and my friend loss Deep Thought.
Hay các thành phần lồng nhau như:
John’s aunt’s friend’s ticket (cái vé của bạn của cô của John).
Như vậy, cấu trúc ngữ pháp của ngôn ngữ tự nhiên rất phức tạp và việc tiến hành
dịch sẽ gặp rất nhiều trở ngại.
d. Lượng từ vựng nhiều
Tiếng Anh có khoảng 500.000 từ thông thường và 300.000 thuật ngữ khoa học.
Việc đưa các dữ liệu này vào máy tính như th
ế nào và xử lý chúng là một bài
14

toán khó. Và đặc biệt là đối với những ngôn ngữ có sự biến đổi hình thái. Trong
từ điển của hệ dịch máy khó có thể bao trùm hết được tất cả những từ đó. Hơn
nữa, máy không thể hiểu được từ nào là biến cách của từ nào để có thể dịch theo

nghĩa của từ đó. Chính vì vậy, đây là một thách thức lớn đòi hỏi những nghiên
cứu nh
ằm tận dụng được vốn từ sẵn có trong hệ thống để đoán nhận được từ mới
đưa vào. Đây chính là vấn đề xử lý dữ liệu thưa đặt ra đối với một hệ dịch.
e. Sự không đồng nhất giữa các cặp ngôn ngữ
Việc dịch một câu từ ngôn ngữ này sang ngôn ngữ khác mà vẫn giữ nguyên được
nội dung, tính chính xác và các sắc thái biểu cảm là một v
ấn đề rất khó khăn. Nó
đòi hỏi người dịch phải am hiểu sâu sắc về kiến thức của cả hai ngôn ngữ cũng
như về văn hoá đặc trưng cho hai ngôn ngữ đó. Một trong những trở ngại chính
của việc dịch ngôn ngữ là sự không đồng nhất giữa chúng.

- Không tương đồng về từ vựng

Từ vựng giữa các ngôn ngữ là không tương
đồng.
Ví dụ :
Giữa tiếng Anh và tiếng Việt có khác biệt về ngôi, cách xưng hô, như ngôi thứ
nhất số ít: “Tôi, tao, tớ, anh, mình, con, cháu” sử dụng tuỳ theo văn cảnh, tình
cảm của người nói, còn trong tiếng Anh, ta chỉ việc dùng một đại từ “I”.

- Không tương đồng về cấu trúc câu

Đa số các ngôn ngữ khác nhau thì khác nhau về cấu trúc. Sự khác nhau về trật tự
từ trong câu là một thách thức lớn trong dịch máy.
Ví d
ụ: Trong tiếng Anh tính từ thường đứng trước danh từ, nhưng trong tiếng
Việt thì ngược lại.
Tiếng Anh: I buy a blue book
Tiếng Việt: Tôi mua một quyển sách xanh.

Một câu trong tiếng Anh bao giờ cũng kèm theo động từ (trong thành phần vị
ngữ) còn trong tiếng Việt thì không hẳn như vậy.
Tiếng Anh: She is nice.
Tiếng Việt: Cô ta đẹp.

- Không tương đồng về văn hoá

Do có sự khác biệt về v
ăn hóa, Cho nên người dịch phải hiểu biết rất sâu sắc cả
nền văn hoá mới khắc phục được sự khác biệt này.
15

Thành ngữ và tục ngữ là những thành phần không thể dịch bình thường được, mà
ta phải tìm các thành phần tương ứng nhau giữa các tiếng. Tuy vậy, không phải
tục ngữ, thành ngữ nào cũng có thể tìm được tương đương.
Ngoài ra còn có sự khác nhau về cách quy ước:
Với câu hỏi và câu trả lời bằng tiếng Anh sau:
A: Is he not a student?(Anh ta không phải là sinh viên à?)
B: No. (ý nói: Anh ta không phải là sinh viên)
Khi dịch sang tiếng Việt, câu trả lời của B sẽ được dịch là:
Vâng (ý nói:
đúng là anh ta không phải là sinh viên)
Nếu ta dịch đúng nghĩa của từ No (không) thì anh ta lại là sinh viên.

Tóm lại, có rất nhiều khó khăn trong quá trình dịch máy. Trong đó nổi lên 3 bài
toán chính đó là: lựa chọn từ phù hợp (word choice), giải quyết vấn đề trật tự từ
trong câu (reordering), và bài toán về dữ liệu thưa (sparse data).
1.4 Tình hình dịch máy trong và ngoài nước
Hiện nay, có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như
Systrans, Kant,… [17, 32] hay những hệ dịch máy mở tiêu biểu như hệ dịch của

Google [16] hỗ trợ hơn 10 cặp ngôn ngữ phổ biến như Anh-Pháp, Anh-Trung,
Anh-Nhật, Anh-Đức, … Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển
đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Các hệ dịch máy này đ
ã đạt được kết
quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp như các cặp
ngôn ngữ Anh-Pháp, Anh-Tây Ban Nha, … và còn gặp nhiều hạn chế đối với các
cặp ngôn ngữ có cú pháp khác nhau như Anh-Trung, Anh-Nhật,…

Ở Việt Nam, dịch Anh-Việt cũng gặp phải những khó khăn về sự khác biệt về
mặt cấu trúc ngữ pháp và tính nhập nhằng về ngữ nghĩa giữa hai ngôn ngữ
. Hơn
10 năm nay dịch máy đã trở thành đề tài được một số nhóm tập trung nghiên cứu,
tuy nhiên chất lượng cũng như phạm vi ứng dụng của các hệ dịch đó vẫn còn
nhiều hạn chế. Trong nhiều nhóm nghiên cứu chỉ có một hệ dịch Anh-Việt được
đưa ra làm sản phẩm thương mại có ứng dụng trong thực tế.
- Nhóm nghiên cứu của TS Đinh Đi
ền (ĐHKHTN-ĐHQGTPHCM): nghiên
cứu của nhóm chủ yếu dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ
[11].
- Nhóm nghiên cứu của PGS. TS Phan Thị Tươi (ĐHBKTPHCM): Nhóm sử
dụng phương pháp phân tích cú pháp có xác suất [40] để dịch văn bản Anh-
Việt và Việt-Anh.
16

- Nhóm nghiên cứu của TS. Lê Khánh Hùng (Viện NCUDCN-Bộ KHCN) [18]:
Đây là nhóm nghiên cứu duy nhất đã đưa hệ dịch vào sử dụng trong thực tế
và thương mại hoá sản phẩm. EVTRAN là một hệ dịch máy hoàn toàn dựa
vào luật, sử dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh
sang Việt. Phiên bản 3 mới EVTRAN ra đời cuối năm 2005 cho phép dịch
văn bản hai chiều Anh-Việt, Việt-Anh. Do h

ệ dịch dựa trên luật nên kết quả
của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được
thiết lập hay không.
- Nhóm dự án ERIM của ĐHBK Đà Nẵng kết hợp với GETA – ĐHBK
Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải
( />) tại LATL.
- Ngoài ra còn kể đến một số nỗ lực xây dựng phần mềm dịch máy có tiếng
Việt của Stuart và Sandra trường Western Sydney Macarthur và sản phẩm
Universal Translator 2000
( />).
- Gần đây, Google đã thêm tiếng Việt vào hệ dịch máy mở của mình.
- Lạc Việt ngoài phần mềm từ điển song ngữ Anh-Việt cũng đã phát triển một
hệ dịch tự động Anh-Việt phiên bản beta ().
- Tháng 11/2008, Tinh Vân cũng cho ra phiên bản beta của phần mềm dịch
Anh-Việt sử dụng các tiếp cận dựa trên luật chuyển đổi (
).
Hầu hết các nhóm nghiên cứu đều tập trung vào xây dựng hệ dịch Anh-Việt theo
phương pháp dựa luật chuyển đổi (rule-based). Các nghiên cứu đã đạt được
những thành công nhất định nhưng vẫn còn nhiều hạn chế bởi tính đa dạng của
ngôn ngữ Anh-Việt.
Trong luận văn này, tôi tập trung vào một cách tiếp cận mới, cách tiếp cận dịch
máy thống kê có tích hợp với các thông tin ngôn ngữ ở m
ức từ. Hướng đi này
nhằm tận dụng thế mạnh về tính khả chuyển cao của phương pháp thống kê,
đồng thời việc tích hợp thêm thông tin ngôn ngữ ở mức từ nhằm giải quyết sự
khác nhau về đặc trưng ngôn ngữ giữa tiếng Anh và tiếng Việt. Nghiên cứu này
cũng góp phần nâng cao chất lượng dịch trong đề tài xây dựng hệ dịch thống kê
Anh-Việt EVSMT1.0 [3].

17

CHƯƠNG II – DỊCH MÁY THỐNG KÊ
2.1 Giới thiệu
Dịch máy thống kê (Statistical Machine Translation - SMT) là quá trình dịch văn
bản từ một ngôn ngữ này sang một ngôn ngữ khác dựa trên mô hình được sinh ra
một cách tự động từ ngữ liệu song ngữ.
Phương pháp dịch máy thống kê lần đầu tiên được Brown đề cập trong bài báo
[6] với phương pháp sử dụng là mô hình kênh nhiễu. Bài toán được phát biểu
như sau:
Cho một câu ngôn ngữ nguồn e = e
1
J
= e
1
, e
2
, , e
J
(tiếng Anh), ta cần dịch sang
câu ngôn ngữ đích v = v
1
I
= v
1
, v
2
, , v
I
(tiếng Việt). Dịch máy thống kê sẽ chọn

một câu v có xác suất cao nhất trong rất nhiều khả năng dịch được đưa ra.

(
)
JI
v
I
evpv
I
111
|maxarg
ˆ
1
=
(2.1)
Sử dụng luật quyết định Bayes:
()
(
)
()
ep
vpvep
evp
*|
)|( =
(2.2)
Do
)(
1
J

ep
không thay đổi khi so sánh các câu v
1
I
khác nhau nên (2.1) có thể
được viết lại như sau:
(
)
(
)
JJI
v
I
vpvepv
I
1111
*|maxarg
ˆ
1
=
(2.3)
Khi đó, mô hình dịch máy thống kê có thể được mô hình hóa như hình 2.1.
Bài toán dịch máy bằng phương pháp thống kê được chia thành 3 bài toán con:
Mô hình ngôn ngữ là quá trình tính xác suất p(
I
v
1
) của ngôn ngữ đích nhằm tính
toán ra chuỗi câu đích phù hợp nhất (có xác suất xuất hiện cao nhất). Mô hình
thường được sử dụng trong bài toán này là mô hình N-gram.

Mô hình dịch là bài toán trung tâm của dịch máy thống kê. Trong mô hình dịch,
vấn đề trọng tâm của việc mô hình hoá xác suất dịch p(
J
e
1
|
I
v
1
) là việc định nghĩa
sự tương ứng giữa các từ của câu nguồn với các từ của câu đích. Có nhiều
phương pháp khác nhau để mô hình hóa quá trình dịch. Trong đó chia làm 3 cách
tiếp cận chính: cách tiếp cận dựa trên đơn vị từ (word-based), cách tiếp cận dựa
trên đơn vị cụm từ (phrase-based), và cách tiếp cận dựa trên cú pháp (syntax-
based).
Pha giải mã là bài toán tìm kiếm thông thường, dùng để tìm ra câu đích phù hợp
nhất tương ứng với câu nguồn. Các thuật toán tìm kiếm như thuật toán A*, mô
18

hình đồ thị (Graph Model), thuật toán Viterbi là phổ biến nhất trong quá trình
giải quyết bài toán này.

Hình 2.1: Mô hình dịch máy thống kê

Tuy nhiên, mô hình truyền thống này có nhược điểm là không biểu diễn được độ
quan trọng của các thành phần cấu thành nên hệ dịch cũng như không thể thêm
các yếu tố khác góp phần cải thiện chất lượng hệ dịch. Mô hình log-linear đã
được đề xuất áp dụng để giải quyết trường hợp này. Ngoài mô hình ngôn ngữ và
mô hình dịch là hai thành phần cơ bản, mô hình log-linear còn cho phép chúng ta
thêm những thông tin hữu ích khác. Chi tiế

t về mô hình được giới thiệu trong
chương III.
2.2 Mô hình ngôn ngữ
2.2.1 Mô hình N-gram
Cách đơn giản nhất để ngắt một chuỗi kí tự thành các thành phần nhỏ hơn gọi là
các chuỗi con. Mỗi chuỗi con n-từ như vậy được gọi là n-gram [21].
Nếu n = 2 ta gọi là bigram
Nếu n = 3 ta gọi là trigram
Nếu n = 1 ta gọi là unigram hay còn gọi là từ.
Nếu một chuỗi kí tự có rất nhiều n-gram hợp lệ thì ta có thể kết luận chuỗi kí tự
đó là chuỗi hợp lệ. Kí hiệu p(y|x) là xác suất mà t
ừ y theo sau từ x. Chúng ta có
19

thể ước lượng xác suất này dựa vào thống kê trên kho ngữ liệu đơn ngữ
(monolingual).
Xác suất có điều kiện bigram là thương số của phép chia số lần xuất hiện cụm
“xy” cho số lần xuật hiện từ “x” trong kho ngữ liệu.
p(y | x) = số lần xuất hiện(“xy”) / số lần xuất hiện(“x”)

Ví dụ:
p(Tôi muốn mua một cái áo mới) =
p(Tôi | bắt-đầu-câu) *
p(
muốn | Tôi) *

p(mới | áo) *
p(kết-thúc-câu | mới)

Tương tự, ta có định nghĩa tương tự đối với xác suất có điều kiện trigram.

p(z | x y) = số lần xuất hiện(“xyz”) / số lần xuất hiện(“xy”)

Ví dụ:
p(Tôi muốn mua một cái áo mới) =
p(Tôi | bắt-đầu-câu bắt-đầu-câu) *
p(muốn | bắt-đầu-câu Tôi) *
p(mua | Tôi muốn) *

p(m
ới | cái áo) *
p(kết-thúc-câu | áo mới) *
2.2.2 Mô hình ngôn ngữ
Mô hình ngôn ngữ là quá trình tính xác suất P(v) của ngôn ngữ đích nhằm tính
toán ra chuỗi câu đích phù hợp nhất (có xác suất xuất hiện cao nhất).
Đầu tiên chúng ta xem xét về trật tự từ.
Ví dụ: dãy các từ “Tôi thích xem phim” và “chiếc mũ màu xanh” là có thể hiểu
được (có thể tồn tại) ngược lại dãy “Tôi thích phim xem” và “chiếc màu xanh
mũ” là không thể hiểu được (không tồn t
ại).
Để gán xác suất cho toàn bộ một câu, ta nhân các xác suất điều kiện n-gram
tương ứng trong câu đó. Vì vậy, một câu tốt (đúng ngữ pháp) là câu mà có các
xác suất dãy n-gram cao. Ví dụ trong bigram ta có:

p(tôi muốn mua một cái áo mới) =
p(tôi | bắt-đầu-câu) *
20

p(muốn | Tôi) *
p(mua | muốn) *
p(một | mua) *

p(cái | một) *
p(áo | cái) *
p(mới | áo) *
p(kết-thúc-câu | mới)

Dễ dàng thấy rằng điều này có ích như thế nào đối với trật tự từ. Dựa vào cách
tính xác suất như trên ta thấy rằng:
p(tôi muốn mua một cái áo mới) > p(một cái áo mới mua tôi)
Do đó câu “tôi muốn mua một cái áo mới” tốt hơ
n “một cái áo mới mua tôi”.
Như vậy, ta có thể coi toàn bộ các chủ đề về gán xác suất cho một câu được gọi
là mô hình ngôn ngữ.

Mô hình ngôn ngữ không chỉ có ích cho thứ tự các từ mà còn có ích cho việc
chọn nghĩa giữa các cách dịch khác nhau.

Ví dụ: Cho 2 câu (A) và (B)
(A) Tai nạn xảy ra vào lúc nửa đêm.
(B) Tai nạn xảy ra tại nửa đêm.

Ta phải chọn ra câu dịch đúng trong 2 câu trên trong một ví dụ dịch từ tiếng Anh
sang tiếng Vi
ệt. Cả hai từ “tại” hoặc “vào lúc” đều tương ứng với từ “at” trong
tiếng Anh. Nếu trong corpus của chúng ta, giả sử trigram “vào lúc nửa đêm” xuất
hiện 10 lần, trong khi “tại nửa đêm” không xuất hiện (hoặc khá nhỏ so với “vào
lúc nửa đêm”) thì (A) là câu tốt hơn (được chọn). Điều đó có nghĩa là ta có thể
giả quyết vấn đề
nhập nhằng ngữ nghĩa dựa vào mô hình ngôn ngữ đích.
2.2.3 Làm mịn
Mô hình n-gram có thể gán xác suất bằng 0 cho câu mà bao gồm các bigram và

trigram chưa bao giờ xuất hiện trước đó. Hiện tượng này gọi là làm mịn
(smoothing). Nếu “z” chưa bao giờ theo sau “xy” trong văn bản, “z” ít nhất có
thể theo sau “y”. Nếu điều đó đúng, khi đó chuỗi từ “xyz” là không tồi. Nếu
không thì “z” có thể lại là một từ không phổ biến hoặc không. Trong nhiều
trường hợp, dữ liệu học của ta không bao quát hết các trường hợp có thể, do đó
nhiều kỹ thuật làm mịn khác nhau đã được nghiên cứu như ước lượng hợp lý cực
đại (Maximum Likelihood Estimate) thông qua Good-Turing Estimation, Linear
Interpolation, Backoff Models. Một ví dụ đơn giản của phép nội suy tuyến tính
21

(Linear Interpolation) là thay vì chúng ta tính theo công thức
p(z | x y) = số lần xuất hiện(“xyz”) / số lần xuất hiện(“xy”)

chúng ta có thể sử dụng:
p(z | x y) = λ
1
* số lần xuất hiện(“xyz”) / số lần xuất hiện(“xy”) +
λ
2
* số lần xuất hiện (“yz”) / số lần xuất hiện (“z”) +
λ
3
* số lần xuất hiện(“z”) / tổng số từ xuất hiện +
λ
4

Các tham số khởi tạo ở đây tùy thuộc vào từng trường hợp cụ thể, và λ
4
(λ

4
> 0) ở
vế trái của biểu thức nhằm đảm bảo xác suất điều kiện luôn có giá trị dương và
khác 0.
Mô hình N-gram là mô hình ngôn ngữ phổ biến nhất vẫn đạt được hiệu quả cao
trong nhiều ứng dụng dịch máy. Tuy nhiên, một trong những hạn chế của mô
hình N-gram không thể xử lý những thông tin xuất hiện ngoài vùng bao phủ (> N
từ). Do đó, một số mô hình ngôn ngữ khác cũng đang được phát triển nhằ
m giải
quyết hạn chế đó như mô hình ngôn ngữ tựa cú pháp (Syntax-based Language
Model) [9], mô hình ngôn ngữ có gắn thêm các yếu tố ngôn ngữ (Factored
Language Models) [2]. Các mô hình sử dụng thêm các thông tin về ngôn ngữ, cú
pháp để bao quát hơn xác suất của chuỗi từ trong một câu.
2.3 Mô hình dịch
Trong mô hình dịch, vấn đề trọng tâm của việc mô hình hoá xác suất dịch p(e|v)
là việc định nghĩa sự tương ứng giữa các từ của câu nguồn với các từ của câu
đích. Mỗi tương đương gọi là một kết nối. Mô hình thực hiện việc đó gọi là mô
hình gióng hàng từ (word alignment model).
Gióng hàng được biểu diễn bằng đồ thị như các đường nối giữ
a một số từ câu
nguồn và một số từ câu đích. Kết nối này có thể là 1-n, n-1, n-n, như minh họa
trong các hình 2.2, 2.3, và 2.4.

Hình 2.2: Một từ tiếng Việt tương ứng với một hoặc nhiều từ tiếng Anh (1-n)
22

Hình 2.3: Một hoặc nhiều từ tiếng Việt tương ứng với một từ tiếng Anh (n-1)

Hình 2.4: Nhiều từ tiếng Việt tương ứng với nhiều từ tiếng Anh (n-n)

Chú ý rằng khi ta nói đến xác suất dịch ở đây là xác suất thành phần p(e|v) trong
công thức Bayes, tức là xác suất của câu tiếng Anh khi biết câu tiếng Việt. Do đó,
gióng hàng từ ở đây là gióng hàng các từ trong câu tiếng Việt sang các từ trong
câu tiếng Anh.
Trong dịch thống kê, xác suất dịch p(e|v) mô tả mối quan hệ giữa câu ngôn ng
ữ
nguồn e và câu ngôn ngữ đích v. Có rất nhiều cách để dịch từ cùng một câu tiếng
Việt sang câu tiếng Anh. Với mỗi gióng hàng cho ta tương ứng một cách dịch. Vì
vậy, ta có công thức quan hệ giữa mô hình dịch và mô hình gióng hàng:
()
(
)
∑
=
a
app veve |,|
(2.4)
trong đó a là một gióng hàng của cặp (e,v).
2.3.1 Mô hình dịch thống kê dựa trên đơn vị từ
Trong phương pháp dịch thống kê dựa trên đơn vị từ, đơn vị được dịch là các từ.
Hình 2.2 là một ví dụ của mô hình dịch theo phương pháp này. Trong đó, một
gióng hàng xác định vị trí trong câu tiếng Việt của mỗi từ trong câu tiếng Anh.
Brown đã đưa ra năm mô hình gióng hàng từ khác nhau từ IBM1 đến IBM5 [7].
Trong đó, Brown đưa ra giả
định rằng một từ tiếng Việt có thể kết nối với 0 hoặc

nhiều từ tiếng Anh, nhưng một từ tiếng Anh chỉ có chính xác 1 kết nối tới một từ
tiếng Việt. Tức là mô hình giải quyết được trường hợp gióng hàng 1-n. Tuy nhiên,
1 từ tiếng Anh có thể không kết nối tới từ tiếng Việt nào. Trong trường hợp này,
23

Brown đưa thêm một từ NULL vào phía câu tiếng Việt để chỉ những kết nối như
thế. Do đó, câu tiếng Việt bao gồm có I + 1 từ. Số gióng hàng có thể đối với một
cặp câu v có độ dài I, e có độ dài J là (I+1)
J
gióng hàng.
Nếu xâu tiếng Việt
I
I
vvvv
211
==v
có I từ, và xâu tiếng Anh
J
J
eeee
211
==e

có J từ, khi đó một gióng hàng a có thể được biểu diễn bởi một chuỗi
J
J
aaaaa
211
==
với J có giá trị giao động trong khoảng từ 0 đến I. Nếu từ ở vị

trí j của xâu tiếng Anh kết nối tới từ thứ i của xâu tiếng Việt, khi đó a
j
= i. Nếu
nó không kết nối tới từ tiếng Việt nào thì a
j
= 0.

Trong mô hình dịch thống kê dựa trên đơn vị từ, các mô hình dịch dựa trên giả
định rằng một từ của ngôn ngữ nguồn có thể tương ứng với 0 hoặc nhiều từ của
ngôn ngữ đích. Tuy nhiên, gióng hàng giữa ngôn ngữ nguồn và ngôn ngữ đích có
thể có các tương ứng 1-1, 1-nhiều, nhiều-nhiều hay 1-không. Hơn nữa, có rất
nhiều cụm từ hay đi liền với nhau ví dụ như
: in order to, interested in, trong
tiếng Anh rất khó để dịch ra tiếng Việt với kết quả tốt dựa trên đơn vị là từ. Do
đó, mô hình dịch dựa trên đơn vị cụm từ được đề xuất để giải quyết hạn chế trên.
2.3.2 Mô hình dịch thống kê dựa trên đơn vị cụm từ
Cách tiếp cận dựa trên đơn vị cụm từ hiện đang là hướng tiế
p cận được đánh giá
tốt nhất. Hình 2.5 dưới đây minh họa quá trình dịch thống kê dựa trên đơn vị cụm
từ. Đầu vào (câu tiếng Anh) được tách thành các chuỗi từ liên tục nhau (gọi là
các phrase). Ở đây, khái niệm cụm từ (phrase) không theo định nghĩa của ngôn
ngữ học mà các cụm từ này được sinh ra dựa vào các phương pháp thống kê áp
dụng trên ngữ liệu học. Mỗi phrase được dịch thành mộ
t phrase câu đích (tiếng
Việt) tương ứng với độ dài cụm từ có thể là khác nhau, và cụm từ tiếng Việt này
có thể được sắp xếp lại vị trí (reorder) cho phù hợp.

Hình 2.5: Một ví dụ dịch thống kê dựa trên đơn vị cụm từ

Trong mô hình này, bài toán đặt ra là làm sao để xác định được các phrases đó.

Một phương pháp đơn giản được áp dụng hiệu quả là dựa trên phương pháp
24

gióng hàng từ word-based từ phía ngôn ngữ nguồn ứng với ngôn ngữ đích và
ngược lại (Hình 2.6).

Hình 2.6: Một phương pháp gióng hàng cụm từ

Sau đó, thu thập tất cả các phrase mà được gióng hàng phù hợp (consistent) với
gióng hàng từ từ cả 2 phía [35].
Một cặp cụm từ
()
ve, gọi là phù hợp với một gióng hàng A nếu tất cả các từ
e
1
, ,e
n
trong
e
mà có các điểm gióng hàng trong A thì có các điểm gióng hàng
với các từ v
1
, , v
n
trong v và ngược lại:
()
ve, phù hợp với A <=>

(
)

vvAveee
jjii
∈
→
∈
∈∀ ,:

và
(
)
eeAvevv
ijij
∈
→
∈
∈
∀ ,:

và
(
)
Avevvee
jiji
∈
∈
∈∃ ,:,

Hình 2.7 mô tả ví dụ các trường hợp cụm từ hợp lệ và không hợp lệ. Một trường
hợp đặc biệt được mô tả như trong trường hợp hình 2.7(b) đó là trường hợp các
từ không gióng hàng với từ nào. Do chúng không có các điểm gióng hàng nên

chúng vẫn thỏa mãn điều kiện về sự phù hợp. Do đó, chúng có thể được tính vào
trong cụm.

(a) hợp lệ không hợp lệ không hợp lệ
25

(b) hợp lệ

Hình 2.7: Các cụm từ hợp lệ và không hợp lệ

Khi đó, ta có thể ước lượng phân phối xác suất dịch cụm từ
()
vep |
giữa cụm từ
tiếng Anh
e và cụm từ tiếng Việt v sử dụng ước lượng hợp lý cực đại.
()
(
)
()
vcount
vecount
vep
,
| =

Trong mô hình dịch thống kê dựa trên đơn vị cụm từ, mô hình thường được sử
dụng là mô hình log-linear được đề xuất bởi Och và Ney năm 2002 [33]. Chi tiết

về mô hình và các thành phần trong mô hình được mô tả chi tiết trong chương III.
2.3.3 Mô hình dịch thống kê dựa trên cú pháp
Để tích hợp thêm các thông tin về cú pháp của ngôn ngữ, mô hình dịch cho phép
đầu vào có thể là một cây cú pháp. Câu đầu vào được tiền xử lý bởi 1 bộ phân
tích cú pháp. Mô hình sẽ biểu diễn các phép toán trên các nút của cây cú pháp.
Các phép toán đó là là sắp x
ếp lại trật tự các nút con (reordering), chèn thêm các
từ chức năng vào các nút (inserting), và dịch các từ gắn với nút lá (translating)
[41]. Hình 2.8 biểu diễn tổng quan về các phép toán trong mô hình dịch dựa trên
cú pháp này.

Hình 2.8: Các phép toán: reorder, insert, translate

Dịch máy Anh - Việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về