Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 65 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

----------  ----------

TRẦN TRUNG THÀNH

CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA
PHÂN TÍCH HÌNH THÁI

LUẬN VĂN THẠC SỸ

Hà Nội - 2015

2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

----------  ----------

TRẦN TRUNG THÀNH

CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA
PHÂN TÍCH HÌNH THÁI

Ngành:

Công nghệ thông tin

Chuyên ngành:

Khoa học máy tính

Mã số:

60480101

LUẬN VĂN THẠC SỸ

Cán bộ hướng dẫn: PGS.TS Lê Anh Cường

Hà Nội - 2015

3

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn
khoa học của PGS.TS.Lê Anh Cường. Các nội dung nghiên cứu, kết quả trong luận văn
này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu
trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu
thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội
dung luận văn của mình.

4

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 3
Danh mục các từ viết tắt ............................................................................................ 7
Danh mục các bảng ................................................................................................... 7
Danh mục các hình vẽ, đồ thị .................................................................................... 7
I. MỞ ĐẦU ............................................................................................................. 9
1.1.

Đặt vấn đề .................................................................................................. 9

1.2.

Hướng tiếp cận của luận văn ................................................................... 11

1.3.

Nội dung của luận văn ............................................................................. 11

II.

TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ ............................................... 13

2.1.

Dịch máy ................................................................................................. 13

2.1.1. Sơ đồ tổng quan của một hệ dịch máy ................................................ 13
2.1.2. Các phương pháp dịch máy ................................................................ 14
2.2.

Dịch máy thống kê .................................................................................. 15

2.2.1. Mô hình dịch máy thống kê ................................................................ 16
2.2.2. Mô hình ngôn ngữ ............................................................................... 18
2.2.3. Mô hình dịch ....................................................................................... 20
2.2.3.1. Mô hình dịch dựa trên từ.............................................................. 20
2.2.3.2. Mô hình dịch dựa trên cụm từ ...................................................... 21
2.2.3.3. Mô hình dịch dựa trên cú pháp .................................................... 22
2.2.4. Gióng hàng từ...................................................................................... 25
2.2.5. Quá trình giải mã (decoding) .............................................................. 31
2.2.6. Ưu điểm của phương pháp dịch thống kê ........................................... 32

5

2.2.7. Các phương pháp đánh giá chất lượng dịch máy ................................ 33
2.2.7.1. BLEU (BiLingual Evaluation Understudy) ................................. 34
2.2.7.2. NIST (National Institute of Standards and Technology) ............. 34
2.2.7.3. TER (Translation Error Rate) ...................................................... 35
2.2.8. Chu kì phát triển của hệ thống dịch thống kê ..................................... 35
2.3.

Tích hợp tri thức ngôn ngữ vào dịch máy thống kê ................................ 36

2.3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý ............................................. 36
2.3.2. Dùng thông tin cú pháp ....................................................................... 37
2.3.3. Sử dụng thông tin từ loại..................................................................... 38
2.3.4. Sử dụng luật biến đổi hình thái từ ....................................................... 39
2.3.5. Cách tích hợp tri thức vào hệ thống dịch máy .................................... 41
2.3.5.1. Tích hợp thông tin hình thái vào mô hình .................................... 42

2.3.5.2. Tích hợp thông tin cú pháp vào mô hình dịch ............................. 43
2.3.5.3. Tích hợp vào mô hình ngôn ngữ .................................................. 43
III. GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ ...................................................... 45
3.1.

Giới thiệu mô hình gióng hàng IBM ....................................................... 45

3.2.

Định nghĩa mô hình IBM ........................................................................ 47

3.3.

Một vài vấn đề khi áp dụng cho ngữ liệu Anh-Việt ................................ 48

IV. PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN .......................................................... 50
4.1.

Phân tích ví dụ ......................................................................................... 50

4.2.

Đề xuất..................................................................................................... 52

V. THỬ NGHIỆM ................................................................................................... 54
5.1.

Các thử nghiệm bộ gióng hàng từ ........................................................... 54

5.1.1. Các xác suất dịch từ ............................................................................ 54

6

5.1.2. Cải tiến phép gióng từ Viterbi ............................................................ 56
5.2.

Hiệu năng dịch của các thử nghiệm ........................................................ 57

5.3.

Hướng dẫn các bước thực nghiệm........................................................... 58

VI. KẾT LUẬN ....................................................................................................... 61
TÀI LIỆU THAM KHẢO ....................................................................................... 62

7

Danh mục các từ viết tắt
 EM Expectation Maximization (Cực đại kỳ vọng)
 MT Machine Translation (Dịch máy)
 NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
 POS Part Of Speech (Nhãn từ loại)
 SMT Statistical Machine Translation (Dịch máy thống kê)

Danh mục các bảng
 Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng
 Bảng 5.1. Các xác suất cho các từ nguồn được thêm vào sau khi chạy IBM Models
 Bảng 5.2. Số phép gióng từ đúng trong khi gióng trong tập ngữ liệu khác nhau

 Bảng 5.3: điểm BLEU của bốn lần thực nghiệm

Danh mục các hình vẽ, đồ thị
 Hình 2.1: Sơ đồ tổng quan của hệ dịch máy
 Hình 2.2: Mô hình dịch máy thống kê
 Hình 2.3: Câu đầu vào tiếng Anh được dịch từng từ sang tiếng Việt, sau đó sắp xếp lại
trật tự từ.
 Hình 2.4. Câu đầu vào được tách ra thành các cụm từ, dịch một-một các cụm từ tiếng
Anh sang tiếng Việt và có thể sắp xếp lại trật tự các cụm từ.
 Hình 2.5: Quá trình dịch dựa trên cú pháp theo cách tiếp cận dịch từ chuỗi sang cây cú
pháp, gồm 3 bước: (1) chuyển đổi trật tự từ, (2) chèn và (3) dịch.
 Hình 2.6: Quá trình dịch được thực hiện từ trái sang phải và mở rộng không gian giả
thuyết
 Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết

8

 Hình 2.8. Hình minh hoạ quá trình cải tiến gióng hàng từ
 Hình 2.9: Minh họa quá trình giải mã câu đầu vào e = "He does not go home" từ tiếng
Anh sang tiếng Việt.
 Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt
 Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh
 Hình 4.3. Sự sắp xếp đối xứng của cả hai hướng sau khi tách các thành phần

9

I.

MỞ ĐẦU

1.1. Đặt vấn đề
Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện
nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy
tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển.
Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con
người đi đến thành công, chương trình dịch tự động sẽ là công cụ giúp họ vượt qua rào
cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là
một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới.
Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng. Mặc khác,
giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu.
Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được
gần với con người vẫn đang là một thách thức lớn.
Hiện nay trên thế giới có khoảng 5.650 ngôn ngữ khác nhau, với một số lượng
ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin.Với
những khó khăn như vậy người ta đã phải dùng đến một đội ngũ phiên dịch viên khổng
lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác.
Để khắc phục những nhược điểm trên con người đã nghĩ đến việc thiết kế một mô
hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu
tiên người ta đã tiến hành nghiên cứu về dịch máy. Công việc đưa ra mô hình tự động cho
việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt để lớp ngôn ngữ
tự nhiên. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải
pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp
xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp
với máy.

10

Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều
hướng tiếp cận khác nhau, và do xây dựng trên các mô hình khác nhau, các hệ thống cho
ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào.
Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp,
ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính
xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và
luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực
hiện phải có kiến thức sâu về ngôn ngữ.
Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của hệ
dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri
thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch
sẽ càng hiệu quả.
Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có
thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên
dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và
dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông
qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy
thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang
tập trung khai thác và phát triển hệ dịch máy trên mô hình này.
Tuy nhiên trong quá trình phát triển một hệ thống dịch máy, với đặc thù ngôn ngữ
tiếng Việt có tính hình thái đơn giản hơn các ngôn ngữ khác như tiếng Anh, tiếng Đức …
rất nhiều, do vậy việc sử dụng các mô hình cổ điển như mô hình gióng hàng IBM chưa
đem lại một kết quả thực sự tốt. Do vậy luận văn này ngoài việc tiếp cận và giới thiệu về
một hệ dịch máy thống kê còn tập trung vào việc phân tích, cải tiến thuật toán gióng hàng
từ, cụ thể là thông qua việc phân tích hình thái của ngôn ngữ, chúng tôi đề xuất một
phương pháp để tăng chất lượng dịch lên đáng kể.

11

1.2. Hướng tiếp cận của luận văn
Luận văn sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ
vào trong hệ dịch máy thống kê dựa trên hình thái ngôn ngữ. Khảo sát các tri thức ngôn
ngữ trong dịch máy thống kê Anh - Việt, các tri thức được tập trung khảo sát về hình thái
từ, từ loại và các cách kết hợp các thông tin này, ảnh hưởng của nó để từ đó có thể đề xuất
phương pháp cải tiến hệ dịch.
Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ, tiếng Việt là ngôn
ngữ đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng các
hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình tiết: đây
là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng vừa dùng như
từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói đến vấn đề khó xác
định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố thực cũng như vấn đề mặt
cấu tạo từ ít phát triển. Trong khi tiếng Anh là ngôn ngữ hoà kết, từ tiếng Anh chính là
những từ chính tả phân biệt bởi khoảng trắng. Từ vựng tiếng Anh có hai đặc điểm là biến
cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào
một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case),
v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố
nhằm thể hiện những ý nghĩa từ vựng như: lặp lại (re-), chống (anti-), người/vật thực hiện
(-er/-or), ... Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố.
Do đó, luận văn sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống
dịch máy thống kê Anh - Việt ở mức độ hình thái từ, tập trung vào các lớp hình thái phổ
biến là danh tự + (s), động từ + (ED), động từ + (ING). Từ tiếng Anh sẽ được đưa về từ
gốc và tách các hình vị, từ tiếng Việt sẽ được phân đoạn từ và gán nhãn từ loại. Sau đó
luận văn thực hiện một số thực nghiệm và dùng điểm BLUE để so sánh các kết quả đạt
được.

1.3. Nội dung của luận văn
Phần còn lại của luận văn sẽ bao gồm các chương sau:

12

Chương 2 – DỊCH MÁY & DỊCH MÁY THỐNG KÊ: Chương này sẽ trình bày
các khái niệm về Dịch máy và hướng tiếp cận Dịch máy thống kê dựa trên từ, cụm từ, cú
pháp cùng với các thành phần cấu thành hệ thống dịch máy thống kê.
Chương 3 – GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ: Chương này sẽ trình bày
về mô hình cổ điển IBM, định nghĩa toán học và đưa ra các đánh giá về mặt hạn chế của
mô hình này.
Chương 4 – PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN: Thông qua việc phân tích các
ví dụ về hình thái của ngôn ngữ tiếng Việt và tiếng Anh để đưa ra các đề xuất cải tiến bao
gồm việc tách từ, tiền xử lý, hậu xử lý từ để cho ra kết quả là bộ ngữ liệu tốt hơn.
Chương 5 – THỬ NGHIỆM: Chương này sẽ mô tả chi tiết về các thí nghiệm đã
thực hiện để đánh giá hiệu quả hướng tiếp cận của luận văn, đồng thời so sánh cả về mặt
hiệu năng với các mô hình cổ điển khác.
Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và
hướng phát triển trong tương lai.
TÀI LIỆU THAM KHẢO: trình bày các thông tin khác có liên quan và được sử
dụng trong luận văn.

13

II. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ
2.
2.1. Dịch máy
Dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation) là một
nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp
giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch
một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là

ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình
dịch
2.1.1. Sơ đồ tổng quan của một hệ dịch máy
Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ nguồn. Văn bản
này có thể thu được từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói. Sau đó
văn bản có thể được chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trước khi đưa vào
máy dịch.
Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngôn ngữ đích. Và
cũng qua một bộ chỉnh ra để cuối cùng thu được một văn bản tương đối hoàn chỉnh.
Dưới đây là sơ đồ tổng quát của một hệ dịch máy:

14

Hình 2.1: Sơ đồ tổng quan của hệ dịch máy
2.1.2. Các phương pháp dịch máy
Dịch máy là đề tài được nghiên cứu liên tục trong nhiều năm qua do rất nhiều
nhóm nghiên cứu trên thế giới thực hiện, trong quá trình đó nhìn chung Dịch máy có thể
được phân loại ra một số hướng như sau:
Dịch trực tiếp (Direct MT)
Là hệ thống dịch bằng cách thay thế những từ/ngữ trong ngôn ngữ nguồn bằng
những từ/ngữ trong ngôn ngữ đích một cách tự động
Dịch máy dựa theo luật (Rule-based MT)
Hệ thống dịch bằng cách phân tích hình thái và cú pháp câu của ngôn ngữ nguồn
và sau đó áp dụng những luật ngôn ngữ và từ vựng để ánh xạ thông tin sang ngôn ngữ
đích
Các tiếp cận truyền thống của hệ này là dựa vào các luật dẫn thường được xây
dựng bằng tay bởi các chuyên gia ngôn ngữ.
Dịch máy qua ngôn ngữ trung gian (Interlingual MT)

15

Hệ thống dịch qua một ngôn ngữ trung gian gọi là liên ngôn ngữ (interlingual).
Trong đó ngôn ngữ trung gian UNL (Universal Networking Language) là một ngôn ngữ
trung gain biểu đạt riêng cho máy tính, cho phép biểu diễn về mặt ngữ nghĩa ở mức đơn
giản nhất có thể để giảm thiểu những rắc rối do vấn đề ngữ nghĩa.
Dịch máy dựa trên ví dụ (Example-based MT)
Theo cách tiếp cận này, khi hệ dịch nhận được một câu ngôn ngữ nguồn, hệ thống
sẽ so khớp với các mẫu trong kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất
và đưa ra thành phần dịch tương ứng trong mẫu đó.
Dịch máy dựa trên thống kê (Statistical-based MT)
Dựa trên cơ sở ngôn ngữ học và công nghệ học máy để có được các bộ luật chuyển
đổi nhờ và kho ngữ liệu dạng đơn ngữ hay song ngữ. Các luật này phải được đảm bảo là
chính xác, bao quát, không mâu thuẫn và dễ kiểm soát hơn so với các luật được xây dựng
bởi các nhà ngôn ngữ học.
Trong phạm vi của luận văn này sẽ tập trung nghiên cứu sâu hơn về Dịch máy dựa
trên thông kê, từ khái niệm, cách xây dựng mô hình cho tới cách tích hợp tri thức ngôn
ngữ vào để cải thiện kết quả dịch.

2.2. Dịch máy thống kê
Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ
những năm 1980 trong dự án Candide của IBM. Phương pháp được IBM sử dụng là dịch
máy thống kê dựa trên từ (word based SMT), phương pháp này dịch một từ thuộc ngôn
ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên
câu đích.
Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương
pháp dịch máy thông kê dựa trên ngữ/nhóm từ (phrase based SMT). Phương pháp này
được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model), mô hình này
có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ. Nhiều nhóm

16

nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình,
chẳng hạn Yamada & Knight [12] đã thành công khi sử dụng cách dịch dựa trên ngữ
trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình.
Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên
ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google. Các
hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội nghị đánh
giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine Translation
Evaluation).
Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong
dịch máy. Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ
vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các
hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian
trong quá trình dịch.
1.
2.
2.1.
2.2.
2.2.1. Mô hình dịch máy thống kê
Mô hình dịch máy thống kê được đưa ra bởi Brown vào năm 1990 [2]. Mô hình
này giả sử rằng câu ở ngôn ngữ nguồn có câu dịch là câu ở ngôn ngữ đích. Một câu e có
thể dịch sang được nhiều câu v. Trong dịch thống kê, ta chọn câu v có khả năng là câu
dịch của e là nhiều nhất. Với mỗi cặp câu (v|e) ta gọi p(v|e) là xác suất mà e có thể dịch
thành v. Mục đích của dịch máy thống kê là tìm câu có xác suất p(v|e) là cao nhất.
Tuy nhiên, việc tính xác suất p(v|e) không khả thi vì câu đích được tạo ra bởi chuỗi
các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp.
Do đó, công thức Bayes được dùng để triển khai cho xác suất p(v|e)

17

𝑝 𝑣𝑒 =

𝑝 𝑣 . 𝑝(𝑒|𝑣)
𝑝(𝑒)

(2.1)

Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hưởng đến việc chọn câu 𝑒, ta
có thể bỏ qua 𝑝(𝑒). Khi đó, câu dịch 𝑣 được chọn sẽ là câu có 𝑝 𝑣 . 𝑝(𝑒|𝑣) lớn nhất.

𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 . 𝑝(𝑒|𝑣)

(2.2)

Mục tiêu của chúng ta ở đây là tìm câu e ở ngôn ngữ đích sao cho tích
𝑝 𝑣 . 𝑝(𝑒|𝑣) trong công thức (2.2) đạt giá trị cực đại. Ở đây, mô hình dịch 𝑝(𝑒|𝑣) được
định nghĩa như là xác suất biên (marginal probability), xác suất này bằng tổng tất cả các
xác suất gióng hàng từ a giữa câu nguồn và câu đích như trong công thức (1.3).
𝑃 𝑒𝑣 =

𝑃(𝑒, 𝑎|𝑣)
𝑎

(
(2.3)

Một hệ dịch máy thống kê gồm 3 phần:
 Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu dịch. Các
câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị
xác suất 𝑝(𝑣) cao hơn. Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ.
 Mô hình dịch 𝑝(𝑒|𝑣) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ
trong các cặp ngôn ngữ. Với câu e cho trước, câu dịch v nào có xác suất 𝑝(𝑒|𝑣)
cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa trên các
cặp câu song ngữ.
 Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực
hiện quá trình dịch.

18

Hình 2.2: Mô hình dịch máy thống kê
1.
2.
2.1.
2.2.
2.2.1.
2.2.2. Mô hình ngôn ngữ
Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ
pháp) trong câu được phát sinh. Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất dãy
các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ được dùng trong quá
trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thường tính toán sử dụng
mô hình ngôn ngữ n-gram, cụ thể là trigram.
Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ
đứng trước nó trong câu. Cho câu 𝑠 gồm chuỗi các từ 𝑤1, 𝑤2, … 𝑤𝑛 , ta tính các xác suất
trong mô hình ngôn ngữ như sau:

19

Xác xuất unigram:
𝑝 𝑤1 =

𝑠ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑐ụ𝑚 𝑡ừ 𝑤1
𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ

(2.4)

𝑠ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑐ụ𝑚 𝑡ừ 𝑤1 𝑤2
𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡ừ 𝑤1

(2.5)

𝑠ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑐ụ𝑚 𝑡ừ 𝑤1 𝑤2 𝑤3
𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡ừ 𝑤1 𝑤2

(2.6)

Xác xuất bigram:
𝑝 𝑤1 |𝑤2 =
Xác xuất trigram:
𝑝 𝑤3 |𝑤1 𝑤2 =

Xác suất xuất hiện của câu 𝑠 được tính bằng tích của tất cả các xác suất xuất hiện
của từng từ có trong câu 𝑠. Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu “I
like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram.
p(I like bungee jumping off high bridges)

= p(I | <s><s>) x p(like | I <s>) x p(bungee | I like)
x p(jumping | like bungee) x p(off | bungee jumping)
x p(high | jumping off) x p(bridges | off high)
x p(</s> | high bridges) x p(</s> | bridges </s>)
Trong thực tế, ngữ liệu thường bị phân tán, nếu từ không tồn tại trong ngữ liệu thì
xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ được tính
bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức tính xác suất
xuất hiện của từ được điều chỉnh như sau:
0.8 × 𝑝 𝑤3 𝑤2 𝑤1 + 0.15 × 𝑝 𝑤3 𝑤2 + 0.049 × 𝑝 𝑤3 + 0.001

20

2.2.3. Mô hình dịch
Mô hình dịch (translation model) giúp tính toán xác suất có điều kiện 𝑝(𝑒|𝑣). Xác
suất này được ước lượng từ ngữ liệu song ngữ của cặp ngôn ngữ nguồn - đích. Có ba
hướng tiếp cận chính:
-

Dựa trên từ (word – based

-

Dựa trên cụm từ (phrase - based)

-

Dựa trên cú pháp (syntax - based).

2.2.2.

2.2.3.
2.2.3.1.

Mô hình dịch dựa trên từ

Mô hình dịch dựa trên từ là thế hệ đầu tiên của SMT, được nghiên cứu và phát
triển bởi IBM. Với mô hình dịch này, đơn vị được dịch là các từ. Giả sử chúng ta cần dịch
câu tiếng Anh "He is a good student" sang tiếng Việt theo đơn vị từ.
Ví dụ, ta có bản dịch tiếng Việt là "Anh_ấy là một sinh_viên giỏi". Hình 2.3 mô tả
ví dụ về quá trình dịch dựa trên từ, gồm 2 bước: (1) dịch theo từng từ: He → Anh_ấy, is
→ là, a → một, good → giỏi, student → sinh_viên; (2) sắp xếp lại trật tự từ: Anh_ấy là
một giỏi sinh_viên → Anh_ấy là một sinh_viên giỏi.
(1)
Dịch theo
từng từ

He

is

a

good

Anh_ấy là một
(2)
Sắp xếp lại
thứ tự từ

student

giỏi sinh_viên

Anh_ấy là một

giỏi

sinh_viên

Hình 2.3: Câu đầu vào tiếng Anh được dịch từng từ sang tiếng Việt,
sau đó sắp xếp lại trật tự từ.
Ở đây, số từ trong câu được dịch là khác nhau phụ thuộc vào các từ ghép, hình thái
từ và thành ngữ. Tuy nhiên, tuỳ vào đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh - Việt

21

cũng giống với cặp ngôn ngữ Anh - Trung, Anh - Nhật, ..., hệ dịch phải đối mặt với khó
khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng khi dịch sang câu
tiếng Việt. Trong quá trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt có thể là
1-1, 1-không, 1-nhiều, nhiều-1 hoặc nhiều-nhiều. Mô hình dịch dựa trên đơn vị từ không
cho kết quả tốt trong trường hợp kết nối nhiều-1 hoặc nhiều-nhiều với trật tự các từ trong
câu tương ứng là khác nhau. Khi đó, phân tích dựa trên đơn vị cụm từ được đề xuất để
giải quyết vấn đề này.
2.2.3.2.

Mô hình dịch dựa trên cụm từ

Cách tiếp cận hiện thành công nhất với MT là sử dụng cách dịch theo cụm từ. Xem
minh họa ở Hình 2.4, trước hết, câu đầu vào tiếng Anh "Of course John has fun with the
game" được tách ra thành các cụm từ: Of course, John, has fun with the, game; sau đó,

dịch một-một các cụm từ tiếng Anh sang tiếng Việt: Of course → Tất_nhiên, John →
John, has fun with the → đã thích_thú với, game → trò_chơi; cuối cùng, có thể sắp xếp
lại trật tự các cụm từ này. Ở đây, cụm từ là chuỗi các từ liền kề nhau không nhất thiết là
cụm từ trong ngôn ngữ học (theo định nghĩa trong ngữ pháp). Trong phương pháp này,
câu đầu vào được chia thành một chuỗi các cụm từ; những cụm từ được ánh xạ một-một
đến các cụm từ đầu ra, có thể được sắp xếp lại thứ tự các cụm từ. Thông thường, các mô
hình cụm từ được ước lượng từ ngữ liệu song ngữ đã được gióng hàng từ. Tất cả các cặp
cụm từ nhất quán với gióng hàng từ sẽ được rút trích và gán với một xác suất tương ứng.
Of course

Tất_nhiên

John

John

has fun with the

đã thích_thú với

game

trò_chơi

Hình 2.4. Câu đầu vào được tách ra thành các cụm từ, dịch một-một các cụm từ
tiếng Anh sang tiếng Việt và có thể sắp xếp lại trật tự các cụm từ.

22

Theo Koehn, câu ngôn ngữ nguồn e được tách thành I cụm từ 𝑒1 , 𝑒2 , … 𝑒𝐼 . Mỗi
cụm từ 𝑒𝑖 trong e được dịch ra thành một cụm từ 𝑣𝑖 tương ứng trong v. Quá trình này
được thực hiện dựa vào phân phối xác suất ∅ 𝑒𝑖 𝑣𝑖 . Ngoài ra, các cụm từ 𝑣𝑖 được sắp xếp
lại theo một thứ tự nhất định dựa trên mô hình chuyển đổi d(ai − bi-1), với ai là vị trí bắt
đầu của cụm từ 𝑒𝑖 và bi-1 là vị trí kết thúc của cụm từ 𝑣𝑖−1 . Khi đó, xác suất dịch 𝑝(𝑒|𝑣)
được tính theo công thức:
𝐼

𝑃 𝑒𝑣 =

∅ 𝑒𝑖 𝑣𝑖 𝑑(𝑎𝑖 − 𝑏𝑖−1 )

(2.7)

𝑖=1

2.2.3.3.

Mô hình dịch dựa trên cú pháp

Khác với hai mô hình dịch dựa trên từ và cụm từ như đã trình bày ở trên, mô hình
dịch dựa trên cú pháp sử dụng thông tin về cú pháp ngôn ngữ (linguistic syntax). Theo
Koehn [4], SMT dựa trên cú pháp có một số ưu điểm: (i) việc chuyển đổi trật tự từ được
thực hiện theo cú pháp của ngôn ngữ, (ii) dịch các từ chức năng tốt hơn (ví dụ như giới
từ), (iii) dịch các từ có quan hệ cú pháp tốt hơn (ví dụ, việc dịch động từ có thể phụ thuộc
vào chủ ngữ hoặc tân ngữ) và (iv) sử dụng mô hình ngôn ngữ cú pháp (syntactic language
model). Các mô hình dịch dựa trên cú pháp rất đa dạng, sử dụng các hình thức và đặc
trưng ngữ pháp khác nhau. Một số cách tiếp cận thực hiện phân tích cú pháp cho câu
nguồn (tree to string - dịch từ cây cú pháp sang chuỗi), một số khác tạo ra cây cú pháp khi
sinh ra câu đích (string to tree - dịch từ chuỗi sang cây cú pháp) và một số kết hợp cả hai

(tree to tree - dịch từ cây cú pháp sang cây cú pháp).
Hình 2.5 mô tả các bước làm việc của một mô hình dịch dựa trên cú pháp theo
cách tiếp cận dịch từ chuỗi sang cây cú pháp để dịch một câu từ tiếng Anh sang tiếng
Việt, gồm 3 bước:
-

Chuyển đổi trật tự từ trên cây cú pháp tiếng Anh: my mother → mother my, a very
interesting film → a film very interesting. Sau bước chuyển đổi này, kết quả nhận
được là cây cú pháp tiếng Anh có trật tự các nút lá gần với trật tự từ trong câu tiếng
Việt nhất.

23

-

Chèn một số nút vào cây cú pháp: đang, bộ. Các nút được chèn là các nút tiếng
Việt, vì vậy thao tác chèn giúp cho câu dịch tiếng Việt được trôi chảy và tự nhiên
hơn.

-

Dịch các nút là từ tiếng Anh sang tiếng Việt: mother → mẹ, my → của tôi,
watching → xem, a → một, film → bộ phim, very → rất, interesting → thú vị. Các
từ vừa được chèn ở bước 2 được giữ nguyên.

24

Hình 2.5: Quá trình dịch dựa trên cú pháp theo cách tiếp cận dịch từ chuỗi sang

cây cú pháp, gồm 3 bước: (1) chuyển đổi trật tự từ, (2) chèn và (3) dịch.

25

Hình 2.6: Quá trình dịch được thực hiện từ trái sang phải và mở rộng
không gian giả thuyết.
2.2.4. Gióng hàng từ
Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên
gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách đánh
dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.
Ví dụ, gióng hàng từ giữa cặp câu song ngữ:
She takes a small green box.
Cô ấy lấy một chiếc hộp nhỏ màu xanh.

Được biểu diễn như sau:

Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết

Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về