ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
[DATE]
[COMPANY NAME]
[Company
address]
HÀ NỘI
- 2015
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
Cán bộ hướng dẫn: PGS.TS Lê Anh Cường
HÀ NỘI - 2015
2
LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính
tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy
một bằng cấp ở trường này hoặc trường khác.
Hà Nội, ngày 30 tháng 4 năm 2015
Nguyễn Duy Cường
3
LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thànhnhất đến PGS. TS. Lê Anh Cường,
ngườiđã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn
và tạo điều kiện để tôi có thể hoàn thành luận văn này.
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu
và sự hỗ trợ tốt nhất.
4
TÓM TẮT LUẬN VĂN
Ngữ liệu song ngữ được chia thành nhiều mức văn bản khác nhau bao gồm: bài
văn, đoạn văn, câu, và từ. Dịch máy thống kê – là một phương pháp dịch máy – sử
dụng cặp câu song ngữ như là dữ liệu đầu vào để tính ra xác suất dịch của từ. Tuy
nhiên, hệ thống ngữ liệu song ngữ còn tương đối nhỏ, mặc dù đã có nhiều nghiên cứu
tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web. Dù vậy, để có được
nguồn ngữ liệu song ngữ có độ chính xác cao sẽ là bài toán khó vì internet chứa rất
nhiều nhiễu (câu dịch thường không sát nghĩa hoặc bị lược bỏ một phần). Trong khi
đó, có một nguồn ngữ liệu tốt là sách điện tử với số lượng lớn không kém và được
dịch cẩn thận hơn nhiều lại chưa được khai thác triệt để.
Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia
theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn. Nhiệm
vụ của gióng hàng đoạn là tìm các đoạn tương ứng là dịch của nhau trong hai văn bản
thuộc hai ngôn ngữ khác nhau. Trước đây, đã có nhiều hướng tiếp cận khác nhau để
giải quyết bài toán này, nhưng đều đi theo hai xu hướng chính. Một là sử dụng mô
hình xác suất, dựa trên cơ sở là có sự tương quan về kích thước của các câu trong văn
bản nguồn với câu trong văn bản đích. Tuy nhiên, trong quá trình dịch thuật do cấu
trúc của hai văn bản khác nhau nên sẽ dẫn tới trường hợp: một văn bản nguồn được
dịch thành nhiều phần trong văn bản đích và ngược lại. Khi đó, phương pháp xác suất
sẽ gặp nhiều hạn chế. Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường là từ
điển để tìm cặp từ, câu tương ứng. Nhưng lại gặp phải vấn đề về sự nhập nhằng của
ngữ nghĩa, đặc biệt trong các lĩnh vực khác nhau.
Ở đây, luận văn sẽ theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống
dịch máy (SMT) áp dụng cho bài toán gióng hàng đoạn. Bằng việc phân tích các đặc
điểm chỉ có ở đoạn văn, luận văn đã đưa ra mô hình thích hợp nhất cho bài toán. Sau
đó, thiết lập một độ đo khác phù hợp hơn cho việc xác định độ tương tự giữa các đoạn
văn trong cặp văn bản dịch. Từ đặc thù là bài toán tìm giải pháp tối ưu nhất, luận văn
đã lựa chọn giải thuật quy hoạch động để tìm kiếm. Để đánh giá thuật toán, tác giả sẽ
tiến hành thực nghiệm gióng hàng đoạn trước, sau đó gióng hàng câu rồi so sánh với
thuật toán cơ bản (Gale – Church) và thuật toán mới gần đây là Champollion trong
gióng hàng câu.
5
Mục lục
CHƯƠNG 1 – TổNG QUAN ...................................................................................... 7
1.1.
1.2.
1.3.
1.4.
1.5.
GIớI THIệU Về DịCH MÁY................................................................................ 7
BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT ................................. 8
MụC TIÊU CủA LUậN VĂN............................................................................... 9
PHạM VI CủA LUậN VĂN ................................................................................. 9
KếT CấU CủA LUậN VĂN ............................................................................... 10
CHƯƠNG 2 – DịCH MÁY THốNG KÊ .................................................................. 11
2.1. DịCH MÁY THốNG KÊ................................................................................... 12
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
Các thành phần của hệ dịch máy........................................................... 14
Mô hình dịch.......................................................................................... 15
Bộ giải mã .............................................................................................. 20
Mô hình ngôn ngữ ................................................................................. 21
Đánh giá chất lượng dịch ...................................................................... 23
Đặc điểm của phương pháp dịch thống kê ............................................ 25
Chu kì phát triển của hệ thống dịch thống kê........................................ 25
CHƯƠNG 3 – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ ....................... 27
3.1. CÁC Bộ NGữ LIệU SONG NGữ LớN .................................................................. 27
3.1.1. Khối Châu Âu ........................................................................................ 27
3.1.2. Khối Đông Nam Á ................................................................................. 28
3.2. CÁC PHƯƠNG PHÁP GIÓNG HÀNG HIệN TạI .................................................. 29
3.2.1. Theo độ dài ............................................................................................ 29
3.2.2. Hướng tiếp cận dựa vào ngữ nghĩa ....................................................... 29
3.2.3. Kết hợp độ dài và ngữ nghĩa .................................................................. 30
3.3. VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG................................ 31
3.4. GIÓNG HÀNG VĂN BảN SONG NGữ ................................................................ 32
3.4.1. Phương pháp tiếp cận dựa trên âm tiết.................................................. 32
3.4.2. Phương pháp tiếp cận dựa trên từ điển ................................................. 33
3.4.3. Phương pháp tiếp cận thống kê ............................................................. 34
CHƯƠNG 4 – GIÓNG HÀNG ĐOạN VĂN ............................................................ 35
4.1. BÀI TOÁN GIÓNG HÀNG ĐOạN VĂN .............................................................. 35
4.2. THUậT TOÁN QUY HOạCH ĐộNG ................................................................... 39
4.2.1. Giải thuật Needleman -Wunsch ............................................................. 41
4.2.2. Giải thuật Smith – Waterman ................................................................ 44
4.3. Độ ĐO KHOảNG CÁCH .................................................................................. 47
6
4.3.1. Độ đo cơ bản .......................................................................................... 47
4.3.2. Độ đo đề xuất ......................................................................................... 48
4.4. THUậT TOÁN Đề XUấT .................................................................................. 49
CHƯƠNG 5 – THựC NGHIệM ................................................................................ 51
5.1. CHUẩN Bị..................................................................................................... 51
5.1.1. Chuẩn bị dữ liệu .................................................................................... 51
5.1.2. Xác định tham số ................................................................................... 52
5.2. KếT QUả ...................................................................................................... 53
5.3. SO SÁNH VớI THUậT TOÁN CHAMPOLLION .................................................. 55
5.4. ÁP DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES ...................................... 56
5.5. ĐÁNH GIÁ ................................................................................................... 57
TÀI LIỆU THAM KHẢO ........................................................................................ 59
7
Chương 1 – Tổng quan
1.1. Giới thiệu về dịch máy
Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật,
xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thống
hỗ trợ ngôn ngữ ra đời góp phần rút gắn khoảng cách về mặt ngôn ngữ giữa các nền
văn hóa trên thế giới. Cho đến nay, với sự xuất hiện các hệ thống dịch tự động miễn
phí trên mạng như: Google translate, bing translation, systran, vietgle… đã cho thấy sự
phát triển của dịch máy ngày càng tiến gần tới ngôn ngữ tự nhiên hơn.
Cùng với sự phát triển của dịch máy, vào những năm gần đây, mô hình dịch máy
thống kê đã và đangthu hút được rất nhiều sự quan tâm của các nhà khoa học. Hơn
nữa, kết quả thực tế của hệ thống dịch này rất tốt. Ngôn ngữ của máy dịch càng ngày
càng gần với ngôn ngữ của người. Ngoài ra cùng với hệ thống dịch máy thống kê, các
sản phẩm ứng dụng ngày càng giúp con người trao đổi thông tin dễ dàng hơn, tốc độ
nhanh hơn và hỗ trợ nhiều ngôn ngữ hơn.
Mặc dù phương pháp dịch thống kêcó thể dựa trên nhiều cơ sở khác nhau như:
dựa trên cơ sở từ, cơ sở cụm từ hay dựa trên cơ sở cú pháp thì cũng đều cần một nguồn
dữ liệu học. Và đặc biệt là khi dữ liệu học càng nhiều bao nhiêu thì kết quả dịch càng
tốt bấy nhiều. Đây là một lợi thế lớn cho các hệ thống dịch máy dành cho tiếng Việt,
khi mà khối lượng văn bản tiếng Anh và tiếng Việt ngày càng lớn trong thời kỳ Việt
Nam hội nhập sâu rộng với quốc tế như hiện nay.
Xuất phát từ những yêu cầu cấp thiết đó, một phân hệ quan trọng hiện đang được
các nhà khoa học chú ý phát triển trong dịch máy thống kê đó là việc xây dựng tập hợp
ngữ liệu song ngữ chuẩn.Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng
Anh“corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt,
ĐHNgoại ngữ, NXB GD-2000 trang 368). “Ngữliệu” ở đây có thể xem là những “dữ
liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ. Ngữ liệu
song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) là ngữ
liệu tồn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau.
Trước khi có nhu cầu từ dịch máy thống kê thì văn bản song ngữ cũng đã tồn tại
với phạm vi ứng dụng rất rộng rãi thuộc nhiều lĩnh vực khác nhau,đặc biệt giúp ích
cho việcnâng cao kỹ năng đọc và dịch. Tính sẵn có của một số lượng lớn các mẫu câu
8
với bản dịch song song của nó không chỉ có thể cải thiện các kỹ năng đọc, mà còn có
thể giúp nâng cao hàm ý trong các bản dịch. Ngoài ra, có thể dựa vào các văn bản song
ngữ để tìm kiếm các cụm từ tương đương về mặt ngữ nghĩa hay tương đương về cấu
trúc ngữ pháp của bản dịch ứng với bản nguồn.
1.2. Bài toán gióng hàng văn bản song ngữ cho SMT
Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra
cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối
chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt (English
– Vietnamese contrastive linguistics), chúng ta không thể nghiên cứu trên lý thuyết,
hay trên những câu do chúng ta nghĩ ra, mà phải nghiên cứu trên những câu có thật
trong thực tế sử dụng. Điều này đòi hỏi chúng ta phải có các chứng cứ của ngôn ngữ,
các ví dụ từ thực tế đã được nhiều người sử dụng và được xem là ngôn ngữ chuẩn
[Tony McEnery, Andrew Wilson (1996) ].
Tính hữu ích của tập ngữ liệu song ngữ đã dẫn đến một số dự án quy mô lớn
nhằm xây dựng một kho dữ liệu chung cho nhiều ngôn ngữ. Tuy nhiên, các bộ ngữ
liệu song ngữ hiện nay vẫn còn hạn chế về số lượng cũng như sự đa dạng của ngôn
ngữ. Từ nhu cầu cấp thiết đó, một nhánh nghiên cứu mới đang phát triển gần đây đó
là: xây dựng các hệ thống học máy có thể tự động xây dựng tập ngữ liệu song ngữ từ
nguồn dữ liệu thô (bài toán gióng hàng văn bản).
Gióng hàng văn bản song ngữ là việc sắp xếp từ, cụm từ hoặc câu trong ngôn
ngữ ngồn vớibản dịch tương đương ở ngôn ngữ khác. Các tập văn bản thường được
gióng hàngở mức cụm từ hoặc mức câu. Bài toán gióng hàng song ngữ không có khả
năng giải bằng các phương pháp đơn thuần, vì trong khi dịch rất hiếm khi cómột câu
dịch hoàn hảo của câu tương ứng trong văn bản nguồn. Một câu rất ngắn có thể dịch ra
rất dài để đảm bảo đủ ý của câu, hoặc một câu nguồn có thể được dịch thành hai hoặc
nhiều câutrong ngôn ngữ đích và ngược lại. Cá biệt, có thể có trường hợp một câu
hoặc thậm chí một đoạn có thể bị bỏ quahoàn toàn.
Nhiều phương pháp đã được đề xuất để giải quyết bài toán gióng hàng văn bản
cho ngôn ngữ châu Âu, sẽ được thảo luận trong chương sau. Tuy nhiên, hầu hết các
phương pháp gióng hàng đó đều áp dụng ở mức từ, câu là chủ yếu.
Ngược lại, có rất ít công trình nghiên cứu áp dụng cho các ngôn ngữ thuộc khu
vực Đông Nam Á. Không giống như tiếng Anhvà các ngôn ngữ châu Âu khác, hầu hết
9
các ngôn ngữ Đông Nam Á thường không phân rã ở cấp độ từ, vàcấu trúc ngữ pháp
khác biệt hẳn so với hệ thống chữ viết Latin. Kết quả là,các thuật toán tiêu chuẩn và
triển khai thực hiện cho gióng hàng văn bản thường không đạt được kết quả tốt như
mong đợi. Riêng đối với ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung
nghiên cứuđể tìm ra giải pháp thay thế cũng như đo lường, đánh giá hiệu suất gióng
hàng văn bản ngôn ngữ Tiếng Việt nói riêng và ngôn ngữ Đông Nam Á nói chung.
1.3. Mục tiêu của luận văn
Hiện tại, có nhiều phương pháp đã được chứng minh và đánh giá hiệu quả cho
bài toán gióng hàng văn bảnvói nhóm ngôn ngữ khối châu Âu bao gồmthuật toán Gale
– Church [1], Vanilla Aligner [13]), Brown,… sẽ được thảo luận trong chương kế tiếp.
Trong luận văn này, sẽ chỉ đi sâu nghiên cứu rồi đưa ra mộtđề xuất về giải pháp gióng
hàng áp dụng cho sách văn học dịch của Việt Nam, dựa trên các phương pháp gióng
hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu. Sau đó sẽ sử
dụng các cặp câu đã được gióng hàng để đưa vào huấn luyện trong hệ dịch máy.Luận
văn cũng sẽtrình bầy các bước chuẩn bị, các kỹ thuật tiền xử lý cho quá trình chuẩn bị
dữ liệu trước khi thực hiện áp dụng giải thuật đề xuất.
Mục tiêu là:
•
Khảo sát các đặc trưng của tập dữ liệu là sách văn học dịch.
•
•
•
•
Mô hình hóa bài toán gióng hàng đoạn văn.
Đề xuất phương pháp gióng hàng văn bản.
Cài đặt và đánh giá hiệu suất của phương pháp dựa trên chiều dài.
Đánh giá, so sánh thuật toán đề xuất.
•
Áp dụng vào bài toán gióng hàng câu tự động để sinh ra tập ngữ liệu học cho
dịch máy thống kê.
1.4. Phạm vi của luận văn
Luận văn sẽ tập trung giải quyết các vấn đề sau:
•
Thảo luận về bài toán gióng hàng văn bản, các vấn đề và một số giải thuật
•
hiện tại áp dụng cho nhóm ngôn ngữ Châu Âu.
Khảo sát các đặc trưng của bài toán gióng hàng đoạn văn, từ đó đề xuất mô
hình cho bài toán gióng hàng đoạn văn.
Khảo sát thuật toán quy hoạch động, từ đó kết hợp với độ đo độ tương tự
•
trong gióng hàng đoạn văn.
Tiến hành thực nghiệm đánh giá kết quả.
•
10
1.5. Kết cấu của luận văn
Luận văn sẽ được tổ chức như sau:
Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành
phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy.
Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới. Tiếp
đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng
văn bản. Cuối chương nêu ra một số đặc trưng và những vấn đề cần phải giải quyết
của bài toán gióng hàng văn bản.
Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào
bài toán để tìm lời giải tối ưu. Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng
đoạn văn. Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên
các đặc trưng của bài toán. Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa
hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập các cách
gióng hàng hợp lý nhất.
Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu
phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề
xuất. Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy.
11
Chương 2 –Dịch máy thống kê
Theo số liệu thống kê, hiện nay trên thế giới có hơn 5000 ngôn ngữ khác nhau,
với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao
đổi thông tin.Nhằm khắc phục nhược điểm trên,các nhà khoa học đã nghĩ đến việc
thiết kế một mô hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc
máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy. Dịch máy
(Machine Translation – MT) là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50
và được phát triển mạnh mẽ từ thập kỷ 80 cho đến nay. Hiện tại, trên thế giới có rất
nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant,… hay những
hệ dịch máy mở tiêu biểu là hệ dịch của Google, Bing,… hỗ trợ hàng chục cặp ngôn
ngữ phổ biến như Anh – Pháp, Anh – Trung, Anh – Nhật, Hoa – Nhật,… Người ta tin
rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở
rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua
những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy.
Hình 2.1: Các cách tiếp cận cổ điển cho hệ dịch máy
12
Các cách tiếp cận cổ điển cho hệ dịch máy: dịch trực tiếp (direct), dịch dựa trên
luật chuyển đổi (transfer), dịch liên ngữ (interlingua) dịch dựa vào thống, và hiện nay
tiếp cận dịch dựa vào thống kê (statistical MT).
Phương pháp dịch dựa trên luật chuyển đổi và dịch liên ngữ chủ yếu dựa vào cú
pháp, đã có thời gian phát triển khá dài và vẫn còn được sử dụng phổ biến trong nhiều
hệ dịch thương mại. Các hệ dịch máy loại này đã đạt được kết quả khá tốt với những
cặp ngôn ngữ tương đồng nhau về cú pháp như Anh – Pháp, Anh – Tây Ban Nha,…
nhưng còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Anh
– Trung, Anh – Nhật,…
Ở Việt Nam, dịch Anh – Việt, Việt – Anh cũng vấp phải những khó khăn tương
tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của ngữ nghĩa. hệ
thống dịch Anh – Việt dựa trên luật chuyển đổi được thương mại hóa đầu tiên ở Việt
Nam là EVTran. Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lượng dịch vẫn
đang được thực hiện thích nghi với đặc điểm của các cặp ngôn ngữ khác nhau.
2.1. Dịch máy thống kê
Dịch máy bằng phương pháp thống kê (Statistical Machine Translation) đã chứng
tỏ là một hướng tiếp cận đầy đầy tiềm năng bởi những ưu điểm vượt trội so với các
phương pháp dịch máy dựa trên cú pháp truyền thống qua nhiều thử nghiệm về dịch
máy. Thay vì xây dựng các từ điển, các luật chuyển đổi bằng tay, hệ dịch này tự động
xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ dữ liệu. Chính
vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả năng áp dụng được
cho cặp ngôn ngữ bất kỳ. Hệ thống SMT được đề xuất lần đầu tiên bởi Brown năm
1990 sử dụng mô hình kênh nhiễu và đã phát triển áp đảo trong ngành MT nhiều năm
trở lại đây.
Trong phương pháp dịch trực tiếp, từng từ được dịch từ ngôn ngữ nguồn sang
ngôn ngữ đích. Trong dịch dựa trên luật chuyển đổi, đầu tiên chúng ta cần phải phân
tích cú pháp của câu vào, rồi áp dụng các luật chuyển đổi để biến đổi cấu trúc câu này
ở ngôn ngữ nguồn sang cấu trúc của ngôn ngữ đích; cuối cùng ta mới dịch ra câu hoàn
chỉnh. Đối với dịch liên ngữ, câu vào được phân tích thành một dạng biểu diễn trừu
tượng hóa về ngữ nghĩa, được gọi là “interlingua”, sau đó ta tìm cách xây dựng câu
đích phù hợp nhất với “interlingua” này. Dịch máy thống kê có cách tiếp cận hoàn
toàn khác, khả năng dịch có được là dựa trên các mô hình thống kê được huấn luyện từ
13
các ngữ liệu song ngữ. Kiếến trúc chung của một hệ thống SMT đượcc th
thể hiện trong
hình 2.2.
Hình 2.2: Ki
Kiến trúc một hệ thống SMT
Mô hình củaa Brown (hay còn gọi
g là mô hình IBM) biểu diễn
n quá trình ddịch bằng
một mô hình kênh nhiễu
u (noisy channel model) bao gồm
g
ba thành phần:
n: m
một mô hình
dịch (translation
ranslation model), có nhiệm
nhi
vụ liên hệ các từ, cụm từ tương ứng
ng ccủa các ngôn
ngữ khác nhau; mộtt mô hình ngôn ngữ
ng (LM), đại diện cho ngôn ngữ đích; m
một bộ giải
mã (decoder), kết hợp
p mô hình dịch
d và mô hình ngôn ngữ để thực hiện
n nhiệm
nhi vụ dịch.
Thường thì LM đượcc gán trọng
tr
số cao hơn các thành phầnn khác trong hệ
h thống
dịch, bởi vì ngữ liệu
u đơn ngữ
ng dùng để huấn luyện LM lớn hơn nhiềuu ng
ngữ liệu song
ngữ, do đó có độ tin cậy lớ
ớn hơn. Ta thấy rằng việc tăng kích cỡ củủa LM cải thiện
điểm BLEU – tiêu chuẩn
n phổ
ph biến để đánh giá chất lượng dịch
ch máy. Hình 2.2, cho
thấy sự cải thiện chất lượng
ng dịch
d khi tăng kích cỡ LM.
Trong mô hình đầu
u tiên của
c Brown, mô hình dịch dựa trên kiểuu ttừ-thành-từ và
chỉ cho phép ánh xạ một từ
ừ trong ngôn ngữ nguồn đến một từ trong ngôn ngữ
ng đích.
Nhưng trong thực tế, ánh xạạ này có thể là một-một, một-nhiều, nhiều-nhi
nhiều hoặc mộtkhông. Thế nên nhiều
u nhà nghiên cứu
c đã cải tiến chất lượng củaa SMT bằng
b
cách sử
dụng dịch dựa trên cụm
m (phrase-based
(phrase
translation).
14
Hình 2.3: Tăng
T
kích thước LM sẽ cải thiện điểm
m BLEU
2.2. Các thành phần
n của
c hệ dịch máy
Cho trướcc câu ngôn ng
ngữ nguồn , mục tiêu của mô hình dịch
ch máy là tìm ra câu
của ngôn ngữ đích sao cho xác suất
su
( | ) là cao nhất.
Có nhiều cách tiếp cận
n để
đ tính được xác suất ( | ),, tuy nhiên cách ti
tiếp cận trực
quan nhất là áp dụng
ng công th
thức Bayes:
( | )=
( ) ( | )
( )
Trong đó ( | ) là xác suất
su câu ngôn ngữ nguồn là bản dịch củaa câu ngôn ng
ngữ
đích, còn ( ) là xác suấtt xuất
xu hiện câu
hợp chính là việc tìm kiếm
∗
trong ngôn ngữ. Việcc tìm ki
kiếm câu
∗
∗
phù
∗
làm cho giá tri ( ) ( | ) là lớn nhất.
t.
Đểmô hình dịch
ch là chính xác, thì công việc
vi tiếp theo là phảii tìm ra ttất cả các câu
∗
có thể có trong ngôn ngữ
ữ đích từ câu ngôn ngữ nguồn . Thực hiệnn công vi
việc tìm
kiếm hiệu quả chính là nhiệệm vụ của bộ giải mã (decoder). Như vậy, mộ
ột mô hình dịch
máy bao gồm 3 thành phần:
n:
Mô hình ngôn ngữ:: Tính toán được
đư xác suất của câu ngôn ngữ
ữ nguồn. Thành
phần
n này chính là mô hình ngôn ngữ
ng đã được mô tả ở chương 1 ccủa luận văn
Mô hình dịch:
ch: Cho bi
biết xác suất của câu ngôn ngữ nguồnn là bbản dịch từ câu
ngôn ngữ đích.
Bộ giải mã: Tìm kiếếm tất cả các câu ngôn ngữ đích e có thể có ttừ câu ngôn ngữ
nguồn f.
15
Hình 2.4: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt
2.3. Mô hình dịch
Mô hình dịch có 3 hướng tiếp cận chính:
Mô hình dịch dựa trên từ (word-based)
Mô hình dịch dựa trên cụm từ (phrase-based)
Mô hình dịch dựa trên cú pháp (syntax-based)
Cả 3 hướng tiếp cận trên đều dựa trên một tư tưởng. Đó là sự tương ứng giữa hai
câu (alignment).
2.3.1. Sự gióng hàng (alignment)
Tất cả các mô hình dịch thống kê đều dựa trên sự tương ứng của từ. Sự tương
ứng của từ ở đây chính là một ánh xạ giữa một hay nhiều từ của ngôn ngữ nguồn với
một hay nhiều từ của ngôn ngữ đích trong tập hợp các câu văn bản song ngữ.
Theo nguyên tắc, chúng ta có thể có mối liên hệ tùy ý giữa các từ của ngôn ngữ
nguồn với các từ của ngôn ngữ đích. Tuy nhiên, để cho đơn giản, mô hình dịch máy
dựa trên từ (word-based) đưa ra một giả định: mỗi từ của ngôn ngữ đích chỉ tương ứng
với một từ của ngôn ngữ nguồn. Nếu áp dụng giả định này, chúng ta có thể biểu diễn
một sự tương ứng từ bằng chỉ số của các từ trong ngôn ngữ nguồn tương ứng với từ
trong ngôn ngữ đích. Như trong ví dụ ở hình 2.5 dưới đây có thể biểu diễn một tương
ứng từ giữa tiếng Pháp và tiếng Anh bởi một dãy các chỉ số như sau: A = 1,2, 3, 4, 5,
6.
16
Hình 2.5: Sự tương ứng một – một giữa câu tiếng Anh và câu tiếng Pháp
Trong thực tế, có rất nhiều từ ở ngôn ngữ đích không tương ứng với từ nào trong
ngôn ngữ nguồn. Để cho tổng quát, ta thêm một từ vô giá trị (null) vào đầu câu ngôn
ngữ nguồn và những từ ở ngôn ngữ đích không tương ứng với từ nào sẽ được ánh xạ
với từ vô giá trị đó. Hình 2.6 ở dưới thể hiện một tương ứng từ giữa hai câu tiếng Anh
và tiếng Tây Ban Nha khi cho thêm từ vô giá trị vào đầu câu tiếng Anh.
Hình 2.6: Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho
thêm từ vô giá trị (null) vào đầu câu tiếng Anh
Trong khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một
từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch
dựa trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ
của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia và nhiều từ của ngôn ngữ
này tương ứng với nhiều từ của ngôn ngữ kia. Hình 2.7 và 2.8 ở dưới minh họa các
tương ứng nói trên.
Hình 2.7: Sự tương ứng một – nhiều giữa câu tiếng Anh với câu tiếng Pháp
17
Hình 2.8: Sự tương ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp
2.3.2. Mô hình dịch dựa trên từ (Word-based)
Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê và
được nghiên cứu và phát triển bởi IBM. Như đã trình bày ở phần trước, mô hình dịch
này dựa trên sự tương ứng của các từ theo tương ứng một một (một từ của ngôn ngữ
này chỉ tương ứng với một từ của ngôn ngữ kia và ngược lại). Cụ thể hơn, giả sử câu
ngôn ngữ nguồn là
…
…
và câu ngôn ngữ đích là
, khi đó mỗi từ
chỉ
tương ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là không tương ứng với từ
nào. Do đó, một sự tương ứng giữa các từ của câu ngôn ngữ nguồn và câu ngôn ngữ
đích có thể biểu diễn bằng một dãy
số: { ,
trong ngôn ngữ nguồn tương ứng với từ
,…,
} trong đó
của ngôn ngữ đích(
đến l). Với mô hình IBM thứ nhất, giả định rằng mỗi biến
là chỉ số của từ
nhận các giá trị từ 1
là độc lập, khi đó tương
ứng tối ưu nhất chính là:
= arg max
( )∗ ( |
)
Như vậy, theo mô hình IBM thứ nhất, chúng ta có thể tính xác suất ( | ) theo
công thức sau:
( | )=
( )∗ ( |
)
Tuy nhiên trên thực tế, mô hình IBM thứ nhất này có chất lượng dịch không cao.
Ở các mô hình IBM tiếp theo, người ta cải tiến các công thức và đưa ra những tương
ứng, cũng như tính lại xác suất ( | ) một cách tốt hơn. Tuy nhiên, do tiếp cận theo
hướng tương ứng một một giữa các từ, nên mô hình dịch dựa trên từ nóichung và các
mô hình dịch IBM nói riêng đã không còn phổ biến. Hiện nay, các mô hình dịch theo
hướng cụm từ được sử dụng rộng rãi và dần trở nên phổ biến hơn.
18
2.3.3. Mô hình dịch dựa
a trên cụm
c
từ (Phrase-based)
Hình 2.9: Minh họa
h dịch máy thống kê dựa vào cụm từ
Trong dịch dựaa trên ccụm, một chuỗi các từ liên tiếp (cụm) đượcc dịch
d
sang ngôn
ngữ đích, với độ dài cụm
m ngôn ngữ
ng nguồn và đích có thể khác nhau. Hình 2.9 minh
họa phương pháp dịch cụm:
m: câu vào được
đư chia thành một số cụm; từng
ng cụm
c
một được
dịch sang ngôn ngữ đích; và sau đó các cụm
c
được đảo trật tự theo mộtt cách nào đó rồi
r
ghép với nhau. Cuốii cùng ta thu được
đư câu dịch trong ngôn ngữ đích.
Giả sử ta gọi ngôn ngữ
ữ nguồn là
đa hóa xác suất
và ngôn ngữ đích là , chúng ta sẽ
s cố gắng tối
( | ) vớ
ới mong muốn có được bản dịch tốt nhất.
t. Th
Thực tế là tồn tại
rất nhiều bản dịch
ch đúng cho cùng một
m câu, mục đích củaa ta là tìm ra câu ngôn ng
ngữ
phù hợp nhất khi cho trướcc câu ngôn ngữ
ng nguồn . Dịch dựa vào cụụm sử dụng mô
hình kênh nhiễu, áp dụng
ng công thức
th Bayes ta có:
arg max ( | ) ( )
arg max ( | ) =
( )
Do ( ) là không đổii đối
đ với , vấn đề trở thành việc tìm câu
nhằm
nh tối đa hóa
( \ ) ( ). Việc xây dựng
ng mô hình ngôn ngữ
ng cần sử dụng một ngữ liệệu đơn ngữ lớn,
trong khi đó mô hình dịch
ch lại
l cần đến ngữ liệu song ngữ tốt. Bộ giảii mã được sử dụng
để chia câu nguồn
n thành các cụm
c
và sinh ra các khả năng dịch có thể cho m
mỗi cụm nhờ
sự trợ giúp của bảng cụm
m (phrase table).
Để sinh ra đượcc câu dịch,
d
câu nguồn được chia thành cụm
m liên ti
tiếp
ta giả sử rằng phân phốii xác suất
su là như nhau đối với các cụm
m này. Mỗi
M cụm
. Chúng
trong
được dịch thành cụm
m tương ứng trong ngôn ngữ đích . Các cụm
m trong ngôn ngữ
ng
đích có thể đảo
o ví trí cho nhau. Quá trình dịch
d
cụm đượcc mô hình hóa bbởi phân phối
xác suất ∅( | ).
19
Việc đảo ví trí (reodering) của các cụm đầu ra được mô hình bởi phân phối xác
suất (
−
), trong đó
đại diện cho vị trí bắt đầu của cụm trong câu nguồn
được dịch thành cụm thứ trong câu đích, và
là ký hiệu chỉ vị trí kết thúc của cụm
trong câu nguồn được dịch thành cụm ( − 1) trong câu đích. Ở đây chúng ta sử dụng
mô hình đảo cụm rất đơn giản như sau:
(
−
)=
|
|
với giá trị thích hợp cho tham số .
Để xác định độ dài thích hợp của câu dịch, chúng ta đưa thêm vào thừa số khi
sinh ra câu trong ngôn ngữ đích. Thừa số này sẽ được tối ưu qua quá trình tìm kiếm
câu dịch tối ưu. Thừa số này càng lớn hơn 1 thì độ dài của câu trong ngôn ngữ đích
càng dài.
Nói tóm lại, câu dịch tốt nhất
được sinh ra từ câu nguồn là:
= arg max ( | ) = arg max ( | )
( )
( )
ở đây ( | ) được phân tích thành:
( | )=
( | ) (
−
)
2.3.4. Mô hình dịch dựa trên cú pháp (Syntax-based)
Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tương ứng và
ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ
pháp, hình thái của cả hai câu. Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới
ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu.
Với mô hình dịch này, một câu ngôn ngữ nguồn sẽ được phân tích thành cây cú
pháp. Cây cú pháp này sẽ được sắp xếp lại để phù hợp với cú pháp của câu ngôn ngữ
đích. Sau đó, một số từ mới có thể được chèn vào cây hiện tại cho phù hợp hơn với cú
pháp của ngôn ngữ đích. Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn
sẽ được dịch sang ngôn ngữ đích và ta thu được câu ngôn ngữ đích từ cây cú pháp
trên.
Hình 2.10 dưới đây mô tả các bước làm việc của một mô hình dịch dựa trên cú
pháp từ tiếng Anh sang tiếng Nhật.
20
Hình 2.10: Mô hình dịch dựa trên cây cú pháp
2.4. Bộ giải mã
Như đã trình bày ở các phần
ph trên, nhiệm vụ của bộ giảii mã chính là: cho tr
trước
câu ngôn ngữ nguồn , tìm câu ngôn ng
ngữ đích
đích
tốt nhất được dịch từ . Câu ngôn ngữ
tốt nhấtt chính là câu làm cho giá trị
tr ( | ) ∗ ( ) là lớn nhất.
Bộ giải mã đượcc phát tri
triển đầu tiên cho mô hình dịch cụm từ đượ
ợc giới thiệu bởi
Marcu và Wong, sử dụng
ng các phương pháp leo đồi.
đ Do không gian
an tìm ki
kiếm là rất lớn,
nên bộ giảii mã trong mô hình dịch
d
máy thống kê thường áp dụng
ng các thu
thuật toán tìm
kiếm tối ưu.
Thuật toán mà bộ giảii mã thường
th
áp dụng có tên là
∗
, là mộtt trong các phương
∗
pháp tìm kiếm tốt nhất –đầu
u tiên.Giải
tiên.Gi thuật
có thể tóm tắt như sau: tạại mỗi bước mở
rộng không gian tìm kiếm,
m, ta sử
s dụng các hàm ước lượng, đánh giá trọng
ng ssố để kết quả
tìm được luôn là tốt nhấtt có thể
th và là kết quả tìm thấy đầu tiên.
Ngữ liệu
u sau khi qua 2 mô hình ngôn ngữ
ng và mô hình dịch ta đượ
ợc bảng xác suất
cho từng thông số tương ứng.
ng. V
Vấn đề tìm ra tích số ( ) ( | ) lớn nhấất.
21
Có hai thuật giải và một thuật toán tối ưu cho mô hình tìm kiếm: thuật giải tìm
kiếm tham lam, thuật giải tìm kiếm dựa trên ngăn xếp, và thuật toán tìm kiếmtheo chu
trình Hamilton tối ưu. Hai thuật giải có thời gian xử lý nhanh hơn thuật toán nhưng kết
quả thấp hơn thuật toán.
Bộ giải mã thực hiện một cái tìm kiếm theo chùm (beam search) tương tự công
việc của Tillmann và Och. Bắt đầu bằng việc định nghĩa các khái niệm cơ bản của các
lựa chọn dịch mô tả cơ chế hoạt động của beam search và các thành phần cần thiết của
nó và các ước lượng giá trị tương lai và các khái niệm về sinh danh sách n-best.
2.5. Mô hình ngôn ngữ
Mô hình ngôn ngữ (Language Model - LM) là các phân phối xác suất trên một
ngữ liệu đơn ngữ, được sử dụng trong nhiều bài toán khác nhau của xử lý ngôn ngữ tự
nhiên, ví dụ như: dịch máy bằng phương pháp thống kê, nhận dạng giọng nói, nhận
dạng chữ viết tay, sửa lỗi chính tả, …. Thực chất, LM là một hàm chức năng có đầu
vào là một chuỗi các từ và đầu ra là điểm đánh giá xác suất một người bản ngữ có thể
nói chuỗi đó. Chính vì vậy, một mô hình ngôn ngữ tốt sẽ đánh giá các câu đúng ngữ
pháp, trôi chảy cao hơn một chuỗi các từ có thứ tự ngẫu nhiên, như trong ví dụ sau:
(“ℎô
ờ
ắ
”) >
(“ ờ
ắ
ℎô ”)
2.5.1. N-gram
Cách thông dụng nhất được dùng để mô hình hóa ngôn ngữ vào trong LM là
thông qua các n-gram. Với mô hình n-gram, chúng ta coi một văn bản, đoạn văn bản là
chuỗi các từ liền kề nhau , , … ,
với công thức xác suất kết hợp:
(
…
)= (
) (
,
|
) (
, và sau đó phân tích xác suất của chuỗi
|
)… (
|
…
)
và do vậy mỗi từ sẽ liên quan có điều kiện tới toàn bộ các từ trước nó (ta sẽ gọi
đây là lịch sử của sự kiện hoặc từ đó).
Tuy nhiên, việc sử dụng toàn bộ các từ trước đó để đoán nhận từ tiếp theo là
không thể thực hiện được vì hai nguyên nhân sau. Đầu tiên là phương pháp này không
khả thi về mặt tính toán do tốn quá nhiều thời gian, tài nguyên hệ thống cho mỗi lần
dự đoán. Hai là, trong rất nhiều trường hợp, chỉ sau khi duyệt vài từ trong lịch sử, ta đã
nhận thấy rằng đó là một câu chưa từng gặp trước đây. Bởi vậy kể cả khi đã biết toàn
bộ lịch sử của một từ, xác suất của nó vẫn có thể là không biết. Thay vào đó, các mô
hình ngôn ngữ thường ước lượng tương đối xác suất dựa trên giả định Markov (hay
22
mô hình Markov ẩn), rằng
ng ttừ tiếp theo chỉ chịu ảnh hưởng từ một vài từ
ừ trước đó. Một
mô hình Markov bậc
giả định
đ
rằng chỉ
từ trước đó có liên hệ ngữ cảảnh với từ đang
cần xác định. Việc quyết địịnh bao nhiêu từ trướcc đó mà LM quan tâm đư
được gọi là bậc
(order) của LM, và thường
ng đư
được gọi là 1-gram (unigram), 2-gram
gram (bigram), 33-gram
(trigram), 4-gram
gram (fourgram) tương ứng với các mô hình Markov bậậc một, hai, ba,
bốn.
Ví dụ, nếu
u chúng ta muốn
mu ước lượng xác suất 2-gram của một từ
Markov bậcc 2 thì chúng ta sẽ
s dựa trên hai từ trước đó: (
(
|
,
với mô hình
,
,…,
)=
)
Hình 2.11: Mô hình Markov bậc 2
Một cách tổng
ng quát, xác suất xuất hiện của một từ(
thuộc vào
từ đứng liền
n trư
trước nó (
vào toàn bộ dãy từ đứng
ng trư
trước(
…
…
) đượcc coi như chỉ
ch phụ
) chứ không phải
ph phụ thuộc
).
2.5.2. Xây dựng
ng mô hình ngôn ng
ngữ
Để xây dựng (huấn
n luyện)
luy
một mô hình ngôn ngữ ta cần mộtt ng
ngữ liệu đơn ngữ
(corpus) có kích thướcc tương đối
đ và một bộ ước lượng thống
ng kê có nhi
nhiệm vụ mô hình
hóa lượng xác suất của ngữ
ữ liệu. Các bộ ước lượng được mà LM sử dụụng, theo những
cách khác nhau, đều cần đếến tần suất của các n-gram, do đó chúngg ta ccần phải đếm số
lần xuất hiện của các n-gram
gram từ
t 1-gram cho đến số bậcc mô hình chúng ta đang huấn
luyện.
Chúng ta có thể sử dụ
ụng kết quả đếm các n-gram để xây dựng mộột mô hình ước
lượng cực đại hóa khả năng (Maximium Likelihood Estimation - MLE) vvới tần suất
tương đối của các n-gram
gram trong ng
ngữ liệu. Với MLE, xác suất mộtt unigram nh
nhất định
nào đó sẽ xuất hiện tiếp
p theo đơn giản
gi là tần suất nó xuất hiện trong ngữ
ữ liệu.
(
trong đó (
) = |
)=
(
∑
)
(
)
| chính là số lần xuất hiện của từ
trong ngữ
ng liệu.
Phương pháp này được gọii như vậy
v bởi vì nó cực đại hóa giá trị đầu
u ra đđể mô hình hóa
23
ngữ liệu huấn luyện. Ví dụ, trong ngữ liệu Brown, một ngữ liệu với một triệutừ, từ
khóa “Chinese” xuất hiện 400 lần. Vậy thì xác suất mà một mô hình ngôn ngữ dùng
MLE sẽ gán cho unigram “Chinese” là
(" ℎ
") =
= 0.0004.
Xác suất điều kiện của một n-gram tổng quát với bậc > 1 là:
|
=
tức là tần suất một từ nào đó thường xuyên xuất hiện sau lịch sử có bậc − 1.
Để minh họa, ta tiếp tục ví dụ trên, xác suất bigram “Chinese food” xuất hiện là số lần
từ “food” xuất hiện sau từ “Chinese” chia cho (′ ℎ
Brown, cụm từ “Chinese food” xuất hiện 120 lần, nên:
′) = 400. Trong ngữ liệu
(′
′|′ ℎ
′) =
0.3.
2.6. Đánh giá chất lượng dịch
Đánh giá độ chính xác của hệ thống dịch máy là một nhiệm vụ rất vất vả và khó
khăn. Để đánh giá độ chính xác của bản dịch, ta có thể đánh giá trực tiếp thông qua
người dùng hoặc đánh giá tự động bằng máy tính.
2.6.1. Đánh giá trực tiếp bằng con người
Để đánh giá độ chính xác của hệ thống dịch máy, ta có thể để con người trực tiếp
đánh giá. Chúng ta có thể đưa ra một thước đo cho độ trôi chảy của bản dịch (ví dụ từ
1 đến 5 hay từ 1 đến 10 tùy thuộc vào độ trôi chảy của bản dịch), sau đó cho những
người tham gia đánh giá đánh giá các câu trong bản dịch theo thang điểm đó. Như vậy,
văn bản nào có điểm trung bình càng cao, thì chất lượng bản dịch đó càng tốt. Ngoài
ra, cũng có thể đánh giá độ trôi chảy, độ chính xác của bản dịch thông qua thời gian
mà người đọc đọc hiểu được bản dịch đó. Rõ ràng, bản dịch nào mà người đọc đọc
hiểu càng nhanh, thì bản dịch đó càng chính xác.
Phương án đánh giá bản dịch bằng chính con người tuy rất dễ thực hiện, nhưng
chi phí thì rất lớn, và nếu bản dịch có kích thước càng lớn thì phương pháp này càng
kém hiệu quả. Ngày nay, các mô hình dịch máy đều áp dụng phương pháp đánh giá tự
động, chi phí thấp nhưng hiệu quả cũng khá là cao.
2.6.2. Đánh giá tự động: phương pháp BLEU
BLEU(Bilingual Evaluation Understudy) là một thuật toán để đánh giá chất
lượng văn bản đã được máy dịch từ một ngôn ngữ tự nhiên khác. Ý tưởng chính của
24
phương pháp này là so sánh kết quả bản dịch tự động bằng máy với các bản dịch mẫu
của con người, bản dịch máy nào càng giống với bản dịch mẫu của con người thì bản
dịch đó càng chính xác. Việc so sánh trên được thực hiện thông qua việc thống kê sự
trùng khớp của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu
(phương pháp n-grams theo từ).
Trong ví dụ như hình 2.12, có hai bản dịch bằng máy được đem so sánh với ba
bản dịch mẫu của con người. Có thể thấy rằng, bản dịch thứ máy nhất có nhiều từ
chung (đóng khung) với các bản dịch mẫu hơn bản dịch máy thứ hai, nên theo phương
pháp này có thể kết luận : bản dịch máy thứ nhất chính xác hơn bản dịch máy thứ hai.
Hình 2.12: Sự trùng khớp của các bản dịch máy với bản dịch mẫu
Với một bản dịch máy và bản dịch mẫu thứ n, phương pháp BLEU trước tiên
thống kê số lần tối thiểu của cụm Ngram xuất hiện trong từng cặp câu (câu dịch máy
và câu dịch mẫu), sau đó đem tổng trên chia cho tổng số cụm Ngram trong toản bản
dịch máy. Tỉ lệ trùng khớp của một bản dịch máy và bản dịch mẫu thứ n được tính
theo công thức:
=
∑ ∑ ∈ ố ượ
∑ ∑ ∈ ố ượ
ố ℎể
ụ
−
ụ
Trong đó là các câu trong bản dịch máy,
Điểm BLEU đánh giá một bản dịch máy với
ó
ả
là các cụm n-gram có trong câu .
bản dịch mẫu được tính theo công
thức:
=
Trong đó :
∗
1
ả
ẫ
ị ℎ á
log