Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (770.81 KB, 57 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƢU TIẾN TRUNG

ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2015.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƢU TIẾN TRUNG

ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC : TS. NGUYỄN VĂN VINH

HÀ NỘI – 2015

LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng
dẫn của TS. Nguyễn Văn Vinh.
2. Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng tên tác
giả, thời gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn
toàn trách nhiệm.
Học viên

Lƣu Tiến Trung

LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ thông tin,
Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã giúp đỡ tôi rất nhiều
trong quá trình học tập, nghiên cứu, truyền đạt cho tôi những kiến thức quý báu
trong những năm học vừa qua.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến giáo viên hƣớng dẫn của tôi - TS.
Nguyễn Văn Vinh, ngƣời đã tận tình chỉ bảo tôi, định hƣớng cho tôi trong quá
trình nghiên cứu, giúp đỡ tôi về mặt phƣơng pháp luận cũng nhƣ những kiểm tra
cuối cùng đối với luận văn này.
Tôi cũng muốn gửi lời cám ơn tới ThS. Trần Hồng Việt đã chia sẻ với tôi
rất nhiều kinh nghiệm, truyền đạt cho tôi rất nhiều kiến thức trong quá trình thực
hiện luận văn này.
Cuối cùng tôi gửi lời cảm ơn chân thành tới tất cả ngƣời thân và bạn bè đã
giúp đỡ, động viên tôi rất nhiều trong quá trình học tập cũng nhƣ thực hiện đề tài

này.
Học viên

Lƣu Tiến Trung

Mục lục
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN ................................................... 10
1.

Dịch máy ............................................................................................ 10

2.

Dịch máy thống kê ............................................................................. 11
a) Giới thiệu tổng quan ....................................................................... 11
b) Mô hình ngôn ngữ ........................................................................... 15
c) Bộ giải mã ....................................................................................... 16
d) Chu kỳ phát triển của hệ thống dịch thống kê ................................ 17
e) Phƣơng thức đánh giá ..................................................................... 18

CHƢƠNG 2: MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHÔNG
LIÊN TỤC ................................................................................................................ 22
1.

Mô hình dịch máy .............................................................................. 23
a) Dịch máy thống kê dựa vào từ ........................................................ 23
b) Dịch máy thống kê dựa trên cụm từ................................................ 25
c) Dịch máy thống kê dựa trên cú pháp .............................................. 27

2.

Cụm từ không liên tục ........................................................................ 27

3.

Mô hình dịch máy dựa trên cụm từ không liên tục ............................ 28
a) Chích xuất các cụm từ không liên tục............................................. 28
b) Giải mã ............................................................................................ 29
c) Đặc trƣng......................................................................................... 31

CHƢƠNG 3: ÁP DỤNG MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ
KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH-VIỆT ................................... 33
1.

Tổng quan........................................................................................... 33

2.

Chuẩn bị dữ liệu ................................................................................. 34

3.

Công cụ cho việc thử nghiệm, đánh giá ............................................. 36

KẾT LUẬN .................................................................................................... 43
PHỤ LỤC ....................................................................................................... 44
TÀI LIỆU THAM KHẢO.............................................................................. 53

DANH MỤC CHỮ VIẾT TẮT
Viết tắt
MT
SMT
BLEU
NIST

IWSLT

Tiếng Anh
Machine Translation
Statistic Machine
Translation
Bilingual Evaluation
Understudy
National Institute of
Standards and
Technology
The International
Workshop on Spoken
Language Translation

Tiếng Việt
Dịch máy
Dịch máy thống kê

DANH MỤC HÌNH VẼ
Hình 1.1: Mô hình hóa hệ dịch máy............................................................... 13

Hình 1.2: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt ........... 14
Hình 2.1: Minh họa dịch máy thống kê dựa vào cụm từ ............................... 25
Hình 2.2: Dịch máy dựa trên cụm từ không liên tục ..................................... 30

DANH MỤC BẢNG
Bảng 3-1: Tóm tắt bộ dữ liệu huấn luyện ...................................................... 35
Bảng 3-2: Các thử nghiệm theo chiều dịch Anh-Việt.................................... 39
Bảng 3-3: Các thử nghiệm theo chiều dịch Việt-Anh.................................... 40

MỞ ĐẦU
Theo bản điều tra báo cáo của UNESCO Liên Hiệp Quốc thì trên thế giới
hiện có 2750 thứ tiếng. Với nhu cầu trao đổi thông tin thƣờng xuyên và liên tục,
con ngƣời gặp phải không ít khó khăn do bất đồng ngôn ngữ. Ngƣời ta đã phải
dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ
tiếng nƣớc này sang tiếng nƣớc khác. Để khắc phục những nhƣợc điểm trên con
ngƣời đã nghĩ đến việc thiết kế một mô hình dịch tự động. Công việc đƣa ra mô
hình dịch tự động đã và đang đƣợc phát triển và trở thành đề tài nghiên cứu đƣợc
rất nhiều nhà khoa học quan tâm. Trên thế giới đã có rất nhiều nƣớc công bố
nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhƣng ở Việt
Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt
vẫn còn mới mẻ và gặp nhiều khó khăn
Mô hình dịch là một thành phần quan trọng trong các hệ thống dịch máy.
Cải thiện mô hình dịch có thể tăng hiệu quả rất lớn đối với các hệ thống dịch máy.
Vì vậy, trên thế giới đã có nhiều nghiên cứu đƣợc công bố về các mô hình dịch
đem lại những hiệu quả rất tích cực. Ở Việt Nam, dịch máy cũng đã trở thành đề
tài đƣợc một số nhóm tập trung nghiên cứu tuy nhiên chất lƣợng cũng nhƣ phạm
vi ứng dụng của các hệ dịch đó vẫn còn nhiều hạn chế. Những khó khăn đến từ
cách thức tiếp cận, về cấu trúc ngữ pháp và sự nhập nhằng ngữ nghĩa của tiếng

Việt.
Dịch máy dựa trên cụm từ hiện nay đang là mô hình dịch đem lại hiệu quả
cao và đang đƣợc sử dụng rộng rãi (Google, Bing,...). Mặc dù vậy, dịch trên cụm
từ vẫn còn có những hạn chế khi mà dịch trên cụm từ thông thƣờng không đem
lại kết quả cao khi trong dữ liệu huấn luyện chứa các thành phần dịch mà không
nằm cạnh nhau nhƣng lại có liên kết tới nhau. Khi đó các thành phần này sẽ bị
dịch riêng rẽ và đƣa ra kết quả không chính xác. Chính điều này đã gợi ý và thúc

đẩy tôi lựa chọn và tập trung nghiên cứu về vấn đề này. Dựa vào bài báo của
Michel Galley and Christopher D. Manning [3], tôi tiến hành nghiên cứu đề tài
“Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh
Việt”.
Tôi tin là nếu đề tài này đƣợc nghiên cứu thành công, kết quả của đề tài có
thể ứng dụng rất tốt phục vụ trong công tác giảng dạy cũng nhƣ áp dụng thực tiễn
để xây dựng hệ thống dịch tự động. Bố cục luận văn gồm 3 chƣơng:
Chƣơng 1: Giới thiệu tổng quan.
Nội dung chính của chƣơng này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chƣơng này cũng giới thiệu về
nguyên lý hoạt động, các thành phần và phƣơng pháp đánh giá về một hệ thống
dịch máy thống kê.
Chƣơng 2: Mô hình dịch dựa vào cụm từ không liên tục
Nội dung chính của chƣơng này là giới thiệu về mô hình dịch máy dựa trên
cụm từ không liên tục. Trong chƣơng này, chúng tôi đã giới thiệu về mô hình dịch
máy, phân loại các mô hình dịch máy hiện nay. Cùng với đó, chúng tôi đã trình
bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục.
Chƣơng 3: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho
cặp ngôn ngữ Anh-Việt
Nội dung chính của chƣơng này là mô tả việc áp dụng mô hình học máy
dựa trên cụm từ không liên tục cho bài toán dịch máy. Chƣơng tày cũng sẽ mô tả

về công cụ Phrasal cùng các thực nghiệm sử dụng công cụ này, đƣa ra các kết quả
thu đƣợc và đánh giá. Cuối chƣơng sẽ đƣa ra hƣớng nghiên cứu tiếp theo của đề
tài.

CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chương này cũng giới thiệu về
nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống
dịch máy thống kê.
1. Dịch máy
Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng
máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài
thứ tiếng khác. Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ
nguồn. Văn bản này có thể thu đƣợc từ một hệ soạn thảo hay một hệ nhận dạng
chữ viết, lời nói. Sau đó văn bản có thể đƣợc chỉnh sửa lại nhờ khối soạn thảo,
kiểm tra chính tả, trƣớc khi đƣa vào máy dịch. Phần dịch máy sẽ chuyển văn bản
nguồn thành văn bản viết trên ngôn ngữ đích. Và cũng qua một bộ chỉnh ra để
cuối cùng thu đƣợc một văn bản tƣơng đối hoàn chỉnh.
Dịch máy có lịch sử lâu đời từ thập kỷ 50 và đƣợc phát triển mạnh mẽ từ
thập kỷ 80 cho đến nay. Hiện tại, trên thế giới có rất nhiều hệ dịch máy thƣơng
mại nổi tiếng trên thế giới nhƣ Systrans, Kant, … hay những hệ dịch máy mở tiêu
biểu là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến nhƣ AnhPháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu
dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Các hệ dịch máy
này đã đạt đƣợc kết quả khá tốt với những cặp ngôn ngữ tƣơng đồng nhau về cú
pháp nhƣ các cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … và còn gặp nhiều
hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau nhƣ Anh-Trung, Anh10

Nhật, … Và ở Việt Nam, dịch Anh-Việt, Việt-Anh cũng vấp phải những khó

khăn tƣơng tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của
ngữ nghĩa.

hệ thống dịch Anh-Việt dựa trên luật chuyển đổi đƣợc thƣơng mại

hóa đầu tiên ở Việt Nam là EVTran, MTD Lạc Việt. Hiện nay, nhiều nghiên cứu
với mong muốn tăng chất lƣợng dịch vẫn đang đƣợc thực hiện thích nghi với đặc
điểm của các cặp ngôn ngữ khác nhau.
Hiện nay, các nghiên cứu để làm tăng chất lƣợng hệ dịch vẫn đang đƣợc
tiến hành phù hợp với đặc điểm của các cặp ngôn ngữ. Trong đó, phương pháp
dịch dựa trên thống kê là một hƣớng tiếp cận đang đƣợc phát triển mạnh từ
những năm của thập kỷ 90, đang đƣợc xem là cách tiếp cận khả thi và hiệu quả
của việc dịch tự động với nhiều bƣớc đột phá.
2. Dịch máy thống kê
a) Giới thiệu tổng quan
Dịch máy thống kê (SMT) là một phƣơng pháp dịch máy, trong đó các bản
dịch đƣợc tạo ra trên cơ sở các mô hình thống kê có các tham số đƣợc bắt nguồn
từ việc phân tích các cặp câu song ngữ. Các phƣơng pháp tiếp cận thống kê tƣơng
phản với các phƣơng pháp tiếp cận dựa trên luật trong dịch máy cũng nhƣ
với dịch máy dựa trên ví dụ.
Những ý tƣởng đầu tiên của dịch máy thống kê đã đƣợc giới thiệu
bởi Warren Weaver vào năm 1949, bao gồm cả những ý tƣởng của việc áp
dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê đƣợc tái giới
thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu
Thomas J. Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan
11

tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phƣơng pháp dịch
máy đƣợc nghiên cứu nhiều nhất.

Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí
thức. Trong khi đối với dịch thống kê, chúng ta dựa vào toán học để thực hiện kết
hợp tối ƣu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch đƣợc
học một cách tự động từ dữ liệu huấn luyện. Với kết quả nhƣ vậy, việc phát triển
một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật. Thật vậy,
việc đƣa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn
phong là rất khó khăn hơn rất nhiều nếu không nói là không thể. Thay vào đó,
trong cách tiếp cận thống kê, các giả định mô hình đƣợc kiểm định bằng thực
nghiệm dựa vào dữ liệu huấn luyện. Một ƣu điểm khác của dịch máy thống kê đó
là phƣơng pháp này khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một
phần của ứng dụng lớn hơn.
Dịch máy dựa trên phƣơng pháp thống kê sẽ tìm câu ngôn ngữ đích e phù
hợp nhất (có xác suất cao nhất) khi cho trƣớc câu ngôn ngữ nguồn f.

Một hệ dịch máy dựa trên phƣơng pháp thống kê có thể đƣợc mô hình hoá
nhƣ hình sau:

12

Hình 0.1: Mô hình hóa hệ dịch máy

Dịch máy thống kê lần đầu tiên đƣợc đề cập trong bài báo với phƣơng pháp
sử dụng là mô hình Kênh nhiễu (Noisy Channel Model).
Mô hình kênh nhiễu đƣợc Brown áp dụng trong bài toán dịch máy nhƣ sau:
Cho câu tiếng Pháp f1J = f1 … f j … f J cần dịch sang câu tiếng Anh e1I =
e1 …ei …eI . Brown dựng lên mô hình kênh nhiễu với e là đầu vào bộ mã hoá
(Encoder), qua kênh nhiễu đƣợc chuyển hoá thành f và sau đó, gửi f đến bộ giải
mã (Decoder). Nhƣ vậy, trong các câu tiếng Anh, ta chọn câu sao cho xác suất
hậu nghiệm Pr (e1I | f1J ) là lớn nhất, theo luật quyết định Bayes :

{

eˆ1I = arg max Pr(e1I | f1 J )

} = arg max{Pr(e ).Pr( f | e )}
1

13

1

1

Nhƣ vậy, ta có thể xây dựng mô hình chung của hệ dịch máy bằng phƣơng
pháp thống kê thông thƣờng sẽ bao gồm 3 thành phần:
- Mô hình ngôn ngữ: Tính toán đƣợc xác suất của câu ngôn ngữ nguồn.
- Mô hình dịch: Cho biết xác suất của câu ngôn ngữ nguồn là bản dịch
từ câu ngôn ngữ đích.
- Bộ giải mã: Tìm kiếm tất cả các câu ngôn ngữ đích e có thể có từ câu
ngôn ngữ nguồn f.
Mô hình dịch từ tiếng Anh sang tiếng Việt có thể hình dung thông qua biểu
đồ dƣới đây:

Hình 0.2: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt

Mô hình dịch của mô hình ngôn ngữ sẽ đƣợc trình bày ở chƣơng sau của
luận văn. Ở phần này, luận văn chỉ đề cập đến hai thành phần còn lại của mô hình
dịch máy thống kê.

14

b) Mô hình ngôn ngữ
Mô hình ngôn ngữ là một phân bố xác suất trên các tập văn bản. Nói đơn
giản, mô hình ngôn ngữ có thể cho biết xác suất một câu (hoặc cụm từ) thuộc một
ngôn ngữ là bao nhiêu.
Ví dụ: khi áp dụng mô hình ngôn ngữ cho tiếng Việt:
- P[“hôm qua là thứ năm”] = 0.001
- P[“năm thứ hôm là qua”] = 0
Mô hình ngôn ngữ đƣợc áp dụng trong rất nhiều lĩnh vực của xử lý ngôn
ngữ tự nhiên nhƣ: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Chính vì vậy,
nghiên cứu mô hình ngôn ngữ chính là tiền đề để nghiên cứu các lĩnh vực tiếp
theo.
Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của một câu
w1w2...wm là bao nhiêu. Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…*
P(wm|w1w2…wm-1)
Theo công thức này, mô hình ngôn ngữ cần phải có một lƣợng bộ nhớ vô
cùng lớn để có thể lƣu hết xác suất của tất cả các chuỗi độ dài nhỏ hơn m. Rõ
ràng, điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m
có thể tiến tới vô cùng). Để có thể tính đƣợc xác suất của văn bản với lƣợng bộ
nhớ chấp nhận đƣợc, ta sử dụng xấp xỉ Markov bậc n:
P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1)
Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) đƣợc coi
nhƣ chỉ phụ thuộc vào n từ đứng liền trƣớc nó (wm-nwm-n+1…wm-1) chứ không
15

phải phụ thuộc vào toàn bộ dãy từ đứng trƣớc (w1w2…wm-1). Nhƣ vậy, công
thức tính xác suất văn bản đƣợc tính lại theo công thức:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1)
Với công thức này, ta có thể xây dựng mô hình ngôn ngữ dựa trên việc
thống kê các cụm có ít hơn n+1 từ. Mô hình ngôn ngữ này gọi là mô hình ngôn
ngữ N-gram. Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1
dãy các phần tử cho trƣớc.
c) Bộ giải mã
Nhiệm vụ của bộ giải mã chính là tìm câu ngôn ngữ đích tốt nhất khi biết
trƣớc câu ngôn ngữ nguồn. Tức là với câu ngôn ngữ nguồn f, câu ngôn ngữ đích e
tốt nhất chính là câu làm cho giá trị P(f|e)*P(e) là lớn nhất. Bộ giải mã đƣợc phát
triển đầu tiên cho mô hình dịch cụm từ đƣợc giới thiệu bởi Marcu và Wong, sử
dụng các phƣơng pháp leo đồi. Do không gian tìm kiếm là rất lớn, nên bộ giải mã
trong mô hình dịch máy thống kê thƣờng áp dụng các thuật toán tìm kiếm tối ƣu.
Thuật toán mà bộ giải mã thƣờng áp dụng có tên là A*, là một trong các
phƣơng pháp tìm kiếm tốt nhất. Giải thuật A* có thể tóm tắt nhƣ sau: tại mỗi
bƣớc mở rộng không gian tìm kiếm, ta sử dụng các hàm ƣớc lƣợng, đánh giá
trọng số để kết quả tìm đƣợc luôn là tốt nhất có thể và là kết quả tìm thấy đầu
tiên. Ngữ liệu sau khi qua 2 mô hình ngôn ngữ và mô hình dịch ta đƣợc bảng xác
suất cho từng thông số tƣơng ứng. Vấn đề tìm ra tích số P(e)P(v|e) lớn nhất.
Có hai thuật giải và một thuật toán tối ƣu cho mô hình tìm kiếm: thuật giải
tìm kiếm tham lam, thuật giải tìm kiếm dựa trên ngăn xếp, và thuật toán tìm kiếm

16

theo chu trình Hamilton tối ƣu. Hai thuật giải có thời gian nhanh xử lý nhanh hơn
thuật toán nhƣng kết quả thấp hơn thuật toán.
Bộ giải mã thực hiện một cái tìm kiếm theo chùm (beam search) tƣơng tự
công việc của Tillmann và Och. Bắt đầu bằng việc định nghĩa các khái niệm cơ

bản của các lựa chọn dịch mô tả cơ chế hoạt động của beam search và các thành
phần cần thiết của nó và các ƣớc lƣợng giá trị tƣơng lai và các khái niệm về sinh
danh sách n-best.
d) Chu kỳ phát triển của hệ thống dịch thống kê
Chu kì để xây dựng hệ thống dịch máy thống kê nhƣ sau:
- Thu thập ngữ liệu, rút trích và xử lý tài nguyên
Ở đây, chúng ta cần thu thập các văn bản đơn ngữ nhằm mục đích xây
dựng mô hình ngôn ngữ và các văn bản song ngữ phục vụ trong việc thực hiện
huấn luyện.
- Tiền xử lý dữ liệu
Hiện tƣợng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay cả trong
cách tiếp cận thống kê tiên tiến. Do đó để cho việc sử dụng cách tiếp cận thống kê
đƣợc tốt thì trong bƣớc tiền xử lý, chúng ta làm tốt một số việc nhƣ: loại bỏ các kí
hiệu không phải là văn bản, đƣa các từ về dạng gốc của nó, ...
Chất lƣợng dịch càng tăng khi cỡ của corpus càng lớn. Quá trình học của
hệ thống dịch máy sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiêu để thu đƣợc
kết quả khả quan.
- Xây dựng mô hình ngôn ngữ

17

Ở đây, mục tiêu là phải phát triển mô hình mà mô hình này mô tả càng
nhiều các thuộc tính của ngôn ngữ tự nhiên và các tham số tự do của nó có thể
đƣợc ƣớc lƣợng từ dữ liệu huấn luyện
- Huấn luyện
Thuật toán huấn luyện thƣờng dựa vào cách tiếp cận hợp lý cực đại. Thông
thƣờng, các thuật toán huấn luyện thƣờng cho ta kết quả là tốt ƣu địa phƣơng. Do
vậy, để làm tốt việc huấn luyện này, cần xây dựng các thuật toán mà kêt quả tối
ƣu địa phƣơng thƣờng gần với tối ƣu toàn cục.

- Đánh giá chất lƣợng hệ dịch
Để có thể đánh giá chất lƣợng hệ dịch có thể dựa vào việc đánh giá trực
tiếp bằng con ngƣời, tuy phƣơng pháp này dễ làm nhƣng sẽ mất nhiều thời gian
và chi phí thực hiện. Ngoài ra việc đánh giá chất lƣợng có thể thực hiện bởi
phƣơng pháp tự động. Hiện nay có 2 phƣơng pháp đƣợc sử dụng rộng rãi để đánh
giá chất lƣợng hệ dịch tự động đó là BLEU và NIST.
- Nâng cấp và cải tiến hệ dịch
Sau một quá trình huấn luyện cho hệ dịch và có những đánh giá chính xác.
Sẽ có những câu từ đƣợc dịch chính xác nhƣng cũng sẽ có nhƣng vẫn có những
trƣờng hợp dịch chƣa đạt. Chính điều này sau mỗi quá trình huấn luyện đều cần
nâng cấp và đƣa ra những cải tiến để hệ dịch ngày một hoàn thiện hơn.
e) Phương thức đánh giá
Đánh giá độ chính xác của hệ thống dịch máy là một nhiệm vụ rất vất vả và
khó khăn. Để đánh giá độ chính xác của bản dịch, ta có thể đánh giá trực tiếp
thông qua ngƣời dùng hoặc đánh giá tự động bằng máy tính.
Đánh giá trực tiếp bằng con ngƣời
18

Để đánh giá độ chính xác của hệ thống dịch máy, ta có thể để con ngƣời
trực tiếp đánh giá. Chúng ta có thể đƣa ra một thƣớc đo cho độ trôi chảy của bản
dịch (ví dụ từ 1 đến 5 hay từ 1 đến 10 tùy thuộc vào độ trôi chảy của bản dịch),
sau đó cho những ngƣời tham gia đánh giá đánh giá các câu trong bản dịch theo
thang điểm đó. Nhƣ vậy, văn bản nào có điểm trung bình càng cao, thì chất lƣợng
bản dịch đó càng tốt. Ngoài ra, cũng có thể đánh giá độ trôi chảy, độ chính xác
của bản dịch thông qua thời gian mà ngƣời đọc đọc hiểu đƣợc bản dịch đó. Rõ
ràng, bản dịch nào mà ngƣời đọc đọc hiểu càng nhanh, thì bản dịch đó càng chính
xác.
Phƣơng án đánh giá bản dịch bằng chính con ngƣời tuy rất dễ thực hiện,
nhƣng chi phí thì rất lớn, và nếu bản dịch có kích thƣớc càng lớn thì phƣơng pháp

này càng kém hiệu quả. Ngày nay, các mô hình dịch máy đều áp dụng phƣơng
pháp đánh giá tự động, chi phí thấp nhƣng hiệu quả cũng khá là cao.
Đánh giá tự động
Hai phƣơng pháp phổ biến để sử dụng để đánh giá những bản dịch: BLEU
và NIST
- BLEU
BLEU (Bilingual Evaluation Understudy) là một phƣơng pháp dùng để
đánh giá chất lƣợng bản dịch đƣợc đề xuất bới IBM tại hội nghị ACL ở
Philadelphie vào tháng 7-2001. Ý tƣởng chính của phƣơng pháp là so sánh kết
quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu.
Việc so sánh đƣợc thực hiện thông qua việc thống kê sự trùng khớp của các từ
trong hai bản dịch có tính đến thứ tự của chúng trong câu (phƣơng pháp n-grams
theo từ). Phƣơng pháp này dựa trên hệ số tƣơng quan giữa bản dịch máy và bản
dịch chính xác đƣợc thực hiện bởi con ngƣời để đánh giá chất lƣợng của một hệ
thống dịch.
19

Việc đánh giá đƣợc thực hiện trên kết quả thống kê mức độ trùng khớp các
n-grams (dãy ký tự gồm n từ hoặc ký tự) từ kho dữ liệu của kết quả dịch và kho
các bản dịch tham khảo có chất lƣợng cao. Giải thuật của IBM đánh giá chất
lƣợng của hệ thống dịch qua việc trùng khớp của các n-grams đồng thời nó cũng
dựa trên cả việc so sánh độ dài của các bản dịch.
Công thức để tính điểm đánh giá của IBM là nhƣ sau:
N
L

score  exp  wi log( pi )  max  ref  1,0 
 L tra


 i 1

Với Pi 

 NR

j

j

 NT

j

j

Trong đó:
- NRj: là số lƣợng các n-grams trong phân đoạn j của bản dịch dùng để
tham khảo.
- NTj: là số lƣợng các n-grams trng phân đoạn j của bản dịch bằng máy.
- wi= N-1
- Lref: là số lƣợng các từ trong bản dịch tham khảo, độ dài của nó thƣờng
là gần bằng độ dài của bản dịch bằng máy.
- Ltra: là số lƣợng các từ trong bản dịch bằng máy.
Giá trị score đánh giá mức độ tƣơng ứng giữa hai bản dịch và nó đƣợc thực
hiện trên từng phân đoạn, ở đây phân đoạn đƣợc hiểu là đơn vị tối thiểu trong các
bản dịch, thông thƣờng mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê
đồ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn,
trƣớc hết là nó đƣợc tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả
các phân đoạn.

20

- NIST
Phƣơng pháp NIST là sự phát triển trên phƣơng pháp BLEU nhƣng có một
khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi ngram sẽ đƣợc sử dụng để phục vụ việc đánh giá.
Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay
đổi vị trí các phần tử trên cùng một n-gram cho chúng ta thấy rằng điểm số cũng
sẽ thay đổi nếu chúng ta thay đổi vị trí của các n-grams trên cùng một phân đoạn.
Sự thay đổi này sẽ ảnh hƣởng lớn lên kết quả đánh giá dựa trên sự tƣơng ứng về
vị trí của các n-grams trên phân đoạn. Điều này cho thấy chúng ta có thể sử dụng
công cụ số học để tính toán sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố
hình học.
Công thức để tính điểm của NIST là:
  inf( w1 ...wn )



 Ltra  
 w1 ...wn

2

score   
.
exp

log
min
,1 



L

log( pi )

i 1 

ref



 


 w1 ...wn  Dtra


N

Những trọng số thông tin là đƣợc sử dụng để tính toán trên các n-grams
trong tập tất cả các các bản dịch tham khảo theo phƣơng trình sau:
N
inf( w1 ...wn )  log 2  1
 N2





Trong đó:
- N1 = số lƣợng các tƣơng ứng của các từ w1…wn-1
- N2 = số lƣợng các tƣơng ứng của các từ w1…wn
-  là hệ số đƣợc chọn bằng 0.5 khi số lƣợng các từ trong bản dịch máy
nhỏ hơn hoặc bằng 2/3 số lƣợng các từ trong bản dịch tham khảo, ngƣợc
lại thì =1
21

- N=5
- Ltra: số lƣợng các từ trong bản dịch máy, Lref: số lƣợng từ trong bản dịch
tham khảo.
3. Kết luận chƣơng 1
Nhƣ vậy, trong chƣơng này, chung tôi đã có những giới thiệu tổng quan về
bài toán dịch tự động, các hệ thống dịch máy, dịch máy thống kê. Chƣơng này
cũng giới thiệu về nguyên lý hoạt động, các thành phần và phƣơng pháp đánh giá
về một hệ thống dịch máy thống kê.

22

CHƢƠNG 2: MÔ HÌNH DỊCH MÁY DỰA TRÊN
CỤM TỪ KHÔNG LIÊN TỤC
Nội dung chính của chương này là giới thiệu về mô hình dịch máy, phân
loại các mô hình dịch máy hiện nay. Sau đó, chúng tôi sẽ giới thiệu đi sâu vào mô
hình dịch máy dựa trên cụm từ không liên tục.
1. Mô hình dịch máy
Mô hình dịch có 3 hƣớng tiếp cận chính:
- Mô hình dịch dựa trên từ (word-based)
- Mô hình dịch dựa trên cụm từ (phrase-based)

- Mô hình dịch dựa trên cú pháp (syntax-based)
Cả 3 hƣớng tiếp cận trên đều dựa trên một tƣ tƣởng. Đó là sự tƣơng ứng
giữa hai câu (alignment).
a) Dịch máy thống kê dựa vào từ
Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê
và đƣợc nghiên cứu và phát triển bởi IBM. Nhƣ đã trình bày ở phần trƣớc, mô
hình dịch này dựa trên sự tƣơng ứng của các từ theo tƣơng ứng một một (một từ
của ngôn ngữ này chỉ tƣơng ứng với một từ của ngôn ngữ kia và ngƣợc lại). Cụ
thể hơn, giả sử câu ngôn ngữ nguồn là e1 e2 ...en và câu ngôn ngữ đích là f1 f2 ...fm ,
khi đó mỗi từ fj chỉ tƣơng ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là
không tƣơng ứng với từ nào. Do đó, một sự tƣơng ứng giữa các từ của câu ngôn
ngữ nguồn và câu ngôn ngữ đích có thể biểu diễn bằng một dãy m số: {a1 , a2 ,. ..
23

Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ anh việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về