Tải bản đầy đủ (.pdf) (57 trang)

Luận văn thạc sĩ VNU UET áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ anh việt 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (867.1 KB, 57 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƢU TIẾN TRUNG

ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHƠNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2015.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LUAN VAN CHAT LUONG download : add


LƢU TIẾN TRUNG

ÁP DỤNG MƠ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHƠNG LIÊN TỤC CHO CẶP
NGƠN NGỮ ANH VIỆT

Ngành: Cơng nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN


NGƢỜI HƢỚNG DẪN KHOA HỌC : TS. NGUYỄN VĂN VINH

HÀ NỘI – 2015

LUAN VAN CHAT LUONG download : add


LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng
dẫn của TS. Nguyễn Văn Vinh.
2. Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng tên tác
giả, thời gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn
toàn trách nhiệm.
Học viên

Lƣu Tiến Trung

LUAN VAN CHAT LUONG download : add


LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ thông tin,
Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã giúp đỡ tơi rất nhiều
trong q trình học tập, nghiên cứu, truyền đạt cho tôi những kiến thức quý báu
trong những năm học vừa qua.
Tơi xin bày tỏ lịng biết ơn sâu sắc đến giáo viên hƣớng dẫn của tôi - TS.
Nguyễn Văn Vinh, ngƣời đã tận tình chỉ bảo tơi, định hƣớng cho tơi trong q
trình nghiên cứu, giúp đỡ tôi về mặt phƣơng pháp luận cũng nhƣ những kiểm tra

cuối cùng đối với luận văn này.
Tôi cũng muốn gửi lời cám ơn tới ThS. Trần Hồng Việt đã chia sẻ với tôi
rất nhiều kinh nghiệm, truyền đạt cho tôi rất nhiều kiến thức trong quá trình thực
hiện luận văn này.
Cuối cùng tôi gửi lời cảm ơn chân thành tới tất cả ngƣời thân và bạn bè đã
giúp đỡ, động viên tơi rất nhiều trong q trình học tập cũng nhƣ thực hiện đề tài
này.
Học viên

Lƣu Tiến Trung

LUAN VAN CHAT LUONG download : add


Mục lục
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN ................................................... 10
1.

Dịch máy ............................................................................................ 10

2.

Dịch máy thống kê ............................................................................. 11
a) Giới thiệu tổng quan ....................................................................... 11
b) Mơ hình ngơn ngữ ........................................................................... 15
c) Bộ giải mã ....................................................................................... 16
d) Chu kỳ phát triển của hệ thống dịch thống kê ................................ 17
e) Phƣơng thức đánh giá ..................................................................... 18

CHƢƠNG 2: MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ KHƠNG

LIÊN TỤC ................................................................................................................ 22
1.

Mơ hình dịch máy .............................................................................. 23
a) Dịch máy thống kê dựa vào từ ........................................................ 23
b) Dịch máy thống kê dựa trên cụm từ................................................ 25
c) Dịch máy thống kê dựa trên cú pháp .............................................. 27

2.

Cụm từ không liên tục ........................................................................ 27

3.

Mơ hình dịch máy dựa trên cụm từ khơng liên tục ............................ 28
a) Chích xuất các cụm từ không liên tục............................................. 28
b) Giải mã ............................................................................................ 29
c) Đặc trƣng......................................................................................... 31

CHƢƠNG 3: ÁP DỤNG MƠ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ
KHÔNG LIÊN TỤC CHO CẶP NGÔN NGỮ ANH-VIỆT ................................... 33
1.

Tổng quan........................................................................................... 33

LUAN VAN CHAT LUONG download : add


2.


Chuẩn bị dữ liệu ................................................................................. 34

3.

Công cụ cho việc thử nghiệm, đánh giá ............................................. 36

KẾT LUẬN .................................................................................................... 43
PHỤ LỤC ....................................................................................................... 44
TÀI LIỆU THAM KHẢO.............................................................................. 53

LUAN VAN CHAT LUONG download : add


DANH MỤC CHỮ VIẾT TẮT
Viết tắt
MT
SMT
BLEU
NIST

IWSLT

Tiếng Anh
Machine Translation
Statistic Machine
Translation
Bilingual Evaluation
Understudy
National Institute of
Standards and

Technology
The International
Workshop on Spoken
Language Translation

Tiếng Việt
Dịch máy
Dịch máy thống kê

LUAN VAN CHAT LUONG download : add


DANH MỤC HÌNH VẼ
Hình 1.1: Mơ hình hóa hệ dịch máy............................................................... 13
Hình 1.2: Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt ........... 14
Hình 2.1: Minh họa dịch máy thống kê dựa vào cụm từ ............................... 25
Hình 2.2: Dịch máy dựa trên cụm từ không liên tục ..................................... 30

LUAN VAN CHAT LUONG download : add


DANH MỤC BẢNG
Bảng 3-1: Tóm tắt bộ dữ liệu huấn luyện ...................................................... 35
Bảng 3-2: Các thử nghiệm theo chiều dịch Anh-Việt.................................... 39
Bảng 3-3: Các thử nghiệm theo chiều dịch Việt-Anh.................................... 40

LUAN VAN CHAT LUONG download : add


MỞ ĐẦU

Theo bản điều tra báo cáo của UNESCO Liên Hiệp Quốc thì trên thế giới
hiện có 2750 thứ tiếng. Với nhu cầu trao đổi thông tin thƣờng xuyên và liên tục,
con ngƣời gặp phải khơng ít khó khăn do bất đồng ngôn ngữ. Ngƣời ta đã phải
dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ
tiếng nƣớc này sang tiếng nƣớc khác. Để khắc phục những nhƣợc điểm trên con
ngƣời đã nghĩ đến việc thiết kế một mơ hình dịch tự động. Cơng việc đƣa ra mơ
hình dịch tự động đã và đang đƣợc phát triển và trở thành đề tài nghiên cứu đƣợc
rất nhiều nhà khoa học quan tâm. Trên thế giới đã có rất nhiều nƣớc cơng bố
nghiên cứu về mơ hình ngơn ngữ áp dụng cho ngơn ngữ của họ nhƣng ở Việt
Nam, việc nghiên cứu và xây dựng một mơ hình ngơn ngữ chuẩn cho tiếng Việt
vẫn cịn mới mẻ và gặp nhiều khó khăn
Mơ hình dịch là một thành phần quan trọng trong các hệ thống dịch máy.
Cải thiện mơ hình dịch có thể tăng hiệu quả rất lớn đối với các hệ thống dịch máy.
Vì vậy, trên thế giới đã có nhiều nghiên cứu đƣợc cơng bố về các mơ hình dịch
đem lại những hiệu quả rất tích cực. Ở Việt Nam, dịch máy cũng đã trở thành đề
tài đƣợc một số nhóm tập trung nghiên cứu tuy nhiên chất lƣợng cũng nhƣ phạm
vi ứng dụng của các hệ dịch đó vẫn cịn nhiều hạn chế. Những khó khăn đến từ
cách thức tiếp cận, về cấu trúc ngữ pháp và sự nhập nhằng ngữ nghĩa của tiếng
Việt.
Dịch máy dựa trên cụm từ hiện nay đang là mơ hình dịch đem lại hiệu quả
cao và đang đƣợc sử dụng rộng rãi (Google, Bing,...). Mặc dù vậy, dịch trên cụm
từ vẫn cịn có những hạn chế khi mà dịch trên cụm từ thông thƣờng không đem
lại kết quả cao khi trong dữ liệu huấn luyện chứa các thành phần dịch mà không
nằm cạnh nhau nhƣng lại có liên kết tới nhau. Khi đó các thành phần này sẽ bị
dịch riêng rẽ và đƣa ra kết quả khơng chính xác. Chính điều này đã gợi ý và thúc

LUAN VAN CHAT LUONG download : add


đẩy tôi lựa chọn và tập trung nghiên cứu về vấn đề này. Dựa vào bài báo của

Michel Galley and Christopher D. Manning [3], tôi tiến hành nghiên cứu đề tài
“Áp dụng mơ hình dịch dựa vào cụm từ khơng liên tục cho cặp ngôn ngữ Anh
Việt”.
Tôi tin là nếu đề tài này đƣợc nghiên cứu thành công, kết quả của đề tài có
thể ứng dụng rất tốt phục vụ trong công tác giảng dạy cũng nhƣ áp dụng thực tiễn
để xây dựng hệ thống dịch tự động. Bố cục luận văn gồm 3 chƣơng:
Chƣơng 1: Giới thiệu tổng quan.
Nội dung chính của chƣơng này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chƣơng này cũng giới thiệu về
nguyên lý hoạt động, các thành phần và phƣơng pháp đánh giá về một hệ thống
dịch máy thống kê.
Chƣơng 2: Mô hình dịch dựa vào cụm từ khơng liên tục
Nội dung chính của chƣơng này là giới thiệu về mơ hình dịch máy dựa trên
cụm từ không liên tục. Trong chƣơng này, chúng tơi đã giới thiệu về mơ hình dịch
máy, phân loại các mơ hình dịch máy hiện nay. Cùng với đó, chúng tơi đã trình
bày cách tiếp cận, đi sâu vào mơ hình dịch máy dựa trên cụm từ khơng liên tục.
Chƣơng 3: Áp dụng mơ hình dịch dựa vào cụm từ không liên tục cho
cặp ngôn ngữ Anh-Việt
Nội dung chính của chƣơng này là mơ tả việc áp dụng mơ hình học máy
dựa trên cụm từ khơng liên tục cho bài toán dịch máy. Chƣơng tày cũng sẽ mô tả
về công cụ Phrasal cùng các thực nghiệm sử dụng công cụ này, đƣa ra các kết quả
thu đƣợc và đánh giá. Cuối chƣơng sẽ đƣa ra hƣớng nghiên cứu tiếp theo của đề
tài.

LUAN VAN CHAT LUONG download : add


CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chương này cũng giới thiệu về

nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống
dịch máy thống kê.
1. Dịch máy
Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng
máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài
thứ tiếng khác. Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ
nguồn. Văn bản này có thể thu đƣợc từ một hệ soạn thảo hay một hệ nhận dạng
chữ viết, lời nói. Sau đó văn bản có thể đƣợc chỉnh sửa lại nhờ khối soạn thảo,
kiểm tra chính tả, trƣớc khi đƣa vào máy dịch. Phần dịch máy sẽ chuyển văn bản
nguồn thành văn bản viết trên ngơn ngữ đích. Và cũng qua một bộ chỉnh ra để
cuối cùng thu đƣợc một văn bản tƣơng đối hồn chỉnh.
Dịch máy có lịch sử lâu đời từ thập kỷ 50 và đƣợc phát triển mạnh mẽ từ
thập kỷ 80 cho đến nay. Hiện tại, trên thế giới có rất nhiều hệ dịch máy thƣơng
mại nổi tiếng trên thế giới nhƣ Systrans, Kant, … hay những hệ dịch máy mở tiêu
biểu là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến nhƣ AnhPháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu
dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Các hệ dịch máy
này đã đạt đƣợc kết quả khá tốt với những cặp ngôn ngữ tƣơng đồng nhau về cú
pháp nhƣ các cặp ngơn ngữ AnhPháp, Anh-Tây Ban Nha, … và cịn gặp nhiều
hạn chế đối với các cặp ngơn ngữ có cú pháp khác nhau nhƣ Anh-Trung, Anh10

LUAN VAN CHAT LUONG download : add


Nhật, … Và ở Việt Nam, dịch Anh-Việt, Việt-Anh cũng vấp phải những khó
khăn tƣơng tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của
ngữ nghĩa.

hệ thống dịch Anh-Việt dựa trên luật chuyển đổi đƣợc thƣơng mại

hóa đầu tiên ở Việt Nam là EVTran, MTD Lạc Việt. Hiện nay, nhiều nghiên cứu

với mong muốn tăng chất lƣợng dịch vẫn đang đƣợc thực hiện thích nghi với đặc
điểm của các cặp ngôn ngữ khác nhau.
Hiện nay, các nghiên cứu để làm tăng chất lƣợng hệ dịch vẫn đang đƣợc
tiến hành phù hợp với đặc điểm của các cặp ngơn ngữ. Trong đó, phương pháp
dịch dựa trên thống kê là một hƣớng tiếp cận đang đƣợc phát triển mạnh từ
những năm của thập kỷ 90, đang đƣợc xem là cách tiếp cận khả thi và hiệu quả
của việc dịch tự động với nhiều bƣớc đột phá.
2. Dịch máy thống kê
a) Giới thiệu tổng quan
Dịch máy thống kê (SMT) là một phƣơng pháp dịch máy, trong đó các bản
dịch đƣợc tạo ra trên cơ sở các mô hình thống kê có các tham số đƣợc bắt nguồn
từ việc phân tích các cặp câu song ngữ. Các phƣơng pháp tiếp cận thống kê tƣơng
phản với các phƣơng pháp tiếp cận dựa trên luật trong dịch máy cũng nhƣ
với dịch máy dựa trên ví dụ.
Những ý tƣởng đầu tiên của dịch máy thống kê đã đƣợc giới thiệu
bởi Warren Weaver vào năm 1949, bao gồm cả những ý tƣởng của việc áp
dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê đƣợc tái giới
thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu
Thomas J. Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan
11

LUAN VAN CHAT LUONG download : add


tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phƣơng pháp dịch
máy đƣợc nghiên cứu nhiều nhất.
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí
thức. Trong khi đối với dịch thống kê, chúng ta dựa vào toán học để thực hiện kết
hợp tối ƣu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch đƣợc
học một cách tự động từ dữ liệu huấn luyện. Với kết quả nhƣ vậy, việc phát triển

một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật. Thật vậy,
việc đƣa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn
phong là rất khó khăn hơn rất nhiều nếu khơng nói là khơng thể. Thay vào đó,
trong cách tiếp cận thống kê, các giả định mơ hình đƣợc kiểm định bằng thực
nghiệm dựa vào dữ liệu huấn luyện. Một ƣu điểm khác của dịch máy thống kê đó
là phƣơng pháp này khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một
phần của ứng dụng lớn hơn.
Dịch máy dựa trên phƣơng pháp thống kê sẽ tìm câu ngơn ngữ đích e phù
hợp nhất (có xác suất cao nhất) khi cho trƣớc câu ngôn ngữ nguồn f.

Một hệ dịch máy dựa trên phƣơng pháp thống kê có thể đƣợc mơ hình hố
nhƣ hình sau:

12

LUAN VAN CHAT LUONG download : add


Hình 0.1: Mơ hình hóa hệ dịch máy

Dịch máy thống kê lần đầu tiên đƣợc đề cập trong bài báo với phƣơng pháp
sử dụng là mơ hình Kênh nhiễu (Noisy Channel Model).
Mơ hình kênh nhiễu đƣợc Brown áp dụng trong bài toán dịch máy nhƣ sau:
Cho câu tiếng Pháp f1J = f1 … f j … f J cần dịch sang câu tiếng Anh e1I =
e1 …ei …eI . Brown dựng lên mơ hình kênh nhiễu với e là đầu vào bộ mã hoá
(Encoder), qua kênh nhiễu đƣợc chuyển hoá thành f và sau đó, gửi f đến bộ giải
mã (Decoder). Nhƣ vậy, trong các câu tiếng Anh, ta chọn câu sao cho xác suất
hậu nghiệm Pr (e1I | f1J ) là lớn nhất, theo luật quyết định Bayes :

{


eˆ1I = arg max Pr(e1I | f1 J )

} = arg max{Pr(e ).Pr( f | e )}
1

1

1

13

LUAN VAN CHAT LUONG download : add


Nhƣ vậy, ta có thể xây dựng mơ hình chung của hệ dịch máy bằng phƣơng
pháp thống kê thông thƣờng sẽ bao gồm 3 thành phần:
- Mơ hình ngơn ngữ: Tính tốn đƣợc xác suất của câu ngơn ngữ nguồn.
- Mơ hình dịch: Cho biết xác suất của câu ngơn ngữ nguồn là bản dịch
từ câu ngơn ngữ đích.
- Bộ giải mã: Tìm kiếm tất cả các câu ngơn ngữ đích e có thể có từ câu
ngơn ngữ nguồn f.
Mơ hình dịch từ tiếng Anh sang tiếng Việt có thể hình dung thơng qua biểu
đồ dƣới đây:

Hình 0.2: Mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt

Mô hình dịch của mơ hình ngơn ngữ sẽ đƣợc trình bày ở chƣơng sau của
luận văn. Ở phần này, luận văn chỉ đề cập đến hai thành phần còn lại của mơ hình
dịch máy thống kê.


14

LUAN VAN CHAT LUONG download : add


b) Mơ hình ngơn ngữ
Mơ hình ngơn ngữ là một phân bố xác suất trên các tập văn bản. Nói đơn
giản, mơ hình ngơn ngữ có thể cho biết xác suất một câu (hoặc cụm từ) thuộc một
ngôn ngữ là bao nhiêu.
Ví dụ: khi áp dụng mơ hình ngơn ngữ cho tiếng Việt:
- P[“hôm qua là thứ năm”] = 0.001
- P[“năm thứ hơm là qua”] = 0
Mơ hình ngơn ngữ đƣợc áp dụng trong rất nhiều lĩnh vực của xử lý ngơn
ngữ tự nhiên nhƣ: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Chính vì vậy,
nghiên cứu mơ hình ngơn ngữ chính là tiền đề để nghiên cứu các lĩnh vực tiếp
theo.
Nhiệm vụ của mơ hình ngơn ngữ là cho biết xác suất của một câu
w1w2...wm là bao nhiêu. Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…*
P(wm|w1w2…wm-1)
Theo cơng thức này, mơ hình ngơn ngữ cần phải có một lƣợng bộ nhớ vơ
cùng lớn để có thể lƣu hết xác suất của tất cả các chuỗi độ dài nhỏ hơn m. Rõ
ràng, điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m
có thể tiến tới vơ cùng). Để có thể tính đƣợc xác suất của văn bản với lƣợng bộ
nhớ chấp nhận đƣợc, ta sử dụng xấp xỉ Markov bậc n:
P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1)
Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) đƣợc coi
nhƣ chỉ phụ thuộc vào n từ đứng liền trƣớc nó (wm-nwm-n+1…wm-1) chứ không
15


LUAN VAN CHAT LUONG download : add


phải phụ thuộc vào toàn bộ dãy từ đứng trƣớc (w1w2…wm-1). Nhƣ vậy, cơng
thức tính xác suất văn bản đƣợc tính lại theo cơng thức:
P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm-1|wm-n1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1)
Với cơng thức này, ta có thể xây dựng mơ hình ngơn ngữ dựa trên việc
thống kê các cụm có ít hơn n+1 từ. Mơ hình ngơn ngữ này gọi là mơ hình ngơn
ngữ N-gram. Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1
dãy các phần tử cho trƣớc.
c) Bộ giải mã
Nhiệm vụ của bộ giải mã chính là tìm câu ngơn ngữ đích tốt nhất khi biết
trƣớc câu ngôn ngữ nguồn. Tức là với câu ngôn ngữ nguồn f, câu ngơn ngữ đích e
tốt nhất chính là câu làm cho giá trị P(f|e)*P(e) là lớn nhất. Bộ giải mã đƣợc phát
triển đầu tiên cho mơ hình dịch cụm từ đƣợc giới thiệu bởi Marcu và Wong, sử
dụng các phƣơng pháp leo đồi. Do khơng gian tìm kiếm là rất lớn, nên bộ giải mã
trong mơ hình dịch máy thống kê thƣờng áp dụng các thuật tốn tìm kiếm tối ƣu.
Thuật toán mà bộ giải mã thƣờng áp dụng có tên là A*, là một trong các
phƣơng pháp tìm kiếm tốt nhất. Giải thuật A* có thể tóm tắt nhƣ sau: tại mỗi
bƣớc mở rộng khơng gian tìm kiếm, ta sử dụng các hàm ƣớc lƣợng, đánh giá
trọng số để kết quả tìm đƣợc ln là tốt nhất có thể và là kết quả tìm thấy đầu
tiên. Ngữ liệu sau khi qua 2 mơ hình ngơn ngữ và mơ hình dịch ta đƣợc bảng xác
suất cho từng thơng số tƣơng ứng. Vấn đề tìm ra tích số P(e)P(v|e) lớn nhất.
Có hai thuật giải và một thuật tốn tối ƣu cho mơ hình tìm kiếm: thuật giải
tìm kiếm tham lam, thuật giải tìm kiếm dựa trên ngăn xếp, và thuật tốn tìm kiếm

16

LUAN VAN CHAT LUONG download : add



theo chu trình Hamilton tối ƣu. Hai thuật giải có thời gian nhanh xử lý nhanh hơn
thuật toán nhƣng kết quả thấp hơn thuật toán.
Bộ giải mã thực hiện một cái tìm kiếm theo chùm (beam search) tƣơng tự
cơng việc của Tillmann và Och. Bắt đầu bằng việc định nghĩa các khái niệm cơ
bản của các lựa chọn dịch mô tả cơ chế hoạt động của beam search và các thành
phần cần thiết của nó và các ƣớc lƣợng giá trị tƣơng lai và các khái niệm về sinh
danh sách n-best.
d) Chu kỳ phát triển của hệ thống dịch thống kê
Chu kì để xây dựng hệ thống dịch máy thống kê nhƣ sau:
- Thu thập ngữ liệu, rút trích và xử lý tài nguyên
Ở đây, chúng ta cần thu thập các văn bản đơn ngữ nhằm mục đích xây
dựng mơ hình ngơn ngữ và các văn bản song ngữ phục vụ trong việc thực hiện
huấn luyện.
- Tiền xử lý dữ liệu
Hiện tƣợng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay cả trong
cách tiếp cận thống kê tiên tiến. Do đó để cho việc sử dụng cách tiếp cận thống kê
đƣợc tốt thì trong bƣớc tiền xử lý, chúng ta làm tốt một số việc nhƣ: loại bỏ các kí
hiệu khơng phải là văn bản, đƣa các từ về dạng gốc của nó, ...
Chất lƣợng dịch càng tăng khi cỡ của corpus càng lớn. Quá trình học của
hệ thống dịch máy sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiêu để thu đƣợc
kết quả khả quan.
- Xây dựng mơ hình ngơn ngữ

17

LUAN VAN CHAT LUONG download : add



Ở đây, mục tiêu là phải phát triển mơ hình mà mơ hình này mơ tả càng
nhiều các thuộc tính của ngôn ngữ tự nhiên và các tham số tự do của nó có thể
đƣợc ƣớc lƣợng từ dữ liệu huấn luyện
- Huấn luyện
Thuật toán huấn luyện thƣờng dựa vào cách tiếp cận hợp lý cực đại. Thông
thƣờng, các thuật toán huấn luyện thƣờng cho ta kết quả là tốt ƣu địa phƣơng. Do
vậy, để làm tốt việc huấn luyện này, cần xây dựng các thuật toán mà kêt quả tối
ƣu địa phƣơng thƣờng gần với tối ƣu toàn cục.
- Đánh giá chất lƣợng hệ dịch
Để có thể đánh giá chất lƣợng hệ dịch có thể dựa vào việc đánh giá trực
tiếp bằng con ngƣời, tuy phƣơng pháp này dễ làm nhƣng sẽ mất nhiều thời gian
và chi phí thực hiện. Ngồi ra việc đánh giá chất lƣợng có thể thực hiện bởi
phƣơng pháp tự động. Hiện nay có 2 phƣơng pháp đƣợc sử dụng rộng rãi để đánh
giá chất lƣợng hệ dịch tự động đó là BLEU và NIST.
- Nâng cấp và cải tiến hệ dịch
Sau một quá trình huấn luyện cho hệ dịch và có những đánh giá chính xác.
Sẽ có những câu từ đƣợc dịch chính xác nhƣng cũng sẽ có nhƣng vẫn có những
trƣờng hợp dịch chƣa đạt. Chính điều này sau mỗi q trình huấn luyện đều cần
nâng cấp và đƣa ra những cải tiến để hệ dịch ngày một hoàn thiện hơn.
e) Phương thức đánh giá
Đánh giá độ chính xác của hệ thống dịch máy là một nhiệm vụ rất vất vả và
khó khăn. Để đánh giá độ chính xác của bản dịch, ta có thể đánh giá trực tiếp
thơng qua ngƣời dùng hoặc đánh giá tự động bằng máy tính.
Đánh giá trực tiếp bằng con ngƣời
18

LUAN VAN CHAT LUONG download : add


Để đánh giá độ chính xác của hệ thống dịch máy, ta có thể để con ngƣời

trực tiếp đánh giá. Chúng ta có thể đƣa ra một thƣớc đo cho độ trơi chảy của bản
dịch (ví dụ từ 1 đến 5 hay từ 1 đến 10 tùy thuộc vào độ trơi chảy của bản dịch),
sau đó cho những ngƣời tham gia đánh giá đánh giá các câu trong bản dịch theo
thang điểm đó. Nhƣ vậy, văn bản nào có điểm trung bình càng cao, thì chất lƣợng
bản dịch đó càng tốt. Ngồi ra, cũng có thể đánh giá độ trơi chảy, độ chính xác
của bản dịch thơng qua thời gian mà ngƣời đọc đọc hiểu đƣợc bản dịch đó. Rõ
ràng, bản dịch nào mà ngƣời đọc đọc hiểu càng nhanh, thì bản dịch đó càng chính
xác.
Phƣơng án đánh giá bản dịch bằng chính con ngƣời tuy rất dễ thực hiện,
nhƣng chi phí thì rất lớn, và nếu bản dịch có kích thƣớc càng lớn thì phƣơng pháp
này càng kém hiệu quả. Ngày nay, các mơ hình dịch máy đều áp dụng phƣơng
pháp đánh giá tự động, chi phí thấp nhƣng hiệu quả cũng khá là cao.
Đánh giá tự động
Hai phƣơng pháp phổ biến để sử dụng để đánh giá những bản dịch: BLEU
và NIST
- BLEU
BLEU (Bilingual Evaluation Understudy) là một phƣơng pháp dùng để
đánh giá chất lƣợng bản dịch đƣợc đề xuất bới IBM tại hội nghị ACL ở
Philadelphie vào tháng 7-2001. Ý tƣởng chính của phƣơng pháp là so sánh kết
quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu.
Việc so sánh đƣợc thực hiện thông qua việc thống kê sự trùng khớp của các từ
trong hai bản dịch có tính đến thứ tự của chúng trong câu (phƣơng pháp n-grams
theo từ). Phƣơng pháp này dựa trên hệ số tƣơng quan giữa bản dịch máy và bản
dịch chính xác đƣợc thực hiện bởi con ngƣời để đánh giá chất lƣợng của một hệ
thống dịch.
19

LUAN VAN CHAT LUONG download : add



Việc đánh giá đƣợc thực hiện trên kết quả thống kê mức độ trùng khớp các
n-grams (dãy ký tự gồm n từ hoặc ký tự) từ kho dữ liệu của kết quả dịch và kho
các bản dịch tham khảo có chất lƣợng cao. Giải thuật của IBM đánh giá chất
lƣợng của hệ thống dịch qua việc trùng khớp của các n-grams đồng thời nó cũng
dựa trên cả việc so sánh độ dài của các bản dịch.
Cơng thức để tính điểm đánh giá của IBM là nhƣ sau:
N
L

score  exp  wi log( pi )  max  ref  1,0 
 L tra

 i 1

Với Pi 

 NR

j

j

 NT

j

j

Trong đó:
- NRj: là số lƣợng các n-grams trong phân đoạn j của bản dịch dùng để

tham khảo.
- NTj: là số lƣợng các n-grams trng phân đoạn j của bản dịch bằng máy.
- wi= N-1
- Lref: là số lƣợng các từ trong bản dịch tham khảo, độ dài của nó thƣờng
là gần bằng độ dài của bản dịch bằng máy.
- Ltra: là số lƣợng các từ trong bản dịch bằng máy.
Giá trị score đánh giá mức độ tƣơng ứng giữa hai bản dịch và nó đƣợc thực
hiện trên từng phân đoạn, ở đây phân đoạn đƣợc hiểu là đơn vị tối thiểu trong các
bản dịch, thông thƣờng mỗi phân đoạn là một câu hoặc một đoạn. Việc thống kê
đồ trùng khớp của các n-grams dựa trên tập hợp các n-grams trên các phân đoạn,
trƣớc hết là nó đƣợc tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả
các phân đoạn.
20

LUAN VAN CHAT LUONG download : add


- NIST
Phƣơng pháp NIST là sự phát triển trên phƣơng pháp BLEU nhƣng có một
khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi ngram sẽ đƣợc sử dụng để phục vụ việc đánh giá.
Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay
đổi vị trí các phần tử trên cùng một n-gram cho chúng ta thấy rằng điểm số cũng
sẽ thay đổi nếu chúng ta thay đổi vị trí của các n-grams trên cùng một phân đoạn.
Sự thay đổi này sẽ ảnh hƣởng lớn lên kết quả đánh giá dựa trên sự tƣơng ứng về
vị trí của các n-grams trên phân đoạn. Điều này cho thấy chúng ta có thể sử dụng
cơng cụ số học để tính tốn sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố
hình học.
Cơng thức để tính điểm của NIST là:
  inf( w1 ...wn )




 Ltra  
 w1 ...wn

2

score   
.
exp

log
min
,1 


L

log( pi )

i 1 

ref



 


 w1 ...wn  Dtra



N

Những trọng số thông tin là đƣợc sử dụng để tính tốn trên các n-grams
trong tập tất cả các các bản dịch tham khảo theo phƣơng trình sau:
N
inf( w1 ...wn )  log 2  1
 N2





Trong đó:
- N1 = số lƣợng các tƣơng ứng của các từ w1…wn-1
- N2 = số lƣợng các tƣơng ứng của các từ w1…wn
-  là hệ số đƣợc chọn bằng 0.5 khi số lƣợng các từ trong bản dịch máy
nhỏ hơn hoặc bằng 2/3 số lƣợng các từ trong bản dịch tham khảo, ngƣợc
lại thì =1
21

LUAN VAN CHAT LUONG download : add


- N=5
- Ltra: số lƣợng các từ trong bản dịch máy, Lref: số lƣợng từ trong bản dịch
tham khảo.
3. Kết luận chƣơng 1
Nhƣ vậy, trong chƣơng này, chung tôi đã có những giới thiệu tổng quan về

bài tốn dịch tự động, các hệ thống dịch máy, dịch máy thống kê. Chƣơng này
cũng giới thiệu về nguyên lý hoạt động, các thành phần và phƣơng pháp đánh giá
về một hệ thống dịch máy thống kê.

22

LUAN VAN CHAT LUONG download : add


CHƢƠNG 2: MƠ HÌNH DỊCH MÁY DỰA TRÊN
CỤM TỪ KHƠNG LIÊN TỤC
Nội dung chính của chương này là giới thiệu về mơ hình dịch máy, phân
loại các mơ hình dịch máy hiện nay. Sau đó, chúng tơi sẽ giới thiệu đi sâu vào mơ
hình dịch máy dựa trên cụm từ khơng liên tục.
1. Mơ hình dịch máy
Mơ hình dịch có 3 hƣớng tiếp cận chính:
- Mơ hình dịch dựa trên từ (word-based)
- Mơ hình dịch dựa trên cụm từ (phrase-based)
- Mơ hình dịch dựa trên cú pháp (syntax-based)
Cả 3 hƣớng tiếp cận trên đều dựa trên một tƣ tƣởng. Đó là sự tƣơng ứng
giữa hai câu (alignment).
a) Dịch máy thống kê dựa vào từ
Mơ hình dịch dựa trên từ là thế hệ đầu tiên của mơ hình dịch máy thống kê
và đƣợc nghiên cứu và phát triển bởi IBM. Nhƣ đã trình bày ở phần trƣớc, mơ
hình dịch này dựa trên sự tƣơng ứng của các từ theo tƣơng ứng một một (một từ
của ngôn ngữ này chỉ tƣơng ứng với một từ của ngôn ngữ kia và ngƣợc lại). Cụ
thể hơn, giả sử câu ngôn ngữ nguồn là e1 e2 ...en và câu ngơn ngữ đích là f1 f2 ...fm ,
khi đó mỗi từ fj chỉ tƣơng ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là
khơng tƣơng ứng với từ nào. Do đó, một sự tƣơng ứng giữa các từ của câu ngôn
ngữ nguồn và câu ngơn ngữ đích có thể biểu diễn bằng một dãy m số: {a1 , a2 ,. ..

23

LUAN VAN CHAT LUONG download : add


×