Tải bản đầy đủ (.pdf) (12 trang)

DSpace at VNU: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh-Việt 2015

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (315.23 KB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

LƯU TIẾN TRUNG

ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2015.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ


LƯU TIẾN TRUNG

ÁP DỤNG MÔ HÌNH DỊCH DỰA VÀO
CỤM TỪ KHÔNG LIÊN TỤC CHO CẶP
NGÔN NGỮ ANH VIỆT

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC : TS. NGUYỄN VĂN VINH


HÀ NỘI – 2015


LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng
dẫn của TS. Nguyễn Văn Vinh.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, thời gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn
toàn trách nhiệm.
Học viên

Lưu Tiến Trung


LỜI CẢM ƠN
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ thông tin,
Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã giúp đỡ tôi rất nhiều
trong quá trình học tập, nghiên cứu, truyền đạt cho tôi những kiến thức quý báu
trong những năm học vừa qua.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến giáo viên hướng dẫn của tôi - TS.
Nguyễn Văn Vinh, người đã tận tình chỉ bảo tôi, định hướng cho tôi trong quá
trình nghiên cứu, giúp đỡ tôi về mặt phương pháp luận cũng như những kiểm tra
cuối cùng đối với luận văn này.
Tôi cũng muốn gửi lời cám ơn tới ThS. Trần Hồng Việt đã chia sẻ với tôi
rất nhiều kinh nghiệm, truyền đạt cho tôi rất nhiều kiến thức trong quá trình thực
hiện luận văn này.
Cuối cùng tôi gửi lời cảm ơn chân thành tới tất cả người thân và bạn bè đã
giúp đỡ, động viên tôi rất nhiều trong quá trình học tập cũng như thực hiện đề tài

này.
Học viên

Lưu Tiến Trung


MỞ ĐẦU
Theo bản điều tra báo cáo của UNESCO Liên Hiệp Quốc thì trên thế giới
hiện có 2750 thứ tiếng. Với nhu cầu trao đổi thông tin thường xuyên và liên tục,
con người gặp phải không ít khó khăn do bất đồng ngôn ngữ. Người ta đã phải
dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ
tiếng nước này sang tiếng nước khác. Để khắc phục những nhược điểm trên con
người đã nghĩ đến việc thiết kế một mô hình dịch tự động. Công việc đưa ra mô
hình dịch tự động đã và đang được phát triển và trở thành đề tài nghiên cứu được
rất nhiều nhà khoa học quan tâm. Trên thế giới đã có rất nhiều nước công bố
nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt
Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt
vẫn còn mới mẻ và gặp nhiều khó khăn
Mô hình dịch là một thành phần quan trọng trong các hệ thống dịch máy.
Cải thiện mô hình dịch có thể tăng hiệu quả rất lớn đối với các hệ thống dịch máy.
Vì vậy, trên thế giới đã có nhiều nghiên cứu được công bố về các mô hình dịch
đem lại những hiệu quả rất tích cực. Ở Việt Nam, dịch máy cũng đã trở thành đề
tài được một số nhóm tập trung nghiên cứu tuy nhiên chất lượng cũng như phạm
vi ứng dụng của các hệ dịch đó vẫn còn nhiều hạn chế. Những khó khăn đến từ
cách thức tiếp cận, về cấu trúc ngữ pháp và sự nhập nhằng ngữ nghĩa của tiếng
Việt.
Dịch máy dựa trên cụm từ hiện nay đang là mô hình dịch đem lại hiệu quả
cao và đang được sử dụng rộng rãi (Google, Bing,...). Mặc dù vậy, dịch trên cụm
từ vẫn còn có những hạn chế khi mà dịch trên cụm từ thông thường không đem
lại kết quả cao khi trong dữ liệu huấn luyện chứa các thành phần dịch mà không

nằm cạnh nhau nhưng lại có liên kết tới nhau. Khi đó các thành phần này sẽ bị
dịch riêng rẽ và đưa ra kết quả không chính xác. Chính điều này đã gợi ý và thúc


đẩy tôi lựa chọn và tập trung nghiên cứu về vấn đề này. Dựa vào bài báo của
Michel Galley and Christopher D. Manning [3], tôi tiến hành nghiên cứu đề tài
“Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho cặp ngôn ngữ Anh
Việt”.
Tôi tin là nếu đề tài này được nghiên cứu thành công, kết quả của đề tài có
thể ứng dụng rất tốt phục vụ trong công tác giảng dạy cũng như áp dụng thực tiễn
để xây dựng hệ thống dịch tự động. Bố cục luận văn gồm 3 chương:
Chƣơng 1: Giới thiệu tổng quan.
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chương này cũng giới thiệu về
nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống
dịch máy thống kê.
Chƣơng 2: Mô hình dịch dựa vào cụm từ không liên tục
Nội dung chính của chương này là giới thiệu về mô hình dịch máy dựa trên
cụm từ không liên tục. Trong chương này, chúng tôi đã giới thiệu về mô hình dịch
máy, phân loại các mô hình dịch máy hiện nay. Cùng với đó, chúng tôi đã trình
bày cách tiếp cận, đi sâu vào mô hình dịch máy dựa trên cụm từ không liên tục.
Chƣơng 3: Áp dụng mô hình dịch dựa vào cụm từ không liên tục cho
cặp ngôn ngữ Anh-Việt
Nội dung chính của chương này là mô tả việc áp dụng mô hình học máy
dựa trên cụm từ không liên tục cho bài toán dịch máy. Chương tày cũng sẽ mô tả
về công cụ Phrasal cùng các thực nghiệm sử dụng công cụ này, đưa ra các kết quả
thu được và đánh giá. Cuối chương sẽ đưa ra hướng nghiên cứu tiếp theo của đề
tài.



CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Nội dung chính của chương này là giới thiệu tổng quan về bài toán dịch tự
động, các hệ thống dịch máy, dịch máy thống kê. Chương này cũng giới thiệu về
nguyên lý hoạt động, các thành phần và phương pháp đánh giá về một hệ thống
dịch máy thống kê.
1. Dịch máy
Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng
máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài
thứ tiếng khác. Đầu vào của một hệ dịch máy là một văn bản viết trong ngôn ngữ
nguồn. Văn bản này có thể thu được từ một hệ soạn thảo hay một hệ nhận dạng
chữ viết, lời nói. Sau đó văn bản có thể được chỉnh sửa lại nhờ khối soạn thảo,
kiểm tra chính tả, trước khi đưa vào máy dịch. Phần dịch máy sẽ chuyển văn bản
nguồn thành văn bản viết trên ngôn ngữ đích. Và cũng qua một bộ chỉnh ra để
cuối cùng thu được một văn bản tương đối hoàn chỉnh.
Dịch máy có lịch sử lâu đời từ thập kỷ 50 và được phát triển mạnh mẽ từ
thập kỷ 80 cho đến nay. Hiện tại, trên thế giới có rất nhiều hệ dịch máy thương
mại nổi tiếng trên thế giới như Systrans, Kant, … hay những hệ dịch máy mở tiêu
biểu là hệ dịch của Google, hỗ trợ hàng chục cặp ngôn ngữ phổ biến như AnhPháp, Anh-Trung, Anh-Nhật, Hoa-Nhật,… Các cách tiếp cận dịch máy chủ yếu
dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Các hệ dịch máy
này đã đạt được kết quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú
pháp như các cặp ngôn ngữ AnhPháp, Anh-Tây Ban Nha, … và còn gặp nhiều
hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Anh-Trung, Anh5


Nhật, … Và ở Việt Nam, dịch Anh-Việt, Việt-Anh cũng vấp phải những khó
khăn tương tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của
ngữ nghĩa.

hệ thống dịch Anh-Việt dựa trên luật chuyển đổi được thương mại


hóa đầu tiên ở Việt Nam là EVTran, MTD Lạc Việt. Hiện nay, nhiều nghiên cứu
với mong muốn tăng chất lượng dịch vẫn đang được thực hiện thích nghi với đặc
điểm của các cặp ngôn ngữ khác nhau.
Hiện nay, các nghiên cứu để làm tăng chất lượng hệ dịch vẫn đang được
tiến hành phù hợp với đặc điểm của các cặp ngôn ngữ. Trong đó, phương pháp
dịch dựa trên thống kê là một hướng tiếp cận đang được phát triển mạnh từ
những năm của thập kỷ 90, đang được xem là cách tiếp cận khả thi và hiệu quả
của việc dịch tự động với nhiều bước đột phá.
2. Dịch máy thống kê
a) Giới thiệu tổng quan
Dịch máy thống kê (SMT) là một phương pháp dịch máy, trong đó các bản
dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn
từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương
phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như
với dịch máy dựa trên ví dụ.
Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu
bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp
dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê được tái giới
thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu
Thomas J. Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan
6


tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phương pháp dịch
máy được nghiên cứu nhiều nhất.
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí
thức. Trong khi đối với dịch thống kê, chúng ta dựa vào toán học để thực hiện kết
hợp tối ưu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch được
học một cách tự động từ dữ liệu huấn luyện. Với kết quả như vậy, việc phát triển
một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật. Thật vậy,

việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn
phong là rất khó khăn hơn rất nhiều nếu không nói là không thể. Thay vào đó,
trong cách tiếp cận thống kê, các giả định mô hình được kiểm định bằng thực
nghiệm dựa vào dữ liệu huấn luyện. Một ưu điểm khác của dịch máy thống kê đó
là phương pháp này khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một
phần của ứng dụng lớn hơn.
Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù
hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f.

Một hệ dịch máy dựa trên phương pháp thống kê có thể được mô hình hoá
như hình sau:

TÀI LIỆU THAM KHẢO
Tiếng Việt

7


[1] Đào Ngọc Tú (2012), “Nghiên cứu về dịch thống kê dựa vào cụm từ và
thử nghiệm với cặp ngôn ngữ Anh – Việt”. Luận văn Thạc sĩ, Học viện công nghệ
bưu chính viễn thông
[2] Nguyễn Văn Vinh (2005). “Xây dựng chương trình dịch tự động Anh
Việt bằng phương pháp dịch thống kê”. Luận văn Thạc sĩ, Đại học Công nghệ,
ĐHQGHN.
Tiếng Anh
[3] Michel Galley, Christopher D. Manning, “Accurate Non-Hierarchical
Phrase-Based Translation”, Computer Science Department, Stanford University
[4] Percy Liang, Ben Taskar, Dan Klein, “Alignment By Agreement”,
NAACL, 2006
[5] John DeNero, Dan Klein, “Tailoring Word Alignments to Syntactic

Machine Translation”, ACL, 2007
[6] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong
Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”,
2008
[7] Kenneth Heafield, Faster and Smaller Language Model Querie, WMT
tại EMNLP, Edinburgh, Scotland, Vương quốc Anh, 2011
[8] Cer, D., Galley, M., Jurafsky, D., and Manning, C. D, “Phrasal: A
Statistical Machine Translation Toolkit for Exploring New Model Features”, In
Proceedings of the NAACL HLT 2010 Demonstration Session, pages 9–12, Los
Angeles, CA, USA, 2010

8


[9] Phrasal: A Toolkit for New Directions in Statistical Machine
Translation. 2014. Spence Green, Daniel Cer, and Christopher D. Manning.
In WMT.
[10] Spence Green, Daniel Cer, and Christopher D. Manning, “Phrasal: A
Toolkit for New Directions in Statistical Machine Translation”, Computer
Science Department, Stanford University
[11] D. Chiang (2005), “A Hierarchical Phrase-Based Model for Statistical
Machine Translation”, In Proceedings of the 43rd Annual Meeting of the
Association for Computational Linguistics (ACL'05).
[12] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), “Reevaluating the Role of Bleuin Machine Translation Research”.
[13] Koehn, P (2004), “Pharaoh: a beam search decoder for phrasebased”,
2004.
[14] Koehn, P, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N.
Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A.
Constantin, E. Herbst (2007), “Moses: Open Source Toolkit for Statistical
Machine Translation”, ACL 2007, Demonstration Session, Prague, Czech

Republic
[15] Koehn, P., et al. (2006), “Moses: Open Source Toolkit for Statistical
Machine Translation”.
[16] Philipp Koehn, Franz Josef Och, Daniel Marcu (2003), “Statistical
Phrase-Based Translation”, In proceedings of NAACL.

9


[17]. Brown, P. F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F.,
Lafferty J. D., Mercer R. L., and Roossin P. S (1990), “A statistical approach to
machine translation.”, Computational Linguistics.
Website
[12] />[13] />[14] />[15]

10



×