Dịch máy anh việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (229.21 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Phương Thảo

DỊCH MÁY ANH-VIỆT
DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ
TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ

LUẬN VĂN THẠC SĨ

Hà Nội - 2008

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Phương Thảo

DỊCH MÁY ANH-VIỆT
DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ
TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ

Ngành
: Công nghệ thông tin
Chuyên ngành : Khoa học máy tính
Mã số
: 60 48 01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TSKH. Hồ Tú Bảo
PGS.TS. Lương Chi Mai

Hà Nội – 2008

1

LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên
môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực.
Trong luận văn tôi có sử dụng một số tài liệu tham khảo của một số tác giả.
Tôi đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn.
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận
văn tốt nghiệp Thạc sĩ của mình!

Hà Nội, 12/2008
Học viên
Nguyễn Thị Phương Thảo

2

LỜI CẢM ƠN
Tôi xin tỏ lòng biết ơn sâu sắc tới GS. TSKH. Hồ Tú Bảo – người hướng dẫn
khoa học - người đã tạo điều kiện cho tôi có môi trường nghiên cứu rất tốt,
hướng dẫn và góp ý cho tôi trong quá trình nghiên cứu đề tài khoa học này.
Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, người đã chỉ bảo và tạo
mọi điều kiện tốt nhất để tôi hoàn thành khoá luận tốt nghiệp này.

Tôi xin được tỏ lòng cảm ơn sâu sắc tới các thầy trong bộ môn Khoa học
máy tính, Đại học Công nghệ, ĐHQG Hà Nội đã cho tôi môi trường nghiên cứu
khoa học thuận lợi cùng những chỉ bảo, góp ý sâu sắc về chuyên môn trong quá
trình học tập, nghiên cứu.
Tôi xin chân thành cảm ơn tới tập thể nhà trường, các thầy giáo, cô giáo
Khoa CNTT, Ban chủ nhiệm hệ cao học Khoa Công Nghệ - ĐHQG Hà Nội và
Khoa sau đại học – ĐHQG Hà Nội đã tạo điều kiện thuận lợi cho tôi trong thời
gian học tập.
Tôi cũng xin cảm ơn các anh chị đồng nghiệp ở phòng Nhận dạng và Công
nghệ tri thức, Viện Công Nghệ Thông Tin, Viện Khoa Học Việt Nam đã ủng hộ
và giúp đỡ tôi trong quá trình thực hiện luận văn.
Đề tài được hỗ trợ bởi nhóm đề tài nhánh xây dựng hệ dịch máy thống kê
Anh-Việt EVSMT1.0 (SP3.) trong khuôn khổ đề tài cấp nhà nước
KC.01.01.05/06-10 cho xử lý ngôn ngữ và tiếng nói tiếng Việt (VLSP). Tôi xin
chân thành cảm ơn các thành viên trong nhóm đề tài đã có những góp ý cho đề
tài nghiên cứu của tôi. Tôi cũng xin chân thành cảm ơn TS. Nguyễn Phương Thái
đã chia sẻ dữ liệu cho tôi trong quá trình thực nghiệm mô hình.
Cuối cùng, tôi xin bày tỏ tình cảm sâu sắc nhất đến gia đình, bạn bè và
những người thân đã giành cho tôi những gì tốt đẹp nhất.

3

MỤC LỤC
MỤC LỤC............................................................................................................. 3
BẢNG CÁC TỪ VIẾT TẮT................................................................................ 5
BẢNG CÁC THUẬT NGỮ ANH-VIỆT ............................................................ 6
LỜI MỞ ĐẦU....................................................................................................... 7
CHƯƠNG I - TỔNG QUAN VỀ DỊCH MÁY .................................................. 9
1.1 Khái niệm dịch máy...................................................................................... 9

1.2 Kiến trúc chung của một hệ dịch máy.......................................................... 9
1.3 Những khó khăn trong dịch máy ................................................................ 11
1.4 Tình hình dịch máy trong và ngoài nước ................................................... 15
CHƯƠNG II – DỊCH MÁY THỐNG KÊ........................................................ 17
2.1 Giới thiệu.................................................................................................... 17
2.2 Mô hình ngôn ngữ ...................................................................................... 18
2.2.1 Mô hình N-gram .................................................................................. 18
2.2.2 Mô hình ngôn ngữ................................................................................ 19
2.2.3 Làm mịn ............................................................................................... 20
2.3 Mô hình dịch............................................................................................... 21
2.3.1 Mô hình dịch thống kê dựa trên đơn vị từ ........................................... 22
2.3.2 Mô hình dịch thống kê dựa trên đơn vị cụm từ.................................... 23
2.3.3 Mô hình dịch thống kê dựa trên cú pháp............................................. 25
2.4 Mô hình giải mã.......................................................................................... 26
2.4.1 Các khả năng dịch ............................................................................... 26
2.4.2 Giải mã bằng kỹ thuật mở rộng không gian giả thuyết ....................... 27
CHƯƠNG III – CÁC THÀNH PHẦN TRONG HỆ DỊCH THỐNG KÊ
DỰA TRÊN ĐƠN VỊ CỤM TỪ........................................................................ 30
3.1 Mô hình log-linear áp dụng cho bài toán dịch máy.................................... 30
3.2 Các đặc trưng khác sử dụng trong mô hình dịch phrase-based.................. 32
CHƯƠNG IV – DỊCH MÁY THỐNG KÊ TÍCH HỢP THÊM THÔNG TIN
NGÔN NGỮ........................................................................................................ 35
4.1 Hạn chế của mô hình dịch thống kê dựa trên đơn vị cụm từ...................... 35

4

4.2 Giới thiệu mô hình...................................................................................... 36
4.2.1 Các mô hình xác suất mới.................................................................... 38
4.2.2 Xử lý hình thái...................................................................................... 39

4.2.3 Đưa ra quyết định tốt hơn.................................................................... 40
4.3 Các thành phần trong hệ dịch FTM............................................................ 43
4.4 Tình hình ứng dụng mô hình FTM............................................................. 43
CHƯƠNG V – THỰC NGHIỆM...................................................................... 45
5.1 Công cụ và ngữ liệu cho hệ dịch ................................................................ 45
5.1.1 Chuẩn bị ngữ liệu ................................................................................ 45
5.1.2 Các công cụ tiền xử lý ......................................................................... 46
5.1.3 Công cụ sử dụng thử nghiệm mô hình FTM ........................................ 47
5.1.4 Công cụ đánh giá chất lượng hệ dịch.................................................. 47
5.2 Các thực nghiệm......................................................................................... 47
5.2.1 Cấu hình cơ sở Tf1 ................................................................................ 48
5.2.2 Cấu hình Tf1 + C .................................................................................. 50
5.2.3 Cấu hình Tf1 + Tf2 + C.......................................................................... 50
5.2.4 Cấu hình Tf3,f4 + C................................................................................ 51
5.3 Kết quả thực nghiệm .................................................................................. 52
5.4 Nhận xét...................................................................................................... 53
KẾT LUẬN ......................................................................................................... 56
TÀI LIỆU THAM KHẢO ................................................................................. 58
PHỤ LỤC A ........................................................................................................ 61

5

BẢNG CÁC TỪ VIẾT TẮT

Thuật

Ý nghĩa

ngữ

POS
FTM
SMT

part-of-speech – nhãn từ loại
Factored Translation Model – Mô hình dịch dựa trên các yếu tố
ngôn ngữ
Statistical Machine Translation - Dịch máy thống kê

6

BẢNG CÁC THUẬT NGỮ ANH-VIỆT

Tiếng Anh

Tiếng Việt

Decoder
Factor
Factored Translation Model
Feature Function
Language Model
Lemma
Machine Translation
Morphology
Part-of-speech tag
Phrase

Hệ giải mã

Các yếu tố ngôn ngữ được sử dụng trong hệ dịch
Mô hình dịch dựa trên các yếu tố ngôn ngữ
Hàm đặc trưng
Mô hình ngôn ngữ
Từ gốc ở dạng phân tích đơn giản
Dịch máy
Hình thái từ
Nhãn từ loại
Các cụm từ trong mô hình dịch thống kê dựa trên
đơn vị cụm từ
Dịch máy thống kê dựa trên đơn vị cụm từ
Kỹ thuật làm mịn
Dịch máy thống kê

Phrase-based SMT
Smoothing
Statistical Machine
Translation
Syntax-based SMT
Translation Model
Word-based SMT

Dịch máy thống kê dựa trên cú pháp
Mô hình dịch
Dịch máy thống kê dựa trên đơn vị từ

7

LỜI MỞ ĐẦU

Những năm gần đây, dịch máy đóng một vai trò quan trọng trong việc hỗ trợ con
người cập nhật thông tin từ nhiều nguồn ngôn ngữ khác nhau một cách nhanh
chóng. Trong sự phát triển của dịch máy, có 3 cách tiếp cận chủ yếu là dịch
chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu. Trong đó, dịch máy thống kê,
một trong những phương pháp theo cách tiếp cận dựa vào dữ liệu, hiện đang là
một hướng phát triển đầy tiềm năng, thu hút được sự quan tâm của các nhà
nghiên cứu.
Trên thế giới, có khá nhiều hệ dịch dựa trên thống kê đã được thương mại hóa và
có chất lương dịch khá cao như CANDIDE của IBM, hệ dịch Trung - Anh của đại
học Johns Hopkins, ... Ưu điểm vượt trội của phương pháp này là thay vì xây
dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch tự động thiết lập các
từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu.
Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng được
cho bất kỳ cặp ngôn ngữ nào.
Dịch máy thống kê hiện nay đi theo 3 hướng tiếp cận chính, đó là dịch máy thống
kê dựa trên đơn vị từ; dựa trên đơn vị cụm từ và dựa trên cú pháp. Trong đó dịch
máy thống kê dựa trên đơn vị cụm từ hiện đang là cách tiếp cận thu hút được
nhiều sự quan tâm nhất của giới nghiên cứu dịch máy.
Tuy nhiên, cách tiếp cận thống kê nói chung vẫn phải đối mặt với những hạn chế
do sự thiếu hụt về thông tin ngôn ngữ. Mô hình dịch thống kê vẫn chưa giải
quyết được một số vấn đề cơ bản của dịch máy như trật tự từ, khả năng lựa chọn
cụm từ phù hợp, và vấn đề về dữ liệu thưa. Các cải tiến làm tăng chất lượng dịch
bằng cách tích hợp các thông tin ngôn ngữ vào các bước tiền xử lý, hậu xử lý hay
tích hợp trực tiếp vào mô hình dịch đã được đề xuất.
Gần đây, với sự xuất hiện của phương pháp dịch máy thống kê tích hợp thêm các
thông tin ngôn ngữ, những hạn chế trên đã được cải thiện một cách đáng kể.
Phương pháp này không những duy trì được những ưu điểm của phương pháp
dịch máy thống kê dựa trên đơn vị cụm từ mà còn có thêm thế mạnh từ tri thức
ngôn ngữ được kết hợp một cách linh hoạt vào mô hình dịch dưới dạng các yếu
tố tương ứng với từ. Đây là một cách tiếp cận mới đã đạt được kết quả tốt với

nhiều cặp ngôn ngữ như Anh-Czech, Anh-Đức,...
Tuy nhiên, các thực nghiệm đã cho thấy càng nhiều các yếu tố ngôn ngữ được
thêm vào không hẳn đã làm tăng chất lượng của hệ thống. Mỗi cặp ngôn ngữ sẽ

8

có một cấu hình kết hợp các yếu tố ngôn ngữ phù hợp cho mình. Theo những
quan sát và đánh giá đó, luận văn hướng đến việc nghiên cứu và xây dựng tổ hợp
các yếu tố ngôn ngữ ở mức từ vựng phù hợp cho hệ dịch thống kê Anh-Việt. Một
cấu hình phù hợp với đặc trưng ngôn ngữ trong lĩnh vực kinh tế và hội thoại đã
cho thấy tiềm năng ứng dụng của phương pháp này đối với cặp ngôn ngữ AnhViệt.
Luận văn có bố cục gồm 5 chương chính:
Chương I là tổng quan về dịch máy, giới thiệu những đặc điểm trong quá trình
dịch máy và tình hình dịch máy trong và ngoài nước.
Chương II giới thiệu về mô hình dịch máy thống kê, các phương pháp dịch máy
thống kê.
Chương III đi sâu vào mô hình dịch máy thống kê có tích hợp với các thông tin
ngôn ngữ.
Chương IV nêu lên các thành phần sử dụng trong hệ dịch thống kê có tích hợp
với các thông tin ngôn ngữ.
Chương V là các mô hình thực nghiệm và kết quả thực nghiệm.
Cuối cùng là một số kết luận cũng như hướng phát triển trong tương lai.

56

KẾT LUẬN
Bài toán dịch máy đã được đặt ra từ hơn nửa thế kỷ qua nhưng vẫn đang thu
hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi ý nghĩa thực tiễn to

lớn của nó trong sự phát triển của mạng thông tin. Các cách tiếp cận khác nhau
đã ra đời và đều đạt được những thành công nhất định. Trong đó, cách tiếp cận
thống kê đang được cộng đồng nghiên cứu quan tâm hơn cả bởi tính linh hoạt,
mềm dẻo của nó trong việc tự động học các tri thức dịch dựa trên dữ liệu. Bên
cạnh đó, mỗi cặp ngôn ngữ đều có những đặc trưng riêng và thông tin ngôn ngữ
là yếu tố không thể thiếu góp phần nâng cao chất lượng dịch cho một cặp ngôn
ngữ cụ thể.
Luận văn đã trình bày phương pháp dịch máy thống kê có tích hợp thêm
thông tin ngôn ngữ dưới dạng các factor gắn với các từ trong dữ liệu. Thực
nghiệm với các cấu hình các factor khác nhau và tìm ra cấu hình phù hợp với đặc
trưng của cặp ngôn ngữ Anh-Việt. Kết quả thực nghiệm đã khẳng định tầm quan
trọng của thông tin về nhãn từ loại trong việc cải thiện đáng kể những hạn chế
trong việc lựa chọn từ phù hợp và trật tự từ trong câu. Do đặc điểm của ngôn ngữ
tiếng Việt là không có sự biến đổi hình thái và điều này chỉ có ở phía tiếng Anh,
chính vì vậy thông tin hình thái chưa khẳng định được nhiều vai trò của mình
trong quá trình dịch. Hơn nữa cấu hình này lại đòi hỏi những phân tích phức tạp,
độ tính toán về thời gian nhiều hơn so với các cấu hình khác. Do đó, việc sử dụng
thông tin về nhãn từ loại ở cả 2 phía của mô hình kết hợp với thông tin từ vựng
truyền thống Tf1 + Tf2 + C là phù hợp nhất với quá trình dịch Anh-Việt. Mặc dù
các kết quả vẫn còn hạn chế trong khuôn khổ dữ liệu nhỏ trên 2 lĩnh vực về luật
và hội thoại, tuy nhiên những kết quả ban đầu đó sẽ là cơ sở cho các bước phát
triển tiếp sau này.
Đề tài mới chỉ thực hiện trên một số ràng buộc, chưa có xử lý tên riêng. Hạn
chế này có thể được giải quyết nếu ta sử dụng thông tin về nhận dạng tên riêng,
tên địa danh là một factor trong cấu hình của mình. Ngoài ra, đối với những câu
dài và có cấu trúc phức tạp, các thông tin ngôn ngữ gắn với mức từ như trên vẫn
chưa đủ để giải quyết trường hợp này. Hơn nữa, dữ liệu hạn chế không thể bao
trùm được hết kho từ điển khổng lồ của 2 ngôn ngữ Anh-Việt. Chính vì vậy các
tiếp cận để nhận dạng những từ đồng nghĩa có thể giúp ích trong trường hợp này.

57

Với những hạn chế đó, trong thời gian tới chúng tôi sẽ tiến hành tích hợp
thêm các thông tin về tên riêng, cú pháp và lớp từ đồng nghĩa nhằm cải thiện chất
lượng của hệ dịch. Ngoài ra, chúng tôi sẽ tiến hành thử nghiệm mô hình FTM với
chiều dịch Việt-Anh. Bên cạnh đó, với sự hoàn thiện của các công cụ trong đề tài
VLSP, chúng tôi sẽ sử dụng các công cụ tiền xử lý và dữ liệu song ngữ Anh-Việt
với số lượng lớn hơn cho các thử nghiệm của mình.

58

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]

Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, 2003, “Sử
dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”, Kỷ yếu
hội thảo ICT.rda, 2003.

Tiếng Anh
Amittai E. Axelrod, 2006, “Factored Language Models for Statistical
Machine Translation”, Master of Science by Research Institute for
Communicating and Collaborative Systems Division of Informatics
University of Edinburgh
[3] Bao T.H., Khanh P.N., Le H.T., Thao N.T.P., “Issues and First Phase
Development of the English-Vietnamese Translation System EVSMT1.0”,
In Proceedings of ICT-Hanoi 2008.
[4] Birch A., Osborne M., and Koehn P., “CCG supertags in factored

statistical machine translation”, In Proceedings of the Second Workshop
on Statistical Machine Translation, pages 9–16, Prague, Czech Republic.
Association for Computational Linguistics, 2007.
[5] Bojar O., “English-to-Czech Factored Machine Translation”, In Proc. of
ACL Workshop on Statistical Machine Translation, pages 232–239,
Prague, 2007.
[6] Brown P.F. et. al., “A Statistical Approach to Machine Translation”
Computational Linguistics 16, 1990.
[7] Brown P.F. et. al., “The Mathematics of Statistical Machine Translation:
Parameter Estimation”, Computational Linguistics 16, 1993.
[8] Byrne W. et al. (2003), “The Johns Hopkins University 2003 ChineseEnglish Machine Translation System”, In Machine Translation Summit IX.
The Association for Machine Translation in the Americas.
[9] Charniak E., Knight K., Yamada K., 2003, “Syntax-based Language
Models for Statistical Machine Translation”, MT Summit IX.
[10] Collins M., Koehn P., and Kucerova I. (2005). “Clause restructuring for
statistical machine translation”. In Proceedings of ACL.
[11] Dien D., Kiem H., and Hovy E., “Btl: a hybrid model in the english vietnamese machine translation system”, In Proceedings of the Machine
[2]

Thank you for evaluating AnyBizSoft PDF Splitter.
A watermark is added at the end of each output PDF file.

To remove the watermark, you need to purchase the software from

/>

Dịch máy anh việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về