Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (342.96 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

----------  ----------

TRẦN TRUNG THÀNH

CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA
PHÂN TÍCH HÌNH THÁI

LUẬN VĂN THẠC SỸ

Hà Nội - 2015

2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

----------  ----------

TRẦN TRUNG THÀNH

CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA
PHÂN TÍCH HÌNH THÁI

Ngành:

Công nghệ thông tin

Chuyên ngành:

Khoa học máy tính

Mã số:

60480101

LUẬN VĂN THẠC SỸ

Cán bộ hướng dẫn: PGS.TS Lê Anh Cường

Hà Nội - 2015

3

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn
khoa học của PGS.TS.Lê Anh Cường. Các nội dung nghiên cứu, kết quả trong luận văn
này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu
trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu
thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội
dung luận văn của mình.

4

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 3
Danh mục các từ viết tắt ............................................................................................ 7
Danh mục các bảng ................................................................................................... 7
Danh mục các hình vẽ, đồ thị .................................................................................... 7
I. MỞ ĐẦU ............................................................................................................. 9
1.1.

Đặt vấn đề .................................................................................................. 9

1.2.

Hướng tiếp cận của luận văn ................... Error! Bookmark not defined.

1.3.

Nội dung của luận văn ............................. Error! Bookmark not defined.

II.

TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊError! Bookmark not defined.

2.1.

Dịch máy ................................................. Error! Bookmark not defined.

2.1.1. Sơ đồ tổng quan của một hệ dịch máy Error! Bookmark not defined.
2.1.2. Các phương pháp dịch máy................. Error! Bookmark not defined.
2.2.

Dịch máy thống kê................................... Error! Bookmark not defined.

2.2.1. Mô hình dịch máy thống kê ................ Error! Bookmark not defined.
2.2.2. Mô hình ngôn ngữ ............................... Error! Bookmark not defined.
2.2.3. Mô hình dịch ....................................... Error! Bookmark not defined.
2.2.3.1. Mô hình dịch dựa trên từ.............. Error! Bookmark not defined.
2.2.3.2. Mô hình dịch dựa trên cụm từ ...... Error! Bookmark not defined.
2.2.3.3. Mô hình dịch dựa trên cú pháp .... Error! Bookmark not defined.
2.2.4. Gióng hàng từ ...................................... Error! Bookmark not defined.
2.2.5. Quá trình giải mã (decoding) .............. Error! Bookmark not defined.
2.2.6. Ưu điểm của phương pháp dịch thống kêError! Bookmark not defined.

5

2.2.7. Các phương pháp đánh giá chất lượng dịch máyError! Bookmark not defined.
2.2.7.1. BLEU (BiLingual Evaluation Understudy)Error! Bookmark not defined.

2.2.7.2. NIST (National Institute of Standards and Technology)Error! Bookmark not d
2.2.7.3. TER (Translation Error Rate) ...... Error! Bookmark not defined.
2.2.8. Chu kì phát triển của hệ thống dịch thống kêError! Bookmark not defined.
2.3.

Tích hợp tri thức ngôn ngữ vào dịch máy thống kêError! Bookmark not defined.

2.3.1. Sử dụng tri thức ngôn ngữ để tiền xử lýError! Bookmark not defined.
2.3.2. Dùng thông tin cú pháp ....................... Error! Bookmark not defined.
2.3.3. Sử dụng thông tin từ loại..................... Error! Bookmark not defined.
2.3.4. Sử dụng luật biến đổi hình thái từ ....... Error! Bookmark not defined.
2.3.5. Cách tích hợp tri thức vào hệ thống dịch máyError! Bookmark not defined.

2.3.5.1. Tích hợp thông tin hình thái vào mô hìnhError! Bookmark not defined.
2.3.5.2. Tích hợp thông tin cú pháp vào mô hình dịchError! Bookmark not defined.
2.3.5.3. Tích hợp vào mô hình ngôn ngữ .. Error! Bookmark not defined.
III. GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ ...... Error! Bookmark not defined.
3.1.

Giới thiệu mô hình gióng hàng IBM ....... Error! Bookmark not defined.

3.2.

Định nghĩa mô hình IBM ........................ Error! Bookmark not defined.

3.3.

Một vài vấn đề khi áp dụng cho ngữ liệu Anh-ViệtError! Bookmark not defined.

IV. PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN .......... Error! Bookmark not defined.
4.1.

Phân tích ví dụ ......................................... Error! Bookmark not defined.

4.2.

Đề xuất..................................................... Error! Bookmark not defined.

V. THỬ NGHIỆM ................................................... Error! Bookmark not defined.
5.1.

Các thử nghiệm bộ gióng hàng từ ........... Error! Bookmark not defined.

6

5.1.1. Các xác suất dịch từ ............................ Error! Bookmark not defined.
5.1.2. Cải tiến phép gióng từ Viterbi............. Error! Bookmark not defined.
5.2.

Hiệu năng dịch của các thử nghiệm ........ Error! Bookmark not defined.

5.3.

Hướng dẫn các bước thực nghiệm........... Error! Bookmark not defined.

VI. KẾT LUẬN ....................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ....................................................................................... 11

7

Danh mục các từ viết tắt
 EM Expectation Maximization (Cực đại kỳ vọng)
 MT Machine Translation (Dịch máy)
 NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
 POS Part Of Speech (Nhãn từ loại)
 SMT Statistical Machine Translation (Dịch máy thống kê)

Danh mục các bảng
 Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng
 Bảng 5.1. Các xác suất cho các từ nguồn được thêm vào sau khi chạy IBM Models
 Bảng 5.2. Số phép gióng từ đúng trong khi gióng trong tập ngữ liệu khác nhau

 Bảng 5.3: điểm BLEU của bốn lần thực nghiệm

Danh mục các hình vẽ, đồ thị
 Hình 2.1: Sơ đồ tổng quan của hệ dịch máy
 Hình 2.2: Mô hình dịch máy thống kê
 Hình 2.3: Câu đầu vào tiếng Anh được dịch từng từ sang tiếng Việt, sau đó sắp xếp lại
trật tự từ.
 Hình 2.4. Câu đầu vào được tách ra thành các cụm từ, dịch một-một các cụm từ tiếng
Anh sang tiếng Việt và có thể sắp xếp lại trật tự các cụm từ.
 Hình 2.5: Quá trình dịch dựa trên cú pháp theo cách tiếp cận dịch từ chuỗi sang cây cú
pháp, gồm 3 bước: (1) chuyển đổi trật tự từ, (2) chèn và (3) dịch.
 Hình 2.6: Quá trình dịch được thực hiện từ trái sang phải và mở rộng không gian giả
thuyết

8

 Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết
 Hình 2.8. Hình minh hoạ quá trình cải tiến gióng hàng từ
 Hình 2.9: Minh họa quá trình giải mã câu đầu vào e = "He does not go home" từ tiếng
Anh sang tiếng Việt.
 Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt
 Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh
 Hình 4.3. Sự sắp xếp đối xứng của cả hai hướng sau khi tách các thành phần

9

MỞ ĐẦU

I.

1.1. Đặt vấn đề
Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện
nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy
tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển.
Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con
người đi đến thành công, chương trình dịch tự động sẽ là công cụ giúp họ vượt qua rào
cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là
một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới.
Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng. Mặc
khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành
câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch
được gần với con người vẫn đang là một thách thức lớn.
Hiện nay trên thế giới có khoảng 5.650 ngôn ngữ khác nhau, với một số lượng
ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin.Với
những khó khăn như vậy người ta đã phải dùng đến một đội ngũ phiên dịch viên khổng
lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác.
Để khắc phục những nhược điểm trên con người đã nghĩ đến việc thiết kế một mô
hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu
tiên người ta đã tiến hành nghiên cứu về dịch máy. Công việc đưa ra mô hình tự động cho
việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt để lớp ngôn ngữ
tự nhiên. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải
pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp
xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp
với máy.

10

Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều
hướng tiếp cận khác nhau, và do xây dựng trên các mô hình khác nhau, các hệ thống cho
ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào.
Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp,
ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính
xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và
luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực
hiện phải có kiến thức sâu về ngôn ngữ.
Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của hệ
dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri
thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch
sẽ càng hiệu quả.
Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có
thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên
dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và
dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông
qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy
thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang
tập trung khai thác và phát triển hệ dịch máy trên mô hình này.
Tuy nhiên trong quá trình phát triển một hệ thống dịch máy, với đặc thù ngôn ngữ
tiếng Việt có tính hình thái đơn giản hơn các ngôn ngữ khác như tiếng Anh, tiếng Đức …
rất nhiều, do vậy việc sử dụng các mô hình cổ điển như mô hình gióng hàng IBM chưa
đem lại một kết quả thực sự tốt. Do vậy luận văn này ngoài việc tiếp cận và giới thiệu về
một hệ dịch máy thống kê còn tập trung vào việc phân tích, cải tiến thuật toán gióng hàng
từ, cụ thể là thông qua việc phân tích hình thái của ngôn ngữ, chúng tôi đề xuất một
phương pháp để tăng chất lượng dịch lên đáng kể.

11

TÀI LIỆU THAM KHẢO
1. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, M. J. Goldsmith, J. Hajic, R. L.
Mercer, and S. Mohanty. But dictionaries are data too. In Proceedings of the
workshop on Human Language Technology, pages 202{205. Association for
Computational Linguistics, 1993.
2. P. F. Brown, V. J. D. Pietra, S. A. D. Pietra, and R. L. Mercer. The mathematics of
statistical machine translation: Parameter estimation. Computational linguistics,
19(2):263{311, 1993.
3. M. Federico, N. Bertoldi, and M. Cettolo. Irstlm: an open source toolkit for handling
large scale language models. In Interspeech, pages 1618{1621, 2008.
4. P. Koehn and H. Hoang. Factored translation models. In EMNLP-CoNLL, pages
868{876, 2007.
5. P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B.
Cowan, W. Shen, C. Moran, R. Zens, et al. Moses: Open source toolkit for statistical
machine translation. In Proceedings of the 45th annual meeting of the ACL on
interactive poster and demonstration sessions, pages 177{180. Association for
Computational Linguistics, 2007.
6. Y.-S. Lee. Morphological analysis for statistical machine translation. In Proceedings
of HLT-NAACL 2004: Short Papers, pages 57{60. Association for Computational
Linguistics, 2004.
7. R. C. Moore. Improving IBM word-alignment model 1. In Proceedings of the 42nd
Annual Meeting on Association for Computational Linguistics, page 518. Association
for Computational Linguistics, 2004.
8. F. J. Och. Minimum error rate training in statistical machine translation. In
Proceedings of the 41st Annual Meeting on Association for Computational
Linguistics Volume 1, pages 160{167. Association for Computational Linguistics,
2003.

12

9. F. J. Och and H. Ney. A systematic comparison of various statistical alignment
models. Computational linguistics, 29(1):19{51, 2003.
10. K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu. Bleu: a method for automatic
evaluation of machine translation. In Proceedings of the 40th annual meeting on
association

for

computational

linguistics,

pages

311{318.

Association

for

Computational Linguistics, 2002.
11. F. Sadat and N. Habash. Combination of arabic preprocessing schemes for statistical
machine translation. In Proceedings of the 21st International Conference
12. Yamada,K. and Knight, K. (2001), A syntax-based statistical machine translation,
Proceedings of ACL.
13. Vogel, S. (2005). Pesa: Phrase pair extraction as sentence splitting. In in Proceedings:
the tenth Machine Translation.
14. Nhung N., Dien D., 2008. A syntactic-based Word Re-ordering for EnglishVietnamese Statistical machine translation system. In Proceeding of PRICAL 2008,

LNAI 5351, pp 809 – 818, 2008.
15. F. J. Och and H. Ney, 2000, Improved statistical alignment models, In Proceedings of
ACL 2000.
16. F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically
learned rewrite pat-terns. In Proceedings of COLING 2004.
17. Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical
machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for
Computational Linguistics (ACL), pp. 531-540.
18. Yuqi Zhang, Richard Zens and Hermann Ney. 2007. Chunk-level reordering of source
language sentence with automatically learned rules for statistical machine translation.
In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and
Structure in Statistical Translation.
19. F. Xia and M. McCord. 2004. Improving a statistical MT system with Auto-matically
learned rewrite pat-terns. In Proceedings of COLING 2004.

13

20. J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine
Translation. In Proceeding EMNLP-CoNLL.
21. Victoria Fossum, Kevin Knight and Steven Abney, 2008. Using Syntax to Improve
Word Alignment Precision for Syntax-Based Machine Translation. In Proceedings of
ACL MT Workshop, 2008.
22. M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical Machine
Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006
23. Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering
for Statistical Machine Translation, in Proceeding of EMNLP, 2007.
24. N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine
Translation into Morphologically Rich Languages, In Conference of the European
Chapter of the Association for Computational Linguistics (EACL), pages 347-354,

Budapest, Hungary, April 2003
25. P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of the 2007
Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning (ACL), pp. 868–876, Prague, June 2007.
26. Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with
Morpho-Syntactic Analysis and Transformation, In Proceedings of the 7th Conference
of the Association for Machine Translation in the Americas, pages 138-147,
Cambridge, 2006
27. Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored
statistical machine translation. In Proceedings of the Second Workshop on Statistical
Machine Translation (ACL), Prague, Czech Republic, page 9-16.
28. S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in statistical
machine translation, In Proceedings of MT Summit VIII, pages 247-252, Santiago de
Compostela, Galicia, Spain, September 2001.
29. Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know Moses:
initial experiments on German--English factored translation. In Proceedings of the

14

Second Workshop on Statistical Machine Translation (ACL), Prague, Czech
Republic, page 181-184
30. Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored
statistical machine translation. In Proceedings of the Second Workshop on Statistical
Machine Translation (ACL), Prague, Czech Republic, page 9-16.
31. Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language
Models for Statistical Machine Translation. In Proceedings of the Ninth Machine
Translation Summit of the International Association for Machine Translation, New
Orleans, Louisiana, September 2003.

Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về