ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
[DATE]
[COMPANY NAME]
[Company
address]
HÀ NỘI
- 2015
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Duy Cường
GIÓNG HÀNG VĂN BẢN SONG NGỮ
ANH – VIỆT
LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY
Ngành: Khoa học máy tính
Cán bộ hƣớng dẫn: PGS.TS Lê Anh Cƣờng
HÀ NỘI - 2015
2
LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính
tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy
một bằng cấp ở trường này hoặc trường khác.
Hà Nội, ngày 30 tháng 4 năm 2015
Nguyễn Duy Cường
3
LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành nhất đến PGS. TS. Lê Anh Cường,
người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn
và tạo điều kiện để tôi có thể hoàn thành luận văn này.
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu
và sự hỗ trợ tốt nhất.
4
TÓM TẮT LUẬN VĂN
Ngữ liệu song ngữ được chia thành nhiều mức văn bản khác nhau bao gồm: bài
văn, đoạn văn, câu, và từ. Dịch máy thống kê – là một phương pháp dịch máy – sử
dụng cặp câu song ngữ như là dữ liệu đầu vào để tính ra xác suất dịch của từ. Tuy
nhiên, hệ thống ngữ liệu song ngữ còn tương đối nhỏ, mặc dù đã có nhiều nghiên cứu
tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web. Dù vậy, để có được
nguồn ngữ liệu song ngữ có độ chính xác cao sẽ là bài toán khó vì internet chứa rất
nhiều nhiễu (câu dịch thường không sát nghĩa hoặc bị lược bỏ một phần). Trong khi
đó, có một nguồn ngữ liệu tốt là sách điện tử với số lượng lớn không kém và được
dịch cẩn thận hơn nhiều lại chưa được khai thác triệt để.
Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia
theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn. Nhiệm
vụ của gióng hàng đoạn là tìm các đoạn tương ứng là dịch của nhau trong hai văn bản
thuộc hai ngôn ngữ khác nhau. Trước đây, đã có nhiều hướng tiếp cận khác nhau để
giải quyết bài toán này, nhưng đều đi theo hai xu hướng chính. Một là sử dụng mô
hình xác suất, dựa trên cơ sở là có sự tương quan về kích thước của các câu trong văn
bản nguồn với câu trong văn bản đích. Tuy nhiên, trong quá trình dịch thuật do cấu
trúc của hai văn bản khác nhau nên sẽ dẫn tới trường hợp: một văn bản nguồn được
dịch thành nhiều phần trong văn bản đích và ngược lại. Khi đó, phương pháp xác suất
sẽ gặp nhiều hạn chế. Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường là từ
điển để tìm cặp từ, câu tương ứng. Nhưng lại gặp phải vấn đề về sự nhập nhằng của
ngữ nghĩa, đặc biệt trong các lĩnh vực khác nhau.
Ở đây, luận văn sẽ theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống
dịch máy (SMT) áp dụng cho bài toán gióng hàng đoạn. Bằng việc phân tích các đặc
điểm chỉ có ở đoạn văn, luận văn đã đưa ra mô hình thích hợp nhất cho bài toán. Sau
đó, thiết lập một độ đo khác phù hợp hơn cho việc xác định độ tương tự giữa các đoạn
văn trong cặp văn bản dịch. Từ đặc thù là bài toán tìm giải pháp tối ưu nhất, luận văn
đã lựa chọn giải thuật quy hoạch động để tìm kiếm. Để đánh giá thuật toán, tác giả sẽ
tiến hành thực nghiệm gióng hàng đoạn trước, sau đó gióng hàng câu rồi so sánh với
thuật toán cơ bản (Gale – Church) và thuật toán mới gần đây là Champollion trong
gióng hàng câu.
5
Mục lục
CHƢƠNG 1 – TổNG QUAN .......................................................................................... 7
1.1.
1.2.
1.3.
1.4.
1.5.
GIớI THIệU Về DịCH MÁY ................................................................................... 7
BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT ................................... 8
MụC TIÊU CủA LUậN VĂN .................................................................................. 9
PHạM VI CủA LUậN VĂN..................................................................................... 9
KếT CấU CủA LUậN VĂN ................................................................................... 10
CHƢƠNG 2 – DịCH MÁY THốNG KÊ ......ERROR! BOOKMARK NOT DEFINED.
2.1. DịCH MÁY THốNG KÊ ................................ ERROR! BOOKMARK NOT DEFINED.
2.2. Các thành phần của hệ dịch máy ............... Error! Bookmark not defined.
2.3. Mô hình dịch ............................................... Error! Bookmark not defined.
2.4. Bộ giải mã .................................................... Error! Bookmark not defined.
2.5. Mô hình ngôn ngữ ...................................... Error! Bookmark not defined.
2.6.
2.7.
2.8.
Đánh giá chất lượng dịch ........................... Error! Bookmark not defined.
Đặc điểm của phương pháp dịch thống kê. Error! Bookmark not defined.
Chu kì phát triển của hệ thống dịch thống kê ......... Error! Bookmark not
defined.
CHƢƠNG 3 – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ ............. ERROR!
BOOKMARK NOT DEFINED.
3.1. CÁC Bộ NGữ LIệU SONG NGữ LớN ............... ERROR! BOOKMARK NOT DEFINED.
3.1.1. Khối Châu Âu .............................................. Error! Bookmark not defined.
3.1.2. Khối Đông Nam Á ....................................... Error! Bookmark not defined.
3.2. CÁC PHƢƠNG PHÁP GIÓNG HÀNG HIệN TạI .............. ERROR! BOOKMARK NOT
DEFINED.
3.2.1. Theo độ dài .................................................. Error! Bookmark not defined.
3.2.2. Hướng tiếp cận dựa vào ngữ nghĩa............ Error! Bookmark not defined.
3.2.3. Kết hợp độ dài và ngữ nghĩa ....................... Error! Bookmark not defined.
3.3. VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG ... ERROR! BOOKMARK
NOT DEFINED.
3.4. GIÓNG HÀNG VĂN BảN SONG NGữ ............. ERROR! BOOKMARK NOT DEFINED.
3.4.1. Phương pháp tiếp cận dựa trên âm tiết ...... Error! Bookmark not defined.
3.4.2. Phương pháp tiếp cận dựa trên từ điển ..... Error! Bookmark not defined.
3.4.3. Phương pháp tiếp cận thống kê .................. Error! Bookmark not defined.
CHƢƠNG 4 – GIÓNG HÀNG ĐOạN VĂN ERROR! BOOKMARK NOT DEFINED.
4.1. BÀI TOÁN GIÓNG HÀNG ĐOạN VĂN ........... ERROR! BOOKMARK NOT DEFINED.
6
4.2. THUậT TOÁN QUY HOạCH ĐộNG ................ ERROR! BOOKMARK NOT DEFINED.
4.2.1. Giải thuật Needleman -Wunsch ................. Error! Bookmark not defined.
4.2.2. Giải thuật Smith – Waterman ..................... Error! Bookmark not defined.
4.3. Độ ĐO KHOảNG CÁCH................................ ERROR! BOOKMARK NOT DEFINED.
4.3.1. Độ đo cơ bản ................................................ Error! Bookmark not defined.
4.3.2. Độ đo đề xuất ............................................... Error! Bookmark not defined.
4.4. THUậT TOÁN Đề XUấT................................ ERROR! BOOKMARK NOT DEFINED.
CHƢƠNG 5 – THựC NGHIệM ....................ERROR! BOOKMARK NOT DEFINED.
5.1. CHUẩN Bị ................................................... ERROR! BOOKMARK NOT DEFINED.
5.1.1. Chuẩn bị dữ liệu .......................................... Error! Bookmark not defined.
5.1.2. Xác định tham số ......................................... Error! Bookmark not defined.
5.2. KếT QUả .................................................... ERROR! BOOKMARK NOT DEFINED.
5.3. SO SÁNH VớI THUậT TOÁN CHAMPOLLION .............. ERROR! BOOKMARK NOT
DEFINED.
5.4. ÁP DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES .. ERROR! BOOKMARK NOT
DEFINED.
5.5. ĐÁNH GIÁ ................................................. ERROR! BOOKMARK NOT DEFINED.
TÀI LIỆU THAM KHẢO ............................................................................................ 11
7
Chƣơng 1 – Tổng quan
1.1. Giới thiệu về dịch máy
Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật,
xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thống
hỗ trợ ngôn ngữ ra đời góp phần rút gắn khoảng cách về mặt ngôn ngữ giữa các nền
văn hóa trên thế giới. Cho đến nay, với sự xuất hiện các hệ thống dịch tự động miễn
phí trên mạng như: Google translate, bing translation, systran, vietgle… đã cho thấy sự
phát triển của dịch máy ngày càng tiến gần tới ngôn ngữ tự nhiên hơn.
Cùng với sự phát triển của dịch máy, vào những năm gần đây, mô hình dịch máy
thống kê đã và đang thu hút được rất nhiều sự quan tâm của các nhà khoa học. Hơn
nữa, kết quả thực tế của hệ thống dịch này rất tốt. Ngôn ngữ của máy dịch càng ngày
càng gần với ngôn ngữ của người. Ngoài ra cùng với hệ thống dịch máy thống kê, các
sản phẩm ứng dụng ngày càng giúp con người trao đổi thông tin dễ dàng hơn, tốc độ
nhanh hơn và hỗ trợ nhiều ngôn ngữ hơn.
Mặc dù phương pháp dịch thống kê có thể dựa trên nhiều cơ sở khác nhau như:
dựa trên cơ sở từ, cơ sở cụm từ hay dựa trên cơ sở cú pháp thì cũng đều cần một nguồn
dữ liệu học. Và đặc biệt là khi dữ liệu học càng nhiều bao nhiêu thì kết quả dịch càng
tốt bấy nhiều. Đây là một lợi thế lớn cho các hệ thống dịch máy dành cho tiếng Việt,
khi mà khối lượng văn bản tiếng Anh và tiếng Việt ngày càng lớn trong thời kỳ Việt
Nam hội nhập sâu rộng với quốc tế như hiện nay.
Xuất phát từ những yêu cầu cấp thiết đó, một phân hệ quan trọng hiện đang được
các nhà khoa học chú ý phát triển trong dịch máy thống kê đó là việc xây dựng tập hợp
ngữ liệu song ngữ chuẩn. Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh
“corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt, ĐH
Ngoại ngữ, NXB GD-2000 trang 368). “Ngữ liệu” ở đây có thể xem là những “dữ liệu,
cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ. Ngữ liệu
song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) là ngữ
liệu tồn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau.
Trước khi có nhu cầu từ dịch máy thống kê thì văn bản song ngữ cũng đã tồn tại
với phạm vi ứng dụng rất rộng rãi thuộc nhiều lĩnh vực khác nhau, đặc biệt giúp ích
cho việc nâng cao kỹ năng đọc và dịch. Tính sẵn có của một số lượng lớn các mẫu câu
8
với bản dịch song song của nó không chỉ có thể cải thiện các kỹ năng đọc, mà còn có
thể giúp nâng cao hàm ý trong các bản dịch. Ngoài ra, có thể dựa vào các văn bản song
ngữ để tìm kiếm các cụm từ tương đương về mặt ngữ nghĩa hay tương đương về cấu
trúc ngữ pháp của bản dịch ứng với bản nguồn.
1.2. Bài toán gióng hàng văn bản song ngữ cho SMT
Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra
cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối
chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt (English
– Vietnamese contrastive linguistics), chúng ta không thể nghiên cứu trên lý thuyết,
hay trên những câu do chúng ta nghĩ ra, mà phải nghiên cứu trên những câu có thật
trong thực tế sử dụng. Điều này đòi hỏi chúng ta phải có các chứng cứ của ngôn ngữ,
các ví dụ từ thực tế đã được nhiều người sử dụng và được xem là ngôn ngữ chuẩn
[Tony McEnery, Andrew Wilson (1996) ].
Tính hữu ích của tập ngữ liệu song ngữ đã dẫn đến một số dự án quy mô lớn
nhằm xây dựng một kho dữ liệu chung cho nhiều ngôn ngữ. Tuy nhiên, các bộ ngữ
liệu song ngữ hiện nay vẫn còn hạn chế về số lượng cũng như sự đa dạng của ngôn
ngữ. Từ nhu cầu cấp thiết đó, một nhánh nghiên cứu mới đang phát triển gần đây đó
là: xây dựng các hệ thống học máy có thể tự động xây dựng tập ngữ liệu song ngữ từ
nguồn dữ liệu thô (bài toán gióng hàng văn bản).
Gióng hàng văn bản song ngữ là việc sắp xếp từ, cụm từ hoặc câu trong ngôn
ngữ ngồn với bản dịch tương đương ở ngôn ngữ khác. Các tập văn bản thường được
gióng hàng ở mức cụm từ hoặc mức câu. Bài toán gióng hàng song ngữ không có khả
năng giải bằng các phương pháp đơn thuần, vì trong khi dịch rất hiếm khi có một câu
dịch hoàn hảo của câu tương ứng trong văn bản nguồn. Một câu rất ngắn có thể dịch ra
rất dài để đảm bảo đủ ý của câu, hoặc một câu nguồn có thể được dịch thành hai hoặc
nhiều câu trong ngôn ngữ đích và ngược lại. Cá biệt, có thể có trường hợp một câu
hoặc thậm chí một đoạn có thể bị bỏ qua hoàn toàn.
Nhiều phương pháp đã được đề xuất để giải quyết bài toán gióng hàng văn bản
cho ngôn ngữ châu Âu, sẽ được thảo luận trong chương sau. Tuy nhiên, hầu hết các
phương pháp gióng hàng đó đều áp dụng ở mức từ, câu là chủ yếu.
Ngược lại, có rất ít công trình nghiên cứu áp dụng cho các ngôn ngữ thuộc khu
vực Đông Nam Á. Không giống như tiếng Anh và các ngôn ngữ châu Âu khác, hầu hết
9
các ngôn ngữ Đông Nam Á thường không phân rã ở cấp độ từ, và cấu trúc ngữ pháp
khác biệt hẳn so với hệ thống chữ viết Latin. Kết quả là, các thuật toán tiêu chuẩn và
triển khai thực hiện cho gióng hàng văn bản thường không đạt được kết quả tốt như
mong đợi. Riêng đối với ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung
nghiên cứu để tìm ra giải pháp thay thế cũng như đo lường, đánh giá hiệu suất gióng
hàng văn bản ngôn ngữ Tiếng Việt nói riêng và ngôn ngữ Đông Nam Á nói chung.
1.3. Mục tiêu của luận văn
Hiện tại, có nhiều phương pháp đã được chứng minh và đánh giá hiệu quả cho
bài toán gióng hàng văn bản vói nhóm ngôn ngữ khối châu Âu bao gồm thuật toán
Gale – Church [1], Vanilla Aligner [13]), Brown,… sẽ được thảo luận trong chương kế
tiếp. Trong luận văn này, sẽ chỉ đi sâu nghiên cứu rồi đưa ra một đề xuất về giải pháp
gióng hàng áp dụng cho sách văn học dịch của Việt Nam, dựa trên các phương pháp
gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu. Sau đó sẽ
sử dụng các cặp câu đã được gióng hàng để đưa vào huấn luyện trong hệ dịch máy.
Luận văn cũng sẽ trình bầy các bước chuẩn bị, các kỹ thuật tiền xử lý cho quá trình
chuẩn bị dữ liệu trước khi thực hiện áp dụng giải thuật đề xuất.
Mục tiêu là:
•
•
•
•
•
•
Khảo sát các đặc trưng của tập dữ liệu là sách văn học dịch.
Mô hình hóa bài toán gióng hàng đoạn văn.
Đề xuất phương pháp gióng hàng văn bản.
Cài đặt và đánh giá hiệu suất của phương pháp dựa trên chiều dài.
Đánh giá, so sánh thuật toán đề xuất.
Áp dụng vào bài toán gióng hàng câu tự động để sinh ra tập ngữ liệu học cho
dịch máy thống kê.
1.4. Phạm vi của luận văn
Luận văn sẽ tập trung giải quyết các vấn đề sau:
•
•
•
•
Thảo luận về bài toán gióng hàng văn bản, các vấn đề và một số giải thuật
hiện tại áp dụng cho nhóm ngôn ngữ Châu Âu.
Khảo sát các đặc trưng của bài toán gióng hàng đoạn văn, từ đó đề xuất mô
hình cho bài toán gióng hàng đoạn văn.
Khảo sát thuật toán quy hoạch động, từ đó kết hợp với độ đo độ tương tự
trong gióng hàng đoạn văn.
Tiến hành thực nghiệm đánh giá kết quả.
10
1.5. Kết cấu của luận văn
Luận văn sẽ được tổ chức như sau:
Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành
phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy.
Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới. Tiếp
đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng
văn bản. Cuối chương nêu ra một số đặc trưng và những vấn đề cần phải giải quyết
của bài toán gióng hàng văn bản.
Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào
bài toán để tìm lời giải tối ưu. Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng
đoạn văn. Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên
các đặc trưng của bài toán. Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa
hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập các cách
gióng hàng hợp lý nhất.
Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu
phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề
xuất. Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy.
11
TÀI LIỆU THAM KHẢO
[1] W. A. Gale and K. W. Church, A program for aligning sentences in bilingual
corpora, Proceedings of the 29th Annual Meeting of the Association for
Computational Linguistics (ACL). Morristown, NJ, USA: Association for
Computational Linguistics, 1991, tr. 177–184.
[2] Aligned Hansards of the 36th Parliament of Canada, September 2007. [Online]
/>[3] P. Koehn, Europarl: A parallel corpus for statistical machine translation, MT
Summit, 2005. [Online] />[4] The English-Norwegian parallel corpus, September 2007. [Online]
/>[5] The English-Swedish parallel corpus, September 2007. [Online]
/>[6] Hunglish corpus, August 2007. [Online]
/>[7] Xiaoyi Ma, Hong Kong Parallel Text. Philadelphia: Linguistic Data Consortium,
2004.
[8] SEALang. (2007, October) Southeast Asian languages library. [Online]
[9] Wanakam. (2007, October) Wanakam world classics in Thai. [Online]
[10] M. Barang. (2007, October) Thai fiction in translation. [Online]
[11] Bangkok Post, Learning Post, September 2007. [Online]
/>[12] Asia Online, October 2008. [Online]
[13] P. Danielsson and D. Ridings, Practical presentation of a “Vanilla” aligner,
August 2007. [Online] />
12
[14] F. Nevado, F. Casacuberta, and E. Vidal, Parallel corpora segmentation by using
anchor words, Proceedings of EACL 2003 workshop on EAMT, 11th Conference
of the European Chapter of the Association for Computational Linguistics, April
2003.
[15] W. Aroonmanakun, Collocation and Thai word segmentation, Joint International
Conference of SNLP-Oriental COCOSDA, 2002.
[16] Ma, X. 2006. Champollion: A Robust Parallel Text Sentence Aligner.
Proceedings of Fifth International Conference on Language Resources and
Evaluation, p489–492.