Tải bản đầy đủ (.doc) (113 trang)

Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 113 trang )

Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Định hướng đề tài tốt nghiệp
Xây dựng thử nghiệm chương trình dịch tự động Anh - Việt theo hướng tiếp cận:
“So khớp tập mẫu” (còn gọi là “Dịch dựa vào ngữ liệu”, “Dịch dựa vào ví dụ”…).
2. Các nhiệm vụ cụ thể của ĐATN
• Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một mô
hình dịch cụ thể theo hướng tiếp cận này: mô hình D3.
• Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp so
khớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toán
liên quan: thuật toán A*, DP-matching, thuật toán cực tiểu hoá Otomat…
• Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thành
dạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch:
• Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiên
cứu cấu trúc các ngữ trong Tiếng Anh.
• Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy về
dạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh
từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoá
bảng động từ bất quy tắc…
Tôi - Lương Ngọc Quang - cam kết ĐATN là công trình nghiên cứu của bản thân tôi
dưới sự hướng dẫn của ThS Bùi Thị Hoà.
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất
kỳ công trình nào khác.
Hà Nội, ngày tháng năm
Tác giả ĐATN
Lương Ngọc Quang
Xác nhận của giáo viên hướng dẫn:
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
1
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP


Đồ án tốt nghiệp này tập trung vào những vấn đề chính sau:
• Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một mô
hình dịch cụ thể theo hướng tiếp cận này: mô hình D3.
• Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp so
khớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toán
liên quan: thuật toán A*, DP-matching, thuật toán xây dựng và cực tiểu hoá
Otomat…
• Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thành
dạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch:
 Quy trình 1: Phân tích cú pháp Tiếng Anh – Phân lớp dựa vào số lượng
từ nội dung, từ ngữ pháp – Xây dựng đồ thị cho mỗi lớp (Quy trình
này thực hiện tự động)
 Quy trình 2: Liên kết cho các cặp câu Anh - Việt (thực hiện bằng tay).
• Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiên
cứu cấu trúc các ngữ trong Tiếng Anh.
• Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy về
dạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh
từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoá
bảng động từ bất quy tắc…
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
2
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
ABSTRACT OF THESIS
This thesis aims at these main points:
• Research the theory of Example – Based Machine Translation and a specific
system that applies this approach: D3 (Dp-match Driven transDucer)
• Construct an English – to – Vietnamese Example – Based Machine
Translation System (EVEBMTS), relying on the above – mentioned theory,
and the series of relative algorithms: A*, DP-Matching, algorithms of
optimizing the Deterministic Finite State Automata (DFSA)…

• Construct two independent processes for training the Corpus, from the
original, raw form to the data format that can be well-applied for “Matching”
and “Translation sentence constructing” stages:
 Process 1: English Parsing – Classify based on the number of content-
word, functional-word – Graph Building for each class.
 Process 2: English – Vietnamese sentence pairs alignment.
• Construct a set of grammar transfer rules (at the level of phrases), based on
researching the structures of English phrases.
• Solve some linguistic problems, that are indispensable for the translation
application: Getting the original form of an English word from its variants
(plural form of noun, past or past-particilpe of verb…), collecting and editing
the English irregular – verb table…
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
3
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
LỜI CẢM ƠN
Sau gần sáu tháng thực hiện Đồ án tốt nghiệp, đến nay mọi công việc liên
quan đến Đồ án cơ bản đã hoàn tất. Trong quãng thời gian ấy, tôi đã nhận được
nhiều nguồn giúp đỡ, động viên to lớn, mà nếu không có chúng, có lẽ tôi sẽ rất khó
đạt được những kết quả như ngày hôm nay. Bởi thế, cho phép tôi giành trang đầu
tiên của Luận văn này cho những lời cảm ơn chân thành đến những người tôi yêu
mến và biết ơn.
Trước hết, em xin được gửi lời cảm ơn đến giáo viên hướng dẫn, ThS, GVC
Bùi Thị Hoà, khoa Công nghệ thông tin, trường Đại học Bách Khoa Hà Nội. Cô là
người đã luôn quan tâm, giúp đỡ, hướng dẫn và góp ý cho em trong suốt quá trình
em thực hiện đồ án này. Một lần nữa, xin gửi đến cô tấm lòng biết ơn chân thành và
sâu sắc.
Em xin gửi lời cảm ơn đến các thầy cô giáo trong bộ môn Công nghệ phần
mềm, khoa Công nghệ thông tin nói riêng, cùng toàn thể các thầy cô giáo trường Đại
học Bách Khoa Hà Nội nói chung, vì những bài giảng hay, những kiến thức bổ ích

cùng sự tận tụy quan tâm mà các thầy, các cô đã giành cho em trong suốt năm năm
học vừa qua. Em nghĩ rằng, những kiến thức mà các thầy cô truyền dạy không chỉ
được vận dụng để em hoàn thành đồ án này, mà chắc chắn sẽ còn giúp ích cho em rất
nhiều trong tương lai.
Tôi cũng xin gửi lời cảm ơn đến đội ngũ kỹ sư của công ty cổ phần dịch vụ
công nghệ thông tin NAISCORP, nơi tôi thực tập, những người đã quan tâm và góp
ý cho tôi trong quá trình xây dựng chương trình Dịch.
Cuối cùng, xin được gửi lời cảm ơn sâu sắc tới bố mẹ tôi, em gái tôi, những
người thân và bạn bè thân thiết của tôi vì đã tạo cho tôi mọi điều kiện tuyệt vời nhất
để hoàn thành tốt đồ án này.
Hà Nội, tháng 5 năm 2007.
Lương Ngọc Quang
Lớp Công nghệ phần mềm, K47, khoa Công nghệ thông tin
Trường Đại học Bách Khoa Hà Nội.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
4
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
MỤC LỤC
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 8
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN 9
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN 9
LỜI NÓI ĐẦU 9
Chương 1: Tổng quan về dịch máy 11
1.1. Lịch sử của dịch máy: 12
1.2. Khái niệm, kiến trúc và vai trò của dịch máy trong việc thúc đẩy sự phát triển
của lý thuyết ngôn ngữ 12
1.3. Một số chiến lược dịch máy điển hình 13
1.3.1. Dịch trực tiếp 13
1.3.2. Dịch qua ngôn ngữ trung gian 14
1.3.3. Dịch dựa trên sự chuyển đổi 15

1.3.4. Dịch máy thống kê 16
1.3.5. Dịch dựa trên ví dụ (Dịch so khớp tập mẫu) 17
1.4. Sơ lược về tình hình nghiên cứu và triển khai dịch máy tại Việt Nam hiện nay
17
1.5. Nhiệm vụ, phạm vi của đồ án tốt nghiệp 19
Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu 20
2.1. Vài nét về lịch sử của lý thuyết EBMT 20
2.2. Khái niệm, đặc điểm và sơ đồ khối 22
2.2.1. Khái niệm và sơ đồ khối 22
2.2.2. Phân biệt EBMT với TM (Translation Memory) 22
2.3. Kho ngữ liệu song ngữ (Parallel corpus-PC) 23
2.3.1. Giới thiệu chung 23
2.3.2. Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện OpenNLP 24
2.3.3. Vấn đề kích thước của PC 26
2.3.4. Vấn đề lưu trữ: 27
2.4. Một số phương pháp so khớp chính 29
2.4.1. So khớp dựa trên ký tự: (Character-based Matching) 29
2.4.2. So khớp mức từ: (Word-based Matching) 29
2.4.3. Phương pháp “Góc tương tự” của Carroll 30
2.5. Giới thiệu hai kiểu hệ dịch EBMT thông dụng 31
2.5.1. Hệ D3 (Dp-match Driven transDucer) 31
2.5.2. Hệ HPAT (Hierarchical Phrase Alignment based Translation) 32
2.5.3. So sánh giữa hai hệ dịch: 33
Chương 3: Bài toán xây dựng hệ dịch tự động Anh-Việt dựa trên so khớp tập
mẫu 36
3.1. Hệ dịch D3 36
3.1.1 Giới thiệu chung 36
3.1.2. Các đặc điểm và tính năng 37
3.1.3. Cấu hình 37
3.1.4. Khối “Example Retrieval” (Tìm kiếm ngữ liệu tương tự) 40

3.1.5. Khối “Sản sinh mẫu” và thuật toán sinh mẫu 42
3.1.6. Khối “Chọn mẫu phù hợp nhất” 43
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
5
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
3.1.7. Khối “Thay thế” 44
3.2. Các ý tưởng cải tiến hệ D3 truyền thống 45
3.2.1. Phân lớp và “đồ thị hoá” tập mẫu 45
3.2.2. Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 1: Khoanh vùng tập mẫu
53
3.2.3. Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 2: So khớp dựa trên giải
thuật A* kết hợp lý thuyết quy hoạch động 55
Chương 4: Chương trình Dịch tự động Anh -Việt 66
4.1. Phân tích hệ thống về mặt chức năng 66
4.1.1. Xác định yêu cầu 66
4.1.2. Biểu đồ phân cấp chức năng 66
4.1.3. Chức năng Huấn luyện tập mẫu 70
4.1.4. Chức năng Tiền xử lý 73
4.1.5. Chức năng “Chọn ngữ liệu tương tự nhất” 73
4.1.6. Chức năng “Xây dựng và hoàn thiện câu dịch” 76
4.1.7. Chức năng quản lý từ điển và tập mẫu 78
4.2. Thiết kế và tổ chức lưu trữ dữ liệu 80
4.2.1. Cấu trúc các file Từ điển 80
4.2.2. Cấu trúc các file ngữ liệu: 81
4.3. Cài đặt các module chính trong chương trình 82
4.3.1. Một số nét tổng quan về chương trình: 82
4.3.2. Cài đặt module: “Huấn luyện tập mẫu” 83
4.3.3. Cài đặt module “Tiền xử lý” 85
4.3.4. Cài đặt module “Chọn ngữ liệu tương tự nhất” 86
4.3.5. Cài đặt module “Xây dựng, hoàn thiện câu dịch” 89

Chương 5: Thử nghiệm và đánh giá kết quả 91
5.1. Giới thiệu chương trình 91
5.1.1. Module phân tích cú pháp Tiếng Anh : 92
5.1.2. Module so khớp, tìm ngữ liệu tương tự nhất 92
93
5.1.3. Module Dịch 93
5.1.4. Module quản lý Từ điển 93
5.1.5. Module quản lý tập luật chuyển đổi cú pháp Anh-Việt 94
5.1.6. Module quản lý tập mẫu song ngữ 95
5.2. Thử nghiệm kết quả: 96
5.2.1. Xây dựng tập ngữ liệu huấn luyện và thử nghiệm 96
5.2.2. Các độ đo sử dụng 97
5.2.3. Kết quả thử nghiệm 97
5.2.4. Đánh giá thử nghiệm 102
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104
1. Những kết quả đã đạt được 104
2. Định hướng nghiên cứu và phát triển đề tài 104
Phần phụ lục 105
105
PHỤ LỤC 1 105
PHỤ LỤC 2 106
PHỤ LỤC 3: MỘT SỐ KẾT QUẢ DỊCH THỬ NGHIỆM 107
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
6
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
PHỤ LỤC 4: MỘT SỐ KẾT QUẢ SO SÁNH GIỮA EBMTRANS VÀ
EVTRANS 2.0 111
STT 111
EBMTRANS 111
EVTRANS 2.0 111

1 111
2 111
3 111
4 111
5 111
6 111
7 111
8 111
9 111
10 111
111
11 111
12 111
Newspapers, magazines, documents, and advertisements crowd your mailbox
each day 111
Danh mục tài liệu tham khảo 112
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
7
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
STT Từ viết tắt Từ đầy đủ Giải nghĩa
1 MT Machine Translation Dịch máy
2 EBMT Example-Based Machine
Translation
Phương pháp dịch máy dựa trên so
khớp tập mẫu (hay: Dịch trên nền ví
dụ)
3 RBMT Rule-Based Machine
Translation
Phương pháp dịch máy trên nền tập

luật
4 PC Parallel Corpus Kho ngữ liệu song ngữ
5 SMT Statistical Machine
Translation
Phương pháp dịch máy thống kê
6 HPA Hierarchical Phrase
Alignment
Liên kết ngữ phân cấp
7 HPAT HPA-Based Translation Dịch dựa trên liên kết ngữ phân cấp
8 CBMT Corpus-Based Machine
Translation
Phương pháp dịch máy dựa trên tập
mẫu
9 OHĐ Otomat hữu hạn đơn
định.
10 POS Part-of-Speech Từ loại
11 TM Translation Memory Dịch bộ nhớ.
12 DFA Deterministic Finite
States Automata
Otomat trạng thái hữu hạn đơn
định.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
8
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN
DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN
LỜI NÓI ĐẦU
Với sự phát triển vô cùng mạnh mẽ và nhanh chóng của khoa học kỹ thuật
nói chung và ngành Công nghệ thông tin nói riêng, chưa bao giờ như hiện nay con
người lại có thể nắm bắt, khai thác và xử lý những thông tin, tri thức mới dễ dàng,

thuận tiện đến như vậy.Cho dù bạn muốn cập nhật những tin tức nóng hổi nhất như
tỷ giá đồng Đô-la trên thị trường ngày hôm nay, Top ten các bài hát hay nhất trong
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
9
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
tuần…đến tra cứu tiểu sử của một danh nhân sống cách đây đã hàng thế kỷ…Với
một chiếc máy tính có kết nối Internet, mọi việc trở nên vô cùng đơn giản. Chẳng
hạn: chỉ cần mở máy, tìm đến website Google và gõ vào một vài từ khoá cần thiết,
mọi thông tin bạn mong muốn sẽ hiện diện thật nhanh chóng. Máy tính đã làm nên
điều kỳ diệu mà loài người bấy lâu hằng mơ ước: thu hẹp những cản trở về mặt địa
lý, giúp họ xích lại gần nhau hơn, làm phong phú đời sống tinh thần và giúp nâng
cao tri thức cho toàn nhân loại.
Tuy vậy, một trong những khó khăn của người Việt chúng ta hiện nay là hiểu
được ngôn ngữ được thể hiện trong các tài liệu trên Internet, mà chủ yếu là bằng
tiếng Anh.Bởi thế, ý tưởng về việc xây dựng một hệ thống chuyên dịch các tài liệu
từ tiếng Anh sang tiếng Việt đã được hình thành, và nếu thực hiện được sẽ có ý
nghĩa cũng như mang lại hiệu quả vô cùng to lớn.Chắc chắn nó sẽ giúp các cơ quan,
xí nghiệp xử lý công văn, giấy tờ, hợp đồng dễ dàng hơn; các nhà khoa học,nhà
nghiên cứu giảm bớt công sức dịch thuật các công trình khoa học nước ngoài dày
cộm; và mọi người tiếp cận những tri thức mới nhanh chóng và thuận tiện hơn…
Trong khoảng gần 10 năm trở lại đây, bài toán dịch máy đã được triển khai
nghiên cứu, ứng dụng tại Việt Nam và đã thu được một số thành công nhất định.Tuy
vậy, quá trình thực hiện đã gặp nhiều khó khăn, chủ yếu là về vấn đề ngôn
ngữ.Chẳng hạn như với tiếng Việt thì cơ sở lý thuyết để xây dựng được hệ thống xử
lý ngôn ngữ tự nhiên là chưa hoàn chỉnh và còn khá khiêm tốn, hay vấn đề nhập
nhằng ngữ nghĩa-một bản chất vốn có của ngôn ngữ tự nhiên-chưa được giải quyết
triệt để…Việc xây dựng kho ngữ liệu song ngữ Anh-Việt, công cụ phục vụ đắc lực
trong các hệ dịch trên nền ví dụ, hầu như chưa thu được kết quả đáng kể, trong khi
nhiều nước trên thế giới đã có được những kho ngữ liệu với số lượng lên đến hàng
trăm nghìn, thậm chí hàng triệu cặp câu…Trong thời gian tới, để thúc đẩy dịch máy

Việt Nam phát triển, chắc chắn những vấn đề trên phải được quan tâm đầu tư nghiên
cứu nhiều hơn nữa.
Đồ án tốt nghiệp đại học này sẽ tiếp cận bài toán dịch máy Anh-Việt theo
phương pháp dựa vào so khớp với tập mẫu (hay còn gọi Dịch máy trên nền ví dụ-
EBMT)-một hướng nghiên cứu Dịch máy khá mới tại Việt Nam hiện nay.Trong
khuôn khổ của một Đồ án, tác giả chỉ tập trung vào nghiên cứu cơ sở lý thuyết; tiếp
cận với một hệ dịch EBMT cụ thể. Trên cơ sở kế thừa tinh thần chung của phương
pháp, kết hợp với một số đề xuất, cải tiến nhằm nâng cao hiệu suất dịch, đồ án sẽ cài
đặt một chương trình thử nghiệm. Tác giả không đặt mục tiêu rằng hệ thống có thể
áp dụng ngay được trong thực tế, bởi nguồn ngữ liệu-Cơ sở tri thức mà máy “học”
được-còn khiêm tốn, chưa thể có được một “độ bao phủ” đáng kể lên nguồn tri thức
mênh mông của nhân loại.Một hệ thống thiết kế đúng, dịch tốt những câu “gần” với
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
10
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
những gì nó được “học”(nguồn ngữ liệu cung cấp), và minh hoạ được tính đúng đắn
của lý thuyết Dịch đang nghiên cứu chính là mục tiêu lớn nhất mà Đồ án hướng đến.
Về mặt bố cục, Đồ án này gồm năm chương, nội dung chính như sau:
Chương 1: Giới thiệu tổng quan về bài toán dịch máy (khái niệm, kiến trúc,
vai trò…).Một số chiến lược dịch máy chính.Tình hình nghiên cứu và triển khai dịch
máy tại Việt Nam hiện nay.Từ đó xác định nội dung và phạm vi nghiên cứu cho đợt
thực tập.
Chương 2: Tập trung vào nghiên cứu cơ sở lý thuyết của phương pháp dịch
máy trên nền ví dụ.Từ những vấn đề tổng quát như khái niệm, đặc trưng, các nguồn
ngữ liệu chính…cho đến những vấn đề then chốt trong phương pháp này như: tổ
chức lưu trữ và huấn luyện tập mẫu; các phương pháp so khớp hiệu quả…Trình bày
khái quát hai hệ dịch EBMT nổi tiếng hiện nay.
Chương 3: Đi sâu vào việc xây dựng (về mặt ý tưởng, thuật toán) cho hệ
dịch: Đầu tiên là tiếp cận chi tiết một hệ dịch EBMT, tìm hiểu ý tưởng, cách thức
dịch và các thuật toán mà nó sử dụng. Sau đó, trên cơ sở phân tích những ưu,khuyết

điểm của hệ dịch này, kế thừa những ưu điểm và đề xuất một số ý tưởng để cải tiến
nó (về thời gian vè hiệu suất dịch).
Chương 4: Dựa trên mô hình đã xây dựng ở Chương 3, Chương này tiến
hành cài đặt hệ dịch.Các công đoạn chính được luận văn đề cập là: phân tích hệ
thống về mặt chức năng; phân tích, thiết kế và tổ chức lưu trữ dữ liệu; các bước cài
đặt một số module chính trong hệ thống.
Chương 5: Tập trung vào việc thử nghiệm và đánh giá các kết quả thu được,
kết hợp so sánh, đối chiếu với một số hệ dịch có sẵn trên thị trường hiện nay. Tiến
hành đúc kết lại những việc đã làm được, những việc chưa hoàn thành để đề ra
hướng nghiên cứu và phát triển đề tài trong tương lai.
Chương 1: Tổng quan về dịch máy

Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
11
Những nội dung chính:
• Tổng quan về bài toán dịch máy: Đôi nét về lịch sử; khái niệm,
kiến trúc và vai trò của dịch máy.
• Một số phương pháp tiếp cận bài toán dịch máy.
• Tình hình nghiên cứu và triển khái ứng dụng dịch máy tại Việt
Nam hiện nay.
• Xác định nhiệm vụ và phạm vi của đồ án tốt nghiệp.
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
1.1. Lịch sử của dịch máy:
Sau Đại chiến lần thứ hai, do sự phát triển của máy tính điện tử và do nhu
cầu cần nắm bắt những thông tin kịp thời và chính xác trước sự bùng nổ thông tin
khoa học- kỹ thuật ngày càng lớn, người ta thấy cần phải trao cho máy tính điện tử
nhiệm vụ dịch các văn bản từ ngôn ngữ này sang ngôn ngữ khác, đặc biệt là các văn
bản khoa học, kỹ thuật.
Việc dịch ngôn ngữ tự nhiên hay còn được gọi là dịch máy (Machine
Translation), bắt đầu được quan tâm nghiên cứu từ những năm đầu thập niên 50 của

thế kỷ 20.Có thể nói rằng đây là một trong những bài toán khó nhất trong loạt các bài
toán về ứng dụng trí tuệ nhân tạo vào thực tế, đồng thời cũng là vấn đề thời sự gây
tranh cãi và được bàn thảo sôi nổi nhất từ trước đến nay.
Thời kỳ đầu tiên, dịch máy cố gắng nhấn mạnh sự quan trọng của việc dịch
từng từ dựa trên sự tra từ điển song ngữ và dựa trên thông tin thống kê, tần số từ và
những mẫu tuần tự.Trong thời kỳ những năm 1960, dịch máy gặp rất nhiều khó khăn
và đã có lúc bị chỉ trích là “không thể thực hiện được” và “không xứng đáng bỏ công
sức để thực hiện”. Các ý kiến chống đối cho rằng: “Việc dịch ngôn ngữ không
những chỉ cần những kiến thức về ngôn ngữ, mà còn cần đến cả những kiến thức
ngoài ngôn ngữ (extra-linguistic)”. Dịch máy đã thực sự lắng xuống khi vào những
năm 1975, chính phủ nhiều quốc gia đã không còn trợ cấp cho các chương trình
nghiên cứu và triển khai các ứng dụng liên quan đến lĩnh vực này nữa.
Tuy vậy, từ những năm cuối thập niên 80 trở lại đây, việc nghiên cứu và
triển khai các ứng dụng của dịch máy thực sự trỗi dậy mạnh mẽ và đạt được những
thành tựu hết sức đáng khích lệ. Sở dĩ có được sự hồi sinh đó là do nhiều nguyên
nhân: Thứ nhất, sự phát triển của các lý thuyết về ngôn ngữ học, ngữ pháp học, từ
vựng học…Thứ hai, nhiều nhà khoa học đã mạnh dạn đề xuất các hướng tiếp cận
mới mẻ và đầy tính khả thi, mà nổi bật nhất là Nagao với phương pháp dịch trên nền
ví dụ ( hay còn có thể hiểu là dịch máy bằng So khớp tập mẫu ) năm 1984. Thứ ba,
đó là sự ra đời của rất nhiều các thế hệ máy tính mới với khả năng mạnh hơn
nhiều…
Hiện nay, bài toán dịch máy đã trở nên phổ biến và được sự đầu tư quan tâm
nghiên cứu của rất nhiều quốc gia trên thế giới, trong đó có Việt Nam. Đặc biệt, các
quốc gia tiên tiến như: Mỹ, Nhật Bản đã xây dựng được một số hệ dịch với hiệu suất
dịch rất cao (Ví dụ: hệ D3, HPAT…). Tuy nhiên, cho đến nay, việc dịch máy vẫn
còn nhiều hạn chế, và chủ yếu vẫn chỉ được sử dụng cho các tài liệu khoa học hơn là
các tài liệu văn học- nghệ thuật.
1.2. Khái niệm, kiến trúc và vai trò của dịch máy trong việc
thúc đẩy sự phát triển của lý thuyết ngôn ngữ
Dịch máy là một lĩnh vực nghiên cứu của ngành máy tính, hướng tới việc

tìm ra những phương pháp, cách thức hiệu quả nhất để chuyển một văn bản ở
ngôn ngữ nguồn sang ngôn ngữ đích.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
12
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
Để thực hiện được điều đó, máy cần phải được “học” những quy tắc dịch do
con người trang bị. Ngày nay, với sự phát triển của khoa học-kỹ thuật, các chiến
lược dịch ngày càng phong phú.Có chiến lược đi sâu vào bản chất ngôn ngữ (phân
tích sâu về mặt cú pháp, ngữ nghĩa), lại có chiến lược thiên về cài đặt các mô hình
toán học (chẳng hạn mô hình thống kê, xác suất…trên một số lượng lớn văn bản
mẫu) để tìm ra câu dịch phù hợp nhất. Những chiến lược này sẽ được trình bày khái
quát ở mục sau của báo cáo.
Có thể nói rằng chính những thành tựu có được trong nghiên cứu dịch máy
đã thúc đẩy lý thuyết ngôn ngữ học phát triển rất mạnh. Người ta phải chính xác hoá,
hình thức hoá các khái niệm ngôn ngữ, phải phát hiện được các sự kiện bản chất
trong quan hệ giữa nội dung và hình thức ngôn ngữ, nghiên cứu các điểm giống nhau
của ngôn ngữ.
Hình vẽ dưới đây mô tả kiến trúc truyền thống của dịch máy.Tuy nhiên, ngày
nay kiến trúc này đã được mở rộng ra nhiều bởi hàng loạt các hướng tiếp cận mới,
hiện đại.
Hình 1. 1 Kiến trúc căn bản của Dịch máy
1.3. Một số chiến lược dịch máy điển hình
1.3.1. Dịch trực tiếp
Đây là lối dịch kiểu thay thế những từ trong ngôn ngữ nguồn với những từ
trong ngôn ngữ đích một cách máy móc. Những hệ dịch trực tiếp chỉ phù hợp cho
những ứng dụng nơi mà văn bản dịch có khối lượng từ nhỏ và số lượng câu giới hạn.
Chúng hoạt động tương đối tốt khi dịch giữa các ngôn ngữ có cùng loại hình.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
Chuyển đổi cú pháp
Phân tích Tổng hợp

Chuyển đổi trực tiếp từ - từ
Ngôn ngữ nguồn Ngôn ngữ đích
Liên ngôn ngữ
13
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
Hình 1. 2 Sơ đồ khối của một hệ dịch trực tiếp
1.3.2. Dịch qua ngôn ngữ trung gian
Xây dựng một ngôn ngữ trung gian biểu diễn độc lập với mọi ngôn ngữ tự
nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất của mọi
ngôn ngữ có trong hệ dịch đó. Khi dịch một ngôn ngữ nguồn A sang ngôn ngữ đích
B thì đầu tiên, thực hiện việc chuyển A sang một ngôn ngữ trung gian, sau đó
chuyển từ ngôn ngữ trung gian dịch sang ngôn ngữ đích B.
Hình 1. 3 Mô hình hệ dịch trung gian.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
Ngôn ngữ
nguồn
Ngôn ngữ
đích
Phân tích
hình thái
Tra từ điển
song ngữ
Sắp xếp trật tự
từ đơn giản
Tổng hợp
Tổng hợp
Tổng hợp
Phân tích
Phân tích
Phân tích

Văn bản ở ngôn
ngữ thứ 1
Văn bản ở ngôn
ngữ thứ 2
Văn bản ở ngôn
ngữ thứ n
Văn bản ở ngôn
ngữ thứ 1
Văn bản ở ngôn
ngữ thứ 2
Văn bản ở ngôn
ngữ thứ n
Liên ngôn ngữ
14
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
Như vậy, việc xử lý trong hệ thống dựa trên ngôn ngữ trung gian bao gồm hai
bước quan trọng, đó là:
• Phân tích văn bản nguồn để biểu diễn lại dưới dạng thức của một ngôn
ngữ trung gian.
• Sử dụng những đơn vị ngữ nghĩa và cấu trúc cú pháp của ngôn ngữ
đích để phát sinh văn bản kết quả từ cách biểu diễn theo dạng ngôn
ngữ trung gian.
Ưu điểm của hệ liên ngôn ngữ là số lượng bộ dịch được dùng bởi hệ dịch liên
ngôn ngữ không nhiều.Tuy nhiên, khó khăn của phương pháp lại nằm ở chỗ là không
dễ xây dựng một ngôn ngữ trung gian đáp ứng được những yêu cầu như thế (đủ
phong phú để biểu diễn được tất cả các đơn vị từ vựng và cú pháp của các ngôn ngữ
liên quan trong quá trình dịch).
1.3.3. Dịch dựa trên sự chuyển đổi
Phân tích cú pháp câu được nhập vào, sau đó áp dụng các luật ngôn ngữ và từ
vựng (còn được gọi là những luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn

ngữ này sang ngôn ngữ khác. Trước khi được chuyển đổi cú pháp, câu phải trải qua
các quá trình phân tích như: Phân tích hình thái, phân tích cú pháp, phân tích ngữ
nghĩa…
Hình 1. 4 Mô hình dịch dựa trên chuyển đổi cú pháp.
Chiến lược chuyển đổi cú pháp chia quá trình dịch thành 3 giai đoạn:
• Phân tích
• Chuyển đổi
• Phát sinh
Chiến lược dịch dựa trên chuyển đổi phân tích và biểu diễn lại câu ở ngôn ngữ
nguồn theo một dạng thức trung gian thích hợp cho việc chuyển đổi. Khối phát sinh
câu sẽ nhận dạng thức trung gian của ngôn ngữ đích và tạo câu ở ngôn ngữ đích. Sự
chuyển đổi giữa hai dạng thức trung gian được thực hiện nhờ khối chuyển đổi, khối
này sử dụng những tự điển chuyển đổi chứa các tương quan từ vựng giữa hai ngôn
ngữ nguồn và đích và một tập hợp các luật chuyển đổi.
Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng nhất,
giữ vai trò quyết định chất lượng hệ dịch. Chuyển đổi này bao gồm hai phần chuyển
đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc. Chuyển đổi từ vựng là
quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ tương ứng
của ngôn ngữ đích. Còn chuyển đổi cấu trúc là quá trình sắp xếp lại, thêm bớt, thay
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
Ngôn ngữ
nguồn S
Bộ chuyển đổi
cú pháp S-T
Ngôn ngữ
đích T
15
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được cấu trúc tương
ứng ở ngôn ngữ đích.

Hướng tiếp cận này có nhiều ưu điểm: Nếu tính tương đồng giũa ngôn ngữ
nguồn và đích càng cao thì các bước chuyển đổi càng đơn giản. Hơn nữa, giai đoạn
phân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ dịch dựa trên ngôn ngữ
trung gian. Tuy nhiên, một trong những nhược điểm của phương pháp là không thể
giải quyết được các trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu trúc
nhưng nghĩa khác nhau, tốn công sức xây dựng hệ luật, các luật không bao quát, có
hiện tượng luật thừa và luật mâu thuẫn…
Cũng chính vì tính khả thi cao này, đã có nhiều hệ dịch dựa trên sự
chuyển đổi ra đời và hoạt động hiệu quả, tiêu biểu là: Hệ dịch Anh- Pháp METEO
(xây dựng bởi đại học Montreal - TAUM) chuyên dịch các bản tin dự báo thời tiết,
hệ dịch GETA (Đại học Grenoble - 1971)… Ở Việt Nam, sản phẩm dịch EVTRANS
cũng được xây dựng theo hướng tiếp cận này.
1.3.4. Dịch máy thống kê
Dịch máy thống kê (Statistical Machine Translation-SMT) là một hướng tiếp
cận hiện đại do Brown đề xướng năm 1993, biểu diễn quá trình dịch như một mô
hình kênh, gồm 3 thành phần: Kênh nguồn (ngôn ngữ nguồn), kênh dịch và kênh
đích (ngôn ngữ đích).
Về mặt ý tưởng, phương pháp này biến việc dịch về bài toán tìm văn bản
ngôn ngữ đích (v) sao cho:
)|(maxarg evPv
v
=
(1.1)
Trong đó: e là văn bản ngôn ngữ nguồn.
Áp dụng công thức Bayes ta có:
)(
)()|(
maxarg
eP
vPveP

v
v
=
(1.2)
Dễ dàng nhận thấy các giá trị P(v) và P(e) là hoàn toàn xác định, bởi vậy bài toán
được đưa về việc: Làm thế nào để P(e|v) là cực đại?
Để tính được P(e|v), chúng ta dựa vào việc đặt các liên kết tương ứng giữa các từ
trong 2 câu (v) và (e). Chẳng hạn với cặp câu:
(e) I have a blue hat.
(v) Tôi có một cái mũ xanh.
Các từ tương ứng được xác định như sau (dựa vào công cụ có sẵn):
Gọi a=(e
i
,v
i
) là một liên kết, ta có :
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
I have a blue hat .
Tôi có một cái mũ xanh .
16
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
)|,()|( vaePveP
a

=
Trong đó, P(e, a|v) được xác định thông qua biểu thức:

=
+
=

m
j
ajt
m
j
vep
l
vaeP
1
)|(
)1(
1
)|,(
Với: - l,m lần lượt là độ dài (số từ) của v và e.
- p
t
(e
j
|v
aj
) chính là xác suất của e
i
khi có v
aj
(hay nói cách khác là xác suất hai
từ này có liên kết với nhau).Xác suất này hoàn toàn có thể thống kê được nhờ tập
mẫu.
Chẳng hạn, với 2 câu ví dụ trên, ta có:
5
)15(

1
)|,(
+
=vaeP
[p
t
(I|tôi).p
t
(have|có)…p
t
(hat|cái mũ)]
Xác suất trên hoàn toàn tính được, do vậy P(e|v) là tính được. Trong số các
câu (v) trong tập mẫu, câu nào cực đại hoá được P(e|v) chính là câu dịch cần chọn.
Như vậy, thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ
dịch này tự động xây dựng các từ điển, các quy luật dựa trên phương pháp thống kê.
Rõ ràng, cách tiếp cận này không đòi hỏi một sự phân tích sâu về ngôn ngữ, chúng
thực hiện hoàn toàn tự động các quá trình phân tích, chuyển đổi, tạo câu dựa trên kết
quả thống kê có được từ kho ngữ liệu.
1.3.5. Dịch dựa trên ví dụ (Dịch so khớp tập mẫu)
Đặc điểm của các hệ dịch theo cách tiếp cận này là: thay vì việc phân tích và
chuyển đổi cú pháp cho các câu cần dịch; thay vì việc tạo ra hàng loạt các luật
chuyển đổi, quá trình dịch sẽ được thực hiện bằng cách tìm câu tương tự với câu cần
dịch trong một tập mẫu (hay kho ngữ liệu) đã được xây dựng và huấn luyện trước.
Có thể nói đây là một hướng tiếp cận khá đặc sắc, ở chỗ: Nó giúp hạn chế được đáng
kể những khó khăn của xử lý ngôn ngữ tự nhiên như nhập nhằng ngữ nghĩa, nhập
nhằng cú pháp…Dịch trên nền ví dụ có thể dịch tốt những câu với câu trúc ngữ pháp
rất phức tạp, điều mà các hướng tiếp cận khác có thể không làm được. Tuy vậy, khó
khăn lớn nhất cho phương pháp là làm sao có thể thu thập và xây dựng được một tập
mẫu đủ lớn để có thể dùng được. Đi liền với nó là cách huấn luyện, tổ chức lưu trữ
và cơ chế tìm kiếm để đảm bảo về mặt tốc độ xử lý. Do đây là hướng tiếp cận của

đồ án tốt nghiệp nên nó sẽ được trình bày kỹ trong chương 2 của báo cáo này.
1.4. Sơ lược về tình hình nghiên cứu và triển khai dịch máy
tại Việt Nam hiện nay
Hiện nay, bài toán dịch máy đã được quan tâm hơn tại Việt Nam. Bảng sau
đây liệt kê một số nhóm chính đang nghiên cứu và các hướng tiếp cận :
STT Tên nhóm Hướng tiếp cận và tình hình nghiên cứu
1 National Center for
Technology Progress
-Xây dựng hệ dịch Anh-Việt theo hướng tiếp cận
Rule-Based.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
17
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
(Dr. Le Khanh Hung) - Là đơn vị duy nhất (đến thời điểm hiện tại) có
sản phẩm dịch máy đã được thương mại hóa
(EVTRAN 2.0, EVTRAN 3.0 )
2 Trường Đại học Khoa
học tự nhiên TP. HCM
(Dr. Đinh Điền)
-Đã nghiên cứu các phương pháp xây dựng từ điển
song ngữ, tập ngữ liệu song ngữ.
-Nghiên cứu hướng tiếp cận dựa trên các luật
chuyển đổi (Transfer based) cho hệ dịch Anh-Việt.
3 Trường Đại học Bách
khoa TP. HCM
(Pr. Phan Thị Tươi)
-Phương pháp thống kê (Statistical) cho hệ dịc
Việt-Anh.
-Phương pháp dựa trên các ngữ (phrase) cho hệ
dịch Anh-Việt.

4 JAIST
(Dr. Lê Anh Cường)
Trước đây: Tiếp cận theo hướng Rule-Based xây
dựng hệ dịch Anh-Việt.Hệ thống đã xây dựng hoàn
tất nhưng chưa được công bố.
Hiện nay: Chú trọng vào phương pháp thống kê,
phát triển hệ thống dịch dựa trên luật nhờ kỹ thuật
thống kê.

(Nguồn: Current Status of Machine Translation Research in Vietnam- Towards
Asian wide multi language machine translation project )
Bảng 1. 1: Phương pháp tiếp cận và tình hình nghiên cứu dịch máy tại một số
nhóm chính ở Việt Nam hiện nay.
Xét về hướng tiếp cận, đa số các nhóm đều xây dựng các hệ dịch dựa trên
phân tích và ánh xạ cấu trúc ngữ pháp, kết hợp với phương pháp thống kê. Hiện nay,
Rule-Based có thể nói là hướng tiếp cận chủ đạo, với từ điển song ngữ và các luật
ngữ pháp được xây dựng ngày càng công phu hơn (Điển hình là sản phẩm
EVTRAN, phiên bản 2.0 với 3000 luật và 250.000 từ nhưng đến phiên bản 3.0 các
con số tương ứng đã tăng lên là 10.000 và 530.000)
Tình hình xây dựng tập ngữ liệu ở nước ta vẫn còn nhiều hạn chế và bất
cập.Một trong những bộ ngữ liệu công phu nhất có thể kể đến EVC (Đại học khoa
học tự nhiên-Đại học Quốc gia TP.HCM xây dựng ) với khoảng 40.000 cặp câu song
ngữ Anh-Việt (xấp xỉ khoảng 5.500.000 câu) về lĩnh vực khoa học và công nghệ…
Các câu trong tập ngữ liệu được xử lý về mặt hình thái, gán nhãn từ loại (POS-Tag)
và gán nhãn ngữ nghĩa một cách bán tự động.
Tuy nhiên, một điều đáng lưu ý là ít đơn vị đề xuất hướng tiếp cận Example-
Based. Mặc dù so với Rule-Based, đây là phương pháp mới mẻ hơn nhưng hiện nay
ở nhiều nước trên thế giới (đặc biệt là Nhật Bản, Mỹ…), hướng tiếp cận này đã trở
nên rất phổ biến. Các nghiên cứu đã chỉ ra mỗi hướng đều có những ưu, nhược điểm
riêng, và việc kết hợp cả hai phương pháp để tận dụng ưu điểm của từng phương

pháp đang là hưóng đi của đa số các quốc gia. Do vậy, trong những năm tới, chúng
ta cần có sự quan tâm hơn nữa đến cách tiếp cận này.
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
18
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
1.5. Nhiệm vụ, phạm vi của đồ án tốt nghiệp
Đồ án tốt nghiệp cần phải thực hiện những nhiệm vụ sau:
• Nghiên cứu sâu lý thuyết dịch máy dựa trên So khớp tập mẫu: Đặc trưng, mô
hình tổng quát, cách xây dựng, huấn luyện và sử dụng kho ngữ liệu, các
phương pháp so khớp (tìm kiếm ngữ liệu tương tự nhất)…
• Tiếp cận với một hệ EBMT cụ thể để tìm hiểu cơ chế lưu trữ và huấn luyện
tập mẫu, cơ chế tìm kiếm và điều hợp để thu được câu dịch tốt nhất. Sau đó,
đưa ra những nhận định, đánh giá các ưu, khuyết điểm của hệ thống này.Trên
cơ sở đánh giá đó, đề xuất các ý tưởng cải tiến cho hệ thống để nâng cao chất
lượng dịch và tối ưu hoá thời gian xử lý.Với mỗi thuật toán đề xuất, giải thích
lý do lựa chọn, đánh giá được hiệu quả và độ phức tạp.
• Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu là các cặp
câu song ngữ thành dạng có thể áp dụng được cho quá trình so khớp.
• Xây dựng tập luật chuyển đổi cú pháp Anh-Việt phục vụ cho bài toán phụ:
Xác định vị trí của nghĩa của một từ trong câu dịch khi thêm từ đó vào câu
tiếng Anh tương ứng.
• Giải quyết bài toán lấy về từ tiếng Anh nguyên gốc từ các biến thể của nó
(dạng số nhiều của danh từ, dạng quá khứ đơn, quá khứ phân từ của động
từ…)
Những công việc này để chuẩn bị cho đồ án tốt nghiệp.Trong khuôn khổ của một đồ
án, tác giả giới hạn phạm vi như sau:
• Hệ dịch chỉ dịch các văn bản và là từ tiếng Anh sang tiếng Việt (không có
chiều ngược lại).
• Đồ án chỉ tập trung xây dựng phần lõi (core) của hệ dịch EBMT, từ giai đoạn
có câu vào (đã được tiền xử lý) đến lúc có câu dịch hoàn chỉnh.

• Đồ án sẽ không xây dựng mà kế thừa những kết quả sau :
o Tập mẫu Anh-Việt , từ điển đồng nghĩa, từ điển song ngữ
o Bộ phân tích cú pháp tiếng Anh (để phục vụ cho giai đoạn tiền xử lý
văn bản đầu vào và giai đoạn dịch sau này) thông qua mã nguồn mở.
Kết chương
Trong chương đầu tiên này, ta đã xác định được:
• Lịch sử hình thành, khái niệm, kiến trúc và vai trò thúc đẩy sự phát triển của
bài toán dịch máy.
• Tìm hiểu một số chiến lược dịch máy, tập trung vào 3 hướng tiếp cận chính:
dịch trên nền luật, trên nền ví dụ và dịch dựa trên thống kê.Tình hình nghiên
cứu dịch máy tại Việt Nam.
• Đề ra được nhiệm vụ cho đợt thực tập tốt nghiệp, gồm những nội dung chính
là:
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
19
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
o Tìm hiểu lý thuyết dịch máy trên nền ví dụ (EBMT), tập trung vào các
vấn đề chính: Cách lưu trữ và huấn luyện tập ngữ liệu, các giải thuật so
khớp…
o Nghiên cứu một hệ dịch EBMT cụ thể là hệ D3: cấu hình, hoạt động
của các khối xử lý chính, giải thuật chính mà hệ sử dụng: so khớp quy
hoạch động (DP-Matching).
o Thiết kế một hệ dịch EBMT cho riêng mình, dựa trên nền D3, nhưng
chỉnh sửa và bổ sung một số giải thuật để tối ưu chi phí thời gian xử lý
và chất lượng dịch.Nghiên cứu các lý thuyết sử dụng trong các thuật
toán đó: Lý thuyết đồ thị, Otomat, thuật toán A*…
Chương sau sẽ thực hiện nhiệm vụ đầu tiên, đó là nghiên cứu những lý thuyết chung
về phương pháp dịch máy trên nền ví dụ.
Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu


2.1. Vài nét về lịch sử của lý thuyết EBMT
Có thể nói rằng ý tưởng đầu tiên về một phương pháp dịch máy mới mẻ và
độc đáo- còn được gọi là dịch trên nền ví dụ, hay dịch dựa vào tập mẫu - được xuất
hiện đầu tiên trong một tham luận tại một hội thảo khoa học năm 1981, của nhà khoa
học Nhật Bản có tên là Makoto Nagao. Tuy nhiên, phải đến 3 năm sau, ý tuởng đó
mới được công bố rộng rãi, được giới khoa học quan tâm và biết đến. Đây cùng là
thời khắc mở đầu cho hàng loạt các công trình nghiên cứu về EBMT sau này.
Bản chất của EBMT, mà sau này được diễn giải bằng những thuật ngữ như:
“Dịch bằng suy dẫn từ ví dụ”, hay “Dịch trên nguyên lý tương tự” đã được Nagao
viết một cách giản dị, dễ hiểu trong một bài báo của ông được đăng tài năm 1984 :
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
20
Những nội dung chính:
• Khái niệm, đặc trưng và sơ đồ khối của một hệ EBMT.
• Kho dữ liệu song ngữ (PC): Giới thiệu chung, các cách tổ chức
lưu trữ và huấn luyện ngữ liệu.
• Một số phương pháp so khớp hiệu quả được sử dụng trong các hệ
EBMT.
• Giới thiệu khái quát về hai hệ dịch EBMT điển hình

Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
“ Man does not translate a simple sentence by doing deep linguistic analysis,
rather, Man does translation, first, by properly decomposing an input sentence into
certain fragmental phrases , then by translating these phrases into otherlanguage
phrases, and finally by properly composing these fragmental translations into one
long sentence. The translation of each fragmental phrase will bedone by the analogy
translation principle with proper examples as its reference.”
(Nagao-1984)
Như vậy, theo ông, cái cốt lõi và bản chất nhất của EBMT dễ dàng phân biệt
so với các phương pháp, các cách tiếp cận khác, chính là việc không can thiệp sâu

vào cấu trúc ngữ pháp của câu trong văn bản. Thay vào đó, chúng ta phân tách câu
cần dịch thành những “câu con” đơn giản hơn. Sau đó, áp dụng những thuật toán so
khớp để tìm kiếm trong tập mẫu câu tương tự nhất với mỗt câu con đó, và vì thế dịch
được chúng sang ngôn ngữ đích. Công việc cuối cùng chỉ là làm sao để kết hợp được
các câu ở ngôn ngữ đích một cách thích hợp để thu được câu dịch hoàn chỉnh, của
dữ liệu đầu vào. Xuất phát từ quan điểm đó, Nagao định nghĩa 3 thành phần chính
trong một hệ dịch kiểu Example-Based là:
• Thành phần so khớp từng câu dựa vào tập mẫu (Matching Fragment
Component)
• Thành phần nhận dạng các đoạn tương ứng giữa câu ở ngôn ngữ nguồn và
ngôn ngữ đích.
• Thành phần kết hợp các đoạn đã được dịch để có được câu dịch hoàn chỉnh.
Đây là 3 thành phần chính trong một hệ EBMT truyền thống.Sau này, trong
các hệ dịch tiên tiến hơn như D3,… để nâng cao hiệu suất dịch, nhiều thành phần
khác đã được bổ sung. Nhưng tất cả chúng đều kế thừa những ý tưởng nguyên thuỷ
này.
Với mục đích minh hoạ cho bản chất của EBMT, Nagao và Sato đã đưa ra
một ví dụ điển hình năm 1990. Trong ví dụ này, ngôn ngữ nguồn là Tiếng Anh và
ngôn ngữ đích là Tiếng Nhật (quê hương của hai ông). Xin được lấy lại ví dụ này
với ngôn ngữ đích là Tiếng Việt:
(1) He buys a book on international politics.
(2) a. He buys a notebook.
Anh ấy mua một quyển vở
b. I read a book on international politics.
Tôi đọc một cuốn sách chính trị quốc tế.
(3) Anh ấy mua một cuốn sách chính trị quốc tế.
Trong ví dụ này, (1) là câu cần dịch. Giả sử trong tập mẫu chúng ta đã có hai
câu (2a) và (2b).Bằng cách xác định phần tương ứng Anh-Việt trong từng câu và
ghép lại theo trật tự thích hợp, sẽ thu được câu dịch (3).
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM

21
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
2.2. Khái niệm, đặc điểm và sơ đồ khối
2.2.1. Khái niệm và sơ đồ khối
EBMT là một trong hai chiến lược dịch máy dựa vào tập mẫu. Khác với
phương pháp thống kê, EBMT sử dụng tập mẫu một cách trực tiếp: Nó lọc ra từ đó
ngữ liệu tương tự nhất E' với câu cần dịch E. Sau đó, thực hiện biến đổi từ câu dịch
V' của E' để có được câu dịch V cần tìm của E.
Về cấu trúc, một hệ EBMT gồm hai module chính:
• Module tìm kiếm: (Retrieve Module): thực hiện nhiệm vụ tìm kiếm và
trích ra từ kho ngữ liệu những cặp câu (E', V') (tương ứng là phần ngôn ngữ nguồn
và đích), với E' là tương tự nhất so với câu đầu vào E, dựa trên một số phép đo độ
đồng nghĩa độc lập với ngôn ngữ.
• Module điều hợp: (Adapt module) có chức năng điều chỉnh (thay thế,
thêm, xoá từ ) đối với V' để được câu dịch cần tìm V (dựa trên sự trợ giúp của từ
điển song ngữ ).
Từ câu trúc đó, ta thiết lập mô hình tổng quát cho một hệ EBMT như sau:
Hình 2. 1. Mô hình tổng quát của hệ EBMT.
2.2.2. Phân biệt EBMT với TM (Translation Memory)
Khái niệm EBMT thường gắn liền với một kỹ thuật có liên quan, đó là "bộ
nhớ dịch" (Translation Memory).Mối quan hệ mật thiết này một phần xuất phát từ
việc cả hai đều được công bố vào cùng một thời điểm; và sau này có nhiều người đã
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
Kho ngữ liệu
song ngữ
Từ điển đồng
nghĩa
Từ điển song
ngữ
RETRIEVE+ADAPT

Input Translation
Độ tương tự
22
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
sử dụng thuật ngữ “Memory-based translation” như một thuật ngữ đồng nghĩa với
EBMT. Đã có nhiều nhà khoa học cho rằng hai thuật ngữ nói trên về cơ bản là đồng
nhất.Tuy nhiên, chúng vẫn là hai khái niệm độc lập.Trước hết, xét về sự tương đồng
thì cả hai:
• Đều có ý tưởng sử dụng lại các ví dụ (ngữ liệu) từ các bản dịch đã tồn
tại trước đó.
• Đều phải giải quyết chung bài toán tổ chức lưu trữ kho ngữ liệu với
kích thước lớn; đồng thời có cơ chế so khớp để chọn ra được ngữ liệu mong muốn.
Tuy vậy, chúng có những điểm khác biệt như sau:
• TM là một công cụ tương tác cho các bộ dịch song ngữ, trong khi
EBMT về bản chất là một kỹ thuật, phương pháp luận dịch tự động.
• Trong việc định vị tập ngữ liệu tương đương, TM giao cho con người
quyết định, còn EBMT thì không: con người chỉ can thiệp được trong giai đoạn
trước khi bắt đầu quá trình xử lý mà thôi.
2.3. Kho ngữ liệu song ngữ (Parallel corpus-PC)
2.3.1. Giới thiệu chung
PC là một yếu tố không thể thiếu được đối với bất cứ một hệ EBMT nào. Có
thể nói việc xây dựng và huấn luyện PC tốt là yếu tố tiên quyết đối với hiệu năng của
hệ dịch EBMT.Tuy nhiên, để làm được điều đó là không dễ dàng.
Hầu hết các PC hiện nay đều được xây dựng dựa trên việc thu thập từ nhiều
nguồn văn bản song ngữ khác nhau (sách, từ điển, ngữ liệu…) thuộc các lĩnh vực
khoa học, kỹ thuật, xã hội…Việc thu thập phải tuân thủ theo một số tiêu chí nhất
quán về mặt ngôn ngữ, văn phong, lĩnh vực…
Sau khi được thu thập từ nhiều nguồn khác nhau, nói chung hầu hết các PC
đều trải qua các công đoạn tiền xử lý: chuẩn hoá về dạng văn bản (text only), font
chữ, chuẩn hoá chính tả…Sau đó, chúng được tiến hành đánh dấu tương ứng với

từng cặp câu. Các cặp câu này được đặt liên kết từ (Word align) một cách tự động
bằng chương trình (Liên kết từ là việc xác định mối liên kết giữa một ( hoặc nhiều)
từ Tiếng Anh với một (hoặc nhiều) từ Tiếng Việt tương ứng ).
Ví dụ, dưới đây là mẫu ngữ liệu song ngữ đã được liên kết (của bộ ngữ liệu
song ngữ Anh-Việt EVC: English-Vietnamese Corpus):
List the five most common types of computer system.
Liệt kê năm kiểu hệ thống máy tính phổ biến nhất.
1 1 3 6 9 9 8 8 5 5 4 10
Identify two unique features of supercomputers.
Xác định hai đặc trưng duy nhất của siêu máy tính.
[1_1,2][2_3][3_6,7][4_5,4][5_8][6_9,10,11][7,12]
Diffrentiate workstations from personal computers.
Phân biệt trạm làm việc với máy tính cá nhân.
1 1 2 2 2 0 5 5 4 4 6
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
23
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
Hình 2. 2 Minh hoạ các cặp được liên kết trong ngữ liệu song ngữ
Các mối liên kết của một cặp câu được minh hoạ như hình dưới đây:
Hình 2. 3 Minh hoạ các mối liên kết của một cặp câu
2.3.2. Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện
OpenNLP
Thực ra trong mục (2.3.1) cũng đã đề cập đến một số bước huấn luyện PC,
đó là: Tiền xử lý (Pre-processing) và liên kết từ (Word-align). Mục này chỉ đề cập
tiếp đến một số bước huấn luyện nữa, đi sâu vào những đặc trưng bản chất của ngôn
ngữ, cụ thể là cấu trúc ngữ pháp.Tuy nhiên, do đây không phải là trọng tâm
nghiên cứu của EBMT, nên báo cáo không tập trung đi sâu vào nghiên cứu
thuật toán, chỉ giới thiệu khái quát các bước huấn luyện mà thôi. Trong khi xây
dựng hệ dịch, để huấn luyện PC, tác giả sẽ sử dụng một thư viện các hàm đã được
xây dựng sẵn để phục vụ cho các thao tác Xử lý ngôn ngữ tự nhiên, cụ thể hơn là

Phân tích cú pháp Tiếng Anh; đó là bộ công cụ OpenNLP (mã nguồn mở, có thể
download tại website: ).Việc
sử dụng công cụ OpenNLP không những chỉ giúp huấn luyện PC mà còn giúp chúng
ta tiền xử lý văn bản đầu vào.
Có thể sử dụng thư viện OpenNLP để thực hiện các công việc sau:
2.3.2.1. Gán nhãn từ loại (POS-Tagging)
Sau khi câu đã được tách từ, chúng ta tiến hành gán nhãn từ loại cho mỗi từ trong
nó. Đúng như tên gọi, công việc này xác định xem trong câu, mỗi từ có kiểu từ loại
nào. Trong các hệ EBMT được xây dựng ở chương 3, thao tác này cần thiết phải áp
dụng đối với cả mỗi câu Tiếng Anh trong PC và mỗi câu trong văn bản đầu vào vì nó
phục vụ trực tiếp cho thuật toán so khớp.
Hình dưới đây minh hoạ việc gán nhãn từ loại cho các câu trong 1 văn bản:
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
24
Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu”
Hình 2. 4 Bộ gán nhãn từ loại trong thư viện OpenNLP
2.3.2.2. Phân đoạn (Chunking)
Phân đoạn câu là nhằm xác phân chia câu thành các ngữ (phrases) như: ngữ
động từ, ngữ danh từ…Việc phân chia này sẽ giúp xác định chính xác nghĩa của từ
trong trường hợp từ có nhiều nghĩa. Giai đoạn này thường được tiến hành sau khi đã
gán xong nhãn từ loại cho câu.
Chẳng hạn, câu:
It had been the outburst of a speculative builder
Có thể được phân đoạn như sau:
[NP It/PRP] [VP had/VBD been/VBN] [NP the/DT
outburst/NN] [PP of/IN] [NN a/DT speculative/JJ builder/NN ]
Trong đó: NP: cụm danh từ.
VP: Cụm động từ.
PP: Cụm giới từ…
2.3.2.3. Phân tích cú pháp đầy đủ(Parsing)

Đây là bước huấn luyện tổng hợp có được từ kết quả của các giai đoạn thành
phần nêu trên. Trong đó câu sẽ được phân tích thành các thành phần cú pháp.Việc
tiến hành phân tích cú pháp cho các câu ở cả ngôn ngữ nguồn (Tiếng Anh) và ngôn
ngữ đích (Tiếng Việt) là khâu quan trọng để xác định được các thành phần nào
tương ứng với nhau trong từng cặp câu.Nếu không phân tích cú pháp, chắc chắn việc
sản sinh mẫu và chọn mẫu trong hệ dịch xây dựng sau này không thể thực hiện được
(Chúng ta sẽ thấy rõ hơn tác dụng của pha này ở chương 3-Mô hình hệ dịch D3)
Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM
25

×