ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN VINH
Xây dựng chương trình dịch tự động Anh - Việt
bằng phương pháp thống kê
LUẬN VĂN THẠC SỸ
Người hướng dẫn: PGS.TS. Đinh Mạnh Tường
Hà nội - 2005
Nguyễn Văn Vinh Luận văn thạc sĩ
1
MỤC LỤC
1
3
4
- 6
6
ch máy 6
6
7
8
8
8
9
9
1.3.5. The 9
9
10
10
13
17
19
21
21
21
29
- CORPUS VÀ GIÓNG HÀNG CÂU 30
2.1. Corpus 30
2.1.1. Corpus thô 30
32
2.2. Gióng hàng câu 32
34
36
38
- 39
39
3.1.1. Mô hình Kênh - Channel Model) 40
40
3.1.3. 41
42
43
46
3.2.1. N-gram 46
3.2.2. Mô hình n 47
48
49
49
Nguyễn Văn Vinh Luận văn thạc sĩ
2
3.3.1. Gióng hành 50
53
53
59
3.5.1. 59
60
61
61
61
62
64
- - 66
66
4.2. Modul phân tích hình thái 66
68
69
4.4.1. Mô hình 1 69
4.4.2. Mô hình 2 71
74
74
4.7. T 75
75
75
77
81
82
85
88
Nguyễn Văn Vinh Luận văn thạc sĩ
3
DANH MỤC HÌNH
Hình 1.1: Sơ đồ tổng quát của hệ dịch máy 7
Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi 12
Hình 1.3: Mô hình dịch Liên ngữ 14
Hình 1.4: So sánh số bộ luật 16
Hình 1.5: Sơ đồ hệ thống dịch dựa trên dữ liệu 18
Hình 2.1: Sơ đồ quá trình tạo corpus 31
Hình 3.1: Sơ đồ của hệ dịch bằng phƣơng pháp thống kê 39
Hình 3.2: Chu kì phát triển của hệ thống dịch thống kê 45
Hình 4.1. Sơ đồ chƣơng trình dịch Anh-Việt bằng thống kê 67
Nguyễn Văn Vinh Luận văn thạc sĩ
4
MỞ ĐẦU
-
-
-
[18].
CANDIDE -
Nguyễn Văn Vinh Luận văn thạc sĩ
5
óng hàng câu.
-
Nguyễn Văn Vinh Luận văn thạc sĩ
6
Chƣơng 1 - TỔNG QUAN
1.1. Khái niệm về dịch máy,vai trò, vị trí của dịch máy
1.1.1 Khái niệm về dịch máy
Định nghĩa: Các hệ dịch máy (machine translation system-MT) là các hệ thống sử
dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài
thứ tiếng khác.
1.1.2 Vị trí, vai trò của dịch máy
-
-
Nguyn Vn Vinh Lun vn thc s
7
1.2. S tng quỏt ca mt h dch mỏy
quỏ trỡnh
-
Văn bản
vào
Con ng-ời
Soạn thảo
kiểm tra
chính tả
Dịch máy
Hiệu
đính
Cơ sở trí thức
Văn bản
ra
Hỡnh 1.1: S tng quỏt ca h dch mỏy
Nguyễn Văn Vinh Luận văn thạc sĩ
8
1.3. Phân loại dịch máy
1.3.1. Theo mức độ can thiệp của con ngƣời
a) Hệ thống có sự trợ giúp của con người
b) Machine Translation(MT)- Các hệ dịch tự động hoàn toàn
c) Machine-aided Translation(MAT)- Dịch máy trợ giúp. Bao gồm:
+ Human-assisted machine translation(HAMT)
+ Machine- assisted human translation(MAHT)
+ Terminology-Data banks -
1.3.2. Theo số ngữ và số chiều dịch
=>
Nguyễn Văn Vinh Luận văn thạc sĩ
9
1.3.3. Theo cách lấy thông tin
+ Dịch trực tiếp
+ Dịch chuyển đổi
+ liên ngữ
+ Dịch dựa trên dữ liệu (translation by corpus)
1.3.4. Theo phạm vi ứng dụng
1.3.5. Theo ngƣời dùng
+ Dành cho các phiên
chính xác.
1.4. Các phương pháp dịch máy cơ bản
Dich trực tiếp
Dịch chuyển đổi(Dịch dựa trên cơ sở luật)
Liên ngữ
Dịch dựa trên dữ liệu
Nguyễn Văn Vinh Luận văn thạc sĩ
10
1.4.1. Các hệ dịch trực tiếp
-
1.4.2. Các hệ thống dịch chuyển đổi
n
Định nghĩa:
Dịch bằng phương pháp chuyển đổi là các hệ thống phân tích câu vào trong ngôn
ngữ nguồn sau đó áp dụng các luật ngôn ngữ và từ vựng (gọi là luật chuyển đổi) để
đưa ra cấu trúc ngữ pháp tương ứng trong ngôn ngữ đích.
Nguyễn Văn Vinh Luận văn thạc sĩ
11
Các bước của phương pháp chuyển đổi:
cho
ng câu
Nguyễn Văn Vinh Luận văn thạc sĩ
12
Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi
Nguyễn Văn Vinh Luận văn thạc sĩ
13
tránh
[23].
1.4.3. Các hệ thống dịch liên ngữ.
:
Nguyễn Văn Vinh Luận văn thạc sĩ
14
write
<Agent> <Object>
"Human" "leters"
Juan writes the leters
The leters is writen by Juan
TiÕng Anh
TiÕng ViÖt TiÕng NhËt
Juan viÕt bøc th-
Bøc th- nµy ®-îc viÕt
bëi Juan
fan ga tegami wo kaku
Tegami ha fan ga kaita
Hình 1.3: Mô hình dịch Liên ngữ
Tokio announced yesterday that each home will get an super MT systerm by the
end of the decade.
this, that, all, every, the, a
Nguyễn Văn Vinh Luận văn thạc sĩ
15
John write the letter.
So sánh phƣơng pháp dịch liên ngữ với dịch chuyển đổi
Ưu điểm của phương pháp dịch liên ngữ
-
Nguyễn Văn Vinh Luận văn thạc sĩ
16
DÞch chuyÓn ®æi:
ViÖt
Anh Ph¸p
6 bé luËt
ViÖt Anh
Ph¸p Trung
12 bé luËt
DÞch liªn ng÷:
ViÖt
ViÖt Anh
Liªn ng÷
Ph¸p
Anh
3 bé luËt
Liªn ng÷
Ph¸p
Trung
6 bé luËt
Hình 1.4: So sánh số bộ luật
Nguyễn Văn Vinh Luận văn thạc sĩ
17
Nhược điểm của phương pháp dịch liên ngữ
1.4.4. Dịch dựa trên dữ liệu
Dịch dựa trên dữ liệu là một phương pháp dịch dựa hoàn toàn vào một khối lượng
rất lớn các tài liệu các văn bản dịch có sẵn
1.4.4.1 Dịch dựa trên ví dụ(Examples based machine translation)
Nguyn Vn Vinh Lun vn thc s
18
Ng-ời dịch
Corpus song ngữ
Huấn luyện
Nguồn trí thức
Hệ quyết địnhTiền xử lý Hậu xử lý
Văn
bản
Văn bản
dịch
Hỡnh 1.5: S h thng dch da trờn d liu
Nguyễn Văn Vinh Luận văn thạc sĩ
19
1.4.4.2. Dịch thống kê (statistical translation)
khác trong
1.5. Các hệ thống dịch máy trên thế giới
SYSTRAN
DIPLOPMAT
-
JANUS:
-
-
KANT:
Nguyễn Văn Vinh Luận văn thạc sĩ
20
PANGLOS:
languge).
Ban Nha,
-80%.
-
--
Nguyễn Văn Vinh Luận văn thạc sĩ
21
1.6. Các vấn đề trong khi dịch ngôn ngữ tự nhiên
1.6.1. Sự khác nhau giữa ngƣời dịch và máy dịch
hau.
1.6.2. Các trở ngại khi dịch
-
Nguyễn Văn Vinh Luận văn thạc sĩ
22
a). Nhập nhằng
t
+Nhập nhằng từ vựng
make nervous
faire mettre
train tàu hoả, đoàn tuỳ tùng.
train đào tạoc dạy dỗ.
Set
I love you (tôi yêu bạn).
love tình yêu (noun), yêu
love
yêu (verb).
+Nhập nhằng về cú pháp (syntax)
Nguyễn Văn Vinh Luận văn thạc sĩ
23
The man passed a train with a broken locomotive.
pass
- pass a train with a broken locomotive
- pass a train with a borken locomotive
with a broken locomotive
-
-
-
Câu 1: I saw a horse with a telescope.
- I saw a horse with a telescope.
- I saw a horse with a telescope.
Nguyễn Văn Vinh Luận văn thạc sĩ
24
câu 2: I saw a man with a telescope.
- I saw a man with a telescope.
- I saw a man with a telescope.
-
-
-
-
+ Nhập nhằng nói năng
John took the fruit from the table, then he cleaned it.
+ Mơ hồ về phân đoạn.
-
có các nguyên nhân sau:
-
-
Ông già đi nhanh quá.