Tải bản đầy đủ (.pdf) (101 trang)

Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (39.06 MB, 101 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHO A CÔNG NG HỆ
TRƯƠNG XUÂN NAM
MỘT PHƯƠNG PHÁP
XÂY DựNG HỆ CO SỞ TRI THỨC
CHO CHƯƠNG TRÌNH DỊCH T ự ĐỘNG
• • •
Chuyên ngành: Công nghệ thông tin
Mã sổ: 1.01.10
LUẬN VĂN TH Ạ C s ĩ
Người hướng dẫn khoa học:
P G S .T S. Hồ Sĩ Đàm
Hà N ội-N ă m 2004
ĐẠI HỌC QUỐC GIA HÀ NỘI
KHO A CÔNG NG HỆ
TRƯƠNG XUÂN NAM
MỘT PHƯƠNG PHÁP
XÂY DựNG HỆ CO SỞ TRI THỨC
CHO CHƯƠNG TRÌNH DỊCH T ự ĐỘNG
• • •
Chuyên ngành: Công nghệ thông tin
Mã sổ: 1.01.10
LUẬN VĂN TH Ạ C s ĩ
Người hướng dẫn khoa học:
P G S .T S. Hồ Sĩ Đàm
Hà N ội-N ă m 2004
1 rương Xuân Nam
- Trang I -
Luận văn thạc sĩ
MỤC LỤC
MÒ ĐẦU 4


CHƯƠNG 1 - TỔNG QUAN VỀ DỊCH T ự ĐỘNG NGÔN NGỮ T ự NHIÊN

7
1.1 Vấn đề dịch máy - dịch tự động ngôn ngữ tự nhiên 7
1.1.1 Định nghĩa dịch máy 7
1.1.2 Vai trò của dịch m áy
8
1.1.3 Phân loại dịch máy 8
1.2 Lịch sử của ngành dịch máy 9
1.2.1 Giai đoạn tiền máy tính 9
1.2.2 Giai đoạn trước ALPAC 10
1.2.3 Giai đoạn phục hồi 11
1.2.4 Giai đoạn hiện nay 12
1.3 Một số chiến lược dịch m áy 14
1.3.1 Dịch trực tiếp 14
1.3.2 Dịch chuyển đổi 15
1.3.3 Dịch liên ngữ 17
1.3.4 Dịch bằng thống kê (Statistical Machine Translation) 18
1.3.5 Dịch bằng ví dụ (Example-Based Machine Translation)

19
1.4 Phạm vi nghiên cứu của luận văn 20
1.4.1 Trọng tâm nghiên cứu của luận văn 21
1.4.2 Mục tiêu của luận văn 22
C H Ư Ơ N G 2 - C A U TR Ú C C Ủ A M Ộ T H Ệ D ỊC H T ự Đ Ộ N G ĐƠ N G IẢ N

23
2.1 M ộ t số khái niệm cơ b ả n 23
2.1.1 Từ vựng ’ 23
2.1.2 Phân loại ngữ pháp 23

2.1.3 Luật văn phạm 24
2.1.4 Phân loại ngữ nghĩa 25
2.1.5 Cú pháp điều khiển 25
2.2 Cấu trúc của một hệ dịch tự động đơn giản 25
2.2.1 Sơ đồ hệ dịch tự động 26
2.2.2 Hoạt động của hệ dịch 27
2.3 Phần xử lý từ vựng
.

27
2.3.1 Chức năng, nhiệm vụ của xử lý từ vựng 27
2.3.2 Hoạt động của phần xử lý từ vựng 27
2.3.3 Các kĩ thuật sử dụng trong phần xử lý từ vựng
28
2.3.4 Một số vấn đề trong xử lý từ vựng 29
2.4 Phần xử lý ngữ pháp 30
2.4.1 Chức năng, nhiệm vụ của xử lý ngữ pháp 30
2.4.2 Hoạt động của phần xử lý ngữ pháp 31
2.4.3 Các kĩ thuật sử dụng trong phần xử lý ngữ pháp 32
2.4.4 Một sổ vấn đề trong xử lý ngữ pháp
33
2.5 Phần xử lý ngữ nghĩa 34
MỞ ĐÂU
T'rurcmg Xu-11 Nam
- Trang 2 -
Luận văn thạc sĩ
2.5.1 Chức năng, nhiệm vụ của xử lý ngừ nghĩa

34
2.52 Hoạt động của phần xử lý ngữ nghĩa

34
2.53 Các kĩ thuật sử dụng trong phần xử iý ngữ nghĩa 35
2.5 l Một số vấn đề trong xử lý ngữ nghĩa
35
2.6 Các thành phần khác 36
2.61 Khối tiền xử lý 36
2.62 Khối thu thập và quản lý tri thức
37
.2.7 Nhìn lại các vấn đề của hệ dịch 37
C H Ư Ơ N 3 3 - X Ử L Ý N G Ữ N G H I A B Ằ N G c ú PHÁP Đ IỀ U K H IẾ N 40
3.1 Một số phương pháp xử lý ngữ nghĩa trong dịch tự động 40
3.11 Chọn nghĩa đơn giản 40
3.12 Chọn nghĩa dựa trên thống kê - xác suất 41
3.13 Chọn nghĩa dựa trên phân tích và tổ họp ngữ nghĩa 42
3.2 Xử lý na;ữ nghĩa bàng cú pháp điều khiển
43
3.21 Khái niệm cú pháp điều khiển
43
3.22 Phân loại cú pháp điều khiển 43
3.23 Hoạt động của cú pháp điều khiển trong việc xử lý ngữ nghĩa

44
-3.3 Các vấn đề trong xử lý ngữ nghĩa bằng cú pháp điều khiển

48
3.3J Tính phức tạp của cú pháp điều khiển 48
3.32 Tính cứng nhắc của cú pháp điều khiển 50
3.33 Đánh giá hiệu quả ứng dụng cú pháp điều khiển

51

-3.4 Phương hướng giải quyết bằng học tự động

.

53
3.41 Đơn giản hoá cú pháp điều khiển 53
3.4- Khả năng sinh tri thức dịch từ mẫu dịch đã có 54
3.43 Sử dụng tri thức dịch để sinh tự động cú pháp điều khiển

54
C H Ư Ơ K j 4 - M Ô H IN H TẢ N G T R ƯỞ NG TR O N G x ử L Ý N G Ữ N G H ĨA

56
‘4.1 Giới thiệu mô hình tăng trưởng 56
4.11 Đặt vấn đ ề 56
4.11 Cấu trúc các thành phần trong cơ sở tri thức
56
4.13 Sơ đồ hoạt động của mô hình tăng trưởng 59
l\ 2 Xử lý mẫu dịch bằng dóng hàng văn bản 61
4.21 Bài toán dóng hàng văn bản 61
4.22 Vị trí của dóng hàng văn bản trong hệ học dịch
62
4.23 Thuật toán dóng hàng văn bản nhanh
63
4.21 Đánh giá về dóng hàng văn bản 66
<4.3 Xây dựng cú pháp điều khiển đơn giản từ mẫu đã dóng hàng

67
4.31 Các loại cú pháp điều khiển được sinh tự động


67
4.32 Kiểm tra sự tương đương giữa các mẫu 68
4.33 Thuật toán sinh cú pháp điều khiển chọn nghĩa

70
4.3 \ Thuật toán sinh cú pháp điều khiển sinh câu 71
lAA Đánh giá về mô hình tăng trưởng 73
4.41 Đánh giá chất lượng tri thức xây dựng được

73
4.42 Đánh giá hiệu năng hoạt động của mô hình 74
MỞ ĐÀU
Trưong Xuân Nam -Trang 3- Luận văn thạc sĩ
CHƯƠNG 5 - CHƯƠNG TRÌNH VÀ THỬ NGHIỆM 76
5.1 Kiến trúc của hệ thống
76
5.1.1 Kiến trúc của hệ dịch 77
5.1.2 Kiến trúc của hệ học dịch 78
5.2 Một số cấu trúc dữ liệu chính trong chương trình 80
5.2.1 Luật ngữ pháp 80
5.2.2 Thông tin về từ tố 80
5.2.3 Cây phân tích ngữ pháp 82
5.3 Các số liệu và thử nghiệm 82
5.4 Một số đánh giá về chương trình 83
K Ế T L U Ậ N 85
TÀI LIỆU THAM KHẢO


.
88

PHỤ LỤC A - GIAO DIỆN CỦA HỆ DỊCH
93
PHỤ LỰC B - GIAO DIẸN CỬA HẸ HỌC DỊCH

95
PHỤ LỤC c - DANH MỤC CÁC THUẠT t o á n 97
PHỤ LỰC D - DANH MỤC CÁC HÌNH V Ẽ 98
]>HỰ LỰC E - DANH MỤC CÁC BẢNG BIÊU 99
T rưoTg Xuân Nam
- Trang 4 -
Luận văn thạc sĩ
MỜ ĐẦU
Tror.g những năm gần đây, do sự phát triển nhanh chóng của mạng Internet và khả
niant của máy tính, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức
phong phú ở rất nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, ) và được thể
hiện ở rất nhiều ngôn ngữ khác nhau. Nhu cầu đọc hiểu và trao đổi thông tin ngày
càng trở nên cần thiết hơn bao giờ hết, thế nhưng, nhu cầu này đã và đang gặp một
rào cản lớn, đó là sự khác biệt về mặt ngôn ngữ.
Từ xa xưa, người ta đã tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác
nhai, từ việc xây dựng các bộ từ điển song ngữ, các nghiên cứu về dịch thuật giữa
các Igôn ngữ, các cách học ngoại ngữ nhanh chóng, cho đến cả hi vọng tạo được
một ngôn ngữ chung cho loài người (ngôn ngữ Esperanto - quốc tế ngữ). Khi sức
mạn.1 của máy tính đã được khẳng định, bài toán sử dụng máy tính để chuyển đổi tri
thức được viết bằng ngôn ngữ này sang một ngôn ngữ khác cũng được đặt ra. Trong
gầm 50 năm, có rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai.
Hi'êr. nay, đã có nhiều hệ dịch tự động được thương mại hóa ở dạng các chương
trình máy tính hoặc các dịch vụ web [7].
Đòi với nhiều nhà nghiên cứu Việt Nam, việc xây dựng một hệ dịch máy, đặc biệt
là 'dịch tự động từ tiếng Anh sang tiếng Việt đã được đặt ra từ ỉâu [6]. Khó khăn lớn
nhiất trong việc xây dựng một chương trình dịch là việc xây dựng cơ sở tri thức về

ng<ôn ngữ cho hệ dịch [1], Chính vì lý do đó, tôi đã lựa chọn đề tài “Một phương
ph áp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động” cho luận văn
củ;a ninh. Luận văn trình bày một phương pháp xây dựng hệ cơ sở tri thức cho hệ
dịch tự động dựa trên việc học và trích rút các tri thức từ các mẫu dịch đã có. Mặc
dầm chưa giải quyết trọn vẹn các vấn đề đặt ra cho việc thu thập thông tin và xây
dựing hệ tri thức dịch, nhưng đây là phương pháp có nhiều ưu điểm như khả năng
chịịu lỗi và không cần sự tham gia quá nhiều của các chuyên gia ngôn ngữ vào quá
trình xây dựng tri thức.
Trưcmg Xuân Nam
- Trang 5 -
Luận văn thạc sĩ
Luận văn được trình bày trong 5 chương, trone, đó trọng tâm nghiên cứu và triển
khai được trình bày ở chương 4 và chươne 5.
Chưoìig 1: Tổng quan về dịch tự động ngôn ngũ' tự nhiên
Giới thiệu tổng quan về bài toán dịch tự động và các phương pháp giải quyết
bài toán này trong những năm đã qua. Trong đó cũng đã đưa ra một số đánh
giá về ưu điểm và nhược điểm của các phương pháp tiếp cận.
Chưong 2: cấu trúc của một hệ dịch tự động đon giản
Trình bày chi tiết về nhiệm vụ, cách thức hoạt động, các kỹ thuật dược sử
dụng và các vấn đề gặp phải của những thành phần cơ bản nhất tạo nên một
hệ dịch tự động.
Ch iron g 3: Xử lý ngữ nghĩa bằng cú pháp điều khiển
Đe cập đến các phương pháp xử lý ngữ nghĩa trong dịch tự động, hoạt động
của phần xử lý ngữ nghĩa và các vấn đề gặp phải trong quá trình xử lý ngữ
nghĩa. Nội dung của chương cũng đề cập đến định hướng giải quyết các vấn
đề đó, đây là tiền đề cho việc xây dựng mô hỉnh dịch tự động có khả năng tự
học thêm tri thức mới.
Chvương 4: Mô hình tăng trưỏìig trong xử lý ngữ nghĩa
Trình bày phương pháp xây dựng một mô hình sinh tri thức dịch tự động dựa
trên các cặp mẫu câu. Với mô hình này có thể xây dựng được một chương

trình dịch tự động tăng trưởng có khả năne học thêm các mẫu dịch mới để
tăng chất lượng dịch của chương trình nhưng lại không nảy sinh vấn đề xung
đột tri thức, vốn là một điểm yếu của nhiều mô hình dịch tự động khác.
Chiưcmg 5: Chương trình và thử nghiệm
Trình bày một số khía cạnh khi triển khai xây dựng mô hình tăng trưởng như
việc xây dựng từ điển, cấu trúc từ, cấu trúc nghĩa, luật ngữ pháp và thông tin
MỜĐẢU
Trương Xuân Nam
- Trang 6 -
Luận văn thạc sĩ
tri thức cho hệ dịch. Phần cuối của chương cũng trình bày một vài kết quả đã
đạt được.
Phần kết luận của luận văn tổng kết các kết quả đạt được của luận văn và nêu một
số hướng phát triển trong tương lai.
Ngoài ra, phần cuối luận văn còn có danh sách các tài liệu tham khảo được sử dụng
trong luận văn và các phụ lục trình bày về giao diện của hệ dịch tự động và hệ học
dịch.
MỞ ĐÂU
Trươi; Xuân Nam
- Trang 7 - Luận văn thạc sĩ
CH-PƠNG 1 - TỐNG QUAN VÈ DỊCH Tự ĐỘNG NGÔN
NOP Tự NHIÊN
1.1 Vấn đề dịch máy - dịch tự động ngôn ngữ tự nhiên
1.11 Định nghĩa dịch máy
Khá niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên
định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương với định
nghìi sau [16]:
M ột hệ dịch máy (Machine Translation System) là một hệ thong sử dụng máy
tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản
dịch tương đương trong ngôn ngữ khác.

Ngôi ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, còn ngôn ngữ của bản
dịch được gọi là ngôn ngữ đích. Sơ đồ trong Hình 1-1 thể hiện vị trí của hệ dịch
máytrong quá trình xử lý tài liệu [16] [25].
''ăn
làn
muon
Văn
bản
đích
Hình 1-1: Quá trình xử lý tài liệu dịch máy.
TỎNG QUAN VÈ DỊCH T ự ĐỘNG NGÔN NGỮ T ự NHIÊN
Tnrơng Xutn Nam
- Trang 8 -
Luận văn thạc sĩ
Đầu vào của một hệ dịch máy thườn» là một văn bản viết trong ngôn ngữ nsuồn,
quá trinh dịch có thể chia thành hai giai đoạn, đầu tiên, văn bản được phân tích
thành cá: thành phần, sau đó được dịch thành văn bản ờ dạng ngôn ngữ đích. Kết
quả dịch có thể được con người hiệu đính để trở thành bản dịch tốt. Như vậy trong
một quá trình dịch, con người có thể tác động vào tất cả các bước xử lý với mục
đích làm cho kết quả dịch tốt hơn.
1.1.2 Vai trò của dịch máy
Từ xa xua, con người đã có mơ ước về một vật giúp con người có thể hiểu mọi thứ
tiếng khac. Ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa
càng làn cho việc dịch trở nên quan trọng. Để giải quyết vấn đề dịch thuật, một đội
ngũ nhữig người phiên dịch, dịch giả được hình thành và duy trì để chuyển các lời
nói, văn bản từ ngôn ngữ này sang ngôn ngữ khác. Công việc dịch sử dụng con
người là công việc có tính thủ công, năng suất thấp nhưng chất lượng cao với giá
thành cao.
Với sự phát triển mạnh mẽ của Internet, khối lượng thông tin trao đổi của con người
ngày càng nhiều, việc sử dụng phiên dịch con người trong nhiều tình huống là

không thích hợp. Trong rất nhiều trường hợp, người ta không cần đến chất lượng
dịch cac như sử dụng phiên dịch con người mà chỉ cần có một bản dịch nháp có
chất lượng không quá thấp nhưng không phải chờ đợi lâu, trong trường hợp này,
một hệ dịch máy chất lượng bình thường tốt hơn một người phiên dịch giỏi. Do vậy,
nhu cầu cần có các hệ dịch máy là tất yếu. Nếu xây dựng hệ dịch máy thành công,
đây sẽ lồ công cụ xóa bỏ hàng rào ngôn ngữ giữa các dân tộc và là công cụ giúp con
người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác.
1.1.3 Phân loại dịch máy
Cỏ nhiều quan điểm phân loại dịch máy khác nhau, chẳng hạn: Phân loại theo mục
đích hệ dịch, phân loại theo kĩ thuật dịch, Với tiêu chí phân loại dịch máy theo
mục đích hệ dịch, Hutchins và Somers [16] chia các hệ dịch máy thành 3 loại:
TỔNG QUAN VỀ DỊCH T ự ĐỘNG NGÔN NGỮ TỤ'NHIÊN
Trurơn; Xuân Nam
- Trang 9 -
Luận văn thạc sĩ
• Máy trọ' dịch (Machine-Aided Human Translation): Là các hệ thống giúp
con người dịch, người dịch là chính. Ví dụ: Bộ kiểm tra chính tả, kiểm tra
ngữ pháp, từ điển,
• Máy dịch có trọ' giúp của ngưòi (Human-Aided Machine Translation):
Là các hệ thống dịch với sự trợ giúp của con người, máy dịch là chính,
nhiệm vụ của con người là trợ giúp máy để nâng cao chất lượng dịch (chẳng
hạn chọn cho máy chuyên ngành thích hợp với tài liệu cần dịch để máy có
thể có những lựa chọn nghĩa chính xác hơn) và sau đó người sẽ hiệu đính để
tạo được bản dịch cuối cùng có chất lượng cao.
• Máy dịch hoàn toàn tự động (Fully-automated Machine Translation): Là
các hệ thống dịch hoàn toàn tự động, không hề có bàn tay con người từ khi
bắt đầu xử lý cho đến khi ra bản dịch. Hệ thống này cũng là mơ ước và là
mục đích sau cùng của những người xây dựng hệ thống dịch. Hiện nay, các
hệ thống dịch hoàn toàn tự động đã có mặt trong một số lĩnh vực hẹp, khi mà
chất lượng của bản dịch không phải là yêu cầu quan trọng nhất.

1.2 Lịch sử của ngành dịch máy
Ngàih dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai đoạn
ngíắrhầu như không phát triển nhưng dịch máy vẫn là một trong những chuyên
ngíàn phát triển nhanh chóng của khoa học máy tính với nhiều kết quả rất lớn cả về
lý 1 thuyết và ứng dụng thực tế. Có thể chia sự phát triển của ngành dịch máy thành 3
thờri vỳ, kể từ năm 1949 với những ý tưởng sơ khai về một hệ dịch máy cho đến
hiệìniay (2003) với sự ra đời của nhiều server dịch máy tương đổi hoàn thiện, đã có
ứnịg iụng vào cuộc sống [6] [7].
1.2.' Giai đoạn tiền máy tính
Mcơ 'ớc về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có từ rất
lâui, ừ thê kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong việc xây
dựmimột cách biểu diễn chung cho tất cả các ngôn ngữ. Năm 1933, đã có hai phát
TÔNG QUAN VỀ DỊCH Tự' ĐỘNG NGÔN NGỮ Tự NHIÊN
Trư Trụ Xuân Nam
- Trang 10 - Luận văn thạc sĩ
riinh được cấp bàng sáng chế liên quan đến việc xây dựng các thiết bị dịch ngôn
rgữ. jeorge Artsrouni một người Pháp gốc Armenia đã thiết kế một thiết bị lưu trữ
có thì tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kì,
cũnscùng năm đó, một người Nga tên là Petr Smirnov-Troyanskii đã thiết kế một
thiết )ị dịch máy gồm 3 công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh
câu tích. Thiết kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là
\ tưcng cơ bản cho nhiều loại máy dịch được thiết kế sau này [25],
1.2.2 Giai đoạn trước ALPAC
Vào :uối những năm 1940, khi máy tính đã được phát minh và ứng dụng thành
công vào việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính
vào \iệc phiên dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng
Anh ương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại mật
mã nìo đó. Khái niệm dịch máy (machine translation) được Warren Weaver [6] đề
ra vào năm 1949. Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng
phưong pháp dịch từ sang từ (word-for-word translation) đã cho những kết quả rất

giới hạn vì từ ngữ có nghĩa khác nhau trong những ngữ cảnh khác nhau. Năm 1954,
cônsty IBM và trường đại học tổng hợp Georgetown hợp tác xây dựng một chương
trình dịch tự động Nga-Anh nhưng kết quả rất hạn chế. Với khả năng giới hạn của
máy tính trong những năm 1950-1960 và việc nghiên cứu lý thuyết xử lý ngôn ngữ
tự nhiên còn chập chững, các kết quả thu được trong lĩnh vực dịch tự động thời kỳ
nàv không đạt được kết quả khả quan.
Trong báo cáo của mình viết năm 1960, Bar-Hillel cho rằng không có hệ thống dịch
tự đọng nào có thể dịch một cách trọn vẹn nếu nó không biết được kiến thức về thế
giới xung quanh và thông tin về ngữ cảnh hiện tại. Ví dụ mà Bar-Hillel [6] đưa ra là
câu liếng Anh “The pen is in the box and the box is in the pen” và khẳng định
không có hệ dịch nào có thể chỉ dựa vào từ điển mà phân biệt được nghĩa của từ
“pen ’ thứ nhất (có nghĩa là “cái bút”) và từ “pen” thứ hai (có nghĩa là “cái cũi”).
TÔNG QUAN VÈ DỊCH T ự ĐỘNG NGÔN NGỮ Tự NHIÊN
Trương Xiân Nam
- Trang 11 -
Luận văn thạc sĩ
Năm 1*66, tại Mỹ, Hội đồng cố vấn Xử lý Ngôn ngừ Tự động (Automatic
Langage Processing Advisory Committee - ALPAC) đã soạn một báo cáo nhận
định rằig không thể xây dựng một hệ thống dịch tự độne có hiệu quả. Sau báo cáo
này, ihnh phủ Mỹ và nhiều công ty đã cắt tài trợ cho các chương trình nghiên cứu
về dị:hmáy. Việc nghiên cứu và phát triển dịch máy đi vào một giai đoạn im ắng
chỉ vửi uột vài hoạt động lẻ tẻ của các cá nhân và tổ chức nhỏ bên ngoài nước Mỹ.
Tuy ĩhên các đầu tư cho dịch máy trong lĩnh vực quân sự vẫn được tiếp tục như hệ
thốn£ (Ịch Nga-Anh của khôns quân Mỹ (hệ Mark II, phát triển từ năm 1964) [7]
[16] 2:].
1.2.3 Giai đoạn phục hồi
Vào lầu những năm 1970, sau một số thành công trong nghiên cứu về lý thuyết xử
lý ng')n ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể (với sự ra đời
của nạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch
máy. Nám 1973, Yorick Wilks [6] giới thiệu một hệ thống dịch tự động Anh-Pháp

cho tết quả khá tốt (một người chỉ biết tiếng Pháp có thể đọc và hiểu được kết quả
dịch :hỏng cần tham khảo bản gốc tiếng Anh). Để đạt được thành quả này, hệ thống
của Vilks đã sử dụng các tri thức có tính “khái niệm” (concepts) trong việc dịch
thuật Ví dụ: Từ “drink” không đơn thuần là động từ “uổng”, trong hệ thống của
Wilk., từ “drink” gồm những khái niệm như “động từ có tính hoạt động” (activity
verb) “có liên hệ đến những chất lỏng”, Những tri thức như vậy giúp cho hệ
thốru của Wilks biết được mối liên hệ giữa các từ trong câu và từ đó xác định được
nghũ chính xác hơn, phù hợp với ngữ cảnh hơn.
Thàm công của Wilks là chất xúc tác cho việc phục hồi lại những nghiên cứu về
dịch náy, một loại các đề án dịch tự động của rất nhiều tổ chức và quốc gia được
triển chai, ví dụ [6] [25]:
TỔNG QUAN VỀ DỊCH T ự ĐỘNG NGÔN NGŨ' TỤ' NHIÊN
xrưcng Xuân Nam
- Trang 12 -
Luận văn thạc sĩ
• Hai hệ thống của Liên Xô cũ, đều được bắt đầu năm 1976, đó là hệ thống
AMPAR dịch từ tiếng Anh sang tiếng Nga và hệ thống NERPA dịch từ tiếng
Đức sanR tiếng Nga.
• Hệ thống TAUM-METEO (1977) của đại học Montréal - Canada chuyên
dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp.
• Dự án EUROTRA (1982) của Cộng Đồng Châu Âu với mục đích dịch từ
một ngôn ngữ này sang ngôn ngữ khác trong khối, chương trình hỗ trợ các
thứ tiếng: Anh, Pháp, Đức, Ý, Hà Lan, Đan Mạch và Hy Lạp.
• Hệ thống METAL (1985) của Linguistic Research Center, đại học Texas,
dịch từ tiếng Đức sang tiếng Anh.
• Chương trình máy tính thế hệ thứ 5 (The Fifth Generation) của chính phủ
Nhật Bản, một trong các mục tiêu của chương trình này là một hệ thống dịch
tự động Anh-Nhật và Nhật-Anh.
1.2.4 Giai đoạn hiện nay
Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi

thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của
máv tính tăng lên hàng ngày và nhiều thành tựu mới về mặt lý thuyết, việc phát
triển các hệ thống dịch tự động trở nên rất cần thiết và dịch máy đã bước sang một
giai đoạn phát triển mới, đạt được nhiều thành tựu đáng khích lệ. Các phương pháp
dịch tiên tiến áp dụng các kĩ thuật khai phá tri thức từ kho dữ liệu, điều mà trước kia
chưa thể thực hiện được do khả năng hạn chế của máy tính, đã thay đổi hoàn toàn
các phương pháp dịch truyền thống và đem lại một chất lượng mới cho các hệ thông
dịch. Ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được và
một số các ứng dụng dịch tự động đã đi vào cuộc sống trong một số lĩnh vực hẹp.
Theo ước tính của John Hutchins [16], vào năm 2001, có khoảng 1000 phần mềm
dịch tự động các ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong thời điểm
hiện nay là các server dịch tự động trên Internet; chẳng hạn dịch vụ Babel Fish:
Dịch từ 9 ngôn ngữ thông dụng sang tiếng Anh (gồm tiếng Trung, tiếng Nhật, tiếng
TỔNG QUAN VỀ DỊCH T ự ĐỘNG NGÔN NGŨ'Tự NHIÊN
Trươm Xuân Nam
- Trang ] 3 -
Luận văn thạc sĩ
Hàn, tiếng Đức, tiens; Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha và tiêng
N2a)hoặc dịch vụ WorldLingo: Dịch tự động giữa 11 ngôn ngữ khác nhau (gồm
tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiêng Tây Ban
Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga và tiếng Hy Lạp), các serv er này
cung cấp dịch vụ dịch từng câu hoặc cả một trang vveb mà người dùng yêu câu từ
ngôn ngữ này sang ngôn ngữ khác, để làm được điều này tất nhiên tốc độ của các hệ
thốnc dịch phải rất cao và chất lượng dịch cũng phải ở mức tương đổi tốt.
Nhắn tới thị trường về công nghệ tri thức, nhiều tập đoàn ở Mỹ và Châu Âu đã đầu
tư rấ: lớn vào các dự án về xử lý ngôn ngữ tự nhiên, nhận dạng và mô phỏng. Tiêu
biểu ;ó dự án của công ty Microsoft cộng tác với trường đại học tổng hợp Stanford
cho \iệc nhận dạng chữ viết, nhận dạng tiêng nói, dịch tự động, tóm tăt nội dung,
mới ùó một vài ứng dụng trên máy cầm tay PocketPC hoặc tích hợp vào bộ Office.
Được ứng dụng phổ biến hơn có các kết quả của các phòng thí nghiệm của công ty

IBM đã được ứng dụng vào các hệ thống lái xe thông minh, hệ thống đặt vé máy
bav nội địa tự động, về phía Châu Âu, có các sản phẩm của công ty Lemout &
Hauspie (sau này là Mendez) với các hệ nhận dạng tiếng nói, mô phỏng tiếng nói,
dịch máy,
Tại Việt Nam', việc xây dựng các chương trình dịch tự động được bắt đầu vào
khoảng cuối những năm 1980 tại một sổ viện nghiên cứu, trường đại học và một sô
công ty tin học. Sau gần 25 năm phát triển đã có nhiều kết quả cụ thể nhưng vẫn
chua có chương trình dịch tự động nào được chấp nhận và sử dụng rộng rãi vì kết
quả dịch vẫn còn rất hạn chế, chương trình được biết đến nhiều nhất là chương trình
dịch tự động Anh-Việt EVTran 2.0 của tác giả Nguyễn Khánh Hùng, ngoài ra có
mộit 50 các chương trình khác nhưng mới chỉ đang được thử nghiệm trong phạm vi
hẹp chứ chưa được đưa ra thị trường. Các chương trình dịch tự động được nghiên
cứu :ại Việt Nam chủ yếu hướng vào việc dịch tự động Anh-Việt do có sẵn khá
1 Điiềi. đáng ngạc nhiên là chương trình dịch Anh-Việt đầu tiên lại không phải do người Việt Nam phát triển
và c:ũrg không được phát triển ở Việt Nam, đó là chương trình dịch Anh-Việt cùa Bernard E. Scott viêt vào
nhữ:n£ năm 1970, đây là hệ dịch tiền thân cùa dự án Logos khá nổi tiếng.
TỎNG QUAN VÈ DỊCH Tự ĐỘNG NGÔN NGŨ'Tự NHIÊN
TIƯƠIIL' Xuân Nam
- Trang 14 -
Luận văn thạc sĩ
nhiều kết quả nghiên cứu về tiếng Anh và về việc dịch từ tiens; Anh sang ngôn ngừ
khác :ó thể áp dụng vào chươns trình. Việc nghiên cứu dịch các ngôn ngữ khác
sang :iếng Việt và từ tiếng Việt sang các ngôn ngữ khác (kê cả tiếng Anh) vẫn hâu
như còn bỏ ngỏ.
1.3 Một số chiến lược dịch máy
Có nhiều quan điểm phân loại các hệ dịch máy khác nhau, thông dụng nhất là phân
loại theo mục đích của hệ dịch (dịch tự động hoàn toàn, dịch bán tự động, trợ dịch,
từ đién, ) và phân loại theo hướng tiếp cận kĩ thuật. Phần sau đây sẽ đề cập đến
phân oại hệ dịch theo hướng tiếp cận kĩ thuật vì đây cũng là cơ sở để phát triển các
nghiêi cứu của luận văn. Các triển khai hệ thống dịch trong thực tế không phải luôn

luôn sử dụng chỉ một hướng tiếp cận, nhiều hệ thống kết hợp các phương pháp tiếp
cận k.iác nhau để đạt được kết quả tốt nhất.
1 .3 / Dịch trực tiếp
Tiếp ;ận dịch trực tiếp được áp dụng vào các chương trình dịch từ sớm nhất so với
các hướng tiếp cận khác, đây là hướng tiếp cận được sử dụng và phát triển khá
thành công trong hệ thống dịch Mark II (1964) [17]. Dịch trực tiếp là phương pháp
phát iriển cho từ cặp ngôn ngữ cụ thể, tiến trình dịch là một quá trình biến đổi từ
ngôn ngữ nguồn sang ngôn ngữ đích dựa trên từ điển song ngừ và một số quy tắc từ
vựng kết hợp với mộí số quy tắc xử lý ngữ pháp đơn giản. Sơ đồ hệ dịch trực tiếp
được thể hiện ở Hình 1-2 dưới đây [25]:
TÔNG QUAN VÈ DỊCH T ự ĐỘNG NGÔN NGŨ' T ự NHIÊN
Trương Xuân Nam
- Trang 15 - Luận văn thạc sĩ
Hình 1-2: Sơ đồ một hệ dịch trực tiếp.
Một hậ dịch trực tiếp hoạt động theo 3 giai đoạn:
• Phân tích: Dựa trên từ điển song ngữ, hệ phân tích câu cần dịch thành dãy
các từ, sau đó tìm hình thái và nghĩa cho từng từ.
• Tổng họp: Dựa trên các quy tắc từ vựng và ngữ pháp để lựa chọn hình thái
và nghĩa thích hợp cho mỗi từ.
• Sinh câu: Sinh câu đích thích hợp.
Các hậ dịch trực tiếp có ưu điểm là đơn giản và có tốc độ nhanh. Phương pháp rất
thíclh 'lợp với việc dịch trong những lĩnh vực chuyên môn (không có quá nhiều nhập
nhằne về ngữ nghĩa) và cho kết quả khá tốt khi áp dụng cho các cặp ngôn ngữ có
nhiều điểm tương đồng về ngữ pháp và từ vựng (như tiếng Tây Ba Nha và tiếng
Pháp, tiếng Pháp và tiếng Anh, )- Với những cặp ngôn ngữ ít tươns; đồne; hơn, cách
tiếp càn này tỏ ra thiếu hiệu quả.
1.3.2 Dịch chuyến đổi
Các hệ thống dịch chuyển đổi đi xa hơn các hệ dịch trực tiếp trong việc phân tích
ngữ pháp (và cả ngữ nghĩa) của ngôn ngữ nguồn và ngôn ngữ đích. Đầu tiên, hệ
dịch chuyển đổi tiến hành phân tích ngữ pháp của ngôn ngữ nguồn, sau đó cố gắng

chuyên đôi sáng câu trúc ngữ pháp tương đương ở ngôn ngữ đích và cuôi cùng sinh
TỔNG QUAN VỀ DỊCH TỤ'ĐỘNG NGÔN NGỮ T ự NHIÊN
Trươig Xuân Nam
- Trang 16 -
Luận văn thạc sĩ
câu iíeh từ cấu trúc ngữ pháp đă chuyển đôi. Sơ đồ hoạt động của hệ dịch chuyển
đổ»i lược thể hiện ở Hình 1-3 dưới đây [1] [25]:
Hình 1-3: Sơ đô một hệ dịch chuyên đôi.
MỘI hệ dịch chuyển đổi hoạt động theo 3 giai đoạn:
• Phân tích: Dựa trên từ điển song ngừ và kiến thức về văn phạm của ngôn
ngữ nguồn, hệ phân tích câu cần dịch thành dãy hình thái của các từ sau đó
dựng cây cú pháp cho câu.
• Chuyển đổi: Dựa trên các quy tắc ngữ pháp để sinh cây cú pháp tương ứng
cho câu đích.
• Sinh câu: Sinh câu đích từ cây cú pháp.
Việc phân tích văn phạm của hệ dịch chuyển đổi có thể dừng ở nhiều mức độ, tùy
vào sự chi tiết của bộ luật văn phạm mà hệ dịch sử dụng. Mức độ chi tiết của hệ luật
văn phạm càng cao thì hệ dịch càng phân tích được chính xác các thành phần trong
câu nguồn và kết quả dịch cũng càng chính xác hơn; nhưng, mức độ chi tiết cao
cũng kéo theo sự phức tạp của bộ luật văn phạm và khả năng phải đổi mặt với sự
nhập nhằng của hệ dịch cũng tăng lên.
TỔNG QUAN VÈ DỊCH T ự ĐỘNG NGÔN NGŨ'Tự NHIÊN
Trương Xuân Nam
- Trang 17 - Luận văn thạc sĩ
So với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả dịch tôt hơn do câu đích
sinh ra chuyển tải được cả nội dung về ngữ pháp và ngữ nghĩa. Các hệ dịch chuyển
đổi phải đối mặt với vấn đề nhập nhằng về văn phạm và nhập nhằng về ngữ nghĩa,
có nhiều phương pháp được xây dựng để vượt qua hai vấn đề nan giải này, nhưng
hiện tại chưa có một phương pháp nào chứng tỏ sự vượt trội về mặt kết quả.
1.3.3 Dịch liên ngữ

Các hệ dịch chuyển đổi là một bước tiến so với các hệ dịch trực tiếp về mặt tìm hiểu
cấu trúc của câu, dịch liên ngữ còn tiếp tục đi xa hơn nữa với việc cố gắng xây dựng
một cấu trúc chung cho việc biểu đạt các ý tưởng (dạng liên ngữ) của bất kì câu văn
nào. Sơ đồ trong Hình 1-4 thể hiện sự tương quan giữa 3 phương pháp dịch trong
việc xử lý dữ liệu dịch, trong đó, dịch liên ngữ nằm ở mức cao nhất trong việc hiếu
ý nshĩa của câu [7]:
Hình 1-4: Tương quan giữa 3 sơ đồ dịch máy.
Cac hệ dịch máy theo mô hình liên ngữ có nhiều ưu điểm:
r - ; - - >
N' V- L O /5 0 8
; r
TÔNG QUAN VỀ DỊCH Tự ĐỘNG NGÔN NGỮ Tự NHIÊN
Truoníỉ Xuân Nam
- Trang I 8 -
Luận văn thạc sĩ
Nếu hệ dịch liên ngữ thành công thì kết quả dịch chắc chắn là rất tốt do câu đích
biểu đạt dược nội dung của câu nguồn cả về mặt từ vựng, ngữ pháp và ngữ
nghĩa.
Việc xây dựng các hệ dịch đa ngôn ngữ bằng liên ngữ rất thuận lợi, với các hệ
dịch khác khi muốn hỗ trợ thêm một ngôn ngữ mới cần xây dựng tri thức chuyển
đổi giữa nsôn ngữ mới với tất cả các ngôn ngữ đã hỗ trợ từ trước, với hệ dịch
liên ngữ, ta chỉ cần xây dựng tri thức chuyển đổi giữa ngôn ngữ mới và liên ngữ.
Vấn đề khó khăn nhất trong hệ dịch liên ngữ là xây dựng liên ngữ đủ phong phú để
có thể biểu đạt mọi sắc thái trong các ngôn ngữ khác, cho đến thời điểm hiện tại,
chưa có mô hình thực tế cũng như lý thuyết nào đạt được điều này.
1.3.4 Dịch bằng thống kê (Statistical Machine Translation)
Tiếp cận dịch máy bằng thống kê xuất hiện vào cuối những năm 1980 [13], được đề
xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp Candide.
Ý tưởng dịch máy bằng thống kê rất đơn giản và thuần túy toán học: Với s là một
câu ngôn ngữ nguồn còn T là một câu ngôn ngữ đích, xác suất P(T|S) thể hiện khả

năng T sẽ là kết quả dịch của s sang dạng ngôn ngữ đích. Như vậy, hệ dịch máy chỉ
có nhiệm vụ là với mỗi s, cần tìm T sao cho P(T|S) là cực đại.
Sử dụng công thức Bayer: P(T\S) = P(T) P(S\T) / P(S)
Do P(S) không đổi, nên thực chất nhiệm vụ của hệ dịch máy là tìm câu T ở ngôn
ngữ đích để P(T) P(S\ T) là lớn nhất, nới cách khác: T = argmaxr (P(T) P(S\ T))
Phương pháp dịch dựa trên thống kê đòi hỏi phải có một tập dữ liệu khổng lồ các
câu tương đương giữa ngôn ngữ nguồn và ngôn ngữ đích để có thể ra kết quả thống
kê chính xác, đây là trở ngại lớn cho các đề án dịch theo đuổi phương pháp này vì
việc xây dựng kho ngữ liệu lớn như vậy đòi hỏi công sức và chi phí rất lớn. Chỉ một
số công ty, tổ chức lớn trên thế giới mới đủ sức theo đuổi đến cùng phương pháp
nảy.
TỔNG QUAN VÊ DỊCH T ự ĐỘNG NGÔN NGỮ Tự NHIÊN
Trươrg Xuân Nam
- Trang ! 9 -
Luận văn thạc sĩ
Hiện nay, do sức mạnh tính toán và lưu trữ của máy tính tăng lên rất đáng kể, một
số đỏ án dịch máy bàng thống kê đã cho ra nhiều kết quả đáng giá với khối lượng tri
thức sử dụne trong thống kê cực lớn. Nếu hệ dịch máy bằng thống kê đầu tiên là hệ
Candide của IBM sử dụng 2 205 733 cặp mẫu câu Anh-Pháp tương đương thì hiện
nay một số hệ dịch Arabian-Anh được sử dụng trong các mục đích an ninh của cơ
quan NSA sử dụng tới hơn 150 triệu cặp mẫu câu Arập-Anh tương đương [25],
Một điều rất đáng ngạc nhiên là phương pháp dịch bằng thống kê không quan tâm
đến việc xử lý ngữ nghĩa nhưng chất lượng dịch của các phương pháp này rất cao,
hệ dịch Arập-Anh của NSA được đề cập ở trên thậm chí không sử dụng từ điển
nhưng vẫn có thể dịch được nghĩa bóng của nhiều thành ngữ Arập. Vào thời điểm
hiện nay, các hệ dịch bàng thông kê đi tiên phong trong việc đạt được các câu dịch
có chất lượng cao.
1.3.5 Dịch bằng ví dụ (Example-Based Machine Translation)
Ý tưởng về tiếp cận dịch bằng ví dụ được giới thiệu lần đầu tiên bởi Nagao vào năm
1984 trong nỗ lực xây dựng hệ dịch tự động Nhật-Anh. Tư tưởng của tiếp cận dịch

bàng ví dụ rất đơn giản: Để dịch một câu chúng ta có thể sử dụng kết quả dịch của
một câu khác gần giống như vậy sửa đổi đi đôi chút. Sơ đồ của một hệ dịch bằng ví
dụ
được thể hiện ở Hình 1-5 dưới đây [9]:
TÔNG QUAN VỀ DỊCH TỤ' ĐỘNG NGÔN NGŨ'Tự NHIÊN
Hình 1-5: Sơ đồ của một hệ dịch bằng ví dụ.
Tiếp cận dịch bằng ví dụ có nhiều ưu điểm:
Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có
một tập các ví dụ đủ phong phú.
Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng
và ngữ pháp.
- Tập dữ liệu càng phong phú, chất lượng dịch càng cao. Đây là ưu thế rất lớn so
với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng
nếu tri thức dịch nhiều lên.
Tiếp cận dịch bàng ví dụ có hai điểm yếu đó là sự quá phụ thuộc vào chất lượng của
các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiện khá
chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìm
kiém sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu).
1.4 Phạm vi nghiên cứu của luận văn
Phạm vi nghiên cứu của luận văn là dịch tự động ngôn ngữ tự nhiên, đối tượng
được ch ọn là bài toán xâỵ dựng cơ sở tri thức cho dịch tự động Anh-Việt, đây là
TÓNG QUAN VÈ DỊCH T ự ĐỘNG NGÔN NGỮ T ự NHIÊN
Trư ơn* Xuân Nam
- Trang 21 -
Luận văn thạc sĩ
một chủ đề rộng và rảt khó, vì vậy, iuận văn chưa kì vọng tìm ra phương pháp giải
quyết trọn vẹn vấn đề này mà mới chỉ là bước tìm hiểu bản chất vấn đề và đề xuất
một phương pháp khả thi cho kết quả cụ thể.
1.4.1 Trọng tâm nghiên cứu của luận văn
Bài toán dịch tự động từ tiếng Anh sang tiếng Việt là tập hợp của rất nhiều bài toán

trong xử lý ngôn ngữ tự nhiên. Trong khuôn khổ của một luận văn thạc sĩ, sẽ không
đi sâu vào trình bày tất cả các lời giải cho các bài toán gặp phải mà chỉ chú trọng
vào trọng tâm nghiên cứu của luận văn, đó là vấn đề xãy dựng tr i thức cho x ử lý
n g ữ nghĩa của hệ dịch. Các vấn đề khác sẽ được trình bày kĩ hơn trong các báo cáo
khoa học hoặc các bài báo về đề tài này. Việc định hướng xây dựng một mô hình có
khả năng tự học dịch xuất phát từ kinh nghiệm thực tế khi xây dựng chương trình
dịch tự động. Bất kể cách thức xây dựng chương trình dịch ra sao, áp dụng thuật
toán nào thì những người xây dựng chương trình vẫn luôn phải đối mặt với hai vấn
- Thứ nhất, đó là tri thức tĩnh (được xây dựng từ đầu) của chương trình không đủ
để dịch một cấu trúc mới.
- Thứ hai, phức tạp hơn, đó là khi bổ sung tri thức để dịch được cấu trúc mới thì
lại xung đột với những tri thức đã có, làm giảm chất lượng dịch của những cấu
trúc cũ.
Hai vấn đề trên luôn đi đôi với nhau và việc xây dựng tri thức cho chương trình
dường như là một công việc không bao giờ kết thúc vì việc xây dựng tri thức là của
chuyên gia ngôn ngữ và không có một cơ chế chắc chắn được đã giải quyết hêt
xung đột tri thức hay chưa (ngoại trừ cách kiểm tra lại tất cả các cấu trúc đã biết).
Đe giải quyết vấn đề này, tất yếu phải xây dựng một chương trình xây dựng, quản
lý và tối uu tri thức của hệ thống dịch, chương trình như vậy phải thỏa mãn được
hai điều kiện:
TÔNG QUAN VỀ DỊCH Tự' ĐỘNG NGÔN NGỮ TỤ' NHIÊN
Trương Xuân Nam
- Trang 22 -
Luận văn thạc sĩ
- Có khả năng tự động bổ sung tri thức mới, không phụ thuộc vào chuyên gia
nRÔn ngữ.
- Có khả năng phát hiện và giải quyết các xung đột tri thức một cách tự động.
Hai điều kiện trên cũng là định hướng của luận văn trong việc xây dựng mô hình
dịch máy tăng trưởng được trình bày chi tiết trong chương 4.
1.4.2 Mục tiêu của luận văn

Mục tiêu của luận văn là xây dựng một mô hình hệ tự học dịch từ mẫu dịch song
ngữ đã có. Luận văn xây dựng các bước xử lý cụ thể cho hệ học dịch, trong mỗi
bước chỉ ra đầu vào (input), đầu ra (output) và các thuật toán xử lý thông tin. Cuối
cùng, luận văn hướng tới việc ứng dụng mô hình xây dựng được vào bài toán dịch
tự động Anh-Việt bằng cách xây dựng thử nghiệm một hệ học dịch từ các mẫu câu
song ngữ Anh-Việt đã có.
TÔNG QUAN VỀ DỊCH T ự ĐỘNG NGÔN NGỮ TỤ'NHIÊN
Trương Xuân Nam
- Trang 23 -
Luận văn thạc sĩ
CHƯƠNG 2 - CẤU TRÚC CỦA MỘT HỆ DỊCH Tự ĐỘNG
ĐƠN GIẢN
2.1 Một số khái niệm CO’ bản
■ ■
2.1.1 Từ vựng
Từ là thành phần cơ bản của bất kì một hệ thống ngôn ngữ nào, là một tập hợp các
mẫu tự tổ hợp với nhau theo một nguyên tắc nào đó do ngôn ngữ quy định. Đặc
điểm quan trọng nhất của từ là nó phải bao hàm một ý nghĩa nào đó [16] [17],
Ví dụ: Trong tiếng Việt thì “quan trọng” là một từ, thể hiện một nghĩa xác định,
không thể loại bò đi bất kỳ thành phần nào trong từ đó mà vẫn giữ nguyên ỷ nghĩa
ban đầu của nỏ.
Trong hầu hết các lí thuyết dịch, khái niệm “từ” gần như đồng nghĩa với khái niệm
này trons; các môn học về ngừ pháp.
2.1.2 Phân loại ngữ pháp
Để có thể xây dựng các luật văn phạm cho ngôn ngữ một cách dễ dàng và tổng quát,
người ta xây dựng nên khái niệm phân loại ngữ pháp, trong đó những từ có tính
chất ngữ pháp giống nhau tạo thành một phân loại ngữ pháp (ví dụ: Vị trí trong
câu, tương quan của loại từ đó với một từ hoặc loại từ khác, ) [10].
Ví dụ: Phân loại ngữ pháp tiếng Việt có đại từ, danh từ, động từ, Phân loại ngữ
pháp t i ế n g Anh có noun, verb, adjective,

Như vậy, phân loại ngữ pháp đại diện cho tương quan của từ với các từ khác trong
cấu trúc câu. Đe dễ dàng cho việc xây dựng ngữ liệu của hệ thống dịch, những
người xây dựng hệ dịch máy thường sử dụng luôn phân loại từ loại của ngôn ngữ
nguôn và ngôn ngữ đích đã được nghiên cứu bởi các nhà ngôn ngữ học vào làm
phân loại ngữ pháp cho hệ dịch của mình. Trên lý thuyết, không có nguyên tắc nào
buộc phải sử dụng các phân loại ngữ pháp của nhà ngôn ngữ cho hệ dịch máy và
CẤU TRÚC CỬA MỘT HỆ DỊCH Tự ĐỘNG ĐƠN GIẢN

×