Tải bản đầy đủ (.pdf) (92 trang)

Luận văn thạc sĩ xây dựng chương trình dịch tự động anh việt bằng phương pháp thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 92 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN VINH

Xây dựng chương trình dịch tự động Anh - Việt
bằng phương pháp thống kê
LUẬN VĂN THẠC SỸ

Người hướng dẫn: PGS.TS. Đinh Mạnh Tường

Hà nội - 2005

z


Nguyễn Văn Vinh

1

Luận văn thạc sĩ

MỤC LỤC
MỤC LỤC ........................................................................................................................ 1
DANH MỤC HÌNH .......................................................................................................... 3
MỞ ĐẦU .......................................................................................................................... 4
Chƣơng 1 - TỔNG QUAN ................................................................................................ 6
1.1. Khái niệm về dịch máy,vai trò, vị trí của dịch máy .................................................. 6
1.1.1 Khái niệm về dịch máy ..................................................................................... 6
1.1.2 Vị trí, vai trị của dịch máy ................................................................................ 6
1.2. Sơ đồ tổng quát của một hệ dịch máy ...................................................................... 7


1.3. Phân loại dịch máy.................................................................................................. 8
1.3.1. Theo mức độ can thiệp của con ngƣời .............................................................. 8
1.3.2. Theo số ngữ và số chiều dịch ........................................................................... 8
1.3.3. Theo cách lấy thông tin .................................................................................... 9
1.3.4. Theo phạm vi ứng dụng ................................................................................... 9
1.3.5. Theo ngƣời dùng .............................................................................................. 9
1.4. Các phƣơng pháp dịch máy cơ bản.......................................................................... 9
1.4.1. Các hệ dịch trực tiếp ...................................................................................... 10
1.4.2. Các hệ thống dịch chuyển đổi......................................................................... 10
1.4.3. Các hệ thống dịch liên ngữ. ............................................................................ 13
1.4.4. Dịch dựa trên dữ liệu ...................................................................................... 17
1.5. Các hệ thống dịch máy trên thế giới ...................................................................... 19
1.6. Các vấn đề trong khi dịch ngôn ngữ tự nhiên ........................................................ 21
1.6.1. Sự khác nhau giữa ngƣời dịch và máy dịch .................................................... 21
1.6.2. Các trở ngại khi dịch ...................................................................................... 21
1.7. Áp dụng kỹ thuật học máy trong dịch máy ............................................................ 29
Chƣơng 2 - CORPUS VÀ GIÓNG HÀNG CÂU ............................................................. 30
2.1. Corpus .................................................................................................................. 30
2.1.1. Corpus thô ..................................................................................................... 30
2.1.2. Corpus song ngữ ............................................................................................ 32
2.2. Gióng hàng câu ..................................................................................................... 32
2.2.2. Cách tiếp cận dựa vào độ dài câu.................................................................... 34
2.2.3. Cách tiếp cận dựa vào tƣơng ứng của từ ......................................................... 36
2.2.4. Kết hợp giữa hai phƣơng pháp ....................................................................... 38
Chƣơng 3 - DỊCH MÁY BẰNG PHƢƠNG PHÁP THỐNG KÊ ..................................... 39
3.1. Tổng quan về dịch thống kê .................................................................................. 39
3.1.1. Mơ hình Kênh - Nguồn ( Source – Channel Model) ....................................... 40
3.1.2. Cách tiếp cận Maximum và Mơ hình Gióng hàng ........................................... 40
3.1.3. Nhiệm vụ trong Dịch máy thống kê ................................................................ 41
3.1.4. Ƣu điểm của phƣơng pháp tiếp cận thống kê .................................................. 42

3.1.5. Chu kì phát triển của hệ thống dịch thống kê .................................................. 43
3.2. Mơ hình ngơn ngữ ................................................................................................ 46
3.2.1. N-gram .......................................................................................................... 46
3.2.2. Mơ hình ngơn ngữ .......................................................................................... 47
3.2.3. Làm mịn (Smoothing) .................................................................................... 48
3.2.4. Phép tính log xác suất (Log Probability Arithmetic) ....................................... 49
3.3. Mơ hình dịch ........................................................................................................ 49

z


Nguyễn Văn Vinh

2

Luận văn thạc sĩ

3.3.1. Gióng hành từ ................................................................................................ 50
3.3.2. Ý tƣởng.......................................................................................................... 53
3.3.3. Các mơ hình dịch đƣợc đề xuất IBM .............................................................. 53
3.5. Thuật toán EM và huấn luyện tham số của mơ hình .............................................. 59
3.5.1. Thuật tốn EM (Expectation Maximization Algorithm) .................................. 59
3.5.2. Ứng dụng để ƣớc lƣợng tham số..................................................................... 60
3.6.Thuật toán giải mã ................................................................................................. 61
3.6.1. Giới thiệu ....................................................................................................... 61
3.6.2. Mơ hình 2 đơn giản ........................................................................................ 61
3.6.3. Điểm của giả thuyết ....................................................................................... 62
3.6.4. Mơ tả thuật tốn ............................................................................................. 64
Chƣơng 4 - XÂY DỰNG CHƢƠNG TRÌNH DỊCH ANH - VIỆT BẰNG THỐNG KÊ .. 66
4.1. Modul phân tích từ vựng. ...................................................................................... 66

4.2. Modul phân tích hình thái ..................................................................................... 66
4.3. Modul huấn luyện bigram ..................................................................................... 68
4.4. Modul huấn luyện các tham số của mơ hình dịch máy ........................................... 69
4.4.1. Mơ hình 1 ...................................................................................................... 69
4.4.2. Mơ hình 2 ...................................................................................................... 71
4.5. Modul tìm kiếm .................................................................................................... 74
4.6. Từ điển dữ liệu ..................................................................................................... 74
4.7. Tiền xử lý và hậu xử lý ......................................................................................... 75
4.8. Chƣơng trình thử nghiệm ...................................................................................... 75
4.6.1. Giao diện chƣơng trình................................................................................... 75
4.6.2. Thử nghiệm.................................................................................................... 77
KẾT LUẬN..................................................................................................................... 81
TÀI LIỆU THAM KHẢO ............................................................................................... 82
PHỤ LỤC A.................................................................................................................... 85
PHỤ LỤC B .................................................................................................................... 88

z


Nguyễn Văn Vinh

3

Luận văn thạc sĩ

DANH MỤC HÌNH
Hình 1.1: Sơ đồ tổng quát của hệ dịch máy .......................................................... 7
Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi .......................................................... 12
Hình 1.3: Mơ hình dịch Liên ngữ ........................................................................ 14
Hình 1.4: So sánh số bộ luật ................................................................................. 16

Hình 1.5: Sơ đồ hệ thống dịch dựa trên dữ liệu .................................................. 18
Hình 2.1: Sơ đồ quá trình tạo corpus .................................................................. 31
Hình 3.1: Sơ đồ của hệ dịch bằng phƣơng pháp thống kê .................................. 39
Hình 3.2: Chu kì phát triển của hệ thống dịch thống kê .................................... 45
Hình 4.1. Sơ đồ chƣơng trình dịch Anh-Việt bằng thống kê .............................. 67

z


Nguyễn Văn Vinh

4

Luận văn thạc sĩ

MỞ ĐẦU
Dịch máy là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trên
thế giới dịch máy đã đƣợc nghiên cứu từ thập kỉ 50 và đƣợc phát triển mạnh vào
thập kỉ 80. Hiện nay, đã có rất nhiều hệ dịch máy thƣơng mại nổi tiếng trên thế giới
nhƣ Systrans, Kant, ... [30][13]và nó hỗ trợ lồi ngƣời rất nhiều trong một thế giới
với lƣợng thông tin trao đổi ngày càng lớn, tốc độ càng nhanh với nhiều ngôn ngữ
khác nhau. Trong sự phát triển của dịch máy, các cách tiếp cận dịch máy chính là
dựa vào: dịch chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu.
Mặt khác, với việc bùng nổ Internet nhƣ hiện nay, có một khối lƣợng văn bản
khổng lồ trên Internet mà phần lớn là bằng tiếng Anh. Do tính đa dạng của nó mà
việc hiểu các văn bản này hồn tồn khơng dễ chút nào. Do đó việc có một hệ dịch
tự động Anh-Việt là hết sức cần thiết.
Hơn nữa, Ở Việt Nam có một vài nhóm nghiên cứu về dịch tự động Anh-Việt. Hiện
nay mới chỉ có một sản phẩm EVtrans đƣợc thƣơng mại hóa. Tuy nhiên, chất lƣợng
dịch và phạm vi sử dụng của sản phẩm này vẫn còn nhiều hạn chế. Thêm vào đó,

cách tiếp cận của các nhóm này mới chỉ dựng lại bằng phƣơng pháp chuyển đổi
(dựa trên luật). Với cách tiếp cận này thì sẽ bị hiện tƣợng “thắt nút cổ trai” trong trí
tuệ nhân tạo đồng thời phải chi phí rất tốn kém cho việc xây dƣng trí thức dịch.
Vì vậy, trong luận văn này, chúng tơi đã tập chung nghiên cứu một hƣớng dịch mới,
đó là phƣơng pháp dịch bằng thống kê và đồng thời áp dụng phƣơng pháp này vào
bài toán dịch Anh -Việt. Trên thế giới, cách tiếp cận này là một loại trong cách tiếp
cận dựa vào dữ liệu đƣợc phát triển khá mạnh vào các năm của thập kỉ 90[17][18].
Có khá nhiều hệ dịch dựa trên cách tiếp cận này đã đƣợc thƣơng mại hóa và chất
lƣơng dịch của các hệ này là khá cao nhƣ CANDIDE của IBM [9], hệ dịch Trung Anh của đại học Hoskin 2003 [10], .... Quan trọng hơn cả là nó đã khắc phục đƣợc
nhƣợc điểm của cách tiếp cận dựa trên luật đó là: tận dụng đƣợc dữ liệu đã có sẵn.
Cách làm này đỡ tốn rất nhiều công sức của các nhà ngôn ngữ và nguời làm trí thức
dịch. Luận văn đƣợc chia làm bốn chƣơng:

z


Nguyễn Văn Vinh

5

Mở đầu
Chƣơng 1: Tổng quan về dịch máy.
Chƣơng 2: Corpus và gióng hàng câu.
Chƣơng 3: Dịch máy bằng phƣơng pháp thống kê.
Chƣơng 4: Xây dựng chƣơng trình dịch Anh-Việt bằng thống kê.
Kết luận

z

Luận văn thạc sĩ



37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

6

Luận văn thạc sĩ

Chƣơng 1 - TỔNG QUAN
1.1. Khái niệm về dịch máy,vai trị, vị trí của dịch máy
1.1.1 Khái niệm về dịch máy
Định nghĩa: Các hệ dịch máy (machine translation system-MT) là các hệ thống sử
dụng máy tính để dịch từ một thứ tiếng (trong ngơn ngữ tự nhiên) sang một hoặc vài
thứ tiếng khác.
Ngôn ngữ của văn bản cần dịch đƣợc gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản
đã dịch ra đƣợc gọi là ngơn ngữ đích.
1.1.2 Vị trí, vai trị của dịch máy
Hiện nay trên thế giới có khoảng 5650 ngơn ngữ khác nhau, với một số lƣợng ngôn
ngữ lớn nhƣ vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin, trong
giao tiếp, đồng thời ngăn cản sự phát triển của thƣơng mại và mậu dịch quốc tế.
Với những khó khăn nhƣ vậy ngƣời ta đã phải dùng đến một đội ngũ phiên dịch
khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nƣớc này sang tiếng nƣớc
khác. Những cơng việc đó mang tính chất thủ công, nặng nhọc trong khi khối lƣợng
văn bản cần dịch ngày càng nhiều.
Để khắc phục những nhƣợc điểm trên con ngƣời đã nghĩ đến việc thiết kế một mơ
hình tự động trong cơng việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện
tử đầu tiên ngƣời ta đã tiến hành nghiên cứu về dịch máy. Công việc đƣa ra mơ hình
tự động cho việc dịch đã và đang đƣợc phát triển, mặc dù chƣa giải quyết đƣợc triệt

để lớp ngôn ngữ tự nhiên. Nhƣng sự ra đời của chúng đã khẳng định đƣợc ích lợi to
lớn về mặt chiến luợc và kinh tế, đồng thời các vấn đề liên quan đến dịch máy cũng
là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến
vấn đề xử lí ngơn ngữ tự nhiên-một trong những vấn đề có ý nghĩa nhất mà trí tuệ
nhân tạo có khả năng giải quyết. Ngƣời ta tin rằng việc xử lí ngơn ngữ tự nhiên
trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại ngƣời-

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

Luận văn thạc sĩ

7

máy, lúc đó con ngƣời khơng phải tiếp xúc với máy qua những dịng lệnh cứng nhắc
nữa mà có thể giao tiếp một cách trực tiếp với máy.
1.2. Sơ đồ tổng quát của một hệ dịch máy
Đầu vào của một hệ dịch máy là một văn bản viết trong ngơn ngữ nguồn. Văn bản
này có thể thu đƣợc từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời nói. Sau
đó văn bản có thể đƣợc chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chính tả, trƣớc
khi đƣa vào máy dịch.
Phần dịch máy sẽ chuyển văn bản nguồn thành văn bản viết trên ngơn ngữ đích. Và
cũng qua một bộ chỉnh ra để cuối cùng thu đƣợc một văn bản tƣơng đối hồn chỉnh.
Trong q trình dịch máy, hệ thống thƣờng xun phải truy cập đến một khối lƣợng

rất lớn các tri thức dịch. Tri thức dịch thông thƣờng là các loại từ điển bao gồm: từ
điển chứa bộ luật về cú pháp, từ điển về từ vựng, từ điển về thông tin ngữ nghĩa.
Trong nhiều hệ thống, có thể có sự tƣơng tác giữa ngƣời và máy trong quá trình
dịch. Tƣơng tác này thơng thƣờng có cả hai chiều (ngƣời-máy) và có thể có ở mọi
giai đoạn.
Sau đây là sơ đồ tng quỏt ca h dch mỏy.

Con ng-ời

Văn bản

Soạn thảo

vào

kiểm tra
chính tả

Dịch máy

Hiệu
đính

Văn bản
ra

Cơ sở trí thức

Hỡnh 1.1: S tng quát của hệ dịch máy


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

8

Luận văn thạc sĩ

1.3. Phân loại dịch máy
Có nhiều cách phân loại khác nhau, tùy theo mục đích, phạm vi ứng dụng, khả năng
kĩ thuật... ta có thể phân loại nhƣ sau:
1.3.1. Theo mức độ can thiệp của con ngƣời
a) Hệ thống có sự trợ giúp của con người
Con ngƣời có thể can thiệp trong q trình dịch ở một hoặc nhiều giai đoạn:
 Trƣớc khi đƣa vào máy: hiểu chỉnh câu, từ.
 Hỏi đáp ngay trong quá trình dịch.
 Sau khi dịch: sửa đổi lại kết quả dịch, sửa ý, sửa từ...
Tùy theo mức độ tự động mà ngƣời ta lại phân ra các mức khác nhau.
b) Machine Translation(MT)- Các hệ dịch tự động hoàn toàn
c) Machine-aided Translation(MAT)- Dịch máy trợ giúp. Bao gồm:
+ Human-assisted machine translation(HAMT)
Dịch máy với sự trợ giúp của ngƣời: máy dịch là chính, con ngƣời giám sát và
giúp máy khi cần thiết (chọn đúng nghĩa trong trƣờng hợp từ đa nghĩa).
+ Machine- assisted human translation(MAHT)
Ngƣời dịch với sự trợ giúp của máy: Ngƣời dịch là chính, và máy giúp đỡ khi có

sự yêu cầu của con ngƣời (tra nghĩa của từ, thành ngữ...)
+ Terminology-Data banks - Ngân hàng thuật ngữ:
Thực chất không phải là hệ dịch máy, nhƣng nó cung cấp một lƣợng thuật ngữ rất
lớn, cần thiết khi xây dựng cập nhật cơ sở dữ liệu cho máy.
1.3.2. Theo số ngữ và số chiều dịch
Phân biệt hệ thống dịch hai ngữ hay đa ngữ, hệ thống dịch một chiều hay hai chiều.
Ví dụ: Anh => Việt, Việt => Anh, Anh<=>Việt

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

9

Luận văn thạc sĩ

1.3.3. Theo cách lấy thông tin
a)Phần lớn các hệ lấy thông tin từ ngôn ngữ học. Cách lấy thơng tin này có các
cách dịch nhƣ sau:
+ Dịch trực tiếp
+ Dịch chuyển đổi
+ liên ngữ
+ Dịch dựa trên dữ liệu (translation by corpus)
b) Loại không lấy thông tin từ ngôn ngữ học mà lấy thông tin dựa vào kết quả
thống kê với các bản dịch sẵn. Đó là các hệ thống kê.

1.3.4. Theo phạm vi ứng dụng
Phân loại theo giới hạn ngôn ngữ, mức tự động, chất lƣợng bản dịch. Các hệ
Systran, Metal, Logos giới hạn cho ngôn ngữ KHKT dịch ra các văn bản thô đủ
hiểu và tốc độ dịch gấp 3 đến 4 lần ngƣời dịch.
1.3.5. Theo ngƣời dùng
+ Dành cho các phiên dịch viên chuyên nghiệp: Chất lƣợng bản dịch phải cao.
+Dành cho ngƣời không chuyên nghiệp: nhu cầu cần đọc lƣớt qua nhanh một loại
tài liệu nào đó để nắm bắt thơng tin. Với nhu cầu này thơng thƣờng u cầu độ
chính xác.
1.4. Các phương pháp dịch máy cơ bản
Theo phân loại cách lấy thơng tin, ta có thể thấy có 3 phƣơng pháp dịch cơ bản là:
 Dich trực tiếp
 Dịch chuyển đổi(Dịch dựa trên cơ sở luật)
 Liên ngữ
 Dịch dựa trên dữ liệu

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

10

Luận văn thạc sĩ

Trong đó, các hệ dịch trực tiếp là đơn giản nhất, và phức tạp nhất là các hệ liên ngữ.

Sau đây tơi xin trình bầy những nét đặc trƣng cơ bản của từng phƣơng pháp dịch và
qua đó cho biết phạm vi mà từng phƣơng pháp có thể giải quyết.
1.4.1. Các hệ dịch trực tiếp
Dịch trực tiếp từ các cặp ngơn ngữ nguồn và đích bằng cách thay thế các từ ở ngôn
ngữ nguồn với các từ tƣơng ứng của ngơn ngữ đích bởi các thông tin từ từ điển và
đƣợc sắp xếp lại một cách thích hợp theo các luật của ngơn ngữ đích. Chất lƣợng
của hệ dịch này phụ thuộc vào từ điển đƣợc xây dựng tốt, cũng nhƣ bộ phân tích
hình thái và hệ thống cấu trúc ngữ pháp [26]. Một trong những hệ dịch trực tiếp khá
thành cơng đó là hệ dịch SYSTRAN[26].
Tuy nhiên do hệ địch trực tiếp dùng các phép phân tích và thay thế đơn giản chỉ áp
dụng tốt đối với các cặp ngơn ngữ có tính chất tƣơng tự nhau và sẽ rất khó áp dụng
cho các hệ thống ngơn ngữ có cấu trúc ngữ pháp khác nhau hoàn toàn nhƣ (AnhViệt).
1.4.2. Các hệ thống dịch chuyển đổi
Là các hệ thống phân tích câu vào trong một ngơn ngữ sau đó áp dụng các luật ngơn
ngữ và từ vựng học (gọi là các luật chuyển đổi) để đƣa ra văn phạm tƣơng ứng
trong một ngôn ngữ khác. Hệ thống sử dụng một bộ phân tích (parse) để xem xét
cấu trúc của câu vào, và thiết lập cấu trúc của nó (thƣờng biễu diễn dƣới dạng cây
phân tích ngữ pháp). Sau đó hệ thống sử dụng các luật chuyển đổi tƣơng ứng từ cấu
trúc ngữ pháp của ngôn ngữ nguồn sinh ra cấu trúc ngữ pháp thuộc ngôn ngữ đích.
Các luật chuyển đổi ở đây có thể
Đây cũng là phƣơng pháp mà tôi lấy làm trọng tâm nghiên cứu trong luận văn này.
Định nghĩa:
Dịch bằng phương pháp chuyển đổi là các hệ thống phân tích câu vào trong ngơn
ngữ nguồn sau đó áp dụng các luật ngơn ngữ và từ vựng (gọi là luật chuyển đổi) để
đưa ra cấu trúc ngữ pháp tương ứng trong ngơn ngữ đích.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z



37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

11

Luận văn thạc sĩ

Trong hệ thống dịch này, ngơn ngữ chính là tiếng Anh. Ngơn ngữ đích là tiếng Việt.
Các bước của phương pháp chuyển đổi:
Nhƣ trong phần lý thuyết chung về phƣơng pháp chuyển đổi chúng ta đã biết các
khối trong hệ thống dịch chuyển đổi, ở đây trong trƣờng hợp hệ thống chuyển đổi
cho dịch từ tiếng Anh sang tiếng Việt bao gồm các khối chính.
 Phân tích hình thái học câu nguồn tiếng Anh
Vào: Câu tiếng Anh
Ra: Các thơng tin hình thái của các từ trong câu tiếng Anh
 Phân tích cú pháp tiếng Anh
Vào: Thơng tin hình thái của tất cả các từ trong câu
Ra: Cây phân tích ngữ pháp của câu
 Chuyển đổi sang cú pháp tiếng Việt
Vào: Cây phân tích ngữ pháp tiếng Anh, thơng tin hình thái các từ
Ra: Cây ngữ pháp tiếng Anh đƣợc chuyển đổi theo cú pháp tiếng Việt
 Tổ hợp câu tiếng Việt
Vào: Cây ngữ pháp tiếng Anh đƣợc chuyển đổi theo cú pháp tiếng Việt
Ra: Câu đƣợc dịch
Ngoài ra hệ thống cần một khối lƣợng lớn tri thức để dịch, đó là các từ điển tổ hợp
Anh,Việt.
Sơ đồ một hệ thống máy dịch bằng phƣơng pháp chuyển đổi


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

12

Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z

Luận văn thạc sĩ


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

13

Luận văn thạc sĩ

Một trong những vấn đề khó khăn khi sử dụng phƣơng pháp này đó là:
Khối lƣợng cơ sở luật phải xây dựng nhiều và đòi hỏi sự trợ giúp của các chuyên

gia ngôn ngữ. Tuy nhiên khi xây dựng với số lƣợng luật quá lớn thì khơng tránh
khỏi sự xung đột xuất hiện. Để khắc phục tình trạng này trong luận văn này tơi tập
trung vào nghiên cứu cách tiếp cận theo hƣớng dịch chuyển đổi và đƣa ra một mơ
hình xây dựng modun phân tích ngữ nghĩa bằng cách áp dụng kỹ thuật học quy nạp
[23].
1.4.3. Các hệ thống dịch liên ngữ.
Các hệ thống dịch liên ngữ đƣợc thiết kế theo các bƣớc của hệ thống chuyển đổi,
nhƣng trƣớc khi chuyển sang việc tạo cấu trúc ngữ pháp cho ngơn ngữ đích thì cấu
trúc ngữ pháp của ngơn ngữ nguồn đƣợc phân tích vào trong cấu trúc ngữ nghĩa của
một hệ cơ sở tri thức còn gọi là liên ngữ.
Tiếp theo hệ thống sử dụng tri thức từ liên ngữ để phân tích ngữ nghĩa và tạo cấu
trúc ngữ pháp cho ngơn ngũ đích, sau đó bộ tạo câu trên cấu trúc này sẽ đƣợc hoạt
động.
Liên ngữ đƣợc định nghĩa nhƣ một tập các khái niệm và các quan hệ giữa các khái
niệm. Liên ngữ biểu đạt câu dƣới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn
một khái niệm và mỗi cung biểu thị một quan hệ khái niệm. Nhƣ vậy, nó đƣợc xem
nhƣ là đặc tả về cấu trúc khái niệm cho câu. Để xây dựng đƣợc một liên ngữ đủ
mạnh để có thể mơ tả các thơng tin cho cùng lúc nhiều ngôn ngữ, cùng với các luật
sinh cho từng ngôn ngữ là một công việc rất phức tạp.

Ở đây tơi xin đƣa ra một ví dụ minh hoạ cho một mạng ngữ nghĩa của câu.
Trong đó:
<> là kí hiệu quan hệ khái niệm giữa các khái niệm
“ ” là kí hiệu khái niệm, khơng phải là từ thuộc ngơn ngữ tự nhiên.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z



37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

Luận văn thạc sĩ

14

TiÕng Anh
Juan writes the leters
The leters is writen by Juan

write
<Agent>

<Object>

"Human"

"leters"

TiÕng ViÖt
Juan viÕt bøc thBøc th- này đ-ợc viết
bởi Juan

Tiếng Nhật
fan ga tegami wo kaku
Tegami ha fan ga kaita

Hình 1.3: Mơ hình dịch Liên ngữ

Liên ngữ phải nắm đƣợc hiện tƣợng tƣơng tự nhƣ hoán dụ (metonymy)
Ví dụ :
Tokio announced yesterday that each home will get an super MT systerm by the
end of the decade.
Con ngƣời thì hiểu ngay “Tokio” nghĩa là một ngƣời phát ngơn của chính phủ Nhật.
Liên ngữ chứa đựng sự mơ tả nhƣ trên là cần thiết, sự mơ tả này có thể hiểu đơn
giản nhƣ “Tokio” đi với các động từ kiểu dạng nhƣ “announce” hàm chứa một ý
nghĩa ”Ngƣời phát ngơn”.
Trong ví dụ trên, q khứ phản ánh trong từ “announced” có nghĩa là sự tuyên bố đã
có truớc khi tác giả viết bài văn. Trong liên ngữ việc biểu diễn mối quan hệ về thời
gian trong các thì của tiếng Anh đƣợc giải quyết, mặc dù nó rất phức tạp. Tƣơng tự
việc xác định các nghĩa của từ kiểu nhƣ các từ this, that, all, every, the, a... phải
đƣợc mô tả sao cho chi tiết và bản chất nhất.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

15

Luận văn thạc sĩ

Ví dụ: John write the letter.
“The letter “ ở đây phải đƣợc hiểu nghĩa nhƣ là bức thƣ đã đƣợc xác định.
So sánh phƣơng pháp dịch liên ngữ với dịch chuyển đổi

 Ưu điểm của phương pháp dịch liên ngữ
Ƣu điểm lớn của hệ dịch này là khi ta tăng số lƣợng lớn ngôn ngữ cho hệ thống thì
việc xây dựng bộ luật mới sẽ ít hơn so với phƣơng pháp dịch chuyển đổi.
Ví dụ: một hệ thống dịch 3 ngôn ngữ, yêu câù luật dịch giữa các cặp ngôn ngữ theo
cả hai chiều. Cần cả thảy 6 bộ luật, nếu ta thêm một ngôn ngữ cần dịch nữa, dịch
đƣợc cả hai chiều với các ngơn ngữ trên thì cần phải thêm 6 bộ luật mới. Nói chung,
để dịch một hệ thống gồm N ngơn ngữ theo nghĩa cả hai chiều thì số bộ luật cần
thiết phải là N(N-1) cho hệ dịch chuyển đổi. Nhƣ thế khối lƣợng từ điển và số lƣợng
luật sẽ tăng rất nhanh, bởi vì các hệ thống MT hiện đại có thể có các từ điển có
luợng từ trên trăm ngàn từ (khoảng 150,000 từ) vài trăm luật ngữ pháp.
Các hệ thống dịch liên ngữ sẽ giải quyết những vấn đề khó khăn này nhờ một
ngơn ngữ trung gian. Việc thêm một ngôn ngữ mới vào một hệ thống liên ngữ chỉ
cần thêm hai bộ luật:
Các bộ luật phân tích cho câu từ ngôn ngữ mới đến liên ngữ và các luật sinh từ liên
ngữ đến câu trong ngôn ngữ mới.
Ví dụ: Số bộ luật cần thêm, khi đƣa vào hệ dịch một ngôn ngữ mới

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyn Vn Vinh

Lun vn thc s

16


Dịch chuyển đổi:
Việt

Anh

Việt

Anh

Pháp

Pháp

6 bộ luật

12 bộ luật

Trung

Dịch liên ngữ:

Việt

Việt
Liên ngữ

Liên ngữ
Anh
Pháp
3 bộ luật


Anh

Pháp
6 bộ luật

Trung

Hỡnh 1.4: So sánh số bộ luật
Điều này còn đem lại thuận lợi lớn khi xây dựng từ điển và các bộ luật. Một ngƣời
Việt Nam là chun gia thì có thể chỉ giỏi tiếng Việt chƣa hẳn đã giỏi tiếng Anh. Do
đó anh ta chỉ cần phát triển từ điển và các luật tiếng Việt. Những ngôn ngữ khác sẽ
do các chuyên gia nƣớc đó phát triển lấy.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

17

Luận văn thạc sĩ

 Nhược điểm của phương pháp dịch liên ngữ
Hệ thống liên ngữ có hạn chế là thƣờng địi hỏi phân tích chi tiết nhiều hơn sự
cần thiết cho một cặp ngơn ngữ nào đó. Tại sao ta phải phân tích một cách khó chịu

“Tokio” hốn dụ trong khi tất cả tiếng Anh, Pháp và Đức đều nói cùng kiểu? Tuy
vậy sự than phiền này khơng phải lúc nào cũng đúng. Trong đa số các hệ thống, bộ
phận phân tích đƣợc tự do điền những chi tiết ít hơn, và càng đầy đủ thì q trình
dịch càng tốt đẹp.
Một lý do nữa là hệ thống dịch liên ngữ phức tạp hơn. Trƣớc hết hệ thống phải có
hầu hết các bƣớc của phƣơng pháp dịch chuyển đổi, sau đó tiếp đến bƣớc chuyển
lên liên ngữ.
1.4.4. Dịch dựa trên dữ liệu
Các phƣơng pháp dịch truyền thống đều gặp những khó khăn chung là vấn đề xây
dựng cơ sở tri thức cho hệ thống dịch. Công sức để xây dựng cơ sở tri thức cho hệ
thống dịch là rất lớn bao gồm: Xây dựng từ điển, xây dựng hệ thống luật (cú pháp,
ngữ nghĩa). Những khó khăn này dẫn đến các cách tiếp cận khác cho dịch máy.
Dịch dựa trên dữ liệu là một phương pháp dịch dựa hoàn toàn vào một khối lượng
rất lớn các tài liệu các văn bản dịch có sẵn. Kiến trúc của phƣơng pháp này đƣợc
thể hiện trên hình 1.5.
Phƣơng pháp dịch dựa trên dữ liệu này bao gồm hai cách tiếp cận chính:
Dịch dựa trên ví dụ và dịch bằng phƣơng pháp thống kê.
1.4.4.1 Dịch dựa trên ví dụ(Examples based machine translation)
Đây là phƣơng pháp dịch dựa trên ví dụ hay cịn gọi là phƣơng pháp dịch bằng sự
tƣơng tự (translation by analogy). Cách tiếp cận này đƣợc Nagao đề xuất năm
1980. Ý tƣởng chính của phƣơng pháp là dịch các câu nhờ các câu tƣơng tự. Theo
Nagao phƣơng pháp dịch này mô phỏng cách dịch của con ngƣời. Cách dịch của
con ngƣời bao gồm:
 Phân tích ngơn ngữ nguồn thành các thành phần xác định

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z



37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

Luận văn thạc sĩ

18

 Dịch các thành phần đó sang ngơn ngữ đích bằng các luật tƣơng tự
 Kết hợp các thành phần đƣợc dịch để đƣợc toàn b cõu dch

Ng-ời dịch
Corpus song ngữ

Huấn luyện

Nguồn trí thức

Văn
bản

Tiền xử lý

Hệ quyết định

Hậu xử lý

Văn bản
dịch


Hỡnh 1.5: S h thống dịch dựa trên dữ liệu
Một trong những kỹ thuật đƣợc sử dụng rộng rãi trong phƣơng pháp này đó là các
kỹ thuật đối sánh mẫu. Các hệ thống EBMT(hệ thống dịch dựa trên mẫu) thay vì
phải tổ chức các hệ luật bằng tập các mẫu câu, điều này khiến cho công việc xây
dựng các hệ tri thức cho việc dịch trở nên đễ dàng kiểm sốt hơn, bởi vì việc xây
dựng một bộ luật thì phức tạp hơn việc thu thập các mẫu câu rất nhiều. Trong hệ
thống EBMT thì độ chính xác của việc dịch phụ thuộc vào độ lớn của cơ sở tri thức
(gồm các mẫu câu).
Phƣơng pháp dịch EBMT là một trong những phƣơng pháp hiện đại và hệ thống
dịch theo phƣơng pháp này có thể tăng cƣờng sức mạnh bằng cách thực hiện việc
tính tốn song song[33]. Hơn nữa độ chính xác của hệ thống dịch sẽ đƣợc cải tiến
nhiều hơn nữa bằng cách sử dụng việc tích hợp phƣơng pháp dịch truyền thống
(dịch chuyển đổi) với phƣơng pháp dịch mẫu câu[33].

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

19

Luận văn thạc sĩ

1.4.4.2. Dịch thống kê (statistical translation)
Dịch thống kê hay dịch bằng phƣơng pháp toán học là một cách tiếp cận khác trong
hệ thống dịch dựa trên dữ liệu. Do luận văn của chúng tôi tập trung theo cách tiếp

cận này, vì vậy chƣơng 3 sẽ trình bày chi tiết về cách tiếp cận này.
1.5. Các hệ thống dịch máy trên thế giới
Ngày nay chất lƣợng của các hệ thống dịch máy trên thế giới đã cải tiến rất nhiều.
Chúng ta có thể điểm qua các hệ thống dịch máy hiện đang đạt kết quả dịch tốt ở
một số trung tâm dịch máy trên thế giới.
Dịch máy ở trung tâm dịch máy tại Đại Học Carnegie Mellon (CMT) là một trong
những trung tâm đƣa ra đƣợc nhiều kết quả quan trọng nhất về vấn đề dịch máy.
SYSTRAN
Đây là hệ dịch máy thƣơng mại nổi tiếng của châu Âu, nó có thể dịch trong hơn
chục ngơn ngữ và trong nhiều lĩnh vực khác nhau. Phiên bản mới nhất của Systran
là 5.0 (2004). Để xem chi tiết chúng ta có thể vào www.systransoft.com.
DIPLOPMAT
Hệ thống dịch tự động từ văn bản- văn bản giữa hai cặp ngôn ngữ phát triển qua dự
án Pangloss. Hệ thống này đã thu đƣợc những kết quả nhất định.
JANUS:
Hệ thống dịch tự động từ văn bản- văn bản trong môi trƣờng đa ngữ
Dùng cách tiếp cận liên ngữ ( interlingua - based). Các ngôn ngữ ở trong hệ dịch
này bao gồm: Anh, Đức, Nhật bản, Hàn Quốc, Ý, và Pháp.
KANT:
Hệ thống dịch máy dựa trên tri thức, dịch trên đa ngữ. Cho chất lƣợng về mặt từ
vựng và ngữ pháp đạt kết quả rất cao. Đây là hệ thống dịch máy đạt đƣợc mức cơ
bản về chất lƣợng, đảm bảo cho câu dịch có nghĩa tƣơng đối chính xác.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66


Nguyễn Văn Vinh

20

Luận văn thạc sĩ

PANGLOS: Hệ thống dịch máy kết hợp bởi CMT ở đại học Carnegie Mellon
University, Phòng thí nghiệm nghiên cứu khoa học máy tính ở Đại học New
Mexico State và Viện Khoa Học Thông Tin ở trƣờng đại học Californial.
Hệ thống cũng đã đạt đƣợc kết quả khá khả quan, cho đến nay trung tâm nghiên cứu
CRL (computing Research Laboraty) ở New Mexicol University tiếp tục phát triển
từ hệ thống PANGLOS thành các hệ nâng cấp hơn:
Artwork III; Hệ thống dịch tự động cho các văn bản dƣới dạng văn nói (sopken
languge).
CORELLI: Mở rộng từ Hệ thống PANGLOS và thực hiện theo phƣơng pháp dịch
mẫu câu (template translation) dịch từ 6 ngôn ngữ Ả rập, Nga, Nhật bản, Anh, Tây
Ban Nha,..
Ngày nay các hệ thống dịch máy phát triển theo hƣớng tiếp cận dựa trên dữ liệu có
sẵn (translation by corpus) đang và đã đƣợc phát triển rất mạnh mẽ. PROTEUS là
hệ thống dựa trên phƣơng pháp dịch mẫu câu cho Văn bản tiếng Anh và tiếng Tây
ban Nha [32]. CANDIDE là hệ thống dịch dựa trên cách tiếp cận thống kê đƣợc xây
dựng bởi tập đoàn IBM cho văn bản tiếng Anh và tiếng Pháp[9]. Hệ thống này cho
chất lƣợng dịch rất cao đến 75-80%.
Ở nƣớc ta nhu cầu dịch cũng rất lớn tuy nhiên các sản phẩm thƣơng mại hiện tại chỉ
có EVTRAN, cịn các nhóm đang nghiên cứu và có kết quả nhƣ nhóm của Đại học
Quốc Gia thành phố Hồ Chí Minh. Tuy nhiên các hệ thống dịch trên thị trƣờng mới
thể hiện đƣợc mức độ trung bình, đặc biệt là về mặt ngữ nghĩa hầu nhƣ chƣa đạt tới.
Hiện nay, tôi đang là thành viên của nhóm phần Mềm – Cơng ty cổ phần Tin học
Lạc Việt. Chúng tôi đang phát triển một hệ thống dịch tự động Anh-Việt. Hệ thống
này dịch khá tốt đối với văn bản chuyên ngành nhƣ tin học, kinh tế. Trong luận văn

này tôi cũng muốn đóng góp một phần vào vấn đề dịch máy chủ yếu là hệ dịch tự
động Anh -Việt và cũng muốn chia sẻ về kinh nghiệm phát triển hệ thống dịch AnhViệt này.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

21

Luận văn thạc sĩ

1.6. Các vấn đề trong khi dịch ngôn ngữ tự nhiên
1.6.1. Sự khác nhau giữa ngƣời dịch và máy dịch
Về mặt bản chất và mục tiêu của nguời dịch và máy dịch là khác nhau.
a). Ngƣời dịch tài liệu theo hình thức thủ cơng, bản dịch của anh ta mang tính chất
nghệ thuật và nhuốm màu sắc cá nhân. Do vậy anh ta sẽ tốn nhiều thời gian và công
sức dẫn đến giá thành dịch rất cao. Một mặt công việc dịch sẽ phụ thuộc vào sự tích
luỹ kiến thức của anh ta qua kinh nghiệm và qua q trình học. Do đó anh ta chỉ có
thể dịch đƣợc các tài liệu chuyên về một lĩnh vực nào đó mà thơi.
b). Các hệ dịch máy thực hiện cơng việc dịch một cách “máy móc” với tốc độ nhanh
và việc dịch có thể hồn tồn tự động, cho nên giá thành thấp. Việc dịch sẽ phụ
thuộc vào dữ liệu ở từ điển, hay ở cơ sở tri thức (liên ngữ) do đó máy có thể dịch
đƣợc nhiều tài liệu ở nhiều lĩnh vực khác nhau.
Nhìn chung các hệ thống dịch máy thể hiện việc xử lý tài liệu mang tính chất cơng
nghiệp, cịn ngƣời dịch mang tính chất thủ cơng. Tuy rằng trong điều kiện hiện tại

bản dịch máy có chất lƣợng kém hơn so với bản do ngƣời dịch nhƣng giá thành lại
thấp hơn. Mặt khác một hệ dịch máy tốt có khả năng bổ sung cơ sở tri thức cho
mình (do các nhà ngơn ngữ, hoặc do tự học) cho nên chất lƣợng dịch sẽ ngày càng
tốt hơn. Những điều trên đủ cho thấy là việc dịch tài liệu sẽ chuyển dần từ ngƣời
dịch sang máy dịch.
1.6.2. Các trở ngại khi dịch
Ngôn ngữ tự nhiên rất phức tạp, do đó dù ngƣời dịch hay máy dịch cũng gặp những
thách thức ghê gớm.
Vì luận văn của tôi chủ yếu đề cập đến dịch Anh-Việt do đó tơi xin đƣa ra những
khó khăn trong việc dịch tiếng Anh sang tiếng Việt, các khó khăn này có thể nói là
khó khăn chung cho hầu hết các ngơn ngữ tự nhiên khác. Tuy nhiên cũng có một số
khó khăn là đặc thù đối với cặp ngôn ngữ này.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

22

Luận văn thạc sĩ

a). Nhập nhằng
Ngôn ngữ tự nhiên vốn là nhập nhằng (ambigous) đây chính là khó khăn lớn nhất
trong việc dịch ngôn ngữ tự nhiên.
Các loại nhập nhằng sau:

+Nhập nhằng từ vựng
Một từ có thể có nhiều chức năng ngữ pháp. Mỗi chức năng ngữ pháp lại có thể có
vài nghĩa. Các loại từ này là gặp thƣờng xun trong ngơn ngữ tự nhiên.
Ví dụ:
Trong tiếng Anh từ make có 14 nghĩa,từ nervous có 4 nghĩa, trong tiếng Pháp từ
faire có 20 nghĩa, từ mettre có 4 nghĩa .
Từ train có chức năng noun (danh từ) và có nghĩa là tàu hoả, hoặc đồn tuỳ tùng.
Từ train có chức năng là Verb (động từ) và có nghĩa là đào tạo, hoặc dạy dỗ.
Ngƣời ta tính rằng trong tiếng Anh bình qn từ có ít nhất 2 nghĩa. Từ có nhiều
nghĩa nhất (kỷ lục Guiness) là từ Set có tới 58 nghĩa khi là danh từ, 126 nghĩa khi là
động từ và 10 nghĩa khi là tính từ.
Thơng thƣờng loại nhập nhằng này có thể khắc phục bằng cách dựa vào phân tích
ngữ pháp và dựa vào ngữ cảnh câu.
Ví dụ: I love you (tơi u bạn).
Ở câu này love tuy có hai nghĩa: tình u (noun), yêu (verb). Nhƣng theo cấu trúc
của câu tiếng Anh bắt buộc trong câu phải có động từ đi kèm cho nên love ở đây
đƣợc hiểu nghĩa là yêu (verb).
+Nhập nhằng về cú pháp (syntax)
Trong ngôn ngữ tự nhiên một câu có thể các cấu trúc ngữ pháp khác nhau, từ đó dẫn
đến một câu có thể hiểu theo nhiều nghĩa khác nhau.
Đơi khi một cấu trúc ngữ pháp cũng có thể hiểu theo các nghĩa khác nhau.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh


23

Luận văn thạc sĩ

Ví dụ 1:
The man passed a train with a broken locomotive.
(Ngƣời đàn ông vƣợt qua một đoàn tầu với một cái đầu tầu bị hỏng)
Ở câu này có thể có hai cách xác định tân ngữ cho động từ pass
- pass a train with a broken locomotive
( tân ngữ)
- pass a train with a borken locomotive
(tân ngữ)
Cụm từ with a broken locomotive (với một cái đầu máy hỏng) có thể để chỉ:
- Đồn tàu đó có cái đầu máy hỏng
- Dùng để nhấn mạnh “Ngƣời đàn ông” đã lái một đầu tầu hỏng khi anh ta vƣợt qua
một đồn tầu.
- Dùng để nhấn mạnh ơng ta mang trong tay một cái đầu tầu hỏng khi vƣợt qua một
đoàn tàu hoả.
Ngoại trừ trƣờng hợp đặc biệt thì hai nghĩa sau cùng bị loại bỏ và chỉ lại nghĩa ban
đầu. Bởi chúng ta biết rằng ngƣời đàn ông đó không thể điều khiển đƣợc chiếc đầu
tầu đã bị hỏng, và càng khơng thể cầm nó trên tay đƣợc.
Ví dụ 2:
Câu 1: I saw a horse with a telescope.
- I saw a horse with a telescope.
(tân ngữ)
- I saw a horse with a telescope.
(tân ngữ)

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99


z


37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.2237.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.66

Nguyễn Văn Vinh

câu 2:

24

Luận văn thạc sĩ

I saw a man with a telescope.
- I saw a man with a telescope.
- I saw a man with a telescope.

Câu 1 có thể hiểu theo hai nghĩa :
- Tơi nhìn thấy con ngựa qua ống nhịm.
- Tơi nhìn thấy một con ngựa (mà nó) có cái ống nhịm.
Câu 2 cũng có thể hiểu đƣợc theo hai nghĩa:
- Tơi nhìn thấy một ngƣời đàn ơng qua ống nhịm.
- Tơi nhìn thấy một ngƣời đàn ơng (mà ơng ta) có cái ống nhịm.
Việc phân tích nghĩa cho phép ta chọn nghĩa đúng (trong ngữ cảnh thơng thƣờng )
của câu 1, nhƣng phải bó tay hồn tồn trƣớc câu 2.
+ Nhập nhằng nói năng
Bao gồm cả sự mơ hồ về từ ngữ lẫn cú pháp.
John took the fruit from the table, then he cleaned it.
(John lấy trái cây ra khỏi bàn, rồi anh ta lau nó)

it (nó) ở đây là fruit (trái cây) hay table (cái bàn) ?
+ Mơ hồ về phân đoạn.
Chỉ tồn tại trong các thứ tiếng các nƣớc châu Á-ngôn ngữ loại đơn lập
có các nguyên nhân sau:
-Khái niệm của từ mờ
-Hiện tƣợng quyện từ vào nhau
Ví dụ: Ơng già đi nhanh q.

37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.99

z


×