Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (459.75 KB, 26 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-------------------------

TRẦN LÊ TÂM LINH

NHỮNG LỖI NGÔN NGỮ CỦA
PHẦN MỀM GOOGLE TRANSLATE
KHI DỊCH TỰ ĐỘNG ANH-VIỆT
CÁC HỢP ĐỒNG KINH TẾ

Chuyên ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 62. 22 .01.10

TÓM TẮT LUẬN ÁN TIẾN SĨ NGỮ VĂN

Thành phố Hồ Chí Minh - năm 2017

Công
trình
được
hoàn
thành
tại:
........................................................................................................................
........................................................................................................................

Người hướng dẫn khoa học:
1.
..........................................................................

2.
..........................................................................

Phản biện 1:
........................................................................................................................
Phản biện 2:
........................................................................................................................
Phản biện 3:
........................................................................................................................

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo
họp tại
............................................................................................................
Vào hồi................giờ ..........ngày............tháng..................năm
.............................
Phản
biện
độc
lập
1
....................................................................................................................
Phản
biện
độc
lập
2
....................................................................................................................
Có
thể
tìm

hiểu
luận
án
tại
thư
viện:
....................................................................................................................
(ghi tên các thư viện nộp luận án)
2

3

MỞ ĐẦU
1. Lý do và mục đích nghiên cứu
Lỗi ngôn ngữ khi dịch tự động Anh – Việt là một đề tài đang được quan tâm. Hiện nay,
số lượng các văn bản hợp đồng kinh tế Anh-Việt ngày càng nhiều nhưng việc dịch tự động
để đáp ứng cho nhu cầu này còn rất hạn chế. Vì vậy, việc khảo sát lỗi cần có sự kết hợp
giữa ngôn ngữ học và tin học để các phần mềm xử lý lỗi được thực hiện và phát triển.
Mục đích của luận án là khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng
và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt, để tìm ra nguyên nhân dẫn
đến lỗi và tìm cách khắc phục.
2. Lịch sử vấn đề
a) Lịch sử nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về lỗi như:
Richards (1971), công bố hai công trình liên quan đến cách tiếp cận không tương phản đối
với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai. Schachter (1974), nhận xét lỗi
trong quá trình phân tích lỗi. Steel (1976) công bố nghiên cứu sự biến đổi trật tự từ:
nghiên cứu loại hình ngôn ngữ. Nhóm các tác giả Schachter và Murcia (1977) đã phân tích

những trở ngại trong việc phân tích lỗi. Cuối thập niên này, Kroll và Schafer (1978) có
công trình phân tích lỗi và giảng dạy phép ghép từ.
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý thuyết nhiều:
Williams (1981) công bố hiện tượng học về lỗi, Corder (1981) phân tích lỗi và tính liên
ngành của ngôn ngữ học. Sau đó, Selinker (1984) công bố công trình phân tích lỗi trong
ngôn ngữ trung gian. Taylor (1986) viết lỗi và cách giải thích lỗi.
Ở Việt Nam, đề tài về trật tự từ được nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm
như: Lý thuyết trật tự từ trong cú pháp (Lý Toàn Thắng, 2002) là công trình hữu ích có thể
giúp cho việc khảo sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa
(2004) khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và tiếng Việt.
Trần Thị Minh Phượng (2005) khảo sát những lỗi thường gặp về trật tự từ ở người Việt
học tiếng Anh. Đinh Điền (2006) so sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng
Việt. Đỗ Minh Hùng (2007) viết lỗi ngữ pháp tiếng Anh thường gặp của người Việt Nam.
Phạm Thị Tuyết Hương (2009) nghiên cứu trật tự từ câu đơn tiếng Anh trên bình diện kết
học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt). Năm 2009, có trong các
công trình về lỗi như: lỗi ngữ pháp và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu,
Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009), lỗi từ vựng và cách
khắc phục (Hồ Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) và lỗi chính tả và cách
khắc phục (Lê Trung Hoa, 2009). Ngoài ra còn có lỗi ngôn ngữ của người nước ngoài học
tiếng Việt (Nguyễn Linh Chi, 2009).
b) Lịch sử nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên 1960, công trình
của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông hướng tới khoa học dịch
thuật, trong tác phẩm này ông đặc biệt quan tâm đến những nguyên tắc và những tiến trình
liên quan đến dịch kinh thánh. Catford (1965) có công trình lý thuyết ngôn ngữ về dịch
thuật.
Newmark (1979) cho thấy nhiều vấn đề xảy ra trong lý thuyết và phương pháp dịch thuật
của.

1

Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng kính khoa học
như: khoa học hóa những vấn đề về dịch thuật và những phương pháp dịch thuật (Wilss,
1982), vấn đề trong đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay những cách tiếp
cận đối với dịch thuật (Newman, 1988 và Newmark, 1988).
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương
pháp dịch thuật. Julian Edge (1990) có công trình nêu nguyên nhân mắc lỗi và cách sửa
lỗi. Bell (1991) ứng dụng lý thuyết dịch. Nord (1992) và Neubert & Shreve (1995) phân
tích văn bản khi huấn luyện dịch thuật. Jakobson (1998) bàn về những khía cạnh ngôn ngữ
trong dịch thuật.
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơn
trong các công trình của Harry Aveling (2002), Na (2005) hay Gyse Hansen (2010) nhằm
khắc phục được khả năng dịch thuật của người cũng như của máy.
c) Lịch sử nghiên cứu dịch tự động
Dịch tự động đã được nghĩ đến từ thời Leibtniz và Descartes ở đầu thế kỷ XVII, nhưng
không có ứng dụng thực tế. Tuy nhiên, quá trình nghiên cứu này vẫn tiếp diễn qua các thời
kỳ Petr Smirnov-Troyanskii (1937), Weaver (1949),v.v. gần đây nhất là Popovic và
Burchardt (2007) cho rằng cải tiến dịch tự động thống kê bằng cách sử dụng việc khử nhập
nhằng ngữ nghĩa của từ.
Tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ
yếu là dịch tự động Anh-Việt, với các phương pháp khác nhau như: phương pháp dịch tự
động dựa theo luật,dịch tự động dựa trên thống kê và đến năm 2010, EVTRAN 4.0 ra đời,
phần mềm này có thể dịch tự động một đoạn văn bản từ Anh sang Việt và ngược lại.
d) Lịch sử nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhà
ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những nét tương đồng và dị biệt
của các loại hình ngôn ngữ. Nổi bật nhất là công trình phân loại lỗi cho việc đánh giá dịch
tự động (Flanagan, 1994), phân tích lỗi và tiếng quốc tế (Ellis, 1997).
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công trình giá trị như

phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá xác định lỗi trong dịch tự
động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro và Ney, 2006, 2010). Những
nghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phần
mềm Google Translate (dịch tự động thống kê ) khi dịch các hợp đồng kinh tế.
- Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp và lỗi cấu trúc câu.
Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn
bản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết
văn bản.
4. Phương pháp nghiên cứu và nguồn ngữ liệu
a) Phương pháp nghiên cứu
Những phương pháp nghiên cứu chủ yếu được sử dụng trong luận án: phương pháp miêu
tả, phương pháp so sánh đối chiếu . Bên cạnh đó, chúng tôi còn sử dụng một thủ pháp xử
lý ngữ liệu. Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai công
cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL.

2

Luận án sử dụng phần mềm BLAST và BLAST-VCL nhằm xây dựng, kiểm định tiêu chí
phân loại lỗi và tiến hành qua các bước: thu thập, chuẩn hóa và xử lý ngữ liệu. Ở giai đoạn
tiền xử lý, ngữ liệu được tách ra: ngôn ngữ nguồn tiếng Anh (src file), ngôn ngữ đích tiếng
Việt (ref file) dịch thủ công và ngôn ngữ đích tiếng Việt dịch tự động được thực hiện bởi
Google Translate. Sau khi chọn lọc, phân tích và xử lý các tập tin các công cụ trên sẽ tự
động thống kê kết quả (xem Hình 1).

`
Hình 1. Mô hình phân tích lỗi BLAST-VCL
b) Nguồn ngữ liệu

Năm nguồn ngữ liệu chính làm làm cơ sở cho việc nghiên cứu là Cung Kim Tiến (CKT),
Trần Lê Tâm Linh (TLTL), Nguyễn Thành Yến (NTY), Xuân Huy- Minh Khiết (XH-MK)
và nhóm LEGAL bao gồm các hợp đồng kinh tế Anh-Việt để giao dịch tại Việt Nam.
5.

Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loại
hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chí
phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tế
khi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh.
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung
dịch sát với nội dung văn bản gốc. Hiện nay, các công trình dịch tự động còn có ứng dụng
rất tốt trong việc giảng dạy ngôn ngữ. Một trong các phương pháp đào tạo cử nhân biên
phiên dịch hiện nay là cho sinh viên phân tích các lỗi của dịch máy và từ đó rút ra những
kinh nghiệm cho dịch thuật. Phương pháp này được gọi là “Học lỗi từ dịch máy” (Machine
translation as a bad model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn người
học cách giải thích và chỉnh sửa. Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trong
việc học và dạy biên phiên dịch.
6.
Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm ba chương:

3

Chương 1: Cơ sở lý thuyết, khái quát một số vấn đề chung về khái niệm lỗi, cơ sở lý
luận của việc phân tích lỗi và lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ của
Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm của dịch
tự động - trình bày những thuận lợi và khó khăn trong dịch tự động, khái niệm hợp đồng
kinh tế; đặc điểm loại hình tiếng Anh và tiếng Việt; nhận diện và phân loại lỗi ngôn ngữ

khi dịch tự động - nêu cơ sở lý luận của việc phân tích lỗi trong chuyển dịch, giới thiệu các
bước phân tích ngữ liệu khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lý
ngữ liệu; cuối cùng, lập tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động bao gồm: lỗi chính
tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống và lỗi ngẫu nhiên.
Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê toàn bộ kết quả lỗi chính tả (lỗi
sai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và lỗi từ vựng (lỗi nhập
nhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại lỗi chính tả và từ vựng thuộc
lỗi hệ thống và ngẫu nhiên.
Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự động hợp
đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai từ công cụ, lỗi dịch
sai khi có sự hòa hợp giữa chủ từ và động từ, lỗi thừa từ và lỗi thiếu từ). Lỗi trật tự từ sẽ
được phân tích dựa theo tiêu chí BLAST và BLAST-VCL và phân tích các loại lỗi ngữ
pháp thuộc lỗi hệ thống và thuộc lỗi ngẫu nhiên.

4

CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. Khái niệm lỗi
Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate
khi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào ba loại lỗi ngôn ngữ:
chính tả, từ vựng và ngữ pháp. Tuy nhiên, có hai loại lỗi đặc trưng cho dịch tự động không
thể bỏ qua đó là lỗi hệ thống và lỗi ngẫu nhiên.Vì vậy, mục này nêu khái niệm của các lỗi
trên. Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối chương 1.
1.1.1. Khái niệm lỗi chính tả
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu
(thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ.
Theo Nguyễn Đức Dân (2015): “ Sai chính tả là câu viết không đúng quy định về chính tả,
không đúng quy tắc về dấu câu, không đúng quy tắc viết tắt”.
1.1.2. Khái niệm lỗi từ vựng

“Sai từ vựng là câu mà giữa các từ trong đó không tương hợp về nghĩa.” (Nguyễn
Đức Dân, 2015) và “Lỗi từ vựng có thể do viết sai âm, hiểu sai nghĩa, dùng sai chức năng
ngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện Nam, 2001).
1.1.3. Khái niệm lỗi ngữ pháp
Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng nguyên tắc
ngữ pháp, nghĩa là viết không đúng cấu trúc câu. Thường là những câu cụt, thiếu chủ ngữ
hay vị ngữ, thậm chí thiếu cả hai.”
1.1.4. Lỗi hệ thống
- Lỗi hệ thống là những lỗi mang tính khách quan và bất biến theo thời gian (tạm
thời chỉ xét vào thời điểm nghiên cứu là từ tháng 8/2012 đến tháng 2/2014, bởi vì đặc
trưng của dịch tự động thống kê là khối ngữ liệu càng lớn thì càng dịch tốt. Vì vậy, những
qui ước này có thể thay đổi trong tương lai là điều tất yếu).
- Phân loại lỗi hệ thống thông qua khoảng cách Levenshtein
Để cho dễ quan sát, chúng tôi qui ước khoảng cách Levenshtein của dịch tự động như
sau: giữa năm 2012 và năm 2014 là L1, năm 2012 và câu tham chiếu (dịch thủ công) là L2
và năm 2014 và câu tham chiếu là L3.
Ví dụ: Other documents as and when necessary.
Câu tham chiếu: Các tài liệu khác nếu thấy cần thiết.
Dịch tự động T.8/2012: Các tài liệu khác và khi cần thiết
Dịch tự động T.02/2014: Các tài liệu khác và khi cần thiết
Kết quả nhận được theo khoảng cách Levenshtein: L1=0, L2=7 và L3=7 và độ lệch L3L2=0. Như vậy, hai lần dịch tự động với thời gian khác nhau nhưng cho kết quả như nhau.
Vậy đây là lỗi hệ thống.
1.1.5. Lỗi ngẫu nhiên
- Lỗi ngẫu nhiên mang yếu tố chủ quan vì có thể do bất cẩn từ khâu nhập ngữ liệu cho
ngôn ngữ nguồn hay do khâu tách các cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữ liệu.
- Phân loại lỗi ngẫu nhiên thông qua khoảng cách Levenshtein

5

Độ lệch Levenshtein L2 và L3 lớn hơn 4, sẽ cho ra kết quả lỗi ngẫu nhiên và có hai
trường hợp xảy ra là dịch tự động năm 2014 tốt hơn dịch tự động năm 2012 và ngược lại.
1.2. Cơ sở lý luận của việc phân tích lỗi dịch thuật
Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân dịch
(người dịch / máy dịch) gây ra. Việc thu thập các mẫu ngôn ngữ nguồn cũng như ngôn ngữ
đích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân loại lỗi và giải thích
nguyên nhân mắc lỗi.
1.2.1. Định nghĩa lỗi dịch thuật và lỗi dịch tự động
a) Định nghĩa lỗi dịch thuật
Lỗi dịch thuật là những sai sót trong khi dịch, không thực hiện đúng quy tắc nghiên
cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa của văn bản
ngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi ngữ pháp, lỗi ngữ dụng…).
b)

Định nghĩa lỗi dịch tự động

Theo Hutchins và Somers (1992), các loại lỗi trong dịch tự động chính là những
nhập nhằng (ambiguity) về từ vựng, cấu trúc và từ định lượng. Nhập nhằng từ vựng được
nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giao
thoa. Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) và
nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity).
1.2.2. Các bước xử lý ngữ liệu trước khi phân tích lỗi
Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt,
chúng tôi sử dụng phần mềm BLAST nhằm xây dựng và kiểm định hệ tiêu chí phân loại
lỗi. Sau đây là các bước xử lý ngữ liệu: thu thập ngữ liệu, chuẩn hóa ngữ liệu, xử lý ngữ
liệu.
a)

Nhận dạng lỗi dịch tự động
Có hai cách phân biệt lỗi khi dịch tự động Anh-Việt:

Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên và lặp lại sau mỗi lần dịch (lỗi hệ
thống).
Cách 2: Những lỗi nào cho ra kết quả dịch khác nhau trong những thời điểm khác
nhau xuất phát từ nguyên nhân chủ quan như nhập sai ngữ liệu, độ dài câu, dấu chấm câu,
qui ước viết hoa, viết tắt, v.v. (lỗi ngẫu nhiên).
b) Phân tích lỗi dịch tự động Anh-Việt
Căn cứ vào lý thuyết của Corder (1981) và Ellis (1997), luận án thực hiện các bước sau
đây để phân tích lỗi dịch tự động: thu thập các loại lỗi, xác định từng loại lỗi, miêu tả lỗi,
giải thích lỗi và đánh giá lỗi.
1.3. Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế
1.3.1. Đặc điểm của dịch tự động
a) Khái niệm về dịch tự động

6

Dịch tự động là việc lập chương trình cho máy tính điện tử tự chuyển ngữ các văn
bản từ trong một ngôn ngữ này sang một ngôn ngữ khác. Ngôn ngữ của văn bản gốc gọi là
ngôn ngữ nguồn, ngôn ngữ của văn bản dịch gọi là ngôn ngữ đích. Hai văn bản dịch gọi là
tương đương nhau nếu nó được người đọc hiểu giống nhau.
b) Những thuận lợi và khó khăn trong dịch tự động
- Thuận lợi của dịch tự động là dịch nhanh (tiết kiệm rất nhiều thời gian); chi phí
thấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mật
cao cho người sử dụng dịch vụ (những bản dịch mang tính cá nhân).
- Khó khăn của dịch tự động chưa cho ra kết quả chính xác một cách nhất quán, chỉ
dịch từng từ rời rạc mà không cần hiểu, do đó, cần phải chỉnh sửa bằng tay sau khi được
dịch tự động. Ngoài ra, chất lượng dịch tự động còn thấp đối với những văn bản có nhiều
từ hoặc ngữ. Dịch tự động chỉ dựa vào luật hình thức và luật hệ thống nên đôi khi gặp khó
khăn đối với câu nhập nhằng. Trong khi đó, dịch thủ công giải quyết bằng cách tập trung
vào ngữ cảnh, sử dụng kinh nghiệm hay trực giác.

c) Các cách tiếp cận đối với dịch tự động
Theo Koeln (2014), có sáu cách tiếp cận dịch tự động: dịch tự động từng từ một
(direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch tự động liên ngữ
(interlingual MT), dịch tự động dựa trên ngôn ngữ có kiểm soát (controlled language MT),
dịch tự động dựa trên ví dụ (example-based MT) và dịch tự động dựa trên thống kê (SMT).
Ngoài ra, còn có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa trên qui luật (rulebased MT), dựa trên cơ sở tri thức (knowledge-based MT), dựa trên ngữ liệu (corpus-based
MT) và dựa trên cách tiếp cận lai (hybrid MTS) (Đinh Điền, 2006b).
1.3.2. Đặc điểm về loại hình của tiếng Việt và tiếng Anh
- Tiếng Việt được xếp vào loại hình đơn lập (isolate) hay còn gọi là loại phi hình thái,
không biến hình, đơn tiết.
- Tiếng Anh được xếp vào loại hình hòa kết (flexional) hay biến hình.
1.3.3. Hợp đồng kinh tế
a)
Khái niệm hợp đồng kinh tế
Hợp đồng kinh tế là sự thỏa thuận bằng văn bản, tài liệu giao dịch giữa các bên ký kết về
việc thực hiện công việc sản xuất, trao đổi hàng hóa, dịch vụ, nghiên cứu ứng dụng tiến bộ
khoa học kỹ thuật và các thỏa thuận khác có mục đích kinh doanh với sự quy định rõ ràng
về quyền và nghĩa vụ của mỗi bên để xây dựng và thực hiện kế hoạch của mình.
b) Các loại hợp đồng kinh tế
Dựa trên những căn cứ khác nhau, mà người ta phân hợp đồng kinh tế thành nhiều loại
khác nhau: căn cứ thời hạn thực hiện hợp đồng, căn cứ vào tính chất quan hệ của hợp đồng
và căn cứ vào nội dung giao dịch của mối quan hệ hợp đồng.
1.3.4. Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động
Dưới góc nhìn của ngôn ngữ học, luận án chỉ khảo sát loại lỗi theo tiêu chí BLAST:
Loại I: là loại lỗi không hợp với cách nói của người sử dụng ngôn ngữ đích nhưng
có thể tạm chấp nhận được vì vẫn mang đủ nghĩa theo ngữ cảnh.
Loại II: được xem là sai hoàn toàn
Có 3 loại lỗi ngôn ngữ khi dịch tự động hợp đống kinh tế Anh-Việt được phân tích
trong luận án này:

7

a)

Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt
bao gồm lỗi sai ở thành phần của cấu trúc âm tiết (thanh điệu, phụ âm đầu, vần), lỗi
viết hoa, lỗi viết tắt, lỗi dấu câu...
b)

Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt
Những câu dịch không có ý nghĩa tạo ra những lỗi ngữ nghĩa (sense). Theo tiêu chí
BLAST, lỗi ngữ nghĩa thuộc về lỗi từ vựng chủ yếu khi dịch tự động hợp đồng kinh tế
Anh-Việt bao gồm: lỗi nhập nhằng nghĩa là lỗi do chọn sai mục từ trong từ điển
(ambiguity), lỗi hiểu sai nghĩa thành ngữ (idiom) và lỗi hiểu sai nghĩa thuật ngữ (term).
c)

Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt
Lỗi ngữ pháp bao gồm: lỗi trật tự từ (word order); lỗi thừa hay thiếu một hay nhiều
thành tố trong cấu trúc còn được gọi là lỗi thừa từ (extra), lỗi thiếu từ (missing) và lỗi do
không hòa hợp giữa chủ từ và động từ (agreement).
Nhận xét chương 1:
Dịch tự động Anh-Việt các hợp đồng kinh tế là một phương tiện hỗ trợ thiết thực hữu
dụng cho con người. Do mỗi ngôn ngữ có tính tương đồng và tính dị biệt, nên khi dịch tự
động không thể không mắc lỗi, chủ yếu là lỗi từ vựng, lỗi chính tả và lỗi ngữ pháp. Google
Translate giúp cho nhân loại có thể hiểu nhau hơn qua dịch thuật, với ưu điểm là dịch
nhanh với số lượng trang văn bản khá nhiều trong thời gian ngắn. Tuy nhiên, do sự khác
nhau về loại hình của từng ngôn ngữ chẳng hạn như tiếng Anh, ngôn ngữ hòa kết, và tiếng
Việt, ngôn ngữ đơn lập, nên hạn chế của dịch máy không thể tránh khỏi. Vì vậy, cần có
một cơ sở lý thuyết để minh định cho vấn đề đặt ra, những cách tiếp cận giúp chúng ta hiểu

rõ hơn nguyên nhân mắc lỗi và các phần mềm vi tính ra đời hỗ trợ cho ngôn ngữ học như
BLAST, BLAST-VCL. Đó là tiền đề nhận diện và phân loại lỗi như lỗi chính tả, lỗi từ
vựng và lỗi ngữ pháp.
Khi nghiên cứu những gì mà các nhà ngôn ngữ học đi trước đã nêu ra về vấn đề dịch
tự động, chúng tôi đưa ra một bức tranh tổng quát về các khái niệm có liên quan đến dịch
tự động trong chương này, đồng thời cũng cố gắng giải thích nguyên nhân và cơ sở để phân
tích và phân loại lỗi, trên cơ sở nghiên cứu những quy luật chi phối chúng. Dịch tự động là
một vấn đề hết sức lý thú đòi hỏi một sự nghiên cứu sâu hơn để có thể tìm ra được những
quy tắc hoạt động của chúng, những giải pháp hữu hiệu, khả thi để khắc phục những loại
lỗi mà chúng tôi đã khảo sát trên cơ sở ngữ liệu là các hợp đồng kinh tế thương mại Anh –
Việt.
Các khái niệm, quy tắc chúng tôi nêu ra trong chương này chưa đủ để giải thích mọi
hiện tượng về khả năng đóng góp của dịch tự động Google Translate, nhưng chúng là một
số kết luận mang tính lý thuyết rút ra từ những dữ liệu thực tế mà chúng tôi thu thập được
trong thời gian làm luận án. Các khái niệm quy tắc này mong là có thể gợi ý cho những
nghiên cứu tiếp theo về đề tài này trên cơ sở những dữ liệu phong phú hơn.

8

CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG
Sau khi thống kê và lập ra các tiêu chí để phân loại qua phần mềm BLAST, chúng ta
nhận thấy có hai loại I và loại II (theo qui ước ở 1.3.4. chương 1) xuất hiện hầu hết trong
các loại lỗi khảo sát.
2.1. Lỗi chính tả
Kết quả thống kê các loại lỗi chính tả đã phân tích được trình bày trong luận án có tống
cộng 867 lỗi chính tả. Trong số đó, lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II chiếm
tỉ lệ cao nhất là 40,95 % (355 lỗi). Kế đến là lỗi dịch sai chữ số - loại II (chiếm 27,68%),
lỗi dịch sai dấu câu - loại II (chiếm 16,61 %). Lỗi chiếm tỉ lệ thấp nhất là lỗi viết tắt và lỗi
viết hoa (chỉ chiếm từ 0,35 % đến 1,27 %). Ngoài ra, các lỗi sai ở thành phần của cấu trúc

âm tiết, cụ thể là khi chuyển dịch tự động bị thiếu phụ ầm đầu. Trường hợp dịch thiếu âm
tiết này chiếm tỉ lệ đáng kể (5,76 %) trong thời điểm khảo sát ngữ liệu của luận án này
(năm 2012-2014), nhưng do đặc điểm nổi bật của dịch tự động thống kê của phần mềm
Google Translate lỗi này có thể khắc phục được kể từ năm 2015 đến nay.
2.1.1. Lỗi dịch sai chữ số - loại I (gồm 7 lỗi và chiếm tỉ lệ là 0,81%) là dịch thiếu nhất
quán trong việc xét “chữ” hay “số”. Mặc dù là lỗi do dịch sai chữ số nhưng vẫn mang đủ
nghĩa theo ngữ cảnh.
Ví dụ: March 16, 1994. (Ngữ liệu LEGAL, số 707), (DTC) là ngày 16 tháng 3 năm 1994
và (DTĐ) là ngày 16 Tháng Ba 1994. Vậy, dịch thù công đúng văn phong tiếng Việt hơn
dịch tự động.
2.1.2. Lỗi dịch sai chữ số - loại II (có 240 lỗi, chiếm tỉ lệ 22,68%) tạo nên câu văn
hoàn toàn không lưu loát đồng thời cũng không mang đầy đủ ý nghĩa theo ngữ cảnh.
Ví dụ: 2.2 The Rules on license trade (Ngữ liệu LEGAL, số 353). (DTĐ) là 2,2 Các quy
định về giấy phép thương mại.
Trường hợp này do máy hiểu đây là số thập phân nên khi dịch sang tiếng Việt đã đổi dấu
chấm thành dấu phẩy ở số “2.2” và làm cho câu không có nghĩa.
2.1.3. Lỗi dịch sai dấu câu - loại I (có 28 lỗi và chiếm 3,23 %) là do đặt thiếu hoặc dư
các dấu chấm, dấu phẩy, dấu hai chấm trong câu và cả những lỗi viết hoa hoặc viết thường.
Tuy nhiên, chúng vẫn mang đủ nghĩa theo ngữ cảnh.
Ví dụ: Article 17. The mode of payment (Ngữ liệu LEGAL, số 353), (DTĐ) là Điều 17
Phương thức thanh toán.
Trong ví dụ này, chúng ta thấy ngôn ngữ đích vẫn có nghĩa bởi vì không có dấu chấm
nhưng từ “Phuơng” vẫn đuợc viết hoa.

9

2.1.4. Lỗi dịch sai dấu câu - loại II (gồm có 144 lỗi, chiếm 16,61%) đa số xảy ra ở dấu
phẩy lược âm (‘s ) gây ra hiểu nhầm là dấu chấm hỏi (?) hoặc bỏ qua không dịch. Ví dụ:
Robert’s normal business days. (Ngữ liệu NTY, số 130), (DTĐ) là ngày làm việc bình

thường của Robert?.
2.1.5. Lỗi thành phần của cấu trúc âm tiết - loại II (chiếm 3,34%, 29 lỗi) như dịch
thiếu phụ âm đầu của ngôn ngữ đích tạo nên câu văn hoàn toàn sai. Chẳng hạn như: Any
audit (Ngữ liệu NTY, số 26), (DTĐ) là “iểm toán”, thiếu phụ âm “k” trong từ “kiểm toán”.
Hầu hết các lỗi đang được phân tích trong luận án này đều do Google Translate dịch vào
tháng 8/2012, nhưng từ sau 6 tháng đến nay, lỗi này không xuất hiện, có lẽ trong thời gian
này Google Translate đã được điều chỉnh.
2.1.5. Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I (có 21 lỗi, chiếm 2,42%). Một
số từ tiếng Anh được sử dụng như Việt hóa nên giữ nguyên gốc khi dịch và đã tạo ra lỗi giữ
nguyên từ thuộc ngôn ngữ nguồn – loại I.
Chẳng hạn như “fax letters” (điện báo) (Ngữ liệu LEGAL, số 175) dịch tự động là “thư
fax” nhưng điều này không ảnh hưởng đến ngôn ngữ nguồn vì vẫn mang đầy đủ nghĩa so
với ngữ cảnh.
2.1.6. Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II (có 355 lỗi, chiếm 40,95%).
Lỗi này thường do người nhập ngữ liệu ở khâu đầu tiên đã đánh máy sai chính tả, vì thế
các từ này sẽ không tìm thấy trong từ điển.Vậy chỉ cần sửa lỗi chính tả trong ngôn ngữ
nguồn là sẽ có câu dịch đúng.
Ví dụ: contitons of the guarantee (ngữ liệu LEGAL, số 56), (DTĐ) là contitons bảo lãnh.
2.1.7. Lỗi viết hoa - loại I (gồm 6 lỗi, chiếm 0,69%). Lỗi viết hoa - loại I vẫn mang đủ
nghĩa theo ngữ cảnh bởi vì trong các văn bản đôi khi chúng ta gặp các từ viết hoa thường
là để nhấn mạnh hoặc xem như danh từ riêng, điều này không ảnh hưởng đến ý nghĩa của
câu văn, chỉ không đúng về mặt ngữ âm.
Ví dụ: up to.….Dollars (ngữ liệu, XH-MK, số 6), (DTĐ) là lên đến …..Dollars.
2.1.8. Lỗi viết hoa - loại II (chiếm 0,92% , 8 lỗi). Những trường hợp viết hoa tùy tiện,
ngẫu hứng hoặc do bất cẩn như trường hợp dấu ba chấm (...) lại có thêm dấu chấm thứ tư,
điều này máy sẽ không hiểu xem đây là dấu chấm cuối câu và từ đầu câu mặc nhiên viết
hoa. Chính vì thế, câu văn sẽ không còn ý nghĩa.
Ví dụ: the …. language and the other in the English language (ngữ liệu, XH-MK, số 477),
(DTĐ) là ở. Ngôn ngữ và những khác bằng tiếng.
2.1.9. Lỗi viết tắt – loại I (có 3 lỗi, chiếm 0,35%). Lỗi viết tắt - loại I vẫn mang đủ nghĩa

theo ngữ cảnh.
Ví dụ: ABC. Co. Ltd. (ngữ liệu,TLTL, số 477), (DTĐ) là ABC. Công ty TNHH.
2.1.10. Lỗi viết tắt – loại II (có 11 lỗi, chiếm 1,27%). Lỗi viết tắt - loại II này tạo nên câu
văn sai hoàn toàn.
Ví dụ: this GCC Clause 10 shall be responsibility of the Employer, (ngữ liệu, CKT, số
122), (DTĐ) là khoản này GCC 10? Được trách nhiệm của Chủ đầu tư,
2.1.11. Các lỗi chính tả khác- loại II (chiếm 1,73% , 15 lỗi). Một số lỗi chính tả khác
được phân tích trong luận án vì chúng không thuộc các tiêu chí sẵn có của phần mềm, các
lỗi này tạo nên câu văn hoàn toàn sai.
Ví dụ: b) Claim a penalty for breach (ngữ liệu LEGAL, số 326), (DTĐ) là B) Bổ xung vào
một hình phạt. Vậy, trường hợp này khi dịch tự động đã viết hoa chữ B (dạng số thứ tự) và
sai chính tả tiếng Việt từ “xung”.
Một ví dụ khác như: no Article on prince (ngữ liệu LEGAL, số 435), (DTĐ) là không có
Điều hoàng tử. Trường hợp này cho thấy mặc dù các lỗi chính tả xảy ra do nhập ngữ liệu

10

sai ngay trong ngôn ngữ nguồn nhưng vẫn được dịch sang tiếng Việt vì từ đó có trong từ
điển của Google Translate. Cụ thể như “prince” (lẽ ra trong ngữ cảnh này phải viết là
“price” mang nghĩa “giá cả”) nhưng ngôn ngữ nguồn đã bị nhập sai, kéo theo dịch tự
động hiểu sai nghĩa. Lỗi này cũng khá phổ biến nhưng cũng dễ sửa vì chỉ cần cẩn thận là
khắc phục được ngay.
2.2. Lỗi từ vựng
Lỗi từ vựng bao gồm lỗi nhập nhằng, lỗi hiểu sai thành ngữ và lỗi hiểu sai nghĩa thuật
ngữ.Theo kết quả thống kê, lỗi từ vựng chiếm tần suất cao nhất. Đáng kể nhất là lỗi dịch
sai thuật ngữ hợp đồng kinh tế loại I và II chiếm 84,95% so với 5 loại lỗi từ vựng, lỗi nhập
nhằng - loại II có 13,29%. Tỉ lệ lỗi thấp nhất là lỗi hiểu sai thành ngữ - loại II gồm có
0,82% và lỗi nhập nhằng - loại I chiếm tỉ lệ thấp tiếp theo là 0,94%.
2.2.1. Lỗi nhập nhằng - loại I (có 24 lỗi chiếm 0,94% ) là lỗi do chọn sai mục từ trong

từ điển.
Ví dụ: be directly liable to pay damages to the innocent party, (Ngữ liệu LEGAL, số 220),
(DTĐ) là trực tiếp chịu trách nhiệm bồi thường thiệt hại cho bên vô tội,. Lẽ ra câu này phải
dịch là “chịu trách nhiệm tài sản trực tiếp với bên bị vi phạm”.
2.2.2. Lỗi nhập nhằng - loại II (có 340 lỗi chiếm 13,29%): tương tự như lỗi trên, nhưng
ở đây chẳng những chọn sai mục từ trong từ điển mà còn tạo câu văn không có nghĩa.
Ví dụ: deadline, Party A (Ngữ liệu XH-MK, số 161), (DTĐ) là Đảng thời hạn, A; từ Party
ở đây có nghĩa là Bên.
2.2.3. Lỗi dịch sai thành ngữ- loại II (chiếm 0,82%, 21 lỗi) do dịch tự động không hiểu
thành ngữ trong câu và đã dịch từng từ làm mất ý nghĩa của ngôn ngữ nguồn.
Ví dụ: discrepancies the same shall be explained (Ngữ liệu TLTL, số 93), (DTC) là không
rõ nghĩa thì sẽ đuợc giải thích, nhưng (DTĐ) đã dịch “bất cùng sẽ được giải thích.”
2.2.4. Lỗi hiểu sai nghĩa thuật ngữ - loại I (có 312 lỗi chiếm 12,20%) là lỗi tuy dịch
không đúng với nghĩa của thuật ngữ ngôn ngữ nguồn nhưng vẫn mang đủ nghĩa theo
ngữ cảnh.
Chẳng hạn như: attach with the application for this purpose, (Ngữ liệu LEGAL, số 1755),
có nghĩa là gửi kèm theo, nhưng (DTĐ) đã dịch đính kèm với các ứng dụng cho mục đích
này.
2.2.5. Lỗi hiểu sai nghĩa thuật ngữ - loại II (có 1.861 lỗi, chiếm tỉ lệ cao nhất là 72,75%) là
lỗi dịch không đúng ngôn ngữ nguồn mà cũng không đúng nghĩa.
Ví dụ: this Agreement (Ngữ liệu NTY, số 64) có nghĩa là Hợp đồng này, nhưng (DTĐ) là
Hiệp định này.
2.3. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống và lỗi ngẫu nhiên
2.3.1. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống
Có 12 loại lỗi chính tả và 5 loại từ vựng thuộc lỗi hệ thống trong 17 loại lỗi xuất hiện
trong chương 2 này, nhưng chỉ có 357 lỗi được chia thành 13 loại thuộc lỗi hệ thống.
Trong đó, lỗi hiểu sai thuật ngữ - loại II chiếm tỉ lệ cao nhất là 35,57% (127 lỗi). Kế đó là

11

lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II (58 lỗi – 16,25%) và lỗi nhập nhằng - loại
II (55 lỗi – 15,54%). Tỉ lệ thấp nhất là lỗi viết hoa và lỗi viết tắt.
2.3.2. Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên
Trong tổng số 17 loại lỗi được khảo sát trong chương này bao gồm 12 loại lỗi chính tả
(30,97%) và chỉ có 5 loại lỗi từ vựng nhưng chiếm tỉ lệ hơn gấp đôi lỗi chính tả (69,03%).
Trong lỗi chính tả, chỉ có duy nhất loại lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I
không thuộc lỗi ngẫu nhiên. Trong lỗi từ vựng, lỗi hiểu sai thuật ngữ - loại II cũng chiếm tỉ
lệ cao nhất là 32,98% (279 lỗi), kế tiếp là 154 lỗi nhập nhằng - loại II (chiếm tỉ lệ 18,20%),
lỗi viết tắt và lỗi viết hoa chiếm tỉ lệ thấp nhất (từ 0,24% đến 0,59%).
Nhận xét chương 2:
Trong chương hai, trên cơ sở lý luận từ việc so sánh đối chiếu ngôn ngữ dịch tự động và
ngôn ngữ của bản dịch thủ công, kết quả thu được tổng cộng 17 loại lỗi trong đó có 12 lỗi
chính tả 5 loại lỗi từ vựng như đã phân tích ở trên.
Ngoài việc mô tả và phân tích lỗi về từ vựng và chính tả thuộc lỗi ngôn ngữ trong dịch tự
động Anh-Việt, chúng tôi thấy cần phải khảo sát thêm lỗi hệ thống và lỗi ngẫu nhiên nhằm
vừa làm sáng tỏ nét đặc thù trong từng ngôn ngữ vừa đóng góp vào những thiếu sót cần cải
tiến trong chương trình dịch tự động trong lĩnh vực từ vựng, một khía cạnh mới được khám
phá và hy vọng rằng hướng khắc phục của nó có nhiều tiềm năng và mang nhiều triển
vọng.

12

CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP
Trong chương này chúng tôi khảo sát các loại lỗi về ngữ pháp – cấu trúc. Đối với loại
lỗi về cấu trúc, chúng tôi thấy có lỗi thừa hay thiếu một hay nhiều thành tố trong cấu trúc
đó. Chúng tôi gọi là lỗi thừa từ hoặc lỗi thiếu từ. Việc phân loại theo cách này sẽ giúp dễ
dàng nhận dạng lỗi một cách cụ thể khi dịch tự động. Ngoài ra còn có lỗi trật tự từ, lỗi dịch
sai từ công cụ và lỗi dịch sai khi hòa hợp giữa chủ từ và động từ sẽ được phân tích trong

chương này.
3.1. Lỗi trật tự từ
3.1.1. Lỗi trật tự từ theo tiêu chí BLAST
Theo tiêu chí BLAST, chỉ có 7 dạng lỗi trật tự từ xuất hiện khi dịch tự động. Trong đó,
phạm vi cụm từ ở khoảng cách xa – loại IV chiếm tỷ lệ cao nhất.
Phạm vi lỗi trật tự từ
phạm khoảng loại
vi
cách
từ
gần
I
IV
xa
IV

số
lỗi
13
21
42

%
lỗi
0,96
1,55
3,10

phạm khoảng loại số
% lỗi

vi
cách
lỗi
cụm gần
I
53 3,92
từ
IV 112 8,28
Xa
I
72 5,32
IV 418 30,89
Với 448 cặp câu Anh-Việt trong 5 loại ngữ liệu khảo sát, số lượng câu chứa lỗi trật tự từ có
ít nhất là 0 lỗi và nhiều nhất là 5 lỗi. Kết quả số câu chứa lỗi được tổng kết như sau: 273 câu
chứa 1 lỗi, 123 câu chứa 2 lỗi, 25 câu chứa 3 lỗi, câu chứa 4 lỗi, 1 câu chứa 5 lỗi và 16 câu
không có lỗi.
3.1.2. Lỗi trật tự từ theo tiêu chí BLAST-VCL
Để phát huy tính năng ưu việt của phần mềm BLAST, chúng tôi đề nghị nhóm nghiên
cứu xử lý tiếng Việt (Vietnamese Computational Linguistics – VCL) của khoa Công nghệ
thông tin Trường Đại học Khoa học tự nhiên, TP. HCM, xây dựng bổ sung tiêu chí phân
loại lỗi trật tự từ cho phù hợp với 2 loại hình ngôn ngữ tiếng Anh và tiếng Việt đang xử lý
trong luận án. Phần mềm mới này được đặt tên là BLAST-VCL (viết tắt là BVCL).
Theo tiêu chí BLAST-VCL, lỗi trật tự từ được chia thành 13 nhóm với 60 loại và được đặt
tên BVCL kèm theo số thứ tự được đánh số từ 1 đến 60. BLAST-VCL phân chia lỗi trật tự
từ ở các phạm vi như sau:
Nhóm BVCL

Lỗi trật tự từ theo tiêu chí BLAST

BVCL-1 - BVCL-10

BVCL-11 - BVCL-22
và BVCL-28
BVCL-23 - BVCL-27
BVCL-29 - BVCL-31
BVCL-32 - BVCL-42
BVCL-43 - BVCL-49
BVCL-50 - BVCL-52
BVCL-53 - BVCL-60

phạm vi ngữ ở khoảng cách xa – loại I
phạm vi ngữ ở khoảng cách xa – loại II
phạm vi ngữ ở khoảng cách gần – loại I
phạm vi ngữ ở khoảng cách gần – loại II
phạm vi từ ở khoảng cách xa – loại II
phạm vi từ ở khoảng cách gần – loại I
phạm vi từ ở khoảng cách gần – loại II

13

Ngoài ra, các nhóm BVCL còn được xếp theo cấu trúc câu như sau:
Cấu trúc
Chủ
động
hoặc bị động
Tính từ
danh từ
Trạng từ - tính
từ
Mạo từ - danh

từ
Liên từ
Danh từ danh từ
Danh từ - sở
hữu cách danh từ
Số - danh từ
Giới từ - danh
từ
Chủ từ - động
từ
Động từ trạng từ
Động từ - túc
từ
Động từ động từ

Tiêu chí BVCL
BVCL-1, BVCL-14, BVCL-23, BVCL-35,
BVCL-43 và BVCL-53
BVCL-2, BVCL-11, BVCL-24, BVCL-36,
BVCL-44 và BVCL-54
BVCL-3, BVCL-15, BVCL-32 và BVCL-45

Số lỗi/ %
29 lỗi (4,05%)

BVCL-4, BVCL-12, BVCL-46 và BVCL-55

6 lỗi (0,84%)

BVCL-5, BVCL-13 và BVCL-33

BVCL-7, BVCL-17, BVCL-34, BVCL-48
và BVCL-57
BVCL-6, BVCL-16, BVCL-25, BVCL-37,
BVCL-47, BVCL-50 và BVCL-56

13 lỗi (1,81%)
132 lỗi
(18,41%)
234 (32,64%)

BVCL-8, BVCL-18, BVCL-26, BVCL-38,
BVCL-49, BVCL-51 và BVCL-58
BVCL-9, BVCL-19, BVCL-27, BVCL-39
và BVCL-59
BVCL-28

26 lỗi (3,63%)

BVCL-20, BVCL-29 và BVCL-40

18 lỗi (2,51%)

BVCL-10, BVCL-21, BVCL-30, BVCL-41
và BVCL-52
BVCL-22, BVCL-31, BVCL-42 và BVCL60

13 lỗi (1,81%)

167 lỗi
(23,29%)

17 lỗi (2,37%)

34 lỗi (4,74%)
14 lỗi (1,95%)

14 lỗi (1,95%)

Một số ví dụ minh họa về lỗi trật tự từ theo cấu trúc câu:
Ví dụ (a): the parties exchange correspondence (Ngữ liệu LEGAL, số 38).
(DTC) các bên nhận được tài liệu giao dịch
(DTĐ) các thư từ trao đổi bên
Ví dụ (b): has seriously violated the law (Ngữ liệu LEGAL, số 1342)
(DTC) vi phạm pháp luật nghiêm trọng
(DTĐ) vi phạm nghiêm trọng pháp luật
Ví dụ (c): 2. The rights (Ngữ liệu LEGAL, số118), có nghĩa là 2. Quyền, nhưng dịch tự
động là (?) Quyền 2
Nhận xét: ví dụ (a) có cấu trúc: chủ từ - vị từ, (b) cấu trúc động từ - túc từ và (c) cấu trúc số
- danh từ.
3.2. Lỗi dịch sai từ công cụ - loại II có 64 lỗi chiếm 4,73%.
Ví dụ: (NNN) on all essential terms (Ngữ liệu LEGAL, số 38)
(DTC) về tất cả những điều khoản chủ yếu
(DTĐ) trên tất cả các điều khoản cơ bản

14

3.3.
Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II hay còn gọi là lỗi phù
ứng đó là lỗi do không có sự hòa hợp giữa chủ từ và động từ hoặc giữa các từ trong câu,
tạo nên câu văn hoàn toàn sai. Lỗi này chiếm 0,12% (6 lỗi).

Ví dụ: (NNN) follow Party A’s instructions (Ngữ liệu XH-MK, số 178)
(DTC) bên A đã đề ra. (DTĐ) theo Đảng hướng dẫn A?
Nhận xét: dịch tự động đã dịch theo đúng trật tự của ngôn ngữ nguồn, nhưng về mặt ngữ
pháp không những sai về sự phù ứng mà còn sai về khả năng chọn thuật ngữ và sở hữu
cách.
3.4. Các loại lỗi thừa từ và thiếu từ
Lỗi thừa từ và thiếu từ thường do vi phạm các quy tắc cấu tạo như các hiện tượng dịch
thừa hoặc thiếu một trong những thành phần của câu làm cho câu tối nghĩa.
3.4.1 Lỗi thừa từ
Các ví dụ sau đây sẽ minh họa cho lỗi thừa từ, các từ dịch thừa sẽ đuợc in đậm trong câu
dịch tự động (DTĐ).
a) Lỗi thừa từ nội dung - loại I có 34 lỗi, chiếm 1,16 % .
Ví dụ: to be calculated in the same manner (Ngữ liệu LEGAL, số 789), (DTĐ) là được
tính toán theo cách tương tự.
b) Lỗi thừa từ nội dung - loại II có số 690 lỗi, chiếm 23,63%. Ví dụ: The Borrower is
required to provide (Ngữ liệu XH-MK, số 23), (DTĐ) là Bên vay là cần thiết để cung cấp.
c) Lỗi thừa từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62 %.
Ví dụ: as the right to enter into (Ngữ liệu LEGAL, số 154), (DTĐ):
d) Lỗi thừa từ ngữ pháp - loại II có 411 lỗi chiếm 14,08%.
Ví dụ: the business which will carry out (Ngữ liệu LEGAL, số 23), (DTĐ): doanh

nghiệp mà sẽ thực hiện
e) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I có 4 lỗi, chiếm 0,14%.. Ví dụ: apart
from damages paid (ngữ liệu LEGAL, số 225)
(DTC) ngoài mức phạt. (DTĐ) ngoài việc trả tiền bồi thường thiệt hại
f) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II có 10 lỗi, chiếm 0,34 %.
Ví dụ: results from (i) the correction (ngữ liệu NTY, số 57)
(DTC) là do (i) việc chỉnh sửa. (DTĐ) kết quả yêu cầu bồi thường từ điều chỉnh
2.4.2 Lỗi thiếu từ
Đối với lỗi thiếu từ, qua các ví dụ, chúng ta sẽ so sánh dịch tự động với dịch thủ công

(DTC) để nhận biết các từ thiếu sót:
a) Lỗi thiếu từ nội dung - loại I có 34 lỗi, chiếm 1,16 %.
Ví dụ: has not registered, in accordance with the law, (ngữ liệu LEGAL, số 23),
(DTC) là không có đăng ký kinh doanh theo quy định của pháp Luật
(DTĐ) đã không đăng ký theo quy định của pháp luật,
b) Lỗi thiếu từ nội dung - loại II có 682 lỗi, chiếm 23,36%.
Ví dụ: any kind necessary (ngữ liệu TLTL, số 109), (DTC) là thuộc - loại nào cần thiết
(DTĐ) bất loại cần thiết
c) Lỗi thiếu từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62%.
Ví dụ: Clause 1 are essential terms of the contract. (ngữ liệu LEGAL, số 52),
(DTC) là Điều 1 là điều khoản chủ yếu của các hợp đồng kinh tế.

15

(DTĐ) Khoản 1 các điều khoản cần thiết của hợp đồng.
d) Lỗi thiếu từ ngữ pháp - loại II có 111 lỗi, chiếm 3,8%.
Ví dụ: in the same process as judge, (ngữ liệu LEGAL, số 538)
(DTC) cùng một vụ án với tư cách là thẩm phán,
(DTĐ) quá trình cùng là Thẩm phán,
3.5. Lỗi ngữ pháp thuộc lỗi hệ thống và lỗi ngẫu nhiên
Tương tự như cách trình bày ở mục 2.3 Chương 2, lỗi ngữ pháp cũng thuộc lỗi hệ
thống và lỗi ngẫu nhiên.
3.5.1. Lỗi ngữ pháp thuộc lỗi hệ thống
Tính tới thời điểm tháng 2/2014 lỗi ngữ pháp thuộc lỗi hệ thống chỉ xuất hiện lỗi trật
tự từ.
Trong ba ngữ liệu khảo sát, lỗi trật tự từ thuộc phạm vi cụm từ/ ngữ ở khoảng cách
xa – loại II thuộc lỗi hệ thống có số lỗi nhiều nhất là 86, chiếm tỷ lệ 44,56%.
Ở phạm vi cụm từ/ ngữ ở khoảng cách xa - loại I thuộc lỗi hệ thống có 41 lỗi
(21,24%).

Với phạm vi từ ở khoảng cách xa - loại II thuộc lỗi hệ thống có 23 lỗi, chiếm
11,92%.
Phạm vi cụm từ/ ngữ ở khoảng cách gần - loại I thuộc lỗi hệ thống có số lỗi là 21,
chiếm 10,88%.
Với phạm vi cụm từ/ ngữ ở khoảng cách gần - loại II thuộc lỗi hệ thống có 12 lỗi,
chiếm 6,22%.
Cuối cùng, ở phạm vi từ ở khoảng cách gần - loại II thuộc lỗi hệ thống 10 lỗi và
chiếm 5,18%.
3.5.2. Lỗi ngữ pháp thuộc lỗi ngẫu nhiên
Lỗi ngẫu nhiên chiếm tỉ lệ cao hơn lỗi hệ thống do đặc tính của loại hình dịch tự động khác
hẳn những đặc tính dịch thủ công. Chất lượng của phương pháp dịch tự động thống kê của
Google Translate lệ thuộc vào nguồn ngữ liệu. Vì vậy, dịch tự động hiện nay vẫn chưa cho
kết quả thực sự tốt bởi vì nguồn ngữ liệu còn mang yếu tố chủ quan như do bất cẩn trong
khi nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) hoặc trong giai đoạn tiền xử lý ngữ
liệu, tách các cặp câu song ngữ Anh-Việt chưa hoàn chỉnh. Điều này dẫn đến tình trạng lần
sau tốt hơn lần trước hoặc lần trước dịch tốt hơn lần sau. Theo thống kê các ngữ liệu trong
luận án, lỗi ngẫu nhiên xảy ra hầu như ở tất cả các trường hợp của lỗi từ vựng và lỗi ngữ
pháp, nhưng các trường hợp như sau chiếm tỉ lệ đáng kể hơn: lỗi do sai về dấu câu, về sở
hữu cách, về viết hoa không đúng cách, lỗi dịch thừa từ do dịch sát nghĩa từng từ một, lỗi
dịch thiếu từ do câu quá dài, và cuối cùng là lỗi giao thoa từ vựng (nghĩa là giữ nguyên từ
của ngôn ngữ nguồn) đa số là danh từ riêng hoặc lỗi chính tả xuất phát từ ngôn ngữ nguồn
tạo ra những lỗi “mất đồng bộ” như sử dụng hai ngôn ngữ trong cùng một câu.
Kết quả những lỗi ngữ pháp được khảo sát trong luận án này khi cho dịch tự động
nhiều lần đều có thể thay đổi theo thời gian nghĩa là những lỗi ngẫu nhiên. Trong đó, các
loại lỗi trật tự từ thuộc lỗi ngẫu nhiên cao nhất (chiếm 74,46%) so với các loại lỗi ngữ pháp
khác. Kế đến, lỗi cú pháp chiếm 3,17% gồm: lỗi dịch sai từ công cụ (8,84%), lỗi gán nhãn
từ loại sai (7,27%). Tiếp theo, lỗi do không hòa hợp giữa chủ từ và động từ (5,5%); và cuối
cùng có lỗi dịch sai ý nghĩa sở hữu chiếm 3,93%.

16

3.6. Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein
Để đánh giá kết quả dịch của Google Translate năm 2012 và 2014, trước tiên, chúng tôi sử
dụng 2.865 cặp câu Anh-Việt được trích trong ba loại ngữ liệu [LEGAL], [TLTL] và
[NTY]. Trong đó, tiếng Anh là câu nguồn và tiếng Việt là câu tham chiếu (người dịch). Sau
đó, sử dụng phần mềm Google Translate dịch tự động câu nguồn vào nhiều thời điểm khác
nhau giữa năm 2012 và năm 2014. Tiếp theo, chúng tôi sử dụng khoảng cách Levenshtein
để so sánh đối chiếu và nhận được kết quả như sau: năm 2014 dịch tốt hơn năm 2012 với
số cặp câu là 1053 (chiếm 36,75%), ngược lại, năm 2012 dịch tốt hơn năm 2014 nhận được
432 cặp câu (chiếm 15,08%) và hai lần dịch của năm 2012 và 2014 tương đương nhau có
1380 cặp câu (chiếm 48,17%).
3.6.1. Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein
Lỗi hệ thống chiếm 48,17% khi so sánh giữa lỗi hệ thống và lỗi ngẫu nhiên. Ví dụ: The
names and the positions of the parties to the dispute and their representatives; (Ngữ liệu
LEGAL, số 1650), (DTC) Tên và chức vụ của các bên tham gia vụ kiện và người đại diện;
hai lần dịch tự động năm 2012 và 2014 như nhau: Tên và vị trí của các bên tranh chấp và
các đại diện của họ; với L1=0, L2=33 và L3=33.
3.6.2. Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein
Độ lệch Levenshtein L2 và L3 lớn hơn 4 sẽ cho ra kết quả lỗi ngẫu nhiên. Có hai trường
hợp lỗi ngẫu nhiên: dịch tự động năm 2014 dịch tốt hơn dịch tự động năm 2012 và ngược
lại.
a) Dịch tự động năm 2014 tốt hơn năm 2012
Trong lỗi ngẫu nhiên, nếu L2 lớn hơn L3 đồng thời độ lệch Levenshtein giữa L2 và L3
lớn hơn 4 (L2 – L3 >4) thì hệ thống dịch tự động năm 2014 sẽ dịch tốt hơn năm 2012.
b) Dịch tự động năm 2012 tốt hơn năm 2014
Tương tự như trên, chúng ta sẽ thấy: nếu L2 nhỏ hơn L3 đồng thời độ lệch Levenshtein
giữa L2 và L3 lớn hơn 4 (L3 – L2 > 4) thì hệ thống dịch tự động 2012 dịch tốt hơn hệ
thống dịch tự động 2014.

17

Nhận xét chương 3:
Trong chương ba, chúng tôi phân tích lỗi ngữ pháp, trong đó tiêu biểu nhất là lỗi về
trật tự từ. Do trật tự từ của hai ngôn ngữ tiếng Anh và tiếng Việt khác nhau, nên đây là vấn
đề không tránh khỏi khi máy nhận diện cấu trúc trong quá trình chuyển dịch. Qua những
minh chứng về lỗi ngữ pháp trên thực tiễn dịch tự động, ta thấy, tuy các cặp câu đều sai các
lỗi ngữ pháp khác nhau, do không có câu nào trùng lặp trong ngữ liệu nguồn, kết quả lỗi
ngữ pháp cũng đa dạng phong phú nhiều chiều, nhưng tất cả đều hướng tới một vấn đề
chung là đến tháng 2 năm 2014 Google Translate vẫn chưa hiểu luật trật tự từ khi chuyển
dịch hai ngôn ngữ Anh-Việt, vấn đề về sở hữu cách không được hiểu và lập trình một cách
thông minh, linh hoạt trong hệ thống nhận diện cấu trúc.
Điều cần thấy là nhờ vào phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST,
chúng ta nhận biết được những khuyết điểm của máy dịch trong cách nhận diện và chuyển
dịch linh hoạt trong cấu trúc câu, đặc biệt là trong từng cụm từ. Nhờ vào đó, chúng ta càng
hiểu thêm về luật cú pháp của hai ngôn ngữ qua người dịch và qua máy dịch. Tuy nhiên,
một đóng góp không nhỏ của máy dịch tự động có thể thấy được là bên cạnh những lỗi về
trật tự từ nằm trong lỗi ngữ pháp, máy dịch còn cho kết quả dịch đúng của nhiều loại trật tự
từ vốn có sự khác biệt giữa hai ngôn ngữ Anh-Việt, được thể hiện ở nhiều cặp câu đúng.
Điều này cũng là một tiến bộ đáng ghi nhận của khoa học công nghệ, và ngôn ngữ học máy
tính trên lĩnh vực dịch tự động.
Để có thể khắc phục lỗi về trật tự từ, cũng như các lỗi ngữ pháp - cấu trúc khác (lỗi
dịch sai từ công cụ, lỗi thừa từ, lỗi thiếu từ,…) các nhà ngôn ngữ học, đặc biệt là các nhà
Việt ngữ phải bổ sung và tập huấn lại cho Google Translate những cụm từ tiếng Việt
chuyển dịch từ ngôn ngữ nguồn sang ngôn ngữ đích theo từng cụm, những cụm này bao
gồm cả thành ngữ, thuật ngữ và những trật tự kết hợp theo hệ thống để có thể có một bản
dịch thật Việt Nam, bởi vì sự đảo lộn về trật tự từ trong bản dịch từ Anh sang Việt sẽ có thể
làm cho bản dịch không mang tính đặc thù của văn hóa Việt hay là thứ tiếng Việt “giống
tiếng nước ngoài” do nó bị bóp méo theo cách dịch trật tự từ của ngôn ngữ Châu Âu, ngôn

ngữ Anh.
Việc phân tích lỗi ngữ pháp trong chương trình dịch tự động một lần nữa cũng đã
xác nhận những gì cần cải tiến về phương diện ngữ pháp và mặt khác cũng đã khẳng định
những hạn chế mà chương trình dịch tự động, những gì cần được cải tiến trong thời gian
tới.

18

KẾT LUẬN
Qua ba chương khảo sát, luận án đã đúc kết các kết quả như sau:
1. Dịch tự động nhanh hơn nhiều so với dịch thủ công nhưng kết quả dịch chưa có độ
chính xác cao, nên cần có sự kết hợp chặt chẽ giữa ngôn ngữ học và tin học để cải thiện
chất lượng dịch tự động.
2. Phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST giúp chúng ta nhận biết
được những khuyết điểm của máy dịch trong cách nhận diện và chuyển dịch linh hoạt
trong cấu trúc câu, đặc biệt là trong từng cụm từ. Tuy nhiên, một đóng góp không nhỏ của
dịch tự động có thể thấy được là bên cạnh những lỗi về trật tự từ nằm trong lỗi ngữ pháp,
máy dịch còn cho kết quả dịch đúng của nhiều loại trật từ từ vốn có sự khác biệt giữa hai
ngôn ngữ Anh - Việt, được thể hiện ở nhiều cặp câu đúng. Điều này cũng là một tiến bộ
đáng ghi nhận của khoa học công nghệ, và ngôn ngữ học máy tính trên lĩnh vực dịch tự
động.
3. Luận án định vị được các nhóm lỗi chính như lỗi từ vựng, lỗi chính tả và lỗi ngữ
pháp trong chương trình dịch, lý giải được nguyên nhân gây ra sự khác biệt giữa dịch tự
động và dịch thủ công trong các ngữ liệu hợp đồng kinh tế khi chuyển dịch Anh sang Việt
với tổng số cặp câu là 3.461.
4. Luận án đã nhận ra được Google Translate chưa hiểu luật trật tự từ, đây là điểm khác
biệt giữa hai ngôn ngữ Anh và Việt. Vì thế, lỗi trật tự từ đã được khảo sát khá tỉ mỉ trong
luận án.
5. Sự tương tác của người xử lý lỗi dịch tự động với sản phẩm dịch được đánh giá qua

hai lần dịch thử nghiệm tại hai thời điểm khác nhau như đã phân tích trong luận án, cho
thấy sự khác nhau của hai ngôn ngữ lập thành hệ thống cũng cho ra các loại lỗi hệ thống.
6. Vai trò của các lỗi ngẫu nhiên cũng như lỗi hệ thống là cung cấp kiến thức cho người
lập trình hệ thống và người dùng chương trình dịch tự động về những điểm còn hạn chế
của chương trình dịch nhằm đưa ra giải pháp cụ thể và khả thi để cải tiến.
7. Quan điểm phân loại lỗi trong luận án đã khai thác khá đầy đủ năng lực dịch tự động
của chương trình dịch qua thử nghiệm liên tục trong hai năm, so sánh đối chiếu sản phẩm
dịch - ngữ liệu thực tế trong những thời điểm khác nhau, cho thấy cách hiểu về lỗi đã cung
cấp đường dẫn vào một mô hình khai thác lỗi lý tưởng để có thể hướng về lộ trình khắc
phục nó sao cho ngôn ngữ phải thể hiện được tư duy của người bản ngữ từ ngôn ngữ nguồn
sang ngôn ngữ đích.
8. Luận án cũng tìm hiểu về mối quan hệ giữa ngôn ngữ dịch tự động và ngôn ngữ dịch
thủ công với phương pháp tiếp cận khai thác phần mềm BLAST, hỗ trợ cho người nghiên
cứu có cơ sở khoa học và hợp lý để phân tích.
Những đóng góp và những hạn chế chính của luận án
* Đóng góp
1. Luận án đặt ra vấn đề đối chiếu lỗi một cách có hệ thống trên một phạm vi rộng gồm
nhiều văn bản hợp đồng kinh tế với số lượng 3.387 cặp câu song ngữ Anh Việt trong
chương trình dịch tự động. Đây là điểm mới của luận chưa được thực hiện ở Việt Nam.
2. Luận án đã lập được tiêu chí từ phần mềm BLAST để giải quyết những khó khăn tồn
đọng từ nhiều năm khi dịch tự động mắc phải. BLAST nhận diện những lỗi khi chuyển từ
ngôn ngữ nguồn sang ngôn ngữ đích dễ dàng và tương đối chính xác. Sau đó, để hỗ trợ cho
BLAST, nhóm xử lý tiếng Việt đã cho ra đời BLAST-VCL, tiêu chí của phần mềm này tập
trung giải quyết các lỗi trật tự từ thuộc lỗi ngữ pháp.

19

3. Luận án nêu bật những loại lỗi phổ biến có thể chấp nhận được và những lỗi không
thể chấp nhận được trong chương trình dịch tự động.

4. Luận án xác định những khó khăn mà chương trình dịch tự động gặp phải trong quá
trình chuyển dịch văn bản Anh-Việt theo từng cặp câu và đồng thời cũng cung cấp một số
cứ liệu đáng tin cậy cho việc huấn luyện chương trình dịch tự động ở những nghiên cứu kế
tiếp trong tương lai để cải tiến việc dịch tự động.
5. Luận án cũng góp phần khẳng định xu thế nghiên cứu cải tiến dịch tự động để phục
vụ ngày càng tốt hơn cho người dùng, với các văn bản dịch nhanh, chi phí thấp và văn bản
đáp ứng được nhu cầu lợi ích của người dùng trong giai đoạn hội nhập quốc tế hiện nay.
* Hạn chế
Luận án còn bỏ ngỏ một số vấn đề và cần được quan tâm nghiên cứu sâu hơn trong
tương lai:
1. Luận án chưa tìm hiểu sâu và đề xuất các giải pháp khắc phục lỗi. Số lần thử nghiệm
chưa nhiều nên luận án chưa thể xác định được những thay đổi có thể xảy ra ở lỗi hệ thống
và lỗi ngẫu nhiên trong những lần dịch kế tiếp.
2. Luận án chưa đi sâu vào ngôn ngữ học cũng như tin học ngõ hầu đạt được kết quả
khả quan hơn và có thể hỗ trợ cho chương trình dịch tự động đạt được hiệu quả hơn.
3. Luận án vẫn chưa tiếp cận được các loại văn bản khác, mà chỉ nghiên cứu hạn hẹp
trong phạm vi.
Tóm lại, luận án chỉ thực hiện được các văn bản thuộc hợp đồng kinh tế, chưa mở rộng
ở các loại hình khác. Ngoài ra, luận án cũng chỉ nghiên cứu dịch tự động một chiều từ Anh
sang Việt. Do đó, phần dịch tự động theo chiều ngược lại Việt – Anh, tác giả rất mong
muốn sẽ tiếp tục thực hiện trong tương lai gần đây.

20

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC
CÓ LIÊN QUAN ĐẾN LUẬN ÁN CỦA TÁC GIẢ
*TIẾNG VIỆT
1) Trần Lê Tâm Linh (2013a), Khảo sát các nét nghĩa của trợ động từ “shall” Tạp
chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng nam bộ, trang 44-50.

2) Trần Lê Tâm Linh (2013b), Khảo sát thuật ngữ tiếng Anh- tiếng Việt trong ngữ
liệu hợp đồng kinh tế, Tạp chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng
nam bộ, trang 45-49.
3) Trần Vũ Hoàng Ưng, Nguyễn Thị Phương Như, Trần Lê Tâm Linh (2013), Cải
tiến dịch tự động thống kê Anh-Việt bằng phương pháp xóa "từ nhiễu", Hội thảo
quốc gia lần thứ XVI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền
thông, trang 34-39.
4) Nguyễn Thị Phương Như, Trần Vũ Hoàng Ưng, Nguyễn Thị Thanh Thảo, Trần Lê
Tâm Linh (2014), Cải Tiến Chất Lượng Dịch tự động Thống Kê Việt – Anh Bằng
Mô Hình Phát Sinh Từ Chức Năng, Hội thảo quốc gia lần thứ XVII: Một số vấn đề
chọn lọc của Công nghệ thông tin và truyền thông-Đắk Lắk, 30-31/10/2014, trang
24-30.
5) Huỳnh Quang Đức, Trần Lê Tâm Linh (2015), “Gán nhãn ngữ nghĩa trong song
ngữ Anh Việt”, Hội thảo Quốc gia 2015 về Điện tử, Truyền thông và Công nghệ
Thông tin (The 2015 National Conference on Electronics, Communications, and
Information Technology - ECIT 2015) - thành phố Hồ Chí Minh, 10-11/12/2015,
trang 71-76.
*TIẾNG ANH
6) Tran Le Tam Linh (2013), Survey of Common Errors of English to Vietnamese
Google Translate in Business Contract, Open Journal of Modern Linguistics, USA,
Vol.3, No.2, 101-107.
7) Phuoc Tran, Dien Dinh, Linh Tran (2013), Resolving Named Entity Unknown
Word in Chinese-Vietnamese Machine Translation, The fifth international
conference on knowledge and systems engineering- KSE 2013, trang 273-284.
8) Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh (2013), A survey of named entity
recognition in English-French-Vietnamse trilingual corpus, Hội thảo quốc gia lần
thứ XVI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, trang 611.
9) Nguyễn Thị Châu Anh, Trần Lê Tâm Linh, Quách Trọng Liêm, Huỳnh Thái Lộc,
Nguyễn Thị Hồng Yến (2013), A case study of translating interrogative sentences
into English & Chinese from Google Translation Machine: Some suggestions for

learners of the two languages as a foreign, 2013 International Conference on
Innovation in English Teaching and Research, trang 25.

21

10) Nguyễn Thị Thanh Thảo, Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh, Trần
Vũ Hoàng Ưng, Nguyễn Thị Phương Như (2014), An Empirical Named Entity
Tagging For Vietnamese By Using English – Vietnamese Bilingual (Thực
nghiệm gán nhãn thực thể có tên cho tiếng Việt dựa vào song ngữ Anh-Việt), Hội
thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ thông tin và
truyền thông-Đắk Lắk, 30-31/10/2014, trang 7-12.
11) Huynh Quang Duc, Tran Le Tam Linh (2015), Semantic role labelling in
bilingual English-Vietnamese corpus, International Journal of Mathematics and
Computational Science, Vol.1, No.5, 2015, 260-267.

22

Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về