Tải bản đầy đủ (.doc) (25 trang)

Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (369.22 KB, 25 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-------------------------

TRẦN LÊ TÂM LINH

NHỮNG LỖI NGÔN NGỮ CỦA
PHẦN MỀM GOOGLE TRANSLATE
KHI DỊCH TỰ ĐỘNG ANH-VIỆT
CÁC HỢP ĐỒNG KINH TẾ

Chuyên ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 62. 22 .01.10

TÓM TẮT LUẬN ÁN TIẾN SĨ NGỮ VĂN

Thành phố Hồ Chí Minh - năm 2017


Công
trình
được
hoàn
thành
tại:
........................................................................................................................
........................................................................................................................

Người hướng dẫn khoa học:
1.
..........................................................................


2.
..........................................................................

Phản biện 1:
........................................................................................................................
Phản biện 2:
........................................................................................................................
Phản biện 3:
........................................................................................................................

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo
họp tại
............................................................................................................
Vào hồi................giờ ..........ngày............tháng..................năm
.............................
Phản
biện
độc
lập
1
....................................................................................................................
Phản
biện
độc
lập
2
....................................................................................................................

thể
tìm

hiểu
luận
án
tại
thư
viện:
....................................................................................................................
(ghi tên các thư viện nộp luận án)
2


3


MỞ ĐẦU
1. Lý do và mục đích nghiên cứu
Lỗi ngôn ngữ khi dịch tự động Anh – Việt là một đề tài đang được quan tâm. Hiện nay,
số lượng các văn bản hợp đồng kinh tế Anh-Việt ngày càng nhiều nhưng việc dịch tự động
để đáp ứng cho nhu cầu này còn rất hạn chế. Vì vậy, việc khảo sát lỗi cần có sự kết hợp
giữa ngôn ngữ học và tin học để các phần mềm xử lý lỗi được thực hiện và phát triển.
Mục đích của luận án là khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng
và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt, để tìm ra nguyên nhân dẫn
đến lỗi và tìm cách khắc phục.
2. Lịch sử vấn đề
a) Lịch sử nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về lỗi như:
Richards (1971), công bố hai công trình liên quan đến cách tiếp cận không tương phản đối
với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai. Schachter (1974), nhận xét lỗi
trong quá trình phân tích lỗi. Steel (1976) công bố nghiên cứu sự biến đổi trật tự từ:
nghiên cứu loại hình ngôn ngữ. Nhóm các tác giả Schachter và Murcia (1977) đã phân tích

những trở ngại trong việc phân tích lỗi. Cuối thập niên này, Kroll và Schafer (1978) có
công trình phân tích lỗi và giảng dạy phép ghép từ.
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý thuyết nhiều:
Williams (1981) công bố hiện tượng học về lỗi, Corder (1981) phân tích lỗi và tính liên
ngành của ngôn ngữ học. Sau đó, Selinker (1984) công bố công trình phân tích lỗi trong
ngôn ngữ trung gian. Taylor (1986) viết lỗi và cách giải thích lỗi.
Ở Việt Nam, đề tài về trật tự từ được nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm
như: Lý thuyết trật tự từ trong cú pháp (Lý Toàn Thắng, 2002) là công trình hữu ích có thể
giúp cho việc khảo sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa
(2004) khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và tiếng Việt.
Trần Thị Minh Phượng (2005) khảo sát những lỗi thường gặp về trật tự từ ở người Việt
học tiếng Anh. Đinh Điền (2006) so sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng
Việt. Đỗ Minh Hùng (2007) viết lỗi ngữ pháp tiếng Anh thường gặp của người Việt Nam.
Phạm Thị Tuyết Hương (2009) nghiên cứu trật tự từ câu đơn tiếng Anh trên bình diện kết
học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt). Năm 2009, có trong các
công trình về lỗi như: lỗi ngữ pháp và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu,
Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009), lỗi từ vựng và cách
khắc phục (Hồ Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) và lỗi chính tả và cách
khắc phục (Lê Trung Hoa, 2009). Ngoài ra còn có lỗi ngôn ngữ của người nước ngoài học
tiếng Việt (Nguyễn Linh Chi, 2009).
b) Lịch sử nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên 1960, công trình
của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông hướng tới khoa học dịch
thuật, trong tác phẩm này ông đặc biệt quan tâm đến những nguyên tắc và những tiến trình
liên quan đến dịch kinh thánh. Catford (1965) có công trình lý thuyết ngôn ngữ về dịch
thuật.
Newmark (1979) cho thấy nhiều vấn đề xảy ra trong lý thuyết và phương pháp dịch thuật
của.

1



Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng kính khoa học
như: khoa học hóa những vấn đề về dịch thuật và những phương pháp dịch thuật (Wilss,
1982), vấn đề trong đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay những cách tiếp
cận đối với dịch thuật (Newman, 1988 và Newmark, 1988).
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương
pháp dịch thuật. Julian Edge (1990) có công trình nêu nguyên nhân mắc lỗi và cách sửa
lỗi. Bell (1991) ứng dụng lý thuyết dịch. Nord (1992) và Neubert & Shreve (1995) phân
tích văn bản khi huấn luyện dịch thuật. Jakobson (1998) bàn về những khía cạnh ngôn ngữ
trong dịch thuật.
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơn
trong các công trình của Harry Aveling (2002), Na (2005) hay Gyse Hansen (2010) nhằm
khắc phục được khả năng dịch thuật của người cũng như của máy.
c) Lịch sử nghiên cứu dịch tự động
Dịch tự động đã được nghĩ đến từ thời Leibtniz và Descartes ở đầu thế kỷ XVII, nhưng
không có ứng dụng thực tế. Tuy nhiên, quá trình nghiên cứu này vẫn tiếp diễn qua các thời
kỳ Petr Smirnov-Troyanskii (1937), Weaver (1949),v.v. gần đây nhất là Popovic và
Burchardt (2007) cho rằng cải tiến dịch tự động thống kê bằng cách sử dụng việc khử nhập
nhằng ngữ nghĩa của từ.
Tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ
yếu là dịch tự động Anh-Việt, với các phương pháp khác nhau như: phương pháp dịch tự
động dựa theo luật,dịch tự động dựa trên thống kê và đến năm 2010, EVTRAN 4.0 ra đời,
phần mềm này có thể dịch tự động một đoạn văn bản từ Anh sang Việt và ngược lại.
d) Lịch sử nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhà
ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những nét tương đồng và dị biệt
của các loại hình ngôn ngữ. Nổi bật nhất là công trình phân loại lỗi cho việc đánh giá dịch
tự động (Flanagan, 1994), phân tích lỗi và tiếng quốc tế (Ellis, 1997).
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công trình giá trị như

phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá xác định lỗi trong dịch tự
động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro và Ney, 2006, 2010). Những
nghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phần
mềm Google Translate (dịch tự động thống kê ) khi dịch các hợp đồng kinh tế.
- Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng, lỗi ngữ pháp và lỗi cấu trúc câu.
Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn
bản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết
văn bản.
4. Phương pháp nghiên cứu và nguồn ngữ liệu
a) Phương pháp nghiên cứu
Những phương pháp nghiên cứu chủ yếu được sử dụng trong luận án: phương pháp miêu
tả, phương pháp so sánh đối chiếu . Bên cạnh đó, chúng tôi còn sử dụng một thủ pháp xử
lý ngữ liệu. Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai công
cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL.

2


Luận án sử dụng phần mềm BLAST và BLAST-VCL nhằm xây dựng, kiểm định tiêu chí
phân loại lỗi và tiến hành qua các bước: thu thập, chuẩn hóa và xử lý ngữ liệu. Ở giai đoạn
tiền xử lý, ngữ liệu được tách ra: ngôn ngữ nguồn tiếng Anh (src file), ngôn ngữ đích tiếng
Việt (ref file) dịch thủ công và ngôn ngữ đích tiếng Việt dịch tự động được thực hiện bởi
Google Translate. Sau khi chọn lọc, phân tích và xử lý các tập tin các công cụ trên sẽ tự
động thống kê kết quả (xem Hình 1).

`
Hình 1. Mô hình phân tích lỗi BLAST-VCL
b) Nguồn ngữ liệu

Năm nguồn ngữ liệu chính làm làm cơ sở cho việc nghiên cứu là Cung Kim Tiến (CKT),
Trần Lê Tâm Linh (TLTL), Nguyễn Thành Yến (NTY), Xuân Huy- Minh Khiết (XH-MK)
và nhóm LEGAL bao gồm các hợp đồng kinh tế Anh-Việt để giao dịch tại Việt Nam.
5.

Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loại
hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chí
phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tế
khi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh.
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung
dịch sát với nội dung văn bản gốc. Hiện nay, các công trình dịch tự động còn có ứng dụng
rất tốt trong việc giảng dạy ngôn ngữ. Một trong các phương pháp đào tạo cử nhân biên
phiên dịch hiện nay là cho sinh viên phân tích các lỗi của dịch máy và từ đó rút ra những
kinh nghiệm cho dịch thuật. Phương pháp này được gọi là “Học lỗi từ dịch máy” (Machine
translation as a bad model), từ những lỗi đã phân loại giáo viên có thể hướng dẫn người
học cách giải thích và chỉnh sửa. Do đó, kết quả nghiên cứu sẽ có giá trị nhất định trong
việc học và dạy biên phiên dịch.
6.
Bố cục của luận án
Ngoài phần mở đầu và phần kết luận, nội dung chính của luận án bao gồm ba chương:

3


Chương 1: Cơ sở lý thuyết, khái quát một số vấn đề chung về khái niệm lỗi, cơ sở lý
luận của việc phân tích lỗi và lý thuyết nhưng vấn đề liên quan về những lỗi ngôn ngữ của
Google Translate khi dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm của dịch
tự động - trình bày những thuận lợi và khó khăn trong dịch tự động, khái niệm hợp đồng
kinh tế; đặc điểm loại hình tiếng Anh và tiếng Việt; nhận diện và phân loại lỗi ngôn ngữ

khi dịch tự động - nêu cơ sở lý luận của việc phân tích lỗi trong chuyển dịch, giới thiệu các
bước phân tích ngữ liệu khi đưa vào phần mềm BLAST như thu thập, chuẩn hóa và xử lý
ngữ liệu; cuối cùng, lập tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động bao gồm: lỗi chính
tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống và lỗi ngẫu nhiên.
Chương 2: Phân tích lỗi chính tả và lỗi từ vựng, liệt kê toàn bộ kết quả lỗi chính tả (lỗi
sai thành phần của cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) và lỗi từ vựng (lỗi nhập
nhằng, lỗi thành ngữ và lỗi thuật ngữ) và phân tích các loại lỗi chính tả và từ vựng thuộc
lỗi hệ thống và ngẫu nhiên.
Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết quả lỗi ngữ pháp khi dịch tự động hợp
đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai từ công cụ, lỗi dịch
sai khi có sự hòa hợp giữa chủ từ và động từ, lỗi thừa từ và lỗi thiếu từ). Lỗi trật tự từ sẽ
được phân tích dựa theo tiêu chí BLAST và BLAST-VCL và phân tích các loại lỗi ngữ
pháp thuộc lỗi hệ thống và thuộc lỗi ngẫu nhiên.

4


CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. Khái niệm lỗi
Nghiên cứu những vấn đề lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate
khi dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào ba loại lỗi ngôn ngữ:
chính tả, từ vựng và ngữ pháp. Tuy nhiên, có hai loại lỗi đặc trưng cho dịch tự động không
thể bỏ qua đó là lỗi hệ thống và lỗi ngẫu nhiên.Vì vậy, mục này nêu khái niệm của các lỗi
trên. Phần nhận diện và phân loại lỗi sẽ được trình bày ở cuối chương 1.
1.1.1. Khái niệm lỗi chính tả
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu
(thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ.
Theo Nguyễn Đức Dân (2015): “ Sai chính tả là câu viết không đúng quy định về chính tả,
không đúng quy tắc về dấu câu, không đúng quy tắc viết tắt”.
1.1.2. Khái niệm lỗi từ vựng

“Sai từ vựng là câu mà giữa các từ trong đó không tương hợp về nghĩa.” (Nguyễn
Đức Dân, 2015) và “Lỗi từ vựng có thể do viết sai âm, hiểu sai nghĩa, dùng sai chức năng
ngữ pháp, hoặc lỗi về ý, về tu từ” (Nguyễn Thiện Nam, 2001).
1.1.3. Khái niệm lỗi ngữ pháp
Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp là câu viết không đúng nguyên tắc
ngữ pháp, nghĩa là viết không đúng cấu trúc câu. Thường là những câu cụt, thiếu chủ ngữ
hay vị ngữ, thậm chí thiếu cả hai.”
1.1.4. Lỗi hệ thống
- Lỗi hệ thống là những lỗi mang tính khách quan và bất biến theo thời gian (tạm
thời chỉ xét vào thời điểm nghiên cứu là từ tháng 8/2012 đến tháng 2/2014, bởi vì đặc
trưng của dịch tự động thống kê là khối ngữ liệu càng lớn thì càng dịch tốt. Vì vậy, những
qui ước này có thể thay đổi trong tương lai là điều tất yếu).
- Phân loại lỗi hệ thống thông qua khoảng cách Levenshtein
Để cho dễ quan sát, chúng tôi qui ước khoảng cách Levenshtein của dịch tự động như
sau: giữa năm 2012 và năm 2014 là L1, năm 2012 và câu tham chiếu (dịch thủ công) là L2
và năm 2014 và câu tham chiếu là L3.
Ví dụ: Other documents as and when necessary.
Câu tham chiếu: Các tài liệu khác nếu thấy cần thiết.
Dịch tự động T.8/2012: Các tài liệu khác và khi cần thiết
Dịch tự động T.02/2014: Các tài liệu khác và khi cần thiết
Kết quả nhận được theo khoảng cách Levenshtein: L1=0, L2=7 và L3=7 và độ lệch L3L2=0. Như vậy, hai lần dịch tự động với thời gian khác nhau nhưng cho kết quả như nhau.
Vậy đây là lỗi hệ thống.
1.1.5. Lỗi ngẫu nhiên
- Lỗi ngẫu nhiên mang yếu tố chủ quan vì có thể do bất cẩn từ khâu nhập ngữ liệu cho
ngôn ngữ nguồn hay do khâu tách các cặp câu Anh-Việt trong giai đoạn tiền xử lý ngữ liệu.
- Phân loại lỗi ngẫu nhiên thông qua khoảng cách Levenshtein

5



Độ lệch Levenshtein L2 và L3 lớn hơn 4, sẽ cho ra kết quả lỗi ngẫu nhiên và có hai
trường hợp xảy ra là dịch tự động năm 2014 tốt hơn dịch tự động năm 2012 và ngược lại.
1.2. Cơ sở lý luận của việc phân tích lỗi dịch thuật
Phân tích lỗi dịch thuật là việc nghiên cứu và phân tích các lỗi do tác nhân dịch
(người dịch / máy dịch) gây ra. Việc thu thập các mẫu ngôn ngữ nguồn cũng như ngôn ngữ
đích bao gồm việc xác định lỗi trong các mẫu, miêu tả lỗi, phân loại lỗi và giải thích
nguyên nhân mắc lỗi.
1.2.1. Định nghĩa lỗi dịch thuật và lỗi dịch tự động
a) Định nghĩa lỗi dịch thuật
Lỗi dịch thuật là những sai sót trong khi dịch, không thực hiện đúng quy tắc nghiên
cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa của văn bản
ngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi chính tả, lỗi ngữ pháp, lỗi ngữ dụng…).
b)

Định nghĩa lỗi dịch tự động

Theo Hutchins và Somers (1992), các loại lỗi trong dịch tự động chính là những
nhập nhằng (ambiguity) về từ vựng, cấu trúc và từ định lượng. Nhập nhằng từ vựng được
nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giao
thoa. Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) và
nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity).
1.2.2. Các bước xử lý ngữ liệu trước khi phân tích lỗi
Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt,
chúng tôi sử dụng phần mềm BLAST nhằm xây dựng và kiểm định hệ tiêu chí phân loại
lỗi. Sau đây là các bước xử lý ngữ liệu: thu thập ngữ liệu, chuẩn hóa ngữ liệu, xử lý ngữ
liệu.
a)

Nhận dạng lỗi dịch tự động
Có hai cách phân biệt lỗi khi dịch tự động Anh-Việt:

Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên và lặp lại sau mỗi lần dịch (lỗi hệ
thống).
Cách 2: Những lỗi nào cho ra kết quả dịch khác nhau trong những thời điểm khác
nhau xuất phát từ nguyên nhân chủ quan như nhập sai ngữ liệu, độ dài câu, dấu chấm câu,
qui ước viết hoa, viết tắt, v.v. (lỗi ngẫu nhiên).
b) Phân tích lỗi dịch tự động Anh-Việt
Căn cứ vào lý thuyết của Corder (1981) và Ellis (1997), luận án thực hiện các bước sau
đây để phân tích lỗi dịch tự động: thu thập các loại lỗi, xác định từng loại lỗi, miêu tả lỗi,
giải thích lỗi và đánh giá lỗi.
1.3. Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế
1.3.1. Đặc điểm của dịch tự động
a) Khái niệm về dịch tự động

6


Dịch tự động là việc lập chương trình cho máy tính điện tử tự chuyển ngữ các văn
bản từ trong một ngôn ngữ này sang một ngôn ngữ khác. Ngôn ngữ của văn bản gốc gọi là
ngôn ngữ nguồn, ngôn ngữ của văn bản dịch gọi là ngôn ngữ đích. Hai văn bản dịch gọi là
tương đương nhau nếu nó được người đọc hiểu giống nhau.
b) Những thuận lợi và khó khăn trong dịch tự động
- Thuận lợi của dịch tự động là dịch nhanh (tiết kiệm rất nhiều thời gian); chi phí
thấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mật
cao cho người sử dụng dịch vụ (những bản dịch mang tính cá nhân).
- Khó khăn của dịch tự động chưa cho ra kết quả chính xác một cách nhất quán, chỉ
dịch từng từ rời rạc mà không cần hiểu, do đó, cần phải chỉnh sửa bằng tay sau khi được
dịch tự động. Ngoài ra, chất lượng dịch tự động còn thấp đối với những văn bản có nhiều
từ hoặc ngữ. Dịch tự động chỉ dựa vào luật hình thức và luật hệ thống nên đôi khi gặp khó
khăn đối với câu nhập nhằng. Trong khi đó, dịch thủ công giải quyết bằng cách tập trung
vào ngữ cảnh, sử dụng kinh nghiệm hay trực giác.

c) Các cách tiếp cận đối với dịch tự động
Theo Koeln (2014), có sáu cách tiếp cận dịch tự động: dịch tự động từng từ một
(direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch tự động liên ngữ
(interlingual MT), dịch tự động dựa trên ngôn ngữ có kiểm soát (controlled language MT),
dịch tự động dựa trên ví dụ (example-based MT) và dịch tự động dựa trên thống kê (SMT).
Ngoài ra, còn có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa trên qui luật (rulebased MT), dựa trên cơ sở tri thức (knowledge-based MT), dựa trên ngữ liệu (corpus-based
MT) và dựa trên cách tiếp cận lai (hybrid MTS) (Đinh Điền, 2006b).
1.3.2. Đặc điểm về loại hình của tiếng Việt và tiếng Anh
- Tiếng Việt được xếp vào loại hình đơn lập (isolate) hay còn gọi là loại phi hình thái,
không biến hình, đơn tiết.
- Tiếng Anh được xếp vào loại hình hòa kết (flexional) hay biến hình.
1.3.3. Hợp đồng kinh tế
a)
Khái niệm hợp đồng kinh tế
Hợp đồng kinh tế là sự thỏa thuận bằng văn bản, tài liệu giao dịch giữa các bên ký kết về
việc thực hiện công việc sản xuất, trao đổi hàng hóa, dịch vụ, nghiên cứu ứng dụng tiến bộ
khoa học kỹ thuật và các thỏa thuận khác có mục đích kinh doanh với sự quy định rõ ràng
về quyền và nghĩa vụ của mỗi bên để xây dựng và thực hiện kế hoạch của mình.
b) Các loại hợp đồng kinh tế
Dựa trên những căn cứ khác nhau, mà người ta phân hợp đồng kinh tế thành nhiều loại
khác nhau: căn cứ thời hạn thực hiện hợp đồng, căn cứ vào tính chất quan hệ của hợp đồng
và căn cứ vào nội dung giao dịch của mối quan hệ hợp đồng.
1.3.4. Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động
Dưới góc nhìn của ngôn ngữ học, luận án chỉ khảo sát loại lỗi theo tiêu chí BLAST:
Loại I: là loại lỗi không hợp với cách nói của người sử dụng ngôn ngữ đích nhưng
có thể tạm chấp nhận được vì vẫn mang đủ nghĩa theo ngữ cảnh.
Loại II: được xem là sai hoàn toàn
Có 3 loại lỗi ngôn ngữ khi dịch tự động hợp đống kinh tế Anh-Việt được phân tích
trong luận án này:


7


a)

Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt
bao gồm lỗi sai ở thành phần của cấu trúc âm tiết (thanh điệu, phụ âm đầu, vần), lỗi
viết hoa, lỗi viết tắt, lỗi dấu câu...
b)

Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt
Những câu dịch không có ý nghĩa tạo ra những lỗi ngữ nghĩa (sense). Theo tiêu chí
BLAST, lỗi ngữ nghĩa thuộc về lỗi từ vựng chủ yếu khi dịch tự động hợp đồng kinh tế
Anh-Việt bao gồm: lỗi nhập nhằng nghĩa là lỗi do chọn sai mục từ trong từ điển
(ambiguity), lỗi hiểu sai nghĩa thành ngữ (idiom) và lỗi hiểu sai nghĩa thuật ngữ (term).
c)

Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt
Lỗi ngữ pháp bao gồm: lỗi trật tự từ (word order); lỗi thừa hay thiếu một hay nhiều
thành tố trong cấu trúc còn được gọi là lỗi thừa từ (extra), lỗi thiếu từ (missing) và lỗi do
không hòa hợp giữa chủ từ và động từ (agreement).
Nhận xét chương 1:
Dịch tự động Anh-Việt các hợp đồng kinh tế là một phương tiện hỗ trợ thiết thực hữu
dụng cho con người. Do mỗi ngôn ngữ có tính tương đồng và tính dị biệt, nên khi dịch tự
động không thể không mắc lỗi, chủ yếu là lỗi từ vựng, lỗi chính tả và lỗi ngữ pháp. Google
Translate giúp cho nhân loại có thể hiểu nhau hơn qua dịch thuật, với ưu điểm là dịch
nhanh với số lượng trang văn bản khá nhiều trong thời gian ngắn. Tuy nhiên, do sự khác
nhau về loại hình của từng ngôn ngữ chẳng hạn như tiếng Anh, ngôn ngữ hòa kết, và tiếng
Việt, ngôn ngữ đơn lập, nên hạn chế của dịch máy không thể tránh khỏi. Vì vậy, cần có
một cơ sở lý thuyết để minh định cho vấn đề đặt ra, những cách tiếp cận giúp chúng ta hiểu

rõ hơn nguyên nhân mắc lỗi và các phần mềm vi tính ra đời hỗ trợ cho ngôn ngữ học như
BLAST, BLAST-VCL. Đó là tiền đề nhận diện và phân loại lỗi như lỗi chính tả, lỗi từ
vựng và lỗi ngữ pháp.
Khi nghiên cứu những gì mà các nhà ngôn ngữ học đi trước đã nêu ra về vấn đề dịch
tự động, chúng tôi đưa ra một bức tranh tổng quát về các khái niệm có liên quan đến dịch
tự động trong chương này, đồng thời cũng cố gắng giải thích nguyên nhân và cơ sở để phân
tích và phân loại lỗi, trên cơ sở nghiên cứu những quy luật chi phối chúng. Dịch tự động là
một vấn đề hết sức lý thú đòi hỏi một sự nghiên cứu sâu hơn để có thể tìm ra được những
quy tắc hoạt động của chúng, những giải pháp hữu hiệu, khả thi để khắc phục những loại
lỗi mà chúng tôi đã khảo sát trên cơ sở ngữ liệu là các hợp đồng kinh tế thương mại Anh –
Việt.
Các khái niệm, quy tắc chúng tôi nêu ra trong chương này chưa đủ để giải thích mọi
hiện tượng về khả năng đóng góp của dịch tự động Google Translate, nhưng chúng là một
số kết luận mang tính lý thuyết rút ra từ những dữ liệu thực tế mà chúng tôi thu thập được
trong thời gian làm luận án. Các khái niệm quy tắc này mong là có thể gợi ý cho những
nghiên cứu tiếp theo về đề tài này trên cơ sở những dữ liệu phong phú hơn.

8


CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG
Sau khi thống kê và lập ra các tiêu chí để phân loại qua phần mềm BLAST, chúng ta
nhận thấy có hai loại I và loại II (theo qui ước ở 1.3.4. chương 1) xuất hiện hầu hết trong
các loại lỗi khảo sát.
2.1. Lỗi chính tả
Kết quả thống kê các loại lỗi chính tả đã phân tích được trình bày trong luận án có tống
cộng 867 lỗi chính tả. Trong số đó, lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II chiếm
tỉ lệ cao nhất là 40,95 % (355 lỗi). Kế đến là lỗi dịch sai chữ số - loại II (chiếm 27,68%),
lỗi dịch sai dấu câu - loại II (chiếm 16,61 %). Lỗi chiếm tỉ lệ thấp nhất là lỗi viết tắt và lỗi
viết hoa (chỉ chiếm từ 0,35 % đến 1,27 %). Ngoài ra, các lỗi sai ở thành phần của cấu trúc

âm tiết, cụ thể là khi chuyển dịch tự động bị thiếu phụ ầm đầu. Trường hợp dịch thiếu âm
tiết này chiếm tỉ lệ đáng kể (5,76 %) trong thời điểm khảo sát ngữ liệu của luận án này
(năm 2012-2014), nhưng do đặc điểm nổi bật của dịch tự động thống kê của phần mềm
Google Translate lỗi này có thể khắc phục được kể từ năm 2015 đến nay.
2.1.1. Lỗi dịch sai chữ số - loại I (gồm 7 lỗi và chiếm tỉ lệ là 0,81%) là dịch thiếu nhất
quán trong việc xét “chữ” hay “số”. Mặc dù là lỗi do dịch sai chữ số nhưng vẫn mang đủ
nghĩa theo ngữ cảnh.
Ví dụ: March 16, 1994. (Ngữ liệu LEGAL, số 707), (DTC) là ngày 16 tháng 3 năm 1994
và (DTĐ) là ngày 16 Tháng Ba 1994. Vậy, dịch thù công đúng văn phong tiếng Việt hơn
dịch tự động.
2.1.2. Lỗi dịch sai chữ số - loại II (có 240 lỗi, chiếm tỉ lệ 22,68%) tạo nên câu văn
hoàn toàn không lưu loát đồng thời cũng không mang đầy đủ ý nghĩa theo ngữ cảnh.
Ví dụ: 2.2 The Rules on license trade (Ngữ liệu LEGAL, số 353). (DTĐ) là 2,2 Các quy
định về giấy phép thương mại.
Trường hợp này do máy hiểu đây là số thập phân nên khi dịch sang tiếng Việt đã đổi dấu
chấm thành dấu phẩy ở số “2.2” và làm cho câu không có nghĩa.
2.1.3. Lỗi dịch sai dấu câu - loại I (có 28 lỗi và chiếm 3,23 %) là do đặt thiếu hoặc dư
các dấu chấm, dấu phẩy, dấu hai chấm trong câu và cả những lỗi viết hoa hoặc viết thường.
Tuy nhiên, chúng vẫn mang đủ nghĩa theo ngữ cảnh.
Ví dụ: Article 17. The mode of payment (Ngữ liệu LEGAL, số 353), (DTĐ) là Điều 17
Phương thức thanh toán.
Trong ví dụ này, chúng ta thấy ngôn ngữ đích vẫn có nghĩa bởi vì không có dấu chấm
nhưng từ “Phuơng” vẫn đuợc viết hoa.

9


2.1.4. Lỗi dịch sai dấu câu - loại II (gồm có 144 lỗi, chiếm 16,61%) đa số xảy ra ở dấu
phẩy lược âm (‘s ) gây ra hiểu nhầm là dấu chấm hỏi (?) hoặc bỏ qua không dịch. Ví dụ:
Robert’s normal business days. (Ngữ liệu NTY, số 130), (DTĐ) là ngày làm việc bình

thường của Robert?.
2.1.5. Lỗi thành phần của cấu trúc âm tiết - loại II (chiếm 3,34%, 29 lỗi) như dịch
thiếu phụ âm đầu của ngôn ngữ đích tạo nên câu văn hoàn toàn sai. Chẳng hạn như: Any
audit (Ngữ liệu NTY, số 26), (DTĐ) là “iểm toán”, thiếu phụ âm “k” trong từ “kiểm toán”.
Hầu hết các lỗi đang được phân tích trong luận án này đều do Google Translate dịch vào
tháng 8/2012, nhưng từ sau 6 tháng đến nay, lỗi này không xuất hiện, có lẽ trong thời gian
này Google Translate đã được điều chỉnh.
2.1.5. Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I (có 21 lỗi, chiếm 2,42%). Một
số từ tiếng Anh được sử dụng như Việt hóa nên giữ nguyên gốc khi dịch và đã tạo ra lỗi giữ
nguyên từ thuộc ngôn ngữ nguồn – loại I.
Chẳng hạn như “fax letters” (điện báo) (Ngữ liệu LEGAL, số 175) dịch tự động là “thư
fax” nhưng điều này không ảnh hưởng đến ngôn ngữ nguồn vì vẫn mang đầy đủ nghĩa so
với ngữ cảnh.
2.1.6. Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II (có 355 lỗi, chiếm 40,95%).
Lỗi này thường do người nhập ngữ liệu ở khâu đầu tiên đã đánh máy sai chính tả, vì thế
các từ này sẽ không tìm thấy trong từ điển.Vậy chỉ cần sửa lỗi chính tả trong ngôn ngữ
nguồn là sẽ có câu dịch đúng.
Ví dụ: contitons of the guarantee (ngữ liệu LEGAL, số 56), (DTĐ) là contitons bảo lãnh.
2.1.7. Lỗi viết hoa - loại I (gồm 6 lỗi, chiếm 0,69%). Lỗi viết hoa - loại I vẫn mang đủ
nghĩa theo ngữ cảnh bởi vì trong các văn bản đôi khi chúng ta gặp các từ viết hoa thường
là để nhấn mạnh hoặc xem như danh từ riêng, điều này không ảnh hưởng đến ý nghĩa của
câu văn, chỉ không đúng về mặt ngữ âm.
Ví dụ: up to.….Dollars (ngữ liệu, XH-MK, số 6), (DTĐ) là lên đến …..Dollars.
2.1.8. Lỗi viết hoa - loại II (chiếm 0,92% , 8 lỗi). Những trường hợp viết hoa tùy tiện,
ngẫu hứng hoặc do bất cẩn như trường hợp dấu ba chấm (...) lại có thêm dấu chấm thứ tư,
điều này máy sẽ không hiểu xem đây là dấu chấm cuối câu và từ đầu câu mặc nhiên viết
hoa. Chính vì thế, câu văn sẽ không còn ý nghĩa.
Ví dụ: the …. language and the other in the English language (ngữ liệu, XH-MK, số 477),
(DTĐ) là ở. Ngôn ngữ và những khác bằng tiếng.
2.1.9. Lỗi viết tắt – loại I (có 3 lỗi, chiếm 0,35%). Lỗi viết tắt - loại I vẫn mang đủ nghĩa

theo ngữ cảnh.
Ví dụ: ABC. Co. Ltd. (ngữ liệu,TLTL, số 477), (DTĐ) là ABC. Công ty TNHH.
2.1.10. Lỗi viết tắt – loại II (có 11 lỗi, chiếm 1,27%). Lỗi viết tắt - loại II này tạo nên câu
văn sai hoàn toàn.
Ví dụ: this GCC Clause 10 shall be responsibility of the Employer, (ngữ liệu, CKT, số
122), (DTĐ) là khoản này GCC 10? Được trách nhiệm của Chủ đầu tư,
2.1.11. Các lỗi chính tả khác- loại II (chiếm 1,73% , 15 lỗi). Một số lỗi chính tả khác
được phân tích trong luận án vì chúng không thuộc các tiêu chí sẵn có của phần mềm, các
lỗi này tạo nên câu văn hoàn toàn sai.
Ví dụ: b) Claim a penalty for breach (ngữ liệu LEGAL, số 326), (DTĐ) là B) Bổ xung vào
một hình phạt. Vậy, trường hợp này khi dịch tự động đã viết hoa chữ B (dạng số thứ tự) và
sai chính tả tiếng Việt từ “xung”.
Một ví dụ khác như: no Article on prince (ngữ liệu LEGAL, số 435), (DTĐ) là không có
Điều hoàng tử. Trường hợp này cho thấy mặc dù các lỗi chính tả xảy ra do nhập ngữ liệu

10


sai ngay trong ngôn ngữ nguồn nhưng vẫn được dịch sang tiếng Việt vì từ đó có trong từ
điển của Google Translate. Cụ thể như “prince” (lẽ ra trong ngữ cảnh này phải viết là
“price” mang nghĩa “giá cả”) nhưng ngôn ngữ nguồn đã bị nhập sai, kéo theo dịch tự
động hiểu sai nghĩa. Lỗi này cũng khá phổ biến nhưng cũng dễ sửa vì chỉ cần cẩn thận là
khắc phục được ngay.
2.2. Lỗi từ vựng
Lỗi từ vựng bao gồm lỗi nhập nhằng, lỗi hiểu sai thành ngữ và lỗi hiểu sai nghĩa thuật
ngữ.Theo kết quả thống kê, lỗi từ vựng chiếm tần suất cao nhất. Đáng kể nhất là lỗi dịch
sai thuật ngữ hợp đồng kinh tế loại I và II chiếm 84,95% so với 5 loại lỗi từ vựng, lỗi nhập
nhằng - loại II có 13,29%. Tỉ lệ lỗi thấp nhất là lỗi hiểu sai thành ngữ - loại II gồm có
0,82% và lỗi nhập nhằng - loại I chiếm tỉ lệ thấp tiếp theo là 0,94%.
2.2.1. Lỗi nhập nhằng - loại I (có 24 lỗi chiếm 0,94% ) là lỗi do chọn sai mục từ trong

từ điển.
Ví dụ: be directly liable to pay damages to the innocent party, (Ngữ liệu LEGAL, số 220),
(DTĐ) là trực tiếp chịu trách nhiệm bồi thường thiệt hại cho bên vô tội,. Lẽ ra câu này phải
dịch là “chịu trách nhiệm tài sản trực tiếp với bên bị vi phạm”.
2.2.2. Lỗi nhập nhằng - loại II (có 340 lỗi chiếm 13,29%): tương tự như lỗi trên, nhưng
ở đây chẳng những chọn sai mục từ trong từ điển mà còn tạo câu văn không có nghĩa.
Ví dụ: deadline, Party A (Ngữ liệu XH-MK, số 161), (DTĐ) là Đảng thời hạn, A; từ Party
ở đây có nghĩa là Bên.
2.2.3. Lỗi dịch sai thành ngữ- loại II (chiếm 0,82%, 21 lỗi) do dịch tự động không hiểu
thành ngữ trong câu và đã dịch từng từ làm mất ý nghĩa của ngôn ngữ nguồn.
Ví dụ: discrepancies the same shall be explained (Ngữ liệu TLTL, số 93), (DTC) là không
rõ nghĩa thì sẽ đuợc giải thích, nhưng (DTĐ) đã dịch “bất cùng sẽ được giải thích.”
2.2.4. Lỗi hiểu sai nghĩa thuật ngữ - loại I (có 312 lỗi chiếm 12,20%) là lỗi tuy dịch
không đúng với nghĩa của thuật ngữ ngôn ngữ nguồn nhưng vẫn mang đủ nghĩa theo
ngữ cảnh.
Chẳng hạn như: attach with the application for this purpose, (Ngữ liệu LEGAL, số 1755),
có nghĩa là gửi kèm theo, nhưng (DTĐ) đã dịch đính kèm với các ứng dụng cho mục đích
này.
2.2.5. Lỗi hiểu sai nghĩa thuật ngữ - loại II (có 1.861 lỗi, chiếm tỉ lệ cao nhất là 72,75%) là
lỗi dịch không đúng ngôn ngữ nguồn mà cũng không đúng nghĩa.
Ví dụ: this Agreement (Ngữ liệu NTY, số 64) có nghĩa là Hợp đồng này, nhưng (DTĐ) là
Hiệp định này.
2.3. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống và lỗi ngẫu nhiên
2.3.1. Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống
Có 12 loại lỗi chính tả và 5 loại từ vựng thuộc lỗi hệ thống trong 17 loại lỗi xuất hiện
trong chương 2 này, nhưng chỉ có 357 lỗi được chia thành 13 loại thuộc lỗi hệ thống.
Trong đó, lỗi hiểu sai thuật ngữ - loại II chiếm tỉ lệ cao nhất là 35,57% (127 lỗi). Kế đó là

11



lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II (58 lỗi – 16,25%) và lỗi nhập nhằng - loại
II (55 lỗi – 15,54%). Tỉ lệ thấp nhất là lỗi viết hoa và lỗi viết tắt.
2.3.2. Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên
Trong tổng số 17 loại lỗi được khảo sát trong chương này bao gồm 12 loại lỗi chính tả
(30,97%) và chỉ có 5 loại lỗi từ vựng nhưng chiếm tỉ lệ hơn gấp đôi lỗi chính tả (69,03%).
Trong lỗi chính tả, chỉ có duy nhất loại lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I
không thuộc lỗi ngẫu nhiên. Trong lỗi từ vựng, lỗi hiểu sai thuật ngữ - loại II cũng chiếm tỉ
lệ cao nhất là 32,98% (279 lỗi), kế tiếp là 154 lỗi nhập nhằng - loại II (chiếm tỉ lệ 18,20%),
lỗi viết tắt và lỗi viết hoa chiếm tỉ lệ thấp nhất (từ 0,24% đến 0,59%).
Nhận xét chương 2:
Trong chương hai, trên cơ sở lý luận từ việc so sánh đối chiếu ngôn ngữ dịch tự động và
ngôn ngữ của bản dịch thủ công, kết quả thu được tổng cộng 17 loại lỗi trong đó có 12 lỗi
chính tả 5 loại lỗi từ vựng như đã phân tích ở trên.
Ngoài việc mô tả và phân tích lỗi về từ vựng và chính tả thuộc lỗi ngôn ngữ trong dịch tự
động Anh-Việt, chúng tôi thấy cần phải khảo sát thêm lỗi hệ thống và lỗi ngẫu nhiên nhằm
vừa làm sáng tỏ nét đặc thù trong từng ngôn ngữ vừa đóng góp vào những thiếu sót cần cải
tiến trong chương trình dịch tự động trong lĩnh vực từ vựng, một khía cạnh mới được khám
phá và hy vọng rằng hướng khắc phục của nó có nhiều tiềm năng và mang nhiều triển
vọng.

12


CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP
Trong chương này chúng tôi khảo sát các loại lỗi về ngữ pháp – cấu trúc. Đối với loại
lỗi về cấu trúc, chúng tôi thấy có lỗi thừa hay thiếu một hay nhiều thành tố trong cấu trúc
đó. Chúng tôi gọi là lỗi thừa từ hoặc lỗi thiếu từ. Việc phân loại theo cách này sẽ giúp dễ
dàng nhận dạng lỗi một cách cụ thể khi dịch tự động. Ngoài ra còn có lỗi trật tự từ, lỗi dịch
sai từ công cụ và lỗi dịch sai khi hòa hợp giữa chủ từ và động từ sẽ được phân tích trong

chương này.
3.1. Lỗi trật tự từ
3.1.1. Lỗi trật tự từ theo tiêu chí BLAST
Theo tiêu chí BLAST, chỉ có 7 dạng lỗi trật tự từ xuất hiện khi dịch tự động. Trong đó,
phạm vi cụm từ ở khoảng cách xa – loại IV chiếm tỷ lệ cao nhất.
Phạm vi lỗi trật tự từ
phạm khoảng loại
vi
cách
từ
gần
I
IV
xa
IV

số
lỗi
13
21
42

%
lỗi
0,96
1,55
3,10

phạm khoảng loại số
% lỗi

vi
cách
lỗi
cụm gần
I
53 3,92
từ
IV 112 8,28
Xa
I
72 5,32
IV 418 30,89
Với 448 cặp câu Anh-Việt trong 5 loại ngữ liệu khảo sát, số lượng câu chứa lỗi trật tự từ có
ít nhất là 0 lỗi và nhiều nhất là 5 lỗi. Kết quả số câu chứa lỗi được tổng kết như sau: 273 câu
chứa 1 lỗi, 123 câu chứa 2 lỗi, 25 câu chứa 3 lỗi, câu chứa 4 lỗi, 1 câu chứa 5 lỗi và 16 câu
không có lỗi.
3.1.2. Lỗi trật tự từ theo tiêu chí BLAST-VCL
Để phát huy tính năng ưu việt của phần mềm BLAST, chúng tôi đề nghị nhóm nghiên
cứu xử lý tiếng Việt (Vietnamese Computational Linguistics – VCL) của khoa Công nghệ
thông tin Trường Đại học Khoa học tự nhiên, TP. HCM, xây dựng bổ sung tiêu chí phân
loại lỗi trật tự từ cho phù hợp với 2 loại hình ngôn ngữ tiếng Anh và tiếng Việt đang xử lý
trong luận án. Phần mềm mới này được đặt tên là BLAST-VCL (viết tắt là BVCL).
Theo tiêu chí BLAST-VCL, lỗi trật tự từ được chia thành 13 nhóm với 60 loại và được đặt
tên BVCL kèm theo số thứ tự được đánh số từ 1 đến 60. BLAST-VCL phân chia lỗi trật tự
từ ở các phạm vi như sau:
Nhóm BVCL

Lỗi trật tự từ theo tiêu chí BLAST

BVCL-1 - BVCL-10

BVCL-11 - BVCL-22
và BVCL-28
BVCL-23 - BVCL-27
BVCL-29 - BVCL-31
BVCL-32 - BVCL-42
BVCL-43 - BVCL-49
BVCL-50 - BVCL-52
BVCL-53 - BVCL-60

phạm vi ngữ ở khoảng cách xa – loại I
phạm vi ngữ ở khoảng cách xa – loại II
phạm vi ngữ ở khoảng cách gần – loại I
phạm vi ngữ ở khoảng cách gần – loại II
phạm vi từ ở khoảng cách xa – loại II
phạm vi từ ở khoảng cách gần – loại I
phạm vi từ ở khoảng cách gần – loại II

13


Ngoài ra, các nhóm BVCL còn được xếp theo cấu trúc câu như sau:
Cấu trúc
Chủ
động
hoặc bị động
Tính từ
danh từ
Trạng từ - tính
từ
Mạo từ - danh

từ
Liên từ
Danh từ danh từ
Danh từ - sở
hữu cách danh từ
Số - danh từ
Giới từ - danh
từ
Chủ từ - động
từ
Động từ trạng từ
Động từ - túc
từ
Động từ động từ

Tiêu chí BVCL
BVCL-1, BVCL-14, BVCL-23, BVCL-35,
BVCL-43 và BVCL-53
BVCL-2, BVCL-11, BVCL-24, BVCL-36,
BVCL-44 và BVCL-54
BVCL-3, BVCL-15, BVCL-32 và BVCL-45

Số lỗi/ %
29 lỗi (4,05%)

BVCL-4, BVCL-12, BVCL-46 và BVCL-55

6 lỗi (0,84%)

BVCL-5, BVCL-13 và BVCL-33

BVCL-7, BVCL-17, BVCL-34, BVCL-48
và BVCL-57
BVCL-6, BVCL-16, BVCL-25, BVCL-37,
BVCL-47, BVCL-50 và BVCL-56

13 lỗi (1,81%)
132 lỗi
(18,41%)
234 (32,64%)

BVCL-8, BVCL-18, BVCL-26, BVCL-38,
BVCL-49, BVCL-51 và BVCL-58
BVCL-9, BVCL-19, BVCL-27, BVCL-39
và BVCL-59
BVCL-28

26 lỗi (3,63%)

BVCL-20, BVCL-29 và BVCL-40

18 lỗi (2,51%)

BVCL-10, BVCL-21, BVCL-30, BVCL-41
và BVCL-52
BVCL-22, BVCL-31, BVCL-42 và BVCL60

13 lỗi (1,81%)

167 lỗi
(23,29%)

17 lỗi (2,37%)

34 lỗi (4,74%)
14 lỗi (1,95%)

14 lỗi (1,95%)

Một số ví dụ minh họa về lỗi trật tự từ theo cấu trúc câu:
Ví dụ (a): the parties exchange correspondence (Ngữ liệu LEGAL, số 38).
(DTC) các bên nhận được tài liệu giao dịch
(DTĐ) các thư từ trao đổi bên
Ví dụ (b): has seriously violated the law (Ngữ liệu LEGAL, số 1342)
(DTC) vi phạm pháp luật nghiêm trọng
(DTĐ) vi phạm nghiêm trọng pháp luật
Ví dụ (c): 2. The rights (Ngữ liệu LEGAL, số118), có nghĩa là 2. Quyền, nhưng dịch tự
động là (?) Quyền 2
Nhận xét: ví dụ (a) có cấu trúc: chủ từ - vị từ, (b) cấu trúc động từ - túc từ và (c) cấu trúc số
- danh từ.
3.2. Lỗi dịch sai từ công cụ - loại II có 64 lỗi chiếm 4,73%.
Ví dụ: (NNN) on all essential terms (Ngữ liệu LEGAL, số 38)
(DTC) về tất cả những điều khoản chủ yếu
(DTĐ) trên tất cả các điều khoản cơ bản

14


3.3.
Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II hay còn gọi là lỗi phù
ứng đó là lỗi do không có sự hòa hợp giữa chủ từ và động từ hoặc giữa các từ trong câu,
tạo nên câu văn hoàn toàn sai. Lỗi này chiếm 0,12% (6 lỗi).

Ví dụ: (NNN) follow Party A’s instructions (Ngữ liệu XH-MK, số 178)
(DTC) bên A đã đề ra. (DTĐ) theo Đảng hướng dẫn A?
Nhận xét: dịch tự động đã dịch theo đúng trật tự của ngôn ngữ nguồn, nhưng về mặt ngữ
pháp không những sai về sự phù ứng mà còn sai về khả năng chọn thuật ngữ và sở hữu
cách.
3.4. Các loại lỗi thừa từ và thiếu từ
Lỗi thừa từ và thiếu từ thường do vi phạm các quy tắc cấu tạo như các hiện tượng dịch
thừa hoặc thiếu một trong những thành phần của câu làm cho câu tối nghĩa.
3.4.1 Lỗi thừa từ
Các ví dụ sau đây sẽ minh họa cho lỗi thừa từ, các từ dịch thừa sẽ đuợc in đậm trong câu
dịch tự động (DTĐ).
a) Lỗi thừa từ nội dung - loại I có 34 lỗi, chiếm 1,16 % .
Ví dụ: to be calculated in the same manner (Ngữ liệu LEGAL, số 789), (DTĐ) là được
tính toán theo cách tương tự.
b) Lỗi thừa từ nội dung - loại II có số 690 lỗi, chiếm 23,63%. Ví dụ: The Borrower is
required to provide (Ngữ liệu XH-MK, số 23), (DTĐ) là Bên vay là cần thiết để cung cấp.
c) Lỗi thừa từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62 %.
Ví dụ: as the right to enter into (Ngữ liệu LEGAL, số 154), (DTĐ):
d) Lỗi thừa từ ngữ pháp - loại II có 411 lỗi chiếm 14,08%.
Ví dụ: the business which will carry out (Ngữ liệu LEGAL, số 23), (DTĐ): doanh

nghiệp mà sẽ thực hiện
e) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I có 4 lỗi, chiếm 0,14%.. Ví dụ: apart
from damages paid (ngữ liệu LEGAL, số 225)
(DTC) ngoài mức phạt. (DTĐ) ngoài việc trả tiền bồi thường thiệt hại
f) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II có 10 lỗi, chiếm 0,34 %.
Ví dụ: results from (i) the correction (ngữ liệu NTY, số 57)
(DTC) là do (i) việc chỉnh sửa. (DTĐ) kết quả yêu cầu bồi thường từ điều chỉnh
2.4.2 Lỗi thiếu từ
Đối với lỗi thiếu từ, qua các ví dụ, chúng ta sẽ so sánh dịch tự động với dịch thủ công

(DTC) để nhận biết các từ thiếu sót:
a) Lỗi thiếu từ nội dung - loại I có 34 lỗi, chiếm 1,16 %.
Ví dụ: has not registered, in accordance with the law, (ngữ liệu LEGAL, số 23),
(DTC) là không có đăng ký kinh doanh theo quy định của pháp Luật
(DTĐ) đã không đăng ký theo quy định của pháp luật,
b) Lỗi thiếu từ nội dung - loại II có 682 lỗi, chiếm 23,36%.
Ví dụ: any kind necessary (ngữ liệu TLTL, số 109), (DTC) là thuộc - loại nào cần thiết
(DTĐ) bất loại cần thiết
c) Lỗi thiếu từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62%.
Ví dụ: Clause 1 are essential terms of the contract. (ngữ liệu LEGAL, số 52),
(DTC) là Điều 1 là điều khoản chủ yếu của các hợp đồng kinh tế.

15


(DTĐ) Khoản 1 các điều khoản cần thiết của hợp đồng.
d) Lỗi thiếu từ ngữ pháp - loại II có 111 lỗi, chiếm 3,8%.
Ví dụ: in the same process as judge, (ngữ liệu LEGAL, số 538)
(DTC) cùng một vụ án với tư cách là thẩm phán,
(DTĐ) quá trình cùng là Thẩm phán,
3.5. Lỗi ngữ pháp thuộc lỗi hệ thống và lỗi ngẫu nhiên
Tương tự như cách trình bày ở mục 2.3 Chương 2, lỗi ngữ pháp cũng thuộc lỗi hệ
thống và lỗi ngẫu nhiên.
3.5.1. Lỗi ngữ pháp thuộc lỗi hệ thống
Tính tới thời điểm tháng 2/2014 lỗi ngữ pháp thuộc lỗi hệ thống chỉ xuất hiện lỗi trật
tự từ.
Trong ba ngữ liệu khảo sát, lỗi trật tự từ thuộc phạm vi cụm từ/ ngữ ở khoảng cách
xa – loại II thuộc lỗi hệ thống có số lỗi nhiều nhất là 86, chiếm tỷ lệ 44,56%.
Ở phạm vi cụm từ/ ngữ ở khoảng cách xa - loại I thuộc lỗi hệ thống có 41 lỗi
(21,24%).

Với phạm vi từ ở khoảng cách xa - loại II thuộc lỗi hệ thống có 23 lỗi, chiếm
11,92%.
Phạm vi cụm từ/ ngữ ở khoảng cách gần - loại I thuộc lỗi hệ thống có số lỗi là 21,
chiếm 10,88%.
Với phạm vi cụm từ/ ngữ ở khoảng cách gần - loại II thuộc lỗi hệ thống có 12 lỗi,
chiếm 6,22%.
Cuối cùng, ở phạm vi từ ở khoảng cách gần - loại II thuộc lỗi hệ thống 10 lỗi và
chiếm 5,18%.
3.5.2. Lỗi ngữ pháp thuộc lỗi ngẫu nhiên
Lỗi ngẫu nhiên chiếm tỉ lệ cao hơn lỗi hệ thống do đặc tính của loại hình dịch tự động khác
hẳn những đặc tính dịch thủ công. Chất lượng của phương pháp dịch tự động thống kê của
Google Translate lệ thuộc vào nguồn ngữ liệu. Vì vậy, dịch tự động hiện nay vẫn chưa cho
kết quả thực sự tốt bởi vì nguồn ngữ liệu còn mang yếu tố chủ quan như do bất cẩn trong
khi nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) hoặc trong giai đoạn tiền xử lý ngữ
liệu, tách các cặp câu song ngữ Anh-Việt chưa hoàn chỉnh. Điều này dẫn đến tình trạng lần
sau tốt hơn lần trước hoặc lần trước dịch tốt hơn lần sau. Theo thống kê các ngữ liệu trong
luận án, lỗi ngẫu nhiên xảy ra hầu như ở tất cả các trường hợp của lỗi từ vựng và lỗi ngữ
pháp, nhưng các trường hợp như sau chiếm tỉ lệ đáng kể hơn: lỗi do sai về dấu câu, về sở
hữu cách, về viết hoa không đúng cách, lỗi dịch thừa từ do dịch sát nghĩa từng từ một, lỗi
dịch thiếu từ do câu quá dài, và cuối cùng là lỗi giao thoa từ vựng (nghĩa là giữ nguyên từ
của ngôn ngữ nguồn) đa số là danh từ riêng hoặc lỗi chính tả xuất phát từ ngôn ngữ nguồn
tạo ra những lỗi “mất đồng bộ” như sử dụng hai ngôn ngữ trong cùng một câu.
Kết quả những lỗi ngữ pháp được khảo sát trong luận án này khi cho dịch tự động
nhiều lần đều có thể thay đổi theo thời gian nghĩa là những lỗi ngẫu nhiên. Trong đó, các
loại lỗi trật tự từ thuộc lỗi ngẫu nhiên cao nhất (chiếm 74,46%) so với các loại lỗi ngữ pháp
khác. Kế đến, lỗi cú pháp chiếm 3,17% gồm: lỗi dịch sai từ công cụ (8,84%), lỗi gán nhãn
từ loại sai (7,27%). Tiếp theo, lỗi do không hòa hợp giữa chủ từ và động từ (5,5%); và cuối
cùng có lỗi dịch sai ý nghĩa sở hữu chiếm 3,93%.

16



3.6. Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein
Để đánh giá kết quả dịch của Google Translate năm 2012 và 2014, trước tiên, chúng tôi sử
dụng 2.865 cặp câu Anh-Việt được trích trong ba loại ngữ liệu [LEGAL], [TLTL] và
[NTY]. Trong đó, tiếng Anh là câu nguồn và tiếng Việt là câu tham chiếu (người dịch). Sau
đó, sử dụng phần mềm Google Translate dịch tự động câu nguồn vào nhiều thời điểm khác
nhau giữa năm 2012 và năm 2014. Tiếp theo, chúng tôi sử dụng khoảng cách Levenshtein
để so sánh đối chiếu và nhận được kết quả như sau: năm 2014 dịch tốt hơn năm 2012 với
số cặp câu là 1053 (chiếm 36,75%), ngược lại, năm 2012 dịch tốt hơn năm 2014 nhận được
432 cặp câu (chiếm 15,08%) và hai lần dịch của năm 2012 và 2014 tương đương nhau có
1380 cặp câu (chiếm 48,17%).
3.6.1. Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein
Lỗi hệ thống chiếm 48,17% khi so sánh giữa lỗi hệ thống và lỗi ngẫu nhiên. Ví dụ: The
names and the positions of the parties to the dispute and their representatives; (Ngữ liệu
LEGAL, số 1650), (DTC) Tên và chức vụ của các bên tham gia vụ kiện và người đại diện;
hai lần dịch tự động năm 2012 và 2014 như nhau: Tên và vị trí của các bên tranh chấp và
các đại diện của họ; với L1=0, L2=33 và L3=33.
3.6.2. Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein
Độ lệch Levenshtein L2 và L3 lớn hơn 4 sẽ cho ra kết quả lỗi ngẫu nhiên. Có hai trường
hợp lỗi ngẫu nhiên: dịch tự động năm 2014 dịch tốt hơn dịch tự động năm 2012 và ngược
lại.
a) Dịch tự động năm 2014 tốt hơn năm 2012
Trong lỗi ngẫu nhiên, nếu L2 lớn hơn L3 đồng thời độ lệch Levenshtein giữa L2 và L3
lớn hơn 4 (L2 – L3 >4) thì hệ thống dịch tự động năm 2014 sẽ dịch tốt hơn năm 2012.
b) Dịch tự động năm 2012 tốt hơn năm 2014
Tương tự như trên, chúng ta sẽ thấy: nếu L2 nhỏ hơn L3 đồng thời độ lệch Levenshtein
giữa L2 và L3 lớn hơn 4 (L3 – L2 > 4) thì hệ thống dịch tự động 2012 dịch tốt hơn hệ
thống dịch tự động 2014.


17


Nhận xét chương 3:
Trong chương ba, chúng tôi phân tích lỗi ngữ pháp, trong đó tiêu biểu nhất là lỗi về
trật tự từ. Do trật tự từ của hai ngôn ngữ tiếng Anh và tiếng Việt khác nhau, nên đây là vấn
đề không tránh khỏi khi máy nhận diện cấu trúc trong quá trình chuyển dịch. Qua những
minh chứng về lỗi ngữ pháp trên thực tiễn dịch tự động, ta thấy, tuy các cặp câu đều sai các
lỗi ngữ pháp khác nhau, do không có câu nào trùng lặp trong ngữ liệu nguồn, kết quả lỗi
ngữ pháp cũng đa dạng phong phú nhiều chiều, nhưng tất cả đều hướng tới một vấn đề
chung là đến tháng 2 năm 2014 Google Translate vẫn chưa hiểu luật trật tự từ khi chuyển
dịch hai ngôn ngữ Anh-Việt, vấn đề về sở hữu cách không được hiểu và lập trình một cách
thông minh, linh hoạt trong hệ thống nhận diện cấu trúc.
Điều cần thấy là nhờ vào phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST,
chúng ta nhận biết được những khuyết điểm của máy dịch trong cách nhận diện và chuyển
dịch linh hoạt trong cấu trúc câu, đặc biệt là trong từng cụm từ. Nhờ vào đó, chúng ta càng
hiểu thêm về luật cú pháp của hai ngôn ngữ qua người dịch và qua máy dịch. Tuy nhiên,
một đóng góp không nhỏ của máy dịch tự động có thể thấy được là bên cạnh những lỗi về
trật tự từ nằm trong lỗi ngữ pháp, máy dịch còn cho kết quả dịch đúng của nhiều loại trật tự
từ vốn có sự khác biệt giữa hai ngôn ngữ Anh-Việt, được thể hiện ở nhiều cặp câu đúng.
Điều này cũng là một tiến bộ đáng ghi nhận của khoa học công nghệ, và ngôn ngữ học máy
tính trên lĩnh vực dịch tự động.
Để có thể khắc phục lỗi về trật tự từ, cũng như các lỗi ngữ pháp - cấu trúc khác (lỗi
dịch sai từ công cụ, lỗi thừa từ, lỗi thiếu từ,…) các nhà ngôn ngữ học, đặc biệt là các nhà
Việt ngữ phải bổ sung và tập huấn lại cho Google Translate những cụm từ tiếng Việt
chuyển dịch từ ngôn ngữ nguồn sang ngôn ngữ đích theo từng cụm, những cụm này bao
gồm cả thành ngữ, thuật ngữ và những trật tự kết hợp theo hệ thống để có thể có một bản
dịch thật Việt Nam, bởi vì sự đảo lộn về trật tự từ trong bản dịch từ Anh sang Việt sẽ có thể
làm cho bản dịch không mang tính đặc thù của văn hóa Việt hay là thứ tiếng Việt “giống
tiếng nước ngoài” do nó bị bóp méo theo cách dịch trật tự từ của ngôn ngữ Châu Âu, ngôn

ngữ Anh.
Việc phân tích lỗi ngữ pháp trong chương trình dịch tự động một lần nữa cũng đã
xác nhận những gì cần cải tiến về phương diện ngữ pháp và mặt khác cũng đã khẳng định
những hạn chế mà chương trình dịch tự động, những gì cần được cải tiến trong thời gian
tới.

18


KẾT LUẬN
Qua ba chương khảo sát, luận án đã đúc kết các kết quả như sau:
1. Dịch tự động nhanh hơn nhiều so với dịch thủ công nhưng kết quả dịch chưa có độ
chính xác cao, nên cần có sự kết hợp chặt chẽ giữa ngôn ngữ học và tin học để cải thiện
chất lượng dịch tự động.
2. Phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST giúp chúng ta nhận biết
được những khuyết điểm của máy dịch trong cách nhận diện và chuyển dịch linh hoạt
trong cấu trúc câu, đặc biệt là trong từng cụm từ. Tuy nhiên, một đóng góp không nhỏ của
dịch tự động có thể thấy được là bên cạnh những lỗi về trật tự từ nằm trong lỗi ngữ pháp,
máy dịch còn cho kết quả dịch đúng của nhiều loại trật từ từ vốn có sự khác biệt giữa hai
ngôn ngữ Anh - Việt, được thể hiện ở nhiều cặp câu đúng. Điều này cũng là một tiến bộ
đáng ghi nhận của khoa học công nghệ, và ngôn ngữ học máy tính trên lĩnh vực dịch tự
động.
3. Luận án định vị được các nhóm lỗi chính như lỗi từ vựng, lỗi chính tả và lỗi ngữ
pháp trong chương trình dịch, lý giải được nguyên nhân gây ra sự khác biệt giữa dịch tự
động và dịch thủ công trong các ngữ liệu hợp đồng kinh tế khi chuyển dịch Anh sang Việt
với tổng số cặp câu là 3.461.
4. Luận án đã nhận ra được Google Translate chưa hiểu luật trật tự từ, đây là điểm khác
biệt giữa hai ngôn ngữ Anh và Việt. Vì thế, lỗi trật tự từ đã được khảo sát khá tỉ mỉ trong
luận án.
5. Sự tương tác của người xử lý lỗi dịch tự động với sản phẩm dịch được đánh giá qua

hai lần dịch thử nghiệm tại hai thời điểm khác nhau như đã phân tích trong luận án, cho
thấy sự khác nhau của hai ngôn ngữ lập thành hệ thống cũng cho ra các loại lỗi hệ thống.
6. Vai trò của các lỗi ngẫu nhiên cũng như lỗi hệ thống là cung cấp kiến thức cho người
lập trình hệ thống và người dùng chương trình dịch tự động về những điểm còn hạn chế
của chương trình dịch nhằm đưa ra giải pháp cụ thể và khả thi để cải tiến.
7. Quan điểm phân loại lỗi trong luận án đã khai thác khá đầy đủ năng lực dịch tự động
của chương trình dịch qua thử nghiệm liên tục trong hai năm, so sánh đối chiếu sản phẩm
dịch - ngữ liệu thực tế trong những thời điểm khác nhau, cho thấy cách hiểu về lỗi đã cung
cấp đường dẫn vào một mô hình khai thác lỗi lý tưởng để có thể hướng về lộ trình khắc
phục nó sao cho ngôn ngữ phải thể hiện được tư duy của người bản ngữ từ ngôn ngữ nguồn
sang ngôn ngữ đích.
8. Luận án cũng tìm hiểu về mối quan hệ giữa ngôn ngữ dịch tự động và ngôn ngữ dịch
thủ công với phương pháp tiếp cận khai thác phần mềm BLAST, hỗ trợ cho người nghiên
cứu có cơ sở khoa học và hợp lý để phân tích.
Những đóng góp và những hạn chế chính của luận án
* Đóng góp
1. Luận án đặt ra vấn đề đối chiếu lỗi một cách có hệ thống trên một phạm vi rộng gồm
nhiều văn bản hợp đồng kinh tế với số lượng 3.387 cặp câu song ngữ Anh Việt trong
chương trình dịch tự động. Đây là điểm mới của luận chưa được thực hiện ở Việt Nam.
2. Luận án đã lập được tiêu chí từ phần mềm BLAST để giải quyết những khó khăn tồn
đọng từ nhiều năm khi dịch tự động mắc phải. BLAST nhận diện những lỗi khi chuyển từ
ngôn ngữ nguồn sang ngôn ngữ đích dễ dàng và tương đối chính xác. Sau đó, để hỗ trợ cho
BLAST, nhóm xử lý tiếng Việt đã cho ra đời BLAST-VCL, tiêu chí của phần mềm này tập
trung giải quyết các lỗi trật tự từ thuộc lỗi ngữ pháp.

19


3. Luận án nêu bật những loại lỗi phổ biến có thể chấp nhận được và những lỗi không
thể chấp nhận được trong chương trình dịch tự động.

4. Luận án xác định những khó khăn mà chương trình dịch tự động gặp phải trong quá
trình chuyển dịch văn bản Anh-Việt theo từng cặp câu và đồng thời cũng cung cấp một số
cứ liệu đáng tin cậy cho việc huấn luyện chương trình dịch tự động ở những nghiên cứu kế
tiếp trong tương lai để cải tiến việc dịch tự động.
5. Luận án cũng góp phần khẳng định xu thế nghiên cứu cải tiến dịch tự động để phục
vụ ngày càng tốt hơn cho người dùng, với các văn bản dịch nhanh, chi phí thấp và văn bản
đáp ứng được nhu cầu lợi ích của người dùng trong giai đoạn hội nhập quốc tế hiện nay.
* Hạn chế
Luận án còn bỏ ngỏ một số vấn đề và cần được quan tâm nghiên cứu sâu hơn trong
tương lai:
1. Luận án chưa tìm hiểu sâu và đề xuất các giải pháp khắc phục lỗi. Số lần thử nghiệm
chưa nhiều nên luận án chưa thể xác định được những thay đổi có thể xảy ra ở lỗi hệ thống
và lỗi ngẫu nhiên trong những lần dịch kế tiếp.
2. Luận án chưa đi sâu vào ngôn ngữ học cũng như tin học ngõ hầu đạt được kết quả
khả quan hơn và có thể hỗ trợ cho chương trình dịch tự động đạt được hiệu quả hơn.
3. Luận án vẫn chưa tiếp cận được các loại văn bản khác, mà chỉ nghiên cứu hạn hẹp
trong phạm vi.
Tóm lại, luận án chỉ thực hiện được các văn bản thuộc hợp đồng kinh tế, chưa mở rộng
ở các loại hình khác. Ngoài ra, luận án cũng chỉ nghiên cứu dịch tự động một chiều từ Anh
sang Việt. Do đó, phần dịch tự động theo chiều ngược lại Việt – Anh, tác giả rất mong
muốn sẽ tiếp tục thực hiện trong tương lai gần đây.

20


DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC
CÓ LIÊN QUAN ĐẾN LUẬN ÁN CỦA TÁC GIẢ
*TIẾNG VIỆT
1) Trần Lê Tâm Linh (2013a), Khảo sát các nét nghĩa của trợ động từ “shall” Tạp
chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng nam bộ, trang 44-50.

2) Trần Lê Tâm Linh (2013b), Khảo sát thuật ngữ tiếng Anh- tiếng Việt trong ngữ
liệu hợp đồng kinh tế, Tạp chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng
nam bộ, trang 45-49.
3) Trần Vũ Hoàng Ưng, Nguyễn Thị Phương Như, Trần Lê Tâm Linh (2013), Cải
tiến dịch tự động thống kê Anh-Việt bằng phương pháp xóa "từ nhiễu", Hội thảo
quốc gia lần thứ XVI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền
thông, trang 34-39.
4) Nguyễn Thị Phương Như, Trần Vũ Hoàng Ưng, Nguyễn Thị Thanh Thảo, Trần Lê
Tâm Linh (2014), Cải Tiến Chất Lượng Dịch tự động Thống Kê Việt – Anh Bằng
Mô Hình Phát Sinh Từ Chức Năng, Hội thảo quốc gia lần thứ XVII: Một số vấn đề
chọn lọc của Công nghệ thông tin và truyền thông-Đắk Lắk, 30-31/10/2014, trang
24-30.
5) Huỳnh Quang Đức, Trần Lê Tâm Linh (2015), “Gán nhãn ngữ nghĩa trong song
ngữ Anh Việt”, Hội thảo Quốc gia 2015 về Điện tử, Truyền thông và Công nghệ
Thông tin (The 2015 National Conference on Electronics, Communications, and
Information Technology - ECIT 2015) - thành phố Hồ Chí Minh, 10-11/12/2015,
trang 71-76.
*TIẾNG ANH
6) Tran Le Tam Linh (2013), Survey of Common Errors of English to Vietnamese
Google Translate in Business Contract, Open Journal of Modern Linguistics, USA,
Vol.3, No.2, 101-107.
7) Phuoc Tran, Dien Dinh, Linh Tran (2013), Resolving Named Entity Unknown
Word in Chinese-Vietnamese Machine Translation, The fifth international
conference on knowledge and systems engineering- KSE 2013, trang 273-284.
8) Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh (2013), A survey of named entity
recognition in English-French-Vietnamse trilingual corpus, Hội thảo quốc gia lần
thứ XVI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, trang 611.
9) Nguyễn Thị Châu Anh, Trần Lê Tâm Linh, Quách Trọng Liêm, Huỳnh Thái Lộc,
Nguyễn Thị Hồng Yến (2013), A case study of translating interrogative sentences
into English & Chinese from Google Translation Machine: Some suggestions for

learners of the two languages as a foreign, 2013 International Conference on
Innovation in English Teaching and Research, trang 25.

21


10) Nguyễn Thị Thanh Thảo, Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh, Trần
Vũ Hoàng Ưng, Nguyễn Thị Phương Như (2014), An Empirical Named Entity
Tagging For Vietnamese By Using English – Vietnamese Bilingual (Thực
nghiệm gán nhãn thực thể có tên cho tiếng Việt dựa vào song ngữ Anh-Việt), Hội
thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ thông tin và
truyền thông-Đắk Lắk, 30-31/10/2014, trang 7-12.
11) Huynh Quang Duc, Tran Le Tam Linh (2015), Semantic role labelling in
bilingual English-Vietnamese corpus, International Journal of Mathematics and
Computational Science, Vol.1, No.5, 2015, 260-267.

22


×