Tải bản đầy đủ (.pdf) (67 trang)

Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (806.69 KB, 67 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG







Ngô Hữu Huy







NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC
PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT








LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH














Thái Nguyên - 2012
1Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG






Ngô Hữu Huy






NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC
PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT


Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01






LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH




NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Nguyễn Ái Việt





Thái Nguyên - 2012

2Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là kết quả của sự tìm hiểu, nghiên cứu các tài liệu
một cách nghiêm túc dười sự hường dẫn của TS Nguyễn Ái Việt.

Nội dung của luận văn được phát triển từ ý tưởng, sự sáng tạo của bản thân
và kết quả hoàn toàn trung thực.
Học viên


Ngô Hữu Huy




3Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii

MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH SÁCH CÁC HÌNH v
M Ở ĐẦU vi
CHƯƠNG 1. TỔNG QUAN VỀ DỊCH MÁY 1
1.1. Định nghĩa dịch máy 1
1.2. Vai trò của dịch máy 2
1.3. Lịch sử của dịch máy 3
1.3.1. Giai đoạn 1930 - 1940 3
1.3.2. Giai đoạn 1940 - 1970 4
1.3.3. Giai đoạn 1970 – 1990 5
1.3.4. Giai đoạn 1990 - hiện nay 6
1.4. Phân loại dịch máy 7
1.5. Phạm vi của luận văn 8
1.6. Kết chương 8
CHƯƠNG 2. CÁC PHƯƠNG PHÁP DỊCH MÁY 9

2.1. Các chiến lược dịch cơ bản 9
2.1.1. Dịch trực tiếp (Direct MT) 9
2.1.2. Dịch chuyển đổi cú pháp (Syntactic-transfer MT) 10
2.1.3. Dịch qua ngôn ngữ trung gian (Interlingual MT) 11
2.1.4. Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa 13
2.2. Các cách tiếp cận của dịch máy hiện nay 14
2.2.1. Dịch máy dựa trên luật (RBMT: Rule-Based MT) 14
4Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii

2.2.2. Dịch máy dựa trên thống kê (SMT: Statistics-Based MT) 18
2.2.3. Dịch máy dựa trên cơ sở tri thức (KBMT: Knowlegde-Based MT) 20
2.2.4. Dịch máy dựa trên ví dụ (EBMT: Example-Based MT) 21
2.2.5. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based MT) 21
2.2.6. Các cách tiếp cận lai (hybrid MTs) 22
2.3. Nhận xét các chiến lược và các cách tiếp cận 23
2.3.1. Nhận xét về các chiến lược 23
2.3.2. Nhận xét về các cách tiếp cận 25
2.4. Kết chương 26
CHƯƠNG 3. CÁC ĐẶC TRƯNG CỦA DỊCH TRUNG (HÁN) – VIỆT 27
3.1. Ngữ nghĩa đất nước học trong hai ngôn ngữ Hán-Việt 27
3.1.1. Văn hóa dân tộc và nội hàm ngữ nghĩa đất nước học 27
3.1.2. Thông tin ngữ nghĩa đất nước học trong từ vựng 28
3.2. Đặc điểm tương đồng và khác biệt của ngôn ngữ Trung (Hán)-Việt 31
3.2.1. Đặc điểm tương đồng và khác biệt về mặt ngữ âm 31
3.2.2. Đặc điểm tương đồng và khác biệt về mặt văn tự 36
3.2.3. Đặc điểm tương đồng và khác biệt về mặt từ vựng 36
3.2.4. Đặc điểm tương đồng và khác biệt về mặt ngữ pháp 37
3.2.5. Đặc điểm tương đồng và khác biệt về mặt tu từ 38
3.3. Nguyên nhân sự tương đồng và khác biệt ngữ nghĩa đất nước học giữa hai

ngôn ngữ Hán và Việt 38
3.3.1. Phong tục tập quán dân tộc 39
3.3.2. Bối cảnh văn hoá lịch sử 40
3.3.3. Tín ngưỡng tôn giáo 41
3.3.4. Hoàn cảnh địa lý 42
5Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv

3.4. Kết chương 43
CHƯƠNG 4. XÂY DỰNG KHỐI LIỆU VÀ ĐÁNH GIÁ 45
MỘT SỐ CÔNG CỤ XỬ LÝ TIẾNG TRUNG 45
4.1. Xây dựng kho ngữ liệu Trung-Việt (Corpus Trung-Việt) 45
4.1.1. Khái niệm về Corpus 45
4.1.2. Quy trình xây dựng Corpus 46
4.1.3. Xây dựng Corpus Trung Việt 48
4.2. Đánh giá một số công cụ xử lý tiếng Trung 50
4.2.1. Công cụ phân tích cú pháp (Parser) 50
4.2.2. POS Tagger (Part-Of-Speech Tagger) 53
4.3. Kết chương 54
KẾT LUẬN 55
TÀI LIỆU THAM KHẢO 56
6Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
v

DANH SÁCH CÁC HÌNH
Hình 1.1. Quá trình xử lý tài liệu dịch máy 1
Hình 2.1. Mô hình dịch trực tiếp 10
Hình 2.2. Mô hình dịch kiểu chuyển đổi cú pháp 10
Hình 2.3. Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích 11
Hình 2.4. Mô hình dịch liên ngôn ngữ 12

Hình 2.5. Các chiến lược dịch trong máy dịch 13
Hình 2.6. Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch 14
Hình 2.7. Kết quả phân tích cú pháp câu “I see the man in the car” 17
Hình 2.8. Kết quả phân tích cú pháp câu “I saw the man in a day” 17
Hình 4.1. Bộ gõ tiếng Trung Sougou pinyin 48
Hình 4.2. Giao diện phần mềm Text & Word joiner 49
Hình 4.3. Giao diện phần mềm Stanford-parser 50
Hình 4.4. Chọn file đầu vào 51
Hình 4.5. Chọn parser 51
Hình 4.6. Kết quả phân tích cú pháp 52
Hình 4.7. Giao diện phần mềm Stanford postagger 53
Hình 4.8. Nhập dữ liệu đầu vào 54
Hình 4.9. Kết quả thu được khi gán thẻ 54
7Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vi

MỞ ĐẦU
Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người
vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất
lâu trước khi máy tính điện tử ra đời. Khi khoa học công nghệ phát triển mạnh, yêu
cầu nắm bắt thông tin về kỹ thuật nhanh và chính xác trở nên cần thiết.
Chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng
dụng tính toán trong lĩnh vực toán học và vật lý, con người nghĩ ngay đến việc sử
dụng “não bộ của máy tính” cho những ứng dụng thực tiễn, trong đó có vấn đề dịch
máy. Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này
sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D.
Booth và Warren Weaver vào năm 1946. Vượt qua nhiều trở ngại về lý thuyết và
công nghệ, Booth đã cho ra mắt “hệ dịch dựa trên từ điển” đầu tiên tại hội nghị của
MIT vào năm 1952 [4] [15] [16].
Trong sự phát triển nhanh chóng của mạng máy tính và công nghệ truyền

thông, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức rất phong phú ở
nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, .v.v.), được thể hiện ở nhiều
ngôn ngữ khác nhau. Nhu cầu đọc hiểu và trao đổi thông tin trở nên cần thiết hơn
bao giờ, thế nhưng, nhu cầu này đã gặp phải một rào cản - sự khác biệt về mặt ngôn
ngữ. Và, ngôn ngữ, tự hân nó đã vốn rất phức tạp.
Con người đã tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác
nhau, từ việc xây dựng các bộ từ điển song ngữ, các nghiên cứu về dịch thuật liên
ngữ, phương pháp học ngoại ngữ nhanh chóng, cho đến cảviệc tạo ra một ngôn ngữ
chung cho loài người - quốc tế ngữ Esperanto. Vào thời điểm sức mạnh của máy
tính đã được khẳng định, bài toán sử dụng máy tính để chuyển đổi tri thức được viết
bằng ngôn ngữ này sang một ngôn ngữ khác được đặt ra. Trong khoảng 50 năm, có
rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai. Hiện nay, đã có
nhiều hệ dịch tự động được thương mại hóa ở dạng các chương trình máy tính hoặc
các dịch vụ web.
8Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vii

Sự nhìn nhận về vấn đề dịch máy (Machine Translation) đã nhiều lần thay
đổi trong hơn năm mươi năm qua, từ chỗ hình dung rằng dịch thuật là công việc
đơn giản, máy sẽ dịch mọi loại văn bản không kém gì con người, như một bộ máy
vạn năng, cho đến chỗ khẳng định rằng dịch máy tự động, chất lượng cao là hoàn
toàn không khả thi. Ngày hôm nay, hầu hết các chuyên gia về dịch máy đều có
chung quan điểm rằng máy tính chỉ có thể biên dịch văn bản chất lượng chấp nhận
được trong một lĩnh vực chuyên môn hẹp, hoặc chỉ có thể hỗ trợ dịch thô để đọc
hiểu. Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu như Dịch máy dựa
trên Thống kê (Statistical Machine Translation) hay Dịch máy dựa trên mẫu ví dụ
(Example-based Machine Translation) được xem là chỉ có ích để dịch với chất
lượng tương đối thấp cho mọi loại văn bản [4] [15] [16].
Hiện nay số người nói tiếng Trung trên thế giới là nhiều nhất. Tiếng Trung
Quốc chiếm một vị trí quan trọng trên trường quốc tế, đồng thời nó có ảnh hưởng

rất lớn đến sự phát triển của nền văn hóa và kinh tế trên toàn thế giới.
Với mong muốn học hỏi, tôi mạnh dạn chọn đề tài “Nghiên cứu một số công
cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt” cho luận văn của
mình. Luận văn được trình bày trong 4 chương, khái quát như sau:
Chương 1: Tổng quan
Chương 2: Các phương pháp dịch máy
Chương 3: Các đặc trưng của dịch Trung (Hán)-Việt
Chương 4: Xây dựng khối liệu và đánh giá một số công cụ xử lý tiếng Trung


9Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1

CHƯƠNG 1. TỔNG QUAN VỀ DỊCH MÁY
1.1. Định nghĩa dịch máy
Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự
nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương
với định nghĩa sau:
Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng
máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản
dịch tương đương trong ngôn ngữ khác [15] [16].
Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của
bản dịch được gọi là ngôn ngữ đích. Sơ đồ sau thể hiện vị trí của hệ dịch máy trong
tiến trình dịch tài liệu.











Hình 1.1. Quá trình xử lý tài liệu dịch máy
Đầu vào của một hệ dịch máy thường là một văn bản viết trong ngôn ngữ
nguồn. Quá trinh dịch có thể chia thành hai giai đoạn: Đầu tiên, văn bản được phân
10Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2

tích thành các thành phần; Sau đó được dịch thành văn bản ở dạng ngôn ngữ đích.
Kết quả dịch có thể được con người hiệu đính để trở thành bản dịch tốt. Như vậy
trong một quá trình dịch, con người có thể tác động vào các bước xử lý với mục
đích làm cho kết quả dịch tốt hơn.
1.2. Vai trò của dịch máy
Xa xưa, con người đã có mơ ước về một “thực thể” giúp con người có thể
hiểu mọi thứ tiếng khác. Ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, các
nền văn hóa, giữa mỗi con người, .v.v. càng làm cho việc dịch trở nên quan trọng.
Để giải quyết vấn đề dịch thuật, một đội ngũ những người phiên dịch, dịch giả được
hình thành và duy trì - để chuyển các lời nói, văn bản từ ngôn ngữ này sang ngôn
ngữ khác. Công việc dịch sử dụng con người là công việc có tính thủ công, chất
lượng cao nhưng năng suất thấp và giá thành cao.
Mỗi cách dịch – cách dịch dùng người dịch và dịch bằng máy – đều có vai
trò riêng của nó. Dịch máy đã chứng tỏ nó có hiệu quả so với chi phí bỏ ra (rẻ hơn
đáng kể) khi cần dịch khối lượng lớn hoặc dịch nhanh những tài liệu chuyên môn
(kỹ thuật), cũng như trong nhiều tình huống khác (có nhiều từ lặp đi lặp lại).
Trái lại, khi cần dịch những văn bản không có nhiều từ lặp lại và sử dụng
ngôn ngữ tinh vi và rất phức tạp (ví dụ như văn học và luật), và thậm chí cả khi cần
dịch những văn bản với những chủ đề đặc biệt, thì vẫn không có gì có thể thay thế
được người dịch [7].

Dịch máy cũng có thể phục vụ việc tìm kiếm và dịch những từ chính hoặc
cung cấp một bản dịch thô của các bản tóm tắt bản gốc (đôi khi có thể gọi là “những
ý chính”). Nói chung, chỗ đứng của dịch máy là ở bước khởi đầu của quá trình dịch,
là một phương tiện để tiến tới mục đích chứ bản thân nó khó có thể là sản phẩm
cuối cùng. Dịch với sự trợ giúp của máy tính là một tiến bộ lớn trong thời gian gần
đây trong qua trình phối hợp giữa máy dịch và người dịch. Phần lớn những người
dịch sử dụng các công cụ tham chiếu như từ điển và từ điển đồng nghĩa trên mạng.
11Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3

Dịch với sự trợ giúp của máy tính còn tiến xa hơn, bằng cách kết hợp dùng phần
mềm có những khả năng ví dụ như tự động ghi và lưu lại một số cấu trúc ngữ pháp
hoặc cách sắp xếp từ nhất định (công cụ này đặc biệt hữu dụng để đảm bảo sự nhất
quán khi dịch các thuật ngữ chuyên môn) trong cả ngôn ngữ gốc và ngôn ngữ dịch,
và gợi ý cho người dịch khi họ gặp lại những từ hay cấu trúc ngữ pháp này trong
văn bản [7].
Tóm lại, với sự phát triển mạnh mẽ của khoa học công nghệ, khối lượng
thông tin trao đổi của con người ngày càng nhiều. Trong nhiều trường hợp có thể
có, con người không cần đến chất lượng dịch cao như sử dụng người phiên dịch mà
chỉ cần có một bản dịch nháp có chất lượng không quá thấp nhưng không phải chờ
đợi lâu. Với trường hợp cụ thể này, một hệ dịch máy chất lượng bình thường đáp
ứng tốt hơn một người phiên dịch giỏi. Do vậy, nhu cầu cần có các hệ dịch máy là
tất yếu. Nếu xây dựng hệ dịch máy thành công, đây sẽ là công cụ giúp con người
tiếp cận với kho tri thức viết bằng các ngôn ngữ khác.
1.3. Lịch sử của dịch máy
Ngành dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai
đoạn hầu như không phát triển nhưng dịch máy vẫn là một trong những chuyên
ngành phát triển của khoa học máy tính với nhiều kết quả về lý thuyết và ứng dụng
thực tế. Có thể chia sự phát triển của ngành dịch máy thành ba thời kỳ, kể từ năm
1949 với những ý tưởng sơ khai về một hệ dịch máy cho đến hiện nay (2006) với sự

ra đời của nhiều trình dịch máy tương đối hoàn thiện, đã có ứng dụng vào cuộc
sống.
1.3.1. Giai đoạn 1930 - 1940
Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có
từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong việc
xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ. Năm 1933, đã có hai
phát minh được cấp bằng sáng chế liên quan đến việc xây dựng các thiết bị dịch
12Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4

ngôn ngữ. George Artsrouni một người Pháp gốc Armenia đã thiết kế một thiết bị
lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ
bất kỳ. Cũng trong năm đó, một người Nga tên là Petr Smirnov-Troyanskii đã thiết
kế một thiết bị dịch máy gồm 3 công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ
và sinh câu đích. Thiết kế của Troyanskii tuy chưa bao giờ trở thành hiện thực
nhưng nó là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau này.
1.3.2. Giai đoạn 1940 - 1970
Vào cuối những năm 1940, khi máy tính đã được phát minh và ứng dụng
thành công vào việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy
tính vào việc phiên dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang
tiếng Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại
mật mã nào đó. Khái niệm dịch máy (machine translation) được Warren Weaver đề
ra vào năm 1949. Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng
phương pháp dịch từ sang từ (word-for-word translation) đã cho những kết quả rất
giới hạn vì từ ngữ có nghĩa khác nhau trong những ngữ cảnh khác nhau. Năm 1954,
công ty IBM và trường đại học tổng hợp Georgetown hợp tác xây dựng một chương
trình dịch tự động Nga-Anh nhưng kết quả rất hạn chế. Với khả năng giới hạn của
máy tính trong những năm 1950-1960 và việc nghiên cứu lý thuyết xử lý ngôn ngữ
tự nhiên còn chập chững, các kết quả thu được trong lĩnh vực dịch tự động thời kỳ
này không đạt được kết quả khả quan.

Trong báo cáo của mình viết năm 1960, Bar-Hillel cho rằng không có hệ
thống dịch tự động nào có thể dịch một cách trọn vẹn nếu nó không biết được kiến
thức về thế giới xung quanh và thông tin về ngữ cảnh hiện tại. Ví dụ mà Bar-Hillel
đưa ra là câu tiếng Anh “The pen is in the box and the box is in the pen” và khẳng
định không có hệ dịch nào có thể chỉ dựa vào từ điển mà phân biệt được nghĩa của
từ “pen” thứ nhất (có nghĩa là “cái bút”) và từ “pen” thứ hai (có nghĩa là “cái cũi”).
Năm 1966, tại Mỹ, Hội đồng Cố vấn Xử lý Ngôn ngữ Tự động (Automatic
Language Processing Advisory Committee – ALPAC) đã soạn một báo cáo nhận
13Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5

định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả. Lập luận
rằng: " việc dịch ngôn ngữ không những chỉ cần những kiến thức về ngôn ngữ mà
còn phải những kiến thức ngoài ngôn ngữ (extra-linguistic)…". Sau báo cáo này,
các chính phủ đã không còn trợ cấp cho các chương trình nghiên cứu về Dịch Máy
nữa và các chương trình này cũng chấm dứt.
Nên giai đoạn này còn được biết với tên giai đoạn trước ALPAC
(Automatic Language Processing Advisory Committee)
Việc nghiên cứu và phát triển dịch máy bước vào một thời kỳ yên ắng chỉ
với một vài hoạt động của các cá nhân và tổ chức nhỏ bên ngoài nước Mỹ. Tuy
nhiên các đầu tư cho dịch máy trong lĩnh vực quân sự vẫn được tiếp tục như hệ
thống dịch Nga-Anh của không lực Mỹ (hệ Mark II, phát triển từ năm 1964).
1.3.3. Giai đoạn 1970 – 1990
Giai đoạn phục hồi của dịch máy. Vào đầu những năm 1970, sau một số
thành công trong nghiên cứu về lý thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của
máy tính cũng tăng lên đáng kể (với sự ra đời của mạch tích hợp), nhiều trung tâm
nghiên cứu bắt đầu quay lại đầu tư vào dịch máy. Năm 1973, Yorick Wilks giới
thiệu một hệ thống dịch tự động Anh-Pháp cho kết quả khá tốt (một người chỉ biết
tiếng Pháp có thể đọc và hiểu được kết quả dịch không cần tham khảo bản gốc tiếng
Anh). Để đạt được thành quả này, hệ thống của Wilks đã sử dụng các tri thức có

tính “khái niệm” (concepts) trong việc dịch thuật. Ví dụ: Từ “drink” không đơn
thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những khái
niệm như “động từ có tính hoạt động” (activity verb), “có liên hệ đến những chất
lỏng”, Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ
giữa các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ
cảnh hơn.
Thành công của Wilks là chất xúc tác cho việc phục hồi lại những nghiên
cứu về dịch máy, một loại các đề án dịch tự động của rất nhiều tổ chức và quốc gia
được triển khai, ví dụ như:
14Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6

- Hai hệ thống của Liên Xô cũ, đều được bắt đầu năm 1976, đó là hệ thống
AMPAR dịch từ tiếng Anh sang tiếng Nga và hệ thống NERPA dịch từ tiếng Đức
sang tiếng Nga.
- Hệ thống TAUM-METEO (1977) của đại học Montréal – Canada chuyên
dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp.
- Dự án EUROTRA (1982) của Cộng Đồng Châu Âu với mục đích dịch từ
một ngôn ngữ này sang ngôn ngữ khác trong khối, chương trình hỗ trợ các thứ
tiếng: Anh, Pháp, Đức, Ý, Hà Lan, Đan Mạch và Hy Lạp.
- Hệ thống METAL (1985) của Linguistic Research Center, đại học Texas,
dịch từ tiếng Đức sang tiếng Anh.
- Chương trình máy tính thế hệ 5 (The Fifth Generation) của chính phủ Nhật
Bản, một trong các mục tiêu của chương trình này là một hệ thống dịch tự động
xuôi ngược Anh-Nhật, Nhật-Anh.
1.3.4. Giai đoạn 1990 - hiện nay
Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao
đổi thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh
của máy tính tăng lên hàng ngày và nhiều thành tựu mới về mặt lý thuyết, việc phát
triển các hệ thống dịch tự động trở nên rất cần thiết. Dịch máy đã bước sang một

giai đoạn phát triển mới, đạt được nhiều thành tựu đáng khích lệ. Các phương
pháp dịch tiên tiến áp dụng các kỹ thuật khai phá tri thức từ kho dữ liệu, điều mà
trước kia chưa thể thực hiện được do khả năng hạn chế của máy tính, đã thay đổi
hoàn toàn các phương pháp dịch truyền thống và đem lại một chất lượng mới cho
các hệ thống dịch. Ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp
nhận được và một số các ứng dụng dịch tự động đã đi vào cuộc sống trong một số
lĩnh vực hẹp. Theo ước tính của John Hutchins, vào năm 2001, có khoảng 1000
phần mềm dịch tự động các ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong
thời điểm hiện nay là các server dịch tự động trên Internet; chẳng hạn dịch vụ
Babel Fish: Dịch từ 9 ngôn ngữ thông dụng sang tiếng Anh (gồm tiếng Trung, tiếng
15Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7

Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào
Nha và tiếng Nga) hoặc dịch vụ WorldLingo: Dịch tự động giữa 11 ngôn ngữ khác
nhau (gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng
Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga và tiếng Hy Lạp), các
server này cung cấp dịch vụ dịch từng câu hoặc cả một trang web mà người dùng
yêu cầu từ ngôn ngữ này sang ngôn ngữ khác, để làm được điều này tất nhiên tốc độ
của các hệ thống dịch phải rất cao và chất lượng dịch cũng phải ở mức tương đối
tốt.
Nhắm tới thị trường về công nghệ tri thức, nhiều tập đoàn ở Mỹ và Châu
Âu đã đầu tư rất lớn vào các dự án về xử lý ngôn ngữ tự nhiên, nhận dạng và mô
phỏng. Tiêu biểu có dự án của công ty Microsoft cộng tác với trường đại học tổng
hợp Stanford cho việc nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tóm
tắt nội dung, mới có một vài ứng dụng trên máy cầm tay PocketPC hoặc tích hợp
vào bộ Office. Được ứng dụng phổ biến hơn có các kết quả của các phòng thí
nghiệm của công ty IBM đã được ứng dụng vào các hệ thống lái xe thông minh, hệ
thống đặt vé máy bay nội địa tự động, Về phía Châu Âu, có các sản phẩm của
công ty Lernout & Hauspie (sau này là Mendez) với các hệ nhận dạng tiếng nói, mô

phỏng tiếng nói, dịch máy, … [4], [15], [16].
Tại Việt Nam, ngoài chương trình dịch tự động Anh-Việt EVTran 3.0 của tác
giả Lê Khánh Hùng, còn có một số các chương trình khác nhưng mới chỉ đang
được thử nghiệm trong phạm vi hẹp chứ chưa được đưa ra thị trường. Các chương
trình dịch tự động được nghiên cứu tại Việt Nam chủ yếu hướng vào việc dịch tự
động Anh-Việt do có sẵn khá nhiều kết quả nghiên cứu về tiếng Anh, dịch từ tiếng
Anh sang ngôn ngữ khác để có thể áp dụng vào chương trình [8].
1.4. Phân loại dịch máy
Có nhiều quan điểm phân loại dịch máy khác nhau, chẳng hạn: Phân loại
theo mục đích hệ dịch, phân loại theo kỹ thuật dịch, … Với tiêu chí phân loại dịch
máy theo mục đích hệ dịch, Hutchins và Somers chia các hệ dịch máy thành ba loại:
16Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8

- Máy trợ dịch (Machine-Aided Human Translation): Là các hệ thống giúp
con người dịch, người dịch là chính. Ví dụ: Bộ kiểm tra chính tả, kiểm tra ngữ pháp,
từ điển, …
- Máy dịch có trợ giúp của người (Human-Aided Machine Translation): Là
các hệ thống dịch với sự trợ giúp của con người, máy dịch là chính, nhiệm vụ của
con người là trợ giúp máy để nâng cao chất lượng dịch (chẳng hạn chọn cho máy
chuyên ngành thích hợp với tài liệu cần dịch để máy có thể có những lựa chọn nghĩa
chính xác hơn), sau đó con người sẽ hiệu đính để tạo được bản dịch cuối cùng có
chất lượng cao.
- Máy dịch hoàn toàn tự động (Fully-automated Machine Translation): Là
các hệ thống dịch hoàn toàn tự động, không hề có bàn tay con người từ khi bắt đầu
xử lý cho đến khi ra bản dịch. Hệ thống này cũng là mơ ước và là mục đích sau
cùng của những người xây dựng hệ thống dịch. Hiện nay, các hệ thống dịch hoàn
toàn tự động đã có mặt trong một số lĩnh vực hẹp, khi mà chất lượng của bản dịch
không phải là yêu cầu quan trọng nhất [15], [16].
1.5. Phạm vi của luận văn

Luân văn là “Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ
thống hỗ trợ dịch Trung-Việt”. Đây là một chủ đề rộng, vì vậy luận văn tập trung
vào một số công cụ quan trọng, cụ thể như:
- Xây dựng corpus Trung-Việt.
- Tìm hiểu công cụ phân tích cú pháp (Parser).
- Tìm hiểu POS Tagger (Part-Of-Speech Tagger).
1.6. Kết chương
Ứng dụng thử nghiệm nào – cũng cần dựa trên một nền tảng lý thuyết khoa
học và chắc chắn, trong chương 2, luận văn sẽ khảo cứu căn bản lý thuyết về dịch
máy, trong đó đặt trọng tâm vào các phương pháp dịch máy.
17Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9

CHƯƠNG 2. CÁC PHƯƠNG PHÁP DỊCH MÁY
2.1. Các chiến lược dịch cơ bản
Nếu xét theo cách thức chuyển ngữ khi dịch một ngôn ngữ nguồn sang một
ngôn ngữ đích, người ta thường chia thành 2 dạng chính sau: dạng chuyển ngữ trực
tiếp (direct) và dạng chuyển ngữ gián tiếp (indirect). Trong dạng gián tiếp, thì tùy
theo mức độ và môi trường trung gian, người ta chia thành 2 dạng nhỏ sau: gián tiếp
qua cấu trúc cú pháp câu (syntax-based) hay gián tiếp qua ngôn ngữ trung gian
(interlingua-based). Giữa 2 dạng nhỏ nói trên, cũng còn tồn tại một dạng nhỏ thứ 3
với mức độ gián tiếp ở giữa 2 mức độ trên, đó là: gián tiếp qua cấu trúc cú pháp câu
và phân giải ngữ nghĩa nông (shallow-semantic analysis). Tóm lại, ta có thể phân
các chiến lược dịch trong dịch máy thành 4 dạng như sau [14]:
2.1.1. Dịch trực tiếp (Direct MT)
Theo chiến lược này, hệ sẽ dịch bằng cách thay thế một cách đơn giản và
máy móc những từ/ngữ trong ngôn ngữ nguồn (Source Language) bằng những
từ/ngữ trong ngôn ngữ đích (Target Language). Đặc điểm của chiến lược dịch này
là đơn giản, nhanh (thời gian tỉ lệ với độ dài của câu: O(n)), không cần phân tích cú
pháp sâu, thích hợp cho những văn bản có khối lượng từ vựng nhỏ và số dạng câu

giới hạn. Hoạt động tương đối tốt khi dịch giữa các ngôn ngữ cùng loại hình, có sự
tương ứng 1-1 về từ vựng, ngữ pháp, … nhưng chúng gặp phải khó khăn khi dịch
cặp ngôn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách) và tiếng
Việt (loại hình đơn lập) chẳng hạn. Mô hình dịch của chiến lược này như hình 2.1
dưới:




18Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10









Hình 2.1. Mô hình dịch trực tiếp
2.1.2. Dịch chuyển đổi cú pháp (Syntactic-transfer MT)
Theo chiến lược này, hệ thống sẽ dịch bằng cách phân tích (hình thái và cú
pháp) câu của ngôn ngữ nguồn và sau đó áp dụng những luật ngôn ngữ và từ vựng
(gọi là những qui luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ nguồn
sang ngôn ngữ đích.










Hình 2.2. Mô hình dịch kiểu chuyển đổi cú pháp
19Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11

Đê nhận biết cấu trúc của câu nhập vào, những hệ thống chuyển đổi dùng
những phần mềm gọi là những bộ phân tích cú pháp (parser). Bộ phân tích cú pháp
sẽ sử dụng giải thuật để phân tích dựa trên một bộ văn phạm ngôn ngữ nào đó hoặc
thống kê từ ngữ liệu (đã gán nhãn ngữ pháp). Có rất nhiều giải thuật phân tích và
trong đó giải thuật Earley [19] và giải thuật Tomita [22] là hiệu quả và phổ biến hơn
cả. Tương tự, cũng có rất nhiều văn phạm để phân tích, như: TG [19], LG [132],
TAG [92], … nhưng hầu hết đưa đến kết quả cây phân tích cú pháp giống như nhau.
Sau khi tạo ra cây cú pháp, hệ thống dùng những qui luật chuyển đổi để
chuyển sang cây cú pháp của ngôn ngữ đích (xét đến sự thay đổi vị trí của từ trong
ngôn ngữ đích) và nó tạo ra kết xuất như trong Hình 2.3. Ví dụ: trong tiếng Việt thì
tính từ đứng sau danh từ mà nó bổ nghĩa, còn trong tiếng Anh thì ngược lại. Với
cách dịch này, chúng ta không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa
của những từ có cấu trúc nhưng khác nghĩa nhau. Ví dụ: ta không thể xác định được
nghĩa của từ “bank” trong câu “I enter the bank” là “ngân hàng” hay “bờ sông”,
“dãy”, …







Hình 2.3. Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích
2.1.3. Dịch qua ngôn ngữ trung gian (Interlingual MT)
Theo chiến lược này, hệ sẽ dịch qua ngôn ngữ trung gian gọi là liên ngôn
ngữ (interlingua) như Hình 2.4 dưới đây:

20Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12










Hình 2.4. Mô hình dịch liên ngôn ngữ
Một liên ngôn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn
ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất
của mọi ngôn ngữ có trong hệ dịch đó. Ví dụ: tiếng Việt thì phân biệt các từ: lúa,
thóc, gạo, cơm, … còn tiếng Anh, Pháp thì không. Tương tự, tiếng Anh thì phân
biệt các từ: remember, miss, … còn tiếng Việt thì chỉ dùng từ “nhớ”. Hay chỉ liên
quan đến việc hành động/trạng thái sử dụng trang phục, thì cũng đã có nhiều sự
khác biệt tinh tế, như: tiếng Việt phân biệt các từ: mang, mặc, đội, đeo, … tiếng
Anh chỉ phân biệt “put on” và “wear”. Chính vì vậy, việc xây dựng một hệ liên
ngôn ngữ đủ mạnh để biểu diễn tất cả các thông tin của mọi ngôn ngữ có thể có,
cùng với bộ phân giải và bộ tạo sinh thích hợp là một việc vô cùng phức tạp và đến
nay vẫn chưa hoàn thiện được.
Ngoài ra, hệ dịch liên ngôn ngữ còn bị phê phán là đòi hỏi sự phân giải chi

tiết nhiều hơn mức cần thiết cho bất kỳ cặp ngôn ngữ nào.
Một ưu điểm chính của hệ liên ngôn ngữ so với các hệ dịch chuyển đổi là số
lượng những bộ dịch được dùng bởi hệ dịch liên ngôn ngữ. Nếu ta gọi N là số lượng
21Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13

ngôn ngữ tham gia trong hệ dịch, thì với hệ dịch liên ngôn ngữ, ta chỉ cần 2*N bộ
dịch; ít hơn so với N*(N-1) bộ dịch của hẹ dịch chuyển đổi [13].
2.1.4. Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa
Đây là chiến lược mang tính dung hòa giữa mức độ phân tích cú pháp
(syntactic parser) và mức độ phân giải ngữ nghĩa (semantic analyzer). Vì nếu chỉ
dừng ở mức độ phân tích cú pháp, thì hệ sẽ không giải quyết được những trường
hợp nhập nhằng ngữ nghĩa mà có cùng cấu trúc cú pháp. Còn nếu câu nào hệ cũng
phân giải ngữ nghĩa chi tiết như trong cách tiếp cận liên ngôn ngữ thì rất khó thực
hiện và không phải lúc nào cũng cần thiết. Vì vậy, giải pháp dịch dung hòa và tối ưu
là hệ sẽ chủ yếu dựa vào việc phân tích cú pháp, và hệ chỉ phân giải ngữ nghĩa ở
mức cần thiết để cần khử nhập nhằng ngữ nghĩa khi cần mà thôi.








Hình 2.5. Các chiến lược dịch trong máy dịch
Trong Hình 2.5 có vẽ tam giác (hình tháp này do nhóm GETA đưa ra lần đầu
tiên vào năm 1968) cho ta thấy: cạnh lên bên trái để chỉ mức độ phân tích câu
nguồn, cạnh xuống bên phải cho thấy mức độ tổng hợp câu đích. Càng phân tích sâu
(càng khó) thì phần chuyển đổi (cạnh ngang) càng ngắn lại, nghĩa là công việc

chuyển đổi càng ít hơn, đồng thời công việc tổng hợp câu địch cũng nhiều hơn.

22Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14







Hình 2.6. Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch
Ngoài ra, theo Hình 2.6, nếu ta đi từ cạnh lên bên trái (ngôn ngữ nguồn) sang
cạnh xuống bên phải (ngôn ngữ đích) theo đường ngang (thể hiện việc công việc
chuyển đổi), thì mức độ phân tích ngôn ngữ nguồn cũng như mức độ tổng hợp ngôn
ngữ đích sẽ là như sau. Nhưng nếu ta chuyển đổi theo đường xiên về bên dưới, thì
tuy công việc chuyển đổi sẽ dài hơn, nhưng việc tổng hợp câu đích lại ngắn hơn.
Tương tự cho trường hợp ngược lại (nghiêng lên trên), thì công việc phân tích sẽ
ngắn hơn, nhưng việc chuyển đổi và tạo câu ngôn ngữ đích sẽ dài hơn.
Theo sự phân tích trong Hình 2.5, thì người ta đã đồng nhất liên ngôn ngữ
với ngữ nghĩa của câu, nhưng theo Kevin Knight [17] thì không nên đồng nhất như
vậy, vì liên ngôn ngữ thì phải độc lập với ngôn ngữ nguồn/đích, nhưng có những
câu mà ngữ nghĩa trong câu nguồn và ngữ nghĩa trong câu đích của nó tuy khác
nhau, nhưng lại có cùng một biểu diễn trong liên ngôn ngữ.
2.2. Các cách tiếp cận của dịch máy hiện nay
2.2.1. Dịch máy dựa trên luật (RBMT: Rule-Based MT)
Đây là cách tiếp cận truyền thống xuất phát từ cách làm của hệ luật dẫn trong
hệ chuyên gia trong linh vực trí tuệ nhân tạo (AI: Artificial Intelligence). Trong các
hệ vi xử lý ngôn ngữ tự nhiên thì các luật dẫn này thường được xậy dựng bằng tay
bởi các chuyển gia ngôn ngữ.

23Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15

Ví dụ: để phân tích cú pháp, người ta đã xây dựng các luật văn phạm như:
• S à NP VP
• NP à Noun/Det Noun/Det Adj Noun
• VP à Vi/Vt NP
• …
Đối với chuyển đổi cú pháp, người ta cũng dùng các luật chuyển đổi cố định,
chẳng hạn đối với dịch Anh à Việt: trong những luật đó là:
“Nếu câu nguồn được phân tích là NP à Det Adj Noun thì câu đích sẽ được
chuyển thành NP à Det Noun Adj”
Đối với khối xử lý ngữ nghĩa, người ta cũng dùng các luật tự nghĩ ra, như: “
nếu động từ = ăn à chử từ = động từ & đối từ = đồ ăn được”.
Tương tự cho tất cả các công việc khác của hệ dịch, đều dựa vào các luật do
chính con người nghĩ ra và đưa vào máy.
Việc xây dựng một hệ các luật như thế đòi hỏi công sức rất lớn và nhiều khi
lại không bao quát hết mọi trường hợp. Tuy nhiên, trong một miền giới hạn
(domain), thì phương pháp này tỏ ra hiệu quả và chúng ta hoàn toàn làm chủ được
kết quả dịch (nghĩa là tất cả những câu mà thỏa các luật đã được xây dựng thì sẽ
được phân tích và dịch tốt).
Để bao quát hết các hiện tượng ngôn ngữ, người ta nghĩ rằng cứ việc thêm
nhiều luật vào, nhưng [9] “…dù có thêm 1.000 hay cả 10.000 luật thì vẫn không bao
quát hết được…” mà trái lại càng khiến cho hệ sinh ra nhiều cây cú pháp ứng với
một câu nguồn nhập vào. Kết quả là hệ thống không biết chọn cây cú pháp nào là
đúng. Ngoài ra, một khi số luật tăng lên sẽ khiến cho chính người thiết kế luật khó
kiểm soát được tính hợp lý của tất cả các luật mà chính mình đã tạo ra và chắc chắn
sẽ có những luật thừa, những luật mâu thuẫn nhau.
24Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16


Thật vậy, để phân tích cú pháp, giải sử ta có bộ văn phạm CFG={N,Σ,P,S}
với các thành phần như sau:
• N: các ký hiệu không kết thức (non-terminal) gồm: S (Sentence: câu), NP
(Noun pharse: ngữ danh từ), VP (Verb pharse: ngữ động từ), PP (Preposition
pharse: ngữ giới từ).
• Σ: các ký hiệu mục kết thúc (terminal category) gồm:
- pro (đại từ) = {I, you, he, we, …}
- noun (danh từ) = {man, car, boy, girl, cat, house, …}
- det (định từ) = {a, the, …}
- verb (động từ) = {sit, sat, eat, help, …}
- prep (giới từ) = {on, in, to, from, …}
• P: các văn phạm con như sau:
S à NP VP;
NP à det noun; NP à det noun PP
VP à verb; VP à verb NP
PP à prep NP;
Với bộ luật sinh trên, thì đối với câu nhập vào là “I see the man in the car”,
sẽ phân tích được thành cây cú pháp như Hình 2.7 với giới ngữ “in the car” bổ ngữ
cho danh từ “man” (có nghĩa là “người đàn ông đó ở trong xe hơi”) và đây là cây cú
pháp đúng.
Nhưng, nếu ta câu nhập “I saw the man in a day”, thì bộ phân tích cú pháp
này sẽ như cây trên, có nghĩa là giới từ “in a day” thay vì bổ nghĩa cho động từ
“saw” thì nó lại bổ nghĩa cho danh từ “man” và đây là cây cú pháp sai. Để sửa lỗi
này, người ta liền thiêm 1 luật sinh VP à verb NP PP vào bộ văn phạm nói trên, và
bộ phân tích cú pháp mới này lại sinh ra them 01 cây cú pháp như Hình 2.8 dưới
25Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

×