Tải bản đầy đủ (.pdf) (187 trang)

Sử dụng ngôn ngữ trục trong dịch đa ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.09 MB, 187 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHAN THỊ LỆ THUYỀN

SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

PHAN THỊ LỆ THUYỀN

SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ

Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số
: 62 48 01 01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. Võ Trung Hùng

Đà Nẵng 2018


LỜI CAM ĐOAN



Tôi cam đoan đây là kết quả nghiên cứu của riêng tôi. Các nội dung và kết
quả nghiên cứu được trình bày trong Luận án là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.

Tác giả

NCS. Phan Thị Lệ Thuyền


LỜI CẢM ƠN
Trước tiên, tác giả xin gửi lời cảm ơn đến Ban Đào tạo - Đại học Đà Nẵng,
Khoa Công nghệ Thông tin, Phòng Đào tạo Trường Đại học Bách khoa - Đại học
Đà Nẵng đã tạo điều kiện thuật lợi trong thời gian học tập và nghiên cứu.
Tác giả muốn tri ân đến các Thầy Cô giáo Khoa Công nghệ Thông tin
Trường Đại học Bách khoa - Đại học Đà Nẵng, đặc biệt là thầy Võ Trung Hùng đã
tận tình giúp đỡ tác giả từ những bước đi đầu tiên hình thành ý tưởng, cũng như
trong suốt quá trình nghiên cứu. Thầy luôn ủng hộ, động viên và tạo điều kiện tốt
nhất để tác giả hoàn thành luận án. Tác giả nhận thấy sự trưởng thành sau những
năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy.
Tác giả chân thành cảm ơn các chuyên gia, các nhà ngôn ngữ học (PGS.TS
Nguyễn Ngọc Chinh, TS. Nguyễn Quý Thành) đã dành thời gian để hỗ trợ tác giả
nghiên cứu về mặt ngôn ngữ học, kiểm tra, đánh giá các kết quả dịch tự động và so
sánh chất lượng dịch các hệ thống. Sự giúp đỡ của các nhà ngôn ngữ học đã giúp
ích rất nhiều trong suốt quá trình nghiên cứu và hoàn thành báo cáo luận án này.
Tác giả xin gửi lời cảm ơn chân thành tới các anh chị NCS của Khoa Công
nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, những người thân
và bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tác giả vượt qua khó
khăn và hoàn thành tốt luận án.



MỤC LỤC
DANH MỤC HÌNH VẼ ................................................................................................... iv

DANH MỤC BẢNG ................................................................................................... vii
MỞ ĐẦU ....................................................................................................................... 1
Chương 1. TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL ........................ 7
1.1. Một số khái niệm sử dụng trong luận án ............................................................. 7
1.2. Một số hướng tiếp cận trong dịch tự động .......................................................... 9
1.2.1. Dịch máy dựa trên luật .............................................................................. 10
1.2.2. Dịch máy dựa trên ngữ liệu ....................................................................... 12
1.2.3. Phương pháp dịch kết hợp ......................................................................... 14
1.2.4. Đánh giá .................................................................................................... 15
1.3. Dịch đa ngữ ....................................................................................................... 16
1.4. Vấn đề dịch tự động cho tiếng Việt................................................................... 20
1.5. Tổng quan về UNL ............................................................................................ 22
1.5.1. Giới thiệu ................................................................................................... 22
1.5.2. Ngôn ngữ UNL ........................................................................................... 22
1.5.3. Hệ thống UNL ............................................................................................ 29
1.5.4. Một số kết quả nghiên cứu liên quan ......................................................... 31
1.5.5. Ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ ............... 33
1.6. Tiểu kết chương................................................................................................. 35
Chương 2. ĐỀ XUẤT MÔ HÌNH DỊCH TIẾNG VIỆT - UNL ............................. 37
2.1. Đặt vấn đề.......................................................................................................... 37
2.2. Ngữ pháp tiếng Việt .......................................................................................... 39
2.3. Đề xuất mô hình dịch ........................................................................................ 41
-i-


2.3.1. Công cụ EnCoVie....................................................................................... 42

2.3.2. Công cụ DeCoVie ...................................................................................... 45
2.3.3. Từ điển trong UNL ..................................................................................... 46
2.3.4. Luật ngữ pháp trong UNL ......................................................................... 49
2.4. Một số vấn đề cần xử lý cho tiếng Việt............................................................. 56
2.5. Tiểu kết chương................................................................................................. 58
Chương 3. GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT .................................. 60
3.1. Giải pháp xây dựng từ điển tiếng Việt - UNL................................................... 60
3.2. Giải pháp xây dựng luật ngữ pháp .................................................................... 69
3.2.1. Xây dựng luật mã hóa ................................................................................ 69
3.2.2. Xây dựng luật giải mã ................................................................................ 83
3.3. Tiểu kết chương................................................................................................. 94
Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................ 96
4.1. Xây dựng công cụ EnCoVie và DeCoVie ......................................................... 96
4.1.1. Xây dựng công cụ EnCoVie ....................................................................... 96
4.1.2. Xây dựng công cụ DeCoVie ....................................................................... 99
4.2. Thử nghiệm và đánh giá .................................................................................. 114
4.2.1. Từ điển tiếng Việt – UNL ......................................................................... 114
4.2.2. Dịch đa ngữ qua ngôn ngữ trục UNL ...................................................... 115
4.3. Tiểu kết chương............................................................................................... 122
KẾT L ẬN ............................................................................................................... 123
TÀI LIỆ THAM KHẢO ....................................................................................... 128
PHỤ LỤC .................................................................................................................. 137

-ii-


ANH MỤC CÁC TỪ VIẾT T T
LGW

Left Generation Window


Cửa sổ tạo ra bên trái

LW

Left Window

Cửa sổ trái

RGW

Right Generation Window

Cửa sổ tạo ra bên phải

RW

Right Window

Cửa sổ phải

UNL

Universal Networking Language

Ngôn ngữ mạng dùng chung

UNLKB

Universal Networking Language


Cơ sở tri thức của ngôn ngữ

Knowledge Base

mạng dùng chung

Universal Word

Từ vựng chung

UW

-iii-


ANH MỤC HÌNH VẼ
Hình . . Sơ đồ hệ thống dịch trực tiếp [13].............................................................11
Hình . . Sơ đồ hệ thống dịch chuyển đổi [13] ........................................................11
Hình . . Sơ đồ hệ thống dịch qua ngôn ngữ trung gian [13]...................................12
Hình . . Sơ đồ hệ thống dịch dựa trên ví dụ [13]....................................................13
Hình . . Sơ đồ hệ thống dịch dựa trên thống kê [13] ..............................................14
Hình . . Kết hợp phương pháp dịch dựa trên luật và thống kê [13] .......................14
Hình . . Mô hình dịch máy dựa trên luật ................................................................15
Hình . . Dịch trực tiếp giữa các cặp ngôn ngữ trong dịch đa ngữ ..........................16
Hình . . ịch qua ngôn ngữ trục trong dịch đa ngữ ...............................................17
Hình .

. Mô hình đánh giá dịch trực tiếp và dịch qua ngôn ngữ trung gian ........17


Hình .

. Biểu diễn câu tiếng Anh sang UNL ........................................................28

Hình .

. Biểu diễn biểu thức UNL dưới dạng đồ thị .............................................29

Hình .

. Cơ chế chuyển đổi của hệ thống UNL ....................................................29

Hình .

. Hệ thống UNL14 ......................................................................................30

Hình .

. Quá trình chuyển đổi dữ liệu trong dự án UNL – EOLSS [15] ..............33

Hình .

. Hệ thống UNL cho các ngôn ngữ ...........................................................34

Hình .

. Dịch qua ngôn ngữ trục UNL..................................................................34

Hình . . Mô hình dịch tiếng Việt – UNL ................................................................42
Hình . . Sơ đồ chuyển đổi của công cụ EnCoVie ...................................................43

Hình . . Danh sách các nút trong Node-list ............................................................43
Hình . . Sơ đồ liên kết các Headword ....................................................................44

-iv-


Hình . . Sơ đồ mã hóa câu tiếng Việt sang UNL ....................................................44
Hình . . Sơ đồ chuyển đổi của công cụ DeCoVie ..................................................45
Hình . . Mối quan hệ nhị phân giữa hai từ vựng ....................................................45
Hình . . Sơ đồ mã hóa biểu thức UNL sang câu tiếng Việt ....................................46
Hình . . Trạng thái cuối cùng của Node-list ...........................................................46
Hình .

. Sử dụng UW để tìm HeadWord trong quá trình giải mã ........................48

Hình .

. Thay đổi Node-list và cửa sổ phân tích bởi luật “+”...............................51

Hình .

. Thay đổi Node-list và cửa sổ phân tích bởi luật “-” ..............................52

Hình .

. Thay đổi Node-list và cửa sổ phân tích bởi luật “<”...............................52

Hình .

. Thay đổi Node-list và cửa sổ phân tích bởi luật “>”...............................53


Hình .

. Thay đổi Node-list và cửa sổ phân tích bởi luật “:” ................................54

Hình .

. Luật chèn phải một nút từ Node vào Node-list .......................................54

Hình .

. Luật chèn trái một nút từ Node vào Node-list ........................................55

Hình .

. Luật xóa nút phải một nút từ Node-list ...................................................56

Hình .

. Luật xóa nút trái một nút từ Node-list.....................................................56

Hình .

. Mô-đun xử lý câu tiếng Việt đầu vào [9] ...............................................58

Hình . . Luật ngữ pháp chuyển đổi tiếng Việt sang biểu thức UNL ......................69
Hình . . Đồ thị biểu diễn biểu thức UNL ...............................................................83
Hình . . Mối tương quan giữa hai ngôn ngữ tiếng Việt và UNL ...........................83
Hình . . Sắp xếp trật tự các từ câu đầu ra tiếng Việt .............................................84
Hình . . Sắp xếp trật tự các từ câu đầu ra tiếng Việt .............................................84

Hình . . Đồ thị UNL biểu diễn cho biểu thức có một nút con ...............................84
Hình . . Đồ thị UNL biểu diễn cho biểu thức có nhiều nút con ............................86
-v-


Hình . . Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 1 .............88
Hình . . Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 2 .............89
Hình .

. Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 3 ...........92

Hình . . Đồ thị biểu diễn biểu thức UNL .............................................................100
Hình . . Đồ thị biểu diễn biểu thức UNL chứa một hay nhiều nút con ...............106
Hình . . Đồ thị biểu diễn biểu thức UNL chứa nút kết hợp .................................112
Hình . . Hệ thống dịch đa ngữ dựa vào UNL ......................................................118
Hình . . Biểu đồ chất lượng dịch qua UNL và dịch trực tiếp ..............................120

-vi-


ANH MỤC BẢNG
Bảng . . Kết quả đánh giá qua tiếng Pháp .............................................................19
Bảng . . Kết quả đánh giá qua tiếng Đức ...............................................................19
Bảng . . Tỷ lệ giống/khác giữa 2 bản dịch máy.....................................................20
Bảng . . Các quan hệ được định nghĩa trong UNL [66] .........................................24
Bảng . . Các thuộc tính được định nghĩa trong UNL [66] .....................................25
Bảng . . Mô tả hình thức bảng trong biểu thức UNL [66]......................................27
Bảng . . Tỷ lệ giống/khác giữa dịch qua UNL và tiếng Anh .................................38
Bảng . . Các mô hình câu đơn [


] ........................................................................40

Bảng . . Tập nhãn từ loại trong từ điển cho tiếng Việt [9] .....................................48
Bảng . . Tập nhãn từ loại con trong từ điển cho tiếng Việt [9] ..............................49
Bảng . . Số mục từ tiếng Việt – UNL thu được với giải pháp thứ nhất ...............115
Bảng . . Một số ví dụ câu không khớp ở máy chủ tiếng Anh .............................118
Bảng . . Tỷ lệ thay đổi giữa dịch qua UNL và trực tiếp .......................................119

-vii-


MỞ ĐẦ
1. L

chọn ề ài
Cùng với sự phát triển của công nghệ, con người đã tạo ra một lượng thông

tin khổng lồ trên mạng Internet được cung cấp từ hàng triệu Website trên khắp thế
giới. Nhưng chúng ta không thể khai thác hết thông tin bởi nhiều lý do và một trong
những lý do quan trọng nhất là rào cản về ngôn ngữ. Vấn đề đặt ra là làm thế nào để
mọi người trên thế giới có thể khai thác hết nguồn thông tin trên Internet mà không
bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để giải quyết vấn đề này: thứ
nhất là phát triển các hệ thống, các ứng dụng, các nguồn dữ liệu đa ngữ để người sử
dụng có thể lựa chọn ngôn ngữ mà họ muốn khi sử dụng; thứ hai là ứng dụng các
phần mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện có sang
ngôn ngữ mà người sử dụng chọn lựa.
Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều hướng tiếp cận
khác nhau và chất lượng bản dịch ngày càng được cải thiện. Tuy nhiên, đầu ra bản
dịch của các hệ thống này hầu hết chỉ mang tính tham khảo vì chưa thể hiện hết ý
nghĩa, văn phong của câu nguồn. Hơn nữa trên thế giới hiện đang sử dụng hơn

5.

ngôn ngữ có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp

ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số lượng người dùng
ít1. Một trong những hướng tiếp cận mới trong dịch đa ngữ đang được quan tâm là
sử dụng ngôn ngữ trục để dịch, hướng tiếp cận này giảm chi phí xây dựng phần
mềm từ (n*(n-1)) xuống còn (2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên
hoặc không tương đồng cấu trúc ngữ pháp [13].
Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngữ trục được phân
tích và biểu diễn qua một ngôn ngữ khác gọi là ngôn ngữ trung gian và sau đó sử

1

(2015)

1


dụng văn phạm của ngôn ngữ đích để dịch từ ngôn ngữ trung gian này. Ưu điểm của
phương pháp này là chỉ cần phân tích ngôn ngữ nguồn để chuyển sang ngôn ngữ
trung gian và ngược lại. Ngoài ra, trong hệ thống dịch đa ngữ, chúng ta dễ dàng bổ
sung ngôn ngữ mới này vào hệ thống nhưng nhược điểm là làm thế nào tìm ra một
ngôn ngữ mà có thể biểu diễn tất cả thông tin mọi ngôn ngữ tự nhiên và không nhập
nhằng về ngữ nghĩa.
Trong những năm gần đây, nhiều ngôn ngữ tự nhiên có kho ngữ liệu song
ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) được lựa chọn làm ngôn
ngữ trung gian trong dịch tự động hoặc xây dựng kho ngữ liệu song ngữ [6][55].
Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng bản
dịch không cao vì không khử được tính nhập nhằng của từ loại trong ngôn ngữ tự

nhiên [6]. Đến nay, hướng tiếp cận này thường sử dụng cho các cặp ngôn ngữ
không tương đồng về cấu trúc ngữ pháp hoặc khan hiếm nguồn tài nguyên dữ liệu.
Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương
pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn
tất cả các tri thức của mọi ngôn ngữ tự nhiên trên máy tính mà không bị nhập nhằng
về ngữ nghĩa. UNL bao gồm các thành phần như một ngôn ngữ tự nhiên: từ vựng
(UW), quan hệ (relation), thuộc tính (attributes) và cơ sở tri thức ngôn ngữ
(UNLKB). Trong UNL, liên kết giữa các từ vựng dựa trên quan hệ ngữ nghĩa và gắn
các thuộc tính để miêu tả khía cạnh của người nói.
Mục đích ra đời của UNL là cung cấp cho người sử dụng Internet khả năng
truy cập vào các trang web bằng ngôn ngữ của họ. Hệ thống dịch tự động đa ngữ
bao gồm nhiều máy chủ ngôn ngữ khác nhau được dịch thông qua ngôn ngữ trục là
UNL. Mỗi máy chủ ngôn ngữ sẽ đảm nhận hai chức năng, đó là dịch một văn bản từ
ngôn ngữ nguồn sang ngôn ngữ UNL gọi là quá trình mã hóa và dịch ngược lại sang
ngôn ngữ đích gọi là quá trình giải mã. Đến nay, nhiều ngôn ngữ trên thế giới đã
tích hợp vào nền tảng UNL tạo thành một hệ thống dịch đa ngữ như: tiếng Nga,
tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế

2


nào để tích hợp máy chủ tiếng Việt vào nền tảng UNL trong khi nó chưa được triển
khai?
Xuất phát từ nhu cầu thực tiễn trên, tác giả đã chọn “Sử ụng ngôn ngữ rục
r ng ịch a ngữ” làm đề tài nghiên cứu của luận án tiến sỹ kỹ thuật nhằm đóng
góp cho sự phát triển dịch tự động. Đặc biệt, kết quả nghiên cứu của luận án mở ra
một hướng nghiên cứu mới cho dịch tự động giữa tiếng Việt với các ngôn ngữ khác
và là cơ hội phát triển một hệ thống dịch tự động đa ngữ đối với các ngôn ngữ ở
Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,…


2. Mục iêu nghiên cứu
Mục tiêu chung của luận án là nghiên cứu và thử nghiệm hệ thống dịch tự
động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người
ở Việt Nam.
Mục tiêu cụ thể của luận án gồm:
- Đề xuất hướng tiếp cận mới trong dịch tự động đa ngữ cho tiếng Việt dựa
trên ngôn ngữ trục.
- Xây dựng và thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa
trên ngôn ngữ trục UNL và hệ thống UNL sẵn có.
- Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ hiện có cho các ngôn
ngữ của các dân tộc ít người tại Việt Nam.

3. Đối ượng và phạm vi nghiên cứu
ựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm:
- Các hướng tiếp cận trong dịch tự động;
- Các vấn đề dịch tự động cho tiếng Việt;
- Ứng dụng UNL trong dịch tự động.
Phạm vi nghiên cứu trong luận án gồm:
- Hướng tiếp cận dựa trên ngôn ngữ trục UNL trong dịch tự động;
- Cấu trúc ngữ pháp câu tiếng Việt và biểu thức UNL;
3


- Hệ thống dịch đa ngữ cho tiếng Việt và UNL;
- Giải pháp dịch tự động giữa tiếng Việt và UNL.

4. Nội ung nghiên cứu
Để đạt được mục tiêu đề ra, nội dung nghiên cứu của luận án gồm:
- Nghiên cứu một số phương pháp dịch tự động;
- Nghiên cứu ứng dụng UNL trong dịch tự động;

- Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt;
- Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL;
- Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL.

5. Phương pháp nghiên cứu
Các phương pháp nghiên cứu trong luận án được sử dụng gồm:
- Phương pháp lý thuyết: Phân tích các tài liệu sẵn có từ các nguồn tài liệu
liên quan đến đề tài. Nghiên cứu tài liệu về các hướng tiếp cận trong dịch tự động,
các hệ thống dịch đa ngữ, các giải pháp dịch thông qua ngôn ngữ trung gian, nghiên
cứu về UNL và các công cụ ứng dụng. Trên cơ sở nghiên cứu, tác giả hệ thống hóa
thành cơ sở lý luận để nghiên cứu và đề xuất hướng giải quyết của luận án.
- Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm từng mô
hình ứng dụng UNL cho tiếng Việt, từ đó so sánh, đánh giá với mô hình, phương
pháp được đề xuất.
- Phương pháp chuyên gia: Lấy ý kiến các chuyên gia về kết quả của các
bản dịch và ý kiến của người sử dụng.

6. Đóng góp chính của luận án
Đóng góp chính của luận án bao gồm:
1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống UNL. Hệ
thống UNL đã được nghiên cứu và phát triển trên

năm (từ 1996) và đã hỗ trợ

dịch tự động cho hơn 4 ngôn ngữ. Tuy nhiên, việc nghiên cứu để tích hợp tiếng
4


Việt vào hệ thống UNL chưa được triển khai. Luận án đã nghiên cứu một cách hệ
thống về ngôn ngữ và UNL; để trên cơ sở đó đề xuất được mô hình tổng thể và các

giải pháp liên quan để tích hợp tiếng Việt vào UNL. Việc tích hợp này có ý nghĩa
quan trọng vì chỉ cần tích hợp được tiếng Việt vào hệ thống UNL thì chúng ta có
thể dịch tự động từ tiếng Việt sang tất cả các ngôn ngữ khác đã có trên hệ thống
UNL và ngược lại.
2) Đề xuất giải pháp và xây dựng thành công từ điển tiếng Việt – UNL. Từ
điển là cơ sở của bất kỳ hệ thống dịch tự động nào và việc xây dựng thành công từ
điển tiếng Việt – UNL là một đóng góp quan trọng để tích hợp tiếng Việt vào hệ
thống UNL. Luận án đã nghiên cứu đặc điểm của từ điển trong UNL và các từ điển
sẵn có của tiếng Việt để từ đó xây dựng từ điển Việt – UNL với 235.

mục từ.

3) Đề xuất giải pháp và xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt
sang UNL) và tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt). Trên cơ
nghiên cứu các luật trong hệ thống UNL và một số công cụ liên quan, luận án đã đề
xuất giải pháp cải tiến và xây dựng các luật phục vụ quá trình dịch tự động giữa
tiếng Việt và UNL. Đã xây dựng được 32 luật mã hoá cho một số cấu trúc câu tiếng
Việt để dịch sang biểu thức UNL và

luật giải mã cho chiều dịch ngược lại.

4) Đề xuất giải pháp và xây dựng 2 công cụ: EnCoVie là chương trình dịch
tự động từ tiếng Việt sang UNL và DeCoVie là chương trình dịch tự động từ UNL
sang tiếng Việt. Đây là

chương trình để dịch tự động dựa trên từ điển và các tập

luật được xây dựng.
Những đóng góp này có ý nghĩa về mặt khoa học là mở ra một hướng nghiên
cứu mới về dịch tự động cho tiếng Việt bên cạnh những phương pháp đã có. Về mặt

thực tiễn là xây dựng bộ từ điển, các tập luật và hai chương trình dịch. Đây là tiền
đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt và phục vụ cho các nghiên
cứu sau này trong lĩnh vực dịch tự động.

7. Bố cục luận án
Ngoài các nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham
5


khảo và phụ lục, luận án được tổ chức thành

chương:

Chương 1: Tổng quan về dịch máy và ngôn ngữ UNL. Trình bày các kết
quả nghiên cứu liên quan đến dịch tự động, các hệ thống dịch đa ngữ cho tiếng Việt,
đánh giá chất lượng dịch giữa phương pháp dịch trung gian và dịch trực tiếp các cặp
dịch. Ngoài ra nội dung chương cũng trình bày kết quả nghiên cứu về ngôn ngữ UNL,
một số thành tựu liên quan UNL và ứng dụng UNL làm ngôn ngữ trục trong hệ thống
dịch đa ngữ.
Chương 2: Đề xuất mô hình dịch tiếng Việt - UNL. Trình bày kết quả thử
nghiệm dịch tự động cho tiếng Việt dựa vào UNL trên các công cụ có sẵn. Đề xuất mô
hình dịch cho tiếng Việt và UNL dựa trên lý thuyết hệ thống UNL và các công cụ

dịch tự động UNL đã được thử nghiệm cho các ngôn ngữ khác và tiếng Việt.
Chương 3: Xây dựng từ điển và tập luật. Trình bày các giải pháp xây dựng
bộ từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa và giải mã cho hai công cụ
EnCoVie và DeCoVie.
Chương 4: Thử nghiệm và đánh giá. Xây dựng hai công cụ chuyển đổi câu
tiếng Việt sang UNL và ngược lại. Trình bày các kết quả thử nghiệm và đánh giá về
các nội dung: xây dựng bộ từ điển tiếng Việt – UNL, chuyển đổi của hai công cụ

EnCoVie và DeCoVie, hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn
ngữ tự nhiên trong hệ thống: tiếng Việt, tiếng Anh và tiếng Nga).

6


Chương 1. TỔNG Q AN VỀ ỊCH MÁY VÀ NGÔN NGỮ
NL
Trong chương này tác giả trình bày các kết quả nghiên cứu tổng quan liên
quan đến dịch tự động, một số phương pháp dịch tự động, các hệ thống dịch đa ngữ
và một số vấn đề trong dịch tự động cho tiếng Việt. Ngoài ra, chương này giới thiệu
tổng quan về UNL, các kết quả nghiên cứu và ứng dụng UNL làm ngôn ngữ trục
trong hệ thống dịch đa ngữ. Trên cơ sở đó, tác giả đề xuất một hướng tiếp cận mới
ứng dụng UNL trong dịch tự động đa ngữ cho tiếng Việt.

1.1. Một số khái niệm sử dụng trong luận án
Dịch máy (Machine translation): Quá trình dịch tự động từ một ngôn ngữ
nguồn (Source language) sang ngôn ngữ đích (Target language) mà không có sự
can thiệp của con người trong quá trình dịch [13]. Ví dụ, khi dịch từ tiếng Việt (văn
bản hay lời nói) sang tiếng Anh chúng ta chỉ cần sử dụng một công cụ để dịch.
Dịch song ngữ (Bilingual translation): Quá trình dịch một hoặc hai chiều
giữa hai ngôn ngữ với nhau2. Ví dụ, trong một hệ thống chúng ta dịch từ tiếng Việt
sang tiếng Anh và có thể dịch ngược lại.
Dịch đa ngữ (Multilanguage translation): Quá trình dịch từ một ngôn ngữ
sang nhiều ngôn ngữ khác [74]. Ví dụ, sử dụng một công cụ để dịch từ tiếng Việt
sang nhiều tiếng khác: tiếng Anh, tiếng Pháp, tiếng Nga ...
Dịch qua ngôn ngữ trung gian (Interlingual translation): Là quá trình dịch từ
ngôn ngữ nguồn sang ngôn ngữ đích nhưng qua một ngôn ngữ thứ ba làm ngôn ngữ
trung gian để chuyển tiếp giữa hai ngôn ngữ [13]. Ví dụ, cần dịch văn bản từ ngôn
ngữ A sang ngôn ngữ B, chúng ta dịch ngôn ngữ A sang ngôn ngữ P và từ ngôn ngữ

P tiếp tục dịch sang ngôn ngữ B. Ngôn ngữ P trong trường hợp này được gọi là
ngôn ngữ trung gian.

2

(2015)

7


Ngôn ngữ trục (Pivot language): Một ngôn ngữ (có thể là nhân tạo hoặc
ngôn ngữ tự nhiên) được sử dụng như là ngôn ngữ trung gian để dịch giữa các ngôn
ngữ với nhau trong một hệ thống dịch thì được gọi là ngôn ngữ trục2. Ví dụ, có ba
ngôn ngữ tham gia vào hệ thống dịch, các cặp ngôn ngữ không dịch trực tiếp với
nhau mà được dịch thông qua một ngôn ngữ trung gian: ngôn ngữ thứ nhất dịch
sang ngôn ngữ làm trung gian, từ ngôn ngữ trung gian này sẽ dịch sang hai ngôn
ngữ thứ hai, thứ ba.
Từ điển (Dictionary): Từ điển là nơi cung cấp thông tin hoặc giải thích một
sự vật hay hiện tượng một cách ngắn gọn và chính xác nhất [73]. Từ điển chứa danh
sách các từ, ngữ được sắp xếp theo thứ tự ABC. Ngoài ra, đôi khi từ điển còn chứa
các thông tin về cách phát âm, chú ý ngữ pháp, dạng biến thể của từ, cách sử dụng
hay câu ví dụ.
Từ điển song ngữ (Bilingual dictionary): Dùng để dịch các từ hoặc cụm từ
của ngôn ngữ này sang ngôn ngữ khác3. Từ điển song ngữ có thể là từ điển một
chiều hoặc hai chiều.
Luật ngữ pháp (Grammar rule): Bao gồm toàn bộ các quy tắc, quy luật kết
hợp để tạo nên các cụm từ, câu của ngôn ngữ [13]. Ví dụ, trong tiếng Việt sắp xếp
trật tự từ sẽ có nghĩa khác nhau: “sữa bò” và “bò sữa”.
Phân tích cú pháp nông (Shallow parsing): Quá trình phân tích cú pháp
(Syntactic) hoặc mối quan hệ ngữ pháp (Grammatical relations) giữa các thành

phần trong câu [13]. Ví dụ, câu tiếng Việt “tôi đi học” được phân tích cú pháp nông
như sau: [tôi]pp[đivt [họcnt]]vp.
Phân tích cú pháp sâu (Deep parsing): Quá trình phân tích và xác định ngữ
nghĩa (Semantic analyzer) của một ngôn ngữ [13]. Ví dụ, trong tiếng Việt từ
“đường kính” nghĩa có thể là “chất ngọt dùng để pha làm đồ uống” hoặc “đoạn
thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu”.

3

(2015)

8


Ngôn ngữ UNL (Universal Networking Language): Là ngôn ngữ nhân tạo có
các thành phần tương ứng như các ngôn ngữ tự nhiên. Mục đích ra đời của UNL là biểu
diễn tất cả các thông tin tri thức của mọi ngôn ngữ tự nhiên trong máy tính [52].

Mã hóa (Encode): Quá trình dịch tự động từ một ngôn ngữ tự nhiên sang
ngôn ngữ UNL [64]. Ví dụ, dịch một câu tiếng Anh sang ngôn ngữ UNL.
Giải mã (Decode): Quá trình dịch tự động từ ngôn ngữ UNL sang một ngôn
ngữ tự nhiên [65]. Ví dụ, dịch một biểu thức UNL sang tiếng Anh.
Máy chủ ngôn ngữ (Language server): Sử dụng để chuyển đổi giữa ngôn ngữ
tự nhiên và UNL4. Một máy chủ ngôn ngữ gồm hai thành phần cốt lõi là
EnConverter và DeConverter. EnConverter dùng để chuyển đổi một văn bản được
viết trong ngôn ngữ tự nhiên sang một văn bản được viết trong ngôn ngữ UNL còn
DeConverter chuyển đổi ngược lại của EnConverter.
Hệ thống UNL (UNL System): Một hệ thống UNL bao gồm ba thành phần
chính: tài nguyên ngôn ngữ, phần mềm xử lý tài nguyên ngôn ngữ và các công cụ
hỗ trợ để duy trì, vận hành phần mềm xử lý ngôn ngữ hoặc phát triển tài nguyên

ngôn ngữ4. Tài nguyên ngôn ngữ gồm các kiến thức về khái niệm, mối quan hệ giữa
các khái niệm, từ điển, các luật ngữ pháp. Các công cụ hỗ trợ như tạo ra biểu thức
UNL, kiểm tra biểu thức UNL, giữ liên kết giữa từ điển và ngôn ngữ tự nhiên.
Công cụ EnCoVie (Encode Converter for Vietnamese):

ùng để chuyển đổi

một câu được viết trong tiếng Việt sang dạng văn bản tương đương được viết trong
ngôn ngữ UNL.
Công cụ DeCoVie (Decode Converter for Vietnamese):

ùng để chuyển đổi

văn bản được viết trong ngôn ngữ UNL sang một câu tương đương được viết trong
tiếng Việt.

1.2. Một số hướng tiếp cận trong dịch tự ộng
Trong tiếng Anh khoảng cách trắng là dấu hiệu nhận diện ranh giới giữa các

4

/>
9


từ trong câu, nhưng trong tiếng Việt thì dấu hiệu nhận dạng này lại chưa chính xác.
Ví dụ, câu tiếng Anh “I am a teacher” sẽ là “I / am / a / teacher”, nhưng câu tiếng
Việt “tôi là giáo viên” thì không thể hiểu “tôi / là / giáo / viên” mà phải là “tôi / là /
giáo viên”.
Hoặc khi sử dụng từ "đường" trong tiếng Việt, nếu không có thông tin kèm

theo để làm rõ nghĩa thì có thể được hiểu là “đường: road”, “đường: sugar”,…?
Một số vấn đề nêu trên có thể khá dễ dàng để nhận ra và hiểu đối với con
người nhưng đối với máy tính thì đây không phải đơn giản để xử lý. Trong quá trình
dịch chuyển đổi giữa hai ngôn ngữ tự nhiên, nếu việc tách các từ, cụm từ và xử lý
ngữ nghĩa tốt sẽ cho ra một bản dịch tốt.
Đến nay có nhiều hướng tiếp cận được đề xuất, tuy nhiên chất lượng của bản
dịch cần có sự tham gia chỉnh sửa của con người. Trong mục này, tác giả trình bày
một số hướng tiếp cận trong các hệ thống dịch đa ngữ hiện nay.

1.2.1. Dịch máy dựa trên luật
ịch máy dựa trên luật (Rule- based machine translation) là hướng tiếp cận
truyền thống dựa trên cơ sở phân tích hình thái học, cú pháp và ngữ nghĩa của ngôn
ngữ đích và ngôn ngữ nguồn. Ưu điểm, các luật chuyển đổi được xây dựng độc lập
trên mỗi cấu trúc và không ảnh hưởng đến các cấu trúc khác. Nhược điểm, mỗi cấu
trúc được xây dựng tập luật thủ công nên mất nhiều chi phí.
Trong hướng tiếp cận dịch máy dựa trên luật có ba phương pháp: dịch trực
tiếp, dịch chuyển đổi cú pháp và dịch qua ngôn ngữ trung gian.
1.2.1.1. Dịch trực tiếp
ịch trực tiếp (Direct translation) còn được gọi là dịch máy dựa vào từ điển,
nghĩa là thay thế giữa từ với từ của hai ngôn ngữ. Phương pháp dịch này không chú
trọng đến ngữ nghĩa giữa các từ trong câu đầu ra, câu đích không tự nhiên vì thiếu
quan hệ ngữ nghĩa, không chặt chẽ cấu trúc ngữ pháp.
Phương pháp dịch trực tiếp thích hợp cho các bản dịch cho cụm từ, từ hoặc
10


các cặp ngôn ngữ có cấu trúc tương tự nhau [

][


].

Văn bản nguồn

Văn bản đích

Từ điển song
ngữ

Phân tích
câu nguồn

Sắp xếp
câu đích

H nh 1.1. Sơ ồ hệ hống ịch rực iếp [13]

1.2.1.2. Dịch chuyển đổi cú pháp
Văn bản nguồn

Phân tích hình thái và cú pháp

Luật văn phạm

Từ điển
ngôn ngữ nguồn

Cấu trúc câu nguồn

Luật chuyển

đổi

Chuyển đổi cấu trúc và từ

Từ điển
song ngữ

Cấu trúc câu đích

Luật văn
phạm

Tạo câu ngôn ngữ đích

Từ điển
ngôn ngữ đích

Văn bản đích
H nh 1.2. Sơ ồ hệ hống ịch chuyển ổi [13]

Dịch chuyển đổi cú pháp (Syntactic transfer translation) là phương pháp
dịch dựa vào chuyển đổi cấu trúc ngữ pháp giữa ngôn ngữ nguồn và ngôn ngữ đích.
Nhược điểm của phương pháp này chỉ tập trung vào phân tích cú pháp mà không
giải quyết về ngữ nghĩa [29].
1.2.1.3. Dịch qua ngôn ngữ trung gian
11


Phương pháp dịch qua ngôn ngữ trung gian (Intermediate translation) là dịch
từ ngôn ngữ nguồn sang ngôn ngữ đích thông qua một ngôn ngữ thứ ba, ngôn ngữ

thứ ba trong trường hợp này được gọi là ngôn ngữ trung gian. So với phương pháp
dịch trực tiếp, phương pháp dịch qua ngôn ngữ trung gian có những ưu điểm sau:
- Không phụ thuộc vào nguồn tài nguyên, tương quan ngữ pháp giữa ngôn
ngữ nguồn và ngôn ngữ đích [55].
- Giảm chi phí xây dựng phần mềm trong hệ thống dịch đa ngữ [13].
ịch

ịch
Ngôn ngữ trung gian

Tiếng Hà Lan

Tiếng Anh

H nh 1.3. Sơ ồ hệ hống ịch qua ngôn ngữ rung gian [13]

1.2.2. Dịch máy dựa trên ngữ liệu
Dịch máy dựa trên ngữ liệu (Corpus-based machine translation) là hướng
tiếp cận dịch dựa vào các kho ngữ liệu được huấn luyện sẵn. Ưu điểm của phương
pháp này là khi kho ngữ liệu càng lớn thì chất lượng bản dịch đầu ra càng tốt.
1.2.2.1. Dịch dựa trên ví dụ
Đặc trưng của phương pháp dịch dựa trên ví dụ (Example-based translation)
là “so khớp” mẫu (Pattern) tương tự, phương pháp này dựa hoàn toàn vào kho ngữ
liệu song ngữ được huấn luyện sẵn và không có sự phân tích về cú pháp, ngữ nghĩa
của ngôn ngữ [17].
Thực tế chúng ta không thể lưu trữ tất cả các câu mẫu của ngôn ngữ, khái
niệm “so khớp” ở đây không phải là so nguyên câu dịch mà so khớp cấu trúc khung
mẫu cơ bản [13]. Nghĩa là câu đầu vào sẽ được phân thành các cụm từ, sau đó dịch
riêng lẻ các cụm từ và ghép nối tạo thành một bản dịch hoàn chỉnh. Ví dụ dịch một
câu tiếng Anh “He buys a book on political science.” sang tiếng Việt, sẽ sử dụng

kho ngữ liệu tiếng Anh và tiếng Việt như sau: “He buys a notebook. – Anh ấy mua
một sổ tay.” và “I read a book on political science. –Tôi đọc một cuốn sách về khoa
12


học chính trị.”. Hệ thống phân cụm từ câu đầu vào thành “He buys – anh ấy mua”
và “a book on political science. - một cuốn sách về khoa học chính trị”. Sau đó ghép
nối các cụm từ tạo thành câu tiếng Việt đầu ra “Anh ấy mua một cuốn sách về khoa
học chính trị”.
Tập mẫu
song ngữ

Ngôn ngữ
nguồn

Phân đoạn

Ghép nối

Ngôn ngữ
đích

Chuyển đổi

Tập mẫu
nguồn

Tập mẫu
đích


H nh 1.4. Sơ ồ hệ hống ịch ựa rên ví ụ [13]

1.2.2.2. Dịch thống kê
ịch thống kê (Statistical translation) là phương pháp dịch không cần phân
tích sâu ngôn ngữ mà dựa vào kho ngữ liệu đã được huấn luyện và toán học xác suất
để tạo câu đầu ra. Đối với phương pháp này kết quả nhận được rất ngẫu nhiên và
khó dự đoán trước [13][18]. Chất lượng bản dịch sẽ càng thấp nếu các cặp ngôn ngữ
càng khác xa về cấu trúc [ ].
Ý tưởng của phương pháp dịch thống kê được trình bày như sau:
Văn bản đầu vào f (còn gọi là ngôn ngữ nguồn. Ví dụ câu tiếng Anh) được
dịch để tìm ra các chuỗi đầu ra e* (còn gọi là ngôn ngữ đích. Ví dụ tiếng Việt). Tiếp
theo, dựa trên các chuỗi đầu ra e* để tìm ra một chuỗi đích được cho là có chất
lượng bản dịch tốt nhất (được gọi là e).
Công thức tìm e* như sau:
(1.1)
Trong đó, P(f/e) là mô hình dịch dùng để tính xác xuất có điều kiện giữa câu
13


nguồn f và câu đích e. P(e) là mô hình ngôn ngữ để tìm ra chuỗi e tốt nhất.
Văn vản nguồn (f)
Ngữ liệu song ngữ

Mô hình dịch P(f |e)

Bộ giải mã
Tìm kiếm e*= argmax P(f |e)P(e)

Mô hình ngôn ngữ P(e)


Văn bản đích (e)

Ngữ liệu đơn ngữ

H nh 1.5. Sơ ồ hệ hống ịch ựa rên hống kê [13]

Ban đầu mô hình dịch được xây dựng dựa vào đơn vị từ (Word based), nghĩa
là mỗi từ của ngôn ngữ nguồn được dịch ra thành nhiều từ của ngôn ngữ đích và sau
đó được ghép ngẫu nhiên các từ để tạo thành các bản dịch hoàn chỉnh [63]. Tuy
nhiên phương pháp này tạo ra rất nhiều bản dịch vô nghĩa. Một phương pháp khác
được đề xuất gọi là dịch dựa vào cụm từ (Phrase based), phương pháp này sẽ khắc
phục hạn chế của phương pháp dựa vào đơn vị từ [7][50].

1.2.3. Phương pháp dịch kết hợp
Câu nguồn

Câu đích
tốt nhất

ịch dựa

ịch dựa

trên luật

trên thống kê

- Câu đầu ra máy

(TL1)


- Câu đầu ra máy

(TL )

- Câu đầu ra máy

(TL )

Các bản dịch

H nh 1.6. Kế hợp phương pháp ịch ựa rên luậ và hống kê [13]

Đặc trưng của phương pháp dịch kết hợp (Hybrid translation approaches) là
14


×