Tải bản đầy đủ (.pdf) (80 trang)

XÂY DỰNG CHƯƠNG TRÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG HỆ DỊCH TỰ ĐỘNG ANH VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 80 trang )

Luận văn tốt nghiệp

Lời cảm tạ

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC

^]

Lời đầu tiên chúng em xin chân thành cảm ơn thầy Đinh
Điền, người đã trực tiếp hướng dẫn chúng em hoàn thành luận văn

NGUYỄN LƯU THÙY NGÂN - 9912621
ĐỖ XUÂN QUANG - 9912652

này. Thầy là người đã truyền thụ cho chúng em rất nhiều kiến thức
về tin học và ngôn ngữ học, giúp chúng em có được hiểu biết sâu
hơn về một trong các ứng dụng có ý nghĩa vô cùng to lớn trong

XÂY DỰNG CHƯƠNG TRÌNH
CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG
HỆ DỊCH TỰ ĐỘNG ANH - VIỆT
LUẬN VĂN CỬ NHÂN TIN HỌC

cuộc sống của tin học – vấn đề dịch máy.
Chúng em cũng xin chân thành cảm ơn các thầy cô trong
khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ cho
chúng em trong suốt thời gian chúng em học đại học và trong quá
trình chúng em thực hiện luận văn.
Chúng con xin chân thành cảm ơn ba mẹ, các anh và những


người thân trong gia đình đã nuôi dạy, tạo mọi điều kiện tốt nhất
cho chúng con học tập và động viên chúng con trong thời gian
thực hiện luận văn.
Và cuối cùng, chúng tôi xin gởi lời cảm ơn đến tất cả bạn bè
và nhất là các bạn trong nhóm VCL (Vietnamese Computational

GIÁO VIÊN HƯỚNG DẪN
TS. ĐINH ĐIỀN

Linguistics), những người đã hỗ trợ chúng tôi trong quá trình
chúng tôi hoàn thiện luận văn này.
Tp. Hồ Chí Minh, tháng 07 năm 2003
Nguyễn Lưu Thùy Ngân - 9912621
Đỗ Xuân Quang - 9912652

NIÊN KHÓA 1999-2003

Trang 2


Luận văn tốt nghiệp

Luận văn tốt nghiệp

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

...............................................................


...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................


...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................

...............................................................
Tp. Hồ Chí Minh, tháng 07 năm 2003
Tp. Hồ Chí Minh, tháng 07 năm 2003

Giáo viên phản biện

TS. Đinh Điền

Trang 3

Trang 4


Luận văn tốt nghiệp


Luận văn tốt nghiệp

Mục lục

L ờ i nó i đ ầ u
Cho đến nay, sau hơn 50 năm phát triển, dịch máy chứng tỏ là một ứng dụng

Lời nói đầu .......................................................................................................5

vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà

Mục lục.............................................................................................................6

khoa học trên toàn thế giới. Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại

Danh sách các hình .......................................................................................11

ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung

Danh sách các bảng.......................................................................................13

gian và dịch dựa trên chuyển đổi. Và qua thực tế, chiến lược dịch dựa trên chuyển

Chương 1........................................................................................................14

đổi đã khẳng định được tính hiệu quả và tiềm năng của nó, và đây cũng là cách tiếp

TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ PHÁP......................................14


cận mà chúng em đã và đang theo đuổi để xây dựng một hệ dịch tự động từ tiếng
Anh sang tiếng Việt.
Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc)

1.1

Đặt vấn đề .......................................................................................14

1.2

Các chiến lược dịch máy................................................................16

giữ một vai trò quan trọng, quyết định chất lượng hệ dịch. Vì lý do đó, chúng em đã

1.1.1

Chiến lược dịch trực tiếp.......................................................................16

quyết định chọn “Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch

1.1.2

Chiến lược dịch dựa trên ngôn ngữ trung gian .....................................17

Anh-Việt” làm đề tài luận văn tốt nghiệp cử nhân của mình. Khối chuyển đổi cây cú

1.1.3

Chiến lược dịch dựa trên sự chuyển đổi ...............................................18


pháp đảm nhiệm việc thay đổi trật tự, chèn, xoá các thành phần trong cây cú pháp

1.2

của câu tiếng Anh sao cho sau khi hoàn tất việc gắn nghĩa, ta sẽ thu được câu tiếng

chuyển đổi ..................................................................................................20

Việt có trật tự từ hợp lý.

1.3

Luận văn được tổ chức thành các phần chính sau:
™ Chương 1: Giới thiệu tầm quan trọng, mục tiêu, phạm vi của đề tài, cơ sở

lý thuyết ngôn ngữ học, tin học và hướng tiếp cận vấn đề.

Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên

Cơ sở lý thuyết................................................................................22

1.3.1

Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi ..............................23

1.3.2

Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề ..................................33

™ Chương 2: Điểm qua các cách tiếp cận chuyển đổi cấu trúc.


Chương 2........................................................................................................35

™ Chương 3: Thuật toán nền tảng, mô hình học và mô hình áp dụng chuyển

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH

đổi cây cú pháp.

MÁY................................................................................................................35

™ Chương 4: Thiết kế – Cài đặt

2.1

™ Chương 5: Thử nghiệm – đánh giá
™ Chương 6: Kết quả – Kết luận – Hướng phát triển
™ Phần phụ lục. Tài liệu tham khảo.

Trang 5

Hướng tiếp cận dựa trên luật cố định ..........................................35

2.1.1

Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định ..................35

2.1.2

Nhận xét ................................................................................................38


Trang 6


Luận văn tốt nghiệp

2.2

Luận văn tốt nghiệp

Hướng tiếp cận sử dụng case-frame .............................................39

3.2

Thuật toán học nhanh FnTBL ......................................................71

2.2.1

Chuyển đổi các thông tin cấp độ câu ....................................................40

3.2.1

Hình thức hóa TBL ...............................................................................72

2.2.2

Chuyển đổi ngữ động từ........................................................................41

3.2.2


Thuật toán FnTBL.................................................................................73

2.2.3

Sự chuyển đổi của định ngữ, bổ ngữ.....................................................42

2.2.4

Tự điển chuyển đổi................................................................................43

2.2.5

Nhận xét ................................................................................................44

2.3

Hướng tiếp cận sử dụng TAG đồng bộ (STAG)..........................44

2.3.1

Văn phạm TAG .....................................................................................45

2.3.2

TAG đồng bộ (STAG) ..........................................................................49

2.3.3

Nhận xét ................................................................................................52


2.4

Cách tiếp cận phân tích ngữ pháp song song ..............................53

3.3

Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL ...78

3.3.1

Mô hình áp dụng chuyển đổi cây cú pháp ............................................80

3.3.2

Mô hình học luật chuyển đổi bằng phương pháp học FnTBL ..............82

3.4

Nâng cao khả năng mở rộng cho mô hình học ............................95

Chương 4........................................................................................................97
CÀI ĐẶT CHƯƠNG TRÌNH ........................................................................97
4.1

Thiết kế ...........................................................................................97

4.1.1

Mô hình tổng thể ...................................................................................97


2.4.1

Ngữ pháp chuyển dịch đảo có thống kê (SITG) ...................................53

2.4.2

Thuật toán phân tích cú pháp song song với SITG...............................55

2.4.3

Đánh nhãn cấu trúc................................................................................58

4.2.1

Thuật toán..............................................................................................99

2.4.4

Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ .....................58

4.2.2

Xây dựng cây cú pháp...........................................................................99

2.4.5

Nhận xét ................................................................................................59

4.2.3


Xây dựng cây quan hệ.........................................................................103

Cách tiếp cận dựa trên cấu trúc vị từ - đối số .............................60

4.2.4

Thuật toán chuyển đổi theo nguyên tắc ..............................................105

2.5

4.2

Thuật toán gán nhãn cơ sở cho ngữ liệu ......................................99

2.5.1

Rút trích các cấu trúc vị từ - đối số .......................................................60

2.5.2

Khối chuyển đổi cấu trúc ......................................................................62

4.3.1

Xây dựng ngữ liệu học ........................................................................106

2.5.3

Nhận xét ................................................................................................64


4.3.2

Xây dựng khung luật cho bộ học chuyển đổi cùng cấp ......................108

Tổng kết chương ............................................................................65

4.3.3

Sơ đồ lớp của chương trình học ..........................................................114

4.3.4

Xây dựng bộ luật (giai đoạn học cùng cấp) ........................................114

4.3.5

Áp dụng bộ luật chuyển đổi cùng cấp.................................................116

2.6

Chương 3........................................................................................................66
MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP .................................................66
3.1

Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái ......66

3.1.1

Ý tưởng .................................................................................................66


3.1.2

Thuật toán học TBL của Eric Brill........................................................68

3.1.3

Nhận xét ................................................................................................70

Trang 7

4.3

4.4

Học chuyển đổi cùng cấp.............................................................106

Học chuyển đổi khác cấp.............................................................117

4.4.1

Xây dựng ngữ liệu học ........................................................................117

4.4.2

Xây dựng khung luật cho quá trình học chuyển đổi khác cấp ............120

4.4.3

Sơ đồ lớp của chương trình học ..........................................................125


4.4.4

Xây dựng bộ luật (giai đoạn học khác cấp) ........................................125

Trang 8


Luận văn tốt nghiệp

4.4.5

Luận văn tốt nghiệp

Áp dụng bộ luật chuyển đổi khác cấp .................................................127

PHỤ LỤC 6..................................................................................................156

Chương 5......................................................................................................128

CÁC NHÃN QUAN HỆ NGỮ PHÁP .........................................................156

THỬ NGHIỆM – ĐÁNH GIÁ ....................................................................128

TÀI LIỆU THAM KHẢO ............................................................................157

5.1

Thử nghiệm...................................................................................128

5.1.1


Độ đo sử dụng .....................................................................................128

5.1.2

Kết quả học rút luật chuyển đổi ..........................................................129

5.1.3

Một số kết quả chuyển đổi ..................................................................131

5.2

Đánh giá ........................................................................................134

5.2.1

Ngữ liệu thử nghiệm ...........................................................................134

5.2.2

Nhận xét ..............................................................................................135

Chương 6......................................................................................................137
TỔNG KẾT ..................................................................................................137
6.1

Kết quả..........................................................................................137

6.2


Hướng phát triển..........................................................................137

6.3

Kết luận.........................................................................................138

PHỤ LỤC 1..................................................................................................139
KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP......................................139
PHỤ LỤC 2..................................................................................................141
KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP ......................................141
PHỤ LỤC 3..................................................................................................142
MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ
PHÁP VCLTRANSFER ..............................................................................142
PHỤ LỤC 4..................................................................................................147
MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH ...............................................147
PHỤ LỤC 5..................................................................................................153
HỆ THỐNG NHÃN NGỮ PHÁP ...............................................................153

Trang 9

Trang 10


Luận văn tốt nghiệp

Luận văn tốt nghiệp

Danh sách các hình


Hình 21: Xây dựng ngữ tiếng Việt từ các quan hệ ngữ pháp.................................... 86
Hình 22: Lưu đồ thuật toán gán nhãn chuyển đổi cơ sở cho ngữ liệu ...................... 87
Hình 23: Lưu đồ thuật toán học luật chuyển đổi

Hình 1: Mô hình dịch trực tiếp .................................................................................. 16
Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian................................................. 17
Hình 3: Mô hình dịch dựa trên sự chuyển đổi........................................................... 18
Hình 4: Hình tháp minh họa các chiến lược dịch máy .............................................. 20
Hình 5: Cây cú pháp của câu “I have already read that interesting book.” .............. 21
Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt ........................................ 26
Hình 7: Áp dụng luật cố định để thực hiện việc chuyển đổi cấu trúc ....................... 36
Hình 8: Trường hợp chuyển đổi khác cấp luật cố định không thể thực hiện được... 37
Hình 9: Khả năng chuyển đổi cú pháp của luật cố định............................................ 38
Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG........................................... 46
Hình 11: Tác tố kết hợp ............................................................................................. 47
Hình 12: Tác tố thay thế............................................................................................. 48
Hình 13: Một số mẫu cây sơ cấp trong tự điển chuyển đổi cây Anh-Pháp .............. 50
Hình 14: Cây phân tích ngữ pháp chuyển dịch đảo.. ................................................ 55
Hình 15: Chuyển đổi khung giữa các ngôn ngữ........................................................ 63
Hình 16: Sơ đồ phương pháp học TBL tổng quát ..................................................... 70

cùng cấp – FnTBL ................. 90

Hình 24: Lưu đồ học luật chuyển đổi khác cấp (FnTBL) ......................................... 94
Hình 25: Mô hình tổng thể của quá trình học luật chuyển đổi Anh-Việt ................. 97
Hình 26: Kết quả phân tích cú pháp: “Last week, I saw a very interesting film.”.. 100
Hình 27: Cây quan hệ của câu “Last week, I saw a very interesting film.”............ 104
Hình 28: Cây tiếng Anh đã chuyển đổi các thành phần đúng với tiếng Việt.......... 107
Hình 29: Cây cú pháp của câu “What is a computer ?” .......................................... 111
Hình 30: Cây cú pháp của (E) sau khi được áp dụng luật R................................... 113

Hình 31: Sơ đồ lớp khối học luật chuyển đổi cùng cấp .......................................... 114
Hình 32: Mô hình áp dụng tập luật chuyển đổi cùng cấp ....................................... 116
Hình 33: Cây cú pháp của câu tiếng Anh “It is a good type of book.”................... 118
Hình 34: Một cây cú pháp tiếng Anh sau khi chuyển sang cấu trúc tiếng Việt...... 119
Hình 35: Một phần cây cú pháp với đường đi của thành phần [ADVP] ................. 123
Hình 36: Sơ đồ lớp khối học luật chuyển đổi khác cấp........................................... 125
Hình 37: Mô hình áp dụng tập luật chuyển đổi khác cấp........................................ 127
Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp.............................................. 130
Hình 39: Đánh giá tập luật học chuyển đổi khác cấp ............................................. 131

Hình 17: Một ví dụ minh hoạ chuyển đổi cây cú pháp ............................................ 79
Hình 18: Mô hình áp dụng chuyển đổi cây cú pháp.................................................. 81
Hình 19: Mô hình học luật chuyển đổi cây cú pháp theo thuật toán FnTBL............ 82
Hình 20: Ví dụ về các quan hệ ngữ pháp trong ngữ.................................................. 85

Trang 11

Trang 12


Luận văn tốt nghiệp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Danh sách các bảng

Chương 1
TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY

Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng Anh................................... 27

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt................................... 28

CÚ PHÁP

Bảng 3: Danh sách 23 cấu trúc vị từ - đối số trong tiếng Hoa .................................. 61
Bảng 4: Một số quan hệ ngữ pháp được ánh xạ cùng các ngoại lệ .......................... 84
Bảng 5: Các quan hệ trong câu tiếng Anh............................................................... 103
Bảng 6: Ý nghĩa các ký hiệu dùng trong mô tả ngữ liệu học giai đoạn 1............... 108

Chương này giới thiệu về đề tài luận văn - mục đích và phạm vi thực hiện.
Phần 2 của chương trình bày một cách tổng quát về chuyển đổi cây cú pháp: vai trò,
vị trí của khối chuyển đổi cây cú pháp trong hệ dịch Anh-Việt. Ngoài ra, những
khái niệm then chốt liên quan đến đề tài, cũng như các cơ sở về lý thuyết ngôn ngữ

Bảng 7: Các thành phần trong khung luật học bước 1 ............................................ 109

học và tin học, là nền tảng để chúng em thực hiện luận văn, cũng lần lượt được nêu

Bảng 8: Các khung luật dùng trong học luật chuyển đổi cùng cấp......................... 109

rõ trong phần 3 của chương.

Bảng 9: Ý nghĩa các khuôn mẫu trong khung luật .................................................. 110

1.1 Đặt vấn đề

Bảng 10: Các đặc trưng ngôn ngữ của các mẫu rút ra từ cây cú pháp tiếng Anh... 112

Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt


Bảng 11: Các thành phần trong khung luật học chuyển đổi khác cấp .................... 120

qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu

Bảng 12: Các khung luật dùng trong học luật chuyển đổi khác cấp....................... 121

trước khi máy tính điện tử ra đời. Và chẳng bao lâu sau khi máy tính điện tử đầu

Bảng 13: Ý nghĩa các thành phần trong khung luật bước 2 .................................... 122
Bảng 14: Một phần cây cú pháp minh hoạ việc đánh ID tương đối cho route....... 123

tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý,
người ta đã nghĩ ngay đến việc sử dụng “bộ não máy tính” cho những ứng dụng
không liên quan đến số, trong đó có vấn đề dịch tự động. Lần đầu tiên, việc sử dụng

Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp ........................................ 130

máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập

Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp ........................................ 131

đến trong những cuộc thảo luận giữa Andrew D. Booth và Warren Weaver vào năm

Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp ..................... 135

1946. Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth và các cộng sự của
ông đã cho ra mắt “hệ dịch dựa trên tự điển” đầu tiên tại hội nghị của MIT vào năm
1952.
Từ bước khởi đầu đó, dịch máy đã ngày càng thu hút được sự quan tâm nghiên
cứu của nhiều nhà khoa học máy tính, nhiều nhà ngôn ngữ học,... và được cộng

đồng thế giới thừa nhận hiệu quả to lớn của nó. Dịch máy không những giúp cho

Trang 13

Trang 14


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

việc dịch các tài liệu, dịch các trang Web nhanh chóng và ít tốn công sức hơn, việc

Trong luận văn này, chúng em tìm hiểu và xây dựng chương trình chuyển đổi

giao lưu trao đổi văn hoá giữa các nước dễ dàng hơn, mà còn có ý nghĩa trong việc

cây cú pháp Anh-Việt, đóng vai trò là một khối chuyển đổi cấu trúc trong hệ dịch tự

bảo mật cho tài liệu quan trọng cần dịch thuật.

động Anh-Việt dựa trên sự chuyển đổi. Như đã trình bày ở phần trên, việc thực hiện

Tuy vậy, để có được một hệ dịch tự động cho kết quả dịch tốt là cả một quá

một chương trình có khả năng bao quát tất cả các cấu trúc chuyển đổi có thể có là

trình nghiên cứu và xây dựng cực kỳ phức tạp, phụ thuộc rất nhiều vào các ngôn

một vấn đề không tưởng trong xử lý ngôn ngữ tự nhiên. Do đó, chúng em giới hạn


ngữ cần dịch. Điều này khiến cho dịch máy đã từng lâm vào một thời kỳ “khủng

đề tài chuyển đổi cây cú pháp này ở các văn bản thuộc lĩnh vực khoa học kỹ thuật.

hoảng” về phương pháp xây dựng một hệ dịch. Từ năm 1960, sau một thập kỷ ra

Kết quả của chương trình chuyển đổi cây cú pháp Anh - Việt thể hiện gián tiếp

đời, dịch máy đã có nhiều chiến lược, phương pháp rõ ràng hơn cũng như mục tiêu

qua trật tự từ trong câu tiếng Việt được dịch ra (không quan tâm đến nghĩa của từ

của hệ dịch máy được đặt ra sát với thực tế hơn. Người ta nhận thấy rằng tham vọng

chọn có thực sự chính xác hay không).

xây dựng được một hệ dịch tự động có khả năng dịch tất cả mọi câu của một ngôn

Trong phần tiếp theo, chúng em trình bày tóm tắt về ba chiến lược dịch máy

ngữ tự nhiên là điều không tưởng, mục tiêu hệ dịch phải thu gọn lại trong một lĩnh

để chúng ta có thể có một cái nhìn bao quát hơn về hệ dịch dựa trên sự chuyển đổi,

vực hẹp để hạn chế bớt tính nhập nhằng của ngôn ngữ.

thấy được các ưu điểm của nó so với hai chiến dịch còn lại.

Có 3 chiến lược dịch máy, đó là :


1.2 Các chiến lược dịch máy

™ Dịch trực tiếp
™ Dịch dựa trên ngôn ngữ trung gian

1.1.1 Chiến lược dịch trực tiếp

™ Dịch dựa trên chuyển đổi

Cho đến nay, các hệ dịch dựa trên chuyển đổi được đánh giá cao vì tính khả
thi của nó. Tùy thuộc vào hai ngôn ngữ cần dịch mà hệ thống có thể thiết kế các
khối phân tích, chuyển đổi, tái tạo với độ phức tạp thích hợp. Một số hệ dịch dựa
trên chuyển đổi tiêu biểu như, hệ dịch Anh-Pháp METEO được xây dựng bởi đại
học Montreal - TAUM, được đưa vào sử dụng để dịch các bản tin dự báo thời tiết;

Chiến lược này có cách tiếp cận dịch máy đơn giản nhất. Thiết kế của hệ xử
lý các hệ thống này rất đơn giản, bao gồm 3 khối chính :
™ Phân tích hình thái : đảm nhận việc đưa từ trong ngôn ngữ nguồn về dạng

gốc của nó để có thể thực hiện việc tra tự điển.
™ Tra từ điển song ngữ: xác định từ tương ứng từ gốc trong ngôn ngữ đích.
™ Sắp xếp trật tự từ đơn giản : quá trình này thường dựa trên những qui luật

hệ dịch GETA (Đại học Grenoble, 1971-),...
Trong các hệ dịch dựa trên chuyển đổi, bước chuyển đổi là bước quan trọng
nhất, giữ vai trò quyết định chất lượng hệ dịch. Chuyển đổi này bao gồm hai phần

cố định và đơn giản vì ta không thể xây dựng luật xử lý trật tự phức tạp
hơn nếu không có những phân tích ngôn ngữ nguồn cần thiết.


chuyển đổi chính, đó là chuyển đổi từ vựng và chuyển đổi cấu trúc. Chuyển đổi từ
vựng là quá trình chọn nghĩa đúng cho các từ ở ngôn ngữ nguồn thể hiện sang từ
tương ứng của ngôn ngữ đích. Còn chuyển đổi cấu trúc là quá trình sắp xếp lại,

Văn bản
nguồn

Phân tích
hình thái

Tra từ điển
song ngữ

Sắp xếp
trật tự đơn
giản

Văn bản
kết quả

thêm bớt, thay thế các thành phần cấu trúc của câu ở ngôn ngữ nguồn để có được
Hình 1: Mô hình dịch trực tiếp

cấu trúc tương ứng ở ngôn ngữ đích.

Trang 15

Trang 16



Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Các hệ dịch này hạn chế tối đa các bước phân tích cần thiết để giải quyết nhập
nhằng, cũng như đơn giản hoá cả việc xác định các thành phần tương ứng ở ngôn
ngữ đích thông qua tự điển lẫn xác định trật tự đúng của các từ trong ngôn ngữ đích.
Giữa khối phân tích và tái tạo câu không có bất kỳ bước trung gian nào. Các từ

ngôn ngữ trung gian thoả điều kiện là điều cực kỳ khó khăn. Hơn nữa, tất cả những
thông tin cần thiết trong bước tái tạo phải nằm trong ngôn ngữ trung gian này.

1.1.3 Chiến lược dịch dựa trên sự chuyển đổi

trong văn bản nguồn chỉ qua một bước phân tích hình thái duy nhất. Cách làm này
chỉ phù hợp khi ngôn ngữ nguồn và đích có rất nhiều điểm giống nhau như tiếng
Anh và tiếng Tây Ban Nha, không phù hợp với phần lớn ngôn ngữ khác.

Ngữ pháp ngôn
ngữ nguồn / Tự
điển

1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian

lại theo một ngôn ngữ trung gian, và văn bản ngôn ngữ đích cũng được phát sinh từ

Luật chuyển đổi /
Tự điển


ngôn ngữ trung gian này. Do đó, chỉ có duy nhất một cách biểu diễn cho một đơn vị
Ngữ pháp ngôn
ngữ đích / Tự điển
Phân tích

Phát sinh

CHUYỂN ĐỔI
Biểu diễn trung gian của
ngôn ngữ đích

ngữ nghĩa, bất kể ngôn ngữ gốc của nó là gì.

Văn bản
nguồn

PHÂN TÍCH
Biểu diễn trung gian của
ngôn ngữ nguồn

Trong chiến lược này, ngữ nghĩa của văn bản ngôn ngữ nguồn được biểu diễn

Ngôn ngữ
trung gian

Văn bản nguồn

Văn bản
kết quả


PHÁT SINH
Văn bản kết quả

Hình 3: Mô hình dịch dựa trên sự chuyển đổi
Hình 2: Mô hình dịch dựa trên ngôn ngữ trung gian

Chiến lược này chia quá trình dịch thành 3 giai đoạn
Xử lý trong hệ thống dựa trên ngôn ngữ trung gian bao gồm hai bước quan
trọng, đó là :

™ Phân tích
™ Chuyển đổi

™ Phân tích văn bản nguồn để biểu diễn lại dưới dạng thức của một ngôn ngữ

trung gian.

™ Phát sinh

Chiến lược dịch dựa trên chuyển đổi phân tích và biểu diễn lại câu ngôn ở ngữ

™ Sử dụng những đơn vị ngữ nghĩa và cấu trúc cú pháp của ngôn ngữ đích để

nguồn theo một dạng thức trung gian thích hợp cho việc chuyển đổi. Khối phát sinh

phát sinh văn bản kết quả từ cách biểu diễn theo dạng ngôn ngữ trung gian.

câu sẽ nhận dạng thức trung gian của ngôn ngữ đích và tạo câu ở ngôn ngữ đích. Sự

Ngôn ngữ trung gian được sử dụng trong những hệ dịch như vậy đòi hỏi phải


chuyển đổi giữa hai dạng thức trung gian được thực hiện nhờ khối chuyển đổi, khối

đủ phong phú để biểu diễn được tất cả các đơn vị từ vựng và cú pháp của các ngôn

này sử dụng những tự điển chuyển đổi chứa các tương quan từ vựng giữa hai ngôn

ngữ liên quan trong quá trình dịch. Do đó, việc tự định nghĩa hay tìm kiếm một

ngữ nguồn và đích và một tập hợp các luật chuyển đổi.

Trang 17

Trang 18


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Quá trình phân tích có thể được thực hiện ở nhiều cấp độ khác nhau tùy thuộc

1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp

vào hai ngôn ngữ, chẳng hạn như phân tích hình thái, cấu trúc, ngữ nghĩa,... Các cấp

cận dựa trên chuyển đổi

độ phân tích khác nhau dẫn đến nhiều cấp độ của dạng thức trung gian. Những dạng
thức này chứa các thành phần từ vựng nguồn và đích, phản ánh cấu trúc của hai


Ngôn ngữ trung gian

ngôn ngữ. Có nhiều loại biểu diễn khác nhau được sử dụng trong các hệ dịch dựa
trên sự chuyển đổi như: cây phụ thuộc, cấu trúc ngữ, ...
Chiến lược dịch máy dựa trên chuyển đổi có nhiều ưu điểm. Trước hết, tính

Chuyển đổi

tương đồng giữa ngôn ngữ nguồn và đích càng cao thì bước chuyển đổi càng đơn
giản. Tương tự, giai đoạn phân tích và phát sinh cũng sẽ đơn giản hơn so với các hệ
dịch dựa trên ngôn ngữ trung gian.

Dịch trực tiếp

Trong ba chiến lược nói trên thì chiến lược dựa trên sự chuyển đổi được quan
Văn bản nguồn

tâm nhiều nhất vì tính khả thi cao và rất linh động. Bằng chứng là có nhiều hệ dịch
dựa trên sự chuyển đổi ra đời và hoạt động hiệu quả.[21]

Văn bản đích

Hình 4: Hình tháp minh họa các chiến lược dịch máy1

Trên lý thuyết, phân tích ngữ pháp càng sâu, gánh nặng ở bước chuyển đổi
càng giảm. Hai vấn đề lớn mà khối chuyển đổi cần giải quyết là chuyển đổi từ vựng
và chuyển đổi cấu trúc.
Chuyển đổi từ vựng là thay thế các từ của văn bản nguồn bằng các từ tương
ứng của ngôn ngữ đích. Công việc này sẽ rất đơn giản nếu như mỗi từ của ngôn ngữ

nguồn tương ứng với một từ duy nhất ở ngôn ngữ đích nhưng trên thực tế, mỗi từ ở
ngôn ngữ nguồn có thể không có từ tương ứng hoặc có nhiều từ tương ứng ở ngôn
ngữ đích. Chọn lựa như thế nào cho đúng vào ngữ cảnh của câu cần dịch là vấn đề
mà chuyển đổi từ vựng phải giải quyết.
Chuyển đổi cấu trúc là bước sắp xếp các thành phần ngữ pháp của ngôn ngữ
nguồn, bao gồm cả chèn, xoá các thành phần sao cho kết quả dịch tuân thủ những
luật ngữ pháp của ngôn ngữ đích, văn bản kết xuất sẽ gần với ngôn ngữ tự nhiên

1

Trang 19

Hình tháp này được nhóm GETA đưa ra vào năm 1968

Trang 20


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

hơn mà vẫn giữ đúng ngữ nghĩa và sắc thái của văn bản gốc. Như vậy khối chuyển

Nếu chỉ đơn thuần là gắn nghĩa thì câu tiếng Việt được phát sinh là “Tôi rồi

đổi cấu trúc giữ nhiệm vụ thực hiện những thay đổi cần thiết khi biểu diễn trung

đọc đó thú vị cuốn sách .”. Trong tiếng Việt, câu này hoàn toàn vô nghĩa vì trật tự

gian của ngôn ngữ nguồn không thể ánh xạ trực tiếp thành cách biểu diễn tương tự


các thành phần ở sai vị trí sẽ dẫn đến trật tự từ sai và ta không biết được nghĩa chính

trong ngôn ngữ đích do có sự khác biệt về cấu trúc của hai ngôn ngữ.

xác của câu là gì.

Cấu trúc cú pháp của một câu được biểu diễn dưới dạng cây cú pháp. Chuyển

Chương trình chuyển đổi cây cú pháp có nhiệm vụ thay đổi vị trí, chèn hoặc

đổi cấu trúc của một câu từ ngôn ngữ nguồn sang ngôn ngữ đích tức là quá trình xác

xoá các thành phần trong cây cú pháp sao cho trật tự từ bề mặt của câu trở nên

định mối liên hệ giữa các thành phần trong cây cú pháp và tìm ra những qui luật để

đúng. Trong ví dụ trên, ta thấy nếu chương trình chuyển đổi thay đổi cây cú pháp

chuyển cây cú pháp đó về dạng phù hợp với ngôn ngữ đích. Nói cách khác ta phải

của câu theo các luật sau :

tìm một cây cú pháp tương đương với cây cú pháp của ngôn ngữ nguồn.

1. (ADJP (DT) (A))→ (ADJP (A) (DT)) : Nếu ngữ tính từ bao gồm một chỉ định

Ví dụ : Có câu tiếng Anh “I have read that interesting book.” được phân tích
cú pháp và các nghĩa của từ trong câu đã được chọn đúng như sau (từ có nghĩa ε


từ (DT) đứng trước một tính từ (A) thì đảo trật tự 2 thành phần con đó.
2. (NP (ADJP) (N)) → (NP (N) (ADJP)) : Nếu ngữ danh từ bao gồm một ngữ
tính từ (ADJP) đứng trước danh từ (N) thì đảo trật tự 2 thành phần con đó.

tức là từ chỉ đóng vai trò cú pháp, nó không có nghĩa thực sự) :

3. (VP (AUX have) (VP)) → (VP ε (VP)) : Nếu ngữ động từ bao gồm một trợ

S

động từ have đứng trước một ngữ động từ khác từ xoá trợ động từ đi.
4. (VP (ADV already) (VP)) → (VP (VP) (ADV already)) : Nếu ngữ động từ bao

NP

VP

PRP

AUX

I/Tôi

have/ε

.

gồm trạng từ already đứng trước ngữ động từ thì đảo trật tự 2 thành phần

.


này.

VP

Æ câu tiếng Việt “Tôi đọc cuốn sách thú vị đó rồi.” sẽ là một câu có nghĩa.

ADV

1.3 Cơ sở lý thuyết

VP

Để chuyển đổi cây cú pháp, chúng ta phải có được :

already/rồi
NP

V

™ Kết quả phân tích ngữ pháp của một câu tiếng Anh ra dạng cây cú pháp và

những thông tin cần thiết khác để xác định mối liên hệ giữa các thành phần

read/đọc
ADJP

N

cây cú pháp. Nhưng chỉ cần quan tâm đến những mối liên hệ có ảnh hưởng


book/cuốn sách
DT

ADJ

that/đó

interesting/thú vị

đến việc chuyển đổi cấu trúc cú pháp của câu.
™ Bộ luật chuyển đổi từ cây cú pháp tiếng Anh sang cây cú pháp tiếng Việt.

Hình 5: Cây cú pháp của câu “I have already read that
interesting book.”

Trang 21

Trang 22


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi

Tập hợp luật ngữ pháp bao gồm 2 loại luật là luật từ pháp và luật cú pháp.

“Yếu tố nào gây ra sự khác biệt trong cấu trúc câu giữa hai ngôn ngữ ?”, đó là

câu hỏi đầu tiên đặt ra cho những người muốn tự động hoá việc chuyển đổi cấu trúc
câu giữa hai ngôn ngữ. Đây cũng là một vấn đề lớn mà các nhà ngôn ngữ học so
sánh phải giải quyết. Với cặp ngôn ngữ Anh - Việt, đã có nhiều công trình nghiên
cứu về vấn đề này, tuy nhiên hầu như chưa có công trình nào giải quyết trọn vẹn vì
ngay cả ngữ pháp tiếng Việt hiện vẫn chưa được nghiên cứu đầy đủ. Có người quan
niệm ngữ pháp tiếng Việt cũng giống như ngữ pháp tiếng Anh (quan niệm “dĩ Âu vi
trung”), lại có ý kiến cho rằng nên phân tích ngữ pháp câu tiếng Việt theo cấu trúc

Luật từ pháp đảm bảo cho mỗi từ tồn tại trong câu đều có nghĩa riêng. Luật cú pháp
quy định trật tự kết hợp các thành phần ngữ pháp để tạo thành một câu hoàn chỉnh
có nghĩa.
™ Cây cú pháp

Trong định nghĩa ngữ pháp trên ta thấy mọi câu đều bắt đầu bằng ký hiệu S0
và được biểu diễn bằng một chuỗi phân cấp của các thành tố. Cấu trúc ngữ pháp của
một câu có thể rất phức tạp, vì vậy để biểu diễn nó, người ta dùng cây cú pháp thể
hiện các mối quan hệ giữa các thành phần trong luật ngữ pháp bằng sơ đồ trực quan
dạng cây. Mỗi cây cú pháp có một nút gốc đóng vai trò là S0, mỗi nút lá tương ứng

Đề - Thuyết.
Vì mục tiêu cuối cùng của chương trình chuyển đổi cây cú pháp là trật tự các
từ trong câu phát sinh phải đúng, chúng em chọn cách phân tích cú pháp câu tiếng
Việt theo ngữ pháp tạo sinh của Chomsky với các nhãn cú pháp (thành tố kết thúc
và thành tố không kết thúc) giống như ngữ pháp tiếng Anh để so sánh sự khác biệt

với một từ (thành tố kết thúc).
Định nghĩa: Cho G = (N , Σ, P, S 0 ) là một ngữ pháp phi ngữ cảnh. S0 biểu diễn
nút gốc hay nút khởi đầu của cây phân cấp.
1. Nếu S0→X1 X2... Xn là một luật ngữ pháp ( ∈ P ) thì ta gắn các nút X1,X2,
..., Xn vào làm con của nút gốc theo thứ tự từ trái sang phải.


cú pháp câu tiếng Việt và tiếng Anh nhằm giảm bớt độ phức tạp của bài toán đặt ra,
đồng thời sử dụng được nhiều kết quả của ngành ngôn ngữ học so sánh.

2. Nếu có nút con Xi và các luật Xi→Y1 Y2... Yn, thì ta sẽ gắn các nút Y1,Y2,

1.3.1.1 Ngữ pháp tạo sinh

3. Tiếp tục như thế cho đến khi tập hợp các nút con cuối cùng đều là thành tố

..., Yn vào làm con trực tiếp của nút Xi theo thứ tự từ trái sang phải.
kết thúc (terminal) hoặc là chuỗi rỗng ε .

™ Ngữ pháp

Để tạo thành một câu có nghĩa trong một ngôn ngữ nào đó, ta không thể chỉ

Trong luận văn này, chúng em sử dụng bộ phân tích cú pháp tiếng Anh EGT

đơn giản kết hợp các từ bất kỳ theo thứ tự ngẫu nhiên, mà sự kết hợp đó phải tuân

(2001) cho kết quả phân tích cú pháp có độ chính xác cao nhất trên thế giới hiện

thủ những luật ngữ pháp của ngôn ngữ đó.

nay. Bộ nhãn cú pháp và nhãn từ loại sử dụng là bộ nhãn của Penn Tree Bank (phụ

Định nghĩa: Ngữ pháp G được định nghĩa là sự hợp thành của 4 thành phần

lục 5).


G = ( N , Σ, P, S 0 ) , với :
™ N : tập hợp các thành tố không kết thúc (nonterminal) như NP, VP,...
™



1.3.1.2 Những khác biệt trong cấu trúc tiếng Việt so với tiếng Anh
Tiếng Anh và tiếng Việt cùng loại hình trật tự S-V-O là loại hình phổ biến thứ

: tập hợp các thành tố kết thúc (terminal) như Adj, Noun,...

nhì sau loại hình S-O-V. Tuy nhiên, trật tự từ trong các ngữ có một số điểm khác

™ P : Tập hợp các luật ngữ pháp

nhau, nhất là thành phần định ngữ trong danh ngữ. Đối với tiếng Việt, trật tự từ và

™ S0 : Ký hiệu thành tố khởi đầu câu

từ hư là hai phương tiện ngữ pháp chủ yếu. Theo quan điểm ngôn ngữ học truyền

Trang 23

Trang 24


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp


thống: các nhân tố trật tự từ phụ thuộc vào cấu trúc của đơn vị ngôn ngữ và phụ
thuộc vào các mối quan hệ giữa các thành tố. Có nhân tố bên ngoài và có nhân tố
bên trong, chuyển đổi cấu trúc chỉ tập trung vào những nhân tố bên ngoài chứ
không quan tâm đến cấu trúc của từ. Do đó việc khảo sát trật tự từ trong các thành
phần trong ngữ và cao hơn là trật tự các thành phần trong câu sẽ là cơ sở để xây
dựng cách thức khai thác nguồn tri thức chuyển đổi cấu trúc.

Ngữ danh từ : trật tự các thành phần bổ nghĩa cho danh từ chính trong ngữ

danh từ có nhiều điểm khác biệt so với tiếng Anh. Vị trí của thành phần bổ nghĩa so
với danh từ chính phụ thuộc vào loại chức năng bổ nghĩa của nó. Định ngữ được
chia thành 2 loại căn cứ vào vị trí của nó so với danh từ chính: tiền định ngữ (đứng
trước) và hậu định ngữ (đứng sau).
™

a

big

red

fox



một

con chồn


đỏ

to lớn

0

+1

+2

-2
-1
0
Định ngữ là danh từ :
the

weather

forecast



dự báo

thời tiết

0

+1


-1
0
Định ngữ là danh từ riêng :

1.3.1.2.1 Trong phạm vi ngữ
™

Định ngữ là tính từ miêu tả :

Tiền định ngữ tiếng Anh có thể là tính từ miêu tả, danh từ, động danh từ, động

tính từ, phó từ, danh từ chỉ sở hữu cách, chỉ định từ, tính từ sở hữu, số từ. Đối với
tiếng Việt, phần lớn các tiền định ngữ này đứng sau danh từ chính. Tuy nhiên cũng
có một số trường hợp ngoại lệ.

forest

Nam Cat Tien



rừng

Nam Cát Tiên

0
-1
0
Định ngữ là động danh từ hay động tính từ :
freezing


point



điểm

đông đặc

0

+1

-1
0
Định ngữ là phó từ:
the

after

years



những năm

sau đó

-1
0

0
Định ngữ là chỉ định từ hay tính từ sở hữu:
that

man

-1

0

her

friend




-1
0
Định ngữ là số đếm:
One

sister



người đàn ông

đó


0

+1

bạn

của cô ấy

0

+1

một

cô em gái

-1
0
-1
Định ngữ là số thứ tự:
The

last

Mohicans

-1

0


+1

+1

0


người Mohican

cuối cùng

0

+1

Hình 6: So sánh trật tự định ngữ tiếng Anh và tiếng Việt (0: vị
trí danh từ chính trong ngữ, -: từ bổ nghĩa đứng trước danh từ
chính, +: từ bổ nghĩa đứng sau danh từ chính)

Trang 25

Trang 26


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Dưới đây là bảng tóm tắt trật tự phổ biến của các thành phần trong danh ngữ
tiếng Anh và tiếng Việt. Trong danh ngữ, thành phần nào có vị trí nhỏ hơn sẽ đứng

trước.
Vị trí

Từ loại

Ví dụ

7

Quốc tịch

Việt, Hoa

8

Kích thước

Nhỏ, lớn

9

Hình dạng, chiều dài

Tròn

10

Tuổi tác

Mới, cũ


1

Pre Determiner

All

11

Chất lượng

Đẹp, có ích

2

Determiner

Her, …Some,…

12

Màu sắc

Xanh, đỏ

3

Ordinal Number

First


13

Số thứ tự

Một, hai

4

Cardinal Number

One, One hundred

14

Chỉ định từ,

Đó, nọ

5

Size

Small, big

15

Tính từ chỉ sở hữu

Của cô ta


6

Quality

Pretty, modern

7

Age

Old,new

8

Shape, length

Round, long

9

Color

Green, red

10

Nationality

Vietnamese


11

Present/ Past participle

Printing, fried

12

Sub Noun

13

Head Noun

14

Possessive Case

Bảng 2: Trật tự các thành phần trong ngữ danh từ tiếng Việt

™ Hậu định ngữ

Không có sự khác biệt về trật tự của hậu định ngữ so với danh từ chính
trong tiếng Anh và tiếng Việt
The girl with blond hair → Cô gái có mái tóc vàng
™ Ngữ động từ, ngữ tính từ : Phần lớn có cấu trúc giống nhau ở 2 ngôn ngữ

1.3.1.2.2 Trong phạm vi mệnh đề


’s

Ở mức mệnh đề, chúng ta quan tâm đến trật tự các thành phần ngữ pháp như :

Bảng 1: Trật tự các thành phần trong ngữ danh từ tiếng

chủ từ, động từ chính, trợ động từ, túc từ trực tiếp, túc từ gián tiếp, trạng ngữ,... Một

Anh

cách đơn giản ta có thể coi mệnh đề là một câu đơn vì nó có các thành phần chủ từ,
động từ chính.
Vị trí

Từ loại

1

Từ tổng lượng

2
3
4

Danh từ chính

5

Danh từ phụ


6

Tính từ chỉ trạng thái vật liệu

Ví dụ

Tiếng Anh và tiếng Việt đều thuộc loại hình ngôn ngữ S-V-O, nên nhìn chung

Tất cả

trật tự của nhánh trong cây cú pháp giữ vai trò là một quan hệ ngữ pháp trong mệnh

Số từ

Một, hai

có xu hướng không thay đổi nhiều. Theo kết quả khảo sát thì thành phần trạng ngữ

Từ chỉ xuất

Cái, con

và thành phần hỏi trong câu hỏi tiếng Anh có trật tự bị thay đổi nhiều nhất.
™ Trạng ngữ

Trạng ngữ chỉ thời gian trong tiếng Anh thường nằm cuối câu, nhưng ngược
Thiếc

lại trong tiếng Việt chúng thường nằm ở đầu câu. Trạng ngữ chỉ thể cách, tần suất


Trang 27

Trang 28


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

trong tiếng Anh có thể xuất hiện ở đầu câu, sau chủ ngữ, hoặc cuối câu tùy theo

™ Từ tính thái: có số lượng nhỏ, nhưng có đặc trưng riêng về bản chất ngữ

từng loại trạng ngữ. Nói chung, đặc điểm riêng của từng ngôn ngữ và thói quen sử

pháp. Nó không có ý nghĩa từ vựng và cũng không có ý nghĩa ngữ pháp.

dụng ngôn ngữ đã hình thành nên những trật tự tự nhiên không tuân theo một qui

Từ tình thái diễn đạt mối quan hệ giữa người nói với thực tại, nhờ đó góp

luật cụ thể nào.

phần hình thành mục đích phát ngôn. Từ tình thái không làm thành phần

Ví dụ :

của câu.
™ Hư từ: có số lượng rất ít, có tính chất ngữ pháp, là phương tiện biểu đạt


I have not done my exercises yet.

mối quan hệ giữa các khái niệm trong tư duy theo cách thức phản ánh bằng

-> Tôi chưa làm bài tập.
™ Câu hỏi

ngôn ngữ của người bản ngữ. Hư từ không làm trung tâm của ngữ, chỉ làm

Phương tiện ngữ pháp “trật tự từ” trong tiếng Anh thể hiện rõ nhất qua các loại

thành tố phụ nhưng cũng rất ít, đa số các trường hợp, hư từ được dùng làm

câu hỏi. Câu hỏi trong tiếng Anh được chia thành hai loại chính Yes/No và WH-

yếu tố liên kết “xúc tác” của các đơn vị cấu trúc ngữ pháp. Hư từ không

question. Thành phần muốn hỏi được đảo lên đầu câu và được thay thế bằng từ hỏi

độc lập tạo câu và cũng không làm thành phần câu.

tương ứng. Chẳng hạn khi muốn hỏi “Con chó của bạn đã cắn ai vậy?”, ta dùng

Hư từ tiếng Việt bao gồm hai tập con: hư từ làm từ phụ diễn đạt các ý nghĩa

“Whom did your dog bite ?”, từ hỏi whom cho biết ta đang muốn hỏi túc từ của

ngữ pháp của thực từ, còn gọi là hư từ từ pháp, hư từ với chức năng liên kết, còn gọi

động từ chính trong câu và whom giữ vị trí đầu câu.


là hư từ cú pháp, bao gồm cả liên từ và giới từ.

Trật tự các thành phần trong câu hỏi tiếng Việt không thay đổi so với các loại

Trong bài toán chuyển đổi cây cú pháp, ta phải quan tâm đến hư từ vì nó có

câu khẳng định, phủ định. Nhưng trong đó, xuất hiện các từ được thêm vào như

liên quan đến cấu trúc cả các đơn vị ngữ pháp, đồng thời hư từ từ loại là từ loại

“không”, “phải không”,...

không có trong tiếng Anh, là những từ mà máy tự động thêm vào để câu dịch phát
sinh có nghĩa rõ ràng và tự nhiên hơn.

1.3.1.2.3 Phạm vi câu
Thành phần được khảo sát trật tự là các mệnh đề. Hầu hết mệnh đề (chính hay
phụ) trong tiếng Anh đều giữ nguyên trật tự khi dịch sang tiếng Việt. Điều này làm
giảm bớt độ phức tạp cho bài toán chuyển đổi trật tự các thành phần trong một câu.

Ví dụ:
I am going to school.



Tôi đang đi học.

He ate a loaf of bread .




Anh ta đã ăn một ổ bánh mì.

1.3.1.3 Các nhân tố ảnh hưởng

1.3.1.2.4 Hư từ

Từ những kết quả nghiên cứu của ngành ngôn ngữ học so sánh, ta có thể xác

Tiếng Việt có 3 tập hợp từ cơ bản:
™ Thực từ: chiếm số lượng lớn nhất trong vốn từ, mang ý nghĩa ngữ vựng.

định được những nhân tố nào ảnh hưởng đến sự khác biệt giữa cấu trúc tiếng Anh

Thực từ có thể đứng làm trung tâm các ngữ, tập hợp chung quanh chúng là

và tiếng Việt. Dựa trên cơ sở đó, chương trình chuyển đổi sẽ tự động rút ra các luật

những thành tố phụ. Thực từ có thể giữ chức vụ ngữ pháp trong câu, tức là

để chuyển đổi các thành phần trong cây cú pháp của tiếng Anh cho phù hợp với

làm thành phần câu (thành phần chính và phụ), xa hơn nữa là thực từ có

tiếng Việt. Trật tự các thành phần cây cú pháp phụ thuộc vào những nhân tố sau :

khả năng độc lập tạo câu.

Trang 29


Trang 30


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

1.3.1.3.1 Nhân tố về loại hình ngôn ngữ

1.3.1.3.3 Nhân tố về cú pháp

Theo kết quả nghiên cứu của Greenberg: trật tự và đặc điểm các thành phần

Một số nhân tố về cú pháp ảnh hưởng đến trật tự các thành phần trong câu là:

trong câu bị ảnh hưởng rất lớn bởi loại hình ngôn ngữ và loại hình trật tự từ. Những

™ Thể (bị động/ chủ động) : Trong tiếng Anh, câu dạng bị động được sử dụng

nghiên cứu về sự khác biệt trật tự các thành phần giữa hai ngôn ngữ Anh và Việt

rất phổ biến (nhất là trong văn bản khoa học kỹ thuật). Tuy nhiên trong
tiếng Việt, người ta lại thường dùng thể chủ động hơn.

nói trên cũng chứng minh thêm về điều này. Chẳng hạn một số khác biệt:
™ Trong ngữ danh từ :

Ví dụ:


¾ Trật tự giữa tính từ và danh từ (tiếng Anh: tính từ trước danh từ chính,

“Any computer is controlled by programmed instructions.” (Bị động)
Æ “Bất kỳ máy tính nào cũng được điều khiển bởi các lệnh được lập trình sẵn”.

tiếng Việt: danh từ chính đứng trước tính từ).
¾ Vị trí danh từ chính (head noun) (tiếng Anh: đứng sau các thành phần bổ

(Chủ động)
™ Ở tiếng Anh, người ta thường sử dụng dạng danh hoá (nominalization).

nghĩa, tiếng Việt: danh từ chính đứng trước).
™ Vị trí danh từ sở hữu và vật sở hữu : Mary’s shirt Æ áo sơ mi của Mary

Trong khi đó, ở tiếng Việt dạng động hoá (verbalization) lại được dùng

™ Hư từ trong tiếng Việt: “I went to school” Æ “Tôi đã đi học” (có hư từ

nhiều hơn. Trong các tài liệu khoa học kỹ thuật, hiện tượng này còn phổ

“đã”), nhưng câu “I went to school yesterday” Æ “Tôi đi học hôm qua”
(không cần có hư từ “đã”)

biến hơn nữa. Chẳng hạn như “machine translation” → “dịch máy”
1.3.1.3.4 Nhân tố về ngữ nghĩa
Ngữ nghĩa và cấu trúc của các thành phần câu có liên quan mật thiết với nhau.

1.3.1.3.2 Nhân tố về hình thái
Trong tiếng Việt, một trong những nhân tố ảnh hưởng đến trật tự các thành


Cấu trúc cũng thể hiện một phần ngữ nghĩa, và ngữ nghĩa cũng góp phần qui định

phần là chiều dài của chúng. Chẳng hạn, trong câu có hai thành phần bổ ngữ trực

cấu trúc. Trong tiếng Việt, danh từ chỉ một loài/ thứ chung chung nào đó, sẽ được

tiếp và bổ ngữ gián tiếp thì thành phần nào “nặng” hơn (gồm nhiều từ hơn) sẽ nằm

chuyển đổi (trật tự/ chèn/ xoá) khác với danh từ chỉ một loài/ thứ cụ thể.

sau thành phần bổ ngữ “nhẹ” hơn (gồm ít từ hơn). Ta có thể thấy rõ hơn trong ví dụ

Ví dụ: [4]

sau:

™ lên ngựa (+)
™ Tôi viết thư cho mẹ (+);

Tôi viết cho mẹ thư (-)

xuống ngựa (+)

2

™ lên ngựa ô (-)

™ Tôi viết một lá thư dài đầy tình cảm cho mẹ (-);

lên lưng con ngựa ô (+)


Tôi viết cho mẹ một lá thư dài đầy tình cảm (+)

™ nhạc vang lên (+)

vang lên nhạc (-)
vang lên tiếng nhạc (+)

2

(+) : phổ biến, (-) : không phổ biến

Trang 31

Trang 32


Chương 1 - Tổng quan về chuyển đổi cây cú pháp

Chương 1 - Tổng quan về chuyển đổi cây cú pháp

1.3.1.3.5 Các nhân tố khác

thống kê. Tuy nhiên, cho dù xây dựng bằng phương pháp nào đi chăng nữa thì việc

Ngoài những nhân tố nói trên, một số nhân tố khác cũng ảnh hưởng đến trật tự
các thành phần như:

xây dựng cũng phải dựa trên cơ sở là những văn bản do chính con người dịch chứ
không thể là những trường hợp do các chuyên gia dịch tự nghĩ ra. Khi khối lượng


™ Nhân tố chiến lược và định hướng của người nói

dữ liệu chứa tri thức chuyển đổi này ngày càng tăng thì việc xây dựng bằng tay trở

™ Nhân tố tôn ti trật tự của các sự vật trong thế giới khách quan

nên khó khăn hơn. Do đó, cần phải có một phương pháp tự động rút bộ luật chuyển

™ Nhân tố phân đoạn thực tại

đổi từ ngữ liệu.

™ Nhân tố đặc thù ngôn ngữ

Các phương pháp máy học ra đời đã đáp ứng được nhu cầu đó. Khối lượng dữ

Nhận xét :

liệu lớn không còn là một vấn đề trở ngại. Chúng ta cũng có thể lựa chọn phương

Như vậy, trong thực tế có rất nhiều nhân tố có thể ảnh hưởng đến trật tự từ

pháp máy học phù hợp với loại ngữ liệu, mục đích của công việc, và tận dụng được

trong câu hay trật tự các thành phần cú pháp trong cây cú pháp do ngôn ngữ tự

tối đa ưu điểm của phương pháp đó. Trong bài toán chuyển đổi cây cú pháp, chúng

nhiên vốn rất đa dạng, phong phú. Tuy nhiên, trong giới hạn luận văn này, như đã


em chọn phương pháp học dựa trên sự chuyển trạng thái (Transformation Based

nói, chúng em chỉ tập trung nghiên cứu giải quyết các cấu trúc trong văn bản tài liệu

Learrning), gọi tắt là TBL, chúng em xây dựng thuật toán học dựa trên tư tưởng của

khoa học kỹ thuật để phục vụ cho hệ dịch trong lĩnh vực khoa học kỹ thuật. Mặt

thuật toán “TBL nhanh” [16] được cải tiến từ TBL gốc (được trình bày chi tiết trong

khác, máy tính chỉ có thể làm việc với những thông tin biểu diễn được thành dữ liệu

chương 3).

trên máy. Do đó, trong những nhân tố ảnh hưởng đã trình bày, những nhân tố được

Hiệu quả của thuật toán học rút luật chuyển đổi cú pháp không chỉ phụ thuộc

đưa vào chương trình, xem như những đặc trưng cho quá trình chuyển đổi cây cú

vào tính đúng đắn và hiệu quả của bản thân thuật toán đó mà còn phụ thuộc vào:

pháp là các nhân tố về: loại hình ngôn ngữ, hình thái, và cú pháp.

chất lượng của bộ phân tích ngữ pháp (cho thông tin cú pháp và từ loại), những
thông tin phân tích phụ khác cho câu tiếng Anh (như vai trò của các thành phần

1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề


trong cây cú pháp, ...).

Tri thức chuyển đổi cú pháp giữa hai ngôn ngữ nằm trong những cặp câu dịch
tự nhiên. Một người Việt biết tiếng Anh, tức là họ đã có hiểu biết về ngữ pháp cũng
như từ vựng tiếng Anh, khi gặp câu “I have an interesting book”, họ có thể dịch
ngay là “Tôi có một quyển sách thú vị”. Tri thức chuyển đổi ngữ danh từ tiếng Anh
“an interesting book” thành “một quyển sách thú vị” chính là tri thức chuyển đổi
cần được khai thác, biểu diễn trên máy tính theo cách thức mà máy tính có thể đọc
và áp dụng được cho những trường hợp mới. Trong luận văn này, chúng em chọn
cách biểu diễn tri thức chuyển đổi dưới dạng luật.
Trong nhiều hệ dịch đơn giản trước đây, bộ luật chuyển đổi này được các
chuyên gia ngôn ngữ xây dựng bằng tay, một số hệ dịch sử dụng phương pháp

Trang 33

Trang 34


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy
(E) NP → DT JJ NN3

Chương 2

trong đó:

CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI

NP là ngữ danh từ (thành tố không kết thúc)


CẤU TRÚC TRONG DỊCH MÁY

JJ là tính từ (thành tố kết thúc)

DT là định từ (thành tố kết thúc)
NN là danh từ (thành tố kết thúc)
ví dụ danh ngữ tiếng Anh là : a/DT good/JJ book/NN

Vấn đề chuyển đổi cấu trúc giữa hai ngôn ngữ trong dịch máy là một trong các
vấn đề cần được quan tâm hàng đầu trong bất kỳ một hệ dịch nào. Nhiều cách tiếp

với tiếng Việt, tính từ bổ nghĩ cho danh từ thường đứng sau danh từ, chính vì vậy để
có thể dịch được danh ngữ trên sang tiếng Việt thì luật sinh phải được viết lại là:
(V) NP → DT NN JJ

cận khác nhau đã được đề xuất, trong đó mỗi cách tiếp cận thường sẽ phụ thuộc lớn
vào đặc trưng của cặp ngôn ngữ của hệ thống dịch cũng như các tài nguyên sẵn có

sau khi kết hợp với chuyển đổi từ vựng ta có danh ngữ tiếng Việt tương ứng là

của hai ngôn ngữ nguồn và đích. Trong chương này chúng em sẽ điểm lại một số

một/DT cuốn_sách/NN hay/JJ

hướng tiếp cận chính đã và đang được sử dụng trong các hệ dịch máy trên toàn thế

NP

NP


giới cũng như đánh giá sơ bộ những ưu khuyết điểm của các hướng tiếp cận này.

2.1 Hướng tiếp cận dựa trên luật cố định
Từ những thập niên 60-70, chiến lược dịch máy dựa trên chuyển đổi đã được
quan tâm và đầu tư nghiên cứu. Trong các hệ dịch này, bộ phận chuyển đổi cấu trúc
được đảm nhận bởi các luật chuyển đổi cố định, đảm bảo việc ánh xạ các cấu trúc

DT

JJ

NN

DT

NN

JJ

a

good

book

một

cuốn_sách


hay

Hình 7: Áp dụng luật cố định để thực hiện việc chuyển

cố định từ ngôn ngữ nguồn sang ngôn ngữ đích. Đây là cách tiếp cận đơn giản nhất

đổi cấu trúc

và kết quả đạt được đặt biệt cao đối với những hệ dịch có lĩnh vực dịch hẹp và
chuyên biệt. Các luật chuyển đổi là do con người nghĩ ra và được đưa ra bởi các
chuyên gia ngôn ngữ học sau đó được đưa vào bộ phận chuyển đổi trong hệ dịch.
Đặc tính cơ bản cần được bảo đảm đối với các luật chuyển đổi cố định là chúng cần
phải gắn liền với các luật sinh của văn phạm được sử dụng để phân tích câu trong
ngôn ngữ nguồn.

Tuy nhiên đây là cách tiếp cận đơn giản nhất và cho thấy rõ khuyết điểm của
mình khi cần chuyển đổi cấu trúc giữa các luật sinh với nhau, tức là chuyển đổi các
thành phần của luật sinh này với luật sinh khác trong văn phạm của ngôn ngữ
nguồn. Đối với những trường hợp phức tạp này cần có một cơ chế chuyển đổi thích
hợp và uyển chuyển hơn.

2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cố định
Giả sử chúng ta xét luật sinh đối với tiếng Anh như sau:

3

Trang 35

Các nhãn cho các thành tố không kết thúc và kết thúc được đánh theo bộ nhãn của Penn Tree Bank (tên của kho ngữ liệu
tiếng Anh thông dụng nhất trên thế giới hiện nay) (xem phụ lục 5).


Trang 36


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Xét một phần cây tổng quát như hình bên dưới. Ở đây ngữ tiếng Anh là “a
good type of book”, yêu cầu chuyển đổi sang trật tự từ tiếng Việt phải là “a type

cho các luật này tương tác được tốt với nhau mà không gây mâu thuẫn là gần như
không thể thực hiện được bởi những đặc trưng hết sức đa dạng của ngôn ngữ.

book good (of)” → “một dạng sách hay”. Chúng ta thấy xuất hiện một yêu cầu phải

R1

chuyển bộ phận book/NN là con trực tiếp của thành tố không kết thúc PP sang làm
con trực tiếp của một thành tố không kết thúc khác là NP đồng thời xoá hẳn of/IN.
NP

N11

NP

NP

PP


NP

N111

N112

N12
N121

N122

N123

PP
R’1

DT
a

JJ

NN

IN

NN

DT

good type


of

book

a

(a)

NN

NN

JJ

type book good

IN
of

(b)

N12
N123

N121

N11
N122


N111

N112

N12
N123

N112

N11
N122

Hình 8: Một trường hợp chuyển đổi khác nút cha mà luật cố định

Hình 9: Khả năng chuyển đổi cú pháp của luật cố định.

không thể thực hiện được. (a) ngữ tiếng Anh gốc; (b) trật tự mới

R1→R’1: khả thi; R1→R”1: không khả thi

N111

N121

trong ngữ khi chuyển đổi sang cấu trúc tiếng Việt

2.1.2 Nhận xét
Hướng tiếp cận dựa trên luật chuyển đổi cố định cung cấp khả năng chuyển
đổi, chèn, xoá các thành phần của vế phải của cùng một luật sinh trong văn phạm
xác định nhưng không thể mở rộng để áp dụng trong việc chuyển đổi giữa các thành

phần khác cấp hoặc khác cha. Đây là một trong những khuyết điểm chính làm cho
các hệ dịch có bộ phận chuyển đổi cấu trúc theo hướng tiếp cận này nhanh chóng
gặp phải sự hạn chế về mặt thực tiễn. Một khuyết điểm chính nữa của hướng tiếp
cận này là sự không bao quát của tập luật. Để xây dựng được một bộ luật chuyển
đổi cố định từ cây cú pháp nguồn sang cây cú pháp đích người ta phải bỏ ra rất
nhiều công sức và thời gian và phải được xây dựng bởi các chuyên gia ngôn ngữ
học so sánh để đảm bảo cho tập luật đầy đủ và hiệu quả nhất. Tuy nhiên lý do chính
để hướng tiếp cận này không khả thi là do sự xuất hiện của hiện tượng mâu thuẫn

Chuyển đổi cấu trúc dựa trên luật chuyển đổi cố định là một hướng tiếp cận
mang tính đơn giản và giải quyết được khá nhiều trường hợp phổ biến trong các
ngôn ngữ. Tuy nhiên chất lượng đánh giá trên số lượng lớn các câu tiếng Anh khi
được dịch sang tiếng Việt không cao, điều đó chứng tỏ rằng một giới hạn tiềm ẩn đã
được “định sẵn” cho hướng tiếp cận này. Đặc tính của hệ thống luật được xây dựng
bằng tay có ảnh hưởng trực tiếp đến chất lượng chuyển đổi như số lượng luật, trật tự
sắp xếp các luật cũng như tính hỗ tương giữa các luật này hoàn toàn là do cảm tính
của người xây dựng. Tuy nhiên điểm mạnh của cách tiếp cận dựa trên luật là cho
phép chúng ta kiểm soát được các cấu trúc đặc thù và hạn chế được sự chuyển đổi
quá tự do. Việc bổ sung luật luôn cần phải được khảo sát cẩn thận và chính xác
tránh xảy ra hiện tượng mâu thuẫn giữa các luật.

giữa các luật chuyển đổi. Một khi số lượng luật chuyển đổi tăng lên, việc đảm bảo

Trang 37

Trang 38


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

2.2 Hướng tiếp cận sử dụng case-frame

Các thành tố của khối chuyển đổi chỉ có thể truy xuất một phần nào đó của

Phương pháp chuyển đổi sử dụng cách biểu diễn trung gian case-frame (biểu
diễn khung) đã được ứng dụng cho tiếng Anh-Thổ Nhĩ Kỳ [20].
Trong cách tiếp cận này, câu tiếng Anh được phân tích thành dạng QLF
(Quasi Logical Form) [20], sau đó được chuyển thành biểu diễn trung gian dạng
case-frame. QLF không được chọn làm biểu diễn trung gian cho giai đoạn chuyển
đổi vì nhiều lý do. Trước hết, QLF là một cấu trúc vị từ đối số (predicate-argument),
nó không chứa đựng những chức năng cú pháp của một câu. Thực hiện việc chuyển
đổi cấu trúc trên cách biểu diễn đó hoàn toàn không khả thi. Hơn nữa, sử dụng QLF
làm biểu diễn trung gian sẽ giới hạn khả năng của hệ dịch máy vào bộ phân tích
CLE và do đó hệ thống sẽ chỉ làm việc với ngôn ngữ nguồn là tiếng Anh. Một lý do
khác là thông tin cần thiết cho câu tiếng Thổ trong một QLF rất khó đạt được. Vì
thế, để thực thi một hệ dịch máy có tính uyển chuyển, không phụ thuộc ngôn ngữ
nguồn hay một bộ phân tích nào đó, một cách biểu diễn tổng quát hơn, đó là caseframe. Case-frame đã được tận dụng như một cách biểu diễn trung gian.
Quá trình chuyển đổi sử dụng case-frame thực chất là một quá trình ánh xạ
tuần tự từ case-frame này sang case-frame kia theo cách thức xây dựng dần. Những
điểm đặc trưng và những mối quan hệ ngữ pháp của case-frame nhập được chuyển
đổi riêng. Sau đó, chúng lại kết hợp với nhau để phát triển thành một case-frame
ngôn ngữ đích. Những luật chuyển đổi có dạng sau (theo ký hiệu ngôn ngữ Prolog):
Rulename (SourceCF, Variable, Checklist) :-

case-frame, sau đó, nếu một luật chuyển đổi cần tham khảo đến những tính chất của
một phần ở xa nó trong case-frame, thì những tính chất xác định đó có thể nằm
ngoài phạm vi truy xuất của nó. Để giải quyết vấn đề này, ở mức chiếu cực đại,
thông tin quan trọng có thể đòi hỏi bới việc chuyển đổi từ vựng cấu trúc và phức

hợp được lưu lại trong một bản liệt kê những mục cần kiểm tra. Khi tiến trình
chuyển đổi tiếp tục thực hiện, bản liệt kê này được tham chiếu đến để hạn chế việc
dịch mặc định và kiểm soát những ngoại lệ.
Có 3 loại bản liệt kê các mục cần kiểm tra được sử dụng trong suốt quá trình
chuyển đổi, đó là bản liệt kê cấp độ câu, động từ, và danh ngữ. Bản liệt kê câu có
thể được truy xuất tới từ bất cứ đâu trong khối chuyển đổi, trong khi đó bản liệt kê
động từ và danh ngữ được sử dụng cho chuyển đổi động từ và danh ngữ.

2.2.1 Chuyển đổi các thông tin cấp độ câu
Bảng liệt kê những mục kiểm tra của câu không chỉ bao gồm những thuộc tính
thể hiện trong case-frame chẳng hạn như cách (mood), thể (voice) và động từ (chỉ
những động từ đòi hỏi chuyển đổi phức tạp) của câu, mà còn chứa những thông tin
dẫn xuất sẽ được thêm vào case-frame của tiếng Thổ. Những thông tin dẫn xuất là
loại mệnh đề Thổ được quyết định từ động từ nguồn, loại bổ ngữ của câu nếu có, và
thuộc tính hành động nói dẫn xuất từ thông tin về thì và thể.
Theo sự phát triển của bản liệt kê các mục cần kiểm tra câu, khối chuyển đổi
bắt đầu xây dựng cấu trúc case-frame tiếng Thổ theo cách từ trên xuống. Đầu tiên,

If condition then Variable = TargetCf.
Bước đầu tiên trong giai đoạn chuyển đổi là xác định loại câu nguồn, chẳng
hạn như : câu đơn, câu điều kiện, câu liên hợp, ... Nếu câu là một câu ghép chứa các
mệnh đề độc lập, thì những mệnh đề này được xem xét riêng như từng case-frame
riêng lẻ. Tiếp tục đệ qui, mỗi case-frame này sẽ được phân tích để tạo ra một bản
liệt kê những mục cần kiểm tra (checklist) của câu bao gồm tất cả những thông tin

những thông tin mới, s-form và loại mệnh đề được lấy từ bản liệt kê các mục cần
kiểm tra và được chèn vào biểu diễn trung gian. Nếu câu được xử lý có một thuộc
tính đặc trưng, thì quan hệ giữa đối tượng vị từ với chủ từ được xác lập.
Ví dụ:
Biểu diễn case-frame tiếng Anh


quan trọng về câu hay mệnh đề.

Trang 39

Trang 40


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

mood
 voice

 verb




arguments





tính khiếm khuyết và thể của động từ cùng với cách nói của câu nguồn sẽ được ánh






to_be





pp_be
be

subj # description_Specification




 pform
in

arg2 pp 


 arguments # file_PieceOfCode   

declarative
active

xạ sử dụng thuộc tính của động từ nguồn về thì, hoàn thành, tiếp diễn và tính khiếm
khuyết. Trong một số trường hợp, không có sự tương ứng một - một giữa thì và
thông tin riêng biệt giữa tiếng Anh và tiếng Thổ. Khi đó, sẽ chọn cách ánh xạ phù

hợp nhất để phản ánh mục đích sử dụng của động từ. Một số động từ cần sự chuyển
đổi rất phức tạp.

2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ

Biểu diễn case-frame tiếng Thổ


s − form
clause_type

rel
speech − act

 voice
 verb


arguments


Đối với mỗi bổ ngữ trong case-frame nguồn, bước đầu tiên là xác định xem



finite


attribute


at_loc


declarative

active


# to_be

subject
#
tanim


pred − obj # dosya  

 

cách dịch tiếng Thổ tương ứng sẽ ở vị trí đối số hay vị trí bổ ngữ.
Sau khi các định ngữ, bổ ngữ được ánh xạ vào đối số được rút ra từ danh
sách các bổ ngữ, những item còn lại sẽ được chuyển đổi dựa vào loại của chúng.
Từ chính trong bổ ngữ có dạng ngữ giới từ sẽ xác định loại bổ ngữ mà mệnh
đề sẽ ánh xạ tới. Phần ngữ danh từ được rút ra và ánh xạ riêng.
Vidụ:
Before you use the program, read the file.

Sau khi thêm thông tin mới, mỗi khe của case-frame nguồn được xử lý và ánh
xạ vào case-frame của ngôn ngữ đích, tiến trình ánh xạ thực hiện tuần tự như sau:
-


thông tin câu,

-

ngữ động từ

-

định ngữ, bổ ngữ

-

đối số

Once program- ACC kullan- INF-ABL oku-IMP-PERS dosya-ACC
“Programi kullanmadan once dosyayi okuyun.”
Biểu diễn case-frame tiếng Anh

quá trình chuyển đổi ngữ động từ là ánh xạ thì và những thông tin cụ thể. Ánh xạ


mood

 voice

 verb





adjuncts





arguments

này được con người xây dựng dựa vào sự so sánh giữa hai ngôn ngữ. Thì, lĩnh vực,

Biểu diễn case-frame tiếng Thổ

2.2.2 Chuyển đổi ngữ động từ
Chuyển đổi động từ được bắt đầu sau khi bản liệt kê các mục cần kiểm tra
động từ đã được tạo xong bao gồm những thuộc tính của động từ như: thì, dạng
khiếm khuyết, hoàn thành và tiếp diễn. Một trong những vẫn đề cần giải quyết trong

Trang 41

imperative
active
# read
 pform
before
 
mood
 
 voice
 


pp 
 verb
arg
 

 
args
 

 


[obj
# file]









declarative


active



# use
 
# you
 verb


obj

# program    




Trang 42


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy






s − form
finite




clause − type predicative

speech − act
imperative


active

 voice


verb
#
oku




before − event
adv − type





adverbial

s − form





clause − type predicative












speech
art
declarativ
e


adjuncts


 time argument
voice
active









verb
# kullan







# siz
subj





arguments




 


dir − obj # program    






# siz 
subject

arguments


dir
obj
#
dosya






tích bởi khối phân tích, chúng được đưa vào những luật chuyển đổi phức tạp dành
chuyển đổi riêng cho những động từ đặc biệt.
Những danh từ bao gồm thông tin : từ gốc, mặt nghĩa và từ tiếng Thổ tương
ứng, kèm theo thuộc tính về sự tương hợp với động từ. Các thành phần đặc biệt đi
kèm với danh từ đó cũng được lưu trong tự điển.
Các mục từ còn lại trong tự điển là định từ, lượng từ đi kèm với từ tiếng Thổ
tương ứng.

2.2.5 Nhận xét

Cách tiếp cận này đòi hỏi câu trong ngôn ngữ nguồn phải được phân tích khá
chi tiết về mặt cấu trúc lẫn ngữ nghĩa. Giai đoạn chuyển đổi chỉ đơn giản là tra tự
điển để ánh xạ dần từng cấu trúc thành phần. Cách làm này khiến cho câu dịch tạo
ra rất tự nhiên và hay. Tuy nhiên nó có nhiều bất lợi. Trước tiên là vấn đề xây dựng
hoặc tìm ra một bộ phân tích ngôn ngữ nguồn cho kết quả dạng QLF chi tiết và
chính xác cao. Thứ hai là việc ánh xạ case-frame từ ngôn ngữ nguồn sang ngôn ngữ

2.2.4 Tự điển chuyển đổi

đích. Công trình trên cũng được tác giả thừa nhận là các trường hợp chuyển đổi chỉ

Các mục trong tự điển Chuyển đổi được chia thành các loại:
-

Động từ

-

Danh từ

-

Tính từ

-

Trạng từ

-


Những từ khác

giới hạn trong những dạng case-frame được xây dựng, muốn dịch được nhiều dạng
câu và dạng ngữ hơn thì cần phải mở rộng từ điển và tập luật chuyển đổi dạng caseframe. Khả năng xây dựng đầy đủ bộ case-frame phức tạp như vậy cho một ngôn
ngữ tự nhiên vượt quá khả năng con người.

2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG)

Mỗi động từ trong tự điển đi kèm với từ gốc, nghĩa logic và nghĩa tiếng Thổ
tương ứng. Tương tự, thông tin hình thái như động từ có được dẫn xuất từ một từ
gốc khác hay không, loại từ của từ gốc và loại tiền tố đều được bao gồm trong tự
điển này. Thành phần cuối cùng là thông tin về phân loại mịn hơn thể hiện chức
năng ngữ pháp của nhóm danh từ cần thiết cho một động từ nào đó.
Động từ cần chuyển đổi phức tạp cũng được biểu diễn nguyên dạng trong tự

Phương pháp TAG đồng bộ được gọi tắt là STAG (Synchronous Tree
Adjoining Grammar) [18] là phương pháp chuyển đổi dựa trên các cây sơ cấp của
văn phạm TAG [19]. Để có thể đi vào hướng tiếp cận sử dụng TAG đồng bộ, trước
hết chúng em sẽ trình bày tóm lượt một số khái niệm chính trong văn phạm TAG để
rồi từ đó đi vào STAG.

điển chuyển đổi. Khác những động từ khác, những động từ này không được phân

Trang 43

Trang 44


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

2.3.1 Văn phạm TAG
Văn phạm TAG là sự hợp thành của năm thành phần: TAG={N, ∑, I, A, S},

Cây khởi tạo

X

Cây phụ trợ

Z

trong đó
™ N là tập hữu hạn các thành tố không kết thúc (non-terminal)

Z*

¾ Là tập hữu hạn các thành tố kết thúc (terminal)
™ I là tập hữu hạn các cây khởi tạo, các cây khởi tạo có các đặc điểm sau:

¾ Mọi nút là của cây được đánh nhãn là một thành tố kết thúc, hoặc thành

Các thành tố kết thúc hoặc
các nút thay thế

tố không kết thúc. Mọi thành tố không kết thúc đều được đánh dấu cho

foot-node


sự thay thế (substitution), việc đánh dấu này được ký hiệu trên cây bằng
một dấu mũi tên xuống.

Hình 10: Giản đồ cây khởi tạo và cây phụ trợ của TAG

¾ Mọi nút không là nút lá được đánh nhãn là thành tố không kết thúc.
™ A là tập hữu hạn các cây phụ trợ (auxiliary tree), các cây phụ trợ có các

Một cây được tạo thành từ sự kết hợp của những cây khác gọi là cây dẫn xuất
(derived tree). Cây dẫn xuất được tạo thành từ những cây khác bằng hai tác tố: tác

đặc điểm sau:
¾ Mọi nút lá của cây được đánh nhãn là một thành tố kết thúc, hoặc thành
tố không kết thúc. Mọi thành tố không kết thúc đều được đánh dấu cho
sự thay thế ngoại trừ một nút, được gọi là foot-node. Nhãn của footnode phải trùng với nhãn của nút gốc. Foot-node được ký hiệu trên cây

tố kết hợp (adjoining) và tác tố thay thế (substitution).
™ Tác tố kết hợp: thực hiện việc kết hợp một cây phụ trợ vào một nút trong

của một cây dẫn xuất. Tác tố kết hợp là tác tố giữ vai trò quan trọng trong
TAG

bằng một dấu sao (*).
¾ Mọi nút không là nút lá được đánh nhãn là thành tố không kết thúc.
™ S là thành tố khởi đầu (thành tố nguyên thủy) của câu.

Tập hợp mọi cây trong I ∪ A được gọi là tập hợp các cây sơ cấp (elementary
tree). Một cây sơ cấp được gọi là cây sơ cấp X nếu nút gốc của nó được đánh nhãn
bằng một thành tố không kết thúc X.


Trang 45

Trang 46


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

X

Y

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Y

X

X

Y

Y

X
X*

X↓

X


X

S

S
NP0↓

VP

V
won

NP1↓

VP
V

NP0↓

VP*

have

VP

NP0↓
VP

V
have


S

S

V

NP1↓

VP

V
won

NP1↓

NP0↓

NP
D↓

N
prize

VP
NP

V
won


N

D↓

prize

won
Hình 11: Tác tố kết hợp

Hình 12: Tác tố thay thế

™ Tác tố thay thế tạo cây dẫn xuất bằng cách thay thế mút được đánh dấu

TAG mô tả cú pháp của cây bằng sự kết hợp các cây sơ cấp để tạo thành cây

thay thế bằng một cây khởi tạo tương ứng, cây khởi tạo này phải có nút

cú pháp. Với tổ chức của TAG, cây kết quả sẽ không mang đầy đủ các thông tin lưu

gốc được đánh nhãn của nút được đánh dấu thay thế.

lại quá trình hình thành nên nó. Điều đó đồng nghĩa với việc chúng ta không thê biết
được cây kết quả được tạo thành từ bao nhiêu cây sơ cấp và các cây đó là những cây
nào cũng như các cây đó được kết hợp với nhau tại những nút nào. Để giải quyết
vấn đề này, khái niệm cây dẫn xuất (derivation tree) được định nghĩa như một đối
tượng xác định cách duy nhất một cây kết quả được tạo thành, cho phép xem xét và
lưu giữ mọi thông tin về sự kết hợp và thay thế trong một sự dẫn xuất TAG.
Gọi T là cây mô tả sự dẫn xuất thì cây T có dạng như sau:

Trang 47


Trang 48


Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

Chương 2 – Các hướng tiếp cận chuyển đổi cấu trúc trong dịch máy

™ Nút gốc của T được đánh nhãn là cây khởi tạo với yếu tố nguyên thủy S.

đến một cây sơ cấp tương ứng bằng cách tra trong tự điển các cây chuyển đổi. Câu

™ Tất cả các nút trong cây dẫn xuất được đánh nhãn là cây phụ trợ nếu tác tố

đích sẽ được xác định từ cây dẫn xuất đích vừa được tạo ra.

kết hợp được sử dụng.

Hình 7 minh hoạ một số mẫu cây sơ cấp trong tự điển chuyển đổi cây.

™ Tất cả các nút trong cây dẫn xuất được đánh nhãn là cây khởi tạo nếu tác tố

thay thế được sử dụng.

Tự điển cây chuyển đổi chứa những cặp cây tương ứng đôi một giữa ngôn ngữ
nguồn và ngôn ngữ đích. Mỗi cây là một phân mảnh của các cấu trúc trong một

™ Mỗi nút trên T sẽ được gán một địa chỉ (trừ nút gốc). Địa chỉ này chính là

ngôn ngữ cụ thể (nên được gọi là cây sơ cấp). Giữa một cặp cây sơ cấp, các nút trên


địa chỉ của nút trong cây cha mà có tác tố kết hợp hoặc thay thế được thực

cây có thể được liên kết với nhau quy định trật tự đúng của chúng trong ngôn ngữ

hiện. Các địa chỉ của mọi nút trong T là phân biệt.

còn lại.

2.3.2 TAG đồng bộ (STAG)

NP

NP

(α)

2.3.2.1 Khái niệm TAG đồng bộ

NP

NP

Mary

Mary

(β)
John


John

TAG đồng bộ là một biến thể của văn phạm TAG, được sử dụng để mô tả sự
S

tương ứng giữa các ngôn ngữ có cấu trúc cây kết hợp khả thi. STAG có thể được sử
dụng để liên kết các cây sơ cấp của hai ngôn ngữ khác nhau nhằm mục đích chuyển

Adv

(δ)

đổi về cấu trúc từ ngôn ngữ nguồn sang ngôn ngữ đích (và có thể ngược lại) trong
các mô hình dịch máy [18], hoặc nó cũng có thể được sử dụng để liên kết một cây

apparently

S
S*

Adv

S*

apparement

cú pháp TAG với một cây ngữ nghĩa TAG cho cùng một ngôn ngữ [18] nhằm mục
S

đích phát sinh hoặc phân tích ngữ nghĩa. Ở đây chúng em chỉ muốn đề cập đến khả


S

năng chuyển đổi cấu trúc của STAG.
NP0↓

VP

NP0↓

VP

2.3.2.2 Cơ chế chuyển đổi cấu trúc của TAG đồng bộ
Giả sử chúng ta đang xét sự chuyển đổi đồng bộ giữa cấu trúc tiếng Anh và
cấu trúc tiếng Pháp. Tạm gọi tiếng Anh là ngôn ngữ nguồn và tiếng Pháp là ngôn
ngữ đích (mặc dù với cách tiếp cận này có thể thực hiện được việc chuyển đổi ở cả

(ψ)

V

NP1↓

PP

V

misses

manque P


hai chiều). Xét câu tiếng Anh “Apparently, John misses Mary” 4. Đầu tiên, câu ở

à

NP1↓

ngôn ngữ nguồn sẽ được phân tích cú pháp dựa trên văn phạm của ngôn ngữ nguồn
(ở đây là tiếng Anh). Mỗi cây sơ cấp trong cây dẫn xuất nguồn sau đó được ánh xạ
Hình 13: Một số mẫu cây sơ cấp trong tự điển chuyển
4

đổi cây Anh-Pháp
“Bỗng nhiên John nhớ Mary”

Trang 49

Trang 50


×