TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 46 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

MỤC LỤC

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

MỤC LỤC ...................................................................................................................1
DANH SÁCH CÁC BẢNG ........................................................................................4
DANH SÁCH CÁC HÌNH .........................................................................................5

NGUYỄN THỊ NGỌC MAI

TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO
HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT

CHƢƠNG 1: GIỚI THIỆU .........................................................................................6
1.1.

Đặt vấn đề ......................................................................................................6

1.2.

Hƣớng tiếp cận của đề tài ..............................................................................8

1.3.

Nội dung của luận văn ...................................................................................9

CHƢƠNG 2: TỔNG QUAN .....................................................................................11
2.1.

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH

Dịch máy thống kê .......................................................................................11

2.1.1.

Dịch máy thống kê dựa trên từ .............................................................11

2.1.2.

Mô hình dịch máy thống kê dựa trên ngữ .............................................19

2.1.3.

Mô hình dịch thống kê factored (Factored SMT) .................................26

2.1.4.

Mô hình dịch máy thống kê dựa trên cú pháp ......................................29

2.2.

Các tiêu chuẩn đánh giá chất lƣợng dịch .....................................................31

2.2.1.

BLEU (Bilingual Evaluation Understudy) ...........................................32

2.2.2.

NIST......................................................................................................32

2.2.3.

TER (Translation Error Rate) ...............................................................32

CHƢƠNG 3: .............................................................................................................33

Thành phố Hồ Chí Minh - 2010

CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG
KÊ..............................................................................................................................33
3.1.

Sử dụng tri thức ngôn ngữ để tiền xử lý ......................................................33

3.1.1.

Dùng thông tin cú pháp .........................................................................34

Trang 1

3.1.2.

Sử dụng thông tin từ loại ......................................................................36

A. Đối chiếu hình thái từ Anh – Việt (biến cách) ................................................82

3.1.3.

Sử dụng luật biến đổi hình thái từ.........................................................37

B. Kết quả dịch của một số mô hình....................................................................82

3.2.

Tích hợp tri thức vào hệ thống dịch máy.....................................................39

3.2.1.

Tích hợp thông tin hình thái vào mô hình dịch.....................................39

3.2.2.

Tích hợp thông tin cú pháp vào mô hình dịch ......................................40

3.2.3.

Tích hợp vào mô hình ngôn ngữ ...........................................................41

CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI ...................................................................42
4.1.

Tích hợp thông tin hình thái từ tiếng Anh ...................................................43

4.1.1.

Thông tin từ loại ...................................................................................43

4.1.2.

Thông tin biến cách của từ ....................................................................44

4.1.3.

Sử dụng luật chuyển đổi trật tự .............................................................45

4.2.

Thêm thông tin hình thái từ tiếng Việt ........................................................50

4.2.1.

Thông tin ranh giới từ ...........................................................................50

4.2.2.

Thông tin từ loại ...................................................................................51

4.3.

Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt ............................52

CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .....................................................54
5.1.

Ngữ liệu .......................................................................................................54

5.2.

Các công cụ .................................................................................................55

5.3.

Thí nghiệm ...................................................................................................55

5.3.1.
4.4.

Tích hợp thông tin hình thái từ trong câu tiếng Anh ............................55

Tóm tắt kết quả thí nghiệm ..........................................................................74

CHƢƠNG 6: KẾT LUẬN ........................................................................................76
TÀI LIỆU THAM KHẢO .........................................................................................78
PHỤ LỤC ..................................................................................................................82

Trang 2

Trang 3

DANH SÁCH CÁC BẢNG

DANH SÁCH CÁC HÌNH

Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng ................................................. 15

Hình 2.1. Mô hình dịch máy thống kê ...................................................................... 12

Bảng 5.1 Thông tin về ngữ liệu ................................................................................. 59

Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết ...................................................... 14

Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh

Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ ....................................... 19

................................................................................................................................... 60

Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ ......................................................... 20

Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ........................................... 63

Hình 2.5. Mô hình dịch factored SMT ...................................................................... 27

Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt

Hình 4.1. Mô hình chung của luận văn ..................................................................... 43

................................................................................................................................... 64

Hình 4.2. Mô hình ngôn ngữ từ vựng ....................................................................... 49

Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình ............................................ 65

Hình 4.3. Mô hình ngôn ngữ từ loại.......................................................................... 49

Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt ................................. 68

Hình 4.4. Mô hình factored SMT tích hợp từ loại .................................................... 50

Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh

Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại ........................... 51

và tiếng Việt .............................................................................................................. 71

Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ ...................... 51

Trang 4

Trang 5

dụng các luật đƣợc xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ

CHƢƠNG 1: GIỚI THIỆU

năm 2006, bản EVTRAN 3.0 (đƣợc gọi là Ev-Shuttle) có thể dịch đƣợc văn
bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả

1.1.

của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã

Đặt vấn đề

đƣợc thiết lập hay không.

Dịch máy hay còn gọi là dịch tự động đã và đang đƣợc con ngƣời quan tâm hiện
nay. Các nhà nghiên cứu đƣa tri thức nhằm khai thác sức mạnh xử lý tính toán của

-

ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên

máy tính và tạo ra ứng dụng phục vụ con ngƣời trong thời đại công nghệ thông tin

Hải ( tại LATL.

phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên
nhiều cơ hội cho con ngƣời đi đến thành công, chƣơng trình dịch tự động sẽ là công

Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA –

-

Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao

cụ giúp họ vƣợt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết

gồm cả tiếng Việt. Sử dụng phƣơng pháp dịch máy thống kê dựa trên kho

kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất

ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tƣơng tác với ngƣời
dùng nhằm tăng chất lƣợng dịch cho các lần sau.

nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất
phức tạp, thƣờng hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác

-

Dịch máy trên Xalo.vn (www.dich.xalo.vn): đƣa ra dịch vụ dịch trực tuyến

biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy

một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự

có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch đƣợc gần với con ngƣời vẫn

phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép ngƣời dùng

đang là một thách thức lớn.

chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lƣợng dịch.

Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tƣ vào các hệ dịch theo nhiều

-

Lạc Việt (công ty từng phát triển và đƣa ra bộ từ điển Lạc Việt
www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có

hƣớng tiếp cận khác nhau:

thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ

-

Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại
học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa
trên việc học luật chuyển đổi từ ngữ liệu song ngữ.

-

-

Nhóm nghiên cứu của PGS. TS. Phan Thị Tƣơi (Đại học Bách Khoa Thành

dịch tốt hơn bởi ngƣời dùng.
Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lƣợng dịch khác
nhau, tuỳ thuộc vào dạng câu đầu vào.

phố Hồ Chí Minh): Nhóm sử dụng phƣơng pháp phân tích cú pháp có xác

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ nhƣ thông tin cú pháp, ngữ

suất để dịch văn bản Anh-Việt và Việt-Anh.

nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp

Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần

chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật

Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam):

cú pháp và luật chuyển đổi có thể bao quát đƣợc mọi trƣờng hợp rất khó khăn, đòi

hệ dịch đã đƣợc đƣa vào sử dụng trong thực tế và thƣơng mại hoá sản phẩm

hỏi ngƣời thực hiện phải có kiến thức sâu về ngôn ngữ.

(). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử

Ngƣợc lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của

Trang 6

Trang 7

hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không

ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng

cần đến tri thức ngôn ngữ. Với phƣơng pháp này, ngữ liệu càng lớn và có chất

trắng. Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là

lƣợng tốt thì hệ dịch sẽ càng hiệu quả.

dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý

Ƣu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có

nghĩa ngữ pháp nhƣ: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ

thể áp dụng đƣợc trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý

mới đƣợc hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những

trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn

ý nghĩa từ vựng, nhƣ: lặp lại (re-), chống (anti-), ngƣời/vật thực hiện (-er/-or), ...

luyện và dịch. Ngoài ra, những ngƣời cũng có thể theo dõi hoặc can thiệp vào quá

Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố.

trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà

Nhiều nghiên cứu đã tiếp cận theo hƣớng tập trung vào giải quyết sự khác biệt về

mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất

trật tự từ giữa tiếng Anh và tiếng Việt nhƣ nghiên cứu của nhóm Nguyễn Phƣơng

nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô

Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3]

hình này.

và đạt đƣợc một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa

Do đó, chúng tôi hƣớng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống

tiếng Anh và tiếng Việt vẫn chƣa đƣợc quan tâm.

kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập

Do đó, đề tài sẽ tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch

trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát

máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ đƣợc đƣa về

triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này.

nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ đƣợc phân đoạn từ

1.2.

Hƣớng tiếp cận của đề tài

và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hƣởng tích cực đến
chất lƣợng dịch của hệ thống.

Đề tài sẽ tập trung vào khảo sát các hƣớng tích hợp trực tiếp tri thức ngôn ngữ vào
trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch
máy thống kê Anh - Việt. Các tri thức đƣợc tập trung khảo sát bao gồm hình thái từ,
từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hƣởng của các thông
tin này lên hệ dịch.

1.3.

Nội dung của luận văn

Phần còn lại của luận văn sẽ bao gồm các chƣơng sau:
Chƣơng 2 – TỔNG QUAN: Chƣơng này sẽ trình bày hƣớng tiếp cận dịch máy
thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này.

Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ

Chƣơng 3 – CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH

đơn lập, quan hệ ngữ pháp chỉ đƣợc diễn đạt bằng trật tự trƣớc sau của từ và bằng

MÁY THỐNG KÊ: Chƣơng này sẽ khảo sát các hƣớng tiếp cận để đƣa tri thức

các hƣ từ. Trong tiếng Việt, từ không có hiện tƣợng biến hình, đơn vị cơ bản là hình

ngôn ngữ vào trong hệ máy thống kê, phân tích ƣu khuyết điểm của các hƣớng tiếp

tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thƣờng trùng với âm tiết, có khả

cận này.

năng vừa dùng nhƣ từ vừa dùng nhƣ hình vị. Ở loại hình này, ngƣời ta thƣờng hay
nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hƣ với
yếu tố thực cũng nhƣ vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là

Trang 8

Trang 9

Chƣơng 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chƣơng này sẽ mô tả mô hình đƣợc sử

CHƢƠNG 2: TỔNG QUAN

dụng trong đề tài, các tri thức đƣợc đƣa vào hệ thống dịch máy thống kê Anh - Việt
dựa trên ngữ và lí do lựa chọn các tri thức này.

2.1. Dịch máy thống kê

Chƣơng 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chƣơng này sẽ mô tả chi tiết

Dịch máy thống kê (Statistical Machine Translation - SMT) đƣợc nghiên cứu từ

về các thí nghiệm đã thực hiện để đánh giá hiệu quả hƣớng tiếp cận của đề tài, đồng

những năm 1980 trong dự án Candide của IBM. Phƣơng pháp đƣợc IBM sử dụng là

thời so sánh các tri thức ngôn ngữ khác nhau ảnh hƣởng nhƣ thế nào trong dịch máy

dịch máy thống kê dựa trên từ (word based SMT), phƣơng pháp này dịch từ một từ

thống kê Anh - Việt.

thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép

Chƣơng 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt đƣợc và

thêm, xoá các từ trên câu đích.

Sau này, nhiều nhóm nghiên cứu đã đạt đƣợc kết quả dịch tốt hơn nhờ phƣơng pháp

hƣớng phát triển trong tƣơng lai.
TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên

dịch máy thông kê dựa trên ngữ (phrase based SMT). Phƣơng pháp này đƣợc đặt
nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô

quan và đƣợc sử dụng trong đề tài.
CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã
đƣợc công bố trong quá trình thực hiện đề tài.

hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ.
Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ
thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ
trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình.
Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên
ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google.
Các hệ thống dịch máy dựa trên ngữ đạt đƣợc những kết quả vƣợt trội trong các hội
nghị đánh giá chất lƣợng dịch máy thời gian gần đây (DARPA TIDES Machine
Translation Evaluation).
Ngoài phƣơng pháp thống kê còn nhiều phƣơng pháp khác đƣợc sử dụng trong dịch
máy. Đa số các hệ thống dịch thƣơng mại sử dụng các luật chuyển đổi và các bộ từ
vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thƣờng tập trung vào
các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ
trung gian trong quá trình dịch.
2.1.1. Dịch máy thống kê dựa trên từ

Mô hình dịch máy thống kê dựa trên từ [25] đƣợc đƣa ra bởi Brown vào năm 1990.
Mô hình này giả sử rằng câu 𝑒 ở ngôn ngữ nguồn có câu dịch là câu 𝑣 ở ngôn ngữ

Trang 10

Trang 11

đích. Một câu e có thể dịch sang đƣợc nhiều câu v. Trong dịch thống kê, ta chọn câu
v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 là
xác suất mà 𝑒 có thể dịch thành 𝑣. Mục đích của dịch máy thống kê là tìm câu 𝑣 có

Ngữ liệu
song ngữ

Ngữ liệu
đơn ngữ

Thống kê

Thống kê

xác suất 𝑝 𝑣 𝑒 là cao nhất.
Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi vì câu đích đƣợc tạo ra bởi chuỗi
các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp.
Mô hình dịch

Do đó, công thức Bayes đƣợc dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 :

𝑝 𝑣𝑒 =

𝑝 𝑣 .𝑝 𝑒 𝑣
𝑝 𝑒

Mô hình ngôn ngữ

Quá trình giải mã

Câu nguồn

Câu đích

Hình 2.1. Mô hình dịch máy thống kê

(2.1)

2.1.1.1. Mô hình ngôn ngữ

Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hƣởng đến việc chọn câu 𝑒, ta
có thể bỏ qua 𝑝(𝑒). Khi đó, câu dịch 𝑣 đƣợc chọn sẽ là câu có 𝑝 𝑣 . 𝑝 𝑒 𝑣 lớn

Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ

nhất.

pháp) trong câu đƣợc phát sinh. Từ chuỗi từ đƣợc phát sinh ra, hệ dịch tính tần suất
dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ đƣợc dùng
trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thƣờng

𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 . 𝑝 𝑒 𝑣
(2.2)

tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram.

Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ

Hệ dịch máy thống kê gồm 3 phần:
-

Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu
dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ
đích sẽ có giá trị xác suất 𝑝(𝑣) cao hơn. Mô hình này đƣợc huấn luyện dựa

đứng trƣớc nó trong câu. Cho câu 𝑠 gồm chuỗi các từ 𝑤1 , 𝑤2 , … 𝑤𝑛 , ta tính các xác
suất trong mô hình ngôn ngữ nhƣ sau:
Xác suất unigram:
𝑝 𝑤1 =

trên ngữ liệu đơn ngữ.
-

Mô hình dịch 𝑝(𝑣) (translation model): Đƣa ra sự tƣơng ứng giữa các từ, ngữ

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1
𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ
(2.3)

trong các cặp ngôn ngữ. Với câu e cho trƣớc, câu dịch v nào có xác suất 𝑝(𝑣)
cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này đƣợc huấn luyện dựa trên

𝑝 𝑤1 |𝑤2 =

các cặp câu song ngữ.
-

Xác suất bigram:

Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2
𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1
(2.4)

thực hiện quá trình dịch.
Trang 12

Trang 13

đƣợc biểu diễn nhƣ sau:

Xác suất trigram:
𝑝 𝑤3 |𝑤1 𝑤2 =

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 𝑤3
𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2

She

takes

Cô ấy

lấy

a

small

green

box

.

(2.5)
Xác suất xuất hiện của câu 𝑠 đƣợc tính bằng tích của tất cả các xác suất xuất hiện

một

chiếc hộp

nhỏ

màu xanh

.

của từng từ có trong câu 𝑠. Dƣới đây là ví dụ về cách tính xác suất xuất hiện của câu
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết

“I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram.
𝑝 𝐼 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠

Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng nhƣ bảng 2.1.

= 𝑝 𝐼 < 𝑠 >< 𝑠 > × 𝑝 𝑙𝑖𝑘𝑒 𝐼 < 𝑠 > × 𝑝 𝑏𝑢𝑛𝑔𝑒𝑒 𝐼 𝑙𝑖𝑘𝑒

Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng

× 𝑝 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 × 𝑝 𝑜𝑓𝑓 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔

She

× 𝑝 𝑕𝑖𝑔𝑕 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 × 𝑝 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕

Cô

× 𝑝(</𝑠 > |𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝(</𝑠 > |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 </𝑠 >)

lấy

takes

a

small

green

box

.

ấy

Trong thực tế, ngữ liệu thƣờng bị phân tán, nếu từ không tồn tại trong ngữ liệu thì
xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ đƣợc
tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức
tính xác suất xuất hiện của từ đƣợc điều chỉnh nhƣ sau:
0.8 × 𝑝 𝑤3 𝑤1 𝑤2 + 0.15 × 𝑝 𝑤3 𝑤2 + 0.049 × 𝑝 𝑤3 + 0.001
Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác nhƣ: mô

một
chiếc
hộp
nhỏ
màu
xanh
.

hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp.
Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù đƣợc đƣa ra từ rất lâu nhƣng
2.1.1.2. Gióng hàng từ

hiện nay vẫn đƣợc xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng

Để ƣớc lƣợng các tham số trong mô hình dịch, bảng dịch ngữ đƣợc tạo ra dựa trên
gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tƣơng ứng bằng
cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.
Ví dụ, gióng hàng từ giữa cặp câu song ngữ:
She takes a small green box.

các liên kết từ giữa cặp câu luôn tồn tại, nhƣng chƣa xác định đƣợc vị trí của các

liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ và câu tiếng
Việt 𝑣 có 𝑛 từ:
𝑒 = 𝑒1 , 𝑒2 , … 𝑒𝑚
𝑣 = 𝑣1 , 𝑣2 , … 𝑣𝑛

Cô ấy lấy một chiếc hộp nhỏ màu xanh.

Trang 14

Trang 15

Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 và 𝑎
là tập các liên kết từ tất cả các từ trong câu e

Liên kết giữa “my” và “của tôi” đƣợc xác định:
…

my house

…

small house

…

my mobile

…

𝑎 = 𝑎1 , 𝑎, … 𝑎𝑚
Từ xác suất gióng hàng từ, ta có thể tính đƣợc xác suất dịch theo công thức:
𝑝 𝑣𝑒 =

…

𝑝 𝑎, 𝑒 𝑣

nhà của tôi

…

nhà nhỏ

…

điện_thoại của tôi …

Liên kết “house” và “nhà” đƣợc xác định:

𝑎

(2.6)

…

my house

…

small house

…

my mobile

…

Xác suất gióng hàng từ giữa các từ trong cặp câu, 𝑝 𝑎, 𝑒 𝑣 đƣợc tính nhƣ sau:
𝑚

𝑝 𝑎, 𝑒 𝑣 =

…

𝑡 𝑒𝑗 𝑣𝑖
𝑗 =1

(2.7)
Trong đó, 𝑡 𝑒𝑗 𝑣𝑖 đƣợc tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song

nhà của tôi

…

nhà nhỏ

…

điện_thoại của tôi …

Các liên kết khác đƣợc xác định:
…

my house

…

small house

…

my mobile

…

ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức
cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã đƣợc [24]

…

nhà của tôi

…

nhà nhỏ

…

điện_thoại của tôi …

đề xuất để ƣớc lƣợng các gióng hàng từ (ngữ) này.
Kết quả gióng hàng từ cuối cùng:

Ý tƣởng của thuật toán EM nhƣ sau:
Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong

…

my house

…

small house

…

my mobile

…

câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng
hàng từ đƣợc khởi tạo giá trị ban đầu nhƣ nhau.
…

my house

…

small house

…
…

my mobile

…

nhà của tôi

…

nhà nhỏ

…

điện_thoại của tôi …

Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó
ta đƣợc cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tƣơng ứng.

…

nhà của tôi

…

nhà nhỏ

…

điện_thoại của tôi …

Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lƣợt là
IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra

Sau đó, qua mỗi lần lặp, các cặp từ thƣờng gióng hàng với nhau nhất sẽ đƣợc xác

gióng hàng từ trên các cặp câu song ngữ.

định.

Trang 16

Trang 17

Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này đƣợc xây
dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép
gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ
đích.
[10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có
đƣợc từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ
đƣợc giữ lại và vùng gióng hàng từ đƣợc mở rộng tối đa không vƣợt quá vùng giao
của hai gióng hàng từ.
Đầu tiên, ngữ liệu song ngữ đƣợc gióng hàng từ cả hai phía, từ ngôn ngữ nguồn
sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra
hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng
hàng từ với độ chính xác cao (high-precision). Ngƣợc lại, nếu lấy phần hợp của hai
gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao.

Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu
đen, các điểm mở rộng có màu xám.

Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ
2.1.1.3. Quá trình giải mã (decoding)

Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn.
-

Chia câu nguồn thành nhiều từ hoặc cụm từ.

-

Tra trong bảng ngữ để tìm các ngữ dịch tƣơng ứng.

-

Kết hợp các ngữ tìm đƣợc lại thành câu và chọn những câu có xác suất
mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất.
2.1.2. Mô hình dịch máy thống kê dựa trên ngữ

Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy đƣợc thông tin ngữ cảnh
mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên
ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ
thống có thể dịch các cụm từ tránh đƣợc dịch word-by-word.

Trang 18

Trang 19

Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e đƣợc tách

Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ. Sau

thành nhiều ngữ 𝑒𝑖 (là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ

đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ

pháp, dấu câu cũng đƣợc xem nhƣ là một từ). Mỗi ngữ 𝑒𝑖 đƣợc dịch thành ngữ

các cặp ngữ chứa những từ có liên kết. Khi đó, 𝜙(𝑒𝑖 |𝑣𝑖 ) đƣợc tính nhƣ sau:

𝑣𝑖 tƣơng ứng dựa vào phân phối xác suất 𝜙(𝑒𝑖 |𝑣𝑖 ). Sau đó các ngữ 𝑣𝑖 sẽ đƣợc

𝜙 𝑒𝑖 𝑣𝑖 =

chuyển đổi trật tự dựa trên mô hình chuyển đổi 𝑑(𝑎𝑖 − 𝑏𝑖−1 ), với 𝑎𝑖 là vị trí bắt đầu

𝑐𝑜𝑢𝑛𝑡(𝑒|𝑣 )
𝑒 𝑐𝑜𝑢𝑛𝑡(𝑒 |𝑣 )

của ngữ 𝑒𝑖 và 𝑏𝑖−1 là vị trí kết thúc của ngữ 𝑣𝑖 . Do vậy, hệ dịch thống kê trên ngữ sẽ
học đƣợc các cặp cụm từ song ngữ, đặc biệt là các câu thành ngữ.

ii.

Nhƣ vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ đƣợc viết lại thành:

Tách ngữ cú pháp

Trƣớc tiên, tác giả gióng hàng từ cho cặp câu song ngữ, sau đó phân tích cặp câu ra

𝑚

𝑝 𝑒𝑖 𝑣𝑖 =

(2.7)

cây cú pháp. Tác giả rút trích các cặp ngữ song ngữ bằng cách lấy chuỗi từ nằm

𝜙(𝑒𝑖 |𝑣𝑖 ) × 𝑑(𝑎𝑖 − 𝑏𝑖−1 )

trong cây con của cây cú pháp và có liên kết gióng hàng từ. Xác suất dịch của cặp

𝑖=1

(2.6)
Hình 2.4 minh hoạ quá trình dịch máy thống kê dựa trên ngữ. Câu đầu vào tiếng
Anh đƣợc tách thành nhiều cụm từ, hay còn gọi là ngữ. Các ngữ đƣợc dịch sang ngữ

ngữ đƣợc tính tƣơng tự nhƣ mô hình trên.
iii.

Dùng mô hình kết hợp do Marcu, D. và Wong, W đề xuất: Hình thành
ngữ trực tiếp trên ngữ liệu song ngữ

tiếng Việt tƣơng ứng, các ngữ tiếng Việt đầu ra có thể chuyển đổi trật tự trong câu

Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho

cho phù hợp với tiếng Việt.

kết quả tốt nhất trong 3 mô hình.
Xét cặp câu song ngữ:

She

takes a

small green box

.

That girl is the highest pupil in the class.
Cô bé đó là học sinh cao nhất trong lớp.
Cô ấy

lấy một

chiếc hộp nhỏ màu xanh

.

Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ

Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau:
Từ kết quả gióng hàng từ của cặp câu:

Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ

trong ngữ, nhƣng vẫn chƣa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong
câu.
Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ. [16] đã thử
nghiệm 3 phƣơng pháp sau:
i.

Lấy ngữ dựa vào kết quả gióng hàng từ

Trang 20

Trang 21

Các cặp ngữ rút ra phải nhất quán nhƣ hình (a), những từ có liên kết với từ trong

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),

ngữ nguồn thì cũng đƣợc đƣa vào trong ngữ đích. Cách rút ngữ trong hình (b) là sai

(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao

vì từ “là” có liên kết với từ “is” nhƣng không đƣợc đƣa vào ngữ.

nhất), (the class, trong lớp)

Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh

cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .)

(That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp)
Trang 22

Trang 23

nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil
in the class ., học sinh cao nhất trong lớp .), (That girl is the highest pupil in the, Cô
bé ấy là học sinh cao nhất trong), (is the highest pupil in the class ., là học sinh cao
nhất trong lớp .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest
pupil in the class ., học sinh cao nhất trong lớp .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil
in the class., học sinh cao nhất trong lớp.), (That girl is the highest pupil in the, Cô
bé ấy là học sinh cao nhất trong), (is the highest pupil in the class., là học sinh cao
nhất trong lớp.) (That girl is the highest pupil in the class ., Cô bé đó là học sinh
cao nhất trong lớp .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh

Từ các cặp ngữ rút ra đƣợc, mô hình dịch dựa trên ngữ sẽ lƣu lại bảng ngữ (phrasetable) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất 𝜙(𝑒𝑖 |𝑣𝑖 ).

cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao

Trang 24

Trang 25

2.1.3. Mô hình dịch thống kê factored (Factored SMT)

Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chƣa sử dụng thông tin ngôn

Từ häuse đƣợc thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ
loại NN | số đếm Plural và đƣợc dịch theo các bƣớc:

ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng

-

biến cách nhƣ là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ

Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích
haus → house, home, building, shell

không có thông tin liên hệ nào giữa các dạng biến cách.

-

Dịch các factor nguyên mẫu, từ loại, hình thái

-

Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor

Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của

NN|plural → NN|singular, NN|plural

house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt.
Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhƣng chƣa gặp từ houses

house + NN|singular → house|house|NN|singular

thì sẽ không dịch đƣợc từ này.

house + NN|plural → houses|house|NN|singular

Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực

home + NN|singular → home|home|NN|singular

tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này đƣợc phát triển dựa trên cách

home + NN|plural → homes|home|NN|singular

tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức

…

đƣợc tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này đƣợc xem nhƣ

Quá trình dịch từ nguyên mẫu và các factor giống nhƣ dịch dựa trên ngữ. Hệ thống

là một vector đại diện chứa nhiều thông tin khác nhau.

sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng

Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu,

cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bƣớc dịch, hệ thống sẽ

từ loại, biến cách

tạo ra một bảng dịch.
Câu nguồn

Câu đích
Từ

Từ

Nguyên mẫu

Nguyên mẫu

Từ loại

Từ loại

Hình thái

Hình thái

Bƣớc phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan
đến kết quả gióng hàng từ.
Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng
dịch ngữ nhƣ mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều
bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất 𝑝 𝑣 𝑒 nhƣ
sau:

Hình 2.5. Mô hình dịch factored SMT

Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ.
Tuy nhiên, bƣớc tạo mô hình dịch của hệ factored SMT sẽ đƣợc chia ra thành ba

𝑝 𝑣𝑒 =

1
𝑒𝑥𝑝
𝑍

𝑛

𝜆𝑖 𝑕𝑖 𝑣, 𝑒
𝑖=1

(2.8)

bƣớc nhỏ.
Ví dụ từ tiếng Đức häuse khi đƣợc dịch sang tiếng Anh sẽ đƣợc xử lý nhƣ sau:

Trang 26

Trang 27

2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp

Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Nhƣ vậy, để tính xác
suất dịch từ câu 𝑒 sang câu 𝑣, ta phải tính từng hàm đặc trƣng 𝑕𝑖 bao gồm hàm đặc

Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa

trƣng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bƣớc dịch và phát sinh.

thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch.

Hàm đặc trƣng cho mô hình ngôn ngữ bigram sẽ là:

Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu
biểu:

𝑕𝐿𝑀 𝑣 𝑒 = 𝑝 𝑣 = 𝑝 𝑣1 𝑝 𝑣2 𝑣1 … 𝑝 𝑣𝑚 𝑣𝑚 −1
(2.9)

-

Dịch từ cây cú pháp sang câu (tree-to-string ) [34]
o

Đối với các bƣớc dịch, mỗi câu 𝑒, 𝑣 sẽ đƣợc tách ra nhiều cặp ngữ

𝑒𝑗 , 𝑣𝑗 . Cách

hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong

tính xác suất cặp ngữ 𝜏 𝑒𝑗 , 𝑣𝑗 cũng tƣơng tự cho mô hình dịch trong dịch máy

cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu

thống kê dựa trên ngữ. Hàm đặc trƣng cho bƣớc dịch đƣợc tính nhƣ sau:
𝑕𝜏 𝑒, 𝑣 =

Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô

đích.
o

𝜏 𝑒𝑗 , 𝑣𝑗

Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào
bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ

𝑗

cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác

(2.10)

suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá

Hàm đặc trƣng cho bƣớc phát sinh nhƣ sau:

có thể dịch ra thành từ rỗng (NULL).

𝑕𝐺 𝑒, 𝑣 =

𝛾 𝑣𝑘
𝑘

(2.11)
𝛾 𝑣𝑘 là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ

𝑣𝑘 . Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural
thành từ ở dạng đầy đủ houses sẽ học xác suất 𝑝 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙|𝑕𝑜𝑢𝑠𝑒𝑠 và
𝑝 𝑕𝑜𝑢𝑠𝑒𝑠| 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙 . Các giá trị phân phối này hệ thống thống kê từ ngữ
liệu đơn ngữ của ngôn ngữ đích.
Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ
phụ thuộc vào các yếu tố hình thái nhƣ từ loại, số đếm, giới tính, thì (quá khứ,
tƣơng lai…)
-

Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)
[33]

Trang 28

Trang 29

o

Câu nguồn và câu đích đƣợc phân tích ra thành cây cú pháp, thƣờng là

-

cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự.

Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn nhƣ chuyển
tân ngữ của câu tiếng Anh sang cuối câu trƣớc khi dịch sang tiếng Đức.

-

Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn.

-

Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn nhƣ
chuyển đổi trật tự giữa chủ ngữ và tân ngữ.

-

Có thể khai thác mô hình ngôn ngữ cú pháp:
o

Cây cú pháp đúng sẽ tạo ra câu dịch đúng.

o

Cho phép chuyển đổi trật tự ở xa. Chẳng hạn nhƣ chuyển động từ chính
về cuối câu.

Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chƣa khai thác hết thông
tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ
o

Cây cú pháp của câu đích đƣợc đổi trật tự và kết hợp với cây cú pháp của

trong câu là chuỗi token. Tác giả đƣa ra lý do của thông tin cú pháp chƣa thật sự có

câu nguồn.

ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra,

thông tin cú pháp khá là phức tạp, khó để con ngƣời theo dõi khi huấn luyện cũng
nhƣ khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại
hiểu rõ về lý thuyết ngôn ngữ.
2.2. Các tiêu chuẩn đánh giá chất lƣợng dịch

-

Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)
Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ

Việc đánh giá chất lƣợng dịch rất phức tạp vì mỗi câu nguồn thƣờng có thể có nhiều
câu dịch khác nhau. Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch
khác nhau cho cùng một câu nguồn.

con.
-

Dịch dựa trên mệnh đề (clause level restructuring)

Phƣơng pháp đáng tin cậy nhất là để con ngƣời đánh giá. Tuy nhiên, để ngƣời đánh
giá sẽ chậm và tốn nhiều chi phí. Mặc khác, mỗi ngƣời sẽ có cách nhìn nhận chủ

Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí

quan khác nhau. Do vậy, đánh giá bằng máy đƣợc sử dụng vì khách quan và nhanh

của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng

chóng, ít tốn chi phí.

sáu bƣớc chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tƣơng
đồng về trật từ từ giữa câu nguồn và câu đích.
Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ƣu điểm của phƣơng pháp
này nhƣ sau:

Để ƣớc lƣợng hiệu quả của hệ dịch, phƣơng pháp đánh giá tự động thƣờng đo độ
tƣơng tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu.
Trong khuôn khổ của đề tài, luận văn sử dụng ba độ đo để khảo sát kết quả dịch:
BLEU, NIST và TER.

Trang 30

Trang 31

2.2.1. BLEU (Bilingual Evaluation Understudy)

Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch đƣợc sử dụng
rộng rãi nhất hiện nay. Để đo BLEU, ngƣời ta tính dựa trên trung bình hình học

CHƢƠNG 3:
CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN

(geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu

NGỮ VÀO DỊCH MÁY THỐNG KÊ

dịch tham chiếu. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm
BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt

Hƣớng tiếp cận dịch máy dựa trên ngữ hiện đƣợc xem là state-of-the-art trong dịch

đƣợc điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống

máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp

đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ

các tri thức ngôn ngữ vào hệ thống, chẳng hạn nhƣ hình thái từ, ngữ pháp hoặc ngữ

thống dịch càng tốt.

nghĩa. Những tri thức này đã đƣợc nghiên cứu tích hợp vào các hệ thống dịch máy
dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt đƣợc một số kết quả

2.2.2. NIST

nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia

NIST [8] là độ đo có cách đánh giá tƣơng tự nhƣ BLEU nhƣng sử dụng trung bình

làm hai hƣớng chính là sử dụng tri thức để tiền xử lý và đƣa tri thức ngôn ngữ vào

số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi

hệ dịch.

đánh giá. Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều
thông tin hơn trong khi đối với BLEU là nhƣ nhau nếu cùng số từ. Với tiêu chuẩn
này, số điểm cao thì hệ dịch đƣợc xem là tốt.

2.2.3. TER (Translation Error Rate)

TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ
máy dịch thành câu tham chiếu. Đây là độ đo đƣợc đánh giá là gần với con ngƣời
nhất. Tỉ lệ lỗi sẽ đƣợc tính theo công thức:
𝑇𝐸𝑅 =

3.1.

Sử dụng tri thức ngôn ngữ để tiền xử lý

Hƣớng tiếp cận thứ nhất đƣợc tập trung nghiên cứu rất nhiều và đạt đƣợc một số kết
quả khả quan. Hƣớng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích
từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để
chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật
chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thƣờng, quá trình biến
đổi này đƣợc thực hiện ở bƣớc tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai

𝑠ố 𝑏ướ𝑐 𝑐𝑕ỉ𝑛𝑕 𝑠ử𝑎

phía và kết quả thu đƣợc sẽ đƣợc đem làm đầu vào cho hệ dịch. Mặc dù áp dụng

𝑠ố 𝑡ừ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑡𝑕𝑎𝑚 𝑐𝑕𝑖ế𝑢

theo nhiều cách khác nhau, nhƣng hầu hết các mô hình theo hƣớng này đều hiệu quả

Các bƣớc chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ

hơn so với mô hình baseline. Do mục tiêu chính của những phƣơng pháp này là

lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt.

hƣớng đến sự tƣơng đồng giữa hai ngôn ngữ nên đã khắc phục đƣợc khá nhiều lỗi
khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tƣơng
ứng hay chuyển đổi trật tự. Ngoài ra, việc phân tích hình thái từ còn làm giảm đƣợc
số từ chƣa có trong ngữ liệu huấn luyện.

Trang 32

Trang 33

3.1.1. Dùng thông tin cú pháp

liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để

Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh.

đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU.

Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu

Một hƣớng cải tiến gióng hàng từ do May và Knight [14] đề ra nhƣ sau: dùng

nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ

những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã đƣợc gióng bởi

đƣợc sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tƣơng tự giữa hai ngôn

công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật

ngữ. Mô hình này đã cải tiến đƣợc hệ dịch máy thống kê Anh – Pháp.

biến đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây

Nhóm nghiên cứu của Collins [7] đƣa ra mô hình cũng áp dụng kết quả phân tích cú

cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn

pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu

xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn

nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau

xuất cho mỗi cặp. Kết quả là các cặp câu đƣợc align lại từ cây dẫn xuất Viterbi.

đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tƣơng tự về

Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến

mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên

gióng hàng từ bằng cách sử dụng hai đặc trƣng của các luật đƣợc rút ra là kích

ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến đƣợc đáng kể, điểm BLEU từ

thƣớc của luật lớn nhất và số lƣợng luật để dò tìm tự động và xoá liên kết sai do

25,2% tăng lên 26,8%.

GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lƣợng

Nhóm nghiên cứu của Zhang [35] đƣa ra mô hình tƣơng tự nhƣ Xia và McCord

dịch đã đƣợc cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm

[11]. Trƣớc tiên, câu nguồn đƣợc gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó

BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%.

tác giả lấy kết quả gióng hàng và câu đã đƣợc phân tích để tự động rút luật chuyển

Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết

đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ

từ mới mà họ phát sinh ra đƣợc chỉ giới hạn trong các liên kết mà GIZA++ gán ban

họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học

đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33]

trong quá trình huấn luyện và biểu diễn ở dạng lƣới. Kết quả tăng từ 0,5% đến 1,8%

thì sẽ phát hiện đƣợc tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả

điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS.

của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn

[12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển

nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho

đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này đƣợc dùng để đảo cho ngôn ngữ

mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phƣơng pháp tìm kiếm Greedy

nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá.

nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm đƣợc nhiều thời

Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn

gian hơn.

PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất

Phƣơng pháp này không những cải thiện đƣợc kết quả gióng hàng mà còn làm tăng

cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi

độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ

trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao

dịch xử lý trƣờng hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy

nhất sẽ đƣợc chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ

nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú

Trang 34

Trang 35

pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không

Ƣu điểm của phƣơng pháp này là có thể đƣa ra luật chuyển đổi bằng tay dựa trên

chính xác, dẫn đến luật học cũng sai và ảnh hƣởng đến kết quả hệ dịch. Và đó cũng

khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về

là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác.

trật tự từ.

3.1.2. Sử dụng thông tin từ loại

3.1.3. Sử dụng luật biến đổi hình thái từ

Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên

Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác

thông tin từ loại. Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút

nhƣ dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến

ra các luật chuyển đổi.

đổi từ sang dạng mới, nhằm tạo sự tƣơng đƣơng giữa hai ngôn ngữ, giảm bớt các

Nhóm nghiên cứu của Hermann Ney [20] đƣa ra hai cách chuyển đổi trật tự tuỳ

trƣờng hợp gióng hàng không phải 1-1.

thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ

Nicola Ueffing và Hermann Ney [23] đƣa ra mô hình dịch từ ngôn ngữ ít biến đổi

khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch

hình thái nhƣ tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh

sang tiếng Đức. Kết quả giảm đƣợc 2% WER và tăng 7% BLEU.

thƣờng không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích.

-

-

Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong

Tác giả đƣa ra mô hình cải tiến chất lƣợng hệ dịch bằng cách sử dụng thông tin từ

khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật

loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và

tự ngƣợc lại. Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ đƣợc đảo ra sau.

Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc

Nếu dịch sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau

và du lịch.

danh từ.

Tác giả đƣa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại.

Chuyển đổi xa: Trong tiếng Đức, động từ thƣờng đƣợc đặt ở cuối câu nếu ở

-

Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trƣớc động từ

dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle). Do đó,

thƣờng đƣợc bỏ qua và thay vào đó, ngƣời ta thể hiện thông qua đuôi của

khi dịch sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu

động từ. Phần cuối này cho biết động từ đang ở thì tƣơng lai hay là các

hay quá khứ phân từ về cuối câu.

dạng trợ động từ nhƣ “should”, “would” trong tiếng Anh. Để giải quyết

Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự

vấn đề này, tác giả đề ra phƣơng pháp tạo dạng từ mới của tiếng Anh

từ giữa tiếng Hoa và tiếng Anh. Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa

bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ

trƣớc khi đƣa vào hệ dịch. Họ đƣa ra hệ luật chuyển đổi bằng cách khảo sát thành

trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have”

phần của các loại ngữ trong Penn Chinese Treebank guidelines. Những loại ngữ có

đƣợc nối thành “you_will_have” tƣơng ứng với “tendrás” tiếng Tây Ban

thứ tự thành phần tƣơng tự tiếng Anh thì sẽ đƣợc giữ nguyên, chẳng hạn nhƣ ngữ
tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ

Nha và “tindràs” trong Catalan.
-

Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với

danh từ, ngữ động từ, ngữ định vị (tƣơng ứng với ngữ giới từ trong tiếng Anh). Kết

câu khẳng định: Trợ động từ đƣợc đảo ra trƣớc đại từ và động từ chính

quả hệ đƣợc cải tiến từ 28,52 đến 30,86 điểm BLEU.

chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban

Trang 36

Trang 37

Nha, tác giả đƣa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau

Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng

giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ

hàng từ đƣa vào huấn luyện. Các luật chuyển đổi sẽ đƣợc rút ra khi cây cú pháp câu

động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không

nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những

gây ảnh hƣởng đến kết quả dịch (nhƣ công bố của [27] khi dịch từ tiếng

luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú

Đức sang Anh). Nhƣng tác giả không bỏ trợ động từ ở thì quá khứ. Khi

pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình

xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” đƣợc

thái cho câu nguồn, chuỗi nhận đƣợc cùng với câu đích sẽ là đầu vào của hệ dịch.

chuyển thành “how_you_are”

Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề

Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây

máy tính và ~3% chủ đề đàm thoại. Phƣơng pháp này có thể áp dụng cho các cặp

Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh

ngôn ngữ khác, đặc biệt là khi kích thƣớc ngữ liệu nhỏ.

– Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của

Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm đƣợc phần

tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng

nào trƣờng hợp từ chƣa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố

cách xử lý thêm các loại từ khác ngoài động từ.

và đảo trật tự theo tiếng Việt, mô hình tăng cƣờng gióng hàng 1-1 nên kết quả gióng

Trong bài báo của Nguyễn Phƣơng Thái và Akira Shimazu [32], tác giả sử dụng các

hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về

luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa

mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ.

trên công thức Bayes. Câu nguồn đã đƣợc chuyển đổi ở phần tiền xử lý. Kết quả thử
nghiệm trên ngữ liệu Anh – Việt, cải tiến đƣợc 3,28% so với phrase-base SMT bằng

3.2.

Tích hợp tri thức vào hệ thống dịch máy

Tƣơng tự hƣớng tiếp cận thứ nhất, những mô hình trong hƣớng này cũng sử dụng

Pharaoh.
Trong nghiên cứu này, tác giả đƣa ra mô hình khác với [10] và [6] ở chỗ mô hình
chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp
cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp
ngôn ngữ Anh – Việt (khác về đặc trƣng ngôn ngữ) và kết hợp chuyển đổi cú pháp
với chuyển đổi hình thái.
Tác giả đƣa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn

các thông tin ngôn ngữ nhƣ: từ loại, hình thái từ, cây cú pháp,... để cải tiến hệ dịch.
Chỉ khác ở chỗ, những tri thức này đƣợc đính kèm vào trong các cặp câu và đƣa vào
mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT. Đây là mở rộng của hệ
dịch dựa trên ngữ, cho phép ngƣời dùng đƣa những thông tin khác đi kèm với từ.
Những thông tin này có thể đƣa vào mô hình dịch hoặc mô hình ngôn ngữ.

3.2.1. Tích hợp thông tin hình thái vào mô hình dịch

ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể

Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng

phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố

khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các

nhƣ tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các

động từ. [5] đƣa ra mô hình phân lớp loại từ sẽ tạo một token tƣơng ứng với tất cả

phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” đƣợc chuyển thành

các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều

“book_s”, “booking” chuyển thành “book_ing”.

hơn và dễ ƣớc lƣợng hơn. Ngoài ra, có một mô hình tƣơng tự đối với động từ của
ngôn ngữ đích.

Trang 38

Trang 39

Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến

Trong đó, văn phạm CCG chứa hầu hết các cấu trúc ngữ pháp. Vì vậy, thông tin

đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2

supertag ở câu nguồn cho phép bộ giải mã quyết định chọn lựa dựa trên cấu trúc của

ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra

đầu vào. Kết quả dịch từ tiếng Hà Lan – tiếng Anh: thêm POS tăng 0,14; supertag

theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee đƣợc tách thành Fruchte và

0,45; cả POS và supertag tăng 0,46 BLEU. Supertag chứa nhiều thông tin hơn POS

tee, trong đó từ đƣợc đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra,

vì chứa cả ngữ cảnh cú pháp chứ không chỉ riêng thông tin của từ đó.

tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa
riêng biệt đƣợc nối với nhau.

3.2.3. Tích hợp vào mô hình ngôn ngữ

Nhóm nghiên cứu của [9] đƣa ra phƣơng pháp mới về sử dụng thông tin cú pháp

Về vấn đề từ chƣa gặp trong ngữ liệu huấn luyện, chẳng hạn nhƣ tên riêng, tác giả
không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ
làm giảm lƣợng từ chƣa gặp. Giảm đƣợc 8,9% số từ chƣa gặp. Các bƣớc xử lý này
cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và
phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đƣa ra kết quả của

hệ dịch với ngữ liệu đƣợc gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn
luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch.

cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê nhƣ là mô
hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU
tăng thêm 25% so với hệ base-line syntax-based SMT.
Hƣớng tiếp cận này khai thác đƣợc tri thức ngôn ngữ khá hiệu quả, nhất là đối với
các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra
dạng đúng của từ.

[21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp
kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding
German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại
từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại,
hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là
từ loại. Tuy nhiên tác giả không đƣa kết luận cuối cùng và không lý giải kết quả
này.
3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch

Nhóm nghiên cứu của [5] đề xuất mô hình phrase-based SMT tích hợp thông tin cú
pháp nhằm kết hợp thế mạnh của cả mô hình phrase-based và cấu trúc cú pháp bằng
cách sử dụng thông tin cú pháp nhãn văn phạm CCG (Combinatiorial Categorial
Grammar) vào hệ dịch. Tác giả đƣa supertag (nhãn thông tin cú pháp) nhƣ là một
factor ở câu nguồn hoặc câu đích. Chất lƣợng dịch đƣợc cải tiến nhờ chuyển đổi trật
tự từ.

Trang 40

Trang 41

CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI
Trong các hƣớng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống

Phần thí nghiệm của đề tài thực hiện các hƣớng tiếp cận nhƣ sau:
-

Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và
phụ tố.

kê, luận văn khảo sát ảnh hƣởng của các tri thức hình thái và từ loại vào hệ thống
dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu
đầu vào và chọn mô hình dịch. Chƣơng này trình bày chi tiết về các cách tích hợp
tri thức ngôn ngữ đƣợc đƣa vào trong luận văn.

-

o

Gán nhãn từ loại vào mỗi từ tiếng Anh

o

Phân tích từ thành nguyên mẫu và phụ tố

o

Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ.

Tích hợp thông tin ranh giới từ, từ loại tiếng Việt

Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can

o

Tách từ tiếng Việt

thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn.

o

Gán nhãn từ loại tiếng Việt

-

Sử dụng mô hình factored SMT cho hệ Anh – Việt

Mô hình dịch thống kê Anh – Việt

Tích hợp thông
tin:
- Từ loại
- Hình thái từ
Chuyển đổi trật tự

o

Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt

o

Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại
cho tiếng Anh và tiếng Việt

Ngữ liệu song ngữ

4.1.

Tích hợp thông tin hình thái từ tiếng Anh

Tiếng Anh
Mô hình dịch

4.1.1. Thông tin từ loại

Tiếng Việt

Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thƣờng mắc
Tích hợp thông
tin:

phải một số lỗi sau: dịch sai nghĩa hoặc không dịch đƣợc từ tiếng Anh sang tiếng
Việt. Trƣờng hợp dịch sai nghĩa nguyên nhân chính là do một từ thƣờng có nhiều

Mô hình ngôn ngữ

- Ranh giới từ
Bộ giải mã

- Từ loại

nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng
ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không

Câu tiếng Anh

dịch đƣợc từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ đƣợc các
Câu dịch tiếng Việt

câu kiểm tra.
Trƣờng hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau:

Hình 4.1. Mô hình chung của luận văn
Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận

* I like reading book.
+ Tôi thích đọc sách.

văn còn khảo sát, đánh giá mức độ ảnh hƣởng của các thông tin này vào hệ dịch

* Book early if you want good seats.

thống kê Anh – Việt.

+ Đặt chỗ sớm nếu bạn muốn có chỗ ngồi tốt.

Trang 42

Trang 43

Từ “book” trong câu đầu tiên đƣợc dịch đúng là “sách”. Tuy nhiên, từ “book” trong

không có mối liên hệ nào với nhau. Để khắc phục khuyết điểm này, trong quá trình

câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn

cài đặt, luận văn xem từ “houses” nhƣ là hai từ “house” và “s”. Nhƣ vậy, hệ thống

có chỗ ngồi tốt.”

có thể dịch đƣợc các từ dạng này mà không cần phải bổ sung mở rộng ngữ liệu song

Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích

ngữ huấn luyện.

và kết luận rằng từ loại thực từ và mang tính phổ quát nhƣ danh từ, động từ, tính từ

Trong khuôn khổ của đề tài, luận văn khảo sát sự biến đổi kết quả dịch khi chuyển

và đại từ của hai ngôn ngữ có tính tƣơng đồng.

từ tiếng Anh về dạng nguyên mẫu và thêm thông tin phụ tố biến cách.

Xét trƣờng hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc

Ngoài ra, luận văn còn thực thi thêm mô hình kết hợp chuyển về từ nguyên mẫu,

phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like

thêm phụ tố và tích hợp nhãn từ loại vào câu tiếng Anh.

reading book.” thì chữ “book” đƣợc gán nhãn là danh từ, khi dịch danh từ “book” ra
tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “sách”. Trong câu “Book early if you
want good seats.” thì chữ “book” đƣợc gán nhãn là động từ, khi dịch “book” động
từ ra tiếng Việt, chúng ta sẽ có đƣợc nghĩa đúng là “đặt chỗ”.
Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hƣởng của nhãn từ loại
tiếng Anh vào hệ dịch thống kê.

4.1.3. Sử dụng luật chuyển đổi trật tự

Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tƣơng
đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận
văn áp dụng tập luật thủ công nhằm tạo sự tƣơng đồng cho cặp câu song ngữ.
Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase),
tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition

4.1.2. Thông tin biến cách của từ

Do tiếng Anh thuộc ngôn ngữ biến hình và tiếng Việt thuộc ngôn ngữ đơn lập nên
phƣơng thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp của hai ngôn ngữ cũng
khác nhau [1, tr. 46]. Tiếng Anh dùng hình vị phụ tố, tiếng Việt dùng từ hƣ. Tuy
nhiên hầu hết các trƣờng hợp dẫn xuất và biến cách trong tiếng Anh đều có ánh xạ
tƣơng ứng sang tiếng Việt. [1] đƣa ra danh sách đối chiếu hình thái từ cho các tiền
tố, hậu tố của tiếng Anh và nghĩa tiếng Việt tƣơng ứng.
Dựa vào đặc điểm trên, luận văn khai thác thông tin phụ tố để cải tiến hệ dịch.
Trƣờng hợp từ không dịch đƣợc do từ không có trong ngữ liệu có thể chia làm hai
dạng, dạng một là từ hoàn toàn không có trong ngữ liệu, cách khắc phục dạng này là

phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về
trật tự từ giữa những từ trong ngữ.
4.1.3.1.


Danh ngữ

Định từ (determiner)

Trong danh ngữ, một số định từ đứng trƣớc danh từ khi dịch sang tiếng Việt sẽ
chuyển về cuối.
Xét định từ “the”, thông thƣờng từ này sẽ không đƣợc dịch. Ví dụ:
the book  cuốn sách
the phone  điện thoại

mở rộng ngữ liệu huấn luyện. Dạng thứ hai là từ không có trong ngữ liệu nhƣng

Với các định từ “this”, “that”, “these”, “those”, khi đứng trƣớc danh từ khi dịch

biến cách của nó lại nằm trong ngữ liệu, ví dụ nhƣ hệ thống có thể dịch đƣợc từ

sang tiếng Việt sẽ đƣợc chuyển về cuối. Ví dụ:

“house” thành “ngôi nhà” nhƣng lại không thể dịch đƣợc từ “houses” thành “những

This table  cái bàn này

ngôi nhà”. Vì từ “house” và “houses” đƣợc hệ thống xem nhƣ là hai từ khác biệt,
Trang 44

Trang 45

Those white rabbits  những con thỏ trắng kia

My computer  computer my
Their children  children their

Dựa vào đặc điểm này, chúng tôi rút luật nhƣ sau: Trong danh ngữ, nếu định từ
“this”, “that”, “these”, “those” đứng đầu thì sẽ đƣợc chuyển về cuối.
Áp dụng luật chuyển đổi cho 2 ví dụ trên ta đƣợc:

1.1.1.1.

Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngƣợc so với tiếng Việt:

This table  table this

Mary’s box  Chiếc hộp của Mary

Those white rabbits  white rabbits those


Tính từ bổ nghĩa trước danh từ chính (pre-modifier)

Sở hữu cách (possessive case)

book’s cover Bìa của quyển sách
Trong trƣờng hợp, luật đƣợc rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai

Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trƣớc danh từ, trong khi đối với tiếng

danh từ thì sẽ đảo vị trí của hai danh từ.

Việt, tính từ đứng sau danh từ. Xét các ví dụ sau:

Áp dụng luật trên, ta đƣợc:

An interesting film  Một bộ phim hay

Mary’s box  box „s Mary

The small blue house  Căn nhà nhỏ màu xanh

Book ‟s cover  cover „s book

Nhƣ vậy, luật đƣợc rút nhƣ sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng
trƣớc danh từ thì chuyển ra sau danh từ.
Áp dụng luật cho 2 ví dụ trên, ta đƣợc:



Danh từ phụ (sub noun)

Trong tiếng Anh, danh từ phụ đứng trƣớc bổ nghĩa cho danh từ chính. Trong khi thứ
tự trong tiếng Việt thì ngƣợc lại.

An interesting film  An film interesting

Nuclear weapons  vũ khí hạt nhân

The small blue house  The house small blue


Tính từ sở hữu (possessive adjective)

Computer science  khoa học máy tính
Luật đƣợc rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ đƣợc đảo

Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trƣớc danh từ nhƣng trong tiếng

vị trí.

Việt, tính từ sở hữu đứng sau danh từ.

Nếu áp dụng luật cho 2 ví dụ trên, ta đƣợc:

Xét 2 ví dụ:

Nuclear weapons  wepons nuclear
My computer  Máy tính của tôi
Their children  Con của họ

Computer science  science computer
4.1.3.2. Động ngữ

Luật đƣợc rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về

So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là

cuối.

nhƣ nhau, trừ trƣờng hợp phủ định của trợ động từ (modal verb) và một số trạng từ.

Áp dụng luật trên cho 2 ví dụ:

Trang 46

Trang 47



4.1.3.2.

Phủ định của trợ động từ



Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động

Tính ngữ

Trạng từ so sánh (comparative adverb, superlative adverb)

từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trƣớc trợ động từ.

Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng

Xét ví dụ sau:

từ này trong tính ngữ, câu đƣợc dịch sang tiếng Việt sẽ biểu thị mức so sánh sau
Could not  không thể

cùng. Ví dụ:
The most expensive  đắt nhất

Should not  không nên

More complex  phức tạp hơn

Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ
định thì sẽ đảo trạng từ phủ định lên trƣớc trợ động từ.
Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật:
Could not  not could

Luật đƣợc rút trích nhƣ sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì
trạng từ so sánh sẽ đƣợc chuyển ra sau cùng.
Sau khi áp dụng luật cho ví dụ trên, ta đƣợc:
The most expensive  the expensive most

Should not  not should


More complex  complex more
Trạng từ/ngữ


Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trƣớc động từ thì khi dịch sang

Động từ/ ngữ

Tƣơng tự nhƣ trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính

tiếng Việt sẽ đƣợc đảo ra sau.

trạng từ sẽ đƣợc đảo ra sau động từ/ngữ.

Ví dụ:



greatly influence  ảnh hƣởng lớn
carefully design  thiết kế một cách cẩn thận
Do đó, chúng tôi rút ra luật nhƣ sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trƣớc

Danh ngữ

Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ đƣợc chuyển danh ngữ ra
sau tính từ. Xét ví dụ sau:
(6 metters) long  dài 6 mét

động từ thì sẽ đƣợc chuyển ra sau động từ.

Cụm tính ngữ sẽ đƣợc đảo nhƣ sau:

Kết quả áp dụng luật cho ví dụ trên:

(6 metters) long  long (6 metters)

greatly influence  influence greatly
carefully design  design carefully

4.1.3.3.

Trạng ngữ

Tƣơng tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ
so sánh sẽ đƣợc chuyển ra sau.
Ví dụ:

Trang 48

Trang 49

TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH VIỆT

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về