tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 96 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN THỊ NGỌC MAI

TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO

HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2010

MỤC LỤC
MỤC LỤC............................................................................................................................1
DANH SÁCH CÁC BẢNG...............................................................................................4
DANH SÁCH CÁC HÌNH................................................................................................5
CHƯƠNG 1: GIỚI THIỆU................................................................................................6
1.1. Đặt vấn đề...............................................................................................................6
1.2. Hướng tiếp cận của đề tài......................................................................................8
1.3. Nội dung của luận văn...........................................................................................9
CHƯƠNG 2: TỔNG QUAN...........................................................................................11
2.1. Dịch máy thống kê...............................................................................................11
2.1.1. Dịch máy thống kê dựa trên từ....................................................................11
2.1.2. Mô hình dịch máy thống kê dựa trên ngữ..................................................19
2.1.3. Mô hình dịch thống kê factored (Factored SMT).....................................26
2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp...........................................29
2.2. Các tiêu chuẩn đánh giá chất lượng dịch..........................................................31

2.2.1. BLEU (Bilingual Evaluation Understudy)................................................32
2.2.2. NIST............................................................................................................... 32
2.2.3. TER (Translation Error Rate)......................................................................32
CHƯƠNG 3:......................................................................................................................33
CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG
KÊ....................................................................................................................................... 33
3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý...........................................................33
3.1.1. Dùng thông tin cú pháp................................................................................34
Trang 1

3.1.2. Sử dụng thông tin từ loại............................................................................. 36
3.1.3. Sử dụng luật biến đổi hình thái từ...............................................................37
3.2. Tích hợp tri thức vào hệ thống dịch máy..........................................................39
3.2.1. Tích hợp thông tin hình thái vào mô hình dịch.........................................39
3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch...........................................40
3.2.3. Tích hợp vào mô hình ngôn ngữ.................................................................41
CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI.........................................................................42
4.1. Tích hợp thông tin hình thái từ tiếng Anh........................................................ 43
4.1.1. Thông tin từ loại............................................................................................43
4.1.2. Thông tin biến cách của từ...........................................................................44
4.1.3. Sử dụng luật chuyển đổi trật tự...................................................................45
4.2. Thêm thông tin hình thái từ tiếng Việt..............................................................50
4.2.1. Thông tin ranh giới từ.................................................................................. 50
4.2.2. Thông tin từ loại............................................................................................51
4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt...............................52
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ.........................................................54
5.1. Ngữ liệu.................................................................................................................54
5.2. Các công cụ.......................................................................................................... 55
5.3. Thí nghiệm............................................................................................................55

5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh................................55
4.4. Tóm tắt kết quả thí nghiệm.................................................................................74
CHƯƠNG 6: KẾT LUẬN............................................................................................... 76
TÀI LIỆU THAM KHẢO................................................................................................78
PHỤ LỤC...........................................................................................................................82

Trang 2

A.

Đối chiếu hình thái từ

B.

Kết quả dịch của một

Anh – Việt (biến cách)................................................... 82
số mô hình.........................................................................82

Trang 3

DANH SÁCH CÁC BẢNG
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng..................................................... 15
Bảng 5.1 Thông tin về ngữ liệu....................................................................................... 59
Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
60
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ..............................................63
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt

64
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình................................................65
Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt....................................68
Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh
và tiếng Việt.......................................................................................................................71

Trang 4

DANH SÁCH CÁC HÌNH
Hình 2.1. Mô hình dịch máy thống kê............................................................................ 12
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết...........................................................14
Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ...........................................19
Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ............................................................. 20
Hình 2.5. Mô hình dịch factored SMT............................................................................27
Hình 4.1. Mô hình chung của luận văn...........................................................................43
Hình 4.2. Mô hình ngôn ngữ từ vựng.............................................................................49
Hình 4.3. Mô hình ngôn ngữ từ loại................................................................................49
Hình 4.4. Mô hình factored SMT tích hợp từ loại.........................................................50
Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại.............................51
Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ........................51

Trang 5

CHƯƠNG 1: GIỚI THIỆU
1.1.

Đặt vấn đề

Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện
nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của
máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin
phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên
nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công
cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết
kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất
nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất
phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác
biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy
có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn
đang là một thách thức lớn.
Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều
hướng tiếp cận khác nhau:
-

Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại
học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc
học luật chuyển đổi từ ngữ liệu song ngữ.

-

Nhóm nghiên cứu của PGS. TS. Phan Thị Tươi (Đại học Bách Khoa Thành
phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để
dịch văn bản Anh-Việt và Việt-Anh.

-

Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần
Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch

đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm
(). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử

Trang 6

dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ
năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn
bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả
của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được
thiết lập hay không.
-

Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA –
ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên
Hải ( tại LATL.

-

Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao
gồm cả tiếng Việt. Sử dụng phương pháp dịch máy thống kê dựa trên kho ngữ liệu
song ngữ. Tốc độ dịch nhanh và có tính năng tương tác với người dùng nhằm tăng
chất lượng dịch cho các lần sau.

-

Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến
một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển,
hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng chỉnh sửa, góp ý về
nội dung dịch nhằm nâng cao chất lượng dịch.

-

Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt
www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần
dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi
người dùng.
Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác
nhau, tuỳ thuộc vào dạng câu đầu vào.
Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ
nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp
chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật
cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi
hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ.
Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn
toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của
Trang 7

hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không
cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất
lượng tốt thì hệ dịch sẽ càng hiệu quả.
Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có
thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý
trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn
luyện và dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá
trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà
mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất
nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô
hình này.

Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống
kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập
trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát
triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này.
1.2.

Hướng tiếp cận của đề tài

Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào
trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch
máy thống kê Anh - Việt. Các tri thức được tập trung khảo sát bao gồm hình thái từ,
từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông
tin này lên hệ dịch.
Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ
đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng
các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình
tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng
vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói
đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố
thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là
Trang 8

ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng.
Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà
trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ
pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được
hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những

ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), ...

Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố.
Nhiều nghiên cứu đã tiếp cận theo hướng tập trung vào giải quyết sự khác biệt về
trật tự từ giữa tiếng Anh và tiếng Việt như nghiên cứu của nhóm Nguyễn Phương
Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3]
và đạt được một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa
tiếng Anh và tiếng Việt vẫn chưa được quan tâm.
Do đó, đề tài sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch
máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ được đưa về
nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ được phân đoạn từ
và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hưởng tích cực đến
chất lượng dịch của hệ thống.
1.3.

Nội dung của luận văn

Phần còn lại của luận văn sẽ bao gồm các chương sau:
Chương 2 – TỔNG QUAN: Chương này sẽ trình bày hướng tiếp cận dịch máy
thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này.

Chương 3 – CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH
MÁY THỐNG KÊ: Chương này sẽ khảo sát các hướng tiếp cận để đưa tri thức
ngôn ngữ vào trong hệ máy thống kê, phân tích ưu khuyết điểm của các hướng tiếp
cận này.

Trang 9

Chương 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chương này sẽ mô tả mô hình được sử
dụng trong đề tài, các tri thức được đưa vào hệ thống dịch máy thống kê Anh - Việt
dựa trên ngữ và lí do lựa chọn các tri thức này.

Chương 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chương này sẽ mô tả chi tiết
về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của đề tài, đồng
thời so sánh các tri thức ngôn ngữ khác nhau ảnh hưởng như thế nào trong dịch máy
thống kê Anh - Việt.
Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và
hướng phát triển trong tương lai.
TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên
quan và được sử dụng trong đề tài.
CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã
được công bố trong quá trình thực hiện đề tài.

Trang 10

CHƯƠNG 2: TỔNG QUAN
2.1. Dịch máy thống kê
Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ
những năm 1980 trong dự án Candide của IBM. Phương pháp được IBM sử dụng là
dịch máy thống kê dựa trên từ (word based SMT), phương pháp này dịch từ một từ
thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép
thêm, xoá các từ trên câu đích.
Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương pháp
dịch máy thông kê dựa trên ngữ (phrase based SMT). Phương pháp này được đặt
nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô
hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ.
Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ
thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ
trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình.
Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên
ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google.

Các hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội
nghị đánh giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine
Translation Evaluation).
Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch
máy. Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ
vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào
các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ
trung gian trong quá trình dịch.
2.1.1. Dịch máy thống kê dựa trên từ

Mô hình dịch máy thống kê dựa trên từ [25] được đưa ra bởi Brown vào năm 1990.
Mô hình này giả sử rằng câu ở ngôn ngữ nguồn có câu dịch là câu ở ngôn ngữ
Trang 11

đích. Một câu e có thể dịch sang được nhiều câu v. Trong dịch thống kê, ta chọn câu
v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu ta gọi là xác suất mà
có thể dịch thành . Mục đích của dịch máy thống kê là tìm câu có xác suất là cao
nhất.
Tuy nhiên, việc tính xác suất

không khả thi vì câu đích được tạo ra bởi chuỗi

các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp.
Do đó, công thức Bayes được dùng để triển khai cho xác suất
=

.

:

(2.1)

Vì câu tiếng Anh e không đổi nên ( ) sẽ không ảnh hưởng đến việc chọn câu , ta có thể bỏ qua ( ). Khi đó, câu dịch được chọn sẽ là câu có . lớn
nhất.

=

=

.

(2.2)

Hệ dịch máy thống kê gồm 3 phần:
-

Mô hình ngôn ngữ ( ) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn
ngữ

đích sẽ có giá trị xác suất ( ) cao hơn. Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ.

-

Mô hình dịch ( ) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho
trước, câu dịch v nào có xác suất ( ) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa trên các
cặp câu song ngữ.

-

Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để
thực hiện quá trình dịch.
Trang 12

Ngữ liệu
song ngữ

Ngữ liệu
đơn ngữ

Thống kê

Thống kê

Mô hình dịch

Mô hình ngôn ngữ

Câu nguồn

Quá trình giải mã

Câu đích

Hình 2.1. Mô hình dịch máy thống kê
2.1.1.1. Mô hình ngôn ngữ

Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ
pháp) trong câu được phát sinh. Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất

dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ được dùng
trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thường
tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram.
Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên − 1 từ

đứng trước nó trong câu. Cho câu gồm chuỗi các từ 1, 2, … , ta tính các xác suất trong mô hình ngôn ngữ như sau:

Xác suất unigram:
ố ầ

=

1

ấ ệ ừ

ổ

1

ố ừ
(2.3)

Xác suất bigram:
1| 2 =

ốầấệụ

12ốầấệừ1

Trang 13

(2.4)

Xác suất trigram:
ố ầ

=

3| 1 2

ố ầ

ấ ệ ụ

ấ

ệ ụ

1 2 3

1

2

(2.5)

Xác suất xuất hiện của câu được tính bằng tích của tất cả các xác suất xuất hiện của
từng từ có trong câu . Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu

“I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram.

= < >< > × < > ×

××××

× (</ > |

) × (</ > |

</ >)

Trong thực tế, ngữ liệu thường bị phân tán, nếu từ không tồn tại trong ngữ liệu thì
xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ được
tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức
tính xác suất xuất hiện của từ được điều chỉnh như sau:
0.8 ×

3 1 2

+ 0.15 ×

3 2

+ 0.049 ×

3

+ 0.001

Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác như: mô
hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp.
2.1.1.2. Gióng hàng từ

Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên
gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách
đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.
Ví dụ, gióng hàng từ giữa cặp câu song ngữ:
She takes a small green box.
Cô ấy lấy một chiếc hộp nhỏ màu xanh.

Trang 14

được biểu diễn như sau:
She

takes

Cô ấy

lấy

a

small

một

green

chiếc hộp

box

nhỏ

.

màu xanh

.

Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết
Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như bảng 2.1.
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng
She

takes

a

small greenbox

.

Cô
ấy
lấy
một

chiếc
hộp
nhỏ
màu
xanh
.

Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù được đưa ra từ rất lâu nhưng
hiện nay vẫn được xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng
các liên kết từ giữa cặp câu luôn tồn tại, nhưng chưa xác định được vị trí của các
liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh có từ và câu tiếng Việt có
từ:
= 1, 2, …

=

1, 2,

…

Trang 15

Gọi gióng hàng từ : → liên kết từ tiếng Anh thứ sang từ tiếng Việt thứ và là tập các liên kết từ tất cả các từ trong câu e
=

1,

,…

Từ xác suất gióng hàng từ, ta có thể tính được xác suất dịch theo công thức:
=

,

Xác suất gióng hàng từ giữa các từ trong cặp câu,
,

Trong đó,

=

,

được tính như sau:

=1

(2.6)

(2.7)

được tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song

ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức
cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã được [24]
đề xuất để ước lượng các gióng hàng từ (ngữ) này.
Ý tưởng của thuật toán EM như sau:
Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong
câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng

hàng từ được khởi tạo giá trị ban đầu như nhau.
…

…

my house … small house … my mobile …

nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Sau đó, qua mỗi lần lặp, các cặp từ thường gióng hàng với nhau nhất sẽ được xác
định.

Trang 16

Liên kết giữa “my” và “của tôi” được xác định:
…

…

my house … small house … my mobile …

nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Liên kết “house” và “nhà” được xác định:
…

…

my house … small house … my mobile …

nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Các liên kết khác được xác định:
…

…

my house … small house … my mobile …

nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Kết quả gióng hàng từ cuối cùng:
…

…

my house … small house … my mobile …

nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó
ta được cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tương ứng.
Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lượt là
IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra
gióng hàng từ trên các cặp câu song ngữ.

Trang 17

Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này được xây
dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép
gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ

đích.
[10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có
được từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ
được giữ lại và vùng gióng hàng từ được mở rộng tối đa không vượt quá vùng giao
của hai gióng hàng từ.
Đầu tiên, ngữ liệu song ngữ được gióng hàng từ cả hai phía, từ ngôn ngữ nguồn
sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra
hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng
hàng từ với độ chính xác cao (high-precision). Ngược lại, nếu lấy phần hợp của hai
gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao.
Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu
đen, các điểm mở rộng có màu xám.

Trang 18

Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ
2.1.1.3. Quá trình giải mã (decoding)

Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn.
- Chia câu nguồn thành nhiều từ hoặc cụm từ.
- Tra trong bảng ngữ để tìm các ngữ dịch tương ứng.
- Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất mô

hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất.
2.1.2. Mô hình dịch máy thống kê dựa trên ngữ

Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh
mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên
ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ
thống có thể dịch các cụm từ tránh được dịch word-by-word.

Trang 19

Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e được tách thành nhiều ngữ
(là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ pháp, dấu câu cũng được xem như là
một từ). Mỗi ngữ được dịch thành ngữ tương ứng dựa vào phân phối xác suất ( | ). Sau đó các ngữ
sẽ được chuyển đổi trật tự dựa trên mô hình chuyển đổi ( − −1), với là vị trí bắt đầu của ngữ và
−1 là vị trí kết thúc của ngữ . Do vậy, hệ dịch thống kê trên ngữ sẽ học được các cặp cụm từ song
ngữ, đặc biệt là các câu thành ngữ.

Như vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ được viết lại thành:
=

( | )× ( −

)
−1

=1

(2.6)

Hình 2.4 minh hoạ quá trình dịch máy thống kê dựa trên ngữ. Câu đầu vào tiếng
Anh được tách thành nhiều cụm từ, hay còn gọi là ngữ. Các ngữ được dịch sang ngữ

tiếng Việt tương ứng, các ngữ tiếng Việt đầu ra có thể chuyển đổi trật tự trong câu
cho phù hợp với tiếng Việt.
She

Cô ấy

takes a

lấy một

small green box

chiếc hộp nhỏ màu xanh

.

.

Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ
Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ
trong ngữ, nhưng vẫn chưa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong
câu.
Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ. [16] đã thử
nghiệm 3 phương pháp sau:
i.

Lấy ngữ dựa vào kết quả gióng hàng từ

Trang 20

Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ. Sau
đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ các cặp ngữ chứa những từ có liên kết. Khi đó, ( | ) được tính như sau:

=

(|)

(|)

(2.7)

ii.

Tách ngữ cú pháp

Trước tiên, tác giả gióng hàng từ cho cặp câu song ngữ, sau đó phân tích cặp câu ra
cây cú pháp. Tác giả rút trích các cặp ngữ song ngữ bằng cách lấy chuỗi từ nằm
trong cây con của cây cú pháp và có liên kết gióng hàng từ. Xác suất dịch của cặp
ngữ được tính tương tự như mô hình trên.
iii. Dùng mô hình kết hợp do Marcu, D. và Wong, W đề xuất: Hình thành ngữ

trực tiếp trên ngữ liệu song ngữ
Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho
kết quả tốt nhất trong 3 mô hình.
Xét cặp câu song ngữ:
That girl is the highest pupil in the class.
Cô bé đó là học sinh cao nhất trong lớp.

Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau:

Từ kết quả gióng hàng từ của cặp câu:

Trang 21

Các cặp ngữ rút ra phải nhất quán như hình (a), những từ có liên kết với từ trong
ngữ nguồn thì cũng được đưa vào trong ngữ đích. Cách rút ngữ trong hình (b) là sai
vì từ “là” có liên kết với từ “is” nhưng không được đưa vào ngữ.

Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ

(That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .)

Trang 22

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,

Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp)
Trang 23

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao
nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học
sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest
pupil in the class ., học sinh cao nhất trong lớp .)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),
(class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao
nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh
cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the,
Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao

Trang 24

tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về