Tải bản đầy đủ (.ppt) (36 trang)

BÁO CÁO CHUYÊN ĐỀ DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (622.45 KB, 36 trang )

LOGO
BÁO CÁO CHUYÊN ĐỀ
TRƯỜNG ĐẠI HỌC DUY TÂN
KHOA SAU ĐẠI HỌC
DỊCH MÁY
DỊCH MÁY
VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN
VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN
Môn học: TOÁN TRONG CÔNG NGHỆ THÔNG TIN
ĐÀ NẴNG, 11/2013
Nhóm: Hoàng Xuân Đăng Cường
Lê Đình Phúc
Trần Đình Hoàng Huy
Lê Văn Tịnh
NỘI DUNG TRÌNH BÀY
1
2
Tổng quan về dịch máy
Mô hình dịch máy thống kê
Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
2
1
3
NỘI DUNG TRÌNH BÀY
1
2
Tổng quan về dịch máy
2
1
Tổng quan về dịch máy



Là một ứng dụng để chuyển tự động một văn bản từ ngôn
ngữ này sang ngôn ngữ khác.

Với khoảng 5650 ngôn ngữ và khối lượng tài liệu khổng lồ
trên mạng Internet thì nhu cầu dịch tự động đang trở nên
vô cùng bức thiết.

Một hệ thống dịch máy có chất lượng tốt sẽ giúp tiết kiệm
nhân lực, thời gian và tiền bạc đáng kể.
Lịch sử dịch máy
1. Thời kì sơ khai: thế kỷ 17, nghiên cứu triết học
2. Những năm đầu tiên: Warren Weaver (1949),
Georgetown-IBM (1954),
3. Những năm 1960, bản báo cáo ALPAC (chỉ ra sự tốn
kém so với người) và những năm 70 (xuất hiện hệ thống
giá rẻ và dược thương mại)
4. Những năm 1980 và đầu 1990: phát triển mạnh mẽ
5. Hiện nay: kết hợp tri thức, hình thái học, thống kê,
Các loại hình dịch máy phổ biến

Thứ nhất: sử dụng phương pháp tiếp cận dịch thuật trực
tiếp. Hệ thống được thiết kế một cách cụ thể, chi tiết cho
một cặp ngôn ngữ đặc biệt.

Thứ hai: sử dụng phương pháp tiếp cận ngôn ngữ trung
gian, là việc chuyển đổi các văn bản từ các nghĩa đại diện
phổ biến đến nhiều hơn một ngôn ngữ.

Thứ ba: cũng là phương pháp tiếp cận qua ngôn ngữ

trung gian nhưng xét đến cấu trúc cú pháp cho cả văn bản
nguồn và văn bản mục tiêu.
Cấu trúc hệ thống dịch máy
Một số kỹ thuật dịch máy

Dịch máy dựa trên luật

Áp dụng các tri thức ngôn ngữ của các cặp ngôn ngữ nguồn và
ngôn ngữ đích do các nhà ngôn ngữ học xây dựng (rule – based
machine translation)

Dịch máy dựa trên ví dụ

Không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ
nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu căn cứ kho
ngữ liệu song ngữ.

Dịch máy dựa trên thống kê

Dịch máy dựa trên thống kê là hướng tiếp cận hoàn toàn dựa trên
ngữ liệu nên nó có tính độc lập với ngôn ngữ. Những tham số
thống kê thu được từ việc huấn luyện trên ngữ liệu song ngữ sẽ
được sử dụng cho việc dịch ở lần sau
NỘI DUNG TRÌNH BÀY
2
Mô hình dịch máy thống kê
2
Lịch sử dịch máy thống kê

Được giới thiệu bởi Warren Weaver vào năm 1949, bao

gồm cả những ý tưởng của việc áp dụng lý thuyết thông
tin của Claude Shannon.

Bị gián đoạn và bế tắc một thời gian

Năm 1991, dịch máy thông kê được tái giới thiệu bởi các
nhà nghiên cứu làm việc tại Trung tâm nghiên cứu
Thomas J. Watson của IBM
Lịch sử dịch máy thống kê (tt)

Ngày nay nó là phương pháp dịch máy được nghiên cứu
nhiều nhất.

Các hệ thống dịch thương mại sử dụng các luật chuyển
đổi và các bộ từ vựng rất phong phú.

Một công cụ ứng dụng nổi tiếng đó là công cụ dịch song
ngữ trên Google.
Mô hình dịch máy thống kê
1. Dịch máy thống kê dựa trên từ

Mô hình dịch máy thống kê dựa trên từ được đưa ra bởi Brown vào
năm 1990.

Mô hình này giả sử rằng câu e ở ngôn ngữ nguồn có câu dịch là câu
v ở ngôn ngữ đích. Một câu e có thể dịch sang được nhiều câu v.
Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là
nhiều nhất. Với mỗi cặp câu (v|e) ta gọi p(v|e) là xác suất mà e có thể
dịch thành v.


Mục đích của dịch máy thống kê là tìm câu v có xác suất p(v|e) là cao
nhất. Tuy nhiên, việc tính xác suất p(v|e) không khả thi vì câu đích
được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi
này không phải là câu đúng ngữ pháp. Do đó, công thức Bayes được
dùng để triển khai cho xác suất p(v|e):
Mô hình dịch máy thống kê
1. Dịch máy thống kê dựa trên từ

Hệ dịch máy thống kê gồm 3 phần:
-
Mô hình ngôn ngữ p(v) (language model): Phản ánh độ
trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần
với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác
suất p(v) cao hơn. Mô hình này được huấn luyện dựa trên
ngữ liệu đơn ngữ.
-
Mô hình dịch p(v) (translation model): Đưa ra sự tương
ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e
cho trước, câu dịch v nào có xác suất p(v) cao hơn thì sẽ
là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa
trên các cặp câu song ngữ.
-
Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô
hình ngôn ngữ để thực hiện quá trình dịch.
Mô hình dịch máy thống kê
1. Dịch máy thống kê dựa trên từ
Mô hình dịch máy thống kê
2. Dịch máy thống kê dựa trên ngữ

Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy

được thông tin ngữ cảnh mà chỉ dựa trên các phân tích
thống kê về từ. Mô hình dịch máy thống kê dựa trên ngữ
cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ.
Điều này cho phép hệ thống có thể dịch các cụm từ tránh
được dịch word-by-word.
Mô hình dịch máy thống kê
2. Dịch máy thống kê dựa trên ngữ
Mô hình dịch máy thống kê
2. Dịch máy thống kê dựa trên ngữ
(Google Translate)
Hình 2.2: Ví dụ về dịch thống kê dựa trên ngữ
Mô hình dịch máy thống kê
3. Dịch máy thống kê factored (Factored SMT)


Một hạn chế của hệ dịch thống kê dựa trên ngữ là
vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch.
Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem
các dạng biến cách như là những từ phân biệt, do hệ
dịch chỉ nhận diện bề mặt chữ chứ không có thông
tin liên hệ nào giữa các dạng biến cách.

Mô hình dịch máy thống kê
4. Dịch máy thống kê dựa trên cú pháp

Dịch từ cây cú pháp sang câu (tree-to-string )
- Quá trình học: Từ câu nguồn phân tích thành cây cú pháp. Mô hình
này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây,
xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu
đích.

- Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa
vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các
nút. Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích
dựa vào xác suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn
ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL).
Mô hình dịch máy thống kê
4. Dịch máy thống kê dựa trên cú pháp

Mô hình cây cú pháp
Mô hình dịch máy thống kê
4. Dịch máy thống kê dựa trên cú pháp

Chuyển đổi dựa trên cây cú pháp của cả hai ngôn
ngữ (tree-based transfer)
- Câu nguồn và câu đích được phân tích ra thành cây cú
pháp, thường là cây nhị phân để giảm độ phức tạp khi
chuyển đổi trật tự.
Mô hình dịch máy thống kê
4. Dịch máy thống kê dựa trên cú pháp

Chuyển đổi dựa trên cây cú pháp của cả hai ngôn
ngữ (tree-based transfer)
-
Cây cú pháp của câu đích được đổi trật tự và kết hợp với
cây cú pháp của câu nguồn.
-
Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical
transfer).
- Dịch dựa trên mệnh đề (clause level restructuring)
Mô hình dịch máy thống kê

4. Dịch máy thống kê dựa trên cú pháp

Các ưu điểm của dịch máy thống kê dựa trên cú pháp:
-
Có thể chuyển đổi trật tự dựa trên thông tin cú pháp.
Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang
cuối câu trước khi dịch sang tiếng Đức.
-
Dịch những từ chức năng (giới từ, mạo từ, ) tốt hơn.
-
Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong
câu. Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và
tân ngữ.
- Có thể khai thác mô hình ngôn ngữ cú pháp:

Mô hình dịch máy thống kê
4. Dịch máy thống kê dựa trên cú pháp

Các nhược điểm của dịch máy thống kê dựa trên cú
pháp:


-
Hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính
xác cao.
- Thông tin cú pháp khá là phức tạp, khó để con người theo
dõi khi huấn luyện cũng như khi dịch và ít có nhà nghiên
cứu nào vừa nắm vững về các mô hình thống kê lại hiểu
rõ về lý thuyết ngôn ngữ.
NỘI DUNG TRÌNH BÀY

2
Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
2
3

×