Tải bản đầy đủ (.docx) (13 trang)

TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (637.39 KB, 13 trang )

ĐẠI HỌC DUY TÂN
TIỂU LUẬN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đề tài:
DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ
KHÔNG LIÊN TỤC
Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN
Học viên : LÊ VĂN TỊNH
ĐOÀN SINH CÔNG
NGÔ MINH CƯỜNG
Lớp : K7MCS
Đà Nẵng, 4/2014
MỤC LỤC
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 2
1. MỞ ĐẦU
Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn
ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người
trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu
văn bản, nhận dạng tiếng nói, tìm kiếm thông tin
Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên.
Mặc dù dịch máy đã được nghiên cứu và phát triển trong hơn 50 năm qua, song vẫn
tồn tại nhiều vấn đề cần nghiên cứu đối với từng loại ngôn ngữ, đối với từng chuyên
ngành khác nhau (ví dụ: Y tế, luật )
Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ
mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai
một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá trình dịch thuật nếu
lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người
dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường
không chính xác, máy móc và thiếu "chất người".
So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu
chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có


nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc, đơn giản, ngược lại thể loại
văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp
phức tạp, hay sử dụng nghĩa bóng.
Phương pháp “Dịch máy dựa trên cơ sở cụm từ“ được xây dựng trên cơ sở sử
dụng hai phương pháp dịch máy thống kê và dịch máy trên cơ sở ví dụ với những
nét ngữ cảnh trong cơ sở tri thức là phương pháp mới được quan tâm nhất. Vì vậy
nhóm thực hiện tìm hiểu phương pháp “Dịch máy dựa trên cơ sở cụm từ“ trong tiểu
luận này.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 3
2. GIỚI THIỆU
2.1. Tổng quan:
Dịch máy là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác.
Một phần mềm điển hình Google, về tiếng Việt của chương trình này là Evtrans của
Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần mềm từng
được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng
này lên mạng. Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực này cho
ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) và một
thời gian sau đó Xalo.vn cũng đưa ra dịch vụ tương tự.
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất
nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay có một số
công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên
cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và
Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền. Một hướng
tiếp cận mới là kết hợp (lai ghép) các phương pháp với nhau, như những nghiên cứu
phối hợp giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống
kê.
2.2. Các phương pháp dịch máy cơ sở:
Hiện nay, dịch máy được phân chia thành một số phương pháp như: dịch máy
trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ, dịch máy dựa trên
cụm từ Do những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn

tài nguyên, nên các phương pháp dịch máy hiện hữu thường gặp trở ngại. Phương
pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa
và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ
dụng Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều
thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong
đợi. Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho
một sô ngôn ngữ phổ biến. Do sự khác biệt khá lớn về cấu trúc cú pháp của câu và
nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng đến chất lượng đối sánh, mà kết quả
của đối sánh từ lại quyết định đến chất lượng
Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 4
còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các
thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai
ngôn ngữ. Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn
để xây dựng cơ sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định
thông qua từ điển phân lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác
định cặp cây cú pháp của câu nguồn và câu đích. Một tiếp cận khác với phương
pháp dịch máy trên cơ sở ví dụ là xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ
cần so trùng từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp (có sử dụng từ
đồng nghĩa trong từ điển phân lớp). Phương pháp này cần khá nhiều thời gian tìm
kiếm, xử lý thông tin để so trùng mẫu. Độ chính xác của phương pháp phụ thuộc
vào số mẫu được lưu trữ nhiều hay ít. Trong thực tế thật khó để có thể lưu trữ đầy
đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ trong kho ngữ liệu là nhiều vô
kể.
Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự
động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một
cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu.
Phương pháp dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các
mô hình huấn luyện không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ
đã cho kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không

thực sự là cụm từ của ngôn ngữ học.
Phương pháp dựa trên cơ sở từ (Single Word-Based Translation - SWB) có
nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên
nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Ngữ nghĩa của từ khi
dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó trong câu, ví dụ cụm từ “to
kick the bucket” đồng nghĩa với “to die”, “around the clock” có nghĩa là
“continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ nghĩa
một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn
và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa
của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc
cú pháp. Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn
thêm từ hoặc xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng
nghĩa cho câu đích là do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 5
các câu trong thực tế và các đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi
luật sinh của từng ngữ cảnh cụ thể.
Để khắc phục những hạn chế đó thì phương pháp dịch máy dựa trên cơ sở cụm
từ (Phrase Based Machine Translation – PBT) sử dụng cách xác định ngữ nghĩa của
cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch
một lựa chọn mới cho mô hình dịch máy sắp tới . Tuy nhiên mô hình trên chỉ có thể
khai thác được các cụm từ liên tục còn gặp hạn chế đối với các cụm từ có phân cấp
không liên tục (phrasal discontinuities). Dịch máy dựa trên cụm từ không liên tục
mở rộng dựa trên cụm từ giải mã để cho phép cả hai nguồn và đích mệnh đề gián
đoạn, trong đó cung cấp tổng quát tốt hơn trên dữ liệu vô hình và cải thiện đáng kể
năng suất một cụm từ dựa trên tiêu chuẩn hệ thống (Moses) .
3. PHƯƠNG PHÁP DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC (DPBT):
3.1. Mô tả:
Mô hình dịch dựa vào cụm từ không liên tục (Discontinuous Phrases Based
Machine Translation - DPBT) nhanh hơn so với state-of-the-art hierarchical system
(Joshua) by a very significant margin (+1.03 BLEU on average on five Chinese-

English NIST test sets).
- Đầu vào: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.
- Đầu ra: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.
Việc đánh giá chất lượng bản dịch thường sử dụng phương pháp BLEU
(BiLingual Evaluation Understudy) hoặc NIST (National Institute of Standards and
Technology)
Dịch dựa vào cụm từ không liên tục xác định đơn vị dịch thuật như bất kỳ tập
hợp con của những nghĩa của một câu, tức là , một cụm từ không liên tục. Việc khái
quát đa chùm chuỗi dựa trên giải mã thông thường (Koehn, 2004) để cho phép gián
đoạn biến kích thước trong cả hai dữ liệu cụm từ ở ngôn ngữ nguồn và cụm từ ở
ngôn ngữ đích. Vì mỗi cặp câu có thể được linh hoạt hơn phân hủy thành các đơn vị
dịch, nó có thể khai thác bối cảnh phong phú của ngôn ngữ nguồn (có thể không liên
tục ) cụm từ để cải thiện chất lượng bản dịch. Bộ giải mã của cung cấp hai phần mở
rộng cho Moses:
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 6
(a) Để đối phó với những khoảng trống ở câu nguồn, chúng tôi làm theo
( Lopez , 2007) để tìm một cách hiệu quả tất cả các cụm từ liên tục trong dữ liệu
huấn luyện cũng xuất hiện trong câu ngôn ngữ nguồn ( Koehn et al , 2007. )
(b) Để cho phép gián đoạn ngôn ngữ xuất, chúng tôi tăng thêm giả thuyết dịch
không chỉ ghi lại bản dịch một phần hiện tại, mà còn là một tập hợp các nhóm cụm
từ có thể được nối vào dịch một phần ở một số giai đoạn sau của giải mã.
3.2. Rút trích cụm từ không liên tục:
Mục tiêu của dịch máy là tự động chuyển ý nghĩa của
một câu từ ngôn ngữ nguồn
sang ngôn ngữ đích . Trong dịch máy thống kê các điều kiện xác suất để mô tả sự
tướng ứng giữa 2 câu (theo Och and Ney, 2004). Mỗi cụm từ được đặc trưng bởi một
giá trị chỉ số, tức là một tập hợp các chỉ số từ. Giả định rằng cặp câu (f, e) được phân
rã thành K cụm từ không liên tục, ta có: và Để lần lượt đại diện cho sự phân hủy
của câu ngôn ngữ nguồn và ngôn ngữ đích với K tập con từ đó được bổ sung và
không chồng lấn. Một cặp giá trị chỉ số phù hợp (s

k,
t
k
)
Đối với các cụm từ liên tục việc tìm kiếm tất cả các cặp cụm từ đó đáp ứng
điều kiện này có thể được thực hiện trong O(nm
3
) lần ( Och and Ney , 2004), trong
đó n là độ dài của câu và m là chiều dài tối đa cụm từ . Tập hợp các cụm từ không
liên tục là theo cấp số nhân trong chiều dài khoảng tối đa, vì vậy cụm từ khai thác
phải phù hợp với một văn bản cụ thể (e.g., a given test sentence) cho các giá trị m
tương đối lớn. Lopez (2007) trình bày một giải pháp hiệu quả sử dụng các mảng hậu
tố cho việc tìm kiếm tất cả các cụm từ liên tục của dữ liệu huấn luyện có liên quan
đến một câu kiểm tra nhất định hoặc kiểm tra thiết lập . Nó giải quyết một vấn đề
cụm từ sắp xếp thứ tự bằng cách xác định hiệu quả vị trí cụm từ liên tục dữ liệu
huấn luyện cũng xảy ra được tìm vị trí trong câu kiểm tra . Với các mảng kỹ thuật
hậu tố cho chúng ta cho mỗi câu đầu vào một danh sách các giá trị phù hợp có liên
quan. Đối với mỗi s
k
như vậy, chúng ta có thể dễ dàng liệt kê mỗi t
k
thỏa mãn
phương trình (1).
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 7
Hình 1 – Ví dụ: về cách giải mã một câu sử dụng phương pháp dịch dựa trên cụm từ
không liên tục.
Khi bộ giải mã của không áp đặt những hạn chế phân cấp thì việc khai thác tất
cả các cặp cụm từ không liên tục phù hợp với sự liên kết từ.
3.3. Giải mã:
Vấn đề chính của việc giải mã hệ thống dựa trên cụm từ, theo mệnh đề (Cer et

al., 2010), là một bộ giải mã đa ngăn xếp tương tự như Moses ( Koehn, 2004), Việc
mở rộng để hỗ trợ khoảng cách biến kích thước trong các ngôn ngữ nguồn và ngôn
ngữ đích. Trong Moses , giả thuyết dịch một phần được sắp xếp vào ngăn xếp khác
nhau tùy theo tổng số từ đầu vào. Từng bước dịch, ngăn xếp được chia bằng cách sử
dụng điều kiện dịch một phần và thấp hơn ràng buộc về điều kiện ước tính trong
tương lai.
Đề xuất mới giải thích cho sự gián đoạn ngôn ngữ nguồn, cụm từ có chứa
những khoảng trống trong các ngôn ngữ nguồn được nối vào một giả thuyết dịch
một phần trong nhiều bước. Cụ thể, mỗi giả thuyết dịch trong bộ giải mã là không
chỉ biểu diễn như là một tiền tố dịch và giá trị phù hợp thiết lập như trong Moses,
nhưng nó cũng chứa một tập hợp các cụm từ bị cô lập (hiển thị chữ in nghiêng trong
hình. 1) phải được bổ sung vào dịch tại một số lần sau đó . Ví dụ , con số này cho
thấy cách cặp cụm từ được thêm vào đoạn dịch.
Tiền tố (arrangements) được nối vào để tạo thành (he said arrangements), và cô lập
cụm từ (made) được lưu lại để sử dụng sau.
• Các bước rút trích cụm từ:
Bước 1: Phân tích câu nguồn để xác định các cụm từ không liên tục
Bước 2: Giá giá trị phù hợp cho câu nguồn.
Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích dựa vào cặp
giá trị phù hợp.
Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 8
Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán
nhãn.
Bước 6: Rút trích cụm danh từ
• Thuật toán tìm kiếm cụm từ không liên tục
Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục
Thuật toán sử dụng 2J + 1 ngăn xếp và trong đó mỗi ngăn xếp chứa đến N giả
thuyết H
j1

, ,H
jN.
Thuật toán gồm 2 vòng lặp chính grow (dòng 7–15) và consolidate
(dòng 3–6).
• Vòng lặp grow:
o tương tự như tiêu chuẩn cụm từ dựa dịch máy : lấy giả thuyết từ và so
sánh với tùy chọn (s
k
, t
k
), sau đó thêm giả thuyết mới phù hợp vào ngăn
xếp (với l = |s
k
|)
• Vòng lặp consolidate:
o Cho phép các bộ giải mã chọn bất kỳ số lượng các cụm từ bị cô lập
(không nhất thiết tất cả , và có thể không) và nối thêm chúng trong bất kỳ
thứ tự vào cuối của bản dịch hiện hành.
o Bất kỳ giả thuyết trong chùm cuối cùng được tự động loại bỏ nếu nó chứa
bất kỳ cụm từ bị cô lập.
o Hàm chức năng translation_options(m) trả về tập hợp các tùy chọn áp
dụng ở vị trí m sử dụng thuật toán ở vị trí phù hợp.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 9
Xử lý cụm từ không liên tục như là cụm từ liên tục. cụ thể với L là danh sách
tối đa của các cụm từ ngôn ngữ nguồn K (L≥K) được lựa chọn cho một giả thiết
nhất định. Với mỗi cụm từ ta được liệt kê theo trật tự của ngôn ngữ đích có thể khác
so với ngôn ngữ nguồn sau đó tính toán sự biến dạng tuyến tính giữa cặp kế tiếp ,
theo công thức sau:
Điều kiện là first và last tương ứng tham khảo vị trí nguồn của từ đầu tiên và
cuối cùng của một cụm từ nhất định. Hình 2, cho thấy một ví dụ về cách biến dạng

được tính toán cho các cụm từ (s
1,
s
2
,s
3
) bao gồm cụm từ s
2
không liên tục.
Hình 2: Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục
và không liên tục
4. KẾT QUẢ:
4.1 Môi trường thử nghiệm:
Hệ thống dịch dựa trên cụm từ không liên tục được tích hợp trong bộ công cụ
dịch dựa trên cụm từ của đại học Standford (Stanford Phrasal is a state-of-the-art
statistical phrase-based machine translation system). Thử nghiệm thực hiện trên
phiên bản 3.3.1, phát hành ngày 04/01/2014 có thể tải về tại địa chỉ:
/> />Hướng dẫn cài đặt và thực nghiệm chi tiết:
/>Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 10
4.2. Kết quả thử nghiệm:
Mô hình đưa ra bởi Joshua, Moses, và hệ thống dịch dựa trên cụm từ không
liên tục. Các mũi tên màu xanh đại diện cho sự sắp xếp giữa các cụm từ không liên
tục, trong khi màu đỏ phân đoạn mũi tên sắp xếp cụm từ liên tục như hình dưới.
Hình 3 – Mô tả các cụm từ không liên tục mũi tên màu xanh
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 11
Kết quả cho ba hệ thống ở đây được hiển thị trong hàng 2, 4, và 8 của Bảng 2.
Bảng 2 – So sánh với các mô hình của (Joshua) và (Moses) các giá trị đều tăng đối
với BLEU.
Lợi ích của hệ thống dịch dựa trên cụm từ không liên tục được phép sử dụng
các đơn vị dịch lớn hơn khi bị giới hạn ở những cụm từ liên tục.

Hình 4 – Biểu đồ độ dài số cụm từ theo mô hình MT06
Bộ giải mã sử dụng hiệu quả các thiết lập mở rộng các lựa chọn dịch theo ý
của nghĩa ngữ cảnh: Trong khi các Moses dịch MT06 với trung bình 1,73 từ mỗi
cụm từ, thêm hỗ trợ cho các bất liên tục tăng trung bình này để 2.16, và giảm 43%
việc sử dụng các cụm từ duy nhất.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 12
5. KẾT LUẬN
5.1 Kết quả đặt được của tiểu luận:
o Trình bày một phương pháp dịch máy dựa trên cụm từ không liên tục. Công cụ
thực hiện đánh giá mô hình dịch theo cụm từ mở rộng này được cải thiện hơn so
với mô hình dịch dựa trên cụm từ chuẩn (Moses)
o Hiểu được hoạt động của một công cụ xử lý ngôn ngữ tự nhiên thực tế, cách thức
tiến hành thử nghiệm, thiết lập môi trường thử nghiệm.
o Tìm hiểu được cơ chế, cấu trúc giải thuật phương pháp dịch máy dựa trên cụm từ
không liên tục.
5.2 Hướng phát triển của tiểu luận:
o Áp dụng phương pháp thực hiện với cặp ngôn ngữ Anh – Việt
o Tìm hiểu, nghiên cứu sau hơn về các phương pháp mở rộng cho dịch máy dựa
trên cụm từ.
Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 13

×