Tải bản đầy đủ (.pdf) (7 trang)

Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (172.1 KB, 7 trang )

Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

113(13): 107 - 113

MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ
VÀO HỆ DỊCH MÁY THỐNG KÊ
Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3
2

1
Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Ngun
3
Trường Đại học Dân lập Hải Phịng

TĨM TẮT
Mơ hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mơ hình dịch tự động tốt nhất
hiện nay. Tuy nhiên sự hạn chế của mơ hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các
từ và nó hồn tồn bỏ qua bất cứ thơng tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).
Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo
trật tự từ vựng. Chúng tơi mở rộng mơ hình đảo trật tự cụm có phân cấp [2] sử dụng mơ hình
Maximum Entropy (ME) để đốn hướng và ước lượng xác suất. Với mơ hình này, chúng ta có thể
tích hợp thơng tin giàu tri thức ngơn ngữ vào như các thuộc tính địa phương cũng như là tồn cục.
Hơn nữa, xác suất được ước lượng bằng mơ hình ME sẽ chính xác và mịn hơn so với ước lượng dựa
vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách
tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mơ hình từ vựng phân cấp [2].
Từ khóa: Mơ hình dịch thống kê, trí thức về ngôn ngữ.

ĐẶT VẤN ĐỀ*


Những năm gần đây, sự bùng nổ của cách tiếp
cận dịch máy thống kê dựa vào cụm đã tạo ra
các sản phẩm thương mại được sử dụng rộng
rãi trên thế giới (hệ dịch của google,
microsoft, …) [14][15]. Một trong những vấn
đề quan trọng của dịch máy thống kê dựa vào
cụm liên quan đến việc là làm thế nào để sinh
ra thứ tự các từ (cụm) chính xác trong ngơn
ngữ đích.

Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch
Anh-Việt

Để giải quyết vấn đề trên, gần đây, trong
[4][5], mơ hình đảo trật tự từ vựng (LRMs) đã
phát triển để dự đoán hướng của cặp cụm dựa
vào cụm đích liền kề. Những mơ hình này
phân biệt ba hướng của cặp cụm hiện tại theo
*

Tel: 0925009989

cụm đích phía trước: (1) monotone (M) – cụm
nguồn phía trước là liền kề trước cụm nguồn
hiện tại, (2) swap (S) – cụm nguồn phía trước
là liền kề sau cụm nguồn hiện tại và (3)
discontinuous (D) – khơng phải là S và M.
Hình 1 (1) biểu diễn ví dụ mà ở đây mơ hình
hiệu quả trong việc swap cụm tính từ “nice
new” và cụm “house” và cụm “a” là

monotone với cụm “This is”. Những mơ hình
đảo trật tự từ vựng này cho chất lượng tốt hơn
so với MHTKC. Tuy nhiên những mơ hình
này giải quyết đảo trật tự từ của các cụm cạnh
nhau, chúng thường thất bại khi cụm từ mà vị
trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),
hướng của cụm “Tom’s” nên được swap với
phần còn lại của cụm danh từ, tuy nhiên LRM
đoán hướng là discontinuous (D).
Galley and Manning [2] đã mở rộng mơ hình
LRMs bằng cách đề xuất mơ hình đảo cụm
phân cấp (HRM). Mơ hình này dựa vào cấu
trúc phân cấp và có thể giải quyết được
trường hợp đảo vị trí của các cụm xa nhau. Ví
dụ trong hình 1(2) mơ hình của họ có thể giải
quyết được cụm liền kề “two” và “blue
books” như là một cụm và sự thay thế của
“Tom’s” theo cụm này được giải quyết như là
swap(S). Tuy nhiên, mơ hình của họ cũng có
vài nhược điểm như sau:
107


Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

• Mơ hình này ước lượng xác suất dựa vào
cách tiếp cận quan hệ tần suất, mà ở đây sẽ
chụi ảnh hưởng của vấn đề dữ liệu thưa. Một

trong những lý do là hầu hết các ví dụ về cụm
chỉ xuất hiện 1 lần trong dữ liệu huấn luyện
(96.5% ví dụ về cụm xuất hiện 1 lần trong
kho dữ liệu “General”).
• Mơ hình này khơng sử dụng bất cứ thơng tin
về ngôn ngữ. Điều này làm thiếu thông tin
ngữ cảnh trong việc dự đoán hướng và ước
lượng xác suất của cặp cụm.
Chúng tôi tập trung vào nghiên cứu cải tiến
mô hình đảo trật tự từ vựng. Chúng tơi mở
rộng mơ hình đảo trật tự cụm có phân cấp [2]
sử dụng mơ hình Maximum Entropy (ME) để
đốn hướng và ước lượng xác suất . Với mơ
hình này, chúng ta có thể tích hợp thơng tin
giàu trí thức ngơn ngữ vào như các thuộc tính
địa phương cũng như là tồn cục. Hơn nữa,
xác suất được ước lượng bằng mơ hình ME sẽ
chính xác và mịn hơn so với ước lượng dựa
vào cách tiếp cần tần suất tương đối. Kết quả
thử nghiệm với cặp ngôn ngữ Anh-Việt cho
thấy cách tiếp cận của chúng tôi tốt hơn so
với cách tiếp cận sử dụng mô hình từ vựng
phân cấp [2].
MỘT SỐ NGHIÊN CỨU LIÊN QUAN
Quá trình giải mã trong MHTKC xây dựng câu
đích từ trái qua phải. Từ giả thuyết hiện tại,
điều quan trọng là phải xác định cụm nguồn
nào cần được dịch. Một vài nhà nghiên cứu
[11], [4] đã đề xuất mơ hình khá mạnh được
gọi là mơ hình đảo trật tự từ vựng cho việc dự

đốn hướng của cụm nguồn như mơ tả ở phần
trên. LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất của mỗi cặp cụm
song ngữ từ dữ liệu huấn luyện.
[12][13] ứng dụng mơ hình Maximum
Entropy cho đảo trật tự cụm. Họ sử dụng ME
ước lượng xác suất đảo cụm. Tuy nhiên họ sử
dụng các đặc trưng đơn giản và áp dụng vào
các mơ hình khác của dịch máy.
Galley and Manning [2] đã mở rộng mơ hình
LRMs bằng cách đề xuất mơ hình đảo cụm
phân cấp (HRM). Mơ hình này dựa vào cấu
trúc phân cấp và có thể giải quyết được
108

113(13): 107 - 113

trường hợp đảo vị trí của các cụm xa nhau.
Tuy nhiên mơ hình của họ cũng một số nhược
điểm như đã nêu ở phần trên.
MƠ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG
Để cải tiến mơ hình đảo cụm dựa vào khoảng
cách, [4] [11] đã đề xuất mơ hình đảo trật tự
từ vựng. Mơ hình sẽ dựa vào quan hệ vị trí
với các cụm liền kề của cụm đích từ đó tính
xác suất của các cặp cụm tương ứng.
Cho một câu nguồn f, mà được dịch thành câu
ngơn ngữ đích e. Hệ thống dịch thống kê dựa
vào cụm tốt nhất hiện nay là mơ hình tuyến
tính logarit của xác suất điều kiện Pr(f|e):
e x p ∑ i λ i hi ( e , f )

(1)
P r( f | e ) =
∑ e ' e x p λ i hi ( e ', f )
Ở đây hi (e, f ) là hàm đặc trưng bất kỳ trên
cặp câu (e,f). Tham số λ là trọng số của các
hàm đặc trưng hi (e, f ) . Quá trình tìm kiếm
giải mã sẽ tìm câu dịch tốt nhất ê thỏa mãn
công thức sau:


(2)
ê =
exp
λ h (e, f )

arg max
e






i




i


i

Các đặc trưng bao gồm trong mô hình đảo trật
tự từ vựng đươc tham số hóa như sau: cho
trước câu nguồn f, dãy các cụm ngơn ngữ
đích e = (e1 ,......., en ) là các giả thuyết hiện
tại của q trình giải mã và gióng hàng cụm
a = (a1 ,...., an ) xác định sao cho cụm nguồn

f ai tương ứng với cụm dịch của nó là cụm
đích ei. Những mơ hình ước lượng xác suất
của dãy các hướng (o = o1, …, on ) như sau:

P r( o | e , f ) =

n


i =1

p ( oi | e i , f

ai

)

trong đó oi nhận các giá trị hướng
∆ = M , S , D . Trong khi tuyển tập các cặp
cụm, có thể phân loại chúng thành 3 hướng
như sau:

• oi = M nếu ai – ai -1 = 1
• oi = S nếu ai – ai -1 = -1
• oi = D nếu (ai – ai -1 ≠ 1 và ai – ai -1 ≠ -1)
Trong từng bước của q trình giải mã, chúng
tơi dựa vào cách tiếp cận của Moses mà ở đây


Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

gán cho ba tham số phân biệt (λm, λs, λd ) với
ba hàm đặc trưng tương ứng:

fm =

∑ i =1 log p ( oi = M |e i , f ai )
n

f s = ∑ i =1 log p ( oi = S |e i , f ai )
n

f d = ∑ i =1 log p ( oi = D |e i , f ai )
n

Để tích hợp p (oi | e i , f

ai

) vào công thức


(1) trong quá trình giải mã, chúng ta cần tính
những giá trị xác suất này. Cách đơn giản để
tính là ta dựa vào tần xuất xuất hiện như sau:

p (oi | e i , f

ai

)=

C o u n t (oi , e i , f

ai )

∑ 0 C o u n t ( o , e i , f ai )

trong đó Count(x) là số lần xuất hiện của x
trong dữ liệu huấn luyện.
Chúng tơi tính p (oi | e i , f

ai

) dựa vào gióng

hàng cụm trước ai-1 của ai. Chúng ta giả sử ai
có m gióng hàng cụm trước. Ta có:

∑ Count ( o , e i , f , a )
∑ ∑ Count ( o , e , f , a )

m

p ( oi | e i , f

ai ) =

k =1

i

k
i −1

ai

m

k =1

i

0

k
i −1

ai

Tuy nhiên, cách tính như trên sẽ gặp một số
vấn đề như là dữ liệu thưa vì vậy cách hợp lý

là ta sử dụng mơ hình Maximum Entropy để
tích hợp đặc trưng và tính xác suất như sau:
p ( oi | e i , f

ai

)=

exp( ∑ j θ j h j ( oi , e i , f

∑ 0 exp( ∑

j

ai

θ j h j ( oi , e i , f

))
ai

))

TÍCH HỢP MƠ HÌNH ĐẢO TRẬT TỰ TỪ
VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA
VÀO CỤM SỬ DỤNG MƠ HÌNH
MAXIMUM ENTROPY

113(13): 107 - 113


Mơ hình
Trong phần này chúng tập trung sử dụng
thông tin ngữ cảnh để giúp HRM tính xác
suất và dự đốn hướng của cụm. Chúng tơi
xem hướng của cụm như là bài tốn phân lớp:
Hướng của cụm (M, S, D) là nhãn. Vì vậy
trong quá trình giải mã, cách hiệu quả để giải
quyết bài tốn phân lớp là cách tiếp cận dựa
vào Maximum Entropy:
p (oi | e i , f ai ) =

exp( ∑ j θ j h j ( oi , e i , f ai ))

∑ 0 exp(∑

j

θ j h j ( oi , e i , f

ai

))

Định nghĩa các đặc trưng
1) Từ chính của cụm (HW). Ví dụ cụm
“social sciences”, HW là “sciences”
2) Một phần của chức năng ngữ pháp (POS)
của từ chính (TG). Ví dụ cụm “social
sciences”, TG là NNS.
3) Nhãn cú pháp của cụm (SL). Ví dụ với

cụm “social sciences”, SL là NP
4) Đặc trưng nút mẹ (Parent Features)
Nút mẹ của ST trong cây phân tích của câu
nguồn. Với cùng cây con của câu nguồn có
nút mẹ khác nhau trong ví dụ huấn luyện. Và
các đặc trưng này có thể cung cấp thông tin
để phân biệt giữa các cây con của câu nguồn.
Hình 2a biểu diễn nút mẹ của cây con ST
(“social sciences”) là nút VP trong hình thoi.
5) Đặc trưng nút anh em (Sibling Features)
Nút anh em của nút gốc ST (“social
sciences”). Đặc trưng này xem xét nút anh em
(nút VBD trong hình thoi) mà cùng nút mẹ
(VP). Được biểu diễn ở hình 2b.

Hình 2. Minh họa về một số đặc trưng
109


Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

Trong q trình trích trọn đặc trưng, chúng ta
phải gán nhãn cho các cặp cụm mà được cho
bởi các cụm nguồn và cây phân tích của nó.
Sự thực hiện gán nhãn cụm như sau:
• Nếu cây con (subtree) ST phủ chính xác
cụm p thì chúng ta xác định (HW, TG, SL,
PF, SBF) từ cây con trên.

• Nếu cây con mà khơng phủ tồn bộ cụm p
(cụm p khơng là thành phần ngữ pháp) thì ta
chọn cây con nhỏ nhất SST mà chứa p. Ta
xác định (HW, TG, SL, PF, SBF) từ cây con
SST cho cụm p (nếu HW ∉ p, chúng ta chọn
từ đầu tiên của cụm p làm HW).
Chúng tơi tính p (oi | e i , f

ai

Để tính tốn những xác suất này, mơ hình
phải xác định các khối liên tiếp M hoặc S mà
có thể kết hợp với nhau thành khối phân cấp.
Chúng tôi đã sử dụng thuật tốn như mơ tả
trong [2] để tính các xác suất trên.

) dựa vào gióng

hàng cụm trước ai-1 của ai. Với mỗi (e i , f ai )
chung ta có m ví dụ của cặp cụm

(ei , f ai , aik−1 , ai ) (k = 1, .., m). Mỗi ví dụ
của cặp cụm, chúng ta trích trọn đặc trưng
dựa vào cây con ST của f ai và

f ak

i −1

.


Chúng tôi sử dụng 2 mẫu của đặc trưng là
từng đặc trưng và kết hợp các đặc trưng.
Huấn luyện
Đầu tiên mỗi cặp cụm, ta trích trọn ví dụ từ
mỗi cặp cụm. Thứ hai, chúng ta tính tốn

p(oi | e i , f ai ) sử dụng mơ hình Maximum
Entropy. Tất cả các ví dụ của cặp cụm trong
mơ hình này được trích trọn theo thuật tốn
trích cụm [10] với độ dài của cụm là 8.
Chúng tơi trích trọn đặc trưng như mơ tả như
ở trên từ các ví dụ của các cặp cụm. Sau đó
chúng tơi sử dụng cơng cụ mã nguồn mở
Maximum Entropy để huấn luyện mơ hình
Maximum Entropy cho mơ hình đảo trật tự.
Chúng tơi thiết lập số vịng lặp là 100 và tham
số ưu tiên Gaussian là 1.
Quá trình giải mã
Trong quá trình giải mã, chúng ta cần tìm
theo ê cơng thức (2). Chúng tơi phát triển
cơng cụ giải mã cho dịch thống kê dựa vào
cụm dưa vào cơng cụ giải mã Pharaoh [3]. Để
tích hợp mơ hình HRM vào q trình giải mã,
chúng tơi tính điểm đảo trật tự cụm với mơ
hình HRM (xác định p (oi | e i , f
110

113(13): 107 - 113


ai

) ).

Hình 3. Cụm phân cấp h1 và h2 biểu diễn “may
gio” and “khong” có hướng Swap (S). Trong khi
h3 biểu diễn “?” có hướng là Monotone (M)

Chúng tơi sử dụng một thể hiện của thuật tốn
phân tích shift-reduce và dựa vào ngăn xếp
(Stk) chứa chuỗi xâu nguồn mà đã được dịch.
Mỗi lần, quá trình giải mã sẽ thêm khối mới
vào giả thuyết dịch hiện thời, nó sẽ chuyển
khối ngơn ngữ nguồn vào Stk, sau đó nó lặp
đi lặp lại việc kết hợp hai phần tử trên đỉnh
của ngăn xếp Stk nếu chúng là liên tiếp nhau.
Chúng ta không cần lưu trữ ngôn ngữ đích
bởi vì q trình giải mã thực hiện từ trái qua
phải và các khối thành công luôn luôn là liên
tiếp nhau theo ngơn ngữ đích.
Với ví dụ: Cho ngơn ngữ nguồn tiếng Anh
“Do you know what time the film begins?” và
câu dịch tương ứng trong tiếng Việt là: “Ban
biet bo_phim bat_dau may gio khong ?”.
Chúng tôi minh họa các bước của q trình
dịch này. Hình 4 mơ tả các bước thực thi của
thuật toán này mà kết quả dịch được thể hiện
trong hình 3 mà ở đây thực hiện q trình giải
mã của MHTKC và tích hợp mơ hình đảo trật
tự cụm phân cấp.

Cột đầu tiên biểu diễn cụm đích mà q trình
giải mã thực hiện từ trái qua phải. Cột thứ 3
bao gồm các toán tử chuyển- shift (S), kết
hợp- reduce (R) và chấp nhận (A) của ngăn
xếp Stk. Cột ngăn xếp (Stk) và cột cụm nguồn
bao gồm các cận (span) của cụm nguồn (vị trí
từ của cụm nguồn trong câu nguồn) mà ở đây


Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

là các thông tin cần thiết để xác định hai khối
có liên tiếp nhau hay khơng. Cột oi biểu diễn
nhãn được dự đốn bởi mơ hình phân cấp
bằng cách so sánh khối hiện tại với khối phân
cấp trên đỉnh của Stk.
Cụm
nguồn
Ban
Biet
bo_phim

Source
spans
[2-2]
[3-3]
[6-7]


Thực
hiện
S
R
S

Oi

bat_dau

[8-8]

R

M

may_gio

[4-5]

R

S

khong
?

[1-1]
[9]


R,R
R,A

S
M

M
M
D

Ngăn xếp
(Stk)
[2-2]
[2-3]
[6-7],
[2-3]
[6-8],
[2-3]
[2-8]
[1-8]

Hình 4. Thuật tốn phân tích shift - reducefor xác
định khối phân cấp với ví dụ trong hình 3

Q trình giải mã thành cơng khi đặt vào Stk
các cận của cụm nguồn [2-2], [3-3] mà ở đây
kết hợp 2 cụm này thành [2-3] và chúng
tương ứng có hướng monotone (M). Tiếp theo
là khối [6-7] tương ứng là hướng (D) nên ta
đặt vào Stk. Tiếp theo, quá trình giải mã sẽ

kết hợp khối [8-8] với [6-7] thành [6-8] với
hướng M và sau đó kết hợp [4-5] với [6-8]
thành [4-8] với hướng S. Và cuối cùng khi
quá trình giải mã thực hiện tới cụm “khong”,
tương ứng với cận của cụm nguồn [1-1] mà sẽ
được kết hợp thành công với [2-8] sinh ra
trong ngăn xếp Stk bao gồm [1-8].
Bảng 1. Kho dữ liệu và tập dữ liệu
(đơn vị bằng số câu)
Sentence Training Dev Test
Corpus
pairs
set
set
set
General
55,341
54,642
200
499

KẾT QUẢ THỬ NGHIỆM
Tập dữ liệu
Chúng tôi thử nghiệm với cặp ngôn ngữ AnhViệt. Chúng tôi sử dụng kho dữ liệu song ngữ
Anh-Việt được tập hợp từ báo mới hàng ngày
[10]. Kho dữ liệu này bao gồm 55,341 cặp
câu song ngữ, được chia là 3 tập: huấn luyện,
tập phát triển và tập thử nghiệm. Tập dữ liệu

113(13): 107 - 113


được mô tả chi tiết trong bảng 1 và thông tin
thống kê được mô tả trong bảng 2.
Điểm BLEU
Chúng tôi thử nghiệm trên PC với bộ vi xử lý
Core 2- Duo 2.4 GZ, bộ nhớ 4 GB. Kết quả
được thể hiện trên bảng 3. Chúng tôi chạy
GIZA++[7] trong kho dữ liệu huấn luyện với
cả hai hướng sử dụng các tham số mặc định,
và ứng dụng luật “grow-diag-final” [6] để tạo
ra gióng hàng từ tương ứng nhiều-nhiều cho
mỗi cặp câu Anh-Việt. Về mơ hình ngơn ngữ
chúng tơi sử dụng cơng cụ mã nguồn mở
SRILM [9]. Về đánh giá chất lượng dịch,
chúng tơi sử dụng độ đo BLEU [8] mà được
tính bởi cơng cụ Nist phiên bản 11b. Về phân
tích các câu tiếng Anh trong tập huấn luyện,
chúng tôi sử dụng một trong bộ phân tích
thống kê tốt nhất hiện nay [1]. Sau đó chúng
tơi trích trọn đặc trưng của các cặp ví dụ theo
phương pháp của chúng tơi mơ tả ở trên.
Kết quả về chất lượng dịch được mô tả trong
bảng 3. Hệ thống baseline là hệ thông dịch
thống kê dựa vào cụm thơng thường [3].
Thêm vào đó, chúng tơi cũng so sánh hệ
thống của chúng tôi với hai hệ thống: (1) hệ
thông dịch dựa vào cụm tốt nhất hiện nay –
Moses [5] mà ở đây có sử dụng mơ hình đảo
trật tự từ vựng; (2) hệ thống HRM mà ở đây
hệ thống sử dụng mơ hình đảo trật tự từ vựng

phân cấp [2]. Ở đây chúng tôi cũng đánh giá
hệ thống với từng loại đặc trưng bao gồm cả
địa phương lẫn toàn cục.
Để đánh giá ảnh hưởng của các đặc trựng địa
phương và tồn cục, chúng tơi thử nghiệm với
4 hệ thống sử dụng phương pháp trên bao
gồm: “HW + TG + SL”, “HW + TG + SL +
PF”, “HW + TG + SL + SBF”, HW + TG +
SL + PF + SBF (tất cả đặc trưng)”. Điểm
BLEU của hệ thống HRM và bốn hệ thống
MEM tương ứng là 35.39, 36.14, 36.35,
36.51, 36.76 mà ở đây cải tiến 0.64, 1.39,
1.67, 1.58, 2.01 điểm so với hệ thống Moses.
Điểm BLEU của hệ thống “HW + TG + SL” và
“HW + TG + SL + PF + SBF” cải tiến 0.75 và
1.37 điểm BLUE so với hệ thống HRM.

Bảng 2. Thống kê thông tin về kho dữ liệu Anh – Việt
111


Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

113(13): 107 - 113

English
Training


Test

Setences
Average sentence length
Words
Vocabulary
Sentences
Average sentence length
Words
Vocabulary

Bảng 3. Kết quả dịch với cặp ngôn ngữ Anh – Việt
sử dụng các tập đặc trưng khác nhau
Corpus Method

BLEU score

General Baseline

34.07

Moses

34.75

HRM

35.39

HW+TG+SL


36.14

HW+TG+SL+PF

36.51

HW+TG+SL+SBF

36.42

HW+TG+SL+PF+SBF (all) 36.76

Vietnamese
54,642

11.2
614,578
23,804

10.6
580,754
24,097
499

11.2
5620
1844

10.5

6240
1851

96.5%. Vì vậy, dẫn đến cách tính xác suất dựa
vào tần suất với mơ hình HRM sẽ lỗi do hiện
tượng thưa dữ liệu.
KẾT LUẬN
Trong bài báo này, chúng tôi tập trung vào
nghiên cứu cải tiến mơ hình đảo trật tự từ
vựng. Chúng tơi mở rộng mơ hình đảo trật tự
cụm có phân cấp [2] sử dụng mơ hình
Maximum Entropy (ME) để đốn hướng và
ước lượng xác suất . Với mơ hình này, chúng
ta có thể tích hợp thơng tin giàu trí thức ngơn
ngữ vào như các thuộc tính địa phương cũng
như là tồn cục. Kết quả thử nghiệm với cặp
ngơn ngữ Anh-Việt cho thấy cách tiếp cận
của chúng tôi tốt hơn so với cách tiếp cận sử
dụng mơ hình từ vựng phân cấp [2]. Trong
tương lai chúng tôi tiếp tục thử nghiệm với dữ
liệu lớn hơn và các cặp ngôn ngữ khác như
Việt-Nhật, Việt-Trung.

Phương pháp của chúng tôi là hiệu quả (HW
+ TG + SL + PF + SBF – kết hợp tất cả các
đặc trưng) cải tiến đáng kể so với mơ hình
HRM với 1.37 điểm BLEU tốt hơn. Một
trong các nguyên nhân là số ví dụ của cặp
cụm xuất hiện lớn hơn 10 lần là 0.1 % trong
khi số ví dụ của cặp cụm xuất hiện 1 lần là

SUMMARY
AN INTEGRATED APPROACH TO LANGUAGE OF INTELLECTUAL
INTO THE STATISTICAL MACHINE TRANSLATION

Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3
1

2

Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
3
Trường Đại học Dân lập Hải Phòng

In this paper, we present a reordering model based on Maximum Entropy with local and non-local
features. This model is extended from a hierarchical reordering model with PBSMT [2], which
integrates rich syntactic information directly in decoder as local and non-local features of
Maximum Entropy model. The advantages of this model are (1) maintaining the strength of phrase
based approach with a hierarchical reordering model, (2) many kinds of rich linguistic information
integrated in PBSMT as local and non-local features of MaxEntropy model. The experiment
results with English-Vietnamese pair showed that our approach achieves significant improvements
over the system which uses a lexical hierarchical reordering model [2].
Keywwords: Reordering model based, intellectual language.

*

Tel: 0925009989

112



Nguyễn Văn Vinh và Đtg

Tạp chí KHOA HỌC & CƠNG NGHỆ

TÀI LIỆU THAM KHẢO
[1]. E. Charniak, “A maximum-entropy-inspired
parser,” in Proceedings of the ANLP-NAACL
2000, 2000, pp. 132–139.
[2]. M. Galley and C. D. Manning, “A simple and
effective hierarchical phrase reordering model,” in
Proceedings of the 2008 Conference on Empirical
Methods in Natural Language Processing, pp.
848–856
[3]. P. Koehn, “Pharaoh: A beam search decoder for
phrase-based statistical machine translation models,”
in Proceedings of AMTA, 2004, pp. 115–124.
[4]. P. Koehn, A. Axelrod, A. B. Mayne, C.
Callison-Burch, M. Osborne, D. Talbot, and M.
White, “Edinburgh system description for the
2005 nist mt evaluation,” in Proceedings of
Machine Translation Evaluation Workshop 2005.
[5]. P. Koehn, H. Hoang, A. Birch, C. CallisonBurch, M. Federico, N. Bertoldi, B. Cowan, W.
Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A.
Constantin, and E. Herbst, “Moses: Open source
toolkit for statistical machine translation,” in
Proceedings of ACL, Demonstration Session, 2007.
[6]. P. Koehn, F. J. Och, and D. Marcu,
“Statistical
phrase-based

translation,”
in
Proceedings of HLT-NAACL 2003. Edmonton,
Canada, 2003, pp. 127–133
[7]. F. J. Och and H. Ney, “A systematic
comparison of various statistical alignment

113(13): 107 - 113

models,” Computational Linguistics, vol. 29, no.
1, pp. 19–51, 2003.
[8] K. Papineni, S. Roukos, T. Ward, and W. J. Z.
2002, “Bleu: a method for automatic evaluation of
machine translation,” in Proc. of the 40th Annual
Meeting of the Association for Computational
Linguistics (ACL). Philadelphia, PA, July, 2002,
pp. 311–318.
[9]. A. Stolcke, “Srilm - an extensible language
modeling toolkit,” in Proceedings of International
Conference on Spoken Language Processing, vol.
29, 2002, pp. 901–904
[10]. P. T. Nguyen, A. Shimazu, L.M. Nguyen,
and V. V. Nguyen, “A syntactic transformation
model for statistical machine translation,”
International Journal of Computer Processing of
Oriental Languages (IJCPOL), vol. 20, no. 2, pp.
1–20, 2007.
[11]. C. Tillmann, “A unigram orientation model
for statistical machine translation,” in Proceedings
of HLT-NAACL 2004: Short Papers, pp. 101–104.

[12]. D. Xiong, Q. Lui, and S. Lin, “Maximum
entropy based phrase reordering model for
statistical machine translation,” in Proceedings of
ACL’06, 2006, pp. 521–528.
[13]. R. Zens and H. Hey, “Discriminative
reordering models for statistical machine
translation,” in Proceeding of the Workshop on
Statistical Machine Translation, 2006, pp. 55–63.
[14].
[15]. />
Ngày nhận bài: 12/9/2013; Ngày phản biện: 05/10/2013; Ngày duyệt đăng: 18/11/2013
Phản biện khoa học: TS. Vũ Vinh Quang – Trường ĐH Công nghệ thông tin & TT – ĐHTN

113



×