Tải bản đầy đủ (.pdf) (9 trang)

CẢI TIẾN CHẤT LƯỢNG DỊCH máy THỐNG kê VIỆT – ANH BẰNG mô HÌNH PHÁT SINH từ CHỨC NĂNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 9 trang )

Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
VII-O-14

CẢI TIẾN CHẤT LƢỢNG DỊCH MÁY THỐNG KÊ VIỆT – ANH BẰNG MÔ HÌNH PHÁT
SINH TỪ CHỨC NĂNG
Nguyễn Thị Phƣơng Nhƣ1, Trần Vũ Hoàng Ƣng2, Nguyễn Thị Thanh Thảo3
1

Trường Cao đẳng Bến Tre
Trường Đại học Kỹ thuật Công nghệ TP. HCM
3
Trường Cao đẳng Kinh tế Kỹ thuật Phú Lâm TP. HCM
2

TÓM TẮT
Từ chức năng là những từ ít mang ngữ nghĩa nhưng lại đóng vai trò quan trọng trong cấu trúc
câu, góp phần tạo tính tự nhiên cho văn bản đích. Tuy nhiên, phầ n lớn các hệ thố ng d ịch máy thống
kê (Statistical Machine Translation – SMT) lại không chú trọng nhiều và thường đánh đồng từ chức
năng với từ nội dung.
Để giải quyết vấn đề này, chúng tôi áp dụng mô hình phát sinh từ chức năng trong ngôn ngữ
đích. Trong mô hình này, việc xóa từ chức năng sẽ được thực hiện trước khi đưa vào mô hình dịch
(translation model); trong khi đó, việc chèn từ chức năng sẽ được tích hợp vào quá trình giải mã SMT
(SMT decoding) thông qua mô hình log-linear. Chúng tôi đã thực nghiệm trên ngữ liệu gồm 20000 cặp
câu song ngữ Việt – Anh và nhận thấy điểm BLEU tăng 2,58% (so với mô hình cơ sở).
Từ khóa: Từ chức năng, dịch máy thống kê Việt-Anh, mô hình log-linear.
GIỚI THIỆU
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một lĩnh vực nghiên cứ u nhằ m giúp cho
các hệ thống máy tính hiểu và xử lý được ngôn ngữ c ủa con người. Mă ̣c dù chỉ đươ ̣c dùng chủ yế u để dich
̣ các
tài liệu kỹ thuật nhưng dịch máy (Machine Translation - MT) đươ ̣c xem là mô ̣t trong những hướng ứng dụng
chính của xử lý ngôn ngữ tự nhiên . Dịch máy là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50 và được


phát triển mạnh mẽ vào thập kỷ 80 [4].
Hiện nay trên thế giới đã có rất nhiều hệ dịch máy thương mại nổi tiếng điển hình như: Systrans, Kant,…
[19] hay những hệ dịch máy mở tiêu biểu nhưhệ dịch của Google đã hỗ trợ nhiều cặp ngôn ngữ phổ biến như
Anh-Pháp, Anh-Hoa, Anh-Nhật, Anh-Đức,…
Có nhiều hướng tiếp cận để giải quyết bài toán dịch máy là : dịch máy dựa trên luật (Rule-based Machine
Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT), dịch dựa trên cơ sở tri
thức (Knowledge-based Machine Translation - KBMT), mô hình dịch thông số (Factored Translation Models)…
Trong đó, dịch máy thống kê ([11], [15]) được cho là mô hình mới nhất, triển vọng nhất vì nó có thể áp dụng cho
hầu hết các cặp ngôn ngữ.
Mô hình dịch máy thống kê là một mô hình tự động, xây dựng các bảng dịch từ vựng và các xác suất tương
ứng từ ngữ liệu song ngữ [11]; do đó, kho ngữ liệu càng lớn và có chất lượng thì hiệu quả dịch sẽ cho kết quả
cao. Tuy nhiên, mô hình này không sử dụng các tri thức ngôn ngữ như: tách từ, gán nhãn từ loại, phân tích cú
pháp, hay gán nhãn cú pháp,… Đây chính là lý do quan trọng làm hạn chế hiệu quả dịch của SMT, đồng thời đó
cũng là động lực cho rất nhiều nghiên cứu về việc bổ sung tri thức ngôn ngữ vào hệ thống SMT.
Hiê ̣n là những từ đóng vai trò quan tr ọng trong cấu trúc câu, thể hiện mối quan hệ ngữ pháp giữa các từ
trong câu. Sự xuấ t hiê ṇ cũng như vi ̣trí của nh ững từ này sẽ ảnh hưởng đến tính t ự nhiên của văn bản đích. Tuy
nhiên, phầ n lớn các hê ̣ thố ng SMT đề u không chú tro ̣ng nhiề u đế n từ chức năng , trong ([11][15]) từ chức năng
đươ ̣c xử lý giố ng như từ nô ̣i dung (content word ). Nghĩa là các tri thức dịch từ chức năng đều dựa trên cơ sở
gióng hàng từ . Trên thực tế , không phải từ chức năng nào cũng đươ ̣c gióng hàng đúng và chính xác , đôi khi có
những từ bi ̣gióng hàng sai hoă ̣c thâ ̣m ch í không có từ được liên kết với nó.
Xét ví dụ minh họa sau:

Theo mô tả trong ví dụ này, khi dịch theo chiều Việt-Anh, the là từ chức năng được phát sinh ở ngôn ngữ
đích, làm cho kết quả dịch có tính tự nhiên và thể hiện đúng ngữ pháp trong câu. Như vậy, từ ví dụ trên, chúng
tôi sẽ có một vài vấn đề đặt ra như sau:
Vị trí nào sẽ là vị trí thích hợp để chèn từ chức năng?
ISBN: 978-604-82-1375-6

91



Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Từ chức năng nào được xem là ứng cử viên phù hợp cho các vị trí đó?
Tất cả những vấn đề trên sẽ được chúng tôi giải quyết trong bài báo này nhằm cải tiến chất lượng dịch của SMT.
CÔNG TRÌNH LIÊN QUAN
Cách tiếp cận dựa trên thống kê là một bước đột phá về phương pháp luâ ̣n cho dich
̣ máy , nhưng kế t quả
thực tế của hê ̣ dich
̣ này còn thấ p . Vì vậy, người ta đang nghiên cứu cải tiế n nó bằ ng cách đưa thêm tri thức ngôn
ngữ. Hiê ̣n nay có nhiề u cách cải tiế n hiê ̣u quả cũng như chấ t lươ ̣ng cho SMT , trong đó có đề câ ̣p đế n hướng cải
tiế n tâ ̣p trung vào các từ chức năng (function word). Hiện nay đã có mô ̣t số công trình nghiên cứu nâng cao chấ t
lươ ̣ng của SMT xoay quanh những vấ n đề liên quan đế n từ chức năng ; đó là sử dụng từ chức năng để chuyển đổi
trật tự các ngữ [17], các cú pháp trong ngôn ngữ nguồn – đích [5] hoặc cải tiến chất lượng dịch máy thông qua
việc xóa và chèn từ chức năng [12][2].
Hướng tiếp cận thứ nhất là sử dụng từ chức năng để chuyển đổi trật tự các ngữ, các cú pháp trong ngôn ngữ
nguồn – đích. Mục đích của hướng tiếp cận này là giải quyết sự khác nhau về trật tự từ giữa ngôn ngữ nguồn –
đích, tức là làm cho trật tự từ của ngôn ngữ nguồn gần giống với trật tự từ của ngôn ngữ đích; khi đó chất lượng
dịch sẽ được cải tiến.
Nhóm tác giả [17] đã sử du ̣ng giải pháp FWS - Function Word centered, Syntax-based để giải quyế t viê ̣c
sắ p xế p các cu ̣m từ trong SMT d ựa trên các từ chức năng. Trong phương pháp này , các tác giả đã đề xuất văn
phạm xác suất đồng nhất (Probabilistic Synchronous Grammar ) để mã hóa thứ tự của các từ chức năng cũng như
các tham số bên trái (left), bên phải (right) của chúng. Thực nghiê ̣m cho thấ y hướng FWS tố t hơn hê ̣ thố ng dich
̣
cơ bản tron g viê ̣c sắ p xế p thứ tự các tham số của từ chức năng và cải tiế n chấ t lươ ̣ng dich
̣ trong cả trường hơ ̣p
gióng hàng chính xác hay bị nhiễu . Tuy nhiên, giải pháp này chỉ áp dụng cho phía ngôn ngữ nguồn và nó cũng
gă ̣p phải khó khăn trong viê ̣c sắ p xế p các cu ̣m từ (ngữ) dài (do mô hin
̣ ranh giới ngữ hỗ trơ ̣ cho những
̀ h xác đinh
trường hơ ̣p này chưa đươ ̣c tố t ).

Một nghiên cứu khác của nhóm tác giả [5] lại sử dụng từ chức năng nhằm mục đích sắ p xế p la ̣i cú pháp
bên ngôn ngữ nguồ n trong SMT theo hướng tiế p câ ̣n không xác đinh
(non – deterministic reordering approach ).
̣
Mô hình này đã đươ ̣c thử nghiê ̣m và so sánh trên 3 hê ̣ thố ng: hê ̣ thố ng SMT dựa trên ngữ cơ bản , hê ̣ thố ng sắ p
xế p la ̣i dựa trên cú pháp với các mẫu dữ liệu được rút trích từ kho ngữ liệu và hệ thống sắp xếp lại dựa trên cú
pháp cho các mẫu được trích với từ chức năng . Kết quả thực nghiệm trên hệ dịch Hoa – Anh (chỉ thử nghiệm
trên ngữ liê ̣u có kić h cỡ trung biǹ h) cho thấy mô hình này tăng 0,34% so với hệ thống dịch Baseline.
Tương tự như hướng tiếp cận đầu tiên, những mô hình trong hướng tiếp cận cải tiến chất lượng dịch máy
thông qua việc xóa và chèn từ chức năng cũng mang lại hiệu quả đáng kể.
Nhóm tác giả [12] sử du ̣ng phương pháp chèn và xóa các từ ch ức năng dựa trên các gơ ̣i ý về cú pháp
(syntactic cues) trong dich
̣ dựa trên cú pháp (điể n hin
̀ h là Treelet ). Mô hin
̀ h này tương đố i đơn giản và cải thiê ̣n
đáng kể chấ t lư ợng dịch cho các ngôn ngữ không cùng cấu trúc (chẳ ng ha ̣n: Anh – Nhâ ̣t, …). Phương pháp này
chỉ được thực nghiệm trên các cặp Anh – Nhâ ̣t (điể m BLEU tăng 1,1% so với hê ̣ thố ng Treelet cơ bản ), Anh –
Tây Ban Nha (điể m BLUE tăng từ 0,5% đến 1,1%).
Một thực nghiệm khác cũng góp phần cải tiến chất lượng dịch SMT đó là thực nghiệm của nhóm [2]. Các
tác giả đã đề xuất giải pháp xóa và chèn các từ chức năng trên ngôn ngữ đić h và nhìn chung , phương pháp này
đem đế n những cải ti ến đáng kể so với hệ thống dịch cơ s ở trong dich
̣ Hoa – Anh (điể m BLEU tăng khoảng
1.28% trên bô ̣ dữ liê ̣u NIST 2005 và tăng 1.19% trên bô ̣ dữ liê ̣u NIST 2006).
Trong bài báo này, chúng tôi sử dụng hướng tiếp cận cải tiến chất lượng dịch máy thông qua việc xóa và
tích hợp chèn từ chức năngvào giai đoạn giải mã (decoding) cho hệ thống dịch Việt – Anh.
MÔ HÌNH
Trong bài báo này, chúng tôi đề xuất mô hình sau:

ISBN: 978-604-82-1375-6


92


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

Hình 1. Mô hình cải tiến chất lượng dựa vào từ chức năng
Mô hình này gồm các giai đoạn:
Xác định tập các từ chức cần xóa.
Xóa từ chức năng: quá trình này diễn ra trong suốt thời gian huấn luyện mô hình. Mục đích của giai đoạn
này nhằm làm giảm độ nhiễu của từ chức năng.
Chèn từ chức năng: sử dụng mô hình TFWIM (Target Function Word Insertion Model).
Xác Định Từ Chức Năng
Trong bài báo này, chúng tôi quy ước: từ chức năng cầ n xóa là những từ chức năng thường xuyên không được
gióng hàng. Giai đoạn này được thực hiện qua các bước:
Bƣớc 1: Tính xác suất p(w) của các từ w không được gióng hàngtheo công thức (1):
p w =

Số phân đoạn từ không gióng hàng c ủa w
Sốphânđoạntừcủa w trongngữ liệu

(1)

Bƣớc 2: Sắp xếp các từ w theo thứ tự giảm dần của p(w), khi đó chúng tôi có được danh sách các từ chức năng.
Xóa Từ Chức Năng
Dựa theo [2], giai đoạn này sẽ tiến hành xóa từ chức năng trong ngôn ngữ đích và khi xóa cần lưu trữ các
thông tin ngữ cảnh (hay còn gọi là vùng thông tin ngữ cảnh) như sau:
Thông tin từ loại (POS).
Thông tin từ vựng.
Xóa từ chức năng tiến hành các bước sau:
Bước 1: Tiền xử lý dữ liệu như: tách từ, gán nhãn từ loại (POS).

Bước 2: Xóa từ chức năng
Do kết quả thực nghiệm trên vùng thông tin 4 từ cho kết quả chính xác nhất nên chúng tôi sẽ đề cập vùng
thông tin ngữ cảnh này xuyên suốt bài báo.
Gọi:
T là tập ứng viên (tập các từ chức năng được xác định ở giai đoạn 1).
wilàtừđang xét;wi-1 và wi+1lần lượt là những từ liền kề bên trái và liền kề bênphảicủawi.
wi-2và wi+2lần lượt là những từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1.
Pi-1vàPi+1lần lượt là từ loại của từ liền kề bên trái và liền kề bênphảicủawi.
Pi-2vàPi+2lần lượt là từ loại của từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1.
CLW, CPW lần lượt là thông tin ngữ cảnh từ vựng và từ loại.
Để tránh mất thông tin ngữ cảnh về sau, cần tuân thủ quy tắc xóa như sau:
IF(wi T và (wi-1 T, wi+1 T)) THEN tiếnhànhxóawi, thông tin ngữ cảnh khi xóa là :
ISBN: 978-604-82-1375-6

93


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
CLW = (wi,wi-2wi-1wi+1wi+2)
CPW = (Pi, Pi-2Pi-1Pi+1Pi+2)
Ngược lại, IF (wi T và (wi-1 T hoặc wi+1 T)) THEN khôngxóawi.
Xét câu tiếng Anh được gán nhãn từ loại sau đây, để tránh nhập nhằng thông tin trong trường hợp xóa,
chúng tôi sẽ đưa thêm thông tin từ vựng START ở đầu câu và END ở cuối câu.
“START|START
the|DTislanders|NNSof|INtorcello|NN
,|,
who|WPhave|VBPperhaps|RBalready|RBspread|VBNto|TOneighbouring|JJislands|NNSin|INthe|DTvenetian|JJl
agoon|NN ,|, are|VBPincluded|VBNin|INthe|DTexarchate|NN .|. END|END”
Xét tập T = {―the‖, ―in‖, ―to‖, ―for‖, ―of‖}, ta có các thông tin ngữ cảnh trong trường hợp xóa như bảng 1
sau:

Bảng 1. Thông tin ngữ cảnh khi xóa từ chức năng
Từ
Thông tin ngữ cảnh
Chèn Từ Chức Năng
Stt chức
Giai đoạn này được mô hình hóa thành bài toán
Từ loại
Từ vựng
năng
phân lớp và sử dụng phương pháp Maximum Entropy để
START
1
the
START islanders of
phân lớp và quyết định vị trí chèn từ chức năng.
NNS IN
START
START islanders
Bƣớc 1: Xác định được vị trí cần chèn, bước này sử
2
of
NNS NN ,
torcello ,
dụng thông tin ngữ cảnh từ loại.
already spread
Bƣớc 2: Sau khi tìm được vị trí chèn, mô hình sẽ
RB VBN
3
to
neighbouring

tìm từ chức năng thích hợp để chèn vào.
JJ NNS
islanders
Chúng tôi dựa vào mô hình TFWIM để tìm vị trí và
từ chức năng thích hợp. Mô hình này được tính toán thông qua công thức Maximum Entropy (2).

P( w | C) 

exp[ i i f i( w, C)]
 w 'W {NULL} exp[ i i f i( w ' , C)]

(2)

Trong đó:
C: thông tin ngữ cảnh từ vựng hoặc từ loại được lưu trữ tronggiaiđoạn 2.
fi(w,C):làtầnsuất của w xuất hiện trongthông tin C.
i là trọng số tương ứng của hi(0<i<1), giá trị này sẽ được xác định trong quá trình huấn luyện mô hình.
W là tập các từ hoặc từ loại của từ chức năng đang xét.
Trong mô hình bài báo, chúng tôi sẽ tích hợp việc tìm kiếm vị trí, cũng như tìm từ chức năng thức hợp vào
trong quá trình giải mã (decoding); nghĩa là, công thức (2) sẽ được tích hợp vào mô hình log-linear thông qua
công thức (3) sau đây:
ê1I  arg max
eI
1

Pr( e

I
1


| f1J



I

 exp [   log (f i | ei )
i 1

I

  d  log d (a i  b i 1  1)
i 1

| e|

  LM  log p LM (ei | e1... ei 1)
i 1

  TFWIM log P ( w | C)]

(3)
Với: là xác suấtgiónghàngngữ.
d là mô hình chuyển đổi trật từ các ngữ, ai là vị trí bắt đầucủangữ f i và bi-1là vị trí kết thúccủangữ ei .
pLM là môhìnhngônngữ.
Các trọng số , d, LM, … có được bằng cách huấn luyện mô hình trên dựavào Minimum Error Rate
Training (MERT).
Giả sử, chúng tôi có thông tin từ loại được lưu trữ như sau:
(TO, RB VBN VB CD)
(DT, NNS IN NN TO)

(DT, , VBG NN DT)
(TO, DT NN VB CC)
ISBN: 978-604-82-1375-6

94


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
(IN, NN, NN NNS)
(IN, JJ NN JJ NN)
(IN, NN, NN IN)
(IN, CD : NN ,)
(IN, CD NN NNS CC)
(IN, CD NN JJ NNS)
(IN, NN . NN,)
(IN, VBP VBN DT NN)
(TO, PP VB NN .)
Thông tin từ vựng:
(to, also helped send 10)
(the, doctors from hospital to)
(the, , leaving child no)
(to, no time relax or)
(of, phd , cincinnati children)
(of, international federation red cross)
(in, year , connection with)
(for, 3 ; example ,)
(for, 8 percent motorbikes and)
(for, 20 percent private cars)
(in, mirinae . addition ,)
(in, have been a deadlock)

(to, i go school .)
Với câu Tiếng Việt: Tôi đi học, xét mô hình tích hợp TFWIM:
Trong lần phát sinh thứ nhất, giảthiếti|PPđượcphát sinh nhưng mô hình TFWIM không tìm được vị trí
chèn.Tương tự trong lần phát sinh thứ hai và thứ ba bộ giải mã vẫn không tìm được vị trí.
Trong lần thứ tư, bộ giải mã tạo ra giảthiếti|PPgo|VBschool|NN .|..Mô hình TFWIM tìm được vị trí chèn
như trong Hình 2:

Hình 2. Quá trình tìm vị trí chèn khi phát sinh các giả thiết trong bộ giải mã sau khi áp dụng công thức (3)
Kết quả sau khi tìm từ thích hợp để chèn là:

Hình 3. Kết quả bộ giải mã tìm và chèn từ chức năng sau khi áp dụng công thức (3)

ISBN: 978-604-82-1375-6

95


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Sau giai đoạn này kết quả dịchsẽ là: i|PPgo|VBto|TOschool|NN .|.
Bƣớc 3: Tiến hành hậu xử lý bỏ các nhãn từ loại.
Như vậy, qua bước 3, câu dịch ở bước 2 sẽ là: I go to school.
THỰC NGHIỆM
Trong phần thực nghiệm, chúng tôi tiến hành trên 3 hệ thống:
Hệ thống cơ sở (Baseline).
Hệ thống dịch Post-generation (phát sinh từ chức năng trên kết quả dịch): là mô hình SMT phát sinh từ
chức năng trên kết quả dịch.
Hệ thống TFWIM: là mô hình phát sinh từ chức năng đượctích hợp ngay trong lúc giải mã.
Trong bài báo này, chúng tôi sử dụng bộ ngữ liệu song ngữ Việt – Anh của nhóm VCL (Vietnamese
Computation Linguistic) gồm 20000 câu đã được chuẩn hóa.Bộ ngữ liệu này được chia ngẫu nhiên thành 3 tập
con: tập huấnluyện (TrainSet), tậpđiềuchỉnh (DevSet), tậpkiểmtra(TestSet) lầnlượttheo tỉ lệ 9:0,5:0,5. Các đặc

trưng của ngữ liệu được trình bày trong bảng 2.
Bảng 2. Các đặc trưng của ngữ liệu
Chiều dài trung
Số
bình câu
Tập NL
cặp
câu
Việt
Anh
Trainset
18000 35,557
25,727
Devset
1000
35,615
25,652
Testset
1000
35,053
25,283
Độ Chính Xác Của TFWIM
Chúng tôi đã tiến hành thống kê các từ chức năng trong ngữ liệu đơn ngữ tiếng Anh. Kết quả thống kê
được trình bày trong bảng 3.
Bảng 3. Thống kê từ chức năng
Từ
chức
năng

Số lần

không
gióng hàng

Số lần
xuất hiện

TL không
gióng
hàng

The
Of
In
To
For
That
's
As
With
From


23897
7728
3967
5268
1320
1093
690
560

305
274


29194
15043
11171
11112
3769
3275
2769
2503
2515
2639


0,82
0,51
0.36
0,47
0,35
0,33
0,25
0,22
0,12
0,10


Từ bảng thống kê trên, chúng tôi đã chọn 5 từ chức năng có số lần xuất hiện nhiều nhất là ―the‖, ―of‖, ―in‖,
―to‖, ―for‖ để tiến hành các thực nghiệm trên mô hình (2) và mô hình (3).

Khi huấn luyện mô hình (3) trên 5 từ chức năng chúng tôi nhận được độ chính như trong bảng 4.
Bảng 4. Độ chính xác của mô hình TFWIM
STT
1
2
3
4
5
6

ISBN: 978-604-82-1375-6

Mô hình huấn luyện
Chèn từ THE
Chèn từ OF
Chèn từ FOR
Chèn từ TO
Chèn từ IN
Chèn {the, of, for, to,
in}

Độ chính xác
94,24
97,43
98,76
97,72
97,69
87,17

96



Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Nhận xét:
Việc huấn luyện chèn từ the trong mô hình có độ chính xác thấp hơn so với các từ chức năng khác; bởi
vì,trong tiếng Anh, việc xác định vị trí của từ the trong câu luôn bị nhập nhằng (ambiguous). Do đó, với lượng
thông tin ngữ cảnh có hạn, bộ phận phân lớp sẽ dễ bị nhầm lẫn (confused) và đưa ra quyết định chèn sai. Đây
cũng chính là lý do làm cho các mô hình huấn luyện liên quan đến từthe đều có độ chính xác thấp.
KẾT QUẢ THỰC NGHIỆM
Sau khi chạy thực nghiệm trên hệ thống (1), (2) và (3), chúng tôi nhận được kết quả đánh giá trong Bảng 5.
Bảng 5. Chất lượng dịch của các hệ thống
Hệ thống
Baseline
Post-generation
TFWIM

BLEU
0,2526
0,2534 (+ 0,8%)
0,2784(+ 2,58%)

NIST
6,7884
7,2621
7,3310

Căn cứ vào dữ liệu của Bảng 5, chúng tôi có thể biểu diễn sự so sánh giữa các mô hình dựa trên tiêu chuẩn
BLEU trong Hình 4.
BLEU


28.5
27.84

28
27.5
Điểm BLEU

27

Baseline

26.5

Post-generation

26

25.5

Our method

25.26

25.34

25
24.5
24
23.5


Mô hình

Hình 4. So sánh điểm BLEU giữa các mô hình dịch
Sau đây là một vài so sánh giữakết quả dịch của mô hình cơ sở và mô hình TFWIM.
Trường hợp 1: kết quả dịch của mô hình đề tài tốt hơn mô hình cơ sở.
họcó_thểtựnhìnthấy rằng những con
Câu tiếng gấu
nàykhôngcònđau_đớn
hay
Việt
bịgiam_cầm hoặc ở tại các chợ hoặc ở
bênngoàimộtnhà_hàng .
They can see for themselves that these
Câu tham bears are no longer in pain or in
chiếu
captivity or in the markets or outside at
a restaurant.
They can to see that these bears no
Mô hình longer painful procedure or imprisoned
cơ sở
or in the market or outside at a
restaurants .
They can see for themselves that these
Mô hình bears no longer painful procedure or
TFWIM imprisoned or in the market or outside
at a restaurant.

ISBN: 978-604-82-1375-6

97



Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Trường hợp 2: mô hình baseline và mô hình đề tài có kết quả giống nhau.
Câu tiếng
Việt

Câu tham
chiếu

Mô hình
cơ sở

Mô hình
TFWIM

Johnloizou thâmnhập vào thếgiới của
những con gấu châu á bị đe dọa và hàng
ngàn người dân cốnghiến cuộcsống của
họ để kéo chúng trởlại từ bờ vực của sự
tuyệtchủng .
John Loizou delves into the world of
endangered Asian bears and the
thousands of people who devote their
lives to pulling them back from the brink
of extinction.
John loizou entering the world of the
bears asia threatened and thousands of
people devotes their lives to pull them
back from the brink of extinction.

John loizou entering the world of the
bears asia threatened and thousands of
people devotes their lives to pull them
back from the brink of extinction.

KẾT LUẬN
Trong bài báo này chúng tôi trình mô hình chèn từ chức năng TFWIM.Giai đoạn phát sinh từ chức năng
được mô hình hóa thành bài toán phân lớp quyết định vị trí chèn từ chức năng.Thực nghiệm trên dữ liệu 1000
câu tiếng Anh, mô hình này đạt được độ chính xác 87,172%.
Trong mô hình này, ngữ liệu Tiếng Anh sẽ được xóa các từ chức năng, sau đó đưa vào mô hình dịch.Bộ
giải mã sẽ dựa vào các thông tin ngữ cảnh được lưu trữ trong giai đoạn xóa nhằm tìm từ chức năng chính xác
nhất để chèn vào vị trí phù hợp trong các giả thiết; khi đó, câu dịch sẽ có tính tự nhiên hơn.
Trong bài báo, chúng tôi thực nghiệm trên mô hình Baseline, Post-generation và TFWIM.Kết quả cho
thấy,mô hình TFWIM đã tạo ra được những câu dịch có độ mượt và chất lượng hơn; điển hình điểm BLEU tăng
từ 25,26(đối với mô hình Baseline) đến 27,84 và từ 25,34 (đối với mô hình Post-generation) đến 27,84.
Tuy nhiên các mô hình trong bài báo phụ thuộc vào kết quả gióng hàng từ tự động cho nên nếu kết quả
gióng hàng từ tự động thấp sẽ dẫn đến độ chính xác của các mô hình trên giảm đáng kể.
TÀI LIỆU THAM KHẢO
[1] Chiang, D., A Hierarchical Phrase-Based Model for Statistical Machine Translation, Proceedings of the
43th Annual Meeting of the ACL, 2005.
[2] Cui, L., Zhang, D., Li, M., and Zhou, M. (2011), Function Word Generation in Statistical Machine
Translation Systems, The Proceedings of Machine Translation Summit XIII (MT Summit 2011).
[3] Doddington,G.(2002),―AutomaticEvaluationofMachineTranslation Quality Using N-gram CoOccurrence Statistics‖, Proceedings of the second international conference on Human Language
Technology Research, pp. 138 – 145.
[4] Hutchins,W.J. (1986), Machine translation: past, present, future, John Wiley & Sons, Inc. New York,
NY, USA ©1986.
[5] Jie, J.,Du, J. and Way, A. (2010), Source-side syntactic reordering patterns with functional words for
improved phrase-based SMT, SSST 2010 - 4th Workshop on Syntax and Structure in Statistical
Translation, 28 August 2010, Beijing, China.
[6] Koehn P. (2012), Statistical Machine Translation, Published in the United States of America by

Cambridge University Press, New York.
[7] Koehn, P. andH.Hoang,(2007),―FactoredTranslationModels‖,Proceedings of the 2007 Joint Conference
on Empirical Methods in Natural Language Processing and Computational Natural Language Learning
(ACL), pp. 868 – 876.
[8] Koehn, P. and Knight, K., Introduction to Statistical Machine Translation,Tutorial at AMTA, 2004.
[9] Koehn, P., Challenges in Statistical Machine Translaton, Talk given at PARC, Google, ISI, MITRE,
BBN, Univ. of Montreal, 2004.
[10] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the
Human Language Technology (HLT/NAACL 2003), pages 127 – 133.
[11] Li, C.H., Zhang, D., Li, M., Zhou, M., Li, M. and Guan, Yi. (2007), A probabilistic approach to syntaxbased re-ordering for statistical machine translation, Proceedings of 45th ACL, pp.720 - 727.
ISBN: 978-604-82-1375-6

98


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
[12] Menezes,A. and Quirk, C. (2008), Syntactic Models for Structural Word Insertion and Deletion,
Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 735
– 744.
[13] Nyberg, E. H. andMitamura, T. , The Kant system: Fast, Accurate, Highquality Translation in Practical
Domains, Proceedings of COLING-92, Nantes, France, July 1992.
[14] Och, F. J. andNey, H. (2000), Improved statistical alignment models, Proceedings of ACL 2000.
[15] Och, F. J. andNey, H. (2004), The Alignment Template Approach to Statistical Machine Translation,
Computational Linguistics, 30(4): 417 – 449.
[16] Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), ―Bleu: a method for automatic evaluation of
machine translation‖, Proceedings of the 40th Annual Meeting of the Association for Computational
Linguistics, pp. 311 – 318.
[17] Setiawan, H. , Kan, M. and Li, H. (2007), Ordering Phrases with Function Words, Proceedings of the
45th Annual Meeting of the Association of Computational Linguistics, pages 712 – 719.
[18] Setiawan, H., Dyer, C. and Resnik, P. (2010), DiscriminativeWord Alignment with a Function Word

Reordering Model, Proceedings of the 2010 Conference on Empirical Methods in Natural Language
Processing, pages 534 – 544.
[19] XianchaoWu, Matsuzak, T. and Tsujii, J. (2011), Effective Use of Function Words for Rule
Generalization in Forest-Based Translation, Proceedings of the 49th Annual Meeting of the Association
for Computational Linguistics, pages 22.

ISBN: 978-604-82-1375-6

99



×