Tải bản đầy đủ (.docx) (134 trang)

Luận văn khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.71 MB, 134 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ QUANG HÙNG

KHAI PHÁ TRI THỨC
SONG NGỮ VÀ ỨNG DỤNG
TRONG DỊCH MÁY ANH - VIỆT

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ QUANG HÙNG

KHAI PHÁ TRI THỨC
SONG NGỮ VÀ ỨNG DỤNG
TRONG DỊCH MÁY ANH - VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Anh Cường
2. PGS.TS. Huỳnh Văn Nam


Hà Nội - 2016


L i cam đoan
Tôi xin cam đoan lu n án này là k t qu nghiên c u c a tôi, đư c th c hi n dư i
s hư ng d n c a PGS.TS. Lê Anh Cư ng và PGS.TS. Huỳnh Văn Nam. Các n i dung
trích d n t các nghiên c u c a các tác gi khác mà tôi trình bày trong lu n án này đã
đư c ghi rõ ngu n trong ph n tài li u tham kh o.

Lê Quang Hùng

i


Tóm t t
Nhi m v c a m t h th ng d ch máy là t đ ng d ch m t văn b n t ngôn ng
này (ví d , ti ng Anh) sang m t văn b n tương đương

ngôn ng khác (ví d ,

ti ng Vi t). Tính h u ích c a công ngh d ch máy tăng lên cùng v i ch t lư ng c a nó.
D ch máy có nhi u ng d ng như: (i) d ch tài li u ti ng nư c ngoài cho
m c đích hi u n i dung, (ii) d ch văn b n đ xu t b n

các ngôn ng khác và (iii)

thông tin liên l c, ch ng h n như d ch email, chat, vv.
Có m t s cách ti p c n cho bài toán d ch máy như d ch tr c ti p (direct
translation), d ch d a trên chuy n đ i (transfer - based translation), d ch liên ng
(interlingua translation), d ch d a trên ví d (example - based translation) và d ch th

ng kê (statistical translation). Hi n t i, d ch máy d a trên cách ti p c n th ng kê đang
là m t hư ng phát tri n đ y ti m năng b i nh ng ưu đi m vư t tr i so v i các cách ti p c
n khác. Thay vì xây d ng các t đi n, các quy lu t chuy n đ i b ng tay, d ch máy th ng
kê t đ ng xây d ng các t đi n, các quy lu t d a trên k t qu th ng kê có đư c t ng li u.
Đ i v i m t h th ng d ch máy th ng kê, hi u qu (ch t lư ng d ch) c a nó t l thu n v i s
lư ng (kích thư c) và ch t lư ng c a ng li u song ng đư c s d ng đ xây d ng h th ng
d ch. Tuy nhiên, ng li u song ng s n có hi n v n còn h n ch c v kích thư c l n ch t
lư ng, ngay c đ i v i các c p ngôn ng chính. Ngoài ra, đ i v i các c p ngôn ng có nhi
u khác bi t v c u trúc ng pháp (ví d , Anh - Vi t), v n đ v ch t lư ng d ch đang là
thách th c đ i v i các nhà nghiên c u v d ch máy trong nhi u năm qua. Vì v y, vi c b
sung thêm ng li u song ng và phát tri n các phương pháp hi u qu hơn d a trên ng
li u hi n có là nh ng gi i pháp quan tr ng đ tăng ch t lư ng d ch cho d ch máy th ng
kê.
Lu n án c a chúng tôi t p trung gi i quy t các t n t i đã nêu thông qua ba
bài toán: phát tri n phương pháp xây d ng ng li u song ng , c i ti n các phương
pháp gióng hàng t và xác đ nh c m t song ng cho d ch máy th ng kê, c th
như sau:
Th nh t, đ i v i bài toán xây d ng ng li u song ng , chúng tôi khai thác t
hai ngu n: Web và sách đi n t song ng . Đ i v i ngu n t Web, chúng tôi t p trung
vào rút trích các văn b n song ng t các web-site song ng . Chúng tôi đ xu t hai
phương pháp thi t k các đ c trưng d a trên n i dung: s d ng các t
b t bi n gi a hai ngôn ng (cognate) và s d ng các phân đo n d ch. Ngoài ra,


chúng tôi k t h p các đ c trưng d a trên n i dung v i các đ c trưng d a trên c u
trúc c a trang web đ rút trích các văn b n song ng , b ng cách s d ng phương pháp
h c máy. Đ i v i ngu n t sách đi n t , chúng tôi đ xu t phương pháp d a trên n i
dung, s d ng m t s m u liên k t gi a các kh i văn b n trong hai ngôn ng đ rút trích
các câu song ng .
Th hai, v i bài toán gióng hàng t , chúng tôi đ xu t m t s c i ti n đ i v i

mô hình IBM 1 theo cách ti p c n d a trên ràng bu c, bao g m: ràng bu c neo, ràng
bu c v v trí c a t , ràng bu c v t lo i và ràng bu c v c m t . V i m i ràng bu c, chúng
tôi đưa ra phương pháp t ng quát đ tích h p nó vào thu t toán c c đ i kỳ v ng trong
quá trình ư c lư ng tham s c a mô hình. Ngoài ra, chúng tôi đưa ra m t phương
pháp đ k t h p các ràng bu c. Nh ng c i ti n này đã giúp nâng cao ch t lư ng d ch
cho h th ng d ch máy th ng kê Anh - Vi t.
Th ba, đ i v i bài toán xác đ nh c m t song ng cho d ch máy th ng kê,
chúng tôi đ xu t phương pháp rút trích c m t song ng t ng li u song ng ,
s d ng các m u cú pháp k t h p v i gióng hàng c m t . Các c m t song ng
này đã đư c ng d ng vào vi c nâng cao ch t lư ng d ch cho h th ng d ch máy th ng
kê Anh - Vi t.
T

khóa: d ch máy, d ch máy th ng kê, tri th c song ng , ng li u song

ng , văn b n song ng , gióng hàng t .

iii


L i c m ơn
Trư c h t, tôi xin g i l i c m ơn sâu s c đ n PGS.TS. Lê Anh Cư ng và
PGS.TS. Huỳnh Văn Nam, hai Th y đã tr c ti p hư ng d n, ch b o t n tình,
luôn h tr và t o nh ng đi u ki n t t nh t cho tôi h c t p và nghiên c u.
Tôi xin g i l i c m ơn đ n các Th y/Cô giáo

Khoa Công ngh thông tin,

Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i, đ c bi t là PGS.TS. Ph m
B o Sơn và các Th y/Cô giáo


B môn Khoa h c máy tính, nh ng ngư i đã tr c

ti p gi ng d y và giúp đ tôi trong quá trình h c t p và nghiên c u
Tôi xin g i l i c m ơn đ n các đ ng nghi p

trư ng.

Khoa Công ngh thông tin,

Trư ng Đ i h c Quy Nhơn, đ c bi t là TS. Tr n Thiên Thành và TS. Lê Xuân Vi t đã
quan tâm, giúp đ và t o đi u ki n cho tôi trong th i gian làm nghiên c u sinh.
Tôi xin g i c m ơn đ n PGS.TS. Nguy n Phương Thái, TS. Nguy n Văn Vinh,
TS. Phan Xuân Hi u (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i),
PGS.TS. Lê Thanh Hương (Trư ng Đ i h c Bách khoa Hà N i), TS. Nguy n Th Minh
Huy n, TS. Lê H ng Phương (Trư ng Đ i h c Khoa h c T nhiên, Đ i h c Qu c gia Hà
N i), TS. Nguy n Đ c Dũng (Vi n Công ngh thông tin, Vi n Hàn lâm Khoa h c và
Công ngh Vi t Nam), các Th y/Cô đã có nh ng góp ý ch nh s a đ tôi hoàn thi n lu n
án.
Tôi xin g i l i c m ơn đ n t t c anh, ch , em và b n đ ng h c

B môn

Khoa h c máy tính (Khoa Công ngh thông tin, Trư ng Đ i h c Công ngh , Đ i h c Qu
c gia Hà N i), đ c bi t là ch Nguy n Th Xuân Hương (Khoa Công ngh thông tin, Trư
ng Đ i h c Dân l p H i Phòng), nghiên c u sinh Hoàng Th Đi p (Khoa Công ngh
thông tin, Trư ng Đ i h c Công ngh ) đã giúp đ tôi trong th i gian làm nghiên c u
sinh.
Cu i cùng, tôi xin g i l i c m ơn đ n t t c các thành viên trong gia đình tôi,
đ c bi t là v tôi - ngư i đã luôn ng h , chia s , đ ng viên và gánh vác công vi c gia

đình đ tôi yên tâm h c t p, nghiên c u.

iv


M cl c
i

L i cam đoan

ii

Tóm t t

iv

L i c m ơn

viii

Danh m c các ch vi t t t

ix

Danh m c các hình v

xi

Danh m c các b ng


1

M đu

5

1 T ng quan
1.1 Khai phá tri th c song ng . . . . . . . . . . . .
1.1.1 Xây d ng ng li u song ng . . . . . . .
văn b n . . . . . . . . . . .
1.1.2.1 Gióng hàng đo n/câu . . . . .
t.........
1.1.3 Xác đ nh c m t song ng . . . . . . . .
1.2 Sơ lư c v d ch máy . . . . . . . . . . . . . . . .
1.3 D ch máy th ng kê . . . . . . . . . . . . . . . .
1.3.1 Mô hình hóa bài toán . . . . . . . . . . .
1.3.2 Mô hình ngôn ng . . . . . . . . . . . .
1.3.3 Mô hình d ch . . . . . . . . . . . . . . .
1.3.3.1 Mô hình d ch d a trên t . . .
1.3.3.2 Mô hình d ch d a trên c m t .
1.3.3.3 Mô hình d ch d a trên cú pháp
1.3.4 Gi i mã . . . . . . . . . . . . . . . . . .
1.3.5 Đánh giá ch t lư ng d ch . . . . . . . . .
v

. . . . . . . . . . . 5
. . . . . . . . . . .
61.1.2 Gióng hàng
. . . . . . . . . . . 9
. . . . . . . . . . .

91.1.2.2 Gióng hàng
. . . . . . . . . . . 10
. . . . . . . . . . . 13
. . . . . . . . . . . 14
. . . . . . . . . . . 16
. . . . . . . . . . . 17
. . . . . . . . . . . 18
. . . . . . . . . . . 20
. . . . . . . . . . . 21
. . . . . . . . . . . 21
. . . . . . . . . . . 22
. . . . . . . . . . . 25
. . . . . . . . . . . 27


1.4

Th o lu n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2 Xây d ng ng li u song ng cho d ch máy th ng kê
2.1 Rút trích văn b n song ng t Web . . . . . . . . . . . . . . . .
2.1.1 Thu th p d li u . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Thi t k các đ c trưng d a vào n i dung . . . . . . . . .
2.1.2.1 S d ng cognate . . . . . . . . . . . . . . . . .
2.1.2.2 S d ng các phân đo n d ch . . . . . . . . . . .
2.1.3 Thi t k các đ c trưng d a vào c u trúc . . . . . . . . .
2.1.4 Mô hình hóa bài toán phân lo i . . . . . . . . . . . . . .
2.2 Rút trích câu song ng t sách đi n t . . . . . . . . . . . . . .
2.2.1 Ti n x lý . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Đo đ tương t . . . . . . . . . . . . . . . . . . . . . . .

2.2.3 Gióng hàng đo n . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Gióng hàng câu . . . . . . . . . . . . . . . . . . . . . . .
2.3 Th c nghi m . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Th c nghi m v rút trích văn b n song ng t Web . . .
2.3.1.1 Cài đ t th c nghi m . . . . . . . . . . . . . . .
2.3.1.2 K t qu th c nghi m . . . . . . . . . . . . . . .
2.3.2 Th c nghi m v rút trích câu song ng t sách đi n t .
2.3.2.1 Cài đ t th c nghi m . . . . . . . . . . . . . . .
2.3.2.2 K t qu th c nghi m . . . . . . . . . . . . . . .
2.3.3 Th c nghi m v b sung ng li u song ng cho d ch máy
2.4 K t lu n chương . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Gióng hàng t cho d ch máy th ng kê
3.1 Cơ s lý thuy t . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Đ nh nghĩa t . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Đ nh nghĩa bài toán gióng hàng t . . . . . . . . . . . . .
3.1.3 Các mô hình IBM . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Thu t toán c c đ i kỳ v ng cho mô hình IBM 1 . . . . . .
3.2 M t s c i ti n mô hình IBM 1 theo cách ti p c n d a trên ràng bu
3.2.1 C i ti n mô hình IBM 1 s d ng ràng bu c neo . . . . . .
3.2.2 C i ti n mô hình IBM 1 s d ng ràng bu c v v trí c a t
3.2.3 C i ti n mô hình IBM 1 s d ng ràng bu c v t lo i . . .
3.2.3.1 Quan h v t lo i . . . . . . . . . . . . . . . . .
3.2.3.2 Ràng bu c v t lo i . . . . . . . . . . . . . . . .
3.2.4 C i ti n mô hình IBM 1 s d ng ràng bu c v c m t
3.2.4.1 M u cú pháp song ng . . . . . . . . . . . . . . .
3.2.4.2 Ràng bu c v c m t
...............
3.2.5 K t h p các ràng bu c . . . . . . . . . . . . . . . . . . . .
3.3 Th c nghi m . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Cài đ t th c nghi m . . . . . . . . . . . . . . . . . . . . .


vi

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

..

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

32
32
34
34
35
37
39
40
41
44
46

46
47
49
49
49
51
53
53
55
56
57

59
. 59
. 59
. 60
. 61
. 61
c 65
. 66
. 69
. 71
. 71
. 71
. 74
. 75
. 75
. 78
. 78
. 78



3.3.2

3.4

K t qu th c nghi m v
trí c a t . . . . . . .
3.3.3 K t qu th c nghi m v
3.3.4 K t qu th c nghi m v
3.3.5 K t qu th c nghi m v
K t lu n chương . . . . . . .

i ràng bu c neo và ràng bu c v v
..............
.. . . . . .
i ràng bu c t lo i . . .
.. . . . . .
i ràng bu c c m t
.. .. . . . . .
k t h p ràng bu c . . .
.. . . . . .
..............
.. . . . . .

4 Xác đ nh c m t song ng cho d ch máy th ng kê
4.1 Bài toán rút trích c m t song ng . . . . . . . . . .
4.2 Phương pháp rút trích c m t song ng
.......
4.2.1 Xác đ nh c m . . . . . . . . . . . . . . . . . .

4.2.2 Tìm c m t đích . . . . . . . . . . . . . . . .
4.2.3 Rút trích c m t . . . . . . . . . . . . . . . .
4.3 Tích h p c m t song ng vào d ch máy . . . . . . .
4.4 Th c nghi m . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Th c nghi m v rút trích c m t song ng . .
4.4.1.1 Cài đ t th c nghi m . . . . . . . . .
4.4.1.2 K t qu th c nghi m . . . . . . . . .
4.4.2 Th c nghi m v tích h p c m t song ng vào
4.4.2.1 Cài đ t th c nghi m . . . . . . . . .
4.4.2.2 K t qu th c nghi m . . . . . . . . .
4.5 K t lu n chương . . . . . . . . . . . . . . . . . . . .
K t lu n

......
......
......
......
......
......
......
......
......
......
d ch máy
......
......
......

.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

81
82

82
83
85
87
87
88
88
89
90
91
93
93
93
93
95
95
96
97
98

Danh m c công trình khoa h c c a tác gi liên quan đ n lu n án

101

Tài li u tham kh o

102

vii



Danh m c các ch vi t t t
EM

Expectation Maximization (C c đ i kỳ v ng)

HTML

HyperText Markup Language (Ngôn ng đánh d u siêu văn b n)

ME

Maximum Entropy (Đ h n lo n c c đ i)

MLE

Maximum Likelihood Estimation (

MT

Machine Translation (D ch máy)

NLP

Natural Language Processing (X lý ngôn ng t nhiên)

POS

Part Of Speech (Nhãn t lo i)


SMT

Statistical Machine Translation (D ch máy th ng kê)

SVM

Support Vector Machine (Máy véc-tơ h tr )

viii

c lư ng kh năng c c đ i)


Danh sách hình v
1.1
1.2
1.3
1.4
1.5
1.6

1.7

1.8
1.9
2.1
2.2
2.3
2.4
3.1

3.2
3.3
3.4

3.5
3.6

Sơ đ t ng quan v rút trích ng li u song ng t Web. . . . . . . Kim t
tháp d ch máy. . . . . . . . . . . . . . . . . . . . . . . . . Mô hình hoá bài
toán d ch máy d a trên phương pháp th ng kê. . Các thành ph n c a
d ch máy th ng kê. . . . . . . . . . . . . . . Quá trình d ch d a trên t .
Câu đ u vào ti ng Anh đư c d ch t ng
t sang ti ng Vi t, sau đó s p x p l i tr t t t . . . . . . . . . . .
D ch d a trên c m t . Câu đ u vào đư c tách ra thành các c m t ,
d ch m t-m t các c m t ti ng Anh sang ti ng Vi t và có th s p x p l i tr
t t các c m t . . . . . . . . . . . . . . . . . . . . . . .
Quá trình d ch d a trên cú pháp theo cách ti p c n d ch t chu i
sang cây cú pháp, g m 3 bư c: (1) chuy n đ i tr t t t , (2) chèn và (3)
d ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quá trình d ch đư c th c hi n t trái sang ph i và m r ng không
gian gi thuy t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minh h a quá trình gi i mã câu đ u vào f = "He does not go home"
t ti ng Anh sang ti ng Vi t. . . . . . . . . . . . . . . . . . . . .

.8 .
15 .
17 .
18

Sơ đ c a h th ng rút trích văn b n song ng t Web. . . . . . . Sơ đ mô

t quá trình gióng hàng đo n/câu cho sách đi n t song
ng Anh - Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ví d v các đi m neo. . . . . . . . . . . . . . . . . . . . . . . . . Đ nh d ng d li
u hu n luy n phù h p cho vi c s d ng công c
LIBSVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. 33

Ví d v gióng hàng t gi a m t c p câu song ng Anh - Vi t. . . Minh h
a quá trình gióng hàng t theo thu t toán EM. . . . . . . Ví d v ràng bu
c neo (ô màu đen), gán xác su t gióng hàng b ng
không cho t t c các c p t khác (ô màu xám). . . . . . . . . . .
Ví d v ràng bu c v v trí c a t v i ngư ng δ = 2, m i v trí đích
j (ô màu đen) ch gióng hàng v i các v trí ngu n trong ph m vi [j − δ, j
+ δ] (ô màu xám). . . . . . . . . . . . . . . . . . . . . . .
Ví d v ràng bu c t lo i (ch m tròn đen), gán xác su t d ch b ng
0 cho t t c các c p t khác (ô màu xám). . . . . . . . . . . . . .
Ví d v gióng hàng t gi a m t c p câu Anh - Vi t (các ch m tròn
đen), các t ti ng Anh và ti ng Vi t đư c li t kê tương ng theo chi u d c
và chi u ngang. Các ô màu xám th hi n ràng bu c v c mt . . . . . . . .
.........................
ix

. 21

. 22

. 24
. 25
. 26


.
42 .
45
. 51
.
60 .
65
. 66

. 69
. 72

. 77


4.1
4.2

Ví d v các c m t song ng trong m t câu song ng Anh - Vi t,
các t in đ m ch ra các c m t . . . . . . . . . . . . . . . . . . . . . 88
Tương quan gi a ngư ng θ và s lư ng c m t song ng . . . . . . . 95

x


Danh sách b ng
1.1
1.2
2.1

2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
3.1
3.2
3.3
3.4
3.5
3.6

Ví d v m t văn b n song ng Anh - Vi t. . . . . . . . . . . . . .
Ng li u Europarl: g m 10 c p ngôn ng trong đó m t ngôn ng là
ti ng Anh. Ký hi u L1 là ngôn ng ngu n, L2 là ngôn ng đích. . .
Ví d v hai văn b n có ch a các cognate tương ng gi a ti ng Anh
và ti ng Vi t (các t in nghiêng). . . . . . . . . . . . . . . . . . . .
T ng h p các đ c trưng. . . . . . . . . . . . . . . . . . . . . . . . .
Ví d v gióng hàng câu trong m t đo n văn b n song ng Anh Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ví d minh h a ranh gi i đo n b m t (trong quá trình chuy n đ i

đ nh d ng t PDF sang Text) và đư c ph c h i. . . . . . . . . . . .
Các URL t ba web-site: BBC, VOA News và VietnamPlus. . . . . T ng
h p s trang web đư c t i v và s c p ng viên. . . . . . . . K t qu th c nghi
m theo phương pháp c a Resnik. . . . . . . . . . K t qu th c nghi m theo
phương pháp c a Ma. . . . . . . . . . . K t qu th c nghi m
3. . . . . . . . . . . . . . . . . . . . . . . . . K t qu th c nghi m 4. . . . . . . . . .
...............
Thông tin chi ti t v sách đi n t song ng Anh - Vi t đư c s d ng
trong th c nghi m. . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu gióng hàng đo n v i 200 m u. . . . . . . . . . . . . . . . . Các ki u
quan h gi a các câu song ng trong 40 đo n song ng . . . K t qu th c
nghi m v gióng hàng câu. . . . . . . . . . . . . . . . M t s th ng kê c a ng
li u. . . . . . . . . . . . . . . . . . . . . . Th ng kê các thông s c a ng li u và
ch t lư ng d ch c a h th ng.
M t s quan h v POS gi a ti ng Anh và ti ng Vi t theo xác su t.
13 m u cú pháp song ng Anh - Vi t đư c s d ng trong ràng bu c
v c mt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Th ng kê ng li u song ng Anh - Vi t đư c s d ng đ xây d ng
mô hình d ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Th ng kê s l n đ ng xu t hi n c a 13 m u cú pháp song ng AnhVi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th c nghi m v i mô hình IBM g c, Giza++ và s d ng
ràng bu c neo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th c nghi m v i mô hình IBM g c, Giza++ và s d ng
ràng bu c v v trí c a t . . . . . . . . . . . . . . . . . . . . . . . .
xi

6
7
36
41

43
44
50
50
52
52
52
53
54
55
55
56
56
57
72
76
79
80
81
81


3.7

K t qu
ràng bu
3.8 K t qu
ràng bu
3.9 K t qu
ràng bu

3.10 So sánh
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8

th c nghi m v i mô hình IBM g c, Giza++ và s d ng
c v t lo i. . . . . . . . . . . . . . . . . . . . . . . . . . .
th c nghi m v i mô hình IBM g c, Giza++ và s d ng
cv c mt . . . . . . . . . . . . . . . . . . . . . . . . . . .
th c nghi m v i mô hình IBM g c, Giza++ và k t h p
c (v trí c a t v i t lo i). . . . . . . . . . . . . . . . . . .
v i m t s nghiên c u g n đây v gióng hàng t cho SMT.

M t s ví d v m u cú pháp và c m t tương ng trong ti ng Anh. Ví d v m
t s c m t song ng đư c s d ng trong th c nghi m. 10 m u cú pháp
song ng Anh - Vi t đư c s d ng đ xác đ nh
c m t cho SMT. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th nghi m s d ng m t s giá tr c a ngư ng θ. . . . . . .
K t qu th c nghi m v i phương pháp c a chúng tôi và phương
pháp so kh p m u cú pháp hai phía. . . . . . . . . . . . . . . . .
Th ng kê các thông s c a ng li u 200.000 câu song ng Anh Vi t đư c s d ng trong th c nghi m. . . . . . . . . . . . . . . . .
Th ng kê v s lư ng c m t song ng Anh - Vi t đư c s d ng
trong th c nghi m. . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th nghi m khi tích h p các c m t song ng vào h th ng
SMT Anh - Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .


xii

82
83
83
85
89
92
94
94
95
96
96
97


M đu
1. Tính c p thi t c a lu n án
Ý tư ng v d ch máy ra đ i t năm 1949 [60]. T đó đ n nay, sau hơn 60 năm
nghiên c u và phát tri n, các d ch v d ch máy bây gi đã tr nên ph bi n r ng rãi. Hi n
nay, có m t s h th ng d ch máy thương m i đã đư c s d ng ph bi n trên th gi i như
Systrans1, Kant2 hay nh ng h th ng d ch máy m , tiêu bi u như Google3 h tr hơn
50 c p ngôn ng như Anh - Pháp, Anh - Trung, Anh
- Vi t, vv.

Vi t Nam, d ch máy đã tr thành ch đ đư c m t s nhóm t p

trung nghiên c u. Trong s đó, có m t s s n ph m như ph n m m d ch t đ ng
EVTRAN - m t h th ng d ch Anh - Vi t hay h th ng d ch t đ ng Anh - Vi t c a Công

ty c ph n tin h c L c Vi t 4, vv. Các cách ti p c n cho bài toán d ch máy g m có: d ch
tr c ti p, d ch d a trên chuy n đ i, d ch liên ng , d ch d a trên ví d và d ch th ng kê.
Hi n nay, d ch máy d a trên cách ti p c n th ng kê đang là m t hư ng phát tri n đ y ti
m năng b i nh ng ưu đi m vư t tr i so v i các cách ti p c n khác.
Đ i v i m t h th ng d ch máy th ng kê, ch t lư ng d ch t l thu n v i s
lư ng và ch t lư ng c a ng li u song ng đư c s d ng đ xây d ng h th ng d ch. Tuy
nhiên, ng li u song ng hi n v n còn h n ch c v kích thư c l n ch t lư ng, ngay c đ i v i
các ngôn ng chính. Ngoài ra, đ i v i các c p ngôn ng có nhi u khác bi t v c u trúc
ng pháp (ví d , Anh - Vi t), v n đ v ch t lư ng d ch đang là thách th c đ i v i các nhà
nghiên c u v d ch máy trong nhi u năm qua. Vì v y, các nghiên c u nh m khai thác
thêm ng li u song ng và phát tri n các phương pháp hi u qu hơn d a trên ng li u hi
n có đ tăng ch t lư ng d ch cho d ch máy th ng kê là nh ng v n đ c p thi t và mang
tính th i s trong lĩnh v c x lý ngôn ng t nhiên hi n nay. Đi u này là đ ng l c đ chúng
tôi l a ch n nghiên c u v đ tài "Khai phá tri th c song ng và ng d ng trong d ch
máy Anh - Vi t".

2. M c tiêu c a lu n án
Trong lu n án này, chúng tôi đ t ra hai m c tiêu chính:
1

/> />3

4
/>2

1


• Th nh t, nghiên c u đ xu t m t s phương pháp đ khai thác tri th c
song ng nh m b sung ngu n ng li u cho d ch máy th ng kê.


• Th hai, nghiên c u đ xu t m t s phương pháp đ làm tăng ch t lư ng
d ch cho d ch máy th ng kê d a trên ng li u hi n có.

3. Đóng góp c a lu n án

• Đ xu t m t s phương pháp đ xây d ng ng li u song ng cho d ch máy
th ng kê t Web và sách đi n t song ng . Đ i v i ngu n t Web, chúng
tôi đ xu t hai phương pháp thi t k các đ c trưng d a trên n i dung: s
d ng cognate và s d ng các phân đo n d ch. Đ i v i ngu n t sách đi n t ,
chúng tôi đ xu t phương pháp d a trên n i dung, s d ng m t s m u liên k t gi a
các kh i văn b n trong hai ngôn ng đ rút trích các câu song
ng . Đóng góp này đã đư c công b

k y u h i th o qu c t Knowledge

and Systems Engineering (KSE) năm 2010 (công trình s [1]) và năm 2013
(công trình s [4]); k y u h i th o qu c gia l n th XVI "M t s v n đ ch n l c c a
Công ngh thông tin và Truy n thông" năm 2013 (công trình s [6]); t p chí
khoa h c Trư ng Đ i h c Quy Nhơn năm 2014 (công trình s [7]).

• Đ xu t m t s c i ti n đ i v i mô hình gióng hàng IBM theo cách ti p
c n d a trên ràng bu c, bao g m: ràng bu c neo, ràng bu c v v trí c a t , ràng
bu c v t lo i và ràng bu c v c m t . V i m i ràng bu c, chúng tôi đưa ra phương
pháp t ng quát đ tích h p nó vào thu t toán EM trong quá trình ư c lư ng tham
s c a mô hình. Ngoài ra, chúng tôi đưa ra m t phương pháp đ k t h p các
ràng bu c. Nh ng c i ti n này đã giúp nâng cao ch t lư ng d ch cho h th ng d
ch máy th ng kê Anh - Vi t. Đóng góp
này đã đư c công b


k y u h i th o qu c t International Conference on

Asian Language Processing (IALP) năm 2012 (công trình s [2]); k y u h i th o
qu c gia l n th XV "M t s v n đ ch n l c c a Công ngh thông tin và Truy n
thông" năm 2012 (công trình s [3]); t p chí The International Journal of
Knowledge and Systems Science (IJKSS) năm 2014 (công trình s [8]).

• Đ xu t phương pháp xác đ nh c m t song ng cho d ch máy th ng kê.
Chúng tôi s

d ng các m u cú pháp k t h p v i gióng hàng c m t
2

đ


xác đ nh c m t song ng . Các c m t song ng này đã đư c ng d ng
vào vi c nâng cao ch t lư ng d ch cho h th ng d ch máy th ng kê Anh Vi t. Đóng góp này đã đư c công b

k y u h i th o qu c t Computing

and Communication Technologies, Research, Innovation, and Vision for the
Future (RIVF) năm 2013 (công trình s [5]).

Các n i dung và k t qu nghiên c u trình bày trong lu n án (t Chương 2 đ n
Chương 4) đã đư c công b trong 8 công trình. Trong đó, 1 bài báo

t p chí qu c

t có ph n bi n, đư c xu t b n b i IGI Global; 4 báo cáo trong k y u c a h i ngh qu c t

có ph n bi n, đư c xu t b n b i IEEE và Springer; 2 báo cáo trong
k y u c a h i th o qu c gia có ph n bi n và 1 bài báo
ph n bi n.

3

t p chí trong nư c có


4. B c c c a lu n án
Ngoài ph n m đ u và k t lu n, lu n án đư c t ch c thành 4 chương, v i b c c
như sau:

• Chương 1. Gi i thi u t ng quan v các v n đ nghiên c u trong lu n án.
Chúng tôi phân tích, đánh giá các công trình nghiên c u liên quan; nêu ra m t
s v n đ còn t n t i mà lu n án s t p trung gi i quy t; xác đ nh n i dung nghiên
c u c a lu n án.

• Chương 2. Trình bày n i dung, k t qu nghiên c u v xây d ng ng li u
song ng cho d ch máy th ng kê.

• Chương 3. Trình bày n i dung, k t qu nghiên c u v m t s c i ti n mô
hình IBM đ gióng hàng t cho d ch máy th ng kê.

• Chương 4. Trình bày n i dung, k t qu nghiên c u v xác đ nh c m t
song ng cho d ch máy th ng kê.

4



Chương 1
T ng quan
Chương này trình bày t ng quan v các v n đ nghiên c u trong lu n án, bao
g m: khai phá tri th c song ng , sơ lư c v d ch máy (Machine Translation - MT) và d
ch máy th ng kê (Statistical Machine Translation - SMT). Ti p đ n, chúng tôi phân
tích, đánh giá các công trình nghiên c u liên quan. Cu i chương, chúng tôi nêu ra
m t s v n đ còn t n t i mà lu n án s t p trung gi i quy t và xác đ nh n i dung nghiên
c u c a lu n án.

1.1

Khai phá tri th c song ng

Nhi m v c a khai phá tri th c song ng (mining parallel knowledge) là t đ ng
tìm ra các thành ph n có ng nghĩa tương ng trong các văn b n

hai ngôn ng

khác nhau. Tri th c song ng g m nhi u khía c nh: song ng v t , song ng v c m t ,
song ng v c u trúc, vv. Vi c khai phá tri th c song ng là quá trình
chu n b và khai phá d li u cho m t s

ng d ng quan tr ng trong lĩnh v c x

lý ngôn ng t nhiên (Natural Language Processing - NLP), trong đó có SMT. Trong
lu n án này, chúng tôi gi i h n vi c khai phá tri th c song ng cho bài toán SMT. Sau
đây, chúng tôi s trình bày t ng quan v xây d ng ng li u song ng , gióng hàng văn b
n và xác đ nh c m t song ng .

5



B ng 1.1: Ví d v m t văn b n song ng Anh - Vi t.

Văn b n ti ng Anh
In the early summer of 2004, I got
a phone call from Steve Jobs. He
had been scattershot friendly to me
over the years, with occasional bursts of
intensity, especially when he was
launching a new product that he
wanted on the cover of Time or
featured on CNN, places where I'd
worked.
But now that I was no longer at either of those places, I hadn't heard
from him much. We talked a bit
about the Aspen Institute, which I
had recently joined, and I invited him to
speak at our summer campus in
Colorado. He'd be happy to come, he
said, but not to be onstage. He
wanted instead to take a walk so that
we could talk.
I had known him since 1984, when
he came to Manhattan to have lunch
with Time's editors and extol his new
Macintosh. He was petulant even
then, attacking a Time correspondent for having wounded him with a
story that was too revealing.


1.1.1

Văn b n ti ng Vi t
Đ u mùa hè năm 2004, tôi nh n đư c m t
cu c g i t Steve Jobs. Jobs ch liên l c v i
tôi khi có vi c c n trong nhi u năm qua, và
có lúc tôi b ông kh ng b đi n tho i, đ c bi t
là khi chu n b ra m t m t s n ph m m i và
mu n nó n m ngay trên trang bìa c a t p
chí Time ho c trình chi u trên CNN, nơi
tôi làm vi c.
Nhưng gi tôi không ch ng còn làm c hai
nơi đó n a và cũng không nghe tin v ông
nhi u. Chúng tôi đã trao đ i qua v h c vi
n Aspen, nơi tôi m i vào làm lúc đó, và
tôi đã m i ông đ n phát bi u t i tr i hè c a
chúng tôi Colorado, ông vui v nh n l i đ
n tham d nhưng s không lên phát bi u,
thay vào đó chúng tôi s nói chuy n trong
khi đi d o.
Tôi quen ông t năm 1984, khi ông đ n
Manhattan đ ăn trưa cùng v i nh ng biên
t p viên c a t p chí Time và nhân ti n gi i
thi u luôn chi c máy Macintosh (Mac) m i
c a mình. Th m chí lúc đó ông đã n i
nóng, và t n công m t phóng viên c a t p
chí Time vì đã làm ông t n thương b ng m
t câu chuy n quá l .

Xây d ng ng li u song ng


Ng li u song ng (parallel corpus ho c parallel corpora 1) là t p h p các văn b n
song ng , B ng 1.1 trình bày ví d v m t văn b n song ng Anh - Vi t. Theo
Westerhout [89], trư ng h p đơn gi n nh t ng li u ch g m hai ngôn ng , ví d :
ng li u Compara [34]. M t s ng li u song ng g m nhi u ngôn ng , ví d : ng
li u Europarl [59] bao g m các phiên b n c a 11 ngôn ng châu Âu (trong đó m t
ngôn ng là ti ng Anh) như mô t trong B ng 1.2.
Ng li u song ng t n t i theo m t s đ nh d ng khác nhau. Nó có th là văn
b n song ng

d ng thô ho c đã đư c gióng hàng (alignment). Văn b n song ng

có th đư c gióng hàng

m c đo n, m c câu, m c c m t ho c m c t [15]. Vi c

1

ti ng Anh, corpora là hình th c s nhi u c a corpus.
Trong

6


B ng 1.2: Ng li u Europarl: g m 10 c p ngôn ng trong đó m t ngôn ng là
ti ng Anh. Ký hi u L1 là ngôn ng ngu n, L2 là ngôn ng đích.

Ng li u (L1-L2)
Đan M ch - Anh
Đ c - Anh

Hy L p - Anh
Tây Ban Nha - Anh
Ph n Lan - Anh
Pháp - Anh

S câu S t trong L1
1.684.664
43.692.760
1.581.107
41.587.670
960.356
1.689.850
48.860.242
1.646.143
32.355.142
1.723.705
51.708.806

Ý - Anh
Hà Lan - Anh
B Đào Nha - Anh
Th y Đi n - Anh

1.635.140
1.715.710
1.681.991
1.570.411

S t trong L 2
46.282.519

43.848.958
27.468.389
46.843.295
45.136.552
47.915.991

46.380.851
47.477.378
47.621.552
38.537.243

47.236.441
47.166.762
47.000.805
42.810.628

gióng hàng các văn b n song ng r t h u ích cho các ng d ng khác nhau trong
NLP. Các h th ng SMT [10] s d ng câu song ng làm đ u vào cho mô-đun gióng
hàng t đ th c hi n tính toán xác su t d ch t . Các h th ng truy v n thông tin liên ng
[25, 90, 118] s d ng văn b n song ng đ xác đ nh thông tin tương ng
trong c hai giai đo n h i và đáp. Ngoài ra, vi c rút trích các thành ph n ng
nghĩa tương đương c a các văn b n song ng như t , c m t và câu r t h u ích cho vi c
xây d ng t đi n song ng [65, 78]. Trong lu n án này, chúng tôi gi i h n vi c xây d ng
ng li u song ng cho SMT.
Ngày nay, cùng v i s phát tri n c a Internet, Web là ngu n cơ s d li u
kh ng l ch a các tài li u đa ngôn ng (multi-language), ngu n d li u này đư c s d ng
cho các ng d ng x lý văn b n song ng . Vì lý do này, nhi u nghiên c u t p trung vào
vi c rút trích d li u song ng t đ ng t Web. V cơ b n, chúng tôi có th phân lo i các
nghiên c u này vào ba nhóm: (i) d a trên n i dung (content - based) [16, 24, 76], (ii)
d a trên c u trúc (structure - based) [17, 97, 100] và (iii)

k t h p (i) v i (ii) [101, 128]. Hình 1.1 trình bày sơ đ t ng quan v rút trích ng li u
song ng t Web.
Cách ti p c n d a trên n i dung thư ng dùng t đi n song ng đ đo đ tương
t v n i dung c a hai văn b n. Khi t đi n song ng có s n, tài li u

ngôn ng

ngu n đư c d ch theo t ng t (word by word) ra ngôn ng đích. Các tài li u d ch này
sau đó đư c s d ng đ tìm tài li u song ng phù h p nh t b ng cách s d ng
các đo đ như Cosine, Jaccard, Dice, vv [55]. Tuy nhiên, s d ng t đi n song ng có
th ph i đ i m t v i khó khăn vì m t t thư ng có nhi u b n d ch c a nó. Đ
7


Hình 1.1: Sơ đ t ng quan v rút trích ng li u song ng t Web.

kh c ph c h n ch này, chúng tôi s d ng m t h th ng SMT đ có th t n d ng
nh ng l i th c a phương pháp d ch th ng kê trong vi c gi i quy t các v n đ v nh p nh
ng t v ng.
Cách ti p c n d a trên c u trúc so kh p c u trúc HTML (HyperText Markup
Language) c a trang web. Cách ti p c n này s d ng gi thuy t các trang web song ng
đư c trình bày v i c u trúc tương t nhau. H th ng STRAND c a Resnik [101] là đ i
di n tiêu bi u cho cách ti p c n này. Đ tương t c a các trang web đư c tính d a vào c
u trúc HTML c a chúng. Lưu ý r ng, các phương pháp d a trên cách ti p c n này
không đòi h i tri th c v ngôn ng và khá hi u qu trong vi c lo i ra các c p tài li u
không ph i song ng . Tuy nhiên, nó có h n ch là yêu c u hai trang web song ng ph i
có cùng m t cách trình bày. Theo quan sát c a chúng tôi, nhi u trang web s d ng
cùng m t m u thi t k web, vì th c u trúc c a các trang tương t nhưng n i dung c a
chúng l i khác nhau. Do đó, phương pháp ti p c n d a trên c u trúc HTML không đư
c áp d ng trong m t s trư ng h p. chúng tôi đã k t h p các đ c trưng d a trên n i

dung v i các đ c trưng d a trên c u trúc c a trang web đ rút trích các văn b n song
ng . Đ tăng đ chính xác trong vi c rút trích các văn b n song ng t Web, chúng tôi k
t h p c đ c trưng v c u trúc và đ c trưng v n i dung2.
2

Chi ti t chúng tôi trình bày trong Chương 2, ph n 2.1

8


Hi n t i, có ít nghiên c u v v n đ này liên quan đ n c p ngôn ng Anh Vi t. Hai tác gi Đ ng Bác Văn và H B o Qu c [24] xây d ng ng li u song ng
Anh - Vi t d a trên vi c so kh p n i dung. Trư c h t, các c p trang web ng viên đư c
xác đ nh b ng cách s d ng các đ c trưng v đ dài câu và ngày t o trang web. Sau
đó, các tác gi đo đ tương t v n i dung s d ng t đi n song ng Anh - Vi t đ quy t đ nh
hai trang web có ph i là song ng hay không. Quá trình này đư c th c hi n d a trên
m t s ngư ng c a đ đo này. Chú ý r ng, phương pháp trong [24] ch tìm ki m các
trang web song ng có ch t lư ng d ch t t và các trang song ng này có cùng ki u
trình bày. Hơn n a, s d ng t đi n đ d ch theo t ng
t có th gây ra s nh p nh ng. Vì th , cách ti p c n này khó đ m r ng khi d li u tăng
lên ho c các trang song ng có ki u trình bày khác nhau.
Như chúng tôi đã đ c p

trên, Web là ngu n cơ s d li u kh ng l ch a các

tài li u đa ngôn ng . Tuy nhiên, đ có đư c ng li u song ng v i đ chính xác cao v n
đang là m t thách th c, b i vì các văn b n đư c trình bày trên Internet thư ng b "nhi
u". Trong khi đó, nhi u sách đi n t song ng (s n có) ch a m t s lư ng l n các văn b n
song ng đư c d ch c n th n. Đây là ngu n d li u r t ti m năng đ b sung ng li u song
ng cho SMT, đ c bi t đ i v i các c p ngôn ng còn h n ch v ng li u song ng như Anh
- Vi t, Nh t - Vi t, vv. Hi n t i, các ng li u song ng có s n không nh ng có kích thư c

tương đ i nh mà còn không cân b ng ngay c đ i v i các ngôn ng chính [24], đi u này
nh hư ng đ n ch t lư ng c a các h th ng SMT.

1.1.2

Gióng hàng văn b n

Trong x lý văn b n song ng , gióng hàng là bài toán quan tr ng nh t, t c là phát
hi n s tương ng gi a các đơn v trong hai văn b n
[4]. Gióng hàng có th đư c th c hi n
lu n án này, chúng tôi gi i h n

các ngôn ng khác nhau

m c đo n, câu, c m t ho c t . Trong

ba m c gióng hàng, c th là: gióng hàng đo n

và gióng hàng câu đ xây d ng ng li u và gióng hàng t cho SMT.

1.1.2.1

Gióng hàng đo n/câu

V cơ b n, gióng hàng đo n và gióng hàng câu có cách ti p c n tương t nhau. Đ
tăng đ chính xác, chúng ta có th gióng hàng đo n trư c r i sau đó gióng hàng câu.
Vi c gióng hàng đo n đ c bi t quan tr ng khi các văn b n c n gióng hàng có
9



kích thư c l n, ví d như sách đi n t . Nhi m v c a gióng hàng đo n/câu là liên
k t các đo n/câu trong m t văn b n

ngôn ng này (ngôn ng ngu n) v i các

đo n/câu là b n d ch tương ng c a nó trong m t văn b n

ngôn ng khác (ngôn

ng đích) [21]. Các phương pháp khác nhau đã đư c đ xu t cho vi c xác đ nh gióng
hàng đo n/câu gi a các văn b n song ng [41, 98, 114]. Theo quan đi m c a chúng
tôi, nh ng phương pháp này có th đư c chia thành hai cách ti p c n chính: (i) d a
trên th ng kê (statistics - based) [11, 35] và (ii) d a trên tri th c ngôn ng (linguistic
knowledge - based) [18, 80].
Cách ti p c n th nh t (i) khai thác các m i tương quan v đ dài c a các
kh i văn b n (đo n ho c câu) trong các ngôn ng khác nhau và c g ng thi t l p
s tương ng gi a các kh i văn b n này theo kích thư c [37].

đây, kích thư c

có th đư c đo b i s t ho c s ký t . Gale và c ng s [35] đã s d ng mô hình
th ng kê đơn gi n theo đ dài v i kích thư c là s t đ gióng hàng câu cho ng
li u song ng . Trong mô hình này, m i c p câu đư c gán m t xác su t. Xác su t này
đư c s d ng đ tìm kh năng liên k t c c đ i c a các câu (d a trên k thu t quy ho ch đ
ng). Tuy nhiên, các văn b n thư ng đư c đ nh d ng l i trong quá trình d ch thu t. Vì v
y, nó không ch ch a các liên k t 1-1, t c là m t đo n/câu
trong văn b n
văn b n

ngôn ng ngu n có th liên k t v i hai ho c nhi u đo n/câu trong


ngôn ng đích và ngư c l i. Trong trư ng h p này, phương pháp th ng

kê d a vào c u trúc như t ho c ký t có th không th c hi n t t.
Cách ti p c n th hai (ii) s d ng d li u ngôn ng (thư ng là t đi n) đ
thi t l p s tương ng gi a các kh i văn b n. Li và c ng s [68] đ xu t thu t toán FastChampollion, trong đó s d ng t đi n song ng cho vi c gióng hàng câu. V i thu t toán
này, đ chính xác (precision) và đ bao ph (recall) ph thu c
vào kích thư c c a t đi n đư c s d ng. Ngoài ra, làm th nào đ xây d ng t
đi n song ng t đ ng là m t v n đ quan tr ng đ i v i vi c áp d ng thu t toán FastChampollion trên các c p ngôn ng không có s n t đi n3.

1.1.2.2

Gióng hàng t

Gióng hàng t (word alignment) là m t nhi m v xác đ nh s tương ng gi a các
t trong m t văn b n song ng [72]. Đây là bư c đ u tiên trong h u h t các cách ti p c n
hi n t i c a SMT. Ayan [4] đã ch ra r ng, ch t lư ng c a gióng hàng t đóng vai trò r t
quan tr ng cho s thành công c a m t h th ng SMT. Các
đây, chúng tôi mu n nói đ n t đi n song ng đi n t .
3

10


phương pháp khác nhau đã đư c đ xu t đ xác đ nh gióng hàng t trong các
văn b n song ng . Nói chung, các phương pháp gióng hàng t có th đư c phân chia
thành hai lo i: (i) cách ti p c n d a trên mô hình phân bi t (discriminative model) và
(ii) cách ti p c n d a trên mô hình sinh (generative model).
Cách ti p c n th nh t (i) d a vào quá trình hu n luy n trên m t t p các đ c
trưng, đi n hình là các nghiên c u c a Moore [83] và Liu [72]. Cách ti p c n này có

ưu đi m là linh ho t trong vi c k t h p các đ c trưng m i [77]. Tuy nhiên, h n ch c a
cách ti p c n này là d li u hu n luy n c n ph i đư c gán nhãn; công vi c này đòi h i
nhi u th i gian, chi phí đ th c hi n và nó không s n có v i h u h t các c p ngôn ng
[74]. Ngoài ra, r t khó khăn đ ch n d li u đ i di n cho vi c hu n luy n đ đ m b o r ng
các mô hình s ho t đ ng t t trên d li u không quan sát đư c, đ c bi t khi d li u song
ng đ n t nhi u ngu n thu c nhi u lĩnh v c khác nhau [72].
Cách ti p c n th hai (ii) thư ng s d ng mô hình sinh, trong đó các mô hình
IBM c a Brown và c ng s [12] đư c s d ng r ng rãi nh t. Thu t toán c c đ i kỳ v ng
(Expectation Maximization - EM) [27] đư c s d ng đ ư c lư ng xác su t c a mô hình
gióng hàng trên ng li u song ng . Các mô hình này v cơ b n là đ c l p v i ngôn ng
và các tham s c a nó đư c ư c lư ng t ng li u v i t i thi u vi c ti n x lý [111]. Tuy
nhiên, ch t lư ng c a gióng hàng thư ng khá th p đ i v i các c p ngôn ng có nhi u
khác bi t v c u trúc cú pháp như Anh - Vi t, Anh - Trung, vv. Vì v y, s d ng thêm
các ngu n tri th c bên ngoài như thông tin v t v ng, thông tin v cú pháp là th t s c
n thi t đ c i thi n ch t lư ng c a gióng hàng.
Trong các nghiên c u trư c đây, các mô hình IBM đư c c i ti n v i nhi u
phương pháp khác nhau. Varea và c ng s

[115] s

d ng mô hình Maximum

Entropy (ME) ph thu c ng c nh đ ch a nhi u hơn các ph thu c. T c là, m t ng c nh l
n hơn đư c s d ng trong mô hình d ch thay vì ch s d ng xác su t d ch t . M t c i ti n
khác đ i v i các mô hình IBM d a trên mô hình t v ng đ i x ng đư c đ xu t b i Zens
và c ng s [125]. H áp d ng phương pháp n i suy tuy n tính (linear interpolation) đ
tính xác su t theo hai hư ng (hư ng d ch chu n t ngôn ng ngu n sang ngôn ng đích
và hư ng d ch ngư c l i). Ngoài
ra, các tác gi đã mô t quá trình làm trơn (smoothing) t v ng b ng cách s
d ng hình th c t g c (word base form). Đ c bi t cho các ngôn ng bi n cách cao

(inflected language) như ti ng Đ c, đi u này d n đ n nh ng c i ti n đáng k v m t th ng
kê. Moore [82] đã kh o sát ba phương pháp đơn gi n đ c i ti n mô
11


×