ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ QUANG HÙNG
KHAI PHÁ TRI THỨC
SONG NGỮ VÀ ỨNG DỤNG
TRONG DỊCH MÁY ANH - VIỆT
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2016
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ QUANG HÙNG
KHAI PHÁ TRI THỨC
SONG NGỮ VÀ ỨNG DỤNG
TRONG DỊCH MÁY ANH - VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Anh Cường
2. PGS.TS. Huỳnh Văn Nam
Hà Nội - 2016
L i cam đoan
Tôi xin cam đoan lu n án này là k t qu nghiên c u c a tôi, đư c th c hi n dư i
s hư ng d n c a PGS.TS. Lê Anh Cư ng và PGS.TS. Huỳnh Văn Nam. Các n i dung
trích d n t các nghiên c u c a các tác gi khác mà tôi trình bày trong lu n án này đã
đư c ghi rõ ngu n trong ph n tài li u tham kh o.
Lê Quang Hùng
i
Tóm t t
Nhi m v c a m t h th ng d ch máy là t đ ng d ch m t văn b n t ngôn ng
này (ví d , ti ng Anh) sang m t văn b n tương đương
ngôn ng khác (ví d ,
ti ng Vi t). Tính h u ích c a công ngh d ch máy tăng lên cùng v i ch t lư ng c a nó.
D ch máy có nhi u ng d ng như: (i) d ch tài li u ti ng nư c ngoài cho
m c đích hi u n i dung, (ii) d ch văn b n đ xu t b n
các ngôn ng khác và (iii)
thông tin liên l c, ch ng h n như d ch email, chat, vv.
Có m t s cách ti p c n cho bài toán d ch máy như d ch tr c ti p (direct
translation), d ch d a trên chuy n đ i (transfer - based translation), d ch liên ng
(interlingua translation), d ch d a trên ví d (example - based translation) và d ch th
ng kê (statistical translation). Hi n t i, d ch máy d a trên cách ti p c n th ng kê đang
là m t hư ng phát tri n đ y ti m năng b i nh ng ưu đi m vư t tr i so v i các cách ti p c
n khác. Thay vì xây d ng các t đi n, các quy lu t chuy n đ i b ng tay, d ch máy th ng
kê t đ ng xây d ng các t đi n, các quy lu t d a trên k t qu th ng kê có đư c t ng li u.
Đ i v i m t h th ng d ch máy th ng kê, hi u qu (ch t lư ng d ch) c a nó t l thu n v i s
lư ng (kích thư c) và ch t lư ng c a ng li u song ng đư c s d ng đ xây d ng h th ng
d ch. Tuy nhiên, ng li u song ng s n có hi n v n còn h n ch c v kích thư c l n ch t
lư ng, ngay c đ i v i các c p ngôn ng chính. Ngoài ra, đ i v i các c p ngôn ng có nhi
u khác bi t v c u trúc ng pháp (ví d , Anh - Vi t), v n đ v ch t lư ng d ch đang là
thách th c đ i v i các nhà nghiên c u v d ch máy trong nhi u năm qua. Vì v y, vi c b
sung thêm ng li u song ng và phát tri n các phương pháp hi u qu hơn d a trên ng
li u hi n có là nh ng gi i pháp quan tr ng đ tăng ch t lư ng d ch cho d ch máy th ng
kê.
Lu n án c a chúng tôi t p trung gi i quy t các t n t i đã nêu thông qua ba
bài toán: phát tri n phương pháp xây d ng ng li u song ng , c i ti n các phương
pháp gióng hàng t và xác đ nh c m t song ng cho d ch máy th ng kê, c th
như sau:
Th nh t, đ i v i bài toán xây d ng ng li u song ng , chúng tôi khai thác t
hai ngu n: Web và sách đi n t song ng . Đ i v i ngu n t Web, chúng tôi t p trung
vào rút trích các văn b n song ng t các web-site song ng . Chúng tôi đ xu t hai
phương pháp thi t k các đ c trưng d a trên n i dung: s d ng các t
b t bi n gi a hai ngôn ng (cognate) và s d ng các phân đo n d ch. Ngoài ra,
chúng tôi k t h p các đ c trưng d a trên n i dung v i các đ c trưng d a trên c u
trúc c a trang web đ rút trích các văn b n song ng , b ng cách s d ng phương pháp
h c máy. Đ i v i ngu n t sách đi n t , chúng tôi đ xu t phương pháp d a trên n i
dung, s d ng m t s m u liên k t gi a các kh i văn b n trong hai ngôn ng đ rút trích
các câu song ng .
Th hai, v i bài toán gióng hàng t , chúng tôi đ xu t m t s c i ti n đ i v i
mô hình IBM 1 theo cách ti p c n d a trên ràng bu c, bao g m: ràng bu c neo, ràng
bu c v v trí c a t , ràng bu c v t lo i và ràng bu c v c m t . V i m i ràng bu c, chúng
tôi đưa ra phương pháp t ng quát đ tích h p nó vào thu t toán c c đ i kỳ v ng trong
quá trình ư c lư ng tham s c a mô hình. Ngoài ra, chúng tôi đưa ra m t phương
pháp đ k t h p các ràng bu c. Nh ng c i ti n này đã giúp nâng cao ch t lư ng d ch
cho h th ng d ch máy th ng kê Anh - Vi t.
Th ba, đ i v i bài toán xác đ nh c m t song ng cho d ch máy th ng kê,
chúng tôi đ xu t phương pháp rút trích c m t song ng t ng li u song ng ,
s d ng các m u cú pháp k t h p v i gióng hàng c m t . Các c m t song ng
này đã đư c ng d ng vào vi c nâng cao ch t lư ng d ch cho h th ng d ch máy th ng
kê Anh - Vi t.
T
khóa: d ch máy, d ch máy th ng kê, tri th c song ng , ng li u song
ng , văn b n song ng , gióng hàng t .
iii
L i c m ơn
Trư c h t, tôi xin g i l i c m ơn sâu s c đ n PGS.TS. Lê Anh Cư ng và
PGS.TS. Huỳnh Văn Nam, hai Th y đã tr c ti p hư ng d n, ch b o t n tình,
luôn h tr và t o nh ng đi u ki n t t nh t cho tôi h c t p và nghiên c u.
Tôi xin g i l i c m ơn đ n các Th y/Cô giáo
Khoa Công ngh thông tin,
Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i, đ c bi t là PGS.TS. Ph m
B o Sơn và các Th y/Cô giáo
B môn Khoa h c máy tính, nh ng ngư i đã tr c
ti p gi ng d y và giúp đ tôi trong quá trình h c t p và nghiên c u
Tôi xin g i l i c m ơn đ n các đ ng nghi p
trư ng.
Khoa Công ngh thông tin,
Trư ng Đ i h c Quy Nhơn, đ c bi t là TS. Tr n Thiên Thành và TS. Lê Xuân Vi t đã
quan tâm, giúp đ và t o đi u ki n cho tôi trong th i gian làm nghiên c u sinh.
Tôi xin g i c m ơn đ n PGS.TS. Nguy n Phương Thái, TS. Nguy n Văn Vinh,
TS. Phan Xuân Hi u (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i),
PGS.TS. Lê Thanh Hương (Trư ng Đ i h c Bách khoa Hà N i), TS. Nguy n Th Minh
Huy n, TS. Lê H ng Phương (Trư ng Đ i h c Khoa h c T nhiên, Đ i h c Qu c gia Hà
N i), TS. Nguy n Đ c Dũng (Vi n Công ngh thông tin, Vi n Hàn lâm Khoa h c và
Công ngh Vi t Nam), các Th y/Cô đã có nh ng góp ý ch nh s a đ tôi hoàn thi n lu n
án.
Tôi xin g i l i c m ơn đ n t t c anh, ch , em và b n đ ng h c
B môn
Khoa h c máy tính (Khoa Công ngh thông tin, Trư ng Đ i h c Công ngh , Đ i h c Qu
c gia Hà N i), đ c bi t là ch Nguy n Th Xuân Hương (Khoa Công ngh thông tin, Trư
ng Đ i h c Dân l p H i Phòng), nghiên c u sinh Hoàng Th Đi p (Khoa Công ngh
thông tin, Trư ng Đ i h c Công ngh ) đã giúp đ tôi trong th i gian làm nghiên c u
sinh.
Cu i cùng, tôi xin g i l i c m ơn đ n t t c các thành viên trong gia đình tôi,
đ c bi t là v tôi - ngư i đã luôn ng h , chia s , đ ng viên và gánh vác công vi c gia
đình đ tôi yên tâm h c t p, nghiên c u.
iv
M cl c
i
L i cam đoan
ii
Tóm t t
iv
L i c m ơn
viii
Danh m c các ch vi t t t
ix
Danh m c các hình v
xi
Danh m c các b ng
1
M đu
5
1 T ng quan
1.1 Khai phá tri th c song ng . . . . . . . . . . . .
1.1.1 Xây d ng ng li u song ng . . . . . . .
văn b n . . . . . . . . . . .
1.1.2.1 Gióng hàng đo n/câu . . . . .
t.........
1.1.3 Xác đ nh c m t song ng . . . . . . . .
1.2 Sơ lư c v d ch máy . . . . . . . . . . . . . . . .
1.3 D ch máy th ng kê . . . . . . . . . . . . . . . .
1.3.1 Mô hình hóa bài toán . . . . . . . . . . .
1.3.2 Mô hình ngôn ng . . . . . . . . . . . .
1.3.3 Mô hình d ch . . . . . . . . . . . . . . .
1.3.3.1 Mô hình d ch d a trên t . . .
1.3.3.2 Mô hình d ch d a trên c m t .
1.3.3.3 Mô hình d ch d a trên cú pháp
1.3.4 Gi i mã . . . . . . . . . . . . . . . . . .
1.3.5 Đánh giá ch t lư ng d ch . . . . . . . . .
v
. . . . . . . . . . . 5
. . . . . . . . . . .
61.1.2 Gióng hàng
. . . . . . . . . . . 9
. . . . . . . . . . .
91.1.2.2 Gióng hàng
. . . . . . . . . . . 10
. . . . . . . . . . . 13
. . . . . . . . . . . 14
. . . . . . . . . . . 16
. . . . . . . . . . . 17
. . . . . . . . . . . 18
. . . . . . . . . . . 20
. . . . . . . . . . . 21
. . . . . . . . . . . 21
. . . . . . . . . . . 22
. . . . . . . . . . . 25
. . . . . . . . . . . 27
1.4
Th o lu n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Xây d ng ng li u song ng cho d ch máy th ng kê
2.1 Rút trích văn b n song ng t Web . . . . . . . . . . . . . . . .
2.1.1 Thu th p d li u . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Thi t k các đ c trưng d a vào n i dung . . . . . . . . .
2.1.2.1 S d ng cognate . . . . . . . . . . . . . . . . .
2.1.2.2 S d ng các phân đo n d ch . . . . . . . . . . .
2.1.3 Thi t k các đ c trưng d a vào c u trúc . . . . . . . . .
2.1.4 Mô hình hóa bài toán phân lo i . . . . . . . . . . . . . .
2.2 Rút trích câu song ng t sách đi n t . . . . . . . . . . . . . .
2.2.1 Ti n x lý . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Đo đ tương t . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Gióng hàng đo n . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Gióng hàng câu . . . . . . . . . . . . . . . . . . . . . . .
2.3 Th c nghi m . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Th c nghi m v rút trích văn b n song ng t Web . . .
2.3.1.1 Cài đ t th c nghi m . . . . . . . . . . . . . . .
2.3.1.2 K t qu th c nghi m . . . . . . . . . . . . . . .
2.3.2 Th c nghi m v rút trích câu song ng t sách đi n t .
2.3.2.1 Cài đ t th c nghi m . . . . . . . . . . . . . . .
2.3.2.2 K t qu th c nghi m . . . . . . . . . . . . . . .
2.3.3 Th c nghi m v b sung ng li u song ng cho d ch máy
2.4 K t lu n chương . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Gióng hàng t cho d ch máy th ng kê
3.1 Cơ s lý thuy t . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Đ nh nghĩa t . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Đ nh nghĩa bài toán gióng hàng t . . . . . . . . . . . . .
3.1.3 Các mô hình IBM . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Thu t toán c c đ i kỳ v ng cho mô hình IBM 1 . . . . . .
3.2 M t s c i ti n mô hình IBM 1 theo cách ti p c n d a trên ràng bu
3.2.1 C i ti n mô hình IBM 1 s d ng ràng bu c neo . . . . . .
3.2.2 C i ti n mô hình IBM 1 s d ng ràng bu c v v trí c a t
3.2.3 C i ti n mô hình IBM 1 s d ng ràng bu c v t lo i . . .
3.2.3.1 Quan h v t lo i . . . . . . . . . . . . . . . . .
3.2.3.2 Ràng bu c v t lo i . . . . . . . . . . . . . . . .
3.2.4 C i ti n mô hình IBM 1 s d ng ràng bu c v c m t
3.2.4.1 M u cú pháp song ng . . . . . . . . . . . . . . .
3.2.4.2 Ràng bu c v c m t
...............
3.2.5 K t h p các ràng bu c . . . . . . . . . . . . . . . . . . . .
3.3 Th c nghi m . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Cài đ t th c nghi m . . . . . . . . . . . . . . . . . . . . .
vi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
32
34
34
35
37
39
40
41
44
46
46
47
49
49
49
51
53
53
55
56
57
59
. 59
. 59
. 60
. 61
. 61
c 65
. 66
. 69
. 71
. 71
. 71
. 74
. 75
. 75
. 78
. 78
. 78
3.3.2
3.4
K t qu th c nghi m v
trí c a t . . . . . . .
3.3.3 K t qu th c nghi m v
3.3.4 K t qu th c nghi m v
3.3.5 K t qu th c nghi m v
K t lu n chương . . . . . . .
i ràng bu c neo và ràng bu c v v
..............
.. . . . . .
i ràng bu c t lo i . . .
.. . . . . .
i ràng bu c c m t
.. .. . . . . .
k t h p ràng bu c . . .
.. . . . . .
..............
.. . . . . .
4 Xác đ nh c m t song ng cho d ch máy th ng kê
4.1 Bài toán rút trích c m t song ng . . . . . . . . . .
4.2 Phương pháp rút trích c m t song ng
.......
4.2.1 Xác đ nh c m . . . . . . . . . . . . . . . . . .
4.2.2 Tìm c m t đích . . . . . . . . . . . . . . . .
4.2.3 Rút trích c m t . . . . . . . . . . . . . . . .
4.3 Tích h p c m t song ng vào d ch máy . . . . . . .
4.4 Th c nghi m . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Th c nghi m v rút trích c m t song ng . .
4.4.1.1 Cài đ t th c nghi m . . . . . . . . .
4.4.1.2 K t qu th c nghi m . . . . . . . . .
4.4.2 Th c nghi m v tích h p c m t song ng vào
4.4.2.1 Cài đ t th c nghi m . . . . . . . . .
4.4.2.2 K t qu th c nghi m . . . . . . . . .
4.5 K t lu n chương . . . . . . . . . . . . . . . . . . . .
K t lu n
......
......
......
......
......
......
......
......
......
......
d ch máy
......
......
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
82
82
83
85
87
87
88
88
89
90
91
93
93
93
93
95
95
96
97
98
Danh m c công trình khoa h c c a tác gi liên quan đ n lu n án
101
Tài li u tham kh o
102
vii
Danh m c các ch vi t t t
EM
Expectation Maximization (C c đ i kỳ v ng)
HTML
HyperText Markup Language (Ngôn ng đánh d u siêu văn b n)
ME
Maximum Entropy (Đ h n lo n c c đ i)
MLE
Maximum Likelihood Estimation (
MT
Machine Translation (D ch máy)
NLP
Natural Language Processing (X lý ngôn ng t nhiên)
POS
Part Of Speech (Nhãn t lo i)
SMT
Statistical Machine Translation (D ch máy th ng kê)
SVM
Support Vector Machine (Máy véc-tơ h tr )
viii
c lư ng kh năng c c đ i)
Danh sách hình v
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.1
2.2
2.3
2.4
3.1
3.2
3.3
3.4
3.5
3.6
Sơ đ t ng quan v rút trích ng li u song ng t Web. . . . . . . Kim t
tháp d ch máy. . . . . . . . . . . . . . . . . . . . . . . . . Mô hình hoá bài
toán d ch máy d a trên phương pháp th ng kê. . Các thành ph n c a
d ch máy th ng kê. . . . . . . . . . . . . . . Quá trình d ch d a trên t .
Câu đ u vào ti ng Anh đư c d ch t ng
t sang ti ng Vi t, sau đó s p x p l i tr t t t . . . . . . . . . . .
D ch d a trên c m t . Câu đ u vào đư c tách ra thành các c m t ,
d ch m t-m t các c m t ti ng Anh sang ti ng Vi t và có th s p x p l i tr
t t các c m t . . . . . . . . . . . . . . . . . . . . . . .
Quá trình d ch d a trên cú pháp theo cách ti p c n d ch t chu i
sang cây cú pháp, g m 3 bư c: (1) chuy n đ i tr t t t , (2) chèn và (3)
d ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quá trình d ch đư c th c hi n t trái sang ph i và m r ng không
gian gi thuy t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minh h a quá trình gi i mã câu đ u vào f = "He does not go home"
t ti ng Anh sang ti ng Vi t. . . . . . . . . . . . . . . . . . . . .
.8 .
15 .
17 .
18
Sơ đ c a h th ng rút trích văn b n song ng t Web. . . . . . . Sơ đ mô
t quá trình gióng hàng đo n/câu cho sách đi n t song
ng Anh - Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ví d v các đi m neo. . . . . . . . . . . . . . . . . . . . . . . . . Đ nh d ng d li
u hu n luy n phù h p cho vi c s d ng công c
LIBSVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 33
Ví d v gióng hàng t gi a m t c p câu song ng Anh - Vi t. . . Minh h
a quá trình gióng hàng t theo thu t toán EM. . . . . . . Ví d v ràng bu
c neo (ô màu đen), gán xác su t gióng hàng b ng
không cho t t c các c p t khác (ô màu xám). . . . . . . . . . .
Ví d v ràng bu c v v trí c a t v i ngư ng δ = 2, m i v trí đích
j (ô màu đen) ch gióng hàng v i các v trí ngu n trong ph m vi [j − δ, j
+ δ] (ô màu xám). . . . . . . . . . . . . . . . . . . . . . .
Ví d v ràng bu c t lo i (ch m tròn đen), gán xác su t d ch b ng
0 cho t t c các c p t khác (ô màu xám). . . . . . . . . . . . . .
Ví d v gióng hàng t gi a m t c p câu Anh - Vi t (các ch m tròn
đen), các t ti ng Anh và ti ng Vi t đư c li t kê tương ng theo chi u d c
và chi u ngang. Các ô màu xám th hi n ràng bu c v c mt . . . . . . . .
.........................
ix
. 21
. 22
. 24
. 25
. 26
.
42 .
45
. 51
.
60 .
65
. 66
. 69
. 72
. 77
4.1
4.2
Ví d v các c m t song ng trong m t câu song ng Anh - Vi t,
các t in đ m ch ra các c m t . . . . . . . . . . . . . . . . . . . . . 88
Tương quan gi a ngư ng θ và s lư ng c m t song ng . . . . . . . 95
x
Danh sách b ng
1.1
1.2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
3.1
3.2
3.3
3.4
3.5
3.6
Ví d v m t văn b n song ng Anh - Vi t. . . . . . . . . . . . . .
Ng li u Europarl: g m 10 c p ngôn ng trong đó m t ngôn ng là
ti ng Anh. Ký hi u L1 là ngôn ng ngu n, L2 là ngôn ng đích. . .
Ví d v hai văn b n có ch a các cognate tương ng gi a ti ng Anh
và ti ng Vi t (các t in nghiêng). . . . . . . . . . . . . . . . . . . .
T ng h p các đ c trưng. . . . . . . . . . . . . . . . . . . . . . . . .
Ví d v gióng hàng câu trong m t đo n văn b n song ng Anh Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ví d minh h a ranh gi i đo n b m t (trong quá trình chuy n đ i
đ nh d ng t PDF sang Text) và đư c ph c h i. . . . . . . . . . . .
Các URL t ba web-site: BBC, VOA News và VietnamPlus. . . . . T ng
h p s trang web đư c t i v và s c p ng viên. . . . . . . . K t qu th c nghi
m theo phương pháp c a Resnik. . . . . . . . . . K t qu th c nghi m theo
phương pháp c a Ma. . . . . . . . . . . K t qu th c nghi m
3. . . . . . . . . . . . . . . . . . . . . . . . . K t qu th c nghi m 4. . . . . . . . . .
...............
Thông tin chi ti t v sách đi n t song ng Anh - Vi t đư c s d ng
trong th c nghi m. . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu gióng hàng đo n v i 200 m u. . . . . . . . . . . . . . . . . Các ki u
quan h gi a các câu song ng trong 40 đo n song ng . . . K t qu th c
nghi m v gióng hàng câu. . . . . . . . . . . . . . . . M t s th ng kê c a ng
li u. . . . . . . . . . . . . . . . . . . . . . Th ng kê các thông s c a ng li u và
ch t lư ng d ch c a h th ng.
M t s quan h v POS gi a ti ng Anh và ti ng Vi t theo xác su t.
13 m u cú pháp song ng Anh - Vi t đư c s d ng trong ràng bu c
v c mt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Th ng kê ng li u song ng Anh - Vi t đư c s d ng đ xây d ng
mô hình d ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Th ng kê s l n đ ng xu t hi n c a 13 m u cú pháp song ng AnhVi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th c nghi m v i mô hình IBM g c, Giza++ và s d ng
ràng bu c neo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th c nghi m v i mô hình IBM g c, Giza++ và s d ng
ràng bu c v v trí c a t . . . . . . . . . . . . . . . . . . . . . . . .
xi
6
7
36
41
43
44
50
50
52
52
52
53
54
55
55
56
56
57
72
76
79
80
81
81
3.7
K t qu
ràng bu
3.8 K t qu
ràng bu
3.9 K t qu
ràng bu
3.10 So sánh
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
th c nghi m v i mô hình IBM g c, Giza++ và s d ng
c v t lo i. . . . . . . . . . . . . . . . . . . . . . . . . . .
th c nghi m v i mô hình IBM g c, Giza++ và s d ng
cv c mt . . . . . . . . . . . . . . . . . . . . . . . . . . .
th c nghi m v i mô hình IBM g c, Giza++ và k t h p
c (v trí c a t v i t lo i). . . . . . . . . . . . . . . . . . .
v i m t s nghiên c u g n đây v gióng hàng t cho SMT.
M t s ví d v m u cú pháp và c m t tương ng trong ti ng Anh. Ví d v m
t s c m t song ng đư c s d ng trong th c nghi m. 10 m u cú pháp
song ng Anh - Vi t đư c s d ng đ xác đ nh
c m t cho SMT. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th nghi m s d ng m t s giá tr c a ngư ng θ. . . . . . .
K t qu th c nghi m v i phương pháp c a chúng tôi và phương
pháp so kh p m u cú pháp hai phía. . . . . . . . . . . . . . . . .
Th ng kê các thông s c a ng li u 200.000 câu song ng Anh Vi t đư c s d ng trong th c nghi m. . . . . . . . . . . . . . . . .
Th ng kê v s lư ng c m t song ng Anh - Vi t đư c s d ng
trong th c nghi m. . . . . . . . . . . . . . . . . . . . . . . . . . . .
K t qu th nghi m khi tích h p các c m t song ng vào h th ng
SMT Anh - Vi t. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xii
82
83
83
85
89
92
94
94
95
96
96
97
M đu
1. Tính c p thi t c a lu n án
Ý tư ng v d ch máy ra đ i t năm 1949 [60]. T đó đ n nay, sau hơn 60 năm
nghiên c u và phát tri n, các d ch v d ch máy bây gi đã tr nên ph bi n r ng rãi. Hi n
nay, có m t s h th ng d ch máy thương m i đã đư c s d ng ph bi n trên th gi i như
Systrans1, Kant2 hay nh ng h th ng d ch máy m , tiêu bi u như Google3 h tr hơn
50 c p ngôn ng như Anh - Pháp, Anh - Trung, Anh
- Vi t, vv.
Vi t Nam, d ch máy đã tr thành ch đ đư c m t s nhóm t p
trung nghiên c u. Trong s đó, có m t s s n ph m như ph n m m d ch t đ ng
EVTRAN - m t h th ng d ch Anh - Vi t hay h th ng d ch t đ ng Anh - Vi t c a Công
ty c ph n tin h c L c Vi t 4, vv. Các cách ti p c n cho bài toán d ch máy g m có: d ch
tr c ti p, d ch d a trên chuy n đ i, d ch liên ng , d ch d a trên ví d và d ch th ng kê.
Hi n nay, d ch máy d a trên cách ti p c n th ng kê đang là m t hư ng phát tri n đ y ti
m năng b i nh ng ưu đi m vư t tr i so v i các cách ti p c n khác.
Đ i v i m t h th ng d ch máy th ng kê, ch t lư ng d ch t l thu n v i s
lư ng và ch t lư ng c a ng li u song ng đư c s d ng đ xây d ng h th ng d ch. Tuy
nhiên, ng li u song ng hi n v n còn h n ch c v kích thư c l n ch t lư ng, ngay c đ i v i
các ngôn ng chính. Ngoài ra, đ i v i các c p ngôn ng có nhi u khác bi t v c u trúc
ng pháp (ví d , Anh - Vi t), v n đ v ch t lư ng d ch đang là thách th c đ i v i các nhà
nghiên c u v d ch máy trong nhi u năm qua. Vì v y, các nghiên c u nh m khai thác
thêm ng li u song ng và phát tri n các phương pháp hi u qu hơn d a trên ng li u hi
n có đ tăng ch t lư ng d ch cho d ch máy th ng kê là nh ng v n đ c p thi t và mang
tính th i s trong lĩnh v c x lý ngôn ng t nhiên hi n nay. Đi u này là đ ng l c đ chúng
tôi l a ch n nghiên c u v đ tài "Khai phá tri th c song ng và ng d ng trong d ch
máy Anh - Vi t".
2. M c tiêu c a lu n án
Trong lu n án này, chúng tôi đ t ra hai m c tiêu chính:
1
/> />3
4
/>2
1
• Th nh t, nghiên c u đ xu t m t s phương pháp đ khai thác tri th c
song ng nh m b sung ngu n ng li u cho d ch máy th ng kê.
• Th hai, nghiên c u đ xu t m t s phương pháp đ làm tăng ch t lư ng
d ch cho d ch máy th ng kê d a trên ng li u hi n có.
3. Đóng góp c a lu n án
• Đ xu t m t s phương pháp đ xây d ng ng li u song ng cho d ch máy
th ng kê t Web và sách đi n t song ng . Đ i v i ngu n t Web, chúng
tôi đ xu t hai phương pháp thi t k các đ c trưng d a trên n i dung: s
d ng cognate và s d ng các phân đo n d ch. Đ i v i ngu n t sách đi n t ,
chúng tôi đ xu t phương pháp d a trên n i dung, s d ng m t s m u liên k t gi a
các kh i văn b n trong hai ngôn ng đ rút trích các câu song
ng . Đóng góp này đã đư c công b
k y u h i th o qu c t Knowledge
and Systems Engineering (KSE) năm 2010 (công trình s [1]) và năm 2013
(công trình s [4]); k y u h i th o qu c gia l n th XVI "M t s v n đ ch n l c c a
Công ngh thông tin và Truy n thông" năm 2013 (công trình s [6]); t p chí
khoa h c Trư ng Đ i h c Quy Nhơn năm 2014 (công trình s [7]).
• Đ xu t m t s c i ti n đ i v i mô hình gióng hàng IBM theo cách ti p
c n d a trên ràng bu c, bao g m: ràng bu c neo, ràng bu c v v trí c a t , ràng
bu c v t lo i và ràng bu c v c m t . V i m i ràng bu c, chúng tôi đưa ra phương
pháp t ng quát đ tích h p nó vào thu t toán EM trong quá trình ư c lư ng tham
s c a mô hình. Ngoài ra, chúng tôi đưa ra m t phương pháp đ k t h p các
ràng bu c. Nh ng c i ti n này đã giúp nâng cao ch t lư ng d ch cho h th ng d
ch máy th ng kê Anh - Vi t. Đóng góp
này đã đư c công b
k y u h i th o qu c t International Conference on
Asian Language Processing (IALP) năm 2012 (công trình s [2]); k y u h i th o
qu c gia l n th XV "M t s v n đ ch n l c c a Công ngh thông tin và Truy n
thông" năm 2012 (công trình s [3]); t p chí The International Journal of
Knowledge and Systems Science (IJKSS) năm 2014 (công trình s [8]).
• Đ xu t phương pháp xác đ nh c m t song ng cho d ch máy th ng kê.
Chúng tôi s
d ng các m u cú pháp k t h p v i gióng hàng c m t
2
đ
xác đ nh c m t song ng . Các c m t song ng này đã đư c ng d ng
vào vi c nâng cao ch t lư ng d ch cho h th ng d ch máy th ng kê Anh Vi t. Đóng góp này đã đư c công b
k y u h i th o qu c t Computing
and Communication Technologies, Research, Innovation, and Vision for the
Future (RIVF) năm 2013 (công trình s [5]).
Các n i dung và k t qu nghiên c u trình bày trong lu n án (t Chương 2 đ n
Chương 4) đã đư c công b trong 8 công trình. Trong đó, 1 bài báo
t p chí qu c
t có ph n bi n, đư c xu t b n b i IGI Global; 4 báo cáo trong k y u c a h i ngh qu c t
có ph n bi n, đư c xu t b n b i IEEE và Springer; 2 báo cáo trong
k y u c a h i th o qu c gia có ph n bi n và 1 bài báo
ph n bi n.
3
t p chí trong nư c có
4. B c c c a lu n án
Ngoài ph n m đ u và k t lu n, lu n án đư c t ch c thành 4 chương, v i b c c
như sau:
• Chương 1. Gi i thi u t ng quan v các v n đ nghiên c u trong lu n án.
Chúng tôi phân tích, đánh giá các công trình nghiên c u liên quan; nêu ra m t
s v n đ còn t n t i mà lu n án s t p trung gi i quy t; xác đ nh n i dung nghiên
c u c a lu n án.
• Chương 2. Trình bày n i dung, k t qu nghiên c u v xây d ng ng li u
song ng cho d ch máy th ng kê.
• Chương 3. Trình bày n i dung, k t qu nghiên c u v m t s c i ti n mô
hình IBM đ gióng hàng t cho d ch máy th ng kê.
• Chương 4. Trình bày n i dung, k t qu nghiên c u v xác đ nh c m t
song ng cho d ch máy th ng kê.
4
Chương 1
T ng quan
Chương này trình bày t ng quan v các v n đ nghiên c u trong lu n án, bao
g m: khai phá tri th c song ng , sơ lư c v d ch máy (Machine Translation - MT) và d
ch máy th ng kê (Statistical Machine Translation - SMT). Ti p đ n, chúng tôi phân
tích, đánh giá các công trình nghiên c u liên quan. Cu i chương, chúng tôi nêu ra
m t s v n đ còn t n t i mà lu n án s t p trung gi i quy t và xác đ nh n i dung nghiên
c u c a lu n án.
1.1
Khai phá tri th c song ng
Nhi m v c a khai phá tri th c song ng (mining parallel knowledge) là t đ ng
tìm ra các thành ph n có ng nghĩa tương ng trong các văn b n
hai ngôn ng
khác nhau. Tri th c song ng g m nhi u khía c nh: song ng v t , song ng v c m t ,
song ng v c u trúc, vv. Vi c khai phá tri th c song ng là quá trình
chu n b và khai phá d li u cho m t s
ng d ng quan tr ng trong lĩnh v c x
lý ngôn ng t nhiên (Natural Language Processing - NLP), trong đó có SMT. Trong
lu n án này, chúng tôi gi i h n vi c khai phá tri th c song ng cho bài toán SMT. Sau
đây, chúng tôi s trình bày t ng quan v xây d ng ng li u song ng , gióng hàng văn b
n và xác đ nh c m t song ng .
5
B ng 1.1: Ví d v m t văn b n song ng Anh - Vi t.
Văn b n ti ng Anh
In the early summer of 2004, I got
a phone call from Steve Jobs. He
had been scattershot friendly to me
over the years, with occasional bursts of
intensity, especially when he was
launching a new product that he
wanted on the cover of Time or
featured on CNN, places where I'd
worked.
But now that I was no longer at either of those places, I hadn't heard
from him much. We talked a bit
about the Aspen Institute, which I
had recently joined, and I invited him to
speak at our summer campus in
Colorado. He'd be happy to come, he
said, but not to be onstage. He
wanted instead to take a walk so that
we could talk.
I had known him since 1984, when
he came to Manhattan to have lunch
with Time's editors and extol his new
Macintosh. He was petulant even
then, attacking a Time correspondent for having wounded him with a
story that was too revealing.
1.1.1
Văn b n ti ng Vi t
Đ u mùa hè năm 2004, tôi nh n đư c m t
cu c g i t Steve Jobs. Jobs ch liên l c v i
tôi khi có vi c c n trong nhi u năm qua, và
có lúc tôi b ông kh ng b đi n tho i, đ c bi t
là khi chu n b ra m t m t s n ph m m i và
mu n nó n m ngay trên trang bìa c a t p
chí Time ho c trình chi u trên CNN, nơi
tôi làm vi c.
Nhưng gi tôi không ch ng còn làm c hai
nơi đó n a và cũng không nghe tin v ông
nhi u. Chúng tôi đã trao đ i qua v h c vi
n Aspen, nơi tôi m i vào làm lúc đó, và
tôi đã m i ông đ n phát bi u t i tr i hè c a
chúng tôi Colorado, ông vui v nh n l i đ
n tham d nhưng s không lên phát bi u,
thay vào đó chúng tôi s nói chuy n trong
khi đi d o.
Tôi quen ông t năm 1984, khi ông đ n
Manhattan đ ăn trưa cùng v i nh ng biên
t p viên c a t p chí Time và nhân ti n gi i
thi u luôn chi c máy Macintosh (Mac) m i
c a mình. Th m chí lúc đó ông đã n i
nóng, và t n công m t phóng viên c a t p
chí Time vì đã làm ông t n thương b ng m
t câu chuy n quá l .
Xây d ng ng li u song ng
Ng li u song ng (parallel corpus ho c parallel corpora 1) là t p h p các văn b n
song ng , B ng 1.1 trình bày ví d v m t văn b n song ng Anh - Vi t. Theo
Westerhout [89], trư ng h p đơn gi n nh t ng li u ch g m hai ngôn ng , ví d :
ng li u Compara [34]. M t s ng li u song ng g m nhi u ngôn ng , ví d : ng
li u Europarl [59] bao g m các phiên b n c a 11 ngôn ng châu Âu (trong đó m t
ngôn ng là ti ng Anh) như mô t trong B ng 1.2.
Ng li u song ng t n t i theo m t s đ nh d ng khác nhau. Nó có th là văn
b n song ng
d ng thô ho c đã đư c gióng hàng (alignment). Văn b n song ng
có th đư c gióng hàng
m c đo n, m c câu, m c c m t ho c m c t [15]. Vi c
1
ti ng Anh, corpora là hình th c s nhi u c a corpus.
Trong
6
B ng 1.2: Ng li u Europarl: g m 10 c p ngôn ng trong đó m t ngôn ng là
ti ng Anh. Ký hi u L1 là ngôn ng ngu n, L2 là ngôn ng đích.
Ng li u (L1-L2)
Đan M ch - Anh
Đ c - Anh
Hy L p - Anh
Tây Ban Nha - Anh
Ph n Lan - Anh
Pháp - Anh
S câu S t trong L1
1.684.664
43.692.760
1.581.107
41.587.670
960.356
1.689.850
48.860.242
1.646.143
32.355.142
1.723.705
51.708.806
Ý - Anh
Hà Lan - Anh
B Đào Nha - Anh
Th y Đi n - Anh
1.635.140
1.715.710
1.681.991
1.570.411
S t trong L 2
46.282.519
43.848.958
27.468.389
46.843.295
45.136.552
47.915.991
46.380.851
47.477.378
47.621.552
38.537.243
47.236.441
47.166.762
47.000.805
42.810.628
gióng hàng các văn b n song ng r t h u ích cho các ng d ng khác nhau trong
NLP. Các h th ng SMT [10] s d ng câu song ng làm đ u vào cho mô-đun gióng
hàng t đ th c hi n tính toán xác su t d ch t . Các h th ng truy v n thông tin liên ng
[25, 90, 118] s d ng văn b n song ng đ xác đ nh thông tin tương ng
trong c hai giai đo n h i và đáp. Ngoài ra, vi c rút trích các thành ph n ng
nghĩa tương đương c a các văn b n song ng như t , c m t và câu r t h u ích cho vi c
xây d ng t đi n song ng [65, 78]. Trong lu n án này, chúng tôi gi i h n vi c xây d ng
ng li u song ng cho SMT.
Ngày nay, cùng v i s phát tri n c a Internet, Web là ngu n cơ s d li u
kh ng l ch a các tài li u đa ngôn ng (multi-language), ngu n d li u này đư c s d ng
cho các ng d ng x lý văn b n song ng . Vì lý do này, nhi u nghiên c u t p trung vào
vi c rút trích d li u song ng t đ ng t Web. V cơ b n, chúng tôi có th phân lo i các
nghiên c u này vào ba nhóm: (i) d a trên n i dung (content - based) [16, 24, 76], (ii)
d a trên c u trúc (structure - based) [17, 97, 100] và (iii)
k t h p (i) v i (ii) [101, 128]. Hình 1.1 trình bày sơ đ t ng quan v rút trích ng li u
song ng t Web.
Cách ti p c n d a trên n i dung thư ng dùng t đi n song ng đ đo đ tương
t v n i dung c a hai văn b n. Khi t đi n song ng có s n, tài li u
ngôn ng
ngu n đư c d ch theo t ng t (word by word) ra ngôn ng đích. Các tài li u d ch này
sau đó đư c s d ng đ tìm tài li u song ng phù h p nh t b ng cách s d ng
các đo đ như Cosine, Jaccard, Dice, vv [55]. Tuy nhiên, s d ng t đi n song ng có
th ph i đ i m t v i khó khăn vì m t t thư ng có nhi u b n d ch c a nó. Đ
7
Hình 1.1: Sơ đ t ng quan v rút trích ng li u song ng t Web.
kh c ph c h n ch này, chúng tôi s d ng m t h th ng SMT đ có th t n d ng
nh ng l i th c a phương pháp d ch th ng kê trong vi c gi i quy t các v n đ v nh p nh
ng t v ng.
Cách ti p c n d a trên c u trúc so kh p c u trúc HTML (HyperText Markup
Language) c a trang web. Cách ti p c n này s d ng gi thuy t các trang web song ng
đư c trình bày v i c u trúc tương t nhau. H th ng STRAND c a Resnik [101] là đ i
di n tiêu bi u cho cách ti p c n này. Đ tương t c a các trang web đư c tính d a vào c
u trúc HTML c a chúng. Lưu ý r ng, các phương pháp d a trên cách ti p c n này
không đòi h i tri th c v ngôn ng và khá hi u qu trong vi c lo i ra các c p tài li u
không ph i song ng . Tuy nhiên, nó có h n ch là yêu c u hai trang web song ng ph i
có cùng m t cách trình bày. Theo quan sát c a chúng tôi, nhi u trang web s d ng
cùng m t m u thi t k web, vì th c u trúc c a các trang tương t nhưng n i dung c a
chúng l i khác nhau. Do đó, phương pháp ti p c n d a trên c u trúc HTML không đư
c áp d ng trong m t s trư ng h p. chúng tôi đã k t h p các đ c trưng d a trên n i
dung v i các đ c trưng d a trên c u trúc c a trang web đ rút trích các văn b n song
ng . Đ tăng đ chính xác trong vi c rút trích các văn b n song ng t Web, chúng tôi k
t h p c đ c trưng v c u trúc và đ c trưng v n i dung2.
2
Chi ti t chúng tôi trình bày trong Chương 2, ph n 2.1
8
Hi n t i, có ít nghiên c u v v n đ này liên quan đ n c p ngôn ng Anh Vi t. Hai tác gi Đ ng Bác Văn và H B o Qu c [24] xây d ng ng li u song ng
Anh - Vi t d a trên vi c so kh p n i dung. Trư c h t, các c p trang web ng viên đư c
xác đ nh b ng cách s d ng các đ c trưng v đ dài câu và ngày t o trang web. Sau
đó, các tác gi đo đ tương t v n i dung s d ng t đi n song ng Anh - Vi t đ quy t đ nh
hai trang web có ph i là song ng hay không. Quá trình này đư c th c hi n d a trên
m t s ngư ng c a đ đo này. Chú ý r ng, phương pháp trong [24] ch tìm ki m các
trang web song ng có ch t lư ng d ch t t và các trang song ng này có cùng ki u
trình bày. Hơn n a, s d ng t đi n đ d ch theo t ng
t có th gây ra s nh p nh ng. Vì th , cách ti p c n này khó đ m r ng khi d li u tăng
lên ho c các trang song ng có ki u trình bày khác nhau.
Như chúng tôi đã đ c p
trên, Web là ngu n cơ s d li u kh ng l ch a các
tài li u đa ngôn ng . Tuy nhiên, đ có đư c ng li u song ng v i đ chính xác cao v n
đang là m t thách th c, b i vì các văn b n đư c trình bày trên Internet thư ng b "nhi
u". Trong khi đó, nhi u sách đi n t song ng (s n có) ch a m t s lư ng l n các văn b n
song ng đư c d ch c n th n. Đây là ngu n d li u r t ti m năng đ b sung ng li u song
ng cho SMT, đ c bi t đ i v i các c p ngôn ng còn h n ch v ng li u song ng như Anh
- Vi t, Nh t - Vi t, vv. Hi n t i, các ng li u song ng có s n không nh ng có kích thư c
tương đ i nh mà còn không cân b ng ngay c đ i v i các ngôn ng chính [24], đi u này
nh hư ng đ n ch t lư ng c a các h th ng SMT.
1.1.2
Gióng hàng văn b n
Trong x lý văn b n song ng , gióng hàng là bài toán quan tr ng nh t, t c là phát
hi n s tương ng gi a các đơn v trong hai văn b n
[4]. Gióng hàng có th đư c th c hi n
lu n án này, chúng tôi gi i h n
các ngôn ng khác nhau
m c đo n, câu, c m t ho c t . Trong
ba m c gióng hàng, c th là: gióng hàng đo n
và gióng hàng câu đ xây d ng ng li u và gióng hàng t cho SMT.
1.1.2.1
Gióng hàng đo n/câu
V cơ b n, gióng hàng đo n và gióng hàng câu có cách ti p c n tương t nhau. Đ
tăng đ chính xác, chúng ta có th gióng hàng đo n trư c r i sau đó gióng hàng câu.
Vi c gióng hàng đo n đ c bi t quan tr ng khi các văn b n c n gióng hàng có
9
kích thư c l n, ví d như sách đi n t . Nhi m v c a gióng hàng đo n/câu là liên
k t các đo n/câu trong m t văn b n
ngôn ng này (ngôn ng ngu n) v i các
đo n/câu là b n d ch tương ng c a nó trong m t văn b n
ngôn ng khác (ngôn
ng đích) [21]. Các phương pháp khác nhau đã đư c đ xu t cho vi c xác đ nh gióng
hàng đo n/câu gi a các văn b n song ng [41, 98, 114]. Theo quan đi m c a chúng
tôi, nh ng phương pháp này có th đư c chia thành hai cách ti p c n chính: (i) d a
trên th ng kê (statistics - based) [11, 35] và (ii) d a trên tri th c ngôn ng (linguistic
knowledge - based) [18, 80].
Cách ti p c n th nh t (i) khai thác các m i tương quan v đ dài c a các
kh i văn b n (đo n ho c câu) trong các ngôn ng khác nhau và c g ng thi t l p
s tương ng gi a các kh i văn b n này theo kích thư c [37].
đây, kích thư c
có th đư c đo b i s t ho c s ký t . Gale và c ng s [35] đã s d ng mô hình
th ng kê đơn gi n theo đ dài v i kích thư c là s t đ gióng hàng câu cho ng
li u song ng . Trong mô hình này, m i c p câu đư c gán m t xác su t. Xác su t này
đư c s d ng đ tìm kh năng liên k t c c đ i c a các câu (d a trên k thu t quy ho ch đ
ng). Tuy nhiên, các văn b n thư ng đư c đ nh d ng l i trong quá trình d ch thu t. Vì v
y, nó không ch ch a các liên k t 1-1, t c là m t đo n/câu
trong văn b n
văn b n
ngôn ng ngu n có th liên k t v i hai ho c nhi u đo n/câu trong
ngôn ng đích và ngư c l i. Trong trư ng h p này, phương pháp th ng
kê d a vào c u trúc như t ho c ký t có th không th c hi n t t.
Cách ti p c n th hai (ii) s d ng d li u ngôn ng (thư ng là t đi n) đ
thi t l p s tương ng gi a các kh i văn b n. Li và c ng s [68] đ xu t thu t toán FastChampollion, trong đó s d ng t đi n song ng cho vi c gióng hàng câu. V i thu t toán
này, đ chính xác (precision) và đ bao ph (recall) ph thu c
vào kích thư c c a t đi n đư c s d ng. Ngoài ra, làm th nào đ xây d ng t
đi n song ng t đ ng là m t v n đ quan tr ng đ i v i vi c áp d ng thu t toán FastChampollion trên các c p ngôn ng không có s n t đi n3.
1.1.2.2
Gióng hàng t
Gióng hàng t (word alignment) là m t nhi m v xác đ nh s tương ng gi a các
t trong m t văn b n song ng [72]. Đây là bư c đ u tiên trong h u h t các cách ti p c n
hi n t i c a SMT. Ayan [4] đã ch ra r ng, ch t lư ng c a gióng hàng t đóng vai trò r t
quan tr ng cho s thành công c a m t h th ng SMT. Các
đây, chúng tôi mu n nói đ n t đi n song ng đi n t .
3
10
phương pháp khác nhau đã đư c đ xu t đ xác đ nh gióng hàng t trong các
văn b n song ng . Nói chung, các phương pháp gióng hàng t có th đư c phân chia
thành hai lo i: (i) cách ti p c n d a trên mô hình phân bi t (discriminative model) và
(ii) cách ti p c n d a trên mô hình sinh (generative model).
Cách ti p c n th nh t (i) d a vào quá trình hu n luy n trên m t t p các đ c
trưng, đi n hình là các nghiên c u c a Moore [83] và Liu [72]. Cách ti p c n này có
ưu đi m là linh ho t trong vi c k t h p các đ c trưng m i [77]. Tuy nhiên, h n ch c a
cách ti p c n này là d li u hu n luy n c n ph i đư c gán nhãn; công vi c này đòi h i
nhi u th i gian, chi phí đ th c hi n và nó không s n có v i h u h t các c p ngôn ng
[74]. Ngoài ra, r t khó khăn đ ch n d li u đ i di n cho vi c hu n luy n đ đ m b o r ng
các mô hình s ho t đ ng t t trên d li u không quan sát đư c, đ c bi t khi d li u song
ng đ n t nhi u ngu n thu c nhi u lĩnh v c khác nhau [72].
Cách ti p c n th hai (ii) thư ng s d ng mô hình sinh, trong đó các mô hình
IBM c a Brown và c ng s [12] đư c s d ng r ng rãi nh t. Thu t toán c c đ i kỳ v ng
(Expectation Maximization - EM) [27] đư c s d ng đ ư c lư ng xác su t c a mô hình
gióng hàng trên ng li u song ng . Các mô hình này v cơ b n là đ c l p v i ngôn ng
và các tham s c a nó đư c ư c lư ng t ng li u v i t i thi u vi c ti n x lý [111]. Tuy
nhiên, ch t lư ng c a gióng hàng thư ng khá th p đ i v i các c p ngôn ng có nhi u
khác bi t v c u trúc cú pháp như Anh - Vi t, Anh - Trung, vv. Vì v y, s d ng thêm
các ngu n tri th c bên ngoài như thông tin v t v ng, thông tin v cú pháp là th t s c
n thi t đ c i thi n ch t lư ng c a gióng hàng.
Trong các nghiên c u trư c đây, các mô hình IBM đư c c i ti n v i nhi u
phương pháp khác nhau. Varea và c ng s
[115] s
d ng mô hình Maximum
Entropy (ME) ph thu c ng c nh đ ch a nhi u hơn các ph thu c. T c là, m t ng c nh l
n hơn đư c s d ng trong mô hình d ch thay vì ch s d ng xác su t d ch t . M t c i ti n
khác đ i v i các mô hình IBM d a trên mô hình t v ng đ i x ng đư c đ xu t b i Zens
và c ng s [125]. H áp d ng phương pháp n i suy tuy n tính (linear interpolation) đ
tính xác su t theo hai hư ng (hư ng d ch chu n t ngôn ng ngu n sang ngôn ng đích
và hư ng d ch ngư c l i). Ngoài
ra, các tác gi đã mô t quá trình làm trơn (smoothing) t v ng b ng cách s
d ng hình th c t g c (word base form). Đ c bi t cho các ngôn ng bi n cách cao
(inflected language) như ti ng Đ c, đi u này d n đ n nh ng c i ti n đáng k v m t th ng
kê. Moore [82] đã kh o sát ba phương pháp đơn gi n đ c i ti n mô
11