Phát triển công cụ gióng hàng văn bản song ngữ (Tóm tắt trích đoạn)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (493.87 KB, 41 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

NGUYỄN MINH HẢI

PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN
BẢN SONG NGỮ

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2016

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

NGUYỄN MINH HẢI

PHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂN
BẢN SONG NGỮ

Chuyên ngành: Cơ sở Toán cho Tin học
Mã số:

60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Nguyễn Thị Minh Huyền
Hà Nội – 2016

Lời cảm ơn
Trong quá trình thực hiện luận văn cũng như trong những năm học vừa qua, em đã
nhận được sự chỉ bảo và hướng dẫn tận tâm của TS. Nguyễn Thị Minh Huyền. Em xin
gửi tới cô lời cảm ơn chân thành và sâu sắc nhất.
Ngoài ra, em cũng xin gửi lời cảm ơn tới các thầy giáo, cô giáo, cán bộ, nhân viên Khoa
Toán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội và
khoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula đã tận tình dạy dỗ và giúp đỡ
em trong những năm trên giảng đường đại học và cao học.
Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, khuyến
khích và tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận văn
này.
Do hạn chế về kiến thức, kinh nghiệm, thời gian tìm hiểu và thực hiện nên luận văn
chắc chắn còn nhiều thiếu sót. Em rất mong sẽ nhận được nhiều ý kiến đóng góp của
thầy, cô và các bạn để em có được cái nhìn sâu sắc hơn về vấn đề này.
Hà Nội, tháng 12 năm 2016
Học viên
Nguyễn Minh Hải

Mục lục
Lời cảm ơn
MỞ ĐẦU

1

1 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG

3

1.1

Kiến thức chuẩn bị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.2

Bối cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.3

Các hướng tiếp cận gióng hàng hiện nay . . . . . . . . . . . . . . . . . . .

9

1.3.1

Phương pháp gióng hàng dựa vào chiều dài câu . . . . . . . . . . .

9

1.3.2

Phương pháp gióng hàng dựa vào điểm tương đồng . . . . . . . . . 16

1.3.3

Phương pháp gióng hàng dựa vào từ vựng . . . . . . . . . . . . . . 19

1.3.4

Kết hợp các phương pháp . . . . . . . . . . . . . . . . . . . . . . . 26

1.4

Một số công cụ gióng hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4.1

NATools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.2

GIZA++

1.4.3

hunalign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.4

Per-Fide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.5

cwb-align . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.4.6

WinAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT
2.1

33

Đặc điểm tiếng Anh và tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 33

2.2

Các nghiên cứu và công cụ về gióng hàng văn bản song ngữ mức câu tiếng
Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3

Công cụ XAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.1

Thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . 41

2.3.2

Cấu trúc chương trình . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.3.3

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.3.4

Các cải tiến về thuật toán và tham số trên công cụ viXAlign . . . . 43

2.3.5

Một số hướng cải tiến công cụ đang tiến hành . . . . . . . . . . . . 46

2.4

Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.5

Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.6

Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.6.1

Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50

KẾT LUẬN

53

TÀI LIỆU THAM KHẢO

55

Danh sách bảng
1.1

Thống kê số lượng gióng hàng mỗi loại . . . . . . . . . . . . . . . . . . . .

5

1.2

Ví dụ về gióng hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.3

Các loại gói câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4

Ước lượng tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.5

Thống kê số lượng gióng hàng mỗi loại . . . . . . . . . . . . . . . . . . . . 14

1.6

Kết quả chạy thuật toán Gale-Church . . . . . . . . . . . . . . . . . . . . . 15

1.7

Kết quả chạy các chương trình khác nhau của Simard và Plamondon . . . 19

1.8

Độ chính xác của số cặp gióng hàng theo số bước lặp khác nhau của thuật
toán Kay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1

Bảng tỉ lệ câu chứa điểm tương đồng đơn giản . . . . . . . . . . . . . . . . 36

2.2

Chi tiết về kho ngữ liệu EVB . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.3

Kết quả thử nghiệm trên 2 bộ dữ liệu của thuật toán Nguyễn Quang Huy . 40

2.4

Tỉ lệ gióng hàng và giá trị phạt . . . . . . . . . . . . . . . . . . . . . . . . 45

2.5

Kết quả chạy công cụ XAlign trước và sau khi cải tiến . . . . . . . . . . . 49

2.6

Tỉ lệ chính xác trên từng loại gióng hàng . . . . . . . . . . . . . . . . . . . 49

2.7

Điểm Bleu của các hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Danh sách hình vẽ
1.1

Mô hình Markov sinh các gói câu . . . . . . . . . . . . . . . . . . . . . . . 11

1.2

Cơ chế chính của Jacal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3

Thuật toán Kay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.4

Khởi tạo bảng AST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.5

Cập nhật bảng AST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.1

Biểu đồ độ dài câu tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.2

Biểu đồ độ dài câu tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.3

Biểu đồ độ dài các cặp gióng hàng . . . . . . . . . . . . . . . . . . . . . . . 35

2.4

Thuật toán EVS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

MỞ ĐẦU
Xử lý ngôn ngữ tự nhiên (XLNNTN) là một lĩnh vực đang phát triển mạnh mẽ. Theo
tổ chức MarketsAndMarkets tổng giá trị của thị trường XLNNTN trên toàn thế giới sẽ
tăng từ 7,63 tỉ đô la vào năm 2016 đến 16,07 tỷ đô-la vào năm 20211 . Các lĩnh vực nhỏ
hơn trong XLNNTN hết sức đa dạng. Trong đó, dịch máy là lĩnh vực xuất hiện đầu tiên
và là một trong những lĩnh vực khó nhất của XLNNTN. Để xây dựng được một hệ thống
dịch máy tốt cần có một kho dữ liệu song ngữ lớn. Sau khi thu thập được kho ngữ liệu

ấy, cần phải tiến hành gióng hàng nó. Gióng hàng có nghĩa là đặt tương ứng một khối
văn bản với bản dịch của nó ở ngôn ngữ khác. Khối văn bản có nhiều mức như mức văn
bản, mức đoạn văn, mức câu, mức cụm từ, mức từ. Trong đó gióng hàng mức câu đóng
vai trò rất quan trọng. Những thuật toán và hệ thống gióng hàng mức câu đầu tiên ra
đời vào những năm cuối thập kỷ 1980 và đầu 1990 ban đầu dành cho các cặp ngôn ngữ
châu Âu như tiếng Anh, tiếng Pháp, tiếng Đức và mở rộng dần cho nhiều ngôn ngữ khác
như tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn. Các công trình rất đa dạng về cách
tiếp cận và chất lượng càng ngày càng tốt hơn.
Đối với tiếng Việt, các nghiên cứu trong lĩnh vực dịch máy nói chung và gióng hàng
nói riêng còn khá ít và chưa được thử nghiệm trên nhiều bộ dữ liệu khác nhau với kích
thước đủ lớn. Đặc điểm của tiếng Việt rất khác với các ngôn ngữ châu Âu, do đó nhiều
thuật toán làm việc tốt trên các cặp ngôn ngữ châu Âu cho kết quả kém hơn trên cặp
ngôn ngữ có tiếng Việt. Ngoài ra kho ngữ liệu song ngữ có tiếng Việt còn khá ít và nhỏ
1

Tham

khảo

báo

cáo

"Natural

language

processing

market

by

type

&

technologies"

trên trang web: />
1

bé do hạn chế cả về sức người và sức của. Bởi thế, nghiên cứu gióng hàng đối với tiếng
Việt còn nhiều vấn đề phải giải quyết. Đó là lý do tác giả chọn đề tài "Phát triển công
cụ gióng hàng văn bản song ngữ".
Trong số các ngôn ngữ trên thế giới, tiếng Anh là ngôn ngữ được sử dụng phổ biến
nhất, là ngôn ngữ chính trong các lĩnh vực ngoại giao, kinh tế, văn hóa, ... Chính vì thế
đề tài tập trung vào song ngữ Anh - Việt.
Mục tiêu của luận văn gồm có:
• Khảo sát các hướng nghiên cứu và các công trình sẵn có về gióng hàng văn bản song
ngữ mức câu trên thế giới và Việt Nam
• Xây dựng một kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu
• Cải tiến công cụ gióng hàng văn bản song ngữ Anh - Việt XAlign cải thiện độ chính
xác và độ phủ
• Phân tích các kết quả đạt được và đề ra các hướng đi mới nhằm nâng cao kết quả
và mở rộng cho các cặp ngôn ngữ khác.
Cấu trúc của luận văn gồm có 4 phần chính:
• Mở đầu: Giới thiệu đề tài, lý do lựa chọn, mục tiêu và cấu trúc luận văn
• Chương 1: Tóm tắt lịch sử và nhu cầu về gióng hàng văn bản song ngữ mức câu;

cơ sở lý thuyết; khảo sát chi tiết một số công trình nghiên cứu và công cụ về gióng
hàng văn bản song ngữ mức câu
• Chương 2: Khảo sát các công trình về gióng hàng văn bản song ngữ mức câu cho
cặp ngôn ngữ có tiếng Việt; Phân tích phương pháp, thuật toán, cấu trúc công cụ
XAlign; báo cáo các cải tiến của tác giả và cộng sự trên công cụ và kết quả đạt được
• Kết luận: Tổng kết lại nội dung trình bày trong luận văn, kết quả đạt được và hướng
nghiên cứu phát triển sắp tới.

2

Chương 1
CÁC CÁCH TIẾP CẬN GIÓNG
HÀNG
Trong chương này, bài luận văn đưa ra một số kiến thức chuẩn bị; bối cảnh và sự cần
thiết của gióng hàng văn bản song ngữ mức câu; một số hướng tiếp cận; tiêu chuẩn đánh
giá độ hiệu quả của một hệ thống và khảo sát một số công cụ gióng hàng văn bản song
ngữ mức câu.

1.1. Kiến thức chuẩn bị
Văn bản song ngữ (parallel corpus) là văn bản và một hoặc nhiều hơn bản dịch hoặc
của nó ở ngôn ngữ khác. Văn bản song ngữ tồn tại rất nhiều. Điển hình là sách Kinh
Thánh được dịch ra nhiều thứ tiếng; các văn bản của Liên Hợp Quốc vốn được viết bằng
nhiều thứ tiếng; các bài viết song ngữ trên các trang web. Trong luận văn, chúng ta chỉ
xét văn bản và một bản dịch của nó, và không quan tâm đến văn bản nào là gốc và văn
bản nào là bản dịch lại. Nếu không có chú thích thêm, khi nói đến văn bản song ngữ,
chúng ta hiểu 2 văn bản đó là bản dịch của nhau.
Gióng hàng văn bản song ngữ (parallel corpus alignment) là đặt tương ứng một khối
văn bản ở một ngôn ngữ với bản dịch của nó ở một ngôn ngữ khác. Tùy theo phạm vi của
khối văn bản ta có các mức gióng hàng khác nhau. Mức rộng nhất là gióng hàng văn bản

3

với văn bản. Ví dụ cho một kho ngữ liệu gồm nhiều văn bản thuộc hai thứ tiếng Anh và
Việt; sau khi nhận diện ngôn ngữ cho từng văn bản, gióng hàng mức văn bản xác định
văn bản nào là bản dịch của văn bản nào. Ở mức thấp hơn là gióng hàng ở mức chương
(nếu văn bản chia làm nhiều chương) nghĩa là gióng hàng chương với chương; rồi đến
gióng hàng ở mức đoạn văn, mức câu, mức mệnh đề, mức cụm từ và thấp nhất là gióng
hàng ở mức từ.
Gióng hàng văn bản song ngữ có thể được thực hiện thủ công hoặc bằng máy. Trong
luận văn quan tâm đến phương pháp gióng hàng văn bản song ngữ bằng máy ở mức câu.
Độ chính xác của thuật toán gióng hàng văn bản song ngữ được đo bằng 3 chỉ số là độ
chính xác (precision), độ phủ (recall) và độ đo F1 (F1-score). Xét cặp văn bản song ngữ
D. Gọi tập các cặp gióng hàng là Ctotal . Xét gióng hàng A trên D. Gọi TA (D) là tập cặp
gióng hàng do A phát hiện, CA (D) là tập các cặp gióng hàng chính xác trong số đó, nghĩa
là CA (D) = TA (D)

Ctotal . Độ chính xác của gióng hàng A trên D được định nghĩa là tỉ

lệ gióng hàng đúng trên tổng số gióng hàng do A phát hiện, và tính bằng:
#CA (D)
.
#TA (D)

PA (D) =

Độ phủ là tỷ lệ của gióng hàng đúng của A trên số gióng hàng đúng:
RA (D) =

#CA (D)

.
#Ctotal

độ đo F1 là trung bình điều hòa của 2 chỉ số trên và tính bằng:
F 1-score =

2 × PA (D) × RA (D)
.
PA (D) + RA (D)

Trong luận văn, cặp văn bản thường được ký hiệu là S và T . Văn bản S gồm n câu và
được ký hiệu S = (s1 , . . . , sn ), văn bản T gồm m câu và được ký hiệu T = (t1 , . . . , tn ).
Khi ta xét cặp câu si và tj ta sẽ ký hiệu cặp câu này như sau (si , tj ). Đôi khi xét các
gióng hàng ở mức khác như mức đoạn văn ta cũng ký hiệu các đoạn bằng s, t. nếu ta sắp
các câu trong 2 văn bản trên 2 cạnh chung đỉnh của một hình chữ nhật với chiều rộng và
chiều dài tỉ lệ với số câu của mỗi văn bản thì các cặp gióng hàng sẽ phân bố gần đường
chéo của hình chữ nhật này.
4

Loại

Tần số

Xác suất

1:1

1167

0,89

1:0 hoặc 0:1

13

0,0099

2:1 hoặc 1:2

117

0,089

2:2

15

0,011

1312

1,00

Bảng 1.1: Thống kê số lượng gióng hàng mỗi loại

Để ký hiệu các từ trong câu, trong luận văn dùng ký hiệu v và w. Ví dụ, câu si , tj gồm
p và q từ lần lượt được ký hiệu là si = (v1 , . . . , vp ) và tj = (wq , . . . , wq ).
Trong luận văn chủ yếu đề cập đến phương pháp và công cụ gióng hàng ở mức câu. Do
đó phần sau của mục này sẽ giới thiệu một số khái niệm trong mức gióng hàng này.

Gióng hàng ở mức câu nghĩa là đặt tương ứng 2 nhóm câu là bản dịch của nhau thành
một cặp gióng hàng không thể phân chia thành các gióng hàng ở mức nhỏ hơn. Tùy thuộc
vào số lượng câu có trong cặp gióng hàng, ta chia thành ba loại:
• Gióng hàng 1 : 0 khi câu ở bản gốc không được dịch
• Gióng hàng 0 : 1 khi chèn thêm 1 câu vào bản dịch mà bản gốc không có
• Gióng hàng n : m khi n câu ở bản gốc được dịch thành m câu ở bản dịch với n, m
là các số tự nhiên lớn hơn 0.
Gióng hàng phổ biến nhất là 1 : 1, kế đó là các trường hợp n : m khác, gióng hàng 0 : 1,
1 : 0 chiếm tỉ lệ ít hơn cả. Trong các gióng hàng n : m thì các gióng hàng với n ≥ 4 hoặc
m ≥ 4 chiếm tỉ lệ rất nhỏ. Những nhận xét này được minh họa bằng số liệu trong bảng 1.1
do nhóm tác giả Gale và Church thực hiện 1993 [5] thống kê số lượng gióng hàng cho kho
ngữ liệu UBS (Union Bank of Switzerland) gồm 15 báo cáo bằng 3 thứ tiếng Anh, Pháp
và Đức bao gồm 14.680 từ, 725 câu và 118 đoạn văn.
Bên cạnh số lượng câu trong mỗi vế của cặp gióng hàng, nếu dựa vào vị trí tương đối
của các câu trong văn bản được gióng hàng, ta có khái niệm gióng hàng chéo. Gióng hàng
5

Phu Tho is a midland province in the North-

Phú Thọ là tỉnh trung du miền núi phía Bắc

ern of Vietnam with nature land area at

Việt Nam, có diện tích đất tự nhiên 3.532

3,532km2, of which 97,610 ha are agricul-

km2, trong đó diên tích đất nông nghiệp là

tural land, 200,000 ha of forest land including

97.610 ha, đất rừng là 200.000 ha với 64.064

64,064 ha of natural forest, 10,000 ha of water

ha rừng tự nhiên, đất mặt nước nuôi trong

surface for aquaculture and other land.

thủy sản là 10.000 ha.

The province plays as a northwest gate of

Tỉnh Phú Thọ là cửa ngõ phía Tây Bắc của

Hanoi capital, is 50 kilometers distance from

thủ đô Hà Nội, cách sân bay quốc tế nội bai

He kou international border gate (between

50km, cách cảng Hải Phòng 170 km, cách

Lao Cai - Vietnam and Yunnan - China).

cửa khẩu quốc tế Hà Khẩu (giữa Lào Cai -

This province is the center of the region and

Việt Nam và Vân Nam - Trung Quốc)

is the meeting point of three large rivers (Da

200km, nằm trên trục hành lang kinh tế Hải

river, Red river and Lo river), so it makes Phu

Phòng - Hà Nội - Côn Minh (Trung Quốc)

Tho favorable traffic system on land, railway

và là nơi hợp lưu dòng của ba con sông lớn

and by water.

(sông Đà, sông Hồng, sông Lô) đã tạo cho

This foundation makes strong potential for

Phú Thọ có nhiều điều kiện thuận lợi và

economic development and exchange with the

tiềm năng to lớn để sản xuất kinh doanh,

other economic regions of both domestic and

giao lưu, phát triển kinh tế trong và ngoài

other nations.

nước.

Bảng 1.2: Ví dụ về gióng hàng

chéo xảy ra khi tồn tại hai cặp câu (i, j) và (i , j ) thuộc hai cặp gióng hàng khác nhau
sao cho i < i và j > j . Nếu hình dung hai văn bản song ngữ như hai đoạn thẳng song
song nhau, và ta nối mỗi cặp gióng hàng bằng một đoạn thẳng thì gióng hàng chéo xảy
ra khi hai đoạn thẳng nối giao nhau. Trong luận văn, ta không xem xét gióng hàng chéo.
Trong ví dụ ở bảng 1.2 cặp gióng hàng đầu tiên là 1:1, cặp gióng hàng thứ hai là 3:1.
Các kiến thức về xác suất bao gồm những khái niệm cơ bản nhất, công thức Bayes
và phân phối chuẩn được sử dụng trong luận văn. Trong luận văn đề cập rất nhiều đến
thuật toán quy hoạch động, một thuật toán cơ bản trong giải thuật và thuật toán cực

6

đại Entropy (Maximum Entropy), một thuật toán cơ bản trong lĩnh vực học máy. Do đây
đều là những kiến thức cơ bản dễ tìm nên mục này không trình bày lại nữa.

1.2. Bối cảnh
Lịch sử của gióng hàng văn bản có thể coi được bắt đầu từ năm 1822 khi giáo sư Jean
Francois Champollion sau khi nghiên cứu phiến đá Rosetta đã khám phá ra ngôn ngữ Ai
Cập tượng hình. Đây vốn là một văn bản khắc đá cổ đại ghi một sắc lệnh bằng ba thứ
tiếng: trên cùng là Ai Cập cổ đại, giữa là Demotic và dưới cùng là tiếng Hy Lạp cổ. Dựa
vào việc gióng hàng các đoạn văn bản là bản dịch của nhau (suy đoán dựa trên vị trí của
đoạn trong văn bản) và từ các ngôn ngữ đã biết như tiếng Hy Lạp cổ, Jean Francois đã
giải mã được các chữ Ai Cập tượng hình và khám phá ra ngôn ngữ Ai Cập cổ.
Với nhu cầu phục vụ cho dịch tự động, nghiên cứu về gióng hàng văn bản song ngữ tự

động xuất hiện từ những năm 1950. Tuy nhiên do những giới hạn của máy tính thời đó
cả về dung lượng bộ nhớ lẫn tốc độ tính toán nên các kết quả thu được chưa tốt.
Đến những năm 1980, máy tính trở nên mạnh hơn nhiều lần, gióng hàng văn bản song
ngữ tự động trở nên khả thi nên được quan tâm nghiên cứu trở lại, và vài năm sau đó,
các nghiên cứu về lĩnh vực này liên tiếp được công bố. Kết quả đầu tiên về gióng hàng
văn bản song ngữ trong thời kì này dựa trên giả thiết về mối liên hệ giữa tỉ lệ độ dài của
cặp câu song ngữ với khả năng chúng được gióng hàng đến nhau (Brown, 1991). Cùng
năm 1991 xuất hiện hệ thống tự động gióng hàng văn bản song ngữ đầu tiên của Kay.
Hệ thống này dựa trên ý tưởng là nếu hai câu tương ứng với nhau thì các từ trong hai
câu đó cũng phải tương ứng với nhau. Chi tiết của hệ thống Kay sẽ được trình bày trong
phần sau. Năm 1993, Chen đề xuất phương pháp gióng hàng dựa trên thông tin từ vựng.
Đây là phương pháp gióng hàng dựa trên thông tin từ vựng đầu tiên đủ hiệu quả để xử
lý những văn bản lớn. Hướng tiếp cận thứ ba là dựa trên những cặp từ đặc biệt gọi là
điểm tương đồng (cognate). Những từ này có thể là ngày tháng, tên tiêng hay những dấu
câu. Dựa trên những điểm tương đồng này, ta có thể ngắt đoạn văn bản và sau đó gióng
các đoạn nằm giữa các điểm tương đồng với nhau. Nghiên cứu tiêu biểu theo hướng này
7

phải kể đến công trình của Simard và Plamondon 1993. Các hướng tiếp cận trên đều có
những ưu và nhược điểm riêng, do đó xuất hiện cách tiếp cận kết hợp các hướng đó nhằm
tận dụng điểm mạnh và hạn chế điểm yếu của mỗi hướng tiếp cận.
Đến giữa thập kỷ 1990, số lượng nghiên cứu về gióng hàng văn bản song ngữ tự động
đã khá đồ sộ. Xuất hiện nhu cầu cần có một chuẩn thống nhất để đánh giá sự hiệu quả
cũng như để so sánh các phương pháp gióng hàng tự động. Dự án ACARDE I (triển khai
từ 1995 - 1999) là câu trả lời đầu tiên cho đòi hỏi trên. Dự án triển khai thành 2 giai
đoạn: hai năm đầu thu thập văn bản song ngữ Pháp – Anh thuộc các lĩnh vực như: hiến
pháp, hướng dẫn kỹ thuật, bài báo khoa học, các bài viết và các tác phẩm văn học. Bên
cạnh việc chuẩn bị về mặt phương pháp luận và quy trình, dự án tổ chức cuộc thi quy
mô nhỏ về gióng hàng văn bản song ngữ tự động ở mức câu. Đến giai đoạn hai, quy mô

cuộc thi mở rộng hơn và thêm cả các bài kiểm tra gióng hàng ở mức từ. Gióng hàng ở
mức từ yêu cầu tìm từ tương ứng trong văn bản tiếng Anh cho 60 từ tiếng Pháp gồm 20
tính từ, 20 danh từ và 20 động từ.
Đánh giá kết quả dựa trên độ chính xác đạt được. Độ chính xác cao nhất đạt được cho
gióng hàng mức câu là 0,985 cho văn bản song ngữ hiến pháp và kỹ thuật. Các văn bản
thuộc lĩnh vực văn học đạt kết quả thấp hơn. Gióng hàng mức từ cho kết quả kém hơn
mức câu. Độ chính xác và độ phủ đối với tính từ là 0,94 còn động từ và danh từ lần lượt
là 0,72 và 0,62. Dự án ACARDE I có một số hạn chế như: các bài kiểm tra chưa đánh
giá được đầy đủ khả năng của các hệ thống gióng hàng tự động và chỉ có một cặp ngôn
ngữ được đưa vào kiểm tra là Pháp – Anh.
Dự án ACARDE II được triển khai từ 2003 - 2005 nhằm khắc phục những nhược điểm
trên của ACARDE I. Các văn bản song ngữ thuộc 10 cặp ngôn ngữ với ngôn ngữ thứ
nhất là tiếng Pháp và ngôn ngữ thứ hai là một trong các ngôn ngữ la-tinh như tiếng Anh,
tiếng Đức, tiếng Italia và tiếng Tây Ban Nha hoặc các ngôn ngữ phi la-tinh gồm có tiếng
Trung Quốc, Hy Lạp, Nhật Bản, Ba Tư và Nga.
Một số ứng dụng của gióng hàng văn bản song ngữ trong ngôn ngữ học, xử lý ngôn
ngữ tự nhiên và học máy:
• Xây dựng kho ngữ liệu song ngữ
8

• Hỗ trợ cho việc xây dựng từ điển song ngữ
• Hỗ trợ cho quá trình dịch máy tự động
• Ứng dụng trong trích rút tri thức.
Gióng hàng ở mức câu được đánh giá là quan trọng nhất bởi 2 lợi ích của nó: thứ nhất,
đối với nhu cầu gióng hàng mức mệnh đề để hiểu ngữ nghĩa trong dịch máy thì việc gióng
hàng ở mức mệnh đề hiện nay gần như không thể thực hiện; trong khi đó câu có thể coi
là đơn vị ngữ pháp nhỏ nhất chứa trọn vẹn mệnh đề và gióng hàng trên câu khả thi hơn,
còn gióng hàng ở mức đoạn văn hay lớn hơn thì lại quá rộng; thứ hai, gióng hàng mức từ
chỉ đem lại các thông tin từ vựng trong dịch máy còn gióng hàng mức câu đem lại cả văn

cảnh và nội dung trong dịch máy.
Gióng hàng mức câu được đánh giá là một vấn đề AI-complete (còn gọi là AI-hard) [12],
nghĩa là các vấn đề với độ khó ngang với bài toán làm cho máy tính thông minh như con
người. Hiện tượng này là do vấn đề nhiễu trong văn bản song ngữ. Nhiễu trong văn bản
song ngữ là do 2 vấn đề: 1. Hiện tượng lược bỏ trong bản dịch hoặc chèn thêm nội dung
vào bản dịch; 2. Mặc dù giữ nguyên nội dung bản dịch nhưng sắp xếp lại các nội dung,
có thể hòa trộn các mệnh đề, các câu lại với nhau.

1.3. Các hướng tiếp cận gióng hàng hiện nay
Trong mục này, luận văn khảo sát một số công trình nghiên cứu tiêu biểu liên quan đến
3 phương pháp gióng hàng chính là dựa vào chiều dài câu, điểm tương đồng và thông tin
từ vựng.
1.3.1. Phương pháp gióng hàng dựa vào chiều dài câu
Thuật toán của Brown và các đồng nghiệp
Thuật toán của Brown và các đồng nghiệp, 1991 dựa trên giả thiết về sự tương quan
giữa độ dài tính bằng số từ của cặp gióng hàng. Tác giả nhận xét là bản dịch của câu dài
9

thông thường sẽ dài hơn bản dịch của câu ngắn. Mỗi văn bản sẽ là một chuỗi các độ dài
của các câu tính bằng số từ của câu.
Gióng hàng được thực hiện trên kho ngữ liệu song ngữ Anh - Pháp Hansards ghi lại
các cuộc họp tại quốc hội Canada từ năm 1973 đến 1986. Phần ngữ liệu tiếng Anh gồm
có 3.510.744 câu và 85.016.286 từ. Phần ngữ liệu tiếng Pháp gồm có 3.690.425 câu và
97.867.452 từ. Trung bình mỗi câu tiếng Anh có 24,2 từ và mỗi câu tiếng Pháp có 26,5
từ. Nội dung chính là các câu đối thoại, tranh luận, phát biểu, chất vấn và trả lời. Đi
kèm là các đoạn chú thích về tên người phát ngôn và về thời gian nói, các đoạn này
được tách riêng và gán nhãn. Ví dụ, nếu người nói là chủ tịch quốc hội thì sẽ được
ghi chú là \SCM{} Author = Mr. Speaker\ECM{} ở tiếng Anh và \SCM{} Author = M.
le Président \ECM{} ở tiếng Pháp; thời gian sẽ là \SCM{} Time = Recess \ECM{},

\SCM{} Time = Later \ECM{} và tương ứng trong tiếng Pháp là \SCM{} Time = recess
\ECM{}, \SCM{} Time = Plus Tard \ECM{}.
Thuật toán được chia thành 2 pha. Ở pha đầu, văn bản được gióng hàng ở mức đoạn
và pha thứ hai là gióng hàng mức câu.
Các ghi chú sẽ được dùng như là điểm neo để gióng hàng mức đoạn. Các ghi chú được
chia thành 2 loại: các ghi chú ít xuất hiện hơn và đóng vai trò là điểm neo chính chia văn
bản thành các khối lớn, các ghi chú xuất hiện thường xuyên và đóng vai trò là các điểm
neo phụ chia văn bản thành các khối nhỏ hơn. Các ghi chú về người nói thuộc nhóm điểm
neo phụ; các ghi chú còn lại thuộc nhóm điểm neo chính.
Pha đầu tiên chạy thành 2 bước. Bước 1 dùng các điểm neo chính chia văn bản thành
các khối lớn và gióng hàng các khối này với nhau bằng thuật toán quy hoạch động. Bước
2 dùng các điểm neo phụ để chia các khối lớn thành các khối nhỏ hơn và cũng gióng hàng
các khối nhỏ bằng thuật toán quy hoạch động. Tiếp theo là pha thứ hai, gióng hàng ở
mức câu.
Mỗi cặp gióng hàng mức câu được gọi là một gói câu (bead). Một gióng hàng sẽ là một
chuỗi các gói. Các gói được chia thành các loại dựa vào số lượng câu tiếng Anh và Pháp
như bảng 1.3. Một văn bản được hình dung là một chuỗi mà mỗi phần tử là độ dài một
câu hoặc một điểm đánh dấu đoạn văn.
10

Gói câu

Định nghĩa

e

Một câu tiếng Anh

f

Một câu tiếng Pháp

ef

Một câu tiếng Anh và một câu tiếng Pháp

eef

Hai câu tiếng Anh và một câu tiếng Pháp

ef f

Một câu tiếng Anh và hai câu tiếng Pháp

¶e

Một đoạn văn tiếng Anh

¶f

Một đoạn văn tiếng Pháp

¶e ¶f

Một đoạn văn tiếng Anh và một đoạn văn tiếng Pháp
Bảng 1.3: Các loại gói câu
BEAD
start

q0

STOP

q1

Hình 1.1: Mô hình Markov sinh các gói câu
Mỗi một gióng hàng được sinh ra bởi 2 quá trình, một quá trình sinh ra chuỗi các gói
câu và quá trình thứ hai tính xác suất của chuỗi gói câu dựa trên độ dài của các câu trong
các gói câu. Hình vẽ 1.1 minh họa một quá trình Markov 2 trạng thái để sinh ra các gói.
Mỗi câu trong một ngôn ngữ đều có khả năng gióng hàng với 0, 1 hoặc 2 câu trong ngôn
ngữ khác. Như vậy, ta sẽ sinh ra tất cả các trạng thái có thể.
Với mỗi gói câu, ta xác định độ dài của các câu trong nó như sau. Giả sử xác suất để
một câu tiếng Anh có độ dài le nằm trong một gói câu e bằng xác suất để văn bản chứa
một câu tiếng Anh độ dài le . Tương tự cho gói câu f trong tiếng Pháp. Đối với gói câu
ef thì log của tỉ lệ độ dài câu tiếng Pháp trên câu tiếng Anh sẽ là một phân bố chuẩn
với kỳ vọng µ và phương sai σ 2 . Nên, nếu đặt r = log(lf /le ) ta giả thiết xác suất
P (lf |le ) = αe−
11

(r−µ)2
2σ 2

Tham số

Ước lượng

P (e),P (f )

0,007

P (ef )

0,690

P (eef ),P (ef f )

0,020

P (¶e ),P (¶f )

0,005

P (¶e ¶f )

0,245

µ

0,072

σ2

0,043

Bảng 1.4: Ước lượng tham số

với α được chọn sao cho tổng của P (lf |le ) bằng 1 trên tất cả các giá trị của lf . Với gói
câu dạng eef , ta giả thiết rằng mỗi câu tiếng Anh được rút độc lập từ phân phối P (le ) và

log của tỉ lệ độ dài của câu tiếng Pháp trên tổng độ dài của 2 câu tiếng Anh cũng là một
phân phối chuẩn với cùng kỳ vọng và phương sai như gói câu ef . Với gói câu dạng ef f ,
ta giả thiết độ dài của câu tiếng Anh từ phân phối P (le ) và log của tỉ lệ tổng độ dài 2
câu tiếng Pháp so với độ dài câu tiếng Anh có cùng phân phối chuẩn như trước. Đối với 2
câu tiếng Pháp thì xác suất để xuất hiện 2 câu có độ dài lf1 và lf2 bằng P (lf1 )P (lf2 ). Các
xác suất khác được tính theo giả thiết P (e) = P (f ), P (ef f ) = P (eef ) và P (¶e ) = P (¶f ).
Các tham số P (le ), P (lf ) với le , lf ≤ 81 được tính bằng cách thống kê trên dữ liệu huấn
luyện. Với độ dài lớn hơn được ước lượng bằng phân bố Poisson. Kì vọng và phương sai
µ, σ 2 được rút ra từ thống kê. Kết quả cho trong bảng 1.4.
Thuật toán gióng hàng được cài đặt trên máy IBM Model 3090 để gióng hàng kho ngữ
liệu Hansard Canada và thu được 2.869.041 gói ef . 1000 cặp ef ngẫu nhiên được chọn ra
và kiểm tra lại thủ công. Kết quả là tìm thấy 6 cặp bị sai, như vậy tỉ lệ lỗi là 0,6%. Lặp
lại với nhiều đoạn văn bản khác nhau, tỉ lệ lỗi trung bình khoảng 0,9%. Nếu không sử
dụng điểm neo thì tỉ lệ lỗi là 2,0%; nếu không dùng điểm đánh dấu đoạn văn thì tỉ lệ lỗi
là 2,3%; còn nếu không sử dụng cả điểm neo và điểm đánh dấu đoạn văn thì tỉ lệ lỗi là

12

3,2%.
Thuật toán Gale-Church
Phương pháp của Gale và Church, 1993 dựa trên giả thiết về sự tương ứng giữa độ dài
tính bằng số kí tự của cặp gióng hàng, theo đó đoạn dài sẽ được dịch thành một đoạn dài
và đoạn ngắn được dịch thành một đoạn ngắn. Thuật toán gióng hàng được chia thành 2
giai đoạn, đầu tiên gióng hàng ở mức đoạn văn tự động dựa trên đặc điểm của từng văn
bản, kết quả được tinh chỉnh thủ công, sau đó gióng hàng mức câu trên mỗi cặp đoạn
văn tương ứng. Các cặp ứng viên gióng hàng được gán một khoảng cách được tính dựa
trên tỉ lệ độ dài cặp và phương sai của tỉ lệ này. Kết quả gióng hàng được tính bằng một
thuật toán quy hoạch động.
Độ đo khoảng cách giữa cặp ứng viên gióng hàng được tính bằng công thức − log P (match|δ)

trong đó match là loại gióng hàng tính theo số câu của cặp ứng viên và δ phụ thuộc vào
độ dài l1 và l2 của cặp. Giả thiết là mỗi một ký tự ở ngôn ngữ L1 tạo ra một số lượng
ngẫu nhiên các ký tự trong bản dịch ở ngôn ngữ L2 , sự phụ thuộc này được gọi là tương
√
ứng ký tự. δ được định nghĩa bằng (l2 − l1 c)/ l1 s2 , trong đó c, s2 là giá trị kỳ vọng và
phương sai của biến ngẫu nhiên về tương ứng ký tự vừa đề cập. c và s2 được tính bằng
thực nghiệm, dựa trên thống kê một kho ngữ liệu tương đối lớn. Đối với cặp ngôn ngữ Đức
- Anh và Pháp - Anh kết quả lần lượt là c = 1, 1, s2 = 7, 3 và c = 1, 06, s2 = 5, 6. Trong
mô hình để đơn giản, nhóm tác giả lấy c = 1 và s2 = 6, 8. Theo công thức Bayes, xác suất
P rob(match|δ) được tính bằng P (δ|match)P (match)/P (δ) trong đó, P (δ) là một hằng
số nên ta chỉ lấy P (δ|match)P (match). Xác suất P (δ|match) được ước lượng bằng công
thức:
P (δ|match) = 2(1 − P (|δ|)
với P (δ) là hàm phân phối của phân phối chuẩn với kỳ vọng bằng không và phương sai
bằng một, nghĩa là:
1
P (δ) = √
2π
.

13

δ

e−z
−∞

2 /2

dz

Loại

Tần số

Xác suất

1:1

1167

0,89

1:0 hoặc 0:1

13

0,0099

2:1 hoặc 1:2

117

0,089

2:2

15

0,011

1312

1,00

Bảng 1.5: Thống kê số lượng gióng hàng mỗi loại

Hàm tiên nghiệm P (match) được tính dựa vào thống kê số lượng mỗi loại gióng hàng
trên dữ liệu huấn luyện như bảng 1.5. Các cặp gióng hàng với nhiều hơn 2 câu mỗi vế
như 3:1, 1:3, ... do xác suất xảy ra rất ít nên được giả thiết là không xảy ra.
Hàm khoảng cách d giữa cặp gióng hàng được gọi là khoảng cách hai cạnh (two side
distance) có đầu vào là 4 tham số x1 , x2 là 2 câu của văn bản thuộc ngôn ngữ L1 và y1 ,
y2 là 2 câu của văn bản thuộc ngôn ngữ L2 . Có 4 trường hợp có thể xảy ra:
1. d(x1 , 0; y1 , 0) là chi phí thay thế x1 bởi y1 ,
2. d(x1 , 0; 0, 0) là chi phí xóa x1 ,
3. d(0, 0; y1 , 0) là chi phí khi thêm y1 ,
4. d(x1 , x2 ; y1 , 0) là chi phí dịch gộp x1 , x2 thành y1 ,
5. d(x1 , 0; y1 , y2 ) là chi phí dịch tách x1 thành y1 và y2 ,
6. d(x1 , x2 ; y1 , y2 ) là chi phí dịch kết hợp x1 và x2 thành y1 và y2 .
Thuật toán quy hoạch động hoạt động như sau. Ta ký hiệu si , với i = 1 . . . I là các câu
của một ngôn ngữ, và tj với j = 1 . . . J là các câu dịch ở ngôn ngữ kia. Kí hiệu D(i, j) là
khoảng cách nhỏ nhất đạt được nếu gióng hàng i câu với j câu. D(i, j) được xác định đệ

14

loại

Anh-Pháp

Anh-Đức

Tổng

số câu

lỗi

%

số câu

lỗi

%

số câu

lỗi

%

1:0

8

8

100

5

5

100

13

13

100

1:1

542

14

2,6

625

9

1,4

1167

23

2,0

2:1

59

8

14

58

2

3,4

117

10

9

2:2

9

3

33

6

1

33

15

5

33

3:1

1

1

100

1

1

100

2

2

100

3:2

1

1

100

0

0

_

1

1

100

Bảng 1.6: Kết quả chạy thuật toán Gale-Church

quy với cơ sở D(i, j) = 0 với i = 0 hoặc j = 0 và theo công thức truy hồi:



D(i, j − 1) + d(0, 0; 0, tj )








D(i − 1, j) + d(si , 0; 0, 0)






D(i − 1, j − 1) + d(si , 0; tj , 0)
D(i, j) = min



D(i − 1, j − 2) + d(si , 0; tj , tj−1 )







D(i − 2, j − 1) + d(si , si−1 ; tj , 0)







D(i − 2, j − 2) + d(s , s ; t , t )
i

i−1

j

j−1

Sau khi tính ra D(I, J) rồi truy vết ngược lại sẽ ra cách gióng hàng tối ưu theo thuật
toán.
Chương trình cài đặt thuật toán thử nghiệm trên dữ liệu UBS (Union Bank of Switzerland) là 15 bản báo cáo bằng 3 thứ tiếng Anh, Pháp và Đức bao gồm 14.680 từ, 725 câu
và 118 đoạn văn. Gióng hàng mức câu lần lượt các cặp dữ liệu tiếng Anh với một trong
hai thứ tiếng còn lại. Kết quả được so sánh với kết quả gióng hàng thủ công. Kết quả là
gióng hàng chính xác 96% số câu và được thống kê tỉ mỉ theo từng loại gióng hàng như
bảng 1.6.
Nhóm tác giả cũng thử nghiệm thuật toán với độ dài câu tính bằng số từ trong câu đó,
nhưng kết quả thu được thấp hơn phương pháp trước.
15

1.3.2. Phương pháp gióng hàng dựa vào điểm tương đồng
Các thuật toán gióng hàng dựa vào chiều dài câu có ưu điểm là dễ cài đặt và chạy khá
nhanh. Tuy vậy chúng đòi hỏi văn bản phải chia đoạn và gióng hàng mức đoạn trước.
Thực tế những thuật toán này chỉ hiệu quả khi chạy trên từng đoạn văn bản ngắn. Đối
với những văn bản kích thước lớn chưa được gióng hàng đoạn, thuật toán không hiệu

quả cả về mặt thời gian và độ chính xác. Những văn bản đã được thử nghiệm trên hệ
thống của Gale và Church và Brown như Hansards đều rất dễ gióng hàng. Để khắc phục
hiện tượng đó, một số thuật toán tự động đi tìm những dấu hiệu để ngắt đoạn văn bản
dựa vào cặp điểm tương đồng. Thuật toán đầu tiên được đề xuất bởi Michel Simard và
Plamondon vào năm 1993. Sau đó Gale và Church đã thực hiện ý tưởng này trên hệ thống
char_align. Đến năm 1998, thuật toán gióng hàng dựa vào điểm tương đồng được Simard
và Plamondon [12] khảo xét lại và cài đặt thêm một số hệ thống dựa trên ý tưởng này.
Thuật toán của Simard và Plamondon
Thuật toán của Simard và Plamodon có thể chia thành 2 bước chính:
• Tạo văn bản gióng hàng mức đoạn dựa vào các điểm tương đồng
• Gióng hàng trên các đoạn văn bản đã chia
Simard và Plamondon [12] cài đặt công cụ có tên là Jacal để xác định các điểm tương
đồng. Công cụ này cùng loại với các công cụ đã phát triển trước đó như char_align của
Church (1993), và SIMR của Melamed (1996). Jacal sẽ xác định các điểm tương đồng
cô lập (isolated cognate) đó là các cặp từ tố trong cặp văn bản song ngữ giống nhau và
không có từ nào khác tương tự trong vùng lân cận của mỗi từ trong cặp từ đó trong mỗi
văn bản (xem hình 1.2). 2 từ được gọi là điểm tương đồng nếu chúng có chung 4 kí tự
đầu (không phân biệt hoa thường và dấu phụ). Vùng lân cận được tính theo số kí tự và
chiếm khoảng 30% văn bản đang xét. Ta xếp các câu của 2 văn bản dọc trục x và y như
hình 1.2. Các điểm tương đồng cô lập này được xác định là các điểm neo của văn bản nếu
nó thỏa mãn các điều kiện sau:
16

Hình 1.2: Cơ chế chính của Jacal
• Xét tất cả các chuỗi n điểm liên tiếp (tương đối so với trục x)
• Xác định đường kẻ có tổng bình phương khoảng cách đến n điểm này bé nhất (leastsquare line) rồi vẽ một hình chữ nhật nhận đường kẻ này làm đường chính giữa và
độ rộng tỉ lệ với khoảng cách giữa điểm đầu và điểm cuối của chuỗi
• Với mỗi điểm, đếm số lượng hình chữ nhật chứa điểm đó
• Các điểm có ít hơn k ≤ n hình chữ nhật chứa nó sẽ không được coi là điểm neo.

Trong thuật toán, nhóm tác giả đề xuất các tham số k = 5, n = 6 và tỉ lệ độ rộng hình
chữ nhật so với khoảng cách điểm đầu và điểm cuối là 0,18 được xác định theo phương
pháp simulate annealing. Ở lần đầu xác định các cặp điểm tương đồng cô lập và điểm
neo thu được rất ít điểm neo. Do đó, nhóm tác giả lặp lại quá trình trên một lần nữa,
lần này cho từng đoạn văn bản nằm giữa 2 điểm neo liên tiếp. Do phạm vi tìm kiếm thu
hẹp lại nên một số cặp điểm cô lập mới được phát hiện và thêm những điểm neo mới.

17

Quá trình đó lặp đi lặp lại cho đến khi không điểm neo mới nào được thêm vào. Độ chính
xác của Jacal khoảng 99,4% đến 100%. Sau khi phân đoạn và gióng hàng trên các đoạn
này nhờ các cặp điểm neo, do mật độ của các điểm neo khá dày nên gần như hoàn thành
gióng hàng mức câu. Đối với những đoạn chưa gióng hàng, nhóm tác giả thực hiện thuật
toán gióng hàng mức câu bằng nhiều thuật toán. Thuật toán đầu tiên là xác định một
hành lang lân cận đường chéo chính nối giữa các điểm neo, các cặp câu rơi vào hành lang
lân cận này được xác định là gióng hàng với nhau. Một thuật toán khác cài đặt thành
chương trình Salign được đề xuất dựa trên ý tưởng của Chen (1993) [3] và Dagan và cộng
sự (1993). Hạt nhân của thuật toán là xác định xác suất để chuỗi từ v1 . . . vm gióng với
w1 . . . wn :

m

n

tr(vj |wi )
n

P (v1 . . . vm |w1 . . . wn ) = P (m|n)
j=1 i=1

Trong đó, P (m|n) là xác suất để chuỗi độ dài m là bản dịch của chuỗi độ dài n, tr(v|w)
là xác suất từ v xuất hiện trong văn bản của ngôn ngữ Ls nếu như từ w xuất hiện trong
văn bản dịch tương ứng của ngôn ngữ Lt . Phép gióng hàng A là phép gióng hàng làm tối
ưu xác suất xảy ra gióng hàng:
Amax = argmaxA

P (ta , sa ).
a∈A

Để tìm phép gióng hàng, Simard và Plamondon sử dụng thuật toán quy hoạch động. Kí
hiệu WA (I, J) là gióng hàng tối ưu nhất trên văn bản song ngữ tính đến vị trí I, J là
v0 . . . vI và w0 . . . wJ . Khi đó công thức truy hồi của thuật toán quy hoạch động như sau:
WA (I, J) = miniW (i, I, j, J) là điểm đánh giá khi gióng hàng chuỗi vi . . . vI−1 với wj . . . wJ−1 bằng lấy giá
trị đối của lo-ga-rít của P (wj . . . wJ−1 |vi . . . vI−1 ):
J−1

W (i, I, j, J) = δ(I − i, J − j) −

log
k=j

I−1
l=i

tr(wk |vl )
I −1

với δ(n, m) là xấp xỉ của − log P (m|n). I, J là những điểm ngắt của văn bản gióng hàng

như điểm neo do điểm tương đồng tạo thành hoặc các điểm nằm giữa các câu, do đó thuật
toán chạy khá nhanh.
18

Phát triển công cụ gióng hàng văn bản song ngữ (Tóm tắt trích đoạn)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về