Tải bản đầy đủ (.pdf) (104 trang)

Canh lề văn bản song ngữ anh việt và ứng dụng tp hồ chí minh đhqg tp hồ chí minh đại học bách khoa, 2005 b

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 104 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
...........................................................................................

TRẦN GIANG SƠN

CANH LỀ VĂN BẢN SONG NGỮ ANH-VIỆT
VÀ ỨNG DỤNG
(English-Vietnamese Bitext Alignment and Applications)

Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành : 01.02.10

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, THÁNG 06/2005


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học:
Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI

Cán bộ chấm nhận xét 1:
Tiến sĩ NGUYỄN XUÂN DŨNG

Cán bộ chấm nhận xét 2:
Tiến sĩ CAO HOÀNG TRỤ


Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ngày 18 tháng 08 năm 2005


LỜI CẢM ƠN

Tôi xin được gửi lời cảm ơn chân thành đến:
-

Cơ PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu và
thực hiện luận văn này. Nếu khơng có sự theo dõi và động viên của cơ, tơi sẽ
khơng thể hồn thành luận văn đúng thời gian quy định.

-

Các thày cô của Khoa Công nghệ Thơng tin trường Đại học Bách khoa TP. Hồ
Chí Minh đã tận tâm giảng dạy mở ra cho chúng tôi những con đường đến với
những tri thức mới.

-

Ban lãnh đạo XN Địa vật lý Giếng khoan thuộc XN Liên doanh VietsovPetro đã
tạo điều kiện hỗ trợ động viên tôi trong suốt khoá học.

-

Các bạn, các anh chị đồng nghiệp đã gánh vác một phần công việc hàng ngày.


-

Những bạn bè thân thiết và gia đình đã ln động viên khuyến khích tơi học tập
và phấn đấu.


TĨM TẮT
Văn bản song ngữ ở đó nội dung được thể hiện bằng các ngôn ngữ khác nhau, ngày
càng trở nên phong phú và sẵn có trong những kho dữ liệu riêng hoặc được chia sẻ ở những
trang Web trên mạng Internet. Văn bản song ngữ được dùng như là cơ sở tri thức cho các lĩnh
vực như dịch máy, xây dựng từ điển song ngữ, giải quyết nhập nhằng ngữ nghĩa của từ, rút
trích thơng tin. Canh lề văn bản cũng là một công cụ thiết thực đối với những người phiên
dịch.
Bước đầu tiên trong việc rút trích thơng tin từ văn bản song ngữ là tìm được sự tương
ứng giữa hai nửa của văn bản song ngữ (chính là ánh xạ và canh lề văn bản song ngữ). Một số
phương pháp tự động cho công việc này đã được đưa ra trong những năm gần đây. Tuy nhiên
cho dù phương pháp được cho là tốt nhất cũng gặp phải những hạn chế nhất định. Thuật toán
SIMR và GSA là những thuật toán mới nhất được sử dụng trong việc ánh xạ và canh lề văn
bản song ngữ.
Thuật toán SIMR là một giải thuật tham lam dùng trong việc ánh xạ văn bản song ngữ.
SIMR đã sử dụng một số ý tưởng của các giải thuật trước đó. Giống như những thuật giải của
Gale & Church (1991) và Brown et al. (1991), giải thuật SIMR phụ thuộc vào sự tương quan
chiều dài của các văn bản thành phần trong văn bản song ngữ. Giống như giải thuật char_align
của Church (1993), giải thuật SIMR tìm ra bản đồ ánh xạ dựa trên những điểm giống nhau
trên mặt phẳng xác suất của văn bản song ngữ. Nhưng không giống như các phương pháp
trước đó giải thuật SIMR mỗi lần chỉ tìm kiếm những điểm tương ứng có ích. Kết quả của
SIMR có thể được chuyển đổi dễ dàng và nhanh chóng thành sự canh lề câu nhờ giải thuật
GSA.
Trong luận văn này tơi sẽ trình bày thế nào là giải thuật SIMR và GSA, làm thế nào để
ứng dụng chúng trong việc canh lề văn bản song ngữ Anh-Việt. Kết quả của việc canh lề sẽ

giúp ích cho việc biên soạn những văn bản song ngữ này thành những nguồn thông tin hữu ích
trong việc nghiên cứu ngơn ngữ tiếng Việt.


ABSTRACT
Parallel texts or Bitexts - where the same content is available in several languages, due
to document translation, are becoming plentiful and available, both in private warehouses and
on publicly accessible sites on the World Wide Web. Bitexts can be used as knowledge
resources in many domains such as for machine translation, bilingual lexicography, word
sense disambiguation, or multilingual information retrieval. Text alignment can also be a
useful practical tool for assisting translators.
The first step in extracting information from a bitext is to describe the correspondence
between the two halves of the bitext (bitext mapping and alignment). Several automatic
methods for this task have been proposed in recent years. Yet even the best of these methods
can err by several typeset pages. The Smooth Injective Map Recognizer (SIMR) and the
Geometric Segment Alignment (GSA) are new bitext mapping and alignment algorithms.
The Smooth Injective Map Recognizer (SIMR) is a greedy algorithm for mapping
bitext correspondence. SIMR borrows several insights from previous work. Like Gale &
Church (1991) and Brown et al. (1991), SIMR relies on the high correlation between the
lengths of mutual translations. Like char_align (Church 1993), SIMR infers bitext maps from
likely points of correspondence between the two texts, points that are ploted in a twodimensional space of possibilities. Unlike previous methods, SIMR searches for only a
handful of points of correspondence at a time. SIMR’s bitext maps can be converted quickly
and easily into

sentence alignments using the Geometric Segment Alignment (GSA)

algorithm.
In this paper I described what SIMR and GSA are, how to apply SIMR and GSA
algorithms for bitext mapping and alignment to English-Vietnamese Bitexts. This will help to
compile these bitexts into a useful format for research and on Vietnamese language.



MỤC LỤC
LỜI CẢM ƠN...........................................................................................................................................
TĨM TẮT..................................................................................................................................................
ABSTRACT..............................................................................................................................................
MỤC LỤC..................................................................................................................................................
DANH MỤC CÁC HÌNH.....................................................................................................................
DANH MỤC CÁC BẢNG...................................................................................................................

CHƯƠNG 1:

GIỚI THIỆU ĐỀ TÀI..........................................................................................

1.1

GIỚI THIỆU CHUNG................................................................................................................

1.2

MỤC TIÊU LUẬN VĂN...........................................................................................................

1.3

ĐÓNG GÓP CỦA LUẬN VĂN.............................................................................................

1.4 CẤU TRÚC CỦA LUẬN VĂN...............................................................................................

CHƯƠNG 2:


CÁC ĐỊNH NGHĨA VÀ CƠNG THỨC TỐN HỌC....................

2.1

CANH LỀ VĂN BẢN LÀ GÌ..................................................................................................

2.2

CÁC PHÉP CANH LỀ CÂU.....................................................................................................

2.3

PHÉP CANH LỀ CHÉO............................................................................................................

2.4

MỨC ĐỘ HỒN TỒN VÀ ĐỘ CHÍNH XÁC..............................................................

2.5

HỆ SỐ DICE...................................................................................................................................

2.6

XÁC SUẤT CĨ ĐIỀU KIỆN...................................................................................................

2.7

CƠNG THỨC XÁC SUẤT BAYES.....................................................................................


2.8

TRUNG BÌNH VÀ ĐỘ LỆCH CHUẨN..............................................................................

2.9

PHÂN TÍCH HỒI QUY TUYẾN TÍNH..............................................................................

CHƯƠNG 3: CÁC NGHIÊN CỨU LIÊN QUAN................................................................
3.1

PHƯƠNG PHÁP CANH LỀ DỰA VÀO CHIỀU DÀI CÂU.......................................

3.1.1 Phương pháp của William A. Gale và Kenneth W.Church....................
3.1.2 Phương pháp của Peter F.Brown.......................................................................
3.2

PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO TỪ VỰNG.............................

3.2.1 Phương pháp của tác giả Martin Kay và Martin Roscheisen..............
3.3.2 Phương pháp của tác giả Stanley F.Chen......................................................
3.3 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO OFFSET..................................
3.4

NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC.................................................

3.5 ỨNG DỤNG CỦA CANH LỀ VĂN BẢN..........................................................................

3.5.1 Canh lề từ.......................................................................................................................
3.5.2 Dịch máy bằng phương pháp thống kê...........................................................

3.5.3 Dịch máy dựa vào ví dụ..........................................................................................

1
1
2
2
3
5
5
5
6
6
7
7
7
7
8
10
10
10
12
13
13
15
15
16
16
16
17
18



CHƯƠNG 4: CƠ SỞ LÝ THUYẾT.............................................................................................
4.1 THUẬT TOÁN SIMR...................................................................................................................

4.1.1
4.1.2
4.1.3
4.1.4

Biểu diễn hình học của văn bản song ngữ......................................................
Tạo điểm..........................................................................................................................
Nhận dạng chuỗi..........................................................................................................
Lọc nhiễu...........................................................................................................................

4.2 THUẬT TỐN GSA.....................................................................................................................
4.3 SƠ ĐỒ KHỐI CỦA Q TRÌNH CANH LỀ DỰA TRÊN SIMR VÀ GSA..........
4.4 ƯU KHUYẾT ĐIỂM CỦA SIMR VÀ GSA TRONG VIỆC CANH LỀ
VĂN BẢN.......................................................................................................................................
4.5 ÁP DỤNG SIMR VÀ GSA CANH LỀ VĂN BẢN ANH-VIỆT..................................

CHƯƠNG 5 HIỆN THỰC CHƯƠNG TRÌNH....................................................................
5.1

SƠ ĐỒ KHỐI CỦA CHƯƠNG TRÌNH................................................................................

5.1.1
5.1.2
5.1.3
5.1.4

5.1.5

Tạo từ điển.......................................................................................................................
Hiện thực giải thuật SIMR.......................................................................................
Giải thuật phân đoạn câu..........................................................................................
Hiện thực giải thuật GSA...........................................................................................
Giải thuật canh lề văn bản dựa vào chiều dài câu.......................................

5.2 TẠO TỪ ĐIỂN TỪ VỰNG (translation lexicon dictionary)..........................................
5.3 HIỆN THỰC GIẢI THUẬT SIMR..........................................................................................

5.3.1
5.3.2
5.3.3
5.3.4
5.3.5
5.3.6

Lớp CAxisTick................................................................................................................
Lớp CMapPoint..............................................................................................................
Lớp CBitextSpace...........................................................................................................
Lớp CMappingChain...................................................................................................
Lớp CSearchRectangle................................................................................................
Lớp CSIMR........................................................................................................................

5.4 PHÂN ĐOẠN CÂU (Sentence Segmentation)....................................................................

5.4.1 Giới thiệu............................................................................................................................
5.4.2 Một số phương pháp phân đoạn câu....................................................................
5.4.3 Phương pháp phân đoạn câu trong luận văn..................................................

5.5 HIỆN THỰC GIẢI THUẬT GSA............................................................................................

5.5.1 Lớp CSegment..................................................................................................................
5.5.2 Lớp CAlignedBlock.......................................................................................................
5.5.3 Lớp CGSA..........................................................................................................................
5.6 GIẢI THUẬT CANH LỀ VĂN BẢN DỰA VÀO CHIỀU DÀI CÂU........................

5.6.1 Giới thiệu giải thuật......................................................................................................
5.6.2 Tính giá trị trung bình c.............................................................................................
5.6.3 Tính độ lệch chuẩn........................................................................................................

21
21
21
23
24
24
25
27
28
29
30
30
31
31
32
33
34
35
38

38
39
41
44
50
56
59
59
60
61
62
62
64
65
66
66
69
70


5.6.4 Tính xác suất của các phép canh lề......................................................................

72

CHƯƠNG 6: KẾT QUẢ THỰC NGHIỆM.............................................................................

73

CHƯƠNG 7: ỨNG DỤNG CỦA CANH LỀ VĂN BẢN...................................................


79
79
79
80
82

7.1 GIỚI THIỆU CANH LỀ TỪ........................................................................................................
7.2 MỐI LIÊN HỆ GIÁN TIẾP GIỮA CÁC TỪ........................................................................
7.3 GIẢI THUẬT CANH LỀ TỪ......................................................................................................
7.4 KẾT QUẢ THỰC NGHIỆM.......................................................................................................

8.2.1 Hướng nghiên cứu..........................................................................................................
8.2.2 Hướng ứng dụng..............................................................................................................

83
83
84
84
85

BẢNG THUẬT NGỮ ANH-VIỆT ĐỐI CHIẾU......................................................................

86

BẢNG THUẬT NGỮ VIỆT-ANH ĐỐI CHIẾU......................................................................

87

THƯ MỤC THAM KHẢO....................................................................................................................


88

PHỤ LỤC A
SỬ DỤNG CHƯƠNG TRÌNH CANH LỀ VĂN BẢN..................
A.1 Yêu cầu hệ thống.................................................................................................................
A.2 Cài đặt......................................................................................................................................
A.3 Sử dụng chương trình.......................................................................................................

A-1
A-1
A-1
A-1

CHƯƠNG 8: KẾT LUẬN...................................................................................................................
8.1 TỔNG KẾT........................................................................................................................................
8.2 MỞ RỘNG VÀ PHÁT TRIỂN ĐỀ TÀI...................................................................................


DANH MỤC CÁC HÌNH
Hình 2-1
Hình 3-1
Hình 3-2
Hình 4-1
Hình 4-2

Phép canh lề chéo.................................................................................................................
Mơ hình dịch máy bằng phương pháp thống kê...................................................
Kiến trúc tổng qt của dịch máy dựa vào ví dụ..................................................
Khơng gian của văn bản song ngữ...............................................................................
Đỉnh của hình chữ nhật trong lần tìm kiếm hiện hành sẽ trùng với góc

trên bên phải của chuỗi được tìm thấy ở lần trước đó........................................
Hình 4-3 Những cặp từ thường gặp có xu hướng tạo thành những điểm tương
ứng giả nằm trên các đường thẳng đứng hoặc nằm ngang..............................
Hình 4-4 Dấu phân cách khối văn bản sẽ tạo nên lưới trong không gian của văn
bản song ngữ...........................................................................................................................
Hình 4-5 Sơ đồ khối của quá trình canh lề..................................................................................
Hình 5-1 Sơ đồ khối của chương trình...........................................................................................
Hình 5-2 Từ điển Anh-Việt trong cơ sở dữ liệu Access.......................................................
Hình 5-3 Từ điển Việt-Anh trong cơ sở dữ liệu Access.......................................................
Hình 5-4 Sơ đồ khối của thuật tốn tạo từ điển Việt-Anh...................................................
Hình 5-5 Nhóm các điểm của một chuỗi......................................................................................
Hình 5-6 Ví dụ về chuỗi có điểm xung đột.................................................................................
Hình 5-7 Tương quan chiều dài giữa các câu tiếng Anh và tiếng Việt.........................
Hình 7-1 Sơ đồ khối của giải thuật canh lề từ............................................................................
Hình A-1 Giao diện của chương trình.............................................................................................
Hình A-2 Biểu diễn hình học của văn bản song ngữ...............................................................
Hình A-3 Hộp thoại tạo tập tin văn bản song ngữ.....................................................................

6
17
20
21
23
25
26
28
30
35
36
37

47
48
68
81
A-2
A-2
A-3


DANH MỤC CÁC BẢNG
Bảng 3-1
Bảng 5-1
Bảng 5-2
Bảng 5-3
Bảng 5-4
Bảng 5-5
Bảng 6-1
Bảng 6-2
Bảng 6-3
Bảng 6-4
Bảng 6-5
Bảng 7-1

Các bead có thể có giữa hai ngơn ngữ Anh, Pháp.................................................
Ví dụ về từ dịch của một số từ tiếng Anh..................................................................
Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn..............................
Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh trong một số văn bản
song ngữ.....................................................................................................................................
Bảng giá trị tính giá trị bình phương độ lệch s2......................................................
Xác suất của các phép canh lề.........................................................................................

Danh sách các văn bản được canh lề............................................................................
Độ chính xác của một số văn bản song ngữ.............................................................
Một phần kết quả canh lề văn bản “Diễn văn của ngài Đại sứ Michael
W. Marine trước phòng thương mại Hoa Kỳ tại Hà Nội”...............................
Một phần kết quả canh lề văn bản “Tổng quan chiến lược quốc tế của
Mỹ”...............................................................................................................................................
Một phần kết quả canh lề văn bản “Kinh tế thị trường là gì”..........................
Một phần của kết quả canh lề từ.....................................................................................

12
69
69
70
71
72
74
75
76
78
78
82


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1 GIỚI THIỆU CHUNG

Văn bản song ngữ là văn bản mà ở đó nội dung được thể hiện bằng các ngơn ngữ
khác nhau. Văn bản song ngữ thường được sử dụng trong các tài liệu hành chính, pháp
luật, báo hoặc tạp chí ở các nước hoặc vùng lãnh thổ có sử dụng nhiều ngơn ngữ khác nhau
làm ngơn ngữ chính thức như Canada, Switzerland, Hongkong v.v... Nguyên nhân của việc
sử dụng những văn bản song ngữ này là chúng sẵn có với một số lượng rất lớn, hơn nữa
chất lượng dịch thuật của chúng cũng rất cao.
Để lợi dụng những văn bản song ngữ, nhiệm vụ đầu tiên là phải tiến hành canh lề
văn bản, tức là tìm ra sự tương ứng giữa các đoạn văn hoặc câu trong hai ngôn ngữ trong
văn bản song ngữ. Vấn đề này đã được nghiên cứu rất kỹ lưỡng và đã có rất nhiều phương
pháp hữu hiệu đã được đưa ra. Sau khi đã canh lề theo câu, bước kế tiếp là cần phải canh lề
từ, tức là tìm xem từ hay cụm từ trong ngôn ngữ này tương ứng với từ hay cụm từ nào của
ngôn ngữ kia trong văn bản song ngữ, bước này có thể coi như là bước xây dựng từ điển
song ngữ từ văn bản song ngữ.
Canh lề văn bản là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu
song ngữ. Canh lề văn bản không chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy
mà nó cịn hỗ trợ cho nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thơng
tin v.v... Canh lề văn bản cịn là một cơng cụ hữu ích để trợ giúp cho những người làm
công tác phiên dịch.
Trong canh lề văn bản, canh lề câu là giải thuật được quan tâm nhiều nhất vì kết
quả của nó được áp dụng cho canh lề từ và dịch máy theo ví dụ. Việc canh lề câu khơng
phải là cơng việc dễ dàng bởi vì khơng phải lúc nào cũng có sự tương ứng một một giữa
các câu trong hai ngôn ngữ trong văn bản song ngữ. Nhiều tác giả thuộc các trường đại học
trên thế giới đã nghiên cứu và đưa ra nhiều giải thuật khác nhau. Trong đó các phương
pháp thống kê tỏ ra chiếm ưu thế và được nghiên cứu tương đối nhiều hơn so với các
phương pháp khác.
Các giải thuật thống kê được chia làm hai xu hướng chính: xu hướng thứ nhất dựa
vào từ vựng; xu hướng thứ hai dựa vào chiều dài câu. Mỗi một xu hướng đều có những
điểm mạnh vào điểm yếu riêng, không giải thuật nào nổi trội hơn hẳn. Năm 1997 tác giả I.
Dan Melamed đã đưa ra giải thuật SIMR và GSA là những giải thuật dựa trên việc nhận
dạng mẫu, các giải thuật này chính là sự kết hợp giữa xu hướng dựa vào chiều dài câu và

dựa vào từ vựng. Dùng giải thuật SIMR và GSA ta có thể tận dụng được những ưu thế của
2 xu hướng canh lề dựa vào chiều dài câu và dựa vào từ vựng. Tuy nhiên việc hiện thực

Trang 1


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

giải thuật SIMR và GSA đòi hỏi nhiều thời gian và công sức hơn so với việc thực hiện các
giải thuật dựa vào từ vựng và dựa vào chiều dài câu.
1.2 MỤC TIÊU LUẬN VĂN


Nghiên cứu giải thuật SIMR và GSA.



Nghiên cứu cách ứng dụng giải thuật SIMR và GSA vào canh lề văn bản Anh-Việt.



Tạo ra cơ sở dữ liệu gồm các cặp câu văn bản cùng nghĩa Anh-Việt.

1.3 ĐÓNG GÓP CỦA LUẬN VĂN
Mặc dù giải thuật canh lề văn bản đã được thực hiện bởi nhiều tác giả trên thế giới
cho những cặp ngôn ngữ tự nhiên khác nhau. Nhưng riêng đối với tiếng Việt các cơng trình
nghiên cứu cịn rất ít ỏi.
Hơn nữa, trong các tài liệu về các giải thuật có được ở thời điểm hiện tại ở Việt

Nam cũng như các tài liệu được tải từ mạng Internet, các tác giả chỉ trình bày ý tưởng giải
thuật. Do đó, khi áp dụng cho tiếng Việt chúng ta phải tốn nhiều thời gian để tìm hiểu và
hiện thực giải thuật. Một khó khăn khác khi thực hiện đề tài này là việc tìm kiếm văn bản
song ngữ được dịch tương đối chuẩn để chạy thử nghiệm chương trình. Sau khi tìm kiếm
trên mạng, tơi nhận thấy rằng các văn bản có trong website
( của đại sứ quán Hoa Kỳ tại Hà Nội có chất lượng
dịch khá tốt và dùng chúng cho việc kiểm tra thử nghiệm.
Nhược điểm của phương pháp canh lề dựa theo chiều dài câu là phải tiến hành canh
lề đoạn trước (paragraph aligning) làm cho quá trình canh lề khơng phải là tự động hồn
tồn. Đối với phương pháp canh lề dựa vào từ vựng thì nhược điểm của nó là tốc độ chậm
và khơng canh lề được đối với các văn bản ngắn. SIMR và GSA đã khắc phục được những
nhược điểm trên, nó làm cho q trình canh lề hoàn toàn tự động, tốc độ được cải thiện, độ
chính xác cao cho cả trường hợp văn bản ngắn và văn bản dài.
Canh lề văn bản được tác giả Lê Hồi Nhân, học viên khoa Cơng nghệ Thơng tin
Trường Đại học Bách khoa TP. Hồ Chí Minh thực hiện năm 2004. Tác giả Lê Hoài Nhân
đã dùng 2 phương pháp khác nhau để thực hiện canh lề, đó là: phương pháp canh lề dựa
trên chiều dài câu và phương pháp canh lề dựa trên từ vựng. Tác giả đã có những cải tiến
hai phương pháp trên để có thể áp dụng trong việc canh lề văn bản Anh-Việt, kết quả cho
thấy khi áp dụng phương pháp canh lề dựa trên chiều dài câu độ chính xác lên tới 98%,
phương pháp dựa trên từ vựng có độ chính xác là 96%. Tuy nhiên, vì số lượng các văn bản
song ngữ dùng để chạy thử nghiệm cịn q ít (có 8 văn bản song ngữ) nên chưa có tính

Trang 2


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

thuyết phục cao, hơn nữa chương trình sử dụng chưa được tiện ích, kho ngữ liệu tạo ra cịn

q ít và khó lịng sử dụng được.
Đối với việc sử dụng giải thuật SIMR và GSA để canh lề văn bản song ngữ, tác giả
I. Dan Melamed sử dụng trong việc canh lề các văn bản song ngữ Anh-Pháp. Tuy nhiên
tiếng Anh và tiếng Pháp là các ngơn ngữ mà các từ là các từ đơn, cịn đối với tiếng Việt
các từ thường là các từ ghép cho nên cần phải cải tiến hai giải thuật trên cũng như các giải
thuật phụ trợ khác cho phù hợp với tiếng Việt.
Tóm lại, đóng góp của luận văn như sau:


Nghiên cứu hai giải thuật SIMR và GSA, ứng dựng và cải tiến hai giải thuật trên để có
thể canh lề văn bản song ngữ Anh-Việt. Từ đó nhằm làm phong phú, bổ sung cho các
phương pháp canh lề văn bản Anh-Việt mà đã được các tác giả khác thực hiện.



Thu thập được số lượng các bài báo, tạp chí tương đối lớn trên các lĩnh vực khác nhau
để tiến hành chạy thử. Độ chính xác của giải thuật rất cao 99.4 %.



Tạo ra một kho ngữ liệu tương đối lớn bao gồm 10000 cặp câu song ngữ Anh-Việt có
thể giúp ích cho các bạn sinh viên hoặc những người nghiên cứu trong lĩnh vực xử lý
ngôn ngữ tự nhiên tiếng Việt.



Chương trình tiện ích, ổn định, dễ sử dụng. Hơn nữa, chỉ cần một số thay đổi nhỏ có
thể sử dụng chương trình để canh lề cho các văn bản song song của các cặp ngôn ngữ
khác nhau.


Kết quả giải thuật có độ chính xác khá cao, trong tương lai khi các văn bản song
ngữ ở dạng máy tính đọc được trở nên phổ biến, chúng ta có thể tạo ra một corpus các câu
song ngữ Anh-Việt lớn hơn, giúp cho việc nghiên cứu xử lý ngôn ngữ tự nhiên nói chung
và dịch máy bằng ví dụ nói riêng dễ dàng hơn.
1.4 CẤU TRÚC CỦA LUẬN VĂN
Luận văn được tổ chức thành 8 chương.
Chương 1: Giới thiệu về luận văn, lý do chọn luận văn cũng như những đóng góp
của luận văn.
Chương 2: Trình bày các định nghĩa, thuật ngữ, cũng như các cơng thức tốn học
được sử dụng trong luận văn.
Chương 3: Trình bày tổng qt các cơng trình nghiên cứu về canh lề văn bản đã
được các tác giả trên thế giới thực hiện. Chú trọng vào phương pháp canh lề dựa vào chiều

Trang 3


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

dài câu và canh lề dựa vào từ vựng, đồng thời cũng nêu lên những ưu khuyết điểm của
từng phương pháp.
Chương 4: Trình bày về cơ sở lý thuyết của hai giải thuật SIMR và GSA cũng như
ưu khuyết điểm của chúng.
Chương 5: Trình bày về sự hiện thực chương trình canh lề văn bản ứng dụng hai
giải thuật SIMR và GSA. Trong phần này ngoài việc trình bày cách hiện thực hai giải thuật
trên cịn trình bày cách hiện thực các giải thuật phụ trợ như giải thuật phân đoạn câu, giải
thuật canh lề văn bản dựa vào chiều dài câu, tạo từ điển Anh-Việt và Việt-Anh.
Chương 6: Đưa ra kết quả thực nghiệm của chương trình.
Chương 7: Trình bày một ứng dụng của canh lề văn bản đó là tạo từ điển song ngữ

Anh Việt
Chương 8: Tổng kết lại những lý thuyết, kỹ thuật và kinh nghiệm có được sau khi
phát triển chương trình. Thơng qua đó, những phương hướng mở rộng đề tài cũng được đề
xuất.
Sau chương 8 là phần thư mục tham khảo, bảng thuật ngữ Việt-Anh, Anh-Việt đối
chiếu và một phụ lục hướng dẫn sử dụng chương trình.

Trang 4


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

CHƯƠNG 2: CÁC ĐỊNH NGHĨA VÀ CƠNG THỨC TỐN HỌC
2.1

CANH LỀ VĂN BẢN LÀ GÌ

Có nhiều cách khác nhau để định nghĩa phép canh lề là gì. Chẳng hạn, chúng ta có
thể coi phép canh lề như là quan hệ hai ngôi giữa các thực thể ngơn ngữ (linguistic
entities). Cho một văn bản song ngữ thì văn bản thành phần A, B của văn bản song ngữ
được coi như chuỗi của các thực thể A={a1, a2, ..., an}, B={b1, b2, ..., bm}. Chúng ta có thể
định nghĩa phép canh lề XAB như là một quan hệ hai ngôi trên tập A∪B:
XAB={(a1, b1), (a2, b2), ...}
Cặp (a, b) thuộc về quan hệ XAB nếu và chỉ nếu tồn tại một sự tương ứng về nghĩa giữa a
và b, sự tương ứng về nghĩa này có thể là toàn bộ hay chỉ là một phần.
Nếu các thực thể ngơn ngữ được canh lề là câu thì chúng ta sẽ có phép canh lề câu
(sentence alignment), nếu là các cụm từ thì chúng ta có phép canh lề cụm từ (phrase
alignment), cịn nếu chúng là các từ thì chúng ta có phép canh lề từ (word alignment).

Mục đích của việc canh lề câu là tìm ra những nhóm câu của ngơn ngữ này (thơng
thường mỗi nhóm sẽ có một câu) tương ứng với nhóm câu nào trong ngơn ngữ kia. Những
nhóm câu này được gọi là một phép canh lề câu hay là một bead.
Tóm lại: Việc chỉ ra các đoạn tương ứng về nghĩa trong hai văn bản song ngữ
được gọi là canh lề. Nếu các đoạn là câu thì giải thuật được gọi là canh lề câu. Nếu các
đoạn là các từ hay cụm từ thì giải thuật được gọi là canh lề từ hay cụm từ.
2.2 CÁC PHÉP CANH LỀ CÂU
Một câu tiếng Anh thường được dịch sang một câu tương ứng trong tiếng Việt.
Điều này cũng đúng cho những cặp ngôn ngữ khác. Ta gọi phép canh lề này là phép canh
lề một-một (1-1). Phép canh lề này có xác suất lớn nhất trong các phép canh lề.
Tương tự, nếu một câu tiếng Anh được dịch sang hai câu tiếng Việt, ta gọi phép
canh lề này là phép canh lề một-hai (1-2). Trường hợp ngược lại được gọi là phép canh lề
hai-một (2-1). Còn đối với phép canh lề hai-hai (2-2) trong thực tế rất hiếm thấy.
Cũng có khi một câu trong văn bản tiếng Anh vì lý do nào đó khơng được dịch
hoặc bị xố, do đó khơng có câu nào tương ứng trong văn bản tiếng Việt. Ta gọi phép canh
lề này là phép canh lề một-khơng (1-0), ngược lại ta có phép canh lề (0-1).
Về mặt lý thuyết thì vẫn tồn tại phép canh lề ba-một (3-1) hoặc phép canh lề mộtba (1-3) nhưng với xác suất vơ cùng thấp. Do đó một số giải thuật đã bỏ qua phép canh lề
này.

Trang 5


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

2.3 PHÉP CANH LỀ CHÉO
Một văn bản thơng thường được dịch từ trên xuống. Điều đó có nghĩa là: nếu câu
thứ i trong văn bản nguồn được dịch thành câu thứ j trong văn bản đích thì câu thứ i+1 sẽ
được dịch thành câu thứ j+1, hoặc có thể được dịch thành câu j+1 và j+2 (trường hợp một

câu trong văn bản nguồn được dịch thành 2 câu trong văn bản đích). Nếu vi phạm điều đó,
ta gọi là canh lề bị chéo như được mơ tả trong hình 2-1.
Tiếng Việt

Tiếng Anh

.....................
Câu thứ i
Câu thứ i+1
Câu thứ i+2
.....................

.....................
Câu thứ j
Câu thứ j+1
Câu thứ j+2
.....................
Hình 2-1. Phép canh lề chéo

Đương nhiên, đối với các dịch giả, không có một quy tắc hay một ràng buộc nào
cấm việc dịch chéo như thế này. Nhưng khi quan sát các văn bản song ngữ, gần như khơng
có các câu dịch theo thứ tự chéo. Trong các thuật toán người ta ít khảo sát phép canh lề
chéo.
2.4 MỨC ĐỘ HOÀN TOÀN VÀ ĐỘ CHÍNH XÁC
Giả sử chúng ta có văn bản song ngữ bitext(S, T, Ar) trong đó S là văn bản nguồn,
T là văn bản đích cịn Ar là một sự canh lề nào đó của văn bản. Đồng thời cũng giả sử rằng
A là canh lề lý tưởng, tức là ở đó tất cả các câu đều được canh lề chính xác. Khi đó mức
độ hồn tồn (recall) của canh lề Ar có cơng thức như sau:
recall = |A ∩ Ar|/|A|
Cịn độ chính xác (precision) của phép canh lề được định nghĩa như sau:

precision=|A ∩ Ar|/|Ar|
Một phép canh lề hồn hảo sẽ có recall=1.0 và precision=1.0, điều này xảy ra nếu
A=Ar. Một phép canh lề tồi nhất sẽ có recall=0.0 và precision=0.0, điều này xảy ra nếu A
∩ Ar = ∅. Những phép canh lề khác sẽ có giá trị recall và precision nằm giữa 0 và 1.
Ví dụ, trong một văn bản song ngữ có 100 cặp câu, nếu giải thuật chỉ canh lề được
98 cặp câu thì mức độ hoàn toàn là 98%. Trong 100 cặp câu được canh lề nếu chỉ có 99
cặp câu được canh lề đúng thì độ chính xác là 99%. Nếu tỷ lệ chính xác là 99% thì tỷ lệ
canh lề sai là 100% - 99% = 1%. Như vậy số câu được canh lề chính xác sẽ được tính theo
cơng thức sau:

Trang 6


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

Số câu được canh lề đúng = mức độ hồn tồn * độ chính xác
2.5 HỆ SỐ DICE
Cho hai tập hợp A và B, hệ số Dice được định nghĩa như sau:
D=

2 A∩ B
A+B

Tính chất của hệ số Dice là 0 ≤ D ≤ 1. Hệ số Dice thường được dùng để tính tốn
mức độ giống nhau giữa hai tập hợp.
2.6 XÁC SUẤT CÓ ĐIỀU KIỆN

Xác suất để sự kiện A xảy ra khi sự kiện B đã xảy ra với xác suất P(B) (với

P(B)>0) được tính theo cơng thức sau:
P( A ∩ B )
P( B )
Từ đó, ta có cơng thức nhân xác suất như sau:

P(A|B)=

P(A ∩ B)=P(B).P(A|B)=P(A).P(B|A)
Nếu sự kiện A và B độc lập với nhau, ta có:
P(A ∩ B)=P(A).P(B)
Độc lập có điều kiện: nếu biến cố A và B độc lập với nhau với điều kiện sự kiện C
đã xảy ra, ta sẽ có cơng thức sau:

P(A ∩ B | C)=P(A | C).P(B | C)
2.7 CƠNG THỨC XÁC SUẤT BAYES

Cơng thức xác suất Bayes như sau:
P( B ∩ A) P ( A | B ) P ( B )
P(B | A)=
=
P ( A)
P( A)
P(A) được xem và là hằng số chuẩn hoá (normalizing constant). Nếu như chúng ta
chỉ quan tâm đến sự kiện nào có xác suất lớn nhất nếu sự kiện A đã xảy ra, thì ta có thể bỏ
qua P(A).
2.8 TRUNG BÌNH VÀ ĐỘ LỆCH CHUẨN

Trang 7



Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

X là biến nhận giá trị ngẫu nhiên thuộc R, ta định nghĩa:
P(x) = P(X=x) là xác suất để biến X nhận giá trị x, từ định nghĩa này ta có hai tính
chất sau:
a) 0 ≤ P(x) ≤ 1
b) Σ P(x) = 1


Trung bình (mean, expectation)

E(X) =

∑ xp( x )
x



Độ lệch (variance)
Var(X) = E (( X − E ( X )) 2 ) = E ( X 2 ) − E 2 ( X )



Độ lệch chuẩn (standard deviation)

Khi đề cập đến độ lệch trong một trường hợp cụ thể ta dùng ký hiệu δ2, còn độ
lệch chuẩn chính là δ.
2.9 PHÂN TÍCH HỒI QUY TUYẾN TÍNH


Giả sử X là một biến nào đó (có thể là biến ngẫu nhiên hay khơng ngẫu nhiên) cịn
Y là một đại lượng ngẫu nhiên phụ thuộc vào X theo cách sau đây: nếu X nhận giá trị x,
X=x, thì Y sẽ có kỳ vọng là αx + β, trong đó α và β là các hằng số. Khi đó ta nói Y có hồi
quy tuyến tính theo X, và đường thẳng có phương trình y = αx + β được gọi là đường
thẳng hồi quy lý thuyết của Y đối với X. Các hệ số α, β được gọi là hệ số hồi quy lý
thuyết.
Bài toán đặt ra là hãy ước lượng các hệ số hồi quy lý thuyết α và β trên một tập các
mẫu quan sát (x1, y1), (x2, y2),..., (xn, yn). Việc ước lượng α, β sẽ dựa trên phương pháp
bình phương nhỏ nhất. Hai đại lượng a và b sẽ được chọn làm ước lượng cho α, β nếu nó
làm cực tiểu tổng sau đây:
n

Q ( A, B ) = ∑ ( yi − Axi − B ) 2
i =1

Hệ phương trình để tìm điểm dừng (a,b) của hàm Q(A, B) sẽ có dạng như sau:
n
∂Q
= −2∑ xi ( yi − Axi − B ) = 0
∂A
i =1
n
∂Q
= −2∑ ( yi − Axi − B ) = 0
∂B
i =1
Giải hệ này (hệ phương trình tuyến tính có hai ẩn số A, B) ta tìm được

Trang 8



Canh lề văn bản song ngữ Anh-Việt và ứng dụng

a=

n ∑ xy − ∑ x ∑ y

b=

∑ y − a∑ x

GVHD: PGS. TS. Phan Thị Tươi

n∑ x 2 − (∑ x ) 2

n
Trong đó a và b được gọi là các hệ số hồi quy. Đường thẳng với phương trình
y=ax+b gọi là đường thẳng hồi quy. Từ cách xác định a,b ta thấy rằng trong số tất cả các
n
đường thẳng y=Ax+B xuyên qua đám mây điểm {(x i, yi )}i =1 , thì đường thẳng y=ax+b có

tổng bình phương các khoảng cách từ ( xi , yi ) tới đường thẳng là nhỏ nhất.
Ngoài việc ước lượng hệ số hồi quy α, β ta còn quan tâm đến việc ước lượng δ2,
đây chính là đại lượng đo độ phân tán của Y xung quanh đường thẳng hồi quy. Ước lượng
của δ2, được ký hiệu bởi SY2. X và được tính theo công thức sau:
1 n
∑ ( yi −axi − b) 2
n − 2 i =1
Dạng khác của công thức trên là

y 2 − a ∑ x y − b∑ y

2
SY . X =
n−2
SY . X được gọi là sai số tiêu chuẩn của đường hồi quy. Nó cho ta số đo sự phân tán

SY2. X =

của đám mây điểm {(x i, yi )}i =1 xung quanh đường thẳng hồi quy.
n

Trang 9


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

CHƯƠNG 3: CÁC NGHIÊN CỨU LIÊN QUAN
Phần này sẽ điểm qua các phương pháp và giải thuật quan trọng đã được dùng
trong canh lề văn bản, đồng thời cũng nêu lên một số ưu điểm cũng như hạn chế của từng
phương pháp.
3.1 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO CHIỀU DÀI CÂU

Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong những phương
pháp được sử dụng tương đối sớm. Phương pháp này sẽ không quan tâm đến yếu tố từ
vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu có trong văn bản. Điều này
nghe có vẻ lạ nhưng nó lại tỏ ra hữu hiệu về mặt thực thi của giải thuật. Ý tưởng chính của
phương pháp này là: những câu ngắn thường được dịch thành các câu ngắn cịn các câu

dài thì sẽ được dịch thành những câu dài. Chiều dài của câu có thể được tính bởi số lượng
từ hoặc số lượng ký tự có ở trong câu.
Để có thể canh lề câu chính xác, văn bản nguồn và văn bản đích cần được canh lề
theo đoạn trước, và công việc này thường được thực hiện thủ công bằng tay. Tuy nhiên
việc phân đoạn văn bản không phải là việc bắt buộc. Nếu văn bản không được phân đoạn
trước, giải thuật vẫn có thể canh lề nhưng với độ chính xác thấp hơn và thời gian thực thi
lâu hơn. Lợi điểm của phương pháp này là rất hữu hiệu và đơn giản. Phương pháp có thể
áp dụng cho những văn bản ngắn với độ chính xác khá cao, trong khi phương pháp dựa vào
từ vựng không thể canh lề cho những văn bản ngắn do số lần xuất hiện của các từ trong
văn bản không đủ lớn (nên không đủ tin cậy) để xác định các cặp từ tương ứng nghĩa.
Phương pháp này tỏ ra chính xác cho các cặp ngơn ngữ cùng họ, ví dụ như AnhPháp. Nhưng lại kém chính xác cho các ngơn ngữ khác họ như Anh-Nhật, Anh-Hoa, AnhViệt. Nếu như chiều dài câu được tính theo số lượng từ thì có thể áp dụng phương pháp
này cho cặp ngôn ngữ Anh-Việt, bởi vì theo nhận xét trực quan thì một từ trong tiếng Anh
thường được dịch ra 2 hoặc 3 từ tiếng Việt. Để có được kết luận chính xác ta cần tiến hành
thống kê trên nhiều văn bản song ngữ khác nhau.
Trong phương pháp canh lề văn bản dựa vào chiều dài câu, có 2 xu hướng khác
nhau, đó là tính chiều dài câu dựa trên số lượng ký tự và tính chiều dài câu dựa trên số
lượng từ.
3.1.1 Phương pháp của William A. Gale và Kenneth W.Church :

Theo phương pháp của tác giả Gale và Church [9] thì chiều dài câu được tính bằng
số lượng ký tự có trong câu. Gale cho rằng một ký tự trong ngôn ngữ S sẽ tương ứng với

Trang 10


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

một số ngẫu nhiên ký tự trong ngôn ngữ T. Biến ngẫu nhiên này độc lập và có phân bố

chuẩn với kỳ vọng là µ và phương sai là σ2. Với cặp câu L1 và L2 với chiều dài tương ứng
là l1 và l2, ta định nghĩa độ lệch δ giữa hai câu L1 và L2 như sau:

δ=

(l2 − l1 µ )

l1σ 2

Khi đó tác giả định nghĩa khoảng cách của phép canh lề 1-1 giữa L1 và L2 là log(Prob(match 1:1 | δ)). Khoảng cách của phép canh lề 1-0 là -log(Prob(match 1:0 | δ)),

đối với phép canh lề này thì chiều dài câu L2 là 0. Khoảng cách của phép canh lề 2-1 là log(Prob(match 2:1 | δ), đối với phép canh lề này thì chiều dài l1 được tính bằng tổng số

ký tự của 2 câu. Tương tự ta có thể định nghĩa phép khoảng cách cho các phép canh lề
khác.
Từ các định nghĩa trên ta thấy các phép canh lề có xác suất lớn nhất sẽ có khoảng
cách nhỏ nhất. Do đó mục đích của giải thuật là đi tìm một tổ hợp các phép canh lề khả dĩ
sao cho tổng khoảng cách của chúng là nhỏ nhất. Các phép canh lề khả dĩ bao gồm 1-0, 01, 1-1, 1-2 và 2-1, ở đây ta sẽ không quan tâm đến các phép canh lề 1-3 và 3-1.
Hơn nữa ta giả thiết rằng phép canh lề khơng bị chéo, khi đó nếu phép canh lề thứ k
là phép canh lề giữa hai câu thứ i và j thì phép canh lề thứ k+1 chỉ có thể là :


giữa i+1 và ∅, hoặc



giữa i+1 và j+1, hoặc




giữa i+1 và j+1, j+2, hoặc



giữa i+1, i+2 và j+1, hoặc



giữa i+1, i+2 và j+1, j+2

Điều này cho phép ta sử dụng lập trình động để tìm ra một tổ hợp các phép canh lề
sao cho tổng khoảng cách của chúng là nhỏ nhất.
Theo báo cáo của tác giả thì tỷ lệ canh lề sai là 4%. Tuy nhiên nếu chọn 80% phép
canh lề tốt nhất (best score) thì tỷ lệ này giảm xuống cịn 0.7%. Phép canh lề tốt nhất là
phép canh lề có khoảng cách nhỏ nhất trong các phép canh lề kết quả. Trong quá trình thực
thi giải thuật, với mỗi phép canh lề khả dĩ, giá trị khoảng cách được tính tốn và lưu lại.
Các giá trị khoảng cách này có thể được kết xuất ra văn bản kết quả, dựa vào đó ta xác
định được phép canh lề best score. Độ chính xác trên dựa vào kết quả canh lề các báo cáo
kinh tế của Union Bank of Switzerland, các báo cáo này được viết bởi ba ngôn ngữ khác
nhau Anh, Pháp và Đức.

Trang 11


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

Ưu điểm :



Đơn giản, tốc độ thực thi nhanh hơn nhiều so với phương pháp dựa vào từ vựng.



Cơng thức tính khoảng cách canh lề đơn giản, từ đó góp phần vào việc nâng cao tốc
độ giải thuật.



Độ chính xác khá cao.



Giải thuật khơng u cầu dữ liệu (từ điển từ vựng) hay kiến thức về cặp ngơn ngữ đang
được canh lề.



Có thể áp dụng cho các cặp ngơn ngữ tự nhiên mới.

Khuyết điểm :


Có thể canh lề sai khi các câu trong hai văn bản có tỷ lệ chiều dài quá khác biệt so với
thống kê ban đầu

3.1.2 - Phương pháp của Peter F.Brown :

Phương pháp của tác giả Brown [11] hầu như giống với phương pháp của tác giả

Gale. Điểm khác biệt của phương pháp này là thay vì tính chiều dài câu dựa trên số lượng
ký tự, tác giả tính chiều dài câu dựa trên số lượng từ. Thay vì canh lề các câu, tác giả phân
chia văn bản thành các bead. Bead được định nghĩa là một đoạn gồm 0, 1 hoặc 2 câu. Xác
suất của một bead là xác suất có điều kiện dựa vào chiều dài của bead. Mục đích của giải
thuật là tối đa hoá tổng xác suất của các bead.
Bead

Văn bản

Phép canh lề
tương ứng

e

Một câu tiếng Anh

1-0

f

Một câu tiếng Pháp

0-1

ef

Một câu tiếng Anh và một câu tiếng Pháp

1-1


eef

Hai câu tiếng Anh và một câu tiếng Pháp

2-1

eff

Một câu tiếng Anh và hai câu tiếng Pháp

1-2

Bảng 3-1 Các bead có thể có giữa hai ngơn ngữ Anh, Pháp
Cũng giống như phương pháp của tác giả Gale, Brown tiến hành canh lề các đoạn
giữa hai văn bản song ngữ trước khi tiến hành canh lề các bead. Để canh lề đoạn, tác giả
dùng các ghi chú và ký hiệu đặc biệt có sẵn trong văn bản.
Theo báo cáo của tác giả thì tỷ lệ canh lề sai là 4% khi canh lề một phần của
Canadian Hansard (Canadian Hansard là văn bản chính thức của các cuộc họp nghị viện

Trang 12


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi

quốc hội Canada). Tuy nhiên độ chính xác 96% khơng phải cho tồn bộ các văn bản, mà
chỉ cho các đoạn, mà theo kết quả canh lề đoạn, là tốt nhất.

Ưu điểm :



Đơn giản, tốc độ thực thi của giải thuật rất nhanh so với phương pháp dựa vào từ vựng.



Giải thuật khơng u cầu kiến thức về cặp ngơn ngữ.



Khơng cần từ điển song ngữ.

Khuyết điểm :


Độ chính xác 96% chỉ áp dụng cho các đoạn đã được canh lề trước. Do đó,
nếu áp dụng cho tồn bộ văn bản thử nghiệm, độ chính xác có nhiều khả năng sẽ thấp
hơn 96%.

3.2 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO TỪ VỰNG:

Với phương pháp chiều dài câu, đơi khi các câu liên tiếp nhau có chiều dài gây
nhập nhằng, ví dụ thay vì canh lề 1-1 là chính xác thì phép canh lề 1-2 lại cho khoảng cách
nhỏ hơn. Điều này dẫn đến kết quả canh lề sai. Trong trường hợp ngược lại thay vì canh lề
1-2 giải thuật lại quyết định là 1-1. Đây là những quyết định khó khăn của giải thuật. Khi
đó phương pháp dựa vào từ vựng tỏ ra hữu hiệu.
Với các phương pháp dựa trên từ vựng thì các văn bản nguồn và đích khơng cần
thiết phải được canh lề theo đoạn (paragraph aligning) trước.
3.2.1 Phương pháp của tác giả Martin Kay và Martin Roscheisen


Phương pháp của các tác giả [8] có thể được tóm tắt như sau :


Hai từ tạm xem là tương ứng giữa 2 ngôn ngữ nếu sự phân bố của chúng trong văn bản
là giống nhau.



Dựa vào các cặp từ này để canh lề câu.



Kết quả của canh lề câu sẽ được dùng để tạo ra các cặp từ tương ứng chính xác hơn.
Với nhận xét rằng : câu đầu tiên trong văn bản nguồn sẽ có nhiều khả năng được
canh lề với câu đầu tiên trong văn bản đích, câu cuối cùng trong văn bản nguồn sẽ có nhiều
khả năng được canh lề với câu cuối cùng trong văn bản đích (với giả thiết các phép canh lề
không được chéo), các tác giả đã đưa ra giải thuật canh lề như sau:

Trang 13


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi



Giả sử câu đầu tiên (câu cuối cùng) của văn bản nguồn được canh lề với câu đầu tiên
(câu cuối cùng) của văn bản đích, khi đó ta sẽ được neo (anchor) đầu tiên của văn bản.




Trong khi các câu trong văn bản chưa được canh lề tồn bộ :
- Tạo ra các cặp câu có nhiều khả năng sẽ được canh lề với nhau AST (Alignable
Sentence Table). Khi tạo AST, ta loại ra các cặp câu có phép canh lề vượt qua
các neo hoặc khoảng cách so với các neo tương ứng trong văn bản nguồn và
đích quá chênh lệch. Ta cho phép khoảng chênh lệch tăng khi khoảng cách của
các câu so với neo tăng lên.
- Dựa vào AST ta tính tốn mức độ giống nhau giữa các cặp từ trong hai ngôn
ngữ. Danh sách các cặp từ này gọi là WAT (Word Alignment Table). Với mỗi
cặp từ ta tính mức độ giống nhau dựa vào phân bố của chúng trong các cặp câu
thuộc AST. Sau đó trong WAT ta chọn ra các cặp từ có nhiều khả năng là tương
ứng nhất dựa vào mức độ giống nhau và tần suất xuất hiện của chúng. Cặp từ
nào có độ giống nhau lớn và tần suất xuất hiện cao thì độ tin cậy càng cao.
- Tìm cặp câu trong AST có chứa nhiều cặp từ vựng tương ứng nhất. Đây có thể
là cặp câu tương ứng trong kết quả cuối cùng. Một khi hai câu đã được canh lề,
chúng được xem như là những neo mới, ta thêm các neo này vào danh sách các
neo và lặp lại bước a) ở trên

Sau mỗi vòng lặp ta được nhiều neo hơn, do đó số lượng các cặp câu trong AST sẽ
giảm đi sau mỗi lần lặp, đồng thời các cặp từ trong WAT có độ tin cậy cao hơn.
Tuy nhiên độ phức tạp tính tốn và thời gian chạy của giải thuật lớn hơn rất nhiều
lần so với phương pháp chiều dài câu. Phương pháp này có độ chính xác thấp khi canh lề
các văn bản ngắn, vì tần suất xuất hiện của các từ khơng đủ lớn và tin cậy.
Tác giả không đưa ra độ chính xác và độ hồn tồn cho giải thuật. Tuy nhiên tác
giả đưa ra một ví dụ với độ chính xác lên đến 99.7% và mức độ hoàn toàn của giải thuật là
96% khi canh lề văn bản song ngữ Anh-Đức.

Ưu điểm :



Giải thuật canh lề tốt trong các trường hợp mà phương pháp dựa vào chiều dài câu
canh lề sai.



Độ chính xác khá cao.



Khơng u cầu từ điển song ngữ.

Khuyết điểm :


Tốc độ giải thuật rất chậm so với phương pháp dựa vào chiều dài câu. Do đó thường
khơng được dùng để canh lề các văn bản có kích thước lớn.

Trang 14


Canh lề văn bản song ngữ Anh-Việt và ứng dụng

GVHD: PGS. TS. Phan Thị Tươi



Khơng thể canh lề các văn bản ngắn, do tần suất xuất hiện của các từ trong văn bản
chưa đủ lớn và tin cậy.




Khi áp dụng giải thuật cho các cặp ngơn ngữ mới, độ hồn tồn có thể giảm do đặc
điểm của ngơn ngữ tự nhiên thay đổi.

3.3.2 Phương pháp của tác giả Stanley F.Chen

Phương pháp của tác giả Chen [16] là sự kết hợp giữa phương pháp chiều dài và
phương pháp từ vựng. Về cơ bản giải thuật vẫn dùng lập trình động để tính khoảng cách
của các phép canh lề giống như phương pháp của tác giả Gale. Tuy nhiên, điểm khác biệt
là thay vì tính xác suất của một phép canh lề dựa vào chiều dài câu, tác giả tính xác suất
dựa vào mơ hình dịch từ sang từ ( word to word translation model). Mơ hình dịch từ sang
từ được tính tốn và cập nhật liên tục trong q trình canh lề. Do đó tại thời điểm canh lề
các câu đầu tiên của văn bản, khi chưa có mơ hình dịch, giải thuật phải dựa vào một corpus
nhỏ các cặp câu đã được canh lề trước.
Theo báo cáo của tác giả thì giải thuật đạt được độ chính xác là 96%. Tuy nhiên,
theo một số báo cáo khác thì giải thuật có độ chính xác thấp hơn.

Ưu điểm :


Kết hợp các ưu điểm của hai phương pháp dựa vào từ vựng và dựa vào chiều dài câu,
do đó thời gian thực hiện giải thuật hiệu quả hơn so với phương pháp dựa vào từ vựng.
Giải thuật khắc phục được trường hợp xấu nhất của hai phương pháp dựa vào chiều dài
câu và dựa vào từ vựng.

Khuyết điểm :


Giải thuật tính tốn phức tạp.




Việc kết hợp ưu điểm của hai phương pháp khác nhau đôi khi không mang lại kết quả
tốt hơn. Trong thực tế một số báo cáo cho thấy độ chính xác của giải thuật thấp hơn
96%.



u cầu phải có trước một corpus nhỏ các cặp câu song ngữ.

3.3 PHƯƠNG PHÁP CANH LỀ VĂN BẢN DỰA VÀO OFFSET:

Các phương pháp canh lề kể trên địi hỏi văn bản phải có cấu trúc đoạn và ký hiệu
kết thúc câu rõ ràng. Nhưng các văn bản có được bằng những chương trình nhận dạng chữ
viết (OCR), hoặc những văn bản có định dạng đặc biệt thì rất khó để nhận ra dấu hiệu kết

Trang 15


×