Tải bản đầy đủ (.doc) (103 trang)

CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 103 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
oOo
LÊ NGỌC SƠN
CANH LỀ VĂN BẢN SONG NGỮ
VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP
ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành : 01.02.10
LUẬN VĂN TỐT NGHIỆP
TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học:
Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày . . . . . tháng . . . . . năm 2006
ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
oOo oOo
Tp. Hồ Chí Minh, ngày … tháng … năm 2006
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Lê Ngọc Sơn Phái : Nam
Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang
Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179
I. TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp


đặc thù của ngôn ngữ Anh - Việt.
II. NHIỆM VỤ VÀ NỘI DUNG:
 Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ.
 Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA.
 Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn
bản song ngữ Anh - Việt.
 Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại
theo lĩnh vực.
III. NGÀY GIAO NHIỆM VỤ : / / 2006
IV. NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi
CÁN BỘ HƯỚNG DẪN
PGS., TS. Phan Thị Tươi
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
Ngày … tháng … năm 2006
PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH
LỜI CẢM ƠN
Tôi xin được gửi lời cảm ơn chân thành đến:
PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu và
thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong những
lúc khó khăn nhất.
Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP.
Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi những
kiến thức nền tảng và khả năng nghiên cứu.
Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Liễu, KS. Nguyễn Hoàng Thanh
Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong
Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôi
trong suốt thời gian thực hiện luận văn.
Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi học
tập và phấn đấu.

TÓM TẮT
Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ
và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu
dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản
để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương
pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối
chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào
canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm
của ngôn ngữ tiếng Việt.
Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật
canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest
Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt
trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý
trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp
này.
Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm
các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra,
chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một
tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ
lớn.
Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách
hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.
ABSTRACT
Bitext (- parallel text) is a text in one language and its translation in another
language. They are available sources of information for bilingual lexicography,
machine translation. In order to achieve this, they must be aligned first, i.e. the
various pieces of the text must be put into correspondence.
Recently, text alignment has been taken interest in very much. Many methods
and algorithm have been brought out into open and applied. The result were relatively

accurate. However, any pair of languages have their characteristics, the application of
Vietnamese- English bittext alignment needs to be adjusted in accordance with the
Vietnamese characteristics.
In this study, I am constructing a new alignment procedure which applied the
algorithm of length- based alignment, dictionary- based word alignment and Longest
Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is
taking the notice of a commonly special problem- cross translation. Then, the
algorithm must solve the cross translation problem which is often bypassed by many
previous algorithms.
The degree of accuracy is relatively high. It creates a corpus inncluding
aligned pairs of sentences and devided in the field of text. In addition, the algorithm
will mark map points between words in sentences. It will be an useful data file for
machine translation and automically create a specialist dictionary when the data
warehouse is large enough.
In this composition, I present in detail algorithms using and the realization of
applied algorithms in Vietnamese- English bitext alignment.
MỤC LỤC
Giới thiệu 1
1 Bối cảnh thực hiện luận văn: 1
2 Thực trạng – Vấn đề: 1
3 Hướng giải quyết vấn đề: 2
4 Mục tiêu của luận văn: 2
5 Đóng góp của luận văn: 2
6 Hướng phát triển: 5
7 Cấu trúc của luận văn: Luận văn chia làm 7 phần 5
Các công trình nghiên cứu liên quan 7
1 Phương pháp canh lề văn bản dựa vào chiều dài câu: 7
1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8
1.2 Phương pháp của Peter F.Brown [17]: 9
2 Phương pháp canh lề dựa vào từ vựng: 10

2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle [15]: 10
2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11
2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna
A, Rajev Sangal, Sushma Bendre [9]: 12
2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13
2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8] 14
2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 15
3 Kết hợp các phương pháp: 16
3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy
Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16
3.2 Phương pháp của Stanley F.Chen:[14] 17
3.3 Phương pháp canh lề theo giải thuật SIMR và GSA. Nghiên cứu của tác giả
I. Dan Melamed [10] : 18
4 Nghiên cứu của các tác giả trong nước: 20
4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004): 20
4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh-
Việt dựa trên giải thuật SIMR và GSA 20
Phần 3 22
Cơ sở lý thuyết 22
1 Các định nghĩa: 22
1.1 Phép canh lề: 22
1.2 Phép canh lề chéo 23
2 Đánh giá mức độ chính xác của phép canh lề 23
3 Hệ số Dice (D): 24
4 Xác suất có điều kiện: 24
5 Phân tích hồi qui tuyến tính: 25
Phân tích giải thuật 28
1 Giải thuật Stemming: 28
2 Giải thuật phân đoạn câu: 32
3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34

3.1 Khung lập trình động (A Dynamic Programming Framework): 34
3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37
4 Phương pháp canh lề sử dụng dãy giới hạn (Confidence Bands Algorithm - CBA)
[8]: 37
5 Phương pháp canh lề sử dụng “chuỗi được sắp xếp dài nhất” (Longest Sorted
Sequence Algorithm - LSSA) [1]: 40
6 So sánh phương pháp LSSA với CBA: 41
7 Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer)
và GSA [10] 46
8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50
Hiện thực 52
1 Stemming: Dùng giải thuật Porter 54
2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55
3 Phân đoạn câu: 57
4 Canh lề câu theo chiều dài câu: 58
5 Kiểm tra tính hợp lệ của phép canh lề 62
6 Canh lề chéo: 65
7 Canh lề từ: 66
8 Phân loại văn bản: 68
Kết quả thực nghiệm 69
1 Giới thiệu chương trình: 69
2 Kết quả sau bước canh lề câu (Bước 1): 70
3 Kết quả sau bước canh lề chéo (Bước 2): 74
4 Kết quả canh lề từ: 76
5 Các chức năng khác: 79
5.1 Lưu kết quả canh lề: 79
5.2 Mở lại một qui trình canh lề: 79
5.3 Chạy từng bước giải thuật: 80
Kết luận 81
1 Tổng kết: 81

2 Hướng mở rộng và phát triển đề tài: 83
2.1 Hoàn chỉnh luận văn: 83
2.2 Phát triển theo hướng nghiên cứu: 83
2.3 Phát triển theo hướng ứng dụng: 83
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87
TÀI LIỆU THAM KHẢO 89
DANH MỤC HÌNH
Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6] 13
Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6] 13
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] 14
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] 15
Hình 2-5 Không gian văn bản song ngữ 18
Hình 3-6 Canh lề chéo trong văn bản song ngữ 23
Hình 4-7 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức 34
Hình 4-8 Đường thẳng hồi qui tuyến tính 38
Hình 4-9 Biểu đồ khoảng cách 39
Hình 4-10 Dãy giới hạn (CB) 39
Hình 4-11. Kết quả thu được khi sử dụng CBA 42
Hình 4-12. Kết quả thu được khi sử dụng LSSA 42
Hình 4-13. Tính khoảng cách trong CBA 43
Hình 4-14. Kết quả canh lề sử dụng CBA 43
Hình 4-15. Kết quả canh lề sử dụng CBA 44
Hình 4-16. Kết quả canh lề dùng CBA 44
Hình 4-17. Kết quả canh lề dùng LSSA 45
Hình 4-18. Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm 47
Hình 4-19. Phát hiện những đoạn canh lề sót trong giải thuật SIRM 48
Hình 4-20. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM 49
Hình 5-21 Sơ đồ khối cho quá trình canh lề 53
Hình 5-22. Cấu trúc CSDL từ điển song ngữ Anh-Việt 54

Hình 5-23. Từ điển từ ghép tiếng Việt 55
Hình 5-24. Từ điển cụm từ tiếng Anh 56
Hình 5-25. Danh sách từ viết tắt trong tiếng Anh 58
Hình 5-26. Tương quan chiều dài câu Anh-Việt 60
Hình 5-27. Kết quả canh lề câu theo chiều dài câu 62
Hình 5-28. Danh sách Stopwords 64
Hình 6-29. Giao diện chính của chương trình 69
Hình 6-30. Giao diện hiển thị kết quả 79
DANH MỤC BẢNG
Bảng 2-1 Kết quả canh lề của giải thuật [14] 11
Bảng 2-2 Kết quả canh lề của phương pháp [6] 14
Bảng 2-3. Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2] 17
Bảng 2-4. Kết quả của phương pháp [2] 17
Bảng 4-5. Giá trị các vector trong LSSA 41
Bảng 5-6. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn 59
Bảng 5-7. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh 60
Bảng 5-8. Xác suất của các phép canh lề theo [16] 61
Bảng 5-9. Xác suất của các phép canh lề Anh-Việt 61
Bảng 5-10. Đánh giá trọng số các điểm tương ứng 63
Bảng 5-11. Thống kê γ trung bình theo chiều dài block 65
Bảng 6-12. Kết quả canh lề câu trong luận văn 71
Bảng 6-13. Phát hiện các phép canh lề 1-2 71
Bảng 6-14. Phát hiện các phép canh lề 1-2, 2-1 72
Bảng 6-15. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng 73
Bảng 6-16. Canh lề 1-0 được xác định trong canh lề 2-1 74
Bảng 6-17. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75
Bảng 6-18. Ví dụ minh họa - Kết quả canh lề chéo 76
Bảng 6-19. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77
Bảng 6-20. Ví dụ kết quả canh lề chéo cụm từ 78
Canh lề văn bản song ngữ và ứng dụng giải quyết

những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Phần 1
Giới thiệu
Văn bản song ngữ (bitext/ bilingual text/ parallel text) là một văn bản được
thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Văn
bản song ngữ thường được sử dụng trong các tài liệu hành chính, pháp luật, tạp chí…
1 Bối cảnh thực hiện luận văn:
Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch
thuật của nó rất cao. Để tận dụng được lợi ích của những văn bản loại này, việc đầu
tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), tức là tìm ra được sự
tương ứng giữa các đoạn, câu trong hai ngôn ngữ của văn bản. Điều này có ý nghĩa
rất quan trọng, nó chuyển nguồn dữ liệu này thành nguồn tri thức hữu ích. Bởi vì đó
là bước đầu tiên và bắt buộc trong việc xây dựng các kho ngữ liệu song ngữ. Nó
không chỉ hỗ trợ cho việc xây dựng từ điển song ngữ, dịch máy, mà nó còn hỗ trợ cho
nhiều lĩnh vực khác như giải quyết nhập nhằng của từ, rút trích thông tin… Ngoài ra,
canh lề văn bản còn là một công cụ hữu ích để trợ giúp cho người làm công tác phiên
dịch.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương
pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối
chính xác. Trong đó phương pháp dựa vào thống kê chiếm ưu thế so với những
phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2
ngôn ngữ. Hai ngôn ngữ có cùng họ thì kết quả canh lề rất cao.
2 Thực trạng – Vấn đề:
Nội dung của đề tài này là canh lề văn bản Anh - Việt. Đây là 2 ngôn ngữ có
nhiều đặc điểm khác nhau nên việc ứng dụng những công trình nghiên cứu trước đó
cần có sự hiệu chỉnh cho phù hợp với đặc điểm của tiếng Việt. Một số tác giả trong
Trang 1
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt

GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
nước cũng đã có những nghiên cứu về vấn đề này. Các giải thuật được áp dụng gồm
phương pháp canh lề dựa vào chiều dài câu và phương pháp canh lề dựa vào từ vựng.
Giải thuật SIRM và GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều
dài câu và dựa vào từ vựng. Tuy nhiên, các nghiên cứu này dừng lại ở mức canh lề
câu, và bỏ qua yếu tố dịch chéo (các đoạn, câu trong ngôn ngữ thứ hai không theo thứ
tự tương ứmg với câu và đoạn trong ngôn ngữ thứ nhất).
3 Hướng giải quyết vấn đề:
Để khắc phục những vấn đề trên, tôi đã tham khảo các công trình nghiên cứu
mà các tác giả trong và ngoài nước đã thực hiện, tiến hành tìm hiểu những ưu, khuyết
điểm của các phương pháp này, và khả năng áp dụng vào canh lề văn bản Anh – Việt.
Tổng hợp những kiến thức đó, trên cơ sở kế thừa và cải tiến, tôi đưa ra một qui trình
canh lề mới, và hiện thực ý tưởng của mình. Qui trình bao gồm các giải thuật: xác
định từ ghép tiếng Việt, cụm từ tiếng Anh dựa vào từ điển, phân đoạn văn bản, phân
đoạn câu, canh lề câu dựa vào chiều dài câu (số lượng từ), giải thuật canh lề theo
chuỗi được sắp xếp dài nhất LSS (Longest Sorted Sequence).
4 Mục tiêu của luận văn:
 Nghiên cứu giải thuật canh lề dựa vào chiều dài câu, giải thuật LSSA.
 Xây dựng qui trình canh lề mới, nhằm xác định phép canh lề chéo trong
canh lề văn bản song ngữ Anh - Việt.
 Xử lý một số ngoại lệ trong ngôn ngữ Anh – Việt và trong dịch thuật.
 Tạo kho dữ liệu gồm các cặp câu Anh – Việt, phân theo lĩnh vực.
5 Đóng góp của luận văn:
Các phương pháp canh lề văn bản song ngữ trước đây thường bỏ qua một số
ngoại lệ trong ngôn ngữ và trong dịch thuật, ví dụ như phân đoạn không tương ứng,
dấu chấm trong từ viết tắt không phải là dấu kết thúc câu, trường hợp canh lề chéo,
hay trường hợp chuyển đổi từ loại (danh từ, động từ,…) trong dịch thuật. Điều này
làm cho kết quả canh lề không thể chấp nhận được khi gặp những trường hợp đặc
biệt, thường xảy ra trong văn bản song ngữ Anh –Việt. Ngoài ra, một cụm từ, một
thành ngữ khi tách ra thành từng từ hoàn toàn không có ý nghĩa, trong tiếng Anh cũng

như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt.
Trang 2
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp
tương ứng:
Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để
canh lề đoạn (paragraph), và canh lề câu (sentence). Chiều dài câu được tính theo số
lượng từ đơn có trong câu. Mô hình lập trình động được sử dụng một cách hợp lý và
hiệu quả. Để xác định chính xác vị trí kết thúc câu (quá trình phân đoạn câu), chương
trình tập hợp những qui luật, kết hợp với thống kê danh sách từ viết tắt. Giai đoạn
canh lề câu được trình bày trong mục 5.3, 5.4, phần hiện thực.
Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh và từ ghép tiếng Việt
dựa vào danh sách thống kê cụm từ tiếng Anh và từ điển từ ghép tiếng Việt. Đây là
giai đoạn phân đoạn từ (trình bày trong mục 5.2, phần hiện thực). Đây cũng là bước
chuẩn bị cho giải thuật canh lề từ.
Để tăng độ tin cậy trong bước canh lề câu, chương trình kiểm tra lại bằng cách
tính độ tương tự của hai câu đã được canh lề. Mức độ tương tự của câu được tính dựa
trên những cặp từ giống nhau trong câu, hay khi biểu diễn trong không gian văn bản
song ngữ, nó là điểm tương ứng thật sự. Nếu độ tương tự thấp hơn giới hạn cho phép,
chương trình bắt buộc phải tạo một tổ hợp canh lề mới cho những cặp câu chưa được
chấp nhận này, và chọn ra cách canh lề tối ưu. Đây là giai đoạn canh lề chéo (phạm
vi là các câu trong cùng một đoạn), được trình bày trong mục 5.5, 5.6, phần hiện thực.
Xử lý canh lề chéo có được các nhà nghiên cứu nói đến nhưng chưa được hiện thực.
Đây là một đóng góp của luận văn. Chương trình có thể được cải tiến để canh lề
chéo cho các câu trong toàn văn bản.
Để canh lề từ chính xác và mịn nhất (chi tiết nhất), chương trình có sử dụng
giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming). Với nhận xét là không phải
lúc nào một danh từ tiếng Anh cũng được dịch thành một danh từ tiếng Việt, một

động từ tiếng Anh được dịch thành một động từ tiếng Việt. Việc stemming giúp cho
việc nhận dạng các cặp từ giống nhau được đầy đủ hơn. Đây là một điểm mới khi áp
dụng vào canh lề từ Anh – Việt. Trong quá trình canh lề từ, chương trình cũng loại ra
những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ không có giá trị canh lề
Trang 3
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
(stopword). Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo
sao cho chuỗi các từ canh lề là dài nhất. Ý tưởng và chi tiết giải thuật LSSA trình bày
trong mục 4.5, phần phân tích giải thuật và mục 5.7, phần hiện thực.
Việc áp dụng các giải thuật này vào ngôn ngữ tiếng Việt đã được điều chỉnh
và cải tiến cho phù hợp với đặc điểm của tiếng Việt, và một số ngoại lệ của ngôn ngữ.
Độ chính xác của giải thuật còn phụ thuộc vào việc thu thập một kho dữ liệu ban đầu,
ví dụ như từ điển song ngữ, danh sách từ ghép tiếng Việt, cụm từ tiếng Anh, từ viết
tắt, từ không có giá trị canh lề (stopwords). Ngoài ra, nó còn phụ thuộc rất lớn vào
các thông số của hệ thống, mà các thông số này cần được điều chỉnh sau quá trình
thực nghiệm. Để chạy kiểm nghiệm chương trình, các văn bản được sử dụng thuộc 2
lĩnh vực: (1)Kinh tế: các văn bản của đại sứ quán Hoa Kỳ tại Hà Nội (website:
và />và (2)Tin học: sưu tập từ nhiều nguồn khác nhau trên mạng Internet. Điều này tạo sự
thuận lợi vì một số văn bản này đã được tác giả Trần Giang Sơn tổng hợp và thử
nghiệm, tạo nên tính chính xác khi nhận xét đánh giá kết quả của giải thuật. Ngoài ra,
việc tập hợp các văn bản từ nhiều nguồn khác nhau tạo nên tính đa dạng các ngoại lệ
trong dịch thuật.
Tổng kết lại, luận văn đã phân tích một số điểm yếu còn tồn tại trong các giải
thuật trước đây (trình bày trong phần 4 – Phân tích giải thuật) và đưa ra hướng khắc
phục. Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong dịch thuật rất
thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý trường hợp canh lề chéo,
mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp này. Bên cạnh đó, chương
trình cũng áp dụng giải thuật LSSA, lần đầu áp dụng vào canh lề từ cho văn bản Anh

– Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra
được một kinh nghiệm khi nghiên cứu về canh lề.
Ngoài ra, mục tiêu của chương trình là ứng dụng canh lề văn bản song ngữ
vào các mục đích khác. Đó là xây dựng một kho ngữ liệu gồm 10.000 cặp câu đã
được canh lề phân loại theo lĩnh vực với độ chính xác 98% và đánh dấu những điểm
mốc canh lề trong câu (lưu trữ trong hệ quản trị cơ sở dữ liệu Microsoft SQL Server
Trang 4
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
2000 rất dễ tìm kiếm và truy xuất). Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo
tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn và mang tính đại diện.
Chương trình thiết kế dễ tìm hiểu và sử dụng, hiển thị kết quả rõ ràng. Kết quả
khá chính xác (98%). Chương trình nhận dạng 70% phép canh lề chéo. Độ hoàn toàn
của giải thuật canh lề là 100%. Chương trình xác định khoảng 4 điểm tương ứng cho
một câu có chiều dài trung bình là 10 từ. Kết quả chi tiết thể hiện ở các bảng thống kê
trong phần 6 - Kết quả thực nghiệm.
6 Hướng phát triển:
 Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm
và cập nhật các thông số hệ thống. Thu thập các văn bản song ngữ thuộc
nhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu.
 Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Việt và
tiếng Anh (collocation) tự động theo mô hình n-grams, xây dựng từ điển
chuyên ngành.
 Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày
rõ ở phần kết luận).
7 Cấu trúc của luận văn: Luận văn chia làm 7 phần
Phần 1. Giới thiệu
Phần này giới thiệu chung về bối cảnh, mục tiêu, hướng thực hiện luận văn,
một số đóng góp của luận văn.

Phần 2. Các công trình nghiên cứu liên quan
Trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thế
giới và trong nước.
Phần 3. Cơ sở lý thuyết
Trình bày một số định nghĩa, các công thức toán học, một số hệ số đánh giá
phép canh lề, và các lý thuyết xác suất có liên quan.
Phần 4. Phân tích giải thuật
Trang 5
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi tiết trong phần
này. Bên cạnh đó phần này cũng đưa ra lý do chọn lựa giải thuật áp dụng
trong luận văn thông qua một số phân tích và so sánh.
Phần 5. Hiện thực
Trình bày chi tiết cách hiện thực các giải thuật trong chương trình.
Phần 6. Kết quả thực nghiệm
Kết quả chạy thực nghiệm chương trình sẽ được trình bày trong phần này.
Phần 7. Kết luận
Tổng kết lại toàn bộ quá trình thực hiện luận văn, những cái đã thực hiện,
những điểm còn yếu. Và phần này cũng trình bày một số hướng phát triển và
ứng dụng,
- Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển luận văn.
- Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài.
- Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữ
Anh-Việt
- Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server
Trang 6
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt

GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Phần 2
Các công trình nghiên cứu liên quan
Phần này trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ
trên thế giới và trong nước. Các phương pháp được áp dụng chủ yếu phân vào các
loại sau:
1 Phương pháp canh lề văn bản dựa vào chiều dài câu:
Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong những
phương pháp xuất hiện tương đối sớm. Phương pháp này không quan tâm đến yếu tố
từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản. Ý tưởng
chính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn,
các câu dài thường được dịch thành những câu dài. Chiều dài của câu có thể được
tính bằng số lượng từ hoặc số lượng kí tự trong câu.
Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theo
đoạn trước. Có thể thực hiện công đoạn này theo phương pháp thủ công bằng tay.
Nếu văn bản không được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độ
chính xác thấp hơn, và thời gian thực thi lâu hơn. Phương pháp này tỏ ra hữu hiệu đối
với cặp ngôn ngữ cùng họ, ví dụ như Anh-Pháp. Nhưng lại kém chính xác đối với
những cặp ngôn ngữ khác họ, ví dụ như Anh-Nhật, Anh-Hoa, Anh-Việt.
Lợi điểm của phương pháp này là đơn giản. Phương pháp này có thể áp dụng
cho văn bản ngắn với độ chính xác khá cao, trong khi phương pháp dựa vào từ vựng
không thể canh lề cho những văn bản ngắn, vì số lần xuất hiện của các từ trong văn
bản không đủ lớn để xác định các cặp từ tương ứng về nghĩa.
Trong phương pháp canh lề dựa vào chiều dài câu, có hai cách xác định chiều
dài câu: tính chiều dài câu dựa trên số lượng ký tự, và tính chiều dài câu dựa trên số
lượng từ. Ở phương pháp này, các tác giả: William A.Gale và Kenneth W.Church
Trang 7
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn

(1991) là các tác giả được nhiều người biết đến. Hầu như tất cả các nghiên cứu sau đó
đều có sự tham khảo công trình nghiên cứu của họ.
1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]:
Theo phương pháp của tác giả Gale và Church thì chiều dài câu được tính
bằng số lượng ký tự có trong câu. Tác giả cho rằng một ký tự có trong ngôn ngữ S sẽ
tương ứng với một số ngẫu nhiên ký tự có trong ngôn ngữ T. Biến ngẫu nhiên này
độc lập và có phân bố chuẩn với kỳ vọng là µ và phương sai σ2.
Mục đích của giải thuật là đi tìm một tổ hợp các phép canh lề khả dĩ sao cho
tổng khoảng cách của chúng là nhỏ nhất. Các phép canh lề khả dĩ bao gồm:
 Phép canh lề một-không (1-0).
 Phép canh lề không-một (0-1).
 Phép canh lề một-một (1-1).
 Phép canh lề một-hai (1-2).
 Phép canh lề hai-một (2-1).
Ngoài ra, tác giả giả thiết rằng không có phép canh lề chéo. Khi đó, nếu phép
canh lề thứ k là phép canh lề giữa câu thứ i của S và câu thứ j của T, thì phép canh lề
thứ k+1 chỉ có thể là phép canh lề giữa:
 câu thứ i+1 của S và ∅ (1-0), hoặc
 câu thứ i+1 của S và câu thứ j+1 của T (1-1), hoặc
 câu thứ i+1 của S và câu thứ j+1 và j+2 của T (1-2), hoặc
 câu thứ i+1 và i+2 của S và câu thứ j+1 của T (2-1), hoặc
 câu thứ i+1 và i+2 của S và câu thứ j+1 và j+2 của T (2-2)
Tác giả sử dụng lập trình động để tạo ra một tổ hợp các phép canh lề sao cho tổng
khoảng cách của chúng là nhỏ nhất.
Kết quả: Canh lề các báo cáo kinh tế của Union Bank of Switzerland, gồm 3
thứ tiếng: Anh, Pháp, Đức. Với mỗi phép canh lề khả dĩ, giá trị khoảng cách được
tính toán và lưu lại. Tỷ lệ canh lề sai: 4%
Nếu chọn 80% phép canh lề tốt nhất (là phép canh lề có khoảng cách nhỏ nhất
trong các phép canh lề kết quả)  Tỷ lệ canh lề sai: 0.7%.
Trang 8

Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Ưu điểm:
 Đơn giản, tốc độ thực thi nhanh,
 Độ chính xác khá cao,
 Không yêu cầu từ điển dữ liệu,
 Có thể áp dụng cho cặp ngôn ngữ mới.
Nhược điểm:
 Canh lề sai khi chiều dài câu trong hai ngôn ngữ quá khác biệt so với
thống kê ban đầu,
 Cần canh lề đoạn trước.
1.2 Phương pháp của Peter F.Brown [17]:
Theo phương pháp của tác giả này thì chiều dài câu được tính bằng số lượng
từ có trong câu. Ngoài ra tác giả còn phân chia văn bản thành các phân đoạn (bead).
Bead là một phân đoạn gồm 0, 1 hoặc 2 câu. Cũng giống như phương pháp của tác
giả Gale, Brown tiến hành canh lề các đoạn giữa hai văn bản song ngữ trước khi tiến
hành canh lề các bead. Để canh lề đoạn, tác giả dùng các ghi chú và kí hiệu đặc biệt
có sẵn trong văn bản.
Kết quả: Canh lề một phần của Canadian Hansard (Canadian Hansard là văn
bản chính thức của các cuộc họp nghị viện quốc hội Canada
Độ chính xác: 96%, cho các đoạn đã được canh lề trước.
Ưu điểm:
 Đơn giản, tốc độ thực thi nhanh,
 Không cần từ điển song ngữ,
 Dễn dàng áp dụng được cho các cặp ngôn ngữ khác.
Nhược điểm:
 Phải canh lề đoạn trước,
 Độ chính xác có thể thấp hơn nhiều nếu cho canh lề toàn bộ văn bản mà
không được canh lề đoạn trước.

Trang 9
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
2 Phương pháp canh lề dựa vào từ vựng:
Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạn
trước thì giải thuật mới cho ra kết quả tốt. Trong khi đó, phương pháp canh lề theo từ
vựng thì không cần phải canh lề theo đoạn trước. Ngoài ra, phương pháp canh lề theo
chiều dài câu thì có thể gây nhập nhằng. Ví dụ, thay vì canh lề 1-1 là chính xác thì
phép canh lề 1-2 lại cho khoảng cách nhỏ hơn. Hay ngược lại thay vì canh lề 1-2 là
đúng thì giải thuật lại quyết định 1-1. Đây là những quyết định khó khăn của giải
thuật. Khi đó, phương pháp canh lề theo từ vựng lại tỏ ra hữu hiệu.
2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle
[15]:
Cải tiến giả thuật canh lề dựa vào chiều dài câu của Gale và Church, tác giả sử
dụng yếu tố từ vựng là cognates. Cognates là những từ cùng nguồn gốc. Ví dụ trong
tiếng Anh và tiếng Pháp: generation/génération và error/erreur, hay mở rộng hơn có
thể là danh từ riêng (Paris, London/Londres), biểu thức toán học, hoặc ngay cả những
ký hiệu đặc biệt (dấu chấm hỏi, dấu ngoặc,…)
Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độ
tương tự giữa chúng là: γ = 2c/(n+m), với m,n: số từ trong mỗi đoạn, c: số lượng
cognates trong đoạn.
Tuy nhiên sử dụng cognate không thể tạo nên kết quả canh lề tốt hơn canh lề
theo chiều dài câu. Tác giả kết hợp canh lề theo chiều dài câu và canh lề sử dụng
cognates. Phương pháp canh lề này được tiến hành qua 2 bước. Đầu tiên canh lề theo
chiều dài câu. Thay vì cho ra được phép canh lề tốt nhất, phương pháp này cho ra một
tập các phép canh lề tốt. Nếu kết quả này có niều hơn một phép canh lề tốt, chương
trình tiếp tục bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất.
Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dài
câu, canh lề kết hợp 2 bước như sau:

Trang 10
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Canh lề theo chiều
dài câu
Canh lề dùng
Cognates
Canh lề kết hợp 2
phương pháp
Số cặp câu
không canh lề
128 171 114
Phần trăm lỗi 1.8% 2.4% 1.6%
Thời gian xử lý 99.2 908.1 111.4
Bảng 2-1 Kết quả canh lề của giải thuật [14]
2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]:
Tác giả nhận xét thấy rằng: câu đầu tiên trong văn bản nguồn S sẽ có nhiều
khả năng được canh lề với câu đầu tiên trong văn bản đích T. Câu cuối cùng trong
văn bản S sẽ có nhiều khả năng được canh lề với câu cuối cùng trong văn bản T (Giả
thiết không có canh lề chéo). Giải thuật canh lề như sau:
 Giả sử câu đầu tiên (câu cuối cùng) của văn bản S được canh lề với câu
đầu tiên (câu cuối cùng) của văn bản T. Khi đó ta được Anchor đầu tiên.
 Trong khi các câu trong văn bản chưa được canh lề toàn bộ:
a) Tạo ra các cặp câu có nhiều khả năng được canh lề với nhau AST
(Alignable Sentence Table). Khi tạo ra AST, ta loại đi các cặp câu có phép canh lề
vượt qua các điểm neo (Anchor), hoặc khoảng cách so với các neo tương ứng trong
văn bản nguồn S và văn bản đích T quá chênh lệch.
b) Dựa vào AST, tính mức độ giống nhau giữa các cặp từ trong hai ngôn ngữ.
Danh sách các cặp từ này gọi là WAT ( Word Alignment Table). Với mỗi cặp từ, ta

tính mức độ giống nhau dựa vào phân bố của chúng trong các cặp câu thuộc AST.
Sau đó, trong WAT, ta chọn ra các cặp từ có nhiều khả năng là tương ứng nhất dựa
vào mức độ giống nhau và tần suất xuất hiện của chúng. Cặp từ nào có độ giống
nhau lớn và tần suất xuất hiện cao thì độ tin cậy càng cao.
c) Tìm cặp câu trong AST có chứa nhiều cặp từ tương ứng nhất. Đây có thể là
cặp câu tương ứng trong kết quả cuối cùng. Một khi hai câu đã được canh lề, chúng
đuợc xem như là những Anchor mới, ta thêm các Anchor này vào danh sách các
Anchor và lặp lại bước a) ở trên.
 Sau mỗi vòng lặp, ta được nhiều Anchor hơn, số lượng các cặp câu trong
AST giảm đi, các cặp từ trong WAT có độ tin cậy cao hơn.
Trang 11
Canh lề văn bản song ngữ và ứng dụng giải quyết
những trường hợp đặc thù của ngôn ngữ Anh – Việt
GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn
Kết quả: Tác giả không đưa ra độ chính xác và độ hoàn toàn. Chỉ đưa ra một
ví dụ với độ chính xác đến 99.7%.
Ưu điểm:
 Giải quyết nhập nhằng trong canh lề theo chiều dài câu.
 Không yêu cầu từ điển song ngữ.
Nhược điểm:
 Tốc độ chậm hơn so với canh lề theo chiều dài câu.
 Không canh lề được cho các văn bản có kích thước ngắn.
2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi
Krishna A, Rajev Sangal, Sushma Bendre [9]:
Dùng giải thuật canh lề dựa vào từ vựng để canh lề cho văn bản song ngữ
Anh-Hindi. Tác giả nhận thấy sự khác biệt giữa tiếng Anh và tiếng Hindi là: tiếng
Anh là ngôn ngữ có thứ tự cố định (fixed-word order), trong khi tiếng Hindi thì có
thứ tự tự do (free-word order), nghĩa là nếu thay đổi trật tự các từ thì không làm thay
đổi nghĩa. Ngoài ra, chiều dài câu trong hai ngôn ngữ không cân xứng nên phương
pháp canh lề theo chiều dài câu gặp nhiều khó khăn.

Quá trình xử lý gồm 3 giai đoạn: Chunking, Scoring, Alignment.
 Chunking: phân những câu trong hai ngôn ngữ thành các cụm từ. Có hai
loại: cụm danh từ và cụm động từ. Đồng thời cũng xác định được từ mang
nghĩa chính trong cụm từ.
 Scoring: tính điểm cho các cụm từ, để biết được mức độ giống nhau của
chúng.
 Alignment : canh lề dựa vào điểm số và những tiêu chí khác.
Kết quả: Dữ liệu dùng để kiểm tra giải thuật là tạp chí song ngữ “India-
Today” gồm 140 văn bản của nhiều kỳ xuất bản, canh lề được 3021 câu, trong đó
chính xác là 2849 câu, đạt tỉ lệ 94.3%. Nếu sử dụng giải thuật canh lề của Gale và
Church thì đạt độ chính xác là 62%.
Trang 12

×