Tải bản đầy đủ (.doc) (87 trang)

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.03 MB, 87 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG
KHO DỮ LIỆU SONG NGỮ
PHỤC VỤ XỬ LÝ TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2011


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG
KHO DỮ LIỆU SONG NGỮ
PHỤC VỤ XỬ LÝ TIẾNG VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. Võ Trung Hùng

Đà Nẵng - Năm 2011




LỜI CAM ĐOAN

Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của PGS.TS. Võ Trung Hùng.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng
tên tác giả, tên công trình, thời gian, địa điểm công bố.
3

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian
trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả

Hoàng Như Quỳnh


MỤC LỤC

LỜI CAM ĐOAN..........................................................................................iii
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Võ Trung Hùng........................................................................iii

MỤC LỤC......................................................................................................iv
DANH MỤC CÁC TỪ VIẾT TẮT................................................................i
DANH MỤC HÌNH........................................................................................ii
MỞ ĐẦU.........................................................................................................1
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN................................................3
1.1. KHO DỮ LIỆU SONG NGỮ.........................................................................3

1.2. MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG
NGỮ 8
1.3. MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN..........17

CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO DỮ LIỆU SONG NGỮ....23
2.1. GIỚI THIỆU................................................................................................23
2.2. MÔ HÌNH TỔNG THỂ................................................................................23
2.3. XÂY DỰNG KHO DỮ LIỆU SONG NGỮ.................................................25

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG..................................................37
3.1. GIẢI PHÁP XỬ LÝ DỮ LIỆU....................................................................37
3.2. TRÍCH TỪ TỪ ĐIỂN LẠC VIỆT................................................................47
3.3. TRÍCH TỪ VOV NEWS..............................................................................55
3.4. TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP...................66
3.5. MỘT SỐ NGUỒN DỮ LIỆU KHÁC...........................................................69
3.6. KHAI THÁC KHO DỮ LIỆU SONG NGỮ................................................69

KẾT LUẬN...................................................................................................74
DANH MỤC TÀI LIỆU THAM KHẢO....................................................75
PHỤ LỤC......................................................................................................79


i

DANH MỤC CÁC TỪ VIẾT TẮT
TIẾNG VIỆT
CSDL

Cơ sở dữ liệu


NSD

Người sử dụng

KHKT

Khoa học Kỹ thuật

TIẾNG ANH
EVC

English Vietnamese Corpus

OCR

Optical Character Recognization


ii

DANH MỤC HÌNH
Hình 1.1. Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ............15
Hình 1.1. Tách câu bằng mạng nơ-ron................................................................21
Hình 1.1. Mô hình tổng thể hệ thống...................................................................25
Hình 1.1. Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau.......................27
Hình 1.1. Các giải pháp tổ chức CSDL...............................................................28
Hình 1.2. Ví dụ dữ liệu lưu trên 1 tập tin.............................................................29
Hình 1.3. Ví dụ dữ liệu lưu trên 2 tập tin.............................................................30
Hình 1.1. Giao diện của Từ điển Lạc Việt...........................................................32
Hình 2.1. Ví dụ về trang web ngôn ngữ chính.....................................................34

Hình 2.2. Ví dụ về trang web có phiên bản ngôn ngữ khác.................................34
Hình 3.1. Sơ đồ dịch câu tiếng Anh sang tiếng Việt............................................36
Hình 1.1. Đăng nhập YouAlign...........................................................................38
Hình 1.2. Giao diện gióng câu tài liệu.................................................................39
Hình 1.3. Kết quả canh tài liệu............................................................................40
Hình 1.4. Ví dụ kết quả canh tài liệu dạng tập tin HTML...................................41
Hình 1.1. Sơ đồ chuyển đổi từ tập tin *. Doc sang tập tin *. XML......................44
Hình 1.2. Mẫu tập tin *.Doc................................................................................44
Hình 1.3. Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin. 45
Hình 1.4. Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên một tập tin....45
Hình 1.1. Sơ đồ quá trình trích từ Từ điển Lạc Việt............................................48
Hình 1.2. Mục từ có các câu ví dụ Anh – Việt.....................................................49
Hình 1.3. Tập tin tiếng Việt .Doc trích từ Từ điển Lạc Việt.................................50
Hình 1.4. Tập tin tiếng Anh .Doc trích từ Từ điển Lạc Việt................................50
Hình 1.5. Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục....53
Hình 1.6. Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục..............54
Hình 1.1. Hệ thống bóc tách nội dung của VietSpider.........................................56
Hình 1.2. Sơ đồ quá trình xử lý trích từ trang web sử dụngYouAlign.................57
Hình 1.3. Trang web tiếng Việt trước khi tách lấy nội dung................................58
Hình 1.4. Trang web tiếng Anh trước khi tách lấy nội dung................................59


iii
Hình 1.5. Ví dụ tạo luồng trang VOV News tiếng Việt.......................................60
Hình 1.6. Trang web tiếng Việt khi thực hiện tách lấy nội dung..........................60
Hình 1.7. Trang web tiếng Anh khi thực hiện tách lấy nội dung.........................61
Hình 1.8. Dữ liệu sau khi bóc tách......................................................................62
Hình 1.9. Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner........63
Hình 1.10. Tách câu trực tuyến của MorphAdorner............................................64
Hình 1.11. Kết quả tách câu tiếngAnh bằng công cụ trực tuyến MorphAdorner. 65

Hình 1.12. Kết quả tách câu tiếngViệt bằng công cụ trực tuyến MorphAdorner. 66
Hình 1.1. Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn.........................................67
Hình 1.2. Giao diện Vdict...................................................................................68
Hình 1.1. Sơ đồ khai thác kho dữ liệu song ngữ Anh – Việt................................70
Hình 1.2. Trò chơi học tiếng Anh qua mẫu câu Anh-Việt....................................71
Hình 1.3. Chương trình hiển thị mẫu câu tiếng Anh............................................71
Hình 1.4. NSD nhập câu dịch tiếng Việt.............................................................72
Hình 1.5. Kết quả sau khi dịch............................................................................72


iv


-1-

MỞ ĐẦU
1. Lý do chọn đề tài
Với sự ra đời của máy tính điện tử và nhất là môi trường kết nối Internet toàn
cầu đã tạo ra một lượng thông tin khổng lồ đặc biệt đa phần các dữ liệu đều là tiếng
Anh. Tuy nhiên lượng thông tin to lớn này vẫn chưa được khai thác hết bởi nhiều lý
do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ.
Vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ, tuy
nhiên các tài liệu thường nằm rải rác nhiều nơi dưới nhiều hình thức khác nhau. Do
đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví
dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏi
một kho dữ liệu song ngữ rất lớn.
Hiện nay trên thế giới có rất nhiều kho dữ liệu song ngữ như Anh – Pháp,
Pháp – Anh, Anh – Hoa,… Tuy nhiên, đối với tiếng Việt hiện nay chưa có kho dữ
liệu song ngữ nào như vậy được công bố chính thức và chia sẽ cho người sử dụng.
Vấn đề đặt ra là làm thế nào để xây dựng được một kho dữ liệu song ngữ Anh – Việt

từ các nguồn dữ liệu rải rác.
Để góp phần giải quyết vấn đề trên, chúng tôi đề xuất đề tài: “Nghiên cứu xây
dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt”.
2. Mục tiêu nghiên cứu
Mục tiêu chính mà đề tài hướng đến là nghiên cứu xây dựng kho dữ liệu chứa
các cặp câu Anh – Việt từ các nguồn tài liệu khác nhau như: trang web, từ điển,
sách, văn bản,… dưới nhiều định dạng khác nhau, như: XML, TXT, DOC,... và
nghiên cứu các nguồn tài liệu như từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, văn
bản song ngữ Anh – Việt,… Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyết
những vấn đề chính sau: tìm hiểu về các kho ngữ liệu song song, thu thập các nguồn
ngữ liệu song ngữ Anh – Việt, nghiên cứu các giải pháp xây dựng kho dữ liệu song


-2ngữ Anh – Việt để tạo ra được một cơ sở dữ liệu phục vụ cho việc học tiếng Anh,
dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,....
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các cơ sở dữ liệu của kho dữ liệu song ngữ, các
nguồn tài liệu có thể xây dựng nên kho dữ liệu song ngữ.
4. Phương pháp nghiên cứu
Đề tài sử dụng các kỹ thuật tách câu từ một văn bản, bài báo,... Tìm hiểu cách
xây dựng kho dữ liệu song ngữ để xây dựng kho dữ liệu song ngữ Anh – Việt.
5. Ý nghĩa khoa học và thực tiễn của đề tài:
Kho dữ liệu song ngữ Anh – Việt là tài nguyên có giá trị trong việc tạo ra được
một cơ sở dữ liệu phục vụ cho việc dạy và học tiếng Anh, dịch tự động, nghiên cứu
xử lý ngôn ngữ tự nhiên,...
6. Cấu trúc luận văn
Báo cáo của luận văn được tổ chức thành 3 chương.
Chương 1. Nghiên cứu tổng quan. Trình bày khái niệm về kho ngữ liệu song
ngữ, các ứng dụng của kho, nghiên cứu một số kho ngữ liệu song ngữ đang có trên
thế giới; nghiên cứu về XML, một số thuật toán về xử lý ngôn ngữ tự nhiên,…

Chương 2. Giải pháp xây dựng kho dữ liệu song ngữ. Chúng tôi trình bày một
số giải pháp xây dựng kho ngữ liệu song ngữ.
Chương 3. Phát triển ứng dụng. Trình bày kết quả xây dựng kho dữ liệu từ
nhiều nguồn dữ liệu khác nhau.


-3-

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
Trong thời đại bùng nổ thông tin như hiện nay, nhu cầu tra cứu từ trên máy
tính rất lớn, vì vậy có một tài nguyên rất lớn đó là các kho ngữ liệu song ngữ. Vào
thập kỷ 1980, tài liệu song ngữ được đưa vào sử dụng trong các hệ thống xử lý ngôn
tự động, nhất là phục vụ cho việc dịch tự động. Alan Melby đã có ý tưởng lưu trữ
lại các bản dịch song ngữ của người, để sau này các nhà nghiên cứu có thể khai thác
được gì từ đó. Phương pháp liên kết song ngữ tự động được nghĩ ra đầu tiên bởi
Martin Kay và Martin Roschéien vào năm 1987 và từ đó đến nay đã có nhiều
phương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ khác nhau:
đoạn, câu, từ, ngữ,... Cho đến nay, việc nghiên cứu song ngữ đã được thực hiện với
các cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa,...[1]
Trong chương này chúng tôi trình bày các vấn đề liên quan đến kho dữ liệu
song ngữ, các hệ cơ sở dữ liệu và phương pháp xử lý ngôn ngữ tự nhiên áp dụng khi
xây dựng các kho dữ liệu song ngữ.
1.1. KHO DỮ LIỆU SONG NGỮ

1.1.1. Khái niệm
a. Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ
thực tế sử dụng ngôn ngữ. Những chứng cứ sử dụng ngôn ngữ này có thể là của
ngôn ngữ nói mà cũng có thể là ngôn ngữ viết. Trong đó ngữ liệu tồn tại dưới dạng
ngôn ngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử.
Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ và

ngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ. Đề tài này tập trung nghiên cứu
để xây dựng kho dữ liệu đa ngữ. Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữ
này là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song. Ngữ liệu song song có
thể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ. Trong đề tài này thực hiện xây


-4dựng ngữ liệu song song của hai ngôn ngữ gọi tắt là ngữ liệu song ngữ cụ thể là ngữ
liệu song ngữ Anh - Việt [1].
b. Kho ngữ liệu (corpus) là một tập hợp các mảnh ngôn ngữ được chọn lựa và
sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như một mẫu
ngôn ngữ [18].
Hoặc:
Kho ngữ liệu là một hệ thống tham chiếu dựa trên một bộ sưu tập điện tử của
văn bản bao trong một ngôn ngữ nhất định [27].
c. Kho dữ liệu song ngữ (Parallel corpus) là một kho các cặp văn bản
song ngữ được trình bày dưới dạng điện tử, trong đó có mỗi ngôn ngữ là bản dịch
của ngôn ngữ kia [18].
Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho dữ liệu của
ngôn ngữ này là một bản dịch chính xác của ngôn ngữ kia. Một số kho dữ liệu song
song, bao gồm ngữ liệu của nhiều ngôn ngữ. Một số kho dữ liệu song song thì dữ
liệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngôn
ngữ trung gian. Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngôn
ngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Pháp
sang tiếng Việt.
1.1.2. Ứng dụng của kho dữ liệu song ngữ
Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưng
chủ yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.
Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật,... nhưng với quy mô nhỏ
hơn. Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho dữ
liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tự

động, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoại
ngữ,...


-5Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp
ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông,... Ở
Việt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đến
kho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứ
tiếng, truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang web
song ngữ Anh-Việt như ThanhNien, Vietnamnet, NhanDan,.... Riêng kho ngữ liệu
song ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có kho ngữ liệu song
ngữ Anh - Việt có tên là EVC [1].
Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụ
cho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngôn
ngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại
ngữ,...
1.1.2.1.

Ứng dụng trong ngôn ngữ học – thống kê

Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào
việc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học. Cùng với sự trợ
giúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lên
đáng kể [1].
1.1.2.2.

Ứng dụng trong ngôn ngữ học so sánh

Ngôn ngữ học so sánh là so sánh các điểm tương đồng, khác biệt giữa các
ngôn ngữ. Để so sánh chúng ta cần có các cứ liệu của các ngôn ngữ mà chúng ta cần

so sánh vì vậy việc thu thập, tổng hợp cứ liệu từ các nguồn khác nhau là rất cần
thiết. Vì vậy, kho ngữ liệu song ngữ Anh – Việt là nguồn cứ liệu quan trọng để có
thể khai thác trong việc phục vụ cho ngôn ngữ học so sánh [1].
1.1.2.3.

Ứng dụng trong giảng dạy ngoại ngữ

Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu
và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặc
biệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích


-6dạy tiếng Anh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp cho
người học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trong
tiếng mẹ đẻ,... Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảng
dạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết. Đồng thời, các giáo
viên khi sử dụng kho song ngữ có thể làm giàu thêm kiến thức của họ, cung cấp
thêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trong việc thiết kế
giáo trình [17].
1.1.2.4.

Ứng dụng trong việc nghiên cứu dịch thuật

Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữa
ngôn ngữ nguồn và đích. Chúng cung cấp thông tin về tần số của từ, sử dụng cụ thể
từ vựng và cú pháp. Kho ngữ liệu song song có thể giúp phiên dịch để phát triển các
chiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tương đương
trực tiếp bằng ngôn ngữ đích. Trên cơ sở đó, tập hợp các bản dịch có thể được xác
định và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thể
loại [17].

1.1.3. Nghiên cứu một số kho dữ liệu song ngữ trên thế giới
1.1.3.1.

British National Corpus (BNC)

Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn.
Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007.
Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực và
quốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứa
tuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loại
văn bản khác. Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộc
hội thoại không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các
độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nói
được thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộc
họp chính phủ đài phát thanh và điện thoại.


-7Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm
1994. Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng các
ngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC
World (2001) và phiên bản thứ ba BNC XML Edition (2007). Kể từ khi hoàn thành
dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNC
Sampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) và
BNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,
viết luận và đàm thoại. ) [14][15].
1.1.3.2.

Canadian Hansard Corpus (Anh – Pháp)

Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng được

trích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chính
thức tại Canada là tiếng Anh và tiếng Pháp. Nội dung của nó được giới hạn trong
luận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụ
như thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu được
chuẩn bị trước.
Có một vài phiên bản của ngữ liệu song song Hansard Canada. Các phiên bản
USC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)
từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với
2.000.000 từ trong tiếng Anh và tiếng Pháp. Phiên bản này được tự do tải về tại
trang web USC. TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùng
đăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm
2003 (khoảng 235.000.000 từ) [13].
1.1.3.3.

JENAAD Japanese – English Parallel Corpus

(Anh – Nhật)
Kho ngữ liệu Japanese - English News Article Alignment Data (JENAAD)
chứa 150.000 cặp câu. Nguồn gốc của kho ngữ liệu được lấy từ Yomiuri Shimbun,
một trong những tạp chí quốc gia của Nhật Bản, và tờ báo tiếng Anh Daily
Yomiuri. Các ngữ liệu đã được cấp phép từ Viện Công nghệ Thông tin và Truyền


-8thông Quốc gia (National Institute of Information and Communications Technology
- NICT) Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [20].

1.1.3.4.

PKU 863 (Anh - Trung) của Đại học Bắc Kinh


Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngôn
ngữ học Tính toán của Trường đại học Peking. Kho ngữ liệu gồm có hơn 200.000
liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng
(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,
ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tin
tức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, văn
xuôi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,
kinh tế và kinh doanh. Đa số các văn bản được lấy từ các trang web song ngữ trong
khi một số được số hoá bằng cách quét vào rồi qua công đoạn nhận dạng chữ
(OCR: Optical Character Recognization) [26].
1.2. MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU

SONG NGỮ
1.2.1. Cơ sở dữ liệu
Xây dựng một kho dữ liệu đơn ngữ, song ngữ hay đa ngữ thì công việc phức
tạp và tốn nhiều thời gian công sức nhất là xây dựng một cơ sở dữ liệu với nhiều
định dạng trên máy tính và để có được nguồn cơ sở dữ liệu đa dạng, phong phú
chúng ta phải sưu tập và lựa chọn nguồn dữ liệu có thể có được bằng cách sử dụng
các tài liệu gốc có sẵn như sách song ngữ, web song ngữ, kế thừa các CSDL có sẵn
từ các từ điển,…. Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do
đó một công việc cần thiết nữa đó là lựa chọn công cụ để lưu trữ dữ liệu song ngữ.
Hiện nay có nhiều công cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:
XML, Word, HTML, các hệ quản trị cơ sở dữ liệu như Access, SQL, Oracle,… tuy


-9nhiên tùy theo mục đích khai thác mà ta lực chọn một công cụ thích hợp cho việc
khai thác, sau đây tôi xin giới thiệu đôi nét về XML.

1.2.1.1.


Tổng quan về XML

XML (Extensible Markup Language) ra đời vào tháng 2/1998, là ngôn ngữ có
kiến trúc gần giống với HTML nhưng XML nhanh chóng trở thành một chuẩn
phổ biến trong việc chuyển đổi thông tin qua các trang web sử dụng giao thức
HTTP. Trong khi HTML là ngôn ngữ chủ yếu về hiển thị dữ liệu thì XML lại đang
phát triển mạnh về việc chuyển tải, trao đổi và thao tác dữ liệu bằng XML. XML
đưa ra một định dạng chuẩn cho cấu trúc của dữ liệu hoặc thông tin bằng việc tự
định nghĩa định dạng của tài liệu. Bằng cách này, dữ liệu được lưu trữ bằng XML
sẽ độc lập với việc xử lý.
1.2.1.2.

Thuật ngữ

Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc với
XML:
Document Type Definition (DTD) – Định nghĩa loại tài liệu
Mô tả cách thức tài liệu được thông dịch thông quá các thẻ đánh dấu.
DTD định nghĩa cho các loại tài liệu khác nhau.
Parser – Trình biên dịch
Mã chương trình nhận tài liệu XML, đọc, thông dịch và trình bày chúng
dưới dạng đối tượng mà những ứng dụng có thể truy cập đến.
Tags – Thẻ
Cách thức tài liệu được đánh dấu để hiển thị. Thẻ sẽ định dạng dữ liệu
của tài liệu.
1.2.1.3.

Cấu trúc của một file XML



- 10 Mục đích của việc tổ chức thông tin là để con người có thể đọc và hiểu
được những gì mà nó muốn truyền tải. Chúng ta xem một tập tin văn bản sau đây:
F10 Shimano Calcutta 47.76
F20 Bantam Lexica 49.99
Theo cách tổ chức thông tin của tập tin trên, chúng ta thật khó để hiểu tập tin
này muốn nói lên điều gì. Bây giờ, chúng ta tổ chức tập tin trên theo định dạng
một tài liệu XML một cách đơn giản nhất.

<?xml version="1.0"?>
<Catalog>
<Product>
<ProductID>F10</ProductID>
<ProductName>Shimano Calcutta
</ProductName>
<ListPrice>47.76</ListPrice>
</Product>
<Product>
<ProductID>F20</ProductID>
<ProductName>Bantam
Lexica</ProductName>
<ListPrice>49.99</ListPrice>
</Product>
</Catalog>


- 11 Như vậy, bằng cách sử dụng định dạng XML, người dùng có thể hiểu và
biết được tập tin trên đang muốn truyền tải nội dung gì.
1.2.1.4.

Tạo lập một tài liệu XML


Chúng ta có thể sử dụng trình soạn thảo đơn giản nhất là Notepad để soạn
thảo tài liệu XML, nhưng phải tuân thủ theo qui tắc sau:
<root>
<child>
<subchild>…..</subchild>
....
</child>
....
</root>

Theo định dạng trên, chúng ta thấy tuy tài liệu XML rất đơn giản nhưng qui
định cũng rất nghiêm ngặt, có nghĩa là các tài liệu XML đều xuất phát từ nút gốc
(root), và mỗi phần tử phải có thẻ đóng và thẻ mở “< …/>”.
1.2.1.5.

Những thành phần của một tài liệu XML

Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo
<? xml version="1.0"?>
Định nghĩa tài liệu XML tuân theo chuẩn của W3C và đây là phiên bản
“1.0”
Chú thích: được khai báo như sau:


- 12 -

<!-- chú thích -- >

Phần tử (Elements): Một tài liệu XML được cấu thành từ những phần tử.

Một phần tử có thẻ mở và thẻ đóng. Giữa thẻ mở và thẻ đóng là nội dung của
phần tử đó. Phần tử có thể chứa dữ liệu hoặc có thể lồng vào một phần tử khác.
Phần tử gốc (root): Trong tài liệu XML, chỉ có một phần tử gốc, và phần tử
này sẽ chứa tất cả những phần tử của tài liệu XML do chúng ta tạo ra. Theo ví dụ
trên, ta thấy chỉ có một phần tử “Catalog” .
Thuộc tính (Attributes): Như đã trình bày ở trên, một phần tử có thể chứa
dữ liệu hoặc chứa phần tử khác hoặc cả hai. Bên cạnh đó, phần tử có thể rỗng,
khi đó nó có thể chứa thuộc tính. Một thuộc tính chỉ là một sự lựa chọn để gắn
dữ liệu đến phần tử. Một thuộc tính đặt trong thẻ mở của phần tử và chỉ ra giá trị
của nó bằng cách sử dụng cặp “name=value”.


- 13 -

<?xml version="1.0"?>
<Catalog>
<Product Type="Spinning Reel" SupplierId="5">
<ProductID>F10</ProductID>
<ProductName>Shimano Calcutta </ProductName>
<ListPrice>47.76</ListPrice>
</Product>
<Product Type ="Baitcasting Reel" SupplierId="3">
<ProductID>F20</ProductID>
<ProductName>Bantam Lexica</ProductName>
<ListPrice>49.99</ListPrice>
</Product>
</Catalog>
1.2.1.6.

Kết Luận


XML được xây dựng như là một chuẩn cho việc trình bày và trao đổi dữ
liệu trên web. Tập đoàn W3C đã xây dựng chuẩn XML và những công nghệ liên
quan bao gồm XML DOM, XPath, XSL, và XML Schema. Vì XML là một
chuẩn công cộng không thuộc về một công ty nào, nên người dùng có thể tự do
trong việc phát triển các ứng dụng trên XML và không bị giới hạn cách sử dụng Vì
thế, XML ngày nay đang được sử dụng rất phổ biến và tương lai sẽ là một chuẩn
duy nhất được dùng trên web và đặc biệt trong lĩnh vực web đa ngữ thì XML là một
công cụ rất phù hợp bởi tính năng đặc biệt của nó.
1.2.2. Thu thập dữ liệu


- 14 Với sự ra đời và phát triển mạnh mẽ của máy tính điện tử cũng như mạng
Internet đi cùng theo nó là kho dữ liệu khổng lồ tồn tại dưới dạng điện tử thì việc
thu thập ngữ liệu đã được tự động hóa rất nhiều. Các kho ngữ liệu song song hiện
nay thường được chọn lọc từ các nguồn tài liệu như: báo chí, sách giáo khoa, các
website song ngữ hoặc các ngữ liệu điện tử từ các sách, truyện nổi tiếng nhiều thứ
tiếng. Tuy nhiên có một số hạn chế trong việc thu thập dữ liệu đó là các ngữ liệu
song ngữ có sẵn trên mạng Internet đa số đều là các bản dịch thoát ý, hoặc dịch ý
chính không dịch 1 -1.
Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt được
chọn là tập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phù
hợp, như: các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việt
trong các từ điển, ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khác
nhau (sách, điện tử) và được nhập hay quét vào rồi qua công đoạn nhận dạng
chữ OCR. Sau đây là các nguồn ngữ liệu song ngữ Anh - Việt thô có thể thu
thập được:
a. Nguồn từ điển: trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví
dụ hướng dẫn sử dụng từ đó, và các ví dụ bằng tiếng Anh này cũng được dịch
chính xác (1-1) sang tiếng Việt. Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trong

các từ điển là đạt yêu cầu nhất (nhất là các từ điển nổi tiếng, nhiều người sử
dụng, các từ điển được các cơ quan hay học giả uy tín biên soạn, các câu
tiếng Anh được các nhà làm từ điển trích từ từ điển Oxford, Webster). Hầu hết
các ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn về phong
cách/lĩnh vực).


- 15 -

Hình 1.1. Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ
b. Ngữ liệu SUSANNE: đây là ngữ liệu điện tử tiếng Anh được xây
dựng bởi một nhóm các nhà ngôn ngữ học - máy tính (đứng đầu là Geoffrey
Sampson) thuộc trường đại học

Sussex, Anh. SUSANNE (Surface and

Underlying Structural ANalyses of Naturalistic English) là một phần trong
dự án phân tích và đánh dấu tiếng Anh theo hướng ngôn ngữ học máy tính.
SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown.
c. Nguồn Internet: đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này
có lợi thế là chúng đã tồn tại sẵn dưới dạng điện tử (nên không phải nhập liệu
lại bằng tay). Kho ngữ liệu trên Internet thì vô cùng lớn với vô vàn các lĩnh
vực/phong cách khác nhau, nhưng chỉ có một số ít các trang Web song ngữ là
đáp ứng được đúng tiêu chuẩn.


- 16 d. Nguồn sách: bao gồm các sách dạy tiếng Anh, các mẫu câu tiếng Anh,
sách song ngữ tin học, khoa học kỹ thuật,…
1.2.3. Xử lý ngôn ngữ tự nhiên
Song song với việc thu thập dữ liệu, với các nguồn dữ liệu đầu vào như văn

bản, các trang web, ebook,… thì cần phải có một số công đoạn xử lý văn bản đầu
vào, phân tích, tách đoạn, tách câu,…để đạt được mục đích.
Các dữ liệu đầu vào là các văn bản, trang web được lấy về sẽ phải qua giai
đoạn tiền xử lý gồm các công việc như sau:
1.2.3.1.

Xử lý đầu vào

Các văn bản sẽ được làm sạch, xóa những phần không cần thiết. Các trang
web sau khi tải xuống sẽ được trích rút nội dung trang web.
1.2.3.2.

Tách đoạn

Tách đoạn nhằm mục đích tách văn bản thành các đoạn và xem văn bản là một
khối liên tục các câu. Khi tách đoạn chủ yếu dựa vào định dạng của các văn bản để
phát hiện biên giới của các văn bản. Đồng thời việc tách đoạn được thực bằng cách
quét qua các ký tự trong văn bản để tìm ra giới hạn của một đoạn văn. Giới hạn này
là các quy ước trong việc trình bày văn bản bao gồm dấu hiệu bắt đầu đoạn và kết
thúc đoạn
1.2.3.3.

Tách câu

Trong văn bản tiếng Anh, tiếng Việt hay một số ngôn ngữ khác, thông thường
người ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câu
khác để nhận biết kết thúc câu. Tuy nhiên do tính nhập nhằng của dấu báo hiệu kết
thúc câu nên việc phân định ranh giới không đơn giản. Ví dụ dấu chấm có thể biểu
thị cho một dấu thập phân (1,234.567), một cụm từ viết tắt (Mr., Dr., GS., TS., …),
kết thúc câu văn và một số trường hợp như địa chỉ trang web, email…(www.udn.vn

hoặc ). Dấu chấm hỏi hay dấu chấm thang có thể xuất hiện trong dấu
ngoặc đơn, ngoặc kép hay ở cuối câu.


- 17 1.3. MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

1.3.1. Thuật toán liên kết từ
Liên kết từ trong ngữ liệu song ngữ là liên kết một từ e i trong ngôn ngữ E với
từ vi trong ngôn ngữ V tương ứng. Ví dụ xét cặp câu Anh – Việt sau:
The processor is the central component of a computer system.

Bộ xử lý là thành phần trung tâm của một hệ thống máy tính
Thuật toán liên kết từ bằng từ điển song ngữ Anh – Việt DicAlign được
mô tả như sau:
Gọi câu tiếng Anh là S (Source sentence: câu nguồn), câu tiếng Việt là T
(Target sentence: câu đích). Ta có cặp câu được dịch bởi nhau là (S,T). Gọi s là
từ (hoặc cụm từ) trong S; t là từ được dịch theo ngữ cảnh trong T ứng với s
trong S. Gọi DTs là tập các nghĩa trong từ điển cho mục từ s, mỗi một nghĩa
được ký hiệu là dt
WT = {wt | wt ∈ T Λ wt ∈ VD }, wt là các cụm từ/cụm từ tiếng Việt có
thể có trong T. Trong đó: VD là từ điển các từ/cụm từ có thể có trong tiếng
Việt
WS = { s }.
Thuật toán DicAlign:
Đầu vào: Câu tiếng Anh và câu tiếng Việt
Đầu ra: Danh sách chứa các mối liên kết
B1: Phân tích câu tiếng Anh S để thu được danh sách W S . Bỏ qua các
stop-word (là các từ chức năng, từ không được dịch, như: the, on, in,…)



×