Tải bản đầy đủ (.doc) (111 trang)

ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.42 MB, 111 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN THỊ DIỆU UYÊN

ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG
VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA
ĐỀ TÀI TỐT NGHIỆP

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2011


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN THỊ DIỆU UYÊN

ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG
VIỆT XÂY DỰNG HỆ THỐNG KIỂM TRA
ĐỀ TÀI TỐT NGHIỆP

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh

Đà Nẵng - Năm 2011





i

LỜI CAM ĐOAN

Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên
tác giả, tên công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá,
tôi xin chịu hoàn toàn trách nhiệm.
Tác giả

Trần Thị Diệu Uyên


ii

MỤC LỤC
TRANG PHỤ BÌA....................................................................................................i

LỜI CAM ĐOAN............................................................................................i
MỤC LỤC.......................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT...............................................................v
DANH MỤC CÁC CÁC BẢNG..................................................................vii
DANH MỤC CÁC HÌNH.............................................................................xi
MỞ ĐẦU.........................................................................................................1

CHƯƠNG 1.....................................................................................................5
NGHIÊN CỨU TỔNG QUAN......................................................................5
1.1. DỊCH TỰ ĐỘNG...............................................................................................5
1.1.4.1. Babel Fish...................................................................................................13
1.1.4.2. Systran........................................................................................................13
................................................................................................................................. 14
1.1.4.3. Reverso.......................................................................................................14
................................................................................................................................. 14
1.1.4.4. Google Translate.........................................................................................15
................................................................................................................................. 15
1.2. MÔI TRƯỜNG HỢP TÁC...............................................................................15
1.2.4.1. Portlet API (JSR 168).................................................................................19
1.2.4.2. Web Services for Remote Portlet (WSRP)..................................................19
1.2.5.1. Văn phòng điện tử (WebOffice)..................................................................20
WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể
công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển.........................20
................................................................................................................................. 20
1.2.5.2. Hệ thống Wiki.............................................................................................20
................................................................................................................................. 21
1.2.5.3. Hệ thống Windows Live Groups.................................................................21


iii
................................................................................................................................. 22
1.3. KHO NGỮ LIỆU SONG NGỮ........................................................................23
1.3.2.1. Ứng dụng trong ngôn ngữ học – thống kê...................................................24
1.3.2.2. Ứng dụng trong ngôn ngữ học so sánh.......................................................24
1.3.2.3. Ứng dụng trong giảng dạy ngoại ngữ..........................................................25
1.3.2.4. Ứng dụng trong việc nghiên cứu dịch thuật................................................25
1.3.3.1. British National Corpus (BNC)...................................................................25

1.3.3.2. Canadian Hansard Corpus (Anh – Pháp)....................................................26
1.3.3.3. JENAAD Japanese – English Parallel Corpus (Anh – Nhật)......................27
1.3.3.4. PKU 863 (Anh - Trung) của Đại học Bắc Kinh..........................................27
1.4. CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU...........................................27
1.5. TỔNG KẾT CHƯƠNG....................................................................................31

CHƯƠNG 2 GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU.........................31
2.1. GIỚI THIỆU.....................................................................................................32
2.2. MÔ HÌNH HỆ THỐNG....................................................................................32
2.3. XÂY DỰNG KHO NGỮ LIỆU........................................................................34
2.3.1.1. Chuẩn ngôn ngữ..........................................................................................34
2.3.1.2. Các kho ngữ liệu tiếng Anh có sẵn..............................................................34
2.3.1.3. Yêu cầu đối với kho ngữ liệu......................................................................34
2.3.1.4. Ngữ liệu dạng điện tử.................................................................................35
2.3.2.1. Chọn nguồn ngữ liệu thô.............................................................................35
2.3.2.2. Chuẩn hoá ngữ liệu.....................................................................................36
2.3.3.1. Xử lý đầu vào..............................................................................................37
2.3.3.2. Tách đoạn...................................................................................................37
2.3.3.3. Tách câu......................................................................................................37
2.3.3.4. Lưu trữ kho ngữ liệu bằng XML.................................................................37
2.3.4.1. Nguồn Từ điển............................................................................................38
2.3.4.2. Nguồn Báo điện tử......................................................................................40
2.3.4.3. Nguồn từ các kho ngữ liệu được xây dựng sẵn...........................................42


iv
2.3.5.1. Công cụ cập nhật tài liệu bằng RTF của Microsoft Word...........................44
2.3.5.2. Kỹ thuật cập nhật sử dụng các macro.........................................................45
2.3.5.3. Kỹ thuật trích lọc dữ liệu file html..............................................................47
2.3.7.1. Giới thiệu....................................................................................................48

2.3.7.2. Cấu trúc lưu trữ kho ngữ liệu đa ngữ..........................................................49
2.3.7.3. Phương pháp đa ngữ hoá kho ngữ liệu........................................................52
2.4. HIỆU CHỈNH KHO NGỮ LIỆU......................................................................53
2.4.1.1. Phương pháp tự động..................................................................................54
2.4.1.2. Phương pháp chuyên gia.............................................................................55
2.4.2.1. Giới thiệu....................................................................................................56
2.4.2.2. Phân tích đối tượng người dùng..................................................................56
2.4.2.3. Các chức năng chính của môi trường hợp tác.............................................57
2.4.2.4. Mô hình triển khai môi trường hợp tác.......................................................58
2.5. TỔNG KẾT CHƯƠNG....................................................................................59

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG..................................................60
4.1. LỰA CHỌN CÔNG CỤ PHÁT TRIỂN...........................................................60
4.2. XÂY DỰNG KHO NGỮ LIỆU........................................................................62
4.2.1.1. Trích từ Từ điển Lạc Việt............................................................................62
4.2.1.2. Trích từ báo VOV ONLINE........................................................................66
4.2.1.3. Trích từ các kho ngữ liệu có sẵn.................................................................73
4.2.1.4. Một số nguồn ngữ liệu khác........................................................................74
4.3. HIỆU CHỈNH KHO NGỮ LIỆU......................................................................78
4.3.1.1. Mô hình kiến trúc môi trường hợp tác........................................................79
4.3.1.2. Tổ chức lưu trữ dữ liệu...............................................................................81
4.3.2.1. Trang chính của hệ thống............................................................................82
4.3.2.2. Trang dịch câu............................................................................................83
4.3.2.3. Một số trang ứng dụng kho ngữ liệu...........................................................85

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...................................................90
TÀI LIỆU THAM KHẢO............................................................................92


v


DANH MỤC CÁC TỪ VIẾT TẮT
TIẾNG VIỆT
CSDL

Cơ sở dữ liệu

NSD

Người sử dụng

KHKT

Khoa học Kỹ thuật

TIẾNG ANH
BNC

British National Corpus

BTEC

Basic Travel Expression Corpus

DTD

Document Type Definition

EVC


English Vietnamese Corpus

HTML

HyperText Markup Language

HTTP

HyperText Transfer Protocol

J2EE

Java 2 Enterprise Edition

JENAAD

Japanese - English News Article Alignment Data

MSN

Microsoft Network

MT

Machine translation

NITF

News Industry Text Format


OASIS

Organization for the
Information Standards

OCR

Optical Character Recognization

PDF

Portable Document Format

RDF

Resource Description Format

RSS

Realy Simple Syndication

RTF

Rich Text Format

SGML

Standard Generalized Markup Language

SQL


Structured Query Language

URL

Uniform Resource Locator

VB

Visual Basic

VBA

Visual Basic for Application

Advancement

of

Structured


vi
W3C

World Wide Web Consortium

WSRP

Web Services for Remote Portlet


XML

eXtensible Markup Language


vii

DANH MỤC CÁC CÁC BẢNG
1.1. DỊCH TỰ ĐỘNG...............................................................................................5
1.1.1. Khái niệm.......................................................................................5
1.1.2. Lịch sử phát triển............................................................................7
1.1.3. Cấu trúc của một chương trình dịch tự động..................................8
1.1.4. Một số hệ thống dịch tự động.......................................................13
1.1.4.1. Babel Fish...................................................................................................13
1.1.4.2. Systran........................................................................................................13
................................................................................................................................. 14
1.1.4.3. Reverso.......................................................................................................14
................................................................................................................................. 14
1.1.4.4. Google Translate.........................................................................................15
................................................................................................................................. 15
1.2. MÔI TRƯỜNG HỢP TÁC...............................................................................15
1.2.1. Khái niệm.....................................................................................15
1.2.2. Các công cụ dùng để giao tiếp và hợp tác.....................................17
1.2.3. Các tính năng cơ bản của môi trường hợp tác...............................17
1.2.4. Các công nghệ hỗ trợ môi trường hợp tác.....................................19
1.2.4.1. Portlet API (JSR 168).................................................................................19
1.2.4.2. Web Services for Remote Portlet (WSRP)..................................................19
1.2.5. Một số môi trường hợp tác trên mạng...........................................20
1.2.5.1. Văn phòng điện tử (WebOffice)..................................................................20

WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể
công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển.........................20
................................................................................................................................. 20
1.2.5.2. Hệ thống Wiki.............................................................................................20
................................................................................................................................. 21
1.2.5.3. Hệ thống Windows Live Groups.................................................................21
................................................................................................................................. 22


viii
1.3. KHO NGỮ LIỆU SONG NGỮ........................................................................23
1.3.1. Một số khái niệm..........................................................................23
1.3.2. Ứng dụng của kho ngữ liệu song ngữ...........................................24
1.3.2.1. Ứng dụng trong ngôn ngữ học – thống kê...................................................24
1.3.2.2. Ứng dụng trong ngôn ngữ học so sánh.......................................................24
1.3.2.3. Ứng dụng trong giảng dạy ngoại ngữ..........................................................25
1.3.2.4. Ứng dụng trong việc nghiên cứu dịch thuật................................................25
1.3.3. Nghiên cứu một số kho dữ liệu song ngữ trên thế giới.................25
1.3.3.1. British National Corpus (BNC)...................................................................25
1.3.3.2. Canadian Hansard Corpus (Anh – Pháp)....................................................26
1.3.3.3. JENAAD Japanese – English Parallel Corpus (Anh – Nhật)......................27
1.3.3.4. PKU 863 (Anh - Trung) của Đại học Bắc Kinh..........................................27
1.4. CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU...........................................27
1.4.1. Tổng quan về XML......................................................................28
1.4.2. Thuật ngữ.....................................................................................28
1.4.3. Cấu trúc của một tập tin XML......................................................28
1.4.4. Những thành phần của một tài liệu XML.....................................29
1.5. TỔNG KẾT CHƯƠNG....................................................................................31
2.1. GIỚI THIỆU.....................................................................................................32
2.2. MÔ HÌNH HỆ THỐNG....................................................................................32

2.3. XÂY DỰNG KHO NGỮ LIỆU........................................................................34
2.3.1. Các tiêu chí chọn mẫu ngữ liệu....................................................34
2.3.1.1. Chuẩn ngôn ngữ..........................................................................................34
2.3.1.2. Các kho ngữ liệu tiếng Anh có sẵn..............................................................34
2.3.1.3. Yêu cầu đối với kho ngữ liệu......................................................................34
2.3.1.4. Ngữ liệu dạng điện tử.................................................................................35
2.3.2. Chọn nguồn ngữ liệu và chuẩn hóa...............................................35
2.3.2.1. Chọn nguồn ngữ liệu thô.............................................................................35
2.3.2.2. Chuẩn hoá ngữ liệu.....................................................................................36


ix
2.3.3. Ứng dụng xử lý ngôn ngữ tự nhiên...............................................36
2.3.3.1. Xử lý đầu vào..............................................................................................37
2.3.3.2. Tách đoạn...................................................................................................37
2.3.3.3. Tách câu......................................................................................................37
2.3.3.4. Lưu trữ kho ngữ liệu bằng XML.................................................................37
2.3.4. Các nguồn ngữ liệu thu thập.........................................................38
2.3.4.1. Nguồn Từ điển............................................................................................38
2.3.4.2. Nguồn Báo điện tử......................................................................................40
2.3.4.3. Nguồn từ các kho ngữ liệu được xây dựng sẵn...........................................42
2.3.5. Các kỹ thuật xử lý ngữ liệu...........................................................44
2.3.5.1. Công cụ cập nhật tài liệu bằng RTF của Microsoft Word...........................44
2.3.5.2. Kỹ thuật cập nhật sử dụng các macro.........................................................45
2.3.5.3. Kỹ thuật trích lọc dữ liệu file html..............................................................47
2.3.6. Tích hợp các nguồn ngữ liệu.........................................................48
2.3.7. Đa ngữ hoá kho ngữ liệu..............................................................48
2.3.7.1. Giới thiệu....................................................................................................48
2.3.7.2. Cấu trúc lưu trữ kho ngữ liệu đa ngữ..........................................................49
2.3.7.3. Phương pháp đa ngữ hoá kho ngữ liệu........................................................52

2.4. HIỆU CHỈNH KHO NGỮ LIỆU......................................................................53
2.4.1. Các phương pháp hiệu chỉnh dữ liệu............................................54
2.4.1.1. Phương pháp tự động..................................................................................54
2.4.1.2. Phương pháp chuyên gia.............................................................................55
2.4.2. Hiệu chỉnh bằng môi trường hợp tác............................................56
2.4.2.1. Giới thiệu....................................................................................................56
2.4.2.2. Phân tích đối tượng người dùng..................................................................56
2.4.2.3. Các chức năng chính của môi trường hợp tác.............................................57
2.4.2.4. Mô hình triển khai môi trường hợp tác.......................................................58
2.5. TỔNG KẾT CHƯƠNG....................................................................................59
4.1. LỰA CHỌN CÔNG CỤ PHÁT TRIỂN...........................................................60


x
4.1.1. Ngôn ngữ lập trình........................................................................60
4.1.2. Cơ sở dữ liệu................................................................................61
4.2. XÂY DỰNG KHO NGỮ LIỆU........................................................................62
4.2.1. Thu thập và xử lý các nguồn dữ liệu.............................................62
4.2.1.1. Trích từ Từ điển Lạc Việt............................................................................62
4.2.1.2. Trích từ báo VOV ONLINE........................................................................66
4.2.1.3. Trích từ các kho ngữ liệu có sẵn.................................................................73
4.2.1.4. Một số nguồn ngữ liệu khác........................................................................74
4.2.2. Xử lý trùng lặp các câu trong kho ngữ liệu...................................74
4.2.3. Nội dung chương trình hỗ trợ dịch...............................................74
4.2.4. Giao diện chương trình hỗ trợ dịch...............................................75
4.2.5. Thử nghiệm và đánh giá kết quả của hệ thống dịch......................77
4.3. HIỆU CHỈNH KHO NGỮ LIỆU......................................................................78
4.3.1. Xây dựng hệ thống.......................................................................78
4.3.1.1. Mô hình kiến trúc môi trường hợp tác........................................................79
4.3.1.2. Tổ chức lưu trữ dữ liệu...............................................................................81

4.3.2. Xây dựng giao diện hệ thống........................................................82
4.3.2.1. Trang chính của hệ thống............................................................................82
4.3.2.2. Trang dịch câu............................................................................................83
4.3.2.3. Một số trang ứng dụng kho ngữ liệu...........................................................85
................................................................................................................87
4.3.3. Thử nghiệm và đánh giá chương trình..........................................87


xi

DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình xử lý của một chương trình dịch tự động.................................10
Hình 1.1. Giao diện hệ thống dịch Babel Fish.........................................................13
Hình 2.1. Giao diện hệ thống dịch Systran..............................................................14
Hình 3.1. Giao diện hệ thống dịch Reverso.............................................................14
Hình 4.1. Giao diện màn hình dịch với Google translate.........................................15
Hình 1.1. Giao diện trang WebOffice......................................................................20
Hình 2.1. Giao diện trang Wikipedia.......................................................................21
Hình 3.1. Giao diện trang Windows Live................................................................22
Hình 1.1. Mô hình tổng thể hệ thống.......................................................................33
Hình 1.1. Giao diện của Từ điển Lạc Việt...............................................................40
Hình 2.1. Ví dụ về trang Web ngôn ngữ chính.........................................................42
Hình 2.2. Ví dụ về trang Web có phiên bản ngôn ngữ khác.....................................42
Hình 2.1. Sơ đồ chuyển đổi từ tập tin *. Doc sang tập tin *. XML..........................46
Hình 2.2. Mẫu tập tin *.Doc....................................................................................46


xii
Hình 2.3. Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin......46
Hình 2.1. Các giải pháp tổ chức CSDL....................................................................50

Hình 2.2. Ví dụ dữ liệu lưu trên 1 tập tin.................................................................51
Hình 2.3. Ví dụ dữ liệu lưu trên 3 tập tin.................................................................52
Hình 3.1. Sơ đồ đa ngữ hóa kho ngữ liệu................................................................53
Hình 4.1. Mô hình triển khai hệ thống.....................................................................59
Hình 1.1. Sơ đồ quá trình trích từ Từ điển Lạc Việt.................................................63
Hình 1.2. Mục từ có các câu ví dụ Anh – Việt.........................................................63
Hình 1.3. Tập tin tiếng Anh.Doc trích từ Từ điển Lạc Việt......................................64
Hình 1.4. Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục.........66
Hình 1.5. Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục..................66
Hình 2.1. Hệ thống bóc tách nội dung của VietSpider.............................................67
Hình 2.2. Sơ đồ quá trình xử lý trích từ trang Web..................................................68
Hình 2.3. Trang Web tiếng Anh trước khi tách lấy nội dung....................................68
Hình 2.4. Ví dụ tạo luồng trang VOV online...........................................................69
Hình 2.5. Trang Web tiếng Anh khi thực hiện tách lấy nội dung.............................69
Hình 2.6. Dữ liệu sau khi bóc tách...........................................................................70
Hình 2.7. Sơ đồ quá trình xử lý trích từ trang Web sử dụng MorphAdorner............71
Hình 2.8. Tách câu trực tuyến của MorphAdorner..................................................72
Hình 2.9. Kết quả tách câu tiếng Anh bằng công cụ trực tuyến MorphAdorner......72
Hình 3.1. Sơ đồ xử lý Corpus có sẵn.......................................................................73
Hình 1.1. Giao diện dịch kho ngữ liệu.....................................................................76
Hình 1.2. Giao diện dịch thành công.......................................................................76
Hình 1.1. Mô hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu............................80
Hình 2.1. Cấu trúc quy ước lưu dữ liệu...................................................................81
Hình 2.2. Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp..................................82
Hình 1.1. Giao diện chính của hệ thống...................................................................83
Hình 2.1. Giao diện tìm kiếm, dịch câu, xem bản sửa.............................................83
Hình 2.2. Giao diện hiệu chỉnh câu dịch..................................................................84


xiii

................................................................................................................................. 85
Hình 2.3. Giao diện câu đóng góp bị trùng..............................................................85
................................................................................................................................. 85
Hình 2.4. Giao diện thay đổi câu dịch dành cho chuyên gia....................................85
Hình 3.1. Giao diện Game điền khuyết....................................................................86
................................................................................................................................. 86
Hình 3.2. Giao diện Game sắp xếp thứ tự đúng của từ............................................86
Hình 3.3. Giao diện Game dịch Anh – Việt.............................................................87


-1-

MỞ ĐẦU
1. Lý do chọn đề tài
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành
tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, … Cùng với sự
phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông
tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng
thông tin này vẫn chưa được khai thác hết bởi rất nhiều lý do, một trong những lý
do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản về
ngôn ngữ [3]. Giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thống
dịch tự động.
Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả
và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vào
thương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép
tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta
có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đến
một văn bản hoàn chỉnh. Các hệ thống dịch tự động cho phép dịch rất nhanh và chi
phí thấp hơn nhiều so với dịch bằng con người. Tuy nhiên, những hệ thống này
đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng về

ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về
giải thích các khái niệm.
Cùng với đó, nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng
và được ứng dụng trong nhiều lĩnh vực. Đa số các hệ thống xử lý ngôn ngữ tự nhiên
đều sử dụng các phương pháp liên quan đến học máy, kỹ thuật thống kê nên rất cần
các tài liệu song ngữ hoặc đa ngữ. Vì vậy các kho ngữ liệu là một trong những cơ sở
quan trọng để phát triển các hệ thống xử lý ngôn ngữ tự nhiên.
Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh –
Hoa, … nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tự
nhiên vẫn còn thiếu. Ví dụ như đối với tiếng Việt, hiện nay chưa có nhiều kho ngữ
liệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lý


-2ngôn ngữ tự nhiên. Bên cạnh đó, một số kho ngữ liệu để phục vụ xử lý tiếng Việt
chưa được chia sẽ rộng rãi. Chi phí để phát triển một kho ngữ liệu là rất tốn kém. Vì
vậy tôi quyết định chọn đề tài “Mở rộng các kho ngữ liệu đa ngữ dựa vào các
phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao
học. Trong đề tài này, chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tự
động và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu.
Xây dựng công cụ sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một
số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc
đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có. Ngoài ra, sau khi dịch tự động
sẽ đưa kết quả nhận được cho người sử dụng góp ý, hiệu chỉnh nhằm tăng độ tin cậy
và tính kiểm chứng của kết quả. Giải pháp sử dụng lại các hệ thống dịch tự động và
môi trường hợp tác để mở rộng kho ngữ liệu sẵn có sang các ngôn ngữ khác là một trong
những giáp pháp khả thi và hiệu quả.
2. Mục đích nghiên cứu
Mục đích nghiên cứu của để tài là xây dựng môi trường trong đó sử dụng lại
các hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữ
mới, đặc biệt là cho tiếng Việt. Ngoài ra, ứng dụng môi trường này để mở rộng một

kho ngữ liệu đa ngữ Anh – Pháp – Việt gồm các câu song song.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là các kho ngữ liệu (Linguistics Corpus). Các
hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,… Các công cụ
phát triển như TRADOH, TRAWEB, SANDOH,… Các mô hình triển khai hệ thống
và một số bài báo và luận văn tốt nghiệp khóa trước.
3.2. Phạm vi nghiên cứu
Trong khuôn khổ của luận văn này, chúng tôi thực nghiệm tạo một kho ngữ
liệu đa ngữ Anh – Pháp – Việt tối thiểu 50.000 câu cho mỗi ngôn ngữ.


-34. Phương pháp nghiên cứu
Chúng tôi sử dụng hai phương pháp chính là phương pháp tài liệu và phương
pháp thực nghiệm.
Phương pháp tài liệu: Với phương pháp này, chúng tôi nghiên cứu các tài liệu
về cơ sở lý thuyết: Dịch tự động, môi trường hợp tác, kho dữ liệu, kho ngữ liệu; các
tài liệu mô tả một số công cụ dịch tự động và các tài liệu liên quan đến một số
nghiên cứu khác.
Phương pháp thực nghiệm: Với phương pháp này, chúng tôi sử dụng các hệ
thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ:
kho ngữ liệu tiếng Anh BTEC sang tiếng Việt); đồng thời thực nghiệm dịch và kiểm
tra một số kho ngữ liệu sẵn có sang tiếng Việt. Bên cạnh đó, chúng tôi xây dựng
một môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Về khoa học: Kết quả nghiên cứu của đề tài góp phần thúc đẩy việc ứng dụng
các phần mềm dịch tự động trực tuyến để phục vụ việc phát triển các kho ngữ liệu
đa ngữ phục vụ xử lý ngôn ngữ tự nhiên.
Về thực tiễn: Đề tài sẽ góp phần xây dựng một kho ngữ liệu đa ngữ gồm 3
ngôn ngữ Anh – Pháp – Việt nhằm tạo ra được một cơ sở dữ liệu phục vụ cho việc

dạy và học tiếng ngoại ngữ, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên, ...
6. Bố cục luận văn
Báo cáo của luận văn được tổ chức thành 3 chương chính:
Chương 1. Nghiên cứu tổng quan
Trong chương này, chúng tôi trình bày tổng quan về dịch tự động, môi trường
hợp tác, kho ngữ liệu song ngữ/đa ngữ và đa ngữ hoá kho ngữ liệu và các định dạng
để lưu trữ kho ngữ liệu.
Chương 2. Đề xuất giải pháp
Chương 2 được dành để trình bày mô hình phát triển và các giải pháp xây
dựng kho ngữ liệu cụ thể như các nguồn ngữ liệu thu thập được và một số kỹ thuật
xử lý dữ liệu để tạo kho ngữ liệu đầu vào. Từ đó trình bày một số giải pháp mở rộng


-4kho ngữ liệu đa ngữ nhờ vào các hệ thống dịch tự động trực tuyến. Giải pháp được
đề xuất như sau: Mở rộng kho ngữ liệu đa ngữ nhờ vào việc sử dụng lại hệ thống
dịch tự động trực tuyến Google translate từ các kho ngữ liệu đơn ngữ sẵn có. Sau đó
nhờ hệ thống này nhận kết quả các bản dịch để xây dựng kho ngữ liệu đa ngữ. Và
chúng tôi sẽ trình bày một giải pháp để hiệu chỉnh các kho ngữ liệu sau khi mở rộng
từ các hệ thống dịch trực tuyến đó là xây dựng một môi trường hợp tác để nhờ
người sử dụng hiệu chỉnh các câu dịch.
Chương 3. Triển khai ứng dụng
Lựa chọn công cụ phát triển, xử lý dữ liệu đầu vào để đưa vào kho. Giới thiệu
các bước triển khai, xây dựng các modul chương trình, phương pháp tạo kho ngữ
liệu đa ngữ, tạo môi trường hợp tác để hiệu chỉnh dữ liệu.


-5-

CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN

Trong chương này, chúng tôi trình bày các vấn đề liên quan đến dịch tự động,
môi trường hợp tác, kho ngữ liệu song ngữ/đa ngữ và một số kỹ thuật liên quan đến
định dạng kho ngữ liệu.

1.1. DỊCH TỰ ĐỘNG
1.1.1. Khái niệm
Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánh
của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo? Nó là sự kết hợp
giữa khoa học ngôn ngữ và khoa học máy tính. Như tên gọi, dịch tự động thực hiện
dịch một văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một ngôn ngữ khác
(gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự can thiệp của con
người trong quá trình dịch.
Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập
nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng
của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫn chưa rõ là nó chỉ một loại
"chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai
điểm của đường tròn, của mặt cầu". Nhập nhằng như ví dụ vừa rồi là do hiện tượng
đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từ
loại, nhập nhằng từ đa nghĩa.
Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việc
xác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ
đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng. Tiếng
Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ
xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ "miễn bàn" có thể bị
dịch thành “free table”. Với tiếng Anh do là ngôn ngữ biến hình nên việc xác
định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giống
nhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếng


-6Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩa

chính xác phải thực hiện phân tích văn cảnh.
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạo
thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu thì
công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng
Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng
Trung thì rất khó khăn [15]. Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết
sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả của
chúng vẫn không được tốt.
Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vào
các bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc được
văn bản hoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho ra
bản dịch cuối cùng. Mà nó còn bao gồm các hệ thống, trong đó người dịch hoặc
những người sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bị
văn bản hay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh.
Trên thực tế, kết quả của hầu hết các hệ thống dịch bằng máy tính đều được
sửa đổi bởi con người. Như vậy trong trường hợp này bản dịch bằng máy tính
không khác mấy so với bản dịch do con người dịch. Lúc đó các loại lỗi sai được tạo
ra bởi hệ thống dịch tự động thì khác so với các lỗi sai của người dịch. Còn trong
trường hợp bản dịch tự động hoàn toàn do máy tính không có sự can thiệp của con
người có thể được hiểu như một “bản dịch nghĩa” - một bản dịch chưa hoàn chỉnh
nhưng giúp chúng ta hiểu được văn bản gốc.
Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập,
mà liên quan đến nhiều lĩnh vực khác nhau như: ngôn ngữ, khoa học máy tính, trí
tuệ nhân tạo, thống kê, … Người ta cần kết hợp nhiều lĩnh vực để có thể phát triển
hoàn thiện một hệ thống dịch nào đó. Ranh giới giữa hệ thống dịch bằng máy tính
do con người hỗ trợ và hệ thống dịch bằng máy nhằm hỗ trợ cho con người rất gần
nhau và đôi khi có thể hỗ trợ cho cả hai. Nhưng cốt lõi của dịch tự động bằng máy
tính là tự động hoá một phần hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuối



-7cùng là nhanh chóng tạo ra những bản dịch có chất lượng cao và chi phí thấp hơn
nhiều so với dịch bằng con người.
1.1.2. Lịch sử phát triển
Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz
và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa
nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết mà
không có một ứng dụng thực tế nào.
Sản phẩm đầu tiên cho một "chương trình dịch tự động" được thực hiện vào
khoảng giữa thập niên 1930 [11]. Tuy nhiên, những sản phẩm thực sự của dịch tự
động mới có từ những năm 1950. Vào năm 1954, thực nghiệm Georgetown - IBM
(International Business Machines) đã thực hiện thành công thí nghiệm dịch tự động
hoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh. Thành công bước đầu này đã tạo
điều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu. Các tác giả (tại
thời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽ
được giải quyết [13].
Nhưng thực tế diễn ra chậm hơn nhiều theo báo cáo ALPAC vào năm 1966,
sau hơn 10 năm các nghiên cứu ở lĩnh vực này vẫn không có những tiến bộ đáng kể
và hệ quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập niên 1980, khi
máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu
quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà
trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế
[8].
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất
nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay có một số
công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên
cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google
và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền. Một hướng
tiếp cận mới là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợp
giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê.



-8Đối với tiếng Việt, vấn đề dịch tự động đã bắt đầu được nghiên cứu những
năm thập niên 1960 hầu hết đều do các nguyên nhân chính trị và quân sự. Các tài
liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E. Scott
thành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ
chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt. Scott bắt đầu chuẩn bị cho
việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ
máy tính tại New York, Mỹ. Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động
có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt,
tác giả của hệ thống này là Charles E. Byrne, Bernard E. Scott, Truong N. Binh [9].
Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt
vào năm 1973. Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ
thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên
1970 tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được xây
dựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc
hoạt động tương tự như của hệ thống Logos. Tuy nhiên, hệ dịch máy Anh-Việt được
sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN - 1997. Và sau đó EVTRAN 2.0,
1999 với hơn 200.000 từ và cụm từ. Từ năm 2006, bản EVTRAN 3.0 (được gọi là
Ev-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000
mục từ) [24].

1.1.3. Cấu trúc của một chương trình dịch tự động
Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt
ra từ rất lâu. Tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trong
việc dịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp
cũng như từ vựng. Ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,
tiếng Anh sang tiếng Nga, ...; thậm chí, kết quả khả dĩ chỉ đạt được với các loại văn
bản khoa học hoặc pháp luật vốn được viết với văn phạm rất rõ ràng, chính xác và
đơn nghĩa. Với những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhau
khá xa, kết quả của các chương trình dịch tự động là rất hạn chế. Với các bài toán

dịch tự động nói chung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:


-9(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chia
ngôi, giống, số, cách, ...).
(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sử
dụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu),
một số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt).
(3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thể
hiểu đúng ý nghĩa của từ.
Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khá
trọn vẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giải
quyết một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ
ở châu Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vài
trăm năm. Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiện
đang được nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích.
Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch này
cũng có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả các
chương trình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữ
pháp và khối xử lý ngữ nghĩa. Sự khác nhau giữa các chương trình nằm ở cách thức
và mức độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau. Một vài chương
trình có modul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho các
modul phía sau, trong một vài chương trình khác, phần xử lý hình thái có thể có một
vài thao tác ảnh hưởng cả đến modul xử lý ngữ nghĩa. Vấn đề cũng tương tự đối với
các modul khác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữa
các cấu trúc nằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lý
ngôn ngữ. Dù vậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ
đồ sau:



×