Tải bản đầy đủ (.pdf) (64 trang)

GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.77 MB, 64 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN ĐỨC LÊ HUY

GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN
DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG
SỬ DỤNG MẠNG NƠ RON

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng - Năm 2018


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN ĐỨC LÊ HUY

GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN
DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ
ĐỘNG SỬ DỤNG MẠNG NƠ RON
Chuyên ngành: Khoa Học Máy Tính
Mã số
: 60.48.01
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học:
PGS. TS. Huỳnh Công Pháp

Đà Nẵng - Năm 2018




LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với tiêu đề “Giải pháp xây dựng nguồn tài nguyên
dữ liệu phục vụ hệ thống dịch tự động sử dụng mạng Nơ ron” hồn tồn là kết quả
nghiên cứu của chính bản thân tôi và chưa được công bố trong bất cứ một cơng trình
nghiên cứu nào của người khác. Trong q trình thực hiện luận văn, tơi đã thực hiện
nghiêm túc các quy tắc đạo đức nghiên cứu; các kết quả trình bày trong luận văn là sản
phẩm nghiên cứu, khảo sát của riêng cá nhân tôi; tất cả các tài liệu tham khảo sử dụng
trong luận văn đều được trích dẫn tường minh, đúng theo quy định. Tơi xin hồn tồn
chịu trách nhiệm về tính trung thực của số liệu và các nội dung khác trong luận văn của
mình.
Đà Nẵng, ngày 01 tháng 06 năm 2018
Tác giả luận văn ký và ghi rõ họ tên

Nguyễn Đức Lê Huy


LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn thầy giáo – PGS. TS. Huỳnh Công Pháp đã định
hướng khoa học, hướng dẫn tận tình, chu đáo trong suốt quá trình thực hiện luận văn.
Xin được bày tỏ lịng biết ơn đến:
- Lãnh đạo phịng Cơng nghệ thơng tin, lãnh đạo Công ty Điện lực Quảng Ngãi
cùng bạn bè đồng nghiệp đã tạo điều kiện thuận lợi cho tác giả được theo học chương
trình sau đại học và thực hiện luận văn này.
- Quý thầy cô giáo, lãnh đạo khoa Công nghệ thông tin – Trường ĐHBK Đà
Nẵng, Trường Cao đẵng Công nghệ thông tin Đà Nẵng, đã tạo điều kiện thuận lợi cho
tác giả trong suốt thời gian học tập và thực hiện đề tài tại trường!



TÓM TẮT LUẬN VĂN
GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ
HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON

Học viên: Nguyễn Đức Lê Huy
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01 Khóa: K33 Trường Đại học Bách khoa – ĐHĐN
Tóm tắt - Nguồn tài nguyên dữ liệu phục vụ xây dựng và phát triển hệ thống dịch tự
động đóng vai trị rất quan trọng, nhất là đối với các hệ thống dịch theo phương pháp thống kê
hoặc sử dụng mạng Nơron. Chất lượng và hiệu quả của các hệ thống dịch tự động sử dụng các
phương pháp dịch hiện đại không chỉ phụ thuộc vào thuật tốn mà cịn phụ thuộc rất lớn vào
khối lượng và chất lượng các nguồn tài nguyên dữ liệu hay còn gọi là các kho ngữ liệu. Luận
văn cũng đã đề xuất được giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống
dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron, xây dựng vector đặc trưng,
xây dựng các bộ chuyển mã và giải mã. luận văn cũng đã trình bày kết quả thực nghiệm của tác
giả luận văn và nhóm nghiên cứu về việc cài đặt hệ thống dịch mạng nơ ron trên nguồn tài
ngun dữ liệu thu được.
Từ khóa: Xử lý ngơn ngữ tự nhiên; Dịch tự động; Nguồn tài nguyên ngữ liệu; Mạng
Nơ ron; Trí tuệ nhân tạo

SOLUTIONS FOR RESOURCE DEVELOPMENT RESOURCES FOR
SERVICE OF AUTOMATIC TRANSMISSION SYSTEMS
Abstract - Data sources for the construction and development of automatic translation
systems play a very important role, especially for statistical translation systems or using neural
networks. The quality and effectiveness of automated translation systems using modern
translation methods depend not only on algorithms but also on the volume and quality of data
resources, Language store. The thesis also proposed a solution to build resources for the
construction of a translation system using neural networks, including the separation using

neural networks, the construction of characteristic vectors, the construction of transcodes and
decoders. The thesis also presents the experimental results of the thesis and the research team
on the installation of the neural network translation system on the collected data.
Keyword: Natural language processing; Automatic translations; Material resources;
Neuron Network; Artificial intelligence


MỤC LỤC
Trang phụ bìa
Lời cam đoan
Lời cảm ơn
Tóm tắt luận văn
Danh mục các bảng
Danh mục các hình
MỞ ĐẦU ...............................................................................................................1
I. Lý do chọn đề tài ............................................................................................1
II. Mục đích nghiên cứu ....................................................................................1
III. Đối tượng và phạm vi nghiên cứu ..............................................................1
III.1. Đối tượng nghiên cứu: .........................................................................1
III.2. Phạm vi nghiên cứu .............................................................................2
IV. Phương pháp nghiên cứu ............................................................................2
IV.1. Phương pháp lý thuyết .........................................................................2
IV.2. Phương pháp thực nghiệm ...................................................................2
V. Ý nghĩa của đề tài .........................................................................................2
V.1. Ý nghĩa khoa học:..................................................................................2
V.2. Ý nghĩa thực tiễn: ..................................................................................2
VI. Cấu trúc luận văn ........................................................................................2
CHƯƠNG 1. TỔNG QUAN NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ
DỊCH TỰ ĐỘNG ............................................................................................................4
1.1.

1.2.
1.3.
1.4.
1.5.

Mở đầu ...................................................................................................4
Xử lý ngôn ngữ tự nhiên và dịch tự động .............................................4
Nguồn tài nguyên dữ liệu phục vụ dịch tự động...................................7
Thực trạng nguồn tài nguyên dữ liệu và chất lượng dịch tự động .....13
Kết luận chương 1: ..............................................................................16

CHƯƠNG 2. MỘT SỐ GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN
DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG .....................................................................17
2.1.

Mở đầu .................................................................................................17


2.2.
2.3.
2.4.

Các phương pháp phân lớp dữ liệu phục vụ xây dựng nguồn tài nguyên
17
Một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn ..................22
Kết luận chương 2 ...............................................................................31

CHƯƠNG 3. GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU
PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON .............33
3.1. Mở đầu .................................................................................................33

3.2. Mơ hình dịch máy sử dụng mạng Nơ ron [1] .....................................34
3.3. Xây dựng nguồn tài nguyên dựa vào tách từ mạng nơ ron ................35
3.4. Thực nghiệm và khai thác nguồn tài nguyên dữ liệu xây dựng hệ thống
dịch sử dụng mạng nơ ron ..........................................................................................38
3.5. Kết luận chương 3 ...............................................................................41
Kết luận ................................................................................................................42
tài liệu tham khảo ................................................................................................43


Danh mục các bảng
Số hiệu bảng
Tên bảng
1.1
Danh sách các kho ngữ liệu song song phổ biến
1.2

Kích thước chi tiết của EuroParl

Danh mục các bản đổ, hình vẽ, đồ thị (Nếu có)
Số hiệu hình vẽ
Tên hình vẽ
2.1
Mơ hình q xây dựng nguồn tài nguyên dữ liệu phục
vụ xử lý ngôn ngữ tự nhiên
2.2
Mơ hình xây dựng nguồn tài ngun từ internet

Trang
10
10


Trang
18
23

2.3

Hiệu chỉnh gióng hàng dữ liệu thu được

24

2.4

Xác nhận và hiệu chỉnh sự liên kết các cặp trang

25

2.5

Giải pháp chuyển đổi cấu trúc và định dạng các nguồn
tài nguyên

29

2.6

Hợp nhất cấu trúc từ điển

30


3.1

Mơ hình dịch sử dụng mạng Nơ ron

35

3.2

Nội dung tập tin từ điển khi sử dụng mơ hình dịch
thống kê (a) và dịch sử dụng mạng nơ ron (b)(c)

36

3.3

Sinh ra Word2Vec sử dụng mơ hình CBOW và Skipgram

37

3.4

Tham số hệ thống

40

3.5

Kết quả dịch

41



1

MỞ ĐẦU
I. Lý do chọn đề tài
Nguồn tài nguyên dữ liệu phục vụ xây dựng và phát triển hệ thống dịch tự động
đóng vai trị rất quan trọng, nhất là đối với các hệ thống dịch theo phương pháp thống
kê hoặc sử dụng mạng Nơron. Chất lượng và hiệu quả của các hệ thống dịch tự động sử
dụng các phương pháp dịch hiện đại không chỉ phụ thuộc vào thuật tốn mà cịn phụ
thuộc rất lớn vào khối lượng và chất lượng các nguồn tài nguyên dữ liệu hay còn gọi là
các kho ngữ liệu. Thật vậy, để phát triển các hệ thống dịch thống kê, chúng ta cần đến
kho ngữ liệu với kích thước từ 50 triệu đến 2 tỷ đơn vị dữ liệu liên kết ở mức từ vựng
[9], trong khi đối với các hệ thống dịch sử dụng mạng nơron, chúng ta cần đến kho ngữ
liệu với kích thước lớn gấn vài lần so với kho ngữ liệu dùng trong dịch thống kê.
Tuy nhiên, các nguồn tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên phổ
biến đang tồn tại như các kho ngữ liệu: EuroParl, BTEC, ANC, ICE; các từ điển:
Deutsches Wörterbuch, Oxford English, Gregg Cox [16] mặc dù được đánh giá là có
kích thước rất lớn nhưng vẫn còn rất hạn chế so với nhu cầu sử dụng thực tiễn đối với
các hệ thống dịch sử dụng mạng Nơron. Đặc biệt, đối với các ngơn ngữ ít được đầu tư
và quan tâm phát triển như tiếng Việt và tiếng các dân tộc thiểu số ở Việt Nam, nguồn
tài nguyên dữ liệu hiện nay còn rất hạn chế, chỉ tồn tại vài kho ngữ liệu với khối lượng
nhỏ và chất lượng còn khiêm tốn.
Xuất phát từ thực trạng hiện nay đối với nguồn tài nguyên dữ liệu phục vụ xử lý
ngôn ngữ tự nhiên nói chung, phục vụ xây dựng và phát triển các hệ thống dịch tự động
sử dụng mạng Nơron nói riêng, tôi đã chọn thực hiện luận văn thạc sỹ với đề tài GIẢI
PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH
TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON.

II. Mục đích nghiên cứu

Mục đích của nghiên cứu này là nhằm đề xuất được giải pháp xây dựng nguồn
tài ngun dữ liệu có kích thước lớn và có chất lượng đảm bảo để phát triển các hệ thống
dịch tự động sử dụng mạng Nơron.

III. Đối tượng và phạm vi nghiên cứu
III.1. Đối tượng nghiên cứu:
 Nguồn tài nguyên dữ liệu bao gồm các nguồn tài nguyên đa ngữ như các
website, các văn bản đa ngữ.
 Hệ thống dịch tự động sử dụng phương pháp mạng Nơron.


2
 Các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đang sử dụng phổ biến.

III.2. Phạm vi nghiên cứu
 Phạm vi của nghiên cứu chỉ tập trung vào giải pháp xây dựng nguồn tài nguyên
dữ liệu bao gồm ý tưởng, thuật tốn và chương trình mơ phỏng.
 Nguồn tài nguyên dữ liệu dạng văn bản, phục vụ các hệ thống dịch tự động
sử dụng mạng Nơron.

IV. Phương pháp nghiên cứu
IV.1. Phương pháp lý thuyết
 Nghiên cứu các tài liệu về cơ sở lý thuyết: dịch tự động, trích rút, phân lớp dữ
liệu.
 Nghiên cứu thuật tốn, phương pháp trích rút, phân lớp văn bản.
 Nghiên cứu các phương pháp xây dựng nguồn tài nguyên dữ liệu phục vụ xử
lý ngôn ngữ tự nhiên.

IV.2. Phương pháp thực nghiệm
 Nghiên cứu đề xuất giải pháp.

 Xây dựng thuật toán, cài đặt chương trình và thử nghiệm.

V. Ý nghĩa của đề tài
V.1. Ý nghĩa khoa học:
Kết quả nghiên cứu có ý nghĩa khoa học, góp phần phát triển các cơng trình và
hệ thống xử lý trong lĩnh vực xử lý ngơn ngữ tự nhiên nói chung và dịch tự động nói
riêng.

V.2. Ý nghĩa thực tiễn:
Kết quả của đề tài sẽ được sử dụng làm tài tham khảo nghiên cứu trong lĩnh vực
xử lý ngôn ngữ tự nhiên và dịch tự động. Nguồn dữ liệu xây dựng được sẽ đóng vai trị
rất quan trọng, góp phần phát triển các hệ thống dịch tự động nói chung, hệ thống dịch
sử dụng mạng Nơron nói riêng.

VI. Cấu trúc luận văn
Nội dung của luận văn được chia thành các phần như sau:
Để thực hiện đề tài này, luận văn được trình bày với cấu trúc gồm 03 chương
chính:
+ Chương 1: Tổng quan nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm
lý thuyết và nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên và dịch tự động; Nguồn


3
tài nguyên dữ liệu phục vụ dịch tự động; thực trạng nguồn tài nguyên dữ liệu và chất
lượng dịch tự động.
+ Chương 2: Một số giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch
tự động. Chương này trình bày một số giải pháp khai thác, xây dựng nguồn tài nguyên
dữ liệu phục vụ dịch tự động đã có sẵn bao gồm các phương pháp phân lớp dữ liệu phục
vụ xây dựng nguồn tài nguyên; một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn;
một số thuật toán khai thác và xây dựng nguồn tài nguyên dữ liệu lớn.

+ Chương 3: Giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ hệ thống dịch
tự động sử dụng mạng Nơron. Chương này đề xuất giải pháp xây dựng nguồn tài nguyên
dữ liệu trên cơ sở các nguồn tài nguyên xây dựng được và các nguồn tài nguyên đã tồn
tại.


4

CHƯƠNG 1. TỔNG QUAN NGUỒN TÀI NGUYÊN DỮ LIỆU
PHỤC VỤ DỊCH TỰ ĐỘNG
1.1. Mở đầu
Trong chương này, luận văn sẽ tập trung nghiên cứu một số cơ sở lý thuyết cơ
bản liên quan đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động
như khái niệm xử lý ngôn ngữ tự nhiên, khái niệm dịch tự động; giới thiệu một số ứng
dụng xử lý ngôn ngữ tự nhiên đang ứng dụng trong thực tế, có ích và mang lại hiệu quả
cho con người. Qua đó, cũng giới thiệu một số hệ thống dịch tự động và dich tự động
tiếng Việt có chất lượng rất tốt hiện nay. Đồng thời, trong chương này, luận văn cũng
trình bày nghiên cứu về nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm nguồn
tài nguyên các kho ngữ liệu và nguồn tài nguyên các từ điển; phân tích và nêu lên thực
trạng nguồn tài nguyên dữ liệu và chất lượng của các hệ thống dịch tự động hiện hữu và
xu hướng xây dựng các hệ thống dịch trong tương lai.
1.2. Xử lý ngôn ngữ tự nhiên và dịch tự động
1.2.1. Khái niệm xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu rất phổ biến, được ứng dụng
rất hiệu quả và thiết thực trong cuộc sống. Xử lý ngôn ngữ tự nhiên trên máy tính nhằm
mục đích sử dụng máy tính để hỗ trợ con người trong những cơng việc có liên quan đến
ngơn ngữ.
Hiện nay, xử lý ngơn ngữ tự nhiên trên máy tính đã mang lại nhiều thành quả rõ
rệt, kết quả nghiên cứu xử lý ngôn ngữ tự nhiên trên máy tính đã được ứng dụng và hỗ
trợ cho con người trong giao tiếp và truyền thông rất hiệu quả như dịch máy, khai phá

dữ liệu, tìm kiếm thơng tin, tra cứu từ điển trên máy tính...
Xử lý ngơn ngữ tự nhiên đã đóng một vai trị rất lớn trong phát triển kinh tế, xã
hội và nhất là trong thời kỳ hội nhập. Tại Việt Nam, những năm gần đây, lĩnh vực xử lý
ngôn ngữ tự nhiên đã được quan tâm nghiên cứu và đã mang lại một số kết quả đáng
chú ý như phát triển các hệ thống từ điển trên máy tính, dịch tự động tiếng Việt, khai
phá dữ liệu văn bản để thu thập dữ liệu và thông tin quan tâm.
1.2.2. Khái niệm dịch tự động
Dịch tự động hay còn gọi là dịch máy trong đó máy tính được sử dụng để dịch tự
động văn bản hoặc tiếng nói từ ngơn ngữ này sang ngôn ngữ khác. Các hệ thống dịch tự
động phổ biến như Google Translate, Systran, Reverso, EVTrans…


5
Chất lượng dịch tự động hiện nay đã cải thiện rất nhiều, một số cặp ngôn ngữ phổ
biến như Anh – Pháp có thể cho chất lượng đạt đến mức rất cao, có thể chuyển tải gần
như đầy đủ nội dung và nghĩa của một số đoạn dịch thông dụng.
Khái niệm dịch tự động có thể được diễn đạt như một số tài liệu như sau: Dịch
tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều
ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, khơng có sự can thiệp của con
người trong q trình dịch.
Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng
hiệu quả. Nhập nhằng là khái niệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi
viết từ đường kính thì vẫn chưa rõ là nó chỉ một loại "chất ngọt dùng để pha làm đồ
uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu".
Đối với dịch tự động từ ngơn ngữ này sang ngơn ngữ khác, khó khăn đầu tiên lại
là việc tách từ tức là xác định ranh giới từ, không giống như tiếng Anh và nhiều ngôn
ngữ khác mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng
trắng, tiếng Việt hoặc một số ngôn ngữ khác là ngôn ngữ đơn lập do vậy có rất nhiều từ
ghép, nếu khơng xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại
Một cách tiếp cận khác trong lĩnh vực này là dựa vào tư liệu đã dịch sẵn của con

người, điển hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện
các thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động sau
này, kiểu dịch rất gần với thao tác tìm kiếm - lĩnh vực đặc biệt mạnh của Google.
1.2.3. Một số ứng dụng xử lý ngôn ngữ tự nhiên
Như đề cập ở phần trên, xử lý ngôn ngữ tự nhiên được ứng dụng rất phổ biến
trong thực tế và mang lại rất nhiều lợi ích và hiệu quả cho con người. Sau đây là một số
ứng dụng phổ biến của xử lý ngôn ngữ tự nhiên:
 Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví
dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện
tử như dưới định dạng doc của Microsoft Word chẳng hạn. Phức tạp hơn là
nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay khơng có khn dạng
rõ ràng và thay đổi từ người này sang người khác. Với chương trình nhận dạng
chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản
điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người có ứng dụng
trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử).
 Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn


6









giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn

thảo sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện trong ước
mơ thực hiện giao tiếp giữa con người với robot.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay
vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho
chúng ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt
cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp
giữa robot với người.
Dịch tự động: Là chương trình dịch tự động từ ngơn ngữ này sang các ngôn
ngữ khác. Một phần mềm điển hình về tiếng Việt của chương trình này là
Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại,
phần mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang
đầu tiên đưa ứng dụng này lên mạng. Tháng 10 năm 2008 có hai cơng ty tham
gia vào lĩnh vực này cho ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát
hành từ điển Lạc Việt) và Google, một thời gian sau đó Xalo_vn cũng đưa ra
dịch vụ tương tự.
Tìm kiếm thơng tin: Là ứng dụng cho phép con người tìm kiếm thơng tin phù
hợp nhất với mong muốn của mình. Các máy tìm kiếm dựa trên giao diện web
như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa trên
tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác để
đưa ra kết luận, kết quả là rất nhiều tìm kiếm khơng nhận được câu trả lời phù
hợp, thậm chí bị dẫn tới một liên kết khơng liên quan gì do thủ thuật đánh lừa
của các trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh là SEO viết tắt
của từ search engine optimization).
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo
mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.

Khai phá dữ liệu (data mining) và phát hiện tri thức: Là các ứng dụng khai thác
dữ liệu bằng cách tìm ra các quy luật trong khối dữ liệu khổng lồ được lưu trữ. Ở mức
độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép đặt câu hỏi để từ đó cơng cụ tự
tìm ra câu trả lời dựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời

lưu trên web hay không (giống như trang Yahoo! hỏi và đáp, nơi chuyên đặt các câu hỏi
để người khác trả lời), nói một cách nơm na là nó đã biết xử lý dữ liệu để trả lời câu hỏi
của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ.
1.2.4. Một số hệ thống dịch tự động và dịch tự động tiếng Việt phổ biến


7
Ngày nay, con người đã xây dựng được một số hệ thống dịch tự động có chất
lượng rất tốt. Để có được các hệ thống dịch tự động có chất lượng tốt như vậy, con người
đã trải qua nhiều nghiên cứu thử nghiệm và nâng cấp phát triển các hệ thống dịch tự
động một cách thường xuyên và liên tục.
Sau đây là một số hệ thống dịch tự động đa ngữ phổ biến:
 Babel Fish: Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng web,
được công cụ tìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997.
 Yahoo Translation: Hỗ trợ 38 cặp ngơn ngữ, trong đó tiếng Anh, tiếng Pháp
và tiếng Trung Quốc (cả giản thể và phồn thể) được hỗ trợ nhiều nhất; tiếp đến
là các tiếng Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy
Lạp và Hà Lan.
 Google Translate: Dịch vụ này tính đến thời điểm tháng 2 năm 2010 đã hỗ trợ
52 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trực tuyến duy nhất hỗ trợ
khả năng dịch toàn trang web cho tiếng Việt. Tốc độ dịch của Google là rất tốt
so với các dịch vụ trực tuyến tương tự khác dành cho người Việt, khi sử dụng
người dùng sẽ dễ dàng nhận thấy. Tốc độ, đơn giản dù sao vẫn là những đặc
điểm vốn có từ lâu của người khổng lồ Internet này. Liên kết:
translate.google.com.vn
Một số hệ thống dịch tự động tiếng Việt phổ biến:
 Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt): chỉ hỗ trợ
dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y
học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng.
 Vdict: Dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt, sử dụng cơng nghệ

của Google Translate. Tuy nhiên, vì trong nhiều trường hợp EVTRAN dịch
tốt hơn Google Translate nên Vdict đã sử dụng lại EVTRAN đồng thời với
Google Translate: hiện nay khi dịch Anh<->Việt, vdict cho ra cả hai kết quả.
 Baamboo: Là hệ thống dịch tự động có hỗ trợ tiếng Việt, dịch dưới 500 từ
được hỗ trợ bởi Google.
 Evtran: Phần mềm dịch tự động Anh-Việt, Việt-Anh đầu tiên do người Việt
xây dựng và có chất lượng tương đối tốt.
1.3. Nguồn tài nguyên dữ liệu phục vụ dịch tự động
Tài nguyên dữ liệu phục vụ xử lý ngơn ngữ tự nhiên bao gồm hai loại chính ở
dạng dữ liệu từ điển và kho ngữ liệu. Tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự


8
nhiên đóng vai trị quan trọng, quyết định lớn đến chất lượng của các hoạt động xử lý
ngôn ngữ tự nhiên.
1.3.1. Nguồn tài nguyên các kho ngữ liệu
a. Khái niệm kho ngữ liệu
Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngôn ngữ khác
nhau dưới dạng điện tử [3]. Đây là một khái niệm cơ bản đối với Ngôn ngữ học khối
liệu.
Theo T. McEnery và A. Wilson, kho ngữ liệu phải thỏa các tính chất sau:
 Kho ngữ liệu gồm tập các văn bản bất kì.
 Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên.
 Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngôn
ngữ.
Trong lĩnh vực Ngôn ngữ học, kho ngữ liệu theo tiếng Latin có nghĩa tức là bất
kỳ khối văn bản nào (any body of text). Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên
cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thơng tin thì kho ngữ liệu
gồm các đặc điểm cơ bản sau:






Các ngơn ngữ phải đồng điển hình.
Có kích cỡ xác định.
Ở dạng đọc được trên máy tính.
Có các chú giải chuẩn về mặt ngơn ngữ.

Các kho ngữ liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham
khảo và số liệu thống kê về các đơn vị ngơn ngữ và lời nói. Kho ngữ liệu có thể cung
cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ, lexeme và
v.v…
Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng
và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi
nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho
ngữ liệu, người sử dụng có thể nghiên cứu các q trình biến đổi thành phần từ vựng
của ngơn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản
và của các tác giả khác nhau.
Kho ngữ liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện
đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả. Vai trị của Ngơn ngữ học
khối liệu càng được khẳng định khi các cơng trình nghiên cứu về kho ngữ liệu cho thấy


9
kho ngữ liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá
trình dạy học ngoại ngữ và dịch thuật.
b. Các loại kho ngữ liệu
 Kho ngữ liệu song song (Parallel Corpus)
Kho ngữ liệu song song được định nghĩa là một tập các văn bản (tài liệu) trong

nhiều ngôn ngữ khác nhau, trong đó có một ngơn ngữ nguồn và một hoặc nhiều ngơn
ngữ đích
Kho ngữ liệu song song có thể được thu thập từ nhiều nguồn khác nhau như các
nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử. Nguồn tài nguyên
ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách
truyện, tài liệu song ngữ và các từ điển song ngữ. Việc thu thập dữ liệu từ nguồn tài
nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và
cơng sức. Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang
Web đa ngữ.
 Kho ngữ liệu đa ngữ (Multilingual Corpora)
Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết
bằng nhiều ngôn ngữ.
Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để
dễ quản lý hoặc xác định nguồn gốc của chúng.
 Kho ngữ liệu (có thể) so sánh (Comparable Corpus)
Kho ngữ liệu so sánh là một tập các tài liệu trong các ngơn ngữ khác nhau trình
bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus).
Kho ngữ liệu này cũng còn gọi là kho ngữ liệu song song ở mức tài liệu nhưng
không song song ở mức câu hoặc đoạn. Thật vậy, các tài liệu ở các ngơn ngữ khác nhau
trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đó
song song với nhau.
c. Một số kho ngữ liệu phổ biến
Hiện nay tồn tại nhiều kho ngữ liệu song song, miễn phí hoặc thương mại đối với
người dùng. Tuy nhiên, việc khai thác và sử dụng các kho ngữ liệu này còn nhiều bất
cập.
Đối với các kho ngữ liệu miễn phí (bảng bên dưới), mặc dù có kích thước tương
đối lớn nhưng chất lượng cịn thơ nên khơng thể áp dụng được trực tiếp vào một số hoạt
động trong lĩnh vực dịch tự động. Muốn sử dụng được các kho này, mỗi tổ chức hoặc



10
cá nhân phải thực hiện việc nâng cấp, trích lọc dữ liệu từ các kho ngữ liệu này trước khi
sử dụng.
Đối với các kho ngữ liệu thương mại, mặc dù hầu hết các kho ngữ liệu này thường
có kích thước lớn và chất lượng tốt nhưng không chia sẽ cho cộng đồng người dùng mà
chủ yếu mang tính thương mại hoặc phục vụ cho riêng các công ty như Systran, IBM…
Dưới đây là danh sách các kho ngữ liệu song song phổ biến hiện nay:
Bảng 1.1. Danh sách các kho ngữ liệu song song phổ biến
Tên kho ngữ
Tổng số từ
Số lượng ngôn
Số từ/ ngôn ngữ
liệu
ngữ
EuroParl
407.069.444
11
37.006.313
Hansard
47.389.000
2
23.694.500
JR Acquis
1.055.583.954
22
47.981.089
XinHua News
29.000.000
2
14.500.000

OPUS
30.000.000
60
500.000
Kho ngữ liệu song song EuroParl được xây dựng từ sự hỗ trợ của dự án
EuroMatrix (tham khảo tại địa chỉ Kho ngữ liệu này gồm
các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu (proceeding) của Quốc hội
châu Âu (European Parliament) từ năm 2006 – 2009. Và hiện tại cộng đồng đang phát
triển dự án giai đoạn 3/2009 đến 2/2012 kho ngữ liệu song song này gồm 11 cặp ngôn
ngữ: Romani (Pháp, Ý, Tây Ban Nha, Bồ Đào Nha), Đức (Anh, Hà Lan, Đức, Đan Mạch,
Thụy Điển), Hy Lạp và Phần Lan.. Kho ngữ liệu song song này được chia sẽ miễn phí
cho mục tiêu nghiên cứu tại địa chỉ />Dưới đây là kích thước chi tiết từng loại ngơn ngữ của kho ngữ liệu EuroParl :
Bảng 1.2. Kích thước chi tiết của EuroParl
Ngôn ngữ
Số lượng câu
Số lượng từ
Bulgarian

229,649

-

Czech

479,636

10,770,230

Danish


2,117,839

49,615,228

German

1,985,560

48,648,697

Greek

1,344,198

-

English

2,032,006

54,720,731

Spanish

1,942,761

55,105,479

Estonian


493,198

9,455,337


11
Finnish

1,929,054

35,799,132

French

2,002,266

57,860,307

Hungarian

479,676

10,601,411

Italian

1,905,555

52,306,430


Lithuanian

493,204

9,731,052

Latvian

473,276

10,024,350

Dutch

2,147,195

53,459,456

Polish

387,537

8,142,067

Portuguese

1,942,700

53,799,459


Romanian

224,805

5,891,952

Slovak

487,416

10,783,688

Slovene

465,985

10,616,127

Swedish
2,037,945
45,562,972
Kho ngữ liệu song song Anh – Pháp, Canadian Hansard Corpus, của hiệp hội dữ
liệu ngôn ngữ học (Linguistic Data Consortium – LDC). Đây là một kho ngữ liệu tương
đối lớn bao gồm gần 2.8 triệu cặp câu song song (theo
Dữ liệu
văn bản thuần chủ yếu được lấy từ trang Web của Quốc hội Canada
.
Kho ngữ liệu song song Xinhua News với 2 ngôn ngữ Hoa-Anh gồm hơn
29.000.000 cặp câu thuộc nhiều lĩnh vực khác nhau.
d. Một số ứng dụng của kho ngữ liệu

Kho ngữ liệu được ứng dụng rất phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên
như các hệ thống dịch tự động, các hệ thống tách từ, hệ thống tìm kiếm văn bản, thống
kê ngôn ngữ, giảng dạy ngoại ngữ...
1.3.2. Nguồn tài nguyên các từ điển
Dữ liệu ln đóng vai trị quyết định đến chất lượng hoạt động của các công cụ
và hệ thống xử lý ngơn ngữ tự nhiên. Trong đó, dữ liệu từ điển có vai trị rất quan trọng
để phát triển các công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn như các công cụ hỗ trợ
học tập, tra cứu, các cơng cụ tách từ dựa trên thuật tốn maximum matching, các cơng
cụ gióng hàng, các hệ thống dịch tự động sử dụng phương pháp dịch thống kê...


12
a. Khái niệm từ điển
Từ điển được xem là một trong những công cụ xử lý ngôn ngữ tự nhiên phổ biến
và hữu dụng nhất đối với con người trong việc hỗ trợ tra cứu và học ngoại ngữ. Đối với
nhiều hệ thống xử lý ngôn ngữ tự nhiên như hệ thống dịch, tách từ, gióng hàng,... dữ
liệu từ điển đóng vai trị vơ cùng quan trọng, quyết định đến chất lượng và hiệu quả hoạt
động của chúng.
Theo một số tài liệu, khái niệm từ điển được hiểu như sau: Từ điển là danh sách
các từ, ngữ được sắp xếp thành các từ vị chuẩn (lemma). Một từ điển thông thường cung
cấp các giải nghĩa các từ ngữ đó hoặc các từ ngữ tương đương trong một hay nhiều thứ
tiếng khác. Ngồi ra cịn có thể có thêm thơng tin về cách phát âm, các chú ý ngữ pháp,
các dạng biến thể của từ, lịch sử hay từ nguyên, cách sử dụng hay các câu ví dụ, trích
dẫn.
Đối với các ngơn ngữ sử dụng ký tự Latin thì các từ có thể được sắp xếp theo thứ
tự chữ cái. Đối với các ngôn ngữ tại Đông Á chịu ảnh hưởng của chữ Hán, sử dụng ký
tự là đơn vị ngôn ngữ có nghĩa thì phân biệt từ điển và tự điển (tự=chữ, từ điển rộng hơn
tự điển và bao hàm tự điển). Thơng thường từ điển được trình bày dưới dạng sách, ngày
nay từ điển cịn được số hóa và cung cấp dưới dạng phần mềm máy tính hay truy cập
trực tuyến trên web, trên trình nhắn tin nhanh, hay có trong các thiết bị số cá nhân như

PDA, điện thoại...
Từ điển là nơi giải thích thơng tin về ngơn ngữ của con người một cách dễ hiểu
và khách quan nhất. Từ điển có nhiệm vụ, nhất là từ điển bách khoa toàn thư, giúp người
xem hiểu và vận dụng (sử dụng) chính xác một từ, ngữ, thuật ngữ, thành ngữ, khái niệm,
phạm trù hay một vấn đề cụ thể trong đời sống xã hội con người. Từ nhiệm vụ này, từ
điển đã được hình thành dưới nhiều dạng thức tồn tại khác nhau, góp phần giải quyết
(hay đáp ứng) một hoặc nhiều nhu cầu khác nhau trong đời sống xã hội lồi người. Đến
nay, đã có các dạng thức từ điển như: từ điển bách khoa toàn thư, từ điển luật học, từ
điển triết học, từ điển thành ngữ, từ điển song ngữ, từ điển thần học, từ điển tiếng lóng,
từ điển ngơn ngữ phụ nữ...
b. Các loại từ điển
Từ điển có thể được phân loại theo nhiều cách khác nhau. Xét về phương diện
phiên bản tồn tại, từ điển được phân thành hai loại chính như sau: từ điển giấy và từ điển
điện tử. Từ điển giấy chủ yếu phục vụ cho con người trong việc tra cứu và học tập,
nhược điểm của nó là việc tra cứu từ sẽ mất rất nhiều thời gian tìm kiếm do người học
phải làm thủ cơng. Trong khi đó, từ điển điện tử, đa số ở dạng phần mềm máy tính rất
phổ biến hiện nay và có nhiều ưu điểm hơn từ điển giấy. Từ điển máy tính khơng chỉ


13
phục vụ cho con người tra cứu mà còn được sử dụng cho nhiều mục đích khác nhau
trong lĩnh vực xử lý ngơn ngữ tự nhiên. Xét về khía cạnh ngơn ngữ, từ điển có thể được
chia thành các loại từ điển đơn ngữ (monolingual), từ điển song ngữ (bilingual) và từ
điển đa ngữ (multilingual). Trong đó, các từ điển đơn ngữ lớn nhất hiện nay như: từ điển
tiếng Hà Lan Woordenboek der Nederlandsche Taal được xem như từ điển đơn ngữ lớn
nhất hiện, được xây dựng trong 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu
từ; từ điển tiếng Đức Deutsches Wörterbuch, từ điển tiếng Anh Oxford English
Dictionary chứa khoảng 600.000 từ. Các từ điển song ngữ lớn nhất phải kể đến như từ
điển tiếng Anh-Đức xuất bản bởi Langenscheidt chứa khoảng 400.000 từ và giải nghĩa,
từ điển Dai Kan-Wa jiten tiếng Trung – Nhật có hơn 50.000 ký tự và 500.000 từ ghép.

Các từ điển đa ngữ lớn nhất hiện nay như Gregg Cox chứa trên 5.000.000 từ ở 225 ngôn
ngữ hoặc từ điển trực tuyến Logos chứa trên 8.000.000 từ ở 250 ngôn ngữ [8].
c. Một số từ điển tiếng Việt phổ biến
Đối với tiếng Việt, hiện nay có các phần mềm từ điển phổ biến như:
 Lạc Việt từ điển: được xem là từ điển phổ biến nhất đối với cộng đồng người
Việt. Hiện nay, Lạc Việt từ điển không chỉ là phiên bản máy tính mà cịn có
phiên bản ứng dụng điện thoại di động. Lạc Việt từ điển có 3 bộ gồm Anh –
Việt, Việt – Anh và Việt – Việt với số lượng hơn 400.000 từ và cụm từ [9].
 Từ điển Tflat: là một trong số những ứng dụng từ điển được sử dụng nhiều
nhất hiện nay. Tflat được xây dựng cho cả phiên bản online và offline, bao
gồm nhiều chức năng như tra cứu, sao lưu, dịch câu văn, tra cứu nhanh, phát
âm... Tflat chứa hơn 400.000 từ Anh-Việt, 150.000 từ Việt-Anh [10].
 Từ điển Vlook: là bộ từ điển Anh – Việt phổ biến hiện nay, Vlook có giao diện
đơn giản và hỗ trợ tra từ khơng cần kết nối internet với gần 60,000 từ trong đó
có hơn 40,000 từ có phiên âm và khoảng 3,000 từ thông dụng của từ điển
Oxford.
 Từ điển Vdict: là từ điển phổ biến và có giao diện đơn giản, bao gồm các bộ
từ điển: Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp và Anh
– Anh. Từ điển Vdict chứa 450.000 từ và cụm từ.
Ngồi ra cịn có một số phần mềm từ điển thương mại nổi tiếng hiện nay như
Evatran 2.0, English study 4.0, Babylon.
1.4. Thực trạng nguồn tài nguyên dữ liệu và chất lượng dịch tự động
1.4.1. Thực trạng nguồn tài nguyên dữ liệu phục vụ dịch tự động


14
Các kho ngữ liệu dùng trong lĩnh vực dịch tự động hiện nay khơng chỉ thiếu về
số lượng mà cịn chưa đáp ứng về mặt chất lượng, đặt biệt đối với các ngơn ngữ ít được
đầu tư như tiếng Việt và tiếng các dân tộc thiểu số.
Theo đó, đã có nhiều tổ chức, cá nhân đã nghiên cứu xây dựng và phát triển các

kho ngữ liệu, các công cụ phục vụ xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số
(DTTS). Tuy nhiên, một trong những vấn đề lớn tồn tại hiện nay là các kho ngữ liệu tồn
tại một cách rời rạc, có cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và
khai thác chúng hiện nay là rất khó khăn. Tình trạng này dẫn đến một thực tế là nhiều
kho ngữ liệu đã xây dựng nhưng không thể phục vụ, chia sẽ cho việc nghiên cứu cũng
như xử lý tiếng Việt và tiếng dân tộc thiểu số. Một vấn đề tồn tại khác tương tự đó là
nhiều tổ chức, cá nhân nghiên cứu phát triển các công cụ phục vụ dịch tự động một cách
đơn lẽ, rời rạc, đôi lúc trùng lặp như các bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ,
gióng hàng, làm giàu thơng tin…nên việc sử dụng, kế thừa các cơng cụ này cũng rất khó
khăn và hạn chế.
Đối với nguồn tài nguyên dữ liệu phục vụ cho các hệ thống dịch tự động, một
trong những vấn đề bất cập và lãng phí đó các kho ngữ liệu không thể phục vụ cho các
loại hệ thống dịch khác nhau do cấu trúc và định dạng của chúng khác nhau. Do đó, để
tăng tính hiệu quả và khắc phục vấn đề bất cập này, một trong những ý tưởng của luận
văn là tìm cách chuyển đổi và đồng nhất định dạng và cấu trúc của các kho ngữ liệu để
có thể phục vụ chung cho các hệ thống dịch khác nhau.
1.4.2. Chất lượng dịch tự động
Chất lượng dịch tự động là một trong những vấn đề rất được các nhà nghiên cứu
và cộng đồng những người sử dụng quan tâm. Trong nhiều năm qua, mặc dù chất lượng
dịch tự động đã được cải tiến liên tục và đã có những bước phát triển đáng kể, nhưng
đến nay kết quả của các hệ thống dịch máy vẫn còn là một khoảng cách xa so với kỳ
vọng và yêu cầu thực tế của con người [14]. Trong đó, đối với các ngôn ngữ phổ biến
như tiếng Anh, tiếng Pháp, chất lượng của các hệ thống có thể chấp nhận được trong
một số lĩnh vực thơng dụng [10], có thể sử dụng để tham khảo nghĩa của ngơn ngữ đích
mà khơng cần đến người phiên dịch [1]. Tuy nhiên, đối với các ngơn ngữ ít phổ biến
như tiếng Việt, chất lượng các câu dịch của hệ thống rất thấp, khó có thể áp dụng trong
thực tế, nhất là ở các lĩnh vực chuyên ngành như y tế, kỹ thuật, pháp luật,… các hệ thống
dịch không dịch đúng các khái niệm chuyên mơn nên văn bản dịch trở nên khó hiểu,
khơng có giá trị.
Trong những năm gần đây, một số phương pháp dịch đã được nghiên cứu và áp

dụng ở một số hệ thống dịch để dịch giữa hàng trăm ngôn ngữ khác nhau[17] . Những


15
mơ hình dịch mang lại hiệu quả cao có thể kể đến là phương pháp dịch dựa trên ví dụ,
phương pháp dịch dựa trên luật và phương pháp dịch thống kê. Tuy nhiên, các phương
pháp này chỉ phát huy hiệu quả và chính xác cho một số ngơn ngữ phổ biến, tuyên nhiên
khi áp dụng cho tiếng Việt, các mô hình dịch vẫn chưa cho thấy sự phù hợp và còn cho
kết quả khá khiêm tốn.
Chất lượng dịch của các hệ thống dịch tự động có hỗ trợ tiếng Việt hiện nay chưa
thể ứng dụng vào cuộc sống hàng ngày, trong khi nhu cầu dịch thuật là rất lớn trong bối
cảnh tồn cầu hóa. Do đó, hiện nay cộng đồng những nhà nghiên cứu xử lý tiếng Việt
đã xây dựng và thực hiện các cơng trình và giải pháp cải tiến chất lượng dịch tự động
tiếng Việt, trong đó gần đây nổi lên giải pháp ứng dụng phương pháp trí tuệ nhân tạo
cho hệ thống dịch, kết hợp với xây dựng kho ngữ liệu lớn và chất lượng tốt được xem
như một giải pháp tiềm năng [1].
1.4.3. Xu hướng dịch tự động hiện tại và lương lai
Trong nhiều năm qua, cộng đồng nghiên cứu đã xây dựng và liên tục phát triển
các hệ thống dịch tự động với các phương pháp khác nhau. Mỗi phương pháp đã mang
lại hiệu quả nhất định đối với từng bài toán và lĩnh vực ứng dụng khác nhau. Trong số
đó, các phương pháp dịch được áp dụng rộng rãi và cho kết quả khả quan nhất có thể kể
đến là phương pháp dịch dựa trên ví dụ, phương pháp dịch thống kê.
Phương pháp dịch dựa trên ví dụ sử dụng tập hợp các cặp câu song ngữ làm tập
mẫu, từ đó các câu đầu vào sẽ được đối chiếu với những câu và đoạn gần giống nhất để
đưa ra bản dịch [5]. Phương pháp này sẽ có kết quả tốt khi có nhiều bộ dữ liệu mẫu và
chính xác, có thể ứng dụng trong một số lĩnh vực chun ngành hẹp, có ít hiện tường
nhập nhằng trong ngữ nghĩa, chẳng hạn có thể áp dụng khi dịch các bản tin dự báo thời
tiết. Tuy nhiên khó áp dụng để dịch các tài liệu, ngơn ngữ trong thực tế vì tập ví dụ mẫu
ln hữu hạn, khơng theo kịp sự phong phú và biến hóa của ngôn ngữ [20].
Phương pháp dịch thống kê sử dụng mơ hình tốn học thống kê để biểu diễn mơ

hình ngơn ngữ con người. Các tham số của mơ hình được tự động ước lượng thơng qua
q trình huấn luyện kho ngữ liệu mẫu, kết hợp tự động xây dựng từ điển và mơ hình
ngơn ngữ đích. Mơ hình dịch thống kê khi áp dụng vào hệ thống dịch cần sử dụng các
phương pháp gióng hàng giữa các cặp câu song ngữ nhằm đảo trật từ các từ, cụm từ
tương ứng giữa câu nguồn và câu đích. Dịch máy thống kê đã có nhiều bước tiến và
được ứng dụng rộng rãi trong nhiều hệ thống dịch như của Google, Microsoft [18].
Đã có nhiều cách tiếp cận khác nhau nhằm cải tiến chất lượng dịch thống kê, như
dịch thống kê dựa trên cụm từ (phrase-based). Mơ hình dịch thống kê dựa trên cụm từ
thực hiện dịch câu nguồn sang câu đích bằng cách phân tách câu nguồn thành các cụm


16
từ liên tục có nghĩa, mỗi cụm từ sẽ được dịch sang cụm từ tương ứng ở câu đích, sau đó
thực hiện q trình đảo trật tự các cụm từ thu được để xây dựng câu cần dịch. Tuy nhiên
mô hình có thể thiếu hụt các thơng tin về ngơn ngữ như thơng tin về hình thái từ, phân
loại từ, ngữ cảnh... nên hệ thống dịch có thể khơng dịch được những từ không xuất hiện
trong tập dữ liệu huấn luyện [5].
Các giải pháp này chỉ mới đề xuất và kiểm nghiệm trên kho ngữ liệu nhỏ và cho
kết quả khiêm tốn.
Một số vấn đề hạn chế đối với dịch tự động và các nguyên nhân chính dẫn đến
các hạn chế này như sau:
- Phương pháp dịch chưa phù hợp: Các mơ hình dịch truyền thống có nhiều ưu
điểm, nhưng khi áp dụng đối với dịch tiếng Việt vẫn gặp nhiều hạn chế, cần có thêm các
đánh giá, nghiên cứu bổ sung. Tiếng Việt khác với một số ngôn ngữ khác, mỗi từ bao
gồm nhiều âm tiết, trong khi các hệ thống đều làm việc trên đơn vị từ đơn lẻ, vì vậy sẽ
làm giảm hiệu quả của các mơ hình dịch này [12]
- Kho ngữ liệu chưa đầy đủ: Nghiên cứu tại [8] chỉ ra rằng, chất lượng và số
lượng của kho ngữ liệu ảnh hưởng đến chất lượng các hệ thống dịch máy. Hiện nay các
nghiên cứu nhằm nâng cao chất lượng và số lượng kho ngữ liệu liên quan đến tiếng Việt
cịn khiêm tốn, chưa có các kho ngữ liệu chung nào được các nhà nghiên cứu lấy làm

bộ dữ liệu chuẩn để đánh giá các hệ thống trong lĩnh vực xử lý ngôn ngữ tự nhiên.
1.5. Kết luận chương 1:
Trong chương này luận văn đã trình bày một số cơ sở lý thuyết cơ bản liên quan
đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động như khái
niệm xử lý ngôn ngữ tự nhiên, khái niệm dịch tự động; giới thiệu một số ứng dụng xử
lý ngôn ngữ tự nhiên đang ứng dụng trong thực tế, có ích và mang lại hiểu quả cho con
người. Luận văn cũng đã trình bày nghiên cứu và thực trạng một số hệ thống dịch tự
động, dich tự động tiếng Việt hiện nay cũng như một số nguồn tài nguyên dữ liệu phục
vụ dịch tự động bao gồm nguồn tài nguyên các kho ngữ liệu và nguồn tài nguyên các từ
điển; phân tích và nêu lên thực trạng nguồn tài nguyên dữ liệu, chất lượng của các hệ
thống dịch tự động hiện hữu và xu hướng xây dựng các hệ thống dịch trong tương lai.


17

CHƯƠNG 2. MỘT SỐ GIẢI PHÁP XÂY DỰNG NGUỒN
TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG
2.1. Mở đầu
Xuất phát từ vai trò quan trọng của nguồn tài nguyên dữ liệu phục vụ xử lý ngơn
ngữ tự nhiên nói chung và phục vụ dịch tự động nói riêng, các nhà nghiên cứu và các
nhà phát triển trên thế giới cũng như trong nước đã xây dựng được nhiều nguồn tài
nguyên dữ liệu hay còn gọi là các kho ngữ liệu. Để xây dựng các nguồn tài nguyên dữ
liệu này, người ta đã đề xuất và xây dựng nhiều giải pháp khác nhau nhằm mục đích
khai phá dữ liệu từ tập văn bản và tài nguyên từ internet; trích rút dữ liệu; hợp nhất các
nguồn tài nguyên đang tồn tại; mở rộng các kho ngữ liệu sẵn có...
Trong chương này, luận văn sẽ tập trung trình bày một số vấn đề chính liên quan
đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm các
phương pháp phân lớp dữ liệu để lựa chọn tập dữ liệu theo chủ đề cụ thể; một số giải
pháp xây dựng nguồn tài nguyên dữ liệu lớn như thu thập và xây dựng kho ngữ liệu từ
các nguồn tài nguyên đa ngữ; hợp nhất các kho ngữ liệu để xây dựng nguồn dữ liệu đồng

nhất; xây dựng cấu trúc và định dạng dữ liệu từ điển lớn và đồng nhất trên cơ sở phân
tích cấu trúc và định dạng dữ liệu của các nguồn tài nguyên đang tồn tại. Đồng thời,
trong chương này, luận văn cũng trình bày nghiên cứu một số giải pháp, thuật tốn được
các nhóm nghiên cứu đề xuất giải quyết, đã mang lại kết quả và hiệu quả trong việc xây
dựng nguồn tài nguyên phục vụ xử lý ngơn ngữ tự nhiên đó là các thuật toán hợp nhất
nguồn tài nguyên đã tồn tại để xây dựng các nguồn tài nguyên đồng nhất về mặt cấu
trúc, định dạng với kích thước lớn hơn và chất lượng tốt hơn.
2.2. Các phương pháp phân lớp dữ liệu phục vụ xây dựng nguồn tài ngun
2.2.1. Mơ hình và qui trình tổng qt
Như đề cập ở phần trên, có nhiều giải pháp khác nhau nhằm xây dựng nguồn tài
nguyên phục phục xử lý ngơn ngữ tự nhiên. Trong đó, giải pháp phổ biến nhất và đã áp
dụng để xây dựng thành công các nguồn tài nguyên là các kho ngữ liệu song ngữ đó là
giải pháp phân tích, thu thập và trích rút dữ liệu từ các nguồn tài nguyên từ internet như
là các website đa ngữ. Một trong các bước quan trọng đối với giải pháp này đó là phân
lớp dữ liệu để phân loại được lớp dữ liệu quan tâm. Từ dữ liệu quan tâm thu thập được,
các bước tiếp theo sẽ là phân tích và trích rút để có được các đơn vị dữ liệu phù hợp với
bài tốn đang giải quyết. Qui trình tổng qt quá trình xây dựng nguồn tài nguyên dữ
liệu phục vụ xử lý ngơn ngữ tự nhiên có thể được biểu diễn bằng mơ hình và qui trình
như sau:


×