Tải bản đầy đủ (.pdf) (8 trang)

Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (269.98 KB, 8 trang )

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
1
NGHIÊN CỨU VÀ ỨNG DỤNG UNL CHO XỬ LÝ TIẾNG VIỆT
UNL STUDY AND APPLICATION
TO THE VIETNAMESE LANGUAGE PROCESSING

Võ Trung Hùng
Trường Đại học Bách khoa, Đại học Đà Nẵng

TÓM TẮT
Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về UNL và chỉ ra cách
thức làm thế nào để ứng dụng nó cho tiếng Việt. UNL được viết tắt từ Universal Networking
Language, nó là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và tri thức mà không bị cản
trở bởi rào chắn ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả ngôn ngữ tự nhiên theo
cách truyền thông của con người. Mục đích cuối cùng là cho phép con người diễn đạt ngôn ngữ
t
ự nhiên thông qua ngôn ngữ này. Nó cũng cho các phép máy tính liên lạc được với nhau nhờ
các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi đề xuất hai mô hình để ứng
dụng UNL cho tiếng Việt. Mô hình thứ nhất, chúng ta sẽ chuyển đổi các văn bản tiếng Việt sang
dạng dữ liệu UNL và sau đó sử dụng các bộ dịch ngược của UNL để dịch đến các ngôn ngữ
khác. Trong mô hình thứ hai, chúng ta sẽ phát triển các mô-đun cầ
n thiết để tích hợp tiếng Việt
vào UNL nhằm tạo ra một hệ thống dịch đa ngữ.
ABSTRACT
In this paper, we introduce general information about UNL and how to apply it to the
vietnamese language processing. UNL (Universal Networking Language) is a computer
language that enables computers to process information and knowledge across language
barriers. It is an artificial language that replicates, in the cyber world, the functions of natural
languages in human communication. As a result, it enables people to express their ideas
through natural languages. It also enables computers to intercommunicate; thus, providing
people with a linguistic infrastructure for distributing, receiving and understanding multilingual


information. We propose two models to apply UNL to vietnamese processing. The first model,
we will translate vietnamese documents into UNL format and then use available UNL
DeConverter to translate into other languages. In the second model, we integrade vietnamese
into an UNL system to create a multilingual translation system.

1. Giới thiệu
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu
lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội Cùng với sự phát triển
này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng
ta có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin khổng
lồ trên mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và một trong những lý
do quan trọng nhất là rào cản về ngôn ngữ. Một trong những giải pháp nhằm phá bỏ rào
cản ngôn ngữ là phát triển các hệ thống dịch tự động.
Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
2
có thể sử dụng trên Internet như Google, AltaVista…. ; nhiều hệ thống đã được đưa vào
thương mại hoá trong những năm gần đây như Systran, Reverso và một số chương trình
dịch thu phí có giá thành rất rẻ như Babylon. Những công cụ này cho phép tạo ra một
"bản dịch nghĩa" — một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta có thể
hiểu được ý nghĩa của văn bản gốc, nhưng cần phải chỉnh sửa nhiều để đạt đến một bản
dịch hoàn chỉnh. Các hệ thống dịch tự động cho phép dịch rất nhanh và chi phí thấp hơn
nhiều so với dịch bằng con người. Tuy nhiên, trong đa số các trường hợp, chất lượng
bản dịch bằng máy sẽ thấp, không chính xác và hay bằng dịch thủ công. Những hệ
thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng
về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về giải
thích các khái niệm. Chúng ta biết rằng muốn có được một hệ thống xử lý ngôn ngữ tự
nhiên chất lượng cao thì trước hết cần phải có một hệ thống phân tích ngữ nghĩa tốt.
Vấn đề đặt ra là làm thế nào để bản dịch máy có chất lượng như được dịch bởi
các dịch giả? Lúc đó, hệ thống dịch tự động phải hoạt động như một quá trình xử lý tự

động để dịch từ một ngôn ngữ con người đang dùng đến một ngôn ngữ khác bằng cách
sử dụng đầy đủ các thông tin ngữ nghĩa và ngữ cảnh. Dịch ngữ nghĩa cho phép tham
chiếu đến cấu trúc ngữ pháp và mục đích của chúng là thiết lập một ngữ nghĩa tương
đương giữa 2 ngôn ngữ. Nếu việc dịch dựa vào sự trình bày về mặt ngữ nghĩa thì nó có
thể chỉ ra rằng làm thế nào để các câu trong ngôn ngữ nguồn và ngôn ngữ đích có mối
quan hệ về mặt cấu trúc. Trong phương pháp này, bản dịch máy sẽ sản sinh lại ý nghĩa
theo bối cảnh cho trước của tác giả mà không bị cản trở bởi cú pháp và các ràng buộc về
mặt ngữ nghĩa của ngôn ngữ đích. Phương pháp dịch theo ngữ nghĩa làm nổi bật nội
dung của thông điệp và hiệu quả dịch sẽ tốt hơn [3].
Tuy nhiên, người ta không mong muốn rơi vào tình trạng quá phức tạp của sự đa
dạng về ngữ nghĩa. Có một cách tiếp cận khác đó là dịch bằng cách sử dụng một ngôn
ngữ trung gian (ngôn ngữ biểu đạt riêng cho máy tính). Ngôn ngữ trung gian này cho
phép biểu diễn về mặt ngữ nghĩa ở mức đơn giản nhất có thể (giảm thiểu những rắc rối
do vấn đề ngữ nghĩa). Một trong những dự án đi theo cách tiếp cận này gọi là Universal
Networking Language (UNL). UNL được đề xuất và triển khai thực hiện bởi United
Nations University, Tokyo, Nhậ
t Bản.
Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài
ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX. Năm 1969, công ty
Logos đã được thành lập bởi Bernard E. Scott với mục đích thực hiện các nghiên cứu để
phát triển hệ thống dịch tự động từ tiếng Anh ra tiếng Việt và vào tháng 6 n
ăm 1970 hệ
thống dịch tự động Anh–Việt Logos I ra đời với từ điển khoảng hơn 1000 từ [5]. Ngoài
Logos, hiện nay còn có một số phần mềm dịch tự động cho tiếng Việt như Google,
EVtrans, VietTrans nhưng chất lượng dịch còn rất thấp, chưa đáp ứng được yêu cầu tối
thiểu của người dùng.
Vấn đề đặt ra là làm thế nào để có thể phát triển nhanh nhất hệ thống dịch tự
động cho tiếng Việt dựa trên những kết quả sẵn có và UNL là một trong những khả
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
3

năng để chọn lựa theo hướng này. Trong bài báo này, chúng tôi mong muốn giới thiệu
những nét khái quát nhất về UNL, một số kết quả thử nghiệm trên hệ thống này và đề
xuất khả năng ứng dụng UNL cho tiếng Việt.
2. Hệ thống UNL
Ngôn ngữ UNL là ngôn ngữ nhân tạo mô tả ý nghĩa của các câu thông qua khái
niệm lược đồ của mạng ngữ nghĩa. Mục đích nhắm đến là biểu diễn tất cả các câu theo
cùng cách thức của các ngôn ngữ tự nhiên thông qua việc sử dụng một đồ thị ngữ nghĩa
đơn. Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một
ngôn ngữ nào khác. Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào
trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác.
Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó
không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ
khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ.
UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm
việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa
tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ
này. Nó là một ngôn ngữ trung gian dành cho dịch tự động [4].
Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting
at his residence.” sẽ được viết trong ngôn ngữ UNL :
[S]
mod(chairman(icl>post).@present.@def,company(icl>institution).@def)
aoj(chairman(icl>post).@present.@def, John(icl>person))
agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person))
pos(residence(icl>shelter), John(icl>person))
obj(arrange(icl>do).@entry.@present.@complete.@pred,meeting(icl>confer
ence).@indef)
plc(arrange(icl>do).@entry.@present.@complete.@pred,residence(icl>shel
ter))
[/S]
Hoặc được biểu diễn dưới dạng đồ thị như hình 1.


TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
4
Hình 1. Biểu diễn một câu dưới dạng đồ thị theo UNL
Trong lược đồ này, một câu trong ngôn ngữ nguồn được dịch đến ngôn ngữ
UNL bằng cách sử dụng một công cụ gọi là EnConverter. Enconverter là một bộ phân
tích độc lập với ngôn ngữ, nó cung cấp đồng bộ một môi trường dành để phân tích hình
thái, cú pháp và ngữ nghĩa. Ngoài ra, trong UNL còn hiện diện một bộ chuyển đổi từ
một câu viết bằng ngôn ngữ UNL đến ngôn ngữ đích bằng một công cụ gọi là
DeConverter. DeConverter là một bộ phát sinh độc lập với ngôn ngữ, nó cung cấp một
môi trường dành để phát sinh ra một tài liệu mô tả cú pháp, hình thái, sự lựa chọn từ
thích hợp cũng như việc sắp xếp các từ theo đúng thứ tự. Nó có thể chuyển một biểu
thức UNL đến nhiều ngôn ngữ đích khác nhau bằng cách sử dụng các dữ liệu ngôn ngữ
như từ điển, tiêu chuẩn ngữ pháp dành cho từng ngôn ngữ.

Hình 2. Qui trình dịch tự động trong UNL
Mục đích của việc đưa UNL vào sử dụng trên các mạng truyền thông là nhằm
gia tăng việc trao đổi thông tin giữa các ngôn ngữ khác nhau và giới thiệu một giải pháp
để vượt qua bức tường ngăn cách do sự khác biệt về ngôn ngữ trên thế giới. Kiến trúc
hệ thống UNL dựa trên 2 tiến trình chính là chuyển văn bản từ ngôn ngữ tự nhiên sang
ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ tự nhiên
(DeConverter). Ngoài ra, chúng ta cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc
ngữ pháp và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động
như hình 3.
Về mặt khoa học, UNL đề xuất một cách tiếp cận mới về dịch tự động thông qua
ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta dịch
từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp). Ngôn ngữ trung gian này
được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một nội
dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. Nó có ý nghĩa quan trọng trong dịch
đa ngữ. Ví dụ, thay vì phát triển các hệ thống dịch tự động cho các cặp tiếng Việt –

Nga, Việt – Anh, Việt – Pháp,… ta chỉ cần phát triển một cặp Việt – UNL từ sẽ có thể
dịch sang tất cả các ngôn ngữ khác hỗ trợ bởi UNL.
Từ kiến trúc hệ thống dịch như trên, để nghiên cứu ứng dụng UNL cho một
ngôn ngữ nào đó ta cần nghiên cứu trước hết về cơ sở lý thuyết của UNL. Cơ sở lý
thuyết này bao gồm các tiêu chuẩn định nghĩa bởi UNL, làm thế nào để sử dụng ngôn
ngữ trung gian UNL trên cả hai cấp độ lý thuyết và ứng dụng. Bộ đặc tả UNL nhằm giả
i
quyết việc tạo ra các bản dịch khác nhau bằng cách tạo ra các hình thái UNL khác nhau
(UNL dialects). Bộ đặc tả này không mô tả dành cho một ngôn ngữ tự nhiên cụ thể nào
đang dùng mà nó yêu cầu độc lập về ngôn ngữ (UNL không phụ thuộc vào bất kỳ ngôn
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
5
ngữ riêng biệt nào mà theo qui tắc chung do nó định nghĩa).

Hình 3. Kiến trúc hệ thống dịch tự động của UNL
3. Khả năng ứng dụng UNL cho tiếng Việt
Trên cơ sở tìm hiểu một cách có hệ thống về khái niệm UNL, hệ thống hoạt
động UNL, ta có thể ứng dụng UNL cho Tiếng Việt như sau :
a. Mô hình 1: Chuyển đổi thủ công văn bản Tiếng Việt sang ngôn ngữ UNL và từ
đó sử dụng các công cụ hỗ trợ dịch từ UNL sang các ngôn ngữ khác như Tiếng
Anh, Tiếng Nga, Tiếng Tây Ban Nha, Tiếng Ý.


TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
6
Hình 4. Mô hình ứng dụng UNL cho tiếng Việt
Ví dụ: từ một câu tiếng Việt: “Tôi có thể giúp gì cho ông không ?”, ta sẽ chuyển
nó sang dạng UNL:
agt(help(icl>do).@polity.@interrogative.@entry, I)
obj(help(icl>do).@entry.@polity.@interrogative, you)

Và từ đây ta có thể dịch nó sang những ngôn ngữ (hiện nay là 15 ngôn ngữ) đã
được hỗ trợ bởi UNL như tiếng Anh, tiếng Pháp, tiếng Nhật,…
Đối với mô hình 1, ưu điểm là nhanh chóng ứng dụng UNL mà không cần phải
phát triển bất cứ công cụ bổ sung nào. Nó phù hợp với việc phổ biến nhanh những dữ
liệu cơ bản và thiết yếu (hướng dẫn du lịch, các mẫu hộ
i thoại đơn giản, quảng cáo…)
ra nhiều thứ tiếng đã hỗ trợ bởi UNL. Hạn chế là phải có đội ngũ am hiểu ngôn ngữ
UNL để chuyển những dữ liệu đang có sang UNL [2].
b. Mô hình 2 : Tích hợp tiếng Việt vào UNL. Để tích hợp được tiếng Việt vào
UNL, chúng ta cần phát triển mô-đun dịch xuôi (tiếng Việt – UNL) và dịch
ngược (UNL – tiếng Việt). Để làm được việc này, cần phát tri
ển các dữ liệu
ngôn ngữ và công cụ dựa trên kiến trúc của UNL. Những công việc cụ thể
gồm :
- Xây dựng từ điển các từ, các luật văn phạm, từ điển định nghĩa các khái
niệm cơ bản của Tiếng Việt.
- Xây dựng các luật mã hóa, các luật phân tích từ trong câu. Khi chuỗi đầu
vào được nạp thì EnConverter sẽ tiến hành phân tích các từ trong câu, mỗi
từ được xem như là một nút, nạp luật mã hóa và tiến hành kiểm tra luật. Áp
dụng luật mã hóa cho danh sách các nút. Quá trình xử lý của ứng dụng luật
là để tìm ra luật thích hợp và áp dụng trên danh sách nút để tạo chức năng
cú pháp và mạng UNL sử dụng các nút trong cửa sổ phân tích. Nếu một
chuỗi xuất hiện trong cửa sổ, hệ thống sẽ xây dựng từ điển từ và áp dụng
luật lên các phần tử từ. Trong tr
ường hợp, nếu một từ đáp ứng đủ các điều
kiện yêu cầu cho cửa sổ của luật, từ này sẽ được lựa chọn và ứng dụng luật
tiếp tục. Quá trình xử lý này sẽ tiếp tục cho đến khi chức năng cú pháp và
mạng UNL được hoàn thành và chỉ còn lại các phần tử nút trong danh sách
nút. Cuối cùng EnConverter hiển thị mạng UNL thành file dữ liệu đầu ra là
quan hệ nhị phân theo định dạng của biểu thức UNL.

- Xây dựng công cụ hỗ trợ quá trình Giải mã – DeConverter: Gồm 3 thành
phần: Thành phần đầu tiên dùng để chuyển biểu thức UNL thành đồ thị;
Thành phần thứ hai chuyển đồ thị thành một số cây; Thành phần thứ ba
dùng phương pháp đệ quy duyệt từ trên xuống qua các đỉnh để dịch mỗi cây
con và kết quả là một câu hoàn chỉnh.
Đối với mô hình ứng dụng 2, ư
u điểm là tạo ra một hệ thống dịch tự động đa
ngữ hoàn chỉnh cho tiếng Việt mà chỉ cần phát triển các mô-đun dịch tiếng Việt  UNL
và UNL  tiếng Việt. Tuy nhiên, với mô hình này thì cần phải bỏ ra nhiều công sức để
nghiên cứu, phát triển dữ liệu từ điển, ngữ pháp và các mô-đun dịch trên cơ sở nền tảng
đã có của UNL.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
7
4. Thử nghiệm
Chúng tôi đã tiến hành 2 thử nghiệm trên UNL. Thử nghiệm thứ nhất là xây
dựng một tập dữ liệu UNL gồm gần 300 mẫu hội thoại trích từ "Sổ tay du lịch" và đã
tiến hành dịch tập dữ liệu này sang các thứ tiếng Anh, Pháp, Ý, Đức và Nhật trên các
máy chủ của hệ thống UNL. Kết quả dịch sang tiếng Anh và Pháp đã nhờ các chuyên
gia ngôn ngữ kiểm tra và nhận được đánh giá tốt. Thử nghiệm thứ hai chúng tôi đang
triển khai là xây dựng từ điển UNL-tiếng Việt trên cơ sở cấu trúc từ điển của UNL và
dữ liệu được sử dụng từ dự án từ điển FEV do Khoa Công nghệ Thông tin, Trường Đại
học Bách khoa, Đại học Đà Nẵng hợp tác với nhóm nghiên cứu GETA-CLIPS, Cộng
hoà Pháp triển khai trước đây [1].
5. Kết luận
Những kết quả đạt được mới chỉ mới dừng lại ở mức nghiên cứu tính khả thi của
việc ứng dụng UNL cho tiếng Việt. Kết quả lớn nhất mà chúng tôi đạt được là đã
nghiên cứu một cách có hệ thống về UNL, cách lưu trữ dữ liệu bằng UNL, cách hoạt
động của hệ thống UNL, cách tích hợp một ngôn ngữ mới vào hệ thống và ứng dụng
UNL vào xây dựng hệ thống dịch tự động đa ngữ trên mạng. Trên cơ sở đó chúng tôi đề
xuất khả năng ứng dụng UNL vào việc xử lý tiếng Việt.

Các thử nghiệm, đánh giá của chúng tôi hiện nay cũng chỉ mới giới hạn trong
phạm vi khối lượng dữ liệu nhỏ nhằm mục đích kiểm chứng khả năng ứng dụng của
UNL cho tiếng Việt. Để tạo ra một hệ thống dịch đa ngữ cho tiếng Việt bằng UNL thì
chúng ta cần phải triển khai nhiều công việc như đã chỉ ra ở trên.
Chúng tôi nhận thấy rằng, UNL mở ra một cơ hội to lớn để phát triển hệ thống
dịch tự động đa ngữ một cách nhanh nhất có thể cho tiếng Việt. Trong thời gian đến,
chúng tôi sẽ tiếp tục nghiên cứu một cách đầy đủ hơn về UNL và hy vọng sẽ xây dựng
thành công hệ thống dịch tự động đa ngữ cho tiếng Việt.


TÀI LIỆU THAM KHẢO

[1] Blanchon H., Boitet Ch., Brunet-Manquat F., Tomokiyo M., Hamon A., Vo-Trung
H. et Bey Y.: “Toward fairer evaluations of commercial MT systems on Basic
Travel Expressions Corpora”, Proceedings of International Workshop on Spoken
Language Translation IWSLT 2004, Kyoto, Japan, pp. 21-27, Oct. 2004.
[2] Boitet Ch.: “A rationale for using UNL as an interlingua and more in various
domains”, Proceeding of the First International Workshop on UNL, LREC2002,
Las Palmas, Spain, 2002.
[3] Hutchins W. J. and Somers, H. L.: “An Introduction to Machine Translation”,
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 2(31).2009
8
Academic Press, 1992.
[4] H. Uchida, M. Zhu, T. Senta: “Universal Networking Language”, ISBN-10 2-8399-
0128-5, Edition II, Published 2006.
[5] Lale Yurtseven, Logos machine translation system, ,
Logos Corporation.

×