Tải bản đầy đủ (.pdf) (4 trang)

Giải pháp xây dựng kho ngữ liệu đa ngữ việt êđê gán nhãn theo ngữ cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.07 MB, 4 trang )

TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II

GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ
GÁN NHÃN THEO NGỮ CẢNH
SOLUTIONS TO BUILDING THE VIET - EDE
MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL
Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2
1

Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email:
Trường Đại học Bách khoa, Đại học Đà Nẵng; Email:

2

Tóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho
ngữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho
ngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của
hệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ
sử dụng trong quá trình huấn luyện có chất lượng khơng tốt cho
dù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện
nay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phơng chữ
Unicode nào đã được cơng bố chính thức và cho phép cộng đồng
nghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo
đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông
chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách
gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục
về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các
đồng bào các dân tộc thiểu số Việt Nam.

Abstract – In the natural language processing (NLP), the
multilingual corpus is a necessary resource. The quality of


multilingual corpus plays a decisive role in the output quality of the
translational system. The translational system will not produce a
good output, if the the quality of multilingual corpus in the training
process is not good, though the most advanced machine learning
methods are applied. Currently, there is no Vietnamese-EDe
multilingual corpus using Unicode fonts, which has been officially
announced and allows the research community to share and use
for research purposes. For this reason, the propose of this paper
is to develop a solution to building a Vietnamese-EDe multilingual
corpus using the Unicode font which can process the ambiguity and
multi - meaning words by labeling each word with the context in the
educational field such as education in animal husbandry, cultivation,
forest preservation, health care, etc. ... for the ethnic minorities (EM)
in Vietnam.

Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode;
tách từ.

Key words – multilingual corpus; the ethnic minorities; Ede;
unicode; word segmentation.

1. Đặt vấn đề

học máy tiên tiến nhất. Bên cạnh đó việc khử nhập nhằng
là bài tốn khơng thể khơng kể đến trong dịch máy. Cho
đến nay vẫn chưa có một kho ngữ liệu đa ngữ Việt-ÊĐê với
phông chữ Unicode nào đã được cơng bố chính thức và cho
phép cộng đồng nghiên cứu có thể chia sẻ sử dụng cho các
mục tiêu nghiên cứu.


Trong số 55 dân tộc Việt Nam có 26 dân tộc đã có
chữ viết. Một điều dễ nhận thấy, cùng với tiếng phổ thông
(tiếng Việt), tiếng dân tộc thiểu số (DTTS) cũng đang chứng
tỏ vai trị của mình trong các lĩnh vực hoạt động tại các vùng
đồng bào DTTS, nhất là trong việc gìn giữ và phát triển văn
hoá dân tộc, xây dựng cuộc sống mới. Đảng và Nhà nước
đã đưa ra rất nhiều chủ chương chính sách nhằm bảo tồn và
phát huy văn hóa dân tộc thiểu số.
Hiện nay, Đài Tiếng nói Việt Nam và hầu hết các Đài
Phát thanh và Truyền hình (PT&TH) địa phương trong nước
đều có các chương trình PT&TH bằng tiếng dân tộc, như
Đài PT&TH tiếng ÊĐê tại các tỉnh Đăk Lăk. Những nội
dung PT&TH hiện nay nhằm giúp đồng bào dân tộc có thêm
vốn hiểu biết, kinh nghiệm về phát triển kinh tế, chăn ni,
trồng trọt, bảo vệ rừng, khống sản, chăm sóc sức khoẻ, bảo
tồn và phát huy các giá trị văn hố của mình, giữ vững an
ninh biên giới, nắm bắt được tình hình khí hậu, thời tiết, thổ
nhưỡng, .... Tuy nhiên, việc đào tạo cán bộ, nhân viên, nhất
là trong lĩnh vực PT&TH, am hiểu được văn hóa và tiếng
DTTS nói chung và tiếng ÊĐê nói riêng, đang gặp rất nhiều
khó khăn. Quy trình sản xuất một chương trình phát thanh
từ tiếng Việt sang tiếng ÊĐê vẫn còn thủ cơng, tốn nhiều
thời gian và cơng sức. Vì vậy cần có sự hỗ trợ của lĩnh vực
Cơng nghệ Thơng tin trong công việc dịch tự động các văn
bản từ tiếng Việt sang tiếng ÊĐê.
Trong xử lý ngôn ngữ tự nhiên, chúng ta thấy rằng chất
lượng của máy dịch tự động sẽ không cho kết quả tốt nếu
kho ngữ liệu sử dụng trong q trình huấn luyện có chất
lượng khơng tốt cho dù được áp dụng các phương pháp
38


Xuất phát từ các vấn đề đã nêu, bài báo đề xuất giải pháp
phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê
với phơng chữ Unicode có xử lý nhập nhằng và từ đa ngữ
nghĩa, bằng giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực
giáo dục như giáo dục về chăn ni, trồng trọt, bảo vệ rừng,
chăm sóc sức khoẻ, . . . cho các đồng bào DTTS Việt Nam.
2. Kho ngữ liệu
2.1. Giới thiệu kho ngữ liệu
Việc xây dựng ngân hàng dữ liệu để chứa hình ảnh, âm
thanh, tiếng nói, văn bản, số liệu, bảng biểu, lược đồ, . . . đã
có từ lâu, và được gọi chung là cơ sở dữ liệu. Với dữ liệu là
chất liệu ngôn ngữ thì thường được tổ chức thành một loại
riêng, gọi là kho ngữ liệu (corpus) hay kho văn bản. Một tập
hợp gồm nhiều kho ngữ liệu gọi là Corpora. Các kho dữ liệu
được nhiều nhà nghiên cứu biết đến là kho ngữ liệu quốc tế
Anh quốc (ICE: International Corpus of English), kho ngữ
liệu quốc gia Anh quốc (BNC: British National Corpus),
kho ngữ liệu quốc gia Hoa Kỳ (ANC: American National
Corpus), v.v.... Đến tháng 7 năm 2012 Sketch Engine có
hơn 130 kho ngữ liệu trong đó có kho ngữ liệu BNC, và đặc
biệt là kho ngữ liệu tiếng Việt (VietnameseWaC) [5].
Kho ngữ liệu với một thứ tiếng đơn lẻ gọi là kho ngữ
liệu đơn ngữ, hoặc với nhiều thứ tiếng gọi là kho ngữ liệu


Hoàng Thị Mỹ Lệ, Phan Huy Khánh

đa ngữ. Các kho ngữ liệu đa ngữ được định dạng đặc thù
để có thể so sánh cạnh nhau được gọi là kho ngữ liệu song

song có gióng hàng. Để kho ngữ liệu trở nên hữu ích cho
việc nghiên cứu ngơn ngữ, đặc biệt là trong việc biên soạn
từ điển, các văn bản thường được làm giàu thêm bằng việc
chú giải các thông tin tri thức. Chẳng hạn, các từ trong cụm
từ sẽ được chú giải thông tin về từ loại gọi là gắn nhãn từ
loại. Các cụm từ trong câu sẽ được phân tách và gắn nhãn
gọi là phân đoạn cụm từ. Với các ngôn ngữ đơn lập như tiếng
Việt, do ranh giới của từ khơng được xác định rõ ràng bằng
hình thức, nên ngữ liệu thường phải trải qua quá trình xác
định đơn vị từ và gắn nhãn khu biệt gọi là phân đoạn từ [5].
Một số kho ngữ liệu có cấp độ cấu trúc sâu hơn để cho
sự phân tích được hiệu lực. Đặc biệt, kho ngữ liệu có thể
được phân tích ngữ pháp và gán nhãn cú pháp đầy đủ. Kho
ngữ liệu như vậy được gọi là Treebank, nó thường có dung
lượng nhỏ chứa khoảng 1 đến 3 triệu từ, do cơng việc phân
tích ngữ pháp và gắn nhãn cú pháp chủ yếu làm bằng tay,
địi hỏi độ chính xác cao nên mất rất nhiều cơng sức cũng
như kinh phí. Các cấp độ khác của ngơn ngữ được chú giải
có thể bao gồm cả hình thái, ngữ nghĩa và ngữ dụng.
2.2. Xây dựng kho ngữ liệu song song
Xây dựng kho dữ liệu song ngữ song song gồm hai bước
cơ bản là: xây dựng nguồn tài liệu song song và gióng hàng
các tài liệu song song [2][3].
Xây dựng nguồn tài liệu song song
Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước
hoặc bao phủ nhiều lĩnh vực khác nhau.

2.3. Các kho ngữ liệu song ngữ tiếng Việt-tiếng DTTS
hiện nay
- Bộ từ điển điện tử Việt-ÊĐê do Cơ quan thường trú

Đài Tiếng nói Việt Nam khu vực Tây Nguyên thực hiện
năm 2007.
- Từ điển điện tử phương ngữ Gia Rai-Việt là đề tài khoa
học của sở Thông tin-Truyền thông tỉnh Gia Lai.
- Từ điển điện tử Mnông-Việt và Mơnông-Việt của sở
khoa học và công nghệ Đăk Nông.
- Kho ngữ vựng song ngữ Việt-Cơ Tu và Cơ Tu-Việt của
ThS.Nguyễn Trọng Tùng.
- Kho ngữ vựng từ vựng đa ngữ Việt-Anh-ÊĐê của ThS.
Nguyễn Thị Tuyết.
- Kho ngữ vựng song ngữ Việt-Mường của ThS. Huỳnh
Nguyễn Ái Nhân.
- Từ điển Hrê-Việt và Việt-Hrê của ThS. Võ Đình Tá.
- Kho ngữ vựng song ngữ Việt-ÊĐê của ThS. Phan Thị
Thu Nhân.
Nhìn chung cho đến nay việc xây dựng kho ngữ liệu
tiếng DTTS chỉ dừng lại ở một số kết quả nghiên cứu của
một số trường Đại học, đó là những đề tài tốt nghiệp Đại
học, Thạc sĩ, mang tính chất tìm hiểu, chưa hệ thống và
định hướng rõ ràng. Với tiếng ÊĐê, nguồn ngữ liệu hiện có
ở dạng từ điển Việt-ÊĐê trên giấy viết, từ điển ÊĐê-Việt
ở dạng tập tin văn bản. Với tiếng các DTTS có các kí tự
khơng có trong tiếng Việt, các tác giả khơng dùng chung
phơng chữ Unicode có hỗ trợ tiếng Việt mà hầu hết đều xây
dựng bộ phông chữ và bộ gõ riêng để sử dụng.

Nhập vào máy tính từ các tài liệu trên giấy hoặc mua các
3. Giải pháp phát triển công cụ xây dựng kho ngữ liệu
kho ngữ liệu song ngữ điện tử như sách song ngữ, báo chí
đa ngữ Việt-ÊĐê

song ngữ, . . . . Thu thập dữ liệu song ngữ từ Internet.
Hiện nay nguồn tài liệu song ngữ Việt-ÊĐê chủ yếu chỉ 3.1. Tiêu chí xây dựng kho ngữ liệu song ngữ Việt-Êđê
có ở từ điển Việt-ÊĐê trên giấy, tài liệu điện tử của các
Kho ngữ liệu song ngữ song song Việt-ÊĐê được chúng
bài giảng tiếng ÊĐê và tự điển ÊĐê-Việt trong tập tin .PDF
tôi xây dựng theo các tiêu chí sau:
được tải lên mạng phục vụ cho việc học tiếng ÊĐê.
- Lĩnh vực của kho ngữ liệu liên quan đến lĩnh vực giáo
Gióng hàng các tài liệu song song
dục về trồng trọt, chăn nuôi, bảo vệ rừng, y tế, . . . để phổ
Các tài liệu song ngữ trong kho ngữ liệu song ngữ có biến những kiến thức cần thiết trong cuộc sống thực tế hằng
thể ở các mức như sau:
ngày cho đồng bào các DTTS.
- Các từ trong kho ngữ liệu là có nghĩa và biểu diễn được
- Mức tài liệu: Các tài liệu trong kho ngữ liệu được
gióng hàng đơi một, tài liệu này là bản dịch của tài liệu kia. trong các tài liệu khoa học.
- Tài liệu xây dựng kho ngữ liệu chúng tôi truy cập trên
- Mức đoạn: Các đoạn trong hai tài liệu của hai ngôn
mạng
và chọn những tài liệu liên quan đến lĩnh vực giáo dục
ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của
trong
cuộc
sống thực tế hằng ngày cho đồng bào các DTTS
đoạn kia.
trong khoảng thời gian gần đây nhất.
- Mức câu: Các tài liệu song ngữ được gióng hàng ở
- Kho ngữ liệu song ngữ Việt-ÊĐê chúng tơi thực hiện
mức câu.
gióng hàng theo mức các từ hay các cụm từ có nghĩa của

- Mức ngữ: Các ngữ trong cặp câu sẽ được gióng hàng
tiếng Việt được chọn ra theo lĩnh vực và gióng hàng theo
từng đôi một.
mức các từ hay cụm từ của tiếng ÊĐê, có gán nhãn theo lĩnh
- Mức từ hay cụm từ: Các từ hay cụm từ trong câu sẽ vực của từ hay cụm từ được dùng.
được gióng hàng từng đơi một.
- Trong kho ngữ liệu này chúng tơi có gán nhãn theo
Trong bài báo này chúng tôi xây dựng kho ngữ liệu đa ngữ cảnh và tần suất xuất hiện của từ có nghĩa trong các tài
ngữ Việt-ÊĐê với mức các từ có nghĩa của tiếng Việt được liệu liên quan đến từng lĩnh vực. Qua đó, việc gióng hàng
gióng hàng theo các từ của tiếng ÊĐê và có gán nhãn theo từ tiếng Việt với tiếng ÊĐê sẽ chú trọng vào lĩnh vực và tần
lĩnh vực.
suất xuất hiện của từ đó trong tài liệu.
39


TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II

- Kho ngữ liệu song ngữ Việt-ÊĐê được lưu trữ trong
máy tính với phơng chữ Unicode có hỗ trợ tiếng Việt.
Đây là vấn đề mà các kho ngữ liệu tiếng DTTS trước
đây chưa được đề cập đến.
3.2. Xây dựng kho ngữ liệu Việt-ÊĐê với bộ công cụ
MVECCL
Trên cơ sở kho ngữ liệu tiếng Việt đã được tách từ được
chia sẻ trên mạng [4], với bộ công cụ MVECCL (Make
Viet-Ede Corpus Context Label) sẽ tạo ra kho ngữ liệu
Việt-ÊĐê theo các tiêu chí đã được đặt ra.

một khuôn mẫu nhất định, nội dung thuộc về lĩnh vực, ngơn
từ cụ thể, rõ ràng, ít nhập nhằng.

Để góp phần nâng cao chất lượng kho ngữ liệu 1, chúng
tôi chọn giải pháp trong khi tách từ MVECCL lọc ra các từ
khơng có trong kho ngữ liệu 1 và cho phép người sử dụng
lựa chọn để cập nhật vào kho ngữ liệu 1.
Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán
nhãn theo ngữ cảnh được thể hiện qua Hình 1.

3.2.1. Chuẩn bị dữ liệu cho MVECCL
Kho ngữ liệu tiếng Việt đã được tách từ [4] ở dạng tập
tin văn bản, chúng tôi chuyển thành kho ngữ liệu dưới dạng
bảng (đặt tên là kho ngữ liệu 1).
Kho ngữ liệu ÊĐê-Việt ở dạng tập tin văn bản được chia
sẽ trên mạng với mục đích dùng để học tiếng ÊĐê [6], cũng
được chuyển thành kho ngữ liệu dưới dạng bảng (đặt tên là
kho ngữ liệu 2).
Những tài liệu liên quan đến lĩnh vực giáo dục trong
cuộc sống thực tế hằng ngày cho đồng bào các DTTS. Ví dụ
như những tài liệu liên quan đến giáo dục về trồng trọt trên
Internet, chúng tôi chọn các bài viết như kỹ thuật trồng cà
phê, cao su, ca cao, . . . .
3.2.2. Hoạt động của bộ cơng cụ MVECCL

Hình 1: Hoạt động của MVECCL

3.2.3. Kho ngữ liệu Việt-ÊĐê từ MVECCL
Kho ngữ liệu tiếng Việt sau khi tương tác với MVECCL
qua tài liệu theo ngữ cảnh sẽ tạo nên kho ngữ liệu tiếng Việt
được gán nhãn theo ngữ cảnh và tần suất xuất hiện của mỗi
từ theo ngữ cảnh. Cũng với MVECCL, kho ngữ liệu 1 sẽ
được bổ sung thêm các từ nếu trong kho ngữ liệu 1 chưa

có và được gióng hàng các từ ÊĐê tương ứng. Cấu trúc kho
ngữ liệu đa ngữ Việt-ÊĐê được thể hiện ở Bảng 1.

Tài liệu khi qua bộ công cụ được xử lý như sau:
Đầu tiên MVECCL tiến hành tách từ trên tài liệu đưa
vào, phương pháp tách từ được áp dụng cho MVECCL là
CHÍngữ
KHOA
HỌC VÀ CƠNG NGH
phương pháp so khớp cực đại (Maximum Matching) dựa
Bảng 1: CấuTẠP
trúc kho
liệu Việt-ÊĐê
vào kho ngữ liệu 1. Chúng tôi chọn phương pháp này là vì
đã kế thừa được kho ngữ liệu tiếng Việt đã được tách từ.
Trong quá trình tách từ MVECCL cũng đã thực hiện gán
nhãn lĩnh vực cho từ tách được theo ngữ cảnh của tài liệu
được chọn, và cũng gán tần suất xuất hiện của từ đó theo
lĩnh vực. Với phương pháp gán nhãn theo ngữ cảnh và tần
suất xuất hiện vào kho ngữ liệu 1 giúp người sử dụng chọn
lựa từ thích hợp khi thực hiện việc gióng hàng.
Tiếp theo là cơng việc gióng hàng theo từ (từ tiếng Việt
được gán nhán sẽ được gióng hàng với từ tiếng ÊĐê). Công
việc này được thực hiện bán thủ công, với MVECCL người
sử dụng có thể chọn để gióng hàng tự động từ ÊĐê với các
từ tiếng Việt có trong kho ngữ liệu 2. Việc cập nhật gióng
hàng tự động này cũng phải có sự can thiệp người sử dụng
để chọn ra từ tiếng ÊĐê gióng hàng thích hợp. Cơng việc
này cũng góp phần giải quyết vấn đề đa nghĩa giữa từ tiếng
Việt và tiếng ÊĐê. Còn với các từ tiếng Việt khơng có trong

kho ngữ liệu 2, người sử dụng phải tiến hành cập nhật thủ
công dựa vào sách từ điển Việt-ÊĐê [1][7][8].
Để xử lý nhập nhằng, chúng tôi đã chọn giải pháp tách
từ với các tài liệu trong ngữ cảnh hạn chế đó là các tài liệu
3.3.3.3.
KếtKết
quả
thử
quả
thửnghiệm
nghiệm
thuộc về một lĩnh vực chuyên ngành cụ thể, với các câu
Với
những
kholiệu
ngữ
Với những kếtkết
quảquả
bướcbước
đầu, đầu,
từ khotừngữ
đơnliệu
ngữđơn
từ đơn giản, ít nhập nhằng, khơng có tính trừu tượng. Ví dụ
ngữ
tiếng
Việt
gồm
31248
từ


nghĩa,
chúng
tơi
đã
như các tài liệu kỹ thuật trồng của các loại cây, phương pháp tiếng Việt gồm 31248 từ có nghĩa, chúng tơi đã xây dựngxây
dựng
cụ MVECCL
để ngữ
tạo liệu
khođangữ
đa ngữ
bộ bộ
côngcông
cụ MVECCL
để tạo kho
ngữ liệu
Việt-ÊĐê
chăn nuôi gia súc, gia cầm, thông báo cảnh báo cháy rừng,
Việt-ÊĐê
được
nhãn
lĩnh
vực,
được gán
nhãngán
lĩnhđược
vực, tần
suất
xuất

hiệntần
và suất
gióngxuất
hànghiện
. . . . Đây là các loại tài liệu tương đối đặc biệt. Nó tuân theo
40

và gióng hàng từ ÊĐê tương ứng với lĩnh vực vào kho
ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ trên


ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tơi đã xây
dựng bộ công cụ MVECCL để tạo kho ngữ liệu đa ngữ
Việt-ÊĐê được gán được nhãn lĩnh vực, tần suất xuất hiện
từ ÊĐê
với lĩnh
vựcứng
vào với
kho lĩnh
ngữ vực
liệu vào
1. Bảng

gióngtương
hàngứng
từ ÊĐê
tương
kho
2
trình

bày
kết
quả
thực
hiện
tách
từ
trên
tài
liệu
theo
ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ ngữ
trên
cảnh
tương
vàocảnh
kho ngữ
liệutác
1 đểvào
thực
hiện
gánliệu
nhãn
tài
liệu
theotácngữ
tương
kho
ngữ
1 và

để
tần
suất
xuất
hiện
qua
MVECCL.
thực hiện gán nhãn và tần suất xuất hiện qua MVECCL.
Bảng 2.
2:Thống
Thống kê
kê số
số từ
từ được tách theo
Bảng
theo ngữ
ngữ cảnh
cảnhtừ
từMVECCL
MVECCL

được
nhãn
VớiVới
khokho
ngữngữ
liệuliệu
khi khi
được
gángán

nhãn
theotheo
ngữngữ
cảnhcảnh


tần
suất
xuất
hiện
của
từ,
MVECCL
thực
hiện
tần suất xuất hiện của từ, MVECCL thực hiện gióng gióng
hàng
hàng
từ với
ÊĐê
kếtcủa
hợp
của sử
người
sử dụng.
từ ÊĐê
sựvới
kết sự
hợp
người

dụng.
Hình
là giao
bộ cơng
cụ kho
tạo ngữ
kho liệu
ngữ
Hình
2 là2 giao
diệndiện
của của
bộ cơng
cụ tạo
liệu
Việt-ÊĐê
gán
nhãn
theo
ngữ
cảnh.
Việt-ÊĐê gán nhãn theo ngữ cảnh.

liệu.
Hồng Thị Mỹ Lệ, Phan Huy Khánh
Giải pháp xây dựng
kho ngữ liệu đa ngữ Việt-ÊĐê
gán áp
nhãn
theo

cảnhpháp
mang
vì giảiViệc
pháp
được
dụng
cácngữ
phương
họctính
máythực
tiêntiễn,
tiến nhất.
này
đã
góp
phần
tạo
nên
kho
ngữ
liệu
đa
ngữ
Việt-ÊĐê
khử nhập nhằng và từ đa ngữ cũng là bài tốn khơng thể
với phơng
cứuđặt
trước
đây
khơng

kể đến chữ
trongUnicode
dịch máy.mà
Vớicác
giảinghiên
pháp được
ra, bài
chưa
thực
hiện.
Giải
pháp
này
cũng
đã
góp
một
phần
vào
báo đã thực hiện và đạt được một số kết quả:
bài toán xử lý nhập nhằng và từ đa nghĩa trong kho ngữ
1. Tương tác với kho ngữ liệu đơn ngữ tiếng Việt để
liệu đa ngữ.
tạo kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ
Đây chỉ là những kết quả nghiên cứu bước đầu,
Unicode.
chúng
tôi
sẽ tiếp
tụcngữ

nghiên
vàsuất
phátxuất
triểnhiện
theovới
hướng:
2. Gán nhãn
theo
cảnh cứu
và tần
mỗi
Chia
sẽ
MVECCL
trên
mạng,
để
các
chuyên
gia về
từ trong kho ngữ liệu đa ngữ Việt-ÊĐê.
ngôn
ngữ
ÊĐê
thể ngữ
kiểmliệu
tra,tiếng
đánhViệt
giá các
và cập

nhậtcócác
3. Bổ
sung
vàocókho
từ chưa
từ ÊĐê
kho ngữ
ngữcủa
Việt-ÊĐê
góptrong
phần nâng
cao liệu
chất đa
lượng
kho ngữtạo
liệu.kho ngữ
liệu
Việt-ÊĐê
chấtkho
lượng
Giải
pháp xâycódựng
ngữcao.
liệu đa ngữ Việt-ÊĐê gán
triển mang
MVECCL
cho
cácvì giải
ngơnpháp
ngữnàyDTTS

nhãn theoPhát
ngữ cảnh
tính thực
tiễn,
đã
khác.
góp
phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê với phông
chữ Unicode
cứu trước
đây chưa
Qua mà
bài các
báonghiên
này, chúng
tơi muốn
gửithực
gắmhiện.
thơng
Giải
đã góp
phần
bài tốn
lý nhập
điệppháp
đếnnày
cáccũng
chun
gia một
ngơn

ngữvào
DTTS
góp xử
phần
chung
nhằng
và từthiện
đa nghĩa
trongliệu
khođangữ
đa ngữ.
tay hồn
kho ngữ
ngữliệu
tiếng
Việt.
Đây chỉ là những kết quả nghiên cứu bước đầu, chúng
KHẢO:
tôi sẽ tiếp tục nghiênTÀI
cứu LIỆU
và phátTHAM
triển theo
hướng:
[1]
ĐồnsẽVăn
Phúc, Ngữ
tiếng để
ÊĐê,
Khoagia
họcvềXã

1. Chia
MVECCL
trênâmmạng,
cácNxb
chun
hội, TP.
Chícó
Minh,
1997. tra, đánh giá và cập nhật
ngôn
ngữHồ
ÊĐê
thể kiểm
[2] các
Hồ từQuốc
Đặng
Lương
ÊĐêBảo,
trongĐinh
kho Điền,
ngữ liệu
đa Bác
ngữ Văn,
Việt-ÊĐê
tạoVỹ
Minh
kỹ thuật
đề lượng
tài nhánh
kho

ngữBáo
liệu cáo
Việt-ÊĐê
có chất
cao. SP.74, 2008,
Phát
triển MVECCL cho các ngôn ngữ DTTS khác.
/March2008/SP7.4_Baocaokythuat2008thang3.pdf
Qua
bài
báo này, chúng tôi muốn gửi gắm thông điệp
[3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công
đến cácnghệ
chuyên gia ngôn ngữ DTTS
thơng góp phần chung taytin,
hồn thiện
kho
ngữ
liệu
đa
ngữ
tiếng
Việt.
/>0-%20Final.pdf
liệu tham
khảo Natural Language
Lưu Tuấn Tài
Anh,
Vietnamese
Processing,

2012,
/>[1] Đoàn Văn Phúc, Ngữ âm tiếng ÊĐê, Nxb Khoa học Xã hội, TP. Hồ
[5]Chí Vũ
Xuân
Minh,
1997.Lương, Xây dựng kho ngữ liệu áp dụng cho
[2] Hồ phân
Quốc tích,
Bảo, Đinh
xử líĐiền,
ngơnĐặngngữBácvàVăn,
biênLương
soạnVỹ từ
Minh,
cáo kỹ thuật đề tài nhánh SP.74, 2008,
điển,Báo
/>bao/VLSPtext-/March2008/SP7.4_Baocaoky
Xay_dung_kho_ngu_lieu_ap_dung_cho_phan_tich,_xu_li
thuat2008thang3.pdf
_ngon_ngu_va_bien_soan_tu_dien#_ftn4
[3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công nghệ thông
[6]tin, />Thư viện giáo bao/Writings/VLSPwhitepaper
án điện tử, Tự điển ÊĐê-Việt
[4] Lưu />Tuấn Anh, Vietnamese Natural Language Processing, 2012,
[7] />Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự
[4]

Hình 2. Giao diện bộ cơng cụ MVECCL
Hình 2: Giao diện bộ công cụ MVECCL


4. Kết luận
4. Kết luận
Kho4 ngữ liệu đa ngữ là nguồn tài nguyên rất cần thiết
trong lĩnh vực xử lý tự nhiên. Các kho ngữ liệu đa ngữ có
thể được sử dụng cho nhiều bài tốn khác như: tìm kiếm
thơng tin xun ngữ, dịch máy, . . . . Kết quả của các bài toán
này đều phụ thuộc rất nhiều vào độ lớn và chất lượng của
kho ngữ liệu đa ngữ được sử dụng. Chất lượng của máy dịch
tự động sẽ không cho kết quả tốt nếu kho ngữ liệu sử dụng
trong q trình huấn luyện có chất lượng không tốt cho dù

[5] Vũ Xuân Lương, Xây dựng kho ngữ liệu áp dụng
cho phân tích, xử lí ngơn ngữ và biên soạn từ điển,
/>lieu_ap_dung_cho_phan_tich,_xu_li_ ngon_ngu_va_bien_soan_tu_
dien#_ftn4
[6] Thư viện giáo án điện tử, Tự điển ÊĐê-Việt let
.vn/present/show?entry_id=9339030
[7] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê
(tập 1), Nhà xuất bản Giáo dục, 1993.
[8] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê
(tập 2), Nhà xuất bản Giáo dục, 1993.

(BBT nhận bài: 13/01/2014, phản biện xong: 30/01/2014)

41



×