Tải bản đầy đủ (.pdf) (140 trang)

Xây dựng môi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê (Luận án tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 140 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG


HOÀNG THỊ MỸ LỆ

XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ
ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG


HOÀNG THỊ MỸ LỆ

XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ
ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ

Chuyên ngành

: KHOA HỌC MÁY TÍNH

Mã số


: 62.48.01.01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Ngƣời hƣớng dẫn khoa học : PGS.TS. PHAN HUY KHÁNH

Đà Nẵng, năm 2017


LỜI CAM ĐOAN
Tôi xin cam Ďoan Ďây là công trình nghiên cứu của riêng tôi, dƣới sự hƣớng dẫn
trực tiếp của PGS.TS Phan Huy Khánh.
Tôi cam Ďoan các kết quả Ďƣợc trình bày trong luận án là trung thực,
không sao chép từ bất kỳ luận án nào khác và chƣa từng Ďƣợc ai công bố trong bất kỳ
công trình nào khác. Mọi trích dẫn Ďều có ghi nguồn gốc xuất xứ rõ ràng.
Nếu có gì không trung thực, tác giả xin chịu hoàn toàn trách nhiệm.

Tác giả,

NCS. Hoàng Thị Mỹ Lệ


LỜI CẢM ƠN
Tôi thực hiện luận án “Xây dựng môi trƣờng xử lý tiếng Ê Đê ứng dụng trong dạy
và học tiếng Ê Đê” dƣới sự hƣớng dẫn tận tình của Thầy giáo PGS.TS. Phan Huy Khánh.
Tôi Ďã nhận Ďƣợc từ thầy nhiều kiến thức chuyên môn quý báu, những kinh nghiệm
nghiên cứu khoa học, cũng nhƣ những yêu cầu nghiên cứu nghiêm túc trong suốt thời gian
nghiên cứu Ďể hoàn thành luận án. Tôi chân thành bày tỏ lòng biết ơn và sự kính trọng
sâu sắc Ďối với thầy.
Trong thời gian bắt Ďầu nghiên cứu cho Ďến nay, tôi cũng Ďã tiếp nhận Ďƣợc những

kiến thức quý giá, sự giúp Ďỡ và quan tâm nhiệt tình của quý thầy, cô từ khoa Điện, trƣờng
Cao Ďẳng Công nghệ Ďến khoa Công nghệ Thông tin trƣờng Đại học Bách khoa, Đại học
Đà Nẵng. Quý thầy, cô Ďã tạo mọi Ďiều kiện thuận lợi giúp tôi học tập, nghiên cứu
khoa học, tham gia hội thảo và trao Ďổi chuyên môn, tiếp xúc với các chuyên gia trong
lĩnh vực xử lý ngôn ngữ tự nhiên và Công nghệ Thông tin. Tôi chân thành bày tỏ
lời cảm ơn sâu sắc.
Tôi xin trân trọng cảm ơn Ban Đào tạo - Đại học Đà Nẵng, Phòng Đào tạo Trƣờng Đại học Bách khoa Ďã tạo mọi Ďiều kiện thuận lợi cho tôi trong thời gian học tập,
nghiên cứu và thực hiện luận án.
Tôi xin ghi nhận và cảm ơn các cán bộ trong Ban dân tộc tỉnh Đăk Lăk,
TS. Buôn Krông Tuyết Nhung (Đại học Tây Nguyên) Ďã tạo Ďiều kiện thuận lợi cho tôi
trong việc tìm kiếm các nguồn tài liệu liên quan Ďến tiếng Ê Đê.
Tôi cũng chân thành cảm ơn các tác giả về những bài báo, tài liệu, bài giảng và các
công bố nghiên cứu khoa học mà tôi có sử dụng tham khảo, trích dẫn trong luận án.
Một lần nữa, tôi trân trọng cảm ơn bạn bè Ďồng nghiệp và gia Ďình Ďã cho tôi
niềm tin, nghị lực và lòng quyết tâm Ďể Ďạt Ďƣợc kết quả mong muốn.

NCS. Hoàng Thị Mỹ Lệ

Hoàng Thị Mỹ Lệ

NCS.


MỤC LỤC
MỞ ĐẦU.................................................................................................................... 1
1. Mục tiêu nghiên cứu ........................................................................................ 3
2. Đối tƣợng và phạm vi nghiên cứu ................................................................... 4
3. Phƣơng pháp nghiên cứu ................................................................................. 4
4. Cấu trúc của luận án......................................................................................... 4
5. Những Ďóng góp chính của luận án ................................................................. 5

CHƯƠNG 1. VẤN ĐỀ XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ ................ 7
1.1. XỬ LÝ NGÔN NGỮ TỰ NHIÊN ...................................................................... 7
1.1.1. Mã hóa và soạn thảo văn bản ..................................................................... 7
1.1.2. Xây dựng kho ngữ vựng ............................................................................ 8
1.1.3. Tách từ và gán nhãn từ loại ..................................................................... 11
1.1.4. Bài toán dịch máy .................................................................................... 14
1.2. XỬ LÝ TIẾNG VIỆT-KINH ............................................................................ 17
1.2.1. Tiếng Việt trong bối cảnh xử lý ngôn ngữ tự nhiên ................................ 17
1.2.2. Một số kết quả xử lý tiếng Việt ............................................................... 18
1.2.3. Xu thế và triển vọng trong xử lý tiếng Việt ............................................. 21
1.3. XỬ LÝ TIẾNG CÁC DÂN TỘC THIỂU SỐ Ở VIỆT NAM .......................... 21
1.3.1. Bảo tồn tiếng các dân tộc thiểu số ở Việt Nam ....................................... 21
1.3.2. Hệ thống chữ viết các dân tộc thiểu số ở Việt Nam ................................ 24
1.3.3. Thực trạng tiếng các dân tộc thiểu số ở Việt Nam .................................. 26
1.4. XỬ LÝ NGÔN NGỮ DÂN TỘC THIỂU SỐ .................................................. 27
1.4.1. Vấn Ďề xử lý ngôn ngữ dân tộc thiểu số .................................................. 27
1.4.2. Khó khăn và thách thức ........................................................................... 29
1.4.3. Các phƣơng pháp tiếp cận........................................................................ 30
1.4.4. Định hƣớng nghiên cứu ........................................................................... 30
1.5. KẾT LUẬN CHƢƠNG 1 .................................................................................. 31
CHƯƠNG 2. MÔI TRƯỜNG XỬ LÝ TIẾNG Ê ĐÊ .......................................... 33
2.1. XÂY DỰNG MÔI TRƢỜNG XỬ LÝ TIẾNG Ê ĐÊ ....................................... 33


2.1.1. Giới thiệu tiếng Ê Đê ............................................................................... 33
2.1.2. Khó khăn trong xử lý tiếng Ê Đê ............................................................. 36
2.1.3. Xử lý tiếng Ê Đê vận dụng kết quả xử lý tiếng Việt ............................... 36
2.1.4. Phân cấp chức năng trong môi trƣờng xử lý tiếng Ê Đê ......................... 37
2.2. SOẠN THẢO VĂN BẢN TIẾNG Ê ĐÊ .......................................................... 39
2.2.1. Xử lý chữ viết tiếng các dân tộc thiểu số ở Việt Nam ............................. 40

2.2.2. Soạn thảo văn bản tiếng các dân tộc thiểu số ở Việt Nam ...................... 42
2.2.3. Soạn thảo văn bản tiếng Ê Đê .................................................................. 43
2.3. SỬ DỤNG UNICODE ...................................................................................... 48
2.3.1. Sử dụng Unicode trong soạn thảo văn bản .............................................. 48
2.3.2. Chuyển Ďổi văn bản tiếng dân tộc thiểu số về Unicode........................... 49
2.3.3. Chuyển Ďổi văn bản tiếng Ê Đê dùng phông chữ riêng về Unicode ....... 50
2.4. KẾT LUẬN CHƢƠNG 2 .................................................................................. 52
CHƯƠNG 3. XỬ LÝ TIẾNG Ê ĐÊ ...................................................................... 54
3.1. HỢP NHẤT NGUỒN DỮ LIỆU SONG NGỮ VIỆT-Ê ĐÊ ............................ 54
3.1.1. Mô hình hợp nhất nguồn dữ liệu song ngữ .............................................. 54
3.1.2. Môi trƣờng hợp nhất nguồn dữ liệu song ngữ ......................................... 56
3.1.3. Đánh giá mô hình hợp nhất nguồn dữ liệu .............................................. 58
3.2. XÂY DỰNG KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ ........................... 58
3.2.1. Tổ chức kho ngữ vựng song ngữ Việt-Ê Đê ............................................ 58
3.2.2. Cập nhật dữ liệu vào kho ngữ vựng ......................................................... 61
3.2.3. Đánh giá kho ngữ vựng ........................................................................... 62
3.3. KIỂM TRA CHÍNH TẢ ÂM TIẾT TIẾNG Ê ĐÊ ............................................ 67
3.3.1. Âm tiết tiếng Ê Đê ................................................................................... 68
3.3.2. Phát hiện lỗi chính tả âm tiết tiếng Ê Đê ................................................. 69
3.3.3. Giải pháp kiểm tra chính tả âm tiết tiếng Ê Đê ....................................... 70
3.4. QUẢN LÝ KHO NGỮ VỰNG SONG NGỮ VIỆT-Ê ĐÊ............................... 72
3.4.1. Bổ sung mục từ vào kho ngữ vựng .......................................................... 73
3.4.2. Nâng cao chất lƣợng kho ngữ vựng ......................................................... 73


3.4.3. Định hƣớng khai thác kho ngữ vựng song ngữ Việt-Ê Đê ...................... 75
3.5. KẾT LUẬN CHƢƠNG 3 .................................................................................. 75
CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG XỬ LÝ TIẾNG Ê ĐÊ ........................ 77
4.1. DẠY VÀ HỌC TIẾNG Ê ĐÊ ........................................................................... 77
4.1.1. Thực trạng dạy và học tiếng Ê Đê ........................................................... 77

4.1.2. Ứng dụng quản lý kho ngữ vựng ............................................................. 78
4.1.3. Các ứng dụng dạy và học tiếng Ê Đê ...................................................... 78
4.2. TRA CỨU TỪ VỰNG SONG NGỮ VIỆT-Ê ĐÊ ............................................ 79
4.2.1. Vai trò của từ vựng trong dạy và học song ngữ Việt-Ê Đê ..................... 79
4.2.2. Xây dựng ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê....................... 80
4.2.3. Ứng dụng tra cứu từ vựng song ngữ Việt-Ê Đê ...................................... 83
4.3. BÀI TOÁN DỊCH MÁY VIỆT-Ê ĐÊ............................................................... 83
4.3.1. Dịch máy văn bản Việt-Ê Đê ................................................................... 84
4.3.2. Giải quyết bài toán tách từ tiếng Việt trong dịch máy Việt-Ê Đê ........... 84
4.3.3. Xây dựng ứng dụng trợ giúp dịch máy Việt-Ê Đê .................................. 85
4.4. KIỂM TRA LỖI CHÍNH TẢ TIẾNG Ê ĐÊ ..................................................... 91
4.4.1. Vấn Ďề lỗi chính tả tiếng Ê Đê ................................................................. 91
4.4.2. Giải quyết bài toán kiểm tra lỗi chính tả văn bản tiếng Ê Đê .................. 91
4.4.3. Xây dựng bộ kiểm tra lỗi chính tả trong dạy và học tiếng Ê Đê ............. 93
4.5. KẾT LUẬN CHƢƠNG 4 .................................................................................. 95
KẾT LUẬN .............................................................................................................. 96
1. Các kết quả chính của luận án ....................................................................... 96
2. Đánh giá kết quả ............................................................................................ 97
3. Hƣớng phát triển ............................................................................................ 98
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ ....................................................... 99
DANH MỤC CÁC TÀI LIỆU THAM KHẢO....................................................... 100
PHỤ LỤC .............................................................................................................. 109


DANH MỤC CHỮ VIẾT TẮT TIẾNG ANH
Stt

Chữ viết tắt

Giải nghĩa


Nghĩa tiếng Việt

American Standard Code for Bảng mã chuẩn của Hoa Kỳ dành
Information Interchange
cho việc chuyển Ďổi thông tin
Corpus-Based
Machine
Dịch máy dựa trên ngữ liệu
Translation
Phƣơng pháp tiếp cận dựa trên
Example-Based Approach
mẫu có sẵn
Example-Based
Machine
Dịch máy dựa trên mẫu có sẵn
Translation
Environment Interaction in Môi trƣờng tƣơng tác với
WinVNKey
WinVNKey
Enabling MInority Language Công nghệ ngôn ngữ DTTS thích
Engineering
ứng
Hyper
Text
Markup
Ngôn ngữ Ďánh dấu siêu văn bản
Language
International Corpus of
Kho ngữ liệu quốc tế tiếng Anh

English
International Corpus of Kho ngữ liệu quốc tế tiếng Anh
English-Great Britain
bản xứ
Knowledge-Based Machine
Dịch máy dựa trên cơ sở tri thức
Translation
MInority
Language
Công nghệ ngôn ngữ DTTS
Engineering

1

ASCII

2

CBMT

3

EBA

4

EBMT

5


EIWVNK

6

EMILLE

7

HTML

8

ICE

9

ICE-GB

10

KBMT

11

MILLE

12

MM


Maximum Matching

So khớp cực Ďại

13

RBA

Rule-Base Approach

Phƣơng pháp tiếp cận dựa trên luật

14

RBMT

15

SALTMIL

16

SA

17

SMT

18


TBL

19

WFST

Rule-Based
Machine
Dịch máy dựa trên luật
Translation
Speech
And
Language
Công nghệ ngôn ngữ và tiếng nói
Technology for MInority
cho các DTTS
Languages
Statistical Approach
Statistical-Based Machine
Translation
Transformation-Based
Learning
Weighted
Finite
State
Transducer

Phƣơng pháp tiếp cận thống kê
Dịch máy kiểu thống kê
Học dựa vào sự biến Ďổi

Chuyển Ďổi trạng thái hữu hạn có
trọng số


DANH MỤC BẢNG BIỂU
Số hiệu
bảng

Tên bảng

Trang

1.1.

Các hệ chữ viết các DTTS ở Việt Nam

26

2.1.

Bảng chữ cái Ê Đê

34

2.2.

So sánh xử lý tiếng Việt và tiếng Ê Đê

36


2.3.

Bảng phân nhóm bảng chữ cái tiếng Ê Đê

44

2.4.

Ánh xạ các chữ cái nhóm 2 và nhóm 3 vào Unicode

45

2.5.

Qui Ďịnh cách gõ chữ cái nhóm 2 và nhóm 3

46

2.6.

Cấu trúc tệp HTF

46

2.7.

So sánh Ďánh giá các yếu tố hiển thị chữ viết tiếng Ê Đê

47


2.8.

Tệp lƣu giá trị hexa và tập kí tự Ďƣợc gõ theo bộ phông chữ
TayNguyenKey với kiểu gõ VNI

51

3.1.

Kết quả thực nghiệm chuyển Ďổi văn bản phông chữ riêng sang Unicode

52

3.2.

Bảng lƣu mục từ Ê Đê

60

3.3.

Bảng lƣu mục từ tiếng Việt

61

3.4.

Bảng lƣu KNV song ngữ Việt-Ê Đê

61


3.5.

Thống kê số mục từ Ďƣợc nhập vào trong các kho ngữ vựng qua MEDAS

62

3.6.

Thống kê số lƣợng mục từ theo số âm tiết trong mục từ của KNV Ê Đê

64

3.7.

Thời gian tách từ giữa so khớp vào KNV và từng vùng trong KNV

65

3.8.

Thống kê số từ chƣa có trong KNV tiếng Ê Đê

65

3.9.

Độ bao phủ KNV Ê Đê trên các văn bản tiếng Ê Đê

66


3.10.

Thống kê số từ tiếng Việt chƣa có trong KNV tiếng Việt

66

3.11.

Độ bao phủ KNV tiếng Việt trên các văn bản tiếng Việt

66


Số hiệu
bảng

Tên bảng

Trang

3.12.

Mô hình âm tiết tiếng Ê Đê

70

3.13.

Ví dụ chuyển âm tiết Ê Đê sang mô hình âm tiết


72

3.14.

Thống kê số âm tiết Ê Đê sai Ďƣợc phát hiện

74

3.15.

Đánh giá KNV sau khi kiểm tra lỗi chính tả âm tiết qua Ďộ bao phủ trên
văn bản tiếng Ê Đê

75

4.1.

Minh họa sự cần thiết việc bổ sung từ mới vào KNV mở rộng của
vnTokenizer

85

4.2.

Ví dụ tách từ tiếng Việt ứng với từ tiếng Ê Đê

88

4.3.


Kết quả kiểm chứng việc xử lý trật từ của các từ Ďể hỏi

90

4.4.

Kết quả thử nghiệm với số lỗi chính tả ngẫu nhiên Ďã Ďƣợc xác Ďịnh

94

4.5.

Bảng kết quả thử nghiệm trên tập văn bản

94


DANH MỤC HÌNH VẼ
Số hiệu
hình

Tên hình

Trang

2.1.

Hệ thống phân cấp chức năng trong môi trƣờng xử lý tiếng Ê Đê


39

2.2.

Minh họa bất cập vấn Ďề hiển thị chữ viết khi dùng phông chữ riêng

41

2.3.

Mô hình hiển thị chữ viết tiếng DTTS trên văn bản Unicode

43

2.4.

Minh họa dạng mã tổ hợp của chữ cái tiếng Ê Đê thuộc nhóm 3

45

2.5.

Mô hình chuyển Ďổi văn bản tiếng DTTS dùng phông chữ riêng sang
Unicode

49

3.1.

Mô hình hợp nhất nguồn dữ liệu song ngữ


55

3.2.

Cấu tạo âm tiết tiếng Ê Đê

68

3.3.

Mô hình kiểm tra chính tả âm tiết tiếng Ê Đê

71

3.4.

Mô hình hoạt Ďộng của bộ CESILD

74

4.1.

Sơ Ďồ hoạt Ďộng tra cứu từ vựng Việt-Ê Đê

81

4.2.

Sơ Ďồ hoạt Ďộng tra cứu từ vựng Ê Đê-Việt


82

4.3.

Hoạt Ďộng của bộ ứng dụng trợ giúp dịch máy Việt-Ê Đê

87

4.4.

Mô hình kiểm tra lỗi chính tả văn bản tiếng Ê Đê

92


1

MỞ ĐẦU
Trong Công nghệ Thông tin (CNTT), lĩnh vực liên quan Ďến sự tƣơng tác giữa
máy và ngôn ngữ tự nhiên không thể không nói Ďến lĩnh vực xử lý ngôn ngữ
tự nhiên (XLNNTN). Mục tiêu của lĩnh vực này là giúp máy tính hiểu và thực hiện
hiệu quả những ứng dụng liên quan Ďến ngôn ngữ tự nhiên.
Các công trình nghiên cứu về XLNNTN trên thế giới ra Ďời từ những năm 1940,
theo hai hƣớng cơ bản: hƣớng nghiên cứu Ďầu tiên vào những năm 1940-1950 là mô
hình các máy tự Ďộng và các mô hình xác suất, hƣớng tiếp theo với các giai Ďoạn:
Từ những năm 1957 cho Ďến 1970, XLNNTN Ďƣợc tập trung nghiên cứu theo
lý thuyết ngôn ngữ hình thức của Chomsky và trí tuệ nhân tạo cho tiếng nói nhƣ các
phƣơng pháp Bayes [54].
Giai Ďoạn 1970-1983 phát triển các mô hình nghiên cứu về XLNNTN.

Giai Ďoạn 1983-1993, tập trung nghiên cứu trở lại mô hình trạng thái hữu hạn,
các phƣơng pháp xác suất và hƣớng tiếp cận dựa trên các dữ liệu lời nói trong
phân tích cú pháp, gán nhãn từ loại và xử lý nhập nhằng nghĩa [54].
Giai Ďoạn từ năm 1994 Ďến nay, XLNNTN Ďã có những thay Ďổi và phát triển.
Một số thuật toán phân tích cú pháp, gán nhãn từ loại, truy xuất thông tin cũng Ďã
Ďƣợc nghiên cứu và áp dụng cho xây dựng các ứng dụng trong XLNNTN nhƣ:
nhận dạng tiếng nói, kiểm tra chính tả, kiểm tra ngữ pháp, công cụ truy xuất và
trích chọn thông tin trên Web [54], [62]. Trong giai Ďoạn này phát triển các
nghiên cứu phƣơng pháp dịch máy thống kê. Vào năm 2007, Google cũng Ďã
chuyển sang phƣơng pháp dịch máy thống kê trong hệ dịch tự Ďộng [82].
Ở Việt Nam, có trên 20 ngôn ngữ có chữ viết trên tổng số 55 dân tộc. Vấn Ďề
xử lý tiếng Việt (xử lý tiếng dân tộc Kinh ở Việt Nam) Ďã Ďƣợc nghiên cứu từ năm
1990, Ďã có nhiều kết quả và vẫn Ďang Ďƣợc tiếp tục duy trì [7], [15], [70], [71].


2

Tuy nhiên, các kết quả nghiên cứu Ďạt Ďƣợc vẫn còn những mặt hạn chế nhƣ:
chƣa Ďƣợc liên kết, thiếu chia sẻ và không có tính kế thừa, chỉ tập trung vào các
sản phẩm cho ngƣời dùng, ít nghiên cứu phát triển hạ tầng cơ sở nhƣ từ Ďiển máy
tính, kho ngữ liệu, Ďây là những thứ không thể thiếu trong XLNNTN.
Những hạn chế nêu trên là do không có sự Ďồng thuận giữa các Ďơn vị
nghiên cứu, giữa các nhà khoa học về XLNNTN [7].
Bên cạnh các kết quả nghiên cứu xử lý tiếng Việt, các vấn Ďề xử lý tiếng dân tộc
thiểu số (DTTS) ở Việt Nam cho Ďến nay vẫn có rất ít các nhà khoa học quan tâm.
Trong bối cảnh bùng nổ sử dụng internet, cùng với nhu cầu phát triển văn hoá và
hội nhập của cộng Ďồng các DTTS ở Việt Nam, thì lúc này nhu cầu xử lý tiếng các
DTTS Ďặt ra càng bức thiết hơn bao giờ hết.
Tiếng nói và chữ viết của mỗi DTTS ở Việt Nam vừa là vốn quý của các
dân tộc, vừa là tài sản văn hóa chung của cả nƣớc, luôn Ďƣợc tôn trọng, có quyền

bình Ďẳng và tự do phát triển ngôn ngữ của mỗi dân tộc. Các trƣờng phổ thông,
trƣờng phổ thông Dân tộc nội trú, trung tâm giáo dục thƣờng xuyên, trung tâm
học tập cộng Ďồng, Ďã có những chƣơng trình dạy và học tiếng các DTTS.
Hiện nay, một số chữ viết của các DTTS ở Việt Nam Ďã Ďƣợc sử dụng trên các
phƣơng tiện thông tin Ďại chúng từ trung ƣơng tới Ďịa phƣơng nhƣ: Tày, Thái, Dao,
Mông, Gia Rai, Ê Đê, Ba Na, Chăm, Khơ Me... [2]. Nhiều Ďịa phƣơng Ďã triển khai
thực hiện dạy tiếng dân tộc cho học sinh dân tộc trong các trƣờng phổ thông. Từ Ďó,
những vấn Ďề xử lý tin học tiếng các DTTS tƣơng tự nhƣ tiếng Việt là nhu cầu
cấp thiết Ďƣợc Ďặt ra hiện nay.
Những công trình nghiên cứu xử lý tiếng các DTTS ở Việt Nam Ďã có từ năm
2002, có thể kế Ďến nhƣ: bộ phông chữ Ê Đê [8], bộ gõ tiếng Chăm [37], bộ gõ cho
bốn ngôn ngữ DTTS Ê Đê, Gia Rai, Ba Na, M’Nông và tiếng Việt [36].
Cho Ďến nay, vấn Ďề xử lý tiếng các DTTS ở Việt Nam vẫn còn Ďang tiếp tục
triển khai nghiên cứu.
Từ tình hình thực tiễn xử lý tiếng các DTTS ở Việt Nam nói chung và tiếng
Ê Đê nói riêng, dựa trên sự gần gũi ngôn ngữ giữa tiếng Việt và tiếng Ê Đê, luận án


3

chọn Ďề tài “Xây dựng môi trƣờng xử lý tiếng Ê Đê ứng dụng trong dạy và học
tiếng Ê Đê”, nhằm Ďịnh hƣớng qui trình nghiên cứu trong xử lý tiếng Ê Đê.
Từ những Ďịnh hƣớng nghiên cứu Ďƣợc Ďặt ra trong môi trƣờng này, tiếng Ê Đê
soạn thảo Ďƣợc trong môi trƣờng Ďa ngữ. Kho ngữ vựng Việt-Ê Đê Ďƣợc xây dựng
dựa trên mô hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt.
Văn bản tiếng Ê Đê dùng phông chữ riêng chuyển Ďổi Ďƣợc sang Unicode và Ďƣợc
kiểm tra lỗi chính tả ở mức âm tiết. Các ứng dụng xử lý tiếng Ê Đê trong dạy và học
tiếng Ê Đê Ďƣợc xây dựng dựa trên kho ngữ vựng Việt-Ê Đê có Ďƣợc từ mô hình
hợp nhất. Định hƣớng phát triển kho ngữ vựng thông qua trang web quản lý kho
ngữ vựng, Ďể từ Ďó các chuyên gia ngôn ngữ Ê Đê cùng tham gia Ďóng góp,

cập nhật dữ liệu vào kho ngữ vựng, góp phần nâng cao chất lƣợng kho ngữ vựng.
Bên cạnh việc phát triển kho ngữ vựng, trang web này còn có chức năng chia sẻ kho
ngữ vựng Việt-Ê Đê, các công cụ kỹ thuật, các kết quả nghiên cứu xử lý tiếng Ê Đê
cho các hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê Đê.

1. Mục tiêu nghiên cứu
Để Ďạt Ďƣợc mục tiêu xây dựng môi trƣờng xử lý tiếng Ê Đê ứng dụng trong
dạy và học tiếng Ê Đê, luận án hƣớng Ďến nghiên cứu hai mục tiêu chính:
Mục tiêu thứ nhất là xây dựng môi trƣờng xử lý tiếng Ê Đê Ďịnh hƣớng qui trình
nghiên cứu cho xử lý tiếng Ê Đê thể hiện ở ba vấn Ďề:
1. Soạn thảo văn bản (STVB) tiếng Ê Đê trong môi trƣờng Ďa ngữ, thực hiện
cập nhật, chuyển Ďổi, xử lý các nguồn dữ liệu tiếng Ê Đê Ďã có.
2. Hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt trong
xây dựng kho ngữ vựng (KNV) song ngữ Việt-Ê Đê. Các tiêu chí KNV
Ďƣợc Ďề xuất góp phần khắc phục những hạn chế của KNV tiếng DTTS
hiện nay nói chung và tiếng Ê Đê nói riêng.
3. Nâng cao chất lƣợng KNV song ngữ Việt-Ê Đê với sự tham gia, hỗ trợ của
các chuyên gia ngôn ngữ tiếng Ê Đê. Chia sẻ các nguồn tài nguyên, các
công cụ kỹ thuật, các kết quả nghiên cứu cho các hoạt Ďộng nghiên cứu
xử lý tiếng Ê Đê.


4

Mục tiêu thứ hai là triển khai xây dựng các ứng dụng xử lý tiếng Ê Đê trong dạy
và học tiếng Ê Đê dựa vào KNV Việt-Ê Đê, gồm các ứng dụng sau:
1. Tra cứu trực tuyến và ngoại tuyến từ vựng song ngữ Việt-Ê Đê
2. Kiểm tra lỗi chính tả văn bản tiếng Ê Đê,
3. Trợ giúp dịch máy từ tiếng Việt sang tiếng Ê Đê trong soạn thảo các
bài giảng, giáo án của giáo viên.


2. Đối tƣợng và phạm vi nghiên cứu
2.1. Đối tượng nghiên cứu
Đối tƣợng nghiên cứu của luận án:
-

Ngôn ngữ Ê Đê và ngôn ngữ DTTS

-

Unicode, các công cụ kỹ thuật XLNNTN và xử lý tiếng Ê Đê

-

Từ Ďiển và các kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê

2.2. Phạm vi nghiên cứu
Để Ďạt Ďƣợc mục tiêu nghiên cứu của luận án, phạm vi nghiên cứu:
-

Xử lý chữ viết theo quan Ďiểm XLNNTN và xử lý tiếng Việt

-

Soạn thảo văn bản tiếng Ê Đê sử dụng Unicode,

-

Kiểm tra lỗi chính tả âm tiết văn bản tiếng Ê Đê,


-

Hạ tầng cơ sở cho xử lý tiếng Ê Đê,

-

Ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê.

3. Phƣơng pháp nghiên cứu
Các phƣơng pháp nghiên cứu cơ bản Ďƣợc sử dụng trong luận án gồm
hai phƣơng pháp: nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Nghiên cứu lý thuyết, nghiên cứu các tài liệu liên quan Ďến XLNNTN, vấn Ďề về
mã hóa, thuật toán kiểm tra chính tả, phƣơng pháp tách từ, phƣơng pháp dịch
tự Ďộng, xây dựng từ Ďiển tra cứu từ vựng, giải pháp xây dựng KNV song ngữ.
Nghiên cứu thực nghiệm, xây dựng các bộ công cụ dựa trên giải pháp Ďã Ďƣợc
Ďề xuất. Dữ liệu Ďầu vào của bộ công cụ là dữ liệu Ďƣợc dùng trong thực tiễn.
4. Cấu trúc của luận án
Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận và các


Luận án đủ ở file: Luận án full












×