HƯỚNG SỬ DỤNG
KHỐI LIỆU TIẾNG VIỆT
TS. Đào Hồng Thu
(CTV Viện CNTT – ĐHQG Hà Nội)
Hà Nội, 08/2010
Corpus Linguistics
1
XUẤT PHÁT ĐIỂM NGHIÊN CỨU
Xử lý dữ liệu
Xử lý ngôn ngữ
Corpus Linguistics
2
NỘI DUNG
I.
Sử dụng khối liệu tiếng Việt
II. Các đề nghị
Corpus Linguistics
3
I. KHỐI LIỆU TIẾNG VIỆT
•Trong giáo dục
•Trong dạy và học ngôn ngữ (ngoại ngữ và
bản ngữ)
• Mục tiêu: xây dựng hệ thống các thể loại
từ điển và từ điển tự động hóa trong hệ thống
dịch máy
•Mục tiêu: xây dựng Khối liệu tiếng Việt
(ngôn ngữ quốc gia) và các khối liệu ngôn ngữ
dân tộc
Corpus Linguistics
4
1. TRONG GIÁO DỤC
• Chương trình dạy và học trên Internet
• Mạng thông tin thống nhất của công nghiệp
giáo dục với các thành viên tham gia
Corpus Linguistics
5
Sử dụng khối liệu ngôn ngữ trong
giáo dục cho phép:
• Nâng cao chất lượng dạy và học;
• Thúc đẩy quá trình NCKH;
• Tiết kiệm thời gian;
• Nâng cao tính năng động và hiệu quả quản
lý giáo dục;
• Liên kết các hệ thống đào tạo, tiếp cận dễ
dàng các thông tin trong các lĩnh vực giáo dục,
khoa học, văn hóa v.v.
Corpus Linguistics
6
2. TRONG GiẢNG DẠY NGÔN
NGỮ (NGOẠI NGỮ VÀ BẢN NGỮ)
• Ứng dụng trực tiếp trong quá trình giảng
dạy và nghiên cứu ngôn ngữ
• Đánh giá các tài liệu giảng dạy hiện hành
Corpus Linguistics
7
Kết quả khảo sát
• Khả năng sử dụng khối liệu để tham khảo,
phân tích dữ liệu thực và sử dụng các ngữ
liệu, giảm tối đa giao thoa ngôn ngữ văn bản
• Mở rộng kiến thức về đối chiếu ngôn ngữ
và dịch thuật
• Khả năng tham gia vào quá trình hiệu đính
• Tốc độ mở rộng lượng từ trong lĩnh vực
chuyên ngành
Corpus Linguistics
8
3. XÂY DỰNG HỆ THỐNG CÁC
THỂ LOẠI TỪ ĐiỂN
• Từ điển đơn ngữ
• Từ điển song ngữ
• Từ điển đa ngữ
• Từ điển chính tả
• Từ điển khoa học chuyên ngành
• Dictionary of Usage
• Thesaurus (Từ điển chuyên khảo)
• Từ điển tự động hóa trong hệ thống dịch
máy
Corpus Linguistics
9
4. XÂY DỰNG KHỐI LIỆU TIẾNG
VIỆT (ngôn ngữ quốc gia) và CÁC
KHỐI LIỆU NGÔN NGỮ DÂN TỘC
Corpus Linguistics
10
II. CÁC ĐỀ NGHỊ
Corpus Linguistics
11
1. Giới thiệu với NCS ngôn ngữ và
giáo viên tiếng Anh
• Phương pháp sử dụng khối liệu ngôn ngữ,
bao gồm cả concordance
• Phương pháp xây dựng concordance có sự
tham gia của tiếng Việt
• Phương pháp xây dựng bài giảng trên cơ
sở Hot Potatoes 6
Corpus Linguistics
12
Khối liệu Anh Quốc
Corpus Linguistics
13
Concordance khối liệu tiếng Anh
Corpus Linguistics
14
Ví dụ concordance
Corpus Linguistics
15
Hot Potatoes 6
Corpus Linguistics
16
2. Giới thiệu và cộng tác
•Nghiên cứu và xây dựng Khối liệu tiếng
Việt (ngôn ngữ quốc gia) và các khối liệu
ngôn ngữ dân tộc
•Nghiên cứu và xây dựng Viet TreeBank
•Nghiên cứu và xây dựng từ điển tự động
hóa dành cho hệ thống dịch máy (dịch tự
động)
•
Corpus Linguistics
17
3. Xây dựng bộ môn và nghiên
cứu, đào tạo khoa học liên ngành
là NGÔN NGỮ HỌC KHỐI LiỆU
Corpus Linguistics
18
School of Computing
Corpus Linguistics
19
XIN CẢM ƠN!
Corpus Linguistics
20