Tải bản đầy đủ (.pdf) (14 trang)

ĐỀ CƯƠNG LUẬN VĂN MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (460.57 KB, 14 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

ĐỀ CƯƠNG
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ : 60.48.01

TÊN ĐỀ TÀI

MỞ RỘNG CÁC KHO NGỮ LIỆU ĐA NGỮ
DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG
VÀ MÔI TRƢỜNG HỢP TÁC

Tên HV
CBHD
Lớp Cao học

: Nguyễn Thị Hoa
: PGS.TS. Võ Trung Hùng
: Khoá 22 (2010-2012)

ĐÀ NẴNG, 03/2012


MỤC LỤC
1. Lý do chọn đề tài ......................................................................................... 1
2. Mục tiêu và nhiệm vụ đề tài ....................................................................... 2
2.1 Mục tiêu .................................................................................................. 2
2.2 Nhiệm vụ ................................................................................................. 2
3. Đối tƣợng và phạm vi nghiên cứu ............................................................. 3


3.1. Đối tƣợng nghiên cứu ............................................................................ 3
3.2. Phạm vi nghiên cứu ............................................................................... 3
4. Phƣơng pháp nghiên cứu ........................................................................... 4
4.1 Phƣơng pháp nghiên cứu tài liệu ............................................................ 4
4.2 Phƣơng pháp thực nghiệm ...................................................................... 4
5. Giải pháp đề xuất ........................................................................................ 5
6. Mục đích và ý nghĩa của đề tài .................................................................. 5
6.1 Mục đích ................................................................................................. 5
6.2 Ý nghĩa khoa học và thực tiễn đề tài ...................................................... 5
7. Kết quả dự kiến ........................................................................................... 6
7.1. Lý thuyết ................................................................................................ 6
7.2. Thực tiễn ................................................................................................ 6
8. Bố cục của luận văn .................................................................................... 6
9. Kế hoạch dự kiến triển khai đề tài ............................................................ 9
TÀI LIỆU THAM KHẢO ............................................................................ 10


1

1. Lý do chọn đề tài
Thế giới bƣớc vào thế kỷ 21 với sự phát triển nhanh và đạt đƣợc nhiều
thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hoá, xã hội, …
Cùng với sự phát triển này, nhân loại đã tạo ra lƣợng thông tin khổng lồ và
phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống
mạng Internet. Tuy nhiên, lƣợng thông tin này vẫn chƣa đƣợc khai thác hết
bởi rất nhiều lý do, một trong những lý do quan trọng nhất dẫn đến việc hạn
chế khai thác thông tin trên, đó là rào cản về ngôn ngữ. Giải pháp nhằm phá
bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động.
Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch
hiệu quả và có thể sử dụng nhƣ Google, AltaVisa,… Nhiều hệ thống đã đƣợc

đƣa vào thƣơng mại hoá nhƣ Systran, Reverso, Babylon, … Những hệ thống
này cho phép tạo ra “bản dịch nghĩa” – một bản dịch chƣa đƣợc hoàn chỉnh
nhƣng giúp chúng ta có thể hiểu đƣợc ý nghĩa của văn bản gốc và cần phải
chỉnh sửa nhiều để đạt đến một văn bản hoàn chỉnh. Các hệ thống dịch tự
động cho phép dịch rất nhanh và chi phí thấp hơn nhiều so với dịch bằng con
ngƣời. Tuy nhiên, những hệ thống này đang phải đối mặt với rất nhiều vấn đề
nhƣ sự đa nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc về ngữ
cảnh và rất nhiều khó khăn trong sự khác biệt về giải thích các khái niệm.
Cùng với đó nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng
tăng và đƣợc ứng dụng trong nhiều lĩnh vực. Do đó vấn đề xử lý ngôn ngữ tự
nhiên hiện nay rất cần các tài liệu song ngữ hoặc đa ngữ. Vì vậy các kho ngữ
liệu là cơ sở để phát triển các hệ thống xử lý ngôn ngữ tự nhiên.
Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ nhƣ Anh – Pháp,
Anh – Hoa,… nhƣng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý
ngôn ngữ tự nhiên vẫn còn thiếu. Ví dụ nhƣ đối với tiếng Việt, hiện nay chƣa
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


2

có nhiều kho ngữ liệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát
triển các hệ thống xử lý ngôn ngữ tự nhiên. Bên cạnh đó, một số kho ngữ liệu
để phục vụ xử lý tiếng Việt còn chƣa đƣợc chia sẽ rộng rãi. Chi phí để phát
triển một kho ngữ liệu lại rất tốn kém. Vì vậy tôi quyết định chọn đề tài “Mở
rộng các kho ngữ liệu đa ngữ dựa vào các phần mềm dịch tự động và môi
trường hợp tác” làm đề tài tốt nghiệp luận văn cao học. Trong đề tài này,
chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tự động và môi
trƣờng hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu. Xây
dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động
một số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song

ngữ hoặc đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có. Ngoài ra, sau
khi dịch tự động sẽ đƣa kết quả nhận đƣợc cho mọi ngƣời góp ý, hiệu chỉnh
nhằm tăng độ tin cậy và tính kiểm chứng của kết quả. Giải pháp sử dụng lại
các hệ thống dịch tự động và môi trƣờng hợp tác để mở rộng kho ngữ liệu sẵn
có sang các ngôn ngữ khác là một trong những giáp pháp khả thi và hiệu quả.
2. Mục tiêu và nhiệm vụ đề tài
2.1 Mục tiêu
Mục tiêu của đề tài là xây dựng các kho ngữ liệu đa ngữ và có nội dung
bằng tiếng Việt nhằm phục vụ việc xử lý ngôn ngữ tự nhiên liên quan đến
tiếng Việt.
2.2 Nhiệm vụ
Để đạt đƣợc mục tiêu trên, nhiệm vụ của chúng tôi là nghiên cứu đề xuất
giải pháp và xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn
có Google để dịch tự động một số các kho ngữ liệu sẵn có sang tiếng Việt và
đƣa vào môi trƣờng hợp tác để hiệu chỉnh nhằm tạo ra kho ngữ liệu đa ngữ có
chứa tiếng Việt từ các kho ngữ liệu sẵn có.
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


3

 Về lý thuyết:
- Tìm hiểu về dịch tự động và các phƣơng pháp dịch tự động.
- Nghiên cứu các phần mềm dịch tự động miễn phí trên mạng.
- Nghiên cứu về môi trƣờng hợp tác (collaboration environment).
- Nghiên cứu về kho ngữ liệu (linguistics corpus) và kho ngữ liệu đa ngữ
(multilingual linguistics corpus).
 Về thực tiễn:
Đề tài đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ
thống dịch tự động sẵn có để dịch tự động một số các kho ngữ liệu sẵn có

sang tiếng Việt nhằm tạo ra kho ngữ liệu tiếng Việt từ các kho ngữ liệu sẵn
có.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Kho ngữ liệu (Linguistics Corpus).
- Ngôn ngữ lập trình PERL (Practical Extraction and Report Language).
- Các hệ thống dịch hiện nay trên Internet nhƣ Systran, Google,
Reverso,…
- Các công cụ phát triển nhƣ Tradoh, Traweb, Sandoh,…
- Các mô hình triển khai hệ thống.
- Một số bài báo và luận văn tốt nghiệp khóa trƣớc.
3.2. Phạm vi nghiên cứu
Trong khuôn khổ của một luận văn thực nghiệm, tôi chỉ giới hạn thực
nghiệm tạo một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu
cho mỗi ngôn ngữ.

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


4

4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu, chúng tôi đã sử dụng hai phƣơng pháp chính
là nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
4.1 Phương pháp nghiên cứu tài liệu
- Các tài liệu về cơ sở lý thuyết: dịch tự động, môi trƣờng cộng tác, kho
dữ liệu, kho ngữ liệu
- Các tài liệu mô tả một số công cụ dịch tự động
- Các tài liệu liên quan đến một số nghiên cứu
4.2 Phương pháp thực nghiệm

- Sử dụng các hệ thống dịch tự động để dịch các kho ngữ liệu sẵn có
sang 1 ngôn ngữ khác (Ví dụ: kho ngữ liệu tiếng Anh BTEC sang tiếng Việt).
- Thực nghiệm dịch và kiểm tra một số kho ngữ liệu sẵn có sang tiếng
Việt.
- Xây dựng một môi trƣờng hợp tác để kiểm tra tính đúng đắn của kho
ngữ liệu

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


5

5. Giải pháp đề xuất
Internet

Tập
HỆ THỐNG DỊCH

Corpus đơn ngữ
user

CORPUS

(Các hệ thống
dịch có sẵn trên
Internet (google))

Tập
Corpus đa ngữ


MÔI TRƢỜNG
HỢP TÁC

6. Mục đích và ý nghĩa của đề tài
6.1. Mục đích
Nghiên cứu xây dựng môi trƣờng sử dụng lại các hệ thống dịch tự động
sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữ mới, đặc biệt là cho
tiếng Việt.
6.2. Ý nghĩa khoa học và thực tiễn đề tài
Về khoa học: Nghiên cứu ứng dụng các phần mềm dịch tự động trực
tuyến để phục vụ việc phát triển các kho ngữ liệu đa ngữ phục vụ xử lý ngôn
ngữ tự nhiên.
Về thực tiễn: Đề tài sẽ góp phần xây dựng một môi trƣờng dịch đa ngữ
hỗ trợ dịch tự động trực tuyến và tập trung trƣớc hết vào việc phát triển các
kho ngữ liệu sẵn có.

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


6

7. Kết quả dự kiến
7.1. Lý thuyết
- Nắm đƣợc quy trình làm việc của các hệ thống dịch tự động trực tuyến
và môi trƣờng cộng tác
- Hiểu đƣợc cách xây dựng một kho ngữ liệu song ngữ/đa ngữ
7.2. Thực tiễn
- Một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu 20.000 câu mỗi
ngôn ngữ.
- Các công cụ hỗ trợ dịch tự động kho ngữ liệu.

- Phần mềm hợp tác để hiệu chỉnh kho ngữ liệu.
8. Bố cục của luận văn
Báo cáo của luận văn dự kiến tổ chức thành 3 chƣơng chính nhƣ sau:

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


7

MỞ ĐẦU
CHƢƠNG 1: NGHIÊN CỨU TỔNG QUAN
1.1. DỊCH TỰ ĐỘNG
1.1.1. Khái niệm
1.1.2. Cấu trúc của một chƣơng trình dịch tự động
1.1.3. Một số hệ thống dịch tự động
1.2. MÔI TRƢỜNG HỢP TÁC
1.2.1. Khái niệm
1.2.2. Các công cụ dùng để giao tiếp và hợp tác
1.2.3. Các tính năng cơ bản của môi trƣờng hợp tác
1.2.4. Các công nghệ hỗ trợ môi trƣờng hợp tác
1.2.5. Một số môi trƣờng hợp tác trên mạng
1.3. KHO NGỮ LIỆU SONG NGỮ
1.3.1. Một số khái niệm
1.3.2. Ứng dụng của kho ngữ liệu song ngữ
1.3.3. Nghiên cứu một số kho dữ liệu song ngữ trên thế giới
1.4. CÁC ĐỊNH DẠNG LƢU TRỮ KHO NGỮ LIỆU
1.4.1. Tổng quan về XML
1.4.2. Thuật ngữ
1.4.3. Cấu trúc của một tập tin XML
1.4.4. Những thành phần của một tài liệu XML

1.5. TỔNG KẾT CHƢƠNG
CHƢƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU
2.1. GIỚI THIỆU
2.2. MÔ HÌNH HỆ THỐNG
2.3. XÂY DỰNG KHO NGỮ LIỆU
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


8

2.3.1. Các tiêu chí chọn mẫu ngữ liệu
2.3.2. Chọn nguồn ngữ liệu và chuẩn hóa
2.3.3. Ứng dụng xử lý ngôn ngữ tự nhiên
2.3.4. Các nguồn dữ liệu thu thập
2.3.5. Các kỹ thuật xử lý ngữ liệu
2.3.6. Tích hợp các nguồn ngữ liệu
2.3.7. Đa ngữ hoá kho ngữ liệu
2.4. HIỆU CHỈNH KHO NGỮ LIỆU
2.4.1. Các phƣơng pháp hiệu chỉnh dữ liệu
2.4.2. Hiệu chỉnh bằng môi trƣờng hợp tác
2.5. TỔNG KẾT CHƢƠNG
CHƢƠNG 3: PHÁT TRIỂN ỨNG DỤNG
3.1. LỰA CHỌN CÔNG CỤ PHÁT TRIỂN
3.1.1. Ngôn ngữ lập trình
3.1.2. Cơ sở dữ liệu
3.2. XÂY DỰNG KHO NGỮ LIỆU
3.2.1. Thu thập và xử lý các nguồn dữ liệu
3.2.2. Xử lý trùng lặp các câu trong kho ngữ liệu
3.2.3. Nội dung chƣơng trình hỗ trợ dịch
3.2.4. Giao diện chƣơng trình hỗ trợ dịch

3.2.5. Thử nghiệm và đánh giá kết quả của hệ thống dịch
3.3. HIỆU CHỈNH KHO NGỮ LIỆU
3.3.1. Xây dựng hệ thống
3.3.2. Xây dựng giao diện hệ thống
3.3.3. Thử nghiệm và đánh giá chƣơng trình
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


9

9. Kế hoạch dự kiến triển khai đề tài
STT
1

2

3

4

5

6

7

Thời gian
Từ 01/2012 đến
03/2012

Từ 03/2012 đến
04/2012
Từ 04/2012 đến
05/2012
Từ 05/2012 đến
07/2012
Từ 07/2012 đến
09/2012

Nội dung thực hiện
Chọn đề tài và viết đề
cƣơng chi tiết
Nghiên cứu lý thuyết
Viết lý thuyết chƣơng 1

Kết quả dự kiến
Đề cƣơng chi tiết
Hoàn thành lý
thuyết
Hoàn thành phần
viết lý thuyết

Viết chƣơng 2: Đề xuất

Hoàn thành chƣơng

giải pháp

2


Viết chƣơng 3: Triển

Hoàn thành chƣơng

khai

3

Hoàn thành báo cáo

Hoàn thành luận

Slide báo cáo

văn

Từ 09/2012 đến
10/2012
Từ 10/2012 đến
11/2012

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


10

TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Đinh Điền (2006), Giáo trình xử lý ngôn ngữ tự nhiên, Nhà xuất bản Đại
học quốc gia TP.HCM.

[2] Phan Huy Khánh, Võ Trung Hùng (2004), “Nhận biết ngôn ngữ và bộ
mã hóa sử dụng trong các văn bản đa ngữ”, Tạp chí Tin học và Điều
khiển tập, 20(4).
[3] Võ Trung Hùng (2007), “Phƣơng pháp và công cụ đánh giá tự động các
hệ thống dịch tự động trên mạng”, Tạp chí Khoa học và Công Nghệ, Đại
học Đà Nẵng, 1(18), tr. 37-42.
[4] Võ Trung Hùng (2008), “TRAWEB-Công cụ để đa ngữ hoá các trang
Web”, Tạp chí Khoa học và Công Nghệ các trường đại học kỷ thuật, 63,
tr. 16-20.
Tiếng nƣớc ngoài:
[5]

Chen J., and Nie J. Y. (2000), “Automatic construction of parallel
English-Chinese corpus for cross-language information retrieval”, 6th
Applied Natural Language Processing Conference, pp. 21-28.

[6] Hung Vo-Trung (2004), “Méthodes et outils pour utilisateurs,
développeurs et traducteurs de logiciels en contexte multilingue”, Thèse
en informatique, Institut national polytechnique de Grenoble, pp. 69-86.
[7] Hung Vo-Trung (2004), “SANDOH - un système d'analyse de
documents hétérogènes”, Actes de JADT, 2, pp. 1177-1184.
[8]

Hung Vo-Trung (2004), “TRADOH, a meta-system of multilingual
machine translation”, 4th International Conference EsTAL, Alicante,
Spain, pp. 303 – 313.

[9] Tomaùs J., Saùnchez-Villamil E., Lloret L., and Casacuberta F. (2005),
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)



11

“Webmining: An unsupervised parallel corpora web retrieval system”,
In
Proceedings from the Corpus Linguistics Conference, 1, pp. 1-11.
Internet:
[10] />[11] />[12] />
Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)


12

Ý KIẾN CỦA CÁN BỘ HƢỚNG DẪN
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
Đà Nẵng, ngày tháng năm 2012
Cán bộ hƣớng dẫn

Ý KIẾN CỦA HỘI ĐỒNG CHẤM ĐỀ CƢƠNG

................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................
................................................................................................................................

................................................................................................................................
................................................................................................................................
Đà Nẵng, ngày tháng năm 2012
Cán bộ duyệt đề cƣơng

Nguyễn Thị Hoa – Lớp Cao học KHMT – Khóa 22 (2010-2012)



×