Tải bản đầy đủ (.doc) (56 trang)

Thiết kế giao diện khai thác từ điển tra nghĩa pháp - anh - việt (fev dictionary)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 56 trang )


Đại học Đà Nẵng
Trờng đại học kỹ thuật
Khoa công nghệ thông tin
(0 511) 841 278 - 892 992
E-mail :

Đồ án tốt nghiệp
Đồ án tốt nghiệp
Đề tài :
thiết kế giao diện khai thác từ điển
tra nghĩa Pháp - Anh - Việt
(FEV dictionary)
Sinh viên thực hiện : Hoàng Xuân ĐĂng Cờng
Lớp : 95T
Cán bộ hớng dẫn : TS. Phan Huy Khánh
Đà Nẵng, 2000
Lời cảm ơn
Lời cảm ơn
Trớc tiên, tôi xin chân thành cảm ơn TS. Phan Huy Khánh đã
gợi ý đề tài, nhiệt tình hớng dẫn, cung cấp tài liệu và đóng góp nhiều
ý kiến quý báu cho đồ án tốt nghiệp này.
Tôi xin chân thành cảm ơn các cán bộ giảng viên trờng Đại học
Kỹ thuật, Đại Học Đà Nẵng đã nhiệt tình dạy bảo và giúp đỡ trong
suốt thời gian học tập tại trờng.
Tôi xin chân thành cảm ơn các cán bộ khoa Công Nghệ Thông đã
cung cấp nhiều thông tin, tài liệu và phơng pháp thực hiện đề tài tốt
nghiệp này.
Tôi xin chân thành cảm ơn các bạn sinh viên của các lớp thuộc
khoa Công Nghệ Thông Tin đã động viên, góp ý và cung cấp nhiều tài
liệu để đồ án đợc hoàn thành đúng thời hạn.


Một lần nữa, xin thành thật cảm ơn các thầy cô, gia đình, bè bạn
gần xa đã động viên, cổ vũ và đóng góp nhiều mặt vật chất lẫn tinh
thần trong quá trình học tập và làm đồ án tốt nghiệp.
Đà Nẵng, tháng 06/2000
SV. Hoàng Xuân Đăng Cờng
Lời cam đoan
Lời cam đoan
Tôi xin cam đoan :
1. Đồ án này là sản phẩm của riêng cá nhân tôi, do tôi trực tiếp thực
hiện với sự hớng dẫn của TS. Phan Huy Khánh.
2. Mọi tham khảo khác đều đợc trích dẫn và ghi ở phần "Tài liệu
tham khảo".
3. Đồ án này dài không quá 40 trang bao gồm cả các bảng, hình ảnh
và công thức (không kể các trang ngoài nội dung đồ án và phần
phụ lục).
4. Chơng trình DEMO cài đặt hoàn toàn tự động trên môi trờng
Microsoft Windows 9x, chạy ổn định và khớp với dữ liệu đầu vào
và đầu ra.
5. Sẵn sàng chứng minh các kết quả của chơng trình DEMO nếu đợc
hội đồng yêu cầu.
6. Tôi xin chịu hoàn toàn trách nhiệm trớc hội đồng bảo vệ về các
vấn đề vi phạm khác do Khoa và Nhà trờng đã phổ biến.
Đà Nẵng, tháng 06/2000
SV. Hoàng Xuân Đăng Cờng
tóm tắt đồ án
tóm tắt đồ án
Đề tài :
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary).
Tóm tắt :
Tin học đợc ứng dụng phổ biến trong nhiều lĩnh vực, về vi mô lẫn vĩ mô. Đối với các

ứng dụng tin học liên quan đến giao tiếp ngời - máy thì vấn đề giao diện luôn đợc đặt lên hàng
đầu, bởi vì con ngời chỉ tiếp nhận đợc thông tin từ máy tính thông qua các kí hiệu, hình ảnh và
âm thanh mà thôi.
Một lĩnh vực mà mọi ngời quan tâm ngày nay là xử lý ngôn ngữ tự nhiên trên máy tính.
Công việc này có thể chia làm nhiều giai đoạn và đợc xử lý riêng lẽ. Một giai đoạn khá quan
trọng là xây dựng cơ sở dữ liệu từ vựng cho các ngôn ngữ khác nhau nhằm tập hợp có hệ
thống "vốn từ" cho máy tính. GETA đã làm việc này bằng cách hình thành một dự án nhằm
xây dựng các chuyển đổi tơng đơng về nghĩa của từ vựng từ tiếng Pháp sang các ngôn ngữ
khác thông qua tiếng Anh. Kết quả của sự chuyển đổi này đợc chứa trong các tập tin dạng
RTF và có thể xem bởi các ứng dụng tơng thích.
Dự án của GETA đa ra đã đợc hiện thực trên một số nớc nh Malai, Thái Lan để tạo nên
các từ điển FEM, FET dới nhiều hình thức và sử dụng trên nhiều môi trờng khác nhau. Đặc
biệt là các loại từ điển chứa trên CD-ROM dới dạng Web. Đối với Việt Nam, dự án này đợc
bắt đầu từ cuối năm 1999 và dự định thực hiện trong 2 năm để thêm phần nghĩa của tiếng Việt
và các phần phiên âm tơng ứng vào cơ sở dữ liệu từ vựng dạng RTF.
Đồ án này thực hiện việc tìm hiểu cách tổ chức thông tin trong tập tin cơ sở dữ liệu từ
vựng RTF nói trên, sau đó tìm hiểu các yêu cầu cụ thể của một giao diện ngời - máy và cuối
cùng là đi thiết kế một giao diện nhằm khai thác các tập tin RTF chứa cơ sở dữ liệu từ vựng.
Cụ thể, tôi đã xây dựng đợc một chơng trình từ điển Pháp - Anh - Việt sử dụng trên môi
trờng Microsoft Windows, nó có thể giúp ngời sử dụng tra nghĩa từ vựng giữa hai ngôn ngữ
bất kỳ trong 3 ngôn ngữ Pháp, Anh và Việt. Ngoài ra, chơng trình này còn cho phép thực hiện
một số thao tác khác giống nh nhiều chơng trình từ điển sử dụng trên máy tính hiện có.
Mục lục
Mục lục
Lời cảm ơn.....................................................................................................3
Lời cam đoan...............................................................................................4
tóm tắt đồ án..............................................................................................5
Mục lục..........................................................................................................6
Lời nói đầu..................................................................................................10
Phần 1...........................................................................................................12

Giới thiệu về Từ điển và các vấn đề liên quan.............................12
I. Các vấn đề về từ điển...........................................................................15
1. Các khái niệm về từ điển..................................................................................15
2. Tình hình phát triển của từ điển hiện nay......................................................15
II. xây dựng từ điển nhờ Tin học..........................................................16
III. Giới thiệu dự án từ điển FEV.............................................................17
3. Nguồn gốc dự án từ điển FEV..........................................................................17
4. Cơ sở dữ liệu từ vựng của từ điển FEV...........................................................18
5. Cấu trúc một "mục từ" của CSDL từ vựng.....................................................20
6. Ưu điểm của từ điển FEV..................................................................................23
Phần 2...........................................................................................................25
Thiết kế giao diện khai thác từ điển tra nghĩa FEV...................25
I. Tổng quan................................................................................................28
II. Tìm hiểu về giao diện ngời - máy......................................................28
1. Một giao diện tốt là gì?.....................................................................................28
2. Thiết kế giao diện nội, ngoại vi (Internal, External Interface Design).........29
3. Một số nguyên tắc khi thiết kế giao diện cho ứng dụng..............................29
a. Lựa chọn các kiểu thiết kế giao diện....................................................................30
b. Hiển thị thông tin.....................................................................................................31
c. Nhập liệu...................................................................................................................31
d. Màu sắc....................................................................................................................32
e. Xử lý lỗi.....................................................................................................................32
f. Công cụ trợ giúp ......................................................................................................32
4. Kết luận..............................................................................................................33
III. Yêu cầu về giao diện của từ điển FEV..........................................33
IV. Tổ chức cơ sở dữ liệu từ vựng của giao diện FEV.................33
1. Lựa chọn kiểu cơ sở dữ liệu.............................................................................33
2. Tổ chức cơ sở dữ liệu.......................................................................................34
V. Các phơng án giao tiếp với ngời sử dụng..................................35
1. Biểu diễn các ngôn ngữ của từ điển trên một giao diện...............................36

2. Phơng án biểu diễn thứ nhất cho từ điển FEV...............................................37
3. Phơng án biểu diễn thứ hai cho từ điển FEV.................................................38
4. Lựa chọn phơng án biểu diễn cho từ điển FEV.............................................38
VI. Mô hình tổng quát và các bớc cụ thể hoá..............................39
1. Mô hình tổng quát của từ điển FEV.................................................................39
2. Sơ đồ khối biểu diễn hoạt động của từ điển FEV..........................................40
3. Lựa chọn công cụ và môi trờng để thiết kế giao diện..................................42
4. Xây dựng thuật toán và tạo m cho chã ơng trình............................................43
a. Đọc tập tin RTF và cập nhật vào tập tin cơ sở dữ liệu MDB...............................43
b. Chuyển mã................................................................................................................44
c. Hiển thị phần giải thích nghĩa................................................................................45
d. Một số yêu cầu khác từ ngời sử dụng..................................................................46
VII. Trình bày giao diện...........................................................................48
Phần 3...........................................................................................................53
Kết luận và Hớng phát triển..............................................................53
I. Kết quả đạt đợc.....................................................................................56
II. Hớng phát triển của ứng dụng trong tơng lai......................57
1. Mở rộng từ điển FEV.........................................................................................57
2. Tăng cờng khả năng tra nghĩa của từ bằng nhiều phơng pháp...................57
3. Thiết kế giao diện với nhiều ngôn ngữ khác nhau........................................58
4. Tăng cờng tính năng động của giao diện......................................................58
5. Tham số hoá chơng trình.................................................................................58
Phụ lục........................................................................................................59
Tài liệu tham khảo..................................................................................67
Mục lục các bảng trong đồ án
Mục lục các bảng trong đồ án
Bảng - Các STYLE làm đầu vào cho giao diện đợc thiết kế....22
Bảng - Các thuộc tính dùng để tách các STYLE khác nhau. .22
Bảng - Ví dụ về biểu diễn mục từ dựa vào các Style .................23
Bảng - Cấu trúc của các trờng thuộc Table "FEVD_equ"

trong tập tin MDB....................................................................................34
Bảng - Các ví dụ về số lợng cách hiển thị của giao diện từ
điển.................................................................................................................36
mục lục các hình ảnh trong đồ án
mục lục các hình ảnh trong đồ án
Hình - Giao diện của từ điển Lạc Việt mtdEVA300.........................16
Hình - Mô hình quá trình chuyển đổi cơ sở dữ liệu từ vựng
thành từ điển.............................................................................................19
Hình - Một mục từ của cơ sở dữ liệu từ vựng RTF.......................21
Hình - Mục từ sau khi đợc chuyển m để có thể xem đã ợc tiếng
Việt.................................................................................................................21
Hình - Các mối quan hệ khi thiết kế giao diện..............................30
Hình - Một phần nội dung của table "FEVD_equ"........................35
Hình - Hình ảnh của giao diện theo phơng án thứ nhất...........37
Hình - Hình ảnh của giao diện theo phơng án thứ hai...............38
Hình - Cây biểu diễn các khả năng chọn lựa một cặp ngôn
ngữ khác nhau..........................................................................................39
Hình - Mô hình tổng quát của từ điển FEV......................................40
Hình - Sơ đồ khối tổng quát của từ điển FEV................................40
Hình - Sơ đồ khối phân r quá trình xử lý CSDLã ...........................41
Hình - Sơ đồ khối qúa trình hiển thị nghĩa của từ......................42
Hình - Bộ m trục TELEX.ã .........................................................................44
Hình - Giao diện chính của từ điển FEV.............................................48
Hình - Danh sách thả xuống liệt kê các cặp ngôn ngữ nguồn
- đích..............................................................................................................49
Hình - Hộp thoại chọn lựa các thao tác đối với cơ sở dữ liệu
từ vựng.........................................................................................................49
Hình - Hộp thoại mở tập tin MDB.........................................................50
Hình - Hộp thoại kiểm tra sự tồn tại của từ cần thêm vào.....50
Hình - Hộp thoại soạn thảo một mục từ..........................................51

Hình - Một hộp thoại nhỏ xuất hiện giúp nhập thông tin của
mục từ...........................................................................................................51
Hình - Hộp thoại About..........................................................................52
Hình - Tập tin trợ giúp FEVDHELP.HLP đợc hiển thị bởi
Winhelp.exe................................................................................................52
Hình - Quá trình tạo giao diện từ điển nhờ chơng trình đợc
tham số hoá................................................................................................58
Lời nói đầu
Lời nói đầu
Ngày nay, khi đề cập đến một vấn đề có tầm quan trọng nào đó thì
ngời ta thờng nghĩ ngay đến khả năng và mức độ tin học hoá của vấn đề
đó. Một trong các vấn đề đợc quan tâm hàng đầu hiện nay là xử lý ngôn
ngữ tự nhiên trên máy vi tính.
Thực tế đã xuất hiện nhiều ứng dụng chạy trên máy tính hỗ trợ rất
nhiều cho ngời sử dụng nh : các loại từ điển điện tử, phát âm, nhận dạng
chữ, giao tiếp ngời - máy thông qua ngôn ngữ tự nhiên,... Nhng các ứng
dụng trên chỉ có thể sử dụng đối với một số loại ngôn ngữ nào đó (trong đó
đa số là tiếng Anh) hoặc không tồn tại đối với một số ngôn ngữ nhất định.
Điều này một phần vì nhiều ngôn ngữ cha đợc chuẩn hóa hoặc quan trọng
hơn là cha đợc đầu t thỏa đáng cho việc nghiên cứu trên ngôn ngữ đó.
Đối với vấn đề từ điển, chúng ta thấy rằng hầu nh không tồn tại một
loại từ điển đa ngữ nào trên máy tính đặc trng cho từng ngôn ngữ. Một ý t-
ởng xuất phát từ đây là : có thể xây dựng một từ điển khác thông qua một
từ điển có sẵn mà các ngôn ngữ trung gian có mối quan hệ chặt chẽ với
nhau hoặc khả năng tạo ra mối quan hệ này là rất dễ dàng. Mặt khác, hầu
nh ai cũng biết sự ra đời và phát triẻn của hai ngôn ngữ Pháp và Anh là
không thể phủ nhận đợc. Vì thế, chúng ta có thể dựa vào những gì đã có
đối với hai ngôn ngữ này để đi xây dựng một mối liên hệ thứ ba cho tiếng
Việt. Điều này đồng nghĩa với việc thực hiện một mối liên hệ giữa hai ngôn
ngữ Pháp - Việt thông qua ngôn ngữ trung gian đó là tiếng Anh. Đây cũng

là nội dung chính của dự án từ điển FEV đợc trình bày trong đồ án này.
Cuối cùng, đối với ngời sử dụng máy tính hiện nay, vấn đề giao diện
luôn đợc đặt lên hàng đầu, do đó các lập trình viên luôn dành phần nhiều
thời gian cho việc thiết kế giao diện nhằm giúp cho ngời sử dụng tìm kiếm
các thông tin một cách nhanh chóng. Vì thế, đồ án này tập trung vào việc
thiết kế giao diện để khai thác các cơ sở dữ liệu từ vựng Anh, Pháp, Việt
chứa trong các tập tin dạng RTF với đề tài : "Thiết kế giao
diện khai thác từ điển tra nghĩa Pháp - Anh -
Việt (FEV Dictionary)".
Đồ án này gồm 3 phần chính sau:
Phần 1 - Giới thiệu về Từ điển và các vấn đề liên
quan. Phần này trình bày một số vấn đề về từ điển nh : các khái
niệm về từ điển, giới thiệu một số từ điển hiện có,... Tiếp theo là
tìm hiểu dự án FEV và phơng pháp tổ chức dữ liệu trong tập tin
cơ sở dữ liệu từ vựng RTF.
Phần 2 - Thiết kế giao diện khai thác từ điển tra
nghĩa FEV. Phần này trình bày một cách hệ thống quá trình
thiết kế một giao diện thông qua các yêu cầu cụ thể. Bắt đầu từ
việc tìm hiểu lý thuyết về giao diện ngời - máy, xác định các yêu
cầu về giao diện của từ điển FEV, đa ra các phơng án thiết kế,...
và cuối cùng là đi đến việc thiết kế một giao diện cụ thể. Phần này
còn trình bày một số hình ảnh của giao diện đợc thiết kế cho từ
điển FEV.
Phần 3 - Kết luận và Hớng phát triển. Phần này thực
hiện việc tổng kết các kết quả đạt đợc, trình bày các mặt hạn chế
của chơng trình và cuối cùng là đa ra hớng phát triển của chơng
trình trong tơng lai.
Đà Nẵng, tháng 06/2000
Ngời thực hiện
SV. Hoàng Xuân Đăng Cờng

Phần 1
Phần 1
Giới thiệu về Từ điển và
Giới thiệu về Từ điển và


các vấn đề liên quan
các vấn đề liên quan
Lời cảm ơn.....................................................................................................3
Lời cam đoan...............................................................................................4
tóm tắt đồ án..............................................................................................5
Mục lục..........................................................................................................6
Lời nói đầu..................................................................................................10
Phần 1...........................................................................................................12
Giới thiệu về Từ điển và các vấn đề liên quan.............................12
I. Các vấn đề về từ điển...........................................................................15
1. Các khái niệm về từ điển..................................................................................15
2. Tình hình phát triển của từ điển hiện nay......................................................15
II. xây dựng từ điển nhờ Tin học..........................................................16
III. Giới thiệu dự án từ điển FEV.............................................................17
3. Nguồn gốc dự án từ điển FEV..........................................................................17
4. Cơ sở dữ liệu từ vựng của từ điển FEV...........................................................18
5. Cấu trúc một "mục từ" của CSDL từ vựng.....................................................20
6. Ưu điểm của từ điển FEV..................................................................................23
Phần 2...........................................................................................................25
Thiết kế giao diện khai thác từ điển tra nghĩa FEV...................25
I. Tổng quan................................................................................................28
II. Tìm hiểu về giao diện ngời - máy......................................................28
1. Một giao diện tốt là gì?.....................................................................................28
2. Thiết kế giao diện nội, ngoại vi (Internal, External Interface Design).........29

3. Một số nguyên tắc khi thiết kế giao diện cho ứng dụng..............................29
a. Lựa chọn các kiểu thiết kế giao diện....................................................................30
b. Hiển thị thông tin.....................................................................................................31
c. Nhập liệu...................................................................................................................31
d. Màu sắc....................................................................................................................32
e. Xử lý lỗi.....................................................................................................................32
f. Công cụ trợ giúp ......................................................................................................32
4. Kết luận..............................................................................................................33
III. Yêu cầu về giao diện của từ điển FEV..........................................33
IV. Tổ chức cơ sở dữ liệu từ vựng của giao diện FEV.................33
1. Lựa chọn kiểu cơ sở dữ liệu.............................................................................33
2. Tổ chức cơ sở dữ liệu.......................................................................................34
V. Các phơng án giao tiếp với ngời sử dụng..................................35
1. Biểu diễn các ngôn ngữ của từ điển trên một giao diện...............................36
2. Phơng án biểu diễn thứ nhất cho từ điển FEV...............................................37
3. Phơng án biểu diễn thứ hai cho từ điển FEV.................................................38
4. Lựa chọn phơng án biểu diễn cho từ điển FEV.............................................38
VI. Mô hình tổng quát và các bớc cụ thể hoá..............................39
1. Mô hình tổng quát của từ điển FEV.................................................................39
2. Sơ đồ khối biểu diễn hoạt động của từ điển FEV..........................................40
3. Lựa chọn công cụ và môi trờng để thiết kế giao diện..................................42
4. Xây dựng thuật toán và tạo m cho chã ơng trình............................................43
a. Đọc tập tin RTF và cập nhật vào tập tin cơ sở dữ liệu MDB...............................43
b. Chuyển mã................................................................................................................44
c. Hiển thị phần giải thích nghĩa................................................................................45
d. Một số yêu cầu khác từ ngời sử dụng..................................................................46
VII. Trình bày giao diện...........................................................................48
Phần 3...........................................................................................................53
Kết luận và Hớng phát triển..............................................................53
I. Kết quả đạt đợc.....................................................................................56

II. Hớng phát triển của ứng dụng trong tơng lai......................57
1. Mở rộng từ điển FEV.........................................................................................57
2. Tăng cờng khả năng tra nghĩa của từ bằng nhiều phơng pháp...................57
3. Thiết kế giao diện với nhiều ngôn ngữ khác nhau........................................58
4. Tăng cờng tính năng động của giao diện......................................................58
5. Tham số hoá chơng trình.................................................................................58
Phụ lục........................................................................................................59
Tài liệu tham khảo..................................................................................67
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 15
I.
I.
Các vấn đề về từ điển
Các vấn đề về từ điển
1. Các khái niệm về từ điển
Dictionary (noun) : a book containing the words of a language alphabetically arranged,
with their meanings, etymology, etc; a lexicon; an additional program available in some
word-processing packages which will check text for spelling errors against a dictionary
contained on the disk (computing); a work containing information on any area of knowledge,
alphabetically arranged ( Larousse plc. All rights reserved)
(1)
.
Nh vậy ta có thể hiểu từ điển là :
Một cuốn sách chứa các từ của một ngôn ngữ nào đó đợc sắp xếp theo thứ tự abc
cùng với các nghĩa hay từ nguyên của chúng;
Một cuốn sách chứa tập hợp các thuật ngữ liên quan đến một hoặc nhiều lĩnh vực và
đợc sắp xếp theo một thứ tự tìm kiếm nào đó;
Một chơng trình có thể dùng kèm với một vài trình xử lý văn bản, ở đó chúng phục
vụ việc kiểm tra lỗi chính tả, văn phạm,... và đợc lu trên đĩa (máy tính).
Một tác phẩm chứa các thông tin (địa danh, nền văn hoá, các kiến thức,...) của một
vài nơi nào đó.

Theo từ điển tiếng Việt bỏ túi II thì : Từ điển là sách tra cứu tập hợp các đơn vị ngôn
ngữ (thờng là đơn vị từ vựng) và sắp xếp theo một thứ tự dễ tra tìm, cung cấp một số kiến thức
cần thiết đối với từng đơn vị. Ví dụ : từ điển tiếng Việt, từ điển thành ngữ, từ điển Pháp
-Việt,...
Tóm lại, chúng ta có thể hiểu từ điển nh sau : Từ điển là một thiết bị, công cụ (kể cả con
ngời - từ điển sống) cho phép lu trữ thông tin mà qua đó, dựa vào một thông tin đơn giản
chúng ta có thể tìm đợc các thông tin liên quan một cách nhanh chóng và đa dạng
(2)
.
2. Tình hình phát triển của từ điển hiện nay
Ngày nay, việc sử dụng từ điển phục vụ cho nghiên cứu, học tập đã trở nên phổ biến.
Cùng với điều đó là sự xuất hiện của hàng loạt các loại từ điển dới nhiều hình thức và ngôn
ngữ khác nhau, bao gồm từ điển về từ vựng, từ điển từ đồng nghĩa, phản nghĩa, các loại từ điển
thuật ngữ, chính tả, danh ngôn,... Một điều đáng nói ở đây là dù có rất nhiều từ điển xuất hiện
nhng ít khi chúng lại đợc kế thừa từ các cuốn từ điển trớc mà thờng phát triển độc lập và theo
phong cách riêng, từ đó dễ dẫn đến sự thiếu sót và sai lệch. Nếu chúng ta quan tâm nhiều đến
cấu trúc của từ điển thì có thể thấy rằng rất nhiều từ điển có phần phiên âm không giống nhau
hoặc thậm chí thiếu hẳn phần này.
(1)
Khái niệm này nằm trong phần Dictionary của ứng dụng Microsoft BookShelf Basic. ứng dụng này đợc bán
kèm theo bộ phần mềm Microsoft Office 97 (bản đầy đủ).
(2)
Khái niệm này do tác giả của đồ án này tự rút ra. Do vậy không thể tránh khỏi thiếu sót và hiểu lầm, rất mong
các ý kiến bổ sung.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 16
ở Việt Nam, từ điển cũng đã đợc xuất bản dới nhiều hình thức, bao gồm các loại từ điển
đợc xuất bản trên giấy đóng thành tập dày hay các loại nhỏ bỏ túi; các loại từ điển điện tử cầm
tay do nớc ngoài sản xuất; và đợc sử dụng rộng rãi hiện nay là các từ điển sử dụng trên máy
tính với rất nhiều tính năng;... Một loại từ điển sử dụng trên máy tính khá phổ biến hiện nay là

"từ điển Lạc Việt". Từ điển này cung cấp rất nhiều khả năng tra từ khác nhau và hỗ trợ cả
multimedia bao gồm nhiều hình ảnh và âm thanh minh hoạ. Hình trình bày giao diện của từ
điển Lạc Việt mtd
EVA
300.
Hình - Giao diện của từ điển Lạc Việt mtd
EVA
300.
II.
II.
xây dựng từ điển nhờ Tin học
xây dựng từ điển nhờ Tin học
Từ khi xuất hiện máy tính đến nay, việc tin học hoá trong nhiều lĩnh vực Khoa học,
Công nghệ, Kinh tế và đời sống không ngừng phát triển. Chúng phục vụ rất nhiều cho con ng-
ời, làm giảm thiểu thời gian sản xuất của cải vật chất và xử lý thông tin một cách nhanh
chóng. Đặc biệt sự xuất hiện của mạng Internet đã đem lại nhiều thành công trong lĩnh vực
thông tin, nó thật sự làm cho mọi ngời trên thế giới ngày càng gần nhau hơn.
Còn ở Việt Nam, mặc dù máy tính chỉ mới đợc ứng dụng rộng rãi vào thập niên 90 của
thế kỷ 20 nhng đến nay đã phát triển khá mạnh. Lợng máy tính bán ra trên thị trờng ngày càng
tăng đã chứng minh đợc điều đó. Việc sử dụng máy tính kèm theo các chơng trình ứng dụng
phục vụ việc quản lý nhân sự, thông tin khách hàng, hàng hoá, kho bãi,... đã làm cho việc tra
cứu và tính toán diễn ra nhanh chóng và chính xác, giúp các Công ty hoạt động hiệu quả hơn.
Nh vậy, việc tin học hoá là một tất yếu không thể phủ nhận và đã đem lại nhiều thành
qủa. Với máy tính, thông tin đợc lu trữ, xử lý một cách nhanh chóng và chính xác, giảm một l-
ợng lớn các giấy tờ để lu trữ nh trớc đây. Nhng song song với điều này là hàng loạt các vấn đề
đợc đặt ra nhằm đảm bảo sự an toàn và bảo mật của hệ thống, điều đó đòi hỏi nhiều công sức
và tiền của của các tổ chức liên quan cũng nh các lập trình viên máy tính.
Đối với từ điển, trớc đây - khi máy tính còn cha đợc sử dụng rộng rãi, từ điển chỉ đợc
xuất hiện dới dạng các văn bản giấy thông thờng và đợc đóng thành các tập sách dày với các
từ vựng sắp xếp theo thứ tự abc. Nhng từ khi máy tính đợc sử dụng rộng rãi, đã xuất hiện nhiều

từ điển điện tử sử dụng trên máy tính, phục vụ cho việc tra cứu trực tiếp hay gián tiếp diễn ra
một cách nhanh chóng. Một trong số các từ điển trên máy tính khá phổ biến ở Việt Nam hiện
nay gồm có : từ điển Lạc Việt, từ điển Công Tâm, Just ClicknSee,... đã mở ra nhiều hớng khá
lạc quan cho tiếng Việt.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 17
Nh đã đề cập ở trên, mục đích của việc tin học hoá là làm giảm thiểu thời gian xử lý và
tăng độ chính xác của thông tin. Do đó khi một từ điển đợc thiết kế để dùng trên máy tính, sẽ
làm cho việc tra cứu từ vựng đợc thực hiện nhanh chóng và đơn giản hơn. Ngoài ra, một từ
điển đợc thiết kế trên máy tính sẽ dễ dàng nâng cấp và bổ sung (điều này đôi lúc còn phụ
thuộc vào nhà sản xuất và bản chất của chính ứng dụng đó).
Tin học hoá từ điển sẽ là bớc đầu quan trọng trong việc xử lý ngôn ngữ của con ngời trên
máy tính. Nhờ có nó, chúng ta sẽ dễ dàng hơn trong quá trình xây dựng các ứng dụng giao tiếp
giữa ngời và máy thông qua ngôn ngữ, giọng nói; chúng ta sẽ tập trung đợc lợng lớn tài
nguyên vốn từ cho các bộ dịch tự động của nhiều ngôn ngữ khác nhau.
Vấn đề cuối cùng khi đề cập đến tin học hoá từ điển là sự thống nhất trong diễn đạt
nghĩa của từ cũng nh các hình thức kí hiệu phiên âm. Điều này đòi hỏi không ít công sức, thời
gian của các nhà ngôn ngữ học và từ điển học để đa ra các chuẩn nhất định và thống nhất một
hình thức diễn đạt nào đó.
III.
III.
Giới thiệu dự án từ điển FEV
Giới thiệu dự án từ điển FEV
3. Nguồn gốc dự án từ điển FEV
Từ điển FEV đợc phát triển dựa trên các từ điển FEM và FET
(1)
. Trong FEV, phần nghĩa
của tiếng Việt đợc thêm vào cơ sở dữ liệu từ vựng của từ điển FEM và FET. Phần này tôi sẽ đề
cập đến nguồn gốc của dự án FEV giữa khoa Công Nghệ Thông Tin, Đại Học Kỹ Thuật, Đại
Học Đà Nẵng với GETA

(2)
(thuộc CLIPS, IMAG, UJF&CNRF [Phụ lục]).
Chúng ta biết rằng, việc sử dụng từ điển còn cha phổ biến đối với phần lớn các ngôn ngữ
ở Châu á. Do đó, từ điển vẫn cha đợc phát triển với đúng vai trò và chức năng của nó, đặc biệt
là hầu hết các ngôn ngữ ở Châu á còn cha có các phần phiên âm để dựa vào đó các ngời nớc
ngoài có thể phát âm dễ dàng. Kể từ năm 1990, GETA đã quan tâm đến việc xây dựng những
quyển từ điển với ý tởng quan trọng là xem tiếng Anh nh một ngôn ngữ trung gian, điều đó
cho phép chúng ta sử dụng những năng lực tại địa phơng mà thờng biết tiếng Anh nhỉều hơn
tiếng Pháp. Cuốn từ điển đầu tiên sử dụng tiếng Pháp - Anh - Malai (FEM) gồm 20.000 thuật
ngữ, 50.000 khái niệm, nhiều ví dụ, thành ngữ, biểu tợng và lời giải thích. FEM đợc thực hiện
với sự hợp tác giữa trờng Đại học Sains Malaysia (USM, Penang), Dewan Bahasa tại Puskata
và đại sứ quán vào tháng 7 năm 1996 nh là cuốn từ điển chính thức. Một cuốn từ điển từ vựng
FEM khoảng 5.000 thuật ngữ tin học cũng đã đợc thực hiện và do trờng Đại học Sains
Malaysia xuất bản. Có hai cuốn về tin học bao gồm cả tiếng Anh và có thể sử dụng rộng rãi
trên các hệ thống Macintosh và IBM-PC dới dạng các trang Web.
Còn ở Việt Nam, dự án FEV đợc thực hiện với sự kết hợp của các khoa Công nghệ
Thông tin, Trờng Đại học Kỹ thuật, Đại học Đà Nẵng và Đại học Quốc gia Thành phố Hồ Chí
Minh II. Dự án bao gồm hai công việc :
Bắt đầu từ cở sở dữ liệu của cuốn từ điển FEM và FET (dới dạng các tập Word đơn
giản), thêm phần nghĩa tơng ứng của tiếng Việt. Các tập tin này sau đó sẽ đợc định
dạng lại dới các dạng khác nhau và sẽ cho phép kiểm tra lại bởi các chuyên gia ngôn
ngữ.
(1)
Viết tắt của French - English - Malaysia và French - English - Malaysia. Đây là hai từ điển đợc thực hiện trớc
đây với sự hợp tác giữa GETA và các trờng Đại học thuộc hai nớc này.
(2)
Viết tắt của Groupe d'étude pour la Traduction Automatique. Đây là một nhóm nghiên cứu dịch tự động.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 18
Từ các tập tin đã đợc thêm phần nghĩa của tiếng Việt, giới thiệu cách chuyển đổi về

phiên âm qua tiếng Pháp từ tiếng Việt song song với bảng viết thông thờng.
Việc thực tế hóa sẽ đợc dự kiến trong 2 năm (1999-2000). Cuối cùng, ngời ta sẽ đa ra
nhiều ví dụ về các sản phẩm này dới dạng báo (papier) và các tập tin DOC (chứa trên CD-
ROM). Phiên bản tin học sẽ đợc phân phát qua mạng Internet dới hình thức không riêng rẽ
(tức là có thể truy cập từ nhiều hệ thống khác nhau), bắt đầu từ máy trạm đợc lắp đặt tại
GETA do SILFIDE
(1)
tài trợ. Ngoài ra, nó còn có thể đợc thêm vào các hình ảnh và nhiều kỹ
thuật khác. Đó là lý do xét về phơng diện điện tử và đợc coi là rất quan trọng.
Nh vậy, ý tởng cơ bản của dự án FEV là sử dụng lại từ điền Pháp - Anh - Malai đã thực
hiện trong thời gian trớc, sau đó thực hiện việc thay thế tiếng Malai thành tiếng Việt (hoặc
thêm vào phần tiếng Việt), trong đó có cả các ví dụ và sự chuyển đổi phiên âm qua tiếng Pháp.
Thông thờng, những chuyển đổi nh vậy sẽ gặp vài sự cố. Ngời ta sẽ t vấn với những chuyên
gia có khả năng để chọn lựa một số phơng pháp để khắc phục. Trong phiên bản chính thức,
chúng ta có thể xem đợc phần nghĩa của tất cả các thứ tiếng có trong cơ sở dữ liệu từ vựng.
Một vấn đề khác đợc nhấn mạnh ở đây là : trong thời gian sản xuất từ điển, ngời ta sẽ sử dụng
một sự chuyển đổi không cần thiết đối với bất kỳ kí tự đặc biệt nào và bất kỳ font chữ nào
bằng một phơng pháp chuyển đổi nhanh chóng dữ liệu để có thể làm việc tốt trên các môi tr-
ờng IBM-PC và Macintosh hoặc sử dụng trên mạng Internet.
Cuối cùng, ngời ta sẽ tìm ra mối liên hệ của những cuốn từ điển điện tử với một công cụ
tổng hợp lời nói đối với mỗi ngôn ngữ. Trong việc tổng hợp nh thế thì có thể dùng cho tiếng
Pháp và ngời ta sẽ tìm kiếm cho việc dùng đối với tiếng Việt. Có thể gặp một vài khó khăn cho
việc tích hợp trong toàn bộ thời gian dự kiến và sau đó quan điểm này sẽ thực hiện một dự án
nghiên cứu về tính linh động và khả năng có thể thực hiện đợc của việc chứng minh cụ thể
cùng lúc với việc trình bày cuối cùng.
4. Cơ sở dữ liệu từ vựng của từ điển FEV
Cơ sở dữ liệu từ vựng của từ điển FEV chứa trong tập tin đợc định dạng theo chuẩn RTF
(Rich Text Format - dạng thức giàu văn bản), tức là chỉ gồm các ký tự mã ASCII 7 bít. Thật sự
thì đây là một dạng cơ sở dữ liệu "mở" mà mọi môi trờng có thể nhìn thấy đợc. Từ dạng cơ sở
dữ liệu từ vựng này, qua một vài chuyển đổi, ngời ta có thể tạo ra nhiều loại từ điển trên nhiều

môi trờng khác nhau. Hình trình bày quá trình chuyển đổi cơ sở dữ liệu từ vựng thành các loại
từ điển trên môi trờng Microsoft Windows. Cũng trong Hình , đầu tiên chúng ta thấy một cơ
sở dữ liệu dạng mã ASCII 7 bít đợc chứa trong môi trờng LISP (nằm trên máy chủ SILFIDE -
đợc đề cập và giới thiệu ở phần trên), do vậy nó có thể đợc truy cập bởi hầu hết các hệ thống
và môi trờng khác nhau nh : Microsoft Windows, Macintosh, UNIX/Linux,... thông qua các
quá trình chuyển đổi 2 chiều , , và . Chi tiết các quá trình chuyển khác đợc trình bày
dới đây :
Đây là quá trình chuyển đổi 2 chiều từ môi trờng Windows sang môi trờng LISP và
ngợc lại. Thật sự thì đây chính là quá trình truy cập cơ sở dữ liệu từ vựng từ môi tr-
ờng Windows để lấy ra các thông tin cần thiết hoặc cập nhật thông tin vào cơ sở dữ
liệu từ vựng từ môi trờng Windows. Trên hình vẽ cho ta thấy cơ sở dữ liệu từ vựng
đợc lấy về môi trờng Windows dới dạng các tập tin RTF. Các tập tin cơ sở dữ liệu
từ vựng RTF này chứa đầy đủ các phần nghĩa tơng ứng của tiếng Pháp, tiếng Anh,
tiếng Malai và tiếng Thái Lan.
(1)
SILFIDE hỗ trợ phần lớn cho Macintosh, nó đợc giới thiệu thông qua tổ chức AUPELFUREF.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 19
Hình - Mô hình quá trình chuyển đổi cơ sở dữ liệu từ vựng thành từ điển.
Quá trình này thực hiện việc thêm nghĩa tiếng Việt vào cơ sở dữ liệu từ vựng đợc
lấy ra từ môi trờng LISP dới dạng các tập tin RTF. Sau quá trình này chúng ta cũng
sẽ có một tập tin cơ sở dữ liệu từ vựng RTF nhng có thêm phần nghĩa tiếng Việt.
Quá trình này đợc thực hiện bởi một chơng trình cập nhật nghĩa do một đồ án khác
thực hiện.
Tập tin RTF với đầy đủ các nghĩa sau khi qua quá trình này sẽ tạo ra đợc các giao
diện trên máy tính dới dạng các ứng dụng độc lập hay các trang Web, giúp cho việc
tra nghĩa đợc dễ dàng. Quá trình này chịu sự tác động của hai quá trình thiét kế giao
diện và chuyển mã. Thật sự đây chính là mục đích của đồ án này, tức là đi thiết kế
một giao diện phục vụ cho việc tra các nghĩa trong các tập tin cơ sở dữ liệu RTF.
Quá trình chuyển mã sẽ đợc thực hiện bởi một đồ án khác nhng cũng đợc đa vào

trong giao diện đợc thiết kế để thực hiện việc chuyển đổi mã theo yêu cầu.
Cũng nh quá trình , quá trình này thực hiện việc sắp xếp và định dạng lại các tập
tin cơ sở dữ liệu từ vựng RTF theo một cách nào đó để rồi in ra các từ điển dới dạng
sách.
Quá trình này cũng nh quá trình và nhng sẽ tạo ra các giao diện từ điển dới
các dạng khác (ví dụ : từ điển chính tả, từ điển phát âm, các chơng trình dịch tự
động,...).
Quá trình này giống nh quá trình nhng đợc thực hiện trên các môi trờng thuộc hệ
thống UNIX/Linux.
Quá trình này giống nh các quá trình và nhng đợc thực hiện trên các môi tr-
ờng theo chuẩn Macintosh.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Macintosh
UNIX / Linux
Windows App., HTML
Từ điển giấy dạng sách
RTF RTF
DB-3D
Cập nhật nghĩa
Chuyển mã
FEV (M,T)FE (M,T)
Giao diện
Lisp
ASCII
Cơ sở dữ liệu từ
vựng dưới dạng
plane text 3D
Các hệ
thống khác
IBM-PC

MS Windows







Ghi chú:
Quá trình chuyển đổi 2 chiều
Quá trình chuyển đổi 1 chiều
abc
Quá trình tác động
Tác động của các quá trình
Các dạng khác...
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 20
Quá trình này cũng giống nh các quá trình , và nhng đợc thực hiện trên môi
một số môi trờng khác, đặc biệt là các môi trờng mới đợc phát triển trong tơng lai
sử dụng trên các máy tính thế hệ thứ 5.
Một điều đáng quan tâm ở quá trình là nghĩa tiếng Việt đợc cập nhật vào cơ sở dữ
liệu từ vựng RTF chỉ chứa các kí tự thuộc bộ mã ASCII 7 bít hoặc phải chuyển đổi sang dạng
mã này sau khi cập nhật bằng một mã bất kỳ nào đó. Sau đó tập tin cơ sở dữ liệu này đợc
chyển mã để làm đầu vào cho chơng trình từ điển FEV. Cũng với tập tin cơ sở dữ liệu RTF sau
khi đợc chuyển mã và với các bộ font cần thiết, chúng ta có thể sử dụng các ứng dụng tơng
thích (ví dụ : Microsoft Word, WordPad,...) để xem, nh là một văn bản bình thờng với đầy đủ
các phần nghĩa có trong cơ sở dữ liệu từ vựng đó. Hình và Hình trình bày một đoạn của tập
tin cơ sở dữ liệu RTF trớc và sau khi chuyển mã tiếng Việt trong môi trờng Microsoft Word.
Cuối cùng, để các hệ thống khác có thể sử dụng phần nghĩa tiếng Việt đã đợc cập nhật,
thì cơ sở dữ liệu từ vựng dới dạng tập tin RTF sau khi qua bớc sẽ qua một vài bớc chuyển
đổi, kiểm tra và đa ngợc lại vào môi trờng LISP.

5. Cấu trúc một "mục từ" của CSDL từ vựng
Khái niệm một "mục từ" ở đây đợc hiểu nh là một đoạn văn bản thuộc cơ sở dữ liệu từ
vựng RTF có đầy đủ các phần nghĩa (từ vựng) Anh, Pháp, Việt , Malai, Thái Lan và các yếu tố
liên quan khác nh : phiên âm, từ loại, ví dụ,... Tức là, đoạn văn bản đó đợc bắt đầu bởi một từ
vựng tiếng Pháp cho đến trớc một từ vựng tiếng Pháp gần nhất. Hình và Hình thể hiện một
mục từ trong môi trờng Microsoft Word.
Nh vậy, cấu trúc các yếu tố thuộc một mục từ trong cơ sở dữ liệu từ vựng RTF đợc tổ
chức dới dạng các St
y
le
(1)
trong Microsoft Word (để đơn ta gọi chung các yếu tố thuộc một
mục từ là các STYLE - viết hoa). Trong đó, một STYLE đợc định dạng bao gồm các thành
phần : tên kiểu (StyleName) tên font (FontName), kích thớc (FontSize), khoảng cách lề
(TextIndent), màu (Color), đậm (Bold), nghiêng (Italic), gạch dới (UnderLine),... nhằm xác
định một yếu tố của ngôn ngữ nào đó. Dới đây chúng ta xem sét một số ví dụ :
STYLE từ vựng tiếng Pháp có :
StyleName = "entry", FontName = "Times", FontSize = 14, TextIndent = 0,
Color = 0, Bold = True, Italic = False, UnderLine = False,...;
STYLE từ vựng tiếng Anh có :
StyleName ="english_equ", FontName = "Times", FontSize = 12,
TextIndent = 1980, Color = 255, Bold = True, Italic = False, UnderLine = False,...
STYLE từ vựng tiếng Việt có :
StyleName ="viet_equ", FontName = ".VnTime", FontSize = 12,
TextIndent = 2262, Color = 128, Bold = True, Italic = False, UnderLine = False,...
Chi tiết các thuộc tính của các STYLE để nhận biết các yếu tố của một mục từ cần tách
ra dùng cho từ điển FEV đợc liệt kê trong Bảng .
(1)
Các Style định nghĩa các cách hiển thị khác nhau của từng đoạn văn bản (paragraph) trong một hồ sơ
(document), ví dụ nh : các tiêu đề (heading), lời chú thích (caption), và các đoạn văn chính,... Với Style, chúng ta

có thể định dạng một nhóm các kí tự của đoạn hoặc toàn bộ đoạn một cách đơn giản. Khi chúng ta muốn thay đổi
định dạng của tất cả các văn bản đợc định dạng theo một Style nào đó thì chỉ cần thao tác một lần bằng cách thay
đổi các thuộc tính của Style gán cho các đoạn đó.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 21
Do khuôn khổ của đồ án nên tôi không trình bày nhiều hơn về ý nghĩa và cách tạo các
các Style. Nhng chúng ta có thể tham khảo các tài liệu liên quan đến Microsoft Office hoặc sử
dụng Microsoft Word Help để tìm hiểu nhiều hơn về các Style.

Hình - Một mục từ của cơ sở dữ liệu từ vựng RTF.
Chúng ta có thể thấy ở Hình có chứa hầu hết các điều cần thiết cho một cuốn từ điển,
bao gồm : các nghĩa tơng đơng, các ví dụ, phiên âm,... Nhng đối với tiếng Thái Lan do không
có font để hiển thị các ký tự nên phần văn bản tiếng Thái Lan xuất hiện nh là các ký tự khó
hiểu. Còn đối với tiếng Việt, nh đã nói ở trên, để có thể tơng thích trong các bớc chuyển đổi
khác nên chúng ta phải cập nhật nghĩa dới một dạng mã chỉ gồm các kí tự thuộc bảng mã
ASCII 7 bít (ở đây là mã Telex).

Hình - Mục từ sau khi đợc chuyển mã để có thể xem đợc tiếng Việt.
Việc chuyển mã sang một loại mã thông dụng (ví dụ : ABC, VNI, VietWare,...) có thể
đợc thực hiện bằng nhiều cách. Chúng ta có thể chuyển mã toàn bộ tập tin (chỉ chuyển mã các
STYLE thuộc tiếng Việt) rồi làm đầu vào cho giao diện từ điển FEV hoặc kết hợp việc chuyển
mã khi xuất phần giải thích ra màn hình giao diện (điều này còn phụ thuộc vào ứng dụng
chuyển mã). Hình trình bày mục từ sau khi đợc chuyển mã toàn bộ tập tin, trong đó, các văn
bản tiếng Việt có thể đọc hiểu một cách dễ dàng.
Nh vậy, cơ sở dữ liệu có dạng nh Hình sẽ là đầu vào cho giao diện đợc thiết kế trong đồ
án này. Tất nhiên, để hiển thị đợc thì hệ thống phải có đầy đủ các bộ font cần thiết, nhất là đối
với font tiếng Việt. Mặc dù là có rất nhiều STYLE thuộc nhiều ngôn ngữ khác nhau, nhng
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 22
trong khuôn khổ đồ án này, tôi chỉ lấy dữ liệu đầu vào bao gồm một số STYLE thuộc tiếng

Pháp, tiếng Anh và tiếng Việt. Chúng đợc liệt kê trong Bảng .
Bảng - Các STYLE làm đầu vào cho giao diện đợc thiết kế
Tên STYLE Giải thích Ví dụ (đợc rút ra từ Hình )
entry
french_pron
french_cat
french_sentence
Từ vựng tiếng Pháp
Phiên âm tiếng Pháp
Từ loại tiếng Pháp
Câu ví dụ tiếng Pháp
bõcler
/BA-CLE-/
v.tr.
les mauvais ộlốves bõclent leurs devoirs
english_equ
english_sentence
Từ vựng tiếng Anh
Câu ví dụ tiếng Anh
to botch (up)
dunces botch up their homework
viet_equ
viet_pron
viet_sentence
Từ vựng tiếng Việt
Phiên âm tiếng Việt
Câu ví dụ tiếng Việt
lamf hongr
[LA\MHO?NG]
nguwowif ngu ddoonj lam hongr vieecj nhaf cuar hoj

Mặc dù các phần trên cha thật sự đầy đủ, nhng đó là những phần cơ bản nhất để ta có thể
xây dựng một từ điển tra nghĩa tam ngữ Pháp - Anh - Việt. Cũng nh với nó chúng ta có thể dễ
dàng mở rộng ra nhiều phần khác trên cơ sở các phần có sẵn này.
Bảng - Các thuộc tính dùng để tách các STYLE khác nhau
StyleName Tên font
chữ
Font
Size
Indent
(cm)
Color Underline Bold Italic
entry Times 14
0
0 False True False
french_pron Courier 12 1,5 0 False False False
french_cat Times 12 1,48 0 False False False
french_sentence Times 12 1,5 0 False False True
english_equ Times 12 3,49 255 False True False
english_sentence Times 12 3,49 255 False False False
viet_equ .VnTime 12 3,99 128 False True False
viet_pron .VnTime 12 3,99 128 False False False
viet_sentence .VnCourier 10 3,99 128 False False False
Thật sự, nếu sử dụng các Macro đợc hỗ trợ bởi Microsoft Word thì chúng ta dễ dàng
tách ra các STYLE do đợc hỗ trợ sẵn bởi các StyleName. Nhng việc thiết kế một chơng trình
độc lập thì chúng ta phải dựa vào Bảng để tách riêng các STYLE phục vụ cho từ điển FEV. D-
ới đây chúng ta sẽ chứng minh khả năng định dạng theo các STYLE là hiệu quả :
Giả sử nếu ta gọi các Style là S
i
, View là cách hiển thị một yếu tố (đoạn văn bản), các
thuộc tính của một Style là Att

i
và một yếu tố (STYLE) trong mục từ là T
i
. Nh vậy :
S
i
là tập hợp các thuộc tính Att
i
(i = 1..n) để tạo nên một cách hiển thị nào đó, hay :
S
i
= (Att
1
, Att
3
, Att
3
,..., Att
n
)
Nếu ta có hai Style S
1
và S
2
, để S
1
S
2
thì phải có ít nhất một thuộc tính của S
1

khác
một thuộc tính của S
2
. Tức là :
i (i = 1..n) : S
1
(Att
i
) S
2
(Att
i
)
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 23
Nh vậy, nếu T
1
đợc định dạng theo S
1
, T
2
đợc định dạng theo S
2
và S
1
S
2
thì cách hiển
thị T
1

sẽ khác cách hiển thị của T
2
. Tức là :
S
1
S
2
View(T
1
) View(T
2
)
Điều đó cho ta biết ý nghĩa của T
1
sẽ khác ý nghĩa của T
2
.
Tóm lại, một mục từ đợc biểu diễn nh sau :
mục_từ = (T
1
, T
2
, T
3
,..., T
m
)
Biểu_diễn(mục_từ) = (S
1
, S

2
, S
3
,..., S
l
)
Tức là một mục từ đợc biểu diễn bởi các Style khác nhau, trong đó mỗi Style đại diện
cho một yếu tố (STYLE) của mục từ. Một đặc điểm khác là mỗi yếu tố (STYLE) của mục từ
đợc biểu diễn bằng một đoạn văn bản (paragraph), đây là một đặc điểm quan trọng phục vụ
cho việc tách riêng các STYLE. Bảng trình bày một số ví dụ dựa vào Bảng và Bảng .
Bảng - Ví dụ về biểu diễn mục từ dựa vào các Style
S
i
T
i
Một ví dụ về nội dung đoạn văn bản
entry Từ vựng tiếng Pháp
bõcler
french_pron Phiên âm tiếng Pháp
/BA-CLE-/
french_cat Từ loại tiếng Pháp
v.tr.
french_sentence Câu ví dụ tiếng Pháp
les mauvais ộlốves bõclent leurs devoirs
english_equ Từ vựng tiếng Anh
to botch (up)
english_sentence Câu ví dụ tiếng Anh
dunces botch up their homework
viet_equ Từ vựng tiếng Việt
lamf hongr

viet_pron Phiên âm tiếng Việt
[LA\MHO?NG]
viet_sentence Câu ví dụ tiếng Việt nguwowif ngu ddoonj lam hongr vieecj nhaf cuar hoj
6. Ưu điểm của từ điển FEV
Các từ điển hiện có trên thị trờng hầu hết đều "đóng kín" các cơ sở dữ liệu từ vựng, do
đó việc thêm vào hay sửa đổi chỉ đợc thực hiện thông qua các thao tác xây dựng sẵn. Đặc biệt,
khi chúng ta muốn sử dụng cơ sở dữ liệu này để xây dựng các ứng dụng liên quan thì không
thể hoặc rất khó thực hiện. Nhng một lợi thế của rất nhiều từ điển hiện có là, do đợc phát triển
trong thời gian dài và không phụ thuộc vào các yêu cầu khách quan nên vốn từ phong phú,
cách tổ chức cơ sở dữ liệu chặt chẽ, truy cập nhanh chóng với nhiều phơng pháp khác nhau,...
Ngợc lại, từ điển FEV là một từ điển "mở", do đó ngoài việc tra từ vựng ra nó còn có thể
phục vụ cho nhiều ứng dụng khác cần đến cơ sở dữ liệu từ vựng. Bởi vì rằng, cơ sở dữ liệu từ
vựng này đợc lu dới dạng các tập tin Word hoặc RTF có cấu trúc, do đó chúng ta có thể dễ
dàng truy cập và lấy thông tin từ đó hoặc xem nó giống nh một văn bản có cấu trúc thông th-
ờng trong các môi trờng soạn thảo tơng thích.
Ngoài ra, nh đã đề cập ở các phần trớc đây, từ điển FEV đợc xây dựng trên cơ sở một dự
án nhằm tập hợp một cơ sở dữ liệu từ vựng gồm nhiều ngôn ngữ khác nhau để xây dựng các
ứng dụng lớn liên quan đến việc xử lý ngôn ngữ tự nhiên nh : từ điển phát âm, dịch tự động,...
mà trớc mắt là xây dựng các loại từ điển đa ngữ.
Đồ án này nhằm mục đích thiết kế một giao diện khai thác từ điển tra nghĩa FEV. Cụ
thể, xây dựng một ứng dụng giúp ngời sử dụng có thể dễ dàng tra cứu từ vựng trên các ngôn
ngữ Pháp - Anh - Việt một cách nhanh chóng từ các cơ sở dữ liệu từ vựng có sẵn. Phần tiếp
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Thiết kế giao diện khai thác từ điển tra nghĩa Pháp - Anh - Việt (FEV Dictionary) 24
theo sẽ thực tế hoá điều này thông qua các bớc tìm hiểu các yêu cầu của một giao diện, cụ thể
hoá các yêu cầu đó và đi đến việc hình thành một giao diện cho từ điển FEV.
Hoàng Xuân Đăng Cờng Khoa Công nghệ thông tin
Phần 2
Phần 2
Thiết kế giao diện khai

Thiết kế giao diện khai


thác từ điển tra nghĩa
thác từ điển tra nghĩa


FEV
FEV
Lời cảm ơn.....................................................................................................3
Lời cam đoan...............................................................................................4
tóm tắt đồ án..............................................................................................5
Mục lục..........................................................................................................6
Lời nói đầu..................................................................................................10
Phần 1...........................................................................................................12
Giới thiệu về Từ điển và các vấn đề liên quan.............................12
I. Các vấn đề về từ điển...........................................................................15
1. Các khái niệm về từ điển..................................................................................15
2. Tình hình phát triển của từ điển hiện nay......................................................15
II. xây dựng từ điển nhờ Tin học..........................................................16
III. Giới thiệu dự án từ điển FEV.............................................................17
3. Nguồn gốc dự án từ điển FEV..........................................................................17
4. Cơ sở dữ liệu từ vựng của từ điển FEV...........................................................18
5. Cấu trúc một "mục từ" của CSDL từ vựng.....................................................20
6. Ưu điểm của từ điển FEV..................................................................................23

×