Tải bản đầy đủ (.pdf) (13 trang)

DSpace at VNU: Mô hình dữ liệu từ vựng của từ điển tin học tiếng địa phương Nghệ-Tĩnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.11 MB, 13 trang )

TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN. T.xx., Số 1, 2004

M Ò H ỈN H D Ử L IỆ U T Ừ V ự N G C Ủ A T Ừ Đ IE N

t in h ọ c

T IẾ N G Đ ỊA P H Ư Ơ N G N G H Ệ -T ĨN H
P h a n Huy K h án h

Đại học Đà N ă n g

1 Vân để cơ sở d ữ liê u từ vự n g và t iế n g đia ph ư ơng
Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta
phải xây dựng và tích luỹ các cơ sở dữ liệu (CSDL) từ vựng (lexical database) đê từ đó
khai thác nhờ các t ừ điên chuyên dụng khác nhau. Đặc điểm chung của các CSDL từ
vựng là nguồn dữ liệu rất lớn, không cùng cách tổ chức và không cùng cách biếu diễn
bên trong máy tính. Việc bảo trì, cập n h ậ t và khai thác thường gặp r ấ t nhiêu khó khăn.
Một trong nh ững nguyên n h â n là các nguồn dữ liệu từ vựng lấy từ nhiều nơi, từ các từ
điên giấy, hoặc t ừ internet, không đồng n h ấ t về cách tổ chức, không hoàn toàn giông
n h a u về nội dung. Lấy ví dụ các từ điển tiếng Việt, mỗi tác giả có một cách riêng đê tố
chức và diễn giải các mục từ (entry/headword), nhiều khi rất khác n h a u về quan niệm,
vê th uật ngữ.
Đê có được nh ữ n g từ điên phù hợp vói nhu cầu sử dụng khác n h a u trong máy
tính, khi ngày nay các dịch vụ mạng, internet được phổ cập rộng rãi, cần có giải pháp tổ
chức phù hợp cho các nguồn dữ liệu từ vựng. Trong các phương pháp p hân tích và thiết
kê các hệ thông th ô n g tin (cấu trúc, hay hướng đôi tượng), đè có được đối tượng xử lý là
các CSDL vật lý, c ần xây dựng mô hình ý niệm dữ liệu (data conceptual model), trưốc
khi chuyên đôi về một mô hình lôgic dữ liệu (data logical model). Đây là giai đoạn quan
trọng mang tính quyết định chất lượng của một hệ thông thông tin. Vì vậy cần có một
mô hình ý niệm dữ liệu khi xây dựng một CSDL từ vựng.
Hiện nay, n hiều từ điển đơn ngữ, đa ngữ về tiếng Việt đã được xây dựng, sử dụng


dưới nhiều hình thức như cài đặt tại máy, t r a cứu qua m ạng [13]... Nhờ các phương
tiện tin học, có thế dễ dàng sưu tập và tích luỹ nguồn dữ liệu từ vựng phong phú này đế
có được những từ điên chuyên dụng đê xử lý tiếng Việt, tuy nhiên vẫn chưa có những từ
điên tin học về tiếng địa phương. Như [1] đã chỉ ra, nghiên cứu tiếng địa phương (hay
phương ngôn, phương ngữ) không những giúp ích cho việc chu ẩn hóa, dạy-học và làm
phong phú tiêng Việt, mà còn giúp thực hiện các công trình nghiên cứu tiêng địa phương.
Trong bài báo này, chúng tôi đê x u ấ t giải pháp xây dựng một mô h ì n h ý niệm
dữ liệu để t ừ đó tạ o nguồn dữ liệu từ vựng cho t ừ điên tiếng địa phương Nghệ-Tĩnh
(TĐPNT) có tên là Nghê-Tinh Dialectal Dictionary. C húng tôi đã chọn mô hình thực
thế-kêt hợp (entity-association model) theo phương ph áp p h â n tích cấu trúc. Chúng
tôi đã chọn tiêng địa phương Nghệ-Tĩnh n h ư là ví dụ m ẫ u đầu tiê n m in h hoạ quá
t r ì n h thiế t kê hệ t h ô n g từ mô h ình dữ liệu đã xây dựng. Các t iế n g địa phương v iệt


28

P han Huy K hánh

Nam khác n h ư B ìn h -T rị-T h iê n -H u ế, xứ Quảng, N a m T r u n g Bộ, N a m Bộ
sẽ tiếp
tục được đưa vào một CSDL từ vựng lớn hơn cũng từ mô h ìn h này. Riêng những vấ n
đề về p h á t âm theo đ ún g giọng địa phương chưa được giải quyết trong p hạ m vi bài
báo.
2. X ây d ự n g m ô h ì n h d ữ liệ u từ v ự n g
2.1. Mô h ì n h ý n i ê m d ữ liê u
Dựa theo cấu trúc của một sô" từ điển tiếng Việt (8, 9, 10, 11, 12) và [1], từ điển
tin học TĐPN T là một tập hợp các mục từ. Mỗi mục t ừ được p hiên theo cách viết
(phục vụ p h á t âm) và có t ừ một đến nhiều cách giải nghĩa. Mỗi cách giải nghĩa
tương ứng với một từ loại (word-category) và có từ một đến n h iều nghĩa phổ thông
(popular meaning). Mỗi nghĩa phổ thông có th ể có ví d ụ : một hoặc nh iều cụm từ,

t h à n h ngữ (phrase), câu (sentence) được trích r a từ 5 th ể loại : ca dao, h á t giặm, h á t
phường vải, h á t ví và hò-vè Nghệ-Tĩnh. Để đơn giản, các mục t ừ đồng âm nhưng
khác cách giải nghĩa trong [1] đều chỉ được xem là một mục từ. M ặ t khác, mỗi nghĩa
phổ thông x u ấ t hiện trong CSDL được quy ước là “duy n h ấ t ” (dãy ký tự có m ặt một
lần). Các từ ngữ phổ thông không đưa vào làm mục từ trong từ điển.

H ình 1. Mô hình thực thể-kết hợp cho từ điển tin học TĐPNT.
Mô h ìn h có 5 thực thể: mục từ (NT_ENTRY), cách giải nghĩa
(EXPLANATION), nghĩa phổ thông (MEANING), cụm t ừ (NT_PHRASE) và câu
(NT_SENTENCE). Mỗi thực thể có một khóa là thuộc t í n h được in đậm, ví dụ
NT_Entry. Các kết hợp giữa các thực thể đều là p h â n cấp, có ha i cặp b ả n số là (1-n)
và (1-1). C hẳ n g hạ n, kết hợp giữa ha i thực t h ể NT__ENTRY và EXPLANATION được
hiểu là : mỗi mục từ có tối th iể u 1 và có tối đa n > l cách giải nghĩa, mỗi cách giải
nghĩa chỉ thuộc về 1 và chỉ 1 mục từ. Trong h ìn h 1, mỗi thực t h ể là một h ìn h chữ
nhật, môi kết hợp p h â n cấp là một hìn h ôvan nối với thực t h ể b ằ n g các đoạn t h ẳng
ghi bản sô" (cặp các sô n g uyên 0, 1, n).


Mô h ìn h d ử liêu từ vưng của từ đ iển tin hoc..

29

Ví dụ mục từ b ư n g (trong [1] có 4 mục từ riêng) có bốn cách giải nghĩa dựa
theo mô h ì n h ý niệm n h ư sau :
1. b ứ n g là động từ , có một nghĩa phổ thông là m ư n g (nói về m ụ n n h ọt hay vết
thương sưng to, p h á t sốt). Ví d ụ bưrtg mủ.
2 . b ư n g là d a n h từ , có một nghĩa phổ thông là tấm ch e .
Ví dụ, vè N g h ệ - T ln h :
L ấy tơi nón che sương
Đất là m bưrtg che gió

3. b ứ n g là động từ , có một nghĩa phổ thông là che lại, bịt lại.
Ví dụ, h á t giặm N g h ệ -T ĩn h :
G ánh m ột g á n h đấ t
Vắt được ba tră m cái nồi
Đập một con đồi
B ư ng được mười cái trống
4. b ư n g là động từ , có hai nghĩa phổ thông.
- bê (dùng t a y n â n g hay bê lên). Ví dụ, h á t giặm N g h ệ - T ĩn h :
Cỗ bàn rập rinh
B ư n g ra ha i dãy
Ví d ụ khác, h á t giặm N g hệ -T ĩn h :
Cỗ n ă m m ột bưng ra
- khiêng. Ví dụ h á t giặm Ngh ệ -T ĩnh :
Hòn đ ấ t to bưng m à nỏ nổi
2.2. M ô h ì n h lô g ic h d ừ liệ u
Bưốc tiếp theo, chuyển mô h ì n h ý niệm dữ liệu về mô h ì n h lôgic dữ liệu, dạng
các bảng dữ liệu và môi q u a n hệ (liên kết lôgic) giữa chú n g (có t h ể biểu diễn bởi lược
đồ các q u a n hệ).
EXPLANATION

NT_
NT_

PHRASE

VjSENTENCE^
NT_Sentence
NT_Genre

H inh 2. Mô hình logic dữ liệu cho từ điển tin học TĐPNT.



30

Phan H uy K hánh

Cách chu y ển đổi được thực hiện n h ư sau : mỗi thực th ể của mô h ìn h ý n iệm dữ
liệu trở t h à n h một bả n g dữ liệu có cùng k hóa với thực thể. Kết hợp giữa h a i th ực th ể
trở t h à n h q u a n hệ giữa hai b ả n g bằng cách đ ặ t th êm vào b ả n g “con” (phía b ả n sô' 11) khóa “ngoại” là khóa của b ả n g “c ha ” (phía b ả n sô" 1-n). C h ẳ n g h ạ n th ực thể
EXPLANATION t h à n h b ả n g EXPLANATION có khóa ngoại là NT _Entry. Mối q u a n
hệ m ộ t-n h iều giữa các b ả n g là các đường mũi tên tron g h ì n h 2 với quy ước chiều đi
từ một đến nhiều.
Từ đây, dữ liệu t ừ vựng được cập n h ậ t trực tiếp vào các b ản g để n h ặ n được các
tệp CSDL v ậ t lý ở một tro n g các d ạ n g q u en thuộc tron g Windows, n h ư Access MDB,
FoxPro DBF, h a y Excel XLS. Để cập n h ậ t dữ liệu được t h u ậ n tiệ n và sử d ụ n g hệ
thông k hai th ác từ điển đã có ( th am khả o [2, 4, 5, 6, 7]), ch ún g tôi đã sử d ụ n g mẫu
văn b ả n WinWord (docum ent tem p late) để làm mô h ì n h logic dữ liệu. Mô h ì n h biểu
diễn CSDL từ vựng của từ điển tin học TĐ PN T có đạn g tổng q u á t nh ư sa u :
Cấu trúc mâu văn bản

Giải thích

N TJE ntry

M ụ c từ

N T_Pronciation

P h iê n cá ch v iế t của m ụ c từ (đ ề p h á t â m )


EXPL_Num_1

Cách giải nghĩa l

EXPL_Category_1

T ừ lo ạ i

Meaning_1.1

Nghĩa phổ thông 1 cho cách giải nghĩa 1

NT Phrase 1.1.1

Cụm từ 1 ví dụ cho nghĩa

N T_P hrase_1.1.K

Cụm từ thứ K, K> 0, ví dụ cho nghĩa PT 1

NT_G enre_1.1.1

Thể loại ví dụ cho nghĩa PT 1

N T_Sentence_1.1.1

Câu tương ứng với thể loại 1

PT


1

•«•
N T G enre 1.1. L

Thể loại thứ L, L> 0, ví dụ cho nghĩa PT 1

N T_ S en ten ce _1 .1 .L

Câu

M eaning_1.M

EXPL_Num _N

tương ứng

vớ i

thể

lo ạ i

L

Nghĩa phổ thông M, M> 1, cách giải nghĩa 1
Cách giải nghĩa thứ N, N> 1

H ìn h 3. Mẫ u văn b ản WinWord của từ diển tin học TĐPNT.
Mẫu v ăn b ả n gồm các d ạ n g thức (style). Mỗi d ạ n g thức t h ể hiện c ách định

d ạn g (format) một đoạn v ă n b ả n ( p a r a g r a p h ) là cách sử d ụ n g phông chữ (font) trong
đoạn và th ể thức t r ì n h bày đoạn. H ìn h 4 dưới đây m in h hoạ nội d u n g c ủ a mục từ
bưng.


Mô h ìn h d ữ liêu từ v ư n g của từ điển tin hoc..

31

Ví dụ mục từ bung

Tên dạng thức tương ímg

bưng
BUWNG
1
động từ
mưng (mụn nhọt hay vết thương sưng to, phát)
bưng mủ
2
danh từ
tấm che
vè Nghệ Tĩnh :
Lấy tơi nón che sương
Đất làm bung che gió
3
động từ
che lại, bịt lại
hát RỈặnt Nghệ Tình :
Gánh một gánh đất

Vắt được ba trăm cái nồi
Đập một con đồi
Bung được mười cái trống
4
động từ
dùng tay nâng hay bẽ lên
hát giạm Nghệ Tĩnh :
Cô bùn rập rình
Bung ra hai dãy
hát giam Nghệ Tĩnh :
Cô năm một bimg ra
khiêng
hát giạm Nghệ Tĩnh :
Hòn đất to bưng mà nò nối

N T E n try
NTPronciation
EXPLNum
EXPLCategory
Meaning
N T P h rase
EXPLJNum
EXPLCategory
N T Genre
NTSentence
EXPL Num
EXP L Category
Meaning
N T Genre


NTSentence
EXPL Num
EXPLjCategory
Meaning
N T Genre

NTSentence
N T Genre
NTJSentence
Meaning
N T Genre
NT Sentence

H ìn h 4. Ví dụ mục từ bưng của từ điển tin học TĐPNT.
Từ điển tiếng địa phương Ngh ệ -T ĩn h [1] có t ấ t cả 5901 đơn vị mục từ được sắp
xếp theo t h ứ tự của 30 chữ cái : A(53), Ả(43), Â ( l l ) , B(528), C(891), D(312), Đ(395),
DZ(54), E(12), Ê(7), G(238), H(204), 1(12), K(238), L(416), M(437), N(678), 0(36),
0(29), ơ(3), P ( 66), Q(40), R(273), S(196), T(397), TL(15), U(14), Ư(22), V(168),
X(113). Các con sô" trong cặp d ấu ngoặc đứng sau mỗi chữ cái là số lượng mục từ
tương ứng.
Từ mô h ìn h lôgic dữ liệu, xây dựng được một sơ đồ XML ( ex tensible M a r k u p
Language) [3, 8, 13] b ằ n g cách sử d ụ n g lại tên các d ạ n g thức tro n g m ẫ u v ăn b ản
WinWord t r ê n đây cho các th ẻ (tag) XML.


32

P han H uy K hánh

<?xml version= "1.0" ?>

result-ns="" />
<!DOCTYPE dictionary SYSTEM "td d p n r>
<dictionary n a m e -' TD D P N T" source-language="en" target-language="en,vn">
<dictionary>
<NT_Entry> bưng
<N T_P ronciation> /BUVVNG/ </N T_Pronciation>
<EXPL_N um > 1 </EXPL_Num >
<EXPL_C ategory> động từ </EXPL_C ategory>
<M eaning> mưng (mụn nhọt hay vết thương sưng to, phát) </M eaning>
<N T_Phrase> bưng mù </N T_Phrase>
<EXPL_Num > 2 </EXPL_Num >
<EX P L_C ategory> danh từ </EXPL_C ategory>
<M eaning> tấm che </M eaning>
<N T_G enre> vè Nghệ Tĩnh : </NT_Genre>
<N T _ Sentence>
Lấy tơi nón che sương
Đắt làm bưng che gió </N T_ Sentence>
</NT_Entry>
</dictionary>___________________________________________________________________________________

H ình 5. Sơ đồ XML tổ chức dữ liệu cho từ điển tin học TĐPNT.
Trong sơ đồ, sau p h ầ n tiêu đề k hai báo phiên b ả n của XML và một SC) khai báo
tuỳ chọn khác, là k h a i báo cấu trúc của từ điển gồm các k hai báo mục từ n ằ m giữa
cặp thẻ là <dictionary> và </dictionary>. Mỗi mục từ, n ằ m giữa cặp thẻ
<N T_Entry> và </NT_Entry>, là một tổ hợp các p h ầ n tử XML tương ứng vối các
đoạn của m ẫu văn b ả n biểu diễn cấu trúc lôgic của từ điển tin học TĐPNT. Ví dụ
p h ầ n t ử <EXPL_Category>
</EXPL_Category>, V. V
Từ cách biểu diễn này, ta n h ậ n được các tệp XML có tên tệp (filename) chứa

p h ầ n mở rộng là XML. Để gọi được t r ì n h duyệt du y ệt xem các tệp XML, cần xây
dựng tệp định ng hĩa kiểu v ăn b ả n DTD (Document Type Definition) và tệp định
nghĩa kiểu t r ì n h bày c s s (Cascade Style Sheet).
2.3. C h o n bộ m ã tiế n g V iêt
Dữ liệu của t ừ điển tin học TĐ PN T là tiếng Việt n ên cần p h ả i chọn một bộ mã
để biểu diễn. Cho đến nay đã có n hiều bộ mã tiếng Việt khác n h a u được xây dựng và
được sử dụng q uen thuộc ở Việt n a m n h ư TCVN3-ABC, Vietw are, VNI, BK
TPHCM
H ầ u h ế t các bộ mã này đều được xây dựng t r ê n bộ mã ÁS CII (1) mở rộng,
sử dụng 128 vị trí sa u bảng, từ 129 đến 256, theo phương p h á p "dựng sẵn" (mã hoá
cả 134 chữ Việt viết hoa, viết thường, ghép nguyên âm và d ấ u th an h ). Vì chưa có
một bộ mã tiếng Việt thông n h ấ t (2) , việc trao đổi tìm kiếm t hô n g tin tro n g máy tính,
trên các t r a n g Web, gặp n hiều khó k h ă n và p hiền phức. Giải p h á p t r u n g gian của
(!) Hầu hết các bộ mã tiếng Việt hiện nay khác nhau về số bai (byte) sử dụng (1 bai hoặc 2 bai), về cách
sắp xếp thú tự các dấu thanh, và về cách bố trí các chữ Việt có dấu (dựng sẵn) trong bộ mã...
*2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống nhất tất cả các bộ mã tiếng Việt.


Mô h ìn h d ừ liêu từ vitng của từ điển tin hoe..

33

chúng tôi là sử d ụ n g một bộ mã trục (pivot code) để ch u yển đổi qua lại dễ dàng giữa
các bộ mã. Telex được chọn làm mã trục do telex chỉ sử d ụ n g các ký tự ASCII và
q uen thuộc với n h iề u người. Ví dụ chuyển từ TCVN3-ABC q ua telex và từ telex qua
Unicode, v.v
Mã telex đã được chọn để biểu diễn dữ liệu từ vựng tiếng Việt của từ
điển [4, 5].
2.4. N h ả p n g u ồ n d ử liệ u cho từ đ iê n
Nguồn dữ liệu cho từ điển tin học TĐPNT chủ yếu được lấy từ [1]. Chúng tôi

đã sử d ụ n g phương p h á p đ á n h dấu quy ước cho trong bảng 6 dưói đây để thao tác
cập n h ậ t được dề d à n g và t ă n g được tốc độ n h ậ p dữ liệu cho nguồn:
Dãy kỷ tự

Vị trí

Kiêu đoạn (style)

@
n

đầu đoạn

NT_Entry

@bưng

đầu đoạn

EXPL_Num

1

Space/Tab

đầu đoạn

EXPL_Category

.


đầu đoạn

NT_Phrase

.bư ng m ủ

.k

đầu đoạn

NT_Genre

.5

/

cuối đoạn NT_Sentence

Ví dụ gõ vào

Kêí quà sau khi xử lý
bưng

1
dt

động từ

Lấy tơi n ón ch e

s ư ơ n g /Đ ấ t làm
bư n g c h e g ió

bưng IĨ1Ù
vè N g h ệ Tĩnh :
Lấy tơi nón che sương
Đất làm bưng che gió

H ìn h 6. Bảng đánh dấu quy ưốc nhậ p dữ liệu.
Người sử d ụ n g (NSD) n h ậ p dữ liệu tiếng Việt b ằ n g phương p h á p telex trên
một tr ìn h soạn th ảo v ă n b ả n tùy ý, không n h ấ t th iế t định d ạ n g (như NotePad, hoặc
NC Editor ), hoặc n h ậ p trực tiếp trên các t r a n g v ăn b ả n WinWord theo m ẫu văn
bản đã xây dựng t r ê n đây. Kiểu đoạn của mỗi đoạn được xác đị nh bởi đ ặ t th êm một
dãy ký tự quy ước tương ứng cho trong bảng, hoặc ở vị tr í đ ầ u đoạn, hoặc ở cuối
đoạn, rồi kết thúc bởi p h ím E n t e r (tương đương với ký hiệu p a r a g r a p h - m a r k ìl). Giá
trị của n = 1, 2
cho biết đó là cách giải nghĩ a th ứ m ấy tr o n g mục từ. Các từ loại
được quy ưốc viết t ắ t n h ư sau :
d

d a n h từ

dg
t
d

ph ụ từ, h ay tổ hợp p h ụ từ

động từ


p
k

tín h từ

tr

trợ từ, hay tổ hợp trợ từ

đại từ

th

t h á n (cảm) từ, h ay tổ hợp t h á n từ

kết từ, hay tổ hợp k ế t từ

Giá trị k = 1...5 được quy ước lần lượt là ca dao, h á t giặm, h á t phường vải, h á t
ví và h á t vè N g hệ-Tĩnh. Ký hiệu / để n g ắ t dòng các câu trích đoạ n ví dụ tương ứng
với th ể loại k, tương đương vối ký hiệu J ( m an u a l- lin e- b r e ak ) . Các đoạn nghĩa phổ
thông được gõ bì nh thường, không cần đ ặ t các ký tự quy ưỏc. Cuối cùng, NSD cũng
không cần gõ p h ầ n p h iê n theo cách viết theo kiểu gõ telex vì sẽ được tạo ra một cách
tự động. Toàn bộ dữ liệu được lưu trữ trong 21 tệp có tên là chữ cái đầu của các mục từ
trong tệp lần lượt là A, B, c, D, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u, V và X. Như
vậy, CSDL nguồn cho từ điển tin học TĐPNT đã được tạo xong gồm các tệp văn bản
đánh dấu quy ước ở dạng mã ASCII. Ví dụ một đoạn mã tương ứng với mục từ bưng:


34


P han Huy K hánh
@ buwng

1
dg
muwng (m ujn nhojt hay veest thuw owng suwng to, phast)
.buwng mur

2
d
taasm che

.4
Laasy towi nosn che suw ow ng/D D aast lafm buwng Che gios

3
dg
che taji, bijt laji

.2
Gasnh m oojt gasnh d d a a s W a w s t dduw ow jc ba trawm casi noofi/DD aajp m oojt con ddoofi/Buwng
dduw ow jc m uwowfi casi troosng

4
dg
dufng tay naang hay bee leen

.2
Coox bafn raajp rifnh/Buw ng ra hai daxy


.2
Coox nawm moojt buwng ra
khieeng

.2
Hofn ddaast to buwng m af nor noori_________________________________________________________

H ình 7. Đoạn dữ liệu nguồn đá nh dấu quy ước của mục từ bưng trong mã telex.
Từ các tệp dữ liệu nguồn đ á n h dấu quy ưốc, dễ d à n g viết các t h ủ tục b ằng
Macro VBA để chuyển c húng sang văn bản WinWord DOC/RTF nhờ một t h u ậ t toán
tổng q u á t ở hìn h 8 . Nếu nguồn dữ liệu tiếng Việt đã ở d ạng mã telex, có t h ể sử dụng
trìn h chuyển mã của ƯniKey, hoậc VietKey, v.v
để chuyển từ mã telex t h à n h mã
TCVN3-ABC, Unicode, hoặc chuyển san g một bộ mã nào đó mong muôn, trước khi
chuyển sa n g văn b ả n WinWord.
Thuật toán 1 : C onvert_S rcText_to_W inw ord_D ocum ent

Khởi tạo các biến làm việc trung gian
Xác định các tệp nguồn
Do While Chưa hết tệp nguồn
Mờ một tệp nguồn
Xác định các tham biên tìm kiếm/thay thế
Xác định kiêu đoạn cần thay thế : R eplacem ent.style

= NT_Entry

Do W ith Selection.Find

.Text = Dãy ký tự đánh dấu quy ước, chằng hạn


“. k \ ..

R eplacem ent.Text = " "
.Forward = True
.W rap = w dFindC ontinue
.Form at = True
End W ith
S election.F ind.E xecute Replace := wdReplaceAII
Loop Until X ử lý hết các dãy ký tự đánh dấu quy ước

Loop
‘ Hết tệp nguồn
Ket thúc
H ình 8. T h u ậ t toán chuyển nguồn sang văn bản WinWord.

Jh.


Mô h ìn h d ử liêu từ v ư ng của t ù điên tin hoc..

35

Tuy nhiên, do việc chuyển mã không q u á phức tạp n ên ch ú ng tôi đã xây dựng
t h u ậ t to án 2 (Convert_TelexCode_to) để giải quyết vấn đề. Các bước xử lý tương tự
t h u ậ t to á n 1, là xây dựng một vòng lặp tìm kiếm các đoạn mã telex của mỗi chữ Việt
có dấu (nguồn) trong tệp văn b ả n đang mở để t h a y t h ế bởi mã (đích) tương ứng. Đầu
tiên là xử lý (tìm kiếm /th a y thế) các đoạn m ã telex có độ dài 3, c hẳng h ạ n aaf/ầ,
aar/ẩ , sa u đó xử lý các đoạn mã telex có độ dài 2, c hẳng h ạ n aa/â, aw/ă
Trong
trường hợp cần tạo nguồn t ừ dữ liệu tiếng Việt không ở mã telex, t h u ậ t toán 3

(Convert_to_TelexCode) thực hiện chuyển từ mã hiện h à n h t h à n h mã telex. Có th ể
minh hoạ quá t r ì n h ch uyển dữ liệu nguồn đ á n h dấu quy ước sang các tệp văn b ản
W i n W o r d t r o n g m ộ t m ã đ í c h n à o đó, c h ẳ n g h ạ n TCVN3-ABC, t r o n g t h u ậ t t o á n s a u :
Xác định các tệp nguồn đánh dấu quy ước
If
Mã nguồn là telex
Then
C onvert_T elexC ode_to ‘X ử lý chuyên mã từ telex sang TCVN3-ABC
Else
C onvert_to_T elexC ode ‘ Xừ lý chuyên mã từ TCVN3-ABC sang telex
End If

Xác định lại các tệp nguồn có mã là TCVN3-ABC
C onvert_S rcText_to_W inw ord_D ocum ent

H ìn h 9. T hu ật toán chuyển mã.
Sau khi ch uy ển nguồn đ á n h d ấu quy ước và chuyển mã, c h ú n g tôi n h ậ n được
CSDL t ừ vựng của từ điển tin học TĐPNT d ư ớ i d ạn g các tệp văn b ả n W i n W o r d
DOC/RTF. Từ đây có thể in ra giấy thành từ điển tra cứu theo mẫu in tùy ý, hoặc
chuyển sang HTML/XML để sử dụng các trình duyệt [5, 6], hay cài đặ t trên CD-ROM.
3. X ây d ự n g t ừ đ i ể n t i n h ọ c T Đ P N T
Cửa sổ làm việc c h ín h của t ừ điển t in học TĐ PN T N g h ê - T in h Dialectal
Dictionary gồm 4 vùng. Vùng 1 có t h a n h tiêu đề ở t r ê n cùng và t h a n h t r ạ n g t h á i ở
dưới cùng của cửa sổ. Vù ng 2 gồm các lệnh HệThông, ThaoTác, và TrợGiúp. Vùng 3
gồm các n ú t l ệ n h dễ n h ậ n biết sử dụng. Vù ng 4 để t r a cứu từ điển, gồm cột danh
sách các mục t ừ bên t r á i và nội dung tương ứng ở cột bên phải. Hệ t hô n g t r a cứu từ
điển TĐ PN T được p h á t triể n từ mã nguồn mở của hệ t h ô ng k h a i thác CSDL từ vựng
đa ngữ [5, 6 , 7]. Nguyên tắc h oạt động của hệ thông n h ư sa u : các tệp dữ liệu văn
bản DOC được ch uy ển đổi t h à n h RTF trước k hi chuyển đổi sa n g CSDL t r u n g gian
Access MDB nhò các lệnh chuyển (data import). Tiếp theo, hệ t h ôn g đưa k ế t quả lên

m àn h ì n h để ph ụ c vụ t r a cứu.


36

P han Huy Khánh
•Ì5 Nghê-Tinh Dialectal Dictionary
Hệ thống IhôOĨđc Trdộúp

im

l

i

a

£)

M.

<0; ~ Ỵ

j ặ

*

i

ÌÉ H

bựa v ô
bức
bức chì
bức ki
bức má
bức vôi
bứi _____________

u

s

- -----—....„......... .........>..—
.... —
■ —

m

bưng

/s
*

BUWNO

1
động từ
mưng (mụn nhọt hay vết thương sưng to, phát)
bưng mủ


2

bừng
bựng
bươi
bư&i bị
bư&i đường
bười đường đúc
bười Phúc Trạch
bưỡi Tàu
bứt
bữtcò.bỏ ì&m

danh từ
tấm che

vè Nghệ Tĩnh :
Lây tơi nón che sương
Đất lảm bưng che gió

3
động từ

V

NUM

Typ* or click from Hal Box.

5:23 PM


V «r4on1.1

H ìn h 10. Giao diện ch ín h của t ừ điển tin học T Đ PN T.
Các th ao tác n h ư sa u : khi sử d ụn g N g h ê - T in h D ia le ctal Diction ary lầ n đầu
tiên, hệ thông đư a ra lời nh ắc NSD cần đọc CSDL từ vựng (giai đ o ạ n i m p o r t d a t a to
dictionary) từ các tệp v ăn b ả n WinWord RTF để ch uy ển t h à n h CSDL t r u n g gian
Access MDB. B ằ n g cách gọi lệnh đơn Chuyển dữ liệu, chọn mục việc Tạo CSDL mới,
khi đó, lần lượt các tệp v ăn b ản RT F nguồn được chuyển t ả i vào t ừ điển. N h ữ n g lần
chạy chương t r ì n h sa u này, hệ thông mặc n h iê n sử d ụ n g CSDL t r u n g gian MDB đã
có sẵn. Tuy nhiên, NSD v ẫn có th ể chọn lệnh bổ sung dữ liệu mối từ m ộ t tệp văn
b ả n nguồn RTF hợp lệ (lệnh Kết nối vào CSDL), hoặc mở lại CSDL MDB đ ã có (lệnh
Mở CSDL có sẵn) t u ỳ theo yêu cầu. H ìn h 11 m inh họa hộp t h o ạ i c ủ a lệnh HệThỐngChuyể n dữ liệu.
•ỉa Im port

Data

N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf

Đích MDB

r

):VT.úD«wPNQhéTinrm DĐPNT MDB

Chọn việc

Mờ CSDL có Bẩn

Chấp n h ậ n ị


Kết nối vào CSDL
r lạ o CSDLmới

Hủy

H ìn h 11. Hộp tho ại lệnh đơn đọc dữ liệu n g uồ n vào t ừ điển.


Mô h ìn h d ữ liêu từ v itng củ a từ điển tin hoc..

37

Khi từ điển đã có dữ liệu và sẵn sàng làm việc, NSD tìm chọn để đọc-xem một
mục từ từ d a n h sách các mục từ đã được sắp xếp theo t h ứ tự chữ cái (xem mục 2.1
t r ê n đây) và d ấu t h a n h : kh ô n g dấu, huyền, ngã, hỏi, sắc, nặng. NSD có th ể sao chép
m ụ c t ừ v à i n r a g i ấ y n ộ i d u n g m ụ c t ừ đó, h a y có t h ể s ử a l ạ i m ụ c t ừ n h ờ l ệ n h

ThaoT ác-Sửa lại Mục t ừ (p hím t ắ t AE). Hệ thống cho phép NSD tìm xem lại một
mục từ hoặc các mục t ừ đã t r a trước đó từ một d a n h sách, hoặc t h ê m một mục từ
mới, hoặc xoá bỏ m ộ t mục từ.
He thong K
1

J 2 P TroGiup

chuyen Du Lieu

ĩhaoĩac Q Q 5 ỊỊQ Ị


1

Q rl+ Ỉ

Ị1 1

In Noi dung Muc tu ctrl+p

1

Thoat

F4

Dóc Xem Mùc tu

Ctrl+R

Sua lai Muc tu

Ctrl+E

Thêm Muc tu moi

Ctri+A

Xoá Muc tu

Ctrl+D


Danh sách Tu da tra Ctrl+H

FI
í
'
L

Muc tu truoc

F3
1
H ìn h 12. Một số lệnh đơn của từ điển tin học TĐPNT.
Khi chạy chương t r ì n h , NSD nhắp chuột tại n ú t đọc
nghe đọc một mục từ b ấ t kỳ h iện đan g t r a cứu.

t r ê n t h a n h công cụ để

4. K ế t l u ậ n
Từ điển tin học T Đ P N T chạy trong Windows 9x. Đây là một đóng góp của
ch úng tôi trong q u á t r ì n h n g h iê n cứu ứng dụng tin học cho lĩnh vực xử lý ngôn ngữ
tự nhiên, xử lý tiế n g Việt, góp p h ầ n giải quyết từng bước n h ữ n g vấn đề đa ngữ của
tiếng Việt đ ặ t ra. T r o n g bối c ả n h này, chúng tôi đã và đ a n g tiếp tục nghiên cứu xử
lý tin học về tiế ng Việt n h ư xử lý văn b ản tiếng ÊĐê, tiếng Chăm, chữ H á n (tiêng
T ru n g quốíc, t r ê n cơ sở t ừ H án-Việt) và xây dựng các từ điển đơn ngữ, đa ngữ
Từ điển tin học T Đ P N T giúp NSD nghe hiểu được lời nói, chữ viết khi tiếp xúc
với người N g h ệ - T ĩn h , hiểu th ê m về lịch sử tiếng Việt, hiểu t h ê m b ả n sắc v ăn hoá
địa phương của một v ù n g đ ấ t miền Trung. Từ điển giúp dạy-học môn Tiêng Việt
được tốt hơn. Từ k ế t q u ả đã có, có th ể xây dựng một công cụ kiểm sửa lỗi ch ín h tả,
ngữ pháp mà NSD, người N ghệ-Tĩnh, thường mắc phải. Đây cũng là n h ữ n g yêu tô
cần thiết để tiếp tục xây d ự n g các từ điển tin học tiếng địa phươ ng khác t r ê n đất

nước Việt Nam.
Với nguồn dữ liệu từ vựng đã có và với k h ả n ă n g cập n h ậ t, sửa đổi, từ điển có
thể tiếp tục được bổ s u n g mục từ, các trích đoạn từ các th ể loại hò, h á t giặm, h á t
phường vải, h á t ví, h á t vè, h a y trích đoạn văn, thơ, ca dao... có sử d ụ n g các từ địa
phương N g hệ -T ĩn h . Để t ừ điển tin học TĐPN T trở t h à n h một s ả n p h ẩ m hoàn chỉnh,
được p h á t triể n và p h ổ b iến sử d ụ n g rộng rãi theo hướng mã ng uồn mở, thoả mãn
điều kiện mã tiế n g Việt đọc đượ c (readability),
cần tiêp tục bổ s un g các chức năn g
mới cho N g h ê - T in h D iale ctal Dictionary như k h ả n ă n g t r a chéo mục từ (tra cứu một
từ nằm trong p h ầ n giải nghĩa), t r a cứu b ằ n g n h iề u phương p h á p (click-and-see,
autolook

), t ì m đ ư a r a c á c c â u n ó i t i ế n g đ ị a p h ư ơ n g t ư ơ n g đ ư ơ n g , v . v


P h a n H uy K h á n h

38

Lời c ả m ơn: Bài báo tham khảo kết quả đồ án tốt nghiệp kỹ sư ngành CNTT của
em Lê Thị Phương, sinh viên khoá 1998, đã bảo vệ th àn h công th án g 6/2003: “Xây dựng
từ điển địa phương tiếng Nghệ-Tĩnh” do tác giả hướng dẫn trực tiếp, tại khoa CNTT và
ĐTVT, trường Đại học Kỹ thuật, Đại học Đà Nằng. Tác giả chân th à n h cảm ơn.
Tài liệu t h a m k h ả o
1.

Nguvền Nhã Bản, Phan Mậu Cảnh, Hoàng Trọng Canh, Nguyền Hoài Nguyên, Từ
điển tiếng địa phương N g h ệ -ĩĩn h , NXB Văn hóa Thông tin, Hà Nội, 1999, 460tr.

2.


Phan Huy Khánh, Thiết kế từ điển phát âm tiếng Việt trong Microsoft Windows,
Tạp chí Khoa học Công nghệ. Số 19+20, 1999, tr.21-27.

3.

Phan Huy Khánh (chủ trì), Thiết kê hệ thông khai thác cơ sở dữ liệu từ vựng đa ngừ
Pháp-Anh-Việt, Đề tài N C K H cấp Bộ, m ã sô B2001-15-04, Đà N a n g 2001-2002,
Lưu Bộ Giáo dục và Đào tạo.

4.

Phan Huy Khánh, Võ Trung Hùng. Thiết kế cơ sỏ dữ liệu đa ngữ ngữ pháp tiếng
Việt. Tạp chí Khoa học Công nghệ, No 36+37, 2002, tr. 19-24.

5.

Phan Huy Khánh, Xây dựng cơ sở dữ liệu từ vựng đa ngữ sử dụng, dạng thức văn
bản RTF WinWord, Kỷ yếu Hội thảo Khoa học Quốc gia L ần th ứ n h ấ t, ICT.rda’2003
HàNội, 2003, trl03-110.

6 . M. Mangeot-Lerebours, Environnements centralises et distribués pour lexicographes
et lexico-logues en contexte multilingue, L uận án Tiến sĩy 9/2001, UJF, CH Pháp,
ĐHTH Joseph Fourrier
7.

Hoàng Phê, Từ điên chính tả , Trun g tâm Từ điển học, NXB Đà Nẵng, 1995, 511tr.

8. Hoàng Phê, T ừ điển tiếng V iệt, Trun g tâm Từ điển học, NXB Đà Nẳng, 1997,
1130tr.

9.

Nguyền Kim Thản, N gữ pháp tiếng Việt, NXB Giáo dục, 1997, 232 tr.

10. Nguyễn Như Ý, Đại từ điển tiếng V iệt, NXB Văn hóa-T hông tin, Hà Nội 1999,
1892 tr.


Mô h ỉn h d ữ liêu từ vitng của từ điển tin hoc...

39

VNU. JOURNAL OF SCIENCE, Nat.. Sci.. & Tech., T.xx, N01, 2004

DATA MODELS FOR THE NGHE-TINH DIALECTAL DICTIONARY
P h a n Huy K h an h
The U niversity o f D anang
In th e res ea rch of n a t u r a l language processing (NLP), one m u s t always
a cc u m ulate a nd u p d a t e of more from m an y of lexical d a t a resources of
heterogeneous form ats for various applications. Thes e resources are often difficult
to m a i n t a i n a nd to m a n ip u la te . It is necessary rec o n stru ctin g a specific dictionary
for every new application. Following the m ethods of analy sis a nd design of the
inf or mation systems, it is necessary to create a d a t a conceptual model a nd th en
convert it in a d a t a logical model in order to co n stru ct a lexical d a t a base. C urrently
in Vietnam, t h ere are a lre ady some Vietnamise diction aries on computer, b u t it
doesn't exist more dialectal dictionary.
We p r e s e n t in th is p a p e r a solution of co nstru ctin g of d a t a models in order to
create a N g h e -T in h dialectal dictionary. We c on struct a n e ntity-associatio n model
to r e p r e s e n t the r e l a ti o n s h i f betw een the e n tr y (headword), explanation, popu lar
meaning, p h r a s e et sentenc e from a publish pa p e r N g h e - T in h dialectal dictionary.

This model is convert into WinWord docum ent form at to u p d a te th e Ngh e-Tinh
dialectal lexical d a t a b a s e in the pivot telex code. By using a n open sources of a
software system of consulting th e multiligua l lexical d a ta b a s e developed by us at
the Univers ity of D a n an g, we have build a first version of N g h e - T in h dialectal
dictionary on computer. The lexical resource of th is dictionary c o nta in s about 5000
entries with the possibility of u p d a te a nd rea dable. In th e sam e time, the entityassociation model is also converted into Access MDB table a nd XML format.



×