Tải bản đầy đủ (.pdf) (8 trang)

Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.18 MB, 8 trang )

146

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng
song ngữ Việt-Ê Đê
Hoàng Thị Mỹ Lệ1 và Phan Huy Khánh2
1

Trường Đại học Sư phạm Kỹ thuật, Đại học Đà Nẵng

2
Trường Đại học Bách Khoa, Đại học Đà Nẵng


Tóm tắt. Q trình truy vấn dữ liệu trong kho dữ liệu từ vựng, công việc thực hiện sắp xếp
dữ liệu theo thứ tự tăng dần hoặc giảm dần theo thứ tự ABC của mỗi ngơn ngữ là tiêu chí
cần được quan tâm trong nghiên cứu xây dựng kho dữ liệu từ vựng. Việc thực hiện sắp xếp
một bảng dữ liệu tiếng Anh theo thứ tự ABC với mệnh đề Order by trong câu lệnh SQL là
đơn giản. Bởi vì bảng mã ASCII và các hệ quản trị cơ sở dữ liệu đều dùng với bảng chữ cái
tiếng Anh. Tuy nhiên, với tiếng dân tộc thiểu số Việt Nam nói chung và tiếng Ê Đê
nói riêng, việc thực hiện sắp xếp thứ tự theo bảng chữ cái vẫn chưa được hỗ trợ và chưa
được sự quan tâm nghiên cứu của các nhà khoa học. Do đó, khi viết một lập trình cơ sở dữ
liệu cho tiếng Ê Đê gặp phải khó khăn trong việc trình bày một bảng dữ liệu sắp xếp theo
thứ tự ABC. Để giải quyết vấn đề này cho tiếng Ê Đê trong kho dữ liệu từ vựng, bài báo đề
xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm
góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê
Đê theo trật tự bảng chữ cái tiếng Ê Đê.
Từ khóa: xử lý tiếng Ê Đê, mã hóa Unicode, sắp xếp mục từ, kho dữ liệu từ vựng, truy vấn
dữ liệu.


1

Đặt vấn đề

Mọi hoạt động xử lý thơng tin trên máy tính đều liên quan đến soạn thảo văn bản. Sắp xếp là
quá trình bố trí lại các phần tử của một tập đối tượng nào đó theo một thứ tự nhất định như: tăng
dần hay giảm dần đối với một dãy số, theo thứ tự tự điển đối với các từ. Công việc sắp xếp
thường được ứng dụng thường xuyên trong các ứng dụng Tin học với các mục đích như: sắp
xếp dữ liệu trong máy tính để tìm kiếm cho thuận lợi, sắp xếp các kết quả xử lý để in ra trên các
bảng biểu. Để giải quyết vấn đề này cho tiếng Việt và tiếng Ê Đê trong kho dữ liệu từ vựng
Việt-Ê Đê [3], [4], bài báo đề xuất giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng ViệtÊ Đê , nội dung giải pháp như sau:
- Đầu tiên, thực hiện mã hóa các chữ cái tiếng Việt và tiếng Ê Đê vào một vùng liên tục để
kế thừa được phép so sánh chuỗi trong các ứng dụng lập trình.
- Chuyển các mục từ sau khi đã được mã hóa vào mảng.
- Sắp xếp mảng theo thứ tự ABC.
- Chuyển chỉ số của mảng sau khi đã sắp xếp vào thuộc tính chỉ số sắp xếp trong kho dữ
liệu tương ứng với mục từ được giải mã từ mảng.
Như vậy, sau này khi thực hiện sắp xếp các mục từ trong kho dữ liệu thay vì sắp xếp theo
thuộc tính mục từ, ta thực hiện sắp xếp theo thuộc tính chỉ số sắp xếp.


Hoàng Thị Mỹ Lệ và Phan Huy Khánh

147

2

Phương pháp mã hóa chữ cái tiếng Việt và tiếng Ê Đê

2.1


Mã hóa chữ cái tiếng Việt

Với mỗi chữ cái tiếng Việt sẽ được ánh xạ vào vùng liên tục trong bảng mã Unicode. Vùng
được chọn để ánh xạ có phạm vi từ 1F00:1F5E. Cở sở để chọn vùng này vì đây là vùng liên tục
có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Việt. Bảng 1
là bảng ánh xạ chữ cái tiếng Việt theo thứ tự ABC vào vùng kí tự Hy Lạp mở rộng trong bảng
mã Unicode.
Ví dụ: mục từ nhà trường được mã hóa
Bảng 1.

Ánh xạ chữ cái tiếng Việt vào vùng kí tự Hy Lạp mở rộng
`


148

2.2

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

Mã hóa chữ cái tiếng Ê Đê

Bộ chữ cái tiếng Ê Đê cũng được xếp vào họ La tinh, với 76 ký tự Ê Đê kể cả ký tự chữ hoa
và ký tự chữ thường như trong bảng 2 [1], [6]. Trong đó có 66 kí tự là thành phần cơ bản của
hầu hết tất cả các phơng chữ Unicode, cịn 8 kí tự
chưa có trong bảng mã
Unicode [2].
Bảng 2. Bảng chữ cái Ê Đê


Với mỗi chữ cái tiếng Ê Đê cũng được ánh xạ vào vùng liên tục trong bảng mã Unicode.
Vùng được chọn để ánh xạ có phạm vi từ 1F00:1F25. Cở sở để chọn vùng này vì đây là vùng
liên tục có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Ê Đê.
Khác với chữ cái tiếng Việt, chữ cái Ê Đê trước khi mã hóa phải thực hiện chuyển đổi các
chữ cái dạng mã tổ hợp với hai kí tự thành một kí tự để khi sắp xếp được xem như là một kí tự.
Qui định chuyển đổi các chữ cái
thành một kí tự được trình bày trong bảng 3.
Bảng 3. Bảng qui định chuyển chữ cái Ê Đê dạng mã tổ hợp thành 1 kí tự

Ánh xạ chữ cái tiếng Ê Đê và kí tự chuyển đổi tương ứng vào vùng kí tự Hy Lạp mở rộng thể
hiện trong bảng 4.


Hoàng Thị Mỹ Lệ và Phan Huy Khánh

149

Bảng 4. Ánh xạ chữ cái Ê Đê vào vùng kí tự Hy Lạp mở rộng

3

Thực nghiệm sắp xếp mục từ trong kho dữ liệu từ vựng

Thực hiện sắp xếp các mục từ trong theo thứ tự ABC, chúng tôi triển khai thực nghiệm sắp
xếp theo 4 phương pháp sắp xếp cơ bản: sắp xếp nổi bọt; sắp xếp chèn; sắp xếp chọn; sắp xếp
nhanh [5], để chọn ra phương pháp sắp xếp được sử dụng để sắp xếp các mục từ trong kho ngữ
vựng. Dựa vào thời gian thực hiện sau các lần thực nghiệm, chúng tôi chọn phương pháp sắp
xếp đưa vào giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng Việt-Ê Đê. Kết quả thực
nghiệm trên 4 mẫu, với 10 lần trên 1 mẫu, theo 4 phương pháp sắp xếp, thể hiện trong bảng 5.
Chi tiết của các lần thực nghiệm được trình bày trong bảng 6.

Qua kết quả của những lần thử nghiệm trên các mẫu tiếng Việt và tiếng Ê Đê trong bảng 5, là
cơ sở để chúng tôi chọn phương pháp sắp xếp nhanh làm phương pháp sắp xếp cho mảng chứa
các mục từ sau khi đã được mã hóa.
Bảng 5. Kết quả thử nghiệm theo 4 phương pháp sắp xếp

9.297 mục từ Ê Đê

10

Thời gian thực hiện (tính đến ‰ giây)
Sắp xếp
Sắp xếp
Sắp xếp
chọn trực
Sắp xếp nhanh
nổi bọt
chèn
tiếp
0:0:02.820 0:0:01.479
0:0:00.657
0:0:00.106

17.968 mục từ Ê Đê
11.358 mục từ
tiếng Việt
34.375 mục từ
tiếng Việt

10


0:0:09.477

0:0:04.315

0:0:04.240

0:0:0.188

10

0:0:02.290

0:0:02.286

0:0:00.268

0:0:00.265

10

0:1:14.227

0:0:02.286

0:0:13.450

0:0:00.760

Số lần
thực

nghiệm

Mẫu

Bảng 6. Bảng chi tiết các lần thử với 4 phương pháp sắp xếp

Mẫu

Lần
thử

9.297 mục từ Ê Đê

1

Sắp xếp
nổi bọt
0:0:02.952

Thời gian thực hiện
Sắp xếp chọn
Sắp xếp
trực tiếp
chèn
0:0:01.492
0:0:00.603

Sắp xếp nhanh
0:0:00.100



150

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

2
3
4
5
6
7
8
9
10
Trung bình
1
2
3
4
5
17.968 mục từ
6
7
8
9
10
Trung bình
1
2
3

4
5
11.358 mục từ tiếng Việt
6
7
8
9
10
Trung bình
1
2
3
4
5
34.375 mục từ tiếng Việt
6
7
8
9
10
Trung bình

4

0:0:02.961
0:0:02.783
0:0:02.901
0:0:02.696
0:0:02.705
0:0:02.670

0:0:03.008
0:0:02.725
0:0:02.804
0:0:02.820
0:0:09.925
0:0:08.757
0:0:08.539
0:0:09.811
0:0:09.371
0:0:10.452
0:0:09.145
0:0:09.067
0:0:10.217
0:0:09.487
0:0:09.477
0:0:02.046
0:0:02.028
0:0:02.511
0:0:02.542
0:0:01.918
0:0:02.090
0:0:02.418
0:0:02.433
0:0:02.345
0:0:02.576
0:0:02.290
0:1:14.166
0:1:13.985
0:1:14.374
0:1:13.956

0:1:14.126
0:1:14.212
0:1:14.028
0:1:13.825
0:1:15.006
0:1:14.589
0:1:14.227

0:0:01.510
0:0:01.500
0:0:01.479
0:0:01.495
0:0:01.450
0:0:01.540
0:0:01.483
0:0:01.423
0:0:01.414
0:0:01.479
0:0:04.484
0:0:04.420
0:0:04.699
0:0:05.045
0:0:03.874
0:0:03.900
0:0:04.124
0:0:03.889
0:0:04.405
0:0:04.318
0:0:04.315
0:0:01.920

0:0:02.091
0:0:02.300
0:0:02.165
0:0:01.991
0:0:02.741
0:0:02.314
0:0:02.223
0:0:02.870
0:0:02.240
0:0:02.286
0:0:18.910
0:0:19.425
0:0:17.841
0:0:19.410
0:0:21.091
0:0:17.862
0:0:20.420
0:0:18.798
0:0:18.688
0:0:19.983
0:0:02.286

0:0:00.664
0:0:00.595
0:0:00.624
0:0:00.631
0:0:00.587
0:0:00.715
0:0:00.703
0:0:00.723

0:0:00.730
0:0:00.657
0:0:04.829
0:0:04.807
0:0:03.490
0:0:03.802
0:0:03.725
0:0:04.463
0:0:04.845
0:0:04.876
0:0:03.741
0:0:03.829
0:0:04.240
0:0:00.239
0:0:00.247
0:0:00.309
0:0:00.330
0:0:00.235
0:0:00.257
0:0:00.235
0:0:00.343
0:0:00.252
0:0:00.232
0:0:00.268
0:0:12.168
0:0:13.462
0:0:14.679
0:0:14.835
0:0:12.963
0:0:12.651

0:0:13.806
0:0:13.868
0:0:12.731
0:0:13.338
0:0:13.450

0:0:00.099
0:0:00.103
0:0:00.111
0:0:00.110
0:0:00.104
0:0:00.099
0:0:00.111
0:0:00.110
0:0:00.117
0:0:00.106
0:0:0.162
0:0:0.163
0:0:0.207
0:0:0.196
0:0:0.165
0:0:0.162
0:0:0.199
0:0:0.197
0:0:0.230
0:0:0.205
0:0:0.188
0:0:0.340
0:0:0.250
0:0:0.225

0:0:0.240
0:0:0.234
0:0:0.286
0:0:0.220
0:0:0.350
0:0:0.241
0:0:0.267
0:0:00.265
0:0:0.795
0:0:0.686
0:0:0.826
0:0:0.748
0:0:0.795
0:0:0.875
0:0:0.842
0:0:0.592
0:0:0.717
0:0:0.733
0:0:00.760

Kết quả thực nghiệm

Hiện nay, nếu với mệnh đề Order by của câu lệnh truy vấn, kết quả sắp xếp theo thứ tự ABC
của các thuộc tính kiểu chuỗi tiếng Việt, với các kí tự chữ cái có dấu và chữ đ khơng có được
kết quả thứ tự ABC trong tiếng Việt.
Kết quả khi dùng mệnh đề Order by trong câu lệnh SQL thể hiện trong hình 1 và hình 2.
Hình 1 thể hiện kết quả khi thực hiện câu truy vấn Select Viet From VIET Order by Viet . Hình


Hoàng Thị Mỹ Lệ và Phan Huy Khánh


151

2 thể hiện kết quả khi thực hiện câu truy vấn Select Viet From VIET Order by CS_SX, thuộc
tính CS_SX là thuộc tính được thêm vào theo giải pháp sắp xếp các mục từ trong kho dữ liệu
Việt-Ê Đê đã trình bày trên.

Hình 1. Kết quả thực hiện lệnh sắp xếp với mục từ tiếng Việt

Hình 2. Kết quả thực hiện lệnh sắp xếp mục từ tiếng Việt với chỉ số sắp xếp khi đã mã hóa

Với chữ cái tiếng Ê Đê, cũng gặp phải trường hợp tương tự như tiếng Việt. Ngoài ra, tiếng Ê
Đê cịn có thêm trường hợp xử lý các chữ cái được tổ hợp theo dạng mã tổ hợp.
Kết quả khi dùng mệnh đề Order by trong câu lệnh SQL thể hiện trong hình 3 và hình 4.
Hình 3 thể hiện kết quả khi thực hiện câu truy vấn Select Ede From EDE Order by Ede . Hình
4 thể hiện kết quả khi thực hiện câu truy vấn Select Ede From EDE Order by CS_SX, thuộc
tính CS_SX là thuộc tính được thêm vào theo giải pháp sắp xếp các mục từ trong kho dữ liệu
Việt-Ê Đê đã trình bày trên.


152

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

Hình 3. Kết quả thực hiện lệnh sắp xếp với mục từ Ê Đê

Hình 4. Kết quả thực hiện lệnh sắp xếp mục từ tiếng Ê Đê với chỉ số sắp xếp khi đã mã hóa

5


Kết luận

Giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê đã thực hiện sắp
xếp trên thuộc tính chứa các mục từ tiếng Việt, tiếng Ê Đê. Kết quả sắp xếp đúng theo trật tự
bảng chữ cái tiếng Việt và tiếng Ê Đê khi dùng mệnh đề Order by trong câu lệnh truy vấn SQL
trong kho dữ liệu Việt-Ê Đê.
Giải pháp này góp phần giải quyết bài tốn sắp xếp các mục từ tiếng Việt, tiếng Ê Đê trong
kho dữ liệu từ vựng song ngữ Việt-Ê Đê theo thứ tự ABC trong câu lệnh truy vấn dữ liệu có
dùng mệnh đề Order by ứng dụng trong lập trình cơ sở dữ liệu.
Định hướng tiếp theo, chúng tôi sẽ áp dụng giải pháp này để tích hợp vào các trình ứng dụng
có soạn thảo các bảng biểu như Winword, Excel để thực hiện sắp xếp các cột hay các hàng
trong các bảng dữ liệu tiếng Ê Đê.


Hoàng Thị Mỹ Lệ và Phan Huy Khánh

153

Tài liệu tham khảo
1. Đoàn Văn Phúc: Ngữ âm Ê Đê, Khoa học xã hội, Hà Nội, 1996.
2. Hoàng Thị Mỹ Lệ, Vilavong Souksan, Phan Huy Khánh: Using Unicode in Encoding the Vietnamese
Ethnic Minority Languages, Applying for the EDe Language, Proceeding of the International
Conference on Knowledge and System Engineering, KSE 2013, HaNoi, pp. 137-148, 2013.
3. Hoàng Thị Mỹ Lệ, Phan Huy Khánh: Giải pháp xây dựng kho ngữ vựng song ngữ Việt-Ê Đê dựa trên
mơ hình tương tác Việt-Ê Đê, Số 5 (2), pp. 36–40, 2017.
4. Le Hoang Thi My, Khanh Phan Huy: Deploying environment for processing Ede ethnic minority
language in Vietnam, IEEE International Conference on System Science and Engineering (ICSSE),
2017.
5. Robert Sedgewich: Thuật tóan, NXBKH & KT, 2003.
6. Sở Giáo dục - Đào tạo DakLak: Ngữ Pháp tiếng Ê Đê, Nhà xuất bản Giáo dục, 2011.




×