1.
Quy tắc sắp xếp đơn vị từ vựng trong từ điển tiếng Việt
QUY TẮC SẮP XẾP ĐƠN VỊ TỪ VỰNG TRONG TỪ ĐIỂN TIẾNG VIỆT
Bài viết cung cấp cho bạn đọc một số quy tắc sắp xếp đơn vị từ vựng tiếng Việt.
1. Các mục từ (đơn vị từ vựng) trong từ điển được xếp theo thứ tự các chữ cái:
aăâbcdđeêfghijklmnoôơpqrstuưvwxyz
2. Theo các dấu giọng: không dấu, huyền, hỏi, ngã, sắc, nặng. Có thể cụ thể hoá hai quy tắc trên
bằng trật tự như sau:
aàảãáạăằẳẵắặâầẩẫấậbcdđeèẻẽéẹêềểễếệ
fghiìỉĩíịjklmnoòỏõóọôồổỗốộơờởỡớợ
pqrstuùủũúụưừửữứựvwxyỳỷỹýỵz
3. Đơn vị căn cứ để xếp là từng khối viết liền (tổ hợp các con chữ), đơn tiết hoặc đa tiết, tính từ
trái sang phải, khối chữ viết thường xếp trước khối chữ viết hoa, khối chữ nào có ít con chữ hơn
(thường là âm tiết) luôn xếp trước khối chữ (có phần trùng với khối chữ có ít con chữ) có nhiều chữ
hơn. Ví dụ a (đơn vị đo diện tích) xếp trước A (kí hiệu viết tắt của Ampere); cha xếp trước chan.
4. Ưu tiên trật tự chữ cái trước, sau mới đến thanh điệu trong khi sắp xếp
4.1. Đối với từ đơn tiết, nếu âm tiết[1] (phân biệt bằng khoảng trống - space) nào có dấu hiệu khu
biệt về khối chữ thì dựa vào trật tự của khối chữ để sắp xếp, bất luận mang thanh điệu gì. Ví dụ:
ang xếp trước anh trong mọi trường hợp, bất luận chúng mang thanh điệu gì, vì ở ang có g xếp trước
h ở anh; ác xếp trước ách vì ac+zero[2] xếp trước ac+h, bất luận chúng mang thanh điệu gì; apatit
xếp trước apxe vì apa- xếp trước apx-; v.v.
4.2. Đối với từ đơn tiết, nếu âm tiết nào không có dấu hiệu khu biệt về khối chữ thì căn cứ vào thanh
điệu để sắp xếp. Ví dụ: ba, bà, bả; hai, hài, hại, v.v.
4.3. Đối với từ đa tiết, căn cứ vào thứ tự của từng âm tiết từ trái sang phải để sắp xếp, sau mới căn
cứ vào thanh điệu (kết hợp cả hai cách 4.1 và 4.2). Ví dụ:
ba bể xếp trước ba gác vì bể xếp trước gác; ba bể, ba gác, ba que... xếp trước bà cô vì ba ở các mục
từ trên xếp trước bà ở bà cô. Như vậy, bất cứ âm tiết nào kết hợp với ba (ba đứng đầu) để tạo nên
đơn vị từ vựng mới (đa âm tiết) cũng luôn luôn xếp trước bất cứ đơn vị từ vựng nào có mặt âm tiết
bà (bà đứng đầu).
Lưu ý:
1) Đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn tiếng nước
ngoài kiểu như cu-lông, a-xpi-rin..., thì dấu gạch ngang xem như zero, và xếp bình thường như một
từ đa tiết khác. Ví dụ: a-xpi-rin xếp sau a tòng vì a+zero+x xếp sau a+zero+t; và a-xpi-rin xếp trên à,
à ơi vì a (không dấu) xếp trước à (dấu huyền), v.v.
2) Các kí hiệu (symbol) và kí số (number) thì xếp trước kí tự (character). Ví dụ: !, #, $, %, &, @...,
0, 1, 2, 3, ...9 luôn luôn đứng trước a, b, c; B1 xếp trước B40 và ba, v.v.
3) Với việc dùng dấu gạch ngang (-) trong khi phiên âm các đơn vị từ vựng nước ngoài, về
nguyên tắc chúng ta quy ước nó như là kí hiệu khoảng trắng, nhưng theo luận lí thì nó vẫn phải xếp
sau đơn vị từ vựng có cùng khối chữ nhưng cách nhau bằng khoảng trắng thực sự. Ví dụ:
a lô
a-lô
4) Tương tự, các kí hiệu như dấu nháy kép hoặc ngoặc đơn cũng phải được xử lí như
trường hợp nêu trên. Tức là tuy ta coi nó là vị trí zero ở đầu và cuối một đơn vị từ vựng, nhưng
vẫn phải ưu tiên xếp từ vựng có vị trí zero thực sự lên trên. Các từ vựng giống nhau về khối chữ,
nhưng khác nhau về kí hiệu quy ước zero sẽ xếp theo trật tự của các kí hiệu phụ này. Cụ thể là: a xít
xếp trước “a-xít”. Về dấu () thì có từ điển thu thập kiểu: ba chìm bảy nổi (chín lênh đênh), hiểu là có
2 đơn vị có nội dung ý nghĩa như nhau: ba chìm bảy nổi hoặc ba chìm bảy nổi chín lênh đênh, và ba
chìm bảy nổi được dùng nhiều hơn là ba chìm bảy nổi chín lênh đênh. Với từ điển dạng sách, chỉ cần
để một kiểu ba chìm bảy nổi (chín lênh đênh) thì đã chứa đựng cái ý nêu trên, còn với người dùng từ
điển điện tử thì hình thức trên không chỉ ra rõ ràng cách hiểu như trong từ điển dạng sách. Vì lí do đó
người ta phải thêm một mục “ba chìm bảy nổi chín lênh đênh” vào từ điển điện tử. Mục này nếu theo
cách lập luận ở trên thì phải xếp trước mục ba chìm bảy nổi (chín lênh đênh). Điều này nghe ra là trái
với tri thức về nhận diện đơn vị từ vựng. Vì cái khối ở trong ngoặc (chín lênh đênh) vừa là phần chú
thích thêm cho ba chìm bảy nổi, đồng thời lại vừa biểu thị là tổ hợp đi sau của đơn vị hoàn chỉnh ba
chìm bảy nổi chín lênh đênh. Đây là hiện tượng cùng một hình thức biểu hiện nhưng có nhiều hơn
một ý nghĩa diễn đạt. Để khắc phục tình trạng này chúng tôi đề nghị nên thu thập riêng thành hai
đơn vị là ba chìm bảy nổi và ba chìm bảy nổi chín lênh đênh.
5) Tương tự, các kiểu sau đây cũng phải được xếp theo thứ tự:
ăn vóc học hay
ăn vóc, học hay
đâu... đó (đâu còn có đó)
...đâu ...đó (bạ đâu nằm đó)
đi lại
...đi ...lại (nhắc đi nhắc lại)
Kết luận: Nguyên tắc là ưu tiên khối chữ (tính toàn vẹn của khối chữ) trước, sau đến các kí hiệu nằm
ngoài khối chữ (trước và sau khối chữ), sau nữa mới đến nội bộ khối chữ (tức các dấu gạch ngang,
dấu phẩy, dấu ba chấm...).
___________________
[1] Đối với từ vay mượn tiếng nước ngoài, là những ngôn ngữ đa tiết tính, nên khái niệm âm tiết ở
đây sẽ không chính xác. Nhưng để tiện làm việc, chúng tôi coi các khối chữ phân biệt với nhau bằng
khoảng trống là một âm tiết, đồng nhất với âm tiết tiếng Việt.
[2] Khoảng trống ở sau một khối chữ (âm tiết) chúng tôi gọi là zero, nó được quy ước xếp trên chữ
cái a,A trong mọi trường hợp.
(Theo Trung tâm Từ điển học)