Tải bản đầy đủ (.pdf) (218 trang)

Bước đầu nghiên cứu âm vị học của tiết vị tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (45.26 MB, 218 trang )

ĐAI
QUỐC GIA HÀ NÔI
■ HOC


T R Ư Ờ N G Đ Ạ I H ỌC K H O A H ỌC XÃ HỘI V À N H Ả N V Ă N

PHẠM THỊ NGOAN

BƯỚC ĐẦU NGHIÊN c ú ll

PHÂN BỐ ÂM VI• HOC
CỦA


TIET VI• TIENG VIET

LUÂN
VĂN THAC
SỸ NGÔN NGỮ HOC



Chuyên hgành: Lý luận ngôn ngữ
M ã số: 50408

Người hướng dẫn khoa học: TS HOÀNG CAO CƯƠNG
ĐAI HCC CUỐC GIA HÀ NỌ!

TRUNGTÂM TiiÔMG TIN _7HƯVIÊN


n
S

HÀ NỘI -2000



Ỉ / ?




M ồ i eajnv itỡ iu t
Tôi xin cam đoan đây là công trình nghiên cứu của
riêng tôi. Các số liệu, kết quả nêu trong luận văn là
trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
g iả lu ậ n oăti


MỤC LỤC

M ở đẩu

rang
/

Tiết vị tiếng Việt

6


Tiếng là gì

6

Vai trò của tiếng trong ngữ pháp tiếng Việt

6

Các đặc trưng của tiếng

8

Giới thiệu cơ sở dữ liệu

15

Nguyên tắc chọn đơn vị thống kê

15

Đánh giá chung về độ tin cậy của bảng tiết vị

17

Sự phẫn b ố âm vị

25

Nhận xét mớ đầu


25

Các kết quả thống kê

29

Phân bô âm vị trong tiết vị

34

Sự phấn b ố các nét trong ẩm vị học

39

v ề cấu trúc ãm vị học của tiết vị tiếng Việt

39

Phân bố các nét âm vị học trong tiết vị

50

K ết luận

65

Tài liệu tham khảo

67


Phụ lục: Danh sách các bảng tiết vị

'70


MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
1.1

Ngôn ngữ là phương tiện giao tiếp quan trọng và kỳ diệu nhất của

con người. Để giao tiếp được, điều tự nhiên nhất là mỗi người phải phát ra
được âm thanh - đó là vỏ tồn tại của tiếng nói trong nghĩa cổ xưa nhất. Song
trong suốt quá trình sử dụng ngôn ngữ cho giao tiếp, không phải ai cũng đã
có ý thức tìm hiểu xem cái đơn vị được gọi là tiếng nói ấy thực chất được
cấu tạo như thế nào? Có bao nhiêu tiếng trong một ngôn ngữ? Liệu có phải
cứ ghép một cách tuỳ tiện một số chữ cái nào đó lại với nhau là ta sẽ được
một tiếng hay một từ không? Trong một tiếng, chữ cái nào xuất hiện nhiều
nhất? Hay cụ thể hơn, tần số xuất hiện của các chữ cái trong vốn từ vựng
đơn tiết của tiếng Việt như thế nào?... Đó là những câu hỏi mà thực tế sử
dụng ngôn ngữ cần được trả lời.
Giải quyết được một số vấn để về ngôn ngữ nói trên, mặc nhiên
chúng ta đã tham gia một phần vào sự phát triển của rất nhiều ngành khoa
học kỹ thuật như: văn học, sử học, dân tộc học, toán học, tin học, xử lý
tiếng nói V. V...
1.2.

Người Việt khi nói cũng như khi viết đều lấy đơn vị là tiếng hay


là chữ. Chính tính chất đơn lập phân tích tính đã tạo cho tiếng Việt một loại
đơn vị rất dễ được nhận diện: đó là tiếng, hay còn gọi là âm tiết, hình vị, từ
đơn... Trong cách diễn đạt mang tính chuyên môn hơn, chúng được gọi là
các tiết vị. Tiết vị (hay tiếng) là một đơn vị ngữ âm tự nhiên vừa có giá trị
về mặt ngữ nghĩa lại vừa có giá trị về mặt ngữ pháp.
Là một đơn vị quan trọng, nhưng chưa thực sự được thống kê triệt để,
tiếng (hay tiết vị) vẫn là một khu vực rất đáng được quan tâm cả ở những
quan niệm nghiên cứu nghiêng về chất cũng như những quan niệm nghiêng
về lượng. Chúng ta có thể biết áng chừng số lượng tiếng trong tiếng Việt

1


nhưng thực sự tiếng Việt có bao nhiêu tiếng, những yếu tố cấu tạo nên đơn
vị tiếng xuất hiện với tần suất như thế nào, vẫn là vấn đề thu hút sự quan
tâm của giới nghiên cứu Việt ngữ. Một từ điển được xây dựng theo đơn vị
tiếng trong tiếng Việt kiểu như vừa trình bày đến nay vẫn chưa hề c ó 1.
Vậy mà, nếu quan tâm nhiều hơn đến tiếng, chúng ta sẽ có một cơ sớ
dữ liệu cung cấp số liệu thống kê đáng tin cậy cho nhiều đề tài nghiên cứu,
nhiều ngành khoa học kỹ thuật như khoa học nghiên cứu về xử lý tiếng nói,
khoa học kỹ thuật mật mã V... V.
3.

Ngày nay, với sự kết hợp chặt chẽ của các ngành khoa học, có

những vấn đề thực tế ngôn ngữ tiếng Việt đã nảy sinh và cần giải quyết một
cách triệt để. Chẳng hạn có những bài toán thực tế như: Có thể khẳng định
được các yếu tố tạo từ tiếng Việt có thể giao hoán được không? Có thể có
một mô hình tạo từ tiếng Việt từ các chữ cái được không? Có thể tính được
độ dư ngôn ngữ tiếng Việt như độ dư chữ cái, độ dư từ, độ dư chữ viết được

không? Trong một số ngành kỹ thuật đặc biệt, cần phải có lời giải của các
bài toán về sửa sai, san tần số, tính entropy (độ bất định) của chữ cái, thanh
điệu, từ tiếng Việt V. V...
Với mong muốn tiếp cận giữa ngôn ngữ và các vấn đề thực tế, phục
vụ thiết thực cho yêu cầu của cuộc sống, chúng tôi đã chọn vấn đề "Bước
đầu nghiên cứu sự phân b ố âm vị học của tiết vị tiếng V iệt" làm đề tài trong
luận văn của mình.

II. MỤC ĐÍCH VÀ NHIỆM v ụ NGHIÊN c ứ u
Đề tài "Bước đầu nghiên cứu sự phản bố âm vị học của tiết vị

tiếng Việt" nhằm tới một mục đích lớn nhất là:
-

Xác định số lượng có thực các tiết vị có thực đang được sử dụng

trong tiếng Việt hiện đại để tạo nên cơ sở dữ liệu cho những mục đích ngôn
ngữ học sau này.

1Một số từ điển biên soạn theo vấn đề chính tả hoặc đồng âm cũng lấy đơn vị là âm tiết nhưng do mục
đích khác nhau nên cũng không phải đã bao quát hết tất cả số lượng âm tiết của tiếng Việt.

2


chúng ta hiểu hơn về các đặc điểm của cấu trúc sâu tiết vị và, qua đó, của
cấu trúc âm vị học tiếng Việt.

3.2. Về mặt thực tiễn
Kết quả thống kê tần suất của các âm vị trong tiếng Việt sẽ là số liệu

đáng tin cậy để áp dụng vào tính toán trong rất nhiều ứng dụng khác, chẳng
hạn như: tính độ dư ngôn ngữ, tính entropy của tiết vị tiếng Việt, tính hệ số
nén cũng như lượng tin chứa trong cấu trúc tiếng Việt, các nghiên cứu phân
tích và tổng hợp tiếng nói trong kỹ thuật và xử lý tiếng nói V. V...

4.

TƯ LIỆU KHẢO SÁT VÀ PHUƠNG PHÁP NGHIÊN c ú u

4.1. Tư liệu khảo sất
Để có thế thống kê được toàn bộ các tiết vị tiếng Việt mà không bỏ
sót bất kỳ một trường hợp nào, chúng tôi dựa vào các nguồn tư liệu sau đây:
- Từ điển tiếng Việt 1998 - Hoàng Phê chủ biên.
- Từ điển từ láy tiếng Việt 1995 - Hoàng Văn Hành chủ biên.
- Từ điển đồng âm tiếng Việt - Hoàng Văn Hành, Nguyễn Văn
Khang, Trần Thị Trung Thành biên soạn.
- Từ điển chính tả 1999 - Hoàng Phê chủ biên.
- Từ điển từ và ngữ Hán Việt - Nguyễn Lân biên soạn.
Đây là những cuốn từ điển cơ bản, có giá trị khoa học thực sự và
hoàn toàn đáng tin cậy.

4.2. Phươiig pháp nghiên cứu
Những vấn đề liên quan đến xác định đơn vị thống kê, thu thập và
diền giải số liệu đều được thảo luận chi tiết ở các chương nội dung có liên
quan.
Phương pháp nghiên cứu xuyên suốt toàn luận văn là phương pháp
thống kê, phân loại và miêu tả với sự trợ giúp của bảng tính Excel 6.1
5. BỐ CỤ C CỦA LUẬN ÁN
Ngoài phần mở đầu, kết luận, phần nội dung gồm 4 chương chính


4


như sau:

Chương 1: Tiết vị tiếng Việt
1.1 Tiếng là gì ?
1.2 Vai trò của tiếng trong ngữ pháp tiếng Việt
1.3 Các đặc trung của tiếng

Chương 2\ Giới thiệu cơ sở dữ liệu
2.1 Nguyên tắc chọn đơn vị thống kê
2.2 Đánh giá chung về độ tin cậy của các bảng tiết vị

Chương 3: Sự phân bố âm vị
3.1. Nhận xét mở đầu
3.2. Các kết quả thống kê
3.3 Phân bố âm vị trong tiết vị

Chương 4\ Sự phân bố các nét âm vị học
4.1 Về cấu trúc âm vị học của tiết vị
4.2 Phân bố các nét âm vị học trong tiết vị

Phụ lạc. Danh sách các tiết vị tiếng Việt theo Serie 1, 2, 3.

5


Chương 1 TIẾT VỊ TIÊNG VIỆT
1.1. TIẾNG LÀ GÌ ?

Trong tiếng v iệt có một loại đơn vị xưa nay thường được gọi là tiếng
hay là chữ ví dụ như: ăn, ngủ, học, chơi, nhà, cửa, lạnh, lẽo, bặm, bạp V. V..
Những đơn vị này căn cứ vào ngữ âm thì gọi là tiếng, tiếng một1 hay gọi là
âm tiết2. Căn cứ vào văn tự thì gọi là chữ, từ đơn.
Trong tiếng Việt, mỗi tiếng bao giờ cũng phát ra một hơi, nghe thành
một tín hiệu ám thanh và có mang một thanh điệu nhất định. Trong chữ
viết, mỗi tiếng bao giờ cũng viết rời ra thành một chữ. Đối với người Việt
trước một văn bản dù thơ hay văn thì việc xác định có bao nhiêu tiếng là
điều không có gì khó khăn cả.
Theo quan điểm của Nguyễn Tài cẩn trong Ngữ pháp tiếng Việt thì:
M ỗ i m ộ t t iế n g n h ư t h ế c h ín h là m ộ t đ ơ n v ị g ố c - m ộ t h ìn h v ị c ủ a t iế n g V iệ t .

Hình vị được ông quan niệm là đơn vị nhỏ nhất, đơn giản nhất về mặt tổ
chức mà lại có giá trị về mặt ngữ pháp, ơ trong định nghĩa này, hai mặt đơn
giản nhất về tổ chức và có giá trị về ngữ pháp phải đi đôi với nhau và khi
xác định hình vị phải đồng thời chú ý đến cả hai mặt đó. Nếu chỉ chú ý đến
mặt đơn giản nhất về tổ chức thì có thể lầm lẫn với âm vị là đơn vị không có
giá trị về ngữ pháp, còn nếu chỉ chú ý đến mặt có giá trị về mặt ngữ pháp
thì lại có thể lẩm lẫn với tù ghép.

1. 2. VAI TRÒ CỦA TIẾNG TRONG NGỮ PHÁP TIÊNG VIỆT
Tiếng từ phương diện ngữ pháp của tiếng Việt là một đơn vị có vai
trò hết sức quan trọng. Mỗi tiếng làm thành một chỉnh thể, không thể xé

1 Nguyễn Tài cẩn , Ngữ pháp tiếng Việt Tiếng-Từ ghép-Đoản ngữ, Nxb ĐH &THCN, HN 1981
2 Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nxb ĐH & THCN, HN 1977

6



nhỏ ra hơn nữa để thành những thành tố ngữ pháp nhỏ hơn nữa, ví dụ: ba
không thể phân tích thành những hình vị nhỏ hơn chính hình vị {ba}có
trong vỏ [ba].
Tuy nhiên đứng về mặt ngữ âm mà xét thì ba có thể tách ra thành
những đơn vị nhỏ hơn là /b/+/a/; đó là những âm vị cấu tạo nên cái gọi là
âm tiết bã. Nếu xuất phát từ âm vị rồi dùng phương pháp tổng hợp thì đơn vị
đầu tiên hình thành nên các đơn vị ngữ pháp lại là tiếng. Trước nó chúng ta
chưa thể tổng hợp nên một đơn vị ngữ pháp nào khác. Nếu xuất phát từ câu
nói rồi dùng phương pháp phân tích để tách ra thành các kiểu đơn vị ngữ
pháp thì tiếng lại là cái đơn vị cuối cùng có thể tìm ra được. Sau nó không
còn có thể phân tích thêm được một đơn vị ngữ pháp nào khác. Như vậy
tiếng là cái điểm mốc đầu tiên của quá trình tổng hợp và là điểm mốc cuối
cùng của quá trình phân tích của ngữ pháp học. Tiếng là đơn vị gốc, đơn vị
tế bào của ngữ pháp có tổ chức tối giản, dùng làm thành tố để trực tiếp hay
gián tiếp tạo nên tất cả mọi kiểu đơn vị khác còn lại.
Trong cấu trúc của từ tiếng Việt, mỗi tiếng bao giờ cũng có tác dụng
giúp ta giải thích được nguồn gốc cũng như cái tổ chức bên trong của đơn vị
trực tiếp lớn hơn nó. Chẳng hạn vì tiếng có khả năng giải thích mặt ngữ
nghĩa nên giúp ta giải thích được nguồn gốc của các yếu tố không phải là từ
đơn, các tiếng là yếu tố địa phương, các tiếng là yếu tố Hán Việt không có
khả năng độc lập. Đó là những tiếng trong từ ghép nghĩa. Mặt khác tiếng
còn có khả năng giải thích mặt tổ chức đơn thuần hình thái trong các hiện
tượng ngữ âm như: tách, lặp, láy, iếc hoắ. Đó là những tiếng - hình vị hình
thức.
Tóm lại: Có thể nói tiếng trong tiếng Việt vừa là đơn vị ngữ âm, vừa
là đơn vị ngữ pháp nhỏ nhất, đơn giản nhất về mặt tổ chức mà lại có giá trị
về mặt ngữ pháp. Trong tiếng Việt: tiếng = hình vị = âm tiết.

7



1. 3. C Á C Đ Ặ C TR Ư N G C Ủ A T IÊ N G

Trong tiếng Việt, giữa hình vị và âm tiết có mối tương quan rõ rệt.
Ngay cả những người chỉ đơn thuần dựa vào phương diện ý nghĩa để xác
định hình vị cũng phải công nhận rằng trên đại thể hình vị kiểu Việt trùng
với âm tiết. Còn Nguyễn Tài cẩn thuộc nhóm những người chỉ dựa vào loại

hình vị đơn thuần hình thức thì theo ông' giữa âm tiết - hình vị - tiếng bao
giờ cũng có một sự tương ứng một đối một, một sự tương ứng hoàn toàn.
Mỗi tiếng trong tiếng Việt đứng về mặt ngữ âm chính là một âm tiết mà
đứng về mặt ngữ pháp chính là một hình vị. Cho nên ở tiếng Việt, phân tích
câu nói ra thành âm tiết và phân tích câu nói ra thành hình vị bao giờ cũng
sẽ đưa đến kết quả như nhau: đó là phân tích câu nói ra thành từng tiếng
một. Có thể nói trong tiếng Việt, tiếng là một loại hình vị đặc biệt: một hình
tiết (hình vị +âm tiết = hình tiết). Sự trùng lặp giữa hai phương diện phân
tích đơn vị ngữ âm, phân tích đơn vị ngữ pháp ở những ngôn ngữ khác cũng
có, nhưng ở các ngôn ngữ đó chỉ trùng lặp đến bậc đơn vị gọi là từ. Ở tiếng
Việt, sự trùng lặp đó đã được đẩy lùi xuống thấp hơn một bước, đẩy lùi đến
bậc đơn vị gọi là tiếng. Đó là một đặc điểm rất quan trọng của tiếng Việt.
Không phải tất cả các tiếng trong tiếng Việt đều là từ. Bới vì từ có thế
là từ đơn hoặc từ ghép, v ỏ từ đơn thì trùng với tiếng, còn vỏ từ ghép thì
không.
Có thể nói tiếng trong tiếng Việt là một đơn vị gốc có vị trí trung
gian giữa hình vị và từ của nhiều ngôn ngữ khác. Nếu so sánh đơn vị tiếng
trong tiếng Việt với hình vị và từ của các ngôn ngữ Ấn Âu chẳng hạn thì
thấy đơn vị tiếng của chúng ta không hoàn toàn giống từ mà cũng không
hoàn toàn giống hình vị của các ngôn ngữ này. Tiếng là một loại đơn vị
lưng chừng ở giữa. Từ trong ngôn ngữ An Au là cái đơn vị tự nhiên, nói
1- Nguyễn Tài cẩn, Ngữ pháp tiếng Việt Tiếng -từ ghép - đoản ngữ, Hà Nội 1981, tr. 8-44


8


chung người bản ngữ nào cũng nhận thức được nhưng hình vị ở các ngôn
ngữ đó thì trái lại, là một loại đơn vị ẩn, không phải ai cũng dễ dàng nhận
diện. Đối với tiếng Việt, tiếng là đơn vị tự nhiên, còn từ ghép phần lớn lại là
đơn vị hậu kỳ, mới sản sinh sau, chưa được cố định hoá và ngữ pháp hoá
một cách thật rõ ràng. Vì vậy, ngay cả đối với những nhà ngôn ngữ học
nhiều khi cũng không phải dễ dàng gì phân biệt được đâu là từ ghép đâu là
là tổ hợp từ.
Qua xem xét đặc trung cơ bản của đơn vị tiếng trong tiếng Việt ta có
thể thấy: đơn vị tiếng là hình vị nhưng là một loại hình vị đặc biệt, chưa đối
lập hẳn với từ, một số rất lớn còn là từ, nhưng đều được nhận diện không có
gì là khó khăn cả. Song việc nhận diện từ thì lại chẳng dễ dàng gì. Không
phải tất cả các tiếng trong tiếng Việt đều là từ. Tuy nhiên, trong tiếng Việt
ai cũng phải thừa nhận rằng có một sự thật hiển nhiên là phần lớn các tiếng
đóng vai trò là một từ đơn.
Ngữ pháp truyền thống không định nghĩa từ vì xem đó là một khái
niệm tự nhiên. Ai cũng biết từ là một chuỗi âm thanh (hoặc ký tự) diễn đạt
một khái niệm và ngôn ngữ là một danh sách các từ ứng với một danh sách
các khái niệm. Và trong ngôn ngữ học truyền thống, từ được định nghĩa là
đơn vị cơ bản của cả ngôn ngữ lẫn lời nói với ba đặc tính chủ yếu là hoàn
chỉnh vể hình thức, hoàn chỉnh về ngữ nghĩa và độc lập về cú pháp. Tuy
nhiên vận dụng định nghĩa này để nhận diện từ trong mỗi một ngôn ngữ lại
rất khó khăn.
Nhìn chung các công trình Việt ngữ thừa nhận sự tồn tại của từ tiếng
Viêt đươc chia thành hai nhóm:



- Nhóm 1: coi từ trong tiếng Việt có vỏ ngữ âm bằng đúng một âm
tiết. Tiêu biểu cho khuynh hướng này có thể kể đến Cao Xuân Hạo1,
Nguyễn Thiện Giáp2.
- Nhóm 2: coi từ trong tiếng Việt có thể có vỏ ngữ âm không luôn
luôn bằng đúng một âm tiết. Quan điếm này được đa số các nhà Việt ngữ
học tán thành.
Biện giải đặc biệt quan trọng ở nhóm 1 liên quan đến các âm tiết
thường được coi là vô nghĩa. Các âm tiết đó được chia thành ba nhóm:
a. Nhóm các âm tiết được xem là tự thân vô nghĩa nhưng có thể kết
hợp với một âm tiết có nghĩa để tạo ra một tổ hợp có nghĩa từ vựng chân
chính ví dụ như: lùng, lẽo, búa trong lạnh lùng, lạnh lẽo, chợ búa...
b. Nhóm thứ hai gồm những âm tiết được xem là tự thân vô nghĩa
nhung khi kết họp với nhau lại tạo ra một tổ hợp có nghĩa từ vựng ví dụ
như: đảng đỉnh, bù nhìn...
c. Nhóm thứ ba gồm các âm tiết ngoại lai: a- xít , ra- đi- ô...
Vì lùng làm cho lạnh lùng khác với lạnh, lạnh lẽo, nên nó được xem
là đã góp phần tạo ra một ý nghĩa biểu niệm trong tổ họp lạnh lùng. Theo
các tác giả chủ trương tiếng là từ thì có thể nói rằng các âm tiết thuộc nhóm
(a) có khả năng kết họp hạn chế chứ không thể nói rằng chúng vô nghĩa.
Những trường họp như (a) và (b) được giải thích bằng khái niệm áp lực của
hệ thống. Nhóm âm tiết loại (c) được Nguyễn Thiện Giáp xem là những
hiện tượng biên, không có tính điển hình còn hiện tượng tâm ảnh hưởng đến
xu thế toàn cục là các âm tiết có ý nghĩa, có khả năng độc lập cú pháp (tức
các

âm tiết tiếng Việt điển hình).

1Cao Xuân Hạo "Về cương vị ngôn ngữ học của tiếng", Ngôn ngữ số 2/1985, tr. 25-53
2 Nguyễn Thiện Giáp "Về mối quan hệ giữa từ và tiếng trong Việt ngữ", Ngôn ngữ số 3/1984, tr. 60-69


10


Lý giải về khả năng vận dụng độc lập của các âm tiết Nguyễn Thiện
Giáp cũng cho rằng một số âm tiết, do đặc điểm ý nghĩa của chúng chỉ có
thế xuất hiện trong một số kết hợp nhất định (như nghển chỉ xuất hiện trước

cổ, chẳng hạn) nhưng không vì vậy mà các âm tiết đó không có tư cách của
từ.
Nhóm 2: v ề quan niệm từ trong tiếng Việt không luôn luôn có vỏ
ngữ âm bằng đúng một âm tiết thì các tác giả đều thừa nhận một điều hiển
nhiên là: hình thức nhỏ nhất có ý nghĩa trong tiếng Việt là âm tiết hay còn
gọi là từ đơn và các từ đơn có thể được ghép lại để tạo ra các từ ghép. Dù
cách gọi có khác nhau về đơn vị hình vị nhưng các tác giả trong nhóm này
như Đỗ Hữu Châu1, Nguyễn Kim Thản2, Hồ Lê3 , V. V... đều thừa nhận
rằng các từ đơn chiếm ưu thế về số lượng trong tiếng Việt nhưng các từ đôi
là những thực thể không thể phủ nhận được. Đó là những từ được hình
thành do sự kết hợp hai từ đơn gần nghĩa, hoặc ngược nghĩa, hoặc do sự kết
hợp một từ đơn và một âm tiết có tác dụng hoà phối ngữ âm. Trong Ngữ

phấp tiếng Việt,; Nguyễn Tài cẩn cũng có những kiến giải về đơn vị tiếng
phù họp với lập luận của nhóm coi âm tiết tiếng Việt là từ như: tiếng có tổ
chức tối giản, có ý nghĩa và có giá trị ngữ pháp. Tuy nhiên ông lại thừa
nhận sự tồn tại của từ ghép trong tiếng Việt, thừa nhận trong tiếng Việt có
những phức hợp có tổ chức nội tại hoàn chỉnh như: bù Iihhì, đất đai, xe cộ,

hoa hồng

V. V...


tức là ông coi từ là đơn vị lớn hơn tiếng, không luôn luôn

trùng với vỏ âm tiết. Và như vậy không phải tiếng nào cũng trùng với đơn vị
là từ. Theo ông ở tiếng Việt loại từ đa tiết do tiếng có nghĩa kết hợp với
tiếng có nghĩa tạo thành hầu như bao giờ cũng được cấu tạo nên theo sát mô
hình cấu tạo của các đơn vị cú pháp. Chính vì vậy các nhà nghiên cứu luôn
dựa vào quan hệ cú pháp để giải thích quan hệ trong từ.

1Đỗ Hữu Châu, "Về cương vị ngôn ngữ học của tiếng", Ngôn Iigĩr số 3/1975, tr. 57-72
2 ƯBKHXH VN, Ngữ pháp tiếng Việt, Nxb KHXH, HN 1983
3 Hồ Lê, Vái đề cấu tạo từ của tiếng Việt hiện đại, Nxb KHXH, HN 1976

11


Nhìn chung tất cả các tác giả nghiên cứu về từ tiếng Việt đều xem xét
cấu tạo của từ tiếng Việt ở những mặt sau:
- Số lượng tiếng (để phân biệt từ một tiếng với từ nhiều tiếng - tức từ
đơn với từ ghép)
- Phương thức cấu tạo (để phân biệt giữa các yếu tố và quan hệ giữa
các yếu tố)
Mặt khác từ tiếng Việt cũng có thể được xét về mật nguồn gốc để
phân biệt từ gốc Việt, gốc Hán và các gốc khác.
Đi theo hướng phân loại căn cứ vào quan hệ giữa các yếu tố trong
ngữ pháp tiếng Việt, Nguyễn Tài cẩn đã phân chia từ ghép thành ba kiểu
lớn:
- Từ ghép đặt theo quan hệ ý nghĩa gọi là từ ghép nghĩa.
- Từ ghép đặt theo quan hệ ngữ âm gọi là từ láy âm (hoặc từ láy).
- Từ ghép đặt theo quan hệ ngẫu nhiên gọi là từ ngẫu kết hay ngẫu
hợp.

Trên đây chúng tôi đã nêu lên vai trò của tiếng cùng với những đặc
trưng cơ bản của tiếng trong ngữ pháp tiếng Việt và luận bàn đôi chút về
mối quan hệ giữa tiếng và từ nhằm khái quát về một đơn vị gọi là tiếng
trong tiếng Việt. Việc nhận diện từ là một việc làm hết sức khó khăn trong
tiếng Việt và là vấn đề gây rất nhiều tranh luận trong các nhà ngôn ngữ học.
Điều này càng chứng tỏ được vị trí rất rõ ràng của tiếng về mặt ngữ âm, ngữ
pháp và từ vựng trong ngôn ngữ Việt. Tuy có nhiều quan niệm khác nhau
nhưng các nhà nghiên cứu đều gặp gỡ nhau ở việc xem xét cấu tạo từ về số
lượng thành tố và phương thức cấu tạo giữa các thành tố, cũng như họ
không hề phủ nhận vai trò của tiếng trong vốn từ vựng tiếng Việt (khả năng
đơn tiết hoá, khả năng cấu tạo từ ).

12


Trước đây, các nhà ngôn ngữ học thường cho tiếng Việt là tiếng đơn
âm, mỗi tiếng là một từ. Ngày nay căn cứ vào số lượng từ song tiết ngày
càng tăng nhanh, các nhà ngôn ngữ học đã bác lại quan điểm đó và nhận
thức được rõ hơn sự khác nhau giữa hai khái niệm từ và tiếng. Nguyễn Tài
Cẩn trong Ngữphâp tiếng Việt đã cho rằng: Đạc trưng phân tiết tính của
tiếng là nguyên nhân sâu xa của hàng loạt các đặc trưng ngữ pháp khác.
Chẳng hạn như về mặt cấu tạo từ:
- Vì sao ở tiếng Việt lại cần và có thế vạch ra sự đối lập giữa từ đơn
tiết và từ đa tiết căn cứ vào số lượng âm tiết.
- Vì sao ở tiếng Việt phương thức cấu tạo từ chủ yếu lại là phương
thức kết họp tiếng với tiếng theo những quan hệ tương ứng với quan hệ cú
pháp.
Sở đĩ có những đặc trưng đó chính là vì trong tiếng Việt có một loại
hình vị đậc biệt gọi là hình tiết tức vừa có vỏ ngữ âm trùng với âm tiết vừa
có nhiều nét còn gần gũi với từ.

Về mặt từ pháp:
- Vì sao ở tiếng Việt ý nghĩa ngữ pháp không diễn đạt bằng phương
thức tổng hợp tính mà diễn đạt bằng phương pháp phân tích tính.
- Vì sao phân định từ loại chủ y ế u lại phải phải dựa vào các căn cứ cú
pháp như khả năng kết họp và chức năng của từ trong câu nói.
Về mặt cú pháp:
- Vì sao ở tiếng Việt không có hiện tượng hợp dạng, hiện tượng chế
ước (theo nghĩa hẹp)
- Vì sao trật tự kết hợp và hư từ lại trở thành phương thức chủ yếu đễ
diễn đạt quan hệ trong câu

13


Tất cả những đặc điểm về từ pháp, cú pháp đó đều bắt nguồn từ đặc
điểm là từ tiếng Việt không biến đổi hình thái hay nói một cách khác là
hình vị tiếng Việt bị hạn chế trong khuôn khổ âm tiết nên ngôn ngữ đó
khồng có khả năng biến hoá hình thái.
Như vậy mọi đặc điểm quan trọng của tiếng Việt đều bắt nguồn sâu
xa từ đặc điểm của tiếng. Có thể coi tiếng là đơn vị gốc của ngữ pháp, ngữ
âm, từ vựng trong ngôn ngữ Việt. Trong luận văn này, để phân biệt với các
khái niệm khác như tiếng, hình vị, âm tiết, từ đơn, chúng tôi gọi chúng là

tiết vị tiếng Việt.
Tóm lại: Những đơn vị âm thanh được người bản ngữ tri giác tự nhiên
do tự bản chất là những đơn vị tín hiệu gốc: hoặc là các yếu tố cấu tạo từ
hoặc là các từ (từ đơn). Những đơn vị này được gọi chung là các tiết vị. v ề
mặt ngữ pháp, tiết vị bao giờ cũng mang ý nghĩa (ngữ pháp hay từ vựng hay
từ vựng - ngữ pháp), v ề mặt ngữ âm, tiết vị được phát âm tự nhiên ngay cả
trong lời nói thường ngày (cấu trúc bề mặt), và được lưu giữ trong mã nhận

diện của người nói như một cấu trúc ngôn ngữ có độ ổn định cao (cấu trúc
bề sâu). Tiết vị là đơn vị ngữ âm - ngữ pháp, chỉ riêng có trong những ngôn
ngữ có loại hình đơn lập như kiểu tiếng Việt của chúng ta.

14


Chương 2 GIỚI THIỆU c ơ SỞ DỮ LIỆU
2. 1. NGUYÊN TẮC CHỌN ĐƠN VỊ TH ốN G KÊ

2. 1. 1. Tiêu chí chọn đơn vị tiếng
Trước khi tiến hành thống kê, cần phải thiết lập được những tiêu chí
cho phép nhận diện đối tượng cần khảo sát và diện mạo của đối tượng phải
ổn định suốt thời gian tiến hành thống kê. Đơn vị để thống kê phải phù hợp
với tồn tại thực tế của chúng và mục đích thống kê. Đồng thời định nghĩa
của đơn vị thống kê phải loại trừ tình trạng lưỡng khả.
Đó là những nguyên tắc mà bất cứ người làm công tác thống kê nào
cũng phải tuân thủ. Có như thế số liệu mới đảm bảo chính xác và nhất quán
cho toàn bộ quá trình thu thập và xử lý số liệu. Tuy nhiên người nghiên cứu
còn tùy vào mục đích thống kê để chọn đơn vị sao cho phù hợp với mục tiêu
để ra của đề tài nghiên cứu của mình.
Mục đích của chúng tôi là nghiên cứu những nguyên tắc kết hợp tối
ưu của các yếu tố trong tiết vị tiếng Việt vì thế đối tượng của chúng tôi là
toàn bộ các âm của tiếng Việt. Để thu thập và vét được hết các âm đã có
trong tiếng Việt, chúng tôi đã chọn đơn vị thống kê là các tiếng hay là các
mục từ đơn trong từ điển tiếng Việt.
Sở đĩ chúng tôi chọn đơn vị thống kê là tiếng vì như trong chương 1
đã trình bày, vai trò của tiếng trong vốn từ vựng tiếng Việt là rất lớn, là cơ
sở đê phân xuất ra các âm vị và cũng là cơ sở để cấu tạo nên các đơn vị bậc
cao hơn. Mặt khác ranh giới về từ cũng còn chưa được nhận diện một cách

rõ ràng, gây nhiều tranh cãi. Vì vậy, lấy đơn vị thống kê là tiếng sẽ đảm bảo
được tiêu chuẩn rõ ràng và ổn định. Thống kê theo đơn vị tiếng là phù hợp
nhất với việc nghiên cứu âm vị học và thực tế tồn tại của tiếng Việt.

15


2. 1. 2. Các loại tiếng
Sau khi thu thập danh sách các tiết vị chúng tôi tiến hành phân loại
chúng thành 3 loại sau đây: (từ đây gọi là các serie cho phù hợp với cách
diễn đạt của Bảng tính Excel)
- Seríe 1: Bao gồm tất cả các tiếng là từ đơn tiết căn cứ vào từ điển
(hay còn gọi điển dạng tiếng đơn). Loại này chiếm số lượng lớn nhất: 88%
tổng số các tiết vị. Một số các thuộc tính quan trọng khác có liên quan như:

đồng âm, Hấn Việt cũng được đính kèm. Những thuộc tính này kê ra để có
một hình dung chi tiết và tương thích hơn về thực tế từ vựng tiếng Việt được
phản ánh qua chúng.
- Seríe 2. Bao gồm tất cả các tiếng lấy trong từ điển từ láy nhưng
không trùng với các tiếng đơn đã chọn trong serie 1. Loại này chiếm số
lượng: 10% số tiết vị thống kê.
- Serie 3: Bao gồm các tiếng có trong từ ghép, không tồn tại độc lập
về nghĩa, có chức năng cấu tạo từ và cả những tiếng địa phương, một số
tiếng nước ngoài đã được đ ơ n tiết h o á th à n h từ đ ơ n như: p a iih , p u ố c

V. V...

Loại này chiếm số lượng nhỏ nhất: 2% số tiết vị thống kê.
Trong ba bảng danh sách trên, chúng tôi cho rằng xét theo khía cạnh
thuộc tính thì những tiếng thuộc serie 1 ở mức độ mạnh, chúng là những

yếu tố thuộc tâm trong vốn từ vựng tiếng Việt. Chúng có khả năng tạo sản
từ mới nhờ quá trình đồng âm (hay chuyển loại, tuỳ trường hợp) hoặc cấu
tạo nên các chuỗi có cấu trúc đa bội (từ ghép, từ láy). Còn những tiếng
thuộc serie 2 và 3 có khả năng kết hợp hạn chế nên lực cấu tạo từ yếu hơn,
chúng là những yếu tố thuộc biên của hệ thống ngữ pháp tiếng Việt.
Danh sách các tiết vị trên đây là một danh sách mở, chắc chắn serie 3
sẽ còn có thê bổ sung thêm trong tương lai vì các tài liệu tham khảo và đối
chiếu rất hạn chế. Riêng hai loạt serie 1 và 2 do các tài liệu tham khảo và tư

16


liệu nguồn khá phong phú và cập nhật nên danh sách các tiết vị thống kê
được khá triệt để. Theo chúng tôi, hai loạt này, nếu trong tương lai, cần xây
dựng lại thì khả năng bố sung thêm vào danh sách cũng chắc chắn sẽ rất
hạn chế.
2.2.

ĐÁNH GIÁ CHUNG VỀ ĐỘ TIN CẬY CỦA CÁC BẢNG

T IẾ T V Ị

2. 2. 1 Nhận xét về cách làm từ trước đêh nay
Từ trước đến nay tùy theo mục đích, đối tượng sử dụng mà nhà
nghiên cứu thống kê và lưu giữ kết quả dưới dạng tiếng, từ hay cụm từ.
Chẳng hạn trong từ điển thì đơn vị là các mục từ, cụm từ. Từ điển phần vần
thì đơn vị là danh sách các vần. Từ điển thuật ngữ thì đơn vị là các từ, cụm
từ, thuật ngữ khoa học.

Chùứì tả tiếng Việt của Viện ngôn n g ữ học do Hoàng Phê chủ biên in

năm 1999 cũng thống kê theo âm tiết nhưng chỉ chọn những tiếng có vấn đề
chính tả và không sắp xếp theo trật tự từ điển thông thường. Vì vậy, không
chắc chắn là đã kiểm soát được đầy đủ tất cả âm tiết của tiếng Việt hay
chưa. Còn Từ điển đồng âm tuy lấy đơn vị là từ đơn nhưng lại chỉ chọn
những từ có nghĩa đồng âm chứ không quan tâm đến tất cả các tiếng của
tiếng Việt.
Như vậy, khi bắt tay vào xây dựng bảng danh sách các tiết vị tiếng
Việt, chúng tôi không thể dựa vào một bảng từ nào có sẵn đầy đủ danh sách
các tiêng đơn, tiếng láy, tiếng dùng để cấu tạo từ. Có thể nói, từ trước đến
nay chưa có một bảng từ nào lựa chọn đơn vị là các tiếng có ý nghĩa độc lập
và các tiêng không độc lập có ý nghĩa cấu tạo từ láy, từ ghép cả.
Lúc đầu với mong muốn làm nhanh và gợi ý của các chuyên gia máy
tính, chúng tôi định lựa chọn cách làm như sau:

17

ĐAI HỌC c uôc 01AHÀNỌI
ĨRUNGĨẨM;:'ÕNf?Tlh THỰVr ?'J


Chúng tôi sẽ cấu tạo âm tiết tiếng Việt bằng cách tổ họp của phụ âm
đầu + phần vần + thanh điệu về mật lý thuyết (dựa trên thiết bị máy tính)
rồi sau đó lược bỏ bớt những âm tiết nào không được sử dụng trong thực tế.
Song việc làm đó gây nên một khó khăn là không thể nhận diện hết được
đâu là từ đơn, đâu là âm tiết tồn tại độc lập, không độc lập. Như vậy, lại sẽ
rơi vào công việc phân loại một cách vô cùng vất vả.
Vì vậy chúng tôi đã chọn cách làm truyền thống là thống kê một
cách thủ công trên cơ sở của Từ điển tiếng Việt và chỉ chọn mục từ đơn.
Sau đó c h ú n g tôi có đối c h iế u với Từ điển đồng âm để ghi chú số lượng
những tiếng có nét nghĩa đồng âm trong bảng danh sách tiết vị đơn. Trong

quá trình đối chiếu với bảng từ của Từ đ iể n đồng âm, nếu từ nào có mặt ở

Từ điển đồng âm mà chưa xuất hiện trong bảng từ đơn đã chọn thì chúng tôi
cũng đồng thời bổ sung vào bảng từ này.
Mật khác để xem xét nguồn gốc của bảng từ đơn, chúng tôi đã đối
chiếu với Từ đ iể n từ và ngữ Hắn Việt của giáo sư Nguyễn Lân để chú thích
nguồn gốc Hán Việt của các tiết vị trong bảng.
Để vét được hết các âm đã có mặt trong từ láy chúng tôi đã chọn
thống kê trên Từ đ iể n từ láy tiếng Việt va. chỉ lấy những tiếng làm yếu tố láy
mà chưa xuất hiện trên danh sách từ đơn. Chẳng hạn, đối với từ cắc củm thì
chỉ chọn tiếng củm vì tiếng cắc đã có mặt trong từ đơn. Còn những từ láy
mà cả hai tiếng đều chưa có trong từ đơn ví dụ như: bậm bap, bỗ bẵm thì
chọn cả hai và đưa vào bảng danh sách tiết vị láy.
Trong quá trình phân loại này sẽ có một số lượng các tiếng không
phải là yếu tố láy cũng không phải là yếu tố đơn, không tồn tại độc lập
được. Những trường hợp đó được đưa vào bảng thứ ba gọi là bảng tiết vị cấu
tạo từ.
Tư liệu nguồn cho thống kê là:

18


- Từ điển tiếng Việt 1988 do Hoàng Phê chủ b iê n
- Từ điên từ láy tiếng Việt 1995 do Hoàng Văn Hành chủ biên
- Từ điển đồng âm tiếng Việt do Hoàng Văn Hành, Nguyễn Văn
Khang, Trần Trung Thành biên soạn.

-

T ừ đ iể n


chính tả

1999

do Hoàng Phê chủ biên

- Từ điển từ và ngữ Hán Việt áo Nguyễn Lân biên soạn
Cách chọn bảng danh sách tiết vị như trên và nguồn tư liệu sẽ đảm
bảo chắc chắn sự có mặt của tiết vị trong quá trình sử dụng tiếng Việt cũng
như tính ổn định của đơn vị thống kê trong suốt một thời gian dài sử dụng
ngôn ngữ chứ không phải suy đoán trên lý thuyết. Vì thế, chúng tôi cho
rằng, việc lấy đơn vị tiếng để thống kê tần suất của các nét âm vị học cấu
tạo nên tiết vị tiếng Việt là việc làm vừa đảm bảo được nguyên tắc của khoa
học thống kê, vừa đảm bảo tính thực tế của tiếng Việt.

2.2. 2. Ý nghĩa của việc thống kê các loại tiếng
Ớ các tài liệu trước đã công bố, người ta mới chỉ tìm thấy số lượng
danh sách các vần, từ đơn, từ ghép, cụm từ V.

V...

Ớ luận án này, căn cứ vào

kết quả thống kê chúng ta sẽ có câu trả lời chắc chắn về một danh sách đầy
đủ số lượng từ đơn, số lượng tiết vị đã và đang được sử dụng trong ngôn ngữ
tiếng Việt cùng với tần suất của các loại âm vị cấu tạo nên tiết vị tiếng Việt.
Ngoài ra ở bảng từ này chúng ta còn tìm thấy số lượng đầy đủ các từ đồng
âm và nguồn gốc Hán Việt của tất cả các tiết vị trong ngôn ngữ tiếng Việt.
Để có được bảng từ này chúng tôi đã phải thống kê, phân loại một cách

khoa học và rất công phu, tỉ mỉ. Danh sách, số liệu của bảng từ này là hoàn
toàn xác thực.

19


Đó là những câu trả lời mà từ trước đến nay chưa có tài liệu nào
khẳng định. Đây sẽ là những cơ sở dữ liệu cung cấp số liệu thống kê cho
nhiều đề tài nghiên cứu và nhiều nhà nghiên cứu xử lý tiếng Việt quan tâm.
Mặt khác tiếng là đơn vị của tín hiệu âm thanh tồn tại hiển nhiên
trong tiếng Việt nên danh sách thống kê sẽ thật rõ ràng, không gây mơ hồ
về đơn vị. Vì vậy kết q u ả thống kê là rất đáng tin cậy.
Ngày nay, với sự kết hợp chặt chẽ giữa các ngành khoa học, có
những vấn đề về thực tế ngôn ngữ tiếng Việt đã nảy sinh và cần phải giải
quyết một cách triệt để. Chẳng hạn có những bài toán thực tế như: Có thể
khẳng định được các yếu tố tạo từ tiếng Việt có thể giao hoán được không?
Có thể có một mô hình tạo từ trong tiếng Việt từ các chữ cái được không?
Có thể tính được độ dư trong ngôn ngữ tiếng Việt không? Trong một số
ngành kỹ thuật đặc biệt cần phải có lời giải của các bài toán về sửa sai, tính
e n tro p y

của ch ữ c á i, dấu th an h , từ tiế n g V iệ t V. V..

Về mặt lý thuyết, lượng thông tin cao của một hiện tượng được đánh
giá chủ yếu bằng cái mới, cái bất ngờ. Theo các nhà nghiên cứu lý thuyết
thông tin, lượng thông tin có thể xác định được bằng toán học và tính bằng
một đơn vị đặc biệt gọi là bít (binary unit), đơn vị nhị phân. Theo Shannon người sáng lập ra lý thuyết này - một hiện tượng có hai trạng thái có xác
suất bằng nhau (chẳng hạn như trả lời có / không) thì cho lượng thông tin
bằng một bít. Tương tự như vậy, đồng tiền có hai mặt, khi gieo thì nó sẽ sấp
hay ngửa, ta có lượng thông tin bằng một bít. Nói cách khác, lượng thông

tin của một hiện tượng tính bằng đơn vị bít là log 2

củ a

số lượng trạng thái

của hiện tượng đó. Khi xác suất xuất hiện của các trạng thái bằng nhau,
lượng thông tin

của

một tín hiệu (ví dụ như từ trong hệ thống ngôn ngữ)

cũng phụ thuộc vào số lượng của những tín hiệu này. Số lượng tín hiệu của
một ngôn ngữ càng nhiều thì lượng thông tin khi xuất hiện một tín hiệu

20


càng lớn. Nếu xác suất xuất hiện bằng nhau, lượng thông tin của một tín
hiệu sẽ bằng đơn vị bít là log 2 của số lượng tín hiệu N của ngôn ngữ:
1 = log"
Nhưng trong thực tế, tần số xuất hiện của tín hiệu ngôn ngữ thường
chênh lệch, tín hiệu này xuất hiện nhiều hơn tín hiệu kia. Để tính lượng
thông tin của tín hiệu trong trường hợp này lý thuyết thông tin đã có công
thức:
I = lo g 2 - (p- c h ỉ x á c su ất c ủ a tín h iệ u )

Tần số xuất hiện hay tần suất1 (xác suất xuất hiện hay mức độ không
xác định, không chắc chắn) càng cao lượng thông tin càng ít. Ngược lại xác

suất càng thấp thì lượng thông tin càng lớn.
Mặt khác, tần số của một từ vị trong lời nói không chỉ là một sự kiện
cá nhân mà còn là một thuộc tính nội tại của từ vị và có liên quan mật thiết
với các đặc điểm ngữ âm, ngữ pháp, hình thái, từ nguyên2 ; vì vậy trong một
số ngành đặc biệt như mã thám, để tránh tìm ra các quy luật ngôn ngữ,
người ta phải dùng phương pháp san tần số.
Từ nhũng bài toán thực tế trên rất cần các con số thống kê xác suất
xuất hiện một cách ổn định và chính xác của các yếu tố tạo nên âm tiết
cũng như tần số xuất hiện của âm tiết.
Với mong muốn tiếp cận giữa ngôn ngữ và các vấn đề thực tế, phục
vụ thiết thực cho yêu cầu của cuộc sống, chúng tôi đã lựa chọn và thống kê
một danh sách tiết vị cùng với tần số xuất hiện của các yếu tố tạo nên tiết vị
tiếng Việt.

1 về các khái niệm tần số, tần suất chi tiết hơn xin xem: Nguyễn Đức Dân- Ngón ngữ học thống kê, Nxb
ĐH và THCN, HN 1984
2Đãng Thái Minh- Luận án tiến sĩ ngữ vân, ĐHKHXH và NV TPHCM

21


2. 2. 3. Những giớ i hạn củã cơ sở dữ liệu
Để có được một bảng danh sách gồm 6122 tiết vị đơn có trong tiếng
Việt chúng tôi đã phải mất khá nhiều thời gian thống kê và so sánh đối
chiếu trong các loại từ điển. Tuy nhiên trong quá trình thu thập bảng tiết vị
láy, cái khó và chiếm nhiều công phu nhất lại là thao tác phân loại để chọn
ra các tiết vị láy không trùng với bảng tiết vị đơn. Trong Từ điển từ láy mục
từ là những từ ghép láy nên việc đối chiếu so sánh chọn tiếng khồng có
trong từ đơn sẽ không theo một trật tự nào cả. Những công việc phân loại,
sắp xếp này lại không thể nhờ được sự trợ giúp của máy tính mà hoàn toàn

đòi hỏi công sức của người nghiên cứu. Cuối cùng danh sách sau khi chọn
cũng không được sắp xếp theo trật tự từ điển nên việc thu thập phân loại
này phải rất tỉ mỉ và rất mất công sức, thời gian và không tránh khỏi hạn
chế.
Mặt khác để tập họp số liệu thống kê đảm bảo độ chính xác cao,
chúng tôi đã sử dụng một số chương trình phần mềm của máy tính. Tuy vậy
vẫn có những khâu hoàn toàn thủ công, không thể dựa vào sự trợ giúp của
thiết bị máy tính được, chẳng hạn như: đối với việc đếm số lượng các con
chữ kép: [n, ng, k, kh, t, th], máy tính không thể nhận diện được một cách
rõ ràng. Ví dụ: chữ [n] đã đếm cả chữ [ng], chữ [k] đã đếm cả chữ [kh]

V. V..

Hoặc trong luận văn chúng tôi có những quy định riêng cho ký hiệu phiên
âm để tiện cho việc in ấn như [z] phiên âm cho chữ [d], [Z] phiên âm cho
chữ [r], [S] phiên âm cho chữ [s] còn [x] được phiên âm bằng chữ [s] thì
trong những trường hợp này máy đã không nhận diện được. Vì vậy chúng
tôi phải đếm, nhận diện một cách thủ công. Công việc này tuy không khó
khăn nhưng lại rất hay nhầm lẫn nên mất rất nhiều thời gian tổng hợp số
liệu.

22


Mặc dù vậy, tất cả các con số thống kê của chúng tôi là chính xác và
trung thực, có thể kiểm nghiệm kết quả chúng trên máy tính. Các biểu đồ so
sánh được thực hiện nhờ Bảng tính Excel.
Đối với việc xử lý các hiện tượng đồng âm, chúng tôi cho rằng đơn vị
mà chúng tôi quan tâm ở đây là tiết vị, đơn vị của tín hiệu âm thanh cho nên
các hiện tượng đồng âm được xử lý về bình diện ngữ âm là như nhau. Dù có

nói to, nói nhỏ, nhanh hay chậm, mạnh hay yếu, mang nét nghĩa này, hay
khác thì cũng vẫn là một tín hiệu ngôn ngữ hoàn chỉnh, được nhận diện
bằng các nét khu biệt nào đó. Cho nên trong luận văn chúng tôi không khai
thác thêm các thông tin từ vấn đề cấu tạo từ đồng âm.
Tuy nhiên đối với việc xử lý trường hợp biến âm
khác, ví dụ: trồng - giồng, lứìuộni - ruộm

V. V...

địaphương thì lại

Quan niệm của chúng tôi là

chọn một đại diện cho cả loạt biến âm và chỉ đưa đại diện của ngôn ngữ văn
học vào danh sách cho tư liệu thống kê. Tuy nhiên, do nhiều điều kiện khó
khăn vể tri thức văn hoá cũng như ngôn ngữ nên chưa đoan chắc được là đã
lọc được hết các biến âm này.
Nhìn chung, trong một số trường hợp, việc phân loại các thuộc tính
của các tiết vị cũng còn chưa được triệt để. Ví dụ như hầu hết các từ láy là
từ địa phương hoặc từ cổ nhưng cũng chưa được đưa vàocơ sở chothống



với tư cách thuộc tính của tiết vị láy.
Tóm lại, trên thực tế, nhà nghiên cứu không phải bao giờ cũng có thể
nhận định một cách chính xác, khách quan về khả năng kết hợp tự do/
không tự do, có nghĩa độc lập/ không độc lập của tiếng, hay hình vị

V. V...


vì vậy việc phân loại thật là vất vả và không phải lúc nào cũng hoàn toàn
chính xác. Trong bảng IV chúng tôi cũng mới chỉ bước đầu đưa ra một số
tiết vị không có trong bảng đơn và bảng láy, chúng được phân xuất ra từ các
từ ghép. Danh sách đưa ra bước đầu thật ít ỏi và chắc chắn chúng chưa được
vét hết từ vốn từ tiếng Việt.

23


×