KHOA CNTT – ĐH KHTN
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ TRI THỨC
ĐẶNG THÁI DƯƠNG – 0012535
HÀ GIANG HẢI
– 0012544
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
THEO HƯỚNG TIẾP CẬN
NHẬN DẠNG ÂM VỊ TỰ ĐỘNG
LUẬN VĂN CỬ NHÂN TIN HỌC
GIÁO VIÊN HƯỚNG DẪN
Th.S. THÁI HÙNG VĂN
NIÊN KHOÁ 2000 – 2004
KHOA CNTT – ĐH KHTN
Lời cảm ơn
L
ỜI CẢM ƠN
Xin chân thành cảm ơn thầy Thái Hùng Văn đã tận tình hướng dẫn chúng em
trong quá trình hoàn thành đề tài. Những buổi nói chuyện, những kinh nghiệm cùng
những tài liệu của thầy đã giúp chúng em có được những định hướng đúng đắn và
đưa ra các phương pháp tốt để thực hiện đề tài.
Xin gởi lời cảm ơn đến các thầy cô trong Khoa Công nghệ thông tin, những
người đã dìu dắt chúng em trong suốt 4 năm ở Đại học.
Xin cảm ơn bạn bè và các anh chị Khóa trên, những người đã cùng chúng tôi
học tập, san sẻ khó khăn, trong đó có những ủng hộ tinh thần quý giá. Đặc biệt, anh
Nguyễn Tấn Dũng đã nhiệt tình giúp đỡ nhiều về tài liệu.
Và cuối cùng, nhưng quan trọng nhất, xin cám ơn ba mẹ và những người
thân, những người ủng hộ chúng con về mọi mặt. Không có sự quan tâm đó, chúng
con không thể hoàn thành tốt đồ án này.
TP. HCM, ngày 10 tháng 7 n
ăm 2004
Các sinh viên
Đặng Thái Dương – Hà Giang Hải
i
KHOA CNTT – ĐH KHTN
Mục lục
M
ỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH SÁCH CÁC HÌNH vii
DANH SÁCH CÁC BẢNG ix
GIỚI THIỆU CHUNG x
CHƯƠNG 1 Sơ lược về ngữ âm tiếng Việt 1
1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói Tiếng Việt 1
1.2. Phân loại âm tố theo cấu âm 1
1.2.1. Định nghĩa âm tố 1
1.2.2. Các âm tố phụ âm 2
1.2.2.1. Đặc điểm cấu tạo của phụ âm 2
1.2.2.2. Một số cách phân chia phụ âm 2
1.2.2.3. Cấu âm bổ sung 4
1.2.3. Các âm tố nguyên âm 4
1.2.3.1. Đặc điểm cấu tạo của nguyên âm 4
1.2.3.2. Một số cách phân chia nguyên âm 4
1.3. Phân loại âm tố về mặt âm học - nhận dạng tiếng nói dựa vào đặc trưng âm
học
6
1.3.1. Ý nghĩa của phân loại về mặt âm học 6
ii
KHOA CNTT – ĐH KHTN
Mục lục
1.3.2. Các đặc trưng âm học 6
1.3.3. Nhận dạng tiếng nói dựa vào các đặc trưng âm học 11
1.4. Sơ lược về âm tiết tiếng Việt 11
1.4.1. Giới thiệu về âm tiết 11
1.4.2. Một số đặc điểm của âm tiết tiếng Việt 12
1.4.2.1. Là ngôn ngữ có kết cấu âm tiết tính 12
1.4.2.2. Mỗi âm tiết có thanh điệu riêng 12
1.4.2.3. Âm tiết có cấu trúc chặt chẽ và ổn định 13
1.5. Lý thuyết về âm vị 14
1.5.1. Định nghĩa âm vị 14
1.5.2. Chức năng của âm vị 15
1.5.3. Tách âm vị và xác định âm vị trên chuỗi sóng âm 15
CHƯƠNG 2 Mô hình HMM áp dụng vào nhận dạng âm vị 17
2.1. Giới thiệu 17
2.2. Những vấn đề cơ bản của HMM 17
2.2.1. Các kiến thức toán của HMM và các vấn đề khi sử dụng HMM vào nhận
dạng tiếng nói
17
2.2.1.1. Giới thiệu về nhận dạng thống kê và HMM 18
2.2.1.2. Các thành phần chính của HMM 19
2.2.1.3. Ví dụ về nhận dạng từ đơn dựa trên HMM 21
2.2.1.4. Hai giả thuyết cơ bản để xây dựng hệ thống nhận dạng dựa trên
HMM
22
2.2.1.5. Ba vấn đề thiết yếu của mô hình HMM và cách giải quyết các vấn đề
trên
24
iii
KHOA CNTT – ĐH KHTN
Mục lục
2.3. Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM 28
2.3.1. Mô hình Nhận dạng 28
2.3.2. Các thành phần cơ bản của hệ thống nhận dạng tiếng nói dựa trên HMM
và mối liên hệ giữa chúng.
30
2.4. Mô hình HMM cho âm vị được sử dụng trong bài làm 32
CHƯƠNG 3 Tiền xử lý tín hiệu Tiếng nói và rút trích đặc trưng 34
3.1. Ý nghĩa của Tiền xử lý Tiếng nói 34
3.2. Một số công việc trong Tiền xử lý tín hiệu tiếng nói 35
3.2.1. Làm nổi tín hiệu (pre-emphasis) 35
3.2.2. Lọc tiếng ồn 36
3.3. Rút trích đặc trưng 37
3.3.1. Giới thiệu 37
3.3.2. Một số phương pháp trích đặc trưng 38
3.3.2.1. Phương pháp Mã hóa dự báo tuyến tính (LPC) 38
3.3.2.3. Phương pháp Mã hoá cepstral tần số Mel dựa trên LPC (MFCC) 42
3.3.2.4. Các hệ số delta (D) và hệ số gia tốc (A) 42
3.3.3. So sánh các phương pháp trích đặc trưng 43
CHƯƠNG 4 Thuật giải Embedded training – tách và xây dựng mô hình HMM
tự động cho âm vị
45
4.1. Tách và nhận dạng âm vị tự động dựa trên HMM 45
4.1.1. Thuật toán huấn luyện đối với những đơn vị độc lập - Huấn luyện trên dữ
liệu gán nhãn
45
4.1.2. Thuật giải Embedded training - huấn luyện trên dữ liệu âm thanh không
gán nhãn âm vị
46
iv
KHOA CNTT – ĐH KHTN
Mục lục
4.2. Các công thức ước lượng tham số của mô hình HMM 49
4.2.1. Ước lượng tham số khi huấn luyện các mô hình HMM độc lập 49
4.2.2. Ước lượng tham số trong thuật giải Embedded training 51
4.3. Các vấn đề về tham số của HMM khi sử dụng thuật giải Embedded training.
53
4.3.1. Khởi tạo tham số 53
4.3.2. Ngưỡng 54
4.3.3. Số lần lặp trong mỗi bước luyện của thuật toán 54
4.3.4. Dữ liệu huấn luyện 54
CHƯƠNG 5 Thực hiện chương trình 56
5.1. Các khó khăn trong quá trình nhận dạng 56
5.1.1. Âm vị độc lập và âm vị phụ thuộc ngữ cảnh 56
5.1.2. Tách âm tiết trong tiếng nói liên tục và sự phụ thuộc giữa các âm vị lẫn
nhau trong tiếng nói liên tục
58
5.1.3. Các nguyên âm đôi 58
5.1.4. Ảnh hưởng của thanh điệu lên âm vị 59
5.2. Quá trình thực hiện chương trình 59
5.2.1. Các bước chính 60
5.2.2. Thu dữ liệu và gán nhãn dữ liệu 60
5.2.2.1. Thu dữ liệu 60
5.2.2.2. Gán nhãn dữ liệu 61
5.2.2.3. Đánh giá dữ liệu 61
5.2.2.4. Rút trích đặc trưng dữ liệu 61
5.2.3. Khởi tạo mô hình HMM 62
v
KHOA CNTT – ĐH KHTN
Mục lục
5.2.4. Huấn luyện mô hình HMM 63
5.2.4.1. Huấn luyện mô hình HMM cho âm vị độc lập ngữ cảnh
(monophone)
63
5.2.4.2. Huấn luyện trên mô hình âm vị phụ thuộc ngữ cảnh (triphone) 66
5.2.5. Nhận dạng 70
5.3. Đánh giá kết quả và hướng phát triển: 71
5.3.1. Kết quả nhận dạng 71
5.3.2. Nhận xét 73
5.3.3. Hướng phát triển 73
TÀI LIỆU THAM KHẢO 75
vi
KHOA CNTT – ĐH KHTN
Danh sách các hình
D
ANH SÁCH CÁC HÌNH
HÌNH 1 – Phổ (spectrum) của một nguồn âm thanh tại thời điểm t 7
HÌNH 2 – Phổ đồ (spectrogram) của tiếng “hai” (trên) và sóng âm tương ứng (dưới).
Những vùng có cường độ cao (vùng đen) tạo thành những dãi bắt ngang qua
phổ đồ, đó là những vệt formant, được đánh số từ dưới lên là F1, F2, F3, …
8
HÌNH 3 – Cụm từ “âm tiết tiếng Việt” thể hiện trên sóng âm. Mỗi âm tiết có biên
độ lớn ở giữa âm và giảm dần khi đi về đầu và cuối âm
12
HÌNH 4 – Cụm từ “bốn lăm” đứng kề nhau: có một khoảng chồng lấp giữa âm vị
“n” cuối âm tiết “bốn” và âm vị “l” đầu âm tiết “lăm”
16
HÌNH 5 – Hai cách tách âm vị cho cùng một sóng âm của chữ “hai” 16
HÌNH 6 – Mô hình HMM 5 trạng thái 19
HÌNH 7 – Sơ đồ huấn luyện mô hình HMM 28
HÌNH 8 – Sơ đồ nhận dạng từ mô hình HMM đã được huấn luyện 29
HÌNH 9 – Mô hình nhận dạng theo 3 cấp 30
HÌNH 10 – Sóng âm của chữ “hai” trước khi (hình trái) và sau khi (hình phải) được
làm phẳng
36
HÌNH 11 – Sơ đồ của bộ lọc MFCC dựa trên biến đổi dự báo tuyến tính và các biến
đổi Fourier
42
HÌNH 12 – Lưu đồ huấn luyện từ đơn của công cụ HRest (HTK) 46
HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” 47
HÌNH 14 – Mô hình huấn luyện Embedded training 48
HÌNH 15 – Các âm vị không nằm trong 1 siêu cầu 57
HÌNH 16 – Mô hình huấn luyện monophone (Từ in nghiêng trong dấu ngoặc đơn là
tên thư mục hoặc tập tin trong bài làm của nhóm)
63
HÌNH 17 – Mối liên hệ giữa likelihood trung bình và số bước huấn luyện 64
vii
KHOA CNTT – ĐH KHTN
Danh sách các hình
HÌNH 18 – Phương pháp góm nhóm âm vị dựa vào cây quyết định âm học 68
HÌNH 19 – Buộc trạng thái theo phương pháp Data-driven-clustering 69
HÌNH 20 – Sự phụ thuộc của kết quả nhận dạng vào ngưỡng phân nhóm các trạng
thái của HMM
69
viii
KHOA CNTT – ĐH KHTN
Danh sách các bảng
DANH SÁCH CÁC BẢNG
BẢNG 1 – Phân chia nguyên âm theo độ nâng của lưỡi 6
BẢNG 2 – Ảnh hưởng của số bước lặp huấn luyện đến kết quả nhận dạng 64
BẢNG 3 – Kết quả nhận dạng các tiếng là chữ số đọc liên tục 72
BẢNG 4 – Kết quả nhận dạng từ đơn 73
ix
KHOA CNTT – ĐH KHTN
Giới thiệu chung
G
IỚI THIỆU CHUNG
Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và
máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay
trên thế giới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộ vượt bậc. Tuy
nhiên, hầu hết các công trình vẫn còn thực hiện ở trong phòng thí nghiệm, đặc biệt
là đối với các thứ tiếng ít phổ biến như Tiếng Vi
ệt của chúng ta.
Ý tưởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm
50 của thế kỷ 20 và đến nay đã đạt được nhiều kết quả đáng kể. Có 3 hướng tiếp cận
chính cho nhận dạng tiếng nói:
Tiếp cận
Âm học: Hướng tiếp cận này dựa vào các đặc điểm âm học được
rút ra được từ phổ âm thanh. Tuy nhiên kết quả của hướng tiếp cận này
còn thấp vì trong thực tế, các đặc trưng âm học có sự biến động rất lớn.
Hơn nữa phương pháp này đòi hỏi tri thức rất đầy đủ về âm học (Vốn tri
thức âm học hiện nay chưa thể đáp ứng).
Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phương pháp máy học
dựa trên thống kê để học và rút ra mẫu tham khảo từ lượng dữ liệu lớn.
Hướng này đang được sử dụng nhiều, chủ yếu là dựa vào
Mô hình
Markov ẩn
(HMM).
Tiếp cận
Trí tuệ nhân tạo: là hướng kết hợp của cả hai hướng trên.
Phương pháp này kết hợp được cả tri thức của chuyên gia và phương
pháp mẫu thống kê. Đây sẽ là hướng tiếp cận tương lai của nhận dạng
tiếng nói.
Việc nhận dạng tiếng nói gặp một số khó khăn sau:
x
KHOA CNTT – ĐH KHTN
Giới thiệu chung
Trong môi trường sinh hoạt hàng ngày, chất lượng tiếng nói biến động rất
lớn do chịu ảnh hưởng của các yếu tố ngoại cảnh, tâm và sinh lý người nói: một câu
của cùng một người nói khi thâu vào máy sẽ khác nhau nếu nói ở hai tâm trạng khác
nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác nhau (lúc khoẻ nói
khác, lúc bệnh nói khác), tốc độ nói khác nhau (nói chậm thì rõ hơn nói nhanh), môi
trường xung quanh khác nhau (môi trường có tiêng ồn thì âm thu vào sẽ bị nhiễu),
v.v… Và còn nhiều yếu tố khác nữa tác động lên chất l
ượng của lời nói như thiết bị
thu không tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên rất khó khăn.
Nói về nhận dạng tiếng Việt, chúng ta đi sau thế giới rất lâu. Vì vậy, thành
quả đạt được còn hạn chế: chưa có những hệ thống nhận dạng thật sự tốt, chưa có
các kho dữ liệu quí như trong tiếng Anh,… Tuy nhiên, chúng ta đượ
c thừa hưởng
nhiều thành quả của thế giới về kỹ thuật nhận dạng. Hiện nay, trong khi chưa có các
công trình nghiên cứu đầy đủ về ngữ âm tiếng Việt dưới góc độ làm tin học, hướng
tiếp cận chủ yếu để nhận dạng tiếng nói tiếng Việt vẫn là nhận dạng thống kê. Và
khó khăn của chúng ta là xây dựng các kho dữ liệu đủ lớn và chính xác dùng để học
mẫu và kiểm tra kết quả nhận dạng.
Trong hệ nhận dạng tiếng nói, đơn vị cơ bản phải nhận được là từ, hay còn
gọi là âm tiết. Trong hầu hết các ngôn ngữ, số lượng âm tiết là rất lớn. Tiếng Việt có
hơn 8000 âm tiết, khoảng 6000 âm tiết được dùng phổ biến. Với số lượng lớn như
vậy, việ
c nhận dạng từng âm tiết là khó thực hiện được. Vì vậy, chúng ta phải đi
theo hướng nhận dạng các đơn vị nhỏ hơn cấu thành âm tiết (đơn vị dưới từ, ví dụ
như âm vị) vì các đơn vị này có số lượng ít. Theo thống kê, trong hầu hết các ngôn
ngữ, số lượng âm vị dao động từ 20 đến 60 (ít hơn nhiều so với hàng ngàn hay hàng
chục ngàn âm tiết). Vì v
ậy, nhận dạng âm vị là hướng thường được chọn trong số
các hướng nhận dạng đơn vị dưới từ.
Trong nhận dạng tiếng nói theo hướng nhận dạng từng âm vị, một khó khăn
chúng ta gặp phải là: các âm vị liền nhau trong chuỗi tiếng nói không có vách ngăn
rõ ràng (2 âm vị sát nhau có một phần giao nhau, khó xác định được phần giao nhau
xi
KHOA CNTT – ĐH KHTN
Giới thiệu chung
thuộc âm vị trước hay âm vị sau). Ngay cả đối với con người, tách âm vị từ một âm
tiết (xác định vị trí bắt đầu và vị trí kết thúc của âm vị đó trên sóng âm của âm tiết)
cũng không phải là công việc đơn giản.
Hiện nay, hầu hết các hướng tiếp cận để nhận dạng âm vị là nhận dạng theo
học mẫu thống kê. Thông thường, để học mẫu, người ta cung c
ấp cho chương trình
học một nguồn dữ liệu có nhiều mẫu được đã phân loại thành nhiều lớp và có gán
nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữ liệu này phải được phân lớp
và gán nhãn chính xác hoàn toàn để máy học. Tuy nhiên, do không thể tách âm vị
một cách chính xác, nguồn dữ liệu âm vị đưa vào khó đạt được mức độ chính xác,
kết quả là việc huấn luyện giảm hiệu suất, làm cho hiệu su
ất của chương trình nhận
dạng cũng giảm theo.
Chúng tôi xin nêu ra một hướng giải quyết để tránh việc gán nhãn âm vị
không chính xác: thay vì đánh nhãn âm vị, chúng ta sẽ đánh nhãn âm tiết, đồng thời
cho biết các âm vị cấu thành âm tiết đó. Như vậy, dữ liệu mẫu cung cấp cho quá
trình học là các âm tiết. Thuật toán học được sử dụng để tách âm vị là Embedded
training. Kết quả thu được là các mô hình HMM cho từng âm vị. Do m
ỗi dãy âm vị
được chọn tương đương với một âm tiết, công việc đánh nhãn âm vị trên sóng âm
thực chất là không có (chỉ đánh nhãn trên âm tiết, vốn được thực hiện dễ dàng). Vì
vậy, có thể xem dữ liệu đưa vào trong quá trình huấn luyện là dữ liệu không gán
nhãn và phương pháp nhận dạng này được xem là nhận dạng âm vị tự động.
Công việc gán nhãn âm vị bằng tay rất vất vả và m
ất nhiều thời gian.Ngoài ra,
hiện nay có rất ít kho dữ liệu đã được gán nhãn âm vị. Vì vậy, hướng tiếp cận nhận
dạng âm vị tự động, vốn hiệu quả hơn, tỏ ra là hướng tiếp cận đúng đắn. Tuy nhiên,
huấn luyện trên dữ liệu không gán nhãn cũng có những khó khăn: đòi hỏi khối
lượng dữ liệu lớn hơn nhiều so với hu
ấn luyên trên dữ liệu có gán nhãn, đồng thời
quá trình huấn luyện cũng lâu hơn.
xii
KHOA CNTT – ĐH KHTN
Giới thiệu chung
Với những ưu thế vượt trội như trên đã nêu, hướng tiếp cận nhận dạng âm vị
tự động đã được chúng tôi chọn trong đề tài nhận dạng tiếng nói tiếng Việt của
mình. Trong bài làm, chúng tôi muốn chứng minh hai điều:
Nếu có đầy đủ dữ liệu tiếng nói (không gán nhãn), có thể nhận dạng được
số lượng lớn các âm tiết tiếng Việt với
độ chính xác tương đối cao theo
hướng tiếp cận nhận dạng âm vị tự động.
Có thể nhận dạng được tiếng nói Tiếng Việt nói liên tục với tốc độ trung
bình.
Phần còn lại của luận văn này được tổ chức như sau:
CHƯƠNG 1: Sơ lược một số đặc điểm của ngữ âm tiếng Việt, hướng tiếp
cận nhận dạng tiếng nói dựa vào đặc trưng âm học, giới thiệu về âm vị và bài toán
tách âm vị tự động trong tiếng Việt.
CHƯƠNG 2: Giới thiệu mô hình HMM và sự lựa chọn mô hình HMM cho
đề tài nhận dạng tiếng Việt của nhóm.
CHƯƠNG 3: Tiền xử tiếng nói và rút trích đặc trưng. Chương này sẽ giới
thiệu về tiền xử lý tiếng nói và một số phương pháp trích đặc trưng được sử dụng
trong nhận dạng tiếng nói.
CHƯƠNG 4: Giới thiệu thuật giải embedded training. Đây là quá trình xây
dựng mô hình HMM tự động cho các âm vị từ kho dữ liệu không gán nhãn âm vị.
CHƯƠNG 5: Quá trình thực hiện chương trình nhận dạng tiếng nói của
nhóm. Kết quả nhận dạng và giới thiệu chương trình demo.
xiii
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
C
HƯƠNG 1 Sơ lược về ngữ âm tiếng Việt
1.1. Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng
nói Tiếng Việt
Các hệ nhận dạng tiếng nói phát triển gần đây bắt đầu đi theo hướng tiếp cận
ngữ âm học kết hợp với hướng tiếp cận nhận dạng theo mẫu thống kê truyền thống.
Các hệ nhận dạng tiếng nói trong tương lai cũng kết hợp hướng nhận dạng thống kê
và sử dụng các tri thức về ngữ âm học để tạo ra các hệ nhậ
n dạng hoạt động giống
với cách thức mà con người nghe và hiểu tiếng nói nhất. Vì vậy, các nghiên cứu về
ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhận dạng trở nên mang ý
nghĩa quan trọng. Công việc nghiên cứu này có ý nghĩa riêng biệt trên từng ngôn
ngữ (Vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài những điểm chung). Vì vậy,
muốn xây dựng tốt hệ nhận dạng tiếng nói tiế
ng Việt, trước tiên chúng ta phải
nghiên cứu ngữ âm tiếng Việt để biết được đặc điểu âm học của Tiếng Việt trong
từng địa phương. Từ đó, xây dựng hệ nhận dạng hiệu quả nhất cho ngôn ngữ/địa
phương đó.
1.2. Phân loại âm tố theo cấu âm
1.2.1.
Định nghĩa âm tố
Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được. Chúng
không mang chức năng phân biệt nghĩa hay nhận diện từ.
Âm tố thường tương ứng với âm vị.
Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát âm
khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát âm của
1
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
mỗi cá nhân,… Chính vì vậy, người ta không liệt kê được có bao nhiêu âm tố trong
các ngôn ngữ.
Âm tố cơ bản được chia ra làm 2 loại: nguyên âm và phụ âm. Sự phân chia
này có thể đi từ những đặc điểm âm học, cấu âm và vai trò của chúng trong cấu tạo
âm tiết.
Về mặt chức năng, các nguyên âm thường là hạt nhân (hay đỉnh) của âm tiết
- thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và ngữ
điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm. Phụ âm,
ngược lại, thường là yếu tố đi kèm, không tạo thành âm tiết (trừ các phụ âm vang).
Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của nguyên
âm nhưng có chức năng khác với chức năng của nguyên âm, thường chỉ đi kèm với
nguyên âm khác để tạo âm tiết. Ví dụ: các âm tố được viết thành u, i trong các âm
tiết “sau”, “mai” trong ti
ếng Việt là các bán nguyên âm.
1.2.2.
Các âm tố phụ âm
1.2.2.1. Đặc điểm cấu tạo của phụ âm
Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại trên lối ra
của đường không khí. Điểm có chướng ngại được gọi là vị trí cấu âm.
Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ
thịt ở vị trí cấu âm.
Luồng hơi ra mạnh
1.2.2.2. Một số cách phân chia phụ âm
Phân chia theo theo mối quan hệ giữa tiếng thanh và tiếng ồn trong
cấu tạo của phụ âm:
Các phụ âm được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng
ồn) và các phụ âm ồn. Trong các phụ âm ồn lại chia ra các phụ âm hữu thanh (phát
2
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
âm có sự tham gia của tiếng thanh, do dây thanh rung động) và phụ âm vô thanh
(phát âm không có sự tham gia của tiếng thanh).
Nhóm phụ âm vang có thể được coi là nhóm trung gian giữa các nguyên âm
và phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có
thể là chỗ tắc yếu (như ở phụ âm [r] tiếng Nga hay [R] tiếng Pháp hay [ l] tiếng Việt)
hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự
do qua mũi (như ở các phụ âm [m], [n] trong tiếng Việt).
Phân chia theo phương thức cấu tạo tiếng ồn, bao gồm:
Phụ âm tắc: tạo thành khi hai khí quan tiếp xúc nhau, tạo thành chỗ tắc, cản
trở hoàn toàn lối ra của luồng không khí. Ví dụ: Các phụ âm [p], [b], [t], [d].
Phụ âm xát: tạo thành khi hai khí quan nhích lại gần nhau, làm cho lối ra của
luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành
của bộ máy phát âm. Ví dụ: Các phụ âm [f], [v], [s], [z], [h].
Phụ âm rung: tạo thành khi các khí quan dễ rung động (như đầ
u lưỡi, lưỡi
con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu,
luồng không khí đi ra mạnh làm cho các khí quan ấy rung lên. Ví dụ: phụ âm [r]
trong tiếng Nga hay [R] trong tiếng Pháp.
Trong cách cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:
Giai đoạn tiến: khí quan phát âm chuyển đến vị trí cấu âm.
Giai đoạn giữ: khí quan phát âm ở vị trí cấu âm.
Giai đo
ạn lùi: khí quan phát âm rời khỏi vị trí cấu âm.
Hai giai đoạn đầu giống nhau ở bất cứ âm tắc nào. Về giai đoạn thứ ba, cần
phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc- xát và âm khép.
Phân chia theo vị trí tạo ra tiếng ồn
Theo vị trí cấu tạo tiếng ồn, các phụ âm thường được chia ra thành các loạt
chính như: phụ âm môi, răng, lợi, ngạc m
ạc, lưỡi con, yết hầu, thanh hầu.
3
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
Theo khí quan chủ động, các phụ âm được chia thành các loại: phụ âm môi,
lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.
Trong các nhóm này, có một số cần chia nhỏ ra nữa. Thí dụ trong các âm môi,
người ta phân biệt các âm hai môi, thường gọi là âm môi-môi (ví dụ: [p], [b], [m])
với các âm một môi, thường gọi là âm môi-răng ( ví dụ: [f], [v]); các âm lưỡi trước
thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm qu
ặt
lưỡi, …
1.2.2.3. Cấu âm bổ sung
Một số ngôn ngữ còn có một số cấu âm bổ sung làm thay đổi sắc thái các âm.
Ðó là các hiện tượng bật hơi, môi hóa, ngạc hóa, yết hầu hóa, thanh hầu hóa, mũi
hóa. Trong tiếng Việt, các cấu âm bổ sung có vai trò quan trọng hơn cả là: hiện
tượng bật hơi tức là kèm theo một lưu lượng không khí lớn khi chỗ tắc được bật ra
(ví dụ: phụ âm th); hi
ện tượng thanh hầu hóa - bổ sung động tác tắc kèm theo sự
nâng lên của thanh hầu; và yết hầu hóa - bổ sung động tác khép của yết hầu. Hai
hiện tượng sau góp phần hiện thực hóa một số phụ âm đầu và thanh điệu tiếng Việt.
Các cấu âm bổ sung, cũng như các cấu âm khác, đều có thể được sử dụng để
khu biệt các âm tố, hay các hiện tượng âm thanh trong ngôn ngữ. Vì vậy, xét về mặt
âm v
ị học, chúng có giá trị bình đẳng với nhau.
1.2.3.
Các âm tố nguyên âm
1.2.3.1. Đặc điểm cấu tạo của nguyên âm
Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi
Bộ máy phát âm căng thẳng toàn bộ
Luồng hơi ra yếu hơn phụ âm
1.2.3.2. Một số cách phân chia nguyên âm
Các nguyên âm không thể phân loại theo tiêu chuẩn như của phụ âm. Về mặt
phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra
4
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
tự do. Nguyên âm không có vị trí cấu âm vì các khí quan không tạo thành khe, cũng
không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh,
vì bình thường, bất cứ nguyên âm nào cũng có tiếng thanh.
Các nguyên âm chỉ khác nhau ở các hoạt động của các khí quan phát âm,
trong đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau
rất lớn giữa các nguyên âm. Lưỡi chuyển động tới - lui và lên - xuống trong khoang
miệng tạo nên những tương quan phức tạp giữa các khoang c
ộng minh (khoang
miệng và mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về
trước, làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh
trường phía trước ngắn lại.
Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi
và hình dáng của môi:
Phân loại theo vị trí của lưỡi
Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau
(khi lưỡi dồn về sau) và nguyên âm dòng giữa
(khi lưỡi ở giữa miệng nâng lên). Ví
dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau
là [u], [o], [ô] và nguyên âm dòng giữa là [ư], [ơ], [a].
Phân loại theo độ nâng của lưỡi
Các nguyên âm được chia tùy theo từng ngôn ngữ. Ðộ nâng của lưỡi tương
ứng với độ mở của miệng, nên các nguyên âm có độ nâng cao còn gọi là nguyên âm
hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại
cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ng
ữ có
một hệ thống nguyên âm khác nhau. Ví dụ, các nguyên âm dòng trước trong tiếng
Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, nguyên âm trong
tiếng Nga có 3 độ nâng, còn trong tiếng Anh có 6 độ nâng. Trong tiếng Việt, các
nguyên âm đơn có thể chia thành 4 độ nâng:
5
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
Độ nâng Gồm các nguyên âm
Hẹp [i], [u], …
Hơi hẹp [ê], [ư], …
Hơi rộng [o], [e], …
Rộng [ă], [a], …
BẢNG 1 – Phân chia nguyên âm theo độ nâng của lưỡi
Phân loại theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi (như [u], [ô], [o]),
nguyên âm không tròn môi (như [i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở
nguyên âm khép và yếu nhất ở nguyên âm mở.
1.3. Phân loại âm tố về mặt âm học - nhận dạng tiếng nói dựa
vào đặc trưng âm học
1.3.1.
Ý nghĩa của phân loại về mặt âm học
Sự phân loại về mặt cấu âm mang tính chất l ý thuyết, mô tả cách phát sinh
từng âm tố trong cơ quan phát âm của con người. Trên thực tế, con người không cần
biết về cách cấu âm của từng nguyên âm và phụ âm vẫn có thể nghe và hiểu nhau.
Đặc biệt trong lĩnh vực nhận dạng tiếng nói, dữ liệu mà con người đưa cho máy xử
lý chỉ mang đặc điểm về âm học (những gì con người nghe và cảm nhận đượ
c).
Máy tính không biết gì đến hình thức cấu âm của nguồn dữ liệu (và cũng không thể
biết được). Vì vậy, sự phân loại âm tố về mặt âm học được đề xướng và nó mang
những ưu điểm: xác định đặc điểm của âm tố một cách trực tiếp không thông qua bộ
máy phát âm; tiêu chí phân loại đơn giản,…
1.3.2.
Các đặc trưng âm học
Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm phổ.
Các máy phân tích âm phổ cho chúng ta các phổ đồ (phổ hình), qua đó các âm tố thể
hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ
6
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ
với trục ngang biểu diễn các tần số (Hz) tham gia cấu thành âm thanh tại thời điểm t
và trục đứng là cường độ tương ứng (dB).
HÌNH 1 – Phổ (spectrum) của một nguồn âm thanh tại thời điểm t
Để biểu diễn phổ phổ tiếng nói theo sự biến thiên thời gian, người ta dùng
phổ đồ với trục ngang biểu diễn thời gian, truc đứng biểu diễn tần số, cường độ của
mỗi sóng có tần số f
i
tại thời điểm t
i
được biểu diễn bằng 1 chấm. Nếu cường độ
càng mạnh thì chấm biễu diễn càng đậm.
Ngoài ra còn có thể biểu diễn phổ đồ của tiếng nói theo sự biến thiên thời
gian trong không gian 3 chiều. Khi đó, phổ đồ thu được có dạng như thác nước và
người ta gọi nó là Phổ đồ thác nước (Waterfall Spectrogram).
7
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
HÌNH 2 – Phổ đồ (spectrogram) của tiếng “hai” (trên) và sóng âm tương ứng
(dưới). Những vùng có cường độ cao (vùng đen) tạo thành những dãi bắt ngang
qua phổ đồ, đó là những vệt formant, được đánh số từ dưới lên là F1, F2, F3, …
Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo 12 đặc trưng sau:
Nguyên âm – Không nguyên âm
Đặc trưng nguyên âm: được thể hiện bằng các cấu trúc formant.
Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng
nguyên âm là các âm ồn.
Phụ âm – Không phụ âm
Đặc trưng âm học của phụ âm là có mức năng lượng thấp. ếu có mức năng
lượng cao là nguyên âm.
Có đặc trưng phụ âm là các phụ âm vang và ồn.
Bổng - Trầm
Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm
trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới của
phổ.
8
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
Âm bổng gồm các nguyên âm hàng trước, phụ âm răng, các phụ âm lưỡi
trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các phụ âm môi và phụ âm
lưỡi sau.
Loãng - Đặc
Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ,
đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm
Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi
trước, lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi
cao (nguyên âm khép), những phụ âm răng, phụ âm môi ([i], [u], [ư] trong tiếng
Việt).
Ngắt - Không ngắt
Ðó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt
và vắng mặt của âm thanh. “Các phụ âm xát thường có khởi âm từ từ. Ngược lại,
các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng im
lặng hoàn toàn” (R. Jacobson, G. Fant và M. Halle, 1962)
Âm ngắt bao g
ồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ
âm xát, phụ âm mũi) là những âm không ngắt.
Gắt - Không gắt
Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm
gắt có vùng tối thay đổi sắc thái rõ rệt.
Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc - xát, bật
hơi, phụ âm rung. Những loại hình âm còn lại là những âm không gắt.
C
ăng - Lơi
Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh cộng
hưởng thể hiện rõ trên phổ hình.
9
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
Âm căng bao gồm các phụ âm mạnh và các nguyên âm đặc. Âm lơi bao gồm
những phụ âm yếu và các nguyên âm loãng.
Hữu thanh - Vô thanh
Ðó là sự đối lập giữa có hay không có những dao động điều hoà ở vùng tần
số thấp.
Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh.
Mũi - Miệng (hay Mũi - Không mũi)
Phổ hình của các âm mũi có mật độ phooc-măng dày hơn so với các âm
mi
ệng tương ứng. Ở các nguyên âm mũi giữa F1 và F2 xuất hiện thêm một formant
phụ, và đồng thời có sự giảm cường độ của F1 và F2.
Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái: m, n, nh, ng.
Giáng - Không giáng
Các âm giáng là những âm trầm hóa - có một hoặc một số các formant của nó
bị hạ thấp so với các âm không giáng. Các nguyên âm tròn môi như [u], [ô], [o]
trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi hóa đều là nhữ
ng
âm giáng.
Thăng - Không thăng
Ngược lại so với âm giáng, chúng là những âm bổng hóa - các nguyên âm
hàng trước thường là các âm có một trong số các phoóc măng cao hơn các âm
không thăng tương ứng.
Thanh hầu hóa - Không thanh hầu hóa
Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn trong
một khoảng thời gian ngắn
Trong tiếng Việt, âm thanh hầu hóa có thể xuất hiện trong các âm tiết vắng
phụ âm đầu nh
ư ăn, uống, uể, oải, … hoặc trước các phụ âm hữu thanh, đặc biệt là
trước [b], [đ], và [l].
10
KHOA CNTT – ĐH KHTN
Sơ lược về ngữ âm tiếng Việt
1.3.3.
Nhận dạng tiếng nói dựa vào các đặc trưng âm học
Như trên đã phân tích, có rất nhiều đặc trưng âm học. Và các đặc trưng đều
có thể rút ra được từ quá trình phân tích phổ đồ. May mắn là với tín hiệu âm thanh
được lưu vào máy tính dưới dạng số, không cần dùng máy phân tích phổ, người ta
vẫn có thể phân tích để đưa ra phổ đồ bằng thuật toán (bằng phép biến đổi Fourier
ngắn kỳ - Short-term Discrete Fourier Transform). Người ta dựa vào những đặc
trưng này cùng với những mô hình khác để nhận dạng tiếng nói.
1.4. Sơ lược về âm tiết tiếng Việt
1.4.1.
Giới thiệu về âm tiết
Khi giao tiếp, con người phát ra những chuỗi âm thanh nhất định, ta gọi là
dòng ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta
sẽ thu nhận được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị.
Trong đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm
nhỏ nhất. Mỗi âm tiết là một tiếng.
Ví dụ: lời nói “Một hai ba bốn nă
m sáu” có 6 âm tiết.
Về mặt sinh lý - vật lý, âm tiết được định nghĩa là một đơn vị mà khi phát âm
được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm.
Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm
tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được.
Âm tố âm tiết tính thường được phân b
ố ở trung tâm, làm hạt nhân âm tiết. Đó
thường là các nguyên âm. Điều này dẫn tới hệ quả là một âm tiết khi được phát ra
thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu
và cuối âm tiết thì năng lượng giảm dần (xem hình)
11