Tải bản đầy đủ (.pdf) (82 trang)

Ứng dụng mô hình gauss tuyến tính trong nhận dạng một bộ khẩu lệnh tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 82 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

LUẬN VĂN THẠC SỸ KHOA HỌC

ỨNG DỤNG MƠ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG
MỘT BỘ KHẨU LỆNH TIẾNG VIỆT

NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN

PHẠM ĐẮC ĐỊNH

Người hướng dẫn khoa học: PGS. TSKH. TRẦN HOÀI LINH

Hà Nội - 2009

1


Lời cam đoan

Tơi xin cam đoan đây là cơng trình nghiên cứu của tôi và chưa được
công bố trong bất cứ cơng trình nào và chưa được đăng trong bất cứ tài liệu
nào, tạp chí, hội nghị nào khác. Những kết quả nghiên cứu trong luận văn là
trung thực.

Hà Nội, tháng 11 năm 2009
Tác giả luận văn

Phạm Đắc Định



2


Mục lục
Lời cam đoan ........................................................................................... 2
Lời cảm ơn .............................................................................................. 6
DANH MỤC CÁC KÝ HIỆU VIẾT TẮT ......................................................... 9
DANH MỤC CÁC KÝ HIỆU TOÁN HỌC ..................................................... 10
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI ............................... 11
1.1. Đặt vấn đề ............................................................................................................... 11
1.1.1. Giới thiệu......................................................................................................... 11
1.2. Nguyên tắc của hệ thống nhận dạng tiếng nói ........................................................ 12
1.3. Một số phương pháp nhận dạng tiếng nói ............................................................... 13
1.4. Các nghiên cứu hiện thời về nhận dạng tiếng nói ................................................... 15
1.4.1. Các yếu tố ảnh hưởng đến kết quả nhận dạng ................................................. 15
1.4.2. Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngoài ....................... 17
1.4.3. Các nghiên cứu về nhận dạng tiếng nói tiếng Việt .......................................... 17
CHƯƠNG 2: MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA TÍN HIỆU TIẾNG NĨI VÀ NHẬN
DẠNG TIẾNG NĨI ................................................................................. 19
2.1. Tín hiệu tiếng nói ..................................................................................................... 19
2.1.1. Cơ chế tạo và cảm thụ tín hiệu tiếng nói ......................................................... 19
2.1.2. Một số đặc tính cơ bản của tín hiệu tiếng nói ................................................. 22
2.1.3. Biểu diễn tín hiệu tiếng nói ............................................................................. 22
2.2. Ngôn ngữ tiếng Việt................................................................................................ 22
2.2.1. Đặc điểm của âm tiết tiếng Việt ...................................................................... 22
2.2.2. Âm vị tiếng Việt .............................................................................................. 24
CHƯƠNG 3: CÁC PHƯƠNG PHÁP TRÍCH TẠO ĐẶC TÍNH TIẾNG NÓI ............. 28
3.1. Tiền xử lý ................................................................................................................ 28
3.2. Phân khung và cửa sổ hố ....................................................................................... 31

3.3. Trích tạo đặc tính .................................................................................................... 32
3.3.1. Phương pháp tính hệ số MFCC ....................................................................... 32
3.3.2. Phương pháp tính hệ số PLP ........................................................................... 37
CHƯƠNG 4: MƠ HÌNH GAUSS TUYẾN TÍNH TRONG NHẬN DẠNG TIẾNG NĨI 42
4.1. Mơ hình thống kê trong nhận dạng tiếng nói .......................................................... 42
4.1.1. Nguyên lý hoạt động của các hệ thống nhận dạng tiếng nói sử dụng mơ hình
thống kê ...................................................................................................................... 42
4.1.2. Mơ hình Markov ẩn ......................................................................................... 43
4.2. Tổng quan về các mơ hình Gauss tuyến tính .......................................................... 52
4.2.1. Các mơ hình khơng gian trạng thái ................................................................. 53
4.2.2. Các mạng Bayes .............................................................................................. 53
4.2.3. Quá trình sinh ra dãy trạng thái ....................................................................... 54

3


4.2.4. Quá trình sinh ra dãy quan sát ......................................................................... 56
4.3. Các mơ hình Gauss tuyến tính chuẩn...................................................................... 59
4.3.1. Các mơ hình tĩnh .............................................................................................. 59
4.3.2. Các mơ hình động ............................................................................................ 62
4.4. Thuật tốn học trong các mơ hình Gauss tuyến tính ............................................... 65
CHƯƠNG 5: MƠ HÌNH FAHMM................................................................ 69
5.1. Giới thiệu về mơ hình FAHMM ............................................................................. 69
5.2. Tính tốn hàm xác suất trong mơ hình FAHMM ................................................... 70
5.3. Tối ưu hóa các tham số của mơ hình FAHMM ...................................................... 71
CHƯƠNG 6: KẾT QUẢ THỬ NGHIỆM VÀ HƯỚNG PHÁT TRIỂN

.................... 73

6.1. Kết quả thử nghiệm ................................................................................................. 73

6.1.1. Cơ sở dữ liệu ................................................................................................... 73
6.1.2. Kết quả tiền xử lý, trích tạo đặc tính ............................................................... 75
6.1.3. Kết quả nhận dạng ........................................................................................... 76
6.2. Kết luận và hướng phát triển................................................................................... 79

4


Hình 1.1: Các hệ thống nhận dạng tiếng nói ....................................................................... 12
Hình 1.2: Mơ hình nhận dạng sử dụng phương pháp âm học, ngữ âm học......................... 13
Hình 1.3: Mơ hình phương pháp nhận dạng mẫu ................................................................ 14
Hình 1.4: Hệ thống nhận dạng ngơn ngữ có thanh điệu ...................................................... 18
Hình 2.1: Q trình tạo và cảm thụ tín hiệu tiếng nói của người ........................................ 22
Hình 2.2: Biểu diễn tín hiệu tiếng nói trên miền thời gian (âm “khơng”) ........................... 22
Hình 2.3: Biểu diễn tín hiệu trên hình 6 trên miền tần số.................................................... 22
Hình 2.4: Biểu diễn tín hiệu trên hình 2.3 trên miền thời gian và tần số kết hợp................ 22
Hình 2.5: Cấu trúc của âm tiết tiếng Việt ............................................................................ 23
Hình 2.6: Cấu trục hai bậc của âm tiết tiếng Việt................................................................ 24
Hình 3.1: Các khối chức năng chính của trích tạo đặc tính tiếng nói .................................. 28
Hình 3.2: Tín hiệu trước và sau khi chuẩn hố (âm “Khơng”) ............................................ 29
Hình 3.3: Tín hiệu âm ”một” trước và sau khi lọc .............................................................. 30
Hình 3.4 : Số lần qua điểm ‘0’............................................................................................. 31
Hình 3.5: Phân khung tín hiệu ............................................................................................. 31
Hình 3.6: Đồ thị chuyển đổi giữa thang tuyến tính và thang Mel ....................................... 33
Hình 3.7: Sơ đồ tính hệ số Ceptral theo thang đo Mel ........................................................ 33
Hình 3.8: Dãy băng lọc tam giác được theo thang Mel ....................................................... 35
Hình 3.9: Sơ đồ tính hệ số MFCC ....................................................................................... 35
Hình 3.10: Chuyển đổi thang đo tần số Hz-Bark ................................................................ 38
Hình 3.11: Dãy băng lọc Bark ............................................................................................. 39
Hình 3.12: Đồ thị biên-tần của hàm truyền có phương trình mơ tả như trên ...................... 40

Hình 4.1: Mơ hình thống kê trong nhận dạng tiếng nói ...................................................... 43
Hình 4.2: Ví dụ mơ hình HMM ........................................................................................... 44
Hình 4.3: Hàm Gauss .......................................................................................................... 45
Hình 4.4: Mơ hình tập trạng thái và tập quan sát ................................................................ 46
Hình 4.5: Quá trình sinh ra chuỗi trạng thái và chuỗi quan sát của mơ hình HMM ........... 47
Hình 4.6: Lược đồ miêu tả cách thức tính ij (t ) ................................................................. 50
Hình 4.7. Các ví dụ về các mạng Bayes mô tả các giả thuyết độc lập khác nhau. ............. 54
Hình 4.8: Mạng Bayes động mơ tả một mơ hình Markov ẩn .............................................. 54
Hình 4.9: Đồ thị trên mơ tả 3 trạng thái có giá trị tn theo hàm mật độ Gauss ................. 55
Hình 4.10: Ví dụ phân tích FA ............................................................................................ 57
Hình 4.11: Phân loại với LDA ............................................................................................. 58
Hình 4.12: Phân loại dựa trên between và within theo LDA. ............................................. 58
Hình 4.13: Lược đồ mơ tả các mơ hình Gauss tuyến tính tĩnh ............................................ 60
Hình 4.14: Mạng Bayes mơ tả một mơ hình FA chuẩn ....................................................... 61
Hình 4.15: Các mơ hình Gauss tuyến tính động .................................................................. 62
Hình 4.16: Mạng Bayes mơ tả LDS .................................................................................... 63
Hình 5.1: Mạng Bayes động mơ tả mơ hình FAHMM........................................................ 69
Hình 6.1: Giao diện thu và quản lý mẫu .............................................................................. 75
Hình 6.2: Đồ thị thể hiện sự phụ thuộc của sai số vào ........................................................ 76
kích thước của khơng gian trạng thái .................................................................................. 76
Hình 6.3: Mẫu nhận dạng sai do bị nhiễu quá lớn ............................................................... 77
Hình 6.4: Mẫu nhận dạng sai do lấy mẫu tín hiệu khơng chuẩn ......................................... 78
Hình 6.5: Mẫu nhận dạng sai do người nói phát âm khơng chuẩn ...................................... 78

5


Lời cảm ơn

Tác giả xin bày tỏ lòng biết ơn chân thành tới thầy giáo hướng dẫn

PGS.TSKH.TRẦN HOÀI LINH, người Thầy đã tận tình dìu dắt và giúp đỡ
tác giả vượt qua những khó khăn trong q trình thực hiện luận văn.
Tác giả xin dành lời cảm ơn sâu sắc đến TS. VŨ QUANG THÀNH –
Giám đốc công ty TNHH Tin học & Điện tử Thăng Long, người đã giúp đỡ
tác giả rất nhiều về kiến thức và kinh nghiệm thực tế.
Xin cảm ơn các thầy cô giáo trường Đại Học Bách Khoa, bộ môn Kỹ
thuật đo – Tin học Công nghiệp đã giúp đỡ, tạo điều kiện thuận lợi cho tác giả
hoàn thành luận văn. Xin cảm ơn bạn bè, đồng nghiệp về sự động viên, quan
tâm giúp đỡ trong thời gian qua.
Cuối cùng cho con gửi lời biết ơn và kính trọng sâu sắc nhất tới bố mẹ,
người ln ln bên con trong những lúc khó khăn nhất, và luôn là chỗ dựa
tinh thần vững chắc cho con.
Hà Nội, tháng 11 năm 2009
Phạm Đắc Định

6


Mở đầu
Các nghiên cứu về nhận dạng tiếng nói đã và đang triển khai trong rất
nhiều các phịng thí nghiệm trên thế giới. Hiện nay một số ứng dụng của nhận
dạng tiếng nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt
là trong viễn thông. Điện thoại di động đã có thể quay số bằng giọng nói, các
hệ thống xử lý thoại đa kênh có thể điều khiển các cuộc gọi thơng qua tiếng
nói, máy tính các nhân với phần mềm nhận dạng tiếng nói có thể trợ giúp cho
những người khiếm thính, các phần mềm thương mại nhận dạng đọc chính tả
đã được sử dụng tại Mỹ, Canada, Nhật…
Mơ hình nhận dạng tiếng nói đang được sử dụng phổ biến nhất hiện nay
là mô hình Markov ẩn (HMM). Tuy nhiên, Các mơ hình HMM được xây
dựng dựa trên các giả thuyết không phù hợp trong việc mơ hình hóa các tín

hiệu tiếng nói. Các giả thuyết này bao gồm hai giả thuyết sau:
– Giả thuyết có thể chia tín hiệu tiếng nói thành các trạng thái rời rạc
trong đó sóng của tín hiệu được xem như là ổn định. Và sự chuyển đổi
giữa các trạng thái này được coi là tức thời;
– Xác suất sinh ra véc tơ đặc tính (véc tơ quan sát) tương ứng với trạng
thái hiện thời chỉ phụ thuộc vào véc tơ và trạng thái đó. Bởi vậy, một
véc tơ đặc tính sẽ độc lập với các véc tơ đặc tính được sinh ra trước và
sau nó từ cùng một trạng thái.
Nhược điểm của giả thuyết thứ nhất có thể được khắc phục bằng cách
xây dựng một mơ hình có nhiều trạng thái với số trạng thái có thể lên tới
100,000 trạng thái. Tuy nhiên một hệ thống như vậy sẽ rất cồng kềnh và việc
ước lượng các thông số của mơ hình là rất khó khăn. Giả thuyết thứ hai khơng
thể hiện được bản chất của tín hiệu tiếng nói là có những mối liên kết động
được sinh ra do các thuộc tính vật lý của các phát âm. Nhược điểm này có thể
được khắc phục bằng cách sủ dụng những véc tơ đặc tính bao gồm các thơng
tin của các khung lân cận (các hệ số đặc tính động). Tuy nhiên các kỹ thuật
này lại mâu thuẫn với giả thuyết độc lập được sử dụng để xây dựng và tính
tốn mơ hình. Các mơ hình trạng thái đã được sử dụng để khắc phục nhược
điểm này của mô hình HMM, mà điển hình là mơ hình Gauss tuyến tính
(Linear Gaussian Models).

7


Mục đích nghiên cứu
Mục đích của luận văn là nghiên cứu các mơ hình Gauss tuyến tính với
các q trình sinh trạng thái và tập quan sát được dựa trên các hàm tuyến tính
và các véc tơ nhiễu tuân theo phân bố Gauss. Các mơ hình Gauss tuyến tính
được xây dựng với nhiều dạng khác nhau và đều ứng dụng thuật tốn cực đại
hóa kỳ vọng (EM-Expectation Maximization) để huấn luyện các tham số của

mơ hình. Luận văn này sẽ trinh bày một cách tổng quan về các mơ hình Gauss
tuyến tính trong đó sử dụng các hàm Gauss trộn để tạo nhiễu cho mơ hình.
Q trình phát xạ tập quan sát sẽ được mô tả dựa vào các mô hình FA và
LDA, trong luận văn này thì mơ hình FA sẽ được sử dụng cho thử nghiệm.
Tổ chức của luận văn
Nội dung cơ bản của luận văn gồm 6 chương:
Chương 1: Tổng quan về nhận dạng tiếng nói
Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống
nhận dạng tiếng nói; một số kết quả nhận dạng tiếng nước ngoài và tiếng Việt.
Chương 2: Một số cơ sở lý thuyết của tín hiệu tiếng nói và nhận dạng
tiếng nói.
Trình bày một số đặc trưng cơ bản của tín hiệu tiếng nói. Khái qt về
ngơn ngữ tiếng Việt và một số đặc trưng cơ bản của ngôn ngữ tiếng Việt so
với các ngôn ngữ khác.
Chương 3: Các phương pháp trích tạo đặc tính tiếng nói
Trình bày một số phương pháp trích tạo đặc tính tín hiệu tiếng nói đang
được sử dụng có hiệu quả hiện này: Hệ số MFCC, hệ số PLP
Chương 4: Mơ hình Gauss tuyến tính trong nhận dạng tiếng nói
Trình bày về các hệ thống nhận dạng tiếng nói sử dụng các mơ hình
thống kê như mơ hình HMM, mơ hình Gauss tuyến tính.
Chương 5: Mơ hình FAHMM
Trình bày cụ thể hơn về mơ hình FAHMM, một trong những mơ hình
Gauss tuyến tính đã được ứng dụng có hiệu quả trong nhận dạng tiếng nói.
Chương 6: Một số kết quả thử nghiệm và hướng phát triển

8


DANH MỤC CÁC KÝ HIỆU VIẾT TẮT


Viết tắt

Ý nghĩa

DBN

Dynamic Bayesian network

EM

Expectation maximisation

FAHMM

Factor Analysed hidden Markov model

GMM

Gaussian mixture model

HMM

Hidden Markov model

HTK

Hidden Markov model toolkit

KL distance


Kullback Leibler distance

LDA

Linear discriminant analysis

LDS

Linear dynamical system

MCMC

Markov chain Monte Carlo

MFCC

Mel-frequency cepstral coefficient

ML

Maximum likelihood

PLP

Perceptual linear prediction

SFA

Shared factor analysis


SSM

Stochastic segment model

STC

Semi-tied covariance matrix

9


DANH MỤC CÁC KÝ HIỆU TOÁN HỌC
Ký hiệu


ˆ
 (k )
Ns
M
M ( x)
M (o)
p( x | q  j)

E{x | q  j}
N (, )
N ( x, , )
c jn

 jn
 jn

 (jnx )
 (jno )

Cj
Q
X
O
ot
o1:t

 j (t )
 j (t )

Ý nghĩa
Bộ thơng số của mơ hình
Bộ thơng số của mơ hình đã ước lượng
Bộ thơng số của mơ hình ở bước lặp thứ k
Số trạng thái rời rạc
Số thành phần trộn của mơ hình GMM
Số thành phần GMM trong không gian trạng thái
Số thành phần GMM trong không gian quan sát
Xác suất của sự kiện x khi mơ hình ở trạng thái
q j
Giá trị kỳ vọng của x khi q  j
Phân bố Gauss với véc tơ trung bình  và ma trận
hiệp phương sai 
Giá trị xác suất hậu nghiệm của véc tơ x khi tuân
theo phân bố Gauss
Trọng số GMM ứng với trạng thái j và thành phần
trộn thứ n

Véc tơ giá trị trung bình GMM ứng với trạng thái
j và thành phần trộn n
Ma trận hiệp phương sai GMM ứng với trạng thái
j và thành phần trộn n
Ma trận hiệp phương sai GMM ứng với trạng thái
j và thành phần trộn thứ n trong không gian véc tơ
trạng thái
Ma trận hiệp phương sai GMM ứng với trạng thái
j và thành phần trộn thứ n trong không gian véc tơ
quan sát
Ma trận quan sát ứng với trạng thái j
Chuỗi các trạng thái rời rạc
Chuỗi các véc tơ trạng thái liên tục
Chuỗi các véc tơ quan sát
Véc tơ quan sát thứ t
Chuỗi véc tơ quan sát từ 1 đến t , {o1,..., ot }
Biến tiến tại trạng thái j vào thời điểm t
Biến lùi tại trạng thái j vào thời điểm t
10


CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG
NÓI
Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng
tiếng nói. Phần hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng
nói, các giai đoạn cơ bản của hệ thống nhận dạng tiếng nói, một số mơ hình
nhận dạng tiếng nói. Phần cuối dành để trình bày về một số kết quả nhận dạng
tiếng nói trên thế giới như nhận dạng tiếng Anh, tiếng Thái. Một số nghiên
cứu hiện thời đối với nhận dạng tiếng Việt.


1.1. Đặt vấn đề
1.1.1. Giới thiệu
Nhận dạng tiếng nói là một q trình nhận dạng mẫu, với mục đích là phân
lớp đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học
trước đó và lưu trữ vào trong bộ nhớ. Các mẫu chính là các đơn vị nhận dạng,
chúng có thể là từ hoặc các âm vị.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản sau:
 Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong
một khung thời gian ngắn. Nhờ vậy ta có thể trích ra các đặc điểm tiếng
nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ
liệu để nhận dạng tiếng nói
 Nội dung tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các
ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi
chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
 Nhận dạng tiếng nói là một q trình nhận thức. Thơng tin về ngữ
nghĩa và suy đốn có giá trị trong q trình nhận dạng tiếng nói nhất là
khi thơng tin về âm học là không rõ ràng.
Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều
ngành khác nhau. Sau đây là các ngành và mối liên hệ của chúng với nhận
dạng tiếng nói:
 Xử lý tín hiệu số: Các kỹ thuật xử lý tín hiệu số dùng để phân tích tín
hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thơng tin quan
trọng từ tiếng nói.

11


 Vật lý hay âm học: Khoa học nghiên cứu về mối quan hệ giữa tín hiệu
tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người,
cũng như cơ chế hoạt động của tai người.

 Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các
mẫu và đối sánh các mẫu dựa trên cơ sở tính tốn khoảng cách giữu các
đặc điểm của mẫu.
 Lý thuyết thông tin và khoa học máy tính: Các thuật tốn để tính tốn
các tham số của các mơ hình thống kê, các thuật tốn mã hóa và giải
mã.
 Ngơn ngữ học: Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị
ngữ âm cơ bản của tiếng nói và vai trị của chúng trong việc tạo ra tín
hiệu tiếng nói.
 Sinh lý học: Kiến thức về cấu tạo của bộ máy phát âm của con người,
của tai người cũng như là quá trình phân tích âm học và ngơn ngữ tại
bộ não.
 Tâm lý học ứng dụng: Những kiến thức về quá trình sinh ra tiếng nói
cũng như q trình nhận thức tiếng nói của tai người.

1.2. Nguyên tắc của hệ thống nhận dạng tiếng nói
Các hệ thống nhận dạng tiếng nói được chia làm hai lớp: Nhận dạng từ
rời rạc và nhận dạng từ liên tục. Trong đó hệ thống nhận dạng từ liên tục bao
gồm hệ thống có kích thước nhỏ và hệ thống có kích thước trung bình hoặc
lớn.
Hệ thống nhận dạng

Hệ thống nhận dạng
từ rời rạc

Hệ thống nhận dạng
từ liên tục

Hệ thống nhận dạng
với kích thước từ

điển nhỏ

Hệ thống nhận dạng
với kích thước từ
điển trung bình và
lớn

Hình 1.1: Các hệ thống nhận dạng tiếng nói

12


Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng là một
từ hoặc là một nhóm từ độc lập. Các từ được nhận dạng mà không phụ thuộc
vào ngữ cảnh của nó. Nhận dạng tiếng nói và các từ rời rạc được ứng dụng
trong các chương trình dạng câu lệnh-điều khiển, chẳng hạn như ứng dụng
quay số bằng giọng nói trong điện thoại di động. Bài tốn nhận dạng tiếng nói
các từ rời rạc là dễ hơn so với bài tốn nhận dạng tiếng nói liên tục.

1.3. Một số phương pháp nhận dạng tiếng nói
Trong nhận dạng tiếng nói, đã có rất nhiều mơ hình nhận dạng được đề
xuất sử dụng. Tuy nhiên các mơ hình này đều dựa trên một số phương pháp
tiếp cận chính sau đây.
 Phương pháp âm học, ngữ âm học: Phương pháp này được dựa trên lý
thuyết về âm học, ngữ âm học. Các đơn vị âm tồn tại xác định, có tính
phân biệt và được đặt trưng bởi một tập các đặc tính tiếng nói. Ta có
mơ hình nhận dạng sử dụng phương pháp này:
Bộ phát hiện
đặc tính 1
Tín hiệu

tiếng nói

Trích chọn
đặc tính
Dãy băng lọc
Mơ hình LPC

Phân đoạn và
gán nhãn

Quyết định
phân loại

Từ được
nhận
dạng

Bộ phát hiện
đặc tính q
Formant
Pitch
Âm hữu thanh
Âm vơ thanh
Âm mũi
Phụ âm xát
Năng lượng

Lưới âm vị
Lưới đoạn
Cây quyết định

Gán nhãn theo xác suất
Phân tích cú pháp

Hình 1.2: Mơ hình nhận dạng sử dụng phương pháp âm học, ngữ âm học

Ngun lý hoạt động của mơ hình nhận dạng sử dụng phương pháp âm
học, ngữ âm học.
 Trích chọn đặc tính: Có chức năng phân tích các đặc tính phổ của tín
hiệu tiếng nói. Có các kỹ thuật phân tích tiếng nói được sử dụng phổ
biến như kỹ thuật sử dụng dãy băng lọc, kỹ thuật mã hóa dự báo tuyến
tính vv…

13


 Tín hiệu tiếng nói sau khi được phân tích đặc tính sẽ được tách ra thành
các bộ đặc tính riêng mơ tả các tính chất về âm học của các đơn vị ngữ
âm khác nhau. Các đặc tính thường được sử dụng như: Tính chất âm
mũi, âm xát, vị trí các formant, âm hữu thanh hay vơ thanh, tần số đỉnh
phổ vv…
 Tiếp theo là bước phân đoạn và gán nhãn: Ở bước này hệ thống nhận
dạng tiếng nói sẽ tìm những vùng âm thanh ổn định và gán cho mỗi
vùng này một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đây là
bước khác biệt cơ bản nhất của mơ hình này so với các mơ hình nhận
dạng khác. Bước này chủ yếu được thực hiện thủ cơng do đó độ tin cậy
là khơng cao.
Một số vấn đề khi sử dụng phương pháp âm học, ngữ âm học:
 Phương pháp này địi hỏi phải có kiến thức hiểu biết về các thuộc tính
âm học của các đơn vị ngữ âm.
 Việc lựa chọn các đặc tính phần lớn được thực hiện khơng dựa vào một

thuật tốn chung nào cả, mà nó được dựa trên những nhận xét trong
từng trường hợp cụ thể. Trong phần lớn các hệ thống thì việc lựa chọn
các đặc tính là dựa vào trực quan và nó rõ ràng khơng phải tối ưu.
 Khâu phân đoạn và gán nhãn là rất khó tin cậy vì nó chủ yếu dựa vào
sự quan sát của con người. Trong thực tế khơng có một thuật toán gãn
nhãn chung nào được sử dụng trong các bài toán nhận dạng khác nhau.
 Phương pháp nhận dạng mẫu: Ta có mơ hình của hệ thống nhận dạng
sử dụng phương pháp này như sau.

Tín
hiệu
tiếng
nói

Huấn luyện
mẫu

Mẫu học

Mẫu chuẩn
hoặc các
mơ hình

K
Trích chọn
đặc tính

Các mẫu
tham chiếu


1
2
Mẫu kiểm tra

Phân lớp
mẫu

Quyết định
nhận dạng

Hình 1.3: Mơ hình phương pháp nhận dạng mẫu

14

Từ
được
nhận
dạng


Mơ hình nhận dạng mẫu gồm có 4 bước sau:
 Trích chọn đặc tính: Tương tự như mơ hình nhận dạng sử dụng phương
pháp âm học, ngữ âm học. Tín hiệu tiếng nói được biểu diễn thành tập
các đặc tính phổ.
 Huấn luyện mẫu: Khóa K ở vị trí 1, các mẫu học của cùng một loại
phát âm được sử dụng để tạo ra một mẫu đại diện cho các đặc tính của
phát âm đó. Kết quả nhận được thường gọi là mẫu chuẩn, hoặc nó có
thể là một mơ hình mơ tả thống kê về các đặc tính của mẫu chuẩn đó.
 Phân lớp mẫu: Các mẫu nhận dạng được so sánh với các mẫu chuẩn
bằng cách tính khoảng cách giữa chúng. Một số kỹ thuật được sử dụng

trong khối này như kỹ thuật hiệu chỉnh thời gian động (DTW-Dynamic
Time Warping), kỹ thuật lượng tử hóa véc tơ (VQ-Vector
Quantization), kỹ thuật đo khoảng cách vv…
 Quyết định nhận dạng: Khối này sẽ xác định xem mẫu chuẩn nào giống
với mẫu nhận dạng nhất.
Một số tính chất của mơ hình nhận dạng mẫu
 Độ chính xác nhận dạng của mơ hình phụ thuộc vào số lượng mẫu được
sử dụng để huấn luyện; thơng thường thì càng sử dụng nhiều mẫu để
huẩn luyện mơ hình thì độ chính xác càng cao.
 Các mẫu chuẩn phụ thuộc vào môi trường khi phát âm và đặc tính
truyền đạt của các thiết bị truyền tín hiệu tiếng nói; bởi vì đặc tính phổ
của tín hiệu tiếng nói phụ thuộc vào nhiễu nền và nhiễu trên đường
truyền.
 Khối lượng tính tốn trong q trình huấn luyện và nhận dạng mẫu
thường tỷ lệ tuyến tính với số lượng mẫu được sử dụng để học và số
lượng mẫu nhận dạng; đo đó đối với những bài tốn nhận dạng với kích
thước cơ sở dữ liệu lớn thì việc tính tốn sẽ trở lên tương đối khó khăn.

1.4. Các nghiên cứu hiện thời về nhận dạng tiếng nói
1.4.1. Các yếu tố ảnh hưởng đến kết quả nhận dạng
Sau đây là một số yếu tố ảnh hưởng chính đến kết quả của hệ thống nhận
dạng tiếng nói:
– Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói có thể là
phụ thuộc vào người nói hoặc là độc lập với người nói. Xây dựng một
hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng
15















hơn là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người. Tỷ lệ
lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao
hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người
nói tương đương [1].
Kích thước của bộ từ điển: Kích thước của bộ từ điển mà hệ thống
nhận dạng tiếng nói có thể hiểu được càng lớn thì khả năng nhầm lẫn
giữa các từ, các câu càng cao và nhiệm vụ nhận dạng tiếng nói càng
trở nên khó khăn.
Tốc độ nói, hiện tượng đồng phát âm: Trong một phát âm, một âm bị
ảnh hưởng rất lớn của các âm xung quanh nó. Các từ rời rạc được
nhận dạng dễ dàng hơn là các từ trong một phát âm liên tục.
Sự biến đổi trong lời nói: Con người có thể hiểu được lời nói ngay cả
khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười,…Tuy nhiên,
đối với máy tính các trường hợp như vậy gây ra những khó khăn đặc
biệt trong nhận dạng tiếng nói.
Điều kiện mơi trường: Tiếng nói có chất lượng thấp (bị méo tín hiệu,
bị nhiễu kênh truyền,…) thường đặt ra nhiều vấn đề để giải quyết cho
các hệ thống nhận dạng tiếng nói.
Các phát âm tự nhiên và các phát âm liên tục: Hệ thống nhận dạng
tiếng nói có thể làm việc với các phát âm được đọc từ các văn bản

chuẩn bị sẵn hoặc với các phát âm do người nói nói một cách tự nhiên.
Nhận dạng các phát âm tự nhiên rõ ràng là khó hơn nhiều so với các
phát âm đọc sẵn. Lý do là các phát âm tự nhiên có số lượng từ vựng
thường là khơng hạn chế, hệ thống phải phân biệt với các từ khơng có
trong bộ từ điển. Ngồi ra trong các phát âm người nói vừa nói vừa
nghĩ và do đó phát âm không rõ ràng, tốc độ phát âm khác nhau, tiếng
nói có thể xen lẫn với các tạp âm khác.
Các giới hạn về ngôn ngữ: Các hệ thống nhận dạng có thể làm việc
với các câu có ngữ pháp rõ ràng trong các chương trình ứng dụng cụ
thể. Với các hệ thống này, nhiệm vụ nhận dạng sẽ dễ dàng hơn hệ
thống nhận dạng mà các từ không rõ ràng buộc cụ thể về ngữ pháp,
hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ, nghĩa là
bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ
từ điển.

16


1.4.2. Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngồi
Cơng nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ
qua. Một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường,
chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM,
Gragon Systems, L&H. Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn
thơng, Nuance và SpeechWorks là các hãng phần mềm nổi tiếng. Rất nhiều
trung tâm nghiên cứu đang tập trung nghiên cứu về nhận dạng tiếng nói,
chẳng hạn như Bell Labs, IBM Research Center, Microsoft Research,
CSLU,…
Ngồi ngơn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với
các ngơn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung quốc
(bao gồm tiếng Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được

thực hiện. Với tiếng Trung quốc, nhiều nghiên cứu đã được tiến hành, một số
hệ thống nhận dạng tiếng Trung quốc với kích thước từ vựng lớn cũng đã
được xây dựng [1]. Với ngôn ngữ Thái lan, hầu hết các nghiên cứu tập trung
vào nhận dạng các từ rời rạc [1]. Với các nghiên cứu hệ thống nhận dạng liên
tục, hệ thống nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96.89%
với cơ sở dữ liệu thu âm trong nhà [1]. Với các hệ thống nhận dạng liên tục
kích thước trung bình và lớn hơn tiếng Thái lan, hiện thời các nghiên cứu mới
chỉ ở bước khởi đầu.
1.4.3. Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Vấn đề về nhận dạng tiếng nói tiếng Việt mới chỉ được quan tâm nghiên
cứu trong những năm gần đây và chưa có một chương trình nhận dạng hồn
chỉnh nào được cơng bố. Hệ thống nhận dạng tiếng Việt, giống như hệ thống
nhận dạng các ngơn ngữ có thanh điệu khác, bao gồm hai q trình nhận dạng
song song: Nhận dạng các từ khơng có thanh điệu và nhận dạng thanh điệu
[1]. Hình 1.5 miêu tả hệ thống nhận dạng ngơn ngữ có thanh điệu, trong đó có
tiếng Việt.

17


Nhận dạng các từ
khơng dấu

Nhận dạng thanh
điệu

Hình 1.4: Hệ thống nhận dạng ngơn ngữ có thanh điệu

Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS.
Đặng Ngọc Đức [1]. Trong luận án tiến sĩ của mình TS. Đặng Ngọc Đức đã

tiến hành nghiên cứu và thực hiện các công việc sau:
– Xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số
lượng người nói trên 200 người bao gồm cơ sở dữ liệu mười chữ số và
cơ sở dữ liệu có kích thước từ điển 528 từ.
– Giới thiệu một phương pháp gán nhãn âm vị bằng tay các phát âm liên
tục tiếng Việt.
– Nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua
điện thoại dùng hệ thống lai ghép HMM/ANN với độ chính xác là
97,78% ở mức từ và 91,78% ở mức câu.
– Luận án còn tiến hành thử nghiệm hệ thống nhận dạng liên tục tiếng
Việt kích thước trung bình gồm 528 từ. Phương pháp áp dụng là mơ
hình Markov ẩn liên tục với kết quả nhận dạng đạt 76,57% ở mức từ
và 29,97% ở mức câu.

18


CHƯƠNG 2: MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA TÍN
HIỆU TIẾNG NĨI VÀ NHẬN DẠNG TIẾNG NĨI
2.1. Tín hiệu tiếng nói
2.1.1. Cơ chế tạo và cảm thụ tín hiệu tiếng nói
Q trình tạo tiếng nói bắt đầu khi người nói định ra một thơng điệp nào
đó trong ý nghĩ. Thơng điệp này được chuyển sang mã ngơn ngữ, sau đó
người nói phải thực hiện một chuỗi các lệnh thơng qua các dây thần kinh để
điều khiển đôi dây thanh rung và định hình tuyến âm sao cho chuỗi âm thanh
phát ra chính xác. Các lệnh này phải điều khiển đồng thời các cơ quan liên
quan đến quá trình phát âm như: lưỡi, mơi, hàm, vịm miệng, …
Q trình cảm thụ tiếng nói bắt đầu ngay sau khi tín hiệu tiếng nói được
tạo ra và lan truyền đến người nghe thơng qua sự biến đổi áp suất của khơng
khí. Trước tiên sóng âm học tác động vào màng nhĩ ở tai trong, các tín hiệu

này được phân tích tạo ra các tín hiệu tác động lên các dây thần kinh thính
giác. Sau đó các tín hiệu thần kinh được chuyển thành một mã ngơn ngữ nào
đó nhờ các trung tâm xử lý cao hơn ở não. Cuối cùng thông điệp được ngi
nghe cm th (hiu v ngha).
Đ ịnh hình
thông điệp

MÃ hoá
ngôn ngữ

Đ iều
khiển cơ
thần kinh

Hệthống
tuyến âm

Tạo tiếng nói

Sóng
âm
học

Cảm thụ âm thanh
Cảm thụ
thông điệp

Giải mÃ
ngôn ngữ


Tín hiệu
thần kinh

Mang nhĩ
rung

Hnh 2.1: Qu trnh tạo và cảm thụ tớn hiệu tiếng núi của người

2.1.2. Một số đặc tính cơ bản của tín hiệu tiếng nói
 Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn là một trong những thông số để phân biệt
âm hữu thanh và âm vô thanh. Giá trị của nó đối với tín hiệu âm hữu thanh
thường lớn hơn đối với tín hiệu âm vơ thanh. Được tính bằng năng lượng của
19


tín hiệu trong một khoảng thời gian đủ ngắn (khi đó tín hiệu được coi là ổn
định). Theo [4], khoảng thời gian này là từ 10-30ms. Hàm năng lượng thời
gian ngắn được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung
(thường mỗi khung có độ dài từ 10 – 30ms), mỗi khung có N mẫu, các khung
được nhân với một hàm cửa sổ để làm phẳng phổ.
Hàm cửa sổ có dạng sau

0n N
w(n)
W (n)  
n N
 0
Hàm năng lượng thời gian ngắn tại khung m được tính theo công thức
N


Em   x(n  m)w(n)
n1

m  1,2,..., M  1 (số khung)
N : số mẫu tín hiệu trong một khung
n  1,2,..., N
Có ba loại cửa sổ thường được dùng : Hamming, Hanning, cửa sổ chữ nhật.
 Tần số cơ bản
Dạng sóng tiếng nói gồm hai thành phần
- Thành phần có biên độ ngẫu nhiên (giống nhiễu)
- Thành phần có tính chu kỳ (tín hiệu lặp lại gần như tuần hồn). Phần này
có chứa các thành phần tần số có dạng điều hồ mà tần số thấp nhất chính
là tần số cơ bản (pitch- P), là tần số dao động của dây thanh, gọi là F0
 Formant
Với phổ của tín hiệu tiếng nói, mỗi đỉnh phổ có biên độ lớn nhất xét trong
một khoảng nào đó tương ứng với một Formant. Ngồi tần số Formant cịn
được xác định bởi biên độ và dải thông. Về mặt vật lý các Formant tương ứng
với tần số cộng hưởng của các tuyến âm. Thơng thường phổ của tín hiệu tiếng
nói có năm Formant F1 – F5. Nhưng chỉ có hai Formant đầu tiên là ảnh
hưởng quan trọng đến các đặc tính của các âm vị, các Formant cịn lại cũng
ảnh hưởng song rất ít.
Dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi
Giá trị tần số cơ bản

Người nói

80 – 200 Hz

Nam giới


150 – 450 Hz

Phụ nữ

20


200 – 600 Hz

Trẻ em

2.1.3. Biểu diễn tớn hiệu tiếng núi
 Biểu diễn trờn miền thời gian
Y  A(t )

Hỡnh 2.2: Biểu diễn tớn hiệu tiếng núi trờn miền thời gian (õm “khụng”)

Từ hình 2.2 ta thấy rằng tín hiệu âm”không” nằm trong khoảng thời gian
từ 0,08-0,45s. Biên độ của tín hiệu đã được chuẩn hố nằm trong khoảng [1:1] (V).
 Biểu diễn trờn miền tần số

21


Hỡnh 2.3: Biểu diễn tớn hiệu trờn hỡnh 6 trờn miền tần số

Từ hình 2.3 ta thấy rằng dải tần của tín hiệu âm ”khơng” là khoảng từ
0  2000Hz
 Biểu diễn trờn miền thời gian, tần số kết hợp

Thực chất là biểu diễn trên miền tần số nhưng được thực hiện trên các
đoạn tín hiệu ổn định (có thời gian đủ ngắn).

Hình 2.4: Biểu diễn tín hiệu trên hình 2.3 trên miền thời gian và tần số kết hợp

2.2. Ngôn ngữ tiếng Việt
2.2.1. Đặc điểm của âm tiết tiếng Việt
2.2.1.1. Tính độc lập cao
Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và
ngắt thành từng đoạn riêng biệt. Âm tiết nào của tiếng Việt cũng mang một
thanh điệu và cấu trúc ổn định. Điều này làm cho sự thể hiện của âm tiết tiếng
Việt trong chuỗi lời nói nổi bật và tách bạch hơn. Do đó nên việc vạch ra ranh
giới giữa các âm tiết trong tiếng Việt dễ dàng hơn nhiều việc phân chia ranh
giới âm tiết trong các ngôn ngữ châu Âu [1] (trong ngôn ngữ châu Âu, việc
phân chia âm tiết có khi phải dùng phương pháp phân tích phổ). Việc tách
bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết tách ra thành

22


một từ riêng biệt. Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính
độc lập cao hơn hẳn.
Trong các ngôn ngữ châu Âu thường gặp các hiện tượng nối âm
(liaison), ví dụ như:
Les-amis

Have-you done it?

Trong tiếng Việt khơng có hiệu tượng nối âm như vậy.
2.2.1.2. Khả năng biểu hiện ý nghĩa

Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa. Gần như tồn bộ các
âm tiết đều hoạt động như từ. Nói cách khác trong tiếng Việt ranh giới của âm
tiết trùng với ranh giới của hình vị [1] (hình vị là đơn vị có nghĩa nhỏ nhất
trong một ngơn ngữ). Chính vì vậy trong một phát ngôn, số lượng âm tiết
trùng với số lượng hình vị.
2.2.1.3. Cấu trúc chặt chẽ
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 thành phần như hình 2.5. Cấu
trúc tổng quát của âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là phụ âm
đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối.
Thanh điệu
Vần
Âm đầu

Âm đệm

Âm chính

Âm cuối

Hình 2.5: Cấu trúc của âm tiết tiếng Việt

Âm tiết tiếng Việt có cấu trúc gồm hai bậc: Bậc một bao gồm các thành
tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học.
Phần thứ hai bao gồm các yếu tố của phần vần. Quan hệ giữa các yếu tố ở bậc
một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ. Các
thực nghiệm đã chứng minh rằng tính độc lập của thanh điệu đối với các âm
vị cụ thể lộ ra ở chỗ đường nét âm điệu và trường độ của nó không gắn liền
với thành phần âm thanh của âm tiết.
Theo GS. Bảng và các cộng sự [1] số lượng âm tiết phát âm được của
tiếng Việt là vào khoảng 18959. So với các ngơn ngữ thơng thường trên thế

giới có số lượng âm tiết vào khoảng 3000-5000. Điều này cho thấy tiếng Việt
23


có số lượng âm tiết rất lớn, và chính vì thế ít có hiện tượng đồng âm, ít gây trở
ngại cho việc nhận diện âm tiết. Theo [1], trong tiếng Việt có 6 thanh điệu, 21
âm đầu và 155 phần vần và phần vần đóng vai trị phân biệt lớn hơn cả so với
các yếu tố khác trong Bậc 1.
Âm tiết

Thanh

Âm đầu

Phần vần

Âm đệm

Âm chính

Bậc 1

Âm cuối

Bậc 2

Hình 2.6: Cấu trục hai bậc của âm tiết tiếng Việt

2.2.2. Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa. Về

mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngơn ngữ, ta có
thể tập hợp một số lượng có hạn những âm vị mang những nét chung về cấu
tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị.
Có một cản trở khi nghiên cứu các âm vị tiếng Việt là chưa có một qui
định chính thức về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ
âm về một chuẩn tiếng Việt. Có thể quan niệm tạm thời coi “tiếng Việt chuẩn
như một thứ tiếng chung được hình thành trên cơ sở tiếng địa phương của
miền Bắc với trung tâm là Hà nội mà cách phát âm của nó là cách phát âm Hà
nội.
2.2.2.1. Thanh điệu
Âm vị tiếng Việt có hai loại là âm vị đoạn tính và âm vị siêu đoạn tính.
Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như
nguyên âm, phụ âm. Âm vị siêu đoạn tính là loại đơn vị khơng có âm đoạn
tính, khơng độc lập tồn tại, nhưng cũng có chức năng phân biệt nghĩa, nhận
diện từ, đó là thanh điệu. Đây là đặc điểm riêng của tiếng Việt so với các
24


ngôn ngữ châu Âu. Một số ngôn ngữ khác như tiếng Hán, tiếng Việt, tiếng
Thái cũng có đặc điểm này như tiếng Việt.
Thanh điệu được hình thành bằng sự rung động của dây thanh, tùy theo
sự dung đó nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các
thanh điệu khác nhau. Thanh điệu trong tiếng Việt thuộc loại thanh lướt, có
nghĩa là các thanh điệu phân biệt với nhau bằng sự di chuyển cao độ từ thấp
lên cao hay từ cao xuống thấp.
(1)

5
(5)


(3)
4
(4)
(6)

3
2

(2)

1

Hình 2.7: Các thanh điệu tiếng Việt 1. không dấu, 2. Huyền, 3. Ngã, 4. Hỏi, 5. Sắc, 6.
Nặng

Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên
tồn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần. Tiếng Việt
có sáu thanh điệu. Nếu chia thang độ của giọng nói bình thường thành 5 bậc
thì ta có thanh điệu tiếng Việt được miêu tả như trong hình 1.8.
2.2.2.2. Âm đầu
Trong các sách giáo khoa tiếng Việt [1], tiếng Việt có 21 âm vị là âm
đầu. Các âm vị /p, r/ không được liệt kê là các âm vị đầu tiếng Việt và được
coi là âm vị có nguồn gốc từ ngơn ngữ nước ngồi. Âm tác thanh hầu được
liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu. Trong
những âm tiết như: “ai, ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe
thanh lúc mở đầu khi chúng được phát âm lên. Tiếng bật do động tác mở khe
thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ
thuộc vào phong cách và bối cảnh ngữ âm. Thừa nhận tồn tại âm tắc thanh
hầu đưa đến xây dựng được một mơ hình tổng qt của âm tiết tiếng Việt cân
xứng hơn với ba thành tố ln có mặt: Thanh điệu, âm đầu, âm vần.


25


×