v
TÓM TT
Nhn dng ting nói là một kỹ thut có thể ng dng trong rất nhiu lĩnh vc
ca cuộc sống: trong vic điu khiển (điu khiển robot, động c, điu khiển xe lăn
cho ngưi tàn tt ), an ninh quốc phòng Vit Nam, trong nhng năm gần đơy
đã có một số nghiên cu ban đầu v nhn dng ting Vit, tuy nhiên còn giới hn v
độ chính xác, số từ, vấn đ thanh điu đặc thù ca ting Vit hầu như chưa đưc đ
cp.
Trong khuôn kh ca khóa học Cao học, chuyên ngành Kỹ thut đin t ti
trưng Đi học Sư phm Kỹ thut Tp. H Chí Minh, đưc s to điu kin giúp đỡ
ca nhƠ trưng vƠ PGS. TS Dưng HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng
tiếng nói dùng mạng Neural”, nhằm nghiên cu các phưng pháp nhn dng ting
nói đối với ting Vit dùng mng Neural và th nghim trên phần mm Matlab.
Nội dung ca lun văn đưc trình bƠy thƠnh các chưng như sau:
Chưng 1: Tng quan
Chưng th nhất giới thiu tng quan v hướng nghiên cu ca đ tài,mc đích vƠ
phưng pháp nghiên cu.
Chưng 2: C s lý thuyt
Chưng th hai trình bày tóm tt v ting nói và một số phưng pháp nhn dng
ting nói ph bin
Chưng 3: Tng quan v mng Neural
Chưng nƠy trình bƠy tng quan v mng Neural bao gm: phần lịch s phát triển,
cấu trúc mng Neural, thut toán, ng dng ca chúng trong nhn dng
Chưng 4: Xơy dng h nhn dng
Phần này trình bày quá trình tin hành và một số kt qu nghiên cu xây dng h
nhn dng các ch số ting Vit trên môi trưng Matlab.
vi
Chưng 5: Kt lun.
Chưng cuối trình bày nhng kt qu đt đưc vƠ hướng phát triển ca đ tài.
Mặc dù ht sc cố gng nhưng do kh năng còn hn ch nên kt qu nghiên
cu còn khá khiêm tốn. Hy vọng rằng tưng lai tôi s có điu kin hn để tip tc
nghiên cu và m rộng đ tài này.
vii
SUMMARY
Speech recognition is a technique that can be applied in many areas of life: in
the control (control robots, motors, control a wheelchair for the disabled, etc.),
security and defense In Vietnam, in recent years there were some initial research
on Vietnamese identity, but also limited in terms of accuracy, the number of words,
tone issues specific language can hardly be counter.
In the framework of the course Master of Science degree in Electronic
Engineering at the University of Technical Education Ho Chi Minh City, is the
creation of conditions to help the school and Associate Professor. Dr. Duong Hoai
Nghia, I have chosen the theme "Speech recognition using Neural Network", in
order to study the method of speech recognition for Vietnammese using Neural
network and Matlab software trials.
The content of the thesis is presented in the following chapters:
Chapter 1: Overview
The first chapter introduces an overview of the research directions of the
subject, purpose, and research methods.
Chapter 2: Theoretical basis
The second chapter presents a summary of the language and some common
methods of speech recognition
Chapter 3: Overview of Neural network
This chapter presents an overview of the Neural network include: historical
development, Neural network structures, algorithms, their application in the
identification
Chapter 4: Construction of identity
This section presents the process and a number of research findings build
recognize the letters of the English in the Matlab environment.
Chapter 5: Conclusion.
The last chapter presents the results and development of the subject.
viii
Despite our best efforts, likely due to limited research results are relatively
modest. Hopefully the future will have more conditions to continue and expand
research subject.
ix
MỤC LỤC
TRANG
Trang ta
Quyt định giao đ tài
Lý lịch cá nhân i
Li cam đoan iii
Li cm n iv
Tóm tt v
Mc lc ix
Danh sách ch vit tt xiii
Danh sách các hình xiv
Danh sách các bng xv
Chưng 1. TNG QUAN
1.1 Tng quan v lĩnh vc nghiên cu 1
1.2 Mc đích ca đ tài 4
1.3 Nhim v và giới hn ca đ tài 4
1.4 Phưng pháp nghiên cu 4
Chưng 2. C S LÝ THUYT
2.1 Lý thuyt âm thanh và ting nói 6
2.1.1 Ngun gốc âm thanh 6
2.1.2 Các đi lưng đặc trưng cho ơm thanh 6
2.1.3 Các tần số ca âm thanh 7
2.1.4 C ch to lp ting nói ca con ngưi 7
x
2.1.5 Mô hình lọc ngun cho quá trình to ting nói 8
2.1.6 H thống nghe ca tai ngưi 9
2.1.7 Quá trình to ra ting nói và thu nhn ting nói ca con ngưi 10
2.1.8 Các âm thanh ting nói vƠ các đặc trưng 11
2.2 Lý thuyt nhn dng ting nói 12
2.2.1 Tng quan v nhn dng ting nói 12
2.2.2 Các nguyên tc c bn trong nhn dng ting nói 14
2.2.3 Các phưng pháp nhn dng ting nói ph bin 14
2.2.4 Các quá trình c bn ca một h thống nhn dng ting nói 19
Chưng 3. TNG QUAN V MNG NEURAL
3.1 Giới thiu tng quan v mng Neural 23
3.1.1 Mng Neural sinh học 23
3.1.2 Mng Neural nhân to 24
3.2 Lịch s phát triển ca mng Neural nhân to 26
3.3 Các tính chất ca mng Neural nhân to 28
3.4 Mô hình Neural và kin trúc mng 28
3.4.1 Mô hình Neural 28
3.4.1.1 Mô hình Neural đn gin 29
3.4.1.2 Mô hình Neural nhiu ngõ vào 32
3.4.2 Kin trúc mng Neural 32
3.4.2.1 Mng Neural đn lớp 33
3.4.2.2 Mng Neural đa lớp 34
3.4.2.3 Mng Neural hi qui 35
3.5 Phưng thc làm vic ca mng Neural 36
xi
3.6 Các lut học 38
3.7 Vấn đ thit k cấu trúc mng 40
3.7.1 Số lớp ẩn 40
3.7.2 Số đn vị trong lớp ẩn 40
3.8 Thut toán lan truyn ngưc 42
3.8.1 Chỉ số hiu năng 43
3.8.2 Lut xích 44
3.8.3 Lan truyn ngưc độ nhy cm 45
3.9 ng dng mng Neural trong nhn dng 47
Chưng 4. XÂY DNG H NHN DNG
4.1 Xây dng h thống nhn dng 49
4.1.1 Mô t chung v h thống 49
4.1.2 S đ khối ca h thống 49
4.1.3 Phưng pháp gii quyt 50
3.4.1.1 Thu nhn tín hiu 50
3.4.1.2 Trích đặc trưng ting nói 53
3.4.1.3 Tính đầu vào cho mng 57
4.2 Chưng trình nhn dng mưi ch số ting Vit 58
4.2.1 Giao din phần mm demo 58
4.2.2 Kt qu th nghim 61
Chưng 5. KT LUN
5.1 Nhng kt qu đt đưc 75
5.2 Hướng phát triển ca đ tài 75
5.2.1 Xây dng bộ d liu lớn hn 75
xii
5.2.2 Xây dng phần mm nhn dng da trên kt qu nghiên cu 75
5.2.3 Nghiên cu các phưng pháp xác định đặc trưng khác 76
5.2.4 Nghiên cu các phưng pháp nhn dng khác 76
TÀI LIU THAM KHO 77
PH LC 79
xiii
DANH SÁCH CH VIT TT
STT
Kí hiu
Din gii
1
Artificial Neural
Nron nhơn to
2
Artificial Neural Networks
Mng Nron nhơn to
3
Back Propagation Learaning Rule
Lut học lan truyn ngưc
4
Learing
Học
5
Hidden Layer
Lớp ẩn
6
Melscale Frequency Cepstral Coefficients
- MFCC
Các h số theo thang tần số
Mel
7
Myltilayer Layer Feedforward NetWord
Mng nhiu lớp truyn thẳng
8
Neural
Nron
9
Neural Networks - NN
Mng Nron
10
Output Layer
Lớp ra
11
Paramater Learning
Học thông số
12
Perceptual Linear Prediction - PLP
Mã d đoán tuyn tính
13
Recurrent Neural Networks
Mng Nron hi qui
14
Single Layer Feedforward NetWord
Mng một lớp truyn thng
15
Step Function
HƠm bước
16
Supervised Learning
Học có giám sát
17
Unsupervised Learning
Học không có giám sát
xiv
DANH SÁCH CÁC HÌNH
TRANG
Hình 2.1: Mô hình lọc ngun cho quá trình to ting nói 9
Hình 2.2: S đ biểu din quá trình thu, nhn ting nói ca con ngưi 10
Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói 13
Hình 2.4: S đ khối nhn dng ting nói theo ng âm ậ âm vị học 15
Hình 2.5: S đ khối h thống nhn dng ting nói theo phưng pháp từ dưới lên
19
Hình 2.6: Các quá trình c bn ca một h thống nhn dng ting nói 20
Hình 3.1: Mô hình mng Neural sinh học 23
Hình 3.2: Mô hình t bào thần kinh sinh học 24
Hình 3.3: Mô hình mng Neural nhân to 25
Hình 3.4: Mô hình Neural 29
Hình 3.5: Mô hình Neural đn gin 30
Hình 3.6: Hàm truyn ngưỡng 30
Hình 3.7: Hàm truyn tuyn tính 31
Hình 3.8: Hàm truyn log ậ sigmoid 31
Hình 3.9: Mô hình Neural nhiu ngõ vào 32
Hình 3.10: Mô hình huấn luyn mng Neural 33
Hình 3.11: Mô hình mng Neural đn lớp 33
Hình 3.12: Dng kí hiu ca mng Neural đn lớp 34
Hình 3.13: Mng Neural đa lớp (3 lớp) 34
Hình 3.14: Mng hi quy 36
Hình 3.15: Mô hình học có giám sát và cng cố 39
Hình 3.16: Mô hình học không có giám sát 40
Hình 4.1: S đ khối h thống nhn dng 50
Hình 4.2: S tưng quan gia tín hiu ting nói và nn nhiu 51
Hình 4.3: Tín hiu ting nói nguyên thy 52
xv
Hình 4.4: Tín hiu ting nói sau khi đã qua x lý (ct khong lặng) 52
Hình 4.5: Các bước trích đặc trưng ting nói 53
Hình 4.6: S tưng quan gia tần số Mel và tần số Hz 55
Hình 4.7: Mel filter banks trên min tần số tuyn tính 56
Hình 4.8: Bộ lọc tần số Mel ng với M bộ lọc 56
Hình 4.9: Giao din chính chưng trình 58
Hình 4.10: Giao din chưng trình to mng Neural 59
Hình 4.11: Giao din chưng trình huấn luyn 60
Hình 4.12: Giao din chưng trình nhn dng 60
xvi
DANH SÁCH CÁC BNG
TRANG
Bng 5.1: Kt qu nhn dng huấn luyn mng Neural cho số 0 62
Bng 5.2: Kt qu nhn dng huấn luyn mng Neural cho số 1 63
Bng 5.3: Kt qu nhn dng huấn luyn mng Neural cho số 2 64
Bng 5.4: Kt qu nhn dng huấn luyn mng Neural cho số 3 65
Bng 5.5: Kt qu nhn dng huấn luyn mng Neural cho số 4 66
Bng 5.6: Kt qu nhn dng huấn luyn mng Neural cho số 5 67
Bng 5.7: Kt qu nhn dng huấn luyn mng Neural cho số 6 68
Bng 5.8: Kt qu nhn dng huấn luyn mng Neural cho số 7 69
Bng 5.9: Kt qu nhn dng huấn luyn mng Neural cho số 8 70
Bng 5.10: Kt qu nhn dng huấn luyn mng Neural cho số 9 71
Bng 5.11: Kt qu nhn dng huấn luyn mng Neural cho số 10 72
Bng 5.12: Bng tng hp kt qu nhn dng cho các số từ 0 đn 10 73
Trang 1
Chưng 1:
TNG QUAN
1.1 Tng quan v lĩnh vc nghiên cu ậ Các kt qu nghiên cu trong và
ngoƠi nước đã công bố
Ngay khi phát minh ra máy tính, con ngi đƣ m ớc máy tính có thể nói
chuyn với mình. Yêu cầu đn gin nht là máy có thể xác định đc t ng mà
chúng ta nói với máy. Đó lƠ mc tiêu ca ngành nhn dng ting nói.
Đối với con ngi, vic nghe, nht là nghe ting mẹ đẻ là một vn đ khá
đn gin. Còn đối với máy tính, xác định một chuỗi tín hiu âm thanh là s phát âm
ca một t nào hoàn toàn không đn gin
.
H thống nhn dng ting nói (Speech Recognition ) sẽ có nhng ng dng
tuyt vi trong tt c các lĩnh vc ca đi sống, nu đc áp dng thành công sẽ là
một cuộc cách mng trong giao tip ngi máy (Human Machine Interface ), các
ng dng ca nó bao trùm trên nhiu lĩnh vc nh công nghip, an ninh và gii trí.
Lĩnh vc nhn dng ting nói đƣ đc nghiên cu hn 4 thp kỉ và hin nay
mới chỉ có một số thành công. Có thể kể đn h thống nhn dng ting Anh (ví d:
phần mm Via Voice ca IBM, h thống nhn dng ting nói tích hp ca
OfficeXP…). Các h thống này hot động khá tốt (cho độ chính xác khong 90 -
95%) nhng còn xa mới đt đn mc m ớc ca chúng ta: có một h thống có thể
nghe chính xác và hiểu hoàn toàn nhng điu ta nói.
Riêng với ting Vit, lĩnh vc nhn dng ting nói còn khá mới mẻ. Cha h
thy xut hin một phần mm nhn dng ting Vit hoàn chỉnh trên thị trng. Số
công trình nghiên cu v nhn dng ting nói ting Vit đc công bố rt him hoi,
và kt qu còn hn ch v bộ t vng, độ chính xác…. Ting Vit có nhiu đặc tính
khác với các ngôn ng đƣ đc nghiên cu nhn dng nhiu nh ting Anh, ting
Pháp. Do đó vic nghiên cu nhn dng ting Vit là rt cần thit.
Trang 2
Vì nhng lí do trên, tôi chọn đ tƠi “Nhận dạng tiếng nói dùng mạng
Neural”, nhằm nghiên cu các phng pháp nhn dng ting nói đối với ting Vit
và th nghim xây dng một h thống nhn dng c nhỏ.
1.1.1 Các kt qu nghiên cu ngoƠi nước.
Nhn dng ting nói nhằm chuyển thông tin t ting nói con ngi vào máy
tính và tổng hp ting nói nhằm t động to ra ting ngi nói bằng máy tính. Cùng
với s phát triển nhanh chóng ca công ngh thông tin nói chung và mng Internet
nói riêng, nhn dng và tổng hp ting nói càng ngày càng tr nên là một xu hớng
tt yu cho nhng máy tính th kỉ 21. Trong vòng 50 năm qua, rt nhiu thut toán
đc đ xut và triển khai trên các h t động nhn dng và tổng hp ting nói.
Trên th giới đƣ có nhiu bộ phần mm thng mi dành cho ting Anh nh IBM
ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Nhng phần mm này
cung cp các chc năng ch yu nh: nhp văn bn vào máy, đọc văn bn thành li,
duyt Web bằng giọng nói. Gần đơy nht hƣng Microsoft đƣ công bố vic tích hp
VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyn thống
vào phiên bn h điu hành Windows th h mới với mt danh Whistler. Kt qu
nƠy có ý nghĩa rt lớn trong giao tip ngi-máy: thay vì giao tip với máy tính qua
nhng biểu tng và ca sổ, các máy tính trong tng lai chỉ giao tip với con
ngi bằng nhng mnh lnh đn gin.
1.1.2 Các kt qu nghiên cu trong nước.
Trớc ht đơy lƠ vn đ khó, vì một số khó khăn do bn thơn đối tng mƠ
nó nhắm đn, ting nói hay ơm thanh, lƠ một đối tng không ổn định.
Các khó khăn có thể kể đn như:
S bin động ca ngi nói trong vic phát ơm:
- Ting nói thay đổi theo thi gian, theo độ tuổi.
- Tình trng sc khỏe. Một ngi khi khỏe mnh sẽ phát ơm khác hẳn
so với khi đau ốm, ví d nh cm cúm chẳng hn.
- Tốc độ nói.
Trang 3
- Với một ngi trong một khong thi gian ngắn, vic phát ơm một t
trong nhiu lần khác nhau có thể khác nhau.
nh hng ca ngoi cnh:
- Nhiu, ting ồn ca môi trng xung quanh. Ví d một ngi nói
trong không gian yên tĩnh sẽ d nghe hn lƠ ngoƠi đng phố.
- Handset để thu ơm có thể khác nhau trong nhng tình huống khác
nhau.
Điu kin lý tng cho vic thc hin nhn dng ting nói nói chung vƠ ơm
thanh nói riêng lƠ ting nói sẽ ổn định kể c trong lúc hun luyn vƠ lúc nhn dng.
Ting nói ca mỗi ngi lƠ duy nht, không trùng ln với nhng ngi khác. Do đó,
cho đn thi điểm hin ti, vic nhn dng ơm thanh, ting nói lƠ một công vic rt
khó khăn.
Trong thi gian qua, các nghiên cu còn tn mn, các kt qu tp trung ch
yu vƠo th nghim bớc đầu tổng hp ting Vit da trên một số kỹ thut c bn,
vƠ gii quyt các ng dng điu khiển bằng giọng nói với lng t vng nhỏ để có
thể triển khai nhanh, để minh họa vƠ thc t lƠ cha khai thác đặc điểm riêng ca
ng ơm ting Vit. Trong đ tƠi KC-01-10, các nội dung v tổng hp vƠ nhn dng
ting Vit mới đc tin hƠnh nghiên cu hai năm cuối (1999-2000). Vì th cha
có sn phẩm có kh năng ng dng rộng rƣi chẳng hn cho các ng dng văn phòng
hay các ng dng trong vin thông.
Một số phần mm nhn dng ting Vit:
Chng trình nhn dng lnh VnCommand: Nhn dng lnh, trình
din kh năng điu khiển chng trình ng dng trên Windows.
- Mc tiêu: Phần mm nhn dng lnh ng dng trong điu khiển thay
th cho ngi dùng nhn chuột hoặc gõ lnh t bn phím. CSDL gồm tp các lnh
nhỏ (dới 100 lnh).
- Kt qu ca sn phẩm: chỉ ra kh năng to ra một h thống nhn dng
lnh ting Vit, độc lp ngi nói với độ chính xác rơt cao trên một tp lnh với độ
đồng ơm gia các lnh thp.
Trang 4
Chng trình nhn dng lnh 10 ch số ting Vit liên tc qua đin
thoi: Xơy dng h thống nhn dng mi ch số ting Vit liên tc qua mng đin
thoi, dùng h thống nhn dng lai ghép gia mng n ron nhơn to vƠ mô hình
Markov ẩn (ANN/HMM).
Chng trình đọc chính t VnDictator: Nghiên cu, đ xut các cách
tip cn nhn dng ting nói ri rc hoặc liên tc, ph thuộc hoặc không ph thuộc
ngi nói với lng t vng lớn (lƠ toƠn bộ t điển ơm tit, t ting Vit).
1.2 Mục đích ca đ tƠi
Đ tƠi nƠy nghiên cu một hớng nhn dng ting nói da trên vic trích đặc
trng ca ting nói bằng phng pháp MFCC (Mel - Frequency Ceptrums
Coefficients), vƠ nhn dng bằng mng neural trên môi trng Matlab.
1.3 Nhim vụ vƠ giới hn ca đ tƠi.
1.3.1 Nhim vụ ca đ tƠi
Thit k vƠ mô phỏng h thống nhn dng ting nói (nhn dng 11
ch số ting Vit) dùng mng neural trên môi trng Matlab.
Một h thống nhn dng ting nói nói chung thng bao gồm hai
phần:
- Phần hun luyn (training phase): lƠ quá trình h thống “học” nhng
mu chuẩn, để t đó hình thƠnh bộ t vng ca h thống.
- Phần nhn dng (recognition phase): lƠ quá trình quyt định xem t
nƠo đc đọc căn c vƠo bộ t vng đƣ đc hun luyn.
1.3.2 Giới hn ca đ tƠi
Do thi gian thc hin có hn, ngi thc hin chỉ giới hn nghiên cu, thit
k cho một h thống nhn dng ting nói (nhn dng 11 ch số ting Vit) dùng
mng neural mô phỏng trên môi trng Matlab.
1.4 Phưng pháp nghiên cu
Phng pháp phơn tích: nghiên cu, tìm hiểu v các phng pháp
trích đặc trng ting nói, tìm hiểu v mng neural, la chọn mng vƠ thut toán cho
h thống nhn dng, phơn tích các kt qu nhn đc t mô hình nhn dng…
Trang 5
Phng pháp mô phỏng: nghiên cu v phần mm Matlab, mng
neural trên môi trng Matlab t đó xơy dng chng trình hun luyn vƠ nhn
dng cho h thống.
Trang 6
Chưng 2:
C S LÝ THUYT
2.1 Lý thuyt ơm thanh vƠ ting nói
2.1.1 Ngun gốc ơm thanh.
Âm thanh là do vt thể dao động c học mà phát ra. Âm thanh phát ra dới
dng sóng ơm. Sóng ơm lƠ s bin đổi các tính cht ca môi trng đƠn hồi khi
năng lng ơm truyn qua. Âm thanh truyn đc đn tai ngi lƠ do môi trng
dn ơm. Sóng ơm có thể truyn đc trong cht rắn, cht lỏng, không khí. Có cht
dn ơm rt kém gọi lƠ cht hút ơm nh: len,da, cht xốp… Sóng ơm không thể
truyn trong môi trng chân không.
Khi kích thích dao động ơm trong mối trng không khí thì nhng lớp khí sẽ
bị nén vƠ dƣn. Trng thái nén dƣn lần lt đc lan truyn t nguồn ơm dới dng
sóng dọc tới ni thu ơm. Nu cng độ nguồn ơm cƠng lớn thì ơm thanh truyn đi
càng xa.
2.1.2 Các đi lượng đặc trưng cho ơm thanh.
Tần số của âm thanh: lƠ số lần dao động ca phần t khí trong một giơy.
Đn vị lƠ Hz , kí hiu: f.
Chu kì của âm thanh: lƠ thi gian mƠ ơm thanh đó thc hin một dao động
hoƠn toƠn. Đn vị lƠ thi gian, kí hiu là T.
Tốc độ truyền âm: lƠ tốc độ truyn năng lng ơm t nguồn tới ni thu. Đn
vị m/s. Tốc độ truyn ơm trong không khí nhit độ t 0- 20
0
C thng lƠ 331 ậ 340
m/s.
Cường độ âm thanh: lƠ năng lng đc sóng ơm truyn trong một đn vị
thi gian qua một đn vị din tích đặt vuông góc với phng truyn ơm.
Thanh áp: lƠ lc tác dng vƠo tai ngi nghe hoặc ti một điểm nƠo đó
ca trng ơm thanh. Đn vị : 1pa=1 N/m
2
hoặc 1bar = 1dyn/cm
2
.
Âm sắc: Trong thƠnh phần ca ơm thanh, ngoƠi tần số c bn còn có các
sóng hƠi, số lng sóng hƠi biểu din sắc thái ca ơm. Âm sắc lƠ một đặc tính ca
Trang 7
ơm, nh đó mƠ ta phơn bit đc ting trầm, bổng khác nhau, phơn bit đc ting
nhc c, ting nam n ,ting ngi nƠy với ngi khác.
Âm lượng: lƠ mc độ to nhỏ ca nguồn. Đn vị lƠ W.
2.1.3 Các tần số ca ơm thanh.
F
0
gọi là tần số c bn ca âm thanh. Nam giới f
0
= 150 Hz. N giới : f
0
= 250 Hz.
Giọng nam trầm 80 ậ 320 Hz.
Giọng nam trung 100 ậ 400 Hz.
Giọng nam cao 130 ậ 480 Hz.
Giọng n thp 160 ậ 600 Hz.
Giọng n cao 260 ậ 1200 Hz.
Công sut ca ting nói, khi nói to nhỏ cũng khác nhau. Khi nói thầm công sut
10
-3
mW, nói bình thng 10 mW, nói to 10
3
mW.
2.1.4 C ch to lp ting nói ca con ngưi.
Các c quan phát ơm ca con ngi ch yu gồm phổi, khí qun, thanh qun, bộ
phn mũi vƠ ming. Thanh qun có hai np gp gọi lƠ dơy thanh ơm, dơy thanh ơm
sẽ rung khi luồng không khí đi qua khe thanh môn lƠ khe gia hai dây thanh âm. Bộ
phn ming lƠ một ống âm không đu. Bộ phn mũi cũng lƠ một ống ơm học không
đu có din tích vƠ chiu dƠi cố định, bắt đầu t lỗ mũi đn vòm ming mm.
Quá trình to ra ơm phi mũi: vòm ming mm ngăn chặn bộ phn mũi vƠ ơm thanh
phát ra thông qua môi. Đối với quá trình to ra ơm mũi: vòm ming mm h xuống
vƠ bộ phn mũi liên kt bộ phn ming, lúc nƠy phía trớc ca bộ phn ming khép
li hoƠn toƠn vƠ ơm thanh ra thông qua mũi.Đối với ơm thanh nói giọng mũi, ơm
thanh phát ra c mũi vƠ môi.
Âm thanh ca ting nói có thể chia lƠm ba loi khác nhau:
Âm hữu thanh: giống nh ơm khi chúng ta nói „a‟ hay „e‟, đc to ra khi
dơy thanh ơm căng lên vƠ rung khi áp sut không khí tăng lên, lƠm thanh mồm m
ra rồi đóng li khi luồng không khí đi qua. Nhng dơy thanh ơm rung to ra dng
sóng ca luồng không khí có dng xp xỉ tam giác. Chu kì cao độ ơm thanh ca đƠn
Trang 8
ông trng thƠnh thng t 50Hz đn 250Hz, giá trị trung bình khong 120Hz.Đối
với ph n trng thƠnh, giới hn trên cao hn nhiu, có thể lên đn 500Hz.
Âm vô thanh: đc to ra khi dơy thanh ơm không rung. Có hai loi ơm vô
thanh c bn: ơm xát vƠ ơm hi. Đối với ơm xát nh khi ta nói ch „s‟, một số điểm
trên bộ phn phát ơm co li khi luồng không khí ngang qua nó , hỗn lon xy ra to
nên nhiu ngu nhiên. Đối với ơm bt hi, nh khi ta nói ch „h‟ , hỗn lon xy ra
gần thanh môn khi dơy thannh ơm bị gi nhẹ một phần. NgoƠi hai loi ơm c bn
nói trên, còn có một loi ơm trung gian va mang tính cht nguyên ơm, va mang
tính cht ph ơm, đc gọi lƠ bán nguyên ơm hay bán ph ơm. Ví d nh „i‟, „u‟
trong t „ai‟ vƠ „ơu‟.
Phụ âm nổ: ví d nh ơm „p‟, „t‟,‟k‟ hay „đ‟, „b‟, „g‟ trong ting Vit đc
to ra do loi kích thích khác.
2.1.5 Mô hình lọc ngun cho quá trình to ting nói.
Quá trình to ting nói lƠ bộ lọc nguồn, trong đó tín hiu t nguồn ơm thanh (cũng
có thể lƠ có chu kì hay nhiu ) đc lọc bằng bộ lọc bin thiên theo thi gian có tính
cht cộng hng tng t với bộ phn phát ơm. Nh vy có thể thu đc phổ tần số
ca tín hiu ting nói bằng cách nhơn phổ ca nguồn âm thanh với đặc tính tần số
ca bộ lọc. Hình 2.1 minh họa ting nói hu thanh vƠ vô thanh. Các độ li A
v
và
A
N
xác định cng độ ca nguồn to ơm hu thanh vƠ vô thanh.
Trang 9
Hình 2.1: Mô hình lọc nguồn cho quá trình to ting nói
2.1.6 H thống nghe ca tai ngưi.
Quá trình nghe ca tai ngi nh sau: sóng áp sut ơm thanh tác động đn tai
ngi, sóng nƠy đc chuyển thành chuỗi xung đin, chuỗi này đc truyn tới não
bộ thông qua h thần kinh, não chuỗi đc x lý và gii mã.
Khi nghe một sóng âm thuần túy tc ơm đn (sóng sin), nhng điểm khác
nhau trên mƠng đáy sẽ rung động theo tần số ca ơm đn đi vƠo tai. Điểm lch lớn
nht trên mƠng đáy ph thuộc vào tần số ca ơm đn. Tần số cao to ra điểm lch
lớn nht phía đáy vƠ tần số thp to ra điểm lch lớn nht phía đỉnh. Nh vy
màng đáy lƠm nhim v phân tích tần số tín hiu vào phc tp thành nhng tần số
khác nhau nhng điểm khác nhau dọc theo chiu dài ca nó. Nh vy có thể xem
mọi điểm là bộ lọc thông di và có tần số trung tơm vƠ băng thông xác định.
Ngng nghe ca một âm đn tăng lên khi có s hin din ca nhng âm
đn lân cn khác (âm mặt n) và chỉ có băng tần hẹp xung quanh ơm đn mới tham
gia vào hiu ng mặt n, băng tần nƠy thng gọi là âm tần tới hn. Giá trị ca băng
tần tới hn ph thuộc vào tần số ca ơm đn cần th. Tóm li quá trình nghe ca h
Trang 10
thính giác là một dãy các bộ lọc băng thông, có đáp ng ph lắp lên nhau vƠ „băng
thông hiu qu‟ ca chúng xp xỉ với các giá trị ca băng tần tới hn.
2.1.7 Quá trình to ra ting nói vƠ thu nhn ting nói ca con ngưi.
Hình 2.2: S đồ biểu din quá trình thu, nhn ting nói ca con ngi.
Quá trình to ra ting nói bắt đầu khi ngi nói muốn chuyển ti thông đip
ca mình cho ngi nghe thông qua ting nói. Tổ chc thần kinh sẽ chịu trách
nhim chuyển đổi thông đip sang dng mã ngôn ng. Khi một mã ngôn ng đc
chọn la, các lnh thần kinh vn động điu khiển đồng bộ các khâu vn động nhằm
phát ra chuỗi âm thanh. Vy đầu ra cuối cùng ca quá trình là một tín hiu âm học.
Trang 11
Đối với quá trình thu nhn ting nói, ngi nghe x lý tín hiu âm thanh
thông qua màng tai trong, nó có kh năng cung cp một phân tích phổ cho tín hiu
tới. Quá trình thần kinh sẽ chuyển đổi tín hiu phổ thành các tín hiu hot động với
thần kinh thính giác, có thể coi đơy lƠ quá trình ly ra các đặc trng. Cuối cùng các
tín hiu đc chuyển thành mã ngôn ng và hiểu đc thông đip.
2.1.8 Các ơm thanh ting nói vƠ các đặc trưng.
2.1.8.1 Nguyên âm.
Các nguyên âm có tầm rt quan trọng trong nhn dng ting nói, hầu ht các
h thống nhn dng da trên c s nhn dng nguyên ơm đu có tính năng tốt. Các
nguyên âm nói chung là có thi gian tồn ti dài (so với các ph âm) và d xác định
phổ. Chính vì th d dàng cho vic nhn dng ting nói, c đối với con ngi và
máy móc.
V mặt lý thuyt, các cc đi ca biểu din phổ ca tín hiu nguyên âm
chính là các tần số cộng hng (formants) to nên nguyên âm. Giá trị ca các
formant đầu tiên (2 hoặc 3 formant đầu tiên) là yu tố quyt định cho phép chúng ta
nhn dng đc nguyên âm. Do nhiu yu tố bin thiên nh s khác nhau v giới
tính, v độ tuổi, tình trng tinh thần ca ngi nói và nhiu yu tố ngoi cnh khác,
đối với một nguyên âm xác định các giá trị formant cũng có s bin thiên nht định.
Tuy nhiên s khác bit v các giá trị các formant gia các nguyên âm khác nhau lớn
hn nhiu, và trong không gian formant chúng ta có thể xác định một cách tng
đối các vùng riêng bit cho tng nguyên âm.
2.1.8.2 Các ơm vị khác.
Nguyên ơm đôi thì có s bin thiên một cách liên tc các formant ca biểu
din phổ theo thi gian. Đối với âm vị loi này,cần phi đặc bit chú ý đn vic
phơn đon theo thi gian khi nhn dng.
Các bán nguyên ơm nh /l/, /r/ vƠ /y/ lƠ tng đối khó trong vic biểu din
đặc trng. Các ơm thanh nƠy không đc coi lƠ nguyên ơm nhng gọi là bán nguyên
âm do bn cht ta nguyên âm ca chúng. Các đặc trng ơm học ca các âm thanh
này chịu nh hng rt mnh ca ng cnh mƠ trong đó chúng xut hin.
Trang 12
Đối với các ơm mũi thì ming đóng vai trò nh một khong cộng hng có
tác dng by năng lng âm ti một vài tần số t nhiên. Các tần số cộng hng này
ca khoang ming xut hin nh các phn cộng hng, hay các điểm không ca
hàm truyn đt. Ngoài ra, các ph ơm mũi còn đc đặc trng bi nhng s cộng
hng mnh hn v phổ so với các nguyên âm.
Các ph âm xát vô thanh nh /s/, /sh/. H thống to ra các ph âm xát vô
thanh bao gồm một nguồn nhiu ti một điểm thắt mà chia ống dn âm thành hai
khoang. Âm thanh đc bc x ti khoang trớc. Khoang sau có tác dng by năng
lng nh trong trng hp ph ơm mũi, vƠ nh vy lƠ đa các phn cộng hng
vào âm thanh đầu ra. Bn cht không tuần hoàn lƠ đặc trng c bn nht ca nguồn
kích thích xát vô thanh.
Điểm khác bit ca các âm xát hu thanh nh /v/, /th/ so với các ph âm xát
vô thanh là chỗ có hai nguồn kích thích liên quan tới vic to ra chúng. Nh vy
đặc trng ca ph âm xát hu thanh là bao gồm c hai thành phần kích thích tuần
hoàn và nhiu.
Các âm dng là các ph âm /b/, /d/, /g/, /p/, /t/ và /k/ chúng có thi gian tồn ti
rt ngắn. Các âm dng có tính cht động vì th các thuộc tính ca chúng chịu nh
hng rt nhiu bi nguyên ơm đi sau nó.
2.2 Lý thuyt nhn dng ting nói.
2.2.1 Tng quan v nhn dng ting nói.
Nhn dng ting nói là một h thống to kh năng để máy nhn bit ng nghĩa ca
li nói. V bn cht, đơy lƠ quá trình bin đổi tín hiu âm thanh thu đc ca ngi
nói qua Micro, đng dơy đin thoi hoặc các thit bị khác thành một chuỗi các t.
Kt qu ca quá trình nhn dng có thể đc ng dng trong điu khiển thit bị,
nhp d liu, son tho văn bn bằng li, quay số đin thoi t động hoặc đa tới
một quá trình x lý ngôn ng mc cao hn.
Trang 13
Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói.
Các h thống nhn dng ting nói có thể đc phân loi nh sau:
Nhn dng t phát ơm ri rc/liên tc.
Nhn dng ting nói ph thuộc ngi nói/không ph thuộc ngi nói.
H thống nhn dng t điển cớ nhỏ (dới 20 t)/t điển c lớn (hƠng nghìn
t).
Nhn dng ting nói trong môi trng có nhiu thp/cao.
Nhn dng ngi nói.
Trong h nhn dng ting nói với cách phát âm ri rc có khong lặng gia các t
trong câu. Trong h nhn dng ting nói liên tc không đòi hỏi điu này. Tùy thuộc
vào quy mô vƠ phng pháp nhn dng, ta có các mô hình nhn dng ting nói
khác nhau. Hình 2.3 là mô hình tổng quát ca một h nhn dng ting nói điển hình.
Tín hiu ting nói sau khi thu nhn đc lng t hóa sẽ bin đổi thành một tp các
vector tham số đặc trng với các phơn đon có độ dài trong khong 10-30 ms. Các
đặc trng nƠy đc dùng cho đối sánh hoặc tìm kim các t gần nht với một số
ràng buộc v âm học, t vng và ng pháp. C s d liu ting nói đc s dng