Tải bản đầy đủ (.pdf) (95 trang)

Nhận dạng tiếng nói dùng mạng neural

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.82 MB, 95 trang )



v

TÓM TT
Nhn dng ting nói là một kỹ thut có thể ng dng trong rất nhiu lĩnh vc
ca cuộc sống: trong vic điu khiển (điu khiển robot, động c, điu khiển xe lăn
cho ngưi tàn tt ), an ninh quốc phòng  Vit Nam, trong nhng năm gần đơy
đã có một số nghiên cu ban đầu v nhn dng ting Vit, tuy nhiên còn giới hn v
độ chính xác, số từ, vấn đ thanh điu đặc thù ca ting Vit hầu như chưa đưc đ
cp.
Trong khuôn kh ca khóa học Cao học, chuyên ngành Kỹ thut đin t ti
trưng Đi học Sư phm Kỹ thut Tp. H Chí Minh, đưc s to điu kin giúp đỡ
ca nhƠ trưng vƠ PGS. TS Dưng HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng
tiếng nói dùng mạng Neural”, nhằm nghiên cu các phưng pháp nhn dng ting
nói đối với ting Vit dùng mng Neural và th nghim trên phần mm Matlab.
Nội dung ca lun văn đưc trình bƠy thƠnh các chưng như sau:
 Chưng 1: Tng quan
Chưng th nhất giới thiu tng quan v hướng nghiên cu ca đ tài,mc đích vƠ
phưng pháp nghiên cu.
 Chưng 2: C s lý thuyt
Chưng th hai trình bày tóm tt v ting nói và một số phưng pháp nhn dng
ting nói ph bin
 Chưng 3: Tng quan v mng Neural
Chưng nƠy trình bƠy tng quan v mng Neural bao gm: phần lịch s phát triển,
cấu trúc mng Neural, thut toán, ng dng ca chúng trong nhn dng
 Chưng 4: Xơy dng h nhn dng
Phần này trình bày quá trình tin hành và một số kt qu nghiên cu xây dng h
nhn dng các ch số ting Vit trên môi trưng Matlab.



vi

 Chưng 5: Kt lun.
Chưng cuối trình bày nhng kt qu đt đưc vƠ hướng phát triển ca đ tài.
Mặc dù ht sc cố gng nhưng do kh năng còn hn ch nên kt qu nghiên
cu còn khá khiêm tốn. Hy vọng rằng tưng lai tôi s có điu kin hn để tip tc
nghiên cu và m rộng đ tài này.




vii

SUMMARY
Speech recognition is a technique that can be applied in many areas of life: in
the control (control robots, motors, control a wheelchair for the disabled, etc.),
security and defense In Vietnam, in recent years there were some initial research
on Vietnamese identity, but also limited in terms of accuracy, the number of words,
tone issues specific language can hardly be counter.
In the framework of the course Master of Science degree in Electronic
Engineering at the University of Technical Education Ho Chi Minh City, is the
creation of conditions to help the school and Associate Professor. Dr. Duong Hoai
Nghia, I have chosen the theme "Speech recognition using Neural Network", in
order to study the method of speech recognition for Vietnammese using Neural
network and Matlab software trials.
The content of the thesis is presented in the following chapters:
 Chapter 1: Overview
The first chapter introduces an overview of the research directions of the
subject, purpose, and research methods.
 Chapter 2: Theoretical basis

The second chapter presents a summary of the language and some common
methods of speech recognition
 Chapter 3: Overview of Neural network
This chapter presents an overview of the Neural network include: historical
development, Neural network structures, algorithms, their application in the
identification
 Chapter 4: Construction of identity
This section presents the process and a number of research findings build
recognize the letters of the English in the Matlab environment.
 Chapter 5: Conclusion.
The last chapter presents the results and development of the subject.



viii

Despite our best efforts, likely due to limited research results are relatively
modest. Hopefully the future will have more conditions to continue and expand
research subject.


ix

MỤC LỤC
TRANG
Trang ta
Quyt định giao đ tài
Lý lịch cá nhân i
Li cam đoan iii
Li cm n iv

Tóm tt v
Mc lc ix
Danh sách ch vit tt xiii
Danh sách các hình xiv
Danh sách các bng xv
Chưng 1. TNG QUAN
1.1 Tng quan v lĩnh vc nghiên cu 1
1.2 Mc đích ca đ tài 4
1.3 Nhim v và giới hn ca đ tài 4
1.4 Phưng pháp nghiên cu 4
Chưng 2. C S LÝ THUYT
2.1 Lý thuyt âm thanh và ting nói 6
2.1.1 Ngun gốc âm thanh 6
2.1.2 Các đi lưng đặc trưng cho ơm thanh 6
2.1.3 Các tần số ca âm thanh 7
2.1.4 C ch to lp ting nói ca con ngưi 7


x

2.1.5 Mô hình lọc ngun cho quá trình to ting nói 8
2.1.6 H thống nghe ca tai ngưi 9
2.1.7 Quá trình to ra ting nói và thu nhn ting nói ca con ngưi 10
2.1.8 Các âm thanh ting nói vƠ các đặc trưng 11
2.2 Lý thuyt nhn dng ting nói 12
2.2.1 Tng quan v nhn dng ting nói 12
2.2.2 Các nguyên tc c bn trong nhn dng ting nói 14
2.2.3 Các phưng pháp nhn dng ting nói ph bin 14
2.2.4 Các quá trình c bn ca một h thống nhn dng ting nói 19
Chưng 3. TNG QUAN V MNG NEURAL

3.1 Giới thiu tng quan v mng Neural 23
3.1.1 Mng Neural sinh học 23
3.1.2 Mng Neural nhân to 24
3.2 Lịch s phát triển ca mng Neural nhân to 26
3.3 Các tính chất ca mng Neural nhân to 28
3.4 Mô hình Neural và kin trúc mng 28
3.4.1 Mô hình Neural 28
3.4.1.1 Mô hình Neural đn gin 29
3.4.1.2 Mô hình Neural nhiu ngõ vào 32
3.4.2 Kin trúc mng Neural 32
3.4.2.1 Mng Neural đn lớp 33
3.4.2.2 Mng Neural đa lớp 34
3.4.2.3 Mng Neural hi qui 35
3.5 Phưng thc làm vic ca mng Neural 36


xi

3.6 Các lut học 38
3.7 Vấn đ thit k cấu trúc mng 40
3.7.1 Số lớp ẩn 40
3.7.2 Số đn vị trong lớp ẩn 40
3.8 Thut toán lan truyn ngưc 42
3.8.1 Chỉ số hiu năng 43
3.8.2 Lut xích 44
3.8.3 Lan truyn ngưc độ nhy cm 45
3.9 ng dng mng Neural trong nhn dng 47
Chưng 4. XÂY DNG H NHN DNG
4.1 Xây dng h thống nhn dng 49
4.1.1 Mô t chung v h thống 49

4.1.2 S đ khối ca h thống 49
4.1.3 Phưng pháp gii quyt 50
3.4.1.1 Thu nhn tín hiu 50
3.4.1.2 Trích đặc trưng ting nói 53
3.4.1.3 Tính đầu vào cho mng 57
4.2 Chưng trình nhn dng mưi ch số ting Vit 58
4.2.1 Giao din phần mm demo 58
4.2.2 Kt qu th nghim 61
Chưng 5. KT LUN
5.1 Nhng kt qu đt đưc 75
5.2 Hướng phát triển ca đ tài 75
5.2.1 Xây dng bộ d liu lớn hn 75


xii

5.2.2 Xây dng phần mm nhn dng da trên kt qu nghiên cu 75
5.2.3 Nghiên cu các phưng pháp xác định đặc trưng khác 76
5.2.4 Nghiên cu các phưng pháp nhn dng khác 76
TÀI LIU THAM KHO 77
PH LC 79


xiii

DANH SÁCH CH VIT TT

STT
Kí hiu
Din gii

1
Artificial Neural
Nron nhơn to
2
Artificial Neural Networks
Mng Nron nhơn to
3
Back Propagation Learaning Rule
Lut học lan truyn ngưc
4
Learing
Học
5
Hidden Layer
Lớp ẩn
6
Melscale Frequency Cepstral Coefficients
- MFCC
Các h số theo thang tần số
Mel
7
Myltilayer Layer Feedforward NetWord
Mng nhiu lớp truyn thẳng
8
Neural
Nron
9
Neural Networks - NN
Mng Nron
10

Output Layer
Lớp ra
11
Paramater Learning
Học thông số
12
Perceptual Linear Prediction - PLP
Mã d đoán tuyn tính
13
Recurrent Neural Networks
Mng Nron hi qui
14
Single Layer Feedforward NetWord
Mng một lớp truyn thng
15
Step Function
HƠm bước
16
Supervised Learning
Học có giám sát
17
Unsupervised Learning
Học không có giám sát


xiv

DANH SÁCH CÁC HÌNH
TRANG
Hình 2.1: Mô hình lọc ngun cho quá trình to ting nói 9

Hình 2.2: S đ biểu din quá trình thu, nhn ting nói ca con ngưi 10
Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói 13
Hình 2.4: S đ khối nhn dng ting nói theo ng âm ậ âm vị học 15
Hình 2.5: S đ khối h thống nhn dng ting nói theo phưng pháp từ dưới lên
19
Hình 2.6: Các quá trình c bn ca một h thống nhn dng ting nói 20
Hình 3.1: Mô hình mng Neural sinh học 23
Hình 3.2: Mô hình t bào thần kinh sinh học 24
Hình 3.3: Mô hình mng Neural nhân to 25
Hình 3.4: Mô hình Neural 29
Hình 3.5: Mô hình Neural đn gin 30
Hình 3.6: Hàm truyn ngưỡng 30
Hình 3.7: Hàm truyn tuyn tính 31
Hình 3.8: Hàm truyn log ậ sigmoid 31
Hình 3.9: Mô hình Neural nhiu ngõ vào 32
Hình 3.10: Mô hình huấn luyn mng Neural 33
Hình 3.11: Mô hình mng Neural đn lớp 33
Hình 3.12: Dng kí hiu ca mng Neural đn lớp 34
Hình 3.13: Mng Neural đa lớp (3 lớp) 34
Hình 3.14: Mng hi quy 36
Hình 3.15: Mô hình học có giám sát và cng cố 39
Hình 3.16: Mô hình học không có giám sát 40
Hình 4.1: S đ khối h thống nhn dng 50
Hình 4.2: S tưng quan gia tín hiu ting nói và nn nhiu 51
Hình 4.3: Tín hiu ting nói nguyên thy 52


xv

Hình 4.4: Tín hiu ting nói sau khi đã qua x lý (ct khong lặng) 52

Hình 4.5: Các bước trích đặc trưng ting nói 53
Hình 4.6: S tưng quan gia tần số Mel và tần số Hz 55
Hình 4.7: Mel filter banks trên min tần số tuyn tính 56
Hình 4.8: Bộ lọc tần số Mel ng với M bộ lọc 56
Hình 4.9: Giao din chính chưng trình 58
Hình 4.10: Giao din chưng trình to mng Neural 59
Hình 4.11: Giao din chưng trình huấn luyn 60
Hình 4.12: Giao din chưng trình nhn dng 60


xvi

DANH SÁCH CÁC BNG
TRANG
Bng 5.1: Kt qu nhn dng huấn luyn mng Neural cho số 0 62
Bng 5.2: Kt qu nhn dng huấn luyn mng Neural cho số 1 63
Bng 5.3: Kt qu nhn dng huấn luyn mng Neural cho số 2 64
Bng 5.4: Kt qu nhn dng huấn luyn mng Neural cho số 3 65
Bng 5.5: Kt qu nhn dng huấn luyn mng Neural cho số 4 66
Bng 5.6: Kt qu nhn dng huấn luyn mng Neural cho số 5 67
Bng 5.7: Kt qu nhn dng huấn luyn mng Neural cho số 6 68
Bng 5.8: Kt qu nhn dng huấn luyn mng Neural cho số 7 69
Bng 5.9: Kt qu nhn dng huấn luyn mng Neural cho số 8 70
Bng 5.10: Kt qu nhn dng huấn luyn mng Neural cho số 9 71
Bng 5.11: Kt qu nhn dng huấn luyn mng Neural cho số 10 72
Bng 5.12: Bng tng hp kt qu nhn dng cho các số từ 0 đn 10 73









Trang 1

Chưng 1:
TNG QUAN
1.1 Tng quan v lĩnh vc nghiên cu ậ Các kt qu nghiên cu trong và
ngoƠi nước đã công bố
Ngay khi phát minh ra máy tính, con ngi đƣ m ớc máy tính có thể nói
chuyn với mình. Yêu cầu đn gin nht là máy có thể xác định đc t ng mà
chúng ta nói với máy. Đó lƠ mc tiêu ca ngành nhn dng ting nói.
Đối với con ngi, vic nghe, nht là nghe ting mẹ đẻ là một vn đ khá
đn gin. Còn đối với máy tính, xác định một chuỗi tín hiu âm thanh là s phát âm
ca một t nào hoàn toàn không đn gin
.
H thống nhn dng ting nói (Speech Recognition ) sẽ có nhng ng dng
tuyt vi trong tt c các lĩnh vc ca đi sống, nu đc áp dng thành công sẽ là
một cuộc cách mng trong giao tip ngi máy (Human Machine Interface ), các
ng dng ca nó bao trùm trên nhiu lĩnh vc nh công nghip, an ninh và gii trí.
Lĩnh vc nhn dng ting nói đƣ đc nghiên cu hn 4 thp kỉ và hin nay
mới chỉ có một số thành công. Có thể kể đn h thống nhn dng ting Anh (ví d:
phần mm Via Voice ca IBM, h thống nhn dng ting nói tích hp ca
OfficeXP…). Các h thống này hot động khá tốt (cho độ chính xác khong 90 -
95%) nhng còn xa mới đt đn mc m ớc ca chúng ta: có một h thống có thể
nghe chính xác và hiểu hoàn toàn nhng điu ta nói.
Riêng với ting Vit, lĩnh vc nhn dng ting nói còn khá mới mẻ. Cha h
thy xut hin một phần mm nhn dng ting Vit hoàn chỉnh trên thị trng. Số
công trình nghiên cu v nhn dng ting nói ting Vit đc công bố rt him hoi,

và kt qu còn hn ch v bộ t vng, độ chính xác…. Ting Vit có nhiu đặc tính
khác với các ngôn ng đƣ đc nghiên cu nhn dng nhiu nh ting Anh, ting
Pháp. Do đó vic nghiên cu nhn dng ting Vit là rt cần thit.


Trang 2

Vì nhng lí do trên, tôi chọn đ tƠi “Nhận dạng tiếng nói dùng mạng
Neural”, nhằm nghiên cu các phng pháp nhn dng ting nói đối với ting Vit
và th nghim xây dng một h thống nhn dng c nhỏ.
1.1.1 Các kt qu nghiên cu ngoƠi nước.
Nhn dng ting nói nhằm chuyển thông tin t ting nói con ngi vào máy
tính và tổng hp ting nói nhằm t động to ra ting ngi nói bằng máy tính. Cùng
với s phát triển nhanh chóng ca công ngh thông tin nói chung và mng Internet
nói riêng, nhn dng và tổng hp ting nói càng ngày càng tr nên là một xu hớng
tt yu cho nhng máy tính th kỉ 21. Trong vòng 50 năm qua, rt nhiu thut toán
đc đ xut và triển khai trên các h t động nhn dng và tổng hp ting nói.
Trên th giới đƣ có nhiu bộ phần mm thng mi dành cho ting Anh nh IBM
ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Nhng phần mm này
cung cp các chc năng ch yu nh: nhp văn bn vào máy, đọc văn bn thành li,
duyt Web bằng giọng nói. Gần đơy nht hƣng Microsoft đƣ công bố vic tích hp
VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyn thống
vào phiên bn h điu hành Windows th h mới với mt danh Whistler. Kt qu
nƠy có ý nghĩa rt lớn trong giao tip ngi-máy: thay vì giao tip với máy tính qua
nhng biểu tng và ca sổ, các máy tính trong tng lai chỉ giao tip với con
ngi bằng nhng mnh lnh đn gin.
1.1.2 Các kt qu nghiên cu trong nước.
Trớc ht đơy lƠ vn đ khó, vì một số khó khăn do bn thơn đối tng mƠ
nó nhắm đn, ting nói hay ơm thanh, lƠ một đối tng không ổn định.
Các khó khăn có thể kể đn như:

 S bin động ca ngi nói trong vic phát ơm:
- Ting nói thay đổi theo thi gian, theo độ tuổi.
- Tình trng sc khỏe. Một ngi khi khỏe mnh sẽ phát ơm khác hẳn
so với khi đau ốm, ví d nh cm cúm chẳng hn.
- Tốc độ nói.


Trang 3

- Với một ngi trong một khong thi gian ngắn, vic phát ơm một t
trong nhiu lần khác nhau có thể khác nhau.
 nh hng ca ngoi cnh:
- Nhiu, ting ồn ca môi trng xung quanh. Ví d một ngi nói
trong không gian yên tĩnh sẽ d nghe hn lƠ  ngoƠi đng phố.
- Handset để thu ơm có thể khác nhau trong nhng tình huống khác
nhau.
Điu kin lý tng cho vic thc hin nhn dng ting nói nói chung vƠ ơm
thanh nói riêng lƠ ting nói sẽ ổn định kể c trong lúc hun luyn vƠ lúc nhn dng.
Ting nói ca mỗi ngi lƠ duy nht, không trùng ln với nhng ngi khác. Do đó,
cho đn thi điểm hin ti, vic nhn dng ơm thanh, ting nói lƠ một công vic rt
khó khăn.
Trong thi gian qua, các nghiên cu còn tn mn, các kt qu tp trung ch
yu vƠo th nghim bớc đầu tổng hp ting Vit da trên một số kỹ thut c bn,
vƠ gii quyt các ng dng điu khiển bằng giọng nói với lng t vng nhỏ để có
thể triển khai nhanh, để minh họa vƠ thc t lƠ cha khai thác đặc điểm riêng ca
ng ơm ting Vit. Trong đ tƠi KC-01-10, các nội dung v tổng hp vƠ nhn dng
ting Vit mới đc tin hƠnh nghiên cu  hai năm cuối (1999-2000). Vì th cha
có sn phẩm có kh năng ng dng rộng rƣi chẳng hn cho các ng dng văn phòng
hay các ng dng trong vin thông.
Một số phần mm nhn dng ting Vit:

 Chng trình nhn dng lnh VnCommand: Nhn dng lnh, trình
din kh năng điu khiển chng trình ng dng trên Windows.
- Mc tiêu: Phần mm nhn dng lnh ng dng trong điu khiển thay
th cho ngi dùng nhn chuột hoặc gõ lnh t bn phím. CSDL gồm tp các lnh
nhỏ (dới 100 lnh).
- Kt qu ca sn phẩm: chỉ ra kh năng to ra một h thống nhn dng
lnh ting Vit, độc lp ngi nói với độ chính xác rơt cao trên một tp lnh với độ
đồng ơm gia các lnh thp.


Trang 4

 Chng trình nhn dng lnh 10 ch số ting Vit liên tc qua đin
thoi: Xơy dng h thống nhn dng mi ch số ting Vit liên tc qua mng đin
thoi, dùng h thống nhn dng lai ghép gia mng n ron nhơn to vƠ mô hình
Markov ẩn (ANN/HMM).
 Chng trình đọc chính t VnDictator: Nghiên cu, đ xut các cách
tip cn nhn dng ting nói ri rc hoặc liên tc, ph thuộc hoặc không ph thuộc
ngi nói với lng t vng lớn (lƠ toƠn bộ t điển ơm tit, t ting Vit).
1.2 Mục đích ca đ tƠi
Đ tƠi nƠy nghiên cu một hớng nhn dng ting nói da trên vic trích đặc
trng ca ting nói bằng phng pháp MFCC (Mel - Frequency Ceptrums
Coefficients), vƠ nhn dng bằng mng neural trên môi trng Matlab.
1.3 Nhim vụ vƠ giới hn ca đ tƠi.
1.3.1 Nhim vụ ca đ tƠi
 Thit k vƠ mô phỏng h thống nhn dng ting nói (nhn dng 11
ch số ting Vit) dùng mng neural trên môi trng Matlab.
 Một h thống nhn dng ting nói nói chung thng bao gồm hai
phần:
- Phần hun luyn (training phase): lƠ quá trình h thống “học” nhng

mu chuẩn, để t đó hình thƠnh bộ t vng ca h thống.
- Phần nhn dng (recognition phase): lƠ quá trình quyt định xem t
nƠo đc đọc căn c vƠo bộ t vng đƣ đc hun luyn.
1.3.2 Giới hn ca đ tƠi
Do thi gian thc hin có hn, ngi thc hin chỉ giới hn nghiên cu, thit
k cho một h thống nhn dng ting nói (nhn dng 11 ch số ting Vit) dùng
mng neural mô phỏng trên môi trng Matlab.
1.4 Phưng pháp nghiên cu
 Phng pháp phơn tích: nghiên cu, tìm hiểu v các phng pháp
trích đặc trng ting nói, tìm hiểu v mng neural, la chọn mng vƠ thut toán cho
h thống nhn dng, phơn tích các kt qu nhn đc t mô hình nhn dng…


Trang 5

 Phng pháp mô phỏng: nghiên cu v phần mm Matlab, mng
neural trên môi trng Matlab t đó xơy dng chng trình hun luyn vƠ nhn
dng cho h thống.























Trang 6

Chưng 2:
C S LÝ THUYT
2.1 Lý thuyt ơm thanh vƠ ting nói
2.1.1 Ngun gốc ơm thanh.
Âm thanh là do vt thể dao động c học mà phát ra. Âm thanh phát ra dới
dng sóng ơm. Sóng ơm lƠ s bin đổi các tính cht ca môi trng đƠn hồi khi
năng lng ơm truyn qua. Âm thanh truyn đc đn tai ngi lƠ do môi trng
dn ơm. Sóng ơm có thể truyn đc trong cht rắn, cht lỏng, không khí. Có cht
dn ơm rt kém gọi lƠ cht hút ơm nh: len,da, cht xốp… Sóng ơm không thể
truyn trong môi trng chân không.
Khi kích thích dao động ơm trong mối trng không khí thì nhng lớp khí sẽ
bị nén vƠ dƣn. Trng thái nén dƣn lần lt đc lan truyn t nguồn ơm dới dng
sóng dọc tới ni thu ơm. Nu cng độ nguồn ơm cƠng lớn thì ơm thanh truyn đi
càng xa.
2.1.2 Các đi lượng đặc trưng cho ơm thanh.
 Tần số của âm thanh: lƠ số lần dao động ca phần t khí trong một giơy.
Đn vị lƠ Hz , kí hiu: f.
 Chu kì của âm thanh: lƠ thi gian mƠ ơm thanh đó thc hin một dao động

hoƠn toƠn. Đn vị lƠ thi gian, kí hiu là T.
 Tốc độ truyền âm: lƠ tốc độ truyn năng lng ơm t nguồn tới ni thu. Đn
vị m/s. Tốc độ truyn ơm trong không khí  nhit độ t 0- 20
0
C thng lƠ 331 ậ 340
m/s.
 Cường độ âm thanh: lƠ năng lng đc sóng ơm truyn trong một đn vị
thi gian qua một đn vị din tích đặt vuông góc với phng truyn ơm.
 Thanh áp: lƠ lc tác dng vƠo tai ngi nghe hoặc ti một điểm nƠo đó
ca trng ơm thanh. Đn vị : 1pa=1 N/m
2
hoặc 1bar = 1dyn/cm
2
.
 Âm sắc: Trong thƠnh phần ca ơm thanh, ngoƠi tần số c bn còn có các
sóng hƠi, số lng sóng hƠi biểu din sắc thái ca ơm. Âm sắc lƠ một đặc tính ca


Trang 7

ơm, nh đó mƠ ta phơn bit đc ting trầm, bổng khác nhau, phơn bit đc ting
nhc c, ting nam n ,ting ngi nƠy với ngi khác.
 Âm lượng: lƠ mc độ to nhỏ ca nguồn. Đn vị lƠ W.
2.1.3 Các tần số ca ơm thanh.
F
0
gọi là tần số c bn ca âm thanh. Nam giới f
0
= 150 Hz. N giới : f
0

= 250 Hz.
Giọng nam trầm 80 ậ 320 Hz.
 Giọng nam trung 100 ậ 400 Hz.
 Giọng nam cao 130 ậ 480 Hz.
 Giọng n thp 160 ậ 600 Hz.
 Giọng n cao 260 ậ 1200 Hz.
Công sut ca ting nói, khi nói to nhỏ cũng khác nhau. Khi nói thầm công sut
10
-3
mW, nói bình thng 10 mW, nói to 10
3
mW.
2.1.4 C ch to lp ting nói ca con ngưi.
Các c quan phát ơm ca con ngi ch yu gồm phổi, khí qun, thanh qun, bộ
phn mũi vƠ ming. Thanh qun có hai np gp gọi lƠ dơy thanh ơm, dơy thanh ơm
sẽ rung khi luồng không khí đi qua khe thanh môn lƠ khe gia hai dây thanh âm. Bộ
phn ming lƠ một ống âm không đu. Bộ phn mũi cũng lƠ một ống ơm học không
đu có din tích vƠ chiu dƠi cố định, bắt đầu t lỗ mũi đn vòm ming mm.
Quá trình to ra ơm phi mũi: vòm ming mm ngăn chặn bộ phn mũi vƠ ơm thanh
phát ra thông qua môi. Đối với quá trình to ra ơm mũi: vòm ming mm h xuống
vƠ bộ phn mũi liên kt bộ phn ming, lúc nƠy phía trớc ca bộ phn ming khép
li hoƠn toƠn vƠ ơm thanh ra thông qua mũi.Đối với ơm thanh nói giọng mũi, ơm
thanh phát ra c mũi vƠ môi.
Âm thanh ca ting nói có thể chia lƠm ba loi khác nhau:
 Âm hữu thanh: giống nh ơm khi chúng ta nói „a‟ hay „e‟, đc to ra khi
dơy thanh ơm căng lên vƠ rung khi áp sut không khí tăng lên, lƠm thanh mồm m
ra rồi đóng li khi luồng không khí đi qua. Nhng dơy thanh ơm rung to ra dng
sóng ca luồng không khí có dng xp xỉ tam giác. Chu kì cao độ ơm thanh ca đƠn



Trang 8

ông trng thƠnh thng t 50Hz đn 250Hz, giá trị trung bình khong 120Hz.Đối
với ph n trng thƠnh, giới hn trên cao hn nhiu, có thể lên đn 500Hz.
 Âm vô thanh: đc to ra khi dơy thanh ơm không rung. Có hai loi ơm vô
thanh c bn: ơm xát vƠ ơm hi. Đối với ơm xát nh khi ta nói ch „s‟, một số điểm
trên bộ phn phát ơm co li khi luồng không khí ngang qua nó , hỗn lon xy ra to
nên nhiu ngu nhiên. Đối với ơm bt hi, nh khi ta nói ch „h‟ , hỗn lon xy ra 
gần thanh môn khi dơy thannh ơm bị gi nhẹ một phần. NgoƠi hai loi ơm c bn
nói trên, còn có một loi ơm trung gian va mang tính cht nguyên ơm, va mang
tính cht ph ơm, đc gọi lƠ bán nguyên ơm hay bán ph ơm. Ví d nh „i‟, „u‟
trong t „ai‟ vƠ „ơu‟.
 Phụ âm nổ: ví d nh ơm „p‟, „t‟,‟k‟ hay „đ‟, „b‟, „g‟ trong ting Vit đc
to ra do loi kích thích khác.
2.1.5 Mô hình lọc ngun cho quá trình to ting nói.
Quá trình to ting nói lƠ bộ lọc nguồn, trong đó tín hiu t nguồn ơm thanh (cũng
có thể lƠ có chu kì hay nhiu ) đc lọc bằng bộ lọc bin thiên theo thi gian có tính
cht cộng hng tng t với bộ phn phát ơm. Nh vy có thể thu đc phổ tần số
ca tín hiu ting nói bằng cách nhơn phổ ca nguồn âm thanh với đặc tính tần số
ca bộ lọc. Hình 2.1 minh họa ting nói hu thanh vƠ vô thanh. Các độ li A
v

A
N
xác định cng độ ca nguồn to ơm hu thanh vƠ vô thanh.



Trang 9



Hình 2.1: Mô hình lọc nguồn cho quá trình to ting nói

2.1.6 H thống nghe ca tai ngưi.
Quá trình nghe ca tai ngi nh sau: sóng áp sut ơm thanh tác động đn tai
ngi, sóng nƠy đc chuyển thành chuỗi xung đin, chuỗi này đc truyn tới não
bộ thông qua h thần kinh,  não chuỗi đc x lý và gii mã.
Khi nghe một sóng âm thuần túy tc ơm đn (sóng sin), nhng điểm khác
nhau trên mƠng đáy sẽ rung động theo tần số ca ơm đn đi vƠo tai. Điểm lch lớn
nht trên mƠng đáy ph thuộc vào tần số ca ơm đn. Tần số cao to ra điểm lch
lớn nht  phía đáy vƠ tần số thp to ra điểm lch lớn nht  phía đỉnh. Nh vy
màng đáy lƠm nhim v phân tích tần số tín hiu vào phc tp thành nhng tần số
khác nhau  nhng điểm khác nhau dọc theo chiu dài ca nó. Nh vy có thể xem
mọi điểm là bộ lọc thông di và có tần số trung tơm vƠ băng thông xác định.
Ngng nghe ca một âm đn tăng lên khi có s hin din ca nhng âm
đn lân cn khác (âm mặt n) và chỉ có băng tần hẹp xung quanh ơm đn mới tham
gia vào hiu ng mặt n, băng tần nƠy thng gọi là âm tần tới hn. Giá trị ca băng
tần tới hn ph thuộc vào tần số ca ơm đn cần th. Tóm li quá trình nghe ca h


Trang 10

thính giác là một dãy các bộ lọc băng thông, có đáp ng ph lắp lên nhau vƠ „băng
thông hiu qu‟ ca chúng xp xỉ với các giá trị ca băng tần tới hn.

2.1.7 Quá trình to ra ting nói vƠ thu nhn ting nói ca con ngưi.

Hình 2.2: S đồ biểu din quá trình thu, nhn ting nói ca con ngi.
Quá trình to ra ting nói bắt đầu khi ngi nói muốn chuyển ti thông đip
ca mình cho ngi nghe thông qua ting nói. Tổ chc thần kinh sẽ chịu trách

nhim chuyển đổi thông đip sang dng mã ngôn ng. Khi một mã ngôn ng đc
chọn la, các lnh thần kinh vn động điu khiển đồng bộ các khâu vn động nhằm
phát ra chuỗi âm thanh. Vy đầu ra cuối cùng ca quá trình là một tín hiu âm học.


Trang 11

Đối với quá trình thu nhn ting nói, ngi nghe x lý tín hiu âm thanh
thông qua màng tai trong, nó có kh năng cung cp một phân tích phổ cho tín hiu
tới. Quá trình thần kinh sẽ chuyển đổi tín hiu phổ thành các tín hiu hot động với
thần kinh thính giác, có thể coi đơy lƠ quá trình ly ra các đặc trng. Cuối cùng các
tín hiu đc chuyển thành mã ngôn ng và hiểu đc thông đip.
2.1.8 Các ơm thanh ting nói vƠ các đặc trưng.
2.1.8.1 Nguyên âm.
Các nguyên âm có tầm rt quan trọng trong nhn dng ting nói, hầu ht các
h thống nhn dng da trên c s nhn dng nguyên ơm đu có tính năng tốt. Các
nguyên âm nói chung là có thi gian tồn ti dài (so với các ph âm) và d xác định
phổ. Chính vì th d dàng cho vic nhn dng ting nói, c đối với con ngi và
máy móc.
V mặt lý thuyt, các cc đi ca biểu din phổ ca tín hiu nguyên âm
chính là các tần số cộng hng (formants) to nên nguyên âm. Giá trị ca các
formant đầu tiên (2 hoặc 3 formant đầu tiên) là yu tố quyt định cho phép chúng ta
nhn dng đc nguyên âm. Do nhiu yu tố bin thiên nh s khác nhau v giới
tính, v độ tuổi, tình trng tinh thần ca ngi nói và nhiu yu tố ngoi cnh khác,
đối với một nguyên âm xác định các giá trị formant cũng có s bin thiên nht định.
Tuy nhiên s khác bit v các giá trị các formant gia các nguyên âm khác nhau lớn
hn nhiu, và trong không gian formant chúng ta có thể xác định một cách tng
đối các vùng riêng bit cho tng nguyên âm.
2.1.8.2 Các ơm vị khác.
Nguyên ơm đôi thì có s bin thiên một cách liên tc các formant ca biểu

din phổ theo thi gian. Đối với âm vị loi này,cần phi đặc bit chú ý đn vic
phơn đon theo thi gian khi nhn dng.
Các bán nguyên ơm nh /l/, /r/ vƠ /y/ lƠ tng đối khó trong vic biểu din
đặc trng. Các ơm thanh nƠy không đc coi lƠ nguyên ơm nhng gọi là bán nguyên
âm do bn cht ta nguyên âm ca chúng. Các đặc trng ơm học ca các âm thanh
này chịu nh hng rt mnh ca ng cnh mƠ trong đó chúng xut hin.


Trang 12

Đối với các ơm mũi thì ming đóng vai trò nh một khong cộng hng có
tác dng by năng lng âm ti một vài tần số t nhiên. Các tần số cộng hng này
ca khoang ming xut hin nh các phn cộng hng, hay các điểm không ca
hàm truyn đt. Ngoài ra, các ph ơm mũi còn đc đặc trng bi nhng s cộng
hng mnh hn v phổ so với các nguyên âm.
Các ph âm xát vô thanh nh /s/, /sh/. H thống to ra các ph âm xát vô
thanh bao gồm một nguồn nhiu ti một điểm thắt mà chia ống dn âm thành hai
khoang. Âm thanh đc bc x ti khoang trớc. Khoang sau có tác dng by năng
lng nh trong trng hp ph ơm mũi, vƠ nh vy lƠ đa các phn cộng hng
vào âm thanh đầu ra. Bn cht không tuần hoàn lƠ đặc trng c bn nht ca nguồn
kích thích xát vô thanh.
Điểm khác bit ca các âm xát hu thanh nh /v/, /th/ so với các ph âm xát
vô thanh là  chỗ có hai nguồn kích thích liên quan tới vic to ra chúng. Nh vy
đặc trng ca ph âm xát hu thanh là bao gồm c hai thành phần kích thích tuần
hoàn và nhiu.
Các âm dng là các ph âm /b/, /d/, /g/, /p/, /t/ và /k/ chúng có thi gian tồn ti
rt ngắn. Các âm dng có tính cht động vì th các thuộc tính ca chúng chịu nh
hng rt nhiu bi nguyên ơm đi sau nó.
2.2 Lý thuyt nhn dng ting nói.
2.2.1 Tng quan v nhn dng ting nói.

Nhn dng ting nói là một h thống to kh năng để máy nhn bit ng nghĩa ca
li nói. V bn cht, đơy lƠ quá trình bin đổi tín hiu âm thanh thu đc ca ngi
nói qua Micro, đng dơy đin thoi hoặc các thit bị khác thành một chuỗi các t.
Kt qu ca quá trình nhn dng có thể đc ng dng trong điu khiển thit bị,
nhp d liu, son tho văn bn bằng li, quay số đin thoi t động hoặc đa tới
một quá trình x lý ngôn ng  mc cao hn.


Trang 13


Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói.
Các h thống nhn dng ting nói có thể đc phân loi nh sau:
 Nhn dng t phát ơm ri rc/liên tc.
 Nhn dng ting nói ph thuộc ngi nói/không ph thuộc ngi nói.
 H thống nhn dng t điển cớ nhỏ (dới 20 t)/t điển c lớn (hƠng nghìn
t).
 Nhn dng ting nói trong môi trng có nhiu thp/cao.
 Nhn dng ngi nói.
Trong h nhn dng ting nói với cách phát âm ri rc có khong lặng gia các t
trong câu. Trong h nhn dng ting nói liên tc không đòi hỏi điu này. Tùy thuộc
vào quy mô vƠ phng pháp nhn dng, ta có các mô hình nhn dng ting nói
khác nhau. Hình 2.3 là mô hình tổng quát ca một h nhn dng ting nói điển hình.
Tín hiu ting nói sau khi thu nhn đc lng t hóa sẽ bin đổi thành một tp các
vector tham số đặc trng với các phơn đon có độ dài trong khong 10-30 ms. Các
đặc trng nƠy đc dùng cho đối sánh hoặc tìm kim các t gần nht với một số
ràng buộc v âm học, t vng và ng pháp. C s d liu ting nói đc s dng

×