Tải bản đầy đủ (.pdf) (102 trang)

Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.97 MB, 102 trang )

v

MC LC
Trang ta TRANG
Quy tài
Lý lch cá nhân i
L ii
Cm t iii
Tóm tt iv
Mc lc v
Danh sách các ch vit tt vi
Danh sách các hình vii
Danh sách các bng viii
. TNG QUAN 1
1.1 



 1
1.2  







 2
1.3 Tính cp thit c tài 5
1.4 Mc tiêu nghiên cu ca lu 5
1.5 







 6
1.6 ng và phm vi 6
1.7 Cu trúc lu 7
.  LÝ THUYT 8
2.1  8
2.2 









 12
2.2.1 



 12
2.2.2 








 13
2.2.3 





 14
2.2.4  15
2.3 







 16
2.3.1 Frame Blocking 16
-scale Frequency Cepstral Coefficient) 20
2.3.2.1 Windowing 22
2.3.2.2 Phân tích ph FFT 23
2.3.2.3 Mel frequency filter Bank 25
2.3.2.4 Phân tích cepstral 28
2.4 




 34








 








MATLAB 39
v

3.1 Tách t 39
3.2 ng 41
3.3 Pre_emphasis 41
3.4 Windowing 41
3.5 Tính FFT 41
 42
3.7 Mel-filter bank 42

3.8 Tinh log 42
3.9 Tính h s cepstral 42
3.10 Kt qu 43
. 















T
DSKTMS320C6713 48
4.1 B x lý tín hiu s TMS320C6713 48
4.2 Code Composer Studio 50
4.3 Tng quan v kit DSKTMS320C6713 53
4.4 Xây dng h thng nhn dng âm thanh trên nn Kit DSP
DSKTMS320C6713 56
4.4.1 Hun luyn 57
4.4.1.1 Record 59
4.4.1.2 Framing Windowing 60
4.4.1.3 FFT 61

4.4.1.4 Power spectrum 62
4.4.1.5 Mel frequency spectrum 63
4.4.1.6 Log energy 65
4.4.1.7 Bii Cosine ri rc DCT 66
ng t vector VQ 68
4.4.2 Nhn dng 73
T LUN 82
TÀI LIU THAM KHO 84
PH LC 86

vi












MFLOPS floating-point operations per second
MIPS instructions per second
MMACS million multiply-accumulate operations per second
VLIW very-long-instruction-word
L1P Level 1 program
L1D Level 1 data
TI Texas Instruments

CCS Code composer studio
COFF common object file format
CCSv5 Code composer studio version 5
CSL Chip support library
BSL Board support library
DSK DSP starter kit
ADC analog digital converter
DAC digital ananog converter
MFCC Mel-frequency cepstral coefficients
FFT Fast Fourier transform
ASR Automatic speech recognition


vii

DANH SÁCH CÁC HÌNH

BNG TRANG
Hình 2.1: Cu t 8
Hình 2.2: Cu ti 9
Hình 2.3: Dng sóng theo thi gian 11
Hình 2.4: Dng sóng  min tn s 12
Hình 2.5:  khi quá trình hun luyn và nhn dng âm thanh 16
Hình 2.6: Tín hic chia thành các sub-frame 18
Hình 2.7: Tín hic và sau khi qua khi pre-emphasis 20
Hình 2.8: Ph ca tín hic và sau khi qua khi pre-emphasis 20
Hình 2.9:   21
Hình 2.10: Ca s Hamming 22
Hình 2.11: c khi nhân ca s hamming 23
Hình 2.12: Tín hiu sau nhân ca s hamming 23

Hình 2.13: Thang tn s Mel 25
Hình 2.14: B lc Mel frequency 26
Hình 2.15: Quá trình to ra các h s sau khi qua dãy b lc 27
Hình 2.16: Các h s  31
vii

Hình 2.17: Minh ha gii thung t vector 32
Hình 2.18: Thut toán to chùm 34
Hình 2.19: Minh ha thut toán to chùm 35
Hình 2.20: Quá trình nhn dng âm thanh 36
Hình 3.1: c khi tách t 37
Hình 3.2: Sau khi tách t 38
Hình 3.3: Dng sóng các ký hiu âm thanh t 1 ti 10 40
Hình 3.4: Không gian vector n
luyn ca t  43
Hình 3.5: Không gian vector n dng
ca t  44
Hình 3.6: Giao din chính c 44
Hình 3.7: Giao din luyn 45
Hình 3.8: Tín hiu ghi âm 45
Hình 3.9: Tín hiu sau khi tách 45
Hình 3.10: H s MFCC 46
Hình 3.11: Giao din dng 46
Hình 4.1: Cu trúc b x lý DSP TMS320C6713 49
Hình 4.2: Memory map ca TMS320C6713 50
Hình 4.3: BSL và CSL cn cho CCS 53
vii

Hình 4.4: Tng quan phn cng board DSK 54
Hình 4.5: Giao tip ngõ vào và ngõ ra ca các thit b âm thanh và b Codec 55

Hình 4.6: Loi b nh và pha ch trên kit DSK 56
Hình 4.7:  khi tng quát quá trình hun luyn và nhn dng âm thanh 57
Hình 4.8:  khi quá trình hun luyn âm thanh 57
Hình 4.9:  khi hàm Framming Windowing 60
Hình 4.10: D liu sau khi tính toán ph công sut 62
Hình 4.11: D lic tính toán qua cac b lc tam giác thang tn sô Mel
64
Hình 4.12: Mt ví d v Acoustic vector ca 1 frame m 65
Hình 4.13: Acoustic vector ca 20 frame liên tip 66
Hình 4.14: D liu sau khi tính toán bii Cosine ri rc 67
Hình 4.15:  khi gii thut ca thut toán LBG s d 70
Hình 4.16: D liu codebook ca t cn hun luyn sau khi tính toán 71
Hình 4.17: D liu khong cách Euclidean ca t cn nhn dng 73
Hình 4.18: Kt qu nhn dng hin th trên màn hình 73




DANH SÁCH CÁC BNG

BNG TRANG
Bng 1: Kt qu nhn dng b 45
Bng 2: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 160 mu trên
mt frame, chng ln 80 mu, t l nhn dng trung bình là 87.1% 74
Bng 3: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 200 mu trên
mt frame, chng ln 100 mu, t l nhn dng trung bình là 89.8% 75
Bng 4: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên
mt frame, chng ln 156 mu, t l nhn dng trung bình là 86.9%. 76
Bng 5: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 160 mu trên
mt frame, chng ln 80 mu, t l nhn dng trung bình là 78.8%. 77

Bng 6: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 200 mu trên
mt frame, chng ln 100 mu, t l nhn dng trung bình là 81.3%. 78
Bng 7: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 256 mu trên
mt frame, chng ln 156 mu, t l nhn dng trung bình là 80.9%. 79
Bng 8:Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên
mt frame, chng ln 156 mu, s ng t vng là 6 t có t l nhn dng trung bình
là 96%. 80

1

NG QUAN
1.1 Gii thiu:
Tin giao tin nht ci, nó hình
thành song song vi quá trình tin hóa ci vi, s dng
ting nói là cách din và hiu qu nhm ca giao tip bng
tic tiên là  t giao tip, ting nói t i nghe
hic phát ra. Bên cng nói là cách giao tic s
dng rng rãi nht. V nhn dng ting nói là mt v ln, nhiu nghiên cu
c hin trong vài thp niên g thng vi b t vng nh, nhp
t ri rc có th áp trong nhng ng d ci thin hiu qu
nhng sn xut, hoc trong nhng ng dng t
xa vi thit bu nh thng nhn dng tic thit k
 nhn dng phát âm ri rng nhiu thp. Các h thng dùng b
t vng nh (10-100 tng hp ngui hun
luyn. T n nay, cùng vi s phát trin ca khoa hc, k thut nhn dng ting
ng s tin b t bc thc hin bng nh
pháp gii thut mi hii và hiu qu ngày càng cao.
Nhn dng ting nói là mt quá trình nhn dng mu, vi m
lu vào là tín hiu ting nói thành mt dãy tun t các mu
c h trong b nh. Các m nhn dng,

chúng có th là các t, hoc các âm v. Nu các mu này là bt bin và không thay
i thì công vic nhn dng ting nói tr in bng cách so sánh d liu
ting nói cn nhn dng vi các mc h trong b nh
n ca nhn dng ting nói luôn bin thiên theo thi gian và có
s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cnh
ng âm hnh nhng thông tin bin thiên nào ca ting
nói là có ích và nhi vi nhn dng ting nói là
rt quan trt nhim v r vi các k thut xác

2

sut thng kê mc tng quát hoá t các mu ting nói
nhng bin thiên quan trng cn thit trong nhn dng ting nói.
Các nghiên cu v nhn dng ting nói da trên ba nguyên tn:
 Tín hiu tic biu din chính xác bi các giá tr ph trong mt
khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th
m ting nói t nhng khong thi gian ngn và dùng các
m này làm d li nhn dng ting nói.
 Ni dung ca tic biu dii dng ch vit, là mt dãy các ký
hiu ng a mc bo toàn khi chúng ta
phiên âm phát âm thành dãy các ký hiu ng âm.
 Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng 
(seman     trong quá trình nhn dng
ting nói, nht là khi thông tin v âm hc là không rõ ràng.
1.2 Tình hình nghiên cc
Tình hình nghiên c  c: Hin nay trên th gii có rt nhiu
nghiên cu v h thng nhn dng gic nhng thành t
Via Voice Mellennium (IBM), Via Voice Standard ( IBM), SLU (Center of
Spoken Language Understanding), HTK ng h thc xây
d nhn dng ting Anh, ngoài ra còn có mt sô h thng nhn dng ting nói

ca các ngôn ng . Mt s d án nghiên cu tiêu
bi
- CMU SPHINX: còn gi là SPHINX là mt h nhn dng tic phát
trin ti hc Carnegie Mellon, bao gm mt Engine nhn dng tên là SPHINX
và m   n luyn âm v là SphinxTrain. Ngoài ra còn mt s
n luyn mô hình âm v (acoustic
mod ch mô hình ngôn ng (language model) và t n
n thi s dng Sphinx. Có th tham
kho ta ch cmusphinx.sourceforge.net.

3

- Microsoft Speech Recognition: sau khi tuyn d  i  u
nhóm nghiên cu Sphinx  X.Huang t i hc Carnegie Mellon, Microsoft bu
nghiên cu nhn dng ting nói và chuyn sang ting nói. Công ty này sau
   ng Speech API (SAPI), mt giao din lp trình dành cho nhng ai
mun phát trin ng dn ging Windows. Có
th tham kho thêm ta ch Microsoft.com/speech/speech2007/default.mspx.
- Julius: là d án mã ngun m nghiên cu phát trin nhn dng ting Nht
da trên mô hình Markov n ph thuc vào ng c 
nghiên cu m rng cho nhiu ngôn ng khác nhau. Có th tham kho thêm ta
ch Julius.sourceforge.jp/en_index.php.
- Dragon: là sn phi ca công ty NUACE. Có nhiu phiên bn
c y khoa, Dragon phc v hc t
 u. Có th tham kho
thêm ta ch nuance.com/dragon/index.htm.
Tình hình nghiên cc: Vit Nam hin nay có 2 trung tâm ln
nghiên ch vc x lý ting nói và ting Vit là Vin Công Ngh thông tin và
trung tâm nghiên cu quc t n truyn thông và ng dng
MICA  i hc Bách Khoa Hà Ni (mica.com.vn).

Mt s sn phm và  tài nghiên cu nhn dng ting nói trc:
-    a mt nhóm nhng sinh viên khoa Công ngh
i hc Bách khoa TP H t gii
ng Trí tu Ving da trên b
nhn dng ting nói ca Microsoft tích hp sn trên Windows. Da trên s 
i ging nhau khi phiên âm latin ca mt s t ting Anh và ting Vit, nhóm
 dn dng ting nói ca Microsoft cung cp, thc
hin thao tác nhn d t ting Anh nhc sang t ting Vit có
phiên âm latinh gn ging nhm c
cu xây d c mt h nhn dng âm thanh hoàn chnh mà ch da trên s
ng trong cách phiên âm nên kt qu nhn dng không c ci thin

4

ng n Vspeech SDK, có th tham kho thêm ti
a ch bk02.sourceforge.net/vspeechsdk.
-  tài tt nghip ca sinh viên Nguyn Qut k b nhn dng
ting nói da trên nn tng DSP TMS320C2812. Thc hin nhn dng vi s ng
t vng nh (4 t) bng t vector VQ
cho t l trên 70%
-  tài tt nghip ca h     u khin thit b bng
ting nói. Thc hin trên Matlab, s dng mô hình Markov n. Thc hin nhn dng
vi s ng t vng 15 tt t l trên 90%.
-  tài tt nghip ca hc viên Võ Quc Vit: Thit k h thng nhn dng
ting nói ting Vit vi VERILOG và MATLAB. t k c mt s khi
ch          c m   n
dng hoàn chnh trên Kit.
-  tài nghiên cu ng dng mng neuron và mô hình Markov n trong nhn
dng ting Vit ca nghiên cng Ng ng h thng
nhn dng ch s ting Vit liên tc v d lin thoi dùng

mng lai ghép HMM/ANN. Kt qu c là h thng nhn dng v chính
xác là 97.46%  mc t và 90.41%  mc câu.
-  tài: Nhn dng ting Vit dùng mng neuron kt h
LPC và AMDF cn. Kt qu nhn dng 10 s t n 9
t t l 96.2% khi kt hp LPC và AMDF.
Ngoài ra còn có các lu  nhân, thn án ti
n v x lý ting nói  i hc. Trong s 
mt s  ng dng k thut nhn dng ting nói vào mt s v thc t
 u khin các thit b t t b
dân d




5

1.3 Tính cp thit c tài:
Hu ht nhng ng dng ca k thut nhn dng ting nói ch mi dng li 
vit qu, t l chính xác ca quá trình nhn dng mà 
giá c th v  chính xác ca các k thut nhn dng da trên vii các
thông s trên mô hình nhn dng. c vai trò ca các thông s s 
u chnh h i kt qu nhn dng t
a vic xây dng mô hình nhn dc thc hin trên phn
mm máy tính, kt hp vi các công c n mã ngun m Toolkit.
Vic xây d n cng còn nhiu hn ch, phn ln là phát
trii nn tng FPGA. Mt s ng dng
nhn du khin PIC ca microchip, ATMEGA c
vi t tính toán chm ca cu khin và thi gian trin khai lâu,
nhiu chi phí ca các dòng FPGA thì vic xây dng m   
thut toán nhn dng âm thanh còn gp nhi Nn tng chip DSP vi tc

 x lý cao, tích hp nhiu module x lý s sn có, thi gian trin khai nhanh s
i nhiu li th trong vic xây d   t toán nhn
da vi các li ích  t ng
dng nhn dng âm thanh c th i dng module mch ri s c nhiu li
th v thi gian tri chính xác, chi phí thit k.
1.4 Mc tiêu nghiên cu ca lu:
Luc xây dng vi hai mc tiêu chính:
- a hai thông sc Codebook và s ng mu
trên Frame âm thanh (sau khi thc hin Framming chia mt t thành các frame nh)
i v  chính xác ca mô hình nhn dng âm thanh dùng gii thu c
ng t vector VQ.
- Xây dt toán nhn dng âm thanh trên nn tng h
DSP C6000 ca Texas Instruments .Co.



6

1.5 Nhim v lu
Ni dung 1: Nghiên c   c hin các gii thut tách t,
ng nói, thc hin hun luyn và nhn dng ting nói dùng thut
ng nói MFCC và thut toán 



. C th có 4
c chính:
-  t tín hi nh
các h s MFCC.
- Hun luyn mu: nhiu vector h s MFCC s c  to ra mt tp

tiêu biu vi nha t 
- So sánh mu: Các vector h s ca t c so sánh vi
 tính toán s ng gia chúng.
- Quym s ca s ging nhau  quynh các
vector h s phù hp nht vi Codebook nào.
Quá trình tính toán khoc thc hin da trên t cn nhn
dng và tp hun luy chn ra t nào phù hp nht.
Ni dung 2: Xây d     t toán nhn dng trên
 có mt cái nhìn tng quan v công vic s thc hin trên phn cng.
Ni dung 3: Tìm hiu v Kit DSK TMS320C6713 và thit k mô hình nhn
dng ting nói da trên kit này,  ng
t vector VQ. C th    c thit k vi ngôn ng C  t trong
nhng ngôn ng ph bin nht.
Ni dung 4: Trên nn tng trên chip DSP  ni dung 3
tic Codebook và s ng mu trên frame âm
i v chính xác ca quá trình nhn dng.
ng và phm vi:
ng nghiên cu:
- Lu nghiên cn dng âm thanh da trên thut toán
ng t vector VQ.

7

- Lu   u xây d   n dng trên Kit DSK
TMS320C6713.
Phm vi nghiên cu:
- Vi c thc hin trên hai thông s c Codebook và
s ng mu trên Frame âm thanh.
- ng trên Kit DSP vi s ng t vng 16 t d
liu cho mi t  hun luyn và nhn dc ghi âm 100 ln.

- ng ghi âm ít nhiu và ting nói dùng cho hun luyn và nhn dng
ca cùng mi.
1.7 Cu trúc luLu
- i thiu tng quan, trình bày mc tiêu, nhim v ca lu
-  lý thuyt cho lu
- c hin h thng nhn dng ting nói trên Matlab.
- c hin h thng nhn dng ting nói trên Kit DSK
TMS320C6713.
- t lun.

8

 LÝ THUYT
2.1 Tín hiu ting nói:
Nhng v n ca ting nói:
 phát âm:
H thng phát âm  i bao gm: phi, khí qun (trachea), thanh qun,
khoang ming (oral cavity) và khoa n cha hai
np gp gi là dây thanh âm (acoustic tube) dài khong 17cm  nam, phc kt
thúc  môi và phn sau kt thúc  dây thanh âm hay thanh qun. khoang ming
t hp cng, th tích ca nó có th u khin bi b phn
i, quai hàm và vòm ming). Khoang ming là mt ng dài khong
12cm  nam và kt thúc  ng. Vòm ming mm s u khi
ng ming hoi vi nhng âm không theo ging
ng s ch phát ra ng mii vi
nhng âm có ging s dch chuyn xung
mi  s ng.
Khi nói phi ch y không khí s y qua khí qun và thanh môn.
Lung không khí s ng và to ra s phát âm. Âm
thanh này truyng và các khoang này có

tác d lc làm suy hao mt vài tn s khi các tn s 

9


Hình 2.1 Cu t
Tuyt hc cng có tác dnng mt tn
s ng tn s c gi là các formant. Nu xem
khoang ming là tuyc cng. Mt b phn
phát âm có mt s hu h  c   suy
gim khong -12dB/octave nên ch cn quan u tiên trên
tn t ng hp ting nói vô thanh, ph i bng
phng, s y v mc dù tin
m rng lên n 7-8KHz. Ngoài ra, do ng ca ming  c
 lên chng 6dB/octave n 0-3KHz. Chính vì vn phn tin
x lý tín hiu ta phi dùng b lc tin nh bù thêm +6dB/octave.



10

 nghe:
- Khi ta nghe mt sóng âm thun túy, nhm khác nhau trên c tai s
ng theo tn s cm lch ln nht trên c tai ph
thuc tn s n s cao tm lch ln  n s thp to
m lch ln  y c tai n s tín hiu
vào phc tp bng cách tách các tn s khác nhau  nhm khác nhau dc theo
chiu dài ca nó. My có th xem là mt b lc thông di có tn s
nh. Nhng ni xng quanh tn s
trung tâm, vùng tn s cao có t suy gim du so vi tn s thp. V

trí c lch ci dc theo màng nhày bin thiên phi tuyn theo tn s (theo
hàm logarit).
- Có th xem quá trình nghe ca h thính giác là mt dãy các b l
thông, có ng ph lu qu ca chúng xp x 
thông ti hn.

Hình 2.2 Cu ti



11

c. S biu din ting nói:
- Min thi gian:
Tín hiu ting nói là tín hii chm theo thi gian. Khi quan sát tín
hiu ting nói trên mt khong th ng  c
 c  i. Tuy nhiên trên khong thi gian dài (0.5 giây
hoc nhia tín hii phn ánh nhng âm thanh
c nói.

Hình 2.3 Dng sóng theo thi gian
Mt cách th phân loi tii 3 trng
thái: trng thái th nht là yên lng thi gian mà không có
ting nói; trng thái th ng thi gian mà
dng sóng ting nói là không tun hoàn hay nó mang tính ngu nhiên; trng thái th
ba là âm hu thanh (voiced), trong khong thi gian này dng sóng ca ting nói
mang tính tun hoàn. Cách thc phân loi này không chính xác lm do ng
ti nhng v trí ranh gii gia các trng li nh ng không
gây hu qu gì ln cho hu ht các ng dng.
 ng tp trung  tn s cao, các tn s phân b khá

u t tn s thn tn s cao. Các nguyên âm là âm hu thanh (voiced),
nó liên ti dài trong mt khong thi gian.
- Min tn s biu din tín hiu ting nói trong min
tn s, trc tung biu din tn s, trc hoành biu di.

12


Hình 2.4 Dng sóng  min tn s
2.2 Phân lon dng âm thanh
2.2.1  âm (Acoustic-Phonetic):
Các nghiên cu da vào vic tìm âm ting nói và gán nhãn (label)
 ca âm hc ng âm vi gi thuyt tn ti mt s hu
h ng âm khác nhau có th phân bic trong ngôn ng nói vi các
c mô t bc tính âm hc hin din rõ ràng trong tín hiu
ting nói. Mc tính âm hc ca các  ng âm có th i theo
i nói hoc theo các âm lân cng nghiên cu âm hc ng âm gi s rng
các qui lut chi phi s i là không phc tp (straightforward) và có th cho
máy hc d dàng.
ng âm hc ng âm n và gán nhán, trong
u tic phân ra thành các vùng âm hc nh, mc
gán bi mt hoc nhiu ký hiu ng âm to thành mt chui âm v mô t ting nói.
c th hai là c gnh mt t c mt chui các t ) t chui
ký hiu âm v c tu tiên. Trong quá trình này, các gii hn
ngôn ng hc, ( ví d t vng , ng cnh và các qui lut ng c áp dng
 truy xut b t vng vào tên chui âm vc s dng rng
rãi trong các ng di.

13


 c tp. Chuy i tín hiu âm thanh thành mt
chui các ký hiu ng âm. T chui ký hiu ng  dng nhng kin thc v
ng pháp, t vng, ng cn thành mt t hoc mt chui t 
 chuyn ting nói thành ch ving phát trin trong
p nhi thuc vào cu
trúc nhng ngôn ng ng
 ng i kin thc tng hp v ng pháp, t vng, ng c
pháp này nu thc hin thành công ch cn b nh hu h  c tính ca
các thành phn ng âm, d nhn dng mt s ng t vng rt ln.
Khác váp nhn dng mu mun nhn dng mt t i hun
luy các mc tính ca t  nhn ch rt nhiu
nu s t vng là rt ln.
V 
u kin thc rng v c tính âm c ng âm
2. La chn nhc tính thì phn ln da trên nhng xem xét cho mt
mc bit. Hu ht nhng h thng la chn nhc tính da trên trc

3. Thit k nhng b phân l
4. S không rõ ràng trong tn ti nhng th tc t   u chnh
c t.
Bi vì nh-i mng
thú v nhng cn nhiu nghiên cc kh   dng thành công trong
nhng v nhn dng âm thanh thc t.
2.2.2 n dng mu Pattern-Recognition
c :
- c tính thc hin trên tín hi 
i vi tín hiu thoc ng là ngõ ra ca
nhng k thut phân tích ph      
linear predictive coding, hoc phân tích bi i Fourier ri rc
(DFT).

- Hun luyn mu, mt hoc nhing vi âm thanh
thoi ca cùng mt lc s d to mi din cho nhng
c tính ca l  i din nh c thông qua mt s k

14

thut ly trung bình, hoc là mô hình vm thng kê nhng
c tính ca mu tham kho.
- Phân loi mu, nhng mu cn nhn bic so sánh và tính toán
m ging nhau vi nhng mc hun luy so sánh
nhng mu âm thanh (bao gm mt chui nhng vecto ph), c
ng m ging nhau ca nhng vecto ph và th tc alignment
global time (thut toán dynamic time warping)  khc phc s sai
lch v thi gian ca hai mu
- Decision logic, m  vi mu tham khc s d
nh cui cùng.
m ca mô hình nhn d
- Hia h thng nhy vi s ng d liu hun luyn trong
vic to mu tham kho; nhìn chung mu hun luyn càng nhiu thì
càng chính xác.
- Mu ph thuc tính truyn cng
c s d tc tính ph ca âm thanh chu
ng bi quá trình truyn ti và nhiu nn.
- Không cn kin thc c th v ng âm, không ph thuc vào s la
chn t vng, cú pháp, ng 
- Kh ng tính toán t l tuyn tính vi s m c hun luyn
hoc nhn di s ng mu âm thanh tr nên
phc tp.
- Bi vì h thng không ph thuc nhiu vào các lp âm thanh, nhng
k thun có th ng dng ti mt phm vi rng ca âm thanh

thoi, bao gm mt m, mt t hoàn chnh và mt subword. Do
ng k thut ng dng cho mt lp âm thanh có th ng dng
trc tip cho nhng lp âm thanh khác mà không cn phi chnh sa
gì.
- D  ràng buc cú pháp vào cu trúc nhn dng âm thanh, do
i thi chính xác ca quá trình và gim tính toán.
thông minh nhân to)
n ct hp nhiu ngun kin th
d gii quyt vu này giúp gim khng tính toán,
u sut ca quá trình nhn d tích hp nhng
ngun kin thc trong h thng nhn dng âm thanh. Có l n
nht là b x -m quá trình  mc thp nhc

15

i mã ng c quá trình  mi mã t vng, mô
hình ngôn ng) sao cho ràng buc gia mn nh nht có th.
M là b x -
ng to ra nhng t gi thuyt phù hp vi tín hiu âm thanh, và câu v
ng c xây dng da trên m phù hp ca t.
M t
c nhng ngun kin thc lp
ng thông minh nhân to c gng máy móc hoá hong nhn dng theo
i áp dng trí khôn trong vic hình dng
 trên mt tp hp các tính cht âm hc. Trong s các k thuc
s dng này có vic s dng mt h th
hp âm v, t vng, cú pháp, ng  kin thc thc t cho vic phân
n, gán nhãn và s dng các công c ng trí tu nhân to cho vic hc các
quan h gia các s kin âm v. Trng này ch yu là s hiu bit kin
thc và tích hp các ngun kin thc s dng rng rãi

trong các h thi.
2.2.4 Mng noron và ng dng trong nhn dng âm thanh
Cn xây dng ngun kin th nhn dng
  m quan trng ca AI là tip thu kin thc t ng
(hc) và thích nghi. Nhng khái nic tri
mng noron.
Nhng thun li cng noron:
Mc xem xét nghiêm túc cho phm vi rng ca nhng v
bao gm nhn dng âm thanh bi vài lý do sau:
- Chúng có th sn sàng thc hin  m ln nhng tính toán song
song. Bi vì mt mng noron là mt cu trúc song song ca nhng
phn t ng nht.
- Khi nhc nhúng trong mc tru
ti mi phn t tính toán trong mng, kin trúc này ít b ng
ca nhiu.
- Nhng trng s kt ni ca mng không c c ràng buc c
nh;chúng có th thích nghi trong thi gian th  ci thin hiu

16

sut. Kh  c thích nghi này là bn cht ca cu trúc mng
noron.
- Bi vì tính không tuyn tính trong mi phn t tính toán, mt mng
 ln có th xp x bt k h thng tuyn tính hoc phi
tuyng noron cung cp mn tin
 bii phi tuyn gia ngõ vào và ngõ ra bt k vi nhiu hiu
qu.
Da vào nhng phân tích  trên, ta chn dng mu vì tính
n không ph thuc nhiu vào b t vng, không cn kin thc rng v ng
âm, ng n dng mu bao g

hun luyn nhn dng mu.
2.3 Thu
 nhn bit v trí ca thut toán MFCC trong nhn dng âm thanh ta xét nó
trong s khi tng th quá trình hun luyn và nhn dng âm thanh:
Frame
Blocking
Trích đặc
trưng MFCC
Huấn luyện
và nhận dạng
mẫu
Tín hiệu
âm thanh
liên tục
frame
Coeff-
MFCC

Hình 2.5  khi quá trình hun luyn và nhn dng âm thanh
2.3.1 Frame Blocking:
Trong Frame Blocking tín hiu sau khi s  c tách thành các
frame, tách t và thc hin tin nhn (Pre-emphasis)
_ Chia tín hiu thành các frame (10-30ms): Trong khong thi gian dài, tín hiu
ting nói là tín hiu không dng th ngn (10-30ms)
tiu du này là do t i ph ting
nói ch liên quan trc ti n t  di chuyn ca b phn c i,
hàm, vòm ming mm) và gii hn ca các ràng bu
i ta chia ting nói thành nhin có thi gian bng nhau hay
các frame, mi frame gm N m dài t 10-30ms.


17

- Bi vì tín hiu ting nói là tín hiu bii chm theo thi gian, trong mt
h thng nhn dng ting nói thì tin thành nhng khong thi
gian ngc g cho các thông s ci, thông
ng có 50% chng lp gia các frame k cn nhau. Trong các h thng nhn
dng ting nói bng phn mm, tic chia thành nhng frame có chiu dài
20ms vi 10ms chng lp. Ví d khi tic ly mu vi tn s 8KHz s có
160 mu trong mi frame và có 80 mc chng lp gia 2 frame k cn nhau.
- Riêng trong phn cng ng hi ta chia tín hiu ting nói thành
nhng sub-frame có chiu dài 10ms, vì vy 2 sub-frame k tip nhau to thành mt
ng. Vi tn s ly mu là 8KHz, chiu dài ca mi sub-frame bây
gi ch m (8000 x 0.01 = 80). Chúng ta có th thy rng c 3 sub-
frame to thành 2 frame, vì vy n sub-frame s bao gm n-1 frame.

18


Hình 2.6 Tín hic chia thành các sub-frame

_Tách t: dng thi gian ngn E (short time energy function).




1
2
)](*)([
Nm
mn

m
mnwnxE
(bu  mu m). Nu E> k*E
threshold
 t
u, k là h s nhân cho phát hiu, E
threshold
ng trung bình 10
u nng ca frame k tip
n khi E<g*E
thresold
t thúc mt t, vi g là h s nhân cho

×