v
MC LC
Trang ta TRANG
Quy tài
Lý lch cá nhân i
L ii
Cm t iii
Tóm tt iv
Mc lc v
Danh sách các ch vit tt vi
Danh sách các hình vii
Danh sách các bng viii
. TNG QUAN 1
1.1
1
1.2
2
1.3 Tính cp thit c tài 5
1.4 Mc tiêu nghiên cu ca lu 5
1.5
6
1.6 ng và phm vi 6
1.7 Cu trúc lu 7
. LÝ THUYT 8
2.1 8
2.2
12
2.2.1
12
2.2.2
13
2.2.3
14
2.2.4 15
2.3
16
2.3.1 Frame Blocking 16
-scale Frequency Cepstral Coefficient) 20
2.3.2.1 Windowing 22
2.3.2.2 Phân tích ph FFT 23
2.3.2.3 Mel frequency filter Bank 25
2.3.2.4 Phân tích cepstral 28
2.4
34
MATLAB 39
v
3.1 Tách t 39
3.2 ng 41
3.3 Pre_emphasis 41
3.4 Windowing 41
3.5 Tính FFT 41
42
3.7 Mel-filter bank 42
3.8 Tinh log 42
3.9 Tính h s cepstral 42
3.10 Kt qu 43
.
T
DSKTMS320C6713 48
4.1 B x lý tín hiu s TMS320C6713 48
4.2 Code Composer Studio 50
4.3 Tng quan v kit DSKTMS320C6713 53
4.4 Xây dng h thng nhn dng âm thanh trên nn Kit DSP
DSKTMS320C6713 56
4.4.1 Hun luyn 57
4.4.1.1 Record 59
4.4.1.2 Framing Windowing 60
4.4.1.3 FFT 61
4.4.1.4 Power spectrum 62
4.4.1.5 Mel frequency spectrum 63
4.4.1.6 Log energy 65
4.4.1.7 Bii Cosine ri rc DCT 66
ng t vector VQ 68
4.4.2 Nhn dng 73
T LUN 82
TÀI LIU THAM KHO 84
PH LC 86
vi
MFLOPS floating-point operations per second
MIPS instructions per second
MMACS million multiply-accumulate operations per second
VLIW very-long-instruction-word
L1P Level 1 program
L1D Level 1 data
TI Texas Instruments
CCS Code composer studio
COFF common object file format
CCSv5 Code composer studio version 5
CSL Chip support library
BSL Board support library
DSK DSP starter kit
ADC analog digital converter
DAC digital ananog converter
MFCC Mel-frequency cepstral coefficients
FFT Fast Fourier transform
ASR Automatic speech recognition
vii
DANH SÁCH CÁC HÌNH
BNG TRANG
Hình 2.1: Cu t 8
Hình 2.2: Cu ti 9
Hình 2.3: Dng sóng theo thi gian 11
Hình 2.4: Dng sóng min tn s 12
Hình 2.5: khi quá trình hun luyn và nhn dng âm thanh 16
Hình 2.6: Tín hic chia thành các sub-frame 18
Hình 2.7: Tín hic và sau khi qua khi pre-emphasis 20
Hình 2.8: Ph ca tín hic và sau khi qua khi pre-emphasis 20
Hình 2.9: 21
Hình 2.10: Ca s Hamming 22
Hình 2.11: c khi nhân ca s hamming 23
Hình 2.12: Tín hiu sau nhân ca s hamming 23
Hình 2.13: Thang tn s Mel 25
Hình 2.14: B lc Mel frequency 26
Hình 2.15: Quá trình to ra các h s sau khi qua dãy b lc 27
Hình 2.16: Các h s 31
vii
Hình 2.17: Minh ha gii thung t vector 32
Hình 2.18: Thut toán to chùm 34
Hình 2.19: Minh ha thut toán to chùm 35
Hình 2.20: Quá trình nhn dng âm thanh 36
Hình 3.1: c khi tách t 37
Hình 3.2: Sau khi tách t 38
Hình 3.3: Dng sóng các ký hiu âm thanh t 1 ti 10 40
Hình 3.4: Không gian vector n
luyn ca t 43
Hình 3.5: Không gian vector n dng
ca t 44
Hình 3.6: Giao din chính c 44
Hình 3.7: Giao din luyn 45
Hình 3.8: Tín hiu ghi âm 45
Hình 3.9: Tín hiu sau khi tách 45
Hình 3.10: H s MFCC 46
Hình 3.11: Giao din dng 46
Hình 4.1: Cu trúc b x lý DSP TMS320C6713 49
Hình 4.2: Memory map ca TMS320C6713 50
Hình 4.3: BSL và CSL cn cho CCS 53
vii
Hình 4.4: Tng quan phn cng board DSK 54
Hình 4.5: Giao tip ngõ vào và ngõ ra ca các thit b âm thanh và b Codec 55
Hình 4.6: Loi b nh và pha ch trên kit DSK 56
Hình 4.7: khi tng quát quá trình hun luyn và nhn dng âm thanh 57
Hình 4.8: khi quá trình hun luyn âm thanh 57
Hình 4.9: khi hàm Framming Windowing 60
Hình 4.10: D liu sau khi tính toán ph công sut 62
Hình 4.11: D lic tính toán qua cac b lc tam giác thang tn sô Mel
64
Hình 4.12: Mt ví d v Acoustic vector ca 1 frame m 65
Hình 4.13: Acoustic vector ca 20 frame liên tip 66
Hình 4.14: D liu sau khi tính toán bii Cosine ri rc 67
Hình 4.15: khi gii thut ca thut toán LBG s d 70
Hình 4.16: D liu codebook ca t cn hun luyn sau khi tính toán 71
Hình 4.17: D liu khong cách Euclidean ca t cn nhn dng 73
Hình 4.18: Kt qu nhn dng hin th trên màn hình 73
DANH SÁCH CÁC BNG
BNG TRANG
Bng 1: Kt qu nhn dng b 45
Bng 2: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 160 mu trên
mt frame, chng ln 80 mu, t l nhn dng trung bình là 87.1% 74
Bng 3: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 200 mu trên
mt frame, chng ln 100 mu, t l nhn dng trung bình là 89.8% 75
Bng 4: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên
mt frame, chng ln 156 mu, t l nhn dng trung bình là 86.9%. 76
Bng 5: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 160 mu trên
mt frame, chng ln 80 mu, t l nhn dng trung bình là 78.8%. 77
Bng 6: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 200 mu trên
mt frame, chng ln 100 mu, t l nhn dng trung bình là 81.3%. 78
Bng 7: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 256 mu trên
mt frame, chng ln 156 mu, t l nhn dng trung bình là 80.9%. 79
Bng 8:Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên
mt frame, chng ln 156 mu, s ng t vng là 6 t có t l nhn dng trung bình
là 96%. 80
1
NG QUAN
1.1 Gii thiu:
Tin giao tin nht ci, nó hình
thành song song vi quá trình tin hóa ci vi, s dng
ting nói là cách din và hiu qu nhm ca giao tip bng
tic tiên là t giao tip, ting nói t i nghe
hic phát ra. Bên cng nói là cách giao tic s
dng rng rãi nht. V nhn dng ting nói là mt v ln, nhiu nghiên cu
c hin trong vài thp niên g thng vi b t vng nh, nhp
t ri rc có th áp trong nhng ng d ci thin hiu qu
nhng sn xut, hoc trong nhng ng dng t
xa vi thit bu nh thng nhn dng tic thit k
nhn dng phát âm ri rng nhiu thp. Các h thng dùng b
t vng nh (10-100 tng hp ngui hun
luyn. T n nay, cùng vi s phát trin ca khoa hc, k thut nhn dng ting
ng s tin b t bc thc hin bng nh
pháp gii thut mi hii và hiu qu ngày càng cao.
Nhn dng ting nói là mt quá trình nhn dng mu, vi m
lu vào là tín hiu ting nói thành mt dãy tun t các mu
c h trong b nh. Các m nhn dng,
chúng có th là các t, hoc các âm v. Nu các mu này là bt bin và không thay
i thì công vic nhn dng ting nói tr in bng cách so sánh d liu
ting nói cn nhn dng vi các mc h trong b nh
n ca nhn dng ting nói luôn bin thiên theo thi gian và có
s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cnh
ng âm hnh nhng thông tin bin thiên nào ca ting
nói là có ích và nhi vi nhn dng ting nói là
rt quan trt nhim v r vi các k thut xác
2
sut thng kê mc tng quát hoá t các mu ting nói
nhng bin thiên quan trng cn thit trong nhn dng ting nói.
Các nghiên cu v nhn dng ting nói da trên ba nguyên tn:
Tín hiu tic biu din chính xác bi các giá tr ph trong mt
khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th
m ting nói t nhng khong thi gian ngn và dùng các
m này làm d li nhn dng ting nói.
Ni dung ca tic biu dii dng ch vit, là mt dãy các ký
hiu ng a mc bo toàn khi chúng ta
phiên âm phát âm thành dãy các ký hiu ng âm.
Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng
(seman trong quá trình nhn dng
ting nói, nht là khi thông tin v âm hc là không rõ ràng.
1.2 Tình hình nghiên cc
Tình hình nghiên c c: Hin nay trên th gii có rt nhiu
nghiên cu v h thng nhn dng gic nhng thành t
Via Voice Mellennium (IBM), Via Voice Standard ( IBM), SLU (Center of
Spoken Language Understanding), HTK ng h thc xây
d nhn dng ting Anh, ngoài ra còn có mt sô h thng nhn dng ting nói
ca các ngôn ng . Mt s d án nghiên cu tiêu
bi
- CMU SPHINX: còn gi là SPHINX là mt h nhn dng tic phát
trin ti hc Carnegie Mellon, bao gm mt Engine nhn dng tên là SPHINX
và m n luyn âm v là SphinxTrain. Ngoài ra còn mt s
n luyn mô hình âm v (acoustic
mod ch mô hình ngôn ng (language model) và t n
n thi s dng Sphinx. Có th tham
kho ta ch cmusphinx.sourceforge.net.
3
- Microsoft Speech Recognition: sau khi tuyn d i u
nhóm nghiên cu Sphinx X.Huang t i hc Carnegie Mellon, Microsoft bu
nghiên cu nhn dng ting nói và chuyn sang ting nói. Công ty này sau
ng Speech API (SAPI), mt giao din lp trình dành cho nhng ai
mun phát trin ng dn ging Windows. Có
th tham kho thêm ta ch Microsoft.com/speech/speech2007/default.mspx.
- Julius: là d án mã ngun m nghiên cu phát trin nhn dng ting Nht
da trên mô hình Markov n ph thuc vào ng c
nghiên cu m rng cho nhiu ngôn ng khác nhau. Có th tham kho thêm ta
ch Julius.sourceforge.jp/en_index.php.
- Dragon: là sn phi ca công ty NUACE. Có nhiu phiên bn
c y khoa, Dragon phc v hc t
u. Có th tham kho
thêm ta ch nuance.com/dragon/index.htm.
Tình hình nghiên cc: Vit Nam hin nay có 2 trung tâm ln
nghiên ch vc x lý ting nói và ting Vit là Vin Công Ngh thông tin và
trung tâm nghiên cu quc t n truyn thông và ng dng
MICA i hc Bách Khoa Hà Ni (mica.com.vn).
Mt s sn phm và tài nghiên cu nhn dng ting nói trc:
- a mt nhóm nhng sinh viên khoa Công ngh
i hc Bách khoa TP H t gii
ng Trí tu Ving da trên b
nhn dng ting nói ca Microsoft tích hp sn trên Windows. Da trên s
i ging nhau khi phiên âm latin ca mt s t ting Anh và ting Vit, nhóm
dn dng ting nói ca Microsoft cung cp, thc
hin thao tác nhn d t ting Anh nhc sang t ting Vit có
phiên âm latinh gn ging nhm c
cu xây d c mt h nhn dng âm thanh hoàn chnh mà ch da trên s
ng trong cách phiên âm nên kt qu nhn dng không c ci thin
4
ng n Vspeech SDK, có th tham kho thêm ti
a ch bk02.sourceforge.net/vspeechsdk.
- tài tt nghip ca sinh viên Nguyn Qut k b nhn dng
ting nói da trên nn tng DSP TMS320C2812. Thc hin nhn dng vi s ng
t vng nh (4 t) bng t vector VQ
cho t l trên 70%
- tài tt nghip ca h u khin thit b bng
ting nói. Thc hin trên Matlab, s dng mô hình Markov n. Thc hin nhn dng
vi s ng t vng 15 tt t l trên 90%.
- tài tt nghip ca hc viên Võ Quc Vit: Thit k h thng nhn dng
ting nói ting Vit vi VERILOG và MATLAB. t k c mt s khi
ch c m n
dng hoàn chnh trên Kit.
- tài nghiên cu ng dng mng neuron và mô hình Markov n trong nhn
dng ting Vit ca nghiên cng Ng ng h thng
nhn dng ch s ting Vit liên tc v d lin thoi dùng
mng lai ghép HMM/ANN. Kt qu c là h thng nhn dng v chính
xác là 97.46% mc t và 90.41% mc câu.
- tài: Nhn dng ting Vit dùng mng neuron kt h
LPC và AMDF cn. Kt qu nhn dng 10 s t n 9
t t l 96.2% khi kt hp LPC và AMDF.
Ngoài ra còn có các lu nhân, thn án ti
n v x lý ting nói i hc. Trong s
mt s ng dng k thut nhn dng ting nói vào mt s v thc t
u khin các thit b t t b
dân d
5
1.3 Tính cp thit c tài:
Hu ht nhng ng dng ca k thut nhn dng ting nói ch mi dng li
vit qu, t l chính xác ca quá trình nhn dng mà
giá c th v chính xác ca các k thut nhn dng da trên vii các
thông s trên mô hình nhn dng. c vai trò ca các thông s s
u chnh h i kt qu nhn dng t
a vic xây dng mô hình nhn dc thc hin trên phn
mm máy tính, kt hp vi các công c n mã ngun m Toolkit.
Vic xây d n cng còn nhiu hn ch, phn ln là phát
trii nn tng FPGA. Mt s ng dng
nhn du khin PIC ca microchip, ATMEGA c
vi t tính toán chm ca cu khin và thi gian trin khai lâu,
nhiu chi phí ca các dòng FPGA thì vic xây dng m
thut toán nhn dng âm thanh còn gp nhi Nn tng chip DSP vi tc
x lý cao, tích hp nhiu module x lý s sn có, thi gian trin khai nhanh s
i nhiu li th trong vic xây d t toán nhn
da vi các li ích t ng
dng nhn dng âm thanh c th i dng module mch ri s c nhiu li
th v thi gian tri chính xác, chi phí thit k.
1.4 Mc tiêu nghiên cu ca lu:
Luc xây dng vi hai mc tiêu chính:
- a hai thông sc Codebook và s ng mu
trên Frame âm thanh (sau khi thc hin Framming chia mt t thành các frame nh)
i v chính xác ca mô hình nhn dng âm thanh dùng gii thu c
ng t vector VQ.
- Xây dt toán nhn dng âm thanh trên nn tng h
DSP C6000 ca Texas Instruments .Co.
6
1.5 Nhim v lu
Ni dung 1: Nghiên c c hin các gii thut tách t,
ng nói, thc hin hun luyn và nhn dng ting nói dùng thut
ng nói MFCC và thut toán
. C th có 4
c chính:
- t tín hi nh
các h s MFCC.
- Hun luyn mu: nhiu vector h s MFCC s c to ra mt tp
tiêu biu vi nha t
- So sánh mu: Các vector h s ca t c so sánh vi
tính toán s ng gia chúng.
- Quym s ca s ging nhau quynh các
vector h s phù hp nht vi Codebook nào.
Quá trình tính toán khoc thc hin da trên t cn nhn
dng và tp hun luy chn ra t nào phù hp nht.
Ni dung 2: Xây d t toán nhn dng trên
có mt cái nhìn tng quan v công vic s thc hin trên phn cng.
Ni dung 3: Tìm hiu v Kit DSK TMS320C6713 và thit k mô hình nhn
dng ting nói da trên kit này, ng
t vector VQ. C th c thit k vi ngôn ng C t trong
nhng ngôn ng ph bin nht.
Ni dung 4: Trên nn tng trên chip DSP ni dung 3
tic Codebook và s ng mu trên frame âm
i v chính xác ca quá trình nhn dng.
ng và phm vi:
ng nghiên cu:
- Lu nghiên cn dng âm thanh da trên thut toán
ng t vector VQ.
7
- Lu u xây d n dng trên Kit DSK
TMS320C6713.
Phm vi nghiên cu:
- Vi c thc hin trên hai thông s c Codebook và
s ng mu trên Frame âm thanh.
- ng trên Kit DSP vi s ng t vng 16 t d
liu cho mi t hun luyn và nhn dc ghi âm 100 ln.
- ng ghi âm ít nhiu và ting nói dùng cho hun luyn và nhn dng
ca cùng mi.
1.7 Cu trúc luLu
- i thiu tng quan, trình bày mc tiêu, nhim v ca lu
- lý thuyt cho lu
- c hin h thng nhn dng ting nói trên Matlab.
- c hin h thng nhn dng ting nói trên Kit DSK
TMS320C6713.
- t lun.
8
LÝ THUYT
2.1 Tín hiu ting nói:
Nhng v n ca ting nói:
phát âm:
H thng phát âm i bao gm: phi, khí qun (trachea), thanh qun,
khoang ming (oral cavity) và khoa n cha hai
np gp gi là dây thanh âm (acoustic tube) dài khong 17cm nam, phc kt
thúc môi và phn sau kt thúc dây thanh âm hay thanh qun. khoang ming
t hp cng, th tích ca nó có th u khin bi b phn
i, quai hàm và vòm ming). Khoang ming là mt ng dài khong
12cm nam và kt thúc ng. Vòm ming mm s u khi
ng ming hoi vi nhng âm không theo ging
ng s ch phát ra ng mii vi
nhng âm có ging s dch chuyn xung
mi s ng.
Khi nói phi ch y không khí s y qua khí qun và thanh môn.
Lung không khí s ng và to ra s phát âm. Âm
thanh này truyng và các khoang này có
tác d lc làm suy hao mt vài tn s khi các tn s
9
Hình 2.1 Cu t
Tuyt hc cng có tác dnng mt tn
s ng tn s c gi là các formant. Nu xem
khoang ming là tuyc cng. Mt b phn
phát âm có mt s hu h c suy
gim khong -12dB/octave nên ch cn quan u tiên trên
tn t ng hp ting nói vô thanh, ph i bng
phng, s y v mc dù tin
m rng lên n 7-8KHz. Ngoài ra, do ng ca ming c
lên chng 6dB/octave n 0-3KHz. Chính vì vn phn tin
x lý tín hiu ta phi dùng b lc tin nh bù thêm +6dB/octave.
10
nghe:
- Khi ta nghe mt sóng âm thun túy, nhm khác nhau trên c tai s
ng theo tn s cm lch ln nht trên c tai ph
thuc tn s n s cao tm lch ln n s thp to
m lch ln y c tai n s tín hiu
vào phc tp bng cách tách các tn s khác nhau nhm khác nhau dc theo
chiu dài ca nó. My có th xem là mt b lc thông di có tn s
nh. Nhng ni xng quanh tn s
trung tâm, vùng tn s cao có t suy gim du so vi tn s thp. V
trí c lch ci dc theo màng nhày bin thiên phi tuyn theo tn s (theo
hàm logarit).
- Có th xem quá trình nghe ca h thính giác là mt dãy các b l
thông, có ng ph lu qu ca chúng xp x
thông ti hn.
Hình 2.2 Cu ti
11
c. S biu din ting nói:
- Min thi gian:
Tín hiu ting nói là tín hii chm theo thi gian. Khi quan sát tín
hiu ting nói trên mt khong th ng c
c i. Tuy nhiên trên khong thi gian dài (0.5 giây
hoc nhia tín hii phn ánh nhng âm thanh
c nói.
Hình 2.3 Dng sóng theo thi gian
Mt cách th phân loi tii 3 trng
thái: trng thái th nht là yên lng thi gian mà không có
ting nói; trng thái th ng thi gian mà
dng sóng ting nói là không tun hoàn hay nó mang tính ngu nhiên; trng thái th
ba là âm hu thanh (voiced), trong khong thi gian này dng sóng ca ting nói
mang tính tun hoàn. Cách thc phân loi này không chính xác lm do ng
ti nhng v trí ranh gii gia các trng li nh ng không
gây hu qu gì ln cho hu ht các ng dng.
ng tp trung tn s cao, các tn s phân b khá
u t tn s thn tn s cao. Các nguyên âm là âm hu thanh (voiced),
nó liên ti dài trong mt khong thi gian.
- Min tn s biu din tín hiu ting nói trong min
tn s, trc tung biu din tn s, trc hoành biu di.
12
Hình 2.4 Dng sóng min tn s
2.2 Phân lon dng âm thanh
2.2.1 âm (Acoustic-Phonetic):
Các nghiên cu da vào vic tìm âm ting nói và gán nhãn (label)
ca âm hc ng âm vi gi thuyt tn ti mt s hu
h ng âm khác nhau có th phân bic trong ngôn ng nói vi các
c mô t bc tính âm hc hin din rõ ràng trong tín hiu
ting nói. Mc tính âm hc ca các ng âm có th i theo
i nói hoc theo các âm lân cng nghiên cu âm hc ng âm gi s rng
các qui lut chi phi s i là không phc tp (straightforward) và có th cho
máy hc d dàng.
ng âm hc ng âm n và gán nhán, trong
u tic phân ra thành các vùng âm hc nh, mc
gán bi mt hoc nhiu ký hiu ng âm to thành mt chui âm v mô t ting nói.
c th hai là c gnh mt t c mt chui các t ) t chui
ký hiu âm v c tu tiên. Trong quá trình này, các gii hn
ngôn ng hc, ( ví d t vng , ng cnh và các qui lut ng c áp dng
truy xut b t vng vào tên chui âm vc s dng rng
rãi trong các ng di.
13
c tp. Chuy i tín hiu âm thanh thành mt
chui các ký hiu ng âm. T chui ký hiu ng dng nhng kin thc v
ng pháp, t vng, ng cn thành mt t hoc mt chui t
chuyn ting nói thành ch ving phát trin trong
p nhi thuc vào cu
trúc nhng ngôn ng ng
ng i kin thc tng hp v ng pháp, t vng, ng c
pháp này nu thc hin thành công ch cn b nh hu h c tính ca
các thành phn ng âm, d nhn dng mt s ng t vng rt ln.
Khác váp nhn dng mu mun nhn dng mt t i hun
luy các mc tính ca t nhn ch rt nhiu
nu s t vng là rt ln.
V
u kin thc rng v c tính âm c ng âm
2. La chn nhc tính thì phn ln da trên nhng xem xét cho mt
mc bit. Hu ht nhng h thng la chn nhc tính da trên trc
3. Thit k nhng b phân l
4. S không rõ ràng trong tn ti nhng th tc t u chnh
c t.
Bi vì nh-i mng
thú v nhng cn nhiu nghiên cc kh dng thành công trong
nhng v nhn dng âm thanh thc t.
2.2.2 n dng mu Pattern-Recognition
c :
- c tính thc hin trên tín hi
i vi tín hiu thoc ng là ngõ ra ca
nhng k thut phân tích ph
linear predictive coding, hoc phân tích bi i Fourier ri rc
(DFT).
- Hun luyn mu, mt hoc nhing vi âm thanh
thoi ca cùng mt lc s d to mi din cho nhng
c tính ca l i din nh c thông qua mt s k
14
thut ly trung bình, hoc là mô hình vm thng kê nhng
c tính ca mu tham kho.
- Phân loi mu, nhng mu cn nhn bic so sánh và tính toán
m ging nhau vi nhng mc hun luy so sánh
nhng mu âm thanh (bao gm mt chui nhng vecto ph), c
ng m ging nhau ca nhng vecto ph và th tc alignment
global time (thut toán dynamic time warping) khc phc s sai
lch v thi gian ca hai mu
- Decision logic, m vi mu tham khc s d
nh cui cùng.
m ca mô hình nhn d
- Hia h thng nhy vi s ng d liu hun luyn trong
vic to mu tham kho; nhìn chung mu hun luyn càng nhiu thì
càng chính xác.
- Mu ph thuc tính truyn cng
c s d tc tính ph ca âm thanh chu
ng bi quá trình truyn ti và nhiu nn.
- Không cn kin thc c th v ng âm, không ph thuc vào s la
chn t vng, cú pháp, ng
- Kh ng tính toán t l tuyn tính vi s m c hun luyn
hoc nhn di s ng mu âm thanh tr nên
phc tp.
- Bi vì h thng không ph thuc nhiu vào các lp âm thanh, nhng
k thun có th ng dng ti mt phm vi rng ca âm thanh
thoi, bao gm mt m, mt t hoàn chnh và mt subword. Do
ng k thut ng dng cho mt lp âm thanh có th ng dng
trc tip cho nhng lp âm thanh khác mà không cn phi chnh sa
gì.
- D ràng buc cú pháp vào cu trúc nhn dng âm thanh, do
i thi chính xác ca quá trình và gim tính toán.
thông minh nhân to)
n ct hp nhiu ngun kin th
d gii quyt vu này giúp gim khng tính toán,
u sut ca quá trình nhn d tích hp nhng
ngun kin thc trong h thng nhn dng âm thanh. Có l n
nht là b x -m quá trình mc thp nhc
15
i mã ng c quá trình mi mã t vng, mô
hình ngôn ng) sao cho ràng buc gia mn nh nht có th.
M là b x -
ng to ra nhng t gi thuyt phù hp vi tín hiu âm thanh, và câu v
ng c xây dng da trên m phù hp ca t.
M t
c nhng ngun kin thc lp
ng thông minh nhân to c gng máy móc hoá hong nhn dng theo
i áp dng trí khôn trong vic hình dng
trên mt tp hp các tính cht âm hc. Trong s các k thuc
s dng này có vic s dng mt h th
hp âm v, t vng, cú pháp, ng kin thc thc t cho vic phân
n, gán nhãn và s dng các công c ng trí tu nhân to cho vic hc các
quan h gia các s kin âm v. Trng này ch yu là s hiu bit kin
thc và tích hp các ngun kin thc s dng rng rãi
trong các h thi.
2.2.4 Mng noron và ng dng trong nhn dng âm thanh
Cn xây dng ngun kin th nhn dng
m quan trng ca AI là tip thu kin thc t ng
(hc) và thích nghi. Nhng khái nic tri
mng noron.
Nhng thun li cng noron:
Mc xem xét nghiêm túc cho phm vi rng ca nhng v
bao gm nhn dng âm thanh bi vài lý do sau:
- Chúng có th sn sàng thc hin m ln nhng tính toán song
song. Bi vì mt mng noron là mt cu trúc song song ca nhng
phn t ng nht.
- Khi nhc nhúng trong mc tru
ti mi phn t tính toán trong mng, kin trúc này ít b ng
ca nhiu.
- Nhng trng s kt ni ca mng không c c ràng buc c
nh;chúng có th thích nghi trong thi gian th ci thin hiu
16
sut. Kh c thích nghi này là bn cht ca cu trúc mng
noron.
- Bi vì tính không tuyn tính trong mi phn t tính toán, mt mng
ln có th xp x bt k h thng tuyn tính hoc phi
tuyng noron cung cp mn tin
bii phi tuyn gia ngõ vào và ngõ ra bt k vi nhiu hiu
qu.
Da vào nhng phân tích trên, ta chn dng mu vì tính
n không ph thuc nhiu vào b t vng, không cn kin thc rng v ng
âm, ng n dng mu bao g
hun luyn nhn dng mu.
2.3 Thu
nhn bit v trí ca thut toán MFCC trong nhn dng âm thanh ta xét nó
trong s khi tng th quá trình hun luyn và nhn dng âm thanh:
Frame
Blocking
Trích đặc
trưng MFCC
Huấn luyện
và nhận dạng
mẫu
Tín hiệu
âm thanh
liên tục
frame
Coeff-
MFCC
Hình 2.5 khi quá trình hun luyn và nhn dng âm thanh
2.3.1 Frame Blocking:
Trong Frame Blocking tín hiu sau khi s c tách thành các
frame, tách t và thc hin tin nhn (Pre-emphasis)
_ Chia tín hiu thành các frame (10-30ms): Trong khong thi gian dài, tín hiu
ting nói là tín hiu không dng th ngn (10-30ms)
tiu du này là do t i ph ting
nói ch liên quan trc ti n t di chuyn ca b phn c i,
hàm, vòm ming mm) và gii hn ca các ràng bu
i ta chia ting nói thành nhin có thi gian bng nhau hay
các frame, mi frame gm N m dài t 10-30ms.
17
- Bi vì tín hiu ting nói là tín hiu bii chm theo thi gian, trong mt
h thng nhn dng ting nói thì tin thành nhng khong thi
gian ngc g cho các thông s ci, thông
ng có 50% chng lp gia các frame k cn nhau. Trong các h thng nhn
dng ting nói bng phn mm, tic chia thành nhng frame có chiu dài
20ms vi 10ms chng lp. Ví d khi tic ly mu vi tn s 8KHz s có
160 mu trong mi frame và có 80 mc chng lp gia 2 frame k cn nhau.
- Riêng trong phn cng ng hi ta chia tín hiu ting nói thành
nhng sub-frame có chiu dài 10ms, vì vy 2 sub-frame k tip nhau to thành mt
ng. Vi tn s ly mu là 8KHz, chiu dài ca mi sub-frame bây
gi ch m (8000 x 0.01 = 80). Chúng ta có th thy rng c 3 sub-
frame to thành 2 frame, vì vy n sub-frame s bao gm n-1 frame.
18
Hình 2.6 Tín hic chia thành các sub-frame
_Tách t: dng thi gian ngn E (short time energy function).
1
2
)](*)([
Nm
mn
m
mnwnxE
(bu mu m). Nu E> k*E
threshold
t
u, k là h s nhân cho phát hiu, E
threshold
ng trung bình 10
u nng ca frame k tip
n khi E<g*E
thresold
t thúc mt t, vi g là h s nhân cho