Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
vi
HVTH: NGUYN THÀNH CHUNG
MC LC
LÝ LCH KHOA HC i
L ii
LI C iii
TÓM TT iv
MC LC vi
DANH SÁCH CÁC HÌNH ix
DANH SÁCH CÁC BNG xi
DANH SÁCH CÁC CH VIT TT xii
NG QUAN 1
1.1.Tng quan v nhn dng ting nói, tình hình nghiên cc 1
1.1.1.Nhn dng ting nói 1
1.1.2.Tng quan tình hình nghiên cu 2
1.2.Mng nghiên cu c tài 5
1.2.1.Mc tiêu 6
ng nghiên cu 5
1.3.Nhim v và gii hn c tài 6
1.3.1.Nhim v 6
1.3.2.Gii hn 6
u 6
1.5.Ni dung lu 7
c tin c tài 8
2. NG NÓI TING VIT 9
2.1.TNG QUAN V TING NÓI 9
2.2.n ca Ting Vit 9
2.2.1.Âm tit 9
2.2.2.Âm v 11
2.2.3.Nguyên âm và ph âm 11
2.2.4.u 12
3. MÔ HÌNH NHN DNG TING NÓI TING VIT 13
3.1. Phân loi các h thng nhn dng ting nói 13
3.1.1. Nhn dng t liên tc và nhn dng t cách bit 13
3.1.2. Nhn dng ph thuc li nói 13
3.2. Các yu t n kt qu nhn dng ting nói : 15
3.3. Cu trúc h nhn dng ting nói: 16
3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
vii
HVTH: NGUYN THÀNH CHUNG
3.5. Voice Acivation Detection (VAD): 18
3.6 s MFCC 19
3.6.1. Tin x lý 19
3.6.2. To khung và ca s hóa tín hiu 23
3.6.3. 25
3.6.4. Hu x lý 31
ng t vector: 32
3.7.1. Tng quan v ng t vector (VQ): 32
3.7.2. Cu trúc và tp hun luyn VQ: 33
méo: 34
3.7.4. Phân nhóm các vector hun luyn: 34
: MÔ HÌNH MARKOV N HMM 36
4.1. Quá trình Markov: 36
4.2. Mô hình Markov n: 38
4.3. Gii pháp toán hn ca mô hình Markov n: 41
4.3.1. Bài toán 1: 41
4.3.2. Bài toán 2: 44
4.3.3. Bài toán 3: 45
4.4. Các loi mô hình Markov n: 49
THIT K PHN CNG VÀ MU KHIN ROBOT 50
5.1. Tng quan v phn cng ca h thng : 50
5.2. La chn thit b: 52
5.2.: 52
5.2.2. Board Arduino Mega 2560: 54
: THIT K H THNG NHN DNG VÀ PHN MM GIAO DIN
NHN DNG 66
6.1.Thit k h thng nhn dng ting nói trên máy tính 66
6.1 67
6.1ng t hóa vector 71
6.1.3.Hun luyn HMM 75
6.1.4.Nhn dng bng mô hình HMM 76
6.2.Thit k phn mm giao din nhn dng 78
6.3. Kt qu th nghim trên phn mm nhn dng 79
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
viii
HVTH: NGUYN THÀNH CHUNG
. KT LUNG PHÁT TRIN 83
7.1. Kt lun 83
7.2. Nhn xét 84
7.3. Hn ch c tài: 84
7.4. ng phát trin c tài 84
TÀI LIU THAM KHO 86
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
ix
HVTH: NGUYN THÀNH CHUNG
DANH SÁCH CÁC HÌNH
Hình 3. 1. i nói khác nhau s phát âm khác nhau 14
Hình 3. 2. Mô hình nhn dng tic li nói 15
Hình 3. 3. Cu trúc tng quát ca mt h thng nhn dng ting nói 16
Hình 3. 4. gii thut h thng nhn dng ting Vit dùng Markov n 17
Hình 3. 5. n mc khi VAD 18
Hình 3. 6. n mu âm thanh sau khi VAD 18
Hình 3. 7 gii thung nói 19
Hình 3. 8. Tin x lý tín hiu 19
Hình 3. 9. Phân tích khong lng ca ting nói 21
Hình 3. 10. Tách ting nói khi khong im lng theo VAD 22
Hình 3. 11. T ting nói có khong im lng tách thành ting nói không có khong lng
23
Hình 3. 12. Frame blocking và Windowing 23
Hình 3. 13. Chia khung chui tín hiu 24
Hình 3. 14. Ca s Hamming vi các h s 24
Hình 3. 15. Tín hiu tic ca s hóa so vu 25
Hình 3. 16c thc hin MFCC 25
Hình 3. 17. Ph Fourier ca tín hiu gc và tín hia s hóa 26
Hình3. 18c tam giác melscale trên min tn s 27
Hình 3. 19. Tính các h s delta 29
Hình 3. 20. Quá trình 30
Hình 3. 21c hu x lý tín hiu 31
Hình 3. 22. khi cu trúc ca VQ hun luyn và phân lp 33
Hình 3. 23. gii thut VQ 35
Hình 4. 1. Xích Markov 5 trng thái S
1
,S
2
, S
5
và các xác sut chuyn trng thái 36
Hình 4. 2. Ví d mt mô hình Markov n sáu trng thái 39
Hình 4. 3. Mô t c thc hi
t
(i) 43
Hình 4. 4. Mô t c thc hi tính bin β
t
(i) 44
Hình 5. 1.
50
Hình 5. 2.
50
Hình 5. 3.
t bên trái 51
Hình 5. 4.
khuôn mt thc t ca robot 51
Hình 5. 5. Cu to bên trong ca RC servo 52
Hình 5. 6. u khin v c ra cu ch rng xung 53
Hình 5. 7.08A 54
Hình 5. 8. Giao din IDE ca Arduino 57
Hình 5. 9. Board Arduino Mega 2560 (mc và sau) 58
Hình 5. 10.Board Arduino Mega 2560 59
Hình 5. 11.
2560. 59
Hình 5. 12.
2560. 61
Hình 5. 13. s. 61
Hình 5. 14.
, . 62
Hình 5. 15.
. 62
Hình 5. 16.
. 63
Hình 5. 17.
63
Hình 5. 18.
. 64
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
x
HVTH: NGUYN THÀNH CHUNG
Hình 5. 19. 64
Hình 5. 20.
65
Hình 6. 1. khi mô hình hun luyn và nhn dng t . 67
Hình 6. 2. gii thut thc hin tách ting nói khi khong lng. 68
Hình 6. 3. gii thut thc hin phân tích h s . 69
Hình 6. 4.Minh ha ng t hóa vector 75
Hình 6. 5. gii thut hun luyn HMM. 76
Hình 6. 6. gii thut nhn dng t dng HMM 77
Hình 6. 7. Giao din nhn dng ting nói. 78
Hình 6. 8.Minh ha phân tích d liu ting nói thành các h s s dng
cho hun luyn h thng và nhn dng. 80
Hình 6. 9.Kt qu nhn dng t 82
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
xi
HVTH: NGUYN THÀNH CHUNG
DANH SÁCH CÁC BNG
Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit 11
Bng 6. 1. Kt qu th nghim cho nhóm h thng hc mu 80
Bng 6. 2. Kt qu th nghim cho nhóm mo danh 81
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
xii
HVTH: NGUYN THÀNH CHUNG
DANH SÁCH CÁC CH VIT TT
Thut ng
T vit tt
ụ nghĩa
Artifactial Neural Network
ANN
Mo
Fast Fourier Transform
FFT
Bii Fourier nhanh
Dicrette Cosine Transform
DCT
Bii cosin ri rc.
Hidden Markov Model
HMM
Mô hình Markov n
Linear predictive code
LPC
H s d n tính
Mel-scale Frequency
Cepstral Coefficient
MFCC
H s
Multi Layer Perceptron
MLP
Mng perceptron truyn thng nhiu lp
Speech Recognition
SR,ASR
Nhn dng ting nói
Bias
ng kích hot
Pattern Recognition
Nhn dng mu
Likelihood
M ging
Similarity
M
Feature
Spectral, spectrum
Ph tín hiu
Graphical User Interface
GUI
Giao dii s dng
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
1
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
Chng 1:
TNG QUAN
1.1. Tng quan v nhn dng ting nói, tình hình nghiên cu trong và ngoài
nc
1.1.1. Nhn dng ting nói
Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng
i nói, ngôn ng nói và cao c có th nhn dc trng thái tâm lý ca
i nói. Có rt nhiu ng dng ca nhn dng tii sng xã h
xác nhn security), dch t ng, các h thng phone banking,
i c gng nghiên cu là làm sao máy tính có
th giao tip vi thông qua ting nói. Nhn dng ting nói là mc
ca x lý ngôn ng t nhiên (Natural Language Processing), tc là v n nhn
dng ting nói ph thuc vào ngôn ng nói. Do vy ngôn ng nhn dng ting Vit rt
khác so vi ting Anh và các th tingkhác. Mt ví d có th hình dung,
nu s dng các engine nhn dng ting Anh có sn (bao gm c
t s vi mch x lý ti
bán trên th ng) thì hiu qu i vi ting Vit là khá thp. Mt s không th phân
bin, chung Viu - tonal language,
còn ting Anh thì không), vì vy nhn dng ting Vit ch có th i Vit làm.
Nhn dng và tng hp ting nói không th da trên các mc x lý thp (signal
processing) mà còn phi kt hp x lý thông tin các mc cao và cao nht là tri thc.
Nhn dng ting nói là mt quá trình nhn dng mu, vi mlà phân lp
u vào là tín hiu ting nói thành mt dãy tun t các m
c h trong b nh. Các m nhn dng, chúng
có th là các t, hoc các âm v. Nu các mu này là bt bii thì
công vic nhn dng ting nói tr n bng cách so sánh d liu ting nói
cn nhn dng vi các mc h trong b nhn ca
nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit
ln gia ting nói ca nhi nói khác nhau, t nói, ng cng
âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
2
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
nhi vi nhn dng ting nói là rt quan trng.
ây là mt nhim v r vi các k thut xác sut thng kê
mc tng quát hoá t các mu ting nói nhng bin thiên
quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói
da trên ba nguyên tn:
Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung
thi gian ngn (short-term amplitude spectrum). Nh vy ta có th trích ra các
m ting nói t nhng khong thi gian ngm này
làm d li nhn dng ting nói.
Ni dung ca tic biu dii dng ch vit, là mt dãy các ký
hiu ng a mc bo toàn khi chúng ta phiên
âm phát âm thành dãy các ký hiu ng âm.
Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng
trong quá trình nhn dng ting
nói, nht là khi thông tin v âm hc là không rõ ràng.[1]
1.1.2. Tng quan tình hình nghiên cu
Tin giao tin nht ci, nó hình thành và
phát trin song song vi quá trình tin hóa ci vi, s dng
li nói là mt cách din và hiu qu nhm ca vic giao tip
bng tic tiên là t giao tip, ting nói t i nghe
hiu ngay lp tc phát ra. Ngày nay, nh s phát trin ca khoa hc k
thut, máy móc dn dn thay th u khin máy
móc, coi phi làm khá nhiu thao tác tn nhiu thi gian và cn ph
tu này gây tr ngi vi vic s dng các máy móc, thành tu khoa
hc k thuu khin máy móc thit b bng ting nói s d dàng
cu khin máy móc thit b bng ting nói càng bc thii vi
các thit b cn tho máy tính có
th c tic nhn dng ting
a th k c nhng thành t, và có
nhng ng dng hu ích thit thc vào trong cuc s
hiu ca máy tính vn còn nhiu hn ch và khong cách khác xa so vi thc t. Mt
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
3
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
khác, nhn dng ting nói ch c phát trin trên các th tii
vc ta nhn dng ting nói vn còn là mc khá mi m.
1.1.2.1. NgoƠi nc
Hin nay, trên th gii có rt nhiu h thng nhn dng ting nói c
ng dng rt hiu qu Via Voice ca IBM, Spoken Toolkit ca CSLU (Central of
Spoken Laguage Understanding) trong ting Anh, c trong h
thng ca ting Nht, mô hình MFGI (Mixdorff Fujisaki model of German
Intonation) trong tic,
S phát trit bc ca công ngh vi x lý và công ngh x lý ting nói trong
nh ra rt nhiu nhng ng d nht là
các h thng giao tip, hn thoi. Có th k tên mt s
ng dng n
Quay s bng ging nói.
Truy cp thông tin bng gin thoi.
H thng h tr y t n thoi.
ng dng truy vn thông tin trong ngân hàng.
ng dng chuu tr bnh t xa.
Theo thng kê và d báo v th ng công ngh thông tin và truy
2009, chi tiêu cho nghiên cu, phn cng, phn mn công ngh x lý
ti git con s 5 t -la M.
Công ngh x lý tii h thng,
không còn bó buc trong cách thn thn
thoi) mà chuyc tip bng ging kinh t
cnh tranh, các ng dng dn dn sang tích h
thanh. Vic ng dng và khách hàng có th i nhau thông qua âm thanh
i b giao di ha truyn thng mà nó cung cp thêm mt
cách truy cp thông tin và dch v tin li, t
Mt s ng di s giao tip gia khách hàng và h thng
vi s ng ln, có tích h thng giao
tip, h ng, các h thng dn
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
4
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
khách hàng th t c phi làm bng cách phát ra các ch dn, li nhc thông
qua các tc hoc qua b tng hp ting nói nu ni dung
không c nh. Khách hàng dùng li nói cung cp thông tin cho h thng, h thng
x lý thông tin, truy xu d liu ri gi phn hi dng âm thanh
ti khách hàng.
1.1.2.2. Trong nc
Trong nhi t s các hãng công ngh ln trên th gi
nghiên cu v c này song kt qu c còn khá khiêm tn, ch có mt s ít
công ty có chíp nhn dng ting nói tin
b gii hn v s t vng và ng dng. Vit Nam, v nghiên cu thit k cu
trúc vi mch nhn dng ting Vit vn còn b ng, mng công ngh
ên phát trin.
Phm vi ng dng h thng nhn dng ting nói ting Vic
s dng các công ty, tn thông l
t ít và có nhiu hn ch, tuy nhiên t s mô hình nhn dng
tic xây d
Khang[9]:
TS.
[10]:
90%.
[11]:
.
t k chíp nhn dng ting nói Vit Nam trên nn công ngh
ca nhóm nghiên ci hc Bách khoa thành ph H Chí Minh do TS. Hoàng
ng nhóm i
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
5
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
thut phc tp trong nhn dng ting Vit. Trên phn cng, có ba v rt quan trng
cn quan tâm, bao g chính xác nhn dng, tài nguyên phn cng và t tính
toán. Ba yu t c cân nhc chn la k bi khó có th c t
trên cùng lúc c ba yu t trên.
VQ và mô hình
máy tính thông qua Board Arduino Mega 2560.
1.2. Mc tiêu vƠ đi tng nghiên cu ca đ tài
1.2.1. Mc tiêu
tài có nhng m
Nghiên cu h thng nhn dng ting nói bng ting Vit .
Nghiên cu thu ng d
ting nói ting Vit.
Nghiên c ng t ng dng vào mô hình nhn
dng ting nói ting Vit.
Nghiên cu mô hình Markov n HMM ng dng vào hun luyn và nhn
dng ting nói ting Vit.
Thit k và thi công robot mi th hin cm xúc.
Thit k giao din phn mm nhn dng và phn cu khin robor mt
i th hin cm xúc.
1.2.2. Đi tng nghiên cu
Lý thuyt nhn dng ting nói.
Thut toán MFCC và ng dng.
ng t vector VQ và ng dng.
Mô hình Markov n HMM và ng dng.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
6
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
Board Arduino Mega 2560.
1.3. Nhim v và gii hn ca đ tài
1.3.1. Nhim v
Nghiên cng Vit.
Nghiên cu công ngh phân loi ting nói ting Vit.
Nghiên c lý, lc tín hiu liên tc, ri r
(MFCC), phân loi, nhn dng tín hiu ting nói
(Hidden Marko Models ).
Chn la hàm mô hình Markov n thit k giao din nhn dng các tp
lnh cng u khin - Robot th hin cm xúc.
Tìm hiu các phn mm l
Vit code mô phng trên máy tính, code th u khin cho Board
Arduino Mega 2560.
Thit k và thi công mô hình Robot mi th hin cm xúc.
Vn hành th mô hình h thng.
1.3.2. Gii hn
ng Vit có nhiu âm tit và thanh nhn nên vic nhn dng s
i các ngôn ng khác. Ngoài ra, còn có s khác bit v ging nói
gia các vùng, s khác bit v ging nói trong các ng c
n d
trong vic nhn dng tài ch thc hin vic nhn dng t
Vì thi gian có hhn thit k và thi công mô hình
thc nghim ch dng li dng là mc ra lnh
phc t robot thc hin nhim v phc tp b hn ch.
u king, kt qu nhn dc 100%
1.4. Phng pháp nghiên cu
i thc hi d
u tài liu: các tài lin nhn dng ting
ng t vector VQ, mô hình
Markov m ting Vit. Các tài liu liên quan v lp trình
C/C++ và Matlab .
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
7
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
m ting Vi trích
chng t vector VQ, mô hình Markov n
HMM trong nhn dng ting Vit.
o ý kin ca chuyên gia v trích chc
ng t vector VQ, mô hình Markov n HMM trong nhn
dng ting nói ting Vit, và kh ng dng vào thc t.
c nghim: thc nghim vic nhn dng ting nói ting Vit
trên máy tính và xut ra board u khin Robot mi th hin cm xúc.
1.5. Ni dung lun văn
N tài gm các phn sau:
Chng 1: Tng quan
Tng quan chung v c nghiên cu.
Mng nghiên cu.
Nhim v và gii hn c tài.
Pu.
Chng 2: Đc trng ting nói ting Vit
Phân tích tng quan v ting nói.
n ca ting Vit.
Chng 3:Mô hình nhn dng ting nói ting Vit
Phân loi các h thng nhn dng ting nói.
Các yu t n kt qu nhn dng ting nói.
Cu trúc ca h nhn dng ting nói.
Gii thut h thng nhn dng ting nói ting Vit.
ng t vector VQ.
Chng 4:Mô hình Markov n HMM
lý thuyt v mô hình Markov n HMM.
ng dng mô hình Marko n HMM vào nhn dng ting nói ting Vit.
Chng 5: Thit k phn cng và mch điu khin Robot
Tng quan v phn cng ca h thng và cách la chn thit b.
Gii thiu khin.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
8
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
Chng 6: Thit k h thng nhn dng và phn mm giao din nhn dng
Xây dng thut toán tin x lý ting nói ting Vit .
Xây dng thut toán trích chng nói ting vit MFCC.
Xây dng thung t vector VQ
Xây dng thut toán mô hình Markov n .
Xây dng thut toán hun luyn và nhn dng ting nói ting Vit .
Phn mm giao din nhn dng.
Chng 7:Kt lun
Nhng mc.
Hn ch c tài
ng phát tri tài.
1.6 . ụ nghĩa thực tin ca đ tài
tài thuc nhóm nghiên cu lý thuyt và ng dng trin khai. Sn ph
tài có tính m, có th áp dng cho nhing khác nhau trong
công nghing.
tài nghiên cu có th c s dng làm tài liu nghiên cu và ging dy
cho i hc và cao hin in
tin t vin thông,
ng dng mô hình nhn dng ting nói ting Vit trong các h thng nhn
du khin thit bng ting nói ting Vit.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
9
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
Chng 2:
ĐC TRNG TING NÓI TING VIT
Tín hiu tic xem là tín hiu ngu nhiên vì chúng ta không th xác
và tn s ca tín hiu tic nói. Tuy nhiên, mi t
ca ting nói li cha nhng thành ph y
ving nói là quá trình quan trng trong h thng nhn dng ting
nói. Các h thng nhn dng s phân bit các t khác nhau trong ting nói da trên
a mi tng
tín hiu ting nói ca mi t thành các thông s m
gim nh công vic nhn d chính xác cho h thng nhn dng.
2.1. TNG QUAN V TING NÓI:
Ting nói là mt loi sóng âm. Khi chúng ta nói, ti c truy
i dng truyi nghe. M
truyn tin ca tic xem là nhanh nht trong các kh nhiên ca
i.
Tín hiu ting nói cha các thông tin có tn s tp trung trong khong t 4kHz
tr xung tn s chng ch yu ca tín hiu
ting nói.
Trong khong thi gian dài, tín hiu ting nói là tín hiu không d
trong khong th ngn tín hiu tiu dng.
i vi quá trình nhn dng ting nói, thì ngoài vic nha
ting nói thì quá trình hc thích nghi vi ci
rt quan trng.
2.2. Các đc trng c bn ca Ting Vit:
2.2.1. Âm tit:
Ting vit có nht so vi các ngôn ng khác trong cách
nh nht ca ting Vit là
âm tit (ting), âm tit có nh
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
10
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
c lp: tc là mi âm tit là mt thành phn nh, chúng rõ ràng và
tách bit vi nhau, mi t i din cho mt âm tit duy nht.
Không có hing ni âm: trong ting Vii nói, nói nhanh hay
nói chm thì mi t u riêng l, không có s ni âm hay nut âm
u này làm cho ranh gii gia các âm tit rõ ràng
vi nhau, không có s chng lp gia các t.
Ting vit có hai loi t là t ghép. T c to t mt
âm tit, t ghép là t c to t nhiu t ng hp
mi t , vic ghép các t
mt t nhn dng t ghép tr nên khó
Khi phát âm mt âm tit ca b u tri qua ba giai
ng và gi
Da vào cách kt thúc, các âm tit ting Vic chia thành hai loi ln là
âm tit m và âm tit khép. Trong mi loi li có hai loi nh y có bn
loi âm tit trong ting Vi
Âm tit na khép: là nhng âm tic kt thúc bng mt ph âm vang
Âm tit khép: là nhng âm tic kt thúc bng mt ph âm không vang
Âm tit na m: là nhng âm tit kt thúc bng m
Âm tit m: là nhng âm tic kt thúc bng cách gi nguyên âm sc
ca nguyên âm nh âm ti
Âm tit ting Vit có mt cu trúc cht ch, nó không ch là m v ngôn
ng n mà còn là m t vng và ng pháp ch yu. Mô hình cu
trúc tng quát ca mt âm tit ting Vic th hin trong bng 2.1.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
11
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit
u
u
Vn
m
Âm chính
Âm cui
2.2.2 Âm v:
Mt ting nói gm mt chun gi là âm v. Xét v mc ng âm,
âm v nh nht ca ting nói, là m trng mà chúng ta không
th quan sát trc tip trong tín hiu ting nói. Mi âm v có hai ch
Cu to nên v âm thanh c
Phân bit v âm thanh c
Ví d v t
2.2.3. Nguyên âm và ph âm:
Nguyên âm:
Nguyên âm là mt âm thanh trong ngôn ng c phát âm vi thanh qun
m t không khí trên bt c m nào ca thanh
môn, ca b phn cu âm, vì vm cu âm.
ng Vi
gi là nh âm. Trong ting vit có 16 âm v
Ph âm:
Ph c to ra do lu chn m phn cu
âm khi phát âm, vì vy ph m cu âm. Khi phát ph â
ng tp trung m cu âm. Ph c chia làm các lon sau:
Ph âm bc phát ra t s phá v các cn tr và c xát
gia hai mép dây thanh. Ví d ph âm b
Ph c phát ra t luc to ra và thoát
ra ngoài nh nhàng
chu c ng ca khoang c gi là âm
vang. Ví d v ph
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
12
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
Ph cn tr không hoàn toàn, phi lách ra
mt khe h nh giu âm, gây nên ting c xát nh. Ví
d v ph
2.2.4. Thanh điu:
a ting Vit nói riêng và các ngôn ng
tiu nói chung so vi các ngôn ng
u là mt thành phn ng âm, không phi là nhn ging, giúp phân
bit các t ng âm.
i ta phân biu da vào hai yêu t u và âm vc. Âm
u là s i tn s n ca thanng nét cu, còn
âm vc là min giá tr ca tn s n.
Trong ting Vit tng c
Thanh ngang: âm phát ra bng phng và không có lên hay xung t u
n cui âm.
Thanh huyn: âm phát ra bng ph ng v phía cui âm
mn.
Thanh h ng gia thanh ri li tip t n
ngang vm bu.
Thanh su t thp và có th lên rt cao, và
cui cùng kt thúc bng mt nét tt ging.
m bu thp và không bng phn
dc b t quãng do thanh hu nghn li to nên khon gia
thành và cui cùng li lên cao nhanh chóng.
Thanh nng: âm phát ra bu thp và t t xung tha ri cui
cùng kt thúc bng mt nét tt ging.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
13
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Chng 3:
MÔ HÌNH NHN DNG TING NÓI TING VIT
3.1. Phân loi các h thng nhn dng ting nói:
3.1.1. Nhn dng t liên tc và nhn dng t cách bit:
Mt h nhn dng ting nói có th là mt trong hai dng: nhn dng liên tc và
nhn dng t cách bit. Nhn dng liên tc tc là nhn dng tic phát liên
tc trong mt chui tín hiu, chng ht câu nói, mt mnh lnh hoc mt
c bi dùng. Các h thng loi này rt phc tp, chúng phc
tp ch các t c phát liên tc gây c x lý kp nu cn thi
gian thc, hoc khó tách ra ni nói liên tc không có khong ngh. Kt
qu tách t ng rt lc sau, cn phi x lý tht tt trong quá
trình tách t.
Trái li, vi mô mình nhn dng t riêng l, mi t cn nhn dc phát
âm mt cách ri rc, có các khong ngh c và sau khi phát âm mt t. Mô hình
n dng liên tng thng
ng dng thc tiong các h thu khin bng ging nói, quay s bng
gii chính xác khá cao, tuy nhiên khó áp dng rng rãi so vi mô
hình nhn dng liên tc.
3.1.2. Nhn dng ph thuc ngi nói vƠ đc lp ngi nói:
i vi nhn dng ph thui nói thì mi mt mô hình nhn dng ch
phc v c cho mi, và mô hình s không hii khác nói gì n
c hun luyn li t thng nhn dc
chp nhn rng rãi vì không ph kh n thc và nht là kiên
nh hun luyn h thc bit là h thng loi này không th ng dng
ng.
c li, h thng nhn dc lng dng
rc hu ht các yêu c thng
y gp mt s v, nh chính xác ca h thng.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
14
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Trong thc t, mi có mt ging nói khác nhau, thm chí ngay cùng mt
ng nói khác nhau nhng thm khác nhau này nh
ng rt l n vic nhn dng, nó làm gi chính xác ca h thng nhn
dng xung nhiu l khc phc khuym này, h thng nhn dng
c li nói cc thit k phc tng d liu hun luyn
ln u li thic bao nhiêu chng
nhn dc t có mt cách gii quyc li nói.
c hin bng cách thu mu mt s ng ln các ging nói khác
bit nhau. Khi s dng, h thng s u chnh cho phù hp vi ging ca
i dùng, bng cách nó hc thêm mt vài câu có cha các t cn thit.
Nhn dc lt nhiu so vi nhn dng ph thuc
i nói. Cùng mt t, mi, dù có c gng phát âm cho tht gia thì
khác bii vi b i, mt h thng hoàn ho, thì s khác
bi c b qua do ng cnh, và do có phn x lý làm m a não.
i vi máy tính thì rt khó xây dc mt mô hình gii quyt cho tt
c ng hp khác bi
Hình 3. 1: i nói khác nhau s phát âm khác nhau
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
15
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Rút trích
nhóm
Mô hình
Mô hình
Rút trích
Hình 3. 2: Mô hình nhn dng tic li nói
3.2. Các yu t nh hởng đn kt qu nhn dng ting nói:
Vic nhp d liu ting nói thc hin d i d liu khác do tính
c trong khi vc vi
phc tp ca d liu ting nói, nên vic nhn dng ti phc tp cao
i các h thng nhn dng khác. Vì vy, h thng nhn dng ting nói có
rt nhiu yu t n kt qu ca quá trình nhn d
S i dùng: s i dùng càng ln thì h thng nhn
dng phc thit k sao cho có th nhn dc nhii khác
chính xác nhn dng càng cao khi h thc thit k
cho s i s dng càng ít.
c ca b t v c ca b t vng càng ln thì h
thng nhn dng cn phân bit rõ gia các t trong b t vng vi nhau, do
c ca b t vng càng nh chính xác ca h thng
nhn dng càng ln.
Tic thu âm mt cách ri rc trong nhng khong th
l chính xác ca h thng nhn dc thu
mt cách liên ty, vic nhn dng các t ng chính xác
i vic nhn dng mt câu nói liên tc.
H thng nhn dng nhiu, nhiu tp âm s làm gi
i trong p âm.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
16
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Thit b n kt qu ca h thng nhn
dng, vi nhng thit b thu âm kém chng có th làm mt mát thông
tin, sai l thng nhn dng s khó nhn dng
chính xác
3.3. Cu trúc h nhn dng ting nói:
Hình 3.3trình bày cu trúc nguyên lý ca mt h nhn dng ting nói. Tín hiu
tic hc x lý bng cách áp dng quá trình trích chvà
quá trình tin x lý. Kt qu c sau quá trình trích chp các
c to dng thành mt vector.
Vector
Hình 3. 3:Cu trúc tngquát ca mt h thng nhn dng ting nói
Vic ht thc hin bng vic hun luyn xây d
d so sánh vi các tham s thc hin vic nhn dng.
Trong quá trình hun luyn h th th
ng các tham s ca mu tham kho. Mt mu tham kho có th mô phng
mt t, mc m tic vào nhim v ca
h thng nhn dng, quá trình hun luyn h thng s bao gm mt quá trình x lý
ít phc tp hoc nhiu phc tp.
Vic trích chu và xây dng mt mô hình tham kho là
mt quá trình tn thi gian và là mt công vic phc tp.
Trong quá trình nhn di các
mu tham kh th ng cc
u thm kho hoc chui các mu tham kho. Vi ging
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
17
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
c tính toán bng cách áp dng các thut toán hiu qu. Mu hoc
dãy m ng cao nhc cho là kt qu ca quá trình nhn dng.
Hin nay, có nhiu tic
. Trong lu dc
ng Vit cho mô hình nhn dng.
3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n:
xây dng mô hình nhn dng ting nói ting nói ting Vit có rt nhiu
công c khác nhau. Mt trong nhng công c c ng dng cho vic xây dng mô
hình nhn dng ting nói ting Vit là mô hình Markov n HMM.
?
Y
N
Hình 3. 4 gii thut h thng nhn dng ting Vit dùng Markov n
Tín hiu tic
a ting t gim bt s ng các quan sát cho chui
c s d hun luyn mô hình nhn dng dùng
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ
18
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Markov n, hoc làm thông s u vào ca mô hình Markov phân tích và tr
kt qu nhn dng.
3.5. Voice Acivation Detection (VAD):
Tín hiu ting nói sau khi thu âm qua microphone s c mt s ng
mu nhnh.
tài chn tn s ly mu tín hiu là 8kHz, mi ln thu âm khong 2
giây. Tuy nhiên, vi tn s ly mu là 8kHz thì ta có 8000 mu/1 lc
thì không phi toàn b n nhiu trong s này là các
khong lng (silences). Do vc khi m c
tách lng thi loi
b các khong l c s d xén các khong lng c
và sau ca mt ln phát âm.
Hình 3. 5n mu âm tc khi VAD
Hình 3. 6n mu âm thanh sau khi VAD
Tín hin, mn có L m tài
này chn K = 160 mu vi F
s
0ms cho mn.
ng E
s
s c tính cho mn bi công thc (3.1):