Tải bản đầy đủ (.pdf) (95 trang)

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.82 MB, 95 trang )

Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

vi
HVTH: NGUYN THÀNH CHUNG
MC LC
LÝ LCH KHOA HC i
L ii
LI C iii
TÓM TT iv
MC LC vi
DANH SÁCH CÁC HÌNH ix
DANH SÁCH CÁC BNG xi
DANH SÁCH CÁC CH VIT TT xii
NG QUAN 1
1.1.Tng quan v nhn dng ting nói, tình hình nghiên cc 1
1.1.1.Nhn dng ting nói 1
1.1.2.Tng quan tình hình nghiên cu 2
1.2.Mng nghiên cu c tài 5
1.2.1.Mc tiêu 6
ng nghiên cu 5
1.3.Nhim v và gii hn c tài 6
1.3.1.Nhim v 6
1.3.2.Gii hn 6
u 6
1.5.Ni dung lu 7
c tin c tài 8
 2. NG NÓI TING VIT 9
2.1.TNG QUAN V TING NÓI 9
2.2.n ca Ting Vit 9
2.2.1.Âm tit 9
2.2.2.Âm v 11


2.2.3.Nguyên âm và ph âm 11
2.2.4.u 12
 3. MÔ HÌNH NHN DNG TING NÓI TING VIT 13
3.1. Phân loi các h thng nhn dng ting nói 13
3.1.1. Nhn dng t liên tc và nhn dng t cách bit 13
3.1.2. Nhn dng ph thuc li nói 13
3.2. Các yu t n kt qu nhn dng ting nói : 15
3.3. Cu trúc h nhn dng ting nói: 16
3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

vii
HVTH: NGUYN THÀNH CHUNG
3.5. Voice Acivation Detection (VAD): 18
3.6 s MFCC 19
3.6.1. Tin x lý 19
3.6.2. To khung và ca s hóa tín hiu 23
3.6.3.  25
3.6.4. Hu x lý 31
ng t vector: 32
3.7.1. Tng quan v ng t vector (VQ): 32
3.7.2. Cu trúc và tp hun luyn VQ: 33
 méo: 34
3.7.4. Phân nhóm các vector hun luyn: 34
: MÔ HÌNH MARKOV N HMM 36
4.1. Quá trình Markov: 36
4.2. Mô hình Markov n: 38
4.3. Gii pháp toán hn ca mô hình Markov n: 41
4.3.1. Bài toán 1: 41
4.3.2. Bài toán 2: 44

4.3.3. Bài toán 3: 45
4.4. Các loi mô hình Markov n: 49
THIT K PHN CNG VÀ MU KHIN ROBOT 50
5.1. Tng quan v phn cng ca h thng : 50
5.2. La chn thit b: 52
5.2.: 52
5.2.2. Board Arduino Mega 2560: 54
 : THIT K H THNG NHN DNG VÀ PHN MM GIAO DIN
NHN DNG 66
6.1.Thit k h thng nhn dng ting nói trên máy tính 66
6.1 67
6.1ng t hóa vector 71
6.1.3.Hun luyn HMM 75
6.1.4.Nhn dng bng mô hình HMM 76
6.2.Thit k phn mm giao din nhn dng 78
6.3. Kt qu th nghim trên phn mm nhn dng 79


Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

viii
HVTH: NGUYN THÀNH CHUNG
. KT LUNG PHÁT TRIN 83
7.1. Kt lun 83
7.2. Nhn xét 84
7.3. Hn ch c tài: 84
7.4. ng phát trin c tài 84
TÀI LIU THAM KHO 86




Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

ix
HVTH: NGUYN THÀNH CHUNG
DANH SÁCH CÁC HÌNH
Hình 3. 1. i nói khác nhau s phát âm khác nhau 14
Hình 3. 2. Mô hình nhn dng tic li nói 15
Hình 3. 3. Cu trúc tng quát ca mt h thng nhn dng ting nói 16
Hình 3. 4.  gii thut h thng nhn dng ting Vit dùng Markov n 17
Hình 3. 5. n mc khi VAD 18
Hình 3. 6. n mu âm thanh sau khi VAD 18
Hình 3. 7 gii thung nói 19
Hình 3. 8. Tin x lý tín hiu 19
Hình 3. 9. Phân tích khong lng ca ting nói 21
Hình 3. 10. Tách ting nói khi khong im lng theo VAD 22
Hình 3. 11. T ting nói có khong im lng tách thành ting nói không có khong lng
23
Hình 3. 12. Frame blocking và Windowing 23
Hình 3. 13. Chia khung chui tín hiu 24
Hình 3. 14. Ca s Hamming vi các h s  24
Hình 3. 15. Tín hiu tic ca s hóa so vu 25
Hình 3. 16c thc hin MFCC 25
Hình 3. 17. Ph Fourier ca tín hiu gc và tín hia s hóa 26
Hình3. 18c tam giác melscale trên min tn s 27
Hình 3. 19. Tính các h s delta 29
Hình 3. 20. Quá trình  30
Hình 3. 21c hu x lý tín hiu 31
Hình 3. 22.  khi cu trúc ca VQ hun luyn và phân lp 33
Hình 3. 23.  gii thut VQ 35

Hình 4. 1. Xích Markov 5 trng thái S
1
,S
2
, S
5
và các xác sut chuyn trng thái 36
Hình 4. 2. Ví d mt mô hình Markov n sáu trng thái 39
Hình 4. 3. Mô t c thc hi 
t
(i) 43
Hình 4. 4. Mô t c thc hi tính bin β
t
(i) 44
Hình 5. 1. 





 50
Hình 5. 2. 



 50
Hình 5. 3. 




t bên trái 51
Hình 5. 4. 

khuôn mt thc t ca robot 51
Hình 5. 5. Cu to bên trong ca RC servo 52
Hình 5. 6. u khin v c ra cu ch  rng xung 53
Hình 5. 7.08A 54
Hình 5. 8. Giao din IDE ca Arduino 57
Hình 5. 9. Board Arduino Mega 2560 (mc và sau) 58
Hình 5. 10.Board Arduino Mega 2560 59
Hình 5. 11. 

2560. 59
Hình 5. 12. 



2560. 61
Hình 5. 13. s. 61
Hình 5. 14. 

, . 62
Hình 5. 15.










. 62
Hình 5. 16. 













. 63
Hình 5. 17. 







 63
Hình 5. 18. 








. 64
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

x
HVTH: NGUYN THÀNH CHUNG

Hình 5. 19.  64
Hình 5. 20. 





 65
Hình 6. 1.  khi mô hình hun luyn và nhn dng t . 67
Hình 6. 2.  gii thut thc hin tách ting nói khi khong lng. 68
Hình 6. 3.  gii thut thc hin phân tích h s . 69
Hình 6. 4.Minh ha ng t hóa vector 75
Hình 6. 5.  gii thut hun luyn HMM. 76
Hình 6. 6.  gii thut nhn dng t  dng HMM 77
Hình 6. 7. Giao din nhn dng ting nói. 78
Hình 6. 8.Minh ha phân tích d liu ting nói thành các h s  s dng
cho hun luyn h thng và nhn dng. 80
Hình 6. 9.Kt qu nhn dng t  82



Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

xi
HVTH: NGUYN THÀNH CHUNG

DANH SÁCH CÁC BNG


Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit 11
Bng 6. 1. Kt qu th nghim cho nhóm h thng hc mu 80
Bng 6. 2. Kt qu th nghim cho nhóm mo danh 81





Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

xii
HVTH: NGUYN THÀNH CHUNG

DANH SÁCH CÁC CH VIT TT


Thut ng
T vit tt
ụ nghĩa
Artifactial Neural Network
ANN

Mo
Fast Fourier Transform
FFT
Bii Fourier nhanh
Dicrette Cosine Transform
DCT
Bii cosin ri rc.
Hidden Markov Model
HMM
Mô hình Markov n
Linear predictive code
LPC
H s d n tính
Mel-scale Frequency
Cepstral Coefficient
MFCC
H s  
Multi Layer Perceptron
MLP
Mng perceptron truyn thng nhiu lp
Speech Recognition
SR,ASR
Nhn dng ting nói
Bias

ng kích hot
Pattern Recognition

Nhn dng mu
Likelihood


M ging
Similarity

M 
Feature


Spectral, spectrum

Ph tín hiu
Graphical User Interface
GUI
Giao dii s dng


Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

1
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
Chng 1:
TNG QUAN
1.1. Tng quan v nhn dng ting nói, tình hình nghiên cu trong và ngoài
nc
1.1.1. Nhn dng ting nói
Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng
i nói, ngôn ng nói và cao c có th nhn dc trng thái tâm lý ca
i nói. Có rt nhiu ng dng ca nhn dng tii sng xã h
xác nhn security), dch t ng, các h thng phone banking,

i c gng nghiên cu là làm sao máy tính có
th giao tip vi thông qua ting nói. Nhn dng ting nói là mc
ca x lý ngôn ng t nhiên (Natural Language Processing), tc là v n nhn
dng ting nói ph thuc vào ngôn ng nói. Do vy ngôn ng nhn dng ting Vit rt
khác so vi ting Anh và các th tingkhác. Mt ví d  có th hình dung,
nu s dng các engine nhn dng ting Anh có sn (bao gm c 
t s vi mch x lý ti
bán trên th ng) thì hiu qu i vi ting Vit là khá thp. Mt s không th phân
bin, chung Viu - tonal language,
còn ting Anh thì không), vì vy nhn dng ting Vit ch có th i Vit làm.
Nhn dng và tng hp ting nói không th da trên các mc x lý thp (signal
processing) mà còn phi kt hp x lý thông tin  các mc cao và cao nht là tri thc.
Nhn dng ting nói là mt quá trình nhn dng mu, vi mlà phân lp
u vào là tín hiu ting nói thành mt dãy tun t các m
c h trong b nh. Các m nhn dng, chúng
có th là các t, hoc các âm v. Nu các mu này là bt bii thì
công vic nhn dng ting nói tr n bng cách so sánh d liu ting nói
cn nhn dng vi các mc h trong b nhn ca
nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit
ln gia ting nói ca nhi nói khác nhau, t nói, ng cng
âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

2
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
nhi vi nhn dng ting nói là rt quan trng.
ây là mt nhim v r  vi các k thut xác sut thng kê
mc tng quát hoá t các mu ting nói nhng bin thiên
quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói

da trên ba nguyên tn:
 Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung
thi gian ngn (short-term amplitude spectrum). Nh vy ta có th trích ra các
m ting nói t nhng khong thi gian ngm này
làm d li nhn dng ting nói.
 Ni dung ca tic biu dii dng ch vit, là mt dãy các ký
hiu ng a mc bo toàn khi chúng ta phiên
âm phát âm thành dãy các ký hiu ng âm.
 Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng 
 trong quá trình nhn dng ting
nói, nht là khi thông tin v âm hc là không rõ ràng.[1]
1.1.2. Tng quan tình hình nghiên cu
Tin giao tin nht ci, nó hình thành và
phát trin song song vi quá trình tin hóa ci vi, s dng
li nói là mt cách din và hiu qu nhm ca vic giao tip
bng tic tiên là  t giao tip, ting nói t i nghe
hiu ngay lp tc phát ra. Ngày nay, nh s phát trin ca khoa hc k
thut, máy móc dn dn thay th  u khin máy
móc, coi phi làm khá nhiu thao tác tn nhiu thi gian và cn ph
tu này gây tr ngi vi vic s dng các máy móc, thành tu khoa
hc k thuu khin máy móc thit b bng ting nói s d dàng
 cu khin máy móc thit b bng ting nói càng bc thii vi
các thit b cn tho máy tính có
th c tic nhn dng ting
a th k c nhng thành t, và có
nhng ng dng hu ích thit thc vào trong cuc s 
hiu ca máy tính vn còn nhiu hn ch và khong cách khác xa so vi thc t. Mt
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

3

HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
khác, nhn dng ting nói ch c phát trin trên các th tii
vc ta nhn dng ting nói vn còn là mc khá mi m.
1.1.2.1. NgoƠi nc
Hin nay, trên th gii có rt nhiu h thng nhn dng ting nói c
ng dng rt hiu qu Via Voice ca IBM, Spoken Toolkit ca CSLU (Central of
Spoken Laguage Understanding) trong ting Anh,    c trong h
thng ca ting Nht, mô hình MFGI (Mixdorff  Fujisaki model of German
Intonation) trong tic,
S phát trit bc ca công ngh vi x lý và công ngh x lý ting nói trong
nh ra rt nhiu nhng ng d nht là
các h thng giao tip, hn thoi. Có th k tên mt s
ng dng n
 Quay s bng ging nói.
 Truy cp thông tin bng gin thoi.
 H thng h tr y t n thoi.
 ng dng truy vn thông tin trong ngân hàng.
 ng dng chuu tr bnh t xa.
Theo thng kê và d báo v th ng công ngh thông tin và truy
2009, chi tiêu cho nghiên cu, phn cng, phn mn công ngh x lý
ti git con s 5 t -la M.
Công ngh x lý tii h thng,
không còn bó buc trong cách thn thn
thoi) mà chuyc tip bng ging kinh t
cnh tranh, các ng dng dn dn sang tích h
thanh. Vic ng dng và khách hàng có th i nhau thông qua âm thanh
i b giao di ha truyn thng mà nó cung cp thêm mt
cách truy cp thông tin và dch v tin li, t 
Mt s ng di s giao tip gia khách hàng và h thng

vi s ng ln, có tích h  thng giao
tip, h ng, các h thng dn
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

4
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
khách hàng th t c phi làm bng cách phát ra các ch dn, li nhc thông
qua các tc hoc qua b tng hp ting nói nu ni dung
không c nh. Khách hàng dùng li nói cung cp thông tin cho h thng, h thng
x lý thông tin, truy xu d liu ri gi phn hi dng âm thanh
ti khách hàng.
1.1.2.2. Trong nc
Trong nhi  t s các hãng công ngh ln trên th gi   
nghiên cu v c này song kt qu c còn khá khiêm tn, ch có mt s ít
công ty có chíp nhn dng ting nói tin
b gii hn v s t vng và ng dng.  Vit Nam, v nghiên cu thit k cu
trúc vi mch nhn dng ting Vit vn còn b ng, mng công ngh
ên phát trin.
Phm vi ng dng h thng nhn dng ting nói ting Vic
s dng  các công ty, tn thông l
t ít và có nhiu hn ch, tuy nhiên t s mô hình nhn dng
tic xây d
           
Khang[9]:

 TS. 
[10]: 
       



90%.
 
[11]:
              
.
 t k chíp nhn dng ting nói Vit Nam trên nn công ngh 
ca nhóm nghiên ci hc Bách khoa thành ph H Chí Minh do TS. Hoàng
ng nhóm i
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

5
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
thut phc tp trong nhn dng ting Vit. Trên phn cng, có ba v rt quan trng
cn quan tâm, bao g chính xác nhn dng, tài nguyên phn cng và t tính
toán. Ba yu t c cân nhc chn la k bi khó có th c t
trên cùng lúc c ba yu t trên.


                


 
            VQ và mô hình
 
máy tính   thông qua Board Arduino Mega 2560.
1.2. Mc tiêu vƠ đi tng nghiên cu ca đ tài
1.2.1. Mc tiêu
 tài có nhng m

 Nghiên cu h thng nhn dng ting nói bng ting Vit .
 Nghiên cu thu ng d
ting nói ting Vit.
 Nghiên c   ng t   ng dng vào mô hình nhn
dng ting nói ting Vit.
 Nghiên cu mô hình Markov n HMM ng dng vào hun luyn và nhn
dng ting nói ting Vit.
 Thit k và thi công robot mi th hin cm xúc.
 Thit k giao din phn mm nhn dng và phn cu khin robor mt
i th hin cm xúc.
1.2.2. Đi tng nghiên cu
 Lý thuyt nhn dng ting nói.
 Thut toán MFCC và ng dng.
 ng t vector VQ và ng dng.
 Mô hình Markov n HMM và ng dng.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

6
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
 Board Arduino Mega 2560.
1.3. Nhim v và gii hn ca đ tài
1.3.1. Nhim v
 Nghiên cng Vit.
 Nghiên cu công ngh phân loi ting nói  ting Vit.
 Nghiên c lý, lc tín hiu liên tc, ri r
     (MFCC), phân loi, nhn dng tín hiu ting nói
(Hidden Marko Models ).
 Chn la hàm mô hình Markov n  thit k giao din nhn dng các tp
lnh cng u khin - Robot th hin cm xúc.

 Tìm hiu các phn mm l
 Vit code mô phng trên máy tính, code th  u khin cho Board
Arduino Mega 2560.
 Thit k và thi công mô hình Robot mi th hin cm xúc.
 Vn hành th mô hình h thng.

1.3.2. Gii hn
 ng Vit có nhiu âm tit và thanh nhn nên vic nhn dng s
i các ngôn ng khác. Ngoài ra, còn có s khác bit v ging nói
gia các vùng, s khác bit v ging nói trong các ng c
n d
trong vic nhn dng tài ch thc hin  vic nhn dng t 
 Vì thi gian có hhn thit k và thi công mô hình
thc nghim ch dng li  dng là mc ra lnh
phc t robot thc hin nhim v phc tp b hn ch.
 u king, kt qu nhn dc 100%
1.4. Phng pháp nghiên cu
i thc hi  d
 u tài liu: các tài lin nhn dng ting
       ng t vector VQ, mô hình
Markov    m ting Vit. Các tài liu liên quan v lp trình
C/C++ và Matlab .
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ

7
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan
        m ting Vi   trích
chng t vector VQ, mô hình Markov n
HMM trong nhn dng ting Vit.

 o ý kin ca chuyên gia v trích chc
  ng t vector VQ, mô hình Markov n HMM trong nhn
dng ting nói ting Vit, và kh ng dng vào thc t.
 c nghim: thc nghim vic nhn dng ting nói ting Vit
trên máy tính và xut ra board u khin Robot mi th hin cm xúc.
1.5. Ni dung lun văn
N tài gm các phn sau:
Chng 1: Tng quan
 Tng quan chung v c nghiên cu.
 Mng nghiên cu.
 Nhim v và gii hn c tài.
 Pu.
Chng 2: Đc trng ting nói ting Vit
 Phân tích tng quan v ting nói.
 n ca ting Vit.
Chng 3:Mô hình nhn dng ting nói ting Vit
 Phân loi các h thng nhn dng ting nói.
 Các yu t n kt qu nhn dng ting nói.
 Cu trúc ca h nhn dng ting nói.
 Gii thut h thng nhn dng ting nói ting Vit.
 
 ng t vector VQ.
Chng 4:Mô hình Markov n HMM
  lý thuyt v mô hình Markov n HMM.
 ng dng mô hình Marko n HMM vào nhn dng ting nói ting Vit.
Chng 5: Thit k phn cng và mch điu khin Robot
 Tng quan v phn cng ca h thng và cách la chn thit b.
 Gii thiu khin.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


8
HVTH: NGUYN THÀNH CHUNG
Cểương 1.Tổng quan

Chng 6: Thit k h thng nhn dng và phn mm giao din nhn dng
 Xây dng thut toán tin x lý ting nói ting Vit .
 Xây dng thut toán trích chng nói ting vit MFCC.
 Xây dng thung t vector VQ
 Xây dng thut toán mô hình Markov n .
 Xây dng thut toán hun luyn và nhn dng ting nói ting Vit .
 Phn mm giao din nhn dng.
Chng 7:Kt lun
 Nhng mc.
 Hn ch c tài
 ng phát tri tài.
1.6 . ụ nghĩa thực tin ca đ tài
  tài thuc nhóm nghiên cu lý thuyt và ng dng trin khai. Sn ph
tài có tính m, có th áp dng cho nhing khác nhau trong
công nghing.
  tài nghiên cu có th c s dng làm tài liu nghiên cu và ging dy
cho i hc và cao hin  in
tin t vin thông,
 ng dng mô hình nhn dng ting nói ting Vit trong các h thng nhn
du khin thit bng ting nói ting Vit.



Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ



9
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
Chng 2:
ĐC TRNG TING NÓI TING VIT

Tín hiu tic xem là tín hiu ngu nhiên vì chúng ta không th xác
 và tn s ca tín hiu tic nói. Tuy nhiên, mi t
ca ting nói li cha nhng thành ph y
ving nói là quá trình quan trng trong h thng nhn dng ting
nói. Các h thng nhn dng s phân bit các t khác nhau trong ting nói da trên
a mi tng
tín hiu ting nói ca mi t thành các thông s  m
gim nh công vic nhn d chính xác cho h thng nhn dng.
2.1. TNG QUAN V TING NÓI:
Ting nói là mt loi sóng âm. Khi chúng ta nói, ti  c truy
i dng truyi nghe. M
truyn tin ca tic xem là nhanh nht trong các kh  nhiên ca
i.
Tín hiu ting nói cha các thông tin có tn s tp trung trong khong t 4kHz
tr xung tn s chng ch yu ca tín hiu
ting nói.
Trong khong thi gian dài, tín hiu ting nói là tín hiu không d
trong khong th ngn tín hiu tiu dng.
i vi quá trình nhn dng ting nói, thì ngoài vic nha
ting nói thì quá trình hc thích nghi vi ci
rt quan trng.
2.2. Các đc trng c bn ca Ting Vit:
2.2.1. Âm tit:

Ting vit có nht so vi các ngôn ng khác trong cách
  nh nht ca ting Vit là
âm tit (ting), âm tit có nh
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


10
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
 c lp: tc là mi âm tit là mt thành phn nh, chúng rõ ràng và
tách bit vi nhau, mi t i din cho mt âm tit duy nht.
 Không có hing ni âm: trong ting Vii nói, nói nhanh hay
nói chm thì mi t u riêng l, không có s ni âm hay nut âm
u này làm cho ranh gii gia các âm tit rõ ràng
vi nhau, không có s chng lp gia các t.
 Ting vit có hai loi t là t  ghép. T  c to t mt
âm tit, t ghép là t c to t nhiu t  ng hp
mi t , vic ghép các t 
mt t  nhn dng t ghép tr nên khó

Khi phát âm mt âm tit ca b u tri qua ba giai
 ng và gi 
Da vào cách kt thúc, các âm tit ting Vic chia thành hai loi ln là
âm tit m và âm tit khép. Trong mi loi li có hai loi nh y có bn
loi âm tit trong ting Vi
 Âm tit na khép: là nhng âm tic kt thúc bng mt ph âm vang

 Âm tit khép: là nhng âm tic kt thúc bng mt ph âm không vang


 Âm tit na m: là nhng âm tit kt thúc bng m

 Âm tit m: là nhng âm tic kt thúc bng cách gi nguyên âm sc
ca nguyên âm  nh âm ti
Âm tit ting Vit có mt cu trúc cht ch, nó không ch là m v ngôn
ng n mà còn là m t vng và ng pháp ch yu. Mô hình cu
trúc tng quát ca mt âm tit ting Vic th hin trong bng 2.1.


Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


11
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit
u
u
Vn
m
Âm chính
Âm cui

2.2.2 Âm v:
Mt ting nói gm mt chun gi là âm v. Xét v mc ng âm,
âm v  nh nht ca ting nói, là m trng mà chúng ta không
th quan sát trc tip trong tín hiu ting nói. Mi âm v có hai ch
 Cu to nên v âm thanh c 
 Phân bit v âm thanh c 

Ví d v t  
2.2.3. Nguyên âm và ph âm:
 Nguyên âm:
Nguyên âm là mt âm thanh trong ngôn ng c phát âm vi thanh qun
m t không khí trên bt c m nào ca thanh
môn, ca b phn cu âm, vì vm cu âm.
ng Vi
gi là nh âm. Trong ting vit có 16 âm v 

 Ph âm:
Ph c to ra do lu chn  m phn cu
âm khi phát âm, vì vy ph m cu âm. Khi phát ph â 
ng tp trung  m cu âm. Ph c chia làm các lon sau:
 Ph âm bc phát ra t s phá v các cn tr và c xát
gia hai mép dây thanh. Ví d ph âm b
 Ph c phát ra t luc to ra và thoát
ra ngoài nh nhàng         
chu c ng ca khoang    c gi là âm
vang. Ví d v ph 
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


12
HVTH: NGUYN THÀNH CHUNG
Cểương 2. Đặc trưng tỄếng nói Tiếng
Việt
 Ph  cn tr không hoàn toàn, phi lách ra
mt khe h nh giu âm, gây nên ting c xát nh. Ví
d v ph 
2.2.4. Thanh điu:

     a ting Vit nói riêng và các ngôn ng
tiu nói chung so vi các ngôn ng 
u là mt thành phn ng âm, không phi là nhn ging, giúp phân
bit các t ng âm.
i ta phân biu da vào hai yêu t u và âm vc. Âm
u là s i tn s n ca thanng nét cu, còn
âm vc là min giá tr ca tn s n.
Trong ting Vit tng c
 Thanh ngang: âm phát ra bng phng và không có lên hay xung t u
n cui âm.
 Thanh huyn: âm phát ra bng ph  ng v phía cui âm
mn.
 Thanh h     ng  gia thanh ri li tip t  n
ngang vm bu.
 Thanh su t thp và có th lên rt cao, và
cui cùng kt thúc bng mt nét tt ging.
 m bu thp và không bng phn
dc b t quãng do thanh hu nghn li to nên khon  gia
thành và cui cùng li lên cao nhanh chóng.
 Thanh nng: âm phát ra bu thp và t t xung tha ri cui
cùng kt thúc bng mt nét tt ging.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


13
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Chng 3:
MÔ HÌNH NHN DNG TING NÓI TING VIT


3.1. Phân loi các h thng nhn dng ting nói:
3.1.1. Nhn dng t liên tc và nhn dng t cách bit:
Mt h nhn dng ting nói có th là mt trong hai dng: nhn dng liên tc và
nhn dng t cách bit. Nhn dng liên tc tc là nhn dng tic phát liên
tc trong mt chui tín hiu, chng ht câu nói, mt mnh lnh hoc mt
c bi dùng. Các h thng loi này rt phc tp, chúng phc
tp  ch các t c phát liên tc gây c x lý kp nu cn thi
gian thc, hoc khó tách ra ni nói liên tc không có khong ngh. Kt
qu tách t ng rt lc sau, cn phi x lý tht tt trong quá
trình tách t.
Trái li, vi mô mình nhn dng t riêng l, mi t cn nhn dc phát
âm mt cách ri rc, có các khong ngh c và sau khi phát âm mt t. Mô hình
n dng liên tng thng
ng dng thc tiong các h thu khin bng ging nói, quay s bng
gii  chính xác khá cao, tuy nhiên khó áp dng rng rãi so vi mô
hình nhn dng liên tc.
3.1.2. Nhn dng ph thuc ngi nói vƠ đc lp ngi nói:

i vi nhn dng ph thui nói thì mi mt mô hình nhn dng ch
phc v c cho mi, và mô hình s không hii khác nói gì n
c hun luyn li t  thng nhn dc
chp nhn rng rãi vì không ph kh n thc và nht là kiên
nh hun luyn h thc bit là h thng loi này không th ng dng 
ng.
c li, h thng nhn dc lng dng
rc hu ht các yêu c  thng
y gp mt s v, nh chính xác ca h thng.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ



14
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Trong thc t, mi có mt ging nói khác nhau, thm chí ngay cùng mt
ng nói khác nhau  nhng thm khác nhau này nh
ng rt l n vic nhn dng, nó làm gi chính xác ca h thng nhn
dng xung nhiu l khc phc khuym này, h thng nhn dng
c li nói cc thit k phc tng d liu hun luyn
ln u li thic bao nhiêu chng
nhn dc t có mt cách gii quyc li nói.
c hin bng cách thu mu mt s ng ln các ging nói khác
bit nhau. Khi s dng, h thng s u chnh cho phù hp vi ging ca
i dùng, bng cách nó hc thêm mt vài câu có cha các t cn thit.
Nhn dc lt nhiu so vi nhn dng ph thuc
i nói. Cùng mt t, mi, dù có c gng phát âm cho tht gia thì
 khác bii vi b i, mt h thng hoàn ho, thì s khác
bi c b qua do ng cnh, và do có phn x lý làm m a não.
i vi máy tính thì rt khó xây dc mt mô hình gii quyt cho tt
c ng hp khác bi

Hình 3. 1: i nói khác nhau s phát âm khác nhau
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


15
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt


Rút trích




nhóm
Mô hình

Mô hình




Rút trích










Hình 3. 2: Mô hình nhn dng tic li nói
3.2. Các yu t nh hởng đn kt qu nhn dng ting nói:

Vic nhp d liu ting nói thc hin d i d liu khác do tính
c trong khi vc vi

phc tp ca d liu ting nói, nên vic nhn dng ti phc tp cao
i các h thng nhn dng khác. Vì vy, h thng nhn dng ting nói có
rt nhiu yu t n kt qu ca quá trình nhn d
 S  i dùng: s  i dùng càng ln thì h thng nhn
dng phc thit k sao cho có th nhn dc nhii khác
 chính xác nhn dng càng cao khi h thc thit k
cho s i s dng càng ít.
  c ca b t v  c ca b t vng càng ln thì h
thng nhn dng cn phân bit rõ gia các t trong b t vng vi nhau, do
c ca b t vng càng nh  chính xác ca h thng
nhn dng càng ln.
 Tic thu âm mt cách ri rc trong nhng khong th
l chính xác ca h thng nhn dc thu
mt cách liên ty, vic nhn dng các t ng chính xác
i vic nhn dng mt câu nói liên tc.
 H thng nhn dng nhiu, nhiu tp âm s làm gi
i trong p âm.
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


16
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
 Thit b n kt qu ca h thng nhn
dng, vi nhng thit b thu âm kém chng có th làm mt mát thông
tin, sai l  thng nhn dng s khó nhn dng
chính xác 
3.3. Cu trúc h nhn dng ting nói:


Hình 3.3trình bày cu trúc nguyên lý ca mt h nhn dng ting nói. Tín hiu
tic hc x lý bng cách áp dng quá trình trích chvà
quá trình tin x lý. Kt qu c sau quá trình trích chp các
c to dng thành mt vector.
  


Vector







Hình 3. 3:Cu trúc tngquát ca mt h thng nhn dng ting nói
Vic ht thc hin bng vic hun luyn xây d
 d so sánh vi các tham s  thc hin vic nhn dng.
Trong quá trình hun luyn h th th
ng các tham s ca mu tham kho. Mt mu tham kho có th mô phng
mt t, mc m tic vào nhim v ca
h thng nhn dng, quá trình hun luyn h thng s bao gm mt quá trình x lý
ít phc tp hoc nhiu phc tp.
Vic trích chu và xây dng mt mô hình tham kho là
mt quá trình tn thi gian và là mt công vic phc tp.
Trong quá trình nhn di các
mu tham kh th ng cc
u thm kho hoc chui các mu tham kho. Vi ging
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ



17
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
c tính toán bng cách áp dng các thut toán hiu qu. Mu hoc
dãy m ng cao nhc cho là kt qu ca quá trình nhn dng.
Hin nay, có nhiu tic
. Trong lu dc
 ng Vit cho mô hình nhn dng.
3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n:

 xây dng mô hình nhn dng ting nói ting nói ting Vit có rt nhiu
công c khác nhau. Mt trong nhng công c c ng dng cho vic xây dng mô
hình nhn dng ting nói ting Vit là mô hình Markov n HMM.




?




Y
N


Hình 3. 4 gii thut h thng nhn dng ting Vit dùng Markov n
Tín hiu tic

a ting t  gim bt s ng các quan sát cho chui
c s d hun luyn mô hình nhn dng dùng
Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ


18
HVTH: NGUYN THÀNH CHUNG
Cểương 3. Mô ểìnể nểận dạng tiếng
nói Tiếng Việt
Markov n, hoc làm thông s u vào ca mô hình Markov  phân tích và tr
kt qu nhn dng.
3.5. Voice Acivation Detection (VAD):

Tín hiu ting nói sau khi thu âm qua microphone s c mt s ng
mu nhnh.
 tài chn tn s ly mu tín hiu là 8kHz, mi ln thu âm khong 2
giây. Tuy nhiên, vi tn s ly mu là 8kHz thì ta có 8000 mu/1 lc
thì không phi toàn b n nhiu trong s này là các
khong lng (silences). Do vc khi m      c
 tách lng thi loi
b các khong l c s d xén các khong lng  c
và sau ca mt ln phát âm.

Hình 3. 5n mu âm tc khi VAD

Hình 3. 6n mu âm thanh sau khi VAD
Tín hin, mn có L m tài
này chn K = 160 mu vi F
s
0ms cho mn.

ng E
s
s c tính cho mn bi công thc (3.1):

×