Tải bản đầy đủ (.pdf) (141 trang)

Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của Tiếng việt theo phương thức phát âm220

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.57 MB, 141 trang )

B GIÁO DO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Ngọc Hưng

NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM

Chuyên ngành: Hệ thống thông tin
Mã số: 62480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang

Hà Nội - 2017


LỜI CAM ĐOAN
 tt c các ni dung trong lun dng t ng ting nói
phát âm liên t  chính ca ting Vit  là
cơng trình nghiên cu c a riêng tôi. Các s liu, kt qu trong lun án là trung th c và
  c công b trong bt k  cơng trình nào khác    c
công b trong lun án này. Vic tham kho các ngun tài li c thc hin trích dn
và ghi ngun tài liu tham khnh.
™. TP TH NG DN KHOA HC

TÁC GI LU N ÁN



PGS.TS. Tr

Phm Ng

2


LỜI CẢM ƠN
Tơi xin bày t lịng bii hc Bách khoa Hà Ni, Vin Công ngh
Thông tin và Truyn thông, B mơn K thut máy tính, B mơn H tho
u kin thun li cho tơi trong q trình hc tp tng.
Tôi mun gi li c  c bit ti tp th ng dn trc tip là
PGS.TS. Trn Hng Quang. Hai Th,
ng li khun, nhng khoa hc r tơi có th trin khai
và hồn thành cơng vic nghiên cu ca mình.
Xin chân thành c      ng nghip trong B môn H thng
Thông tin, B môn K thut máy tính, Vin Cơng ngh Thơng tin và Truyn thơng,
i hc Bách khoa Hà Ni  i hc tp, thc hi  tài nghiên c  t
 ng viên tôi trong sut q trình nghiên cu.
C Khoa Cơng ngh Thơng tin và Tng i h  m K thut 
Yênu kin cho tơi trong sut q trình nghiên cu và
hồn thành lun án này.
Vi t m lòng bin các thy cô, các nhà khoa hng nghip và bn bè
thân h tơi trong q trình nghiên cu.
Cui cùng tơi mun bày t lòng bi c tng và là
ngung l t mi tr ng hoàn thành lun án này.

Phạm Ngọc Hưng


3


MỤC LỤC
MC LC ............................................................................................................................. 4
GII THÍCH CÁC KÝ HIU VÀ CH VIT TT............................................................ 7
DANH MC CÁC BNG .................................................................................................. 10
DANH MC CÁC HÌNH  TH .......................................................................... 12
M U ............................................................................................................................. 14
1.

TNG QUAN V NHN DNG TING NÓI VÀ NHN DNG
19
1.1.

Nhn dng ting nói .............................................................................................. 19

1.1.1.

Tng quan v nhn dng ting nói ................................................................ 19

1.1.2.

Lch s phát trin và các tin b trong nghiên cu nhn dng ting nói ...... 20

1.1.3.

Các thách thi vi nhn dng t ng ting nói ..................................... 21

1.1.4.


Phân loi h thng nhn dng t ng ting nói ........................................... 22

1.2.

Nhn d......................................................................................... 24

1.2.1.

Các mơ hình nhn d ............................................................. 24

1.2.2.

Nhn d n khác nhau............................. 25

1.3.

Nghiên cu nhn dng ting nói và nhn d ting Vit ............... 30

1.4.

Mt s mơ hình nhn dng ................................................................................... 31

1.4.1.

Mơ hình GMM .............................................................................................. 31

1.4.2.

B phân lp SVM .......................................................................................... 33


1.4.3.

Mn to .................................................................................... 39

1.5.

K............................................................................................................ 43

2. XÂY DNG B  NG LIU CHO NGHIÊN CU NHN D
TING VIT ....................................................................................................................... 45
2.1.

T ting Vit ........................................................................ 45

2.1.1.

  ting Vit........................................ 45

2.1.2.

m ng  chính ca ting Vit ....................... 46

2.1.3.

S khác bit v t vng và ng  ting Vit 47

2.2.

Cu trúc âm tit, âm v  ting Vit ........................................... 49


2.2.1.

Âm tit và âm v trong ting Vit .................................................................. 49

2.2.2.

m và cách kt h ............................. 53

4


2.3.

Ph  ting Vit ............................................................. 54

2.3.1.

H thng ph u ..................................................................................... 54

2.3.2.

So sánh h thng ph  Bc-Trung-Nam ................... 56

2.4.

H thu và các bin th  ting Vit ...................... 56

2.4.1.


H thu Hà Ni .......................................................................... 57

2.4.2.

H thu Ngh - ...................................................... 57

2.4.3.

H thng và Thành ph H Chí Minh .......................... 58

2.4.4.

Mt s nhn xét v h thu cá ............................. 59

2.5.

ng c ti nhn dng ting nói ........................................... 60

2.6. Ng li trên th gii và xây dng b ng liu dùng cho nhn dng
 ting Vit ..................................................................................................... 60
2.6.1.

ng b ng li ting Vit ......................... 62

2.6.2.

Chun b và chun ..................................................................... 62

2.6.3.


Ghi âm ........................................................................................................... 64

2.6.4.

Kt qu c tính VDSPEC ............................................................ 67

2.7.

2.7.1.

Bin thiên tn s u c .................. 68

2.7.2.

Phân tích thng kê phân b F0 cu........................................ 70

2.7.3.

Phân tích d liu dùng LDA .......................................................................... 72

2.8.
3.

Phân tích mt s  ting Vit ca b ng liu VDSPEC .... 68

K............................................................................................................ 76

NHN D TING VIT .......................................................... 78
3.1.


Nhn d ting Vi t vi GMM ...................................................... 78

3.1.1.

Công c th nghim nhn d ALIZE .................................... 78

3.1.2.

L a chn s ng h s MFCC.................................................................... 80

3.1.3. Th nghim nhn d   ting Vi  ng hp kt hp
MFCC vi tham s F0 ................................................................................................. 81
3.1.4. Th nghim nhn d   ting Vi  ng hp kt hp
formant, dng và tham s F0 .............................................................. 84
3.1.5.  ng ca s ng thành ph  i vi hi  n d ng
 ting Vit ................................................................................................. 85
3.2.

SVM nhn d ting Vit ............................................................... 87

3.2.1.

B phân lp SMO .......................................................................................... 87

5


3.2.2.
3.3.


Th nghim nhn d ting Vit s dng SMO ..................... 88

lBk nhn d ting Vit .................................................................. 92

3.3.1.

B phân lp IBk ............................................................................................ 92

3.3.2.

Kt qu nhn d ting Vit s dng IBk ............................... 95

3.4.

Nhn d ting Vi t vi b phân lp MultilayerPerceptron .......... 96

3.4.1.

B phân lp MultilayerPerceptron trong Weka ............................................ 96

3.4.2.

MultilayerPerceptron nhn d ting Vit .............................. 96

3.5.

JRip nhn d ting Vit ................................................................ 97

3.5.1.


B phân lp JRip ........................................................................................... 97

3.5.2.

Nhn d ting Vi t vi JRip .................................................. 98

3.6.

Nhn d ting Vi t vi PART ...................................................... 99

3.6.1.

B phân lp PART ........................................................................................ 99

3.6.2.

Kt qu dùng PART nhn d ting Vit ............................... 99

3.7.

K............................................................................................................ 99

4. CI THIN HI  N DNG TING VIT VI THÔNG TIN V
 ................................................................................................................ 102
4.1.

HMM nhn dng ting Vit nói .......................................................................... 102

4.1.1.


Mơ hình HMM ............................................................................................ 102

4.1.2.

HMM nhn dng ting Vi chính........................ 115

4.2.
ng

Ci thin hi n dng ting Vit nói thơng qua s d
120

4.2.1.

Mơ hình nhn dng ting Vit nói vi vic s d 120

4.2.2.

Nhn dng ting Vi .............................. 122

4.3.

K.......................................................................................................... 123

KT LUN VÀ KIN NGH ........................................................................................... 125
TÀI LIU THAM KHO ................................................................................................. 128
DANH MC  CA LUN ÁN ............................ 140

6



GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Chữ viết đầy đủ

Giải thích

AANN

Auto-Associative Neural Network

AM

Acoustic Model

Mơ hình âm hc

ANN

Artificial Neural Network

M-ron nhân to

ARFF

Attribute-Relation File Format

nh dng file tham s 
trong Weka


ASR

Automatic Speech Recognition

T ng nhn dng ting nói

BKSPEC

Bach Khoa SPEech Corpus

B ng lic phát trin ti B
môn K thut Máy tính  Vin
Cơng ngh Thơng tin và Truyn
thơng  i hc Bách khoa Hà Ni

BKTC

Bach Khoa Text Code

BMMI

Boosted Maximum Mutual
Information

 c
ng

CD


Concept Description

Mô t khái nim

CFG

Context-Free Grammar

Ng pháp phi ng cnh

CMS

Cepstral Mean Subtraction

Tr trung bình Cepstral

CMU SLM

Carnegie Mellon University
Statistical Language Modeling
Toolkit

B cơng c mơ hình hóa ngơn ng
thng kê cng Carnegie
Mellon

DCF

Detection Cost Function


Hàm giá phát hin

DET

Detection Error Tradeoff

Cân bng sai s phát hin

DL

Descrition Length

 dài mô t

DNN

Deep Neural Networks

M-ron sâu

ELRA

European Language Resources
Association

Hi tài nguyên ngôn ng châu Âu

EM

Expectation Maximization


Ci hóa k vng

ERM

Empirical Risk Minimization

Ti thiu hóa ri ro theo kinh
nghim

F0

Fundamental frequency

Tn s n

fMLLR

feature-space MLLR

fMMI

feature-space MMI

fMPE

feature-space Minimum Phone Error

FST


Finite-State-Transducer

Chuyn trng thái hu hn

GMM

Gaussian Mixture Model

Mơ hình hn hp Gauss

7


HLDA

Heteroscedastic Linear Discriminant
Analysis

Phân tích phân bit tuyn tính hip
ng nht

HMM

Hidden Markov Model

Mơ hình Markov n

HTK

Hidden Markov Model Toolkit


B cơng c mơ hình Markov n

IBk

Instance Based k

Tên gi b phân lp k láng ging
gn nht trong Weka

IBL

Instance Based Learning

Hc dng

IREP

Incremental Reduced Error Pruning

JRip
KKT

KarushKuhnTucker

u kin KarushKuhnTucker

k-NN

k-Nearest Neighbour


K láng ging gn nht

LDA

Linear Discriminant Analysis

Phân tích phân bit tuyn tính

LDC

Linguistic Data Consortium

H liu ngơn ng

LLR

Log Likelihood Ratio

LPC

Linear Prediction Coding

MAP

Maximum a Posteriori

MFCC

Mel Frequency Cepstral Coefficients


MHAH

Mô hình âm hc

MHNN

Mơ hình ngơn ng

MLLR

Maximum Likelihood Linear
Regression

MLLT

Maximum Likelihood Linear
Transforms

MMI

Maximum Mutual Information

MPE

Minimum Phone Error

Cc tiu hóa li âm

NIST


National Institute of Standards and
Technology

Vin Tiêu chun và Công ngh
Quc gia ca M 

NLP
NN

N
lL
P
Neural Networks

X lý

n tính

i

Các h s 
tn s Mel

ơ



hiê


PART
PCA

Principal Component Analysis

Phân tích các thành phn chính

PLP

Perceptual Linear Prediction

m th tuyn tính

PNB

 Bc

PNN

 nam

PNT

 Trung

8


PPR


Parallel Phone Recognition

PPRLM

Parallel Phone Recognition followed
by Language Modeling

PRLM

Phone Recognition followed by
Language Modeling

QP

Quadratic Programming

Quy ho

RBF

Radial Basis Function

ng Gauss

RIPPER

Repeated Incremental Pruning to
Produce Error Reduction

RM


Risk Minimization

Ti thiu hóa ri ro

SAT

Speaker Adaptive Training

Hun luyi nói

SBS

Sequential Backward Selection

La chn lùi lt

SFS

Sequential Forward Selection

La chn tin lt

SMO

Sequential Minimal Optimization

Thut gii tc tiu ln
t


SRILM

Stanford Research Institute
Language Modeling

B cơng c to mơ hình ngơn ng
SRI

SRM

Structural Risk Minimization

Ti thiu hóa ri ro cu trúc

SVM

Support Vector Machines

Máy véc- tr

TTS

Text-to-Speech

n thành ting nói

VDSPEC

Vietnamese Dialect Speech Corpus


B ng li ting Vit

VTLN

Vocal Tract Length №rmalization

Chun hóa chiu dài tuyn âm

WER

Word Error Rate

T l li t

9


DANH MỤC CÁC BẢNG
Bng 2.1: S khác bit gi v t và cách s dng t.............................. 48
Bng 2.2: Cu trúc âm tit ting Vit .................................................................................. 50
Bng 2.3: H thng ph u ............................................................................. 51
Bng 2.4: B ................................................................ 52
Bng 2.5: Cách th hin bng ch vit các nguyên âm ....................................................... 52
Bng 2.6: V trí các âm v trong h thng âm cui.............................................................. 53
Bng 2.7: H thng ph u  Bc B .......................................................................... 55
Bng 2.8: So sánh các h thng ph u gia PNB, PNT và PNN ............................... 56
Bng 2.9: Phân lou theo truyn thng............................................................... 56
Bn theo ch  ............................................................................ 63
Bng 2.11: T ch liu ca ng liu VDSPEC ...................................................... 67
Bng 2.12: Thng kê thng ghi âm c .......................... 67

Bng 2.13: Thng kê thng ghi âm ca VDSPEC theo ch  ................................... 68
Bng 2.14: Ng cnh chn t khu .............................................................. 69
Bng 3.1: Kt qu nhn dng dùng GMM vi các tham s MFCC, F0 và các giá tr chun
hóa t F0 .................................................................................................................... 83
Bng 3.2: Ma trn nhm ln nhn d không ph thuc gii tính khi s  dng
h s MFCC kt hp vi tham s F0 ......................................................................... 83
Bng 3.3: Kt qu th nghim nhn d ting Vi ng hp kt hp
formant, dng và các tham s F0....................................................... 85
Bng 3.4: T l nhn dng trung bình vi s ng thành phn Gauss khác nhau ............. 87
Bng 3.5: B phân lp SMO, kt qu nhn dng vi 384 tham s ..................................... 89
Bng 3.6: B phân lp SMO, ma trn sai nh m vi 384 tham s ....................................... 90
Bng 3.7: B phân lp SMO, kt qu nhn dng khi khơng có thơng tin liên quan trc ti p
F0 ............................................................................................................................... 90
Bng 3.8: B phân lp SMO, ma tr n sai nh m khi không c thông tin liên quan tr c tip
F0 ............................................................................................................................... 90
Bng 3.9: B phân lp SMO, kt qu th nghim khi ch dùng tham s liên quan trc ti p
F0 ............................................................................................................................... 91
Bng 3.10: B phân lp SMO, ma tr  n sai nh m khi ch s dng
 tham s liên quan trc
tip F0 ........................................................................................................................ 91
Bng 3.11: B phân lp SMO, kt qu nhn d ng khi ch dùng tham s liên quan trc tip
MFCC......................................................................................................................... 91
Bng 3.12: B phân lp SMO, ma tr n sai nh m khi ch dùng tham s  liên quan trc tip
MFCC......................................................................................................................... 91
Bng 3.13: Thut gii IBl, CD  Concept Description [8] .................................................. 93

10


Bng 3.14: Mô t thut gii k-láng ging gn nht ............................................................. 94

Bng 3.15: B phân lp IBk, kt qu nhn dng vi k = 1 ................................................. 95
Bng 3.16: B phân lp IBk, ma trn sai nh m vi k=1 ..................................................... 95
Bng 3.17: B phân lp IBk, kt qu nhn dng vi k=5 ................................................... 95
Bng 3.18: B phân lp IBk, ma trn sai nh m vi k=5 ..................................................... 96
Bng 3.19: Kt qu nhn d ting Vit dùng MultilayerPerceptron ........... 97
Bng 3.20: Ma trn sai nh m nhn d
dng

  ting Vit
MultilayerPerceptron.................................................................................................. 97
Bng 3.21: Kt qu dùng b phân lp JRip nhn d ting Vit .................. 98
Bng 3.22: Ma tr n sai nh m khi dùng JRip nh n d  ting Vit ................ 98
Bng 3.23: Kt qu s dng PART nhn d ting Vit .............................. 99
Bng 3.24: Ma tr n sai nh m khi s dng PART nhn d ting Vit ......... 99
Bng 4.1: Phân chia tp d liu dùng cho hun luyn và th nghim .............................. 119
Bng 4.2: Kt qu nhn d ................................... 119
Bng 4.3: Kt qu nhn dt thông tin v  .................................. 122

11


DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quynh l mm .............................................................................................. 34
n luyn SVM: Chunking, Osuna và SMO ....... 38
Hình 1.3: Mơ hình m-ron ............................................................................................ 39
Hình 1.4: Bii làm mn to ra do có thiên áp bk k = bk nu uk = 0. .............. 41
-ron phi tuyn.................................................................................... 41
Hình 2.1: V m trong âm tit ..................................................................... 51
 kt hm /w/ vi các nguyên âm  PNB và PNT .......................... 54
Hình 2.3: So sánh cu trúc âm tit PNB, PNT vi PNN ..................................................... 54

 bii các ph âm ngc hóa trong PNB và PNN ................................... 55
 th h thu Hà Ni (a), Hu (b), TP H Chí Minh (c) ............... 59
Hình 2.6: S phân b các âm v trong VDSPEC ................................................................. 63
ng tn s ca SM48 ................................................................................... 64
Hình 2.8: (a) Dng sóng tín hi c ghi âm. (b) T s tín hiu trên nhi u tính theo dB và
giá tr trung bình ca t s này.................................................................................... 66
Hình 2.9: Biu ca ging n Hà Ni (a), Hu (b) và Thành ph H
Chí Minh (c) ............................................................................................................... 69
Hình 2.10: Biu ca ging nam Hà Ni (a), Hu (b) và Thành ph
H Chí Minh (c) ......................................................................................................... 69
Hình 2.11: Bin thiên F0 ca thanh hi ............................................................................... 70
Hình 2.12: Bin thiên F0 ca thanh ngã .............................................................................. 70
Hình 2.13: Bin thiên F0 ca thanh nng ............................................................................ 71
Hình 2.14: Bin thiên F0 ca thanh ngang .......................................................................... 71
Hình 2.15: Bin thiên F0 ca thanh huyn .......................................................................... 71
Hình 2.16: Bin thiên F0 ca thanh sc ............................................................................... 71
c thc hin phân lp theo LDA ............................................................ 74
Hình 2.18: Phân l dùng LDA cho thanh sc (t  ........................... 75
Hình 2.19: Phân l dùng LDA cho thanh ngang (t  ........................ 75
Hình 2.20: Phân l dùng LDA cho thanh nng (t  ........................ 75
Hình 2.21: Phân l dùng LDA cho thanh huyn (t  ...................... 75
Hình 2.22: Phân l dùng LDA cho thanh hi (t  .............................. 76
Hình 2.23: Phân l dùng LDA cho thanh ngã (t  ............................ 76
 h thng nhn d ting Vi t .............................................. 79
Hình 3.2: Th nghia chn s h s MFCC ................................................. 80
 th DET vi s thành phn Gauss (M) t n 4096.................................. 86
Hình 3.4: Hai nhân t Lagrange phng tt c các ràng buc c. . 88

12



Hình 3.5: ng gn nht .................................................................... 94
Hình 4.1: Kin trúc b nhn dng da trên HMM ............................................................ 104
Hình 4.2: Mơ hình âm v da trên HMM .......................................................................... 106
Hình 4.3: Mơ hình âm ph thuc ng cnh ....................................................................... 108
Hình 4.4: To mơ hình kt ni các trng thái .................................................................... 109
Hình 4.5: Phân cm cây quynh................................................................................... 110
Hình 4.6: Minh hi t ................................................................................................ 113
Hình 4.7: Minh ha mng nhm ln .................................................................................. 114
Hình 4.8: Ci t to ra bi h thng HTK ......................................................... 115
Hình 4.9: Mơ hình nhn dng t ng ting nói ............................................................... 116
n luyn ca Kaldi................................................................. 117
 h thng nhn dng ting Vit nói s d ....... 120
 h thng nhn dng ting nói s  d trên b ng
liu VDSPEC ........................................................................................................... 121

13


MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, vi s phát trin mnh m ca máy tính, các ng d ng ca máy tính
trong mc ca cuc sy sinh nhiu yêu c u nhn hố q
trình s du qu khai thác máy tính và các ng dng trên máy tính. Trong bi
cnh  lý ting nói nói chung và nhn dng ting nói nói riêng là v 
c quan tâm nghiên cu, phát trin ng dng nhm nâng cao hiu qu s dng ca máy
tính phc v i trong cuc sng.

Trên th gi   u nghiên cu v v      c nhiu thành
công. Nhiu sn phm hu ích t các k t qu nghiên cc ng dng trong thc t.
Riêng v nhn dng ting Vit, mu nghiên cc các thành công
nh trin khai thành các sn phm ng dng thc t vn còn nhi u mt hn
chc bi chính xác, chng nhn dn dng
ting nói nói chung, nhn dng ting Vit nói cịn gp tr ngi ln phi k  n là v v
 ting Vit.
Ting Vit có nhi khác nhau. Gi  có s khác bit
c v t vng và ng âm t ng âm là yu t quan trng  t o nên s khác bit và
    . Xét v t vng, s khác nhau có th  mt s b phn cu
thành t hay s  bi n i ca t. S  xut phát t  ngun gc ca t.
Ví d khi nói v   soi), theo cách gi  min Bc,
c phân bit rõ ràng bi t kínhgươngđeo kínhsoi gương
,  min Nam, c hai vt này ch c gi bng mt t là ki ng (bin th v âm ca
kính). Tđeo kính Nam li dùng cách đeo kiếng. 
vy,  soi gương  Nam li dùng cách nói soi kiếng min Trung,
hai vt  c gi bng t gươngthao tác 
c dit bsoi gươngđeo gương mt ng âm, s khác bit
gi c th hin khá rõ ràng. Chng hn v Nam, hai ph
âm cunhchng b binty, t
tịchng min Nam thì ltựtiư
ph âm cuchthoc nhanhnhănmìnhmừn
S khác bit nêu trên i khi giao
tip vi s d  khác. Rõ ràng, s khác bing ti các
h thng nhn dng ting Vit nói, làm gim hiu qu nhn dng ca các h thng nhn
dng ting nói. Cùng mt n  m dn
n ti  u vào cho h thng nhn d   u này có th gây ra s sai
nhm trong nhn dng ting nói. Các nghiên cu nhn dng ti ng Vi  n hin ti
 thy có s chú trng v  khác bit v   trong phát âm ca ting nói
 n dng ni dung. Do vy, nu h thng nhn dng ting nói chung

 thì khó tránh khi các ng do s khác bic

14


phát âm m   ng lên và làm sai lch kt qu nhn d ng. Nu h thng
nhn dng ting nói bic ting nói cn nhn dng là thu nào thì có th
la chn các tham s phù hp, s dc hun lu  
nhn d y có th gi c các sai nhm và giúp ci thin hi   
thng nhn dng dng.
Chính vì vy, cn thit phi nghiên cu v nhn dng ting Vit nói theo các
 khác nhau nhm tìm ra gii pháp k  thut nâng cao hi u qu nhn dng
ting Vit c khi tin hành nhn dng ni dung ting nói, nu có th c
ti   nào thì có th xây dng h thng nhn d ng vi ng liu
c t chc phù hp cho t và s dng ng liu này  nhn dng ting
nói ca  ng. Vi cách xây dng h thng nhn dng ti y,
các sai nhm nhn dng ca h thng do c phát âm hay thm chí là c do s 
dng t  c gi m bt, hiu  nhn dng ca h thng s c ci thin.
T các lý do nêu trên, lun án la ch tài nghiên c ng nhn dng ting
nói phát âm liên t  chính ca ting Vit 
nhm nghiên c v x lý nhn d ng ting Vit nói, gii quyt mt s hn
ch trong nhn dng ting Vit nói hin t       và góp phn phát
trin các ng dng cơng ngh i Vin phm ng dng
công ngh thông tin s dng ting Vi t trong dch t ng, giao ti p và imáy.
2.

Mục tiêu nghiên cứu của luận án

Mc tiêu chính ca lun án là Nghiên cu nhn dng ting Vi t nói cho các vùng
 chính, ánh giá ng c n hia h thng nhn

dng và  xut gii pháp k thut nhn d áp dng vào h thng nhn dng
ting Vit nói nhm nâng cao hiu nhn dng.
3.

Nhiệm vụ nghiên cứu của luận án
 t m ra, lun án cn thc hin các nhim v chính sau:
(1) Nghiên c    ting Vit t  c
  khác bit gi    chính ca ting Vi    cho
nghiên cu nhn d ting Vit. Lu  ánh giá s nh
ng c ti h thng nhn dng t ng ting Vit nói.
(2) Xây dng b ng li   ting Vit phc v cho nghiên cu nhn
d ting Vit và nhn dng ting Vit nói.
(3) Nghiên c xut mơ hình h thng nhn dng t ng, b tham s phù hp
 nhn d ting Vit.
(4) Nghiên c xut mơ hình h thng nhn dng t ng ti ng Vit nói theo
  chính ca ting Vit. H thng mi s dng các thông tin v
 nhm nâng cao hia h thng nhn dng ting Vit nói.

15


4.

Đối tượng và phạm vi nghiên cứu của luận án

ng nghiên cu trng tâm ca lun án là nhn d ting Vit.
T kt qu nhn d  , xây dng mơ hình nhn dng ting Vi t nói theo
. Mơ hình mi s  dng thơng tin v  nhm ci thin hi
thng nhn dng ting Vit nói. Vic nghiên c   ting Vit ch yu ch tp
ng x lý tín hiu.

 ting Vit rt phong phú. V mc phát âm,
 có th i theo tng làng, xã. Tuy nhiên, trong phm vi nghiên cu ca
lun án, do thi gian có hn, lun án ch gii hn nghiên c u nhn d  
chính và ph bin ca ting Vi Bc (ly ging
Hà N  i di    Trung (ly ging Hu  i di   
Nam (ly ging Thành ph H i din).
Bên c i mc tiêu ng dng k t qu nhn d ting Vit vào
h thng nhn dng t ng ti ng Vi t nói nhm ci thin hin dng, nhn dng
  c   c ti n x lý trong h thng nhn dng t ng ting Vit.
Vic nhn d cc tic khi nhn dng ni dung, 
th    t ni dung ting nói. Vì vy, thao tác ca h thng nhn dng
   h khai thác các thông tin v t     yu là khai thác
thông tin v c phát âm c.
Các th nghim nhn d mà lun án ti n hành da trên ng liu vi
s ng t vng hn ch  t g ca t 
xut mơ hình nhn d nhm nâng cao chng h thng nhn dng ting
Vit nói.
5.

Ý nghĩa khoa học và thực tiễn của luận án

Ni dung nghiên cu, kt qu d kic ca lun án s 
cho m rng nghiên c u v  ting Vit. Các nghiên cu v  ting
Vic trin nay ch yu thc hin ngơn ng. Nghiên
cu v  n x lý tín hiu vn còn hn ch. Do v ng nghiên cu theo
 n x lý tín hiu s giúp m rng phm vi nghiên c    
 ng dng các kt qu     c nghiên cu x lý ti ng Vit nói nói
chung và nhn dng ting Vit nói nói riêng.
T kt qu nhn d xut mơ hình mi nhn dng ting Vi t nói
s dng thơng tin  nhm ci thin hi thng nhn dng ting Vit nói,

góp phn hồn thi n dng ca h thng nhn dng t ng ting Vit
nói.
6.

Phương pháp nghiên cứu

   u ca lun án là kt hp nghiên cu lý thuyt vi nghiên
cu thc nghim.

16


V lý thuyt: lun án nghiên cu tng quan v  ting Vi t, các mơ hình
nhn d ca mt s ngơn ng trên th gii, các mơ hình nhn dng ting nói
da trên các tài liu, cơng trình khoa hc cơng b, sách báo, giáo trình liên quan.
V thc nghim: lun án xây dng b ng liu ting Vit mi phc v cho nghiên
cu nhn d ting Vi t và nhn dng ni dung ting Vi t nói. Lu
s dng các công c mã ngun m kt hp lp trình phn mm x lý d liu, thc hin các
nghiên cu, th nghim nhn d   ting Vit, xây dng và th nghim mơ
hình nhn d n dng ting Vi.
7.

Kết quả nghiên cứu, đóng góp của luận án
Kt qu nghiên ca lun án tm chính sau:
(1)   ting Vit, s khác bi t gi 
chính ca ting Vit v n phát âm v mt x lý tín hi u.
(2) Xây dng b ng liu ting Vit mi phc v cho nghiên cu nhn dng
 ting Viu khác v nhn dng ting Vit
nói; thc hin mt s nghiên cu, th nghim c
ng ting Vit.

(3)  xut mơ hình nhn d ting Vi t và b tham s phù hp cho
mơ hình nhn d ting Vit.
(4) S dng mơ hình HMM (Hidden Markov Model) nhn dng ting Vit nói trên
b ng li.
(5)  xut mơ hình nhn dng ting Vi.

8.

Nội dung luận án
Ni dung chính ca luc trình bày trong 4  :

ng quan v nhn d ng ting nói và nhn d. 
này trình bày t ng quan v nhn dng ting nói, lch s phát tri n và các tin b trong
nghiên cu nhn dng ti ng nói; các nghiên cu và kt qu c v nhn d
ng; vic nghiên cu v nhn dng ting nói và  ting Vit, các v còn tn
ti trong nghiên cu, nhn dng ting Vit nói và   ting Vit; làm rõ v 
cn nghiên cu, gii quyt trong lun án.
  Xây d ng b ng liu cho nghiên c u nhn d   ting
Vit. N cp các nghiên c u chi ti v  ting Vit,
t ho thy s khác bit gi, c bic phát âm, 
s cho nghiên cu nhn d   ting Vit. C     
pháp xây dng b ng liu dùng cho nghiên cu nhn d ting Vi t và kt
qu phân tích i vi mt s  ting Vit da trên ng
ling.
  n d ng   ting Vit. C  tp trung vào nghiên
cu các mơ hình nhn d  ting Vit, vic la chn tham s  ng dng cho

17



mi mơ hình và trình bày các kt qu th nghim nhn d  ng ting Vit s
dng các mô hình và tham s  xut.
 Ci thin hin d ng ti ng Vit vi thông tin v .
Lun án s trình bày mơ hình nhn dng ting nói da trên HMM s dng các thông tin v
 nhm ci thin hin dng ting Vit nói. Kt qu th nghim cho
thy mơ hình nhn dng ting Vit nói có s  d    cho hi
nhn dng ti ng hp khơng có thơng tin v .
Cui cùng, phn Kt lun tng hp các kt qu nghiên cu cng m
rng nghiên cu, phát tri tài và c ca lun án.

18


CHƯƠNG 1

1.

TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN
DẠNG PHƯƠNG NGỮ

 cp ni dung t ng quan v nhn dng ting nói và nhn dg
ng chính mà lun án quan tâm. Trong n án tp trung tng
hp, phân tích tình hình nghiên c c v nhn d ng ting nói và nhn
d nhng tip ci quyt các bài tốn
c này. ng thi,  tng hp các nghiên cu liên quan v nhn
dng ting Vit    ting Vit, nêu bt nhng mt còn tn ti, nhng v 
cn gii quyi vi nhn dng ting Vit và  ting Vit t ìng tip
cn nhm nâng cao hi thng nhn dng ting Vit nói.

1.1. Nhận dạng tiếng nói

1.1.1. Tổng quan về nhận dạng tiếng nói
Nhim v ca h thng nhn dng ting nói là làm cho h thng hi c ting
nói ci. Nh h thng này, ting nói có th c chuyi t 
bn, hoc t u khin các quá trình khác [179]. Pc truyn thơng t nhiên
nhi vi là thơng qua ti ng nói nên i cùng ca nhn dng ting
nói là cho phép con i có ngơn ng khác nhau giao ti p vi nhau và vi máy mt cách
t nhiên, hiu qu . Có th nói, các ng dng nhn dng ting nói hi  n tr
nên ph bin, phc v i si c k  thut khác nhau.
c i máy, nhn dng ti 
thng máy tính có th chp nhu vào là lnh dng file âm thanh và to ra
n cha nng ng.
Nhn dng t  ng ting nói ASR (Automatic Speech Recognition) mơ phng kh
 u li nói ci. H thng ASR có th chuyi li nói thành
n. Bài tốn nhn d ng t ng ting nói là mp nhu
vào là các mu ting nói và ti có th hi
khi trc tip nghe ti. ASR là mt trong các c ca nhn dng mu. ASR
phát trin mng vc khác ca nhn dng mu vì mong mun to ra
c c máy có kh    c các quy nh phc tp và thc t, có ch 
    ng thi có th hi c l     bt k  h thng
nhn dng mu nào, ASR tìm ki  hi c các mu ti u vào. Các nghiên
cu v x lý tín hiu, x lý tic bi t là nhn dng ti u
nhà khoa hc tham gia và mang li nhiu thành t c này [33, 37, 55, 57,
63, 75, 94, 95, 135].

19


Mc ti    trình bày  c v lch s phát tri n và các tin b
trong nghiên cu nhn dng ting nói.
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng

tiếng nói
u u tiên quan trng cn phi k n trong lch s phát trin ca nhn dng
ting nói là vic thành lp các mơ hình thng kê và các thut gii liên quan tu kin
cho vic thc hin các mơ hình này. Mơ hình HMM c gii thit mơ hình
âm hc ca h thng nhn dng ting nói t u nhng n  [12, 82] 
n còn c s dng rng rãi. Mng ln các mơ hình và thut
gii  xut và s dng hiu qu c này. Thut gii t  vng
EM (Expectation Maximization) và thut gii quay lui (Forward  Backward) hoc thut
gii Baum  Welch [14, 36]  yu và quan trng trong vic hun luyn mơ
hình HMM mt cách hiu qu y, mơ hình ngơn ng N-gram và các bin
th c hun luyn vn hoc s dng k  thut EM-c
các hiu qu quan trng. Bên cnh mô hình âm hc HMM và mơ hình ngơn ng  n
N-gram u mc công b n [38, 39, 60] và
các mơ hình ngơn ng và ti ng nói có c u trúc [27, 40, 176]. Các thut gii thích nghi hiu
qu cho phép tích hp c trên các ng di x n
n thành công cho vic phát trin các sn ph  i ca cơng ngh nhn dng
ting nói. Các k  thut thích nghi ph bin có th k n là t   t hu nghim
MAP (Maximum a Posteriori probability),  ng MLLR (Estimation và Maximum
Likelihood Linear Regression) [96]. Các k thuc tng quát  hun
luyn các mô hình chung, mi di n tt trong s  k n là mơ hình thng kê
tồn th ca t p d liu hun luy. K thuc gi là k  thut hun luyn
  i nói SAT (Speaker Adaptive Training) [9]. Huang cùng cng s  
nghiên c n d c l i nói, nhn dng ph thuc
i nói và nhn di nói [74]. Kt qu nghiên cu này cho thy: khi
nhn d c l i nói, t  l li t t 4,3%, còn khi s dng d liu ph thuc
i nói, t l li t m n 1,4%. Trong các th nghim, nhóm tác gi u áp dng
ch i nói.
Nhóm th hai trong nhng tin b  cc x lý ting nói là s  hình
 h t ng tính tốn mnh v phn cng cho phép phát tri c các thut gii,
mơ hình thng kê nêu trên. nh lut Moore quan sát s tin b trong c phát trin

ca máy tính và d báo kh sau mi khong thi gian t 12 n
18 tháng. C vy, chi phí cho b nh s c gi.  h t ng mnh nói trên
n cho phép các nhà nghiên c u v nhn dng ting nói có th phát tri n và
 phc tp các thut gii trên các tác v  ln. Ng liu ti 
quan tr  thc hin các nghiên cu nhn dng ting nói. Ng liu ting nói ln cho
phép các mơ hình thng kê hc hiu qu  Trong nh qua, Vi n Tiêu chun và

20


Công ngh NIST (National Institute of Standard and Technology), Hi p hi d liu ngôn
ng hc LDC (Linguistic Data Consortium), Hip hi Tài nguyên Ngôn ng châu Âu
ELRA (European Language Resources Association) và các t  chc khác c
các b ng liu ting nói, chú gii và chia s rng rãi cho cng trên toàn th gii. Vi
s phát trin, hi nhp và chia s trên phm vi toàn cu, hin nay, nhi u phịng thí nghim,
các nhà nghiên c  ng li ích t các cơng c phc v cho nghiên c c
cung cp mi   (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit
và SRILM toolkit. Mt khác, các h tr cho nghiên cu sâu, rng, kt hp vi các hi ngh,
hi tho, h thng   c DARPA (U.S. Department of Defense Advanced
Research Projects Agency) và các t ch c, cá nhân khác tài tr tr nên cn thit cho s
phát trin h thng nhn dng ting nói hin nay.
Nhóm tin b th 3 có th k n thuc v c biu din tri thc. Các k  thut
phân tích tham s ting nói  MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên
 cm th tuyn tính PLP (Perceptual Linear Prediction) [70], chun hóa thơng qua tr
trung bình cepstral CMS (Cepstral Mean Subtraction) [139], RASTA [70] và chun hóa
chiu dài tuyn âm VTLN (Vocal Tract Length №rmalization) [42]. G  có nhiu
thut gii   xut cho nhn dng ting nói mang li hiu qu  Phân tích
phân bit tuyn tính hi    ng nht HLDA (Heteroscedastic Linear
Discriminant Analysis) [90], cc tiu li t fMPE (feature-space
Minimum Phone Error) [132] và mc  [112].

Nhóm cui cùng trong các tin b ln ca nhn dng ti ng nói là gii mã và các
thut gii tìm kim. u tp trung vào gip (thut gii tìm kim A ) [84]
và tìm ki ng b thi gian Viterbi (time-synchronous Viterbi search) [115, 143, 169,
171]. Nu khơng có các thut gii kh thi thì các nhn dng ting nói liên t c có quy mơ
ln khó có th thc hic.
y có th thy, nhn dng ti t c nhiu ti n b 
qua. Có nhi u mơ hình nhn d xut t vi nn tng
chính khơng có nhi i song vic mơ hình hóa, các k  thut c th vn liên
t c ci tin. Vì th, HMM vn gi c v trí quan trng trong các h thng nhn
dng ting nói. Bên c    thut phân tích tham s   c nhc
tin quan trng. Các thut gii tìm kic ci tin giúp b gii mã thc hin các nhim
v tìm kim, cho ra li gii hiu qu 
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói
Vì có nhi        c tin ng dng, nhn dng
tiu nhà khoa hi mt vi
nhiu thách thc.
Thách thc ln u tiên i vi nhn dng t ng ting nói có th k n là làm
th  x c các bin thiên trong ti ng nói. Cùng mt âm do cùng mi nói
 nhng th m khác nhau song tín hiu ting nói có th   

21


Trong các h thng nhn dng ting nói ph thu i nói, s khác bit ca ti ng nói
ng khơng ln so vi h thng nhn dng c lp i nói. Ngay c khi ting nói
c gii hn bi mi nói thì s  i v u kin nói, thit
b ghi âm... vn là tn t i khách quan t o ra s  khác bit trong tín hiu ting nói cn nhn
dng.
Thách thc li vi ASR là phi gii quyt bài toán nhn dng nhm, khi
mà h thng phi mt vi thc t là ting nói cn nhn dng khơng hồn tồn

ng vi ti c hun luyn. Trong ASR, mt s ng s c
c chn t c và s dng ti  xây dng
các mơ hình.  chính xác ca ASR thng t  l vi s  gia d liu hun luyn
và d liu th nghim. D dàng nhn thy, h thng nhn d chính xác cao khi
d liu hun luyn và nhn du do mi nói và n 
 gim khi d liu th nghim và d liu dùng hun luyn là ting nói ca
nh i khác nhau, n       ng, thi t b ghi âm khác
nhau. Thách thi vi thit k ASR là phi chun b  v mt d liu và
t thut gii tt.
Tác ng phc t p nht ti tín hiu ting nói mà ASR phi x lý là nhi u kênh,
nhiu nn và các nhi u khác t bên ngoài. K thut tr ph n giúp gi i quyc
v nhiu cng trong khi mt s k thut khác giúp kh c nhiu chp.
Mc dù phi mt vi nhiu thách thc song nhn dng t  ng ti ng nt
c nhi c tin quan trng. Các kt qu nghiên c     c sng tr
thành các ng d    c này vn tip tc thu hút nhiu nhà khoa hc
tham gia nhm tip t c ci thin hin d ng dng trong
thc tin.
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói
Các h thng nhn dng t ng ting nói có th c phân loi theo các cách khác
nhau tùy thuc tiêu chí s  dng phân loa trên s ph thum
liên tc hay ri rc ca ting nói cn nhn dng ln ca t vng.
Theo tiêu chí s ph thui nói, h thng nhn dng ting nói có th c
chia làm 3 loi gm h thng nhn d ng ting nói ph thui nói, h thng nhn dng
ting nói c lp i nói và h thng nhn dng ti  i nói, c th

1) Hệ thống nhận dạng tiếng nói phụ thuộc người nói: h thi
dùng phi hun luyn h thng bng chính ting nói c    
ting nói cn nhn dng và ting nói dùng cho hun luy u do cùng mt
i nói. H thng này có th c xây dng mt cách d dàng vi chi phí
thp   chính xác cao. Tuy nhiên, m  linh hot ca h thng li thp

  i h thng nhn dng khơng ph thu i nói và h thng nhn
di nói.

22


2) Hệ thống nhận dạng khơng phụ thuộc người nóim là i
i dùng phi hun luyn h thng bng chính ging nói ca mình. Nói cách
khác, h thng có th c hun luy c lp, s dng ting nói c i
  hun luyn mà vn có kh  n d c ti  c phát
âm b i không tham gia hun luyn. H thng này có th làm vic vi
ti c phát âm t i nói bt k. Vic xây dng h thng y
ng phc t hm là h thng rt linh
hot   ng th so vi h thng ph thui nói.
3) Hệ thống nhận dạng tiếng nói thích nghi người nóic xây d có kh
i nói mi. H thng nàc hun luyn sc
khi s dng bng ti ng nói có th khác vi ting nói ci s dng. Trong
quá trình ho ng, h thng s  tip nh   m c i nói
m u chnh nhm riêng ci nói mi.
H thng này có v trí xp hng nm gia hai h th
thng v a có tính linh hot vì khơng ràng buc hun luyn và s dng cùng
 thng ph thui nói li v chính xác nh
kh i nói.
Các h thng nhn dng tic phân loi dm ca ting nói
hun luyn và nhn dng s gm bn lo
1) Hệ thống nhận dạng tiếng nói theo từ rời rạc: h th c thit k 
nhn dng tic phát âm thành tng t ri rc. Gi a các t có khong
l ln và phân tách vi nhau. H thng này là dn nht ca h
thng nhn dng ting nói. Tuy kh n dng có hn ch  thng
này lc s dng ph bin trong các sn phm thc.

2) Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhaung hp
này, h thng nhn dng ti c thit k  nhn d ng các t  
 thng nhn dng t ri rc. Tuy nhiên, các t này có liên kt vi nhau
nên h thng cho phép ti ng nói cn nhn dng có th c phân tách vi nhau
bi các khong lng nh.
3) Hệ thống nhận dạng tiếng nói phát âm liên tục: h thng làm vic vi ting nói
 khơng có khong lng v mt tín hiu gia các t. H thng cho phép
i dùng có th phát âm mt cách t nhiên, cùng v thc
hin vic nhn dng ni dung. Các h thng loi x lý phc t
vì vinh các t là rt khó v mt tín hiu.
4) Hệ thống nhận dạng tiếng nói tự nhiên: h th c thit k  nhn dng
c tic phát âm mt cách t nhiên vi các t phát ra mt cách liên
tip có th xen k nhng  "", "à"... thm chí là nói
lp.

23


H thng nhn dng ting nói  có th phân long t  vng. Theo cách
này, các h thng nhn dng ting nói có th chia thành 3 loi bao gm h thng nhn dng
vi t vng ít (s ng t ch n hàng chc t), h thng nhn dng ting nói vi t  vng
trung bình (s ng t ) và h thng nhn dng ting nói vi t vng ln
(s ng t n hàng nghìn t).
H thng nhn dng ting nói rng và phong phú. Cách tip cn trong nghiên
cu nhn dng ti. Mc dù mc tiêu, ni dung c th ca tng
nghiên cu là khác nhau m chung là ci thin hi u qu
hong ca h thng nhn dng.

1.2. Nhận dạng phương ngữ
Nhn d   da trên tín hiu ting nói là m  c ca x lý tín

hiu ting nói thu hút nhiu nhà khoa hc tham gia. ng ng có th hiu là ti ng nói 
mm khác bi t vi ting nói  
khác. S khác bi t có th là  t vng, ng pháp, ng  bàn lun chi tit
 khái nim và s phân  ca ti ng Vit. Nu
nhn d chính xác thì có th giúp ci thin nhiu ng dng, d ch v
n d ng t ng ting nói, h th  c khn t (e-health), các h
thng e-learning,... Nhn d có nhi n dng ngơn ng
tuy nhiên phc tp và ch ng nhi u thách th   i nhn dng ngơn ng ca
ting nói.
1.2.1. Các mơ hình nhận dạng phương ngữ
 p cn c a nhn d      
c dùng trong nhn dng ngơn ngp cn này có th chia làm
hai nhóm bao gm  a trên âm h d a trên ràng buc âm
vu d ca ti ng n
pháp th hai da trên vic mơ hình ngơn ng  nhn dng các t 
1.2.1.1.

Mơ hình ràng bu c âm v

Vi mi ngôn ng, các t c cu thành t mt tp các âm v. Các mơ hình
nhn dng   da    ràng buc âm v (Phonotactic Modeling)
c xây dng da trên các b nhn d ng âm v. B nhn dng âm v s tin hành phân
tích ting nói cn nhn dng thành các âm v. Mi t u có th c phiên âm bi mt tp
các âm v t. Nhi m v t ra là phi xây dc b nhn d ng âm v 
chính xác cao. Mt cách thc hing tip cn này là xây d ng b nhn dng âm
v theo mơ hình ngơn ng PRLM (Phone Recognition followed by Language Modeling)
[20]. Tip theo, b nhn dng âm v   c s dng  nhn dng . B
nhn dng âm v s to ra mt dãy các âm v dùng  hun luyn các mơ hình ngơn ng
N-gram cho m. Trong q trình nhn dng, ting nói cn nhn dng s  c


24


n bng cách s dng b nhn dng âm v ng ng  theo mơ
hình ngơn ng s m s cao nht ng v nhn dng c. M rng
c là  s dng b nhn d ng âm v song song theo mơ
hình ngơn ng PPRLM (Parallel Phone Recognition followed by Language Modeling).
PPRLM s  dng các b nhn dng âm v nhi u ra thay cho b nhn d ng âm v 
c s dng trong PRLM. Ting nói cn nhn dng s  c np vào mt dãy các b nhn
dng âm v c hun luyn cho tu ra ca các b nhn dng là các
m s c tính thơng qua mt dãy các mơ hình ngơn ng. C    
c s dng cho ng hp d  liu phiên âm b hn ch. Khi d  liu phiên âm
sn có và phong phú, có th s dng các b nhn dng âm v c lp trong i b nhn
dng có riêng mt mơ hình ngơn ng. Trong quá trình nhn dng, tp các b nhn dng âm
v c s d ng và cho ra dãy âm v c t i b nhn dng có mt
mơ hình ngơn ng cc gg pháp nhn dng
âm v song song PPR (Parallel Phone Recognition). P gp tr ngi là cn
phi có d liu phiên âm cho tt c  cn nhn dng.
Trong c  , vic nhn d  u d a trên kt qu
phân tích, nhn dng âm v ca ting nói cn x lý và mơ hình ngơn ng ng vi
m có th nhn dng.
1.2.1.2.

Mơ hình âm h c

Cách tip c nhn d  thay cho cách tip cn d a trên mơ
hình ràng buc âm v là s dng mơ hình âm hc (Acoustic Modeling) [186]. Cách tip cn
này s dng mơ hình hn hp Gauss GMM (Gaussian Mixture Model)  xây dng h
thng nhn dng   c s dng thành công trong các ng dng nhn dng
 [29, 51, 110]. GMM s dng các tham s c tra ti ng nói cn

nhn dn trong thi gian ngn ca ting nói bao gm ph,
thơng tin v   n s    ng bao tn s n,  ti các
phc bit ca ting nói và bin thiên theo thi gian ca  ng, ng u,
ng,... GMM là mt trong các công c c s dng ph bi n hi n nay trong nhn
dng ting nói, nhn dng ngơn ng và nhn d  . Mơ hình GMM s trình
bày chi tia lun án.
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau
1.2.2.1.

Theo

n ngôn ng

h c

  là khía cnh phc tp trong nhn dng ti    ng v c
a ngôn ng trong mt cng giao tip c th  không phi là c
i theo tha lý, lãnh th. D dàng nhn thy, trong
giao ti p ca th h tr hin nay, ngồi ngơn t  vn có ca ngơn ng  dng h còn
dùng nhng t, cm t mc s di thi gian, ngôn
ng b thay i kéo theo m ca   i.

25


×