vi
By
THANH PHAM ậ QUANG HUYNH
Submitted to the Department of Electrical and Electronics Engineering
on April19, 2014 in partial fulfillment of the requirements for the degree of
Master of Science in Electronics and Communication Engineering at the
University of Technical Education Ho Chi Minh City
Abstract
Newapplicationsinvolvingspeechcodinghaveincreasedconsiderably. The field of
speechcodinghasplayedan
imp
ortan
t
roleinmobilecommunication
systems.
Hence,researchand
improv
emen
t
ofspeechcodingmethodsare topromote
the
needs
ofthemarket. Inthisthesis,wedevelopeda real-time speechcoder of the LPC-
10ealgorithm. The speechcoderisimplementedonTexas
Instrumen
ts
TMS320C6713
DigitalSignal
Processor(DSP)
accordingtoLPC-10eFederal
Stan
dard 1015.Finally,
Perceptual
EvaluationofSpeech
Quality(PESQ)
algorithmis
usedformeasuringthevoice
qualit
y
.
Keywords:Algorithm,LPC-10e,quality evaluation,andTMS320C6713.
Thesis Supervisor: Assoc. Prof. Dr. Chien Hoang-Dinh
Title: Assoc. Prof.
MC LC
LI CMăN iv
vii
Danh sách hình v ix
Danh sách bng xi
Các từ vit tt xii
Chngă1 1
TNG QUAN V LƾNHăVC NGHIÊN CU 1
1.1 Gii thiu chung 1
1.2 Mã hóa ting nói 1
1.2.1 Mã hoá trên min thi gian 3
1.2.2 Mã hoá trên min tần s 4
1.2.3 Mã hoá ngun 5
1.2.3 Mã hoá lai 6
1.3 Phát triển b mã LPC-10e 7
1.4 Cấu trúc lunăvĕn 8
Chngă2 8
CăS LÝ THUYT 9
2.1 Tín hiu ting nói 9
2.1.1ăCăch phát âm ting nói 9
2.1.2ăĐặc tính âm học ting nói 11
2.1.3ăĐặc tính vt lý ting nói 13
2.1.3.3ăTrngăđ 15
2.1.3.4 Âm sc 15
2.1.3.5 Tần s vtăquaăđiểm không 15
2.1.3.6 Tần s căbn 15
2.1.3.7 Formant 16
2.1.4 Phân loi đnăgin dng sóng ting nói 17
2.2 S hóa ting nói 18
viii
2.3 Tổng quan v phân tích/tổng hp ting nói 19
2.3.1 Gii thiu chung 19
2.3.2 Phân tích LPC 20
2.3.3 Tổng hp ting nói 21
2.4ăPhngăphápăđánhăgiáăchấtălng thoi 24
2.4.1ăPhngăphápăđánhăgiáăch quan 24
2.4.2ăCácăphngăphápăsoăsánhăda trên mô hình giác quan 26
2.4.2.1 PhngăphápăPESQ 26
2.5 B xử lý tín hiu s TMS320C6713 27
2.6 Code composer studio(CCS) 30
2.7 Tổng quan v kit DSKTMS320C6713 32
2.7.1 B binăđổi AIC 23 33
2.7.3 McBSP (Multichannel Buffered Serial Port) 37
2.7.4 EDMA kt hp vi McBSP 37
2.7.5 Kỹ thut vào ra Ping Pong 38
2.7.6 Vn chuyển d liu kiểu Ping-Pong 40
2.7.7 Móc ni các cấu hình Ping-Pong 40
2.7.8 Lungăđiu khiển 41
2.7.9 Kỹ thut vào ra cho h thng 42
Chngă3 43
THC NGHIM TRÊN MATLAB 43
VÀ KIT TMS320C6713 43
3.1 Phân tích ting nói 43
3.2 Tổng hp ting nói 44
3.2.1 Tổng hp d đoánătuyn tính ca tín hiu hu thanh 45
3.2.2 Tổng hp ting nói ca âm vô thanh 51
3.3ăThayăđổi thông s caăchngătrìnhăMatlab 52
ix
3.3.1 Cách thc thc hin 52
3.3.1.1 Giọng Nam 52
3.3.1.2 Giọng n 53
3.4 Thc hin trên Kit TMS320C6713 55
3.5.1 Mã hóa 55
3.5.2 Gii mã 56
3.5.3 Kt qu thc hin trên Kit 57
Chngă4 58
KT LUN 58
4.1. Kt lun 58
4.2.ăHng phát triển 58
TÀI LIU THAM KHO 60
Danh sách hình v
Hình 1.1: B mã ph thuc vào tcăđ bit và chấtălng [25] 3
Hình 1.2: H thng DPCM 4
Hình 1.3: Mô hình to tingănóiăđc sử dng bi mã hoá ngun 6
x
Hình 1.4: Kin trúc ca mã hoá AbS. (a): Mã hoá. (b): Gii mã. 7
Hình 2.1: Cấu toăcácăcăquanăphátăraăơmăthanh 9
Hình 2.2: S hóa tín hiuătngăt 18
Hình 2.3: Lấy muăvƠălng tử hóa tín hiu thoi 19
Hình 2.4: Mô hình tổng hp ting nói bngăphngăphápăformant 22
Hình 2.5: Mô hình tổng hp ting nói bngăphngăphápăLPC 23
Hình 2.6: Mô hình tổng hp ting nói bngăphngăphápămôăphng ngun âm 23
Hìnhă2.7:ăLuăđ thut toán PESQ 27
Hình 2.8: Cấu trúc b xử lý DSP TMS320C6713 28
Hình 2.9: BSL cần cho CCS 32
Hình 2.10: Tổng quan phần cng board DSK TMS320C6713 33
Hình 2.11: Giao tip ngõ vào và ngõ ra ca các thit bị âm thanh và b Codec 34
Hình 2.12: Mô hình vào ra EDMA 35
Hìnhă2.13:ăTínhănĕngăđaăkênhăca EDMA 36
Hình 2.14: TCC vi các kênh EDMA khác nhau 36
Hình 2.15: Mô hình kt hp gia EDMA và McBSP 38
Hình 2.16: Các b đm Ping-Pong[2] 39
Hình 2.17: Ping-Pong Buffer và Linked Transfer 41
Hìnhă2.18:ăĐ thị thc thi các tin trình 42
Hìnhă3.1:ăSăđ khi phân tích ting nói 43
Hình 3.2: Dng sóng tín hiu 44
Hình 3.3: Phổ ca tín hiu ting nói 45
Hình 3.4: Dng sóng tín hiu khong 30s 45
Hình 3.5: Ni dung ca Frame 46
Hìnhă3.6:ăĐápăng tần s ca Inverse và b lọc tổng hp 47
Hìnhă3.7:ăĐápăng tần s ca b lọc tổng hp 47
Hìnhă3.8:ăĐiểm cc và Zero ca b lọc 48
Hình 3.9: Dng sóng ca d đoánăResidual 48
Hình 3.10: Periodogram ca d đoánăResidual 49
Hình 3.11: LPC excitation 49
Hình 3.12: Periodogram ca LPC excitation 50
Hình 3.13: Dng sóng ca âm "e" 50
Hình 3.14: Phổ tín hiu ca âm "e" 51
Hình 3.15: Dng sóng ca ting nói vô thanh 51
Hình 3.16: Mtăđ phổ công suất 52
Hìnhă3.17:ăSăđ khi mã hóa 55
xi
Hìnhă3.18:ăSăđ khi gii mã 56
Danh sách bng
Bng 2.1: Giá trị tần s căbnătngăng vi gii tính và tuổi 16
Bng 2.2: Bng MOS 25
Bng 2.3: Memory map ca TMS320C6713 29
xii
Bng 3.1: Tcăđ xử lý(Namătrng thành) 53
Bng 3.2: BngăMOS(Namătrng thành) 53
Bng 3.3: Tcăđ xử lý(N trng thành) 54
Bng 3.4: Bng MOS(N trng thành) 54
Bng 3.5: Tính toán tcăđ bit 55
Bng 3.6: Kt qu thc nghim trên Kit 57
Các t vit tắt
ITU
InternationalTelecommunication
Union
Liênminhvin thôngquc
t
PCM
Pulse CodeModulation
Điuchmã
xung
xiii
APCM
Adaptive Pulse Code Modulation
Điu ch mã
xung
thích
nghi
DPCM
DifferentialPulse CodeModulation
Điu ch mã xungvi
phân
ADPCM
Adaptive Differential
PulseCodeModulation
Điu
c
h
mãxungviphânthích
nghi
DM
DeltaModulation
Điuch
Delta
ADM
AdaptiveModulationDelta
ĐiuchDeltathích
nghi
APC
Adaptive Predictive Coding
Mãhoádđoánthích
nghi
LPC
LinearPredictiveCoding
Mãhóatuyn
tính
MOS
MeanOpinionScore
Điểmđánhgiátrungă
bình
PESQ
Perceptual
Evaluation ofSpeechQuality
Đánhgiá
nhn
thcchấtlng
thoi
1
Chng 1
TNG QUAN VLĨNH VC NGHIÊN CU
1.1 Gii thiu chung
Mãhóatingnóilàngdngcalƿnhvcxửlýtínhiu,vicxửlýnàymcđíc
h
xétđnlàhiuqutrong victruyn ti vƠlutr. Vicmãhóatingnói,
mc
tiêu
làgimtcđbit,ă nghƿaă lƠtcđbit trên migiây,trongă khiđóvn
duy
trìđchìnhdngcadngsóngbanđầu.Trongtrnghpnày,chấtă ă lng
ca
tingnóiđcđánhă giánhsau:stnhiên,dhiểu,vàsnhn dngkhi
phát
qualoa[3],[4]. Bng 1.1 phân loi b mã ting nói theo tcăđ bit.
Bng 1. 1: Phân loi theo tcăđ bit
Stt
Phơnăloiă
TcăđăBit
1
High bit-rate
>15 kbps
2
Medium bit-rate
5ăđn 15 kbps
3
Low bit-rate
2ăđn 5 kbps
4
Very low bit-rate
<2 kbps
1.2 Mã hóa ting nói
Nhu cầu ca các h thngăthôngătinădiăđngănhăđin thoiădiăđngăđangătĕngă
trongăvƠiănĕmăquaăvƠăđƣăcóăphátătriểnăvt bc ca các b mã vi tcăđ bit thấp. S
raăđi ca b mã CELP(Code Excited Linear Prediction)[5] và s phát triển ca các
phngăphápăkhác da trên b mƣăCELPăđƣăđóngăgópărất ln vào vic ci thin h
thng mã hóa ting nói vi tcă đ bit thấp. Các b mƣă nƠyă đc giám sát bi
ITU(International Telecommunications Union Telecommunication) và
ISO(International Organization for Standardization). Không nhng có nhng b mã
dùng cho mcăđíchădơnăs mà còn phát triển cho mcăđíchăquơnăs. Ví d nhăB
Quc Phòng Mỹ DOD(Department of Defense) gầnă đơyă đƣă thôngă quaă b mã
MELP(Mixed Excitation Linear Prediction) thay th b mã LPC-10. Chấtă lng
2
vt tri ca MELP(Mixed Excitation Linear Prediction), tuy nhiên thut toán
MELP(MixedăExcitationăLinearăPrediction)ăcóăđ phc tpăhnănhiu so vi LPC-
10(gấp 6 lầnăMIPS(MillionăInstructionsăPerăSecond)).ăĐi vi mcăđíchădơnăs, có
hai tùy chọn. Mt trong nhng la chọn này vi chấtă lng ting nói cao và
đphc tp thut toán cao gingănhăMELP,ăđiu này cần có thi gian xử lý nhiu
và phần cng phc tp. Mt la chọn khác vi chấtălng ting nói thấpăvƠăđ phc
tp ca thut toán thấp thì ta dùng b mã cùng họ ca LPC. Hai s la chọn này,
chúng ta phi tr giá gia chấtălng tingănóiăvƠăđ phc tp ca thutătoán.ăĐể ci
thin nhng b mã hin nay, chúng ta cầnăxétăđn c hai yu t là chấtălngăvƠăđ
phc tp.ăVƠăhaiăphngăphápăđcăđaăra,ăphngăpháp th nhất là gimăđ phc
tp ca b mã có chấtălng ting nói cao, th hai là ci thin chấtălng ting nói
ca b mã có chấtălng ting nói thấp.
Kể từ khi họ LPCăđc phổ bin cho mcăđíchădơnăs vƠăđƣăcóănhiu h thng
hotăđng da trên b mã này, ci thin chấtălng thì liăíchăhnălƠăc gng gim
đ phc tp ca b mã. Nói cách khác, nhu cầu cho mt b mã ting nói vi tcăđ
bit thấpăvƠăđ phc tp thấpăđể sử dng cho mcăđíchădơnăs, chẳng hnănhăting
nóiăđápăng thi gian thc trên Internet[6], [7].
Trong mt vài thp kỷ vừaăqua,ăđƣăcóărất nhiu kỹ thut mã hoá nén ting nói
đcăđaăra,ăphơnătíchăvƠăphátătriển. Trong phần này, chúng ta s gii thiu mt s
kỹ thutăđangăđc sử dng hin nay, và mt s kỹ thut s đcădùngătrongătngă
lai.ăThôngăthng thì mã hoá tingănóiăđc chia làm hai lpăđóălƠ:ămƣăhoáădng
sóng(waveform coder) và mã hoá ngun(sourceăcoder)ă(hayăcònăđc gọi là mã hoá
thông s). Mã hoá dngăsóngăđc thc hin tcăđ Bit cao và cho chấtălng mã
hoá ting nói tt. Mã hoá ngun thc hin tcăđ Bit thấp,ănhngănóăcóăxuăhng
to ra ting nói có chấtălng nhân to. Hin nay, mt lp mi ca mã hoá ting nói
đc gọiălƠămƣăhoáălai(hybridăcoder),ăđơyălƠăkỹ thut mã hoá tổng hp caăphngă
pháp mã hoá dng sóng và mã hoá ngun, nó cho chấtălng ting nói khá tt và
thc hin tcăđ Bit trung bình. Hình 1.1 cho chúng ta thấyăđc b mã ph thuc
vào tcăđ bit và chấtălng ting nói ca b mã.
3
Hình 1.1:B mã ph thuc vào tcăđ bit và chấtălng[25]
1.2.1 Mã hoá trên min thi gian
Mã hoá trên min thi gian thc hin vic mã hóa trên khong thi gian lấy
mu ca tín hiu.ăCácăphngăphápămƣăhoáătrongămin thiăgianăthngăđc dùng
gmăcó:ăĐiu ch mƣăxung(PCM),ăđiu ch mã xung thích nghi (APCM),ăđiu ch
mƣăxungăviăphơn(DPCM),ăđiu ch mƣăxungăviăphơnăthíchănghi(ADPCM),ăđiu ch
Delta(DM),ăđiu ch Delta thích nghi(ADM), và mã hoá d đoánăthíchănghi(APC).ă
Tip theo ta s xem xét mtăvƠiăphngăphápămƣăhoáăquanătrọng trong min thi
gian.
Mã hoá PCM
Điu ch mƣă xungă lƠă phngă phápă đnă gin nhất trong mã hoá dng sóng.
Điểm ct yu caăphngăphápănƠyăchínhălƠăquáătrìnhălng tử hóa. Bất c dng
lng tử hoáă vôă hngă nƠoă cũngă cóă thể đc sử dngă trongă phngă phápă nƠy,ă
nhngădngăhayăđc dùng nhấtălƠălng tử hoá logarit[8], [9]. Uỷ banătăvấnăđin
thoiăvƠăđin báo quc t đƣăgii thiuăG.711ănhălƠăphngăphápăchuẩn cho vic
4
mã hoá ting nói thoi. ChuẩnăG.711ăxácăđịnh 8 bit theo lut µ và lut A ca PCM.
Mã hoá dùng lut µ có ít li th hnătrong vic thc hin vì nó cho tỉ s tín hiu trên
nhiu béăhn[10],ă[11].
Mã hoá DPCM và ADPCM
PCM không gi định v tính t nhiên ca dngăsóngăđcămƣăhóa,ădoăđóănóă
làm vic tt vi các tín hiu mà không phi là ting nói. Tuy nhiên, khi mã hoá
ting nói thì s có s tngăquanărất ln gia các mu cnh nhau. S tngăquană
này có thể đc sử dngăđể khôi phcăđc tcăđ Bit ca kt qu. Mtăphngă
phápăđnăginăđể thc hin vicănƠyăđóălƠăchỉ truyn s sai khác gia các mu. Tín
hiu khác bit này s có phmăviădaoăđng nh hnăsoăvi tín hiu ting nói ban
đầu, do vy nó có thể lng tử hoá mt cách hiu qu bng vic sử dng các b
vectorălng tử hoá vi mc xây dng li thấpăhn.ăTrongăphngăphápătrên,ămu
trcăđc sử dngăđể d đoánăgiáătrị ca mu hin ti. S d đoánănƠyăcóăthể
đc ci thin nuănhătaăsử dng mt khi lnăhnăca tín hiu ting nói cho vic
d đoán.ăPhngăphápănƠyăđc gọiălƠăđiu ch mã hoá xung vi phân(DPCM). Kin
trúc caănóăđcăđaăraătrênăhìnhăv 1.2
Hình 1.2:H thng DPCM
1.2.2 Mã hoá trên min tần s
5
Mã hoá dng sóng trong min tần s chia tín hiu thành các thành phần tần s
khác nhau và tin hành mã hoá từng thành thành phần này. S Bit sử dngăđể mã
hoá từng thành phần tần s có thể thayăđổi. Mã hoá trong min tần s đc chia ra
lƠmăhaiănhómălƠ:ămƣăhoáăbĕngăcon(subband)ăvƠămƣăhoáăbinăđổi(transform)[12].
Mƣ hoá băng con(subband)
Mƣăhoáăbĕngăconăsử dng mt s b lọc diăthôngăđể chia tín hiuăđầu vào
thành các tín hiu con(subband signal) mà đƣăđc mã hoá. Ti b thu các tín hiu
conăđc gii mã và cng li nhm khôi phc li tín hiuăbanăđầu.ăuăđiểm chính
caăphngăphápămƣăhoáăbĕngăconăđóălƠănhiuălng tử hoá sinh ra trong mt di
tần s bị hn ch trong chính di tầnăđấy. Hip hi vin thông quc t ITUăđƣăđaăraă
chuẩnăG.722ătrongămƣăhoáăbĕngăcon(subband)ăđể truyn thông vi các tcăđ 48, 56
hoặc 64kbps.
Mã hoá bin đổi(transform)
Kỹ thut này cần có mt khi chuyểnăđổi ca cửa sổ tín hiuăđầu vào thành
các thành phần tần s, hoặc mt vài minătngăt. Mã hoá thích ngăsauăđóăs
hoàn thành bng cách phân bổ thêm Bit vào các thành phần h s quan trọngăhn.ă
Ti b thu thì b gii mã s thc hin vic chuyểnăđổiăngcăđể thu li tín hiu cần
khôi phc. Ta có thể sử dng mt s phép binăđổiănh:ăphépăbinăđổi Fourier ri
rc(DFT) hay là phép binăđổi cosine ri rc(DCT).
1.2.3 Mã hoá ngun
Mã hoá ngun sử dng mtămôăhìnhătrongăđóăchỉ ra quá trình làm th nƠoăđể
phát sinh ra ngun, và quá trình phân tích từ tín hiuăđc mã hoá các thông s ca
mô hình. Các thông s này s đc truyn ti b gii mã. Mã hoá ngun sử dng
cho tingănóiăđc gọi là vocoder(vit tt ca mã hoá ting nói - vocal coder), và
nó sử dng mt mô hình lọc ngunănhătrênăhìnhă2.10.ăMôăhìnhănƠyăthừa nhn là
tingănóiăđc to ra bng cách kích thích b lọc tuyn tính bng mt tín hiu nhiu
trngăđi vi các tín hiu vô thanh, hoặc là mt chui các xung tín hiu giọng nói.
B mã hoá ngun hotăđng vi tcăđ Bit khong 2kbps hoặcăbéăhn.
6
DaăvƠoăcácăphngăthc phân tích thông s mô hình, mt vài kiểu mã hoá
ngunăđƣăđc phát triển ví d nhăviz,ămƣăhoáăkênh,ămƣăhoáăđng hình, mã hoá
formant và mã hoá d đoánă tuyn tính. Vic sử dng b lọcă nƠyă tngă t vi
nguyên lý ca mã hoá d đoánătuynătính(LPC).ăHìnhă1.3ăcũngălƠămô hình to ting
nóiăđc sử dng bi mã hóa ngun.
Hình 1.3:Mô hình to tingănóiăđc sử dng bi mã hoá ngun
1.2.3 Mã hoá lai
Mƣăhoáălai(hybridăcoder)ălƠăphngăphápătổng hp giaăphngăphápămƣăhóaă
dng sóng và mã hoá ngun, nhm khc phcăcácănhcăđiểm caăhaiăphngăphápă
trên.ăNhătaăđƣănóiăthìămƣăhóaădng sóng s cho chấtălng tt vi tcăđ Bit vào
khongă16kbps,ătrongăkhiăđóămƣăhoáăngunăđc thc hin mt tcăđ bit rất thấp
vào khong 4.1kbps hoặc 4kbps[13], [14] nhngă không thể đaă raă chấtă lng t
nhiên. Mặc dù còn có mt s dng mã hóa lai khác còn tn ti,ătuyănhiênăphngă
pháp thành công nhấtăvƠăđc sử dng rngărƣiăđóălƠăphngăphápămƣăhoáătrongă
min tần s Analysys - by - Synthesis(AbS).ăPhngăphápănƠyăcũngăsử dng mô
hình lọc d đoánătuyn tính. Tuy nhiên, thay vì áp dngămôăhìnhăđnăgin gm có
hai trng thái là huăthanh/vôăthanh(voicedă/ăunvoiced)ăđể tìmăđầu vào cần thit cho
b lọc, thì tín hiuăkíchăthíchăđc chọn sao cho tín hiuăđc khôi phc gần vi tín
hiuăbanăđầu. Mt mô hình chung caămƣăhóaăAbSăđcăđaăraătrongăhìnhăv 1.4.
AbSăđc gii thiu lầnăđầuătiênăvƠoănĕmă1982ăbiăAtalăvƠăRemde,ăvƠăbanăđầu nó
7
đc gọiălƠămƣăhóaăkíchăthíchăđaăxung(MPE),ăvƠăsauăđóăthìăRPEăvƠăCELPălầnălt
đcăđaăra.ăNhiu bnăCELPăkhácănhauăđƣăđc chuẩn hoá, gm có G.723.1 hot
đng tcă đ Bit là 6.3/5.3kbps, G.729 8kbps, G.728 16kbps và tất c các
chuẩn mã hoá mng thoiădiăđngănhăGSM,ăISăậ 54, IS ậ 95, IS ậ 136.
Hình 1.4:Kin trúc ca mã hoá AbS. (a): Mã hoá. (b): Gii mã.
1.3 Phát trin bộ mã LPC-10e
Mã hóa tingănóiăđc nghiên cu nhiu và phát triển trong nhngănĕmăgần
đơy,ăhin nay có nhiu thutătoánăđể thc hin mã hóa ting nói[4]. Tuy nhiên mc
đíchăcui cùng ca mã hóa ting nói là tcăđ bit thấp nhất,ănhngăchúngătaăphi tr
giá gia chấtălng ting nói và tcăđ bit.ăTrongăđó,ămƣăhóaăkỹ thut mã hóa tuyn
tínhăđm boăđc s tr giá này.
Trong bài báo [15], [16], [17], [18] đuăđaăraăthut toán nén tín hiu thoi
tcăđ thấp. Trong bài báo [15] đaăraăphngăphápăni suy trên min tần s có tc
đ bit là 4kb/s hoặc thấpăhnăviăđ phc tp cao so viăcácăphngăphápăkhác.ă
PhngăphápănƠyăchoăchúngătaăthấy rng ti tcăđ bit là 4kb/s hoặc thấpăhn.ăSauă
khiăđánhăgiáăbngăphngăphápăACRăvi thử nghim MOS, FDI cho chấtălng
tingănóiătngăt nhăcácăchuẩn tingănóiăđƣăđc phê chuẩn(ITU standards G.729
8kb/s codec, G.723.1 5.3kb/s codec, và U.S.Federală Standardă FS1016).ă Đi vi
phngăphápănƠyănhcăđiểm ln nhất là thut toán phc tp.ăCònăđi vi bài báo
8
[16] tác gi đaăraăphngăphápănénăda trên mã hóa tuyn tính(kỹ thut nén suy
hao) tỉ l nénăđn 95% để tit kimăbĕngăthông.ăBƠiănƠyătácăgi phân tích nhăhng
ca tcă đ lấy mu, bc b lọc,ă vƠă kíchă thcă frameă đi vi ting nói ca
nam(ngi ln) và n(ngi ln). Tất c nhng nhă hngă nƠyă đc mô phng
bngăMatlab,ăchaăđc thc nghim trên phần cng. Hin nay, trong bài báo [18]
đ xuất mtăphngăphápănénăda trên Compressive Sensing(CS), so sánh hiu suất
ca phngăphápănƠyăviăcácăphngăphápăđc nêu trên thì kt qu cho chúng ta
thấy rng: CS cho hiu suấtă caoă hnă vi cùng mt tỉ l nén.ă Đơyă cũngă lƠă mt
phngăphápănénămi và hinănayăđangăđc nghiên cu trên th gii.ăVƠăphngă
phápănƠyăcũngăchaăđc thc nghim trên phần cng.
Trong lună vĕnă nƠy,ă chúngă taă phátă triển thut toán nén LPC-10e và thc
nghimătrênăKităDSP320C6713.ăĐánh giá chấtălng ting nói da trên tiêu chuẩn
P.862 ca ITU.
1.4 Cấu trúc lun văn
Lunăvĕnăgmăcóă4ăchng
Chngă1:ăGii thiu tổng quan
Chngă2:ăCăs lý thuyt
Chngă3:ăThc hin trên Matlab và TMS320C6713
Chngă4:ăKt lun
Chng 2
9
C S LÝ THUYT
2.1 Tín hiu ting nói
2.1.1 C ch phát âm ting nói
H thng phát âm ngi bao gm: phổi, khí qun(trachea), thanh qun,
khoang ming(oralăcavity)ăvƠăkhoangămũi(nasalăcavity)ănhătrongăhìnhă2.1.ăThanhă
qun cha hai np gấp gọi là dây thanh âm(acoustic tube) dài khong 17cm nam,
phầnătrc kt thúc môi và phần sau kt thúc dây thanh âm hay thanh qun.
Khoang mingă đóngă vaiă trò là mt hp cngă hng, thể tích ca nó có thể điu
khiển bi b phnăphátăơm(môi,ălỡi, quai hàm và vòm ming). Khoang ming là
mt ng dài khong 12cm nam và kt thúc mũiăvƠăvòmăming. Vòm ming
mm s điu khiểnăhiăphátăraătheoăđng ming hoặcăđngămũi.ăĐi vi nhng
âm không theo giọngămũiăvòmăming s đóngăkhoangămũiăvƠăhiăchỉ phát ra theo
đng ming.ăĐi vi nhng âm có giọngămũi,ăvòmăming s dịch chuyển xung
phíaădiăđóngăđng mingăvƠăhiăchỉ phátăraătheoăđngămũi,ăhayăcóăthể s qua
haiăđng.
Hình 2.1: Cấu toăcácăcăquanăphátăraăơmăthanh
10
Khi nói phổi chaă đầy không khí s đcăđẩy qua khí qun và thanh môn.
Lung không khí s kíchăthíchădơyăthanhăơmădaoăđng và to ra s phát âm. Âm
thanh này truyn ra ngoài quaăkhoangămũiăvƠăkhoangăming và các khoang này có
tác dngănhăb lọc làm suy hao mt vài tần s khi các tần s nƠyăđiăqua.
Khoangămũi(nasalăcavity)ăcũngălƠămt ng phát âm vi din tích và chiu dài
c định(khongă12cmăđi viăngiănamătrng thành) nóăđc ktăthúcăphíaătrc
bi l mũi(nostrils)ăvƠăphíaăsauăbi vòm ming(velum).
Khiă phátă ơmă cácă ơmă khôngămũi(non-nasalised sounds), vòm ming s chặn
khoangămũiăli,ădoăđóăơmăthanhăchỉ điăraătheoăđng ming qua hai môi.
Khiăphátăơmăcácăơmămũi(nasalisedăsounds) vòm ming s đc h thấp xung
vƠăkhoangămũiăs đc ni thông vi khoang ming.ăTuyănhiên,ătrongătrng hp
nƠyăphíaătrc ca khoang ming s đcăđóngăli hoàn toàn và âm thanh chỉ đc
truynăraăngoƠiăquaăđngămũi.
Khi nói không khí s điăvƠo phổi bi s n rngăcácăcăquanăca lng ngc và
s h thấp caăcăhoƠnh.ăKhiălng ngc co li, không khí s đc tng ra ngoài qua
khí qun và thanh môn(glottis). S luăthôngănƠyăca không khí là ngun kích thích
dơyăthanhăđi viădaoăđng to ra s phát âm. Nó có thể đcăđiu khiển bi nhiu
cách khác nhau thông qua các kích thích khác nhau ca b phn phát âm.
Nhăvy, phổiăluă tr khôngăkhíăđể kíchă thíchă dơyăthanhădaoăđng, s dao
đng caădơyăthanhădaoăđng to ra s phátăơm.ăÂmăthanhăđc to ra từ dây thanh
s đc truynă raă ngoƠiă quaă cácă khoangă phíaă trc thanh hầu(khoang yt hầu,
khoang mingăvƠăkhoangămũi),ăcácăkhoangănƠyăđóngăvaiătròălƠăcácăhp cngăhng
s khuchăđi mt vài thành phần tần s và làm suy gim các thành phần tần s còn
li, từ đóăs to ra các ting nói khác nhau.
Dây thanh chuyểnăđng nhanh hay chm,ăbiênăđ ln hay nh là do tcăđ ca
lungăkhôngăkhíăđiătừ phổi lên khí qun và do scăcĕngăca dây thanh, c haiăđiu
nƠyăđầu có thể đcăđiu khiển biăngi nói nhmăđiu khiển cngăđ âm thanh
phát ra.
11
B máy phát âm ca mọiăngiăkhácănhau,ădoăđóăgiọng nói ca miăngi mi
khác. Ví d nhădoăs khác nhau v chiu dài ca dây thanh mà dnăđn giọng nói
ca nam gii trầmăhnăgiọng nói ca ph n.
Tuynăơmăđcăxemănhămt hc cngăhng có tác dngătĕngăcng mt tần
s nƠoăđó,ănhng tần s đcătĕng cng lên đc gọi là các formant. Nu xem
khoang ming là tuynăơmăthìăkhoangămũiăxemănhăhc cngăhng. Mt b phn
phát âm có mt s hu hnăformant,ădoă biênăđ ca các formant caoăhnăbị suy
gim khong -12dB/octave nên chỉ cầnăquanătơmăđnă3ăhayă4ăformantăđầu tiên trên
bĕngătần từ 100Hzăđnă3.5KHz.ăTrng hp ting nói vô thanh, phổ tngăđi bng
phẳng, s lngăcácăformantănhăvy vnăđ mặc dù tingănóiăvôăthanhăcóăbĕngătần
m rngălênăđn 7-8KHz. Ngoài ra, do nhăhng ca mingănênăbiênăđ đcătĕngă
lên chừngă6dB/octaveătrongăbĕngătần 0-3KHz. Chính vì vyămƠăđn phần tin xử lý
tín hiu ta phi dùng b lọc tin nhấnăđể bù thêm +6dB/octave.
2.1.2 Đặc tính âm hc ting nói
Tín hiu ting nói là tín hiuătngăt biểu din cho thông tin v mặt ngôn ng
vƠăđc mô t bi các âm vị khác nhau. TuǶ theo từng ngôn ng c thể mà s lng
các âm vị nhiuăhayăít.ăThôngăthng s lng các âm vị vào khong 20 ậ 30 và
nh hnă50ăđi vi mọi ngôn ng.ăĐi vi từng loi âm vị mƠăcóăcácăđặc tính âm
thanh khác nhau. Các âm vị đc chia thành hai loi nguyên âm và ph âm. Tổ hp
các âm vị to nên âm tit. Âm tităđóngăvaiătròămt từ trọn vẹn mang ng nghƿa.
Bn chất ca ting nói là s daoăđng ca dây thanh(xuất phát từ lung khọng
khí phát ra từ phổi), từ đóătoăraăsădaoăđng(nén hoặc giãn) ca lung không khí
ngayătrc ming caăngi nói. Kt qu là to ra s chênh lch cc b v áp suất
không khí. Nuădùngămicroăđể nhn bit s chênh lch này thì ting nói s đc thể
hinădi dngăcácădaoăđng v đin.
mcăđ ngôn ng học ting nói có thể đcăxemănhălƠămt chui các âm
thanhăcăbn gọi là âm vị(phoneme).ăDoăđó,ăơmăvị lƠăđnăvị căbnăđể to ra âm
thanhănhngăđôiăkhiăchúngătaăkhôngănhnăđc âm vị đóătừ tín hiu ting nói. Cùng
12
mt âm vị có thể biểu din bi nhiu tingănóiăkhácănhau.ăHnăna, nhiuăngi nói
khác nhau phát âm cùng mt chui ting nói thì s chuyểnăđiăcùngămtălng thông
tinănhănhau,ănhngăơmăthanhăli không ging nhau hoàn toàn. Nguyên nhân chính
là do s khác nhau v hình dng ca b máy phát âm ca miăngi và do s nh
hng ca thổ ng(dialect) tc là tingă nóiă đc phát ra nhng khu vc khác
nhau. Vì hình dng ca b máyăphátăơmăvƠădoăđóălƠăơmăthanhăđc toăraăđcăđiu
khiển biăcácăcăquanăphátăơm(speechăarticulators),ăcácăơmăvị tngăng trc ting
vi vị tríăcũngănhălƠăs dịch chuyển ca các khp(articulatory) trong b máy phát
âm còn gọiălƠăđiu b khiăphátăơm(articulatoryăgestures).ăĐiu b ca s phát âm có
thể tƿnhăhoặcăđng tùy thuc vào s không chuyểnăđng hoặc chuyểnăđng ca các
khp khi phát âm.
Ting nói có thể đc phân là ba loi khác nhau là âm hu thanh(voiced), âm
vô thanh(unvoiced) và âm bt(aspirated):
Âm hu thanh(voiced sounds): là dng ting nói gingănhăkhiătaăphátăraăcácă
ơmă'a','o' ÂmăthanhănƠyăđcăphátăraăkhiădơyăthanhăđcăcĕngăraăvƠăchúngăchuyển
đng theo kiểu ni lng(relaxation mode) to nên áp suất không khí làm cho thanh
môn m raăvƠăđể cho không khí chuyểnăđng xuyên qua nó. S chuyểnăđng này
ca các dây thanh to ra mt dng sóng ca dòng không khí gần ging dng tam
giác. Dng sóng này có dng tuần hoàn hoặc gần tuần hoàn. Chúng có phổ tần s
ca các thành phần hài là bi s ca tần s căbn còn gọi là pitch và tcăđ suy
gim ca chúng là 12dB/octave.
B máy phát âm caă conă ngi hotă đng gingănhă mt b cngă hng,
khuchăđi mt vài thành phần hài và làm suy gim các thành phần hài còn liăđể
to ra dng sóng nguyên âm.
Tcă đ chuyểnăđng ca dây thanh ph thuc vào áp suất không khí trong
phổi và scăcĕngăca dây thanh. C haiăđiuănƠyăđu có thể đcăđiu khiển bi
ngiănóiăđể lƠmăthayăđổiăcngăđ ơmăthanhăđc phát ra.
13
Ting nói caăngiăđƠnăôngătrng thành có tần s căbnăthayăđổi khong từ
50Hzăđn 2500Hz, trung bình khongă120Hz.ăTrongăkhiăđó,ăting nói caăngi ph
n trng thành có tần s căbnăcaoăhnărất nhiu, có thể lênăđn 500Hz.
Âm vô thanh(unvoiced sounds): ví d nhă 'p','t',f', Khiă phátă raă cácă ơmănƠyă
dây thanh không chuyểnă đng.ă Âmă vôă thanhă đc chia làm hai loi là âm
xát(fricative sounds) và âm bt(aspirated sounds).
Khi phát âm các âm xát('s','x' ) s sit liăđc to ra ti mtăvƠiăđiểmănƠoăđóă
trong b máy phát âm và không khí bị ép buc phiăđiăqua.ăDoăđó,ăto ra mt s
chuyểnăđng hn lon(turbulence) s kích thích nhiu ngu nhiên phát sinh. S sit
liăthngăcóăxuăhng xy ra phíaătrc ming nên s côngăhng ca b máy
phát âm ít nhăhngăđnăcácăơmăxátăđc phát ra.
Khi phát âm các âm btăhi(h,ăkh,ăk, )ăs chuyểnăđng hn lon ca không
khí xy ra tiăthanhămônătrongăkhiăcácădơyăthanhăđc gi khong cách khá xa
nhau.ăTrongătrng hp này, s cngăhng ca dây thanh s điu chỉnh dng phổ
ca nhiu ngu nhiên. Hiu ng này s đc nghe rấtărõăđi vi các ting nói thì
thầm.
Âm btăhi(plosiveăsounds)ăvíăd nhăơmă'đ'ătrongătừ 'đi'.ăKhiăphátăcácăơmănƠy,ă
b máy phát âm s đóngăli hoàn toàn ti mt thiăđiểmănƠoăđóătrongăb máy phát
âm. Áp suất không khí trong b máy phát âm s tĕngălênătc thiăvƠăsauăđóăđc
gii phóng mt cáchăđt ngt. S gii thoát nhanh chóng ca áp suất này s to nên
mt s kích thích tm thi ca b máy phát âm. S kích thích tm thi này có thể
xy ra kèm theo hoặc không kèm theo s chuyểnăđng ca dây thanh.
2.1.3 Đặc tính vt lý ting nói
Bn chất âm thanh tingănóiălƠăsóngăcăhọc nên có các tính chấtăcăbn ca
sóngăcăhọc. Các tính chất caăsóngăcăhọc mang mtăýănghƿaăkhácăkhiăxétătrênăgócă
đ là âm thanh ting nói.
14
Tín hiu ting nói là mt tín hiu ngu nhiên không dừng, tuy nhiên nhngăđặc
tính ca nó tngă đi ổnă định trong nhng khong thi gian ngn(vài chc mili
giây). Trong khong thi gian nh đóătínăhiu gần tuần hoàn, có thể coiănhătuần
hoàn.
2.1.3.1 Độ cao
Đ cao hay còn gọiălƠăđ trầm bổng ca âm thanh chính là tần s caăsóngăcă
học. Âm thanh nào phátăraăcũngă mtă đ cao nhấtăđịnh.ăĐ trầm bổng ca âm
thanh ph thuc vào s chấnăđng nhanh hay chm ca các phần tử trong không khí
trong mtăđnăvị thi gian nhấtăđịnh.ăNóiăcáchăkhác,ăđ cao ca âm ph thuc vào
tần s daoăđng.ăĐi vi ting nói, tần s daoăđng caădơyăthanhăquyăđịnhăđ cao
giọng nói caăconăngi và miăngi có mtăđ cao giọng nói khác nhau.
Đ cao ca n giiăthngăcaoăhnăsoăvi nam giiăvƠăđ cao ting nói ca trẻ
emăcaoăhnăsoăvi n gii,ăđiuănƠyăcũngătngăt đi vi tần s ca dây thanh.
2.1.3.2 Cng độ
Cngăđ chínhălƠăđ to nh caăơmăthanh,ăcngăđ càng ln thì âm thanh có
thể truynăđiăcƠngăxaătrongămôiătrng có nhiu. Nuăxétătrênăgócăđ sóngăcăhọc
thìăcngăđ chínhălƠăbiênăđ caădaoăđng sóng âm, nó quytăđịnh cho nĕngălng
ca sóng âm. Trong tingănói,ăcngăđ caănguyênăơmăphátăraăthng lnăhnăph
âm. Do vyăchúngătaăthng d phát hinăraănguyênăơmăhnăsoăvi ph âm. Tuy
nhiênăđi viătaiăngi giá trị tuytăđi caăcngăđ âm I không quan trọng bng
giá trị tỉ đi ca I so vi mt giá trị I
0
nƠoăđóăchọn làm chuẩn.ăNgiătaăđịnhănghƿaă
mcăcngăđ âm L là logarit thp phân ca tỉ s I/I
0
(đnăvị mcăcngăđ là Ben-
ký hiu B)
0
( ) lg
I
LB
I
15
2.1.3.3 Trng độ
Trngăđ hayăđ dài ca âm ph thuc vào s chấnăđng lâu hay nhanh ca
các phần tử không khí. Cùng mtăơmănhngătrongăcácătừ khácănhauăthìăđ dài khác
nhau.
2.1.3.4 Âm sắc
Âm sc là bn sc, sc thái riêng ca mt âm, cùng mt ni dung, cùng mtăđ
caoănhngăkhiănóiămi ngiăđu có âm sc khác nhau.
2.1.3.5 Tần s vt qua đim không
Tần suấtăvtăquaăđiểm không là s lầnăbiênăđ tín hiu tingănóiăvt qua giá
trị không trong mt khong thiăgianăchoătrc.ăThôngăthng giá trị nƠyăđi vi
âm vô thanh lnăhnăơmăhuăthanhădoăđặc tính ngu nhiên caăơmăvôăthanh.ăDoăđóă
tần suấtăvtăquaăđiểm không là tham s quan trọngăđể phân loi âm hu thanh và
âm vô thanh.
2.1.3.6 Tần s c bn
Dng sóng ca ting nói gm hai phần: Phần gần ging nhiuătrongăđóăbiênăđ
binăđổi ngu nhiên và phần tuần hoàn. Phần tín hiu có tính chu kǶ cha các thành
phần tần s có dngăđiu hòa. Tần s thấp nhất chính là tần s căbnăvƠăcũngăchínhă
là tần s daoăđng ca dây thanh.
Đi vi nhngăngi nói khác nhau, tần s căbnăcũngăkhácănhau.ăTần s că
bn ca trẻ emăthngăcaoăhnăsoăviăngi ln và ca n giiăcaoăhnăsoăvi nam
gii. Bng 2.1 là mt s giá trị tần s căbnătngăng vi gii tính và tuổi:
Đi viăhaiăơmăcóăcùngăcngăđ,ăcùngăđ cao s đc phân bit bi tính tuần
hoàn. Mt âm hu thanh có tín hiu gầnănhătuầnăhoƠnăkhiăđc phân tích phổ s
xuất hin mt vch ti vùng tần s rất thấp. VchănƠyăđặcătrngăchoătínhătuần hoàn
căbn caăơmăhayăđóăchínhălƠătần s căbn ca âm. Trong giao tipăbìnhăthng
tần s căbnăthayăđổi liên tc to nên ng điu cho ting nói.
16
Bng 2.1:Giá trị tần s căbnătngăng vi gii tính và tuổi
Ngi nói
Giá trị tần s
căbn(Hz)
Nam gii
80 ậ 200
N gii
150 ậ 450
Trẻ em
200 ậ 600
2.1.3.7 Formant
Trong phổ tần s ca tín hiu ting nói, mi đỉnhăcóăbiênăđ cao nhất xét trong
mt khongănƠoăđóă(cònăgọi là cc trị địaăphng)ăxácăđịnh mt formant. Ngoài tần
s,ăformantăcònăđcăxácăđịnh biăbiênăđ và di thông ca chúng. V mặt vt lý
các tần s formantătngăng vi các tần s cngăhng ca tuyn âm. Trong xử lý
ting nói và nhất là trong tổng hp tingănóiăđể mô phng li tuynăơmăngi ta
phiăxácăđịnhăđc các tham s formantăđi vi từng loi âm vị,ădoăđóăvicăđánhă
giá,ăcălngăcácăformantăcóăýănghƿaărất quan trọng.
Tần s formant bin đổi trong mt khong rng ph thuc vào gii tính ca
ngi nói và ph thuc vào các dng âm vị tngăng viăformantăđó.ăĐng thi,
formant còn ph thuc các âm vị trcă vƠă sauă đó.ă V cấu trúc t nhiên, tần s
formant có liên h chặt ch vi hình dng và kíchăthc tuynăơm.ăThôngăthng
trong phổ tần s ca tín hiu có khongă6ăformantănhngăchỉ cóă3ăformantăđầu tiên
nhăhng quan trọngăđnăcácăđặc tính ca các âm vị, còn các formant còn liăcũngă
có nhăhng song rất ít. Các formant có giá trị tần s xê dịch từ vƠiătrĕmăđn vài
nghìn Hz.
Tần s formantăđặcătrngăchoăcácănguyênăơmăbinăđổi tuǶ thucăvƠoăngi nói
trongăđiu kin phát âm nhấtăđịnh. Mặc dù phm vi ca các tần s formantătngă
ng vi mi nguyên âm có thể trùngă lênă nhauă nhngă vị trí gia các formantă đóă
khôngăđổi vì s xê dịch ca các formant là song song.
17
NgoƠiăformant,ăcácăơmămũiăcònăcóăcácătần s bị suy gim gọi là phn formant
(anti-formant). Phnăformantăđc to nên khi lungăkhíăđiăquaăkhoangămũi.ăCácă
formantătngăngănóiăcácăđiểm cc ca hàm truynăđt vì ti lân cnăđiểm cc giá
trị hàm truynăđt là rất ln,ătngăt vy các anti-formantătngăng viăcácăđiểm
không ca hàm truynăđt.
2.1.4 Phân loi đn gin dng sóng ting nói
Ting nói caăconăngi to ra bao gm có hai thành phầnăđóălà:
Phần gần tuần hoàn mà hầuănhălặp li cùng chu kǶ đc gọi là ting nói hu
thanh (voiced speech). Chu kǶ lặp liăđóăgọi là chu kǶ căbn T
0
nghịchăđo ca
T
0
là tần s căbn F
0
. Âm huăthanhăđc phát ra bi mt lung khí cc mnh từ
thanh môn thổi qua dây thanh làm dung dây thanh, s daoăđng ca dây thanh to
nên ngun tuần hoàn. Ngun tuần hoàn kích thích tuyn âm to nên âm hu thanh.
Vùng âm hu thanh chim thành phần ch yu ca sóng ting nói, chaăđngălng
tin nhiu nhất và thi gian ln nhất trong quá trình nói.
Phần tín hiu có dng gingănhătp âm nhiuăcóăbiênăđ nguănhiênăcònăđc
gọi là ting nói vô thanh(unvoiced speech). Tingănóiăvôăthanhăđc to ra do s co
tht theo mt dngănƠoăđóăca tuyn âm và lung khí chy qua ch tht vi tcăđ
ln to nên nhiu lon, ví d nhălúcătaănóiăthìăthƠo(cần phân bit thì thầm vi thì
thào, theo từ điển ting Vit thì thào là nói chuyn vi nhau rất nh taănhăgióă
thong qua tai còn thì thầm là nói chuyn viă nhauăkhôngă để ngi ngoài nghe
thấy).ăNĕngălng do ngun nhiu lon to ra s kích thích tuyn âm to nên ting
nóiăvôăthanh,ănĕngălng ca ting nói vô thanh nh hnăsoăvi ting nói hu thanh.
Ta có thể phát hin ra ting nói hu thanh là khi nói dây thanh rung. Còn âm
vô thanh khi nói dây thanh không rung. Nói thì thào thì xaăkhôngăngheăđc do
nĕngălng ca âm vô thanh rất nh và ting thì thào là do âm vô thanh to nên.