Tải bản đầy đủ (.pdf) (71 trang)

Thực hiện thuật toán nén thoại và thực nghiệm trên KIT TMS320C6713

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.49 MB, 71 trang )



vi
By
THANH PHAM ậ QUANG HUYNH

Submitted to the Department of Electrical and Electronics Engineering
on April19, 2014 in partial fulfillment of the requirements for the degree of
Master of Science in Electronics and Communication Engineering at the
University of Technical Education Ho Chi Minh City

Abstract
Newapplicationsinvolvingspeechcodinghaveincreasedconsiderably. The field of
speechcodinghasplayedan
imp
ortan
t
roleinmobilecommunication
systems.
Hence,researchand
improv
emen
t
ofspeechcodingmethodsare topromote
the
needs
ofthemarket. Inthisthesis,wedevelopeda real-time speechcoder of the LPC-
10ealgorithm. The speechcoderisimplementedonTexas
Instrumen
ts
TMS320C6713


DigitalSignal
Processor(DSP)
accordingtoLPC-10eFederal
Stan
dard 1015.Finally,
Perceptual
EvaluationofSpeech
Quality(PESQ)
algorithmis
usedformeasuringthevoice
qualit
y
.

Keywords:Algorithm,LPC-10e,quality evaluation,andTMS320C6713.
Thesis Supervisor: Assoc. Prof. Dr. Chien Hoang-Dinh
Title: Assoc. Prof.
MC LC
LI CMăN iv


vii
Danh sách hình v ix
Danh sách bng xi
Các từ vit tt xii
Chngă1 1
TNG QUAN V LƾNHăVC NGHIÊN CU 1
1.1 Gii thiu chung 1
1.2 Mã hóa ting nói 1
1.2.1 Mã hoá trên min thi gian 3

1.2.2 Mã hoá trên min tần s 4
1.2.3 Mã hoá ngun 5
1.2.3 Mã hoá lai 6
1.3 Phát triển b mã LPC-10e 7
1.4 Cấu trúc lunăvĕn 8
Chngă2 8
CăS LÝ THUYT 9
2.1 Tín hiu ting nói 9
2.1.1ăCăch phát âm ting nói 9
2.1.2ăĐặc tính âm học ting nói 11
2.1.3ăĐặc tính vt lý ting nói 13
2.1.3.3ăTrngăđ 15
2.1.3.4 Âm sc 15
2.1.3.5 Tần s vtăquaăđiểm không 15
2.1.3.6 Tần s căbn 15
2.1.3.7 Formant 16
2.1.4 Phân loi đnăgin dng sóng ting nói 17
2.2 S hóa ting nói 18


viii
2.3 Tổng quan v phân tích/tổng hp ting nói 19
2.3.1 Gii thiu chung 19
2.3.2 Phân tích LPC 20
2.3.3 Tổng hp ting nói 21
2.4ăPhngăphápăđánhăgiáăchấtălng thoi 24
2.4.1ăPhngăphápăđánhăgiáăch quan 24
2.4.2ăCácăphngăphápăsoăsánhăda trên mô hình giác quan 26
2.4.2.1 PhngăphápăPESQ 26
2.5 B xử lý tín hiu s TMS320C6713 27

2.6 Code composer studio(CCS) 30
2.7 Tổng quan v kit DSKTMS320C6713 32
2.7.1 B binăđổi AIC 23 33
2.7.3 McBSP (Multichannel Buffered Serial Port) 37
2.7.4 EDMA kt hp vi McBSP 37
2.7.5 Kỹ thut vào ra Ping Pong 38
2.7.6 Vn chuyển d liu kiểu Ping-Pong 40
2.7.7 Móc ni các cấu hình Ping-Pong 40
2.7.8 Lungăđiu khiển 41
2.7.9 Kỹ thut vào ra cho h thng 42
Chngă3 43
THC NGHIM TRÊN MATLAB 43
VÀ KIT TMS320C6713 43
3.1 Phân tích ting nói 43
3.2 Tổng hp ting nói 44
3.2.1 Tổng hp d đoánătuyn tính ca tín hiu hu thanh 45
3.2.2 Tổng hp ting nói ca âm vô thanh 51
3.3ăThayăđổi thông s caăchngătrìnhăMatlab 52


ix
3.3.1 Cách thc thc hin 52
3.3.1.1 Giọng Nam 52
3.3.1.2 Giọng n 53
3.4 Thc hin trên Kit TMS320C6713 55
3.5.1 Mã hóa 55
3.5.2 Gii mã 56
3.5.3 Kt qu thc hin trên Kit 57
Chngă4 58
KT LUN 58

4.1. Kt lun 58
4.2.ăHng phát triển 58
TÀI LIU THAM KHO 60









Danh sách hình v
Hình 1.1: B mã ph thuc vào tcăđ bit và chấtălng [25] 3
Hình 1.2: H thng DPCM 4
Hình 1.3: Mô hình to tingănóiăđc sử dng bi mã hoá ngun 6


x
Hình 1.4: Kin trúc ca mã hoá AbS. (a): Mã hoá. (b): Gii mã. 7

Hình 2.1: Cấu toăcácăcăquanăphátăraăơmăthanh 9
Hình 2.2: S hóa tín hiuătngăt 18
Hình 2.3: Lấy muăvƠălng tử hóa tín hiu thoi 19
Hình 2.4: Mô hình tổng hp ting nói bngăphngăphápăformant 22
Hình 2.5: Mô hình tổng hp ting nói bngăphngăphápăLPC 23
Hình 2.6: Mô hình tổng hp ting nói bngăphngăphápămôăphng ngun âm 23
Hìnhă2.7:ăLuăđ thut toán PESQ 27
Hình 2.8: Cấu trúc b xử lý DSP TMS320C6713 28
Hình 2.9: BSL cần cho CCS 32

Hình 2.10: Tổng quan phần cng board DSK TMS320C6713 33
Hình 2.11: Giao tip ngõ vào và ngõ ra ca các thit bị âm thanh và b Codec 34
Hình 2.12: Mô hình vào ra EDMA 35
Hìnhă2.13:ăTínhănĕngăđaăkênhăca EDMA 36
Hình 2.14: TCC vi các kênh EDMA khác nhau 36
Hình 2.15: Mô hình kt hp gia EDMA và McBSP 38
Hình 2.16: Các b đm Ping-Pong[2] 39
Hình 2.17: Ping-Pong Buffer và Linked Transfer 41
Hìnhă2.18:ăĐ thị thc thi các tin trình 42

Hìnhă3.1:ăSăđ khi phân tích ting nói 43
Hình 3.2: Dng sóng tín hiu 44
Hình 3.3: Phổ ca tín hiu ting nói 45
Hình 3.4: Dng sóng tín hiu khong 30s 45
Hình 3.5: Ni dung ca Frame 46
Hìnhă3.6:ăĐápăng tần s ca Inverse và b lọc tổng hp 47
Hìnhă3.7:ăĐápăng tần s ca b lọc tổng hp 47
Hìnhă3.8:ăĐiểm cc và Zero ca b lọc 48
Hình 3.9: Dng sóng ca d đoánăResidual 48
Hình 3.10: Periodogram ca d đoánăResidual 49
Hình 3.11: LPC excitation 49
Hình 3.12: Periodogram ca LPC excitation 50
Hình 3.13: Dng sóng ca âm "e" 50
Hình 3.14: Phổ tín hiu ca âm "e" 51
Hình 3.15: Dng sóng ca ting nói vô thanh 51
Hình 3.16: Mtăđ phổ công suất 52
Hìnhă3.17:ăSăđ khi mã hóa 55


xi

Hìnhă3.18:ăSăđ khi gii mã 56



















Danh sách bng

Bng 2.1: Giá trị tần s căbnătngăng vi gii tính và tuổi 16
Bng 2.2: Bng MOS 25
Bng 2.3: Memory map ca TMS320C6713 29



xii
Bng 3.1: Tcăđ xử lý(Namătrng thành) 53

Bng 3.2: BngăMOS(Namătrng thành) 53
Bng 3.3: Tcăđ xử lý(N trng thành) 54
Bng 3.4: Bng MOS(N trng thành) 54
Bng 3.5: Tính toán tcăđ bit 55
Bng 3.6: Kt qu thc nghim trên Kit 57
















Các t vit tắt
ITU
InternationalTelecommunication
Union
Liênminhvin thôngquc
t

PCM
Pulse CodeModulation

Điuchmã
xung



xiii
APCM
Adaptive Pulse Code Modulation
Điu ch mã
xung
thích
nghi

DPCM
DifferentialPulse CodeModulation
Điu ch mã xungvi
phân

ADPCM
Adaptive Differential
PulseCodeModulation
Điu
c
h
mãxungviphânthích
nghi

DM
DeltaModulation
Điuch

Delta

ADM
AdaptiveModulationDelta
ĐiuchDeltathích
nghi

APC
Adaptive Predictive Coding
Mãhoádđoánthích
nghi

LPC
LinearPredictiveCoding
Mãhóatuyn
tính

MOS
MeanOpinionScore
Điểmđánhgiátrungă
bình

PESQ
Perceptual
Evaluation ofSpeechQuality
Đánhgiá
nhn
thcchấtlng
thoi









1
Chng 1
TNG QUAN VLĨNH VC NGHIÊN CU

1.1 Gii thiu chung
Mãhóatingnóilàngdngcalƿnhvcxửlýtínhiu,vicxửlýnàymcđíc
h
xétđnlàhiuqutrong victruyn ti vƠlutr. Vicmãhóatingnói,
mc
tiêu
làgimtcđbit,ă nghƿaă lƠtcđbit trên migiây,trongă khiđóvn
duy
trìđchìnhdngcadngsóngbanđầu.Trongtrnghpnày,chấtă ă lng
ca
tingnóiđcđánhă giánhsau:stnhiên,dhiểu,vàsnhn dngkhi
phát
qualoa[3],[4]. Bng 1.1 phân loi b mã ting nói theo tcăđ bit.
Bng 1. 1: Phân loi theo tcăđ bit
Stt
Phơnăloiă
TcăđăBit
1
High bit-rate

>15 kbps
2
Medium bit-rate
5ăđn 15 kbps
3
Low bit-rate
2ăđn 5 kbps
4
Very low bit-rate
<2 kbps

1.2 Mã hóa ting nói
Nhu cầu ca các h thngăthôngătinădiăđngănhăđin thoiădiăđngăđangătĕngă
trongăvƠiănĕmăquaăvƠăđƣăcóăphátătriểnăvt bc ca các b mã vi tcăđ bit thấp. S
raăđi ca b mã CELP(Code Excited Linear Prediction)[5] và s phát triển ca các
phngăphápăkhác da trên b mƣăCELPăđƣăđóngăgópărất ln vào vic ci thin h
thng mã hóa ting nói vi tcă đ bit thấp. Các b mƣă nƠyă đc giám sát bi
ITU(International Telecommunications Union Telecommunication) và
ISO(International Organization for Standardization). Không nhng có nhng b mã
dùng cho mcăđíchădơnăs mà còn phát triển cho mcăđíchăquơnăs. Ví d nhăB
Quc Phòng Mỹ DOD(Department of Defense) gầnă đơyă đƣă thôngă quaă b mã
MELP(Mixed Excitation Linear Prediction) thay th b mã LPC-10. Chấtă lng


2
vt tri ca MELP(Mixed Excitation Linear Prediction), tuy nhiên thut toán
MELP(MixedăExcitationăLinearăPrediction)ăcóăđ phc tpăhnănhiu so vi LPC-
10(gấp 6 lầnăMIPS(MillionăInstructionsăPerăSecond)).ăĐi vi mcăđíchădơnăs, có
hai tùy chọn. Mt trong nhng la chọn này vi chấtă lng ting nói cao và
đphc tp thut toán cao gingănhăMELP,ăđiu này cần có thi gian xử lý nhiu

và phần cng phc tp. Mt la chọn khác vi chấtălng ting nói thấpăvƠăđ phc
tp ca thut toán thấp thì ta dùng b mã cùng họ ca LPC. Hai s la chọn này,
chúng ta phi tr giá gia chấtălng tingănóiăvƠăđ phc tp ca thutătoán.ăĐể ci
thin nhng b mã hin nay, chúng ta cầnăxétăđn c hai yu t là chấtălngăvƠăđ
phc tp.ăVƠăhaiăphngăphápăđcăđaăra,ăphngăpháp th nhất là gimăđ phc
tp ca b mã có chấtălng ting nói cao, th hai là ci thin chấtălng ting nói
ca b mã có chấtălng ting nói thấp.
Kể từ khi họ LPCăđc phổ bin cho mcăđíchădơnăs vƠăđƣăcóănhiu h thng
hotăđng da trên b mã này, ci thin chấtălng thì liăíchăhnălƠăc gng gim
đ phc tp ca b mã. Nói cách khác, nhu cầu cho mt b mã ting nói vi tcăđ
bit thấpăvƠăđ phc tp thấpăđể sử dng cho mcăđíchădơnăs, chẳng hnănhăting
nóiăđápăng thi gian thc trên Internet[6], [7].
Trong mt vài thp kỷ vừaăqua,ăđƣăcóărất nhiu kỹ thut mã hoá nén ting nói
đcăđaăra,ăphơnătíchăvƠăphátătriển. Trong phần này, chúng ta s gii thiu mt s
kỹ thutăđangăđc sử dng hin nay, và mt s kỹ thut s đcădùngătrongătngă
lai.ăThôngăthng thì mã hoá tingănóiăđc chia làm hai lpăđóălƠ:ămƣăhoáădng
sóng(waveform coder) và mã hoá ngun(sourceăcoder)ă(hayăcònăđc gọi là mã hoá
thông s). Mã hoá dngăsóngăđc thc hin  tcăđ Bit cao và cho chấtălng mã
hoá ting nói tt. Mã hoá ngun thc hin  tcăđ Bit thấp,ănhngănóăcóăxuăhng
to ra ting nói có chấtălng nhân to. Hin nay, mt lp mi ca mã hoá ting nói
đc gọiălƠămƣăhoáălai(hybridăcoder),ăđơyălƠăkỹ thut mã hoá tổng hp caăphngă
pháp mã hoá dng sóng và mã hoá ngun, nó cho chấtălng ting nói khá tt và
thc hin  tcăđ Bit trung bình. Hình 1.1 cho chúng ta thấyăđc b mã ph thuc
vào tcăđ bit và chấtălng ting nói ca b mã.


3

Hình 1.1:B mã ph thuc vào tcăđ bit và chấtălng[25]
1.2.1 Mã hoá trên min thi gian

Mã hoá trên min thi gian thc hin vic mã hóa trên khong thi gian lấy
mu ca tín hiu.ăCácăphngăphápămƣăhoáătrongămin thiăgianăthngăđc dùng
gmăcó:ăĐiu ch mƣăxung(PCM),ăđiu ch mã xung thích nghi (APCM),ăđiu ch
mƣăxungăviăphơn(DPCM),ăđiu ch mƣăxungăviăphơnăthíchănghi(ADPCM),ăđiu ch
Delta(DM),ăđiu ch Delta thích nghi(ADM), và mã hoá d đoánăthíchănghi(APC).ă
Tip theo ta s xem xét mtăvƠiăphngăphápămƣăhoáăquanătrọng trong min thi
gian.
Mã hoá PCM
Điu ch mƣă xungă lƠă phngă phápă đnă gin nhất trong mã hoá dng sóng.
Điểm ct yu caăphngăphápănƠyăchínhălƠăquáătrìnhălng tử hóa. Bất c dng
lng tử hoáă vôă hngă nƠoă cũngă cóă thể đc sử dngă trongă phngă phápă nƠy,ă
nhngădngăhayăđc dùng nhấtălƠălng tử hoá logarit[8], [9]. Uỷ banătăvấnăđin
thoiăvƠăđin báo quc t đƣăgii thiuăG.711ănhălƠăphngăphápăchuẩn cho vic


4
mã hoá ting nói thoi. ChuẩnăG.711ăxácăđịnh 8 bit theo lut µ và lut A ca PCM.
Mã hoá dùng lut µ có ít li th hnătrong vic thc hin vì nó cho tỉ s tín hiu trên
nhiu béăhn[10],ă[11].
Mã hoá DPCM và ADPCM
PCM không gi định v tính t nhiên ca dngăsóngăđcămƣăhóa,ădoăđóănóă
làm vic tt vi các tín hiu mà không phi là ting nói. Tuy nhiên, khi mã hoá
ting nói thì s có s tngăquanărất ln gia các mu cnh nhau. S tngăquană
này có thể đc sử dngăđể khôi phcăđc tcăđ Bit ca kt qu. Mtăphngă
phápăđnăginăđể thc hin vicănƠyăđóălƠăchỉ truyn s sai khác gia các mu. Tín
hiu khác bit này s có phmăviădaoăđng nh hnăsoăvi tín hiu ting nói ban
đầu, do vy nó có thể lng tử hoá mt cách hiu qu bng vic sử dng các b
vectorălng tử hoá vi mc xây dng li thấpăhn.ăTrongăphngăphápătrên,ămu
trcăđc sử dngăđể d đoánăgiáătrị ca mu hin ti. S d đoánănƠyăcóăthể
đc ci thin nuănhătaăsử dng mt khi lnăhnăca tín hiu ting nói cho vic

d đoán.ăPhngăphápănƠyăđc gọiălƠăđiu ch mã hoá xung vi phân(DPCM). Kin
trúc caănóăđcăđaăraătrênăhìnhăv 1.2


Hình 1.2:H thng DPCM
1.2.2 Mã hoá trên min tần s


5
Mã hoá dng sóng trong min tần s chia tín hiu thành các thành phần tần s
khác nhau và tin hành mã hoá từng thành thành phần này. S Bit sử dngăđể mã
hoá từng thành phần tần s có thể thayăđổi. Mã hoá trong min tần s đc chia ra
lƠmăhaiănhómălƠ:ămƣăhoáăbĕngăcon(subband)ăvƠămƣăhoáăbinăđổi(transform)[12].
Mƣ hoá băng con(subband)
Mƣăhoáăbĕngăconăsử dng mt s b lọc diăthôngăđể chia tín hiuăđầu vào
thành các tín hiu con(subband signal) mà đƣăđc mã hoá. Ti b thu các tín hiu
conăđc gii mã và cng li nhm khôi phc li tín hiuăbanăđầu.ăuăđiểm chính
caăphngăphápămƣăhoáăbĕngăconăđóălƠănhiuălng tử hoá sinh ra trong mt di
tần s bị hn ch trong chính di tầnăđấy. Hip hi vin thông quc t ITUăđƣăđaăraă
chuẩnăG.722ătrongămƣăhoáăbĕngăcon(subband)ăđể truyn thông vi các tcăđ 48, 56
hoặc 64kbps.
Mã hoá bin đổi(transform)
Kỹ thut này cần có mt khi chuyểnăđổi ca cửa sổ tín hiuăđầu vào thành
các thành phần tần s, hoặc mt vài minătngăt. Mã hoá thích ngăsauăđóăs
hoàn thành bng cách phân bổ thêm Bit vào các thành phần h s quan trọngăhn.ă
Ti b thu thì b gii mã s thc hin vic chuyểnăđổiăngcăđể thu li tín hiu cần
khôi phc. Ta có thể sử dng mt s phép binăđổiănh:ăphépăbinăđổi Fourier ri
rc(DFT) hay là phép binăđổi cosine ri rc(DCT).
1.2.3 Mã hoá ngun
Mã hoá ngun sử dng mtămôăhìnhătrongăđóăchỉ ra quá trình làm th nƠoăđể

phát sinh ra ngun, và quá trình phân tích từ tín hiuăđc mã hoá các thông s ca
mô hình. Các thông s này s đc truyn ti b gii mã. Mã hoá ngun sử dng
cho tingănóiăđc gọi là vocoder(vit tt ca mã hoá ting nói - vocal coder), và
nó sử dng mt mô hình lọc ngunănhătrênăhìnhă2.10.ăMôăhìnhănƠyăthừa nhn là
tingănóiăđc to ra bng cách kích thích b lọc tuyn tính bng mt tín hiu nhiu
trngăđi vi các tín hiu vô thanh, hoặc là mt chui các xung tín hiu giọng nói.
B mã hoá ngun hotăđng vi tcăđ Bit  khong 2kbps hoặcăbéăhn.


6
DaăvƠoăcácăphngăthc phân tích thông s mô hình, mt vài kiểu mã hoá
ngunăđƣăđc phát triển ví d nhăviz,ămƣăhoáăkênh,ămƣăhoáăđng hình, mã hoá
formant và mã hoá d đoánă tuyn tính. Vic sử dng b lọcă nƠyă tngă t vi
nguyên lý ca mã hoá d đoánătuynătính(LPC).ăHìnhă1.3ăcũngălƠămô hình to ting
nóiăđc sử dng bi mã hóa ngun.

Hình 1.3:Mô hình to tingănóiăđc sử dng bi mã hoá ngun
1.2.3 Mã hoá lai
Mƣăhoáălai(hybridăcoder)ălƠăphngăphápătổng hp giaăphngăphápămƣăhóaă
dng sóng và mã hoá ngun, nhm khc phcăcácănhcăđiểm caăhaiăphngăphápă
trên.ăNhătaăđƣănóiăthìămƣăhóaădng sóng s cho chấtălng tt vi tcăđ Bit vào
khongă16kbps,ătrongăkhiăđóămƣăhoáăngunăđc thc hin  mt tcăđ bit rất thấp
vào khong 4.1kbps hoặc 4kbps[13], [14] nhngă không thể đaă raă chấtă lng t
nhiên. Mặc dù còn có mt s dng mã hóa lai khác còn tn ti,ătuyănhiênăphngă
pháp thành công nhấtăvƠăđc sử dng rngărƣiăđóălƠăphngăphápămƣăhoáătrongă
min tần s Analysys - by - Synthesis(AbS).ăPhngăphápănƠyăcũngăsử dng mô
hình lọc d đoánătuyn tính. Tuy nhiên, thay vì áp dngămôăhìnhăđnăgin gm có
hai trng thái là huăthanh/vôăthanh(voicedă/ăunvoiced)ăđể tìmăđầu vào cần thit cho
b lọc, thì tín hiuăkíchăthíchăđc chọn sao cho tín hiuăđc khôi phc gần vi tín
hiuăbanăđầu. Mt mô hình chung caămƣăhóaăAbSăđcăđaăraătrongăhìnhăv 1.4.

AbSăđc gii thiu lầnăđầuătiênăvƠoănĕmă1982ăbiăAtalăvƠăRemde,ăvƠăbanăđầu nó


7
đc gọiălƠămƣăhóaăkíchăthíchăđaăxung(MPE),ăvƠăsauăđóăthìăRPEăvƠăCELPălầnălt
đcăđaăra.ăNhiu bnăCELPăkhácănhauăđƣăđc chuẩn hoá, gm có G.723.1 hot
đng  tcă đ Bit là 6.3/5.3kbps, G.729  8kbps, G.728  16kbps và tất c các
chuẩn mã hoá mng thoiădiăđngănhăGSM,ăISăậ 54, IS ậ 95, IS ậ 136.

Hình 1.4:Kin trúc ca mã hoá AbS. (a): Mã hoá. (b): Gii mã.
1.3 Phát trin bộ mã LPC-10e
Mã hóa tingănóiăđc nghiên cu nhiu và phát triển trong nhngănĕmăgần
đơy,ăhin nay có nhiu thutătoánăđể thc hin mã hóa ting nói[4]. Tuy nhiên mc
đíchăcui cùng ca mã hóa ting nói là tcăđ bit thấp nhất,ănhngăchúngătaăphi tr
giá gia chấtălng ting nói và tcăđ bit.ăTrongăđó,ămƣăhóaăkỹ thut mã hóa tuyn
tínhăđm boăđc s tr giá này.
Trong bài báo [15], [16], [17], [18] đuăđaăraăthut toán nén tín hiu thoi 
tcăđ thấp. Trong bài báo [15] đaăraăphngăphápăni suy trên min tần s có tc
đ bit là 4kb/s hoặc thấpăhnăviăđ phc tp cao so viăcácăphngăphápăkhác.ă
PhngăphápănƠyăchoăchúngătaăthấy rng ti tcăđ bit là 4kb/s hoặc thấpăhn.ăSauă
khiăđánhăgiáăbngăphngăphápăACRăvi thử nghim MOS, FDI cho chấtălng
tingănóiătngăt nhăcácăchuẩn tingănóiăđƣăđc phê chuẩn(ITU standards G.729
8kb/s codec, G.723.1 5.3kb/s codec, và U.S.Federală Standardă FS1016).ă Đi vi
phngăphápănƠyănhcăđiểm ln nhất là thut toán phc tp.ăCònăđi vi bài báo


8
[16] tác gi đaăraăphngăphápănénăda trên mã hóa tuyn tính(kỹ thut nén suy
hao) tỉ l nénăđn 95% để tit kimăbĕngăthông.ăBƠiănƠyătácăgi phân tích nhăhng
ca tcă đ lấy mu, bc b lọc,ă vƠă kíchă thcă frameă đi vi ting nói ca

nam(ngi ln) và n(ngi ln). Tất c nhng nhă hngă nƠyă đc mô phng
bngăMatlab,ăchaăđc thc nghim trên phần cng. Hin nay, trong bài báo [18]
đ xuất mtăphngăphápănénăda trên Compressive Sensing(CS), so sánh hiu suất
ca phngăphápănƠyăviăcácăphngăphápăđc nêu trên thì kt qu cho chúng ta
thấy rng: CS cho hiu suấtă caoă hnă vi cùng mt tỉ l nén.ă Đơyă cũngă lƠă mt
phngăphápănénămi và hinănayăđangăđc nghiên cu trên th gii.ăVƠăphngă
phápănƠyăcũngăchaăđc thc nghim trên phần cng.
Trong lună vĕnă nƠy,ă chúngă taă phátă triển thut toán nén LPC-10e và thc
nghimătrênăKităDSP320C6713.ăĐánh giá chấtălng ting nói da trên tiêu chuẩn
P.862 ca ITU.
1.4 Cấu trúc lun văn
Lunăvĕnăgmăcóă4ăchng
Chngă1:ăGii thiu tổng quan
Chngă2:ăCăs lý thuyt
Chngă3:ăThc hin trên Matlab và TMS320C6713
Chngă4:ăKt lun





Chng 2


9
C S LÝ THUYT
2.1 Tín hiu ting nói
2.1.1 C ch phát âm ting nói
H thng phát âm  ngi bao gm: phổi, khí qun(trachea), thanh qun,
khoang ming(oralăcavity)ăvƠăkhoangămũi(nasalăcavity)ănhătrongăhìnhă2.1.ăThanhă

qun cha hai np gấp gọi là dây thanh âm(acoustic tube) dài khong 17cm  nam,
phầnătrc kt thúc  môi và phần sau kt thúc  dây thanh âm hay thanh qun.
Khoang mingă đóngă vaiă trò là mt hp cngă hng, thể tích ca nó có thể điu
khiển bi b phnăphátăơm(môi,ălỡi, quai hàm và vòm ming). Khoang ming là
mt ng dài khong 12cm  nam và kt thúc  mũiăvƠăvòmăming. Vòm ming
mm s điu khiểnăhiăphátăraătheoăđng ming hoặcăđngămũi.ăĐi vi nhng
âm không theo giọngămũiăvòmăming s đóngăkhoangămũiăvƠăhiăchỉ phát ra theo
đng ming.ăĐi vi nhng âm có giọngămũi,ăvòmăming s dịch chuyển xung
phíaădiăđóngăđng mingăvƠăhiăchỉ phátăraătheoăđngămũi,ăhayăcóăthể s qua
haiăđng.

Hình 2.1: Cấu toăcácăcăquanăphátăraăơmăthanh


10
Khi nói phổi chaă đầy không khí s đcăđẩy qua khí qun và thanh môn.
Lung không khí s kíchăthíchădơyăthanhăơmădaoăđng và to ra s phát âm. Âm
thanh này truyn ra ngoài quaăkhoangămũiăvƠăkhoangăming và các khoang này có
tác dngănhăb lọc làm suy hao mt vài tần s khi các tần s nƠyăđiăqua.
Khoangămũi(nasalăcavity)ăcũngălƠămt ng phát âm vi din tích và chiu dài
c định(khongă12cmăđi viăngiănamătrng thành) nóăđc ktăthúcăphíaătrc
bi l mũi(nostrils)ăvƠăphíaăsauăbi vòm ming(velum).
Khiă phátă ơmă cácă ơmă khôngămũi(non-nasalised sounds), vòm ming s chặn
khoangămũiăli,ădoăđóăơmăthanhăchỉ điăraătheoăđng ming qua hai môi.
Khiăphátăơmăcácăơmămũi(nasalisedăsounds) vòm ming s đc h thấp xung
vƠăkhoangămũiăs đc ni thông vi khoang ming.ăTuyănhiên,ătrongătrng hp
nƠyăphíaătrc ca khoang ming s đcăđóngăli hoàn toàn và âm thanh chỉ đc
truynăraăngoƠiăquaăđngămũi.
Khi nói không khí s điăvƠo phổi bi s n rngăcácăcăquanăca lng ngc và
s h thấp caăcăhoƠnh.ăKhiălng ngc co li, không khí s đc tng ra ngoài qua

khí qun và thanh môn(glottis). S luăthôngănƠyăca không khí là ngun kích thích
dơyăthanhăđi viădaoăđng to ra s phát âm. Nó có thể đcăđiu khiển bi nhiu
cách khác nhau thông qua các kích thích khác nhau ca b phn phát âm.
Nhăvy, phổiăluă tr khôngăkhíăđể kíchă thíchă dơyăthanhădaoăđng, s dao
đng caădơyăthanhădaoăđng to ra s phátăơm.ăÂmăthanhăđc to ra từ dây thanh
s đc truynă raă ngoƠiă quaă cácă khoangă phíaă trc thanh hầu(khoang yt hầu,
khoang mingăvƠăkhoangămũi),ăcácăkhoangănƠyăđóngăvaiătròălƠăcácăhp cngăhng
s khuchăđi mt vài thành phần tần s và làm suy gim các thành phần tần s còn
li, từ đóăs to ra các ting nói khác nhau.
Dây thanh chuyểnăđng nhanh hay chm,ăbiênăđ ln hay nh là do tcăđ ca
lungăkhôngăkhíăđiătừ phổi lên khí qun và do scăcĕngăca dây thanh, c haiăđiu
nƠyăđầu có thể đcăđiu khiển biăngi nói nhmăđiu khiển cngăđ âm thanh
phát ra.


11
B máy phát âm ca mọiăngiăkhácănhau,ădoăđóăgiọng nói ca miăngi mi
khác. Ví d nhădoăs khác nhau v chiu dài ca dây thanh mà dnăđn giọng nói
ca nam gii trầmăhnăgiọng nói ca ph n.
Tuynăơmăđcăxemănhămt hc cngăhng có tác dngătĕngăcng mt tần
s nƠoăđó,ănhng tần s đcătĕng cng lên đc gọi là các formant. Nu xem
khoang ming là tuynăơmăthìăkhoangămũiăxemănhăhc cngăhng. Mt b phn
phát âm có mt s hu hnăformant,ădoă biênăđ ca các formant caoăhnăbị suy
gim khong -12dB/octave nên chỉ cầnăquanătơmăđnă3ăhayă4ăformantăđầu tiên trên
bĕngătần từ 100Hzăđnă3.5KHz.ăTrng hp ting nói vô thanh, phổ tngăđi bng
phẳng, s lngăcácăformantănhăvy vnăđ mặc dù tingănóiăvôăthanhăcóăbĕngătần
m rngălênăđn 7-8KHz. Ngoài ra, do nhăhng ca mingănênăbiênăđ đcătĕngă
lên chừngă6dB/octaveătrongăbĕngătần 0-3KHz. Chính vì vyămƠăđn phần tin xử lý
tín hiu ta phi dùng b lọc tin nhấnăđể bù thêm +6dB/octave.
2.1.2 Đặc tính âm hc ting nói

Tín hiu ting nói là tín hiuătngăt biểu din cho thông tin v mặt ngôn ng
vƠăđc mô t bi các âm vị khác nhau. TuǶ theo từng ngôn ng c thể mà s lng
các âm vị nhiuăhayăít.ăThôngăthng s lng các âm vị vào khong 20 ậ 30 và
nh hnă50ăđi vi mọi ngôn ng.ăĐi vi từng loi âm vị mƠăcóăcácăđặc tính âm
thanh khác nhau. Các âm vị đc chia thành hai loi nguyên âm và ph âm. Tổ hp
các âm vị to nên âm tit. Âm tităđóngăvaiătròămt từ trọn vẹn mang ng nghƿa.
Bn chất ca ting nói là s daoăđng ca dây thanh(xuất phát từ lung khọng
khí phát ra từ phổi), từ đóătoăraăsădaoăđng(nén hoặc giãn) ca lung không khí
ngayătrc ming caăngi nói. Kt qu là to ra s chênh lch cc b v áp suất
không khí. Nuădùngămicroăđể nhn bit s chênh lch này thì ting nói s đc thể
hinădi dngăcácădaoăđng v đin.
 mcăđ ngôn ng học ting nói có thể đcăxemănhălƠămt chui các âm
thanhăcăbn gọi là âm vị(phoneme).ăDoăđó,ăơmăvị lƠăđnăvị căbnăđể to ra âm
thanhănhngăđôiăkhiăchúngătaăkhôngănhnăđc âm vị đóătừ tín hiu ting nói. Cùng


12
mt âm vị có thể biểu din bi nhiu tingănóiăkhácănhau.ăHnăna, nhiuăngi nói
khác nhau phát âm cùng mt chui ting nói thì s chuyểnăđiăcùngămtălng thông
tinănhănhau,ănhngăơmăthanhăli không ging nhau hoàn toàn. Nguyên nhân chính
là do s khác nhau v hình dng ca b máy phát âm ca miăngi và do s nh
hng ca thổ ng(dialect) tc là tingă nóiă đc phát ra  nhng khu vc khác
nhau. Vì hình dng ca b máyăphátăơmăvƠădoăđóălƠăơmăthanhăđc toăraăđcăđiu
khiển biăcácăcăquanăphátăơm(speechăarticulators),ăcácăơmăvị tngăng trc ting
vi vị tríăcũngănhălƠăs dịch chuyển ca các khp(articulatory) trong b máy phát
âm còn gọiălƠăđiu b khiăphátăơm(articulatoryăgestures).ăĐiu b ca s phát âm có
thể tƿnhăhoặcăđng tùy thuc vào s không chuyểnăđng hoặc chuyểnăđng ca các
khp khi phát âm.
Ting nói có thể đc phân là ba loi khác nhau là âm hu thanh(voiced), âm
vô thanh(unvoiced) và âm bt(aspirated):

Âm hu thanh(voiced sounds): là dng ting nói gingănhăkhiătaăphátăraăcácă
ơmă'a','o' ÂmăthanhănƠyăđcăphátăraăkhiădơyăthanhăđcăcĕngăraăvƠăchúngăchuyển
đng theo kiểu ni lng(relaxation mode) to nên áp suất không khí làm cho thanh
môn m raăvƠăđể cho không khí chuyểnăđng xuyên qua nó. S chuyểnăđng này
ca các dây thanh to ra mt dng sóng ca dòng không khí gần ging dng tam
giác. Dng sóng này có dng tuần hoàn hoặc gần tuần hoàn. Chúng có phổ tần s
ca các thành phần hài là bi s ca tần s căbn còn gọi là pitch và tcăđ suy
gim ca chúng là 12dB/octave.
B máy phát âm caă conă ngi hotă đng gingănhă mt b cngă hng,
khuchăđi mt vài thành phần hài và làm suy gim các thành phần hài còn liăđể
to ra dng sóng nguyên âm.
Tcă đ chuyểnăđng ca dây thanh ph thuc vào áp suất không khí trong
phổi và scăcĕngăca dây thanh. C haiăđiuănƠyăđu có thể đcăđiu khiển bi
ngiănóiăđể lƠmăthayăđổiăcngăđ ơmăthanhăđc phát ra.


13
Ting nói caăngiăđƠnăôngătrng thành có tần s căbnăthayăđổi khong từ
50Hzăđn 2500Hz, trung bình khongă120Hz.ăTrongăkhiăđó,ăting nói caăngi ph
n trng thành có tần s căbnăcaoăhnărất nhiu, có thể lênăđn 500Hz.
Âm vô thanh(unvoiced sounds): ví d nhă 'p','t',f', Khiă phátă raă cácă ơmănƠyă
dây thanh không chuyểnă đng.ă Âmă vôă thanhă đc chia làm hai loi là âm
xát(fricative sounds) và âm bt(aspirated sounds).
Khi phát âm các âm xát('s','x' ) s sit liăđc to ra ti mtăvƠiăđiểmănƠoăđóă
trong b máy phát âm và không khí bị ép buc phiăđiăqua.ăDoăđó,ăto ra mt s
chuyểnăđng hn lon(turbulence) s kích thích nhiu ngu nhiên phát sinh. S sit
liăthngăcóăxuăhng xy ra  phíaătrc ming nên s côngăhng ca b máy
phát âm ít nhăhngăđnăcácăơmăxátăđc phát ra.
Khi phát âm các âm btăhi(h,ăkh,ăk, )ăs chuyểnăđng hn lon ca không
khí xy ra tiăthanhămônătrongăkhiăcácădơyăthanhăđc gi  khong cách khá xa

nhau.ăTrongătrng hp này, s cngăhng ca dây thanh s điu chỉnh dng phổ
ca nhiu ngu nhiên. Hiu ng này s đc nghe rấtărõăđi vi các ting nói thì
thầm.
Âm btăhi(plosiveăsounds)ăvíăd nhăơmă'đ'ătrongătừ 'đi'.ăKhiăphátăcácăơmănƠy,ă
b máy phát âm s đóngăli hoàn toàn ti mt thiăđiểmănƠoăđóătrongăb máy phát
âm. Áp suất không khí trong b máy phát âm s tĕngălênătc thiăvƠăsauăđóăđc
gii phóng mt cáchăđt ngt. S gii thoát nhanh chóng ca áp suất này s to nên
mt s kích thích tm thi ca b máy phát âm. S kích thích tm thi này có thể
xy ra kèm theo hoặc không kèm theo s chuyểnăđng ca dây thanh.
2.1.3 Đặc tính vt lý ting nói
Bn chất âm thanh tingănóiălƠăsóngăcăhọc nên có các tính chấtăcăbn ca
sóngăcăhọc. Các tính chất caăsóngăcăhọc mang mtăýănghƿaăkhácăkhiăxétătrênăgócă
đ là âm thanh ting nói.


14
Tín hiu ting nói là mt tín hiu ngu nhiên không dừng, tuy nhiên nhngăđặc
tính ca nó tngă đi ổnă định trong nhng khong thi gian ngn(vài chc mili
giây). Trong khong thi gian nh đóătínăhiu gần tuần hoàn, có thể coiănhătuần
hoàn.
2.1.3.1 Độ cao
Đ cao hay còn gọiălƠăđ trầm bổng ca âm thanh chính là tần s caăsóngăcă
học. Âm thanh nào phátăraăcũngă mtă đ cao nhấtăđịnh.ăĐ trầm bổng ca âm
thanh ph thuc vào s chấnăđng nhanh hay chm ca các phần tử trong không khí
trong mtăđnăvị thi gian nhấtăđịnh.ăNóiăcáchăkhác,ăđ cao ca âm ph thuc vào
tần s daoăđng.ăĐi vi ting nói, tần s daoăđng caădơyăthanhăquyăđịnhăđ cao
giọng nói caăconăngi và miăngi có mtăđ cao giọng nói khác nhau.
Đ cao ca n giiăthngăcaoăhnăsoăvi nam giiăvƠăđ cao ting nói ca trẻ
emăcaoăhnăsoăvi n gii,ăđiuănƠyăcũngătngăt đi vi tần s ca dây thanh.
2.1.3.2 Cng độ

Cngăđ chínhălƠăđ to nh caăơmăthanh,ăcngăđ càng ln thì âm thanh có
thể truynăđiăcƠngăxaătrongămôiătrng có nhiu. Nuăxétătrênăgócăđ sóngăcăhọc
thìăcngăđ chínhălƠăbiênăđ caădaoăđng sóng âm, nó quytăđịnh cho nĕngălng
ca sóng âm. Trong tingănói,ăcngăđ caănguyênăơmăphátăraăthng lnăhnăph
âm. Do vyăchúngătaăthng d phát hinăraănguyênăơmăhnăsoăvi ph âm. Tuy
nhiênăđi viătaiăngi giá trị tuytăđi caăcngăđ âm I không quan trọng bng
giá trị tỉ đi ca I so vi mt giá trị I
0
nƠoăđóăchọn làm chuẩn.ăNgiătaăđịnhănghƿaă
mcăcngăđ âm L là logarit thp phân ca tỉ s I/I
0
(đnăvị mcăcngăđ là Ben-
ký hiu B)



0
( ) lg
I
LB
I



15
2.1.3.3 Trng độ
Trngăđ hayăđ dài ca âm ph thuc vào s chấnăđng lâu hay nhanh ca
các phần tử không khí. Cùng mtăơmănhngătrongăcácătừ khácănhauăthìăđ dài khác
nhau.
2.1.3.4 Âm sắc

Âm sc là bn sc, sc thái riêng ca mt âm, cùng mt ni dung, cùng mtăđ
caoănhngăkhiănóiămi ngiăđu có âm sc khác nhau.
2.1.3.5 Tần s vt qua đim không
Tần suấtăvtăquaăđiểm không là s lầnăbiênăđ tín hiu tingănóiăvt qua giá
trị không trong mt khong thiăgianăchoătrc.ăThôngăthng giá trị nƠyăđi vi
âm vô thanh lnăhnăơmăhuăthanhădoăđặc tính ngu nhiên caăơmăvôăthanh.ăDoăđóă
tần suấtăvtăquaăđiểm không là tham s quan trọngăđể phân loi âm hu thanh và
âm vô thanh.
2.1.3.6 Tần s c bn
Dng sóng ca ting nói gm hai phần: Phần gần ging nhiuătrongăđóăbiênăđ
binăđổi ngu nhiên và phần tuần hoàn. Phần tín hiu có tính chu kǶ cha các thành
phần tần s có dngăđiu hòa. Tần s thấp nhất chính là tần s căbnăvƠăcũngăchínhă
là tần s daoăđng ca dây thanh.
Đi vi nhngăngi nói khác nhau, tần s căbnăcũngăkhácănhau.ăTần s că
bn ca trẻ emăthngăcaoăhnăsoăviăngi ln và ca n giiăcaoăhnăsoăvi nam
gii. Bng 2.1 là mt s giá trị tần s căbnătngăng vi gii tính và tuổi:
Đi viăhaiăơmăcóăcùngăcngăđ,ăcùngăđ cao s đc phân bit bi tính tuần
hoàn. Mt âm hu thanh có tín hiu gầnănhătuầnăhoƠnăkhiăđc phân tích phổ s
xuất hin mt vch ti vùng tần s rất thấp. VchănƠyăđặcătrngăchoătínhătuần hoàn
căbn caăơmăhayăđóăchínhălƠătần s căbn ca âm. Trong giao tipăbìnhăthng
tần s căbnăthayăđổi liên tc to nên ng điu cho ting nói.


16
Bng 2.1:Giá trị tần s căbnătngăng vi gii tính và tuổi
Ngi nói
Giá trị tần s
căbn(Hz)
Nam gii
80 ậ 200

N gii
150 ậ 450
Trẻ em
200 ậ 600

2.1.3.7 Formant
Trong phổ tần s ca tín hiu ting nói, mi đỉnhăcóăbiênăđ cao nhất xét trong
mt khongănƠoăđóă(cònăgọi là cc trị địaăphng)ăxácăđịnh mt formant. Ngoài tần
s,ăformantăcònăđcăxácăđịnh biăbiênăđ và di thông ca chúng. V mặt vt lý
các tần s formantătngăng vi các tần s cngăhng ca tuyn âm. Trong xử lý
ting nói và nhất là trong tổng hp tingănóiăđể mô phng li tuynăơmăngi ta
phiăxácăđịnhăđc các tham s formantăđi vi từng loi âm vị,ădoăđóăvicăđánhă
giá,ăcălngăcácăformantăcóăýănghƿaărất quan trọng.
Tần s formant bin đổi trong mt khong rng ph thuc vào gii tính ca
ngi nói và ph thuc vào các dng âm vị tngăng viăformantăđó.ăĐng thi,
formant còn ph thuc các âm vị trcă vƠă sauă đó.ă V cấu trúc t nhiên, tần s
formant có liên h chặt ch vi hình dng và kíchăthc tuynăơm.ăThôngăthng
trong phổ tần s ca tín hiu có khongă6ăformantănhngăchỉ cóă3ăformantăđầu tiên
nhăhng quan trọngăđnăcácăđặc tính ca các âm vị, còn các formant còn liăcũngă
có nhăhng song rất ít. Các formant có giá trị tần s xê dịch từ vƠiătrĕmăđn vài
nghìn Hz.
Tần s formantăđặcătrngăchoăcácănguyênăơmăbinăđổi tuǶ thucăvƠoăngi nói
trongăđiu kin phát âm nhấtăđịnh. Mặc dù phm vi ca các tần s formantătngă
ng vi mi nguyên âm có thể trùngă lênă nhauă nhngă vị trí gia các formantă đóă
khôngăđổi vì s xê dịch ca các formant là song song.


17
NgoƠiăformant,ăcácăơmămũiăcònăcóăcácătần s bị suy gim gọi là phn formant
(anti-formant). Phnăformantăđc to nên khi lungăkhíăđiăquaăkhoangămũi.ăCácă

formantătngăngănóiăcácăđiểm cc ca hàm truynăđt vì ti lân cnăđiểm cc giá
trị hàm truynăđt là rất ln,ătngăt vy các anti-formantătngăng viăcácăđiểm
không ca hàm truynăđt.
2.1.4 Phân loi đn gin dng sóng ting nói
Ting nói caăconăngi to ra bao gm có hai thành phầnăđóălà:
Phần gần tuần hoàn mà hầuănhălặp li cùng chu kǶ đc gọi là ting nói hu
thanh (voiced speech). Chu kǶ lặp liăđóăgọi là chu kǶ căbn T
0
nghịchăđo ca
T
0
là tần s căbn F
0
. Âm huăthanhăđc phát ra bi mt lung khí cc mnh từ
thanh môn thổi qua dây thanh làm dung dây thanh, s daoăđng ca dây thanh to
nên ngun tuần hoàn. Ngun tuần hoàn kích thích tuyn âm to nên âm hu thanh.
Vùng âm hu thanh chim thành phần ch yu ca sóng ting nói, chaăđngălng
tin nhiu nhất và thi gian ln nhất trong quá trình nói.
Phần tín hiu có dng gingănhătp âm nhiuăcóăbiênăđ nguănhiênăcònăđc
gọi là ting nói vô thanh(unvoiced speech). Tingănóiăvôăthanhăđc to ra do s co
tht theo mt dngănƠoăđóăca tuyn âm và lung khí chy qua ch tht vi tcăđ
ln to nên nhiu lon, ví d nhălúcătaănóiăthìăthƠo(cần phân bit thì thầm vi thì
thào, theo từ điển ting Vit thì thào là nói chuyn vi nhau rất nh taănhăgióă
thong qua tai còn thì thầm là nói chuyn viă nhauăkhôngă để ngi ngoài nghe
thấy).ăNĕngălng do ngun nhiu lon to ra s kích thích tuyn âm to nên ting
nóiăvôăthanh,ănĕngălng ca ting nói vô thanh nh hnăsoăvi ting nói hu thanh.
Ta có thể phát hin ra ting nói hu thanh là khi nói dây thanh rung. Còn âm
vô thanh khi nói dây thanh không rung. Nói thì thào thì  xaăkhôngăngheăđc do
nĕngălng ca âm vô thanh rất nh và ting thì thào là do âm vô thanh to nên.



×