Tải bản đầy đủ (.pdf) (6 trang)

Nâng cao tín hiệu tiếng nói bằng giảm nhiễu phi tuyến dựa vào miền Wavelet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (625.6 KB, 6 trang )

Thảo
QuốcGia
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thơng
Thơng và
Thơng
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
vàCơng
CơngNghệ
Nghệ
Thơng
(ECIT
2015)

Nâng Cao Tín Hiệu Tiếng Nói Bằng Giảm Nhiễu Phi
Tuyến Dựa Vào Miền Wavelet
Tuan V. Tran

Tuan V. Pham

Faculty of Electronic and Telecommunication
Danang University of Science and Technology


Da Nang, Viet Nam


Faculty of Electronic and Telecommunication
Center of Excellence
Danang University of Science and Technology
Da Nang, Viet Nam


Tóm tắt— Trong bài báo này, các thuật tốn nâng cao tiếng
nói được đề xuất bởi việc dùng biến đổi các gói wavelet để
tang khả năng phân tích tín hiệu. Trong khi đó, phương
pháp lọc thống kê cảm quan dựa trên wavelet cũng được
khai thác để lấy được sự ước lượng ngưỡng nhiễu tốt hơn
và thuật toán nén tối toán được áp dụng để nén nhiễu. Các
phương pháp đánh giá khách quan dùng PESQ và
SegSNR chỉ ra rằng các kết quả của các thuật toán đã đề
xuất đạt được những kết quả tốt về chất lượng khi so sánh
với các thuật toán khác trong miền tần số. Bên cạnh đó,
việc đánh giá chủ quan được thực hiện bằng việc dùng
Mean Opinion Score (MOS) và kết quả đạt được từ việc
kiểm tra này không những cho thấy có cùng kết luận với
phương pháp đánh giá khách quan và còn khẳng định
trong việc tin tưởng hơn vào độ chính xác của các phương
pháp đánh giá khách quan.

bày một thuật tốn sẽ giúp tối thiểu hóa việc méo tiếng nói bị
gây bởi nhiễu dư được đề cập trong [4]. Trong khi đó,
Kirubagari vaf Subathra là dùng sự kết hợp của phương pháp
tối thiểu hóa sai số bình phương và bộ lọc trừ để nâng cao chất

lượng tiếng nói đề cập trong [5]. Phương pháp biến đổi
Wavelet Dual tree complex được đề xuất bởi Tasmaz trong bài
báo [6]. Một kỹ thuật khác dựa trên Wavlet là Robust hybrid
adaptive perceptual wavelet packet threshold được đề xuất bởi
Jain B và được đề cập trong [7].
Trong bài báo này, một thuật tốn được đề xuất dựa vào việc
sử dụng phân tích gói wavelet để hỗ trợ cho q trình phân
tích tín hiệu, các thuật toán ước lượng nhiễu cũng sẽ được sử
dụng để xác định các ngưỡng tốt hơn và cuối cùng các thuật
tốn giảm nhiễu là được dùng để hồn thành hệ thống nâng
cao tín hiệu tiếng nói. Sơ đồ của thuật tốn đã đề xuất là được
mơ tả trong hình 1.1 phía dưới:

Từ khóa—Wavelet Packet, Percentile Filter, Voice Activity
Detection , Wavelet thresholding, Wavelet Shrinking.

I.

GIỚI THIỆU

Vẫn đề xử lý tiếng nói khi bị anh hưởng bởi nhiều loại nhiễu
vẫn cịn là một thách thức lớn và các thuật toán nâng cao tiếng
nói vẫn đang được phát triển và nghiên cứu để hỗ trợ tốt hơn
cho các ứng dụng như nhận dạng tiếng nói, nhận dạng người
nói. Tại bài báo này, thuật tốn nâng cao tiếng nói dựa vào
việc phân tích các gói wavelet và kết hợp với các kỹ thuật để
đạt được các ngưỡng nhiễu tốt hơn là được đề xuất để giảm
nhiễu trong tiếng nói.
Có nhiều phương pháp đã được tiếp cận để thực hiện việc
giảm nhiễu cho việc nâng cao tiếng nói như: Thực hiện việc

phân tích tín hiệu nhiễu và nén nhiễu bị ảnh hưởng bởi nhiễu
Gaussian và nhiễu trong thực tế dùng bộ lọc hồi qui được đề
suất bởi Suman M và Khan H trong [1]; một kỹ thuật khác mà
McCallum M và Guillemin B muốn giới thiệu trong bài báo sơ
[2] thuật tốn Bayesian STSA đã dùng một mơ hình tiếng nói
a stochastic – deterministic để làm một sự tiên đốn trước các
thơng tin bằng việc xem xét non-zero mean. Việc ước tiếng
nói tại các băng con tương đồng với sự giảm nhiễu thông qua
việc xử lý MVDR là một kỹ thuật khác được Schasse A và
Martin R đề xuất trong [3]. Yong Zhang, Yi Liu cũng đã trình

Hình 1.1: Sơ đồ thuật tốn

169

ISBN: 978-604-67-0635-9

169


Thảo
QuốcGia
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thơng
Thơng và
Thơng

TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
vàCơng
CơngNghệ
Nghệ
Thơng
(ECIT
2015)

Trong đó, I0(.) và I1(.) là ký hiệu cho các hàm Bessel bậc 0 và

Bài báo này được chia thành năm phần. Phân II sẽ nói về các
thuật toán giảm nhiễu trong miền tần số và việc cập nhật
nhiễu. Các thuật toán trong miền wavelet được giới thiệu trong
phần III. Kế tiếp, phần bốn sẽ cho chúng ta thấy các kết quả
của thí nghiệm. Kết luận và các hướng nghiên cứu trong tương
lai được thể hiện ở phần V.

1 và  k được định nghĩa như sau :

II. GIẢM NHIỄU TRONG MIỀN TẦN SỐ

Với

Chủ đề nghiên cứu trong bài báo này là về nhiễu cộng. Khi
nhìn vào hình 2.1, nhiễu trong tín hiệu tiếng nói y (n) nhận từ

microphone được tạo ra từ tín hiệu sạch x (n) đã được cộng
với nhiễu nền d (n):



k



vk 

k
k
1 k

k

được định nghĩa như a priori SNR và a

posteriori SNR:

k 

k 

k

k

0


X

0 0

k

1

 d ( k )

 X k 2 
exp 
p ( X k ,  xk ) 

 x (k )
  x (k ) 
Xk





vk

2 k

v
v
v

exp( k )[(1v
 k )I0 ( k ) v
 k I1 ( k )] Yk
2
2
2

E D( k )

2



(2.8)

(2.10)

1
M

M 1

Y ( )
i 0

i

(2.11)

Sau đó chúng ta sẽ thực hiện so sánh biên độ phổ của nhiễu

được ước lượng với biên độ phổ của tín hiệu bị nhiễu:

N(i)  0.9N(i 1)  0.1N(i)

(2.3)

(2.12)

Nếu T 12dB [9] thì frame đó khơng phải là frame có tiếng

(2.4)

nói, khi đó ta có thể cập nhật lại nhiễu đã được ước lượng
trước đó the cơng tức. VAD thực hiện tốt trong môi trường

Và áp dụng định lý Bayes ta có được ước lượng của phổ biên
độ tiếng nói tăng cường:
Xˆ k  E[ X k | Yk ]

2

 

Di ( ) 

p( Xk ,xk Yk )dxkd Xk (2.2)

2

1

exp 
Yk  X k e j xk 

(
)
k
 d




Yk

a) Voice Activity Detection (VAD)
Nhiễu sẽ được ước lượng lúc ban đầu bằng cách lấy trung bình
biên độ phổ của tín hiệu bị nhiễu:

Với các hàm mật độ xác suất:
p (Yk | X k ,  xk ) 

 d (k )



(2.7)

B. Các kỹ thuật ước lượng và cập nhật nhiễu

 k để đơn giản trong ký hiệu).
Xˆ k  E Xk Yk    Xk p( Xk Yk )d Xk  


2




 1  exp( t ) 
k
exp 
Xˆ k 
dt  Yk

 k  1  2  k
t


độ thật của tín hiệu sạch tại tần số  k (chỉ số k dùng thay

 2

2

Xˆ k  exp E ln  X k YK 





Yk




Xˆ k và X k là biên độ phổ ước lượng và phổ biên

Trong đó,




 x (k ) E X ( k )

 d (k ) E D( k ) 2

b) Log-MMSE
MMSE sẽ dàng thực hiện theo tốn hoc nhưng nó khơng mang
đến chúng ta ý nghĩa về việc cải thiện chất lượng của tiếng
nói. Lý do là vì tiếng nói có rất nhiều thành phần biên độ thấp
nhưng mà các thành phần này đống vai trò quyết định chất
lượng và độ dễ nghe của tiếng nói. Do đó, Ephraim và Malah
đã đề xuất một phương pháp có ý nghĩa hơn đó là việc dùng
Log- MMSE [8]:
2
(2.9)
e  E  log X k   log Xˆ k 


Khi đó,

Hình 2.1: Mơ hình nhiễu cộng
A. MMSE and Log-MMSE

Kết quả được đề xuất trong [2] là một trong nhiều nghiên cứu
chỉ ra rằng biên độ phổ trong thời gian ngắn có ảnh hưởng
mạnh đến chất lượng và tính dễ nghe của tiếng nói. Bởi vậy,
một vài nhà nghiên cứu đã đề xuất các phương pháp optimal
non-linear để cải thiện phổ từ phổ tín hiệu nhiễu.
a) Minimum Mean Sequare Error (MMSE)
Ước lượng phổ biên độ MMSE(Minimum Mean Square Error)
tối thiểu hóa sai số bình phương trung bình giữa biên độ thật
và biên độ ước lượng:
2
(2.1)
e  E  X  Xˆ 




(2.6)

nhiễu ổn định nhưng không tốt trong mơi trường thực tế do đó
bộ lục percentile được để xuất để khắc phục nhược điểm trên.

(2.5)

b) Percentile Filter

170

170



HộiThảo
Thảo Quốc
Quốc Gia
và và
Công
Nghệ
Thông
Tin (ECIT
2015)2015)
Hội
Gia 2015
2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông
Công
Nghệ
Thông
Tin (ECIT

Bộ lọc Percentile Filter [10] đã được đề xuất cho việc ước
lượng phổ của nhiễu trong miền tần số. Thuật toán này sẽ
được thực hiện theo các bước sau:
Step 1 : Tại mỗi frame λ, tính Y ( , k )2 của khung tiếng nói bị

số của nó bởi các thuật tốn xác định ngưỡng, những ngưỡng
sau khi ước lượng sẽ được dùng để nén các hệ số nhiễu của tất
cả các kênh của Wavelet. Cuối cùng, tín hiệu đã xử lý sẽ được

phục hồi bởi Wavelet Packet Recovery và nó có thể thực hiện
như hình sau:

nhiễu, hệ số làm mượt  (, k) , và phổ công suất đã dược làm
trơn P(, k) .

P (  , k )   P (   1, k )  (1   ) Y ( , k )
Trong đó:  ( , k ) 

 c ( ) 

2

(2.13)

 max . c ( )

1  P(  1, k ) / ˆ d2 (  1, k )  1

2

1
M 1


2
1    P (   1, k ) /  Y (  , k )  1 
k 0
 k 0


M 1

2

(2.14)

ˆ d2 (  1, k ) là ước lượng nhiễu tại khung   1

Hình 3.1: Sơ đồ thuật toán của PSWF

Step 2: Ước lượng nhiễu bằng Percentile Filter:
Gọi

B. Các thuật toán xác định ngưỡng
Hai phương pháp phổ biến sử dụng ngương wavelet là ngưỡng
cứng và ngưỡng mềm. Ngưỡng mềm sẽ nén các hệ số.
a) Thuật toán xác định ngưỡng cứng
Thuật toán ngưỡng cứng thực hiện như biểu thức sau:

Ds (i ) là giá trị tại mỗi vị trí trong Nf frames lưu trữ bởi

bộ đêm b. Trong khi đó i chỉ số chạy của các khung λ liên tiếp
có được trong bộ nhớ đệm b. Thực hiện ước lượng percentile
mức nhiễu như sau:
-

Sắp xếp

Ds (i ) theo thứ tự tăng dần qua toàn bộ đệm


thứ b để có

(3.1)

Ds (i ') with i’= [1, 2, 3… N f ].

b) Thuật toán xác định ngưỡng mềm
Thuật toán ngưỡng mềm được định nghĩa như sau:

Xác định mức ngưỡng thích nghi Tq ( b ) (i ) bằng cách lấy phần
trăm q (b)th theo công thức:

Tq (b ) (i)  Ds (i ') | i '   q(b) N f 

q(b) được lựa chọn sao cho thích nghi với mỗi bộ đệm để đạt

(3.2)

được mức ước lượng tốt nhất. Tiếp theo q(b) được định nghĩa:
(2.15)
q(b)  i ' If Ds (i ')  Ds (i ' 4)  

C. Giảm nhiễu thích nghi theo µ - Law
Một thuật tốn khác nhằm giảm nhiễu dựa trên Wavelet và nó

Hệ số q=0.35 được chọn sau khi thực hiện các bước như trên.

được biết như một sự cải thiện của thuật toán ngưỡng cứng

Giả sử rằng nhiễu không thay đổi nhanh bằng tiếng nói theo


như hình 3.2 theo µ-law. Qui luật của việc nén là được thể

thời gian, mức ngưỡng của nhiễu ước lượng theo phần trăm

hiện bởi hàm posteriori

được làm phẳng bằng cách áp dụng mơ hình hồi qui bậc 1 với
hệ số α là 0.96:

Tq ( b ) (i )   Tq ( b 1) (i  1)  (1   )Tq ( b ) (i )

 k ,i

như sau:

if  k ,i  1
1 ,


H k ,i  
(1   k ,i ) k , i  1
, if  k ,i  1
sgn Yk ,i ( p )
 k ,i  k , i


(2.16)

III. GIẢM NHIỄU DỰA VÀO PHẦN TÍCH GĨI WAVELET


(3.3)

Trong đó:

A. Phương pháp dùng bộ lọc wavelet thống kê có tính cảm
quan
Phương pháp này được đề xuất dựa trên việc phân tích tín hiệu
nhiễu của Wavelet Packet Decomposition khi đó các mức
nhiễu sẽ được ước ượng từ mỗi gói wavelet tương đơng với hệ



 k, i 

Y k , i ( p)

nghĩa bởi [2]:

171

171

k , i

và áp dụng tham số

 k , i được định



HộiHội
Thảo
Quốc
vàCông
CôngNghệ
Nghệ
Thông
(ECIT
2015)
Thảo
QuốcGia
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)



 k ,i  exp 



 max| Y ( p ) |

 p
k ,i

~
~
max{  k ,i } 
 k ,i
i

~

 k ,i

A. Kết quả đánh giá khách quan

(3.4)

Trong đó, Hàm mũ exp tự thích nghi với chính nó bởi nhiễu
~

được làm trơn và chuẩn hóa  k ,i với hằng số độ dốc  5.8.

Hình 4.1: Các thuậ toán nén nhiễu được đánh giá bởi PESQ
với mơi trường nhiễu BABBLE
Trong hình 4.1, kết quả của phương pháp PESQ đã cho thấy
rằng các thuật toán trong miền tần số có kết quả tốt hơn các
thuật tốn trong miền wavelet. Kết quả này thật sự ấn tượng
với thuật tốn NSS-PF. Trong miền wavelet thì thuật tốn
Shrinking – UT – PF có một kết quả cũng tốt và nó cũng cho
thấy hiệu quả hơn các thuật toán khác trong miền wavelet.

SoftTh – PF đã có một kết quả khơng như mong đợi khi nó
được dùng để xử lý nhiễu trong môi trường nhiễu BABBLE.
B. Kết quả đánh giá chủ quan
Hình 3.2: Đặc tuyên hàm nén nhiễu trong
miền wavelet.
IV. KẾT QUẢ THÍ NGHIỆM VÀ ĐÁNH GIÁ
Các thuật tốn trong miền wavelet và các thuật toán đã được
cải thiện trong miền tần số là được sử dụng để xử lý các tín
hiệu nhiễu, các tín hiệu nhiễu này cung được xây dựng trên cơ
sở dữ theo tiêu chuẩn IEEE. Những mẫu tín hiệu tiếng nói này
sẽ được cộng vào các loại nhiễu khác nhau như CAR,
BABBLE, WHITE, STREET và TRAIN. Hơn nữa, nhiều mức
nhiễu khác nhau sẽ cho ra kết quả chính xác hơn. Những kết
quả này sẽ được đánh giá thông qua các phương pháp đánh giá
khách quan là PESQ và SegSNR, bởi vì những phương pháp
này có độ ổn định và tin cậy cao [11] nên được IEEE khuyến
cáo nên sử dụng để đánh giá các tín hiệu đã tăng cường.
Những tín hiệu đã được tăng cường cũng được sử dụng đẻ hỗ
trợ cho việc đánh giá chủ quan với phương pháp Mean
Opinion Score (MOS).

Với biểu đồ hình 4.2, chúng ta có thể thấy rằng kết quả sau khi
chúng ta thực hiện khảo sát để hoàn thành việc đánh giá chủ
quan. Chúng ta có thể có một cái nhìn tổng quát hơn khi nhìn
vào biểu đồ này, kết quả chỉ ra rằng thuật tốn Shrinking – UT
Hình
4.2:
Biểu
khảquả
năng

nhiễutốn
các này
thuật
tốn
– PF
làm
việc
rất đồ
tốtso
vàsánh
đạt kết
tốtxử
khilýthuật
được
mức tại
SNR
5dB trường nhiễu khác
dùng để xử lý tín hiệuvới
nhiễu
các– môi
nhau mà chúng ta đang xét, đặc biệt là xử lý tốt với loại nhiễu
WHITE. Nếu chúng ta so sánh kết quả đánh giá giữa đánh giá
khách quan và đánh giá chủ quan, chúng ta sẽ thấy chúng gần
như có cùng kết quả ví dụ như kết quả của Shrinking – UT –
PF đạt được kết quả cao với tín hiệu nhiễu do BABBLE.

172

172



HộiHội
Thảo
Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
C. So sánh kết quả đánh giá khách quan và chủ quan

câu thoại đã được cộng nhiễu ban đầu. Sau đó tiến hành tính
giá trị trung bình các chỉ số trên cơ sở 30 câu ứng với 4 mức
SNR trong 5 mơi trường nhiễu, bởi vậy chúng tơi có thể nói
rằng kết quả kiểm tra của chúng tôi được đảm bảo. Những
thuật tốn cũng được phân tích và so sánh hiệu suất của việc
xử lý trực tiếp bởi các phương pháp đánh giá khách quan như:
IS, CEP, LLR, WSS, PESQ và SNRseg. Sự đánh giá đã cho
thấy rằng các thuậ toán trong miền tần số như MMSE-PF cho
chúng ta kết quả hay hiệu suất xử lý tốt với sự giảm nhiễu lớn
nhất và trong miền Wavelet là thuật toán Shrinking – UT –PF
cho chúng ta thấy được kết quả tốt hơn những thuật toán khác,
đặc biệt là khi thuật toán này được dùng để xử lý nhiễu
WHITE. Hơn nữa, thuật toán này cịn nén tốt hơn, ít tác động
xấu đến tín hiệu như gây méo tín hiệu và đảm bảo được tính
dễ nghe của tín hiệu sau khi xử lý. Trong tương lai chúng tôi
vẫn muốn nghiên cứu sâu hơn để cải thiện hơn giải pháp này
cho việc tối ưu hơn nữa khả năng nén nhiễu trong miền
wavelet và tiếp tục so sánh với các thuật toán trong miền tần
số để đánh giá hiệu quả của việc nâng cao tín hiệu cho người
nghe. Chúng tôi cũng đã thực hiện việc đánh giá chủ quan và
kết quả mà chúng tôi đạt được từ sự đánh giá này giúp cho
chúng tôi tin rằng những phương pháp đánh giá khách quan
như PESQ, SegSNR là đáng tin cậy bởi vậy chúng tơi hồn

tồn tin tưởng những phương pháp này khi sử dụng đánh giá
trong thí nghiệm.
LỜI CÁM ƠN
Chúng tôi muốn gửi lời cám ơn đặc biệt đến PGS.TS Phạm
Văn Tuấn và ThS. Võ Thị Diệu Hanh. Nghiên cứu này đã cho
thấy những thách thức và khó khan khi thực hiện. Tất cả
chúng tơi thật sự khơng thể hồn thành nghiên cứu này nếu
khơng có sự giúp đỡ của họ.

Hình 4.3: Biểu đồ so sánh khả năng xử lý nhiễu và sự
tương đồng của 2 phương pháp đánh giá tại SNR – 5dB
Thông qua việc quan sát hình ảnh ở trên tại mức 5dB và so
sánh với biểu đồ phía dưới chúng ta có thể nhận ra được sự
tương đồng giữa đánh giá khách quan và đánh giá chủ quan.
Đặc biệt, hình ảnh ở trên cho thấy các thuật toán trong miền
tần số như LogMMSE-PF và NSS-PF đã đạt được kết quả xử
lý tốt với nhiễu BABBLE, những thanh Error bar ở dưới của
những thuật toán này là khá tương đồng và trong biểu đồ phía
dưới chúng ta cũng thấy được kết quả tương tự. Thuật toán
Shrinking – UT – PF (Optimal Shrinking) trong biểu đồ phía
dưới cho chúng ta thấy kết quả lớn nhất nhưng nó lại có sự
chênh lệch lớn bởi vậy kết quả này sẽ ít sự chính xác nhưng
cũng gần với kết quả đánh giá chủ quan.

TÀI LIỆU THAM KHẢO
[1]

Suman,

M. ; K.L.


Univ.,

Guntur,

India

; Khan,

H. ; Latha, M.M. ; Kumari, D.A. “Performance analysis
of enhanced noisy compressed speech signal corrupted
by Gaussian and real world noise using recursive
filter”,IEEE, p 340-348, Jan 2015.
[2]

Tasmaz, H.; Elektrik-Elektron. Muhendisligi Bolumu,
Adiyaman Univ. Muhendislik Fak., Adyaman, Turkey,
“Dual tree complex wavelet transform based speech

V. KẾT LUẬN

enhancement”, IEEE, p 823 – 826, May 2015.

Với bài báo này, chúng tơi đã trình bày kết quả và đề xuất giải
pháp mới để cải thiện chất lượng tiếng nói dựa vào các
phương pháp ước lượng và giảm nhiễu phi tuyến tối ưu cả
trong miền tần số và miền wavelet. Nội dung của sự nghiên
cứu này được tập trung vào việc nén nhiễu trong miền wavelet
với ngưỡng mềm and ngưỡng cứng. Bên cạnh đó, những thuật
tốn ước lượng như Percentile Filter được tích hợp vào bên

trong các hàm nén nhiễu để phát triển các thuật toán như:
NSS_PF, LogMMSE-PF, MMSE-PF, HardThr-PF, SoftThrPF and Shrinking-UT-PF. Bằng việc dùng một cơ sở dữ liệu
lớn gồm 3600 câu thoại đã được xử lý giảm nhiễu so với 600

[3]

Schasse, A.; Inst. of Commun. Acoust, Ruhr-Univ.
Bochum, Bochum, Germany; Martin, R., “Estimation
of Subband Speech Correlations for Noise Reduction
via MVDR Processing”, IEEE, p 1355 – 1365, July
2014.

[4]

Yong Zhang; ShenZhen Key Lab. of Intell. Media &
Speech, Peking Univ. ShenZhen Res. Inst., Shenzhen,

173

173


HộiHội
Thảo
Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
[10]

China ; Yi Liu, “A novel perceptual distortion


[5]

minimization speech enhancement algorithm”, IEEE, p

Speech Recognition Using Adaptive Noise Threshold

1- 6, July 2014.

Estimation and Wavelet Shrinkage", Proc. IEEE ICCE,

Kirubagari, B.; Dept. of Comput. Sci. & Eng.,

Hoi an, Vietnam, p 04-06, Feb 2008.
[11]

Annamalai Univ., Annamalai Nagar, India ; Palanivel,
S. ; Subathra,

N.,

“Speech

enhancement

229 -238, Jan 2008.
[12]

subtraction filter”, IEEE, p 1 – 7, Feb 2014.

Priori SNR estimator”, IEEE Signal Processing Letters,


of Auckland, Auckland, New Zealand; Guillemin, B.

vol. 11, no.9, pp 725-728, Sept 2004.

MMSE

STFT

[13]

Speech

Roorkee, Roorkee, India; Tripathy, M. ; Anand, R.S.,

IEEE, p 1445 – 1457, July 2013.

“A fuzzy mask based on wavelet packet for improving

Jain,

B.; Poornima
A.K.,

of

Eng.,

Sitapura,


speech quality and intelligibility”, IEEE, p 1 – 4, Feb

“Robust

hybrid

adaptive

2014.

Coll.

perceptual wavelet packet threshold to enhance speech

[14]

Pham T.V.,

Gernot

Kubin, "WPD-based Noise

in adverse noisy environment”, IEEE, p 1 – 6, May

Suppression Using Nonlinearly Weighted Threshold

2014.

Quantile Estimation and Optimal Wavelet Shrinking",


Bensty J., Jingdong Chen and Yiteng Arden Huang,

Proc. Interspeech, Lisboa, Portugal, p 4-8, Sep 2005.

‘Noise Reduction Algorithms in a Generalizaed

[9]

Singh, S.; Dept. of Electr. Eng., Indian Inst. of Technol.

Enhancement with General A Priori Information”,

India; Bansal,

[8]

Cohen I., “Speech enhancement using a noncausal a

McCallum, M.; Dept. of Electr. & Comput. Eng., Univ.
“Stochastic-Deterministic

[7]

Hu Y. and Loizou P.C., “Evaluation of Objective
Quality Measures for Speech Enhancement”, IEEE, p

using

minimum mean square error filter and spectral
[6]


Pham T.V., Gernot Kubin, Erhard Rank, "Robust

[15]

Zhang Jie; Coll. of Electron. & Inf. Eng., Tongji Univ.,

Transform Domain”, IEEE Transaction on Audio,

Shanghai, China ; Xiaoqun Zhao ; Jingyun Xu ; Zhang

Speech, and Language Processing, vol.17, No.6, 2009.

Yang, “Suitability of speech quality evaluation

Steven F.Boll,“Suppression of Acoustic Noise in

measures in speech enhancement”, IEEE, p 22-26, July

Speech Using Spectral Subtraction”,IEEE, p 113 – 120,

2014.

Jan 2003

174

174




×