Nghiên cứu giải pháp giảm nhiễu nâng cao chất lượng tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (685.57 KB, 4 trang )

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2

45

NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
SỬ DỤNG BỘ LỌC KALMAN HIỆU CHỈNH
A STUDY OF MEASURES FOR NOISE REDUCTION TO IMPROVE THE QUALITY OF
SPEECH USING ADJUSTMENT KALMAN FILTER
Dương Ngọc Pháp
Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng;
Tóm tắt - Bài báo tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín
hiệu tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh. Việc xây dựng mơ
hình hồi quy với ma trận các hệ số ước lượng được thực hiện cho
cả tín hiệu tiếng nói và nhiễu nhằm thay đổi cấu trúc của bộ lọc. Tín
hiệu tiếng nói ban đầu bị tác động bởi nhiễu được xử lý trước khi
đưa đến đầu vào bộ lọc sử dụng các phương pháp ước lượng tín
hiệu, bao gồm việc xác định xác suất hiện diện tiếng nói (SPP) và kỹ
thuật trừ phổ. Kết quả mô phỏng được thực hiện trên cơ sở dữ liệu
NOIZEUS nhằm mô phỏng kỹ thuật đã nghiên cứu với các loại nhiễu
và mức nhiễu khác nhau. Thơng qua các tiêu chí đánh giá, tiến hành
so sánh mức độ hiệu quả của kỹ thuật trên các môi trường nhiễu và
với các phương pháp đã nghiên cứu trước đó.

Abstract - The article focuses on noise reduction techniques for
speech using the adjusment Kalman filter. The construction of the
regression model with matrix of estimated coefficients are made for
both speech and noise to change the structure of the filter. Original
speech affected by noise is processed prior to the input filter using
the signal estimation method including the determination of the
speech presence probability (SPP) and spectral subtraction
technique. The simulation results are performed on the NOIZEUS

database to simulate the studied technique with different kinds of
noise and different noise levels. Through the evaluation criteria, the
article compares the technical efficiency on noise environments and
the methods studied previously.

Từ khóa - bộ lọc Kalman; giảm nhiễu; tiếng nói; xác suất hiện diện
tiếng nói; hồi quy

Key words - Kalman filter; noise reduction; speech; speech
presence probability; regression

1. Đặt vấn đề

trong mơi trường chứa nhiễu nền lớn. Như trình bày ở Hình
1, tín hiệu tiếng nói bị nhiễu y(n) nhận được tại microphone
thực chất được tạo ra từ một nguồn tín hiệu tiếng nói sạch
x(n) cộng với nhiễu nền v(n).

Hầu hết chất lượng tiếng nói trong các hệ thống truyền
tin đều bị suy giảm do tác động bởi nhiễu. Việc nghiên cứu
và đưa ra các kỹ thuật nhằm loại bỏ nhiễu đóng vai trị quan
trọng trong việc đảm bảo chất lượng và tính dễ hiểu của tín
hiệu tiếng nói trong các hệ thống thông tin liên lạc.
Nâng cao chất lượng tiếng nói bao gồm cải thiện chất
lượng, tính dễ hiểu và giảm sự khó chịu cho người nghe
bằng cách giảm tối đa nhiễu tác động vào tiếng nói. Các kỹ
thuật đã được nghiên cứu để giảm nhiễu cho tín hiệu tiếng
nói như trừ phổ (SS), ước lượng MMSE, lọc Wiener (WF),
biến đổi Wavelet,…
Nội dung bài báo sẽ tập trung nghiên cứu kỹ thuật giảm

nhiễu cho tín hiệu tiếng nói dựa trên phương pháp tính tốn
truy hồi, sử dụng biến thể của bộ lọc Kalman. Kỹ thuật này
khá hiệu quả với các loại nhiễu khác nhau trong môi trường
thực. Kết quả nghiên cứu sẽ được so sánh, đánh giá với các
kỹ thuật đã đề xuất.

3. Giảm nhiễu sử dụng bộ lọc Kalman
3.1. Cấu trúc bộ lọc Kalman
Cấu trúc tự hồi quy của bộ lọc cho phép dự đoán trạng
thái hiện tại từ những trạng thái trước đó mà khơng cần
phải tốn kém bộ nhớ để lưu trữ những thông số này [1][4].
Phương trình sai phân tự hồi quy:

x n  Fn x n 1  w n ; n  1, 2,
y n  H n x n  v n ; n  1, 2, 

(2)

ˆ 0|0và P0|0 là điều kiện đầu cho bộ lọc.
Với các giá trị x
Sơ đồ thực hiện lọc Kalman với sự có mặt của các phương
trình tốn học được biểu diễn ở Hình 2:

2. Mơ hình nhiễu cộng
Bài báo xem xét tín hiệu tiếng nói đơn kênh bị suy hao
do cơ chế tác động nhiễu cộng âm học (additive acoustic
noise). Đặc tính cơ bản của nhiễu cộng là sự xếp chồng của
tín hiệu nhiễu lên tín hiệu tiếng nói trong miền thời gian
lẫn miền tần số, và nhiễu tác động lên tín hiệu tiếng nói với
nhiều mức (SNR) khác nhau.

Hình 1. Mơ hình nhiễu cộng

Nhiễu cộng tác động vào tín hiệu tiếng nói khi ghi âm

(1)

Và vector quan sát:

Hình 2. Sơ đồ thực hiện bộ lọc Kalman

46

Dương Ngọc Pháp

3.2. Sơ đồ khối hệ thống
Bước 1. Tín hiệu tiếng nói bị nhiễu đầu vào y được phân
khung (với độ dài cửa sổ bằng W=256, hệ số chồng phổ 0,5
đối với bộ lọc Kalman trong miền thời gian và W=80, hệ
số chồng phổ 0,75 đối với bộ lọc Kalman trong miền tần số
[11]) sử dụng cửa sổ Hanning.
Bước 2. Ước lượng bộ hệ số của mơ hình hồi quy, trong
đó ma trận hệ số được xây dựng cho cả tín hiệu tiếng nói
và nhiễu ước lượng.
Bước 3. Áp dụng bộ lọc Kalman để lọc tín hiệu tiếng
nói và nhiễu từ tín hiệu ban đầu. Tín hiệu ở đầu vào bộ lọc
có thể ở miền thời gian hoặc được biến đổi sang miền tần
số (FFT và STFT).
Bước 4. Thực hiện ghép khung tín hiệu đầu.

0


0

0
Q
0


0

 0

 0

0

0  0

 



  

 0

0

0  0

 0  u2

0  0

 0

0

0  0

 



  

 0

0

0  0

 0

0

0  0

p

0
 
0

0
0

 
0

 2 

q

H   0 0  1 0 0  1
p
2
u

(8)

(9)

q

2

với σ và σ lần lượt là giá trị phương sai ứng với ma trận J
và R của sai lệch ước lượng tiếng nói và nhiễu.
So với kỹ thuật giảm nhiễu sử dụng cấu trúc cơ bản của
bộ lọc Kalman [4], trong bài báo tác giả xây dựng ma trận
của mơ hình hồi quy sử dụng các hệ số α và β cho phép thu
được tại đầu ra sau mỗi thời điểm ứng với từng khung tín
hiệu cả tín hiệu tiếng nói và nhiễu ước lượng với lưu đồ
thuật tốn thực hiện như sau:

Hình 3. Sơ đồ khối hệ thống

Mơ hình hệ thống theo bộ lọc Kalman hiệu chỉnh [7][9]
được xây dựng với các phương trình ước lượng và quan sát
có thay đổi cấu trúc các ma trận:

với vector x n và

x n =Фx n-1 +w n

(3)

y n =Hx n

(4)

w n có dạng là:

x n   xn - p 1 xn - p  2 ...xn -1 xn vn - q 1vn - q  2 ...vn -1vn 
w n   0 0 0... un 0 0 0... n 

T

T

(5)
(6)

ma trận Ф, Q và H có dạng:
 0

0

 

 0

p
Φ
 0
 0

 

 0
 0




0

0

0

0

1



0

0

0

0

















0



1

0

0

0



 p  2  1

0

0

0



1

0

0

0

 p 1



0

0



0

0

1

0



0

0



0

0

0

1



















0

0



0

0

0

0



0

0



0

q

 q 1

 q 2



0

0



0
0

0
0



1
 1 

(7)

Hình 4. Thuật tốn thực hiện lọc Kalman

3.3. Ước lượng hệ số mơ hình
Ứng với mỗi khung thứ i của tín hiệu tiếng nói bị nhiễu,
việc ước lượng các hệ số của mơ hình hồi quy được thực
hiện thông qua các bước sau:
Bước 1. Thực thiện FFT khung tín hiệu kích thước W

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2

Bước 2. Ước lượng cơng suất tín hiệu Pˆy'
Bước 3. Ước lượng cơng suất nhiễu Pˆv [2]
Bước 4. Ước lượng công suất tiếng nói Pˆx
Bước 5. Ước lượng các hệ số bậc p và bậc q cho tiếng
nói và nhiễu bằng phương pháp hàm tương quan [5], [6].

47

theo chuẩn của IEEE là tín hiệu thoại sạch. Mỗi câu dài
trung bình khoảng 2s.
Năm loại nhiễu được chọn để nghiên cứu trong đề tài là
nhiễu ô tô (Car), nhiễu đám đông (Babble), nhiễu trắng
(White), nhiễu từ tàu hỏa (Train) và nhiễu đường phố (Street).
4.2. Tiêu chí đánh giá
Các phương pháp đánh giá khách quan [3], [10] được
khảo sát để thực hiện đánh giá chất lượng tín hiệu tiếng nói
qua các tiêu chí đánh giá, bao gồm:
- Segmental Signal-to-Noise Ratio (SegSNR);
- Log Likelihood Ratio (LLR);
- Cepstrum Distance (CEP);
- Perceptual Evaluation of Speech Quanlity (PESQ);
- Weighted Spectral Slope (WSS).

Hình 5. Sơ đồ khối ước lượng các hệ số mơ hình

3.4. Ước lượng nhiễu
Sử dụng kỹ thuật ước lượng xác suất hiện diện tiếng nói
SPP [2]. Các bước thực hiện:
Bước 1. Ước lượng công suất nhiễu 5 khung tín hiệu

ban đầu (coi tín hiệu chỉ là nhiễu).
Bước 2. Tính tốn xác suất xuất hiện tiếng nói sau
(posteriori SPP).
Bước 3. Cập nhật xác suất với hệ số làm mượt α = 0,9.

4.3. Kết quả đánh giá và phân tích
Bài báo sẽ thực hiện đánh giá, so sánh 3 kỹ thuật đã
nghiên cứu là NSS, MMSE và LogMMSE ước lượng nhiễu
sử dụng bộ lọc phần trăm (PF) với 3 kỹ thuật giảm nhiễu
dùng bộ lọc Kalman trong miền thời gian (Kalman-TD),
miền tần số biến đổi Fourier nhanh (Kalman-FFT), và miền
tần số biến đổi Fourier thời gian ngắn (Kalman-STFT [8]).
4.3.1. Đánh giá theo phương pháp đo tỉ số tín hiệu trên
nhiễu trên từng khung SegSNR
Phương pháp đo SegSNR sẽ được lựa chọn để đánh giá
6 kỹ thuật giảm nhiễu (bao gồm 3 kỹ thuật sử dụng bộ lọc
Kalman (Kalman-TD, Kalman-FFT, Kalman-STFT) và 3
kỹ thuật đã nghiên cứu là NSS, MMSE và logMMSE sử
dụng bộ lọc phần trăm (PF)) với 4 mức nhiễu khác nhau
(0dB, +5dB, +10dB, +15dB). Kết quả thực hiện với nhiễu
xe hơi được chỉ ra như ở Hình 7.

Bước 4. Ước lượng công suất nhiễu với ngưỡng mềm
của xác suất hiện diện tiếng nói đã được tính tốn (ngưỡng
được chọn bằng 0,99).
Bước 5. Cập nhật nhiễu với hệ số làm mượt β = 0,8.

Hình 7. Kết quả đánh giá SegSNR của 6 thuật tốn tăng cường
chất lượng tiếng nói với loại nhiễu tiếng ồn ơ tơ (Car)

Hình 6. Sơ đồ ước lượng công suất nhiễu

4. Thực hiện giảm nhiễu và đánh giá kết quả
4.1. Cơ sở dữ liệu
Cơ sở dữ liệu đánh giá được lấy từ thư viện NOIZEUS
[12] gồm 30 câu thoại được ghi âm trong phịng thí nghiệm

Các thuật toán giảm nhiễu đều cho chỉ số SegSNR(dB)
tốt hơn nhiều so với tín hiệu ban đầu. Các thuật toán sử dụng
bộ lọc Kalman cho chỉ số SegSNR khá cao, khả năng giảm
nhiễu tốt hơn hẳn so với các thuật toán khác và gần bằng
nhau với tỷ lệ nén nhiễu khá tương đồng cho cả 5 loại nhiễu.
4.3.2. Phương pháp đánh giá cảm quan chất lượng thoại PESQ
Thực hiện đánh giá PESQ cho kỹ thuật giảm nhiễu sử
dụng bộ lọc Kalman trong miền thời gian so sánh trên 5
môi trường nhiễu khác nhau như ở Hình 8.
Kết quả đánh giá cho thấy ngồi nhiễu trắng thì các loại

48

Dương Ngọc Pháp

nhiễu khác cũng cho chỉ số PESQ khá tốt, đặc biệt là nhiễu tiếng
ồn đám đông (babble). Điều này chứng tỏ rằng bộ lọc Kalman
thích hợp với việc giảm nhiễu màu cho tín hiệu tiếng nói.

cường sử dụng các thuật tốn đã trình bày cho thấy các tiêu
chí đánh giá khác nhau có sự thay đổi nhất định trong các
môi trường nhiễu khác nhau và bởi các kỹ thuật giảm nhiễu

khác nhau.
Tuy nhiên, nhìn chung tín hiệu tiếng nói bị tác động bởi
nhiễu trắng cho kết quả sau tăng cường tốt hơn vì có mật
độ phổ phẳng.
Trong các kỹ thuật giảm nhiễu sử dụng bộ lọc Kalman,
kỹ thuật giảm nhiễu trong miền thời gian được điều chỉnh
cho kết quả khá tốt.
Việc ước lượng nhiễu quá lớn cũng có thể gây ảnh
hưởng đến phổ tiếng nói được tăng cường, làm méo dạng
tín hiệu và cho các kết quả đánh giá không tốt theo các chỉ
số WSS, PESQ, CEP.
TÀI LIỆU THAM KHẢO

Hình 8. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền
thời gian theo thông số PESQ cho 5 môi trường nhiễu

[1]

Benesty, Jacob. Springer handbook of speech processing. Springer
Science & Business Media, 2008.

[2]

Gerkmann, Timo, and Richard C. Hendriks. “Noise power
estimation
based
on
the
probability
of

speech
presence.” Applications of Signal Processing to Audio and Acoustics
(WASPAA), 2011 IEEE Workshop on. IEEE, 2011.

[3]

Hu, Yi, and Philipos C. Loizou. “Evaluation of objective quality
measures for speech enhancement.” Audio, Speech, and Language
Processing, IEEE Transactions on 16.1 (2008): 229-238.
Paliwal, K., and A. Basu. “A Speech Enhancement Method Based
on Kalman Filtering, proceedings of IEEE Int.” Conf. Acoust.
Speech. 1987.

4.3.3. Đánh giá theo phương pháp đo LLR
Thực hiện đánh giá theo chỉ số LLR giữa 6 thuật toán
khác nhau với nhiễu trắng (white).

[4]

[5]

Martin, Rainer. “Noise power spectral density estimation based on
optimal smoothing and minimum statistics.” Speech and Audio
Processing, IEEE Transactions on 9.5 (2001): 504-512.

[6]

Martin, Rainer. “Spectral subtraction based on minimum
statistics.” power 6 (1994): 8.
Berouti, M., R. Schwartz, and John Makhoul. “Enhancement of

speech corrupted by acoustic noise.” Acoustics, Speech, and Signal
Processing, IEEE International Conference on ICASSP'79.. Vol. 4.
IEEE, 1979.

[7]

[8]

Paliwal, Kuldip, Kamil Wójcicki, and Belinda Schwerin. “Singlechannel speech enhancement using spectral subtraction in the short-time
modulation domain.” Speech communication 52.5 (2010): 450-475.

[9]

Hình 9. Kết quả đánh giá LLR của 6 thuật tốn tăng cường chất
lượng tiếng nói với loại nhiễu trắng (White)

Kết quả đánh giá cho thấy với loại nhiễu có tính ổn định
cao như nhiễu trắng, các thuật toán đều cho ra kết quả chỉ
số LLR tốt hơn hẳn với dải biến thiên rộng, đặc biệt là thuật
toán Kalman-TD.
5. Kết luận
Kết quả đánh giá dữ liệu tiếng nói sau khi được tăng

Popescu, Dimitrie C., and Ilija Zeljković. “Kalman filtering of
colored noise for speech enhancement.” Acoustics, Speech and
Signal Processing, 1998. Proceedings of the 1998 IEEE
International Conference on. Vol. 2. IEEE, 1998.
[10] Recommendation, I. T. U. T. “Perceptual evaluation of speech
quality (PESQ), an objective method for end-to-end speech quality
assessment of narrowband telephone networks and speech

codecs.” ITU-T Recommendation (2001): 862.
[11] So, Stephen, Kamil K. Wójcicki, and Kuldip K. Paliwal. “Singlechannel speech enhancement using kalman filtering in the
modulation domain.” IN TERSPEECH. 2010.
[12] truy cập lần
20/05/2015.

(BBT nhận bài: 27/07/2015, phản biện xong: 09/10/2015)

cuối

Nghiên cứu giải pháp giảm nhiễu nâng cao chất lượng tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về