Tải bản đầy đủ (.pdf) (4 trang)

Đánh giá hiệu quả cập nhật nhiễu trực tuyến trong các thuật toán nâng cao chất lượng tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (533.83 KB, 4 trang )

HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
Thảo
Quốc
Gia
2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)

Đánh Giá Hiệu Quả Cập Nhật Nhiễu Trực Tuyến Trong
Các Thuật Tốn Nâng Cao Chất Lượng Tiếng Nói
Đào Văn Lân, Hoàng Văn Phúc và Vũ Hỏa Tiễn
Trường Đại học Kỹ thuật Lê Q Đơn, 236 Hồng Quốc Việt, Hà Nội, Việt Nam
Email: , ,
Tóm tắt –
ực hiện kh o sát và


đ
ệu qu của việc cập nhật nhiễu trực tuyến theo thời
gian trong các thuật toán nâng cao chấ lượng tiếng nói. Việc
kh s v đ
được thực hiện cho ba dạng thuật tốn
chính là: thuật tốn dựa trên mơ hình thống kê; thuật tốn khơng
gian con (subspace); thuật toán trừ phổ. Bên cạ
đ
ũ đề xuấ p ươ p p chọn giá trị ưỡng quyế định tín
hiệu phù hợp với mỗi ứng dụng cụ thể

hiệu quả nhiễu trực tuyến được mô tả trong ph n III. Cuối cùng
ph n V là nh ng kết luận.
II.

Trong các tài liệu [1, 3, 4, 7, 15, 6 đ đưa ra một số
phương pháp cập nhật nhiễu theo thời gian trong các thuật tốn
xử lý nâng cao chất lượng tiếng nói.

Từ khóa- Speech enhancement, statistical model based methods,
subspace algorithms, spectral-subtractive algorithms.

I.

Cập nhật nhiễu trực tuyến là phương pháp thực hiện liên tục
việc cập nhật phổ của nhiễu trong các chu kỳ trích mẫu song
song với việc thực hiện các thuật toán xử lý tín hiệu tiếng nói.
Căn cứ để thực hiện việc cập nhật nhiễu trực tuyến là phát hiện
tiếng nói (VAD: Voice Activity Detection) để cập nhật phổ
nhiễu trong các khoảng chu kỳ khơng có tiếng nói.


GIỚI THIỆU

Hiện nay, có rất nhiều nghiên cứu liên quan đến việc xử lý
tiếng nói ứng dụng trong nhận dạng con người, nhận dạng nội
dung tiếng nói, chuyển tiếng nói sang văn bản, chuyển từ tiếng
nói sang tiếng nói như các tài liệu
đ đề cập

Trong các thuật tốn dựa trên mơ hình thống kê [1], vấn đề
đặt ra trong việc nâng cao chất lượng tiếng nói là phải đề ra
được khung mơ tả mang tính thống kê, là một tập các phép đo
tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu và
chúng ta mong muốn tìm ra được một phương pháp ước lượng
tuyến tính hoặc phi tuyến với các tham số có lợi đó là hệ
chuyển đổi tín hiệu sạch.

Hình là sơ đồ khối tổng quát của các ứng dụng xử lý số
tín hiệu tiếng nói. Sau khi chuyển đổi từ tương tự sang số
(ADC), tín hiệu đ u vào bao gồm cả tín hiệu có ích (tiếng nói)
và nhiễu từ nhiều nguồn khác nhau (như tiếng ô tô, xe máy,
tiếng ồn tại nhà máy… ). Vì thế tất cả các ứng dụng đều sử
dụng khối tiền xử lý, nhằm nâng cao chất lượng tiếng nói trước
khi áp dụng các thuật tốn ứng dụng cụ thể. Trong khối tiền xử
lý việc cập nhật nhiễu (noise update) có ý nghĩa rất quan
trọng, ảnh hưởng đến chất lượng của các thuật toán nâng cao
chất lượng tiếng nói.

( ế


í

ệu v
,
ễu)

K ố
â
lượ

ề xử lý
a

ế

N ậ dạ

ườ

N ậ dạ
ế

ộ du

…….

Quy luật cập nhật nhiễu trực tuyến đối với các thuật tốn
dựa trên mơ hình thống kê [1, 2, 8, 9, 5 được quyết định bởi
các công thức (1) và (2).
H1



1 N 1
 log  k 

N k 1

(1)

H0

1
1  k

  k k 

1   k 

Với  k  exp 
í

ệu a

C u ể ừ ế
sa vă


Dk (i) (1   ).Yk2 (i)  Dk (i  1)

C u ể ế

sa
ế

(2)

Trong đó γk, ξk tương ứng với tỷ số tín hiệu/nhiễu (SNR)
tiên nghiệm và hậu nghiệm [15].

Hình 1. Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói.

N là số điểm thực hiện thuật tốn FFT.

Mục đích chính của bài báo này là khảo sát đánh giá hiệu
quả của việc cập nhật nhiễu trực tuyến đối với các thuật toán
nâng cao chất lượng tiếng nói trong khối tiền xử lý nâng cao
chất lượng tiếng nói như được mơ tả trong hình 1. Nội dung
tiếp theo của bài báo, trong ph n tác giả sẽ giới thiệu qui tắc
cập nhật nhiễu trực tuyến và kết quả thực nghiệm Đánh giá

ISBN: 978-604-67-0635-9

QUY TẮC CẬP NHẬT NHIỄU TRỰC TUYẾN

H1 là giả thiết rằng tín hiệu đ u vào gồm tín hiệu có ích là
tiếng nói, cịn H0 là giả thiết rằng tín hiệu đ u vào chỉ có nhiễu.
δ là giá trị ngưỡng quyết định tín hiệu vào chỉ có nhiễu hay
gồm cả tín hiệu có ích.
Dk(i) là công suất phổ của nhiễu tại khung thứ i (t n số k).

178

178


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Tiêu chí để đánh giá chất lượng của các thuật tốn nâng cao
chất lượng tiếng nói theo [1, 5] gồm độ méo tín hiệu tiếng nói
(SIG), nền nhiễu (BAK) và hiệu ứng tổng thể (OVL).
Trong bài báo này tác giả đề xuất phương pháp tìm giá trị
tối ưu của δ từ thực nghiệm theo các bước sau:

Yk2 (i ) là cơng suất phổ của tín hiệu gồm cả tiếng nói và

nhiễu.

β là hằng số làm mịn (smoothing constant) chọn trong dải
(0<β<1) và ở đây giá trị được chọn (trừ trường hợp của phương
pháp trừ phổ) là β = 0,98.

Bước 1: Khảo sát và đánh giá từng thuật toán nâng cao chất
lượng tiếng nói với các giá trị δ khác nhau theo các tiêu chí ở
các bảng 1-3.

Thuật tốn nâng cao chất lượng tiếng nói theo phương pháp
trừ phổ [1] dựa trên nguyên lý sau: giả sử tín hiệu nhiễu có
dạng cộng tính, ta có thể ước lượng được phổ của tín hiệu sạch
bằng cách trừ ước lượng phổ của tiếng nói có nhiễu cho ước
lượng phổ của nhiễu. Phổ của nhiễu có thể được ước lượng và
cập nhật trong các khoảng thời gian khơng có tiếng nói.


Bước 2: Từ bước 1, chọn giá trị δ cho kết quả ứng với các
tiêu chí tốt nhất.
Bảng 1. Hệ số độ méo của tín hiệu (SIG).

Quy luật cập nhật nhiễu trực tuyến lớp các thuật toán trừ
phổ được quyết định theo các công thức (3) và (4) trong các tài
liệu tham khảo [1,17].
2

 ei

 k bi Y i (k )  
 
SNRi (dB)  10 log10  e
 i b Di (k ) 2  
 k i




D
(i)


2

 . D(i 1)  (1   ). Y(i)

2


(3)

Giá trị

Đánh giá

5

Rất tự nhiên, khơng có suy hao

4

Khá tự nhiên, mức suy hao rất nhỏ

3

Ít tự nhiên, mức suy hao nhỏ

2

Khá tự nhiên, khá suy hao

1

Rất không tự nhiên và mức suy hao lớn

(4)

Bảng 2. Hệ số nền nhiễu (BAK).


Riêng với thuật toán trừ phổ, giá trị β được chọn là 0,9.

Giá trị

Đánh giá

Lớp các thuật tốn khơng gian con
là phương pháp chủ
yếu dựa trên lý thuyết đại số tuyến tính Hơn n a, các thuật
tốn này dựa trên giả thiết là tín hiệu sạch có thể được giới hạn
trong một khơng gian con của khơng gian nhiễu Euclid. Vì vậy,
phương pháp này phân tách khơng gian vector của tín hiệu có
nhiễu thành khơng gian con chứa chủ yếu là tín hiệu sạch bằng
cách bỏ qua các thành ph n của vector nhiễu ở trong khơng
gian con nhiễu.

5

Khơng thể nhận ra

4

Có thể nhận ra một chút

Ry Rx  Rn ; 

Rn (1,1) 




R
 .Rn  (1   ).R y
n

(5)

(6)

Với Ry, Rx, Rn tương ứng là ma trận hiệp phương sai của tín
hiệu có nhiễu, tín hiệu sạch, nhiễu.

Tương đối dễ nhận ra tương đối khó chịu

1

Rất dễ nhận ra, rất khó chịu

Giá trị

Đánh giá

5

Rất tốt (Excellent)

4

Tốt (Good)


3

Trung bình (Fair)

2

Kém (Poor)

1

Tồi (Bad)

Trong số các thuật tốn nâng cao chất lượng tiếng nói dựa
trên mơ hình thống kê tác giả chọn các thuật tốn
SE
log
SE log
SE SPU trình bày trong
để khảo sát với
các giá trị δ khác nhau Trong đó
SE (minimum meansquare-error) là thuật tốn tối ưu theo sai số trung bình bình
phương nhỏ nhất, logMMSE (MMSE log-spectral amplitude
estimator) là thuật toán logarithm ước lượng biên độ phổ theo
tối ưu sai số trung bình bình phương nhỏ nhất, logMMSE_SPU
(logMMSE under signal presence uncertainty) là thuật tốn dựa
trên thuật tốn logMMSE khi khơng chắc chắn có tín hiệu tiếng
nói. Kết quả khảo sát thể hiện trên các hình 2-4.

Trong thuật tốn khơng gian con, giá trị β được chọn là
0,98.

III.

Có thể nhận ra nhưng khó chịu

2

Bảng 3. Hiệu ứng tổng thể (OVL).

Với lớp các thuật toán không gian con (subspace), quy luật
cập nhật nhiễu trực tuyến [1, 16, 18, 9 được quyết định bởi
các công thức (5) và (6).

Ry (1,1) 

3

THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

D liệu phục vụ khảo sát và đánh giá kết quả trong bài báo
này được lấy trên cơ sở tham khảo [1,6], theo đó tín hiệu tiếng
nói sạch trong một file tiếng nói (“sp04.wav”) và tín hiệu có
nhiễu
thì
được
tạo
trong
một
file
khác
(“sp04_babble_sn10.wav”).


179
179


Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)

Từ kết quả khảo sát thực nghiệm trên các hình 2-4 cho thấy,
đối với các thuật tốn nâng cao chất lượng tiếng nói dựa trên

mơ hình thống kê, khi δ = 0,9, cho hiệu quả nâng cao chất
lượng tiếng nói tốt nhất theo các tiêu chí SIG, BAK, OVL theo
các bảng 1-3.

Kết quả khảo sát thuật toán nâng cao chất lượng tiếng nói
trừ phổ với các giá trị δ khác nhau thể hiện trên hình 5. Từ
nh ng kết quả đó ta rút ra nhận xét là đối với thuật tốn trừ phổ
thì giá trị δ=5,5 cho hiệu quả nâng cao chất lượng tiếng nói là
tốt nhất theo cả ba tiêu chí đ dẫn ra trong các bảng 1-3.

Đồ thị khảo sát thuật toán nâng cao chất l- îng tiÕng nãi MMSE theo delta

3.5

Khi khảo sát thuật toán nâng cao chất lượng tiếng nói
khơng gian con với các giá trị δ khác nhau ta nhận được kết
quả như trên hình 6 Từ đó ta thấy với giá trị δ=1 thì kết quả
của thuật tốn nâng cao chất lượng tiếng nói khơng gian con tốt
nhất theo cả ba tiêu chớ nờu

3.4
3.3

SIG
BAK
OVL

3.2
3.1
3


SIG
BAK
OVL

3.4

2.8
2.7

3.2

2.6

3

2.5

Đồ thị khảo sát thuật toán nâng cao chÊt l- ỵng tiÕng nãi trõ phỉ theo delta

3.6

2.9

0

0.1

0.2


0.3

0.4

0.5
delta

0.6

0.7

0.8

0.9

2.8

1

2.6

Hình 2. ết quả khảo sát chất lượng thuật toán MMSE theo .

2.4

Đồ thị khảo sát thuật toán nâng cao chất l- îng tiÕng nãi LogMMSE theo delta

3.5

2.2

2

3.4
3.3

1.8

SIG
BAK
OVL

3.2

0

2

3

4

5
delta

6

7

8


9

10

Hình 5. Đồ thị khảo sỏt cht lng thut toỏn tr ph theo .

3.1

Đồ thị khảo sát thuật toán nâng cao chất l- ợng tiếng nãi kh«ng gian con theo delta
3.4

3
2.9

3.3

2.8

3.2

2.7

3.1

2.6

1

0


0.1

0.2

0.3

0.4

0.5
delta

0.6

0.7

0.8

0.9

SIG
BAK
OVL

3

1

2.9

Hình 3. ết quả khảo sỏt cht lng thut toỏn LogMMSE theo .


2.8
2.7

Đồ thị khảo sát thuật toán nâng cao chất l- ợng tiếng nói LogMMSE-SPU theo delta
3.3

2.6

3.2

2.5

3.1

SIG
BAK
OVL

3

0

1

2

3

2.8


IV.

2.7
2.6
2.5
0.1

0.2

0.3

0.4

0.5
delta

0.6

0.7

0.8

0.9

5
delta

6


7

8

9

10

Hình 6. Đồ thị khảo sát chất lượng thuật tốn khơng gian con theo δ.

2.9

0

4

1

Hình 4. ết quả khảo sát chất lượng thuật toán LogMMSE-SPU theo δ.

Trong bài báo này nhóm tác giả đ thực hiện nghiên cứu,
khảo sát và đánh giá hiệu quả của các thuật toán nâng cao chất
lượng tiếng nói sử dụng phương pháp cập nhật nhiễu trực
tuyến Ngoài ra bài báo cũng đề xuất phương pháp lựa chọn
giá trị δ phù hợp trên cơ sở đánh giá các tiêu chí S

OVL, để các thuật toán đạt được hiệu quả thực thi cao nhất.

180
180


KẾT LUẬN


Thảo
Quốc
Gia
2015về
vềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThơng
Thơng và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Cơng
CơngNghệ
NghệThơng
Thơng
(ECIT
2015)

Trong các nghiên cứu tiếp theo nhóm tác giả sẽ tiến hành
hiện thực hóa các thuật tốn nâng cao chất lượng tiếng nói cập

nhật nhiễu trực tuyến này vào các ứng dụng, cụ thể như nhận
dạng tiếng nói có tính tới các đặc điểm của tiếng Việt.

[10] Mitra, V.; Franco, H.; Graciarena, M.; Vergyri, D., “Medium-duration
modulation cepstral feature for robust speech recognition,” 2014 IEEE
International Conference on Acoustics, Speech and Signal Processing
(ICASSP), pp.1749-1753, May 2014.
[11] Sultana, R.; Palit, R., “A survey on Bengali speech-to-text recognition
techniques,” 2014 9th International Forum on Strategic Technology
(IFOST), pp.26-29, Oct. 2014.
[12] M.P. Admane, R. Jasutkar, “Speech to text and accelerometer based
smart phone interaction system,” 2014 International Conference on
Information Communication and Embedded Systems (ICICES), pp.1-4,
Feb. 2014.
[13] Faizullah Ansari, M.D.; Shaji, R.S.; SivaKarthick, T.J.; Vivek, S.;
Aravind, A., “Multilingual speech to speech translation system in
bluetooth environment,” 2014 International Conference on Control,
Instrumentation, Communication and Computational Technologies
(ICCICCT), pp.1055-1058, Jul. 2014.
[14] Seung Yun; Young-Jik Lee; Sang-Hun Kim, “Multilingual speech-tospeech translation system for mobile consumer devices,” IEEE
Transactions on Consumer Electronics, vol.60, no.3, pp.508-516, Aug.
2014.
[15] Jongseo Sohn; Nam Soo Kim; Wonyong Sung, “A statistical modelbased voice activity detection,” IEEE Signal Processing Letters, vol.6,
no.1, pp.1-3, Jan. 1999.
[16] Mittal, U.; Phamdo, N., “Signal/noise KLT based approach for
enhancing speech degraded by colored noise,” IEEE Transactions on
Speech and Audio Processing, vol.8, no.2, pp.159-167, Mar 2000.
[17] Berouti, M.; Schwartz, R.; Makhoul, J., “Enhancement of speech
corrupted by acoustic noise,” IEEE International Conference on
Acoustics, Speech, and Signal Processing (ICASSP '79), vol.4, pp.208211, Apr. 1979.

[18] Yi Hu; Loizou, P.C., “A generalized subspace approach for enhancing
speech corrupted by colored noise,” IEEE Transactions on Speech and
Audio Processing, vol.11, no.4, pp.334-341, Jul. 2003.
[19] Yi Hu; Loizou, P.C., “A subspace approach for enhancing speech
corrupted by colored noise,” 2002 IEEE International Conference on
Acoustics, Speech, and Signal Processing (ICASSP), vol.1, pp.I-573-I576, May 2002.
[20] Yi Hu; P.C. Loizou, “Speech enhancement based on wavelet
thresholding the multitaper spectrum,” IEEE Transactions on Speech
and Audio Processing, vol.12, no.1, pp.59-67, Jan. 2004.

TÀI LIỆU THAM KHẢO
[1]
[2]

[3]

[4]

[5]

[6]
[7]

[8]
[9]

Philipos C.Loizou, Speech enhancement: theory and practice, second
edition, Publisher of Engineering and Environmental Sciences CRC
Press, Baco Raton, Florida, 2013.
Yang Lu; P.C. Loizou, “Speech enhancement by combining statistical

estimators of speech and noise,” 2010 IEEE International Conference on
Acoustics Speech and Signal Processing (ICASSP), vol., no., pp.47544757, March 2010.
Dubey, Rajesh Kumar; Kumar, Arun, “Comparison of subjective and
objective speech quality assessment for different degradation / noise
conditions,” 2015 International Conference on Signal Processing and
Communication (ICSC), vol., no., pp.261-266, March 2015.
Yi Hu; Loizou, P.C., “Subjective Comparison of Speech Enhancement
Algorithms,” 2006 IEEE International Conference on Acoustics, Speech
and Signal Processing, 2006. ICASSP 2006 Proceedings, vol.1, May
2006.
TU “Perceptual evaluation of speech quality (PESQ) and objective
method for end-to-end speech quality assessment of narrowband
telephone networks and speech codecs ” TU-T Recommendation 862,
2000.
Speech noise reference database:
/>Kisoo Kwon; Jong Won Shin; Sonowat, S.; Inkyu Choi; Nam Soo Kim,
“Speech enhancement combining statistical models and NMF with
update of speech and noise bases,” 2014 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP), pp.7053-7057,
May. 2014.
Y. Ephraim, “Statistical-model-based speech enhancement systems,”
Proceedings of the IEEE , vol.80, no.10, pp.1526-1555, Oct. 1992.
Y Ephraim and D
alah “Speech enhancement using a minimum
mean-square error log-spectral amplitude estimator ” EEE Trans
Acoust. Speech Signal Processing, vol. ASSP-33, pp. 443-445, Apr.
1985.

181
181




×