Tải bản đầy đủ (.ppt) (31 trang)

ĐIỆN tử VIỄN THÔNG chapter 2 fundamental of speech signal processing khotailieu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (449.5 KB, 31 trang )

Multimedia Engineering
--------Lecture 2: Fundamental of Speech
Signal Processing
Lecturer: Dr. Đỗ Văn Tuấn
Department of Electronics and
Telecommunications
Email:


Lecture contents

1.
2.
3.
4.

Introduction
Speech signal analysis
Speech signal synthesis
Introduction to Vietnamese analysis and
synthesis

2


Introduction
 Speech signal is complicated:





Noise + periodic segments
Nonlinear
Time variant

3


Bộ máy phát âm
1. Hốc mũi
2. Vòm miệng trên
3. Ổ răng
4. Vòm miệng mềm
5. Đầu lưỡi
6. Thân lưỡi
7. Lưỡi gà
8. Cơ miệng
9 Yết hầu
10. Nắp đóng của thanh quản
11. Dây thanh giả
12. Dây thanh
13. Thanh quản
14. Thực quản
15. Khí quản

4


Bộ máy phát âm
 Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản,
thanh quản, và các đường dẫn miệng, mũi.

 Trong đó:
 Thanh quản chứa đôi dây thanh có thể dao động tạo ra sự cộng hưởng
cần thiết để tạo ra âm thanh.
 Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh
hoặc thanh quản.
 Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm
miệng, có độ dài cố định khoảng 12cm đối với người lớn.
 Vòm miệng là các nếp cơ chuyển động.

5


Cơ chế phát âm
 Trong quá trình tạo âm không phải là âm mũi, vòm miệng mở, khoang mũi
đóng lại, dòng khí sẽ chỉ đi qua khoang miệng.
 Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang
mũi.
 Tuyến âm sẽ được kích thích (excitation) bởi nguồn năng lượng chính tại
thanh môn. Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra,
đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây
thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao
động âm sẽ được lan truyền theo tuyến âm (tính từ thanh môn đến khoang
miệng) và sau khi đi qua khoang mũi, môi, sẽ tạo ra tiếng nói.
 Tín hiệu tiếng nói được hình thành thông qua 2 yếu tố:
 Excitation
 Signal shaping

6



Excitation
 Voiced excitation by its periodicity,
 voiceless excitation by its noise-like waveform,
 transient excitation by a certain sequence in the temporal course

7


Signal shaping
 A speech sound is not only determined by the excitation signal, but also
strongly by the "forming" of the air stream in the vocal tract. The most
important components are the lips and tongue.
 The components in the vocal tract contributing substantially to the timbre
(âm sắc) of the speech signal are:
 tongue position
 lip position.

8


Presentation of speech signal
 Speech signal is continuous. Presentation of the speech signal digitally in
order to maintain the characteristics of signal is very important.

Speech signal
presentation

Wave form

Parametric


Parametric
excitation

Parameters of vocal
tract

9


Presentation of speech signal
 Speech signal needs presenting in discrete form following three required
steps:
 Sampling
 Quantizing
 Compressing
 Sampling: in order to recover the signal without loosing information,
sampling rate f0 ≥2Fmax (Shannon theorem) (for example: telephone –
8Kz, music and voice – 48Kz)
 Quantizing: Each sample needs to be quantized for efficient processing
and transmission. This will produce white noise.
 Compressing: When transmitted, the speech signal contains a huge
‘redundancy’. Hence, the signal normally is compressed with a
compression technique to have a compact signal for delivery.
10


Speech signal coding
 Two types of speech coding: direct coding and parametric coding.
 Direct coding: PCM,

 Parametric coding: LPC, MPLPC, LSF

11


Đặc điểm của tín hiệu tiếng nói
 Âm hữu thanh


Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và
chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn
mở ra và sau đó thanh môn xẹp xuống do không khí chạy qua.



Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn
hoặc gần như tuần hoàn. Phổ của âm hữu thanh có nhiều thành phần
hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản
(pitch).

12


Đặc điểm của tín hiệu tiếng nói
 Âm vô thanh


Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có
hai loại cơ bản là âm xát và âm tắc.




Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm
trong tuyến âm. Không khí khi đi qua điểm co thắt trở nên chuyển
động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên. Thông
thường điểm co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến
âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra.



Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số
điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng
đột ngột. Sự giải phóng đột ngột này tạo ra kích thích nhất thời của
tuyến âm. Sự kích thích này có thể xảy ra với sự cộng hưởng hoặc
không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh
hoặc vô thanh.
13


Đặc điểm của tín hiệu tiếng nói
 Nguyên âm


Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây
thanh khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo
lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác
nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất
định.

 Phụ âm



Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ
âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh
có dao động để tạo nên cộng hưởng không. Dòng không khí tại chỗ
đóng của vòm miệng tạo ra phụ âm tắc. Phụ âm xát được phát ra từ
chỗ co thắt lớn nhất. Các âm tắc được tạo ra từ khoảng giữa.

14


Đặc điểm của tín hiệu tiếng nói
 Hàm năng lượng ngắn hạn


Hàm năng lượng ngắn hạn của tiếng nói được tính bằng cách chia tín
hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung
này được đưa qua một cửa sổ có dạng hàm như sau:

W  n
W  n  
0


Với 0  n  N
Với n  N

Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:
N1


E m   x n  m   W  n 

2

n 0



Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ
Hamming, cửa sổ Hanning và cửa sổ chữ nhật. Hàm năng lượng ngắn
hạn của âm hữu thanh thường lớn hơn so với âm vô thanh.

15


Đặc điểm của tín hiệu tiếng nói
 Tần số cơ bản


Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong
đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín
hiệu lặp lại gần như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các
thành phần tần số có dạng điều hòa. Tần số thấp nhất chính là tần số
cơ bản và cũng chính là tần số dao động của dây thanh.

Giá trị tần số cơ bản

Người nói


80 – 200 Hz

giới

150 – 450 Hz

Phụ nữ

200 – 600 Hz

Trẻ em

16


Đặc điểm của tín hiệu tiếng nói
 Formant




Với phổ của tín hiệu tiếng nói, mỗi đỉnh
có biên độ lớn nhất xét trong một khoảng
nào đó (cực đại cục bộ) tương ứng với
một formant. Ngoài tần số, các formant
còn được xác định bởi biên độ và dải
thông của chúng. Về mặt vật lý các
formant tương ứng với các tần số cộng
hưởng của tuyến âm
Tần số formant biến đổi trong một

khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm
vị tương ứng với formant đó

17


Lecture contents

1.
2.
3.
4.

Introduction
Speech signal analysis
Speech signal synthesis
Introduction to Vietnamese analysis and
synthesis

18


Bộ lọc nguồn
 Tuyến âm của con người là một bộ lọc phi tuyến phụ thuộc thời gian (tham số
thay đổi theo thời gian) rất phức tạp và được kích thích bằng nhiều nguồn
năng lượng khác nhau Mô hình thực cho các tính chất âm học là vô cùng
phức tạp.
 Để tạo ra mô hình thì đơn giản hóa như sau
 Tuyến âm được biểu diễn bằng một bộ lọc tuyến tính không mất mát với

một đầu vào duy nhất.
 Nguồn kích thích hoặc là dãy xung tuần hoàn hoặc là nhiễu, phụ thuộc vào
tiếng nói là hữu thanh hay vô thanh.
 Các đặc tính của bộ lọc và nguồn kích thích là tĩnh (không biến đổi) trong
các chu kỳ khoảng 10 ms.


19


Bộ lọc nguồn
 Mô hình

 Khi được dùng cho tổng hợp, các tham số bộ lọc được cập nhật theo chu kỳ
khoảng 10 ms.
 Khi được dùng cho phân tích, tín hiệu tiếng nói được phân chia thành các
khung độ dài khoảng 10-25 ms. Với mỗi khung, một tập các tham số bộ lọc
được xác định bằng cách tối thiểu sự khác biệt giữa tiếng nói được tạo bằng
mô hình và tiếng nói thực.
20


Mô hình toàn cực
 Là mô hình bộ lọc–nguồn trong đó tuyến âm được biểu diễn bằng một bộ lọc
số phụ thuộc thời gian có đáp ứng tần số là:

S ( z)
H  z 

U ( z)

1

G
p

k
a
.
z
 k
k 1

 Hệ thống có thể được kích thích bởi một dãy xung đối với tiếng nói hữu thanh
hay một dãy nhiễu ngẫu nhiên đối với tiếng nói vô thanh. Tần số cơ bản và các
tham số hữu thanh/ vô thanh có thể được xác định bằng sử dụng phân tích tiên
đoán tuyến tính. Các mẫu tiếng nói s(n) có thể có được bằng cách sử dụng
phương trình:
p

s  n   a k .s n  k   G.u  n 
k 1

21


Hàm tương quan
 Hàm tương quan dùng để khảo sát tính tương quan giữa hai hàm bằng cách so
sánh chồng hai hàm lên nhau và với một trong hai hàm dịch sang trái hay sang
phải



Liên tục

r ( x)  g (u )h( x  u )du




Rời rạc

r(k)   g(m).h(m  k)
m -

 Với các tín hiệu ngắn hạn chiều dài N mẫu, hàm tương quan được xác định
như sau:
N1

R (k )  g ( k  m)h(m)
k 0

22


Hàm tự tương quan


 Định nghĩa

R (k )   x m .x m  k 
m 


 Nếu tín hiệu x(n) tuần hoàn với chu kỳ P thì hàm tự tương quan cũng tuần
hoàn với chu kỳ P:
 Tính chất
 Là hàm chẵn
 R(k) đạt giá trị cực đại tại 0
 Giá trị R(0) chính bằng năng lượng của tín hiệu: R  0  



2
x
  m

m 

 Sử dụng hàm tự tương quan để phân tích tần số cơ bản

23


Kỹ thuật tiên đoán tuyến tính (LP)
 Tiên đoán tuyến tính
 Bộ tiên đoán tuyến tính với các hệ số tiên đoán
thống có đầu ra là:
p

k

và bậc p là một hệ


~
s (n)   k .s n  k 
k 1



Sai số tiên đoán

e n   s  n   ~
s  n
e n   s ( n ) 

p

  .s n  k 
k

k 1



Bộ lọc sai số tiên đoán là hệ thống có hàm truyền đạt
A z  1 

p



k


.z  k

k 1



hàm truyền đạt của mô hình toàn cực
H  z 

S ( z)

U ( z)
1

G

p

a

k

.z  k

k 1

24



Kỹ thuật tiên đoán tuyến tính (LP)
 Tiên đoán tuyến tính


Tín hiệu đầu ra của hàm truyền đạt
p

s n   a k .s n  k   G.u  n 
k 1



Nếu  k a k thì e(n) G u (n) và với điều kiện đó, bộ lọc lỗi tiên
đoán A(z) sẽ là một bộ lọc đảo của hệ H(z):
G
H ( z) 
A( z )

25


×