Tải bản đầy đủ (.pdf) (16 trang)

bài tập và giải bài tập xử lý tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.64 MB, 16 trang )


Trịnh Văn Loan – ðại học Bách khoa Hà Nội 1

BÀI TẬP XỬ LÝ TIẾNG NÓI


1. Hàm truyền ñạt của một bộ lọc số ở tần số formant F
k
ñược cho bởi:

2
2
1 2
1 2 cos
( )
1 2 cos
k k k
k
k k k
z z
H z
z z z z
θ
θ
− −
− +
=
− +

trong ñó
k


T
k
z e
σ

=
,
2
k k
F T
θ π
=
, T: chu kỳ lấy mẫu,
2
k
σ
: dải thông.
(a) Vẽ các ñiểm cực của H
k
(z) trong mặt phẳng Z
(b) Viết phương trình sai phân mô tả quan hệ giữa tín hiệu ra y
k
(n) và tín hiệu vào x
k
(n)
(c) Vẽ sơ ñồ khối của bộ lọc số này với 3 bộ nhân.
(d) Bằng cách sắp xếp lại các số hạng của phương trình sai phân, vẽ sơ ñồ khối của bộ lọc số
chỉ có 2 bộ nhân
2. Hệ số phản xạ r
k

ñược ñịnh nghĩa:
k1k
k1k
k
AA
AA
r
+

=
+
+
. Chứng minh rằng r
k
thoả mãn :
−1 ≤ r
k
≤ 1

3. Một hệ thống phát hiện tần số cơ bản gồm có M bộ lọc thông dải giả thiết là lý tưởng có tần số
cắt về phía tần số thấp của bộ lọc thứ k cho bởi:
F
k
= 2
k
-1
F
1
với k = 1, 2, M.
và tần số cắt về phía tần số cao cho bởi:

F
k
+1
= 2
k
F
1
với k = 1, 2, M.
Các tần số cắt này ñược lựa chọn sao cho nếu ñưa một tín hiệu tuần hoàn có tần số cơ bản F
0
tới
ñầu vào của bộ lọc với F
k
< F
0
< F
k+1
thì ñầu ra của các bộ lọc thứ 1 ñến k−1 sẽ có năng lượng rất
yếu, ñầu ra bộ lọc thứ k sẽ cho tần số cơ bản còn các bộ lọc từ thứ k+1 ñến M sẽ cho ra 1 hoặc
nhiều hài của tần số cơ bản. Ở ñầu ra của mỗi bộ lọc người ta sẽ có các bộ phát hiện và xác ñịnh
tần số cơ bản.
(a) Hãy xác ñịnh và giải thích cách lựa chọn F
1
và M sao cho hệ thống này có thể ñánh giá
ñược các tần số cơ bản trong khoảng 50 Hz < F
0
< 800 Hz
(b) Vẽ sơ ñồ khối của hệ thống này và giải thích nguyên lý làm việc của nó.

4. Mô hình thực tế của trở kháng bức xạ của tuyến âm cho bởi

( , ) ( ) ( , )
P Z U
Ω = Ω Ω
ℓ ℓ
ℓ ℓ
với
( )
r r
r r
j L R
Z
R j L

Ω =
+ Ω


trong ñó
( , )
P




( , )
U


lần lượt là áp suất và thông lượng tại môi. Giả thiết rằng tiết diện
của ống âm cơ bản ở ñầu cuối của tuyến âm (về phía môi) là A

n
. Ta có thể biểu diễn ñầu cuối của
tuyến âm theo sơ ñồ như sau












Hãy thiết lập quan hệ giữa các biến ñổi Fourier của
( )
n n
u t
τ

+

( )
n n
u t
τ
+




TrÔ


τ
n

TrÔ

τ
n

( )
n
u t
+
( )
n
u t

( )
n n
u t
τ

+
( )
n n
u t
τ

+

1
r
+

r


( , )
n n
u t


Trịnh Văn Loan – ðại học Bách khoa Hà Nội 2
5.
(a) Hình vẽ a) là dạng tín hiệu tiếng nói. Hãy cho biết ñây là tín hiệu ứng với âm hữu thanh
hay vô thanh. Vì sao ?
(b) Trước khi phân
tích phổ, dạng
tín hiệu a) có
thể ñược biến
ñổi thành b).
Cách biến ñổi
như thế nào và
biến ñổi như
vậy ñể làm gì ?
(c) Hình c) ñược
tính toán xuất
phát từ hình b).

Hình c) gồm
ñường nét
mảnh và ñường
nét ñậm.
ðường nét
mảnh là gì và
ñường nét ñậm
là gì ? Những
thông tin có
ñược từ hình vẽ
c) là gì ? Từ tín
hiệu hình b) có
thể thực hiện
biến ñổi thế
nào ñể có
ñường nét mảnh ? Cũng từ tín hiệu hình b) có bao nhiêu phương pháp ñể có ñường nét
ñậm ? Trình bày các phương pháp ñó.
(d) So sánh 2 hình vẽ c) và d) có thể thấy rằng ñường nét mảnh của 2 hình là như nhau
nhưng ñường nét ñậm của hình c) trơn hơn ñường nét ñậm của hình d). Từ các phương
pháp ñã nói ở mục 3), thay ñổi tham số nào sẽ dẫn ñến sự khác nhau này ?

6. Hàm truyền ñạt của bộ lọc hiệu chỉnh dùng trong xử lý tiếng nói có dạng H(z) = 1− az

1
với a
là hằng số.
(a) Xác ñịnh biểu thức ñáp ứng tần số của bộ lọc hiệu chỉnh
(b) Xác ñịnh và vẽ dạng ñáp ứng biên ñộ của bộ lọc hiệu chỉnh với a = 0,98.
(c) Viết phương trình sai phân cho quan hệ vào−ra của bộ lọc này.


7. Tín hiệu tại thanh môn thường ñược mô phỏng dựa trên biểu thức sau:
0
( )
0 0
n
na n
g n
n

=
<




trong ñó a là hằng số.

(a) Hãy xác ñịnh biến ñổi Z của g(n).
(b) Xác ñịnh biên ñộ biến ñổi Fourier của g(n), tức là
( )
j
G e
ω
.
(c) Cần phải chọn a như thế nào ñể cho:
0
20lg ( ) 20 lg ( ) 60
j j
G e G e dB
π

− =

0 200 400 600 800 1000
1200 ms
-0.2
0
0.2
0 200 400 600 800 1000 1200 ms
-0.2
0
0.2
a)
b)
0 2000 4000
-60
-40
-20
0
20
40
Hz 0 2000 4000
-60
-40
-20
0
20
40
Hz
c)
d)


Trịnh Văn Loan – ðại học Bách khoa Hà Nội 3

8. Các hình vẽ dưới ñây liên quan ñến các thao tác ñối với tín hiệu tiếng nói ở hình a).
(a) Hãy ñưa ra các thông tin thu nhận từ các hình này.
(b) Thao tác nào liên quan ñến các hình b), d), e), f). Giải thích các thao tác ñó.
































9. Phổ của một nguyên âm cho bởi hình vẽ dưới. Biết rằng tần số lấy mẫu bằng 10 kHz và tuyến
âm ứng với ống âm có tiết diện ñều. Hãy xác ñịnh các tần số formant, tần số cơ bản và giải thích
kết quả.









800

900

1000

1100

1200

1300


-
0.05

0

0.05

Hình a)

0

0.2

0.4

0.6

0.8

1

0

0.5

1

1.5


2

Hình b)

0

100

200

300

400

500

0

0.5

1

Hình c)

800

900

1000


1100

1200

1300

-0.02

-0.01

0

0.01

0.02

Hình d)

0

5

10

-1

-0.5

0


0.5

1

Hình e)

0

1000

2000

3000

4000

5000

-60

-40

-20

0

Frequency in Hz units

Decibels


Hình f)



Trịnh Văn Loan – ðại học Bách khoa Hà Nội 4

10. Hình vẽ dưới ñây biểu diễn cho các âm tiết tiếng Việt: “phòng”, “học”, “xuống”, “bằng”,
“ñóng”, “trang”, “mục”. Hãy cho biết ñây là các ñại lượng nào của tiếng nói và chọn ñoạn tín
hiệu tương ứng với các âm tiết này ñồng thời giải thích sự lựa chọn ñó. (Chú ý: các âm tiết
không xuất hiện trên hình theo ñúng thứ tự như ñã liệt kê)



11.
Xét hai hàm truyền ñạt G (z) và H (z) như sau:
ܩ

ݖ


1
1 െ 1,14ݖ
ିଵ
൅ 0,9025ݖ
ିଶ

ܪ

ݖ



1
1 ൅ 0,81ݖ
ିଶ

(a) Xác ñịnh các ñiểm cực, ñiểm không của hai hàm
này và vẽ trên mặt phẳng z
(b) Xét hai trường hợp ghép nối ܻ


ݖ

ൌ ܩ

ݖ

ܪ

ݖ

,
ܻ


ݖ

ൌ ܩ

ݖ


൅ ܪ

ݖ

. Tìm các ñiểm cực, ñiểm
không của Y
1
(z), Y
2
(z) và vẽ trên mặt phẳng z. Nếu
ñây là hai trường hợp tổng hợp formant thì nói rõ
ñó là các trường hợp nào ?
(c) Hãy chọn ra ñáp ứng biên ñộ của Y
1
(z), Y
2
(z) từ
H1a, H1b
và giải thích sự lựa chọn ñó. Trường hợp
nào của
H1a, H1b
gần hơn với mô hình AR? Tại
sao?









12. Cho tín hiệu tuần hoàn x(n)
x(n) = …+ 5
δ
(n) + 3
δ
(n-1) + 2
δ
(n-2) + 5
δ
(n-4) + 3
δ
(n-5) + 2
δ
(n-6) + 5
δ
(n-8)+
Hãy áp dụng phương pháp tự tương quan cải tiến và diễn giải từng bước ñể xác ñịnh chu kỳ T
0

của tín hiệu này. Biết chu kỳ lấy mẫu bằng 3 ms.


Frequency in pi units
-40

-
35

-

30

-
25

-20

-15

-10

-
5
0
0.2
0.4
0.6
0.8
1
0
H1b. Magnitude Response
0

0.2
0.4

0.6
0.8
1
-40

-35
-
30
-
25
-20
-15
-10
-5
0

Frequency in pi units
H1a.Magnitude Response

Trịnh Văn Loan – ðại học Bách khoa Hà Nội 5
1
Một số ñặc ñiểm ngữ âm
tiếng Việt
 Âm tắc: tiếng nổ, phát sinh do luồng khí từ phổi ñi ra bị cản trở hoàn
toàn, phải phá vỡ sự cản trở ñó ñể thoát ra.
 Âm xát: tiếng cọ xát, phát sinh do luồng không khí ñi ra bị cản trở
không hoàn toàn (chỉ bị khó khăn), phải lách qua một khe hở nhỏ và
trong khi thoát ra như vậy phải cọ xát vào thành của bộ máy phát
âm.
 Phụ âm bên: ñầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí,
buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má
mà ra ngoài tạo nên tiếng xát nhẹ (l).
 Luồng không khí thoát ra ngoài bị cản trở, tạo nên tiếng xát hay tiếng
nổ, dạng tín hiệu không tuần hoàn gọi là tiếng ñộng (ồn).
 Trong khi phát âm một số phụ âm, dây thanh cũng hoạt ñộng ñồng

thời tạo nên tiếng thanh.
 Phụ âm có tỉ lệ tiếng ñộng lớn hơn gọi là phụ âm ồn.
 Phụ âm có tỉ lệ tiếng thanh lớn hơn gọi là phụ âm vang.


32
th

thanh p t tr ch c,k,qu
Hu
thanh b ñ
m n nh ng,ngh
ph x s kh h
v d,gi r g
l
Xát
Bt hi
Vang mũi
Vô thanh
Hu thanh
Vang bên
n
Không bt
hi
n
Cui lưi Hng
Phưng thc cu âm
V trí cu âm ðu lưi
Môi Răng Vòm ming
Tc

Mt lưi
Một số ñặc ñiểm ngữ âm
tiếng Việt

Phân loại phụ âm theo tắc hay xát,
hữu thanh hay vô thanh, mũi hóa

Bài 1:






Bài 2:
Bài 3:



Bài 5 :

Câu a:
Đây là tín hiệu âm hữu thanh (thực ra nếu nhìn vào tín hiệu thì cũng ko phân biệt
được, nhưng dựa vào các hình sau có các formant và anti – formant nên có thể phân biệt
được.)
Câu b:
Từ a) biến đổi về b) sử dụng cửa sổ Hamming : tác dụng của nó là làm thon phần
đầu và cuối của mỗi khung, từ đó làm giảm tính gián đoạn của tín hiệu




Câu c:
- Hình c) có được sau khi áp dụng biển đổi DFT (hoặc FFT) vào tín hiệu ở hình b).
- Đường nét đậm là ceptre của tín hiệu, từ đường nét nhạt hình như chỉ là do tín
hiệu có dạng hình sin nên sinh ra như thế.
- Trên hình c) ta có các formant và anti – formant, trong đó F
0
là tần số cơ bản của
tín hiệu.
- Để tạo ra ceptre của tín hiệu, ta có các cách sau đây : (trình bày giống như trong
slide của thầy – hix, mặc dù ko hiểu mấy)
o Hàm tự tương quan : fonctione d’autorrelation
o Hàm vi sai trung bình ADMM
o Bộ lọc đảo (filtre inverser)
o Đồng hình (homomorphique)
Câu d :
Hình d có nét mịn hơn hình a, chú ý là khi áp dụng mô hình xử lý tiếng nói LPC
này, ta chấp nhận sai số do dùng FFT và FFT
-1
,
25
PrÐdiction LinÐaire
(Linear Prediction Coding)
PrÐdiction
PrÐdictionPrÐdiction
PrÐdiction

∑∑

=

==
=

−−
−−
−−
−=
==
=
p
1
i
i
)in(xa
ˆ
)n(xˆ
Erreur
Erreur Erreur
Erreur de
de de
de prÐdiction
prÐdictionprÐdiction
prÐdiction
)
n
(
x
ˆ
)
n

(
x
)
n
(
e

−−

=
==
=
Erreur quadratique totale
Erreur quadratique totaleErreur quadratique totale
Erreur quadratique totale

∑∑

=
==
=
n
2
)n(eE
Minimisation d
Minimisation dMinimisation d
Minimisation d’
’’
’erreur
erreurerreur

erreur
p, ,2,1i,0
a
ˆ
E
i
=
==
==
==
=

∂∂


∂∂


ModÌle tous
ModÌle tousModÌle tous
ModÌle tous-

-p
pp

««
«les
lesles
les
)n(u)in(xa)n(x

p
1
i
i
σ
σσ
σ=
==
=−
−−
−+
++
+

∑∑

=
==
=
2.
2.
T r ai t em en t du si gn al v ocal
T r ai t em en t du si gn al v ocal


Như vậy, để có được hình d, ta cần thay đổi các a
i
sao cho lỗi sai khác là nhỏ nhất.
Bài 6:



Bài 7:


Bài 8 :

Hình b là đồ thị hàm truyền đạt của bộ lọc hiệu chỉnh (filtre de préaccentuation),
đây là một bộ lọc thông thấp.
H(Z) = 1 – az
-1
với a = 0,95 0,98
Với tín hiệu của âm hữu thanh, phổ có xu hướng suy giảm -6db/octave khi tần số
tăng lên, do đó ta phải bù +6db/octave trên cả giải băng tần, bộ lọc hiệu chỉnh có tác dụng
làm cho tín hiệu trở nên đồng đều hơn. (Với âm vô thanh thì không cần hiệu chỉnh)
Hình c là đồ thị của hàm truyền đạt của cửa sổ Hamming




Cửa sổ này có tác dụng làm thon 2 đầu khung
Hình d là tín hiệu sau khi được xử lý bới cửa sổ
Hình e là tín hiệu được lấy mẫu với chu kì lấy mấu F
S
>= 2F
MAX
(theo định lý
Shannon), đảm bảo khi khôi phục tín hiệu không bị mất mát
Hình f là tín hiệu sau khi qua phép chuyển đổi FFT chuyển đổi từ miền thời gian
sang miền tần số. Với trục Nét đậm là ceptre của tín hiệu, có thể lấy được khi thực hiện
tiếp FFT

-1


Bài 9 :


Các F0, F1 F4 là các formant, thực ra chỉ quan tâm đến 5 formant đầu tiên.
F0 là tần số cơ bản của tín hiệu.
Các đỉnh thấp nhất là các anti – formant là các điểm tại đó tần số bị triệt tiêu

Bài 10:







−=
1
2
cos46.054.0)(
N
n
nw
π








×