Tải bản đầy đủ (.ppt) (27 trang)

Đề tài “nhận dạng giọng nói bằng mạng neural hồi quy”

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (309.74 KB, 27 trang )

Đề tài: “Nhận dạng giọng nói
bằng mạng Neural hồi quy”

BÁO CÁO ĐỒ ÁN TỐT NGHIỆP
Đăt vấn đề (1/2)

Mọi người có thể dễ dàng hiểu được người khác nói gì và
có thể chỉ cần nghe giọng nói là có thể phân biệt được đó
là ai.

Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm
được điều này là vô cùng khó khăn.

Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công
nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa,
nhận dạng tiếng nói, chuyển lời nói thành văn bản,
chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên
cứu trọng điểm được nhiều nhà khoa học quan tâm ở các
lĩnh vực khác nhau như tin học, toán học, điều khiển, điện
tử, sinh học…
2/26
Đăt vấn đề (2/2)

Trong thời gian gần đây, các nhà nghiên cứu đang tập trung
vào công nghệ nhận dạng giọng nói và đã có một số thành công
đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví
dụ như các phần mềm Via Voice Gold của hãng IBM, Speech
SDK của Microsoft, Dragon Natural Speaking của Dragon
System.

Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh


vực nhận dạng giọng nói (Speech Recognition) trên cơ sở
lý thuyết các hệ thống thông minh nhân tạo và cũng đã có
những thành công nhất định.
3/26
Mục đích – Yêu cầu (1/1)

Mục đích:

Trên cơ sở những phương pháp đã được sử dụng để
nhận dạng tiếng nói của một số nước như tiếng anh,
tiếng arập…, nghiên cứu thử nghiệm đối với Tiếng
việt.

Yêu cầu:

Nghiên cứu, tìm hiểu mạng neural và cấu trúc ngôn
ngữ Tiếng việt.

Xây dựng chương trình nhận dạng 10 chữ số và một
số nút lệnh cơ bản như thêm, sữa, xóa…
4/26
Nội dung báo cáo (1/1)

Tổng quan về hệ thống nhận dạng giọng
nói và cấu trúc ngôn ngữ Tiếng việt.

Kỹ thuật phân tích dữ liệu giọng nói

Mạng Neural cho nhận dạng giọng nói


Cài đặt chương trình và đánh giá kết quả
5/26
I. Tổng quan về hệ thống nhận
dạng giọng nói (1/3)

Nhận dạng giọng nói là quá trình thu nhận và xử lý tín
hiệu giọng nói nhằm mục đích nhận biết nội dung văn
bản của nó.

Quá trình phát âm của con người là giống nhau
nhưng tiếng nói của các nước khác nhau thì có
những điểm chung và khác.

Chính điểm khác nhau này là yếu tố quan trọng để có
thể nhận dạng tốt được các loại tiếng nói của các
nước.
6/26
I. Tổng quan về hệ thống nhận
dạng tiếng nói (2/3)

Âm tiếng việt tương đối tách biệt.

Tương đối nhất quán trong cách phát âm và cách viết

Âm tiết là đơn vị phát âm nhỏ nhất.

Âm tiết bao gồm nhiều yếu tố đoạn tính và các yếu tố
siêu đoạn tính.

Đặc điểm riêng của Tiếng việt là đơn âm và mang

thanh điệu.
7/26
I. Tổng quan về hệ thống nhận
dạng tiếng nói (3/3)

Các hướng nghiên cứu nhận dạng tiếng nói

Sử dụng tập mẫu

Sử dụng mô hình thống kê

Sử dụng mạng Neural nhân tạo
8/26
1. Trích rút tham số

Tiền xử lý

Trích chọn tham số LP (Linear Prediction)

Chuyển đổi LP thành LSP (Line Spectral Pair)

Chuyển đổi LSP thành LSF (Line Spectral
Frequency)
2. Thuật toán VAD (Voice Activity Detection)
II. Kỹ thuật phân tích dữ liệu
tiếng nói (1/1)
9/26
Trích rút tham số (1/7)
1. Tiền xử lý
Tín hiệu ban đầu được cho qua bộ lọc

thông cao với tần số cắt 140Hz.
21
21
1
9114024.09059465.11
46363718.092724705.046363718.0
)(
−−
−−
+−
+−
=
zz
zz
zH
h
(1.1)
10/26
Trích rút tham số (2/7)
2. Trích rút tham số LP

Tín hiệu được chia thành các khung 240 mẫu (tương
ứng với 30ms) được dùng để phân tích LP.

Hàm cửa sổ hóa dùng cho phân tích LP
11/26








=

=
=
239, ,200)
159
)200(2
cos(
199, ,0n )
399
n2
0.46cos(-0.54
(n)W
p
n
n
l
π
π
(1.2)
Trích rút tham số (3/7)
2. Trích rút tham số LP
Tín hiệu giọng nói đã được cửa sổ hóa:

=
=−=
239

10, ,0)(')(')(
kn
kknsnskr
(1.3)
(1.4)
12/26
239, ,0),()(W)(
lp
'
==
nnSnnS
được sử dụng để tính hệ số tương quan:
Các hệ số tương quan sau đó được chỉnh sửa:
)0(0001.1)0(
'
rr
=
10, ,1),()()(
'
==
kkrkwkr
lag
(1.5)
Trong đó:
10, ,1
2
2
1
exp)(
2

0
=
















−=
k
f
kf
kW
s
lag
π
Trích rút tham số (4/7)
2. Trích rút Tham số LP
Các hệ số tự tương quan đã biến đổi r’(k) được
sử dụng để thu được các hệ số lọc LP a

i
, i=0,…,10 từ
các phương trình:
Các phương trình trên được giải bằng thuật toán
Levinson-Durbin.

=
=−=−
10
10, ,1)('|)(|'
i
i
kkrkira
(1.6)
13/26
Trích rút tham số (5/7)
3. Chuyển đổi LP thành LSP

Các hệ số LSP là nghiệm của tổng các đa thức

Nghiệm của các đa thức tạo thành một chu trình và
luân phiên nhau. (1.7) có nghiệm z=-1, (1.8) có nghiệm
z=0. Loại hai nghiệm này ta có đa thức mới:
)()()(
111'
1
−−
+=
zAzzAzF
)()()(

111'
2
−−
−=
zAzzAzF
(1.7)
(1.8)
)1/()()(
1'
11

+=
zzFzF
)1/()()(
1'
22

−=
zzFzF
(1.9)
(1.10)
14/26
Trích rút tham số (6/7)

Mỗi đa thức có 5 nghiệm liên hợp trên đường tròn
đơn vị . Ta có thể viết lại:

Trong đó:

Do (1.11) và (1.12) đối xứng nên chúng ta chỉ cần tính

toán 5 hệ số đầu tiên của mỗi đa thức.
)cos(
ii
q
ω
=
πωωω
<<<<<
1021
0

=
−−
+−=
10, ,4,2
21
2
21)(
i
i
zzqzF

=
−−
+−=
9, ,3,1
21
1
21)(
i

i
zzqzF
(1.11)
(1.12)
15/26
Trích rút tham số (7/7)
4. Chuyển đổi LSP thành LSF

10 hệ số LSP được chuyển đổi thành 10 hệ số LSF
10, ,1)arccos(
==
iq
ii
ω
(1.13)
16/26
Thuật Toán VAD (1/4)

Thuật toán VAD được dùng để tách phần nhiễu nền,
lấy phần dữ liệu có hoạt động của tiếng nói.

Các bước của thuật toán:
1. Trích rút 4 tham số từ tín hiệu đầu vào
2. Tính toán độ lệch của các tham số
3. Quyết định vùng hoạt động giọng nói
17/26
Thuật Toán VAD (2/4)
1. Trích rút tập tham số

Năng lượng băng thông cao:


Năng lượng băng thông thấp:

Tỉ lệ điểm cắt không:

Tần số phổ vạch là 10 tham số LSF

Nếu E
f
>=15db thì chuyển sang bước 2, ngược lại khung này là
nhiễu






=
)0(
1
log.10
10
R
N
E
f







=
Rhh
N
E
T
l
1
log.10
10
[ ] [ ][ ]


=
−−=
1
0
|)1(sgn)(sgn|
2
1
M
i
ixix
M
ZC
(2.1)
(2.2)
(2.3)
18/26

Thuật Toán VAD (3/4)
2. Tính độ lệch các tham số

Sự méo quang phổ

Độ lệch dải năng lượng đầy

Độ lệch dải năng lượng
thấp

Độ lệch qua điểm cắt không
( )

S LSFi LSF
i
i
p
= −
=

2
1

E E E
f
f
f
= −
l
l

l
EEE
−=∆

ZC ZC ZC
= −
(2.4)
(2.5)
(2.6)
(2.7)
19/26
Thuật toán VAD (4/4)
3. Quyết định vùng hoạt động giọng nói
1 1
1 1
) if then
∆ ∆
S a ZC b I
VD
> ⋅ + =
2 1
2 2
) if then
∆ ∆
S a ZC b I
VD
> ⋅ + =
3 1
3 3
) if then

∆ ∆
E a ZC b I
f VD
< ⋅ + =
4 1
4 4
) if then
∆ ∆
E a ZC b I
f VD
< ⋅ + =
1thenif)5
5
=<∆
VDf
IbE
1thenif)6
66
=+∆⋅<∆
VDf
IbSaE
1thenif)7
7
=>∆
VD
IbS
8 1
8 8
) if then I
∆ ∆

E a ZC b
l VD
< ⋅ + =
9 1
9 9
) if then I
∆ ∆
E a ZC b
l VD
< ⋅ + =
10 1
10
) if then I

E b
l VD
< =
11 1
11 11
) if then I
∆ ∆
E a S b
l VD
< ⋅ + =
12 1
12 12
) if then I
∆ ∆
E a E b
l f VD

> ⋅ + =
1 then if )13
1313
=+∆⋅<∆
VDfl
IbEaE
14 1
14 14
) if then I
∆ ∆
E a E b
l f VD
< ⋅ + =
20/26
III. Mạng Neural hồi quy (1/3)

Mạng Haming

Là mạng hồi quy đơn giản nhất.

Ý tưởng: quyết định xem vectơ nguyên mẫu nào gần
với vectơ đầu vào nhất. Quyết định này được thực
hiện ở lớp hồi quy, khi lớp hồi quy hội tụ chỉ có một
neural thắng cuộc và neural đó biểu thị vectơ nguyên
mẫu gần với đầu vào nhất.
21/26
III. Mạng Neural hồi quy
(2/3)

Cấu trúc mạng

22/26
III. Mạng Neural hồi quy
(3/3)

Luật học của mạng Haming

Lớp hồi quy là một lớp thi đấu, do vậy có thể áp dụng
luật học thi đấu cho mạng Haming

Luật học Kohonen:
*
)),1()(()1()( iiqWqPqWqW
iii
=−−+−=
α
*
),1()( iiqWqW
ii
≠−=
(3.1)
(3.2)
23/26
IV. Kết quả đạt được (1/3)

Sơ đồ logic chương trình
24/26
IV. Kết quả đạt được (2/3)

Kết quả đạt được


Chương trình đã thử nghiệm nhận dạng được 10 chữ số
và 12 nút lệnh. Có thể nhận dạng từ file hoặc thu âm.

Trong điều kiện ít nhiễu, có thể nhận dạng các từ phát
âm rời rạc chính xác đến trên 98%

Đã thử nghiệm nhận dạng phát âm liên tục và kết quả
rất khả quan.

Chương trình có thể nhận dạng trực tuyến, tức là đọc
đến đâu nhận dạng đến đó.

Giao diện thuận tiện trong việc học nếu nhận dạng sai.
25/26

×