Tải bản đầy đủ (.ppt) (14 trang)

Tài liệu Cơ sở dữ liệu audio video ảnh docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (667.2 KB, 14 trang )

International Research Center MICA
Multimedia, Information, Communication & Applications
UMI 2954
Hanoi University of Technology
1 Dai Co Viet - Hanoi - Vietnam
Cơ sở dữ liệu audio
Le Thi Lan
MICA
MICA
2010
2
Ngữ cảnh

Cơ sở dữ liệu tiếng nói
2
Broadcast News Podcasts Academic Lectures
Nhận dạng tiếng nói
Tìm kiếm văn bản tiếng nói
MICA
2010
3
Nhận dạng tiếng nói

Đưa ra câu gần giống nhất với đầu vào
O

O được xem như một dãy quan sát

O = o
1
,o


2
,o
3
,…,o
t

Xác định dãy các từ W = w
1
,w
2
,w
3
,…,w
n

)|(maxarg
ˆ
OWPW
LW∈
=
)()|(maxarg
ˆ
WPWOPW
LW∈
=
)(
)()|(
maxarg
ˆ
OP

WPWOP
W
LW∈
=
Luật Bayes
Luật vàng
MICA
2010
4
Kiến trúc của hệ thống nhận dạng tiếng
nói
Feature
Extraction
Decoding
Acoustic
Model
Pronunciation
Model
Language
Model
Speech Signals
Word Sequence
Network
Construction
Speech
DB
Text
Corpora
HMM
Estimation

G2P
LM
Estimation
)()|(maxarg
ˆ
WPWOPW
LW∈
=
W
O
MICA
2010
5
Trích chọn đặc trưng

Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients
(MFCC)

Kích thước của cửa sổ : 25ms / Tốc độ : 10ms
Preemphasis/
Hamming
Window
FFT
(Fast Fourier
Transform)
Mel-scale
filter bank
log|.|
DCT
(Discrete Cosine

Transform)
MFCC
(12-Dimension)
X(n)
25 ms
10ms
. . .
a1

a2

a3

×