Tải bản đầy đủ (.pptx) (45 trang)

Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 45 trang )

Hà Nội - 2005/14
CHỈ MỤC VÀ TÌM KIẾM ÂM THANH
Bài 5
PGS.TS. Đặng Văn Đức

dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Nội dung

Giới thiệu về tìm kiếm âm thanh

Các thuộc tính và đặc trưng chính của âm thanh

Phân lớp âm thanh

Nhận dạng và tìm kiếm tiếng nói

Chỉ số hóa và tìm kiếm âm nhạc

Chỉ mục và tìm kiếm thông tin đa phương tiện sử
dụng quan hệ giữa âm thanh và các media khác

Kết luận
2/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
1. Giới thiệu

Nhắc lại kiến trúc CSDL đa phương tiện
User
Multimedia Query Engine
Document Index Image Index Audio Index Video Index
Query


Answer
3/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Giới thiệu

Nhắc lại loại dữ liệu đa phương tiện
image
Once upon a time, there was a little
a
u
d
i
o
text
video
4/45
Giới thiệu

Nhắc lại biểu diễn tín hiệu số âm thanh
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Continuous
sound
pressure
wave
Microphone
Discrete
digital
samples
00111010101111100001101011
5/45

Giới thiệu

Nhắc lại tiến trình tìm kiếm dữ liệu đa phương tiện
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Câu truy vấn
Âm thanh
Đại diện
Âm thanh truy
vấn
Đại diện
Âm thanh
Xử lý Xử lý
Đánh giá mức độ
thích hợp và
phản hồi
Âm thanh truy vấn
Off-line
On-line
Đối sánh
(tính toán mức độ
tương đồng)
6/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Các tiệm cận tìm kiếm dữ liệu âm thanh

Tính chất chung của dữ liệu âm thanh

Dung lượng khổng lồ

Có chiều thời gian


Con người có thể phân biệt âm thanh

Loại âm thanh: Tiếng nói, âm nhạc, nhiễu

Tốc độ: Nhanh, chậm

Tâm trạng: Buồn, vui

Có thể xác định mức độ tương tự giữa hai đoạn âm thanh

Tìm kiếm âm thanh theo tiêu đề và tên tệp

Phụ thuộc chủ quan khi mô tả âm thanh -> không thỏa mãn yêu
cầu cụ thể của người sử dụng

Tìm kiếm âm thanh theo nội dung

Giải pháp đơn giản là đối sánh các giá trị mẫu -> không khả thi

Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh
7/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tiệm cận tìm kiếm dữ liệu âm thanh

Phần lớn các ứng dụng đang có là tìm kiếm âm thanh
theo tên tệp

Không thỏa mãn người sử dụng


Tiệm cận tổng quát tìm kiếm âm thanh theo nội dung

Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc
và nhiễu.

Các loại âm thanh khác nhau được xử lý và chỉ mục theo cách
khác nhau.

Ví dụ âm thanh là tiếng nói thì có thể áp dụng kỹ thuật nhận dạng tiếng nói
sau đó tìm kiếm âm thanh thông qua tìm kiếm văn bản

Tìm kiếm đoạn âm thanh trên cơ sở tính tương đồng giữa đặc
trưng trong câu truy vấn và đặc trưng trong CSDL.
8/45
Trích trọn đặc trưng âm thanh

Sự cần thiết trích chọn đặc trưng âm thanh

Tín hiệu trong miền thời gian chứa đựng quá nhiều dữ liệu dư
thừa trong việc phân lớp âm thanh

Việc sử dụng các đặc trưng phù hợp là mấu chốt của
việc phân lớp âm thanh phục vụ tìm kiếm

Các đặc trưng tốt làm đơn giản hóa việc thiết kế môđun
phân lớp âm thanh trong MMDBMS

Vậy, sử dụng các đặc trưng âm thanh nào?
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh9/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh

2. Thuộc tính và đặc trưng âm thanh

Hai loại chính biểu diễn tín hiệu âm thanh

Trong miền thời gian (thời gian - biên độ)

Trong miền tần số (tần số - âm lượng).

Các đặc trưng chủ yếu của âm thanh được trích chọn từ
hai loại biểu diễn này.

Biểu diễn trong miền thời gian hay thời gian - biên độ

Kỹ thuật trình diễn tín hiệu cơ bản: tín hiệu được biểu diễn như
biên độ biến đổi theo thời gian

Tính chất

Im lặng (câm) được biểu diễn bởi giá trị 0

Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao
hơn hay thấp hơn áp suất cân bằng khi im lặng.

Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu sẽ trong khoảng từ 32767 đến
-32767.
10/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
2.1 Đặc trưng âm thanh trong miền thời gian
Thời gian (ms)
B

i
ê
n

đ

x(n)
11/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Năng lượng trung bình (Average Energy)

Năng lượng trung bình chỉ ra mức độ to-nhỏ của âm thanh.

Cách tính năng lượng trung bình E của đoạn âm thanh:
N – Tổng số mẫu trong đoạn âm thanh
x(n) - giá trị của mẫu n
12/45
N
nx
E
N
n


=
=
1
0

2
)(
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Năng lượng thời gian ngắn (Short-time energy – STE)

Chia tín hiệu thành các frames, mỗi frame dài N mẫu

STE của mẫu thứ m được tính như sau

Hàm cửa sổ thời gian chữ nhật

Hàm cửa sổ thời gian Hamming
N – Tổng số mẫu trong frame
m – Mẫu thử thứ m
w(n) – Hàm cửa sổ thời gian ngắn
13/45
[ ]
2
1
)()(

−+
=
−=
Nm
mn
m
mnwnxE




−≤≤
=
otherwise ,0
10 ,1
)(
Nn
nw
R

otherwise 0,
10
1
2
cos46,054,0
)(





−≤≤









=
Nn
N
n
nw
H
π
Đặc trưng âm thanh trong miền thời gian

Low short-time energy ratio (LSTER)

Qua thực nghiệm cho biết sự biến thiên năng lượng trung bình
của đoạn âm thanh được nhận biết rõ ràng hơn giá trị chính xác
của chúng

Đặc trưng LSTER được sử dụng hiệu quả để phân biệt tiếng nói
và âm nhạc

Các bước tính LSTER:

Tính năng lượng trung bình STE
cho các frames (cửa sổ) 20 ms

Trượt frame đi 10 ms

Tính LSTER cho các đoạn âm
thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh14/45

Đặc trưng âm thanh trong miền thời gian

Tính Low short-time energy ratio (LSTER)

LSTER được xác định bởi tỷ lệ tổng số các frames mà nó có năng
lượng thời gian ngắn (STE) nhỏ hơn 0,5 lần STE trung bình trong
cửa sổ 1s, như sau:

N – tổng số frames

STE(n) là năng lượng trung bình của frame thứ n

là STE trung bình trong cửa sổ 1s âm thanh

Tiếng nói có LSTER trong khoảng 0,15 đến 0,5

Âm nhạc có LSTER có giá trị thấp hơn 0,15.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh15/45
[ ]


=
+−=
1
0
1))(5.0sgn(
2
1
N
n

nSTESTE
N
LSTER
STE
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Tốc độ vượt qua 0 (Zero Crossing Rate - ZCR)

Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay
đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu).

Tính tốc độ vượt qua 0 của đoạn âm thanh ZCR:
sgn s(n) = 1 nếu s(n) dương,
sgn s(n) = -1 nếu s(n) có giá trị âm
16/45
N
nsns
ZCR
N
n
2
|)1(sgn)(sgn|
1

=
−−
=
Đặc trưng âm thanh trong miền thời gian


Tỷ lệ tốc độ cao vượt qua 0 (HZCRR)

Tương tự LSTER, sự biến thiên ZCR của các đoạn âm thanh
được nhận biết rõ ràng hơn giá trị chính xác của chúng

Đặc trưng HZCRR (High Zero-crossing Rate Ratio) được sử
dụng để phân biệt tiếng nói và âm nhạc

Các bước tính HZCRR:

Tính ZCR cho các frames
(cửa sổ) 20 ms

Trượt frame đi 10 ms

HZCRR được tính cho các đoạn
âm thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh17/45
Đặc trưng âm thanh trong miền thời gian

Tính tỷ lệ tốc độ cao vượt qua 0 (HZCRR)

HZCRR được xác định bởi tỷ lệ các đoạn âm thanh với ZCR
cao hơn 1.5 lần ZCR trung bình trong cửa sổ 1s

n – chỉ số frame

ZCR(n) là tốc độ vượt qua 0 của frame thứ n

N tổng số frames


Sgn là hàm dấu

là ZCR trung bình của 1s

HZCRR của tiếng nói trong khoảng 0,15 âm nhạc có HZCRR
nhỏ hơn 0,1.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
(IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 10, NO. 7, OCT. 2002)
18/45
[ ]


=
+−=
1
0
1)5.1)(sgn(
2
1
N
n
ZCRnZCR
N
HZCRR
ZCR
Short time Energy and Zero-crossing rate
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh19/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian


Tỷ lệ câm (Silence Ratio)

Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm.

Chú ý hai ngưỡng câm: biên độ và thời gian

Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ
dài của đoạn âm thanh.
20/45
2.2 Đặc trưng âm thanh trong miền tần số

Biểu diễn âm thanh trong miền thời gian không thể hiện
được các thành phần tần số và phân bổ tần số của tín
hiệu âm thanh

Biểu diễn tín hiệu trong miền tần số bằng biến đổi Fourier

Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số
(chỉ ra năng lượng tại các tần số khác nhau)

Biểu diễn miền tần số của tín hiệu được gọi là phổ của tín
hiệu (Spectrum).

Dễ dàng nhận biết
phân bổ năng lượng
theo dải tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tần số (Hz)
Biên độ (dB)

21/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng trong miền tần số
f 3f 5f 7f
frequency
amplitude (năng lượng)
Time
Biến đổi Fourier
22/45
Ví dụ tín hiệu âm thanh trong miền tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Musical Instrument
Pure tone
23/45
Phổ âm thanh

Tính toán phổ âm thanh trên cơ sở biến đổi DFT:

Tần số fk của bin k:

Tính IDFT:

Kỹ thuật STFT – Short time Fourier transform

Khi N rất lớn gặp khó khăn khi tính DFT.

Chia tín hiệu ra các frames, áp dụng DFT cho từng frames (10-
20ms).
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
x(n) - tín hiệu rời rạc

N – tổng số mẫu,
k - số DFT bin.
fs – tốc độ lấy mẫu của tín hiệu (Hz)
24/45
N
k
fff
s
k
sk
==
π
ω
2


=

=
1
0
)()(
N
n
jn
k
enxkX
ω
N
k

k
π
ω
2
=


=
=
1
0
)(
1
)(
N
k
jn
k
ekX
N
nx
ω
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số

Phân bổ năng lượng (Energy Distribution)

Từ biểu đồ phổ tín hiệu dễ dàng nhận thấy phân bổ tín hiệu theo
các thành phần tần số.


Sử dụng phân bổ năng lượng để phân lớp âm thanh.

Âm nhạc thường có các thành phần tần số cao hơn tiếng nói.

Khải niệm “cao”, “thấp” phụ thuộc vào ứng dụng cụ thể

Tín hiệu tiếng nói ít khi vượt qua 7kHz

Băng tần thấp: Chứa các thành phần tần số dưới 7kHz

Băng tần cao: Các thành phần có từ 7kHz trở lên

Năng lượng của mỗi băng được tính bởi tổng năng lượng các
mẫu trong bang

Một đặc trưng quan trọng được tính từ phân bổ năng
lượng là trọng tâm phổ (Spectral centroid - Brightness)

Điểm giữa của phân bổ năng lượng phổ

Tiếng nói có trọng tâm phổ thấp hơn âm nhạc.
25/45

×