Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 45 trang )

Hà Nội - 2005/14
CHỈ MỤC VÀ TÌM KIẾM ÂM THANH
Bài 5
PGS.TS. Đặng Văn Đức

dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Nội dung

Giới thiệu về tìm kiếm âm thanh

Các thuộc tính và đặc trưng chính của âm thanh

Phân lớp âm thanh

Nhận dạng và tìm kiếm tiếng nói

Chỉ số hóa và tìm kiếm âm nhạc

Chỉ mục và tìm kiếm thông tin đa phương tiện sử
dụng quan hệ giữa âm thanh và các media khác

Kết luận
2/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
1. Giới thiệu

Nhắc lại kiến trúc CSDL đa phương tiện
User
Multimedia Query Engine
Document Index Image Index Audio Index Video Index
Query

Answer
3/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Giới thiệu

Nhắc lại loại dữ liệu đa phương tiện
image
Once upon a time, there was a little
a
u
d
i
o
text
video
4/45
Giới thiệu

Nhắc lại biểu diễn tín hiệu số âm thanh
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Continuous
sound
pressure
wave
Microphone
Discrete
digital
samples
00111010101111100001101011
5/45

Giới thiệu

Nhắc lại tiến trình tìm kiếm dữ liệu đa phương tiện
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Câu truy vấn
Âm thanh
Đại diện
Âm thanh truy
vấn
Đại diện
Âm thanh
Xử lý Xử lý
Đánh giá mức độ
thích hợp và
phản hồi
Âm thanh truy vấn
Off-line
On-line
Đối sánh
(tính toán mức độ
tương đồng)
6/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Các tiệm cận tìm kiếm dữ liệu âm thanh

Tính chất chung của dữ liệu âm thanh

Dung lượng khổng lồ

Có chiều thời gian


Con người có thể phân biệt âm thanh

Loại âm thanh: Tiếng nói, âm nhạc, nhiễu

Tốc độ: Nhanh, chậm

Tâm trạng: Buồn, vui

Có thể xác định mức độ tương tự giữa hai đoạn âm thanh

Tìm kiếm âm thanh theo tiêu đề và tên tệp

Phụ thuộc chủ quan khi mô tả âm thanh -> không thỏa mãn yêu
cầu cụ thể của người sử dụng

Tìm kiếm âm thanh theo nội dung

Giải pháp đơn giản là đối sánh các giá trị mẫu -> không khả thi

Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh
7/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tiệm cận tìm kiếm dữ liệu âm thanh

Phần lớn các ứng dụng đang có là tìm kiếm âm thanh
theo tên tệp

Không thỏa mãn người sử dụng


Tiệm cận tổng quát tìm kiếm âm thanh theo nội dung

Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc
và nhiễu.

Các loại âm thanh khác nhau được xử lý và chỉ mục theo cách
khác nhau.

Ví dụ âm thanh là tiếng nói thì có thể áp dụng kỹ thuật nhận dạng tiếng nói
sau đó tìm kiếm âm thanh thông qua tìm kiếm văn bản

Tìm kiếm đoạn âm thanh trên cơ sở tính tương đồng giữa đặc
trưng trong câu truy vấn và đặc trưng trong CSDL.
8/45
Trích trọn đặc trưng âm thanh

Sự cần thiết trích chọn đặc trưng âm thanh

Tín hiệu trong miền thời gian chứa đựng quá nhiều dữ liệu dư
thừa trong việc phân lớp âm thanh

Việc sử dụng các đặc trưng phù hợp là mấu chốt của
việc phân lớp âm thanh phục vụ tìm kiếm

Các đặc trưng tốt làm đơn giản hóa việc thiết kế môđun
phân lớp âm thanh trong MMDBMS

Vậy, sử dụng các đặc trưng âm thanh nào?
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh9/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh

2. Thuộc tính và đặc trưng âm thanh

Hai loại chính biểu diễn tín hiệu âm thanh

Trong miền thời gian (thời gian - biên độ)

Trong miền tần số (tần số - âm lượng).

Các đặc trưng chủ yếu của âm thanh được trích chọn từ
hai loại biểu diễn này.

Biểu diễn trong miền thời gian hay thời gian - biên độ

Kỹ thuật trình diễn tín hiệu cơ bản: tín hiệu được biểu diễn như
biên độ biến đổi theo thời gian

Tính chất

Im lặng (câm) được biểu diễn bởi giá trị 0

Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao
hơn hay thấp hơn áp suất cân bằng khi im lặng.

Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu sẽ trong khoảng từ 32767 đến
-32767.
10/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
2.1 Đặc trưng âm thanh trong miền thời gian
Thời gian (ms)
B

i
ê
n

đ
ộ
x(n)
11/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Năng lượng trung bình (Average Energy)

Năng lượng trung bình chỉ ra mức độ to-nhỏ của âm thanh.

Cách tính năng lượng trung bình E của đoạn âm thanh:
N – Tổng số mẫu trong đoạn âm thanh
x(n) - giá trị của mẫu n
12/45
N
nx
E
N
n
∑
−
=
=
1
0

2
)(
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Năng lượng thời gian ngắn (Short-time energy – STE)

Chia tín hiệu thành các frames, mỗi frame dài N mẫu

STE của mẫu thứ m được tính như sau

Hàm cửa sổ thời gian chữ nhật

Hàm cửa sổ thời gian Hamming
N – Tổng số mẫu trong frame
m – Mẫu thử thứ m
w(n) – Hàm cửa sổ thời gian ngắn
13/45
[ ]
2
1
)()(
∑
−+
=
−=
Nm
mn
m
mnwnxE




−≤≤
=
otherwise ,0
10 ,1
)(
Nn
nw
R

otherwise 0,
10
1
2
cos46,054,0
)(





−≤≤







−
−
=
Nn
N
n
nw
H
π
Đặc trưng âm thanh trong miền thời gian

Low short-time energy ratio (LSTER)

Qua thực nghiệm cho biết sự biến thiên năng lượng trung bình
của đoạn âm thanh được nhận biết rõ ràng hơn giá trị chính xác
của chúng

Đặc trưng LSTER được sử dụng hiệu quả để phân biệt tiếng nói
và âm nhạc

Các bước tính LSTER:

Tính năng lượng trung bình STE
cho các frames (cửa sổ) 20 ms

Trượt frame đi 10 ms

Tính LSTER cho các đoạn âm
thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh14/45

Đặc trưng âm thanh trong miền thời gian

Tính Low short-time energy ratio (LSTER)

LSTER được xác định bởi tỷ lệ tổng số các frames mà nó có năng
lượng thời gian ngắn (STE) nhỏ hơn 0,5 lần STE trung bình trong
cửa sổ 1s, như sau:

N – tổng số frames

STE(n) là năng lượng trung bình của frame thứ n

là STE trung bình trong cửa sổ 1s âm thanh

Tiếng nói có LSTER trong khoảng 0,15 đến 0,5

Âm nhạc có LSTER có giá trị thấp hơn 0,15.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh15/45
[ ]
∑
−
=
+−=
1
0
1))(5.0sgn(
2
1
N
n

nSTESTE
N
LSTER
STE
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian

Tốc độ vượt qua 0 (Zero Crossing Rate - ZCR)

Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay
đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu).

Tính tốc độ vượt qua 0 của đoạn âm thanh ZCR:
sgn s(n) = 1 nếu s(n) dương,
sgn s(n) = -1 nếu s(n) có giá trị âm
16/45
N
nsns
ZCR
N
n
2
|)1(sgn)(sgn|
1
∑
=
−−
=
Đặc trưng âm thanh trong miền thời gian


Tỷ lệ tốc độ cao vượt qua 0 (HZCRR)

Tương tự LSTER, sự biến thiên ZCR của các đoạn âm thanh
được nhận biết rõ ràng hơn giá trị chính xác của chúng

Đặc trưng HZCRR (High Zero-crossing Rate Ratio) được sử
dụng để phân biệt tiếng nói và âm nhạc

Các bước tính HZCRR:

Tính ZCR cho các frames
(cửa sổ) 20 ms

Trượt frame đi 10 ms

HZCRR được tính cho các đoạn
âm thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh17/45
Đặc trưng âm thanh trong miền thời gian

Tính tỷ lệ tốc độ cao vượt qua 0 (HZCRR)

HZCRR được xác định bởi tỷ lệ các đoạn âm thanh với ZCR
cao hơn 1.5 lần ZCR trung bình trong cửa sổ 1s

n – chỉ số frame

ZCR(n) là tốc độ vượt qua 0 của frame thứ n

N tổng số frames


Sgn là hàm dấu

là ZCR trung bình của 1s

HZCRR của tiếng nói trong khoảng 0,15 âm nhạc có HZCRR
nhỏ hơn 0,1.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
(IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 10, NO. 7, OCT. 2002)
18/45
[ ]
∑
−
=
+−=
1
0
1)5.1)(sgn(
2
1
N
n
ZCRnZCR
N
HZCRR
ZCR
Short time Energy and Zero-crossing rate
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh19/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian


Tỷ lệ câm (Silence Ratio)

Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm.

Chú ý hai ngưỡng câm: biên độ và thời gian

Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ
dài của đoạn âm thanh.
20/45
2.2 Đặc trưng âm thanh trong miền tần số

Biểu diễn âm thanh trong miền thời gian không thể hiện
được các thành phần tần số và phân bổ tần số của tín
hiệu âm thanh

Biểu diễn tín hiệu trong miền tần số bằng biến đổi Fourier

Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số
(chỉ ra năng lượng tại các tần số khác nhau)

Biểu diễn miền tần số của tín hiệu được gọi là phổ của tín
hiệu (Spectrum).

Dễ dàng nhận biết
phân bổ năng lượng
theo dải tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tần số (Hz)
Biên độ (dB)

21/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng trong miền tần số
f 3f 5f 7f
frequency
amplitude (năng lượng)
Time
Biến đổi Fourier
22/45
Ví dụ tín hiệu âm thanh trong miền tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Musical Instrument
Pure tone
23/45
Phổ âm thanh

Tính toán phổ âm thanh trên cơ sở biến đổi DFT:

Tần số fk của bin k:

Tính IDFT:

Kỹ thuật STFT – Short time Fourier transform

Khi N rất lớn gặp khó khăn khi tính DFT.

Chia tín hiệu ra các frames, áp dụng DFT cho từng frames (10-
20ms).
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
x(n) - tín hiệu rời rạc

N – tổng số mẫu,
k - số DFT bin.
fs – tốc độ lấy mẫu của tín hiệu (Hz)
24/45
N
k
fff
s
k
sk
==
π
ω
2
∑
−
=
−
=
1
0
)()(
N
n
jn
k
enxkX
ω
N
k

k
π
ω
2
=
∑
−
=
=
1
0
)(
1
)(
N
k
jn
k
ekX
N
nx
ω
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số

Phân bổ năng lượng (Energy Distribution)

Từ biểu đồ phổ tín hiệu dễ dàng nhận thấy phân bổ tín hiệu theo
các thành phần tần số.


Sử dụng phân bổ năng lượng để phân lớp âm thanh.

Âm nhạc thường có các thành phần tần số cao hơn tiếng nói.

Khải niệm “cao”, “thấp” phụ thuộc vào ứng dụng cụ thể

Tín hiệu tiếng nói ít khi vượt qua 7kHz

Băng tần thấp: Chứa các thành phần tần số dưới 7kHz

Băng tần cao: Các thành phần có từ 7kHz trở lên

Năng lượng của mỗi băng được tính bởi tổng năng lượng các
mẫu trong bang

Một đặc trưng quan trọng được tính từ phân bổ năng
lượng là trọng tâm phổ (Spectral centroid - Brightness)

Điểm giữa của phân bổ năng lượng phổ

Tiếng nói có trọng tâm phổ thấp hơn âm nhạc.
25/45

Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm âm thanh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về