Hà Nội - 2005/14
CHỈ MỤC VÀ TÌM KIẾM ÂM THANH
Bài 5
PGS.TS. Đặng Văn Đức
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Nội dung
Giới thiệu về tìm kiếm âm thanh
Các thuộc tính và đặc trưng chính của âm thanh
Phân lớp âm thanh
Nhận dạng và tìm kiếm tiếng nói
Chỉ số hóa và tìm kiếm âm nhạc
Chỉ mục và tìm kiếm thông tin đa phương tiện sử
dụng quan hệ giữa âm thanh và các media khác
Kết luận
2/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
1. Giới thiệu
Nhắc lại kiến trúc CSDL đa phương tiện
User
Multimedia Query Engine
Document Index Image Index Audio Index Video Index
Query
Answer
3/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Giới thiệu
Nhắc lại loại dữ liệu đa phương tiện
image
Once upon a time, there was a little
a
u
d
i
o
text
video
4/45
Giới thiệu
Nhắc lại biểu diễn tín hiệu số âm thanh
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Continuous
sound
pressure
wave
Microphone
Discrete
digital
samples
00111010101111100001101011
5/45
Giới thiệu
Nhắc lại tiến trình tìm kiếm dữ liệu đa phương tiện
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Câu truy vấn
Âm thanh
Đại diện
Âm thanh truy
vấn
Đại diện
Âm thanh
Xử lý Xử lý
Đánh giá mức độ
thích hợp và
phản hồi
Âm thanh truy vấn
Off-line
On-line
Đối sánh
(tính toán mức độ
tương đồng)
6/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Các tiệm cận tìm kiếm dữ liệu âm thanh
Tính chất chung của dữ liệu âm thanh
Dung lượng khổng lồ
Có chiều thời gian
Con người có thể phân biệt âm thanh
Loại âm thanh: Tiếng nói, âm nhạc, nhiễu
Tốc độ: Nhanh, chậm
Tâm trạng: Buồn, vui
Có thể xác định mức độ tương tự giữa hai đoạn âm thanh
Tìm kiếm âm thanh theo tiêu đề và tên tệp
Phụ thuộc chủ quan khi mô tả âm thanh -> không thỏa mãn yêu
cầu cụ thể của người sử dụng
Tìm kiếm âm thanh theo nội dung
Giải pháp đơn giản là đối sánh các giá trị mẫu -> không khả thi
Trên cơ sở đối sánh các đặc trưng trích chọn từ âm thanh
7/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tiệm cận tìm kiếm dữ liệu âm thanh
Phần lớn các ứng dụng đang có là tìm kiếm âm thanh
theo tên tệp
Không thỏa mãn người sử dụng
Tiệm cận tổng quát tìm kiếm âm thanh theo nội dung
Phân lớp âm thanh thành vài loại chung như tiếng nói, âm nhạc
và nhiễu.
Các loại âm thanh khác nhau được xử lý và chỉ mục theo cách
khác nhau.
Ví dụ âm thanh là tiếng nói thì có thể áp dụng kỹ thuật nhận dạng tiếng nói
sau đó tìm kiếm âm thanh thông qua tìm kiếm văn bản
Tìm kiếm đoạn âm thanh trên cơ sở tính tương đồng giữa đặc
trưng trong câu truy vấn và đặc trưng trong CSDL.
8/45
Trích trọn đặc trưng âm thanh
Sự cần thiết trích chọn đặc trưng âm thanh
Tín hiệu trong miền thời gian chứa đựng quá nhiều dữ liệu dư
thừa trong việc phân lớp âm thanh
Việc sử dụng các đặc trưng phù hợp là mấu chốt của
việc phân lớp âm thanh phục vụ tìm kiếm
Các đặc trưng tốt làm đơn giản hóa việc thiết kế môđun
phân lớp âm thanh trong MMDBMS
Vậy, sử dụng các đặc trưng âm thanh nào?
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh9/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
2. Thuộc tính và đặc trưng âm thanh
Hai loại chính biểu diễn tín hiệu âm thanh
Trong miền thời gian (thời gian - biên độ)
Trong miền tần số (tần số - âm lượng).
Các đặc trưng chủ yếu của âm thanh được trích chọn từ
hai loại biểu diễn này.
Biểu diễn trong miền thời gian hay thời gian - biên độ
Kỹ thuật trình diễn tín hiệu cơ bản: tín hiệu được biểu diễn như
biên độ biến đổi theo thời gian
Tính chất
Im lặng (câm) được biểu diễn bởi giá trị 0
Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao
hơn hay thấp hơn áp suất cân bằng khi im lặng.
Với 16 bít mã hóa mẫu audio: Giá trị tín hiệu sẽ trong khoảng từ 32767 đến
-32767.
10/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
2.1 Đặc trưng âm thanh trong miền thời gian
Thời gian (ms)
B
i
ê
n
đ
ộ
x(n)
11/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Năng lượng trung bình (Average Energy)
Năng lượng trung bình chỉ ra mức độ to-nhỏ của âm thanh.
Cách tính năng lượng trung bình E của đoạn âm thanh:
N – Tổng số mẫu trong đoạn âm thanh
x(n) - giá trị của mẫu n
12/45
N
nx
E
N
n
∑
−
=
=
1
0
2
)(
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Năng lượng thời gian ngắn (Short-time energy – STE)
Chia tín hiệu thành các frames, mỗi frame dài N mẫu
STE của mẫu thứ m được tính như sau
Hàm cửa sổ thời gian chữ nhật
Hàm cửa sổ thời gian Hamming
N – Tổng số mẫu trong frame
m – Mẫu thử thứ m
w(n) – Hàm cửa sổ thời gian ngắn
13/45
[ ]
2
1
)()(
∑
−+
=
−=
Nm
mn
m
mnwnxE
−≤≤
=
otherwise ,0
10 ,1
)(
Nn
nw
R
otherwise 0,
10
1
2
cos46,054,0
)(
−≤≤
−
−
=
Nn
N
n
nw
H
π
Đặc trưng âm thanh trong miền thời gian
Low short-time energy ratio (LSTER)
Qua thực nghiệm cho biết sự biến thiên năng lượng trung bình
của đoạn âm thanh được nhận biết rõ ràng hơn giá trị chính xác
của chúng
Đặc trưng LSTER được sử dụng hiệu quả để phân biệt tiếng nói
và âm nhạc
Các bước tính LSTER:
Tính năng lượng trung bình STE
cho các frames (cửa sổ) 20 ms
Trượt frame đi 10 ms
Tính LSTER cho các đoạn âm
thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh14/45
Đặc trưng âm thanh trong miền thời gian
Tính Low short-time energy ratio (LSTER)
LSTER được xác định bởi tỷ lệ tổng số các frames mà nó có năng
lượng thời gian ngắn (STE) nhỏ hơn 0,5 lần STE trung bình trong
cửa sổ 1s, như sau:
N – tổng số frames
STE(n) là năng lượng trung bình của frame thứ n
là STE trung bình trong cửa sổ 1s âm thanh
Tiếng nói có LSTER trong khoảng 0,15 đến 0,5
Âm nhạc có LSTER có giá trị thấp hơn 0,15.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh15/45
[ ]
∑
−
=
+−=
1
0
1))(5.0sgn(
2
1
N
n
nSTESTE
N
LSTER
STE
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Tốc độ vượt qua 0 (Zero Crossing Rate - ZCR)
Chỉ ra tần số biến đổi dấu tín hiệu hay tổng số lần tín hiệu thay
đổi dấu của đoạn âm thanh (tần số trung bình của tín hiệu).
Tính tốc độ vượt qua 0 của đoạn âm thanh ZCR:
sgn s(n) = 1 nếu s(n) dương,
sgn s(n) = -1 nếu s(n) có giá trị âm
16/45
N
nsns
ZCR
N
n
2
|)1(sgn)(sgn|
1
∑
=
−−
=
Đặc trưng âm thanh trong miền thời gian
Tỷ lệ tốc độ cao vượt qua 0 (HZCRR)
Tương tự LSTER, sự biến thiên ZCR của các đoạn âm thanh
được nhận biết rõ ràng hơn giá trị chính xác của chúng
Đặc trưng HZCRR (High Zero-crossing Rate Ratio) được sử
dụng để phân biệt tiếng nói và âm nhạc
Các bước tính HZCRR:
Tính ZCR cho các frames
(cửa sổ) 20 ms
Trượt frame đi 10 ms
HZCRR được tính cho các đoạn
âm thanh kích thước 1s.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh17/45
Đặc trưng âm thanh trong miền thời gian
Tính tỷ lệ tốc độ cao vượt qua 0 (HZCRR)
HZCRR được xác định bởi tỷ lệ các đoạn âm thanh với ZCR
cao hơn 1.5 lần ZCR trung bình trong cửa sổ 1s
n – chỉ số frame
ZCR(n) là tốc độ vượt qua 0 của frame thứ n
N tổng số frames
Sgn là hàm dấu
là ZCR trung bình của 1s
HZCRR của tiếng nói trong khoảng 0,15 âm nhạc có HZCRR
nhỏ hơn 0,1.
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
(IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 10, NO. 7, OCT. 2002)
18/45
[ ]
∑
−
=
+−=
1
0
1)5.1)(sgn(
2
1
N
n
ZCRnZCR
N
HZCRR
ZCR
Short time Energy and Zero-crossing rate
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh19/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền thời gian
Tỷ lệ câm (Silence Ratio)
Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm.
Chú ý hai ngưỡng câm: biên độ và thời gian
Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ
dài của đoạn âm thanh.
20/45
2.2 Đặc trưng âm thanh trong miền tần số
Biểu diễn âm thanh trong miền thời gian không thể hiện
được các thành phần tần số và phân bổ tần số của tín
hiệu âm thanh
Biểu diễn tín hiệu trong miền tần số bằng biến đổi Fourier
Tín hiệu được biểu diễn như sự biến đổi của biên độ theo tần số
(chỉ ra năng lượng tại các tần số khác nhau)
Biểu diễn miền tần số của tín hiệu được gọi là phổ của tín
hiệu (Spectrum).
Dễ dàng nhận biết
phân bổ năng lượng
theo dải tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Tần số (Hz)
Biên độ (dB)
21/45
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng trong miền tần số
f 3f 5f 7f
frequency
amplitude (năng lượng)
Time
Biến đổi Fourier
22/45
Ví dụ tín hiệu âm thanh trong miền tần số
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Musical Instrument
Pure tone
23/45
Phổ âm thanh
Tính toán phổ âm thanh trên cơ sở biến đổi DFT:
Tần số fk của bin k:
Tính IDFT:
Kỹ thuật STFT – Short time Fourier transform
Khi N rất lớn gặp khó khăn khi tính DFT.
Chia tín hiệu ra các frames, áp dụng DFT cho từng frames (10-
20ms).
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
x(n) - tín hiệu rời rạc
N – tổng số mẫu,
k - số DFT bin.
fs – tốc độ lấy mẫu của tín hiệu (Hz)
24/45
N
k
fff
s
k
sk
==
π
ω
2
∑
−
=
−
=
1
0
)()(
N
n
jn
k
enxkX
ω
N
k
k
π
ω
2
=
∑
−
=
=
1
0
)(
1
)(
N
k
jn
k
ekX
N
nx
ω
dvduc-2005/14Bài 5: Chỉ mục và tìm kiếm âm thanh
Đặc trưng âm thanh trong miền tần số
Phân bổ năng lượng (Energy Distribution)
Từ biểu đồ phổ tín hiệu dễ dàng nhận thấy phân bổ tín hiệu theo
các thành phần tần số.
Sử dụng phân bổ năng lượng để phân lớp âm thanh.
Âm nhạc thường có các thành phần tần số cao hơn tiếng nói.
Khải niệm “cao”, “thấp” phụ thuộc vào ứng dụng cụ thể
Tín hiệu tiếng nói ít khi vượt qua 7kHz
Băng tần thấp: Chứa các thành phần tần số dưới 7kHz
Băng tần cao: Các thành phần có từ 7kHz trở lên
Năng lượng của mỗi băng được tính bởi tổng năng lượng các
mẫu trong bang
Một đặc trưng quan trọng được tính từ phân bổ năng
lượng là trọng tâm phổ (Spectral centroid - Brightness)
Điểm giữa của phân bổ năng lượng phổ
Tiếng nói có trọng tâm phổ thấp hơn âm nhạc.
25/45