Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (557.85 KB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

TÀO NGỌC BIÊN

ĐỀ TÀI:
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG
TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊ
CH
THANH HÓA

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2012

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS. TS ĐẶNG VĂN ĐỨC

Phản biện 1: ……………………………………………………………………………

Phản biện 2: …………………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1

MỞ

ĐẦU

Cùng

với

sự

phát

triển

của

Công

nghệ

thông

tin

thì

khối

lượng

dữ

liệu

đa
phương tiện được thu thập và lưu trữ ngày càng nhiều dẫn tới việc tìm kiếm dữ liệu
đa phương tiện trở nên khó khăn. Do đó cần có các hệ thống tìm kiếm thông tin hỗ
trợ người sử dụng tìm kiếm một cách chính xác và nhanh chóng các thông tin mà họ
cần từ kho dữ liệu khổng lồ này.
Hiện nay có một số hệ thống tìm kiếm như Google, Yahoo, MSN, DTSearch,
Lucene,

tuy nhiên

các

hệ

thống

này sử

dung

các

kỹ thuật

tìm

kiếm

đơn

giản

nên
hiệu quả còn chưa cao. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ
thuật nâng cao tìm kiếm thông tin, cụ thể ở đây là tìm kiếm âm nhạc theo nội dung
trong

cơ

sở

dữ

liệu

đa

phương

tiện

nhằm

đáp

ứng

nhu

cầu

cấp

thiết

của

thời

đại
bùng nổ thông tin điện tử hiện nay đồng thời ứng dụng vào trường đại học Văn hóa,
Thể thao và Du lịch Thanh Hóa.
Con

người

có

khả

năng

phân

biệt

các

kiểu

âm thanh.

Cho

trước

một

đoạn

âm
thanh, ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh
hay chậm), tâm trạng (vui, buồn ) và xác định được tính tương đồng với đoạn âm
thanh khác. Tuy nhiên, máy tính coi đoạn âm thanh như dãy giá trị mẫu. Cho đến
hiện tại, phương pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và
tên tệp. Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm
ra đoạn âm thanh thõa mãn người sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy
tìm

này

không

hỗ

trợ

câu

truy

vấn

như

“tìm

đoạn

âm

thanh

tương

tự

đoạn

đang
nghe” (truy vấn theo thí dụ).
Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung là
cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu
với mẫu giữa câu truy vấn và đoạn âm thanh lưu trữ. Tiệm cận này sẽ không hoạt
động tốt vì tín hiệu âm thanh biến đổi và các đoạn âm thanh khác nhau có thể biểu
diễn với tốc độ mẫu khác nhau và có thể sử dụng tổng số bit lấy mẫu khác nhau. Do

vậy, truy tìm âm thanh trên cơ sở nội dung được thực hiện trên cơ sở tập các đặc
tính âm thanh được trích chọn như cường độ trung bình hay phân bổ tần số.
2

Nhận thấy những tiện

ích Cơ sở dữ liệu đa phương tiện cũng như

việc tìm
kiếm âm nhạc trên cơ sở nội dung, em lựa chọn và thực hiện đề tài “Tìm kiếm âm
nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du
lịch Thanh Hóa”

nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật
tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng.
Cấu

trúc

luận

văn

Chơng

1:

Tổng

quan

về

Cơ

sở

dữ

liệu

âm

thanh

- Tình hình nghiên cứu trong và ngoài nước về CSDL đa phương tiện
- Giới thiệu chung về hệ thống thông tin đa phương tiện.
- Tổng quan về hệ quản trị CSDL đa phương tiện.

- Các kỹ thuật chủ yếu tìm kiếm âm thanh trong cơ sở dữ liệu.

- Các nguyên lý chung thiết kế cơ sở dữ liệu âm thanh

- Tiến trình tìm kiếm dữ liệu Đa phương tiện

- Các giai đoạn phát triển MDBMS

Chơng

2:

Kỹ

thuật

tìm

kiếm

cơ

sở

dữ

liệu

âm

nhạc

- Đặc trưng chính của âm thanh
- Phân lớp âm thanh
- Chỉ số hóa và truy tìm âm nhạc
- Kỹ thuật đối sánh trong cơ sở dữ liệu âm thanh
Chơng

3:

Phát

triển

hệ

thống

thử

nghiệm

ứng

dụng

tại

trờng

Đại

học

Văn

hóa,

Thể

thao

và

Du

lịch

Thanh

Hóa

- Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy
- Trình bày các thuật toán tìm kiếm âm thanh theo nội dung.
- Phân tích, thiết kế, xây dựng và cài đặt thử nghiệm
Kết

luận

và

hớng

phát

triển
3

Chơng

1

-

TỔNG

QUAN

VỀ

CƠ

SỞ

DỮ

LIỆU

ÂM

THANH

1.1

Tình

hình

nghiên

cứu

trong

và

ngoài

nớc

về

Cơ

sở

dữ

liệu

đa

phơng

tiện

1.2

Tổng

quan

về

hệ

quản

trị

CSDL

đa

phơng

tiện.

Trung tâm của một hệ thống thông tin đa phương tiện

chính là hệ quản trị
CSDL đa phương tiện (MDBMS - Multimedia Database Management System). Một
CSDL MM là một tập các loại dữ liệu Multimedia như văn bản, hình ảnh, video, âm

thanh, các đối tượng đồ hoạ…. Một hệ quản trị CSDL MM cung cấp hỗ trợ cho các
loại dữ liệu MM trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát.

1.2.1

Mục

đích

của

MDBMS

1.2.2

Các

yêu

cầu

của

một

MDBMS

1.2.2.1 Khả năng quản trị lưu trữ lớn

Các yêu cầu về khả năng lưu trữ của các hệ thống MM có thể được đặc trưng
bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của
hệ thống lưu trữ. Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu MM trong một
hệ

thống

phân

bậc

bao

gồm

các

thiết

bị

khác

nhau,

có

thể

là

trực

tuyến

(online),
không trực tuyến (offline). Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta
hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất.
Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng
tóm tắt nhỏ hơn của một dữ liệu MM hoàn chỉnh với mục đích cung cấp khả năng
duyệt và xem trước nhanh đối với nội dung của dữ liệu.

1.2.2.2 Hỗ trợ truy vấn và khai thác dữ liệu.

Truy vấn

đối

với

dữ

liệu

MM

bao

gồm các

kiểu

dữ

liệu

khác

nhau,

các

từ
khoá,

thuộc

tính,

nội

dung

vv…Do

người

dùng

có

thể

có

các

cách

suy nghĩ

khác
nhau về dữ liệu MM vì vậy kết quả thu được từ việc truy vấn dữ liệu MM

có thể
không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần
của kết quả hơn là các kết quả chuẩn xác.
4

1.2.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện
Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MDBMS cũng
phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu
MM mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu
cầu. Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc
tính cơ bản của dữ liệu MM như tính liên tục (tạm thời) của dữ liệu MM đặc biệt là
với các kiểu dữ liệu như video, hoạt hình hoặc âm thanh.

1.2.2.4 Giao diện và tương tác.
Sự khác nhau về bản chất của các dữ liệu MM đòi hỏi phải có các giao diện
khác nhau để tương tác với dữ liệu. Thông thường, mỗi loại dữ liệu có các phương
thức truy nhập và thể hiện riêng của mình, ví dụ như dữ liệu video và âm thanh sẽ
đòi hỏi các giao diện người dùng khác nhau để thể hiện và truy vấn. Đối với một vài
ứng dụng MM, đặc biệt là sự có mặt của các loại dữ liệu có tính liên tục người dùng
thường đòi hỏi phải có các khả năng tương tác với dữ liệu.

1.2.2.5 Hiệu suất.
Hiệu suất là một vấn đề quan trọng cần được xem xét đối với một MDBMS.
Các hệ thống CSDL MM tạo ra hiệu suất dựa trên sự tối ưu hoá việc truy nhập tới
các media, lưu trữ, chỉ số hoá, khai thác và truy vấn . Sự có tham gia của nhiều kiểu
dữ liệu khác nhau trong CSDL MM có thể đòi hỏi một số phương thức đặc biệt để
tối ưu hoá việc truy cập, lưu trữ, chỉ số hoá và khai thác. Các yêu cầu này bao gồm
hiệu quả,

tính

ổn định,

đảm bảo và

đồng

bộ

việc trao

đổi dữ liệu,

chất lượng

của
dịch vụ (QoS – Quality of service).

1.2.3

Các

vấn

đề

của

MDBMS

1.2.3.1 Mô hình hoá dữ liệu MM
Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu MM là:

-
Phơng

pháp

thứ

nhất
: xây dựng một mô hình dữ liệu MM trên nền tảng

của

mô hình dữ liệu của một CSDL truyền thống (thường là CSDL quan hệ hoặc
5

CSDL hướng đối tượng) bằng cách sử dụng các giao diện tương ứng đối với dữ liệu
MM. Các vấn đề nẩy sinh với cách tiếp cận này là các cấu trúc bên dưới (của CSDL
truyền thống) không được thiết kế dành cho dữ liệu MM, hơn nữa sự khác biệt cơ
bản

các

yêu

cầu

của

một

CSDL

truyền

thống

đối

với

CSDL

MM

khiến

cho

giao
diện

trở

thành

nơi

nghẽn

cổ

chai

trong

toàn

bộ

hệ

thống.

Các

vấn

đề

này dẫn

tới
cách tiếp cận thứ hai.

-
Phơng

pháp

thứ

hai:
phát triển các mô hình dữ liệu thực thụ dành cho dữ
liệu

MM

từ

đầu

chứ

không

xây dựng

trên

cơ

sở

của

các

CSDL

truyền

thống,

tuy
nhiên

mọi

người

đều

nhất

trí

rằng

các

nỗ

lực

như

vậy đều

phải

dựa

trên

kỹ thuật
hướng đối tượng.

1.2.3.2 Lưu trữ đối tượng MM
Lưu

trữ

vật

lý

các

dữ

liệu

Multimedia

đòi

hỏi

các

phương

thức

để

chuyển

đổi,

quản

lý,

trao

đổi

và

phân

phối

một

số

lượng

dữ

liệu

khổng

lồ,

các

hệ

thống
Multimedia

thông

thường

sử

dụng

phương

thức

phân

cấp

đối

với

các

thiết

bị

lưu
trữ.

Với việc sắp xếp lưu trữ phân cấp, các đối tượng MM có thể được lưu trữ ở
các mức độ khác nhau, khi mà tỷ lệ sử dụng các đối tượng dữ liệu MM thay đổi các
đối tượng này cần phải được phân phối lại có thể là được lưu trữ trên các thiết bị
khác, tại các mức khác nhau của hệ thống lưu trữ.

1.2.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ
Khác với các dữ liệu truyền thống, dữ liệu MM đòi hỏi các ràng buộc về sự
thể

hiện

điều

này bắt

nguồn

từ

đặc

tính

liên

tục

của

một

số

kiểu

dữ

liệu

MM

mà
chúng đòi hỏi thể hiện một số lượng nhất định dữ liệu trong một khoảng thời gian
nhất định mà kết quả đem lai cho người dùng vẫn phải đảm bảo được đặc trưng của
các kiểu dữ liệu đó. Khi mà dữ liệu MM được bố trí phân tán và truyền đi trên mạng
thì các vấn đề về thể hiện càng trở nên cấp thiết hơn, chúng ta đã bắt gặp điều này
trong trường hợp băng thông hạn chế.
6

1.2.3.4 Chỉ số hoá Multimedia
Cũng như trong các CSDL truyền thống, các dữ liệu

MM có thể được khai
thác thông qua các định danh, các thuộc tính, các từ khoá và sự liên kết giữa chúng.
Các từ khoá là phương thức chiếm ưu thế trong việc sử dụng để chỉ số hoá dữ liệu
MM. Con

người thường chọn các từ khoá từ một tập các từ vựng

nhất định, điều
này tạo ra một số khó khăn khi áp dụng đối với dữ liệu MM vì chúng thường được
làm một cách thủ công và rất tốn thời gian và các kết quả thường là chủ quan và rất
hạn chế phụ thuộc vào từ vựng.

Một

phương

thức

khác

được

sử

dụng

dựa

trên

việc

truy

cập

nội

dung,

nó
xem

xét

đến

nội

dung

thực

sự

của

dữ

liệu

MM

hoặc

xuất

phát

từ

ngữ

cảnh

của
thông tin. Trong thời gian gần đây, việc nghiên cứu chỉ số hoá dựa trên nội dung đã
được tiến hành hết sức mạnh mẽ với mục đích là chỉ số hoá dữ liệu

MM dựa trên
các đặc trưng xác định thu được trực tiếp từ dữ liệu. Các đặc trưng khác nhau như
mầu sắc, hình dạng, kết cấu bề mặt, các chuỗi đặc trưng và các đặc trưng khác đã
được dùng để chỉ số hoá các ảnh.

1.2.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua.

1.2.3.6 Quản trị CSDL MM phân tán

1.2.3.7 Sự hỗ trợ của hệ thống

1.4

Các

kỹ

thuật

chủ

yếu

tìm

kiếm

âm

thanh

trong

cơ

sở

dữ

liệu.

1.4.1

Đo

tính

tương

tự

1.4.1.1 Thuật toán LSH (Locality Sensitve Hashing)
Đưa ra một đoạn giai điệu được định nghĩa bởi điểm pi, chúng ta có thể tìm
các đoạn tương tự trong chỉ mục bằng các tìm kiếm các hàng xóm gần nhất (NNs)
của điểm pi. ví dụ tất cả các điểm mà khoảng cách nhỏ hơn một ngưỡng cụ thể r nào
đó. Điều này có thể được làm bởi việc đo khoảng cách đơn giản pi đến tất cả các
vector trong cơ sở dữ liệu.
l






 ijjijiji
dDDD
,,

min







7

Để thu được

một thời gian tuyến tính dưới một cách phức tạp, chúng ta sử
dụng vị trí của hàm băm miền nhạy cảm LSH là một thuật toán ngẫu nhiên cho việc
tìm kiếm khoảng cách hàng xóm gần nhất trong không gian nhiều chiều. Thuật toán
LSH là thuật toán tìm kiếm K hàng xóm gần nhất hoặc tìm kiếm xấp xỉ K hàng xóm
gần nhất.

1.4.1.2 Thuật toán DTW(Dynamic Time Warping)
Cho

chuỗi

âm

tiết

đầu

vào

w




w
1
,

w
2

,
w
L


có

độ

dài

L

và

có

chuỗi

vector

đặc

tính

X




x
1
,

x
2

,
x
T


,

nhiệm

vụ

của

hệ

thống

là

phải

nhận

dạng

xem

chuỗi

âm

đầu

vào là các

ký tự

gì và

trong quá trình xử lý

cần phải

giảm thiểu tối

đa các

sai số
quyết

định.

Mỗi

tín

hiệu

âm

tiết

đầu

vào

W

l
sẽ

được

so

sánh

với

các

mẫu

Y
l
.

Mỗi

Y
l
là

chuỗi

các

vector

đặc

tính

của

tín

hiệu

âm

tiết

W
l

.

Nhằm

tăng

khả

năng

nhận

dạng,

mỗi

âm

tiết

có

một

tập

hợp

các

mẫu

khác

nhau:

Y
l
,1
, ,
Y
l

,
M
l

.

Quá

trình

quyết

định âm tiết phù hợp với một mẫu dựa theo nguyên tắc sau:

l

*



argminmin

D
(

X

,
Y
l

,
m

)

m

Như

vậy

âm

tiết

W
l*
là

âm

tiết

phù

hợp

nhất

với

mẫu

Y
l
tìm

được.

Khoảng

cách

D(X,Y)

giữa

dữ

liệu

đầu

vào

và

dữ

liệu

mẫu

Y=y
1
….y
s
có

độ

dài

thời

gian

khác

nhau

S



T

được

xác

định

bằng

tổng

các

khoảng

cách

cục

bộ
d
ij



d
(
x
i

,

y

j

)

trên

cả

đường

đi

của

quá

trình

biến

dạng

thời

gian.

Khoảng

cách

tích

luỹ

D
ij



D
(
x
1

x
i

,

y
1

y

j

)
được

xác

định

theo

công

thức

0
I=J=0

I>0,

J>0





Và

khoảng

cách

tổng

D(X,Y)=D
TS
.

1.4.1.3 Thuật toán HMM (Hidden Markov Model )
Mô hình Markov ẩn được sử dụng trong việc thống kê mô hình tạo âm thanh.
Tính hiệu quả của mô hình được thể hiện trong việc mô tả tín hiệu âm thanh theo
dạng toán học dễ dàng

cho việc xử lý tín

hiệu. Các trạng thái của HMM có được
8

trước khi thực hiện việc xử lý các trạng thái. Như thế đầu vào của HMM chính là
chuỗi các thông số vector rời rạc theo thời gian. Mô hình Markov ẩn là một tập các
trạng

thái

hữu

hạn,

mà

mỗi

trạng

thái

có

liên

quan

đến

hàm

phân

phối

xác

xuất.
Việc chuyển tiếp giữa các trạng thái được định nghĩa bởi một tập xác suất được gọi
là xác suất chuyển tiếp.

1.4.2

Các

kiểu

truy

vấn

1.4.2.1 Truy vấn trên cơ sở meta-data

1.4.2.2 Truy vấn trên cơ sở mô tả

1.4.2.3 Truy vấn trên cơ sở mẫu

hay đặc trưng

1.4.2.4 Truy vấn theo thí dụ

1.4.2.5 Truy vấn ứng dụng cụ thể

1.5

Các

nguyên

lý

chung

thiết

kế

cơ

sở

dữ

liệu

âm

thanh.

1.5.1

Mô

hình

tổng

quát

của

dữ

liệu

âm

thanh

1.5.1.1 Biểu diễn nội dung âm thanh bằng metadata
Tổng

quát

thì

metadata

được

sử

dụng

để

biểu

diễn

nội

dung

âm

thanh

được
xem như tập các đối tượng trải dài theo đường thời gian, tương tự video. Các đối
tượng, đặc trưng và hoạt động xảy ra trong âm thanh hoàn toàn tương tự như trong
video. Sự khác biệt ở chỗ, âm thanh để nghe,

còn video để cả nghe và nhìn. Như
vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tương tự
cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng được sử dụng lại ở đây.

Phần lớn CSDL

âm thanh đang

tồn

tại

sử dụng lược

đồ chỉ

số

hoá

trên cơ sở
metadata.

1.5.1.2 Nội dung âm thanh trên cơ sở tín hiệu
CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo
cách sau đây:




log
10
x



9

Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất.
Điều này có thể thực hiện bằng hai cách. Một khả năng là người phát triển ứng dụng
có thể xác định kích thước cửa sổ w (đơn vị giây hay ms) và giả sử rằng các đặc tính
sóng trong cửa sổ này có được bằng lấy trung bình. Khả năng thứ hai là người sử

dụng

có

thể

phân

đoạn

tín

hiệu

âm thanh

tương

tự

phân

đoạn

ảnh

nhờ

thuộc

tính
tính đồng nhất H.

Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu
âm

thanh

được

xem

như

trình

tự

của

n

cửa

sổ

w
1
, ,w
n

.

Với

từng

cửa

sổ,

chúng

ta

tách vài đặc trưng kết hợp với tín hiệu âm thanh. Nếu k đặc trưng được tách, thì tín
hiệu âm thanh được xem như trình tự của n điểm trong không gian k-chiều. Chúng
ta có thể chỉ số hóa trình tự của n điểm này. Một vài đặc trưng quen thuộc nhất và
sử dụng rộng rãi để chỉ số hoá bao gồm:

- Cường độ (Intensity): Cường độ của sóng được hiểu như năng lượng của tín
hiệu do sóng phát sinh. Không đi chi tiết kỹ thuật để tính giá trị này, chúng ta xác
định cường độ của tín hiệu âm thanh là: I=2 x 
2
x f
2
x  x a
2
x v

trong đó, f là tần số của sóng (tính bằng Hz),  là mật độ của vật

liệu truyền dẫn
sóng (tính bằng kg/m
3
), a là biên độ của sóng (tính bằng m), v là vận tốc của sóng
(tính bằng m/s). Cường độ được tính bằng watt/m
2
.



I





L
0



-

Âm

lượng

(Loudness):

Mặc

dù

các

sóng

có

cường

độ

cao

hơn

được

người
nghe to hơn các sóng có cường độ thấp hơn nhưng âm lượng không tăng tuyến tính
với

cường

độ.

Giả

sử

rằng

gọi

L
0
là

âm

lượng

kết

hợp

với

tần

số

thấp

mà

tai

người

có thể phân biệt (khoảng 15 Hz), giả sử ta quan sát sóng có cường độ I. Sau đó âm
lượng của I tính bằng decibel như sau:

Chú

ý

rằng

khi

I=L
0
thì

L

=

10

x

log(1)

=

0.

- Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh được tính từ tần số f và
biên độ a của tín hiệu.
10

- Độ trong (Brightness): Độ trong  của tín hiểutong cửa sổ w là thước đo độ
“sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ.

1.5.2

Thu

thập

nội

dung

âm

thanh

thông

qua

biến

đổi

rời

rạc

Khi xem xét dải tần số con người nghe được từ 15 Hz đến 20 kHz, ngay cả đoạn
ghi âm ngắn (khoảng 10 phút) đã có tới 100000 cửa sổ với giả sử rằng mỗi cửa sổ
biểu diễn một tín hiệu tương đối trơn tru.

1.5.3

Chỉ

số

hóa

dữ

liệu

âm

thanh

Chỉ số hoá dữ liệu âm thanh trên cơ sở tín hiệu có thể được thực hiện theo
cách

không

phức

tạp

lắm.

Giả

sử

chúng

ta

có

tập


1
, ,
K
của

tín

hiệu

trong

kho

âm

thanh. Gọi N là số nguyên xác định tổng số cửa sổ mà người phát triển ứng dụng
muốn

gán

cho

mỗi

tín

hiệu

âm

thanh


i
.

Khi

chọn

N,

có

nghĩa

rằng

chúng

ta

muốn

lưu trữ tập véctơ

N chiều. Tuy nhiên, khi quan sát véctơ, ta thấy khó xác

định nó
được suy diễn từ tín hiệu âm thanh nào. Do vậy, ta giả sử rằng mỗi véctơ có độ dài
(N+1).

Trường

phụ

ở

cuối

chứa

chỉ

số

i

của

tín

hiệu


i
mà

véctơ

suy

diễn

từ

nó.

Bây

giờ ta có thể phát triển CSDL âm thanh bằng các bước như sau đây, sử dụng quan
niệm cây TV để chỉ số hoá dữ liệu nhiều chiều.

Thuật

toán

CreateAudioIndex(K, N)

Index = NIL; (*Ban đầu chỉ số có giá trị rỗng*)

for i=1 to K do

{

for

j=0

to

(N-1)

do

A
i
[j]=DFT(

i
);

A
i
[N]=i;

(*Chèn véctơ A
i
[j] vào cây TV*)

Index = Insert(A
i
[j].Index)

}
11

end

1.6

Tiến

trình

tìm

kiếm

dữ

liệu

Đa

phơng

tiện

Queries

Query
features
Information
Items
Processing and
feature extraction

Preprocessing

and indexing

Indexed
information items

Similarity
computation

Retrieval of similar
items

Hình

1.12

Mô

hình

tìm

kiếm

dữ

liệu

đa

phơng

tiện

1.7

Các

giai

đoạn

phát

triển

MMDBMS



x(n)


n 1

|

sgn

x
(
n
)



sgn

x
(
n



1)

|

N

12

Chơng

2

-

KỸ

THUẬT

TÌM

KIẾM

CƠ

SỞ

DỮ

LIỆU

ÂM

NHẠC

2.1

Đặc

trng

chính

của

âm

thanh

2.1.1

Đặc

trưng

trong

miền

thời

gian.

Biểu diễn trong miền thời gian hay thời gian - biên độ là kỹ thuật trình diễn tín
hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời
gian. Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn
hay thấp hơn áp suất cân bằng khi im lặng. Giả sử rằng sử dụng 16 bít để mã hóa

mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767.

Từ cách biểu diễn trên đây ta dễ dàng có được năng lượng trung bình, tốc độ
vượt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio).

2.1.1.1 Năng lượng trung bình
Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu audio. Có
nhiều cách để tính nó. Một cách tính đơn giản như sau:

E 
N 1

N 0

N
2

trong đó, E là năng lượng trung bình của đoạn audio, N là tổng số mẫu trong đoạn
audio, x(n) là giá trị của mẫu n.

2.1.1.2 Tốc độ vượt qua 0
Tốc độ vượt qua 0 chỉ ra tần số thay đổi của dấu biên độ tín hiệu. Nói cách
khác nó chỉ ra tần số trung bình của tín hiệu. Tốc độ vượt qua 0 được tính như sau:
Hình

2.1.

T
ín

hiệu

âm

thanh

số

trong

miền

thời

gian

ZC 
2N

trong đó, sgn x(n) là dấu của x(n) và có giá trị 1 nếu x(n) dương, giá trị -1 nếu x(n)
có giá trị âm.
X

(
k
)





x
(
n
)
e


jn

k



X

(
k
)
e

13

2.1.1.3 Tỷ lệ câm

Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm. Câm được định nghĩa như
chu kỳ trong đó giá trị biên độ tuyệt đối của một số mẫu nhỏ hơn ngưỡng nào đó.
Có hai loại ngưỡng: ngưỡng biên độ và ngưỡng thới gian. Tỷ lệ câm được tính bằng
tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh.

2.1.2

Đặc

trưng

trong

miền

tần

số.

2.1.2.1 Phổ âm thanh
Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ
tần

số

của

tín

hiệu

âm

thanh.

Biểu

diễn

miền

tần

số

suy

diễn

từ

biểu

diễn

miền
không

gian

bằng

biến

đổi

Fourier.

Biến

đổi

Fourier

được

xem

như

tách

tín

hiệu
thành các thành phần tần số. Trong miền tấn số, tín hiệu được biểu diễn bởi biên độ
biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau. Biểu diễn miền
tần số của tín hiệu được gọi là phổ của tín hiệu.

Vì quan tâm đến tín hiệu số cho nên ta sử dụng DFT để suy diễn ra phổ tín
hiệu. Công thức tính DFT như sau:

N


1

n

0

trong

đó,

k



2k
N
, x(n) là tín hiệu rời rạc với N mẫu, k là DFT bin.

Nếu

tần

số

lấy

mẫu

tín

hiệu

là

f
s
Hz

thì

tần

số

f
k
của

bin

k

sẽ

là:

f

k



f

s


k

2




f

s

k

N

Nếu x(n) có giới hạn thời gian là N thì nó có thể khôi phục hoàn toàn bằng IDFT
của N mẫu tần số như sau:

x
(
n
)

1

N

N


1

k

0

jn

k

14

Như nói trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài (N). Thực
tế, rất nhiều tín hiệu trong khoảng thời gian dài. Rất khó tính toán DFT với

N rất
lớn.

Để

giải

quyết

vấn

đề

này,

người

ta

sử

dụng

STFT

(Short

Time

Fourier
Transform).

Trong

đó,

tín

hiệu

với

độ

dài

tùy

ý

được

chia

thành

các

khối

gọi

là
frame và DFT áp dụng cho từng frame. Frame được hình thành bằng cách nhân tín
hiệu gốc với hàm cửa sổ. Thông thường độ dài frame khoảng 10 đến 20 ms được sử
dụng vào phân tích không gian.

2.1.2.2 Băng thông
Băng

thông

chỉ

ra

dải

tần

số

của

âm

thanh.

Tín

hiệu

nhạc

thường

có

băng
thông cao hơn tín hiệu tiếng nói. Cách tính băng thông đơn giản nhất là lấy chênh
lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác
không. Trong một số trường hợp, “nonzero” được xác định khoảng 3 dB trên mức
câm.

2.1.2.3 Phân bổ năng lượng
Từ phổ tín hiệu, chúng ta dễ dàng nhận thấy phân bổ tín hiệu theo các thành
phần

tần

số.

Việc

tính

toán

năng

lượng

dải

tần

số

cao

và

tần

số

thấp

là

cần

thiết.

Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng. Thí dụ tần số tín hiệu
tiếng nói ít khi vượt qua 7 kHz. Do vậy, ta có thể chia toàn bộ phổ dọc theo đường
ngang 7 kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao. Tổng năng
lượng cho mỗi băng được tính bằng tổng năng lượng mỗi mẫu trong băng.

Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ
(centroid). Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu. Tiếng nói có trọng
tâm thấp so với âm nhạc. Trọng tâm còn được gọi là độ chói (brightness).

2.1.2.4 Điều hòa
Đặc

trưng

thứ

hai

trong

miền

tần

số

của

âm

thanh

là

điều

hòa.

Trong

âm
thanh điều hòa, các thành phần phổ là số lần nguyên của tần số thấp nhất và tần số
thường

xuyên

cao

nhất.

Tần

số

thấp

nhất

được

gọi

là

tần

số

cơ

bản.

Âm

nhạc
15

thường điều hòa hơn âm thanh khác. Để xác định được âm thanh có điều hòa hay
không hãy kiểm tra xem tần số của các thành phần trội là số lần tần số cơ bản hay
không. Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dãy tần số cao độ (pitch) như
sau: 400 Hz, 800 Hz, 1200 Hz, 1600 Hz

2.1.2.5 Cao độ
Đặc trưng thứ ba của miền tần số là cao độ. Thuộc tính cảm nhận các tần số
âm thanh còn được gọi là pitch. Tần số càng cao thì pitch càng cao và bước sóng
càng ngắn. Có thể xếp hàng âm thanh theo mức độ cao độ. Cao độ là đặc trưng chủ
quan,

nó

quan

hệ

nhưng

không

tương

đương

với

tần

số

cơ

bản.

Tuy nhiên,

trong
thực tế chúng ta sử dụng các tần số cơ bản để xấp xỉ cao độ.

2.1.3

Đặc

trưng

ảnh

phổ.

Biểu diễn âm lượng - thời gian và phổ là hai biểu diễn tín hiệu đơn giản nhất.
Hạn chế của biểu diễn âm lượng - thời gian là không chỉ ra các thành phần tần số
của tín hiệu và phổ, không chỉ ra khi nào các thành phần tần số khác nhau xuất hiện.
Để giải quyết vấn đề này, biểu diễn tổ hợp hay còn gọi là ảnh phổ được sử dụng.
Ảnh

phổ

của

tín

hiệu

chỉ

ra

quan

hệ

giữa

ba

biến:

nội

dung

tần

số,

thời

gian

và
cường độ. Trong ảnh phổ, nội dung tần số được biểu diễn theo các trục tung, thời
gian theo trục hoành. Cường độ (intensity, power) của các thành phần tần số khác
nhau của tín hiệu được chỉ ra bằng độ xám, cường độ lớn hơn biểu diễn bởi mức độ
xám cao hơn.

2.1.4

Đặc

trưng

âm

thanh

MFCC

MFCC (Mel Frequency Cepstral Coefficients) là các hệ số biểu diễn phổ của
phổ (spectrum-of-a-spectrum) của đoạn âm thanh.

Các hệ số ceptral c(k) là cách thuận tiện cho việc mô hình hóa phân bổ năng
lượng phổ.

Các hệ số ceptral được tính toán cho mỗi khoảng thời gian ngắn của tín hiệu
âm thanh.
16

Hệ số ceptral được sử dụng trong MMDBMS (tìm kiếm âm thanh) và trong
nhận dạng tiếng nói.

Mel là đơn vị

độ cao

âm thanh (pitch). Một

cặp âm thanh cảm nhận có độ
cao như nhau nếu giá trị mel của chúng như nhau.

Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz.

2.2

Phân

lớp

âm

thanh

2.2.1

Đặc

điểm

chính

của

các

lớp

âm

thanh

Mọi

phương

pháp

phân

lớp

âm

thanh

trên

cơ

sở

tính

toán

các

giá

trị

đặc
trưng. Chúng khác nhau ở chỗ các đặc trưng được sử dụng như thế nào. Nhóm thứ
nhất: mỗi đặc trưng được sử dụng riêng rẽ trong các bước phân lớp. Nhóm thứ hai:
tập các đặc trưng được sử dụng chung như véctơ để tính toán mức độ “gần gũi” của
đầu vào đến các tập huấn luyện.

2.2.2

Phân

lớp

âm

thanh

2.2.2.1 Phân lớp âm thanh theo từng bước
Trong phân lớp âm thanh theo từng bước, ta sử dụng riêng biệt mỗi đặc trưng
audio để xác định âm thanh đó là âm nhạc hay tiếng nói.

Mỗi đặc trưng được xem như tiêu chí lọc hay trích chọn. Tại mỗi bước lọc,
đoạn âm thanh được xác định là kiểu này hay kiểu khác. Trước hết tính trọng tâm
của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngưỡng cho trước thì nó có thể
là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không
phải mọi âm nhạc đều có trọng tâm cao).

Tiếp theo tính tỷ lệ câm. Nếu đoạn âm thanh có tỷ lệ câm thấp thì chúng có
thể là âm nhạc. Nếu không, nó là tiếng nói hay nhạc solo.

Cuối cùng tính ZCR. nếu đoạn âm thanh có biến đổi ZCR rất cao, nó là tiếng
nói. Nếu không nó là nhạc solo.
17

Trong tiệm cận phân lớp này, điều quan trọng là

xác định trình tự trong đó
các

đặc

trưng

khác

nhau

được

sử

dụng

để

phân

lớp.

Trình

tự

thông

thường

được
quyết định bởi độ phức tạp tính toán và khả năng phân biệt (differentiating power)
của các đặc trưng khác nhau. Đặc trưng ít phức tạp, có khả năng phân

biệt cao sẽ
được sử dụng trước. Điều này làm giảm tổng số bước thực hiện lọc trên đoạn âm
nhạc, dẫn tới làm giảm đáng kể tính toán đòi hỏi.

2.2.2.2 Phân lớp âm thanh theo vectơ đặc trưng
Trong phân lớp âm thanh trên cơ sở véctơ đặc trưng, các giá trị của tập đặc
trưng được tính toán và sử dụng như véctơ đặc trưng. Trong giai đoạn huấn luyện,
véctơ đặc trưng trung bình

được tìm ra cho mỗi lớp âm thanh. Trong quá trình phân
lớp, véctơ đặc trưng của đoạn âm thanh vào được tính và những khoảng cách giữa
véctơ đặc trưng vào và từng véctơ tham chiếu được tính toán. Âm thanh vào được

phân lớp từ cái nào có khoảng cách nhỏ nhất đến véctơ đầu vào. Khoảng cách Euclit
thường được sử dụng để tính toán khoảng cách véctơ đặc trưng. Tiệm cận này giả
sử rằng, các đoạn âm thanh trong cùng lớp ở gần nhau trong không gian đặc trưng.
Các đoạn âm thanh thuộc các lớp khác nhau ở xa nhau trong không gian đặc trưng.

2.2.2.3 Phân lớp âm thanh ứng dụng mạng nơron
Mạng

nơ

ron

nhân

tạo

(ANN

-

Artificial

Neural

Networks)

được

sử

dụng
rộng rãi vào nhận dạng mẫu. Một ANN là hệ thống xử lý thông tin mô phỏng tiến
trình nhận thức của bộ não người. ANN bao gồm nhiều neuron nối với nhau bằng
các liên kết có trọng số. Nhận dạng tiếng nói với ANN bao gồm hai giai đoạn: huấn
luyện và nhận dạng. Trong giai đoạn huấn luyện, các véctơ đặc trưng của dữ liệu
tiếng nói huấn luyện được sử dụng để huấn luyện ANN. Trong giai đoạn nhận dạng,
ANN sẽ nhận ra âm vị có khă năng nhất trên cơ sở véctơ đặc trưng đầu vào.

2.2.3

Chỉ

số

hóa

và

truy

tìm

âm

thanh

Sau khi phân lớp âm thanh thành âm nhạc và tiếng nói, ta có thể áp dụng các
kỹ thuật riêng cho từng lớp. Tiệm cận cơ bản của chỉ số hóa và truy tìm tiếng nói là
18

áp dụng các kỹ thuật nhận dạng tiếng nói để chuyển đổi tín hiệu tiếng nói thành văn
bản và sau đó áp dụng các kỹ thuật IR để chỉ số hóa và tìm kiếm.

2.3

Chỉ

số

hóa

và

truy

tìm

âm

nhạc.

2.3.1

Chỉ

mục

và

truy

tìm

âm

nhạc

cấu

trúc

và

các

hiệu

ứng

âm

thanh

Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh
chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Người sử dụng có thể
chỉ ra trình tự các nốt làm câu truy vấn và nó tương đối dễ tìm ra các tệp âm thanh

cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn
toàn, nhưng âm thanh sinh ra từ tệp có thể chưa phải là cái mà người sử dụng mong
đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các
thiết bị khác nhau.

2.3.2

Chỉ

mục

và

truy

tìm

âm

nhạc

trên

cơ

sở

mẫu

2.3.2.1 Truy tìm âm nhạc trên cơ sở tập các đặc trưng

Trong tiệm cận truy tìm âm nhạc này, tập các đặc trưng âm học được trích
chọn

cho

mỗi

âm

thanh.

Tập

N

đặc

trưng

này

được

biểu

diễn

bởi

N-véctơ.

Tính
tương tự giữa câu truy vấn và mỗi đoạn âm thanh lưu trữ được tính toán trên cơ sở
khoảng cách gần nhất giữa các véctơ đặc trưng tương ứng của chúng. Tiệm cận này
có thể áp dụng cho mọi loại âm thanh như âm nhạc, tiếng nói và hiệu ứng âm thanh.

2.3.2.2 Truy tìm âm thanh trên cơ sở độ cao
Tiệm cận này tương tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác
nhau chính là độ cao của từng nốt phải được trích chọn và ước lượng trong trường
hợp

này.

Trích

chọn

và

ước

lượng

độ

cao

được

gọi

chung

là

tracking

độ

cao.
Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký
tự. Ý tưởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc

được biểu diễn bởi
độ

cao

của

nó.

Vậy,

một

đoạn

nhạc

được

biểu

diễn

như

trình

tự

hay xâu

độ

cao.
Quyết định truy tìm dựa trên cơ sở tính tương tự giữa câu truy vấn và xâu ứng viên.
Hai nhiệm vụ chính là tracking độ cao và đo tính tương tự của xâu.
S
(
D
i

,

Q
j

)




T
ik
.
Q
jk


T


T
ik
2

.


Q

19

2.4

Kỹ

thuật

đối

sánh

trong

cơ

sở

dữ

liệu

âm

thanh.

2.4.1

Mô

hình

véctơ

đa

chiều

Vector Space Model
- Terms: {t1, , tm}  Rn
- Audio: {d1, , dm}  Rn
- Ma trận Term X Giai điệu: A
- Tij – độ đo mức độ quan trọng (trọng số) của khái niệm i trong giai
điệu j. Có thể là nhị nguyên, tf.idf hay loại khác.
Giai điệu Dj

và truy vấn Qj được biểu diễn như các véctơ n-chiều của các trọng
số.
D
i




T
i
1
,
T
i

2

, ,
T
ik

, ,
T
iN



Q
j




Q
j
1
,

Q
j
2

, ,
Q
jk

, ,
Q
jN



Mô hình không gian véctơ đánh giá mức độ tương tự Giai điệu Di

với câu
truy vấn Qj như tính tương quan giữa hai véctơ.
N

k

1

Chuẩn hóa kích thước Di và Qj: Mức độ tương tự xác định bởi cosine góc
giữa hai véctơ.

S
(
D
i

,

Q
j

)



cos



2.4.2

Kỹ

thuật

phân

cụm

dữ

liệu

D
i

.
Q
j

|

D
i

||

Q
j

|


N

k

1

N

k


1

ik

.
Q
jk

N

k

1

2

jk

Ý

tưởng

chính

là

sắp

xếp

đối

tượng/véctơ

đặc

trưng

tương

tự

vào

cùng
nhóm/cụm và việc tìm kiếm chỉ thực hiện trong các cụm liên quan. Mỗi cụm được
biểu diễn bởi trọng tâm của các véctơ đặc trưng trong cụm. Trong khi truy vấn, ta
tính toán độ tương tự giữa câu truy vấn và từng cụm Cụm nào có mức độ tương tự
lớn hơn ngưỡng cho trước là được chọn. Tiếp theo đối sánh véctơ câu truy vấn với
từng véctơ đặc trưng trong cụm và k đối tượng gần nhất là kết quả.
20

*

Thuật

toán

phân

cụm

Phương pháp cây phân cấp

- Input: O – Danh sách các đối tượng trong CSDL

- Out: T – Cây phân cấp

Gán mỗi giai điệu của O vào cụm riêng, tạo lập danh sách các cụm L (khởi
đầu giá trị lá của T): L = O1, O2, O3, , On-1, On.

Tính toán véctơ đại diện của từng cặp phần tử trong L để tìm ra hai cụm gần
nhất {Oi, Oj}.

Hủy bỏ Oi và Oj khỏi L.

Trộn

Oi

và

Oj

để

hình

thành

nút

mới

Oij

trong

T,

nó

là

cha

của

Oi

và

Oj
trong cây kết quả.

Lặp lại bước (2) cho đến khi chỉ còn một tập.

2.4.3

Lọc

trên

cơ

sở

bất

đẳng

thức

tam

giác

Hầu hết các độ đo khoảng cách đặc trưng là độ đo metric và thỏa mãn tính
chất

bất

đẳng

thức

tam

giác.

Khoảng

cách

giữa

hai

đối

tượng

không

thể

nhỏ

hơn

hiệu khoảng cách giữa chúng tới đối tượng khác.

d
(
i
,

q
)



d
(
i
,

k
)



d
(
q
,

k
)

trong đó, d-độ đo khoảng cách, i, q, k - các véctơ đặc trưng
Bất đẳng thức trên đúng với mọi k, khi đối sánh nhiều đặc trưng ta có:

d

(
i
,

q
)



max

1


j

m

d

(
i
,

k

j

)



d

(
q
,

k

j

)

trong đó, m-tổng số đặc trưng sử dụng để đối sánh
21

Chơng

3

–

PHÁT

TRIỂN

HỆ

THỐNG

THỬ

NGHIỆM

ỨNG

DỤNG

TẠI

TRỜNG

ĐẠI

HỌC

VĂN

HÓA,

THỂ

THAO

VÀ

DU

LỊCH

THANH

HÓA

3.1

Nhu

cầu

tìm

kiếm

âm

nhạc

theo

nội

dung

phục

vụ

giảng

dạy

Tính

toán

độ

tương

tự

của

tín

hiệu

âm thanh

là

một

chủ

đề

lớn

bắt

đầu

được
nghiên cứu trong lĩnh vực xử lý âm thanh từ những năm 1960. Kỹ thuật nhận dạng
âm thanh có rất nhiều ứng dụng rộng rãi. Đối với trường Đại học Văn hóa, Thể thao
và Du lịch Thanh Hóa có thể sử dụng các hệ tìm kiếm âm thanh để đối

sánh giai
điệu của các bản nhạc trong việc bảo vệ bản quyền âm nhạc, sử dụng hệ tìm kiếm
âm thanh để đối sánh chất giọng của các sinh viên ngành Thanh nhạc và Sư phạm
âm nhạc với các kho cơ sở dữ liệu mẫu, tìm kiếm âm nhạc trên cơ sở nội dung.

3.2

Trình

bày

các

thuật

toán

tìm

kiếm

âm

thanh

theo

nội

dung.

3.2.1.

Đặc

trưng

MFCC

3.2.2

Phương

pháp

phân

tích

MFCC

3.2.2.1 Quá trình lọc theo thang Mel Cepstral

3.2.2.2 Lấy mẫu

3.2.2.3 Phân khung tín hiệu

3.2.2.4

Lấy cửa sổ tín hiệu

3.2.2.5 Biến đổi Fourier nhanh

3.2.2.6 Chuyển đổi sang thang tần số Mel

3.2.2.7 Biến đổi Cosin rời rạc

3.3.3.

Kỹ

thuật

phân

cụm

K-means

Thuật toán Kmean thực hiện theo các bước sau:

Bước 1: Đặt K điểm vào vùng phân cụm các đối tượng. Các điểm này mô tả
nhóm trung tâm đầu tiên.

Bước 2: Gán mỗi đối tượng vào một nhóm có điểm trung tâm gần nhất.
22

Bước 3: Khi tất cả các đối tượng đã được đưa vào các nhóm, tính toán lại vị trí
của K điểm trung tâm.

Bước 4: Thực hiện lặp lại bước 2 và 3 cho tới khi bỏ đi được các điểm trung
tâm ở xa. Điều này giúp phân cách các đối tượng thành các nhóm có kích thước nhỏ
nhất có thể.

Thủ tục lặp sẽ luôn kết thúc khi điểm trung tâm không thay đổi. Tuy nhiên,
cần lưu ý rằng các thuật toán không nhất thiết phải đưa ra những kết quả tối ưu.

3.3

Phân

tích,

thiết

kế,

xây

dựng

và

cài

đặt

thử

nghiệm

Hệ thống nhận dạng người nói SpeakIden được phát triển trên nền ngôn ngữ
lập trình kỹ thuật Matlab phiên bản R2009a, sử dụng một số thư viện mã nguồn mở

của tác giả Roger Jang thuộc nhóm phát triển Mirlab [] và thư viện mã nguồn mở
Voicebox của tác giả Mike Brookes, khoa kỹ thuật điện và điện tử, đại học kỹ thuật
Hoàng gia, London, UK []. Hệ thống tìm kiếm âm nhạc dựa trên đặc trưng MFCC,
sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách Ơclit.

3.3.1

Mô

hình

hệ

thống

3.3.2.Các

tham

số

thực

nghiệm

3.3.3

Một

số

chức

năng

của

chương

trình
23

KẾT

LUẬN

VÀ

HỚNG

PHÁT

TRIỂN

KẾT

LUẬN

Việc xây dựng cơ sở dữ liệu đa phương tiện đã và đang được nhiều nhà khoa
học trong và ngoài nước quan tâm vì nó có nhiều ứng dụng trong thực tế. Trong các
năm trước đây, các nghiên cứu tập trung vào xây dựng quy trình và các kỹ thuật liên
quan tới quá trình truyền thông đa phương tiện. Khi đã có khối lượng dữ liệu khổng
lồ,

vấn

đề

đặt

ra

là cần

có các phương pháp tìm kiếm nhanh.

Tìm kiếm âm

thanh
theo nội dung nói chung và

tìm kiếm âm nhạc nói riêng

là một vấn đề khó, đòi hỏi

kết

hợp

nhiều

phương pháp

khác

nhau,

sử

dụng

nhiều

bộ

tham

số

đặc

trưng

khác
nhau.

Luận văn đã thực hiện được:

- Nghiên cứu cấu phần, nguyên lý cơ bản và các nhiệm vụ thiết kế cơ sở dữ liệu
đa phương tiện nói chung và cơ sở dữ liệu âm thanh nói riêng.

- Tìm hiểu các đặc trưng của âm thanh, âm nhạc và tiếng nói.

-

Nghiên

cứu,

khảo

sát một

số

giải

pháp

và

kỹ thuật

phân loại,

phân

lớp

âm
thanh. Nghiên cứu các đặc trưng cơ bản phục vụ việc trích chọn đặt trưng và truy tìm
âm nhạc trên cơ sở nội dung.

- Tìm hiểu một

phương pháp trích chọn đặc trưng sử dụng MFCC.

- Tìm hiểu một số kỹ thuật phân cụm dữ liệu K-means và DTW

- Đề xuất một mô hình cho hệ thống tìm kiếm âm nhạc trên cơ sở nội dung.
Cài đặt được phần mềm thử nghiệm trên nền Matlab. Hệ thống tìm kiếm âm nhạc
dựa trên đặc trưng MFCC, sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách
Ơclit.

Tuy nhiên Luận văn vẫn còn một số hạn chế cần phát triển thêm :

- Bộ dữ liệu thử nghiệm quá nhỏ.

- Chưa nghiên cứu và cài đặt các kỹ thuật chỉ mục cho cơ sở dữ liệu.

- Chưa khảo sát đánh giá được tính hiệu quả về mặt thời gian tìm kiếm cũng
như sự ảnh hưởng của các tham số như độ dài tệp nhận dạng, số lượng mẫu cần huấn
luyện, số hệ số MFCC và số băng lọc sử dụng…

Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về