Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện : Đề tài NCKH. QC.08.01

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (23.72 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG
TRONG TÌM KIẾM DỮ LIỆU ĐA
PHƯƠNG TIỆN

Mã số: QC.08.01
Chủ nhiệm đề tài: Nguyễn Hải Châu

Hà Nội - 2009

ĐẠI H Ọ C Q U Õ C G IA HÀ NỘ I
TRUNG TÂM THỔNG TIN THƯ VIỆN

PT/

M ục lục
B ả n g g iải th íc h c á c c h ữ v iế t t ắ t

3

D a n h s á c h c á n b ộ th a m g ia th ự c h iệ n đ ề t à i

4

D anh m ục bảng

5

1

T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t à i
1.1 Tên đề t à i ...........................................................................................................
1.2 Chủ trì đề t à i .....................................................................................................
1.3 Những kết quả c h í n h .........................................................................................
1.3.1 K ết quả về khoa h ọ c ............................................................................
1.3.2 K ết quả phục vụ thực t ế .....................................................................
1.3.3 K ết quả đào t ạ o ......................................................................................
1.3.4 K ết quả nâng cao tiềm lực khoa học ..............................................
1.3.5 T ình hình sử dụng kinh p h í ..............................................................

6
6
6
6
6
7
7
7
7

2

B áo
2.1
2.2
2.3

2.4

2.5
2.6
2.7

cáo tố n g k ết
Đ ặt vấn đ ề ...........................................................................................................
Tổng quan tình hình nghiên cứu chuỗi đặc t r ư n g ......................................
Các phương pháp xác định chuỗi đặc t r ư n g ..............................................
2.3.1 Các loại đặc trư ng của chuỗi tín hiệu âm t h a n h ..........................
2.3.2 Phương pháp cửa sổ g ố i .....................................................................
2.3.3 Phương pháp cửa sổ gối kết hợp học m á y ........................................
2.3.4 Phương pháp D D A ...............................................................................
2.3.5 Phương pháp dựa trên w a v e le t...........................................................
M ột số ứng dụng của chuỗi đặc t r ư n g .........................................................
2.4.1 Giám sát ph át t h a n h ............................................................................
2.4.2 Các ứng dụng liên thông âm t h a n h ................................................
2.4.3 Các bộ lọc trong ứng dụng dùng chung f i l e ...................................
2.4.4 T ự động tố chức th ư viện âm n h ạ c ................................................
2.4.5 M ột số ứng dụng k h á c ........................................................................
Mục tiêu và nội dung nghiên cứu của đề tài ...........................................
Dịa điểm , thời gian và phương tiện nghiên c ứ u .........................................
K ết quả nghiên c ứ u ...........................................................................................
2.7.1 K ết quả khoa h ọ c ...............................................................................

1

8
8
8
9

9
10
10
10
11
11
11
11
12
12
12
12
12
13
13

Bảng giải thích các chữ v iết tắ t

Bảng 1: Giải thích các chữ viết tắ t
C h ữ v iế t t ắ t

G iả i th íc h

BFCC
DDA
FLAC
LDA
M FCC
M PEG

MP3
OPCA
PCA
WAV

Bark Frequency C epstrum Coefficients
Distortion Discriminant Analysis
Free Lossless Audio Codec
Linear Discrim inant Analysis
Mel-Frequency C epstrum Coefficients
Movie Picture E xperts G roup
MPEG-1 Audio Layer 3
Oriented Principal Com ponents Analysis
Principal Com ponents Analysis
Waveform Audio Form at

3

M ục lục
B ả n g g iả i th íc h c á c c h ữ v iế t t ắ t

3

D a n h s á c h c á n b ộ t h a m g ia th ự c h iệ n

đề tà i

D anh m ục bảng

5

1

T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t à i
1.1 Tên đề t à i ...........................................................................................................
1.2 Chủ trì đề t à i .....................................................................................................
1.3 Những kết quả c h í n h .........................................................................................
1.3.1 K ết quả về khoa h ọ c ............................................................................
1.3.2 K ết quả phục vụ thực t ế .....................................................................
1.3.3 K ết quả đào t ạ o ......................................................................................
1.3.4 K ết quả nâng cao tiềm lực khoa học ..............................................
1.3.5 T ình hình sử dụng kinh p h í ..............................................................

2

B áo
2.1
2.2
2.3

2.4

2.5
2.6
2.7

4

cáo tổ n g k ết

Đ ặt vấn đ ề ...................................................................................................... - .
Tổng quan tìn h hình nghiên cứu chuỗi đặc t r ư n g ....................................
Các phương pháp xác định chuỗi đặc t r ư n g ...............................................
2.3.1 Các loại đặc trư ng của chuỗi tín hiệu âm t h a n h ..........................
2.3.2 Phương pháp cửa sổ g ố i .....................................................................
2.3.3 Phương pháp cửa sổ gối kết hợp học m á y ........................................
2.3.4 Phương pháp D D A ...............................................................................
2.3.5 Phương pháp dựa trẽn w a v e le t...........................................................
M ột số ứng dụng của chuỗi đặc t r ư n g .........................................................
2.4.1 Giám sát p h át t h a n h ............................................................................
2.4.2 Các ứng dụng liên thông âm t h a n h ................................................
2.4.3 Các bộ lọc trong ứng dụng dùng chung f i l e ...................................
2.4.4 T ự động tổ chức th ư viện âm n h ạ c .................................................
2.4.5 M ột số ứng dụng k h á c .........................................................................
Mục tiêu và nội dung nghiên cứu của đề tà i ...........................................
D ịa diểm, thời gian và phương tiện nghiên c ứ u ........................................
K ết quả nghiên c ứ u ...........................................................................................
2.7.1 K ết quả khoa h ọ c ...................................................................................

1

6
6
6
6
6
7
7
7
7

8
8
8
9
9
10
10
10
11
11
11
11
12
12
12
12
12
13
13

M ự c LỰC

2.8
2.9

2.7.2 K ết quả đào tạo .
Thảo luận
Kết luận và kiến nghị

T ài liệu th a m k h ả o
P h ụ lục

Bảng giải thích các chữ viết tắ t

Bảng 1: Giải thích các chữ viết tắ t
C h ữ v iế t t ắ t

G iả i th íc h

BFCC
DDA
FLAC
LDA
M FCC
M PEG
M P3
O PCA
PCA
WAV

Bark Frequency C epstrura Coefficients
D istortion Discriminant Analysis
Free Lossless Audio Codec
Linear Discrim inant Analysis
Mel-Frequency C epstrum Coefficients
Movie Picture E xperts Group
M PEG-1 Audio Layer 3
Oriented Principal Com ponents Analysis

Principal Com ponents Analysis
Waveform Audio Form at

D anh sách cán bộ th am gia thực
hiện đề tài

Bảng 2: Đanh sách cán bộ, cộng tác viên, học viên cao học và sinh viên th a
thực hiện dề tài__________________________________________________________
H ọ c h à m C ơ q u a n cô n g tá c
S T T H ọ và tê n
h ọ c vị
1

Nguyễn Hải C hâu
(chủ nhiệm đề tài)

TS

2

Nguyễn Ngọc Hóa

TS

3

Đỗ Thị M inh Việt

ThS

4

Phạm Cẩm Ngọc

CN

5

Nguyễn T hị Thùy Linh

CN

K hoa Công nghệ thông 1
trường Đại học Công ng
ĐHQGHN
K hoa Công nghệ thông 1
trường Dại học Công ng
ĐHQGHN.
C entre of Excellence, Nor
gian U niversity of Science t
Technology (NTN Ư ), Norwa
K hoa Công nghệ thông 1
trường Dại hoc Công ng
DHQGHN.
K hoa Công nghệ thông 1
trường Dại hoc Công ng
đhqghn.

4

D anh mục bảng
1
2

Giải thích các chữ viết t ắ t ................................................................................
Danh sách cán bộ, cộng tác viên, học viên cao học và sinh viên tham
gia thực hiện đề t à i ............................................................................................

3
4

Tóm tắt những kết quả n gh iên C1
chính của đề tài
1.1

Tên đề tài

C h u ỗ i đ ặ c tr ư n g v à ứ n g d ụ n g tr o n g tìm k iế m d ữ liệ u đ a p h ư ơ n g tiệ]
(Acoustic fingerprint and its application in searching m ultim edia content).
Mã số: QC.0fs.01.

1.2

Chủ trì đề tài

Người chủ trì: TS. Nguyễn Hải Châu
Cơ quan: Trường Dại học Cóng nghệ. Dại học Quốc gia Hà Nội.

Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội.
Diện thoại: 04-37547813

1.3

N hữ ng kết quả chính

1.3.1 K ết quả về khoa học
• Chúng tôi đã nghiên cứu về nhận dạng âm th an h dựa trên chuỗi đặc tru
đề xuất các bước đề xây dựn£ m nt hệ thống nhân dạng trong thực tế.
tôi đã thử nghiệm xâv dưns một cơ sở dữ liệu âm th anh, huấn luyện (
để trích rú t các đặc trưng va th ủ nghiệm tìm kiếm dựa trên tín hiệu âm
vào từ micro với đỏ chính xác t.ốt. Các két quả nói trên đ ã được trìn h 1
tiết trong 01 bài báo khoa học gửi đcing tạp chí Tạp chí K hoa học, E
Q uor cia Hà Nôi.
• UI bân cáo chuyên de (technical report
thanh và COI ứng dụng.

f,

tổng quan ve rhuỗi đ ạ r tri

1. T Ó M T Ắ T NHỮNG K E T q u ả n g h i ê n c ứ u c h í n h c ủ a d ề t à i

1.3.2

7

K ết quả phục vụ thực tế

D ã hoàn th àn h bộ chương trìn h th ử nghiệm tìm kiếm âm th an h dựa trên chuỗi đặc
trưng với độ chính xác cao. Bộ chương trìn h có thể được tiếp tục p h á t triển để hoạt
động trong môi trường web.

1.3.3

K ết quả đào tạo

• D ã hướng dẫn tố t nghiệp 02 sinh viên bảo vệ tháng 6/2009 về đề tài tín h toán
chuỗi đặc trưng âm th an h và tìm kiếm dữ liệu đa phương tiện.
• Đang hướng dẫn 01 học viên cao học (là m ột th àn h viên thực hiện đề tài) thực
hiện đề tài nghiên cứu liên quan đến chuỗi đặc trưng âm th an h và tìm kiếm
các bản nhạc trong cơ sở dữ liệu đa phương tiện.

1.3.4

K ết quả nâng cao tiềm lực khoa học

Nghiên cứu về các th u ậ t toán, phương pháp và ứng dụng của chuỗi đặc trưng, đã
hướng dẫn sinh viên và thực tập sinh của khoa Công nghệ Thông tin của trường
Dại học Công nghệ về các vấn đề liên quan đến chuỗi đặc trưng và tìm kiếm dữ liệu
đa phương tiện.

1.3.5

Tình hình sử dụng kinh phí

Dã sử dụng hết kinh phí dược cấp của đỏ tài.

2

Báo cáo tổng kết
2.1

Đ ặt vấn đề

Chuỗi đặc trưng âm thanh ( audio fingerprint hoặc acoustic fingerprint) - sau đâ;
gọi tắ t là chuỗi đặc trưng - là m ột bản tóm tăt của m ột chuôi tín hiệu âm thanh
Chuỗi dặc trưng được sử dụng để tìm kiếm các m ẫu âm th an h hoặc p h á t hiện cá
mẫu âm thanh tương tự nhau trong m ột cơ sở dữ liệu âm thanh.
Chuỗi đặc trưng có nhiều ứng dụng, trong đó có thể kể đến: nhận dạng các bà
hát, các bản thu âm. quảng cáo; giám sát p h át thanh; quản lý th ư viện hiệu ứn
âm thanh; nhận dạng video v.v... Chính vì vậy chuỗi đặc trư ng đã trở thành đc
tượng nghiên rứu được quan tâm [l]-[27], đồng thời các ứng dụng của chuỗi đặ
trưng ngày càng phong phú [28]-[40].

2.2

Tổng quan tìn h hình ngh iên cứu chuỗi đặ<
trưng

Chuỗi đặc trưng âm thanh (audio fingerprint hoặc acoustic fingerprint) - sau đâ
gọi tắ t là chuỗi đặc trưng - là m ột bản tóm tắt của m ột chuỗi tín hiệu âm than?
Chuỗi đặc trư ng được sử dụng để tìm kiếm các m ẫu âm th an h hoặc p h á t hiện cá
m ẫu âm thanh tương tự nhau trong m ột cơ dữ liệu âm thanh.
Chuỗi đặc trư ng có nhiều ứng dụng, trong đó có thể kể đến: nhận dạng các bỉ
hát. các bản thu âm, quảng cáo: giám sá t p h á t thanh; quản lý th ư viện hiệu ứn
âm thanh; nhận dạng video v.v... C hính vì vậy chuỗi đặc trư ng đ ã trở th àn h đ(

tượng nghiên cứu được quan tâm [l]-[27]. đồng thời các ứng dụng của chuỗi dă
trư ng ngàv càng phong phú Ị28]-[40].
Trong báo cáo này. chúng tôi trìn h bày m ột cách tổng quan các phương phá
nghiên cứu về xác định, so sánh và tìm kiếm chuỗi đặc trưng; và m ột số ứng dụn
đ ã đư( 'huõi đặc trư ng như đã nói ở trên, là m ột bản tóm tắ t của m ột chuỗi tín hiệ
ãm thanh. Như vậy đi có dưcic chuỗi đặc trưng của một chuỗi âm th an h ta cần X£
dựr> - m i't ham / anh xa một r-huui bit A vào m ột chuỗi bít A Ị có độ dài nhỏ hơ]
Dt
sanh mư« đó tương tự giữa hai chuỏi bit (tín hiệu âm th a n h ' ,4i và A 2 chúr
*

2. BẢO CÁO TỔNG K Ế T

9

ta so sánh mức độ tương tự của hai chuỗi đặc trư ng tương ứng A ìf và A 2f ■c ầ n lưu
ý rằng việc so sánh A i t và A 2f không phải là so sánh bằng nhau tu y ệt đối về m ặt
to án học mà cần có tính cảm quan. Người nghe thường nhận dạng được cùng m ột
bản nhạc được p h át đi với chất lượng tín hiệu âm th an h khác nhau, chẳng hạn từ
chất lượng âm th an h từ DVD tố t hơn chất lượng âm th an h p h á t qua radio.
Do đó cần có m ột số tiêu chí để đánh giá hàm / nói trên. Sau đây là m ột số tiêu
chí thường được sử dụng:
• T ín h b ề n v ữ n g : Chuỗi đặc trưng phải ít th ay đổi khi tín hiệu âm th a n h bị
suy giảm hoặc tín hiệu âm th an h bị nhiễu, bị méo v.v... T ính chất này làm
tăng độ tin cậy khi nhận dạng âm th a n h trong môi trường thực, có nhiễu và
tạp âm hoặc biên độ tín hiệu nhỏ.
• T ín h t i n cậy: Chuỗi đặc trư ng cho khả năng nhận dạng đúng trong nhiều
trường hợp.

• Đ ộ lớ n c ủ a c h u ỗ i đ ặ c trứ n g : số lượng bit của chuỗi đặc trư ng nhỏ giúp
cho tốc độ tìm kiếm được cải thiện và giảm dung lượng lưu trữ .
• Đ ộ m ịn : Độ dài tối thiểu của chuỗi âm th an h (theo đơn vị thời gian) để có
thể nhận dạng. Chẳng hạn m ột số th u ậ t toán chỉ cần chuỗi tín hiệu âm th a n h
dài từ 15 đến 30 giây để tính chuỗi đặc trưng.
• T ố c đ ộ t ìm k iế m v à k h ả n ă n g m ở rộ n g : Đây là các yếu tố quan trọng
khi tìm kiếm âm th an h trong các cơ sở dữ liệu lớn. Tốc độ tìm kiếm (search
speed) và khả năng mở rộng được (scalability) là hai yếu tố được quan tâm
hàng đầu trong việc triển khai các hệ thống tìm kiếm âm thanh.

2.3

Các phương pháp xác định chuỗi đặc trư n g

2.3.1

Các loại đặc trưng của chuỗi tín hiệu âm thanh

Nguyên tắc chung cho việc xác định chuỗi đặc trư ng là trích rú t các đăc trư ng từ
chuỗi tín hiệu âm th anh. Các đặc trư ng của m ột bản nhạc thường được chia th à n h
hai loại chính: đặc trư ng ngữ nghĩa và đặc trư ng phi ngữ nghĩa.
Các đặc trư ng ngữ nghĩa thường có tín h trực quan. C hẳng hạn các đặc trư ng
thể loại (genre) âm nhạc, số nhịp trong m ột phút ( beats per m inute - bpm), điệu tính
(mood) là các đặc trư ng ngữ nghĩa. Do các đặc trưng loại này ít m ang tín h to án học,
nên thường ít được sử dụng để xác định chuỗi đặc trư ng vì nó không chính xác và ít
nhiều gắn với quan điểm cá nhân (chẳng hạn đặc trư ng thể loại). Bởi vậy chúng ta
tậ p trung vào việc phân tích các th u ậ t toán, phương pháp xác định chuỗi đặc trư n g
dựa trên các đặc trư ng phi ngữ nghĩa. Hiện nay có bốn phương pháp chính để xác
định chuỗi đặc trư ng dựa vào đặc trư ng phi ngữ nghĩa. Đó là các phương pháp: cửa
sổ gối [15], phương pháp của Y. Ke dựa trê n cửa sổ gối kết hợp với học m áy [19],

phương pháp phân tích biệt số méo của tín hiệu DDA [6] và phương pháp dựa trê n
wavelet kết hợp với các kỹ th u ậ t của lĩnh vực thị giác m áy [3], [4], [16]. Sau đây là
ý tưởng chính của từng phương pháp.

2. DÁO CÁO TỔXG K Ế T

nnat. rnương pnap nay sư aụng c a t cua su
----------- .
trích rú t các đặc trưng [15]. Cửa sổ gối được sử dụng dê I 11} n
hệ số dịch thời gian (time-shift) trong các t r ư ờ n g hợp c..ũng a

; , , ất hiến
in
a
ie
long

theo kiểu căn thời gian.
.
A
- , „1
Biểu diễn phô của tín hiệu âm thanh có thể được xây dựng bằng nhiêu each, cl
hạn đo năng lượng MFCC (Mcl-FYequency Cepstrum Coefficients) hoặc V t M ị l
FVequency Cepstrum Coefficients). J. Haitsm a và cộng sự [15] (la sư t ụng ^
,
xác định chuỗi đặc trưng. TVong bài báo của các tác gia nạy, 33 l>ạng ta n
được sử dụng trong dải tần 300-2000 Hz và cứ môi 11,6 mill giay lại có m ọt í.
đặc trưng con (sub-fingerprint) được tạo ra trong m ột frame 370 mill giâỵ. D(
frame gối nhau nên các chuỗi đặc trưng biến đổi chậm theo thời gian. Khi đo

so sánh độ tương tự giữa hai bản nhạc sẽ qui về so sánh nhiều chuổi đặc trư ng
Việc so sánh các chuỗi này là khá đơn giản dựa vào việc tính khoang cach Ham]
giữa các chuỗi đặc trưng con tương ứng. Ưu điểm của phương pháp này là tính
giản và tốc độ tính toán cao.

2.3.3

Phương pháp cửa sổ gối kết hợp học máy

Phương pháp th ứ hai được đưa ra gần đây, được xem là mở rộng của cửa sổ
Y. Ke và các cộng sự [19] sử dụng nền tản g tương tự như J. H aitsm a [15] nhưi
thêm tính năng học máy khi xác định các đặc trưng. M ột đặc điểm quan trọng
là Y. Ke đã biểu diễn tín hiệu âm th an h 1-D như m ột ảnh số khi biểu diễn t
không gian hai chiều với các trục thời g ia n -tầ n số.
Kỹ th u ật học máy Y. Ke sử dụng [19] là A daB oost, là m ột kỹ th u ậ t khá
biến trong các ứng dụng về thị giác máy, chẳng hạn như p h á t hiện m ặt người t
ảnh [26]. Y. Ke và các cộng sự đ ã sử dụng A daB oost cho hệ thống của m ình họ
đặc trưng về năng lượng trên m ột số tầ n số chọn lọc theo thời gian. Dộ dài vi
số được chọn thông qua th u ậ t to án A daB oost. Áp dụng th u ậ t to án A dB oost, (
đặc trư ng được lựa chọn, từ đó tạo được chuỗi đặc trư ng con tương ứng có 3'.
Khi có yêu cầu tìm kiếm bản nhạc, hệ thống của Y. Ke [20] trước hết xử lý di
âm th an h vào tương tự như [15] để tạo chuỗi đặc trư ng con. Sau đó, tín h kh
cách Hamming giữa các chuỗi đặc trư ng con để tìm độ tương tự.

2.3.4

Phương pháp D D A

Phương pháp th ứ ba [6] sử dụng phương pháp DDA (D istortion D iscrim inant 1
ysis) - m ột phương pháp trích rú t các đặc trư ng được xem như bền vững với 1

- để xác định chuỗi đặc trưng. Các đặc trư ng được xác định bởi DDA thường
ta p hơn cac đặc trư ng đượr đưa ra trong các bài báo của J. H aitsm a [15] và '
19' nhưng lạ.1 cho phcp tính được các chuôi đặc trư ng của các chuỗi tín hiệu dà
C AC phương pháp khác. DDA được dựa trên m ột biến th ể của phương pháp
(Linear Dis< rim inant Analysis) được gọi là O riented Principal Com ponpnts An

11

2. BÁO CÁO TỔNG K Ế T

(OPCA).
OPCA giả th iết có m ột phiên bản tín hiệu bị méo của các m âu huân luyện đê
từ đó tìm ra các đặc trưng ít bị biến đổi khi thực hiện bước tiền xử lý tín hiệu làm
giảm nhiễu đến mức tối thiểu và tăng tối đa mức tín hiệu. Ngược lại, phương pháp
PC A (Principal Com ponents Analysis) tìm tậ p các vector trực giao để tăn g tối đa
sự biến đổi của tín hiệu. Như vậy O PC A tìm được tậ p các vector không trự c giao có
thể dùng để tín h toán nhiễu. Thực nghiệm của Burges và các cộng sự [6] cho th ấy
chuỗi đặc trư ng xác định bằng phương pháp DDA ít bị biến đổi với vấn đề căn thời
gian và quan trọng hơn là ít bị biến đổi với các loại nhiễu không có trong dữ liệu
huấn luyện.

2.3.5

Phương pháp dựa trên wavelet

s.

Phương pháp này do các tác giả
B aluja và M. Covell (Google Inc.) p h á t triển [3],

[4], [9] dựa trên tiếp cận của Y. Ke [19]: áp dụng các kỹ th u ậ t trong lĩnh vực thị
giác máy vào việc xây dựng chuỗi đặc trư ng và tiếp cận dựa trê n wavelet của c.
Jacob [16]. Phương pháp này không sử dụng kỹ th u ậ t học máy m à dựa trẽ n tiếp cận
wavelet để tăng tốc độ tìm kiếm trong cơ sở dữ liệu đa phương tiện lớn [16]. Chuỗi
đặc trưng do
B aluja và M. Covell đề x u ất dựa trên công trìn h của J. H aitsm a
[14], [15] nhưng có cải tiến nâng cao để có thể đại diện cho m ẫu tín hiệu âm th an h
có độ dài lớn hơn.

s.

2.4

M ột số ứng dụng của chuỗi đặc trưng

2.4.1

Giám sát phát thanh

Giám sát p h á t th an h (broadcast m onitoring) là m ột ứng dụng quan trọng của chuỗi
đặc trưng [1], [14], [23], [12], [39], [40]. TYong giám sá t p h á t th a n h truyền thống,
cơ quan giám sát có các nhân viên theo dõi trên các kênh p h á t th an h và so sánh
với chương trìn h p h á t để ph át hiện sai sót. Các hệ giám sát p h á t th a n h dựa trên
chuỗi đặc trư ng thường có hai loại m áy chủ: M áy chủ giám sá t và m áy chủ tru n g
tâm . Máy chủ giám sát đóng vai trò như nhân viên giám sá t của p h á t th a n h truyền
thống, theo dõi các kênh p h át th an h và báo cáo các chuồi đặc trư ng cho m áy chủ
trung tâm . M áy chủ trung tâm sử dụng các chuỗi đặc trư ng này để tìm kiếm trong
cơ sở dữ liệu và sinh ra được báo cáo về chương trìn h p h á t của các kênh bị giám sát.

2.4.2

Các ứng dụng liên thông âm thanh

Các ứng dụng liên thông âm th an h ( connected audio) là th u ậ t ngữ chung chỉ các
ứng dụng dành cho người dùng có liên quan tới âm th a n h /â m nhạc cùng với các
thông tin liên quan. M ột ví dụ đặc trư ng n h ấ t là ứng dụng tìm kiếm bản nhạc qua
điện thoại di động. Người dùng ư nghe bản nhạc p h á t qua loa, hoặc đài p h á t th a n h
và muốn biết tên bản nhạc, ca sĩ thể hiện. Người này sẽ gọi điện thoại đến m ột số
điện thoại dịch vụ để bản nhạc thu qua điện thoại được truyền tới server chứa cơ sở
dữ liệu âm nhạc. Server căn cứ vào chuỗi đặc trư ng để tìm tên bản nhạc, ca sĩ thể

2. DÁO CÁO TỔXG K Ế T
hiện V.V.. và gửi kết quả cho người dùng. Dây là một ứng dụng rấ t kho VI tí

<

âm thanh sau nhièu lần truyền đã bị suy giảm và có nhiêu n Lieu [. - j , [■ jji [ *)■

2.4.3

Các bộ lọc trong ứng dụng dùng chung file

Trong các ứng dụng dùng chung file, chuỗi đặc trư ng được sư dụng đe nhạn ra c
file âm nhạc có bản quyen và không cho người dùng download các file này. Na
2001. Napster [31] cài đặt bộ lọc dựa trên tên file nhưng bộ lọc này hoạt động khôi
hiệu quả. Do đó vào tháng 5/2001, N apster đã sử dụng bộ lọc dựa trên chuỗi đ
trưng của Relatable [301.

2.4.4

Tự động tổ chức thư viện âm nhạc

Chuỗi đặc trưng có thể được sử dụng vào việc tự động tô chức th ư viện âm nhí
Hiện nay MP3 là khuôn dạng file thường được sử dụng đé lưu trữ tro n g các tl
viện âm nhạc. Các file MP3 được tạo ra từ nhiều nguồn khác nhau do đó siêu I
liộu (m eta data) kèm theo như tên tác giả, tác phẩm , người thể hiện, năm thu ĩ
không được đầy đủ và nhất quán. Khi đó chuỗi đặc trưng được sử dụng để ho
thiộn các thông tin nàv [28], [29], [39].

2.4.5

M ột số ứng dụng khác

Chuòi đặc trưng còn có rất nhiều ứng dụng khác trong thực tiễn. Trong lĩnh V
truyền hình, chuỗi đặc trưng đượr sử dụng trong các ứng dụng về truyền hình
tương tác [11] m à không cần sử dụng thêm các th iết bị đặc biệt, hoặc tự độ
ph át hiện và thay thế các đoạn quảng cáo [5]. Khác hiệt so với các công nghệ khi
chuỗi đặc trưng hướng tới các ứng dụng đa phương tiện với các mục tiêu chính
nhận dạng các dối tượng m à không cần đến các thông tin siêu dữ liệu như me
watermark.

2.5

M ục tiêu và nội dung n gh iên cứu của đề tà

Mục tiêu của đề tài này là nghiên cứu về chuỗi đặc trư ng âm thanh: Tìm hiểu
nghiên cứu cơ sở lý thuyết, các phương pháp và th u ậ t toán xác định, so sánh và (
kiếm chuỗi đặc trư ng để xác định đượr các chuỗi tín hiệu tương tự nhau. Trên
sớ tìm hiểu các phương pháp, th u ậ t toán đã có. chúng tôi d ã tiến hành xây di

th ử nghiệm th àn h công ứng dụng tìm kiếm bản nhạc gốc dựa trên chuỗi tín h
âm thanh đầu vào thu được từ micro, hoặc từ file âm th an h với các loại định di
phong phú như M P3, WAV, FLAC, V . V . .

2.6

Đ ịa điêm , thời gian và phương tiện n gh iên C1

r»> tai này đirr h o n t tin, trườnp Dại 111If Công nghệ. Dại học Quốc gia Hà Nói từ th án g 6/2

2. B Á O CÁO TỔNG K Ế T

13

đến th án g 6/2009. Trong quá trình nghiên cứu chúng tối đã sử dụng các phương
tiện nghiên cứu sau đây:
• K ết nối Internet của trường: dùng vào việc tải các phần mềm, dữ liệu thử, bài
báo khoa học.
• 01 m áy trạ m H P C PU Intel Core 2 Duo E4500 2*2.2G H z/ 2MB C ache/ Chipset
Intel / 2GB D D R 2/ 80GB SATA H D D / 16 in l C ardR eader /In te l GM A 3100
u p to l2 8 M B / DV D-RW / G igabit N IC / lx P C I Ex - dùng làm server cơ sở dữ
liệu và thự c hiện tìm kiếm âm thanh. Máy trạ m này được tra n g bị theo dự
án " Tăng cường năng lực nghiên cứu cho Phòng thí nghiệm chuyên đề Các Hệ
thống Thông tin Tích hợp và Công nghệ Phần m ềm " năm 2008-2009.
• 02 máy tín h xách tay, 02 micro và 01 bộ loa ngoài (do cá nhân tự tra n g bị).

2.7
2.7.1

K ết quả nghiên cứu
K ết quả khoa học

Chúng tối đã đề x u ất các bước để xây dựng m ột hệ thống nhận dạng âm th an h
trong thực tế. Chúng tôi đã th ử nghiệm xây dựng m ột cơ sở dữ liệu âm th an h , huấn
luyện dữ liệu để trích rú t các đặc trư ng và th ử nghiệm tìm kiếm dựa trẽn tín hiệu
âm th an h vào từ micro với độ chính xác tố t. Các kết quả nói trên đã được trìn h bày
chi tiết trong 01 bài báo khoa học đang gửi đãng tạ p chí Tạp chí K hoa học (Dại học
Quốc gia H à Nội). K ết quả nghiên cứu của chúng tối cho thấy việc triển khai m ột
ứng dụng nhận dạng bản nhạc qua tín hiệu th u được từ micro là hoàn toàn khả thi.

2.7.2

K ết quả đào tạo

D ã có hai sinh viên thực hiện khóa luận tố t nghiệp theo hướng nghiên cứu của đề
tài. Hai khóa luận này đã được bảo vệ th à n h công vào ngày 2 /6/2009 tại Khoa Cõng
nghệ Thống tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội:
1. Bùi T h an h X uân, Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc
số, K hóa luận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.
2. Vũ T hị Tư, Tìm kiếm dữ liệu âm thanh bằng phương pháp QbH (Q uery by
H um m ing) và ứng dụng, K hóa luận tố t nghiệp Đại học, trường Đại học Công
nghệ, 2009.

2.8

T h ảo luận

Chúng tối đ ã đ ạ t được các kết quả chính sau đây tro n g đề tài nghiên cứu QC.08.01:

• Chúng tõi đ ã nghiên cứu tổng quan về chuỗi đặc trư ng âm th an h , các phương
pháp xây dựng và tìm kiếm, so sánh các chuỗi đặc trư ng âm th an h đang được

2. DÁO CÁO TỔNG K Ế T
nghicn cứu và phát triển; và các ứng dụng của nó trong giam sa p
tìm kiếm dữ liệu đa phương tiện, tạo các bộ lọc trong cac ưng
chung file

V .V ..

• Chúng tôi đã xây dựng ứng đụng tìm kiếm thử nghiệm dựa trên m a nguoi
Yan Ke [201, m ã nguồn của thư viện biến đôi Fourier nhanh ( h tt p : /WWW.
thư viện thao tác với các định dạng dữ liệu video va audio ffm peg
(h ttp : // w w .f f m p e g .o r g ), chương trình ứng dụng mpgl23
(http://WWW m pgl23.de) dùng để phát th an h m ột số định dạng file Ị
WAV V . V . . TVong ứng dụng này chúng tôi đ ã chi tiẻt hóa việc xảy dựng di
huấn luyện và phương pháp kiểm thừ kết quả. Ưng dụng đ ã được th ư ng
cho kốt quả tốt với việc nhận nhận dạng bản thu âm của các bản nhí
mẫu thu qua micro có độ dài 30 giây (Xem chi tiết: bài báo trong phụ lục
theo).
• Dựa trên các kết quả đã nêu ở trên, chúng tôi đã hoàn th àn h và chuẩn t
đăng một bài báo (Tạp chí Dại học Quốc gia Hà Nội) với nội dung liên
đến tìm kiếm bản nhạc trong cơ sỏ dữ liệu dựa trên chuỗi đặc trư ng âm tl
Ngoài ra chúng tôi cũng đã hoàn th àn h m ột báo cáo tổng quan về chuỗ
trưng âm thanh và các ứng dụng trong tìm kiếm âm nhạc (xem phụ lục
báo cáo này).

2.9 K ết luận và kiến nghị
Trong xu hướng p h á t triển mạnh của các ứng dụng Internet sử dụng nhiều lo

liệu khác nhau đặc biệt là dữ liệu đa phương tiện, chuỗi đặc trưng âm th an h 1
tượng nghiên cứu có tính thời sự, ý nghĩa khoa học và khả năng ứng dụng thự(
cao. Chung tôi sẽ tiêp tục triẽn khai th ử nghiệm hệ thống nhận dạng âm nhạc
trên các nghiên cứu trong đề tài này, đặc biệt trong môi trường web. Lưu trữ
lượng lớn và cải thiện tốc độ tìm kiếm là các vấif đề cần được tiếp tục quan
nghiên cứu.

Tài liệu tham khảo
[1] E. Allamanche, J. Herre, 0 . Hellmuth, B. B ernhard Frobach, M. Crem er, AudioID: Towards Content-Based, Identification o f Audio Material, 100th AES
Convention, A m sterdam , The N etherlands, 2001.
[2] A. Andoni and p. Indyk, Near-optimal hashing algorithms fo r approximate near
est neighbor in high dimensions, in 47th Annual IE E E Sym posium on Founda
tions of Com puter Science ( F 0 c s ’06), 2006, pp. 459-468.
[3] Baluja, Covell, Content fingerprinting using wavelets, Proceedings of th e 3rd
European Conference on Visual M edia P roduction (CV M P), 2006.

I

[4] S. B aluja, M. Covell, Audio Fingerprinting: Com bining C om puter Vision &
Data Stream Processing, Proceeding of the IE E E International Conference on
Acoustics, Speech and Signal Processing (ICASSP), 2007.
[5] M. Covell, S. B aluja, M. Fink, Advertisem ent Replacem ent using Acoustic and
Visual Repetition, Proceedings of the IEEE W orkshop on M ultim edia Signal
Processing, 2006.
[6] c . Burges, J. P la tt, s. Jana, D istortion D iscrim inant A nalysis fo r Audio F in
gerprinting, IE E E Transactions on P a tte rn Analysis and M achine In tellig en ce,
11 (3), 2003.

■[7] P. Cano, E. Batlle, T. Kalker, J. Haitsm a, A review o f algorithms fo r audio

fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.
[8] Y. Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, International
Symposium on Music Inform ation Retrieval (ISM IR) 2001, Bloom ington, USA,
O ctober 2001.
[9] M. Covell, S. B aluja, K now n-Audio Detection Using W aveprint: Spectrogram
Fingerprinting B y Wavelet Hashing, Proceedings of the IE E E International
Conference on Acoustics. Speech and Signal Processing (IC A SSP), 2007.
[10] A. D uda, A. Niirnberger, and s. Stober, Towards query by hum m ing/singing on
audio databases, in Proceedings of the 7th International Conference on Music
Inform ation Retrieval, 2007.

TÀI LIỆU THAM KHẢO

I

[111 M. Fink, M Covell, s. Baluja. Social- and Interactive-Television Apphcatioj
Based on Real-Time Am bient-Audio Identification, Proceedings of EuroITN
2006.
[12] D. Fragoulis D., G. Rousopoulos, T. Panagopoulos, c . Alexiou, c . Pi
paodysseus, On the Automated Recognition o f Seriously D istorted M usic
Recordings, IEEE Transactions on Signal Processing, 4 9 (4), pp. 898-908, 200
'13] A. Gionis p. Indyk. R. Motwani, Sim ilarity search in high dim ensions via hasi
mg Proceedings of the International Conference on Very Large D atabases, 199'
[14] J. Haitsma, T. Kalker, J. Oostveen, Robust Audio Hashing fo r C ontent Ideni
fication, Content Based M ultimedia Indexing 2001, Brescia, Italy, 2001.
[15] J. Haitsma, T. Kalker, A Highly Robust Audio Fingerprinting System , Procee<
ings of the International Conference for Music Inform ation Retrieval, 2002.
[16] c . Jacobs, A. Finkelstein, D. Salesin, Fast M ultiresolution Im age Queryin
Proceedings of SIGGRAPH, 1995.

[17] J.-S. R. Jang and M.-Y. Gao, A query-by-singing system based on dynam ic pr
gramming, in Proceedings of the International W orkshop on Intelligent Systen
Resolutions, 2000.
[18] J.-S. R. Jang, C.-L. Hsu, and H.-R. Lee, Continuous H M M and its enhanceme
fo r singing/hum m ing query retrieval, in Proceedings of the 6 th Internation
Conference on Music Inform ation Retrieval, 2005.
[19] Y. Ke, D. Hoiem, R. Sukthankar, Com puter Vision fo r M usic Jdentificatio
Proceedings of the IEEE Com puter Society Conference on C om puter Visit
and P attern Recognition (C V PR ), 2005.
[20] Y. Ke et al., Com puter vision fo r m usic ' identification: server cot
h t t p : //www. c s . emu. e d u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - 1 . 0 . t a r . gz,
2005.
[21] K. Lemstrom, String Matching Techniques fo r M usic Retrieval, Ph.D . thes
University of Helsinki, 2000.
l22]

c . Meek and w . Birmingham , Applications o f binary classification and adapti
boosting to the query-by-humming problem, in Proceedings of the 3rd Interr
tional Conference on Music Inform ation Retrieval, 2002.

[23] H. Neuschmied. H. Mayer, E. B attle. Identification o f Audio Titles on the J
tem et, Proceedings of the International Conference on Web Delivering of Mu
2001. Florence: Italv. November 2001.

17

TÀI LIỆU T H A M KHẢO

[24] J. Oostveen, T. Kalker, J. H aitsm a, Feature Extraction and a Database Strategy

fo r Video Fingerprinting, 5th International Conference on Visual Inform ation
Systems, Taipei, Taiwan, March 2002, published in Recent advances in Visual
Inform ation Systems, LNCS 2314, Springer, Berlin, pp. 117-128.
[25] R. Typke, Music Retrieval based on Melodic Sim ilarity, Ph.D . thesis, Universiteit U trecht, 2007.
[26] P. Viola, M. Jones, R obust Real-tim e O bject D etection. Proceedings of the
International Conference for Com puter Vision, 2001.
[27] X. Wu, M. Li, J. Yang, and Y. Yan, A top-down approach to melody m atch
in pitch countour fo r query by humming, in Proceedings of the International
Conference of Chinese Spoken Language Processing, 2006.
[28] A uditude website h t t p : //www. a u d it u d e . com
[29] ID3M an website h t t p : //www. id3m an. com
[30] Relatable website h t t p : //www. r e l a t a b l e . com
[31] N apster website h t t p : //www. n a p s t e r . com
[32] W ebsite All Media Guide h ttp ://w w w .a llm e d ia g u id e .c o m /la s s o /
[33] h t t p : / / b u s i n e s s . m u fin . c o m /e n /p ro d u c ts /
m u fin -a u d io id - m u s ic -r e c o g n itio n - a n d - m u s ic -m o n ito r in g /
[34] W ebsite G racenote h t t p : //www. g r a c e n o te . com/
[35] W ebsite Last.fm h t t p : //www. l a s t . fm /
[36] W ebsite Music Brainz h t t p : / / m u s i c b r a i n z .o r g /
[37] W ebsite Shazam h t t p : / /www. shazam . com/
[38] W ebsite T unatic h t tp : // w w w .w il d b it s .c o m / tu n a ti c /
[39] Moodlogic website h t t p : //www .m o o d lo g ic . com
[40] Yacast website h t t p : //www. y a c a s t . com

G 'a Hà Nộ '
Tâ m t h ò n g -I in th u v iệ n

đại họ c q u ố c
tr u n g

Phụ lục
Phụ luc gồm có:
• 01 bài báo của đề tài gửi đăng Tạp chí Khoa học, Đại học Quốc gia Hà Nội
• 01 báo cáo tổng quan về chuỗi đặc trưng âm th an h do các cán bộ th am gia đề
tài thực hiện
• 02 bìa luận văn tốt nghiệp đại hoc năm 2009 thực hiện theo hướng nghiên cứu
của đề tài
• Bản sao Dề cương và Hợp đồng thực hiện đề tài nghiên cứu đ ã được phê duyệt
• Bán cáo tóm tắ t kfit quả nghiên cứu của đề tài bằng Tiếng Anh
• Phiếu dăng ký kết quả nghiên cứu KHCN để ở trang cuối trong báo cáo tổng
két

IX

Xây dụng ứng dụng tìm kiếm âm nhạc dựa trên chuỗi đặc
trung âm thanh
Phạm Cẩm Ngọc, Nguyễn Hải Châu
Khoa Công nghệ Thông tin,Trường Đại học Công nghệ
Đại học quốc gia Hà Nội
Email: ,

Tóm tắt
Trong bài báo này chúng tôi nghiên cứu, đề xuất và xây dựng một ứng
dụng thừ nghiệm để tìm kiếm các bản nhạc dựa ừên dữ liệu là tín hiệu âm
thanh thu được từ micro. Hiện nay cỏ nhiều phương pháp tìm kiếm âm nhạc
dựa trên tín hiệu âm thanh, chúng tôi sử dụng chuỗi đặc trumg âm thanh kết hợp
với kỹ thuật học máy thống kê để xây dựng ứng dụng này. Trên cơ sở những
nghiên cứu của Yan Ke trong việc áp dụng các kỹ thuật về thị giác máy để giải

quyết vấn đề tìm kiếm âm nhạc, chúng tôi đã tập trung xây dựng dữ liệu huấn
luyện cho hệ thống, đạt được những kết quả khả quan so với bộ dữ liệu trước
đó của Yan Ke, với độ chính xác trong tìm kiếm lên tới 98%.

1. Giói thiệu
Hiện nay, có rất nhiều phương pháp tiếp cận khác nhau để giải quyết bài
toán tìm kiếm âm nhạc. Hai phương pháp điển hình và được ứng dụng rộng rãi
nhất trong thực tế đó là tìm kiếm dựa trên chuỗi đặc trưng âm thanh
(fingerprint) cùa các bản nhạc và tìm kiểm dựa trên giai điệu của bài hát. Một
hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài
hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng
ứng với việc tìm kiếm một fingerprint phù hợp nhất trong tập các fingerprint.
Khi sử dụng một hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10]
hay Shazam [9], người sử dụng có thể gửi các bản nhạc đã thu âm qua micro từ
máy tính cá nhân của mình cho server và nhận kết quả trả về là thông tin liên
quan đến bài hát gốc.
Hệ thống tìm kiếm dựa trên giai điệu hay còn gọi là Query by humming
(Qbh) là một hệ thống phân loại bản nhạc theo tên bài hát, nghệ sỹ biểu diễn,
1

lác giả bài hát và thể loại. Hệ thống nhận đâu vào là giai điẹu cua cac ban nhạc
và so sánh nó với giai điệu của các bản nhạc khác trong cơ sơ dư liẹu roi đưa ra
một danh sách sẳp thứ tự các bài hát có giai điệu giong VƠI ban nhạc đo nhat.

Một hệ Query by humming kiểu như Musipedia [11] hay Midomi [12] cho
phép người dùng nhập vào giai điệu bài hát theo nhiêu cach khac nhau như
huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search.
Từ thực tế đó kết hợp với việc nghiên cứu các phương pháp tìm kiêm âm
nhạc đang được nghiên cứu phổ biến hiện nay, đặc biệt là phương phap chuoi

đặc trưng âm thanh kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung
tôi tiến hành xây dựng một hệ thống tìm kiêm âm nhạc dựa trên các fingerprint.
Mỗi khi một bài hát được thêm mới vảo cơ sở dữ liệu, hệ thống sẽ lưu lại các
trường thông tin của bài hát như tên tác giả, ca sỹ thể hiện, thể loại nhạc ...
đồng thời thực hiện các biến đổi Fourier và tính toán càn thiết để trích ra được
các fingerprint tương ứng với bài hát đó và lun trữ nó như một trường đặc biệt,
trường fingerprint. Khi người sử dụng gửi một truy vấn là một bản nhạc đã thu
âm tới hệ thống, trước tiên hệ thống thực hiện các phương pháp tiền xử lý như
lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm của bài hát, sau đó tiến hành
tính toán ra fingerprint của bàn nhạc đó, tim kiếm trong cơ sở dữ liệu những
fingerprint gần giống với nó nhất và đưa ra kết quả là danh sách sắp thứ tự các
bài hát gốc với các thông tin hữu ích kèm theo.
2. Xây dựng và thử nghiệm hệ thống
Khi nhận được một bản nhạc thu âm mà vì nhiều lý do khác nhau đã bị
nhiễu như thu âm trong môi trường có nhiều tiếng ồn, thu âm với một micro
chât lượng thâp, ... người sử dụng muốn hệ thống có thể đưa ra được một cách
nhanh nhất bản nhạc đó thuộc về bài hát gốc nào.
Đẽ xây đựng một hệ thống fingerprint đáp ứng được yêu cầu trên, Yan Ke
[7] chuyên đôi bài toán cân giải quyêt sang bài toán trong lĩnh vực khác và đã
có lời giải, đó là thị giác máy. Mới nghe qua, các vấn đề trong phạm vi âm
thanh có vẻ như không có môi liên hệ gì với lĩnh vực computer vision. Trong
lĩnh vực âm thanh, người ta cân phải xử lý các tín hiệu 1-D theo thời gian, còn
trong computer vision, mục đích của các nhà phát triển là đưa ra được các hình
anh 2-D la) ra từ một khung cảnh 3-D. Tuy nhiên, động lực chính thúc đẩy
hướng tiẽp cận này, đó là gần đây, các nhà nghiên cứu thường sử dụng các hình
2

ảnh 2-D liên tục theo thời gian (spectrograms) khi phân tích âm thanh và giọng
nói nhằm mục đích trực quan hóa bằng hình ảnh.

Khi cài đật hệ thống, việc biên dịch mã nguồn server cũng như xây dựng
cơ sở dữ liệu, thu âm bài hát, chia bài hát thành các snippet để tạo dữ liệu huấn
luyện... được chúng tôi thực hiện trên hệ điều hành Linux, đồng thời chúng tôi
sử dụng thêm một sổ thư viện sẵn có như fftw3 (fftw.org), ffmpeg (ffmpeg.org)
và mpgl23.
Hệ thống chúng tôi xây dựng gồm hai thành phần: chương trình giao diện
người sử dùng (UI) viết trên Java 1.4 và chương trình server nhận dạng bài hát
(MIS) viết bằng C++. Phía UI sẽ thực hiện gửi các truy vấn tới MIS qua các
TCP/IP socket, do đó cả hai có thể dịch trên cùng một máy hay các máy khác
nhau. Nếu không được chỉ định, cổng mặc định ờ đây là 2000. Để kiểm nghiệm
hệ thống, chúng tôi cho UI tự động gửi liên tục các truy vấn là các bản nhạc thu
âm tới server, sau đỏ nhận kết quả trả về là tên bài hát gốc, tiến hành kiểm tra
tính đúng đắn và ghi lại kết quả cho các mục đích thống kê sau này.
2.1. Xây dụng cơ sở dữ liệu các fingerprint
Hai chương trình chính sử dụng để xây dựng cơ sờ dữ liệu khóa là
makekeys và builddb. Chương trình đầu tiên nhận đầu vào là các một danh sách
các file nhạc định dạng WAV, thực hiện tính toán khỏa (các fingerprint) cho
mỗi bài hát, sau đó ghi khóa đó vào một thư mục chung chứa các khỏa. Để
chạy được, chương trình cần các thư viện là codew av.cc - chuyển đổi các file

WAV thành dạng bit và sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu.
Chương trình thứ hai sừ dụng các thư viện keypointdb.cc - quản lý cơ sở dữ
liệu khóa và directhash.cc - xây dựng các bảng băm trực tiếp của tất cả các
khóa trong cơ sờ dữ liệu khóa. Chương trình sẽ đọc một danh sách các khóa và
xây dựng cơ sở dữ liệu từ tập hợp khóa đó.
Tuy nhiên, trong thực tế, việc lưu trữ các file nhạc định dạng WAV gặp
nhiều khỏ khăn do kích thước các file nhạc là rất lớn, chúng tôi đã kết hợp sử
dụng thư viện ffmpeg trong cải tiến chương ưình sinh khóa để hệ thống có thể
tính khóa từ tập các bài hát định dạng MP3.
2.2. Xây dụng dữ liệu huấn luyện cho việc tìm kiếm

Để xây dựng cơ sở dữ liệu cho việc tìm kiểm, trước hết cần phải cỏ một
tập các bài hát đã được thu âm trong môi trường có nhiều nhiễu. Tập các bài
3

hát đã thu âm này và các bải hát gốc cùa nỏ sau đó được chia thanh cac snippet
ngắn (30 giây cho mỗi snippet). Các snippet tương ứng sau khi thực hiện trích
rút đặc trưng sẽ được so sánh với nhau đê tạo thành tạp dư liẹu học. Chung tôi
đã xây dựng các chương trình giúp cho việc xây dựng dữ liẹu huan luyẹn được
thuận tiện.
• Chương trình balchrec: sử dụng thư viện ffmpeg và mpg 123 thực hiện
tự dộng mở và thu âm lại các bài hát từ đâu đên khi ket thuc, ghi
chúng vào thư mục các bài hát đã thu âm.
• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ một bài
hát thành các snippet kế tiếp nhau theo một khoảng thời gian nào đó
(thường là 30 giây).
•

Chương trình emtraining: tự động đọc một đanh sách các snippet gốc
và snippet đã thu âm, tính toán khóa cho các snippet này, sau đó tiến
hành xây dựng tập dữ liệu học.

Trong quá trình xây dựng dữ liệu huấn luyện, chúng tôi lựa chợn tập dữ
liệu học dược phân loại theo một sổ tiêu chí về thể loại nhạc để tạo nên các bộ
dữ liệu huấn luyện khác nhau. Các snippet dùng làm dữ liệu học cũng như các
snippet truy vấn đều được chúng tôi thu âm qua micro chất lượng không tốt và
môi trường có nhiều tiếng ồn gây nhiễu. Chúng tôi tiến hành chạy chương trình
ứng dụng theo một danh sách các snippet đã thu âm để đưa ra được những đánh
giá tổng quan về quá trình học cùa hệ thống.
3. Ket quả thực nghiệm

Chúng tôi đã xây dựng một hệ thống nhận đạn^ âm thanh dựa trên chuỗi
đặc trưng với cơ sở dữ liệu cỏ 597 bài hát và tiến hành kiểm tra độ chính xác
của việc tim kiêm trên hai tập dữ liệu vào T] và T 2 gồm các snippet được lựa
chọn ngâu nhiên từ cơ sở dữ liệu 597 bài hát nói trên. Tập dữ liệu T| bao gồm
956 snippet đã được thu âm trong môi trường nhiều nhiễu (tiếng ồn ban ngày ở
khu tập thê, tiêng rè của loa và micro do chất lượng kém và tiếng gió tạo ra từ
quạt máy); T? bao gôm toàn bộ các snippet trong T| đã được tiền xừ lý bằng
cách tăng biên độ tín hiệu nhưng không khử nhiễu.
Chúng tôi tiên hành kiêm tra kêt quả thực nghiệm trên ba bộ dữ liệu huấn
luyện: bộ dữ liệu huấn luyện cùa Yan Ke (gọi tắt là YanKe) và hai bộ dữ liệu
huân luyện do chúng tôi tạo ra (gọi tẳt là HL|, HL 2). Bộ dữ liệu huấn luyện HL|
4

Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện : Đề tài NCKH. QC.08.01

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về