Tải bản đầy đủ (.pdf) (51 trang)

Áp dụng thuật toán k nearest neighbor để phân loại nhạc theo thể loại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.34 MB, 51 trang )

1




KHOA CÔNG NGH THÔNG TIN
*************








ÁP DNG THUT TOÁN
K  
PHÂN LOI NHC THEO TH LOI


KHÓA LUN TT NGHII HC
Chuyên ngành: 















 2015

2



KHOA CÔNG NGH THÔNG TIN
*************








ÁP DNG THUT TOÁN
K  
PHÂN LOI NHC THEO TH LOI


KHÓA LUN TT NGHII HC
Chuyên ngành: 










ng dn khoa hc
PGS. TS. BÙI TH HNG



2015

3



























. TS. BÙI TH H









 











.








 , 




Thông tin, 






 . 

, 






























.









 






































.






















 . 
.
, 
Sinh viên


Nguy






4







: NGUY


 : K37  CNTT, 


 , 






2.

1. 

ng thut toán K   phân loi nhc theo
th lo





 , 













PGS. TS. Bùi Th Hng.
2. .










.
, 





Nguy










5

MC LC
M u 8
 LÝ THUYT 11
1.1. Lch s h thng x lí âm thanh 11
1.2. Âm thanh và s hóa âm thanh 14
1.2.1. Âm thanh 14
1.2.2. Các tham s ca sóng âm 15
1.2.3. S hóa âm thanh 17
1.3. Tng quan v âm nhc 20
1.3.1. Nt nhc 21
1.3.2.  22
1.4. i nhc 25
1.5. Bii Fourier ri rc 26
 T TOÁN K     PHÂN LOI
NHC THEO TH LOI 29
2.1. Khai phá d liu 29
2.2. Phân lp 30
2.3. Mô t thut toán phân lp k  Nearest Neighbor 32
2.4. Phân lp K  Nearest Neighbor 33
   NG NG DNG PHÂN LOI NHC THEO TH
LOI 36
3.1. Gii thiu bài toán 36
3.2. Thut toán 37
3.2.1.  37
3.2.2. n b cc âm sc (Timbral Texture Features) 38
6

3.2.3. Cân bng h s n b cc âm sc 41

3.2.4. Khong cách gia hai mu 42
3.2.5. Hun luyn nhn dng 43
3.3. Xây d 43
KT LUNG PHÁT TRIN 49
TÀI LIU THAM KHO 51


















7

DANH MC HÌNH
Hình 1.1 S truyn chuyng ca các phn t khí 14
Hình 1.2 Sóng âm truyn theo mng 15
Hình 1.3 Chng xung quanh v trí cân bng 15
Hình 1.4 Sóng âm thanh 18

n ly mu 19
 phân gii 20
Hình 1.7 Chu kì các lp nt 22
Hình 1.8 Mô hình biu di 23
Hình 1.9 Mô hình biu din các m 23
Hình 1.10 Khong cách ging vi t l tn s 24
Hình 1.11 Tín hiu x1(t) 26
Hình 1.12 Tín hiu X
1
(f) - bii Fourier ca x
1
(t) 27
Hình 1.13 Tín hiu x
2
(t) 27
Hình 1.14 Tín hiu X
2
(t)  bii Fourier ca x
2
(t) 28
i k  nearest neighbor 33
i 35
Hình 3.1  nh tín hiu nhc t tín hiu radio. 37
 m mt tín hiu nhc 38
 n b cc âm sc 38
Hình 3.4 Kt qu th nghim vi 10 th loi 45
Hình 3.5 Bi  chính xác phân loi 10 th loi 46
Hình 3.6 Trích xut giá tr c  46
Hình 3.7 Phân loi vi 10 th loi (1) 47
Hình 3.8 Phân loi nhc vi 10 th loi (2) 48



8

M u
1. Lí do ch tài
Trong nhi s bùng n công ngh thông tin và các
nh di, làm cho vic s hu nhng bài nhc tr nên d 
bao gi h p nhc s  mi cá nhân
hay t chc.
 t, vi s ng ln các bài nhc thì vi
tm nhc có th tin hành t nhiu ngun, vi nhiu ngun chng âm thanh
 tng bài nhc ti v  chính xác
khác nhau, nên vic phân loi nhc ch da vào nh trên tp
 còn gp nhiu hn ch. Thay vì ch da vào nhng thông tin có sn,
m có th nghe li tng bài và t phân loi chúng, tuy nhiên vi s
ng ln các bài nhc thì vic làm này không kh y sinh
nhu cu t ng phân loi nhc trong các h th âm nhc.
Các h thng t ng phân loi nhc là rt cn thit, nó h tr hoc thay th
i trong vic phân loi nhc, truy tìm thông tin nhc trên internet, Bên
cc phân loi nhc t ng cung c khoa hc cho vic phân tích
da trên ni dung ca tín hiu âm nhc.
Chính vì nhng lý do trên, cng vi nhng kin thc ã tìm hiu t môn Trí
tu nhân t tài "Áp dng thut toán K- phân
loi nhc theo th loi tài khóa lun.
2. Mh nghiên cu
Da vào thut toán K- phân loi nhc theo th loi.
3. Nhim v nghiên cu
 Thu tha tng th loi nhc.
9


 nh khong cách gia tín hiu cn phân loi
ving gn nó. T nh th loi nhc
da vào th loi nhc ca vetor gn nó nht.
 Xây dt qu phân loi.
4. ng nghiên cu
Nghiên cu vi 10 th loi nhc: Blues, Classical, Country, Disco, Hiphop,
Jazz, Metal, Pop, Regguage, Rock.
5. Phm vi nghiên cu
a 10 th loi nhc c chn nghiên cu.
6. c tin c tài
Phân loi nhc t ng là  khoa hc cho vic phân tích các tín hiu
audio. Vic s dng thut toán K   phân loi nhc theo th
loi, rút ngc thi gian thc hin và mang li kt qu chính xác cao.
Các h thng phân loi nhc t ng là rt cn thit, nó h tr hoc thay
th  i trong vi p nhc, truy tìm thông tin trên internet, Bên
c nó cung cng ca các tín hiu audio phc v
cho các h thng truy tìm thông tin, chú thích t ng các tp tin nhc, nhn
dng ging nói phc v u tra,
7. u
 u lí lun:
Nghiên cu qua vi c sách, báo và các tài liu liên quan nhm xây
dng  lý thuyt c tài và các bin pháp cn thi gii quyt các vn
 c tài.
 c nghim:
Thông qua quan sát thc t, yêu cu c, nhng lý luc nghiên
cu và kt qu c qua nh
10

 

Tham kho các ý kin c có th thit k 
phù hp vi yêu cu thc tin. Ni dung x c yêu cu ngày
càng cao ci s dng
8. Cu trúc khóa lun
Ngoài phn m u, kt lung phát trin cu trúc khóa
lun g sau:
 lí thuyt.
 Thut toán K- Nearest Neighbor  phân loi nhc theo th loi.
ng ng dng phân loi nhc theo th loi.








11

.  LÝ THUYT
1.1. Lch s h thng x lí âm thanh
c Pythagoras, âm nhc vt khái nim thn bí. Nhng
bng chng kho c hy nhiu nhc c  35.000 c.
Tuy nhiên, không mt li gii vì sao có nhng
i chi nhau. Vào kho
mi quan h mt thit gia toán hc và âm nht h thng nhng nt
nhc bt tai và hài hòng chung vc gi là thang âm (scale).
Dù tri qua mt quá trình lch s lâu dài, thang âm cc cho là
rt sát vn nhc s d
n ct nn nht cho lch s âm nhc

mà nu không có nó, có l  có nhng Beethoven, Mozart hay âm
nhc hii.
  

- m thanh vô giai






  
-hop và
12



Bu tiên thuc v Thomas Alva Edison khi ông ch to ra chic
 u tiên trong lch s chính là
ng ci tin và hoàn thii k n máy
hát r tiu mt ct mc mi cho nn
công nghip âm nhc hii k 
p vào
th ng và hãng thu âm RCA Victor ni ting.
X lí âm thanh n gc s dng trong gii hc thut
 ch n các v t tính toán da vào cu to ca âm
nhc. Nó bao hàm nhng lí thuyt và ng dng mn ti trong
âm nhng hp âm thanh, x lí tín hiu s, thit k âm thanh, truyn âm
  Phm vi ca tính toán âm nhc có th tính là ngun gc ca nhc
n t (nhc s), nhng th nhiu và sáng to vi nhc dng c n t

trong th k 20. Gi s phát trin ca ca máy tính cá nhân và s phát
trin ca các phòng thu ti nhà, tính toán âm nhc s d
ch n mi th c to ra nh s dt tính toán.
u tiên trên th c nhc thit k và xây
dng bi Trevor Pearcey và Maston Beard. Nhà toán hc Geoff p trình
 có th c các nhu thông dng cu thp k nhng
n công b n nhc Colonel Bogey
  c là hin không có b   c bi n. Tuy nhiên,
CSIRAC ch heo nhng chun t c và nó không th m r có th
hiu v âm nhc hay cu to ca bài nhc hc.
13

Máy nh chy thi gian th
trình cn chy vài gi, vài ngày vi nhng máy tính hàng triu dol có th to
ra vài phút nhc. Vi nh
n nh i ca nhn t ra cánh ca
x lý thi gian thc cho nh u nh u sut ca
nhng b vi x lý tin ti mc to ra âm nhc máy tính thi gian thc bng vic
s di các thut toán là kh thi.
Truy vn thông tin nhc (Music Information Retrieval – MIR) là mt nhánh
nh ca x n vic qun nhc s, nó
bao gm nhiu v nh 
 Phân loi, mô hình hóa âm nhc
  âm nhc
 Phn mm truy vn thông tin âm nhc
 Giao dii và máy tính
 Cho máy tính có th m thc
 Phân tích và tái hin li tri thc
  âm nhn nht s
u v t truy vn thông tin âm nhc xut hin vào nhng

 ch thc s c tìm hiu t m g
s m âm nhc qua mng vi hình thc nhn t, mi th còn phát
trinh dng nhc nén ra , các dch v
chia s âm nhi.




14

1.2. Âm thanh và s hóa âm thanh
1.2.1. Âm thanh
ng vt lí mà ta có th cm nhn bng thính giác. c
gây ra bi ca các phn t khí. Nói cách khác, âm thanh là kt
qu mà ta cm nhc ca s lan truyn sóng trong không gian ca các phn
t khí, mà ta g lan truyn
ng vt cht. Không có sóng âm trong chân không.
Các kt qu thc nghim cho thy sóng âm là sóng dc, tc là các phn t khí
ng trùng vn sóng).




Hình 1.1 S truyn chuyng ca các phn t khí
Hình 1.1 gii thích mt cách trlà
các phn t khí. Gi s sóng âm truyn t trái sang phng ca A
xung quanh v trí cân bng s dng ca B, rng ca B dn
ng ca C,
Tng ca A không ch dng ca B, mà còn dn
ng ca các phn t khí gc

truyp mng.



A
B
C
D
15








Hình 1.2 Sóng âm truyn theo mng
Khi nói thanh qun n phát sinh sóng. Thanh qun rung,
truyn t khí khác gn nó. Kt qu là ta thu c các
sóng âm truyn theo mng thng sóng âm mnh
nhc duy trì liên tc trong khi thanh qun còn rung.
n tai, nó b n li. Kt qu a các
phn t c c truyng. Vì
c kt ni vi các dây thn kinh t ng c
s phát sinh ra các xung thn kinh. Các xung thc truyn não
c cm giác nghe.
1.2.2. Các tham s ca sóng âm
ng các lo và tn s dao
ng.

n sóng
M
Hình 1.3 Chng xung quanh v trí cân bng
D
C
B
B'
C'
D'
A
B"
D"
C"
16

Xét mt phn t khí t 1.3 phn t khí
 trí cân b
truyn sóng ca M có th xem là:
= 
1
sin

2

(1.1)
 và f là tn s th cc cho bi Hình 1.4.
  dch chuyn ln nht ca các phn t ra
khi v trí cân bng c m
ng ca sóng. Tn s ng ca sóng  (1.1) là f , tc là s chu k mà
ng trong 1 giây. N càng ln thì s bi

ca mt chn s f  gp ca sóng.
i ch có th cm nhc nhng sóng âm có tn s trong khong 16
n 20 000 Hz. Nhng âm có tn s i là siêu âm và
nhng âm có tn s nh i là h âm.
 âm cho ta cm giác nghe thy âm to hay nh, mnh hay yu.
 c sóng âm truyn qua mt
 dic vuông góc vn sóng trong m thi
  âm là



2

  ca mt âm v âm tiêu chui ta dùng
ng mức cường độ âm  -xi-ben (dB). Mc  âm
ng công thc:
L(dB) = 10lg


0

G b b âm tiêu chun là có mc
 âm b-xi-ben (


0
= 1 = 10
0
) thì âm mnh nht (



0
= 10
3
)
 âm bng 10 × 13 = 130dB
17

Mng  âm ca mt s ng gp có tr s trong khong t 20 dB
n 100 dB. Chng hn ting nói chuyng có m âm bng
40 dB.
 to ca âm
m sinh lí c c cng
 âm phi l giá tr cc ti gng nghe
li theo tn s ca âm. Ví d vi các âm có tn s t n 1500 thì

2

, còn vi tn s ng nghe ln gp 10
5-

ln.
Ckhông nhng ph thu âm
mà còn ph thuc vào tn s ca âm. Vi cùng m c
âm có tn s n s th nói nghe
.
 âm lên ti 10W/m
2
ng v âm 130dB thì sóng âm
vi mi tn s gây cho tai ta cm giác nhc nhn. Giá tr ci ca

 âm mà ti ta có th chc gi là ngưỡng đau
ng vi m âm là 130dB.
1.2.3. S hóa âm thanh
huyi sóng âm, tc thành d liu s c
 n: chuyi
sóng âm thành tín hin và chuyn tín hin thành tín hiu s.
Tín hin là tín hiu trung gian gia tín hiu s.
S n tín hin làm trung gian vì nó có th truyi khong cách
xa mà không làm mt thông tin, dn có hin th u hòa
g âm, chính vì vy mà ta có th biu din sóng âm bng tín
hin.
18

Tín hiu sóng âm thanh trong th gii thc có d 
 có th  và biu din trên các thit b máy tính s dng h tín hiu nh
phân, chúng ta cn phi chuyi tín hiu analog sang tín hiu s ( digital). Tín
hiu nh phân không nhc biu din và s dng trên máy tính mà nó còn
c ng dng trong rt nhiu các vt dng khác mà chúng ta dùng hàng ngày
n thoi, máy nghe CD, máy nghe MP3,
c chuyn sang tín hic thc hi:
Lấy mẫu (sampling)
Xét 1 tín hiu âm thanh (hình 1.4
Trc X biu din cho min th giây (s).
Trc Y biu di tín hi Voltage (V).

Hình 1.4 Sóng âm thanh
Lấy mẫu (sampling)
 Tin hành ly mu t tín hiu analog theo thi gian.
19


 Mi ln ly mu, giá tr v  ln Voltage ca tín hiu s c biu din
bng mt con s.
 S ln ly mu cc gi là tn s ly mu hay còn
c gi là t l ly mu (sampling rate).
 Các loi tn s ly mu ph bin trong máy tính: 8.000Hz, 11.025Hz,
22.050Hz, 32.000Hz, 44.056Hz, 44.100Hz, 47.250Hz, 48.000Hz,
50.000Hz, 50.400Hz, 88.200Hz, 96.000Hz.

Hình 1.5 n ly mu
Nhìn hình 1.5  thm c th  v th màu xanh
ta có:
  chính là thi gian t
1
,t
2
, . . .
  chính là con s chúng ta c
  phân gii (resolution)
   phn trên, mi ln ly mu, chúng ta s biu di
ca tín hiu bng mt con s.
20

 y, nu s bit ta dùng cho vic ly m th
 o li tín hiu càng tt.

Hình 1.6  phân gii
1.3. Tng quan v âm nhc
Âm nhc là mt b môn ngh thut dùng âm thanh (cht gi dit
tình cm, xúc cm ca con i. c chia ra hai th loi chính: Thanh nhc
và khí nhc. Thanh nhc là âm nhc da trên li hát th hing và tình

cm. Còn khí nhc là âm nhc da trên âm thanh thun túy ca các nhc c, nên
trng, gây cm giác và s liên ng.
Âm nhc là mt môn ngh thut phi hp âm thanh theo nhng quy lut nht
nh. Âm nhc bt ngun t nhng âm thanh trong cuc sng. Th 
phc. Mà ch âm thanh có tính nhc. Chúng phi
 4 tính chn sau:
 : M trm bng ca âm thanh
 : M ngn dài ca âm thanh
21

 : M mnh nh ca âm thanh
 Âm sc: Mc dù âm thanh có ging nhau v , v , v
n có nhng tính cht riêng bit. Tính cht riêng ca
c gi là âm sc.
T nhng âm thanh có tính nhi bit phi hp vic lên
xung trm b to âm vc r t c
c hình thành và phát trin.
1.3.1. Nt nhc
 c th   trong âm nhnh i nt
nhc là mt giá tr i din cho m cao nhnh. Nt thp nhng
vi tn s thp nht khi nghe ting nhc, khong t 20-30Hz. Nt cao nh
ng vi tn s cao nht, khong t 15-20KHZ.
Lp nt là tên ca 1 ting nhc. Có 12 lp nt tên là: C, C#, D, D#,
E, F, F#, G, G#, A, A# và B. Các lp nt này to thành mt chu trình. Mt
 C-C#-D-D# và tr v C to thành chu trình gi là 1 bát
/quãng tám(Octave), n n F# gi là


22



Hình 1.7 Chu kì các lp nt
1.3.2. 
Khong cách t nt nhn nt nhc th 8. Chng hn, ta có khong
cách t các nt nh-Rê-Mi-Fa-Son-La-Si-. Mt khác, nó
biu din mi quan h gia 2 nn s gn s nt
còn li. Chng hn, khong cách t n 200Hz gi là m.
T hình Chu kì các lp nt, nu nt C4 có tn s là 261,6 Hz thì nt C5 có tn
s gn s ca nt C4 là 523,2Hz. C C4 và C5 có cùng lp nt C.
 d hình dung, ta có th xem các m ng vi
các v ng h c biu din trong hình Chu kì các lp nt.

23


Hình 1.8 Mô hình biu di

Hình 1.9 Mô hình biu din các m
C  v trí 12 gi, C  v trí 1 gi ng hto thành mt chu trình. Sau
t s thông tin v tên các khong cách gia các lp nng vi s
bán âm và t l gia các tn s:

24

Tên khong cách
T l tn s
S bán âm
ng âm (Unison)
1/1
0

Bán âm (Semitone)
16/15
1
Quãng hai (Second)
9/8
2
Quãng ba  nh (Third  minor)
6/5
3
Quãng ba  ln ( Third major)
5/4
4
Quãng bn (Fourth)
4/3
5
 (Fifth)
3/2
7
Quãng sáu  nh (Sixth  minor)
8/5
8
Quãng sáu  ln ( Sixth  major)
5/3
9
Quãng by  nh (Seventh  minor)
9/5
10
Quãng by  ln (Seventh  major)
15/8
11

 (Octave)
2/1
12

Hình 1.10 Khong cách ging vi t l tn s
Khi mt trong s các ting nhng hn cp C-F#, C#-G,. . .
i nghe s có cm nhn ting nhng gim dn. Tuy nhiên,
khi các ting nh    ng hn F#-C, G-C#, G#-D s có ting
nhn.


25

1.4. Các pi nhc
Các h thng phân loi nhc theo th loi ng mô phng nh
c chúng có th nhn bic th loi ca bn nhc. Tuy nhiên,
chúng không th phân loi nhc ch yu da vào kinh nghii nghe nhc
mà cn thit phnh mt s c v cho vic nhn dng
th loi nhc.
Mt th loi nhc là mt ti nghe nhc có th phân
bit nó vi nhng loi nhc khác, t nhng bn nha
mt th loi nhc mô t b v âm thanh ca mt nhc c, nhp
nhc và nhiu yu t khác n vic phân loi nhc. Nhi
thuc v tri giác dc, chng h cao thp nt
nhc (pitch), âm sc (timbre), nhp (rhythm) ca mt bn nhc hoc có nhng
n b cc nhc (musical texture).
Vic phân long gi là hc giám sát (supurvised learning), ngoài ra còn
có các dng hc khác là hc không quan sát, h  ng (reinforcement
learning) Có rt nhihân lo-nearest neighbor, Bayes,
HMMS, Neuron Net - work,

i da vào công th
tính toán xác sut kh ng thuc v mt lp, chn tt xác sut
hu nghim ca lc tiêu thuc s dng trong
phân lon, mc trong nhn dng khuôn mi, hay trong y hc
nhm phân loi t bào.
 work hay còn gi là quá trình hc ca mng
trong hc giám sát bao hàm vic iu chnh, cp nht ma trn trng s sao
cho ng vi tâp tín hiu vào xác nh, tín hiu ra ca mng tim cn ti giá
tr mong mun.

×