1
KHOA CÔNG NGH THÔNG TIN
*************
ÁP DNG THUT TOÁN
K
PHÂN LOI NHC THEO TH LOI
KHÓA LUN TT NGHII HC
Chuyên ngành:
2015
2
KHOA CÔNG NGH THÔNG TIN
*************
ÁP DNG THUT TOÁN
K
PHÂN LOI NHC THEO TH LOI
KHÓA LUN TT NGHII HC
Chuyên ngành:
ng dn khoa hc
PGS. TS. BÙI TH HNG
2015
3
. TS. BÙI TH H
.
,
Thông tin,
.
,
.
.
.
.
,
Sinh viên
Nguy
4
: NGUY
: K37 CNTT,
,
2.
1.
ng thut toán K phân loi nhc theo
th lo
,
PGS. TS. Bùi Th Hng.
2. .
.
,
Nguy
5
MC LC
M u 8
LÝ THUYT 11
1.1. Lch s h thng x lí âm thanh 11
1.2. Âm thanh và s hóa âm thanh 14
1.2.1. Âm thanh 14
1.2.2. Các tham s ca sóng âm 15
1.2.3. S hóa âm thanh 17
1.3. Tng quan v âm nhc 20
1.3.1. Nt nhc 21
1.3.2. 22
1.4. i nhc 25
1.5. Bii Fourier ri rc 26
T TOÁN K PHÂN LOI
NHC THEO TH LOI 29
2.1. Khai phá d liu 29
2.2. Phân lp 30
2.3. Mô t thut toán phân lp k Nearest Neighbor 32
2.4. Phân lp K Nearest Neighbor 33
NG NG DNG PHÂN LOI NHC THEO TH
LOI 36
3.1. Gii thiu bài toán 36
3.2. Thut toán 37
3.2.1. 37
3.2.2. n b cc âm sc (Timbral Texture Features) 38
6
3.2.3. Cân bng h s n b cc âm sc 41
3.2.4. Khong cách gia hai mu 42
3.2.5. Hun luyn nhn dng 43
3.3. Xây d 43
KT LUNG PHÁT TRIN 49
TÀI LIU THAM KHO 51
7
DANH MC HÌNH
Hình 1.1 S truyn chuyng ca các phn t khí 14
Hình 1.2 Sóng âm truyn theo mng 15
Hình 1.3 Chng xung quanh v trí cân bng 15
Hình 1.4 Sóng âm thanh 18
n ly mu 19
phân gii 20
Hình 1.7 Chu kì các lp nt 22
Hình 1.8 Mô hình biu di 23
Hình 1.9 Mô hình biu din các m 23
Hình 1.10 Khong cách ging vi t l tn s 24
Hình 1.11 Tín hiu x1(t) 26
Hình 1.12 Tín hiu X
1
(f) - bii Fourier ca x
1
(t) 27
Hình 1.13 Tín hiu x
2
(t) 27
Hình 1.14 Tín hiu X
2
(t) bii Fourier ca x
2
(t) 28
i k nearest neighbor 33
i 35
Hình 3.1 nh tín hiu nhc t tín hiu radio. 37
m mt tín hiu nhc 38
n b cc âm sc 38
Hình 3.4 Kt qu th nghim vi 10 th loi 45
Hình 3.5 Bi chính xác phân loi 10 th loi 46
Hình 3.6 Trích xut giá tr c 46
Hình 3.7 Phân loi vi 10 th loi (1) 47
Hình 3.8 Phân loi nhc vi 10 th loi (2) 48
8
M u
1. Lí do ch tài
Trong nhi s bùng n công ngh thông tin và các
nh di, làm cho vic s hu nhng bài nhc tr nên d
bao gi h p nhc s mi cá nhân
hay t chc.
t, vi s ng ln các bài nhc thì vi
tm nhc có th tin hành t nhiu ngun, vi nhiu ngun chng âm thanh
tng bài nhc ti v chính xác
khác nhau, nên vic phân loi nhc ch da vào nh trên tp
còn gp nhiu hn ch. Thay vì ch da vào nhng thông tin có sn,
m có th nghe li tng bài và t phân loi chúng, tuy nhiên vi s
ng ln các bài nhc thì vic làm này không kh y sinh
nhu cu t ng phân loi nhc trong các h th âm nhc.
Các h thng t ng phân loi nhc là rt cn thit, nó h tr hoc thay th
i trong vic phân loi nhc, truy tìm thông tin nhc trên internet, Bên
cc phân loi nhc t ng cung c khoa hc cho vic phân tích
da trên ni dung ca tín hiu âm nhc.
Chính vì nhng lý do trên, cng vi nhng kin thc ã tìm hiu t môn Trí
tu nhân t tài "Áp dng thut toán K- phân
loi nhc theo th loi tài khóa lun.
2. Mh nghiên cu
Da vào thut toán K- phân loi nhc theo th loi.
3. Nhim v nghiên cu
Thu tha tng th loi nhc.
9
nh khong cách gia tín hiu cn phân loi
ving gn nó. T nh th loi nhc
da vào th loi nhc ca vetor gn nó nht.
Xây dt qu phân loi.
4. ng nghiên cu
Nghiên cu vi 10 th loi nhc: Blues, Classical, Country, Disco, Hiphop,
Jazz, Metal, Pop, Regguage, Rock.
5. Phm vi nghiên cu
a 10 th loi nhc c chn nghiên cu.
6. c tin c tài
Phân loi nhc t ng là khoa hc cho vic phân tích các tín hiu
audio. Vic s dng thut toán K phân loi nhc theo th
loi, rút ngc thi gian thc hin và mang li kt qu chính xác cao.
Các h thng phân loi nhc t ng là rt cn thit, nó h tr hoc thay
th i trong vi p nhc, truy tìm thông tin trên internet, Bên
c nó cung cng ca các tín hiu audio phc v
cho các h thng truy tìm thông tin, chú thích t ng các tp tin nhc, nhn
dng ging nói phc v u tra,
7. u
u lí lun:
Nghiên cu qua vi c sách, báo và các tài liu liên quan nhm xây
dng lý thuyt c tài và các bin pháp cn thi gii quyt các vn
c tài.
c nghim:
Thông qua quan sát thc t, yêu cu c, nhng lý luc nghiên
cu và kt qu c qua nh
10
Tham kho các ý kin c có th thit k
phù hp vi yêu cu thc tin. Ni dung x c yêu cu ngày
càng cao ci s dng
8. Cu trúc khóa lun
Ngoài phn m u, kt lung phát trin cu trúc khóa
lun g sau:
lí thuyt.
Thut toán K- Nearest Neighbor phân loi nhc theo th loi.
ng ng dng phân loi nhc theo th loi.
11
. LÝ THUYT
1.1. Lch s h thng x lí âm thanh
c Pythagoras, âm nhc vt khái nim thn bí. Nhng
bng chng kho c hy nhiu nhc c 35.000 c.
Tuy nhiên, không mt li gii vì sao có nhng
i chi nhau. Vào kho
mi quan h mt thit gia toán hc và âm nht h thng nhng nt
nhc bt tai và hài hòng chung vc gi là thang âm (scale).
Dù tri qua mt quá trình lch s lâu dài, thang âm cc cho là
rt sát vn nhc s d
n ct nn nht cho lch s âm nhc
mà nu không có nó, có l có nhng Beethoven, Mozart hay âm
nhc hii.
- m thanh vô giai
-hop và
12
Bu tiên thuc v Thomas Alva Edison khi ông ch to ra chic
u tiên trong lch s chính là
ng ci tin và hoàn thii k n máy
hát r tiu mt ct mc mi cho nn
công nghip âm nhc hii k
p vào
th ng và hãng thu âm RCA Victor ni ting.
X lí âm thanh n gc s dng trong gii hc thut
ch n các v t tính toán da vào cu to ca âm
nhc. Nó bao hàm nhng lí thuyt và ng dng mn ti trong
âm nhng hp âm thanh, x lí tín hiu s, thit k âm thanh, truyn âm
Phm vi ca tính toán âm nhc có th tính là ngun gc ca nhc
n t (nhc s), nhng th nhiu và sáng to vi nhc dng c n t
trong th k 20. Gi s phát trin ca ca máy tính cá nhân và s phát
trin ca các phòng thu ti nhà, tính toán âm nhc s d
ch n mi th c to ra nh s dt tính toán.
u tiên trên th c nhc thit k và xây
dng bi Trevor Pearcey và Maston Beard. Nhà toán hc Geoff p trình
có th c các nhu thông dng cu thp k nhng
n công b n nhc Colonel Bogey
c là hin không có b c bi n. Tuy nhiên,
CSIRAC ch heo nhng chun t c và nó không th m r có th
hiu v âm nhc hay cu to ca bài nhc hc.
13
Máy nh chy thi gian th
trình cn chy vài gi, vài ngày vi nhng máy tính hàng triu dol có th to
ra vài phút nhc. Vi nh
n nh i ca nhn t ra cánh ca
x lý thi gian thc cho nh u nh u sut ca
nhng b vi x lý tin ti mc to ra âm nhc máy tính thi gian thc bng vic
s di các thut toán là kh thi.
Truy vn thông tin nhc (Music Information Retrieval – MIR) là mt nhánh
nh ca x n vic qun nhc s, nó
bao gm nhiu v nh
Phân loi, mô hình hóa âm nhc
âm nhc
Phn mm truy vn thông tin âm nhc
Giao dii và máy tính
Cho máy tính có th m thc
Phân tích và tái hin li tri thc
âm nhn nht s
u v t truy vn thông tin âm nhc xut hin vào nhng
ch thc s c tìm hiu t m g
s m âm nhc qua mng vi hình thc nhn t, mi th còn phát
trinh dng nhc nén ra , các dch v
chia s âm nhi.
14
1.2. Âm thanh và s hóa âm thanh
1.2.1. Âm thanh
ng vt lí mà ta có th cm nhn bng thính giác. c
gây ra bi ca các phn t khí. Nói cách khác, âm thanh là kt
qu mà ta cm nhc ca s lan truyn sóng trong không gian ca các phn
t khí, mà ta g lan truyn
ng vt cht. Không có sóng âm trong chân không.
Các kt qu thc nghim cho thy sóng âm là sóng dc, tc là các phn t khí
ng trùng vn sóng).
Hình 1.1 S truyn chuyng ca các phn t khí
Hình 1.1 gii thích mt cách trlà
các phn t khí. Gi s sóng âm truyn t trái sang phng ca A
xung quanh v trí cân bng s dng ca B, rng ca B dn
ng ca C,
Tng ca A không ch dng ca B, mà còn dn
ng ca các phn t khí gc
truyp mng.
A
B
C
D
15
Hình 1.2 Sóng âm truyn theo mng
Khi nói thanh qun n phát sinh sóng. Thanh qun rung,
truyn t khí khác gn nó. Kt qu là ta thu c các
sóng âm truyn theo mng thng sóng âm mnh
nhc duy trì liên tc trong khi thanh qun còn rung.
n tai, nó b n li. Kt qu a các
phn t c c truyng. Vì
c kt ni vi các dây thn kinh t ng c
s phát sinh ra các xung thn kinh. Các xung thc truyn não
c cm giác nghe.
1.2.2. Các tham s ca sóng âm
ng các lo và tn s dao
ng.
n sóng
M
Hình 1.3 Chng xung quanh v trí cân bng
D
C
B
B'
C'
D'
A
B"
D"
C"
16
Xét mt phn t khí t 1.3 phn t khí
trí cân b
truyn sóng ca M có th xem là:
=
1
sin
2
(1.1)
và f là tn s th cc cho bi Hình 1.4.
dch chuyn ln nht ca các phn t ra
khi v trí cân bng c m
ng ca sóng. Tn s ng ca sóng (1.1) là f , tc là s chu k mà
ng trong 1 giây. N càng ln thì s bi
ca mt chn s f gp ca sóng.
i ch có th cm nhc nhng sóng âm có tn s trong khong 16
n 20 000 Hz. Nhng âm có tn s i là siêu âm và
nhng âm có tn s nh i là h âm.
âm cho ta cm giác nghe thy âm to hay nh, mnh hay yu.
c sóng âm truyn qua mt
dic vuông góc vn sóng trong m thi
âm là
2
ca mt âm v âm tiêu chui ta dùng
ng mức cường độ âm -xi-ben (dB). Mc âm
ng công thc:
L(dB) = 10lg
0
G b b âm tiêu chun là có mc
âm b-xi-ben (
0
= 1 = 10
0
) thì âm mnh nht (
0
= 10
3
)
âm bng 10 × 13 = 130dB
17
Mng âm ca mt s ng gp có tr s trong khong t 20 dB
n 100 dB. Chng hn ting nói chuyng có m âm bng
40 dB.
to ca âm
m sinh lí c c cng
âm phi l giá tr cc ti gng nghe
li theo tn s ca âm. Ví d vi các âm có tn s t n 1500 thì
2
, còn vi tn s ng nghe ln gp 10
5-
ln.
Ckhông nhng ph thu âm
mà còn ph thuc vào tn s ca âm. Vi cùng m c
âm có tn s n s th nói nghe
.
âm lên ti 10W/m
2
ng v âm 130dB thì sóng âm
vi mi tn s gây cho tai ta cm giác nhc nhn. Giá tr ci ca
âm mà ti ta có th chc gi là ngưỡng đau
ng vi m âm là 130dB.
1.2.3. S hóa âm thanh
huyi sóng âm, tc thành d liu s c
n: chuyi
sóng âm thành tín hin và chuyn tín hin thành tín hiu s.
Tín hin là tín hiu trung gian gia tín hiu s.
S n tín hin làm trung gian vì nó có th truyi khong cách
xa mà không làm mt thông tin, dn có hin th u hòa
g âm, chính vì vy mà ta có th biu din sóng âm bng tín
hin.
18
Tín hiu sóng âm thanh trong th gii thc có d
có th và biu din trên các thit b máy tính s dng h tín hiu nh
phân, chúng ta cn phi chuyi tín hiu analog sang tín hiu s ( digital). Tín
hiu nh phân không nhc biu din và s dng trên máy tính mà nó còn
c ng dng trong rt nhiu các vt dng khác mà chúng ta dùng hàng ngày
n thoi, máy nghe CD, máy nghe MP3,
c chuyn sang tín hic thc hi:
Lấy mẫu (sampling)
Xét 1 tín hiu âm thanh (hình 1.4
Trc X biu din cho min th giây (s).
Trc Y biu di tín hi Voltage (V).
Hình 1.4 Sóng âm thanh
Lấy mẫu (sampling)
Tin hành ly mu t tín hiu analog theo thi gian.
19
Mi ln ly mu, giá tr v ln Voltage ca tín hiu s c biu din
bng mt con s.
S ln ly mu cc gi là tn s ly mu hay còn
c gi là t l ly mu (sampling rate).
Các loi tn s ly mu ph bin trong máy tính: 8.000Hz, 11.025Hz,
22.050Hz, 32.000Hz, 44.056Hz, 44.100Hz, 47.250Hz, 48.000Hz,
50.000Hz, 50.400Hz, 88.200Hz, 96.000Hz.
Hình 1.5 n ly mu
Nhìn hình 1.5 thm c th v th màu xanh
ta có:
chính là thi gian t
1
,t
2
, . . .
chính là con s chúng ta c
phân gii (resolution)
phn trên, mi ln ly mu, chúng ta s biu di
ca tín hiu bng mt con s.
20
y, nu s bit ta dùng cho vic ly m th
o li tín hiu càng tt.
Hình 1.6 phân gii
1.3. Tng quan v âm nhc
Âm nhc là mt b môn ngh thut dùng âm thanh (cht gi dit
tình cm, xúc cm ca con i. c chia ra hai th loi chính: Thanh nhc
và khí nhc. Thanh nhc là âm nhc da trên li hát th hing và tình
cm. Còn khí nhc là âm nhc da trên âm thanh thun túy ca các nhc c, nên
trng, gây cm giác và s liên ng.
Âm nhc là mt môn ngh thut phi hp âm thanh theo nhng quy lut nht
nh. Âm nhc bt ngun t nhng âm thanh trong cuc sng. Th
phc. Mà ch âm thanh có tính nhc. Chúng phi
4 tính chn sau:
: M trm bng ca âm thanh
: M ngn dài ca âm thanh
21
: M mnh nh ca âm thanh
Âm sc: Mc dù âm thanh có ging nhau v , v , v
n có nhng tính cht riêng bit. Tính cht riêng ca
c gi là âm sc.
T nhng âm thanh có tính nhi bit phi hp vic lên
xung trm b to âm vc r t c
c hình thành và phát trin.
1.3.1. Nt nhc
c th trong âm nhnh i nt
nhc là mt giá tr i din cho m cao nhnh. Nt thp nhng
vi tn s thp nht khi nghe ting nhc, khong t 20-30Hz. Nt cao nh
ng vi tn s cao nht, khong t 15-20KHZ.
Lp nt là tên ca 1 ting nhc. Có 12 lp nt tên là: C, C#, D, D#,
E, F, F#, G, G#, A, A# và B. Các lp nt này to thành mt chu trình. Mt
C-C#-D-D# và tr v C to thành chu trình gi là 1 bát
/quãng tám(Octave), n n F# gi là
22
Hình 1.7 Chu kì các lp nt
1.3.2.
Khong cách t nt nhn nt nhc th 8. Chng hn, ta có khong
cách t các nt nh-Rê-Mi-Fa-Son-La-Si-. Mt khác, nó
biu din mi quan h gia 2 nn s gn s nt
còn li. Chng hn, khong cách t n 200Hz gi là m.
T hình Chu kì các lp nt, nu nt C4 có tn s là 261,6 Hz thì nt C5 có tn
s gn s ca nt C4 là 523,2Hz. C C4 và C5 có cùng lp nt C.
d hình dung, ta có th xem các m ng vi
các v ng h c biu din trong hình Chu kì các lp nt.
23
Hình 1.8 Mô hình biu di
Hình 1.9 Mô hình biu din các m
C v trí 12 gi, C v trí 1 gi ng hto thành mt chu trình. Sau
t s thông tin v tên các khong cách gia các lp nng vi s
bán âm và t l gia các tn s:
24
Tên khong cách
T l tn s
S bán âm
ng âm (Unison)
1/1
0
Bán âm (Semitone)
16/15
1
Quãng hai (Second)
9/8
2
Quãng ba nh (Third minor)
6/5
3
Quãng ba ln ( Third major)
5/4
4
Quãng bn (Fourth)
4/3
5
(Fifth)
3/2
7
Quãng sáu nh (Sixth minor)
8/5
8
Quãng sáu ln ( Sixth major)
5/3
9
Quãng by nh (Seventh minor)
9/5
10
Quãng by ln (Seventh major)
15/8
11
(Octave)
2/1
12
Hình 1.10 Khong cách ging vi t l tn s
Khi mt trong s các ting nhng hn cp C-F#, C#-G,. . .
i nghe s có cm nhn ting nhng gim dn. Tuy nhiên,
khi các ting nh ng hn F#-C, G-C#, G#-D s có ting
nhn.
25
1.4. Các pi nhc
Các h thng phân loi nhc theo th loi ng mô phng nh
c chúng có th nhn bic th loi ca bn nhc. Tuy nhiên,
chúng không th phân loi nhc ch yu da vào kinh nghii nghe nhc
mà cn thit phnh mt s c v cho vic nhn dng
th loi nhc.
Mt th loi nhc là mt ti nghe nhc có th phân
bit nó vi nhng loi nhc khác, t nhng bn nha
mt th loi nhc mô t b v âm thanh ca mt nhc c, nhp
nhc và nhiu yu t khác n vic phân loi nhc. Nhi
thuc v tri giác dc, chng h cao thp nt
nhc (pitch), âm sc (timbre), nhp (rhythm) ca mt bn nhc hoc có nhng
n b cc nhc (musical texture).
Vic phân long gi là hc giám sát (supurvised learning), ngoài ra còn
có các dng hc khác là hc không quan sát, h ng (reinforcement
learning) Có rt nhihân lo-nearest neighbor, Bayes,
HMMS, Neuron Net - work,
i da vào công th
tính toán xác sut kh ng thuc v mt lp, chn tt xác sut
hu nghim ca lc tiêu thuc s dng trong
phân lon, mc trong nhn dng khuôn mi, hay trong y hc
nhm phân loi t bào.
work hay còn gi là quá trình hc ca mng
trong hc giám sát bao hàm vic iu chnh, cp nht ma trn trng s sao
cho ng vi tâp tín hiu vào xác nh, tín hiu ra ca mng tim cn ti giá
tr mong mun.