KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
1
BÀI 4 ² PHҪN 2
PHÂN LӞP DӲ
LIӊU
2
1
NӜI DUNG
1. *LͳLWKL͟X
2.
3.
4.
3KѭѫQJSKiS1DwYH%D\HV
3KѭѫQJSKiSGӵDWUrQWKӇ
KLӋQ
ĈiQKJLiP{KuQK
3
*,Ӟ,7+,ӊ8
Age
Income
(K)
No.
cards
Response
Lâm
35
35
3
Yes
+ѭQJ
22
50
2
No
Mai
28
40
1
Yes
Lan
45
100
2
No
7Kӫ\
20
30
3
Yes
7XҩQ
34
55
2
No
Minh
63
200
1
No
Vân
55
140
2
No
7KLӋQ
59
170
1
No
1JӑF
25
40
4
Yes
Châu
30
45
3
???
Customer
7KӡL gian : 5¶
Yêu FҫX :
Trình bày ý
WѭӣQJ
xác
ÿӏQK OӟS cho
PүX
FXӕL
cùng (Châu)
khi cho ELӃW
các PүX còn
OҥL.
4
2
*,Ӟ,7+,ӊ8
1. Phân OӟS :
Cho WұS các PүX ÿm phân OӟS WUѭӟF xây
GӵQJ mô hình cho WӯQJ OӟS
0ͽF ÿtFK : Gán các P̓X PͳL vào các OͳS
YͳL ÿͱ chính xác cao QK̽W có WK͛.
Cho CSDL D={t1,t2,«,tn} và WұS các OӟS
C={C1,«,Cm}, phân OͳS là bài toán xác
ÿӏQK ánh [ҥ f : DJ
JC sao cho PӛL ti ÿѭӧF
gán vào PӝW OӟS.
5
*,Ӟ,7+,ӊ8
'ӳOLӋX
/ѭӧQJJLiKӗLTXLKӑFKXҩQOX\ӋQ
Mô hình
3KkQORҥLUDTX\ӃWÿӏQK
+jQKÿӝQJ
6
3
NӜI DUNG
1.
*LӟLWKLӋX
2.
3Ḱ˿QJSKiS1DwYH
Bayes
3.
3KѭѫQJSKiSGӵDWUrQWKӇKLӋQ
ĈiQKJLiP{KuQK
4.
7
*,Ӟ,7+,ӊ8
1. Phân OӟS theo mô hình xác VXҩW :
'ӵ ÿRiQ xác VXҩW hay Gӵ ÿRiQ xác
VXҩW là thành viên FӫD OӟS
1͙Q W̻QJ : GΉD trên ÿͣQK lý Bayes
Cho X, Y là các EL͗Q E̽W NǤ ( U͵L U̹F
Vͩ F̽X trúc, «)
'Ή ÿRiQ Y W X
/ѭӧQJ giá các tham Vӕ FӫD P(X | Y) , P(Y)
WUӵF WLӃS Wӯ WұS DL KXҩQ OX\ӋQ
6ӱ GөQJ ÿӏQK lý Bayes ÿӇ tính P(Y | X=x)
8
4
*,Ӟ,7+,ӊ8
2. ĈӏQKOê%D\HV
P(y | x)
P(x | y) P(y)
P(x)
&өWKӇ
%LӃQEҩWNǤ
*LiWUӏWKӭL
9
*,Ӟ,7+,ӊ8
2. ĈӏQKOê%D\HV
7ѭѫQJÿѭѫQJ
10
5
*,Ӟ,7+,ӊ8
3. 3KkQORҥL%D\HV
7ұS'/KXҩQOX\ӋQ
XD mô hình /ѭӧQJJLi3;|Y), P(Y)
3KkQOӟS 'QJÿӏQKOê%D\HVÿӇWtQK
P(Y | X new )
11
*,Ӟ,7+,ӊ8
4. ĈӝFOұSÿLӅXNLӋQ
(Conditional independence)
ĈӏQK QJKƭD : X ÿӝF OұS ÿLӅX NLӋQ YӟL Y khi cho Z QӃX
phân Eӕ xác VXҩW trên X ÿӝF OұS YӟL các giá WUӏ FӫD Y
khi cho các giá WUӏ FӫD Z.
7DWKѭӡQJYLӃW
9tGͽ
36̽PVpW| 0́D&KͳS
36̽PVpW| &KͳS
12
6
7KXұWWRiQ1DwYH%D\HV
*Lҧ Vӱ :
D : WұS KXҩQ OX\ӋQ JӗP các PүX ELӇX GLӉQ GѭӟL
GҥQJ X = <x1, ..., xn>
Ci,D : WұS các PүX FӫD D WKXӝF OӟS Ci YӟL
i = {1, «, m}
Các WKXͱF tính x1, ..., xn ÿͱF OͅS ÿL͙X NL͟Q
ÿ{L PͱW YͳL nhau khi cho OͳS C
Khi ÿy : ta FҫQ xác ÿӏQK xác VXҩW P(Ci|X) OӟQ
QKҩW
13
7KXұWWRiQ1DwYH%D\HV
Theo ÿʈQK lý Bayes :
P(Ci | X)
P(X| Ci )P(Ci )
P(X)
Theo tính FKɢW ÿ͙F OɪS ÿLɾX NLʄQ :
P( X | C i )
n
k 1
P( x | C i) P( x | C i) P( x | C i) ... P( x | C i)
k
1
2
n
/XұW phân OӟS cho Xnew = {x1, ...,xn} là :
n
arg max P(Ci )
Ck
k
1
P( x | C i )
k
14
7
7KXұWWRiQ1DwYH%D\HV
B1 : +XҩQ OX\ӋQ Naïve Bayes (trên WұS DL
KXҩQ OX\ӋQ
/ѭӧQJ giá P(Ci)
/ѭӧQJ giá P(Xk|Ci)
B2 : Xnew ÿ́ͻF gán vào OӟS cho giá WUӏ
công WKӭF OӟQ QKҩW :
n
arg max P(Ci )
Ck
k
1
P( x | C i )
k
15
7UѭӡQJKӧS;± JLiWUӏUӡLUҥF
*Lҧ Vӱ :
X = <x1, ...,xn>
xi QKұQ các giá WUӏ UӡL UҥF
Khi ÿy : /ѭӧQJ giá P(Ci) và OѭӧQJ giá
P(Xk|Ci) theo công WKӭF
C
P(Ci ) i, D
D
#C {x }
i, D k
P( x | Ci )
k
C
i, D
16
8
7UѭӡQJKӧS;± JLiWUӏUӡLUҥF
ĈӇ tránh WUѭӡQJ KӧS giá WUӏ P(Xk|Ci) = 0 do không
có PүX nào trong DL KXҩQ NX\ӋQ WKӓD mãn Wӱ Vӕ
ta làm WUѫQ EҵQJ cách thêm PӝW Vӕ PүX ҧR.
Khi ÿy :
Làm WUѫQ theo Laplace :
1
C
,
i
D
P(Ci )
D m
#C {x } 1
i, D k
P( x | Ci )
k
C
r
i, D
YӟL m ± Vӕ OӟS và r là Vӕ giá WUӏ UӡL UҥF FӫD WKXӝF tính
17
9Ë'Ө
Cho WұS Gӳ OLӋX KXҩQ OX\ӋQ :
Outlook
Temperature
Humidity
Windy
Play?
sunny
hot
high
weak
No
No
sunny
hot
high
strong
overcast
hot
high
weak
Yes
rain
mild
High
weak
Yes
rain
cool
Normal
weak
Yes
rain
cool
normal
strong
No
overcast
cool
normal
strong
Yes
sunny
mild
high
weak
No
Yes
sunny
cool
normal
weak
rain
mild
normal
weak
Yes
sunny
mild
normal
strong
Yes
overcast
mild
high
strong
Yes
overcast
hot
normal
weak
Yes
rain
mild
high
strong
No
18
9
9Ë'Ө
B1 : ѬӟF OѭӧQJ P(Ci) YӟL C1 = ³\HV´ C2= ³QR´ và
P(xk|Ci)
Ta thu ÿѭӧF P(Ci) :
P(C1) = 9/14=0.643
P(C2) = 5/14=0.357
9ӟL WKXӝF tính Outlook, ta có các giá WUӏ : sunny,
overcast, rain. Trong ÿy P(sunny|Ci) là :
Outlook
P(sunny | yes) = 2/9 P(sunny | no) = 3/5
19
%jLWұSWKHRQKyP
7K͵L gian : 5¶
ѬӟF OѭӧQJ P(xk|Ci) YӟL C1 = ³\HV´ C2= ³QR´
P(Outlook|Ci)
Nhóm : dãy trái
P(Temperature|Ci)
Nhóm : dãy SKҧL
P(Humidity|Ci)
Nhóm : dãy JLӳD QӱD trên)
P(windy|Ci)
Nhóm : dãy JLӳD QӱD GѭӟL
20
10
9Ë'Ө
B2 : Phân OӟS
Xnew = < Outlook=sunny, Temp = cool, Humidity =
high, Windy = strong>
Ta cҫQ tính :
P(C1)*P(X|C1)=P(C1)*P(sunny|y)*P(cool|y)*P(high|y)*
P(strong|y) = 0.005
P(C2)*P(X|C2)=P(C2)*P(sunny|n)*P(cool|n)*P(high|n)*
P(strong|n) = 0.021
ĺ;new WKXͱFOͳS&2 ³QR´
21
%jLWұSFiQKkQ
7KӡL gian : 5¶
Hãy xác ÿӏQK OӟS cho PүX PӟL sau :
Xnew = < Outlook =overcast, Temp = cool,
Humidity = high, Windy = strong>
22
11
9Ë'Ө/jPWUѫQ/DSODFH
Outlook
B1
:
ѬӟF OѭӧQJ
P(Ci) YӟL C1 = ³\HV´
C2= ³QR´ và P(xk|Ci)
theo công WKӭF làm
WUѫQ Laplace
P(C1) = (9+1)/(14+2)
= 10/16
P(C2) = (5+1)/(14+2)
= 6/16
P(sunny | y) = 3/12
P(sunny | n) = 4/8
P(overcast | y) = 5/12
P(overcast | n) = 1/8
P(rain | y) = 4/12
P(rain | n) = 3/8
Temperature
P(hot | y) = 3/12
P(hot | n) = 3/8
P(mild | y) = 5/12
P(mild | n) = 3/8
P(cool | y) = 4/12
P(cool | n) = 2/8
Humidity
P(high | y) = 4/11
P(high | n) = 5/7
P(normal | y) = 7/11
P(normal | n) = 2/7
Windy
P(strong | y) = 4/11
P(strong | n) = 4/7
P(weak | y) = 7/11
P(weak | n) = 3/7
23
9Ë'Ө
B2 : Phân ORҥL
Xnew = < Outlook =overcast, Temp = cool, Humidity
= high, Windy = strong>
Ta tính theo công WKӭF làm WUѫQ Laplace :
P(C1)*P(X|C1)=P(C1)*P(ovecast|y)*P(cool|y)*P(high|y)*
P(strong|y)= .011
P(C2)*P(X|C2)=P(C2)*P(ovecast|n)*P(cool|n)*P(high|n)*
P(strong|n) = .005
Xnew WKXͱF OͳS C1 ³\HV´
24
12
7UѭӡQJKӧS;± JLiWUӏOLrQWөF
1ӃX WKXӝF tính QKұQ giá WUӏ liên WөF thì xác
VXҩW P(Xk|Ci) WKѭӡQJ ÿѭӧF tính GӵD theo
phân Eӕ Gauss YӟL giá WUӏ trung bình và ÿӝ
OӋFK :
( x )2
1
2
e
P( X | C i) g ( xk ,
Ci
g ( x, , )
2
2
Và P(Xk|Ci) là :
,
Ci
)
25
7KXұWWRiQ1DwYH%D\HV
z
ѬX ÿLӇP :
z
z
z
z
'Ӊ dàng cài ÿһW
7KӡL gian thi hành WѭѫQJ Wӵ QKѭ cây TX\ӃW
ÿӏQK
ĈҥW NӃW TXҧ WӕW trong SKҫQ OӟQ các WUѭӡQJ
KӧS
1KѭӧF ÿLӇP :
z
*Lҧ WKLӃW YӅ tính ÿӝF OұS ÿLӅX NLӋQ FӫD các
WKXӝF tính làm JLҧP ÿӝ chính xác
26
13
NӜI DUNG
1.
2.
*LӟLWKLӋX
3KѭѫQJSKiS1DwYH%D\HV
3.
3Ḱ˿QJSKiSGΉDWUrQ
WK͛KL͟Q
4.
ĈiQKJLiP{KuQK
27
*LӞ,7+,ӊ8
z
3KѭѫQJ pháp phân OӟS GӵD trên WKӇ KLӋQ
(Instance-based) :
z
z
z
/ѭX WUӳ các PүXÿӕL WѭӧQJ KXҩQ OX\ӋQ và FKӍ [ӱ lý
khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟL
Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W
Các SKѭѫQJ pháp :
z
z
z
7KXұW toán k- láng JLӅQJ JҫQ QKҩW (k-NN)
+ӗL qui YӟL WUӑQJ Vӕ FөF Eӝ (Locally weighted
regression)
Suy OXұQ GӵD trên WUѭӡQJ KӧS (Case-based
reasoning)
28
14
K- /È1**,ӄ1**Ҫ11+Ҩ7
+m\FKRW{LEL͗WE̹QFͿDE̹QOjDLW{L
V͕QyLE̹QOjQJ́͵LQḰWK͗QjR
0ӝW PүX PӟL ÿѭӧF gán vào OӟS có
QKLӅX PүX JLӕQJ YӟL nó QKҩW trong Vӕ k
PүX JҫQ QKҩW
29
K- /È1**,ӄ1**Ҫ11+Ҩ7
z
7KXұWWRiQ[iFÿӏQKOӟSFKRPүXPӟL(
z 7tQKNKRҧQJFiFKJLӳD(YjWҩWFҧFiFPүXWURQJWұS
KXҩQOX\ӋQ
z &KӑQNPүXJҫQQKҩWYӟL(WURQJWұSKXҩQOX\ӋQ
z *iQ(YjROӟSFyQKLӅXPүXQKҩWWURQJVӕNPүXOiQJ
JLӅQJÿyKRһF(QKұQJLiWUӏWUXQJEuQKFӫDNPүX
Response
No response
Response
Class: Response
No response
No response
30
15
K- /È1**,ӄ1**Ҫ11+Ҩ7
7tQKNKRҧQJFiFKJLӳDPүXÿӕLWѭӧQJ
0ӛLPүX- WұSWKXӝFWtQKVӕ
.KRҧQJFiFK(XFOLGHJL·D; [1«[n) và
Y=(y1«\n) là:
n
D( X , Y )
( xi
yi ) 2
i 1
.KLWKӵFKLӋQVRViQKFyWKӇEӓTXDFăQEұF
2
31
K- /È1**,ӄ1**Ҫ11+Ҩ7
9tGөWtQKNKRҧQJFiFKJLӳD-RKQYj5DFKHO
John:
Age=35
Income=95K
No. of credit
cards=3
Rachel:
Age=41
Income=215K
No. of credit
cards=2
D(John, Rachel) =sqrt [(35-41)2+(95K-215K)2 +(3-2)2]
Các WKXӝF tính có giá WUӏ OӟQ VӁ ҧQK KѭӣQJ QKLӅX ÿӃQ
NKRҧQJ cách JLӳD các ÿӕL WѭӧQJ (VD: WKXӝF tính income)
Các WKXӝF tính có PLӅQ giá WUӏ khác nhau
-> &̿Q FKX́Q hóa giá WUͣ WKXͱF tính
32
16
K- /È1**,ӄ1**Ҫ11+Ҩ7
z
&ҫQ SKҧL FKXҭQ hoá Gӳ OLӋX : ánh [ҥ các giá WUӏ
vào ÿRҥQ [0,1] theo công WKӭF :
ai
vi min vi
max vi min vi
YͳL : vi là giá WUͣ WKΉF W͗ FͿD WKXͱF tính i
ai là giá WUͣ FͿD WKXͱF tính ÿm FKX́Q hóa
33
K- /È1**,ӄ1**Ҫ11+Ҩ7
z
z
ѬX ÿLӇP :
z 'Ӊ Vӱ GөQJ và cài ÿһW
z ;ӱ lý WӕW YӟL Gӳ OLӋX QKLӉX
.KX\ӃW ÿLӇP :
z &ҫQ OѭX WҩW Fҧ các PүX
z &ҫQ QKLӅX WKӡL gian ÿӇ xác ÿӏQK
OӟS cho PӝW PүX PӟL FҫQ tính và
so sánh NKRҧQJ cách ÿӃQ WҩW Fҧ
các PүX
z 3Kͽ WKXͱF vào giá WUͣ k do QJ́͵L
dùng OΉD FKͥQ
z
z
z
X
1͗X k quá QKͧ QK̹\ F̻P YͳL
QKL͝X
1͗X k quá OͳQ vùng lân FͅQ có WK͛
FKD các ÿL͛P FͿD OͳS khác
7KXӝF tính phi Vӕ ?
34
17