Tải bản đầy đủ (.pdf) (27 trang)

Phân lớp dữ liệu Khai thác dữ liệu data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (606.72 KB, 27 trang )

KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
1

BÀI 4 ² PHҪN 2

PHÂN LӞP DӲ
LIӊU
2

1


NӜI DUNG
1. *LͳLWKL͟X
2.

3.

4.

3KѭѫQJSKiS1DwYH%D\HV
3KѭѫQJSKiSGӵDWUrQWKӇ
KLӋQ
ĈiQKJLiP{KuQK
3

*,Ӟ,7+,ӊ8


Age

Income
(K)

No.
cards

Response

Lâm

35

35

3

Yes

+ѭQJ

22

50

2

No


Mai

28

40

1

Yes

Lan

45

100

2

No

7Kӫ\

20

30

3

Yes


7XҩQ

34

55

2

No

Minh

63

200

1

No

Vân

55

140

2

No


7KLӋQ

59

170

1

No

1JӑF

25

40

4

Yes

Châu

30

45

3

???


Customer

7KӡL gian : 5¶

Yêu FҫX :
Trình bày ý
WѭӣQJ
xác
ÿӏQK OӟS cho
PүX
FXӕL
cùng (Châu)
khi cho ELӃW
các PүX còn
OҥL.
4

2


*,Ӟ,7+,ӊ8
1. Phân OӟS :
Cho WұS các PүX ÿm phân OӟS WUѭӟF xây
GӵQJ mô hình cho WӯQJ OӟS
0ͽF ÿtFK : Gán các P̓X PͳL vào các OͳS
YͳL ÿͱ chính xác cao QK̽W có WK͛.
Cho CSDL D={t1,t2,«,tn} và WұS các OӟS
C={C1,«,Cm}, phân OͳS là bài toán xác
ÿӏQK ánh [ҥ f : DJ
JC sao cho PӛL ti ÿѭӧF

gán vào PӝW OӟS.
5

*,Ӟ,7+,ӊ8
'ӳOLӋX

/ѭӧQJJLiKӗLTXLKӑFKXҩQOX\ӋQ

Mô hình

3KkQORҥLUDTX\ӃWÿӏQK

+jQKÿӝQJ
6

3


NӜI DUNG
1.

*LӟLWKLӋX

2.

3Ḱ˿QJSKiS1DwYH
Bayes

3.


3KѭѫQJSKiSGӵDWUrQWKӇKLӋQ
ĈiQKJLiP{KuQK

4.

7

*,Ӟ,7+,ӊ8
1. Phân OӟS theo mô hình xác VXҩW :
'ӵ ÿRiQ xác VXҩW hay Gӵ ÿRiQ xác
VXҩW là thành viên FӫD OӟS
1͙Q W̻QJ : GΉD trên ÿͣQK lý Bayes
Cho X, Y là các EL͗Q E̽W NǤ ( U͵L U̹F
Vͩ F̽X trúc, «)
'Ή ÿRiQ Y W΃ X
/ѭӧQJ giá các tham Vӕ FӫD P(X | Y) , P(Y)
WUӵF WLӃS Wӯ WұS DL KXҩQ OX\ӋQ
6ӱ GөQJ ÿӏQK lý Bayes ÿӇ tính P(Y | X=x)
8

4


*,Ӟ,7+,ӊ8
2. ĈӏQKOê%D\HV

P(y | x)

P(x | y) P(y)
P(x)


&өWKӇ

%LӃQEҩWNǤ

*LiWUӏWKӭL

9

*,Ӟ,7+,ӊ8
2. ĈӏQKOê%D\HV

7ѭѫQJÿѭѫQJ

10

5


*,Ӟ,7+,ӊ8
3. 3KkQORҥL%D\HV

7ұS'/KXҩQOX\ӋQ

XD mô hình /ѭӧQJJLi3 ;|Y), P(Y)
3KkQOӟS 'QJÿӏQKOê%D\HVÿӇWtQK
P(Y | X new )

11


*,Ӟ,7+,ӊ8
4. ĈӝFOұSÿLӅXNLӋQ
(Conditional independence)
ĈӏQK QJKƭD : X ÿӝF OұS ÿLӅX NLӋQ YӟL Y khi cho Z QӃX
phân Eӕ xác VXҩW trên X ÿӝF OұS YӟL các giá WUӏ FӫD Y
khi cho các giá WUӏ FӫD Z.

7DWKѭӡQJYLӃW
9tGͽ
3 6̽PVpW| 0́D&KͳS
 3 6̽PVpW| &KͳS


12

6


7KXұWWRiQ1DwYH%D\HV
*Lҧ Vӱ :
‡ D : WұS KXҩQ OX\ӋQ JӗP các PүX ELӇX GLӉQ GѭӟL
GҥQJ X = <x1, ..., xn>
‡ Ci,D : WұS các PүX FӫD D WKXӝF OӟS Ci YӟL
i = {1, «, m}
‡ Các WKXͱF tính x1, ..., xn ÿͱF OͅS ÿL͙X NL͟Q
ÿ{L PͱW YͳL nhau khi cho OͳS C
Khi ÿy : ta FҫQ xác ÿӏQK xác VXҩW P(Ci|X) OӟQ
QKҩW
13


7KXұWWRiQ1DwYH%D\HV
Theo ÿʈQK lý Bayes :
P(Ci | X)

P(X| Ci )P(Ci )
P(X)

Theo tính FKɢW ÿ͙F OɪS ÿLɾX NLʄQ :
P( X | C i )

n
k 1

P( x | C i) P( x | C i) P( x | C i) ... P( x | C i)
k
1
2
n

/XұW phân OӟS cho Xnew = {x1, ...,xn} là :

n

arg max P(Ci )
Ck

k

1


P( x | C i )
k

14

7


7KXұWWRiQ1DwYH%D\HV
B1 : +XҩQ OX\ӋQ Naïve Bayes (trên WұS DL
KXҩQ OX\ӋQ

/ѭӧQJ giá P(Ci)
/ѭӧQJ giá P(Xk|Ci)
B2 : Xnew ÿ́ͻF gán vào OӟS cho giá WUӏ
công WKӭF OӟQ QKҩW :

n

arg max P(Ci )
Ck

k

1

P( x | C i )
k
15


7UѭӡQJKӧS;± JLiWUӏUӡLUҥF
*Lҧ Vӱ :
‡ X = <x1, ...,xn>
‡ xi QKұQ các giá WUӏ UӡL UҥF
Khi ÿy : /ѭӧQJ giá P(Ci) và OѭӧQJ giá
P(Xk|Ci) theo công WKӭF

C
P(Ci ) i, D
D

#C {x }
i, D k
P( x | Ci )
k
C
i, D
16

8


7UѭӡQJKӧS;± JLiWUӏUӡLUҥF
‡ ĈӇ tránh WUѭӡQJ KӧS giá WUӏ P(Xk|Ci) = 0 do không
có PүX nào trong DL KXҩQ NX\ӋQ WKӓD mãn Wӱ Vӕ
ta làm WUѫQ EҵQJ cách thêm PӝW Vӕ PүX ҧR.
Khi ÿy :
‡ Làm WUѫQ theo Laplace :

1

C
,
i
D
P(Ci )
D m

#C {x } 1
i, D k
P( x | Ci )
k
C
r
i, D

YӟL m ± Vӕ OӟS và r là Vӕ giá WUӏ UӡL UҥF FӫD WKXӝF tính

17

9Ë'Ө
Cho WұS Gӳ OLӋX KXҩQ OX\ӋQ :
Outlook

Temperature

Humidity

Windy

Play?


sunny

hot

high

weak

No
No

sunny

hot

high

strong

overcast

hot

high

weak

Yes


rain

mild

High

weak

Yes

rain

cool

Normal

weak

Yes

rain

cool

normal

strong

No


overcast

cool

normal

strong

Yes

sunny

mild

high

weak

No
Yes

sunny

cool

normal

weak

rain


mild

normal

weak

Yes

sunny

mild

normal

strong

Yes

overcast

mild

high

strong

Yes

overcast


hot

normal

weak

Yes

rain

mild

high

strong

No

18

9


9Ë'Ө
B1 : ѬӟF OѭӧQJ P(Ci) YӟL C1 = ³\HV´ C2= ³QR´ và
P(xk|Ci)
Ta thu ÿѭӧF P(Ci) :

P(C1) = 9/14=0.643

P(C2) = 5/14=0.357

9ӟL WKXӝF tính Outlook, ta có các giá WUӏ : sunny,
overcast, rain. Trong ÿy P(sunny|Ci) là :

Outlook
P(sunny | yes) = 2/9 P(sunny | no) = 3/5

19

%jLWұSWKHRQKyP
‡ 7K͵L gian : 5¶
ѬӟF OѭӧQJ P(xk|Ci) YӟL C1 = ³\HV´ C2= ³QR´
‡ P(Outlook|Ci)
‡ Nhóm : dãy trái
‡ P(Temperature|Ci)
‡Nhóm : dãy SKҧL
‡P(Humidity|Ci)
‡Nhóm : dãy JLӳD QӱD trên)
‡P(windy|Ci)
‡Nhóm : dãy JLӳD QӱD GѭӟL

20

10


9Ë'Ө
B2 : Phân OӟS
Xnew = < Outlook=sunny, Temp = cool, Humidity =

high, Windy = strong>
Ta cҫQ tính :
P(C1)*P(X|C1)=P(C1)*P(sunny|y)*P(cool|y)*P(high|y)*
P(strong|y) = 0.005
P(C2)*P(X|C2)=P(C2)*P(sunny|n)*P(cool|n)*P(high|n)*
P(strong|n) = 0.021

ĺ;new WKXͱFOͳS&2 ³QR´

21

%jLWұSFiQKkQ
7KӡL gian : 5¶
Hãy xác ÿӏQK OӟS cho PүX PӟL sau :
Xnew = < Outlook =overcast, Temp = cool,
Humidity = high, Windy = strong>

22

11


9Ë'Ө/jPWUѫQ/DSODFH
Outlook

B1

:

ѬӟF OѭӧQJ

P(Ci) YӟL C1 = ³\HV´
C2= ³QR´ và P(xk|Ci)
theo công WKӭF làm
WUѫQ Laplace
P(C1) = (9+1)/(14+2)
= 10/16
P(C2) = (5+1)/(14+2)
= 6/16

P(sunny | y) = 3/12

P(sunny | n) = 4/8

P(overcast | y) = 5/12

P(overcast | n) = 1/8

P(rain | y) = 4/12

P(rain | n) = 3/8

Temperature
P(hot | y) = 3/12

P(hot | n) = 3/8

P(mild | y) = 5/12

P(mild | n) = 3/8


P(cool | y) = 4/12

P(cool | n) = 2/8

Humidity
P(high | y) = 4/11

P(high | n) = 5/7

P(normal | y) = 7/11

P(normal | n) = 2/7

Windy
P(strong | y) = 4/11

P(strong | n) = 4/7

P(weak | y) = 7/11

P(weak | n) = 3/7

23

9Ë'Ө
B2 : Phân ORҥL
Xnew = < Outlook =overcast, Temp = cool, Humidity
= high, Windy = strong>
Ta tính theo công WKӭF làm WUѫQ Laplace :
P(C1)*P(X|C1)=P(C1)*P(ovecast|y)*P(cool|y)*P(high|y)*

P(strong|y)= .011
P(C2)*P(X|C2)=P(C2)*P(ovecast|n)*P(cool|n)*P(high|n)*

P(strong|n) = .005

Xnew WKXͱF OͳS C1 ³\HV´


24

12


7UѭӡQJKӧS;± JLiWUӏOLrQWөF
‡ 1ӃX WKXӝF tính QKұQ giá WUӏ liên WөF thì xác
VXҩW P(Xk|Ci) WKѭӡQJ ÿѭӧF tính GӵD theo
phân Eӕ Gauss YӟL giá WUӏ trung bình và ÿӝ
OӋFK :
( x )2

1
2

e

P( X | C i) g ( xk ,

Ci

g ( x, , )


2

2

Và P(Xk|Ci) là :

,

Ci

)
25

7KXұWWRiQ1DwYH%D\HV
z

ѬX ÿLӇP :
z
z

z

z

'Ӊ dàng cài ÿһW
7KӡL gian thi hành WѭѫQJ Wӵ QKѭ cây TX\ӃW
ÿӏQK
ĈҥW NӃW TXҧ WӕW trong SKҫQ OӟQ các WUѭӡQJ
KӧS


1KѭӧF ÿLӇP :
z

*Lҧ WKLӃW YӅ tính ÿӝF OұS ÿLӅX NLӋQ FӫD các
WKXӝF tính làm JLҧP ÿӝ chính xác
26

13


NӜI DUNG
1.
2.

*LӟLWKLӋX
3KѭѫQJSKiS1DwYH%D\HV

3.

3Ḱ˿QJSKiSGΉDWUrQ
WK͛KL͟Q

4.

ĈiQKJLiP{KuQK
27

*LӞ,7+,ӊ8
z


3KѭѫQJ pháp phân OӟS GӵD trên WKӇ KLӋQ
(Instance-based) :
z
z

z

/ѭX WUӳ các PүXÿӕL WѭӧQJ KXҩQ OX\ӋQ và FKӍ [ӱ lý
khi có yêu FҫX phân OӟS PүXÿӕL WѭӧQJ PӟL
Ĉ́D P̓XÿͩL ẂͻQJ vào OͳS mà J̿Q YͳL chúng QK̽W

Các SKѭѫQJ pháp :
z
z
z

7KXұW toán k- láng JLӅQJ JҫQ QKҩW (k-NN)
+ӗL qui YӟL WUӑQJ Vӕ FөF Eӝ (Locally weighted
regression)
Suy OXұQ GӵD trên WUѭӡQJ KӧS (Case-based
reasoning)
28

14


K- /È1**,ӄ1**Ҫ11+Ҩ7
+m\FKRW{LEL͗WE̹QFͿDE̹QOjDLW{L
V͕QyLE̹QOjQJ́͵LQḰWK͗QjR

‡ 0ӝW PүX PӟL ÿѭӧF gán vào OӟS có
QKLӅX PүX JLӕQJ YӟL nó QKҩW trong Vӕ k
PүX JҫQ QKҩW

29

K- /È1**,ӄ1**Ҫ11+Ҩ7
z

7KXұWWRiQ[iFÿӏQKOӟSFKRPүXPӟL(
z 7tQKNKRҧQJFiFKJLӳD(YjWҩWFҧFiFPүXWURQJWұS
KXҩQOX\ӋQ
z &KӑQNPүXJҫQQKҩWYӟL(WURQJWұSKXҩQOX\ӋQ
z *iQ(YjROӟSFyQKLӅXPүXQKҩWWURQJVӕNPүXOiQJ
JLӅQJÿy KRһF(QKұQJLiWUӏWUXQJEuQKFӫDNPүX


Response
No response

Response

Class: Response

No response

No response

30


15


K- /È1**,ӄ1**Ҫ11+Ҩ7
‡ 7tQKNKRҧQJFiFKJLӳDPүXÿӕLWѭӧQJ
‡ 0ӛLPүX- WұSWKXӝFWtQKVӕ
‡ .KRҧQJFiFK(XFOLGHJL·D; [1«[n) và
Y=(y1«\n) là:
n

D( X , Y )

( xi

yi ) 2

i 1

‡ .KLWKӵFKLӋQVRViQKFyWKӇEӓTXDFăQEұF
2
31

K- /È1**,ӄ1**Ҫ11+Ҩ7
‡ 9tGөWtQKNKRҧQJFiFKJLӳD-RKQYj5DFKHO
John:
Age=35
Income=95K
No. of credit
cards=3


Rachel:
Age=41
Income=215K
No. of credit
cards=2

D(John, Rachel) =sqrt [(35-41)2+(95K-215K)2 +(3-2)2]
‡ Các WKXӝF tính có giá WUӏ OӟQ VӁ ҧQK KѭӣQJ QKLӅX ÿӃQ
NKRҧQJ cách JLӳD các ÿӕL WѭӧQJ (VD: WKXӝF tính income)
‡ Các WKXӝF tính có PLӅQ giá WUӏ khác nhau

-> &̿Q FKX́Q hóa giá WUͣ WKXͱF tính
32

16


K- /È1**,ӄ1**Ҫ11+Ҩ7
z

&ҫQ SKҧL FKXҭQ hoá Gӳ OLӋX : ánh [ҥ các giá WUӏ
vào ÿRҥQ [0,1] theo công WKӭF :

ai

vi min vi
max vi min vi

YͳL : vi là giá WUͣ WKΉF W͗ FͿD WKXͱF tính i
ai là giá WUͣ FͿD WKXͱF tính ÿm FKX́Q hóa


33

K- /È1**,ӄ1**Ҫ11+Ҩ7
z

z

ѬX ÿLӇP :
z 'Ӊ Vӱ GөQJ và cài ÿһW
z ;ӱ lý WӕW YӟL Gӳ OLӋX QKLӉX
.KX\ӃW ÿLӇP :
z &ҫQ OѭX WҩW Fҧ các PүX
z &ҫQ QKLӅX WKӡL gian ÿӇ xác ÿӏQK
OӟS cho PӝW PүX PӟL FҫQ tính và
so sánh NKRҧQJ cách ÿӃQ WҩW Fҧ
các PүX

z 3Kͽ WKXͱF vào giá WUͣ k do QJ́͵L
dùng OΉD FKͥQ
z
z

z

X

1͗X k quá QKͧ QK̹\ F̻P YͳL
QKL͝X
1͗X k quá OͳQ vùng lân FͅQ có WK͛

FK΁D các ÿL͛P FͿD OͳS khác

7KXӝF tính phi Vӕ ?

34

17


×