1
1
KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
2
B
B
À
À
I
I
3
3
-
-
P
P
H
H
ҪN
N
2
2
KHAI THÁC
TҰP PHӘ BIӂN &
LUҰT KӂT HӦP
2
3
NӜI DUNG
1.
*LͳLWKL͟X
2. %jLWRiQNKDLWKiFWұSSKә
ELӃQ
3. ĈӝÿRWtQKOêWK~FӫD/.+
4
*,Ӟ,7+,ӊ8
Bài toán khai thác WұS SKә ELӃQ là bài toán
UҩW quan WUӑQJ OƭQK YӵF KTDL : YҥFK ra tính
FKҩW ҭQ quan WUӑQJ FӫD WұS DL
7ҩW Fҧ các WұS con FӫD WұS SKә ELӃQ ÿӅX là
WұS SKә ELӃQ
7ұS SKә ELӃQ WӕL ÿҥL WұS bao SKә ELӃQ
Bài toán khai thác LKH là bài toán WuPW̽WF̻
FiFOXұWGҥQJ X
Y (X, Y I và X Y ={})
WKӓDPmQÿӝSKәELӃQYjÿӝWLQFұ\WӕLWKLӇX
supp (X
Y ) t
t
minsupp
conf (X
Y ) t
t
minconf
3
5
*,Ӟ,7+,ӊ8
Bài toán khai thác WͅS SKͭ EL͗Q là bài toán tìm
W̽W F̻ các WͅS các K̹QJ PͽF S (hay WͅS SKͭ
EL͗Q S) có ÿͱ SKͭ EL͗Q WKͧD mãn ÿͱ SKͭ EL͗Q
WͩL WKL͛X minsupp
supp(S)
t
t
minsupp
Cách JLҧL TX\ӃW : GӵD trên tính FKҩW FӫD WұS SKә
ELӃQ
Tìm NLӃP theo FKLӅX UӝQJ : 7KXұW toán Apriori
(1994)
Phát WULʀQ PɨX : 7KXɪW toán FP-Growth
(2000)
Tìm NLӃP trên CSDL hàng GӑF : 7KXұW toán
Charm (2002)
6
*,Ӟ,7+,ӊ8
&iFKҥQFKӃFӫD7KXұWWRiQ$SULRUL
3KҧL GX\ӋW CSDL QKLӅX OҫQ
Khi khai thác các PүX dài FҫQ GX\ӋW CSDL
QKLӅX OҫQ và WҥR OѭӧQJ OӟQ WұS ӭQJ viên
Ví Gө : ĈӇ tìm WұS SKә ELӃQ i1 i2« i100 :
6ӕOҫQGX\ӋW&6'/
6ӕOѭӧQJӭQJYLrQ
100
-1 = 1.27*10
30
!
9ҩQ ÿӅ : WҥR ӭQJ viên và NLӇP tra
&yWKӇWUiQKYLӋFWҥRӭQJYLrQKD\NK{QJ"
4
7
NӜI DUNG
1. *LӟLWKLӋX
2. %jLWRiQNKDLWKiFWͅS
SKͭEL͗Q
¾ 7KXͅWWRiQ)3-Growth
3. ĈӝÿRWtQKOêWK~FӫD/.+
8
7+8Ұ772È1)3-GROWTH
1. %Ҧ1&+Ҩ7
Khai thác WұS SKә ELӃQ không
Vӱ GөQJ hàm WҥR ӭQJ viên.
Nén CSDL thành F̽X trúc cây
FP (Frequent Patern)
'X\ӋW ÿӋ qui cây FP ÿӇ WҥR WұS
SKә ELӃQ
5
9
7+8Ұ772È1)3-GROWTH
2. QUI TRÌNH
B0 : 7KL͗W OͅS cây FP
B1 : 7KLӃW OұS Fѫ Vӣ PүX ÿLӅX NLӋQ
(conditional pattern bases) cho PӛL KҥQJ
PөF SKә ELӃQ PӛL nút trên cây FP).
B2 : 7KL͗W OͅS cây FP ÿL͙X NL͟Q (conditional
FP tree) W PͯL F˿ Vͷ P̓X ÿL͙X NL͟Q
B3 : Khai thác ÿӋ qui cây FP ÿLӅX NLӋQ và
phát WULӇQ PүX SKә ELӃQ cho ÿӃQ khi cây FP
ÿLӅX NLӋQ FKӍ FKӭD 1 ÿѭӡQJ GүQ duy QKҩW -
WҥR ra WҩW Fҧ các Wә KӧS FӫD PүX SKә ELӃQ
10
7+,ӂ7/Ұ3&Æ<)3B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 60%
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ
PͥF GX\ʄW CSDL 1 OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP
GɤQ vào trong F-list
3. 6ɬS [ɼS CSDL theo F-
list. 'X\ʄW CSDL OɤQ
QͯD và WKLɼW OɪS cây FP
F-list=f-c-a-b-m-p
6
11
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯDYj
WKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:1
c:1
a:1
m:1
p:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
12
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p}{f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w}{f, b}
400 {b, c, k, s, p}{c, b, p}
500 {a, f, c, e, l, p, m, n}{f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯDYj
WKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:2
c:2
a:2
b:1m:1
p:1
m:1
7
13
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p}{f, c, a, m, p}
200 {a, b, c, f, l, m, o}{f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p}{c, b, p}
500 {a, f, c, e, l, p, m, n}{f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯD
YjWKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:3
c:2
a:2
b:1m:1
p:1
m:1
b:1
14
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯD
YjWKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2
m:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
8
15
%jLWұSFiQKkQ
TID Items
1 {B,A,K}
2 {K, B,C,A}
3 {A,D,M, B}
4 {D,A,B,E}
5 {A,K,C}
6 {A,B,C}
7 {M,B,C,E}
8 {B,C,D}
9{B,E}
10 {A,E,M,K}
11 {A,C,E,M}
12 {A,D,E}
7KӡL gian : 10¶
Trình bày N͇W TX̫ ra JḼ\.
Yêu FҫX:
1.Xây GӵQJ cây FP Wӯ CSDL
bên YӟL minsupp = 25%
2.1͇X Minsupp = 40% thì cây
FP Vͅ thay ÿ͝L QK˱ WK͇ nào ?
16
4XLÿʈQKWUuQKEj\EjLQ͙S
%jLWұSQӝSFiQKkQ
1Jj\QӝS
Tên nhóm :
± +ӑYjWrQ
± 0mVӕ69
1ӝLGXQJ
/́X ý:QͱS bài làm theo WQJ nhóm
9
17
B1 7KLӃWOұSFѫVӣPүXÿLӅXNLӋQ
Xây GΉQJ F˿ Vͷ P̓X ÿL͙X NL͟Q
(Conditional pattern base)
±%ҳW ÿҫX Wӯ PүX SKә ELӃQ FXӕL EҧQJ
FӫD cây FP
±'X\͟W cây FP theo N͗W QͩL FͿD PͯL
K̹QJ PͽF SKͭ EL͗Q.
±Gom WҩW Fҧ ÿѭӡQJ GүQ WLӅQ Wӕ ELӃQ
ÿәL (transformed prefix) FӫD KҥQJ
PөF ÿӇ WҥR Fѫ Vӣ PүX ÿLӅX NLӋQ
18
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX
NLӋQ
;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH
± %ҳWÿҫXWӯPүXSKәELӃQFXӕLEҧQJFӫDFk\)3KҥQJPөFS
± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QS.
± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ
PөF p ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRp
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
10
19
;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH
± 7LӃSWөFYӡLPүXSKәELӃQFӫDFk\)3KҥQJPөFP
± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QP
± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ
PөF m ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRm
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
m fca:2, fcab:1
p fcam:2, cb:1
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX
NLӋQ
20
;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDO
pattern base)
± 7LӃSWөFYӟLFiFPүXSKәELӃQFzQOҥLFӫDFk\
FP
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
cf:3
a fc:3
b fca:1, f:1, c:1
m fca:2, fcab:1
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX
NLӋQ
11
21
B2: 7+,ӂ7/Ұ3&Æ<)3± ÿLӅXNLӋQ
Xây GӵQJ cây FP-ÿLӅX NLӋQ
±9ͳL PͯL F˿ Vͷ P̓X :
ĈӃP Vӕ OѭӧQJ PӛL PүX trong Fѫ Vӣ
PүX. Xác ÿӏQK WұS SKә ELӃQ FӫD PүX
Fӣ Vӣ
Xây GΉQJ cây FP ± ÿL͙X NL͟Q cho
WͅS SKͭ EL͗Q FͿD P̓X F˿ Vͷ
Ẃ˿QJ WΉ QḰ ÉͳF B0)
22
9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
;k\GӵQJFk\)3-ÿLӅXNLӋQ
± 9ͳLF˿VͷP̓X ÿL͙XNL͟Qcho p là : {fcam:2, cb:1}
± ĈӃPVӕOѭӧQJPӛLPүXWURQJFѫVӣPүX
IFDPEYjYͳLPLQVXSS -> c:3
SKͭEL͗QWUrQF˿VͷP̓XÿL͙XNL͟QFͿDS
± 7KL͗WOͅSFk\)3FKRWͅSSKͭEL͗QFͿDP̓XF˿Vͷ
ÿL͙XNL͟QFKRS
p-conditional FP-tree
{}
Header Table
Item frequency head
c3
c:3
minsupp = 3
12
23
minsupp = 3
;k\GӵQJFk\)3-ÿLӅXNLӋQ
± 9ͳLF˿VͷP̓X ÿL͙XNL͟Qcho m là : {fca:2, fcab:1}
± ĈӃPVӕOѭӧQJPӛLPүXWURQJFѫVӣPүX
IFDEYjYͳLPLQVXSS -> f:3, c:3, a:3 là
SKͭEL͗QWUrQF˿VͷP̓XÿL͙XNL͟QFͿDP
± 7KL͗WOͅSFk\)3FKRWͅSSKͭEL͗QFͿDP̓XF˿VͷÿL͙X
NL͟QFKRP
m-conditional FP-tree
{}
f:3
c:3
a:3
Header Table
Item frequency head
f3
c3
a3
9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
24
{ }{ }f
{ (f:3) } | c{ (f:3) }c
{ (f:3, c:3) } | a{ (fc:3) }a
{ }{ (fca:1), (f:1), (c:1) }b
{ (f:3, c:3, a:3) } | m{ (fca:2), (fcab:1) }m
{ (c:3) } | p{ (fcam:2), (cb:1) }p
Conditional FP-treeConditional pattern-base
Item
9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
13
25
'ӵDWUrQQJX\rQOêPӣUӝQJPүXSKәELӃQ
DӵDWUrQWtQKFKҩWPӣUӝQJPүX
± *Lҧ Vӱ D là WұS SKә ELӃQ trong CSDL, B là Fѫ Vӣ
PүX ÿLӅX NLӋQ FӫD D và E là PӝW WұS các KҥQJ
PөF trong B.
± Khi ÿy
DE
là WͅS SKͭ EL͗Q trong CSDL khi và
FK͡ khi
E
là SKͭ EL͗Q trong B.
³abcdef ´OjPүXSKәELӃQNKLYjFKӍNKL
±³abcde ´OjPүXSKәELӃQYj
±³f ´ là SKә ELӃQ trong WұS các giao GӏFK FKӭD ³abcde´
B3;Æ<'1*7̴33+͜%,͆1
26
B3;Æ<'1*7̴33+͜%,͆1
7UѭӡQJKӧSFk\FKӍFyÿѭӡQJGүQÿѫQ
± *LҧVӱFk\)3T OjFk\FyPӝWÿѭӡQJGүQÿѫQVLQJOHSDWK3
± 7ͅSP̓XSKͭEL͗QFXͩLFQJFͿD7VLQKUDE͉QJFiFKOL͟W
NrW̽WF̻FiFWͭKͻSFͿDÿ́͵QJG̓QFRQVXE-SDWKVWKXͱF
P.
± 9tGөFk\)3-ÿLӅXNLӋQFKRSOjFk\FyPӝWÿѭӡQJGүQ
ÿѫQ
p-conditional FP-tree
7ҩW Fҧ PүX SKә
ELӃQ liên quan ÿӃQ
plà:
p :3,
cp :3
¼
¼
{}
Header Table
Item frequency head
c3
c:3
14
27
B3;Æ<'1*7̴33+͜%,͆1
Xem xét các cây FP FK͡ có PͱW
ÿ́͵QJ G̓Q ÿ˿Q và các cây FP JͫP
QKL͙X nhánh PͱW cách riêng EL͟W :
± 7KӵF KLӋQ YLӋF phân chia cây QKLӅX
nhánh thành cây có PӝW ÿѭӡQJ GүQ
ÿѫQ
± 7KXͅW toán ÿ͟ qui : JͥL FP_Growth(FP-
tree, null)
28
ĈҫXWLrQJӑL)3BJURZWK)3-tree, null)
procedure FP_growth(Tree,
D
)
If cây FP FKӭD 1 ÿѭӡQJGүQÿѫQ3 then
± For PӛLWәKӧSE FӫDFiFÿӍQKWUrQ3
7ҥRPүXE
E
D
D
YӟLsupp = supp
min
FiFÿӍQK
trong E);
Else for PӛLD
i
WUrQEҧQJKHDGHUFӫDFk\
±7ҥRPүXE= D
i
DYӟLVXSS VXSSD
i
) ;
± 7KLӃWOұSFѫVӣPүXÿLӅXNLӋQFӫDE và cây
FP ± ÿLӅXNLӋQtree
E
) cho E
± If tree
E
zJӑL)3BJURZWKtree
E
, E)
B3;Æ<'1*7̴33+͜%,͆1
15
29
9Ë'ͬ;Æ<'1*7̴33+͜%,͆1
;iFÿӏQKWұSSKәELӃQ
± 9tGөFk\)3-ÿLӅXNLӋQFKRPOjFk\FyPӝWÿѭӡQJGүQÿѫQ
7ҩWFҧPүXSKә
ELӃQOLrQTXDQÿӃQ
m là :
m : 3,
fm :3, cm :3, am:3,
fcm:3, fam:3,
cam:3,
fcam:3
m-conditional FP-tree
{}
f:3
c:3
a:3
Header Table
Item frequency head
f3
c3
a3
30
9Ë'ͬ 7ұSSKәELӃQ
Item Conditional FP-Tree Frequent Patterns
p { (c:3) } | p p, cp
m { (f:3, c:3, a:3) } | m m, fm, cm, am, fcm,
fam, cam, fcam
b { } b
a { (f:3, c:3) } | a a, fa, ca, fca
c { (f:3) } | c c, fc
f { } f
16
31
TT FP-GROWN & TT APRIORI
0
10
20
30
40
50
60
70
80
90
100
0 0.5 1 1.5 2 2.5 3
Support threshold(%)
Run time(sec.)
D1 FP-grow th runtime
D1 Apriori runtime
Data set T25I20D10K
32
9'/8Ұ7.ӂ7+Ӧ3
17
33
9'/8Ұ7.ӂ7+Ӧ3
34
NӜI DUNG
1. *LӟLWKLӋX
2. %jLWRiQNKDLWKiFWұSSKә
ELӃQ
3.ĈͱÿRWtQKOêWK~
FͿD/.+
18
35
'ΉD trên NL͛X DL :
/.+WKXӝFWtQKQKӏSKkQ
{SQL Server} {DM Book} {DBMiner} (0.2%, 60%)
/.+WKXӝFWtQKVӕ
7XәL[30,39] 7KXQKұS[42000,48000] Mua (PC)
(1%, 75%)
'ΉD trên FKL͙X DL :
/.+PӝWFKLӅX
{Tã lót} {Bia} (0.5%, 60%)
/.+QKLӅXFKLӅX
7XәL[30,39] 7KXQKұS[42000,48000] Mua (PC)
(1%, 75%)
3+Æ1/2Ҥ,/8Ұ7.ӂ7+Ӧ3
36
'ΉD trên phân F̽S khái QL͟P :
/.+PӝWFҩS
7XәL[30,34] Mua (PC) (1%,
75%)
/.+QKLӅXFҩS
7XәL[30,32] Mua (laptop C)
(0.5%, 80%)
7XәL[30,34] Mua (PC) (1%,
75%)
3+Æ1/2Ҥ,/8Ұ7.ӂ7+Ӧ3
19
37
ĈӜĈ27Ë1+/é7+Ò
1. 7KӃ nào là OXұW hay, lý thú ?
¾ 7KXұW toán khai thác OXұW NӃW KӧS có xu KѭӟQJ
sinh ra quá QKLӅX OXұW.
¾ Trong ÿy có QKLӅX OXұW không hay KRһF Eӏ WKӯD
¾ &ҫQ ÿӝ ÿR tính lý thú ÿӇ ORҥL EӟW KҥQ FKӃ OXұW
2. Ĉͱ ÿR khách quan :
o Ĉͱ SKͭ EL͗Q (supp) và ÿͱ tin Fͅ\ (conf)
o Còn NKR̻QJ 20 ÿͱ ÿR khác
3. Ĉӝ ÿR FKӫ quan :
o LKH là lý thú QӃX là ÿLӅX PӟL Oҥ gây QJҥF nhiên
KRһF /và
oCóNKҧ QăQJ ӭQJ GөQJ
38
ĈӜĈ27Ë1+/é7+Ò
9tGө 1:
± Trong 5000 sinh viên
FKѫLEyQJUә
ăQQJNJFӕF
FKѫLEyQJUәYjăQQJNJFӕF
± /XұW.+&K˿LEyQJUͭ ĂQQJNJFͩF [40%, 66.7%]
OjVDLOҫPYu69ăQQJNJFӕFOj!
± /XͅW.+&K˿LEyQJUͭ
.K{QJăQQJNJFͩF>
@FyêQJKƭDWKΉFWL͝QK˿QP͏FGFyÿͱ
VXSSYjFRQIWK̽SK˿Q
basketball not basketball sum(row)
cereal 2000 1750 3750
not cereal 1000 250 1250
sum(col.) 3000 2000 5000
20
39
Coffee Coffee
Tea 15 5 20
Tea 75 5 80
90 10 100
9tGͥ
/XɪWNɼWKͣS7HDo
o
Coffee
Conf= P(Coffee|Tea) = 15/20 = 0.75
QKɉQJ3&RIIHH 0.9
0ɴF dù ÿ͙ tin Fɪ\ cao QKɉQJ OXɪW làm cho OɞF
Kɉ͛QJ
P(Coffee|Tea) = 75/80= 0.9375
ĈӜĈ27Ë1+/é7+Ò
40
ĈӜĈ27Ë1+/é7+Ò
&ҫQ ÿӝ ÿR Vӵ SKө WKXӝF hay PӕL WѭѫQJ
quan JLӳD các Vӵ NLӋQ
0ͱWVͩÿͱÿRNKiF
)](1)[()](1)[(
)()(),(
)()(),(
)()(
),(
)(
)|(
YPYPXPXP
YPXPYXP
tcoefficien
YPXPYXPPS
YPXP
YXP
Interest
YP
XYP
Lift
I
21
41
ĈӜĈ27Ë1+/é7+Ò
ĈӝÿRPӕLWѭѫQJTXDQInterest
± ;Yj<WѭѫQJTXDQQJKӏFKQӃXInterest <1;
1JѭӧFOҥL;Yj<WѭѫQJTXDQWKXұQ
± 9tGө
89.0
5000/3750*5000/3000
5000/2000
),(interest CB
33.1
5000/1250*5000/3000
5000/1000
),(interest CB
7 tính ÿ͡ ÿR interest cho các OX̵W
WKX͡F Ví Gͭ 2
42
%¬,7Ұ37Ҥ,/Ӟ3
7KӡL gian: 30¶
Cho CSDL giao GӏFK bên
1. 6΅ GͽQJ WKXͅW toán FP-
Grown
ÿӇ tìm các WұS SKә
ELӃQ YӟL minsupp = 22 %
7uPFiFOXͅWN͗WKͻS
WKͧDPmQPLQVXSS
=22% và
minconf=100%.
3. Tính ÿͱ ÿR Interest FͿD
các OXͅW tìm ÿ́ͻF ͷ câu
2.
Tid Items
100 M1, M2, M5
200 M2, M4
300 M2, M3
400 M1, M2, M4
500 M1, M3
600 M2, M3
700 M1, M3
800 M1, M2, M3, M5
900 M1, M2, M3
22
43
7Ï07Ҳ7
1. Bài toán khai thác WұS SKә ELӃQ và OXұW
NӃW KӧS: quan WUӑQJ và UҩW ÿѭӧF quan
tâm.
2. 7KXͅW toán tiêu EL͛X tìm WͅS SKͭ EL͗Q:
Apriori và FP-Growth
3. Ĉӝ ÿR tính lý thú : YҩQ ÿӅ FҫQ nghiên FӭX
sâu KѫQ.
4. 5̽W QKL͙X Y̽Q ÿ͙ còn ÿDQJ Pͷ : phân
tích PͩL N͗W KͻS trong các OR̹L DL khác :
DL không gian, hình ̻QK ÿD SḰ˿QJ WL͟Q
WK͵L gian WKΉF «
44
&È&&Ð1*9,ʃ&&ɣ1/¬0
1. 7K̻R OXͅQ và WΉ làm các bài WͅS FͿD FḰ˿QJ
3- 3K̿Q 1và3K̿Q 2.
2. 7KӵF KLӋQ bài WұS nhóm FKѭѫQJ 3.
± 1ӝS bài qua Moodle WUѭӟF 23h00 ngày
FKӫ QKұW ± 18/10/2009
3. &KXҭQ Eӏ bài 4 : Phân OӟS Gӳ OLӋX
± Xem QӝL dung các bài WұS nhóm WKXӝF bài 4 ±
3KҫQ 1.
± Cách WKӵF KLӋQ :
ĈӑF slide, xem các ví Gө
Tham NKҧR trên Internet và tài OLӋX tham NKҧR
23
45
%¬,7Ұ33+Ҫ1
1. Cho CSDL bên
¾ Xây GӵQJ cây FP YӟL
minsupp = 30 %
¾ Xây GӵQJ cây FP YӟL
minsupp = 50 %
¾ Tính ÿͱ SKͭ EL͗Q ÿͱ
tin Fͅ\ ÿͱ ÿR
Interest FͿD các OXͅW
sau :
¾ A->B
¾ B->C
¾ M->E
TID Items
1 {M,K,A,B}
2 {B,C,D,M}
3 {A,C,D,E,K}
4 {A,D,M,E}
5 {A,K,B,C}
6 {A,B,C,D}
7 {K,B,C}
8 {A,B,C,K,M}
9 {A,M,B,D}
10 {B,C,E,M}
46
2. Cho CSDL sau và minsupp=50%,
minconf=80%
a) Tìm WҩW Fҧ các WұS SKә ELӃQ WұS SKә ELӃQ
WӕL ÿҥL WұS SKә ELӃQ ÿyQJ Vӱ GөQJ WKXұW
toán FP-Growth
b) So sánh N͗W TX̻ và tính KL͟X TX̻ YͳL WKXͅW
toán Apriori (Bài WͅS SK̿Q 1)
TID
100
200
300
400
Date
15/1/03
15/1/03
19/1/03
25/1/03
Items_bought
K, A, D, B, C, I
D, A, C, E, B
C, A, B, E, D
B, A, D, I
%¬,7Ұ33+Ҫ1
24
47
3. Cho CSDL sau và minsupp=30%, minconf=50%
%¬,7Ұ33+Ҫ1
48
a)Tìm W̭W F̫ các W̵S ͱQJ viên và W̵S SK͝
EL͇Q W̵S SK͝ EL͇Q W͙L ÿ̩L W̵S SK͝ EL͇Q
ÿyQJ V͵ GͭQJ O̯Q O˱ͫW WKX̵W toán Apriori
và WKX̵W toán Fp-Growth.
b)/L͏W kê W̭W F̫ LKH WK͗D mãn QJ˱ͩQJ ÿm
cho
c)Tính ÿӝ ÿR Interest FӫD các OXұW tìm ÿѭӧF
ӣ câu b)
%¬,7Ұ33+Ҫ1
25
49
7¬,/,ӊ87+$0.+Ҧ2
1. J. Han, J. Pei, and Y. Yin. Mining
frequent patterns without candidate
generation. SIGMOD'00, 1-12, Dallas,
TX, May 2000
2. J.Han, M.Kamber, &KѭѫQJ 5 ± Data
mining : Concepts and Techniques ±
3. P N. Tan, M. Steinbach, V. Kumar,
&KѭѫQJ 6 - Introduction to Data Mining
50
Q
Q
& A
A