Tải bản đầy đủ (.pdf) (25 trang)

DATA MINING AND APPLICATION: BÀI TOÁN KHAI THÁC doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (449.82 KB, 25 trang )

1
1
KHAI THÁC
'Ӳ/,ӊ8
Ӭ1*'Ө1*
(DATA MINING)
*91*8<ӈ1+2¬1*7Ò$1+
2
B
B
À
À
I
I


3
3


-
-
P
P
H
H
ҪN
N


2


2
KHAI THÁC
TҰP PHӘ BIӂN &
LUҰT KӂT HӦP
2
3
NӜI DUNG
1.
*LͳLWKL͟X
2. %jLWRiQNKDLWKiFWұSSKә
ELӃQ
3. ĈӝÿRWtQKOêWK~FӫD/.+
4
*,Ӟ,7+,ӊ8
 Bài toán khai thác WұS SKә ELӃQ là bài toán
UҩW quan WUӑQJ OƭQK YӵF KTDL : YҥFK ra tính
FKҩW ҭQ quan WUӑQJ FӫD WұS DL
7ҩW Fҧ các WұS con FӫD WұS SKә ELӃQ ÿӅX là
WұS SKә ELӃQ
7ұS SKә ELӃQ WӕL ÿҥL WұS bao SKә ELӃQ
Bài toán khai thác LKH là bài toán WuPW̽WF̻
FiFOXұWGҥQJ X 

Y (X, Y  I và X Y ={})
WKӓDPmQÿӝSKәELӃQYjÿӝWLQFұ\WӕLWKLӇX
supp (X 

Y ) t
t
minsupp

conf (X 

Y ) t
t
minconf
3
5
*,Ӟ,7+,ӊ8
Bài toán khai thác WͅS SKͭ EL͗Q là bài toán tìm
W̽W F̻ các WͅS các K̹QJ PͽF S (hay WͅS SKͭ
EL͗Q S) có ÿͱ SKͭ EL͗Q WKͧD mãn ÿͱ SKͭ EL͗Q
WͩL WKL͛X minsupp
supp(S)
t
t
minsupp
Cách JLҧL TX\ӃW : GӵD trên tính FKҩW FӫD WұS SKә
ELӃQ
Tìm NLӃP theo FKLӅX UӝQJ : 7KXұW toán Apriori
(1994)
Phát WULʀQ PɨX : 7KXɪW toán FP-Growth
(2000)
Tìm NLӃP trên CSDL hàng GӑF : 7KXұW toán
Charm (2002)
6
*,Ӟ,7+,ӊ8
 &iFKҥQFKӃFӫD7KXұWWRiQ$SULRUL
3KҧL GX\ӋW CSDL QKLӅX OҫQ
Khi khai thác các PүX dài FҫQ GX\ӋW CSDL
QKLӅX OҫQ và WҥR OѭӧQJ OӟQ WұS ӭQJ viên

Ví Gө : ĈӇ tìm WұS SKә ELӃQ i1 i2« i100 :
 6ӕOҫQGX\ӋW&6'/
 6ӕOѭӧQJӭQJYLrQ
100
-1 = 1.27*10
30
!
9ҩQ ÿӅ : WҥR ӭQJ viên và NLӇP tra
 &yWKӇWUiQKYLӋFWҥRӭQJYLrQKD\NK{QJ"
4
7
NӜI DUNG
1. *LӟLWKLӋX
2. %jLWRiQNKDLWKiFWͅS
SKͭEL͗Q
¾ 7KXͅWWRiQ)3-Growth
3. ĈӝÿRWtQKOêWK~FӫD/.+
8
7+8Ұ772È1)3-GROWTH
1. %Ҧ1&+Ҩ7
Khai thác WұS SKә ELӃQ không
Vӱ GөQJ hàm WҥR ӭQJ viên.
Nén CSDL thành F̽X trúc cây
FP (Frequent Patern)
'X\ӋW ÿӋ qui cây FP ÿӇ WҥR WұS
SKә ELӃQ
5
9
7+8Ұ772È1)3-GROWTH
2. QUI TRÌNH

B0 : 7KL͗W OͅS cây FP
B1 : 7KLӃW OұS Fѫ Vӣ PүX ÿLӅX NLӋQ
(conditional pattern bases) cho PӛL KҥQJ
PөF SKә ELӃQ PӛL nút trên cây FP).
B2 : 7KL͗W OͅS cây FP ÿL͙X NL͟Q (conditional
FP tree) W΃ PͯL F˿ Vͷ P̓X ÿL͙X NL͟Q
B3 : Khai thác ÿӋ qui cây FP ÿLӅX NLӋQ và
phát WULӇQ PүX SKә ELӃQ cho ÿӃQ khi cây FP
ÿLӅX NLӋQ FKӍ FKӭD 1 ÿѭӡQJ GүQ duy QKҩW -
WҥR ra WҩW Fҧ các Wә KӧS FӫD PүX SKә ELӃQ
10
7+,ӂ7/Ұ3&Æ<)3B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 60%
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1- KɞQJ
PͥF GX\ʄW CSDL 1 OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ JLɠP

GɤQ vào trong F-list
3. 6ɬS [ɼS CSDL theo F-
list. 'X\ʄW CSDL OɤQ
QͯD và WKLɼW OɪS cây FP
F-list=f-c-a-b-m-p
6
11
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯDYj
WKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:1
c:1
a:1

m:1
p:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
12
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p}{f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w}{f, b}
400 {b, c, k, s, p}{c, b, p}
500 {a, f, c, e, l, p, m, n}{f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-

list
3. 'X\ʄW&6'/OɤQQͯDYj
WKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:2
c:2
a:2
b:1m:1
p:1
m:1
7
13
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p}{f, c, a, m, p}
200 {a, b, c, f, l, m, o}{f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p}{c, b, p}
500 {a, f, c, e, l, p, m, n}{f, c, a, m, p}
1. Tìm WɪS SK͕ ELɼQ 1-

KɞQJ PͥF GX\ʄW CSDL 1
OɤQ
2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯD
YjWKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:3
c:2
a:2
b:1m:1
p:1
m:1
b:1
14
7+,ӂ7/Ұ3&Æ<)3(B0)
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
minsupp = 3
1. Tìm WɪS SK͕ ELɼQ 1-
KɞQJ PͥF GX\ʄW CSDL 1
OɤQ

2. 6ɬS [ɼS WɪS SK͕ ELɼQ
JLɠP GɤQ vào trong F-
list
3. 'X\ʄW&6'/OɤQQͯD
YjWKLɼWOɪSFk\)3
F-list=f-c-a-b-m-p
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2
m:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
8
15
%jLWұSFiQKkQ
TID Items
1 {B,A,K}
2 {K, B,C,A}
3 {A,D,M, B}
4 {D,A,B,E}
5 {A,K,C}

6 {A,B,C}
7 {M,B,C,E}
8 {B,C,D}
9{B,E}
10 {A,E,M,K}
11 {A,C,E,M}
12 {A,D,E}
 7KӡL gian : 10¶
 Trình bày N͇W TX̫ ra JḼ\.
Yêu FҫX:
1.Xây GӵQJ cây FP Wӯ CSDL
bên YӟL minsupp = 25%
2.1͇X Minsupp = 40% thì cây
FP Vͅ thay ÿ͝L QK˱ WK͇ nào ?
16
4XLÿʈQKWUuQKEj\EjLQ͙S
%jLWұSQӝSFiQKkQ
 1Jj\QӝS
 Tên nhóm :
± +ӑYjWrQ
± 0mVӕ69
 1ӝLGXQJ
 /́X ý:QͱS bài làm theo W΃QJ nhóm
9
17
B1 7KLӃWOұSFѫVӣPүXÿLӅXNLӋQ
 Xây GΉQJ F˿ Vͷ P̓X ÿL͙X NL͟Q
(Conditional pattern base)
±%ҳW ÿҫX Wӯ PүX SKә ELӃQ FXӕL EҧQJ
FӫD cây FP

±'X\͟W cây FP theo N͗W QͩL FͿD PͯL
K̹QJ PͽF SKͭ EL͗Q.
±Gom WҩW Fҧ ÿѭӡQJ GүQ WLӅQ Wӕ ELӃQ
ÿәL (transformed prefix) FӫD KҥQJ
PөF ÿӇ WҥR Fѫ Vӣ PүX ÿLӅX NLӋQ
18
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX
NLӋQ
 ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH
± %ҳWÿҫXWӯPүXSKәELӃQFXӕLEҧQJFӫDFk\)3KҥQJPөFS
± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QS.
± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ
PөF p ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRp
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3

m3
p3
10
19
 ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDOSDWWHUQEDVH
± 7LӃSWөFYӡLPүXSKәELӃQFӫDFk\)3KҥQJPөFP
± 'X\͟WFk\)3WKHRN͗WQͩLFͿDPͯLK̹QJPͽFSKͭEL͗QP
± *RPWҩWFҧÿѭӡQJGүQWLӅQWӕELӃQÿәLtransformed prefix) FӫDKҥQJ
PөF m ÿӇWҥRFѫVӣPүXÿLӅXNLӋQFKRm
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
m fca:2, fcab:1
p fcam:2, cb:1
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX

NLӋQ
20
 ;k\GΉQJF˿VͷP̓XÿL͙XNL͟Q&RQGLWLRQDO
pattern base)
± 7LӃSWөFYӟLFiFPүXSKәELӃQFzQOҥLFӫDFk\
FP
&ѫVӣPүXÿLӅXNLӋQ
item cond. pattern base
cf:3
a fc:3
b fca:1, f:1, c:1
m fca:2, fcab:1
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f4
c4
a3
b3
m3
p3
9Ë'ͬ 7KLӃWOұSFѫVӣPүXÿLӅX

NLӋQ
11
21
B2: 7+,ӂ7/Ұ3&Æ<)3± ÿLӅXNLӋQ
 Xây GӵQJ cây FP-ÿLӅX NLӋQ
±9ͳL PͯL F˿ Vͷ P̓X :
 ĈӃP Vӕ OѭӧQJ PӛL PүX trong Fѫ Vӣ
PүX. Xác ÿӏQK WұS SKә ELӃQ FӫD PүX
Fӣ Vӣ
 Xây GΉQJ cây FP ± ÿL͙X NL͟Q cho
WͅS SKͭ EL͗Q FͿD P̓X F˿ Vͷ
Ẃ˿QJ WΉ QḰ ÉͳF B0)
22
9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
 ;k\GӵQJFk\)3-ÿLӅXNLӋQ
± 9ͳLF˿VͷP̓X ÿL͙XNL͟Qcho p là : {fcam:2, cb:1}
± ĈӃPVӕOѭӧQJPӛLPүXWURQJFѫVӣPүX
 IFDPEYjYͳLPLQVXSS -> c:3
SKͭEL͗QWUrQF˿VͷP̓XÿL͙XNL͟QFͿDS
± 7KL͗WOͅSFk\)3FKRWͅSSKͭEL͗QFͿDP̓XF˿Vͷ
ÿL͙XNL͟QFKRS
p-conditional FP-tree
{}
Header Table
Item frequency head
c3
c:3
minsupp = 3
12

23
minsupp = 3
 ;k\GӵQJFk\)3-ÿLӅXNLӋQ
± 9ͳLF˿VͷP̓X ÿL͙XNL͟Qcho m là : {fca:2, fcab:1}
± ĈӃPVӕOѭӧQJPӛLPүXWURQJFѫVӣPүX
 IFDEYjYͳLPLQVXSS -> f:3, c:3, a:3 là
SKͭEL͗QWUrQF˿VͷP̓XÿL͙XNL͟QFͿDP
± 7KL͗WOͅSFk\)3FKRWͅSSKͭEL͗QFͿDP̓XF˿VͷÿL͙X
NL͟QFKRP
m-conditional FP-tree
{}
f:3
c:3
a:3
Header Table
Item frequency head
f3
c3
a3
9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
24
{ }{ }f
{ (f:3) } | c{ (f:3) }c
{ (f:3, c:3) } | a{ (fc:3) }a
{ }{ (fca:1), (f:1), (c:1) }b
{ (f:3, c:3, a:3) } | m{ (fca:2), (fcab:1) }m
{ (c:3) } | p{ (fcam:2), (cb:1) }p
Conditional FP-treeConditional pattern-base
Item

9Ë'ͬ 7+,ӂ7/Ұ3&Æ<)3±
ÿLӅXNLӋQ
13
25
 'ӵDWUrQQJX\rQOêPӣUӝQJPүXSKәELӃQ
 DӵDWUrQWtQKFKҩWPӣUӝQJPүX
± *Lҧ Vӱ D là WұS SKә ELӃQ trong CSDL, B là Fѫ Vӣ
PүX ÿLӅX NLӋQ FӫD D và E là PӝW WұS các KҥQJ
PөF trong B.
± Khi ÿy
DE
là WͅS SKͭ EL͗Q trong CSDL khi và
FK͡ khi
E
là SKͭ EL͗Q trong B.
 ³abcdef ´OjPүXSKәELӃQNKLYjFKӍNKL
±³abcde ´OjPүXSKәELӃQYj
±³f ´ là SKә ELӃQ trong WұS các giao GӏFK FKӭD ³abcde´
B3;Æ<'͸1*7̴33+͜%,͆1
26
B3;Æ<'͸1*7̴33+͜%,͆1
 7UѭӡQJKӧSFk\FKӍFyÿѭӡQJGүQÿѫQ
± *LҧVӱFk\)3T OjFk\FyPӝWÿѭӡQJGүQÿѫQVLQJOHSDWK3
± 7ͅSP̓XSKͭEL͗QFXͩLFQJFͿD7VLQKUDE͉QJFiFKOL͟W
NrW̽WF̻FiFWͭKͻSFͿDÿ́͵QJG̓QFRQVXE-SDWKVWKXͱF
P.
± 9tGөFk\)3-ÿLӅXNLӋQFKRSOjFk\FyPӝWÿѭӡQJGүQ
ÿѫQ
p-conditional FP-tree
7ҩW Fҧ PүX SKә

ELӃQ liên quan ÿӃQ
plà:
p :3,
cp :3
¼
¼
{}
Header Table
Item frequency head
c3
c:3
14
27
B3;Æ<'͸1*7̴33+͜%,͆1
 Xem xét các cây FP FK͡ có PͱW
ÿ́͵QJ G̓Q ÿ˿Q và các cây FP JͫP
QKL͙X nhánh PͱW cách riêng EL͟W :
± 7KӵF KLӋQ YLӋF phân chia cây QKLӅX
nhánh thành cây có PӝW ÿѭӡQJ GүQ
ÿѫQ
± 7KXͅW toán ÿ͟ qui : JͥL FP_Growth(FP-
tree, null)
28
ĈҫXWLrQJӑL)3BJURZWK)3-tree, null)
procedure FP_growth(Tree,
D
)
 If cây FP FKӭD 1 ÿѭӡQJGүQÿѫQ3 then
± For PӛLWәKӧSE FӫDFiFÿӍQKWUrQ3
 7ҥRPүXE

E


D
D
YӟLsupp = supp
min
FiFÿӍQK
trong E);
 Else for PӛLD
i
WUrQEҧQJKHDGHUFӫDFk\
±7ҥRPүXE= D
i
DYӟLVXSS VXSSD
i
) ;
± 7KLӃWOұSFѫVӣPүXÿLӅXNLӋQFӫDE và cây
FP ± ÿLӅXNLӋQtree
E
) cho E
± If tree
E
zJӑL)3BJURZWKtree
E
, E)
B3;Æ<'͸1*7̴33+͜%,͆1
15
29
9Ë'ͬ;Æ<'͸1*7̴33+͜%,͆1

 ;iFÿӏQKWұSSKәELӃQ
± 9tGөFk\)3-ÿLӅXNLӋQFKRPOjFk\FyPӝWÿѭӡQJGүQÿѫQ
7ҩWFҧPүXSKә
ELӃQOLrQTXDQÿӃQ
m là :
m : 3,
fm :3, cm :3, am:3,
fcm:3, fam:3,
cam:3,
fcam:3
m-conditional FP-tree
{}
f:3
c:3
a:3
Header Table
Item frequency head
f3
c3
a3
30
9Ë'ͬ 7ұSSKәELӃQ
Item Conditional FP-Tree Frequent Patterns
p { (c:3) } | p p, cp
m { (f:3, c:3, a:3) } | m m, fm, cm, am, fcm,
fam, cam, fcam
b { } b
a { (f:3, c:3) } | a a, fa, ca, fca
c { (f:3) } | c c, fc
f { } f

16
31
TT FP-GROWN & TT APRIORI
0
10
20
30
40
50
60
70
80
90
100
0 0.5 1 1.5 2 2.5 3
Support threshold(%)
Run time(sec.)
D1 FP-grow th runtime
D1 Apriori runtime
Data set T25I20D10K
32
9'/8Ұ7.ӂ7+Ӧ3
17
33
9'/8Ұ7.ӂ7+Ӧ3
34
NӜI DUNG
1. *LӟLWKLӋX
2. %jLWRiQNKDLWKiFWұSSKә
ELӃQ

3.ĈͱÿRWtQKOêWK~
FͿD/.+
18
35
'ΉD trên NL͛X DL :
/.+WKXӝFWtQKQKӏSKkQ
{SQL Server} {DM Book}  {DBMiner} (0.2%, 60%)
/.+WKXӝFWtQKVӕ
7XәL[30,39]  7KXQKұS[42000,48000]  Mua (PC)
(1%, 75%)
'ΉD trên FKL͙X DL :
/.+PӝWFKLӅX
{Tã lót}  {Bia} (0.5%, 60%)
/.+QKLӅXFKLӅX
7XәL[30,39]  7KXQKұS[42000,48000]  Mua (PC)
(1%, 75%)
3+Æ1/2Ҥ,/8Ұ7.ӂ7+Ӧ3
36
'ΉD trên phân F̽S khái QL͟P :
/.+PӝWFҩS
7XәL[30,34]  Mua (PC) (1%,
75%)
/.+QKLӅXFҩS
7XәL[30,32]  Mua (laptop C)
(0.5%, 80%)
7XәL[30,34]  Mua (PC) (1%,
75%)
3+Æ1/2Ҥ,/8Ұ7.ӂ7+Ӧ3
19
37

ĈӜĈ27Ë1+/é7+Ò
1. 7KӃ nào là OXұW hay, lý thú ?
¾ 7KXұW toán khai thác OXұW NӃW KӧS có xu KѭӟQJ
sinh ra quá QKLӅX OXұW.
¾ Trong ÿy có QKLӅX OXұW không hay KRһF Eӏ WKӯD
¾ &ҫQ ÿӝ ÿR tính lý thú ÿӇ ORҥL EӟW KҥQ FKӃ OXұW
2. Ĉͱ ÿR khách quan :
o Ĉͱ SKͭ EL͗Q (supp) và ÿͱ tin Fͅ\ (conf)
o Còn NKR̻QJ 20 ÿͱ ÿR khác
3. Ĉӝ ÿR FKӫ quan :
o LKH là lý thú QӃX là ÿLӅX PӟL Oҥ gây QJҥF nhiên
KRһF /và
oCóNKҧ QăQJ ӭQJ GөQJ
38
ĈӜĈ27Ë1+/é7+Ò
 9tGө 1:
± Trong 5000 sinh viên
 FKѫLEyQJUә
 ăQQJNJFӕF
 FKѫLEyQJUәYjăQQJNJFӕF
± /XұW.+&K˿LEyQJUͭ  ĂQQJNJFͩF [40%, 66.7%]
OjVDLOҫPYu69ăQQJNJFӕFOj!
± /XͅW.+&K˿LEyQJUͭ


.K{QJăQQJNJFͩF>
@FyêQJKƭDWKΉFWL͝QK˿QP͏FGFyÿͱ
VXSSYjFRQIWK̽SK˿Q
basketball not basketball sum(row)
cereal 2000 1750 3750

not cereal 1000 250 1250
sum(col.) 3000 2000 5000
20
39
Coffee Coffee
Tea 15 5 20
Tea 75 5 80
90 10 100
9tGͥ
/XɪWNɼWKͣS7HDo
o
Coffee
Conf= P(Coffee|Tea) = 15/20 = 0.75
QKɉQJ3&RIIHH 0.9

0ɴF dù ÿ͙ tin Fɪ\ cao QKɉQJ OXɪW làm cho OɞF
Kɉ͛QJ
 P(Coffee|Tea) = 75/80= 0.9375
ĈӜĈ27Ë1+/é7+Ò
40
ĈӜĈ27Ë1+/é7+Ò
 &ҫQ ÿӝ ÿR Vӵ SKө WKXӝF hay PӕL WѭѫQJ
quan JLӳD các Vӵ NLӋQ
 0ͱWVͩÿͱÿRNKiF
)](1)[()](1)[(
)()(),(
)()(),(
)()(
),(
)(

)|(
YPYPXPXP
YPXPYXP
tcoefficien
YPXPYXPPS
YPXP
YXP
Interest
YP
XYP
Lift






I
21
41
ĈӜĈ27Ë1+/é7+Ò
 ĈӝÿRPӕLWѭѫQJTXDQInterest
± ;Yj<WѭѫQJTXDQQJKӏFKQӃXInterest <1;
1JѭӧFOҥL;Yj<WѭѫQJTXDQWKXұQ
± 9tGө
89.0
5000/3750*5000/3000
5000/2000
),(interest CB
33.1

5000/1250*5000/3000
5000/1000
),(interest CB
 7͹ tính ÿ͡ ÿR interest cho các OX̵W
WKX͡F Ví Gͭ 2
42
%¬,7Ұ37Ҥ,/Ӟ3
 7KӡL gian: 30¶
Cho CSDL giao GӏFK bên
1. 6΅ GͽQJ WKXͅW toán FP-
Grown
ÿӇ tìm các WұS SKә
ELӃQ YӟL minsupp = 22 %
7uPFiFOXͅWN͗WKͻS
WKͧDPmQPLQVXSS
=22% và
minconf=100%.
3. Tính ÿͱ ÿR Interest FͿD
các OXͅW tìm ÿ́ͻF ͷ câu
2.
Tid Items
100 M1, M2, M5
200 M2, M4
300 M2, M3
400 M1, M2, M4
500 M1, M3
600 M2, M3
700 M1, M3
800 M1, M2, M3, M5
900 M1, M2, M3

22
43
7Ï07Ҳ7
1. Bài toán khai thác WұS SKә ELӃQ và OXұW
NӃW KӧS: quan WUӑQJ và UҩW ÿѭӧF quan
tâm.
2. 7KXͅW toán tiêu EL͛X tìm WͅS SKͭ EL͗Q:
Apriori và FP-Growth
3. Ĉӝ ÿR tính lý thú : YҩQ ÿӅ FҫQ nghiên FӭX
sâu KѫQ.
4. 5̽W QKL͙X Y̽Q ÿ͙ còn ÿDQJ Pͷ : phân
tích PͩL N͗W KͻS trong các OR̹L DL khác :
DL không gian, hình ̻QK ÿD SḰ˿QJ WL͟Q
WK͵L gian WKΉF «
44
&È&&Ð1*9,ʃ&&ɣ1/¬0
1. 7K̻R OXͅQ và WΉ làm các bài WͅS FͿD FḰ˿QJ
3- 3K̿Q 1và3K̿Q 2.
2. 7KӵF KLӋQ bài WұS nhóm FKѭѫQJ 3.
± 1ӝS bài qua Moodle WUѭӟF 23h00 ngày
FKӫ QKұW ± 18/10/2009
3. &KXҭQ Eӏ bài 4 : Phân OӟS Gӳ OLӋX
± Xem QӝL dung các bài WұS nhóm WKXӝF bài 4 ±
3KҫQ 1.
± Cách WKӵF KLӋQ :
 ĈӑF slide, xem các ví Gө
 Tham NKҧR trên Internet và tài OLӋX tham NKҧR
23
45
%¬,7Ұ33+Ҫ1

1. Cho CSDL bên
¾ Xây GӵQJ cây FP YӟL
minsupp = 30 %
¾ Xây GӵQJ cây FP YӟL
minsupp = 50 %
¾ Tính ÿͱ SKͭ EL͗Q ÿͱ
tin Fͅ\ ÿͱ ÿR
Interest FͿD các OXͅW
sau :
¾ A->B
¾ B->C
¾ M->E
TID Items
1 {M,K,A,B}
2 {B,C,D,M}
3 {A,C,D,E,K}
4 {A,D,M,E}
5 {A,K,B,C}
6 {A,B,C,D}
7 {K,B,C}
8 {A,B,C,K,M}
9 {A,M,B,D}
10 {B,C,E,M}
46
2. Cho CSDL sau và minsupp=50%,
minconf=80%
a) Tìm WҩW Fҧ các WұS SKә ELӃQ WұS SKә ELӃQ
WӕL ÿҥL WұS SKә ELӃQ ÿyQJ Vӱ GөQJ WKXұW
toán FP-Growth
b) So sánh N͗W TX̻ và tính KL͟X TX̻ YͳL WKXͅW

toán Apriori (Bài WͅS SK̿Q 1)
TID
100
200
300
400
Date
15/1/03
15/1/03
19/1/03
25/1/03
Items_bought
K, A, D, B, C, I
D, A, C, E, B
C, A, B, E, D
B, A, D, I
%¬,7Ұ33+Ҫ1
24
47
3. Cho CSDL sau và minsupp=30%, minconf=50%
%¬,7Ұ33+Ҫ1
48
a)Tìm W̭W F̫ các W̵S ͱQJ viên và W̵S SK͝
EL͇Q W̵S SK͝ EL͇Q W͙L ÿ̩L W̵S SK͝ EL͇Q
ÿyQJ V͵ GͭQJ O̯Q O˱ͫW WKX̵W toán Apriori
và WKX̵W toán Fp-Growth.
b)/L͏W kê W̭W F̫ LKH WK͗D mãn QJ˱ͩQJ ÿm
cho
c)Tính ÿӝ ÿR Interest FӫD các OXұW tìm ÿѭӧF
ӣ câu b)

%¬,7Ұ33+Ҫ1
25
49
7¬,/,ӊ87+$0.+Ҧ2
1. J. Han, J. Pei, and Y. Yin. Mining
frequent patterns without candidate
generation. SIGMOD'00, 1-12, Dallas,
TX, May 2000
2. J.Han, M.Kamber, &KѭѫQJ 5 ± Data
mining : Concepts and Techniques ±
3. P N. Tan, M. Steinbach, V. Kumar,
&KѭѫQJ 6 - Introduction to Data Mining
50
Q
Q


& A
A

×