Tải bản đầy đủ (.pdf) (46 trang)

khai thác luật kết hợp (2)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (659.41 KB, 46 trang )

KHAI THÁC LUẬTKẾTHỢP
1
DD
ẪẪ
NN
NHNH
ẬẬ
PP
DD
ẪẪ
NN
NHNH
ẬẬ
PP
Xét CSDL khảo sát tiện nghi sử dụng ở các hộ
gia đình nh
ư
sau:
gia đình nh
ư
sau:
Hộ Tiện nghi sở hữu
1
Ti i
Má Vití h
1
Ti
v
i
,
MáyVití


n
h
2Tủlạnh, Máylạnh
3
Tivi
, Máygiặt, Máylạnh
3
Tivi
,

Máygiặt,

Máylạnh
4 Tivi, Tủlạnh, Máylạnh
5 Tivi, Máygiặt, MáyVitính
6 Tivi, Tủlạnh, Máygiặt
7 Tivi, Tủlạnh, MáyVitính
8 Tivi, Tủlạnh, Má
yg
iặt, Má
y
lạnh, Má
y
Vitính
2
LL
UU
ẬẬ
TT
KK

ẾẾ
TT
HH
ỢỢ
PP
LL
UU
ẬẬ
TT
KK
ẾẾ
TT
HH
ỢỢ
PP
 LuLuậậttkkếếtthhợợpplàlà phépphép kéokéo theotheo cócó ddạạngng::
 Tivi  Máyvitính [50%, 57%] hay
sử dụng:Tivi  sử dụng:Máyvitính [50%, 57%]
Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụng
Máyvitính. Tivi và Máyvitính xuấthiện chung trong 50%
dòng
d

li

u
"
dòng
d


li

u
.
3
KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP
ế
Khai thác luật k
ế
t hợp được chia làm hai giai đoạn:
1. Khai thác t
ập

p
h

bi
ế
n
(
FIs

Fre
q
uent Itemsets
)
.
ậpp (
q)
2. Khai thác luật từ các tập phổ biến(ARs –

Association Rules)
Association

Rules)
.
4
KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP
ế
CSDL
giao tác
Khai thác luật k
ế
t hợp được chia làm hai giai đoạn:
1. Khai thác t
ập

p
h

bi
ế
n
(
FIs

Fre
q
uent Itemsets
)
.

giao

tác
ậpp (
q)
2. Khai thác luật từ các tập phổ biến(ARs –
Association Rules)
Tìm tậpphổ
CSDL luật
Association

Rules)
.
Tìm

tập

phổ

biến
Khai thác luật
FIs
5
1
Tìm T

p ph

bi
ế

n
1
.
Tìm T

p ph

bi
ế
n
2
Tìm lu

t k
ế
t h

p
2
.
Tìm lu

t k
ế
t h

p
6
TTÌMÌM TTẬẬPPPHPHỔỔ BIBIẾẾNN
 Được đề xuất bởi Agrawal năm 1993.


 Mục đích: tìm m

i liên hệ gi

a các mặt hàng
(danh mục) được bán trong siêu thị.
Đ
ế
ó
hi

h

đ


Đ
ế
nnay,c
ó
n
hi

up
h
ư
ơ
ng p


p
đ
ư

cp

t
triểnnhư:
Ph
há A i i (A l)

Ph
ương

p

p
A
pr
i
or
i (A
grawa
l)
 Phương pháp IT-tree (M. Zaki)

Ph
ươ
ng pháp FP
-

tree (J Han)

Ph
ươ
ng pháp FP
tree (J
.
Han)
 …
7
MMỘỘT ST SỐỐ THUTHUẬẬT TOÁN T TOÁN
TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾNN
1
Ph
ươ
ng pháp Apriori
1
.
Ph
ươ
ng pháp Apriori
.
2. Phương pháp FP-tree (Frequent Patterns
Tree)
Tree)
.
3. Phương pháp IT-tree (Itemset-Tidset Tree).
8
ĐĐỊỊNHNH NGHĨANGHĨA
1. Định nghĩa độ phổ biến:

ChoCSDLgiaodịch D và tậpdữ liệu
X
I.
Độ phổ biếncủa X trong D, kí hiệu (X),
đ
ượ
c
đ

nh
nghĩa

s

giao
d

ch

X
xu

t
đ
ượ
c
đ

nh
nghĩa


s

giao
d

ch

X
xu

t
hiện trong D.
2. Định nghĩatậpphổ biến:
Tậ
p
X
 I đư

c
g
ọilà
p
h

bi
ế
nn
ế
u

p
g
p
(
X
)minSup (với minSup là giá trị do
người dùng chỉ định).
9
2121 DecDec 1010
TTÍNHÍNH CHCHẤẤTT AAPRIORIPRIORI
1. Mọi tập con của tập phổ biến đều phổ biến, nghĩa
là XY, nếu

(Y)  minSup thì (X)  minSup

2. Mọi tập cha của tập không phổ biến đều không phổ
bi
ế
n
nghĩa là

Y

X n
ế
u

(X)
<
minSup

thì

(Y)
bi
ế
n
,
nghĩa là

Y

X
,
n
ế
u

(X)
<
minSup
thì

(Y)
< minSup
10
TTHUHUẬẬTTTOÁNTOÁN AAPRIORIPRIORI
 Đầu vào:CSDL giao dịch D và ngưỡng phổ biến
minSu
p
p

 Đầu ra: FIs chứa tất cả các tập phổ biến của D
 Mã giả:
G

i C
k
: T

p
các

n
g
viên có kích thước k

k

p
g
L
k
: Các tập phổ biến có kích thước k
L
1
= { i  I: (i)  minSup}
for (k = 2; L
k-1
!=; k++) do
C
k

=
{các

n
g v
i
ê
n
đ
ượ
c t

o t

L
k
1
}
C
k
{các

g v ê đ
ượ
c t

o t

k
-

1
}
for each t  D do
if C
k

t then C
k
.count++
L
k
= {C
k
|C
k
.count  minSup}
FIs
=

L
;
FIs
=

k
L
k
;
11
CCÁCHÁCH TTẠẠOO ỨỨNGNG VIÊNVIÊN CCỦỦAA AAPRIORIPRIORI

 Nguyên tắc Apriori:
Nh

l

i tính ch

t:
m

i t

p con c

a t

p ph

bi
ế
n
Nh

l

i tính ch

t:
m


i t

p con c

a t

p ph

bi
ế
n
cũng phổ biến
 Giả sử ta có L
3

= {abc, abd, acd, ace, bcd}
 Xét việc kết để tao ra các ứng viên C
4
: L
3
*L
3
abcd được tạo từ abc và abd
d
đ
t
t

d
à

ac
d
e
đ
ược
t
ạo
t

ac
d
v
à
ace
 Rút gọn:

acde
b

lo

i vì
ade
không có trong
L
3

acde
b


lo

i vì
ade
không có trong
L
3
C
4
= {abcd}
12
VV
ÍÍ
DD
ỤỤ
MINHMINH
HH
ỌỌ
AA
VV
ÍÍ
DD
ỤỤ
MINHMINH
HH
ỌỌ
AA
Bảng 1: Xét CSDL mẫu
MãMã giaogiao
dịchdịch

Nội dung giao Nội dung giao
dịchdịch
11 AA, , CC, , TT, , WW
22 CC, , DD, , WW

(A) = 4
(C) = 6
33 AA, ,
CC
, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
(D) = 4

(T)
=
4
55
AA
, ,
CC
, ,
DD
, ,
T
,

WT
,
W
66 CC, , DD, , TT

(T)

4
(W) = 5
13
Với minSup = 50% (50*6/100 = 3), ta có:
VVÍÍDDỤỤ ((TTTT))
Database
(
D
)
L1
()
TID Nội dung Danh
mục
Độ
phổ biến
1
AA, , CC, , TT, , WW
A4
2
CC, , DD, , WW
C6
AA
CC

TT
WW
3
AA
, ,
CC
, ,
TT
, ,
WW
D4
4
AA, , CC, , DD, , WW
T4
5
AA
CC
DD
TWTW
W
5
5
AA
, ,
CC
, ,
DD
, ,
T
,

WT
,
W
W
5
6
CC, , DD, , TT
14
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
, , DD, ,
WW
VVÍÍDDỤỤ ((TTTT))
C2
L2
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
,

,

CC
,

,
DD

,

,
T
,

W
T
,

W
C2
L2
Danh
m

c
Độ phổ
bi
ế
n
Danh
m

c
Độ phổ
bi
ế
n
,,

,,
,,
,,
66 CC, , DD, , TT


AC 4 AC 4
AD 2 AT 3
AT 3 AW 4
AW 4 CD 4
CD 4 CT 4
CT 4 CW 5
CW 5 DW 3
DT 2 TW 3
DW
3
15
DW
3
TW 3
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
VVÍÍDDỤỤ ((TTTT))
22
CC
, , DD, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
C3 L3

Danh Đ


p
h

Danh Đ


p
h


55 AA, , CC, , DD, , T, WT, W
66 CC, , DD, , TT
mục
ộ p
biếnmục
ộ p
biến
ACT 3 ACT 3
ACW 4 ACW 4
ATW 3 ATW 3
CDW 3 CDW 3
CTW 3 CTW 3
Lưu ý: CDT không có trong C
3
vì DT không có trong L
2
!

16
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
DD
WW
VVÍÍDDỤỤ ((TTTT))
C4 L4
22
CC
, ,
DD
, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
Danh
mục
Độ phổ
biến
Danh
mục
Độ phổ
biến

55
AA
, ,
CC
, ,
DD
, ,
T
,
WT
,
W
66 CC, , DD, , TT
ACTW 3 ACTW 3
C5 =  L5 = 


Danh
mục
Độ ph


biến
Danh
mục
Độ ph


biến
17

PHPH
ƯƠƯƠ
NG PHÁP FPNG PHÁP FP

TREETREE
PHPH
ƯƠƯƠ
NG PHÁP FPNG PHÁP FP
TREETREE
 Quét DB lầnthứ nhất để tìm tấtcả các
item đơnphổ biến (single item pattern)
 Sắpxếp các item theo thứ tự giảmcủa độ
phổ biến  f-list
Qét
DB
l

2

d
FP
t

Q
u
ét
DB
l

n

2
,

y
d

ng
FP
-
t
ree
2121 DecDec 1010
18
FPFP

TREETREE
––
XÂYXÂY
DD
ỰỰ
NGNG
CÂYCÂY
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
DD
WW
FPFP


TREETREE
XÂYXÂY
DD
ỰỰ
NGNG
CÂYCÂY
22
CC
, ,
DD
, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
55
AA
, ,
CC
, ,
DD
, ,
T
,
WT
,

W
66 CC, , DD, , TT
It
A
C
D
T
W
It
em
A
C
D
T
W

46445
It
C
W
A
D
T
Sắp xếp theo 
It
em
C
W
A
D

T

65444
19
2121 DecDec 1010
FPFP

TREETREE
––
XÂYXÂY
DD
ỰỰ
NGNG
CÂYCÂY
TIDTID ItemsItems
11 AA, , CC, , TT, , WW
22
CC
DD
WW
AA, , CC, , TT, , WW
CC
DD
WW
FPFP
TREETREE
XÂYXÂY
DD
ỰỰ
NGNG

CÂYCÂY
22
CC
, ,
DD
, ,
WW
33 AA, , CC, , TT, , WW
44 AA, , CC, , DD, , WW
55
AA
CC
DD
TWTW
Item

Link
{}
CC
, ,
DD
, ,
WW
AA, , CC, , TT, , WW
AA, , CC, , DD, , WW
AA
CC
DTDT
WW
55

AA
, ,
CC
, ,
DD
, ,
T
,
WT
,
W
66 CC, , DD, , TT
C6
W
5
C:1C:2C:3C:4
AA
, ,
CC
, ,
D
,
T
,
D
,
T
,
WW
C:5

CC, , D, TD, T
C:6
W
5
A4
D
4
W:1
CC, , W, A, TW, A, T
CC, , W, DW, D
W:1W:2W:3W:4W:5
D:1
D
4
T4
A:1 D:1
CC, , W, A, TW, A, T
A:2
CC, , W, A, DW, A, D
A:3A:4 T:1
Item C W A D T

6
5
4
4
4
T:1T:2 D:1
CC, , W, A, D, TW, A, D, T
D:2

20
2121 DecDec 1010

6
5
4
4
4
T:1
FP-tree trên CSDL ở bảng 1 với minSup = 50%
CCHIHIẾẾUU TRÊNTRÊN FPFP TREETREE –– TT FPTT FP GGROWTHROWTH
Item

Link
{}
Chiếu trên nút T: ta có CSDL
cụcbộ như sau:
C6
W5
C:1C:2C:3C:4C:5C:6
cục

bộ

như

sau:
{CWA:2, CWAD:1, CD:1}
A4
D4

W:1W:1W:2W:3W:4W:5
D:1
T4
A:1
T:1
D:1A:2
T:2
A:3
D:1
A:4
D:2
T:1
T:2
T:1
T
T:1T:2
D:1D:2
T:1
T:1
T:2
21
2121 DecDec 1010
T:1
T:1
CCHIHIẾẾUU TRÊNTRÊN T:4T:4
{CWA:2, CWAD:1, CD:1} Cây
cục bộ cho CSDL chiếu trên T như
Đây là đường đi đơnnênviệc tìm
á
tậ

hổ
biế
hỉ
đ
iả

sau:
Item

Link
{}
c
á
c
tậ
p
phổ
biế
nc
hỉ
đ
ơng
iả
n

tìm các tập con củatập{C,W,
A}. Ta có các tập con:
Item

Link

C4
W
3
C:2C:3C:4
{,A:3,W:3,C:4,AW:3,AC:3,WC
:3, AWC:3}
W
3
A3
W:2
W:3
Vì vậy: chiếutrênT sinh ra các
tậpphổ biếnlà:{T:4, TA:3,
TW
3
TC
4
TAW
3
TAC
3
A:2A:3
CWA:2
TW
:
3
,
TC
:
4

,
TAW
:
3
,
TAC
:
3
,
TWC:3, TAWC:3}.
22
2121 DecDec 1010
CWAD:1 CWA:1
CD:1  C:1
CCHIHI
ẾẾ
UU TRÊNTRÊN D:4D:4
D
{CWA:2, CW:1, C:1} Cây cục bộ như sau:
{}
Item

Link
C4
{}
C:2C:3C:4
Đường đi đơn  Các tập con:
{, W:3,C:4, WC:3}
W3
W:2

W:3
ChiếutrênD sinh ra các tậpphổ
biếnlà:{D:4, DW:3, DC:4,
DWC
:
3
}
23
2121 DecDec 1010
DWC
:
3
}
.
CCHIHIẾẾUU TRÊNTRÊN A:4A:4
A
{CW:4} Cây cục bộ như sau:
{}
Đờ
đi
đ

tậ
Item

Link
C4
{}
C:4
Đ

ư

ng
đi
đ
ơn 

c
tậ
p con:
{, W:4,C:4, WC:4}
W4
W:4
ChiếutrênA sinh ra các tậpphổ biến
là:{A:4, AW:4, AC:4, AWC:4}.
24
2121 DecDec 1010
CCHIHIẾẾUU TRÊNTRÊN W,CW,C
C
W
W:5 {C:5} Cây cục bộ như sau:
{}
Đường đi đơn  Các tập con:
Item

Link
C5
C:5
{,C:5}
Chi

ếu
trên
W
sinh ra các t
ập
p
h

ập
p
biếnlà:{W:5, WC:5}.
Cuối cùng, chiếutrên
C
:6tađược{

}

tậpphổ biến:{
C
:6}
25
2121 DecDec 1010
Cuối

cùng,

chiếu

trên


C
:

6

ta

được

{

}


tập

phổ

biến:{
C
:6}
.

×