Tải bản đầy đủ (.pdf) (24 trang)

NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (564.22 KB, 24 trang )


TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN








NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN







 : 
 chuyên ngành: 62.48.01.01











Tp. Hồ Chí Minh năm 2011


HCM.








 

 

 

 



T
 ngày tháng 12 2011



1. 
2.  HCM
1


Chương 1. Giới thiệu tổng quan


 
y.
Chương 2. Cơ sở lý thuyết




2.1. Khai thác tập phổ biến
2.1.1 Một số khái niệm
D X  IX
trong D(XX D.
   X  I       (X)  minSupCount
(minSupCount Count 








2.1.2 Các thuật toán khai thác tập phổ biến



2.2. Khai thác tập phổ biến đóng



1
A, C, T, W
2
C, D, W
3
A, C, T, W
4
A, C, D, W
5
A, C, D, T, W
6
C, D, T
2

2.2.1 Một số định nghĩa và tính chất
a) Toán   Cho
IX 
  
)()(: IPIPc 

))(()( XtiXc 
c 
 Cho
IX 
, X 
c(X) = XX 
a IT-pair
2.2.2 Thuật toán CHARM

-
            
X,Y  I
)()( YX



thì X và Y X  Y
X Y ngoài X  Y
XY.
2.2.3 Sử dụng Diffset: 
các itemset.
2.3. Dàn
2.3.1. Một số khái niệm
2.3.1.1 Cận trên, cận dưới
P,  và S P.
u  P (l  PS s  u (s  l)
s  S.
SS
SSS = {x,yxy cho join và xy
cho meet.
2.3.1.2 Định nghĩa
L, ) là x,y  L, x  y 
L, ) là x,y  L, x  y 
L, (L, ) là dàn giao và 
3

2.3.2. Thuật toán xây dựng dàn tập phổ biến đóng (CHARM-L)
-X 
             

 
YXCYYS  |
      
S
  
X 
2.4. Khai thác luật kết hợp truyền thống

XYX
pq
\
,

(X, Y 

 XYX ,
 và p = (Y)/ (X) 
q = (YY 

         D   Count và

2.4.1. Một số tính chất của luật kết hợp truyền thống
2.4.2 Các thuật toán sinh luật kết hợp truyền thống
2.4.2.1. Sinh luật dựa vào quan hệ cha – con
 )
itemset X X 
-
X X.
2.4.2.2. Sinh luật kết hợp dựa vào bảng băm
 n

2
) (không xét

j

i
hay không) n 
C: V
XXX
X \ X
X
 


2.5. Khai thác luật kết hợp không dư thừa
4

2.5.1. Luật không dư thừa tối tiểu (MNAR)
R
1
: X
1


Y
1

R
2
: X

2


Y
2
X
1
 X
2

Y
2
 Y
1
(R
1
 R
2
).
2.5.2. Tập sinh tối tiểu (minimal Generator)
Cho X XX 
khi: i) X X và ii) (X(X)
2.5.3. Thuật toán sinh luật không dư thừa tối tiểu từ FCI

Pha 1 chính xác (có 
Pha 2 conf < 1).
2.6. Kết luận
Chương 3. Khai thác luật kết hợp dựa trên dàn tập phổ biến
3.1. Khai thác luật kết hợp truyền thống dựa trên dàn tập phổ biến
3.1.1. Xây dựng dàn tập phổ biến [2, 4, 5]

3.1.1.1. Thuật toán và 3.1.1.2. Minh họa thuật toán

Hình 3.2  LATTICE_FI D 
minSupCount = 3
5

3.1.2. Sinh luật kết hợp truyền thống từ dàn [2]
Định lý 3.1.1. l
1
, l
2
và l
3
l
1
l
2
và l
2

l
3
và l
2
.sup/ l
1
.sup < minConf thì l
3
.sup/ l
1

.sup < minConf.

XYX},
X sang Y , thì 
XY

3.1.2.1. Thuật toán
3.1.2.2. Minh họa thuật toán
3.1.2.3. Độ phức tạp thuật toán
Mệnh đề 3.1.1 
dàn  nkn k là trung
 k 
n n).
3.1.4. Kết quả thực nghiệm
      s      


Tên CSDL




Chess
3196
76
37
37
Mushroom
8124
120

23
23
Pumsb*
49046
7117
50
62
Pumsb
49046
7117
73.6
74
Connect
67557
130
43
43
Retail
88162
16469
10.3
76
Accidents
340182
468








6



 minConf là 50%.

CSDL
minSup(%)
#FI

chess
85
2669
95482
80
8227
552564
75
20993
2336556
70
48731
8111370
mushroom
40
565
5767
35

1189
16945
30
2735
79437
25
5545
234007
Retail

0.8
243
180
0.6
417
301
0.4
831
625
0.2
2690
2034

connect
97
487
8092
95
2201
78376

92
11567
976432
90
27127
3460704
a) Tính cả thời gian xây dựng dàn, tạo bảng băm và sinh luật
1


Hình 3.4 & 3.5  và dàn trên
CSDL Chess & Mushroom


1
2.0 GHz, 1GB RAM, Windows

Chess
0
50
100
150
200
250
300
85 80 75 70
minSup(%)
Thời gian(giây)
Dựa vào bảng băm
Dựa trên dàn

Mushroom
0
0.5
1
1.5
2
2.5
40 35 30 25
minSup(%)
Thời gian(giây)
Dựa vào bảng băm
Dựa vào dàn
7


Hình 3.8 & 3.9
CSDL Retail & Connect
b) Chỉ tính thời gian sinh luật

 



Hình 3.11 & 3.12  So sánh t &
Musshroom

Hình 3.15 & 3.16   & Connect
Retail
0
10

20
30
40
50
60
0.8 0.6 0.4 0.2
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Connect
0
5
10
15
20
25
30
35
97 95 92 90
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Chess
0
50
100
150
200

250
85 80 75 70
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Mushroom
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
40 35 30 25
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Retail
0
0.005
0.01
0.015
0.02
0.025
0.8 0.6 0.4 0.2
minSup(%)

Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Connect
0
5
10
15
20
25
30
35
97 95 92 90
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
8




3.2. Khai thác luật từ các độ đo thú vị dựa vào dàn và bảng băm

 Jaccard, Phi-coefficient, v.v. Tuy chúng có

X  Y (X  Y = 
X
, n
Y

, n
XY


X
= (X), n
Y
= (Y), n
XY
= (XY). T
      
XY
XY
XYY
YX
XYX
YX
Y
Y
X
X
nnnnnnnnnnnnnnn  ,,,,
 X = AC, Y = TW,
n = 6, n
X
= 4, n
Y
= 3, n
XY
= 3 

.3,2 
YX
nn


X, XYng cách
Y

 TW















Confidence
X
XY
n
n


4
3

Cosine
YX
XY
nn
n

12
3
3*4
3


Lift
YX
XY
nn
nn

2
3
3*4
6*3


Phi-coefficient
YX
YX

YXXY
nnnn
nnnn 

72
6
3*2*3*4
3*46*3



9


1
Value
A
C
D
T
W



Key
1
2
3
4
5




2
Value
AC
AT
AW
CD
CT
CW
DW
TW
Key
3
5
6
5
6
7
8
9
3
Value
ACT
ACW
ATW
CDW
CTW




Key
7
8
10
10
11



4
Value
ACTW







Key
12








3.2.1. Thuật toán khai thác luật kết hợp với các độ đo thú vị
3.2.2. Một ví dụ minh họa
3.2.3. Kết quả thực nghiệm
2

a) Số lượng luật

CSDL
minSup(%)
#FI

mushroom
35
1189
21522
30
2735
94894
25
5545
282672
20
53583
19191656
Chess
80
8227
552564
75
20993

2336556
70
48731
8111370
65
111239
26238988
Accidents
50
8057
375774
45
16123
1006566
40
32528
2764708
35
68222
8218214

Chess 65
1239  26238988




2
2.53 GHz, 4GB RAM, Windows


10

b) Tính cả thời gian khai thác tập phổ biến, xây dựng dàn và tạo bảng
băm




Hình 3.19  



             
14.13/80.83100%=17.48%-
     51.87/124.43100%=46.31%,
59.91/126.57100%=47.33% và 67.59/132.49100%=49.66%
 

Mushroom
0
10
20
30
40
50
60
70
80
90
35 30 25 20

minSup
Time (s)
Confidence: HT
Confidence: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Lift: HT
Lift: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)

Cosine: HT
Cosine: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
11



Hình 3.20  


Hình 2.23  
K L+HT 
HT.


Chess
0

50
100
150
200
250
300
350
80 75 70 65
minSup
Time (s)
Confidence: HT
Confidence: L+HT
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Lift: HT
Lift: L+HT
Chess
0
100
200

300
400
500
600
700
80 75 70 65
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
Accidents
0
20
40
60
80

100
120
140
50 45 40 35
minSup
Time (s)
Cofidence: HT
Cofidence: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)
Lift: HT
Lift: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)

Cosine: HT
Cosine: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
12

c) Không tính thời gian khai thác tập phổ biến và xây dựng dàn

thác +



Hình 3.24  
 HT
và ch

11.989/79.69100% = 15.05% 

trong hình 3.19(a)). 
phi-coefficient.


-


Mushroom
0
10
20
30
40
50
60
70
80
90
35 30 25 20
minSup
Time (s)
Confidence: HT
Confidence: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20

minSup
Time (s)
Lift: HT
Lift: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)

Phi-coefficient: HT
Phi-coefficient: L+HT
13


Hình 3.25  -coefficient
3.3. Khai thác luật không dư thừa tối tiểu từ dàn sửa đổi [3]
Định nghĩa 3.3.1. R
1
: X
1


Y
1
và R
2
: X
2


Y
2
, R
1

R
2
R
1

 R
2
X
1
 X
2
và Y
2
 Y
1
.
Định nghĩa 3.3.2. R = {R
1
, R
2
, …, R
n

cùng độ phổ biến và độ tin cậyR
j
R 
R
i
sao cho R
i
 R
j

Định lý 3.3.1. Cho X, Y (X Y
XX  Y thì Z  mG(X), Z  Y.

Định lý 3.3.2.  X
sang X X 
Định lý 3.3.3. 
X sang Y  X, Y X  Y.
Định lý 3.3.4  .
Cho Xt(X), Yt(Y) là hai IT-pair sao cho X  Y(X) = (Y) thì hai tính

i) X Y không là mG
3.3.1. Thuật toán xây dựng dàn FIL sửa đổi
3.3.2. Minh họa quá trình xây dựng dàn sửa đổi
3.3.3. Thuật toán khai thác luật không dư thừa tối tiểu từ dàn sửa đổi

X Y X, Y là
X  Y. 
  mG(X).
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
Accidents

0
20
40
60
80
100
120
140
160
50 45 40 35
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
14

3.3.4. Minh họa thuật toán
3.3.3. Kết quả thực nghiệm
3



minConf = 50%.

Hình 3.31 & 3.32  
CSDL Chess & Mushroom

Hình 3.33 & 3.34  
CSDL Pumsb & Pumsb*


Hình 3.35 & 3.36  vào FCI và MFIL trên
CSDL Connect & Accidents


3
2.0 GHz, 1GB RAM, Windows

Chess
0
20
40
60
80
100
120
140
85 80 75 70
minSup(%)
Thời gian(giây)
FCI
MFIL
Mushroom
0
2
4
6
8
10
12
50 40 30 20

minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb
0
0.5
1
1.5
2
2.5
3
3.5
4
95 92 90 88
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb*
0
20
40
60
80
100
120
140
160
180

50 45 40 35
minSup(%)
Thời gian(giây)
FCI
MFIL
Connect
0
20
40
60
80
100
120
98 95 90 85
minSup(%)
Thời gian(giây)
FCI
MFIL
Accidents
0
5
10
15
20
25
30
35
80 70 60 50
minSup(%)
Thời gian(giây)

FCI
MFIL
15







các hình 3.37 2.

Hình 3.37 & 3.38  
Chess & Mushroom

Hình 3.39 & 3.40  
Pumsb & Pumsb*

Hình 3.41 & 3.42  rên CSDL
Connect & Accidents
Chess
0
20
40
60
80
100
120
140
85 80 75 70

minSup(%)
Thời gian(giây)
FCI
MFIL
Mushroom
0
1
2
3
4
5
6
7
50 40 30 20
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb
0
0.5
1
1.5
2
2.5
95 92 90 88
minSup(%)
Thời gian(giây)
FCI
MFIL

Pumsb*
0
20
40
60
80
100
120
140
50 45 40 35
minSup(%)
Thời gian(giây)
FCI
MFIL
Connect
0
10
20
30
40
50
60
70
80
98 95 90 85
minSup(%)
Thời gian(giây)
FCI
MFIL
Accidents

0
2
4
6
8
10
12
14
80 70 60 50
minSup(%)
Thời gian(giây)
FCI
MFIL
16




d

3.4. Kết luận

 





nkn k 
n

2
).
Do k n 
dàn   
thú

Chương 4. Khai thác luật kết hợp dựa trên dàn tập phổ biến đóng

dàn      dàn   

dàn   [1].
Định nghĩa 4.1.1. Tập luật thiết yếu nhất
Cho
 
n
RRR , ,
1

(
i
pq
ii
YXR
ii
 
,
        
R
E
= {R

i
 R: (R
j
R: R
j
 R
i
)}, R
E

R.


17

Mệnh đề 4.1.1. X  Y và X  Y \ X (R
1
Z: X
 Z  Y, ta có:
a) X  Z \ X (R
2
) và b) Z  Y \ Z (R
3

4.1. Xây dựng dàn tập phổ biến đóng
Ldàn  


X  X)
 

.
4.1.1. Thuật toán
4.1.2. Minh họa
4.1.3. Độ phức tạp thuật toán
Khi nút {Y
Ynk), trong
n k 

O(n
2
k n 
thành O(n).
4.2. Sinh luật thiết yếu nhất dựa trên dàn tập phổ biến đóng
4.2.1. Thuật toán sinh luật thiết yếu nhất từ dàn tập phổ biến đóng
4.2.2. Một ví dụ minh họa
4.2.3. Kết quả thực nghiệm


 dàn  


18


4

CSDL
minSup
(%)
Theo FCI (giây)

Theo dàn (giây)
 (5)
%100
)1(
)3(


(6)
%100
)2(
)4(


FCI +


(2)
FCI+
Dàn +


(4)
Chess
80
7.78
7.61
8.12
5.03
104.4
66.1

70
270.28
255.16
285.31
183.5
105.6
71.9
Mushroom
30
0.39
0.1
0.42
0.09
107.7
90
20
1.13
0.52
1.36
0.5
120.4
96.2
Accidents
70
3.75
0.08
3.71
0.03
98.9
37.5

60
8.91
1.05
8.84
0.36
99.2
34.3
Connect
97
0.36
0.03
0.39
0.03
108.3
100
92
4.36
2.94
4.38
2.88
100.5
98
4.3. Kết luận
dàn
 ng  c
. nkn 
k 
 

Chương 5. Kết luận và hướng phát triển

5.1. Kết luận


chính 
1. dàn  : Q


2.        

3.  dàn  


4
2.0 GHz, 1GB RAM, Windows

19

4. 


5. dàn  

6. 
7. dàn  




        


5.2. Hướng phát triển

CSDL gig 

Danh mục các công trình chính
[1]. Ứng dụng dàn tập đóng trong khai thác
luật thiết yếu nhất
 56 (2009).
[2]. Bay Vo, Bac Le. Mining traditional association rules using frequent
itemsets lattice. 39th International Conference on CIE, July 6  8, Troyes,
France, IEEE, 1401  1406 (2009).
[3]. Bay Vo, Bac Le. Mining minimal non-redundant association rules
using frequent itemsets lattice. International Journal of Intelligent Systems
Technology and Applications 10 (1), 92  106 (2011).
[4]. Bay Vo, Bac Le. Interestingness measures for association rules:
Combination between lattice and hash tables. Expert Systems With
Applications 38 (9), 11630-11640 (2011).
20

Các công trình liên quan có đóng góp của tác giả
[5]. Khai thác luật kết hợp thu gọn từ dàn tập
phổ biến    
               140
(2007).
[6]. Khai thác luật kết hợp không dư thừa từ
dàn tập phổ biến đóng. 
Công ngh
 183 (2007).
[7]. Khai thác luật kết hợp không dư thừa từ
tập phổ biến đóng. 


150 (2007).
[8]. Khai thác luật kết hợp thu gọn. 

 168 (2008).
[9]. Gom nhóm tập phổ biến ứng dụng trong
khai thác luật kết hợp. 
 107 (2008).
[10]. Khai thác luật thiết yếu nhất từ tập phổ
biến đóng. 
 50 (2008).
[11]. Vectơ bit động: Cách tiếp cận mới để
khai thác tập phổ biến. 
 52 (2010).
[12]. Bay Vo, Bac Le. A novel classification algorithm based on
association rule mining. 
Nam, Springer Verlag, 61  75 (2009).
21

[13]. Bay Vo, Bac Le. Fast algorithm for mining minimal generators of
frequent closed itemsets and their apllications. 39th International
Conference on CIE, July 6  8, Troyes, France, IEEE, 1407  1411 (2009).
[14]. Bac Le, Huy Nguyen, Tung-Anh Cao, Bay Vo. A novel algorithm for
mining high utility itemsets. A, Quang Binh, Viet Nam, IEEE, 13  17
(2009).
[15]. Bay Vo, Huy Nguyen, Bac Le. Mining high utility itemsets from
vertical distributed databases. IEEE  RIVF 2009, Da Nang, Viet Nam, 1
 4 (2009).
[16]. Bay Vo, Huy Nguyen, Tu Bao Ho, Bac Le. Parallel method for
mining high utility itemsets from vertically partitioned distributed

databases. Knowledge-Based Intelligent Information and Engineering
Systems, Chile, Springer, 251  260 (2009).
[17]. Bay Vo, Bac Le. Fast algorithm for mining generalized association
rules. International Journal of Database Theory and Application 2 (3), 1 
12 (2009).
[18]. Bay Vo, Bac Le. Mining the most generalization association rules.
ACIIDS 2010, Hue, Viet Nam, Springer (SCI), 207  216 (2010).
[19]. Bac Le, Huy Nguyen, Bay Vo. Efficient algorithms for mining
frequent weighted itemsets from weighted items databases. IEEE-RIVF
2010, Ha Noi, Viet Nam, 59-64 (2010).
[20]. Bac Le, Huy Nguyen, Bay Vo. An efficient strategy for mining high
utility itemsets. International Journal of Intelligent Information and
Database Systems 5 (2), 164  176 (2011).
[21]. Bay Vo, Bac Le, Thang N. Nguyen. Mining frequent itemsets from
multidimensional databases. ACIIDS 2011, Daegu, Korea, LNAI 6591,
177186 (2011).
[22]. Thien-Trang Van, Bay Vo, Bac Le. Mining sequential rules based on
Prefix-tree. ACIIDS 2011, Daegu, Korea, Springer (SCI), 147-156 (2011).
22

[23]. Bay Vo, Bac Le. A frequent closed itemsets lattice-based approach
for mining minimal non-redundant association rules. International Journal
of Database Theory and Application 4(2), 23  34 (2011).
Danh mục các đề tài có sự tham gia của tác giả
[24].  Các phương pháp tìm luật kết hợp và ứng dụng.

[25].  Nâng cao hiệu quả của các thuật toán khai thác dữ
liệu. 2011).
[26]. Thành viên  Phát triển các thuật toán khai thác hiệu
quả luật kết hợp trên các loại cơ sơ dữ liệu. 

 gia (NAFOSTED), 11/201010/2012.
[27].  Phát triển các thuật toán khai thác tập phổ biến và
tập phổ biến đóng trên cơ sở dữ liệu tăng trưởng. 
11/2011  04/2013.

×