TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN
:
chuyên ngành: 62.48.01.01
Tp. Hồ Chí Minh năm 2011
HCM.
T
ngày tháng 12 2011
1.
2. HCM
1
Chương 1. Giới thiệu tổng quan
y.
Chương 2. Cơ sở lý thuyết
2.1. Khai thác tập phổ biến
2.1.1 Một số khái niệm
D X IX
trong D(XX D.
X I (X) minSupCount
(minSupCount Count
2.1.2 Các thuật toán khai thác tập phổ biến
2.2. Khai thác tập phổ biến đóng
1
A, C, T, W
2
C, D, W
3
A, C, T, W
4
A, C, D, W
5
A, C, D, T, W
6
C, D, T
2
2.2.1 Một số định nghĩa và tính chất
a) Toán Cho
IX
)()(: IPIPc
))(()( XtiXc
c
Cho
IX
, X
c(X) = XX
a IT-pair
2.2.2 Thuật toán CHARM
-
X,Y I
)()( YX
thì X và Y X Y
X Y ngoài X Y
XY.
2.2.3 Sử dụng Diffset:
các itemset.
2.3. Dàn
2.3.1. Một số khái niệm
2.3.1.1 Cận trên, cận dưới
P, và S P.
u P (l PS s u (s l)
s S.
SS
SSS = {x,yxy cho join và xy
cho meet.
2.3.1.2 Định nghĩa
L, ) là x,y L, x y
L, ) là x,y L, x y
L, (L, ) là dàn giao và
3
2.3.2. Thuật toán xây dựng dàn tập phổ biến đóng (CHARM-L)
-X
YXCYYS |
S
X
2.4. Khai thác luật kết hợp truyền thống
XYX
pq
\
,
(X, Y
XYX ,
và p = (Y)/ (X)
q = (YY
D Count và
2.4.1. Một số tính chất của luật kết hợp truyền thống
2.4.2 Các thuật toán sinh luật kết hợp truyền thống
2.4.2.1. Sinh luật dựa vào quan hệ cha – con
)
itemset X X
-
X X.
2.4.2.2. Sinh luật kết hợp dựa vào bảng băm
n
2
) (không xét
j
i
hay không) n
C: V
XXX
X \ X
X
2.5. Khai thác luật kết hợp không dư thừa
4
2.5.1. Luật không dư thừa tối tiểu (MNAR)
R
1
: X
1
Y
1
R
2
: X
2
Y
2
X
1
X
2
và
Y
2
Y
1
(R
1
R
2
).
2.5.2. Tập sinh tối tiểu (minimal Generator)
Cho X XX
khi: i) X X và ii) (X(X)
2.5.3. Thuật toán sinh luật không dư thừa tối tiểu từ FCI
Pha 1 chính xác (có
Pha 2 conf < 1).
2.6. Kết luận
Chương 3. Khai thác luật kết hợp dựa trên dàn tập phổ biến
3.1. Khai thác luật kết hợp truyền thống dựa trên dàn tập phổ biến
3.1.1. Xây dựng dàn tập phổ biến [2, 4, 5]
3.1.1.1. Thuật toán và 3.1.1.2. Minh họa thuật toán
Hình 3.2 LATTICE_FI D
minSupCount = 3
5
3.1.2. Sinh luật kết hợp truyền thống từ dàn [2]
Định lý 3.1.1. l
1
, l
2
và l
3
l
1
l
2
và l
2
là
l
3
và l
2
.sup/ l
1
.sup < minConf thì l
3
.sup/ l
1
.sup < minConf.
XYX},
X sang Y , thì
XY
3.1.2.1. Thuật toán
3.1.2.2. Minh họa thuật toán
3.1.2.3. Độ phức tạp thuật toán
Mệnh đề 3.1.1
dàn nkn k là trung
k
n n).
3.1.4. Kết quả thực nghiệm
s
Tên CSDL
Chess
3196
76
37
37
Mushroom
8124
120
23
23
Pumsb*
49046
7117
50
62
Pumsb
49046
7117
73.6
74
Connect
67557
130
43
43
Retail
88162
16469
10.3
76
Accidents
340182
468
6
minConf là 50%.
CSDL
minSup(%)
#FI
chess
85
2669
95482
80
8227
552564
75
20993
2336556
70
48731
8111370
mushroom
40
565
5767
35
1189
16945
30
2735
79437
25
5545
234007
Retail
0.8
243
180
0.6
417
301
0.4
831
625
0.2
2690
2034
connect
97
487
8092
95
2201
78376
92
11567
976432
90
27127
3460704
a) Tính cả thời gian xây dựng dàn, tạo bảng băm và sinh luật
1
Hình 3.4 & 3.5 và dàn trên
CSDL Chess & Mushroom
1
2.0 GHz, 1GB RAM, Windows
Chess
0
50
100
150
200
250
300
85 80 75 70
minSup(%)
Thời gian(giây)
Dựa vào bảng băm
Dựa trên dàn
Mushroom
0
0.5
1
1.5
2
2.5
40 35 30 25
minSup(%)
Thời gian(giây)
Dựa vào bảng băm
Dựa vào dàn
7
Hình 3.8 & 3.9
CSDL Retail & Connect
b) Chỉ tính thời gian sinh luật
Hình 3.11 & 3.12 So sánh t &
Musshroom
Hình 3.15 & 3.16 & Connect
Retail
0
10
20
30
40
50
60
0.8 0.6 0.4 0.2
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Connect
0
5
10
15
20
25
30
35
97 95 92 90
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Chess
0
50
100
150
200
250
85 80 75 70
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Mushroom
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
40 35 30 25
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Retail
0
0.005
0.01
0.015
0.02
0.025
0.8 0.6 0.4 0.2
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
Connect
0
5
10
15
20
25
30
35
97 95 92 90
minSup(%)
Thời gian(giây)
Dựa trên bảng băm
Dựa trên dàn
8
3.2. Khai thác luật từ các độ đo thú vị dựa vào dàn và bảng băm
Jaccard, Phi-coefficient, v.v. Tuy chúng có
X Y (X Y =
X
, n
Y
, n
XY
X
= (X), n
Y
= (Y), n
XY
= (XY). T
XY
XY
XYY
YX
XYX
YX
Y
Y
X
X
nnnnnnnnnnnnnnn ,,,,
X = AC, Y = TW,
n = 6, n
X
= 4, n
Y
= 3, n
XY
= 3
.3,2
YX
nn
X, XYng cách
Y
TW
Confidence
X
XY
n
n
4
3
Cosine
YX
XY
nn
n
12
3
3*4
3
Lift
YX
XY
nn
nn
2
3
3*4
6*3
Phi-coefficient
YX
YX
YXXY
nnnn
nnnn
72
6
3*2*3*4
3*46*3
9
1
Value
A
C
D
T
W
Key
1
2
3
4
5
2
Value
AC
AT
AW
CD
CT
CW
DW
TW
Key
3
5
6
5
6
7
8
9
3
Value
ACT
ACW
ATW
CDW
CTW
Key
7
8
10
10
11
4
Value
ACTW
Key
12
3.2.1. Thuật toán khai thác luật kết hợp với các độ đo thú vị
3.2.2. Một ví dụ minh họa
3.2.3. Kết quả thực nghiệm
2
a) Số lượng luật
CSDL
minSup(%)
#FI
mushroom
35
1189
21522
30
2735
94894
25
5545
282672
20
53583
19191656
Chess
80
8227
552564
75
20993
2336556
70
48731
8111370
65
111239
26238988
Accidents
50
8057
375774
45
16123
1006566
40
32528
2764708
35
68222
8218214
Chess 65
1239 26238988
2
2.53 GHz, 4GB RAM, Windows
10
b) Tính cả thời gian khai thác tập phổ biến, xây dựng dàn và tạo bảng
băm
Hình 3.19
14.13/80.83100%=17.48%-
51.87/124.43100%=46.31%,
59.91/126.57100%=47.33% và 67.59/132.49100%=49.66%
Mushroom
0
10
20
30
40
50
60
70
80
90
35 30 25 20
minSup
Time (s)
Confidence: HT
Confidence: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Lift: HT
Lift: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
11
Hình 3.20
Hình 2.23
K L+HT
HT.
Chess
0
50
100
150
200
250
300
350
80 75 70 65
minSup
Time (s)
Confidence: HT
Confidence: L+HT
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Lift: HT
Lift: L+HT
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
Accidents
0
20
40
60
80
100
120
140
50 45 40 35
minSup
Time (s)
Cofidence: HT
Cofidence: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)
Lift: HT
Lift: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Accidents
0
50
100
150
200
250
50 45 40 35
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
12
c) Không tính thời gian khai thác tập phổ biến và xây dựng dàn
thác +
Hình 3.24
HT
và ch
11.989/79.69100% = 15.05%
trong hình 3.19(a)).
phi-coefficient.
-
Mushroom
0
10
20
30
40
50
60
70
80
90
35 30 25 20
minSup
Time (s)
Confidence: HT
Confidence: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Lift: HT
Lift: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Cosine: HT
Cosine: L+HT
Mushroom
0
20
40
60
80
100
120
140
35 30 25 20
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
13
Hình 3.25 -coefficient
3.3. Khai thác luật không dư thừa tối tiểu từ dàn sửa đổi [3]
Định nghĩa 3.3.1. R
1
: X
1
Y
1
và R
2
: X
2
Y
2
, R
1
R
2
R
1
R
2
X
1
X
2
và Y
2
Y
1
.
Định nghĩa 3.3.2. R = {R
1
, R
2
, …, R
n
cùng độ phổ biến và độ tin cậyR
j
R
R
i
sao cho R
i
R
j
Định lý 3.3.1. Cho X, Y (X Y
XX Y thì Z mG(X), Z Y.
Định lý 3.3.2. X
sang X X
Định lý 3.3.3.
X sang Y X, Y X Y.
Định lý 3.3.4 .
Cho Xt(X), Yt(Y) là hai IT-pair sao cho X Y(X) = (Y) thì hai tính
i) X Y không là mG
3.3.1. Thuật toán xây dựng dàn FIL sửa đổi
3.3.2. Minh họa quá trình xây dựng dàn sửa đổi
3.3.3. Thuật toán khai thác luật không dư thừa tối tiểu từ dàn sửa đổi
X Y X, Y là
X Y.
mG(X).
Chess
0
100
200
300
400
500
600
700
80 75 70 65
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
Accidents
0
20
40
60
80
100
120
140
160
50 45 40 35
minSup
Time (s)
Phi-coefficient: HT
Phi-coefficient: L+HT
14
3.3.4. Minh họa thuật toán
3.3.3. Kết quả thực nghiệm
3
minConf = 50%.
Hình 3.31 & 3.32
CSDL Chess & Mushroom
Hình 3.33 & 3.34
CSDL Pumsb & Pumsb*
Hình 3.35 & 3.36 vào FCI và MFIL trên
CSDL Connect & Accidents
3
2.0 GHz, 1GB RAM, Windows
Chess
0
20
40
60
80
100
120
140
85 80 75 70
minSup(%)
Thời gian(giây)
FCI
MFIL
Mushroom
0
2
4
6
8
10
12
50 40 30 20
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb
0
0.5
1
1.5
2
2.5
3
3.5
4
95 92 90 88
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb*
0
20
40
60
80
100
120
140
160
180
50 45 40 35
minSup(%)
Thời gian(giây)
FCI
MFIL
Connect
0
20
40
60
80
100
120
98 95 90 85
minSup(%)
Thời gian(giây)
FCI
MFIL
Accidents
0
5
10
15
20
25
30
35
80 70 60 50
minSup(%)
Thời gian(giây)
FCI
MFIL
15
các hình 3.37 2.
Hình 3.37 & 3.38
Chess & Mushroom
Hình 3.39 & 3.40
Pumsb & Pumsb*
Hình 3.41 & 3.42 rên CSDL
Connect & Accidents
Chess
0
20
40
60
80
100
120
140
85 80 75 70
minSup(%)
Thời gian(giây)
FCI
MFIL
Mushroom
0
1
2
3
4
5
6
7
50 40 30 20
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb
0
0.5
1
1.5
2
2.5
95 92 90 88
minSup(%)
Thời gian(giây)
FCI
MFIL
Pumsb*
0
20
40
60
80
100
120
140
50 45 40 35
minSup(%)
Thời gian(giây)
FCI
MFIL
Connect
0
10
20
30
40
50
60
70
80
98 95 90 85
minSup(%)
Thời gian(giây)
FCI
MFIL
Accidents
0
2
4
6
8
10
12
14
80 70 60 50
minSup(%)
Thời gian(giây)
FCI
MFIL
16
d
3.4. Kết luận
nkn k
n
2
).
Do k n
dàn
thú
Chương 4. Khai thác luật kết hợp dựa trên dàn tập phổ biến đóng
dàn dàn
dàn [1].
Định nghĩa 4.1.1. Tập luật thiết yếu nhất
Cho
n
RRR , ,
1
(
i
pq
ii
YXR
ii
,
R
E
= {R
i
R: (R
j
R: R
j
R
i
)}, R
E
R.
17
Mệnh đề 4.1.1. X Y và X Y \ X (R
1
Z: X
Z Y, ta có:
a) X Z \ X (R
2
) và b) Z Y \ Z (R
3
4.1. Xây dựng dàn tập phổ biến đóng
Ldàn
X X)
.
4.1.1. Thuật toán
4.1.2. Minh họa
4.1.3. Độ phức tạp thuật toán
Khi nút {Y
Ynk), trong
n k
O(n
2
k n
thành O(n).
4.2. Sinh luật thiết yếu nhất dựa trên dàn tập phổ biến đóng
4.2.1. Thuật toán sinh luật thiết yếu nhất từ dàn tập phổ biến đóng
4.2.2. Một ví dụ minh họa
4.2.3. Kết quả thực nghiệm
dàn
18
4
CSDL
minSup
(%)
Theo FCI (giây)
Theo dàn (giây)
(5)
%100
)1(
)3(
(6)
%100
)2(
)4(
FCI +
(2)
FCI+
Dàn +
(4)
Chess
80
7.78
7.61
8.12
5.03
104.4
66.1
70
270.28
255.16
285.31
183.5
105.6
71.9
Mushroom
30
0.39
0.1
0.42
0.09
107.7
90
20
1.13
0.52
1.36
0.5
120.4
96.2
Accidents
70
3.75
0.08
3.71
0.03
98.9
37.5
60
8.91
1.05
8.84
0.36
99.2
34.3
Connect
97
0.36
0.03
0.39
0.03
108.3
100
92
4.36
2.94
4.38
2.88
100.5
98
4.3. Kết luận
dàn
ng c
. nkn
k
Chương 5. Kết luận và hướng phát triển
5.1. Kết luận
chính
1. dàn : Q
2.
3. dàn
4
2.0 GHz, 1GB RAM, Windows
19
4.
5. dàn
6.
7. dàn
5.2. Hướng phát triển
CSDL gig
Danh mục các công trình chính
[1]. Ứng dụng dàn tập đóng trong khai thác
luật thiết yếu nhất
56 (2009).
[2]. Bay Vo, Bac Le. Mining traditional association rules using frequent
itemsets lattice. 39th International Conference on CIE, July 6 8, Troyes,
France, IEEE, 1401 1406 (2009).
[3]. Bay Vo, Bac Le. Mining minimal non-redundant association rules
using frequent itemsets lattice. International Journal of Intelligent Systems
Technology and Applications 10 (1), 92 106 (2011).
[4]. Bay Vo, Bac Le. Interestingness measures for association rules:
Combination between lattice and hash tables. Expert Systems With
Applications 38 (9), 11630-11640 (2011).
20
Các công trình liên quan có đóng góp của tác giả
[5]. Khai thác luật kết hợp thu gọn từ dàn tập
phổ biến
140
(2007).
[6]. Khai thác luật kết hợp không dư thừa từ
dàn tập phổ biến đóng.
Công ngh
183 (2007).
[7]. Khai thác luật kết hợp không dư thừa từ
tập phổ biến đóng.
150 (2007).
[8]. Khai thác luật kết hợp thu gọn.
168 (2008).
[9]. Gom nhóm tập phổ biến ứng dụng trong
khai thác luật kết hợp.
107 (2008).
[10]. Khai thác luật thiết yếu nhất từ tập phổ
biến đóng.
50 (2008).
[11]. Vectơ bit động: Cách tiếp cận mới để
khai thác tập phổ biến.
52 (2010).
[12]. Bay Vo, Bac Le. A novel classification algorithm based on
association rule mining.
Nam, Springer Verlag, 61 75 (2009).
21
[13]. Bay Vo, Bac Le. Fast algorithm for mining minimal generators of
frequent closed itemsets and their apllications. 39th International
Conference on CIE, July 6 8, Troyes, France, IEEE, 1407 1411 (2009).
[14]. Bac Le, Huy Nguyen, Tung-Anh Cao, Bay Vo. A novel algorithm for
mining high utility itemsets. A, Quang Binh, Viet Nam, IEEE, 13 17
(2009).
[15]. Bay Vo, Huy Nguyen, Bac Le. Mining high utility itemsets from
vertical distributed databases. IEEE RIVF 2009, Da Nang, Viet Nam, 1
4 (2009).
[16]. Bay Vo, Huy Nguyen, Tu Bao Ho, Bac Le. Parallel method for
mining high utility itemsets from vertically partitioned distributed
databases. Knowledge-Based Intelligent Information and Engineering
Systems, Chile, Springer, 251 260 (2009).
[17]. Bay Vo, Bac Le. Fast algorithm for mining generalized association
rules. International Journal of Database Theory and Application 2 (3), 1
12 (2009).
[18]. Bay Vo, Bac Le. Mining the most generalization association rules.
ACIIDS 2010, Hue, Viet Nam, Springer (SCI), 207 216 (2010).
[19]. Bac Le, Huy Nguyen, Bay Vo. Efficient algorithms for mining
frequent weighted itemsets from weighted items databases. IEEE-RIVF
2010, Ha Noi, Viet Nam, 59-64 (2010).
[20]. Bac Le, Huy Nguyen, Bay Vo. An efficient strategy for mining high
utility itemsets. International Journal of Intelligent Information and
Database Systems 5 (2), 164 176 (2011).
[21]. Bay Vo, Bac Le, Thang N. Nguyen. Mining frequent itemsets from
multidimensional databases. ACIIDS 2011, Daegu, Korea, LNAI 6591,
177186 (2011).
[22]. Thien-Trang Van, Bay Vo, Bac Le. Mining sequential rules based on
Prefix-tree. ACIIDS 2011, Daegu, Korea, Springer (SCI), 147-156 (2011).
22
[23]. Bay Vo, Bac Le. A frequent closed itemsets lattice-based approach
for mining minimal non-redundant association rules. International Journal
of Database Theory and Application 4(2), 23 34 (2011).
Danh mục các đề tài có sự tham gia của tác giả
[24]. Các phương pháp tìm luật kết hợp và ứng dụng.
[25]. Nâng cao hiệu quả của các thuật toán khai thác dữ
liệu. 2011).
[26]. Thành viên Phát triển các thuật toán khai thác hiệu
quả luật kết hợp trên các loại cơ sơ dữ liệu.
gia (NAFOSTED), 11/201010/2012.
[27]. Phát triển các thuật toán khai thác tập phổ biến và
tập phổ biến đóng trên cơ sở dữ liệu tăng trưởng.
11/2011 04/2013.