ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
VÕ ĐÌNH BẢY
NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN
L
Tp. Hồ Chí Minh – 2011
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
VÕ ĐÌNH BẢY
NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN
:
chuyên ngành: 62.48.01.01
1:
PGS.
Tp. Hồ Chí Minh – 2011
-i-
Lời cam đoan
Tôi xin cam an rng ni dung ca lun án này là kt qu nghiên cu ca chính bn
thân. Tt c nhg tham kho t các nghiên cu có liên quan
.
nêu trong anh
.
Tác gi lun án
-ii-
Lời cảm ơn
Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy, PGS. TS. Lê Hoài Bắc bởi
nhờ sự động viên, chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành
luận án này.
Em cũng xin chân thành gửi lời cảm ơn đến các Thầy Cô trong khoa Công nghệ Thông
tin trường Đại học Khoa học Tự nhiên Tp. HCM đã tận tình dạy dỗ, chỉ bảo nhiều kiến
thức quí báu giúp em hoàn thành khóa học đúng tiến độ.
Xin cảm ơn Phòng Sau đại học về những hỗ trợ về mặt thủ tục, giấy tờ.
Xin cảm ơn các đồng nghiệp, bạn bè đã động viên tôi trong suốt thời gian thực hiện
luận án này. Không có sự động viên kịp thời của các thầy – cô và các bạn, tôi khó hoàn
thành luận án đúng hạn.
Cuối cùng, xin chân thành cảm ơn cha mẹ, vợ con và anh chị em đã khích lệ, động
viên, tạo điều kiện thuận lợi cho tôi trong suốt thời gian làm nghiên cứu sinh.
11
-iii-
ii
vi
viii
ix
1
1.1. Khai thác d 1
2
6
7
8
9
11
11
11
12
26
26
28
34
2.3. Dàn 37
37
dàn -L) 39
44
44
44
51
51
-iv-
52
52
53
54
55
DÀN 58
3.1. Khdàn 58
dàn 58
61
66
74
76
77
80
88
ây 90
91
93
95
97
101
DÀN
103
dàn 104
104
105
107
-v-
dàn 108
112
114
114
115
121
121
124
125
-vi-
Danh mục các kí hiệu, chữ viết tắt
STT
1
AR
Association Rule(s)
2
CHARM
Closed Association Rule
Mining
3
Cidset
Closed identifiers set
4
C
k
Cadidate k-itemsets
tem.
5
CSDL
Database(s)
6
Diffset
Difference set
7
Eclat
Equivalence class
tranformation
8
FCI
Frequent Closed Itemset(s)
9
FCIL
Frequent Closed Itemset
Lattice
Dàn c
10
FI
Frequent Itemset(s)
11
FIL
Frequent Itemset Lattice
12
FP-tree
Frequent Pattern-tree
Cây FP
13
I
Items
14
IT-tree
Itemset-Tidset tree
Cây IT
15
L
k
Large k-itemsets
k item.
16
MFIL
Modification of Frequent
Itemset Lattice
17
minConf
Minimum confidence
18
mG
Minimal Generator
-vii-
19
minSup
Minimum support
20
minSupCount
Minimum support count
(tính theo
21
MNAR
Minimal Non-redundant
Association Rule(s)
L
22
NAR
Non-redundant
Association Rule(s)
L
23
P(I)
Power set of I
I
24
T
Transactions
C
25
t(X)
Transaction Identifiers
containing X
C
26
Tidset
Transactions identifier set
các
27
Support
28
ng
29
-viii-
Danh mục các bảng
10
13
15
16
26
32
45
49
54
64
66
67
TW 74
75
76
78
80
minConf = 80% 96
minSupCount = 3 106
k và n trên các CSDL 107
112
117
117
tw 118
-ix-
Danh mục các hình vẽ, đồ thị
Hình 2.1 14
Hình 2.2 17
Hình 2.3 Cây IT- 18
Hình 2.4 19
Hình 2.5 20
Hình 2.6 21
Hình 2.7 Cây tìm 22
Hình 2.8 24
Hình 2.9 25
Hình 2.10 - 26
Hình 2.11 Các tính c-pair 28
Hình 2.12 29
Hình 2.13 Cây IT- 31
Hình 2.14 34
Hình 2.15 35
Hình 2.16 Cây t 36
Hình 2.17 38
Hình 2.18 dàn -L 40
Hình 2.19 41
Hình 2.20 toán CHARM-L 43
Hình 2.21 con 45
Hình 2.22 48
Hình 2.23 52
Hình 2.24 53
Hình 2.25 55
-x-
Hình 2.26 57
Hình 3.1 D 59
Hình 3.2 LATTICE_FI D
= 3 60
Hình 3.3 dàn 63
Hình 3.4 68
Hình 3.5 68
Hình 3.6 69
Hình 3.7 69
Hình 3.8 69
Hình 3.9 70
Hình 3.10 70
Hình 3.11 71
Hình 3.12
Mushroom 71
Hình 3.13 72
Hình 3.14 72
Hình 3.15 72
Hình 3.16 73
Hình 3.17 73
Hình 3.18 77
Hình 3.19 82
Hình 3.20 83
Hình 3.21 84
Hình 3.22 84
Hình 2.23 85
Hình 3.24 86
-xi-
Hình 3.25 Phi-coefficient 88
Hình 3.26 dàn 91
Hình 3.27 92
Hình 3.28
92
Hình 3.29 93
Hình 3.30 94
Hình 3.31 ess 97
Hình 3.32 97
Hình 3.33 98
Hình 3.34 98
Hình 3.35 98
Hình 3.36 99
Hình 3.37 99
Hình 3.38 rên CSDL Mushroom100
Hình 3.39 100
Hình 3.40 100
Hình 3.41 ect 101
Hình 3.42 101
Hình 4.1 dàn ( 105
Hình 4.2 106
Hình 4.3 dàn 109
Hình 4.4 dàn 110
-1-
Chƣơng 1. GIỚI THIỆU TỔNG QUAN
Ch
sâu nghiên c
trình
bày.
1.1. Khai thác dữ liệu
,
3 bài toán chín
,
[B21],
hác Web, v.v
CSDL)
nhu
[B22, B70], ILA [B79, B80], A12,
B11, B22, B24, B45, B52, B54, B76, B77, B92, B95], v.v.
-2-
p, gom nhóm v.v.
item
item
toán
khai thác
B6
Các
Apriori [B7, B13, B15, B17, B64, B65], -tree
[B16, B31, B38, B66, B91], -tree [B17, B96, B98,
B103]. Ngoài ra còn có các B57, B61, B62], LCM [B82],
BitTableFI [B26] và Index-BitTableFI [B73TableFI
i) Khai thác Frequent Itemsets) hay
(FCI Frequent Closed Itemsets).
ii) Sinh FI/FCI .
thông
thác và phân tích chúng.
1.2.Tập phổ biến và tập phổ biến đóng
Khai thác
nhanh
(hay
-3-
khai thác FI/FCI [B7, B13,
B15, B16, B17, B20, B26, B31, B36, B38, B57, B61, B62, B64, B65, B66, B73,
B82, B91, B96, B98, B103]chính
[B7]
c
-itemset-itemset
-itemset
-itemset
AprioriTid [B7]. 2) Eclat [B17,
B96, B98, B103] và các
trong [B103
xétTransactions
identifier set
itemset
B98
X
Y X, Y Tid
[B98]. 3) FP-Growth [B16, B31, B38, B66, B91]
2000 [B38
FP và sau nó là không
-4-
-B16].
-Growth chính là FP-Grahne và
Zhu [B31item
.
B26]
d m
-B73
subsume
DBV - Dynamic Bit Vector)
và
[A11].
Vì
B64].
cha
Khái n9 [B64
-5-
.
sau
gian khai thác [B13, B31, B59, B61, B64, B65, B66, B72, B82,
B91, B96, B98 có
là i) CHARM [B96], -tree; và ii) Closet [B66]
FP-tree. Kf dCHARM [B96,
B98]
trình bàyB91
Grahne và Zhu [B31] trình bày
B33, B49, B94].
l
1
.
B3
B4]
.
các
. B8]
B63
.
-6-
1.3. Giới thiệu về dàn
sinh
T Zaki và Phoophakdee
trong [B99sinh công
trình sinh ngoài các
[B78sinh .
bài toán khai thác
.
i) Dàn ():
Hsiao [B96 dàn -
. Ngoài ra,
dàn A2, A3, A4, A5] và dàn
A1, A6, A23].
sinh
ii) .
Kourie
[B47]. Kuznetsov và Obiedkov trình bày
ormal Concept Analysis (FCA)
[B48]. Liu
[B55]. Priss
[B68, B69]. Choi [B23] trình bày
-7-
B81] trình
p O(N
2
.
B8
khai thác dàB84].
1.4. Luật kết hợp
Bài toán khai thác [B6, B7] n
item I = {i
1
, i
2
i
n
D t I
Transaction identifier
XYX
pq
\
,
(X Yq p
là sinh D
Khai thác [A2, B6, B7], khai
5, A8],
[A6, A7, B97, B101 A3,
A23, B13, B64, B65], A1, A10, B5, B93] và khai thác
A18].
tâm [B13, B25, B35, B64, B65, B97].
11, B12, B27].
sinh
CSDL D do
)
-8-
Zaki và Ogihana (1998) [B102khái
(minimal Generator - mG) [B101]
[B13, B64, B65]
2004, Zaki [B97].
v.v[B2, B9, B10, B14, B18, B32, B34, B39, B51, B60, B67, B74].
Agraw thú v cho
[B7
18]. Hilderman và Hamilton [B3974
null-transaction. Lee và các
51], Omiecinski [B60ll-confidence, Coherence và Cosine
là các null-invariant
Tan B74]
, B32, B74].
1.5. Mục tiêu của luận án
-9-
- Khai thác các thông
.
- Sinh các .
1.6. Kết luận
h L
này. Ddàn vào
lu
sinh
.
1: G
: T
dàn
-10-
v.
: C
dàn .
:
dàn .
: T
trình bày.
L
.1.
b)
item
nào.
, n item
item trong các giao
.
3, 4, 5}.
Item
item
A
1, 3, 4, 5
C
1, 2, 3, 4, 5, 6
D
2, 4, 5, 6
T
1, 3, 5, 6
W
1, 2, 3, 4, 5
Mã giao
1
A, C, T, W
2
C, D, W
3
A, C, T, W
4
A, C, D, W
5
A, C, D, T, W
6
C, D, T
-11-
Chƣơng 2. CƠ SỞ LÝ THUYẾT
. Các
khái n : Khai thác
dàn và phát sinh .
2.1. Khai thác tập phổ biến
2.1.1 Một số khái niệm
a) Cơ sở dữ liệu giao dịch: D {I, T I = {i
1
,
i
2
i
n
} là và T = {t
1
, t
2
t
m
b) Độ phổ biến: D và X I X
trong D(XX D.
, ta có
4, 5} (hay ),
c) Tập phổ biến: X I (X) minSupCount
minSupCount
minSupCount (A)
= 4 minSupCount (AD) = 2 <
minSupCount.
d) Các tính chất của tập phổ biến (tính chất apriori) [B7]
i) . X Y(Y)
minSupCount thì (X) minSupCount.
ii) Y
X(X) < minSupCount thì (Y) < minSupCount.
-12-
2.1.2 Các thuật toán khai thác tập phổ biến
Các thB7], Eclat
[B103] và FP-Growth [B38]. .
phph
dàn
2.1.2.1 Thuật toán Apriori
a) Ý tưởng của thuật toán
khai thác
1-itemset
là
òn
-
-1)-
Apriori.
,