Tải bản đầy đủ (.pdf) (149 trang)

NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN (đầy đủ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 149 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN




VÕ ĐÌNH BẢY


NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN






L










Tp. Hồ Chí Minh – 2011



TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


VÕ ĐÌNH BẢY


NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC
LUẬT KẾT HỢP DỰA TRÊN DÀN

 : 
 chuyên ngành: 62.48.01.01


1: 
 
 PGS. 
 
 






Tp. Hồ Chí Minh – 2011

-i-
Lời cam đoan


Tôi xin cam an rng ni dung ca lun án này là kt qu nghiên cu ca chính bn
thân. Tt c nhg tham kho t các nghiên cu có liên quan 
. 
  nêu trong anh
 .


Tác gi lun án






-ii-
Lời cảm ơn



Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy, PGS. TS. Lê Hoài Bắc bởi
nhờ sự động viên, chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành
luận án này.

Em cũng xin chân thành gửi lời cảm ơn đến các Thầy Cô trong khoa Công nghệ Thông
tin trường Đại học Khoa học Tự nhiên Tp. HCM đã tận tình dạy dỗ, chỉ bảo nhiều kiến
thức quí báu giúp em hoàn thành khóa học đúng tiến độ.

Xin cảm ơn Phòng Sau đại học về những hỗ trợ về mặt thủ tục, giấy tờ.

Xin cảm ơn các đồng nghiệp, bạn bè đã động viên tôi trong suốt thời gian thực hiện

luận án này. Không có sự động viên kịp thời của các thầy – cô và các bạn, tôi khó hoàn
thành luận án đúng hạn.

Cuối cùng, xin chân thành cảm ơn cha mẹ, vợ con và anh chị em đã khích lệ, động
viên, tạo điều kiện thuận lợi cho tôi trong suốt thời gian làm nghiên cứu sinh.


11 





-iii-
 ii
 vi
 viii
 ix
 1
1.1. Khai thác d 1
 2
 6
 7
 8
 9
 11
 11
 11
 12
 26

 26
 28
 34
2.3. Dàn 37
 37
dàn -L) 39
 44
 44
 44
 51
 51

-iv-
 52
 52
 53
 54
 55
DÀN  58
3.1. Khdàn  58
dàn  58
 61
 66
 74
 76
 77
 80
 88
ây   90
 91

  93
 95
 97
 101
 DÀN 
 103
dàn  104
 104
 105
 107

-v-
dàn  108
 112
 114
 114
 115
 121
 121
 124
 125

-vi-
Danh mục các kí hiệu, chữ viết tắt

STT



1

AR
Association Rule(s)

2
CHARM
Closed Association Rule
Mining


3
Cidset
Closed identifiers set

4
C
k

Cadidate k-itemsets
tem.
5
CSDL
Database(s)

6
Diffset
Difference set

7
Eclat
Equivalence class

tranformation

8
FCI
Frequent Closed Itemset(s)

9
FCIL
Frequent Closed Itemset
Lattice
Dàn c
 
10
FI
Frequent Itemset(s)

11
FIL
Frequent Itemset Lattice

12
FP-tree
Frequent Pattern-tree
Cây FP
13
I
Items

14
IT-tree

Itemset-Tidset tree
Cây IT
15
L
k

Large k-itemsets

k item.
16
MFIL
Modification of Frequent
Itemset Lattice

17
minConf
Minimum confidence

18
mG
Minimal Generator


-vii-
19
minSup
Minimum support

20
minSupCount

Minimum support count
 (tính theo

21
MNAR
Minimal Non-redundant
Association Rule(s)
L
22
NAR
Non-redundant
Association Rule(s)
L
23
P(I)
Power set of I
I
24
T
Transactions
C
25
t(X)
Transaction Identifiers
containing X
C
26
Tidset
Transactions identifier set
các 

27

Support

28


ng
29





-viii-
Danh mục các bảng
 10
 13
 15
 16
  26
 32
 45
 49
 54
 64
 66
 67
 TW 74
 75

 76
 78
 80
 minConf = 80% 96
 minSupCount = 3 106
k và n trên các CSDL 107
 112
 117
 117
tw  118

-ix-
Danh mục các hình vẽ, đồ thị
Hình 2.1   14
Hình 2.2   17
Hình 2.3  Cây IT- 18
Hình 2.4   19
Hình 2.5   20
Hình 2.6   21
Hình 2.7  Cây tìm  22
Hình 2.8   24
Hình 2.9   25
Hình 2.10  - 26
Hình 2.11  Các tính c-pair 28
Hình 2.12   29
Hình 2.13  Cây IT- 31
Hình 2.14   34
Hình 2.15   35
Hình 2.16  Cây t 36
Hình 2.17    38

Hình 2.18  dàn -L 40
Hình 2.19   41
Hình 2.20  toán CHARM-L 43
Hình 2.21   con 45
Hình 2.22   48
Hình 2.23   52
Hình 2.24   53
Hình 2.25   55

-x-
Hình 2.26   57
Hình 3.1  D 59
Hình 3.2  LATTICE_FI D 
= 3 60
Hình 3.3  dàn  63
Hình 3.4   68
Hình 3.5   68
Hình 3.6 69
Hình 3.7 69
Hình 3.8 69
Hình 3.9 70
Hình 3.10   70
Hình 3.11   71
Hình 3.12 
Mushroom 71
Hình 3.13   72
Hình 3.14  72
Hình 3.15   72
Hình 3.16  73
Hình 3.17 73

Hình 3.18   77
Hình 3.19   82
Hình 3.20   83
Hình 3.21   84
Hình 3.22   84
Hình 2.23   85
Hình 3.24   86

-xi-
Hình 3.25  Phi-coefficient 88
Hình 3.26  dàn  91
Hình 3.27   92
Hình 3.28  
 92
Hình 3.29   93
Hình 3.30   94
Hình 3.31  ess 97
Hình 3.32   97
Hình 3.33   98
Hình 3.34   98
Hình 3.35   98
Hình 3.36   99
Hình 3.37   99
Hình 3.38  rên CSDL Mushroom100
Hình 3.39 100
Hình 3.40   100
Hình 3.41  ect 101
Hình 3.42  101
Hình 4.1  dàn  ( 105
Hình 4.2   106

Hình 4.3  dàn  109
Hình 4.4  dàn  110



-1-
Chƣơng 1. GIỚI THIỆU TỔNG QUAN


Ch
sâu nghiên c
 trình
bày.
1.1. Khai thác dữ liệu


, 
 



3 bài toán chín
,  
  [B21],
hác  Web, v.v

CSDL) 
 
nhu 
[B22, B70], ILA [B79, B80], A12,

B11, B22, B24, B45, B52, B54, B76, B77, B92, B95], v.v.

-2-
               
p, gom nhóm v.v.
item 
item
 toán  
khai thác 
  B6   
 Các 
 Apriori [B7, B13, B15, B17, B64, B65],       -tree
[B16, B31, B38, B66, B91], -tree [B17, B96, B98,
B103]. Ngoài ra còn có các     B57, B61, B62], LCM [B82],
BitTableFI [B26] và Index-BitTableFI [B73TableFI 



i) Khai thác   Frequent Itemsets) hay 
 (FCI  Frequent Closed Itemsets).
ii) Sinh FI/FCI  .
                
thông 
thác và phân tích   chúng.
1.2.Tập phổ biến và tập phổ biến đóng
Khai thác  

  nhanh 
(hay 


-3-
khai thác FI/FCI [B7, B13,
B15, B16, B17, B20, B26, B31, B36, B38, B57, B61, B62, B64, B65, B66, B73,
B82, B91, B96, B98, B103]chính 

 [B7]
c

-itemset-itemset 
-itemset



-itemset 
AprioriTid [B7]. 2) Eclat [B17,
B96, B98, B103]  và các
trong [B103
 xétTransactions
identifier set  
itemset
B98
 X 
Y X, Y Tid 
 
 [B98]. 3) FP-Growth [B16, B31, B38, B66, B91]
2000 [B38
FP và sau nó là không
 

-4-

-B16]. 
-Growth chính là FP-Grahne và
Zhu [B31item 
. 
  B26]


 d m
               

                 
-B73
 subsume  
              

DBV - Dynamic Bit Vector) 
và 
[A11].

 

Vì
B64]. 
 cha 
 

 Khái n9 [B64

-5-
. 

sau
gian khai thác [B13, B31, B59, B61, B64, B65, B66, B72, B82,
B91, B96, B98 có 
là i) CHARM [B96], -tree; và ii) Closet [B66]
 FP-tree. Kf dCHARM [B96,
B98]   

trình bàyB91
Grahne và Zhu [B31] trình bày


B33, B49, B94].
 l
1
 . 
B3
 B4]

.
 các 
. B8] 
 
B63
 .

-6-
1.3. Giới thiệu về dàn
  
 
 

     sinh     
 T        Zaki và Phoophakdee
trong [B99sinh công
trình sinh  ngoài các
 
[B78sinh  .  
bài toán khai thác
.

i) Dàn  (): 
Hsiao [B96 dàn -
. Ngoài ra,       
 dàn   A2, A3, A4, A5] và dàn  
A1, A6, A23]. 
sinh  

ii)   .
Kourie  
[B47]. Kuznetsov và Obiedkov trình bày
ormal Concept Analysis (FCA) 
 [B48]. Liu 
 [B55]. Priss 
 [B68, B69]. Choi [B23] trình bày

-7-
 B81] trình
p O(N
2

. 

B8
khai thác dàB84].
1.4. Luật kết hợp
Bài toán khai thác  [B6, B7]  n
item I = {i
1
, i
2
i
n
D t  I 
  Transaction identifier 
XYX
pq
\
,

(X  Yq p 

 là sinh D 
  
Khai thác  [A2, B6, B7], khai
5, A8], 
   [A6, A7, B97, B101      A3,
A23, B13, B64, B65], A1, A10, B5, B93] và khai thác
A18]. 
tâm [B13, B25, B35, B64, B65, B97].        
11, B12, B27].
 sinh 
CSDL D  do 

 )




-8-
 Zaki và Ogihana (1998) [B102khái


 (minimal Generator - mG) [B101]
 
  
  
[B13, B64, B65]
 
2004, Zaki   [B97].


v.v[B2, B9, B10, B14, B18, B32, B34, B39, B51, B60, B67, B74]. 
Agraw thú v cho
[B7
 
18]. Hilderman và Hamilton [B3974
null-transaction. Lee và các
51], Omiecinski [B60ll-confidence, Coherence và Cosine
là các null-invariant 
Tan B74] 
 
 
 , B32, B74].

1.5. Mục tiêu của luận án


-9-
- Khai thác các thông 
.
- Sinh các   .
1.6. Kết luận

     


h L

này. Ddàn vào
 lu
sinh 



     
          
 
  .

1: G
 
: T
   dàn 


-10-
 
v.
: C  
dàn .
: 
dàn .
: T 
 trình bày.
 

L
.1. 
 b) 





 item
nào.  
, n item 
item  trong các giao
 . 
 3, 4, 5}.
Item

item
A
1, 3, 4, 5

C
1, 2, 3, 4, 5, 6
D
2, 4, 5, 6
T
1, 3, 5, 6
W
1, 2, 3, 4, 5
Mã giao



1
A, C, T, W
2
C, D, W
3
A, C, T, W
4
A, C, D, W
5
A, C, D, T, W
6
C, D, T


-11-
Chƣơng 2. CƠ SỞ LÝ THUYẾT




 . Các
khái n  : Khai thác 
dàn và phát sinh .
2.1. Khai thác tập phổ biến
2.1.1 Một số khái niệm
a) Cơ sở dữ liệu giao dịch: D  {I, T I = {i
1
,
i
2
i
n
} là  và T = {t
1
, t
2
t
m

b) Độ phổ biến: D và  X  I X
trong D(XX D.
, ta có 
4, 5} (hay ), 
c) Tập phổ biến: X  I       (X)  minSupCount 
minSupCount 
minSupCount (A)
= 4  minSupCount          (AD) = 2 <
minSupCount.
d) Các tính chất của tập phổ biến (tính chất apriori) [B7]

i) .  X  Y(Y) 
minSupCount thì (X)  minSupCount.
ii) Y 
X(X) < minSupCount thì (Y) < minSupCount.

-12-
2.1.2 Các thuật toán khai thác tập phổ biến
Các thB7], Eclat
[B103] và FP-Growth [B38]. .
 
phph 
dàn 
2.1.2.1 Thuật toán Apriori
a) Ý tưởng của thuật toán
khai thác 
1-itemset 
 là 




òn 



-
-1)-


Apriori.

      ,


×