CÁC THUẬT TOÁN KHAI THÁC LUẬT kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.41 MB, 61 trang )

Jan 26, 2015 1
Bài giảng môn: Data Mining
Bài giảng môn: Data Mining
CÁC THUẬT TOÁN KHAI
CÁC THUẬT TOÁN KHAI
THÁC LUẬT KẾT HỢP
THÁC LUẬT KẾT HỢP
Jan 26, 2015 2
Giới thiệu
Giới thiệu
Bài toán khai thác luật kết hợp được đưa ra vào
Bài toán khai thác luật kết hợp được đưa ra vào
năm 1993 bởi Agrawal được phát biểu như sau:
năm 1993 bởi Agrawal được phát biểu như sau:
Cho trước tập n danh mục mặt hàng
Cho trước tập n danh mục mặt hàng
I
I
= {
= {
i
i
1,
1,
i
i
2, …,
2, …,
i
i
n} và tập các giao dịch của các mặt hàng D trong

n} và tập các giao dịch của các mặt hàng D trong
đó mỗi giao dịch
đó mỗi giao dịch
T
T

⊆
⊆

I
I
có một định danh (TID) duy
có một định danh (TID) duy
nhất.
nhất.
Luật kết hợp là phép kéo theo có dạng
Luật kết hợp là phép kéo theo có dạng
X
X
→
→
Y
Y
(
(
q
q
,

,
p
p
)
)
(
(
X
X

⊂
⊂

Y
Y
), trong đó
), trong đó
q
q
=
=
Sup
Sup
(
(
Y
Y
) được gọi là độ phổ

) được gọi là độ phổ
biến của luật và
biến của luật và
p=Sup(Y)/Sup(X)
p=Sup(Y)/Sup(X)
là độ tin cậy của
là độ tin cậy của
luật. Khai thác luật kết hợp là tìm tất cả các luật
luật. Khai thác luật kết hợp là tìm tất cả các luật
kết hợp được rút ra từ CSDL D
kết hợp được rút ra từ CSDL D

thỏa ngưỡng phổ
thỏa ngưỡng phổ
biến và ngưỡng tin cậy do người dùng định nghĩa.
biến và ngưỡng tin cậy do người dùng định nghĩa.
Jan 26, 2015 3
Giới thiệu (tt)
Giới thiệu (tt)
Khai thác luật kết hợp được chia làm hai giai đoạn:
Khai thác luật kết hợp được chia làm hai giai đoạn:
1.
1.
Tìm tất cả các tập phổ biến ngưỡng thỏa phổ biến.
Tìm tất cả các tập phổ biến ngưỡng thỏa phổ biến.
2.
2.
Tìm tất cả các luật thỏa ngưỡng tin cậy.
Tìm tất cả các luật thỏa ngưỡng tin cậy.

Jan 26, 2015 4
Tìm Tập Phổ Biến
Tìm Tập Phổ Biến
Jan 26, 2015 5
Các phương pháp tìm tập phổ biến
Các phương pháp tìm tập phổ biến
1.
1.
Phương pháp sinh ứng viên: Apriori do Agrawal đề xuất.
Phương pháp sinh ứng viên: Apriori do Agrawal đề xuất.
2.
2.
Phương pháp không sinh ứng viên:
Phương pháp không sinh ứng viên:
a) Zaki: dựa vào cây IT-tree và phần giao của các Tidset để
a) Zaki: dựa vào cây IT-tree và phần giao của các Tidset để
tính độ phổ biến.
tính độ phổ biến.
b) J. Han: dựa vào cây FP-tree để khai thác tập phổ biến.
b) J. Han: dựa vào cây FP-tree để khai thác tập phổ biến.
c) Ngoài ra, còn có một số phương pháp được đưa ra như:
c) Ngoài ra, còn có một số phương pháp được đưa ra như:
Lcm, DCI, …
Lcm, DCI, …
Jan 26, 2015
Jan 26, 2015
6
6
Các thuật toán tìm tập phổ biến
Các thuật toán tìm tập phổ biến

1.
1.
Phương pháp Apriori
Phương pháp Apriori
2.
2.
Phương pháp FP-tree (Frequent Patterns
Phương pháp FP-tree (Frequent Patterns
Tree)
Tree)
3.
3.
Phương pháp IT-tree
Phương pháp IT-tree
(Itemset Tidset Tree)
(Itemset Tidset Tree)
Jan 26, 2015 7
Phương pháp IT-tree
Phương pháp IT-tree
Một số định nghĩa:
Một số định nghĩa:
1. Định nghĩa độ phổ biến
1. Định nghĩa độ phổ biến
Cho CSDL giao dịch D và tập dữ liệu
Cho CSDL giao dịch D và tập dữ liệu
X
X

⊆

⊆

I
I

. Độ
. Độ
phổ biến của
phổ biến của
X
X
trong D, kí hiệu
trong D, kí hiệu
σ
σ
(
(
X
X
), được định
), được định
nghĩa là số giao dịch mà
nghĩa là số giao dịch mà
X
X
xuất hiện trong D.
xuất hiện trong D.
2. Định nghĩa tập phổ biến

2. Định nghĩa tập phổ biến
X
X

⊆
⊆

I
I
được gọi là phổ biến nếu
được gọi là phổ biến nếu
σ
σ
(
(
X
X
)
)
≥
≥

minSup
minSup
( với
( với
minSup

minSup
là giá trị do người dùng chỉ định).
là giá trị do người dùng chỉ định).
Jan 26, 2015 8
Phương pháp IT-tree (tt)
Phương pháp IT-tree (tt)
3. Kết nối Galois
3. Kết nối Galois

Cho quan hệ hai ngôi
Cho quan hệ hai ngôi
δ
δ

⊆
⊆

I
I

×
×

T
T

chứa CSDL cần khai thác. Với
chứa CSDL cần khai thác. Với
X
X
⊆
⊆

I
I
và Y
và Y
⊆
⊆

T
T
, ta định nghĩa hai ánh xạ giữa
, ta định nghĩa hai ánh xạ giữa
P
P
(
(
I
I
) và
) và
P
P

(
(
T
T
)
)
như sau:
như sau:
a)
a)
t
t
:
:
P
P
(
(
I
I
)
)
→
→
P
P
(
(
T
T

),
),
t
t
(X) = {y
(X) = {y
∈
∈
T
T
|
|
∀
∀
x
x
∈
∈
X, x
X, x
δ
δ
y}
y}
b)
b)
i
i
: P(T)
: P(T)

→
→
P
P
(
(
T
T
),
),
i
i
(Y) = {x
(Y) = {x
∈
∈
I
I
|
|
∀
∀
y
y
∈
∈
Y, x
Y, x
δ
δ

y}
y}
Jan 26, 2015 9
Phương pháp IT-tree (tt)
Phương pháp IT-tree (tt)
Cấu trúc IT-tree và các lớp tương đương:
Cấu trúc IT-tree và các lớp tương đương:

Cho X
Cho X
⊆
⊆
I
I
, ta định nghĩa hàm
, ta định nghĩa hàm
p
p
(
(
X
X
,k) =
,k) =
X
X
[1:k]
[1:k]
gồm k phần tử đầu của

gồm k phần tử đầu của
X
X
và quan hệ tương
và quan hệ tương
đương dựa vào tiền tố như sau:
đương dựa vào tiền tố như sau:
Mỗi nút trên IT-tree gồm 2 thành phần Itemset-
Mỗi nút trên IT-tree gồm 2 thành phần Itemset-
Tidset X
Tidset X
×
×
t
t
(X) được gọi là
(X) được gọi là
IT-pair
IT-pair
, thực chất là
, thực chất là
một lớp tiền tố. Các nút con của X thuộc về lớp
một lớp tiền tố. Các nút con của X thuộc về lớp
tương đương của X vì chúng chia sẻ chung tiền
tương đương của X vì chúng chia sẻ chung tiền
tố X (
tố X (
t
t
(X) là tập các giao dịch có chứa X)

(X) là tập các giao dịch có chứa X)
Jan 26, 2015 10
Thuật toán tìm tập phổ biến
Thuật toán tìm tập phổ biến
Trong đó t(X) = {y∈T | X xuất hiện trong giao dịch y}
được gọi là Tidset của X.
ENUMERATE_FREQUENT([P])
for all l
i
∈ [P] do
[P
i
] = ∅
for all l
j
∈ [P] with j > i do
I = l
j
T = t(l
i
) ∩ t(l
j
)
if |T| ≥ minSup then
[P
i
] = [P
i
] ∪ {I×T}
ENUMERATE_FREQUENT([P

i
])
Delete [P
i
]
Jan 26, 2015 11
Ví dụ minh họa
Ví dụ minh họa

Bảng 1: CSDL mẫu
Bảng 1: CSDL mẫu
⇒
⇒
định dạng dữ liệu dọc
định dạng dữ liệu dọc

⇒
⇒

t
t
(
(

A
A
) = 1345;
) = 1345;
t
t
(
(
AD
AD
) =
) =
t
t
(
(
A
A
)
)
∩
∩

t
t
(
(
D
D

) = 1345
) = 1345
∩
∩
2456 = 45
2456 = 45
Mã danh mục
Mã danh mục
Các giao dịch
Các giao dịch
chứa danh mục
chứa danh mục
A
A
1, 3, 4, 5
1, 3, 4, 5
C
C
1, 2, 3, 4, 5, 6
1, 2, 3, 4, 5, 6
D
D
2, 4, 5, 6
2, 4, 5, 6
T
T
1, 3, 5, 6
1, 3, 5, 6
W
W

1, 2, 3, 4, 5
1, 2, 3, 4, 5
Mã giao dịch
Mã giao dịch
Nội dung giao
Nội dung giao
dịch
dịch
1
1
A
A
,
,
C
C
,
,
T
T
,
,
W
W
2
2
C
C
,
,

D
D
,
,
W
W
3
3
A
A
,
,
C
C
,
,
T
T
,
,
W
W
4
4
A
A
,
,
C
C

,
,
D
D
,
,
W
W
5
5
A
A
,
,
C
C
,
,
D
D
,
,
T, W
T, W
6
6
C
C
,
,

D
D
,
,
T
T
Jan 26, 2015 12
Cây IT-tree với minSup = 50%(3 item)
ADx45 AWx1345
Cx123456 Dx2456 Tx1356 Wx12345
CWx12345 DTx56 DWx245 TWx135
{}x123456
Ax1345
ACTx135 ACWx1345 ATWx135
ACx1345
ATx135
ACTWx135
CDTx56 CDWx245 CTWx135
CDx2456 CTx1356
A C
AC
1234561345
1345
∩
Jan 26, 2015 13
Nhận xét
Nhận xét

Thuật toán dựa vào phần giao giữa các Tidset để
Thuật toán dựa vào phần giao giữa các Tidset để

tính nhanh độ phổ biến nên chỉ đọc CSDL 1 lần.
tính nhanh độ phổ biến nên chỉ đọc CSDL 1 lần.

Có thể sử dụng Diffset để tính nhanh độ phổ biến
Có thể sử dụng Diffset để tính nhanh độ phổ biến
nhằm làm giảm không gian lưu trữ Tidset.
nhằm làm giảm không gian lưu trữ Tidset.

Do thuật toán không sinh ứng viên nên hiệu quả
Do thuật toán không sinh ứng viên nên hiệu quả
khai thác thường cao hơn so với các họ thuật toán
khai thác thường cao hơn so với các họ thuật toán
sinh ứng viên.
sinh ứng viên.

Khi số tập phổ biến lớn, thời gian khai thác luật
Khi số tập phổ biến lớn, thời gian khai thác luật
lớn
lớn
⇒
⇒
Cần phương pháp khai thác hiệu quả hơn
Cần phương pháp khai thác hiệu quả hơn
Jan 26, 2015 14
Tìm tập phổ biến đóng
Tìm tập phổ biến đóng
(Frequent Closed Itemsets)
(Frequent Closed Itemsets)


Toán tử đóng
Toán tử đóng

Cho
Cho
X
X

⊆
⊆

I.
I.

c
c
it
it
:
:
P
P
(
(
I

I
)
)
→
→
P
P
(
(
I
I
):
):
c
c
it
it
(
(
X
X
) =
) =
i
i
(
(
t
t
(

(
X
X
)). Ánh xạ
)). Ánh xạ
c
c
it
it
được gọi
được gọi
là toán tử đóng.
là toán tử đóng.

Ví dụ
Ví dụ
:
:
c
c
it
it
(
(
AW
AW
) =
) =
i

i
(
(
t
t
(
(
AW
AW
)) =
)) =
i
i
(1345) =
(1345) =
ACW
ACW

Tập đóng
Tập đóng
Cho
Cho
X
X

⊆
⊆

I
I
.
.
X
X
gọi là tập đóng
gọi là tập đóng
⇔
⇔

c
c
it
it
(
(
X
X
) =
) =
X
X
.
.
Ví dụ
Ví dụ
: xét CSDL ở bảng 1 ta có
: xét CSDL ở bảng 1 ta có

•
Do
Do
c
c
it
it
(
(
AW
AW
) =
) =
i
i
(
(
t
t
(
(
AW
AW
)) =
)) =
i
i
(1345) =
(1345) =
ACW

ACW

⇒
⇒

AW
AW

không phải là tập
không phải là tập
đóng
đóng
.
.
•
Do
Do
c
c
it
it
(
(
ACW
ACW
) =
) =

i
i
(
(
t
t
(
(
ACW
ACW
)) =
)) =
i
i
(1345) =
(1345) =
ACW
ACW

⇒
⇒

ACW
ACW
là tập
là tập
đóng
đóng

.
.
Jan 26, 2015 15
Các tính chất của IT-pair
Các tính chất của IT-pair
Định lý 1:
Định lý 1:
Cho X
Cho X
i
i
×
×
t(X
t(X
i
i
) và X
) và X
j
j
×
×
t(X
t(X
j
j
) là hai thành viên
) là hai thành viên
tùy ý của lớp tương được [P]. Ta có 4 tính chất

tùy ý của lớp tương được [P]. Ta có 4 tính chất
sau (c là c
sau (c là c
it
it
):
):
1.
1.
Nếu t(X
Nếu t(X
i
i
) = t(X
) = t(X
j
j
) thì c(X
) thì c(X
i
i
) = c(X
) = c(X
j
j
) = c(X
) = c(X
i
i
∪

∪
X
X
j
j
)
)
2.
2.
Nếu t(X
Nếu t(X
i
i
)
)
⊂
⊂
t(X
t(X
j
j
) thì c(X
) thì c(X
i
i
)
)
≠
≠
c(X

c(X
j
j
)
)

nhưng c(X
nhưng c(X
i
i
) = c(X
) = c(X
i
i
∪
∪
X
X
j
j
)
)
3.
3.
Nếu t(X
Nếu t(X
i
i
)

)
⊃
⊃
t(X
t(X
j
j
) thì c(X
) thì c(X
i
i
)
)
≠
≠
c(X
c(X
j
j
)
)

nhưng c(X
nhưng c(X
j
j
) = c(X
) = c(X
i

i
∪
∪
X
X
j
j
)
)
4.
4.
Ngược lại của 1,2 và 3: c(X
Ngược lại của 1,2 và 3: c(X
i
i
)
)
≠
≠
c(X
c(X
j
j
)
)
≠
≠
c(X
c(X
i

i
∪
∪
X
X
j
j
)
)
Jan 26, 2015 16
Nhận xét về IT-pair
Nhận xét về IT-pair
1.
1.
Tính chất 1 nói rằng, nếu phần giao của hai Tidset
Tính chất 1 nói rằng, nếu phần giao của hai Tidset
bằng nhau thì |t(X
bằng nhau thì |t(X
i
i
)|=|t(X
)|=|t(X
j
j
)|=|t(X
)|=|t(X
i
i
∪
∪

X
X
j
j
)| mà
)| mà
X
X
i
i
⊂
⊂
X
X
i
i
∪
∪
X
X
j
j
và X
và X
j
j
⊂
⊂
X
X

i
i
∪
∪
X
X
j
j
nên X
nên X
i
i
,X
,X
j
j
không là tập
không là tập
đóng.
đóng.
2. Theo tính chất 2, ta có c(X
2. Theo tính chất 2, ta có c(X
i
i
) = c(X
) = c(X
i
i
∪
∪

X
X
j
j
)
)
⇒
⇒
X
X
i
i
không là tập đóng. Bên cạnh đó, do t(X
không là tập đóng. Bên cạnh đó, do t(X
i
i
)
)
≠
≠
t(X
t(X
j
j
) nên
) nên
X
X
i
i

và
và

X
X
j
j
thuộc về 2 tập đóng khác nhau.
thuộc về 2 tập đóng khác nhau.
3. Tương tự tính chất 2.
3. Tương tự tính chất 2.
4. Theo tính chất 4, X
4. Theo tính chất 4, X
i
i
,
,

X
X
j
j
và X
và X
i
i
∪
∪

X
X
j
j
sẽ thuộc về 3 tập
sẽ thuộc về 3 tập
đóng khác nhau.
đóng khác nhau.
Jan 26, 2015 17
Thuật toán tìm tập phổ biến đóng
Thuật toán tìm tập phổ biến đóng

(C
(C
H
H
ARM)
ARM)
CHARM(D,minSup)
[∅]={l
i
×t(l
i
):l
i
∈I ∧Sup(l
i
)≥minSup}
CHARM-EXTEND([∅], C =∅)

return C
CHARM-EXTEND([P], C)
for each l
i
×t(l
i
) in [P] do
P
i
= P
i
∪ l
j
and [P
i
] = ∅
for each l
j
×t(l
j
) with j > i do
Y =t(l
i
) ∩t(l
j
)
CHARM-PROPERTY(X×Y,l
i
,l
j

,[P
i
],[P])

SUBSUMPTION-CHECK(C, P
i
)
CHARM-EXTEND([P
i
], C)
delete ([P
i
]
CHARM-PROPERTY(X ×Y,l
i
,l
j
,[P
i
],[P])
if Sup(X) ≥ minSup then
if t(l
i
)=t(l
j
) then
Remove l
j
from [P]
P

i
= P
i
∪ l
j
elseif t(l
i
) ⊂ t(l
j
) then
P
i
= P
i
∪ l
j
elseif t(l
i
) ⊃ t(l
j
) then
Remove l
j
from [P]
Add X ×Y to [P
i
]
else
Add X ×Y to [P
i

]
Jan 26, 2015 18
Cx123456Dx2456 Tx1356 Wx12345
{}x123456
Ax1345
DTx56 DAx45 DWx245
DCx2456 C
DCWx245 TAx135 TWx135
CTCx1356
TCAx135 TCWx135
TCAWx135
Wx12345AWx1345 Cx123456AWCx1345 Cx123456WCx12345
Có tất cả 7 tập phổ biến đóng thỏa minSup = 50% gồm:
Có tất cả 7 tập phổ biến đóng thỏa minSup = 50% gồm:
DC, TC, AWC, WC, C, DWC, TAWC
DC, TC, AWC, WC, C, DWC, TAWC
Minh họa CHARM (minSup = 50%)
Minh họa CHARM (minSup = 50%)
Jan 26, 2015 19
Nhận xét
Nhận xét

Số lượng tập phổ biến đóng thường nhỏ hơn nhiều so với số tập
Số lượng tập phổ biến đóng thường nhỏ hơn nhiều so với số tập
phổ biến. Như vậy, việc khai thác luật từ chúng sẽ hiệu quả hơn.
phổ biến. Như vậy, việc khai thác luật từ chúng sẽ hiệu quả hơn.

Mức tìm kiếm trên cây IT-tree để tìm FCI thấp hơn so với tìm
Mức tìm kiếm trên cây IT-tree để tìm FCI thấp hơn so với tìm
FI

FI
⇒
⇒
không gian bộ nhớ yêu cầu cho quá trình gọi đệ qui sẽ nhỏ
không gian bộ nhớ yêu cầu cho quá trình gọi đệ qui sẽ nhỏ
hơn.
hơn.
Jan 26, 2015 20

Mục tiêu xây dựng dàn: nhằm tăng tốc độ khai thác luật.
Mục tiêu xây dựng dàn: nhằm tăng tốc độ khai thác luật.
Xây dựng dàn (Building Lattice)
Xây dựng dàn (Building Lattice)
Jan 26, 2015 21
Định nghĩa: chặn trên, chặn dưới
Định nghĩa: chặn trên, chặn dưới
Gọi (
Gọi (
P,
P,
≤
≤
) là tập hợp thứ tự với quan hệ hai ngôi
) là tập hợp thứ tự với quan hệ hai ngôi
≤
≤
và
và
S
S

là một tập con của
là một tập con của
P
P
. Phần tử
. Phần tử
u
u
∈
∈

P
P
(
(
l
l
∈
∈

P
P
) được
) được
gọi là
gọi là
chặn trên
chặn trên

(
(
chặn dưới
chặn dưới
) của
) của
S
S
nếu
nếu
s
s

≤
≤

u
u
(
(
s
s

≥
≥

l
l
)
)
∀
∀
s
s
∈
∈
S
S
.
.

Chặn trên nhỏ nhất
Chặn trên nhỏ nhất
gọi là
gọi là
join
join
của
của
S
S
, kí hiệu
, kí hiệu
∨
∨
S

S
.
.

Chặn dưới lớn nhất
Chặn dưới lớn nhất
gọi là
gọi là
meet
meet
của
của
S
S
, kí hiệu
, kí hiệu
∧
∧
S
S
.
.

Nếu S = {x,y} ta viết x
Nếu S = {x,y} ta viết x
∨
∨
y cho
y cho
join

join
và x
và x
∧
∧
y cho
y cho
meet
meet
. Trong đó
. Trong đó
join
join
và
và
meet
meet
được định nghĩa như
được định nghĩa như
sau:
sau:
•
join
join
: (X
: (X
1
1
×
×

Y
Y
1
1
)
)
∧
∧
(X
(X
2
2
×
×
Y
Y
2
2
) =
) =
c
c
it
it
(X
(X
1
1
∪
∪

X
X
2
2
)
)
∧
∧
(Y
(Y
1
1
∩
∩
Y
Y
2
2
)
)
•
meet
meet
: (X
: (X
1
1
×
×
Y

Y
1
1
)
)
∨
∨
(X
(X
2
2
×
×
Y
Y
2
2
) =
) =
c
c
ti
ti
(X
(X
1
1
∩
∩
X

X
2
2
)
)
∧
∧
(Y
(Y
1
1
∪
∪
Y
Y
2
2
)
)
Jan 26, 2015 22
Định nghĩa: dàn
Định nghĩa: dàn

Một tập thứ tự (
Một tập thứ tự (
L
L
,
,
≤

≤
) là một
) là một
dàn
dàn
nếu
nếu
∀
∀
x,y
x,y
∈
∈
L
L
, x
, x
∨
∨
y
y
và x
và x
∧
∧
y luôn luôn tồn tại.
y luôn luôn tồn tại.

L
L

là
là
dàn hoàn chỉnh
dàn hoàn chỉnh
nếu
nếu
∧
∧
S
S
và
và
∨
∨
S
S
luôn tồn tại
luôn tồn tại
∀
∀
S
S

⊆
⊆

L
L

.
.

Mọi
Mọi
dàn hữu hạn
dàn hữu hạn
đều là
đều là
dàn hoàn chỉnh
dàn hoàn chỉnh
(Davey và
(Davey và
Priestley, 1990).
Priestley, 1990).

Gọi
Gọi
P
P
là tập tất cả các tập con của
là tập tất cả các tập con của
S
S
. Một tập thứ
. Một tập thứ
tự (
tự (
P
P

(
(
S
S
)
)
,
,
⊆
⊆
) là một
) là một
dàn hoàn chỉnh
dàn hoàn chỉnh
trong đó
trong đó
meet
meet

chỉ phần giao và
chỉ phần giao và
join
join
chỉ phần hợp.
chỉ phần hợp.

Các tập thứ tự bộ phận như (
Các tập thứ tự bộ phận như (
P

P
(
(
I
I
)
)
,
,
⊆
⊆
), tập tất cả các
), tập tất cả các
itemset có thể và (
itemset có thể và (
P
P
(
(
T
T
)
)
,
,
⊆
⊆
), tập tất cả các Tidset có
), tập tất cả các Tidset có
thể cũng là

thể cũng là
dàn hoàn chỉnh
dàn hoàn chỉnh
.
.
Jan 26, 2015 23
XÂY DỰNG DÀN TẬP PHỔ BIẾN
XÂY DỰNG DÀN TẬP PHỔ BIẾN
Jan 26, 2015 24
Nhận xét về cây IT-tree
Nhận xét về cây IT-tree

Xét cây IT-tree để tìm tập phổ biến (slide 12) ta
Xét cây IT-tree để tìm tập phổ biến (slide 12) ta
thấy: khi kết hợp hai IT-pair X
thấy: khi kết hợp hai IT-pair X
×
×
t(X) và Y
t(X) và Y
×
×
t(Y), có
t(Y), có
thể thấy X
thể thấy X
⊂
⊂
X
X

∪
∪
Y và Y
Y và Y
⊂
⊂
X
X
∪
∪
Y nên nút dàn {X
Y nên nút dàn {X
∪
∪
Y}
Y}
là nút dàn con(trực tiếp) của hai nút dàn {X}, {Y}.
là nút dàn con(trực tiếp) của hai nút dàn {X}, {Y}.

Thuật toán duyệt theo chiều sâu: do đó, có thể tồn
Thuật toán duyệt theo chiều sâu: do đó, có thể tồn
tại nút con của {X} ở các nhánh con bên trái nó. Ví
tại nút con của {X} ở các nhánh con bên trái nó. Ví
dụ: xét X = ATW ở mức 3, ta thấy trên cây có chứa
dụ: xét X = ATW ở mức 3, ta thấy trên cây có chứa
nút dàn {ACTW} ở mức 4 là con trực tiếp của {X}
nút dàn {ACTW} ở mức 4 là con trực tiếp của {X}
⇒
⇒

Thuật toán cần xét tất cả các quan hệ trên để xây
Thuật toán cần xét tất cả các quan hệ trên để xây
dựng dàn.
dựng dàn.
Jan 26, 2015 25

Do các nút con trực
Do các nút con trực
tiếp của nút hiện hành
tiếp của nút hiện hành
{
{
I
I
} nếu có phải là nút
} nếu có phải là nút
“cháu” của
“cháu” của
l
l
i
i
nên hàm
nên hàm
cập nhật dàn chỉ xét
cập nhật dàn chỉ xét
{
{
I

I
} với các nút con của
} với các nút con của
nút con
nút con
l
l
i
i
.
.
LATTICE_FI ( )
l
r
= ∅
[∅]={l
i
×t(l
i
):l
i
∈I ∧Sup(l
i
)≥ minSup}
for all l
i
∈ [∅] do
l
r
.AddChildren ({l

i
})
ENUMERATE_LATTICE([∅])
return l
r
ENUMERATE_LATTICE([P])
for all l
i
∈ [P] do
[P
i
] = ∅
for all l
j
∈ [P] with j > i do
I = l
j
T = t( l
i
) ∩ t( l
j
)
if |T| ≥ minSup then
[P
i
] = [P
i
] ∪ {I ×T}
UPDATE_LATTICE({l
i

},{I})
{l
i
}.AddChildren ({I})
{l
j
}.AddChildren ({I})
ENUMERATE_LATTICE([P
i
])
UPDATE_LATTICE({l
i
}, {I})
for all {lc} ∈ {l
i
}.Children do
for all {lcc} ∈{lc}.Children do
if lcc ⊃ I then
{I}.AddChildren({lcc})
Thuật toán xây dựng dàn
Thuật toán xây dựng dàn

CÁC THUẬT TOÁN KHAI THÁC LUẬT kết hợp

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về