Tải bản đầy đủ (.ppt) (37 trang)

Khai phá dữ liệu - Chương 3: Dãy phổ biến doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (490.31 KB, 37 trang )

1
Dãy phổ biến
Dãy phổ biến
Chương 3:
2
Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau
Luật kết hợp mô tả các sự kiện xuất hiện cùng nhau
trong dữ liệu
trong dữ liệu

Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10
Ví dụ: "IF khách hàng mua sản phẩm A với số lượng 10
THEN sẽ mua sản phẩm B với số lượng 20.
THEN sẽ mua sản phẩm B với số lượng 20.
Các luật dãy phổ biến mô tả quan hệ thời gian giữa các
Các luật dãy phổ biến mô tả quan hệ thời gian giữa các
sự kiện
sự kiện

Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1
Ví dụ: IF hôm nay khách hàng mua sản phẩm A THEN sau 1
tuần khách hàng sẽ mua tiếp sản phẩm B và C”
tuần khách hàng sẽ mua tiếp sản phẩm B và C”
1. CÁC KHÁI NiỆM CƠ BẢN
1. CÁC KHÁI NiỆM CƠ BẢN
Chương 3: Dãy phổ biến
Chương 3: Dãy phổ biến
3

Tập
Tập


R
R


các loại sự kiện.
các loại sự kiện.

M
M
ỗi
ỗi


sự kiện là một cặp
sự kiện là một cặp
(
(
A, t
A, t
), v
), v
ới
ới

A ∈ R là loại sự kiện (ví dụ loại tín hiệu báo động )

t là một số nguyên xác định thời điểm xuất hiện của sự kiện

C
C

huỗi sự kiện
huỗi sự kiện


S
S
trên
trên


R
R
l
l
à bộ ba
à bộ ba
(
(
s, T
s, T
s
s
, T
, T
e
e
)
)

T

s
là thời điểm bắt đầu và T
e
là thời điểm kết thúc

T
s
< T
e
là các số nguyên

S =

(A
1
, t
1
), (A
2
, t
2
), …, (A
n
, t
n
)


A
i



R và T
s


t
i
< T
e
với mọi i=1, …, n`
1. CÁC KHÁI NiỆM CƠ BẢN
1. CÁC KHÁI NiỆM CƠ BẢN
(tt)
(tt)
4
Ví dụ chuỗi sự kiện:
Ví dụ chuỗi sự kiện:

Trong đó
Trong đó
:
:

A, B, C, D: là các loại sự kiện

10…150 là các thời điểm xảy ra sự kiện

S =


(D, 10), (C, 20), …, (A, 150)


T
s
(thời điểm bắt đầu) = 10 and T
e
(thời điểm kết thúc) = 150
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
D C A B D A B C A D C A B D A
1. CÁC KHÁI NIỆM CƠ BẢN
1. CÁC KHÁI NIỆM CƠ BẢN
(tt)
(tt)
5
Episodes:
Episodes:

Episode là cặp (
Episode là cặp (
V
V
,
,


)
)

V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo

động

≤ là thứ tự riêng phần trên V

Cho chuỗi
Cho chuỗi
S
S
các sự kiện, episode
các sự kiện, episode
α
α
=
=
(
(
V,
V,


)
)


xảy ra
xảy ra
trong phạm vi
trong phạm vi
S
S

nếu các loại sự kiện trong
nếu các loại sự kiện trong
V
V
xuất
xuất
hiện trong
hiện trong
S
S
theo thứ tự được xác định bằng quan
theo thứ tự được xác định bằng quan
hệ thứ tự.
hệ thứ tự.
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)
6
Các thứ tự riêng phần phổ dụng như:
Các thứ tự riêng phần phổ dụng như:

Thứ tự toàn phần
Thứ tự toàn phần

Các vị từ của mỗi episode có thứ tự cố định

Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")

Các thứ tự riêng phần hiển nhiên

Các thứ tự riêng phần hiển nhiên

Không xét trật tự của các vị từ

Các episodes này được gọi là song song (hay “không có thứ
tự")
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)
7
Ví dụ:
Ví dụ:
A
B
Episode
tuần tự
A
B
Episode
song song
A
B
C
Episode vừa tuần tự
vừa song song
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
2. DÃY PHỔ BiẾN TRONG MỘT CHUỖI
(Episode)
(Episode)

8
Tên của phương pháp WINEPI xuất phát từ kỹ
Tên của phương pháp WINEPI xuất phát từ kỹ
thuật dùng cửa sổ truợt
thuật dùng cửa sổ truợt
Nhận xét:
Nhận xét:

Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện
Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện

Mỗi cửa sổ là một “khung ảnh" giống như một dòng
Mỗi cửa sổ là một “khung ảnh" giống như một dòng
của CSDL
của CSDL

Tập các “khung ảnh" tạo thành các dòng của CSDL
Tập các “khung ảnh" tạo thành các dòng của CSDL
3. THUẬT TOÁN
3. THUẬT TOÁN
WINEPI
WINEPI
9
Ví dụ chuỗi dữ liệu sự kiện:
Ví dụ chuỗi dữ liệu sự kiện:

Bề rộng cửa sổ là 40 giây
Bề rộng cửa sổ là 40 giây

Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối

Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
10
Cho tập
Cho tập
E
E
các loại sự kiện,
các loại sự kiện,
chuỗi sự kiện
chuỗi sự kiện


S
S
=
=
(
(
s
s
,
,
T
T

s
s
,T
,T
e
e
)
)
là một chuỗi có thứ tự các sự kiện
là một chuỗi có thứ tự các sự kiện
event
event
i
i
sao cho
sao cho
event
event
i
i






event
event
i+1
i+1

với mọi
với mọi
i=1,
i=1,
…, n-1
…, n-1
, và
, và
T
T
s
s






event
event
i
i
<
<
T
T
e
e
với mọi
với mọi

i=1, …, n
i=1, …, n
T
s
T
e
t
1
t
2
t
3
… …

t
n
event
1
event
2
event
3
… … event
n
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
11
Cửa sổ

Cửa sổ
trên
trên


chuỗi sự kiện S
chuỗi sự kiện S
là chuỗi sự kiện
là chuỗi sự kiện
S
S
w
w
=(
=(
w
w
,
,
t
t
s
s
,t
,t
e
e
), với
), với
t

t
s
s
<
<
T
T
e
e
,
,
t
t
e
e
>
>
T
T
s
s
, và
, và
w
w
chứa các
chứa các
cặp (
cặp (
event, t

event, t
) của s mà
) của s mà
t
t
s
s






t
t
<
<
t
t
e
e
Giá trị
Giá trị
t
t
s
s







t
t
<
<
t
t
e
e
được gọi là bề rộng cửa sổ
được gọi là bề rộng cửa sổ


W
W
T
s
T
e
t
1
t
2
t
3
t
n
event

1
event
2
event
3
… … event
n
W
W
t
t
s
s
t
t
e
e
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
12
Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi
Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi
có thể vuơn ra ngoài chuỗi, do vậy cửa sổ
có thể vuơn ra ngoài chuỗi, do vậy cửa sổ
đầu tiên chỉ chứa thời điểm đầu và cửa sổ
đầu tiên chỉ chứa thời điểm đầu và cửa sổ
cuối cùng chỉ chứa thời điểm cuối
cuối cùng chỉ chứa thời điểm cuối

W
W
t
t
s
s
t
t
e
e
T
s
T
e
t
1
t
2
t
3
t
n
event
1
event
2
event
3
… … event
n

W
W
t
t
s
s
t
t
e
e
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
13
Tần suất (độ hỗ trợ với luật kết hợp) của episode
Tần suất (độ hỗ trợ với luật kết hợp) của episode
α
α
là tỷ số
là tỷ số
giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả
giữa các cửa sổ có xuất hiện với tổng số các cửa sổ khả
dĩ.
dĩ.
|
|
S
S
w

w






W
W
(
(
S, W
S, W
) |
) |
α
α


xuất hiện trong
xuất hiện trong
S
S
w
w
|
|
fr
fr
(

(
α
α
,
,
S, W
S, W
) =
) =


|
|
W
W
(
(
S, W
S, W
)|
)|
Với
Với
W
W
(S, W) là tập tất cả các cửa sổ S
(S, W) là tập tất cả các cửa sổ S
w
w
của chuỗi S sao

của chuỗi S sao
cho bề rộng cửa sổ là W
cho bề rộng cửa sổ là W
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
14
Khi tìm episodes cần sử dụng một ngưỡng tần suất
Khi tìm episodes cần sử dụng một ngưỡng tần suất
min_fr
min_fr


Episode
Episode
α
α


phổ biến
phổ biến
nếu
nếu
fr(
fr(
α
α
,
,

s
s
, win)
, win)




min_fr
min_fr


Ví dụ, “nếu tần suất của
Ví dụ, “nếu tần suất của
α
α
vượt quá ngưỡng tần
vượt quá ngưỡng tần
suất nhỏ nhất trong phạm vi chuỗi dữ liệu
suất nhỏ nhất trong phạm vi chuỗi dữ liệu
s
s
và với
và với
bề rộng cửa sổ
bề rộng cửa sổ
win
win
"
"

F
F
(
(
s
s
,
,
win, min_fr
win, min_fr
): tập hợp các episodes phổ biến
): tập hợp các episodes phổ biến
trong
trong
s
s
ứng với
ứng với
win
win


min_fr
min_fr
Apriori:
Apriori:


Nếu
Nếu

episode
episode
α
α
là phổ biến trong chuỗi sự
là phổ biến trong chuỗi sự
kiện
kiện
s
s
, thì tất cả các episodes con
, thì tất cả các episodes con
β
β






α
α






phổ
phổ

biến
biến
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
15
Luật
Luật
episode rule là biểu thức
episode rule là biểu thức
β
β






α
α
, với
, với
β
β


α
α



là các episodes sao cho
là các episodes sao cho
β
β
là episode con của
là episode con của
α
α


Episode
Episode
β
β
là episode con của
là episode con của
α
α
(
(
β
β






α

α
), nếu đồ
), nếu đồ
thị biểu diễn
thị biểu diễn
β
β
là đồ thị con của đồ thị biểu
là đồ thị con của đồ thị biểu
diễn
diễn
α
α
.
.
A
B
β:
A
B
C
γ:
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
16
Phân số
Phân số
fr(

fr(
α
α
,
,
S, W
S, W
)
)
: tần suất của toàn bộ episode
: tần suất của toàn bộ episode
fr(
fr(
β
β
,
,
S, W
S, W
)
)
: tần suất của episode vế trái
: tần suất của episode vế trái
là độ tin cậy của luật
là độ tin cậy của luật
β
β







α
α
Độ tin cậy được xem như xác suất điều kiện của toàn bộ của
Độ tin cậy được xem như xác suất điều kiện của toàn bộ của
α
α
xảy ra trong cửa sổ khi cho trước
xảy ra trong cửa sổ khi cho trước
β
β
xảy ra trong cửa sổ
xảy ra trong cửa sổ
đó.
đó.
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
17
Nhận xét:
Nhận xét:

Các luật WINEPI giống luật kết hợp nhưng có thêm
Các luật WINEPI giống luật kết hợp nhưng có thêm
yếu tố thời gian:
yếu tố thời gian:
Nếu sự kiện thỏa về trái của luật xuất hiện theo thứ tự

Nếu sự kiện thỏa về trái của luật xuất hiện theo thứ tự
bên phải trong phạm vi
bên phải trong phạm vi
W
W
đơn vị thời gian, thì cũng
đơn vị thời gian, thì cũng
xuất hiện trong phần kết luận (vế phải ) xuất hiện trong
xuất hiện trong phần kết luận (vế phải ) xuất hiện trong
vị trí được mô tả bởi quan hệ thứ tự
vị trí được mô tả bởi quan hệ thứ tự


, trong phạm vi
, trong phạm vi
W
W
đơn vị thời gian.
đơn vị thời gian.
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
18
Input
Input
: Tập
: Tập
R các loại sự kiện
R các loại sự kiện

, chuỗi sự kiện S
, chuỗi sự kiện S
trên
trên
R
R
, tập
, tập
E
E
các episodes, bề
các episodes, bề
rộng cửa sổ
rộng cửa sổ
win
win
, và nguỡng tần suất
, và nguỡng tần suất
min_fr
min_fr
Output
Output
: Tập hợp
: Tập hợp
F
F
(
(
s
s

,
,
win, min_fr
win, min_fr
)
)
Method
Method
:
:
1.
1.
Tính C
Tính C
1
1
:= {
:= {
α
α






E
E
| |
| |

α
α
| = 1};
| = 1};
2.
2.
k := 1;
k := 1;
3.
3.
while
while
C
C
k
k








do
do
4. Tính
4. Tính
F
F

(
(
s
s
,
,
win, min_fr
win, min_fr
) = {
) = {
α
α




C
C
k
k
|
|
fr
fr
(
(
α
α
,
,

s
s
,
,
win
win
)
)




min_fr
min_fr
};
};
5.
5.
k := k+1;
k := k+1;
6. Tính C
6. Tính C
k
k
= {
= {
α
α







E
E
| |
| |
α
α
| = k, and
| = k, and
β
β






F
F
|
|
β
β
|
|
(
(

s
s
,
,
win, min_fr
win, min_fr
)
)
cho tất cả
cho tất cả
β
β






E và
E và
β
β






α
α

// tạo ứng viên
// tạo ứng viên
7. End While
7. End While
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
//Quét CSDL
19
Bài toán
Bài toán
: cho chuỗi sự kiện và episode, xác định episode
: cho chuỗi sự kiện và episode, xác định episode
có xuất hiện trong chuỗi sự kiện đó không. Tìm số các
có xuất hiện trong chuỗi sự kiện đó không. Tìm số các
cửa sổ có chứa một lần xuất hiện của episode.
cửa sổ có chứa một lần xuất hiện của episode.


Cách xử lý?
Cách xử lý?

Giống ý tưởng luật kết hợp
Giống ý tưởng luật kết hợp

Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ
Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ
hơn
hơn


Các episodes song song, episodes tuần tự
Các episodes song song, episodes tuần tự
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
20
Ví dụ chuỗi dữ liệu sự kiện:
Ví dụ chuỗi dữ liệu sự kiện:

Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây
Bề rộng cửa sổ là 40 giây, buớc di chuyển là 10 giây

Chiều dài của chuỗi là 70 (10-80)
Chiều dài của chuỗi là 70 (10-80)
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
21
Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U
Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U
1
1
-U
-U
11

11
):
):



Nguỡng tần số được ấn định là 40%, ví dụ episode xảy ra
Nguỡng tần số được ấn định là 40%, ví dụ episode xảy ra
tối thiểu trong 5 của 11 cửa sổ.
tối thiểu trong 5 của 11 cửa sổ.
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
0 10 20 30 40 50 60 70 80 90
D C A B D A B C
U
1
U
2

U
11
22
WINEPI Approach
WINEPI Approach
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)

23
Giả sử cần tìm tất cả các episodes song song:
Giả sử cần tìm tất cả các episodes song song:

Đầu tiên, tạo singletons, ví dụ episodes song song có kích thuớc là 1
Đầu tiên, tạo singletons, ví dụ episodes song song có kích thuớc là 1
(A, B, C, D)
(A, B, C, D)

Tiếp đến nhận dạng các singletons phổ biến (ở đây là tất cả )
Tiếp đến nhận dạng các singletons phổ biến (ở đây là tất cả )

Từ các episodes phổ biến này, tạo các episodes ứng viên có kích
Từ các episodes phổ biến này, tạo các episodes ứng viên có kích
thước là 2:
thước là 2:
AB, AC, AD, BC, BD, CD
AB, AC, AD, BC, BD, CD

Tiếp đến nhận dạng các episodes song song phổ biến(ở đây là tất cả)
Tiếp đến nhận dạng các episodes song song phổ biến(ở đây là tất cả)

Từ các episodes phổ biến này, tạo các episodes phổ biến có kích
Từ các episodes phổ biến này, tạo các episodes phổ biến có kích
thước là 3:
thước là 3:
ABC, ABD, ACD, BCD
ABC, ABD, ACD, BCD

Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn

Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn
4 cửa sổ
4 cửa sổ

Không có episodes ứng viên có kích thước là 4.
Không có episodes ứng viên có kích thước là 4.
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
24
Tần suất Episode và các luật ví dụ với WINEPI:
Tần suất Episode và các luật ví dụ với WINEPI:
D
D
: 73%
: 73%
C
C
: 73%
: 73%
A
A
: 64%
: 64%
B
B
: 64%
: 64%
D C

D C
: 45%
: 45%
D A
D A
: 55%
: 55%
D
D


A [40] (55%, 75%)
A [40] (55%, 75%)
D B
D B
: 45%
: 45%
C A
C A
: 45%
: 45%
C B
C B
: 45%
: 45%
A B
A B
: 55%
: 55%
D A B

D A B
: 45%
: 45%
D A
D A


B [40] (45%, 82%)
B [40] (45%, 82%)
3. THUẬT TOÁN WINEPI
3. THUẬT TOÁN WINEPI
(tt)
(tt)
25
Một cách tiếp cận khác để khám phá episodes
Một cách tiếp cận khác để khám phá episodes

Không dùng cửa sổ trượt
Không dùng cửa sổ trượt

Đối với từng episode quan tâm tiền năng, tìm số lần xuất
Đối với từng episode quan tâm tiền năng, tìm số lần xuất
hiện chính xác của episode.
hiện chính xác của episode.
Các tiện lợi:
Các tiện lợi:
dễ sửa đổi các giới hạn thời gian, nhiều
dễ sửa đổi các giới hạn thời gian, nhiều
giới hạn thời gian cho một luật :
giới hạn thời gian cho một luật :



Nếu
Nếu
A và
A và
B
B
xảy ra trong phạm vi 15 giây, thì
xảy ra trong phạm vi 15 giây, thì
C
C
sẽ theo
sẽ theo
sau trong phạm vi 30 giây"
sau trong phạm vi 30 giây"
Bất tiện:
Bất tiện:
dùng nhiều khoảng trống
dùng nhiều khoảng trống
4. THUẬT TOÁN MINEPI
4. THUẬT TOÁN MINEPI

×