Tải bản đầy đủ (.ppt) (57 trang)

Khai phá dữ liệu - Chương 2 LUẬT KẾT HỢP pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (716.43 KB, 57 trang )

1
LUẬT KẾT HỢP
(Association Rules)
Chương 2
2
03/29/14
www.lhu.edu.vn

Phân tích việc
Phân tích việc
mua hàng của
mua hàng của
khách hàng bằng
khách hàng bằng
cách tìm ra những
cách tìm ra những
“mối kết hợp” giữa
“mối kết hợp” giữa
những mặt hàng
những mặt hàng
mà khách đã mua.
mà khách đã mua.

Bài toán được
Bài toán được
Agrawal thuộc
Agrawal thuộc
nhóm nghiên cứu
nhóm nghiên cứu
của IBM đưa ra
của IBM đưa ra


vào năm 1994.
vào năm 1994.
Bài toán phân tích giỏ hàng
Bài toán phân tích giỏ hàng
3
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
Khai phá luật kết hợp:
Khai phá luật kết hợp:

Tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu
trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ
liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin
khác.
Tính hiểu được:
Tính hiểu được: dễ hiểu
Tính sử dụng được:
Tính sử dụng được: Cung cấp thông tin thiết thực
Tính hiệu quả:
Tính hiệu quả: Đã có những thuật toán khai thác hiệu
quả
Các ứng dụng:
Các ứng dụng:

Phân tích bán hàng trong siêu thị, cross-marketing, thiết kế
catalog, loss-leader analysis, gom cụm, phân lớp,
4
Định dạng thể hiện đặc trưng cho các luật kết hợp:
Định dạng thể hiện đặc trưng cho các luật kết hợp:


khăn ⇒ bia [0.5%, 60%]

mua:khăn ⇒ mua:bia [0.5%, 60%]

“Nếu mua khăn thì mua bia trong 60% trường hợp. Khăn và
bia được mua chung trong 0.5% dòng dữ liệu."
Các biểu diễn khác:
Các biểu diễn khác:

mua(x, “khăn") ⇒ mua(x, “bia") [0.5%, 60%]

khoa(x, "CS") ^ học(x, "DB") ⇒ điểm(x, "A") [1%, 75%]
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
5
khăn ⇒ bia [0.5%, 60%]
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
Tiền đề
Tiền đề, vế trái luật
Mệnh đề kết quả
Mệnh đề kết quả, vế phải luật
Support
Support, độ hỗ trợ/ủng hộ (“trong bao nhiêu phần trăm dữ
liệu thì những điều ở vế trái và vế phải cùng xảy ra")
Confidence
Confidence, độ mạnh (“nếu vế trái xảy ra thì có bao nhiêu
khả năng vế phải xảy ra")
“NẾU mua khăn
THÌ mua bia

trong 60% trường hợp
trên 0.5% dòng dữ liệu"
1 2 3 4
6
2.1 Các kháI niệm
Cho I = {I
1
, I
2
, . . . , I
m
} là tập các đơn vị d liệu. Cho D là tập
các giao tác, mỗi giao tác T là tập các đơn vị d d liệu sao cho
T I
ẹịnh nghĩa 1: Ta gọi giao tác T chứa X, với X là tập các đơn vị
d liệu của I, nếu X T
ẹịnh nghĩa 2: Một luật kết hợp là một phép suy diễn có dạng X
Y, trong đó X I, Y I và XY =
ẹịnh nghĩa 3: Ta gọi luật X Y có mức xác nhận(support) là s
trong tập giao tác D, nếu có s% giao tác trong D chứa XY.
Ký hiệu: Supp(X Y) = s
7
2.1 Các kháI niệm (Tieỏp)
ẹịnh nghĩa 4:Ta gọi luật X Y là có độ tin cậy c
(Confidence) trên tập giao tác D,
Ký hiệu: c= Conf(X Y) = Supp(X Y)/Supp(X)
Nhận xét: Các xác nhận và độ tin cậy chính là các xác suất
sau:
Supp(X Y)= P(XY) : Xác suất của XY trong D
Conf(X Y) = P(Y/X): Xác suất có điều kiện

ẹịnh nghĩa 5: Cho trJớc Min_Supp=s
0
và Min_Conf=c
0

Ta gọi luật X Y là xaỷ ra nếu thỏa:
Supp(X Y) > s
0
và Conf(X Y)>c
0
8
Ngµy T_ID C¸c ®¬n vÞ dJ liÖu
D
1
t
1
A
 
D E

t
2
A
   
F
t
3
A B

D E


D
2
t
4
A B C

E

t
5
  
D

F
t
6
A

C D E

D
3
t
7

B

D E


t
8
A
 
D

F
t
9

B C

E

D
4
t
10

B C

E F
t
11

B C
 
F
t
12

A
 
D
 
Ví dụ 1: Xét CSDL sau
9
Ta cã:
Supp(A→D)=5/12=41.66%, Conf(A→D)=5/7
Supp(B → D)=2/12=17%, Conf(B → D )= 2/6=33.3%
Supp(D → F) = 2/12 vµ Conf(D → F) = 2/7=28.5%
Supp(F→D)=2/12 vµ Conf(F→D)=2/5
Supp(AC→E)=17% Conf(AC→E)=100%
Supp(E→AC)=17% Conf(E→AC)=2/7=28.5%
10
Nhận xét 1:
* Hai bước chính của bài toán khai thác dữ liệu dựa
trên các luật kết hợp:
1. Tạo ra tất cả tập đơn vị dữ liệu thường xuyên xảy
ra (thoả ngưỡng là Min_Sup).
2. Từ tập các đơn vị dữ liệu thường xuyên xảy ra Y
= {I
1
, I
2
, . . ., I
k
} với k >= 2, sinh ra các luật tạo ra từ
các đơn vị dữ liệu này bằng cách tỡm các tập con
của mỗi tập đơn vị dữ liệu và tính các độ tin cậy
của chúng như trên.

2.1 Thuật toán Apriori
11
2.1 Thuật toán Apriori
Cách tiếp cận của thuật toán Apriori dựa trên
nhận xét sau: Nếu bất kỳ tập k-đvdl nào là
không phổ biến thì bất kỳ tập (k+1)-đvdl
chứa chúng cũng sẽ không phổ biến, và
ngược lại: Nếu bất kỳ tập k-đvdl nào là phổ
biến thì mọi tập con của nó là phổ biến.
12
Ký hiệu:
- Ta gọi số đơn vị dữ liệu trong một tập hợp là số
các phần tử của chúng và tập có k phần tử là k-
đơn vị dữ liệu
- Gọi L
k
: Tập hợp các tập phổ biến gồm các k-đvdl.
Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu
và ii) đếm số lần xuất hiện.
- C
k
: Tập hợp các tập ứng viên k- đơn vị dữ liệu.
Mỗi phần tử gồm 2 trường: i) các đơn vị dữ liệu
và ii) đếm số lần xuất hiện.
2.1 Thuật toán Apriori
13
Thuật toán Apriori dựa trên các thủ tục sau
Procedure 1: Tạo ra các tập phổ biến
Begin
L

1
= {tập phổ biến1-đvdl};
for ( k = 2; L
k-1
≠ ∅; k++ ) do
begin
C
k
= Tạo ra tập ứng viên từ(L
k-1
);
for mỗi giao tác t ∈ D do
begin
C
t
= Tập con của (C
k
) chứa t
for mỗi c ∈ C
t
do c.count++;
end
L
k
= {c ∈ C
k
| c.count ≥ Min_Supp*|D|}
end
Return (∪
k

L
k
);
end
14
Procedure 2: Tìm ra tất cả các luật kết hợp
begin
Result = ∅
for mỗi tập xảy ra thường xuyên X∈L do
begin
for mỗi a ⊂ X sao cho a ≠∅ do
if(Mức xác nhận(X)/Mức xác nhận(a)>=Min_Conf)
then Result = Result ∪{a → (X-a)}
end
return Ressult
end
Thuật toán Apriori dựa trên các thủ tục sau
15
Trong ví dụ 1, với Min_Conf=c
0
=70% và Min_Supp
=s
0
=40%
- Ta có tập L gồm các tập đơn vị dữ liệu xảy ra
thường xuyên như sau:
L = {{A}, {B}, {C}, {D}, {E}, {F}, {AD}, {BE}, {CE},
{DE}}
Có các luật kết hợp như sau:
A→D với c=71.42% và s=41.66%

D→A với c=71.42% và s=41.66%
B→E với c=83.33% và s=41.66%
E→B với c=71.42% và s=41.66%
16
Mức xác nhận tối thiểu
Mức xác nhận tối thiểu
σ
σ
/ S
/ S
0
0


: (minsupp)
: (minsupp)

Cao ⇒ ít tập phần tử (itemset) phổ biến
⇒ ít luật hợp lệ rất thường xuất hiện

Thấp ⇒ nhiều luật hợp lệ hiếm xuất hiện
Độ tin cậy tối thiểu
Độ tin cậy tối thiểu
γ
γ
/ C
/ C
0
0



:
: (minconf)

Cao ⇒ ít luật nhưng tất cả “gần như đúng"

Thấp ⇒ nhiều luật, phần lớn rất “không chắc chắn"
Giá trị tiêu biểu
Giá trị tiêu biểu
:
:
σ
σ = 2 -10 %,
γ
γ = 70 - 90 %
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
17
Giao t
Giao t
ác
ác
:
:

Dạng quan hệ Dạng kết
<Tid,item> <Tid,itemset>
<1, item1> <1, {item1,item2}>
<1, item2> <2, {item3}>
<2, item3>

Item v
Item v
à
à
itemsets:
itemsets: phần tử đơn lẻ và tập phần tử
Support
Support của tập I: số lượng giao tác có chứa I
Min Support
Min Support σ: ngưỡng cho support
Tập phần tử phổ biến
Tập phần tử phổ biến
:
: có độ ủng hộ (support) ≥ σ
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
18
Cho:
Cho: (1) CSDL các giao tác, (2) mỗi giao tác là một
danh sách mặt hàng được mua (trong một lượt mua
của khách hàng)Frequent item sets
Tìm: tất cả
Tìm: tất cả luật có support >= minsupport
Luật kết hợp: Cơ sở
Luật kết hợp: Cơ sở
ID của giao tác Hàng mua
100 A,B,C
200 A,C
400 A,D
500 B,E,F

Tập phổ biến support
{A} 3 or 75%
{B} và {C}
2 or 50%
{D}, {E} và {F}
1 or 25%
{A,C} 2 or 50%
Các cặp khác max 25%

If min. support 50% and min. confidence 50%, then
A
A


C
C [50%, 66.6%],
C
C


A
A [50%, 100%]
19
Nguyên tắc Apriori:
Nguyên tắc Apriori:
Những tập con của tập phổ biến cũng phải phổ biến
L
L
3
3

=
=
{
{
abc, abd, acd, ace, bcd
abc, abd, acd, ace, bcd
}
}
Tự kết:
Tự kết:
L
L
3
3
*L
*L
3
3

abcd từ abc và abd

acde từ acd và ace
Rút gọn:
Rút gọn:

acde bị loại vì ade không có trong L
3
C
C
4

4
={
={
abcd
abcd
}
}
Tạo ứng viên Apriori
Tạo ứng viên Apriori
20
ID giao tác Phần tử
100 1 3 4
200 2 3 5
300 1 2 3 5
400 2 5
Database D
Database D
Duyệt D
Duyệt D
Ví dụ về Apriori (1/6)
Ví dụ về Apriori (1/6)
Tập
Độ ủng hộ
{1} 2
{2} 3
{3} 3
{4} 1
{5} 3
C
C

1
1
Tập Độ ủng hộ
{1} 2
{2} 3
{3} 3
{5} 3
L
L
1
1
21
Ví dụ về Apriori (2/6)
Ví dụ về Apriori (2/6)
Tập
{1 2}
{1 3}
{1 5}
{2 3}
{2 5}
{3 5}
C
C
2
2
Tập Độ ủng hộ
{1 2} 1
{1 3} 2
{1 5} 1
{2 3} 2

{2 5} 3
{3 5} 2
C
C
2
2
Tập Độ ủng hộ
{1 3} 2
{2 3} 2
{2 5} 3
{3 5} 2
L
L
2
2
Duyệt D
Duyệt D
22
Duyệt D
Duyệt D
Ví dụ về Apriori (3/6)
Ví dụ về Apriori (3/6)
Tập
{2 3 5}
C
C
3
3
Tập
Độ ủng hộ

{2 3 5} 2
L
L
3
3
23
1
1
2
2
3
3
4
4
5
5
12 13 14 15 23 24 25 34 35 45
12 13 14 15 23 24 25 34 35 45
123 124 125 134 135 145 234 235 245 345
123 124 125 134 135 145 234 235 245 345
1234
1234
1235
1235
1245
1245
1345 2345
1345 2345
12345
12345

Không gian
Không gian
tìm kiếm của
tìm kiếm của
CSDL D
CSDL D
Ví dụ về Apriori (4/6)
Ví dụ về Apriori (4/6)
24
1
1
2
2
3
3
4
4
5
5
12 13
12 13
14
14
15 23
15 23
24
24
25
25
34

34
35
35
45
45
123
123
124
124
125
125
134
134
135
135
145
145


234
234
235
235
245 345
245 345
1234
1234
1235
1235
1245

1245
1345
1345


2345
2345
12345
12345
Áp dụng
Áp dụng
Heuristic Apriori
Heuristic Apriori
trên Cấp 1
trên Cấp 1
Ví dụ về Apriori (5/6)
Ví dụ về Apriori (5/6)
25
1
1
2
2
3
3
4
4
5
5
12
12

13
13
14
14


15
15
23
23
24
24
25
25
34
34
35
35
45
45
123 124 125 134 135 145 234
123 124 125 134 135 145 234
235
235
245 345
245 345
1234
1234
1235
1235

1245
1245
1345 2345
1345 2345
12345
12345
Áp dụng Heuristic
Áp dụng Heuristic
Apriori
Apriori
trên Cấp 2
trên Cấp 2
Ví dụ về Apriori (6/6)
Ví dụ về Apriori (6/6)

×