Tải bản đầy đủ (.pdf) (10 trang)

Khai thác tập phổ biến và luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (336.9 KB, 10 trang )

1
1
KHAI THÁC
DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH
2
BÀI 3- PHẦN 1
KHAI THÁC
TẬP PHỔ BIẾN &
LUẬT KẾT HỢP
3
NỘI DUNG
1. Gii thiu
2. Các khái niệm cơ bản
3. Bài toán khai thác tập phổ biến
4
GIỚI THIỆU
 Mẫu phổ biến : là mẫu (tập các hạng mục, chuỗi con, cấu
trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập
DL
– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ
biến và luật kết hợp
 Mục đích : Tìm các hiện tượng thường xuyên xảy ra
trong DL
– Những sản phẩm nào thường được mua chung ? Bia và tã lót
– Người ta thường mua gi tiếp theo sau khi mua máy PC ?
– Dạng DNA nào có phản ứng với công thức thuốc mới ?
– Làm thế nào đề phân loại tự động văn bản Web ?
 Ứng dụng :


– Áp dụng trong phân tích CSDL bán hàng
– Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến
dịch bán hàng, Web log, chuỗi DNA, …
2
5
GIỚI THIỆU
 Bài toán khai thác tập phổ biến là bài toán
rất quan trọng lĩnh vực KTDL : vạch ra tính
chất ẩn, quan trọng của tập DL
 Là nền tảng cho nhiều nhiệm vụ KTDL khác :
– Phân tích luật kết hợp, mối tương quan
– Mẫu tuần tự, cấu trúc ( Vd : đồ thị con)
– Phân tích DL không gian, đa phương tiện, phụ
thuộc thời gian
– Phân loại : phân loại dựa trên luật kết hợp
– Phân tích nhóm: gom nhóm dựa trên mẫu phổ biến
– ….
6
NỘI DUNG
1. Giới thiệu
2. Các khái nim cơ bn
3. Bài toán khai thác tập phổ biến
7
KHÁI NIỆM CƠ BẢN
1. CSDL GIAO DỊCH
(Transaction DB)
VD giỏ mua hàng:
o Giỏ 1: {Bánh mì,
Trứng, Sữa}
o Giỏ 2: {Bánh mì,

Đường}

o Giỏ n: {Bánh qui, ngũ
cốc, sữa}
TID Produces
1 MILK, BREAD, EGGS
2 BREAD, SUGAR
3 BREAD, CEREAL
4 MILK, BREAD, SUGAR
5 MILK, CEREAL
6 BREAD, CEREAL
7 MILK, CEREAL
8
MILK, BREAD, CEREAL,
EGGS
9 MILK, BREAD, CEREAL

8
KHÁI NIỆM CƠ BẢN
TID A B C D E
1 1 1 0 0 1
2 0 1 0 1 0
3 0 1 1 0 0
4 1 1 0 1 0
5 1 0 1 0 0
6 0 1 1 0 0
7 1 0 1 0 0
8 1 1 1 0 1
9 1 1 1 0 0


TID Products
1 A, B, E
2 B, D
3 B, C
4 A, B, D
5 A, C
6 B, C
7 A, C
8 A, B, C, E
9 A, B, C

ITEMS:
A = milk
B= bread
C= cereal
D= sugar
E= eggs
Biến đổi CSDL về
dạng nhị phân
3
9
1. CSDL GIAO DỊCH (tt)
Định nghĩa :
o Hạng mục (Item) : mặt hàng trong giỏ hay một thuộc tính
o Tập các hạng mục (itemset) I = {i
1
, i
2
, …, i
m

} :
VD : I = {sữa, bánh mì, ngũ cốc, sữa chua}
Tập k hạng mục (k-itemset)
o Giao dịch (Transation) : tập các hạng mục được mua trong
một giỏ ( có TID – mã giao dịch) : (Tid, tập hạng mục)
o Giao dịch t : tập các hạng mục sao cho t

I
o VD : t = { bánh mì, sữa chua, ngũ cốc}
o CSDL giao dịch : tập các giao dịch
o CSDL D = {t
1
,t
2
, …, t
n
} , t
i
={i
i1
,i
i2
, …, i
ik
} với i
ij
∈ I : CSDL
giao dịch
KHÁI NIỆM CƠ BẢN
10

2. ĐỘ PHỔ BIẾN VÀ TẬP PHỔ BIẾN
Giao dịch t chứa X nếu X là tập các hạng mục
trong I và X ⊆ t
VD : X = { bánh mì, sữa chua}
Độ phổ biến (supp) của tập các hạng mục X
trong CSDL D là tỷ lệ giữa số các giao dịch
chứa X trên tổng số các giao dịch trong D
Supp(X) = count(X) / | D |
Tập các hạng mục phổ biến S hay tập phổ
biến (frequent itemsets) là tập các hạng mục
có độ phổ biến thỏa mãn độ phổ biến tối thiểu
minsupp (do người dùng xác định)
Nếu supp(S) ≥
≥≥
≥ minsupp thì S - tập phổ biến .
KHÁI NIỆM CƠ BẢN
11
3. TÍNH CHẤT TẬP PHỔ BIẾN
Tất cả các tập con của tập phổ
biến đều là tập phổ biến
Thảo luận :
Tại sao ?
Nu tp con không ph bin thì tp
bao nó (tp cha) có ph bin hay
không ?
KHÁI NIỆM CƠ BẢN
12
I = { Beer, Bread, Jelly, Milk, PeanutButter}
X= {Bread,PeanutButter} ; Count(X) = 3 và |D| = 5


→→
→ supp(X) = 60%→
→→
→ X- tập phổ biến
X
2
= {Bread} →
→→
→ supp(X
2
) = ?
X
3
= {PeanutButter} →
→→
→ supp(X
3
) = ?; X
2
và X
3
có phổ biến ?
X
3
= {Milk}, X
4
={Milk, Bread} →
→→
→ X
3

và X
4
có phổ biến ?
VÍ DỤ 1
Minsupp = 60%
4
13
minsupp=30%
TẬP PHỔ BIẾN của VD 1
14
KHÁI NIỆM CƠ BẢN
4. TẬP PHỔ BIẾN TỐI
ĐẠI (Max-Pattern)
Tp ph bin & không
tn ti tp nào bao nó
là ph bin (Bayardo –
SIGMOD’98)
{B, C, D, E}, {A, C, D}-
tập phổ biến tối đại
{B, C, D}- không phải tập
phổ biến tối đại
A,C,D,F30
B,C,D,E,20
A,B,C,D,E10
ItemsTid
Minsupp=2
15
KHÁI NIỆM CƠ BẢN
5. TẬP BAO PHỔ BIẾN
(Closed Pattern)

Tp ph bin & không tn ti
tp nào bao nó có cùng đ
ph bin nh nó. (Pasquier,
ICDT’99)
Tp bao ph bin là trng hp
nén các tp ph bin (có mt
thông tin)
{A, B}, {A, B, D}, {A,B, C} - tập
bao phổ biến
{A, B} - không phải tập phổ
biến tối đại
Minsupp=2
c, e, f50
a, b, d, 40
a, b, d30
a, b, c20
a, b, c 10
ItemsTID
16
6. LUẬT KẾT HỢP( Association rule)
LKH có dng :
X ⇒
⇒⇒
⇒ Y, với X, Y ⊂
⊂⊂
⊂ I, và X ∩
∩∩
∩Y ={}
Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác
suất nào đó)

LKH thng được đánh giá dựa trên 2 độ đo:
Độ phổ biến (support) : supp (X ⇒
⇒⇒
⇒ Y ) =P (X ∪
∪∪
∪ Y)
supp (X ⇒
⇒⇒
⇒ Y ) = supp(X

∪∪

Y)
Độ tin cậy (confidence) : conf (X ⇒
⇒⇒
⇒ Y ) = P(Y | X)
conf (X ⇒
⇒⇒
⇒ Y ) = supp(X

∪∪

Y) / supp(X)
KHÁI NIỆM CƠ BẢN
5
17
VÍ DỤ LUẬT KẾT HỢP (VD1)
Ký hiệu : s – supp, α - conf
18
7. MÔ TẢ BÀI TOÁN KHAI THÁC LKH

Cho độ phổ biến tối thiểu (minsupp) và độ tin
cậy tối thiểu (minconf) do người dùng xác định.
Cho tập các hạng mục I={i
1
,i
2
,…,i
m
} và CSDL
giao dịch D={t
1
,t
2
, …, t
n
}, với t
i
={i
i1
,i
i2
, …, i
ik
} và i
ij
∈ I.
Bài toán khai thác LKH là bài toán tìm tt c
các luật dạng X ⇒
⇒⇒
⇒ Y (X, Y ⊂ I và X ∩Y = {})

thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minsupp
conf (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minconf
KHÁI NIỆM CƠ BẢN
19
 Thời gian : 7’
 Trình bày ý tưởng gii
quyt vn đ trc lp
trong vòng 3’/nhóm
 Tình huống :
– Cho CSDL bên với các
giá trị minsupp =50 % và
minconf = 60%
– Tìm tt c các lut kt
hp tha mãn minsupp
và minconf
– Nhận xét ?
Minsupp = 50%
Minconf = 60%
A, E40
D, B, F30
A, B, C20

B, C10
Items boughtTrs-id
Bài tập theo nhóm
20
KHÁI NIỆM CƠ BẢN
8. QUI TRÌNH KHAI THÁC LKH
B1 : Tìm tất cả các tập phổ biến ( theo ngưỡng
minsupp)
B2 : Tạo ra các luật từ các tập phổ biến
Đối với mỗi tập phổ biến S, tạo ra tất cả các tập
con khác rỗng của S
Đối với mỗi tập con khác rỗng A của S,
o Luật A ⇒
⇒⇒
⇒ (S - A) là LKH cần tìm nếu :
 conf (A ⇒
⇒⇒
⇒ (S - A)) = supp(S) / supp(A) ≥
≥≥
≥ minconf
 T bài toán khai thác LKH chuyn thành
bài toán khai thác tp ph bin : độ phức
tạp tính toán cao.

×