1
1
KHAI THÁC
DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH
2
B
BB
BÀ
ÀÀ
ÀI 3
I 3 I 3
I 3 -
--
- PH
PHPH
PHẦN 2
N 2N 2
N 2
KHAI THÁC
TẬP PHỔ BIẾN &
LUẬT KẾT HỢP
3
NỘI DUNG
1.Gii thiu
2. Bài toán khai thác tập phổ
biến
3. Độ đo tính lý thú
4
GIỚI THIỆU
Bài toán khai thác tập phổ biến là bài toán
rất quan trọng lĩnh vực KTDL : vạch ra tính
chất ẩn, quan trọng của tập DL
Tất cả các tập con của tập phổ biến đều là
tập phổ biến
Tập phổ biến tối đại, tập bao phổ biến
Bài toán khai thác LKH là bài toán tìm tt c
các luật dạng X ⇒
⇒⇒
⇒ Y (X, Y ⊂ I và X ∩Y ={})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minsupp
conf (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minconf
2
5
GIỚI THIỆU
Bài toán khai thác tp ph bin là bài toán tìm
tt c các tp các hng mc S (hay tp ph
bin S) có đ ph bin tha mãn đ ph bin
ti thiu minsupp
supp(S)
≥
≥≥
≥
minsupp
Cách giải quyết : dựa trên tính chất của tập phổ
biến
Tìm kiếm theo chiều rộng : Thuật toán Apriori
(1994)
Phát triển mẫu : Thuật toán FP-Growth
(2000)
Tìm kiếm trên CSDL hàng dọc : Thuật toán
Charm (2002)
6
GIỚI THIỆU
Các hạn chế của Thuật toán Apriori
Phải duyệt CSDL nhiều lần
Khi khai thác các mẫu dài cần duyệt CSDL
nhiều lần và tạo lượng lớn tập ứng viên
Ví dụ : Để tìm tập phổ biến i1 i2… i100 :
• Số lần duyệt CSDL : 100
• Số lượng ứng viên : 2
100
-1 = 1.27*10
30
!
Vấn đề : tạo ứng viên và kiểm tra
Có thể tránh việc tạo ứng viên hay không ?
7
NỘI DUNG
1. Giới thiệu
2. Bài toán khai thác tp
ph bin
Thut toán FP-Growth
3. Độ đo tính lý thú
8
THUẬT TOÁN FP-GROWTH
1. BẢN CHẤT
Khai thác tập phổ biến không
sử dụng hàm tạo ứng viên.
Nén CSDL thành cấu trúc cây
FP (Frequent Patern)
Duyệt đệ qui cây FP để tạo tập
phổ biến
3
9
THUẬT TOÁN FP-GROWTH
2. QUI TRÌNH
B0 : Thit lp cây FP
B1 : Thiết lập cơ sở mẫu điều kiện
(conditional pattern bases) cho mỗi hạng
mục phổ biến (mỗi nút trên cây FP).
B2 : Thiết lập cây FP điều kiện (conditional
FP tree) từ mỗi cơ sở mẫu điều kiện
B3 : Khai thác đệ qui cây FP điều kiện và
phát triển mẫu phổ biến cho đến khi cây FP
điều kiện chỉ chứa 1 đường dẫn duy nhất -
tạo ra tất cả các tổ hợp của mẫu phổ biến
10
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 60%
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1- hạng
mục (duyệt CSDL 1 lần)
2. Sắp xếp tập phổ biến giảm
dần vào trong F-list
3. Sắp xếp CSDL theo F-
list. Duyệt CSDL lần
nữa và thiết lập cây FP
F-list=f-c-a-b-m-p
11
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa và
thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:1
c:1
a:1
m:1
p:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
12
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa và
thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:2
c:2
a:2
b:1m:1
p:1
m:1
4
13
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa
và thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:3
c:2
a:2
b:1m:1
p:1
m:1
b:1
14
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa
và thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2
m:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
15
Bài tập theo nhóm
TID Items
1 {A,B}
2 {B,C,A}
3 {A,D,B}
4 {A,B,E}
5 {A,C}
6 {A,B,C}
7 {B,C}
8 {B,C,D}
9 {B,E}
10 {A,E}
11 {A,C,E}
12 {A,D,E}
• Thời gian : 15’
• Trình bày kết quả ra giấy
theo nhóm
•Yêu cầu: Xây dựng cây
FP từ CSDL bên với
minsupp = 25 %
• Nếu Minsupp = 40% thì
cây FP sẽ thay đổi như thế
nào ?
16
Qui định trình bày bài nộp
Bài tập nộp theo nhóm
Ngày nộp :
Tên nhóm : ( chỉ ghi tên các thành
viên có mặt)
– Thành viên 1:
– Thành viên 2:
– …
– Thành viên 12:
Nội dung :
5
17
ĐÁP ÁN
18
THUẬT TOÁN FP-GROWTH (B1)
Xây dng cơ s mu điu kin (Conditional pattern
base)
– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP
– Duyệt cây FP theo kết nối của mỗi hạng mục phổ biến (VD hạng mục p)
– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục (p) để
tạo cơ sở mẫu điều kiện (của p)
Conditional pattern bases
item cond. pattern base
c f:3
a fc:3
b fca:1, f:1, c:1
m fca:2, fcab:1
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
19
THUẬT TOÁN FP-GROWTH (B2)
Xây dựng cây FP-điều kiện
– Vi mi cơ s mu :
• Đếm số lượng mỗi mẫu trong cơ sở mẫu
• Thit lp cây FP cho tp ph bin ca mu cơ s
p-conditional FP-tree
{}
Header Table
Item frequency head
c 3
VD : Với cơ cở mẫu điều kiện cho p là : {fcam:2, cb:1}
c:3
minsupp = 3
20
THUẬT TOÁN FP-GROWTH (B2)
Ví dụ : m-conditional pattern base: fca:2, fcab:1
{}
f:3
c:3
a:3
m-conditional FP-tree
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
Xây dựng cây FP-điều kiện
– Vi mi cơ s mu :
• Đếm số lượng mỗi mẫu trong cơ sở mẫu
• Thit lp cây FP cho tp ph bin ca mu cơ s
minsupp = 3