Tải bản đầy đủ (.pdf) (25 trang)

Khai thác dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (717.12 KB, 25 trang )

1
KHAI THÁC
DỮ LIỆU &
ỨNG DỤNG
(DATA MINING)
GV : NGUYỄN HOÀNG TÚ ANH
2
B
BB

ÀÀ
ÀI 3
I 3 I 3
I 3 -
--
- PH
PHPH
PHẦN 2
N 2N 2
N 2
KHAI THÁC
TẬP PHỔ BIẾN &
LUẬT KẾT HỢP
3
NỘI DUNG
1.Gii thiu
2. Bài toán khai thác tập phổ
biến
3. Độ đo tính lý thú của LKH
4
GIỚI THIỆU


 Bài toán khai thác tập phổ biến là bài toán
rất quan trọng lĩnh vực KTDL : vạch ra tính
chất ẩn, quan trọng của tập DL
Tất cả các tập con của tập phổ biến đều là
tập phổ biến
Tập phổ biến tối đại, tập bao phổ biến
Bài toán khai thác LKH là bài toán tìm tt c
các luật dạng X ⇒
⇒⇒
⇒ Y (X, Y ⊂ I và X ∩Y ={})
thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minsupp
conf (X ⇒
⇒⇒
⇒ Y ) ≥
≥≥
≥ minconf
5
GIỚI THIỆU
Bài toán khai thác tp ph bin là bài toán tìm
tt c các tp các hng mc S (hay tp ph
bin S) có đ ph bin tha mãn đ ph bin
ti thiu minsupp
supp(S)

≥≥


minsupp
Cách giải quyết : dựa trên tính chất của tập phổ
biến
Tìm kiếm theo chiều rộng : Thuật toán Apriori
(1994)
Phát triển mẫu : Thuật toán FP-Growth
(2000)
Tìm kiếm trên CSDL hàng dọc : Thuật toán
Charm (2002)
6
GIỚI THIỆU
 Các hạn chế của Thuật toán Apriori
Phải duyệt CSDL nhiều lần
Khi khai thác các mẫu dài cần duyệt CSDL
nhiều lần và tạo lượng lớn tập ứng viên
Ví dụ : Để tìm tập phổ biến i1 i2… i100 :
• Số lần duyệt CSDL : 100
• Số lượng ứng viên : 2
100
-1 = 1.27*10
30
!
Vấn đề : tạo ứng viên và kiểm tra
 Có thể tránh việc tạo ứng viên hay không ?
7
NỘI DUNG
1. Giới thiệu
2. Bài toán khai thác tp
ph bin

 Thut toán FP-Growth
3. Độ đo tính lý thú của LKH
8
THUẬT TOÁN FP-GROWTH
1. BẢN CHẤT
Khai thác tập phổ biến không
sử dụng hàm tạo ứng viên.
Nén CSDL thành cấu trúc cây
FP (Frequent Patern)
Duyệt đệ qui cây FP để tạo tập
phổ biến
9
THUẬT TOÁN FP-GROWTH
2. QUI TRÌNH
B0 : Thit lp cây FP
B1 : Thiết lập cơ sở mẫu điều kiện
(conditional pattern bases) cho mỗi hạng
mục phổ biến (mỗi nút trên cây FP).
B2 : Thiết lập cây FP điều kiện (conditional
FP tree) từ mỗi cơ sở mẫu điều kiện
B3 : Khai thác đệ qui cây FP điều kiện và
phát triển mẫu phổ biến cho đến khi cây FP
điều kiện chỉ chứa 1 đường dẫn duy nhất -
tạo ra tất cả các tổ hợp của mẫu phổ biến
10
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4

a 3
b 3
m 3
p 3
minsupp = 60%
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1- hạng
mục (duyệt CSDL 1 lần)
2. Sắp xếp tập phổ biến giảm
dần vào trong F-list
3. Sắp xếp CSDL theo F-
list. Duyệt CSDL lần
nữa và thiết lập cây FP
F-list=f-c-a-b-m-p
11
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3

1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa và
thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:1
c:1
a:1
m:1
p:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
12
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3

p 3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa và
thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:2
c:2
a:2
b:1m:1
p:1
m:1
13
THIẾT LẬP CÂY FP (B0)
Header Table
Item frequency head
f 4
c 4

a 3
b 3
m 3
p 3
minsupp = 3
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}
300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa
và thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:3
c:2
a:2
b:1m:1
p:1
m:1
b:1
14
THIẾT LẬP CÂY FP (B0)

Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
minsupp = 3
1. Tìm tập phổ biến 1-
hạng mục (duyệt CSDL 1
lần)
2. Sắp xếp tập phổ biến
giảm dần vào trong F-
list
3. Duyệt CSDL lần nữa
và thiết lập cây FP
F-list=f-c-a-b-m-p
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2
m:1
TID Items bought (ordered) frequent items
100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}
200 {a, b, c, f, l, m, o} {f, c, a, b, m}

300 {b, f, h, j, o, w} {f, b}
400 {b, c, k, s, p} {c, b, p}
500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}
15
Bài tập theo nhóm
TID Items
1 {B,A,K}
2 {K, B,C,A}
3 {A,D,B}
4 {A,B,E}
5 {A,K,C}
6 {A,B,C}
7 {M,B,C}
8 {B,C,D}
9 {B,E}
10 {A,E,M}
11 {A,C,E,M}
12 {A,D,E}
• Thời gian : 10’
• Trình bày kết quả ra giấy
theo nhóm
•Yêu cầu:
1.Xây dựng cây FP từ CSDL
bên với minsupp = 25%
2.Nếu Minsupp = 40% thì cây
FP sẽ thay đổi như thế nào ?
16
Qui định trình bày bài nộp
Bài tập nộp theo nhóm
 Ngày nộp :

 Tên nhóm : ( chỉ ghi tên các thành
viên tham gia)
– Thành viên 1:
– Thành viên 2:
– Thành viên 3:
– …
– Thành viên 7:
 Nội dung :
17
B1 : Thiết lập cơ sở mẫu điều kiện
 Xây dng cơ s mu điu kin
(Conditional pattern base)
–Bắt đầu từ mẫu phổ biến cuối bảng
của cây FP
–Duyệt cây FP theo kết nối của mỗi
hạng mục phổ biến.
–Gom tất cả đường dẫn tiền tố biến
đổi (transformed prefix) của hạng
mục để tạo cơ sở mẫu điều kiện
18
VÍ DỤ 1: Thiết lập cơ sở mẫu điều
kiện
 Xây dng cơ s mu điu kin (Conditional pattern base)
– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mục p
– Duyệt cây FP theo kết nối của mỗi hng mc ph bin p.
– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng
mục p để tạo cơ sở mẫu điều kiện cho p
Cơ sở mẫu điều kiện
item cond. pattern base
p fcam:2, cb:1

{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
19
 Xây dng cơ s mu điu kin (Conditional pattern base)
– Tiếp tục vời mẫu phổ biến của cây FP : hạng mục m
– Duyệt cây FP theo kết nối của mỗi hng mc ph bin m
– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng
mục m để tạo cơ sở mẫu điều kiện cho m
{}
f:4 c:1
b:1
p:1
b:1c:3
a:3
b:1m:2
p:2 m:1

Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
Cơ sở mẫu điều kiện
item cond. pattern base
m fca:2, fcab:1
p fcam:2, cb:1
VÍ DỤ 1: Thiết lập cơ sở mẫu điều
kiện
20
 Xây dng cơ s mu điu kin (Conditional
pattern base)
– Tiếp tục với các mẫu phổ biến còn lại của cây
FP
Cơ sở mẫu điều kiện
item cond. pattern base
c f:3
a fc:3
b fca:1, f:1, c:1
m fca:2, fcab:1
p fcam:2, cb:1
{}
f:4 c:1
b:1
p:1

b:1c:3
a:3
b:1m:2
p:2 m:1
Header Table
Item frequency head
f 4
c 4
a 3
b 3
m 3
p 3
VÍ DỤ 1: Thiết lập cơ sở mẫu điều
kiện

×