Tải bản đầy đủ (.pptx) (43 trang)

Isolated Items Discarding Strategy For Discovering High Utility Itemsets

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 43 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Khoa Công Nghệ Thông Tin
Isolated Items Discarding
Strategy For Discovering High
Utility Itemsets
ĐẶNG THỊ HẰNG
Giảng viên: PGS. TS Lê Hoài Bắc
TP. Hồ Chí Minh, 10/06/2015
Yu-Chiang Li, Jieh-Shan Yeh, Chin-Chen Chang
NỘI DUNG
1
1
Cơ sở lý thuyết
2
IIDS & thuật toán
3
Kết quả thử nghiệm
4
Kết luận và hướng phát triển
5
Bài toán
Bài Toán
2
Khai thác luật kết hợp: quan trọng
Mục như là một biến nhị phân: có hay không có trong một giao dịch
Mua các sản phẩm cùng nhau
Số lượng của một item nhiều hơn 1
Lợi nhuận hay giá trị của các item là khác nhau
Hamilton (2004) : khai thác tập mục hữu ích cao từ CSDL
Tạo quá nhiều ứng viên khi tìm HUI  Chi phí lớn


giảm ứng viên: sử dụng IIDS
Cơ Sở Lý Thuyết
3
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4
Cơ Sở Lý Thuyết
4
Định nghĩa 2.5: Giá trị hữu ích cục bộ (Local) của một itemset X trong
DB ký hiệu là là tổng của các giá trị hữu ích của itemset X trong .
Ví dụ: .


Cơ Sở Lý Thuyết
5
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4

Cơ Sở Lý Thuyết
6
Định nghĩa 3.1: Cho k-itemset X. Một superset của X (chứa X và xuất
hiện ít nhất trong một giao dịch nào đó của DB) với kích thước chứa
giao tác được ký hiệu là , với và .
Ví dụ: Cho hoặc , .
Cả và đều chứa X, có ba phần tử và xuất hiện trong T02 của DB.


Cơ Sở Lý Thuyết
7
Định lý 3.1: Cho là một -superset tùy ý của k-itemset X, với . Giả sử
rằng tồn tại một hàm dự đoán với mọi . Nếu thì không có superset của
X là hữu ích cao.
Với


IIDS & Thuật Toán
8
-
IIDS: một cách thức hiệu quả của việc thiết kế một hàm dự đoán.
-
Utility mining là dạng tổng quát của share mining (SH-mining)
-
Các thuật toán: ShFSM (Share-counted frequent sequence mining), DCG
(Direct Candidates Generation),…
-
Áp dụng IIDS  FUM (Fast Utility Mining), DCG+
ShFSM & FUM
IIDS & Thuật Toán

9
Input:
(1) DB: cơ sở dữ liệu giao tác có số lượng
(2) UT (utility table): bảng hữu ích
(3) minUtil: ngưỡng hữu ích nhỏ nhất
Output:
Tất cả các itemset hữu ích cao: HUI(DB)
IIDS & Thuật Toán
10
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4
minUtil = 30%
IIDS & Thuật Toán
11
= 30% * 122 = 36.6
{A, B, C, D, E, F, G, H};
foreach // duyệt DB
và //


Transaction T01 T02 T03 T04 T05 T06 Tutil(DB)
Transaction utility 21 24 30 19 17 11 122
IIDS & Thuật Toán

12
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4
minUtil = 30%
IIDS & Thuật Toán
13
.
Tính CF(X):


A B C D E F G H
36 68 10 18 20 8 8 4
IIDS & Thuật Toán
14
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4

minUtil = 30%
IIDS & Thuật Toán
15
k = 1 : ShFSM = : FUM
CF(A) = util(T01) + util(T02) + util(T03) + util(T05)
= 21 + 24 + 30 + 17 = 92


Transaction T01 T02 T03 T04 T05 T06 Tutil(DB)
Transaction utility 21 24 30 19 17 11 122
CF(A) CF(B) CF(C) CF(D) CF(E) CF(F) CF(G) CF(H)
92 68 105 68 54 43 21 21
IIDS & Thuật Toán
16
foreach // kiểm tra tất cả các ứng viên
if // hữu ích cao
;
if
; // xóa item không hữu ích
; // thêm item biệt lập
;//remaining candidate


IIDS & Thuật Toán
17
= 36.6

A B C D E F G H
36 18 10 18 20 8 8 4
CF(A) CF(B) CF(C) CF(D) CF(E) CF(F) CF(G) CF(H)

92 68 105 68 54 43 21 21
= {G, H}





IIDS & Thuật Toán
18
while // lượt kế tiếp
k++; ; ;
foreach // sử dụng để sinh
; // sinh ứng viên
foreach // quét DB
T và bằng cách loại bỏ ; //
foreach // kiểm tra tất cả các ứng viên
if // hữu ích cao
;
if
; // xóa itemset không hữu ích

Chỉ định rõ mà không có item xuất hiện trong
Return ;

IIDS & Thuật Toán
19

foreach // sử dụng để sinh
; // sinh ứng viên



: làm tiếp
K = k + 1 = ; ; ;

=>

foreach // quét DB
T và bằng cách loại bỏ ;
//

IIDS & Thuật Toán
20
TID Transaction Count
T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1}
T02 {A, C, E, F} {4, 3, 1, 2}
T03 {A, C, E} {4, 3, 3}
T04 {B, C, D, F} {4, 1, 2, 2}
T05 {A, B, D} {3, 1, 2}
T06 {B, C, D} {3, 2, 1}
Item A B C D E F G H
Profit ($) 3 2 1 3 5 2 8 4
minUtil = 30%
IIDS & Thuật Toán
21
ShFSM:
CF({A, B}) = Tutil ( = util(T01, T01) + util (T05, T05)
= 21 +17 = 38.


TID Transaction Count Isolated item Transaction utility

T01 {A, B, C, D} {1, 1, 1, 1, 1, 1} { G, H} 9
T02 {A, C, E, F} {4, 3, 1, 2} 24
T03 {A, C, E} {4, 3, 3} 30
T04 {B, C, D, F} {4, 1, 2, 2} 19
T05 {A, B, D} {3, 1, 2} 17
T06 {B, C, D} {3, 2, 1} 11
IIDS & Thuật Toán
22
FUM:

= util (T01 – {G, H}, T01 – {G, H}) + util (T05, T05)
= (21-12) + 17 = 9 + 17 = 26.
Vì CF({A,B}) < 36.6  không có một superset nào của {A, B} có giá trị
hữu ích cao.


IIDS & Thuật Toán
23
FUM:

= util (T01 – {G, H}, T01 – {G, H}) + util (T05, T05)
= (21-12) + 17 = 9 + 17 = 26.
Vì CF({A,B}) < 36.6  không có một superset nào của {A, B} có giá trị
hữu ích cao.


IIDS & Thuật Toán
24
AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF
38 75 38 54 24 51 68 0 19 51 54 43 0 19 24

ShFSM
FUM
AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF
26 63 26 54 24 39 56 0 19 39 54 43 0 19 24

×