Association rules
Luật kết hợp trong khai phá dữ liệu
Sinh viên thực hiện
Lê Việt Hà
Trần Tuấn Việt
Đề tài
Nội dung trình bày
Bài toán thực tế.
Các khái niệm cơ bản.
Mô hình hóa.
Giải thuật FP-Growth.
Bài toán thực tế
Bài toán thực tế
Bài toán thực tế
Các khái niệm cơ bản
Ta có bảng dữ liệu sau
TID
Items
1
Bread, milk
2
Bread, diaper, beer, eggs
3
Milk, diaper, beer,coke
4
Bread, milk, diaper, beer
5
Bread, milk, diaper, coke
Các khái niệm cơ bản
Phần tử (Item): Các phần tử, mẫu, đối tượng đang được quan tâm.
Tập phần tử (Itemset )
Tập hợp các phần tử.
Một tập phần tử có k phần tử gọi là k-itemset.
Giao dịch(Transaction)
Lần thực hiện tương tác với hệ thống
Liên hệ với một tập T gồm các phần tử được giao dịch
Các khái niệm cơ bản
Association rule (luật kết hợp): Qui tắc kết hợp có điều kiện giữa các tập phần tử.
Cho X và Y là các tập phần tử thì luật kết hợp giữa X và Y kí hiệu là X->Y.
Vấn đề : Luật kết hợp nào thực sự có giá trị?
Các khái niệm cơ bản
Độ hỗ trợ ( Support )
S= σ (X) / |T|
Độ hỗ trợ tối thiểu(minSup)
Độ hỗ trợ nhỏ nhất được chỉ định bởi người dùng.
Tuy nhiên, giá trị hỗ trợ là không đủ.
Các khái niệm cơ bản
Độ tin cậy (Confidence )
Conf(X->Y)=P(Y/X)=sup(X ∪ Y)/sup(X).
Ngưỡng tin cậy tối thiểu(MinConf)
Độ tin cậy nhỏ nhất được chỉ định bởi người dùng.
Các khái niệm cơ bản
Tập phần tử phổ biến( Frequent itemset)
Cho A là một tập phần tử
A là tập phần tử phổ biến nếu support(A) >= minSup
Các khái niệm cơ bản
Ví dụ:
TID
Items
S=2/5=0,4
1
Bread, milk
C=2/3=0,67
2
Bread, diaper, beer, eggs
3
Milk, diaper, beer,coke
4
Bread, milk, diaper, beer
5
Bread, milk, diaper, coke
{Milk, diaper}
{Beer}
Các khái niệm cơ bản
Các loại luật kết hợp
Luật kết hợp luận lý/ Luật kết hợp lượng số
Luật kết hợp đơn chiều/ Luật kết hợp đa chiều
Luật kết hợp đơn mức/ Luật kết hợp đa mức
Luật kết hợp/ Luật tương quan thống kê
Các khái niệm cơ bản
Bài toán: Cho một tập các giá trị I, một CSDL giao dịch D, ngưỡng độ hỗ trợ
tối thiểu Minsup, ngưỡng độ tin cậy Mincof, tìm các luật kết hợp dạng
X ⇒ Y trên D thoả mãn điều kiện Support (X ⇒ Y) >= Minsup và Confdence
(X⇒Y) >= Mincof
Mô hình hóa
Với bài toán ban đầu, ta có được bảng dữ liệu dưới đây.
MinSup= 50%
MinConf= 50%
ID
Mặt hàng
100
f,a,c,d,g,I,m,p
200
a,b,c,f,l,m,o
300
b,f,h,j,o,w
400
b,c,k,s,p
500
a,f,c,e,l,p,m,n
Mô hình hóa
Khai phá luật kết hợp gồm có 2 bước chính:
Tìm tập phổ biến: Tìm tât cả những tập phần tử có độ hỗ trợ lớn hơn MinSup
cho trước.
Tìm luật kết hợp: Áp dụng thuật toán và sử dụng tập phổ biến để tìm luật kết
hợp có độ tin cậy lớn hơn MinConf .
Giải thuật FP-Growth
Giải thuật FP-Growth
Ý tưởng của thuật toán :
Nén một khối dữ liệu khổng lồ vào một cấu trúc cây( FP –tree).
Quá trình khai phá chia thành các bước nhỏ
Không tạo các tập dự tuyển .
Giải thuật FP-Growth
Input : Bảng dữ liệu giao dịch
minSup (độ hỗ trợ tối thiểu)
Output: các luật kết hợp dạng X-> Y
với X,Y là tập phần tử .
Giải thuật FP-Growth
B1:Thiết lập FP tree
B2: Thiết lập cơ sở mẫu điều kiện cho mỗi hạng mục phổ biến (mỗi nút trên
FP tree).
B3:Thiết lập cây FP điều kiện (Conditional FP tree) từ mỗi cơ sở mẫu điều
kiện
B4: Khai thác đệ qui Cond. FP tree và phát triển mẫu phổ biến cho đến khi
Cond FP tree chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của
mẫu phổ biến
Giải thuật FP-Growth
B1: Xây dựng FP tree:
ID
Mặt hàng
Mặt hàng phổ biến
100
f,a,c,d,g,I,m,p
f,c,a,m,p
200
a,b,c,f,l,m,o
f,c,a,b,m
300
b,f,h,j,o,w
f,b
400
b,c,k,s,p
c,b,p
500
a,f,c,e,l,p,m,n
f,c,a,m,p
Giải thuật FP-Growth
B1: Xây dựng FP tree:
Min sup = 3
{}
Bảng
Item
f:1
Tần số
f
4
c
4
a
3
b
3
m
3
p
3
c:1
a:1
m:1
p:1
Giải thuật FP-Growth
{}
Bảng
Item Frequency Head
f
4
c
4
a
3
b
3
m
3
p
3
f:2
c:2
a:2
m:1
p:1
b:1
m:1
Giải thuật FP-Growth
{}
Bảng
Item Frequency Head
f
4
c
4
a
3
b
3
m
3
p
3
f:3
c:2
b:1
a:2
m:1
p:1
b:1
m:1
Giải thuật FP-Growth
{}
Bảng
Item Frequency Head
f
4
c
4
a
3
b
3
m
3
p
3
f:3
c:2
c:1
b:1
a:2
m:1
p:1
b:1
p:1
b:1
m:1