Tải bản đầy đủ (.ppt) (66 trang)

Bài giảng Khai phá luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (811.43 KB, 66 trang )

Chương 3: Khai phá luật kết hợp
Khai phá dữ liệu
(Data mining)

1


Nội dung


3.1. Tổng quan về khai phá luật kết hợp



3.2. Biểu diễn luật kết hợp



3.3. Khám phá các mẫu thường xuyên



3.4. Khám phá các luật kết hợp từ các mẫu
thường xuyên



3.5. Khám phá các luật kết hợp dựa trên ràng
buộc




3.6. Phân tích tương quan



3.7. Tóm tắt

2


3.0. Tình huống 1 – Market basket analysis

3


3.0. Tình huống 2 - Tiếp thị chéo

4


3.0. Tình huống 2 - Tiếp thị chéo

5


3.0. Tình huống …


Phân tích dữ liệu giỏ hàng (basket data
analysis)




Tiếp thị chéo (cross-marketing)



Thiết kế catalog (catalog design)



Phân loại dữ liệu (classification) và gom
cụm dữ liệu (clustering) với các mẫu phổ
biến




6


3.1. Tổng quan về khai phá luật kết hợp


Quá trình khai phá luật kết hợp



Các khái niệm cơ bản




Phân loại luật kết hợp

7


3.1. Tổng quan về khai phá luật kết hợp


Quá trình khai phá luật kết hợp
Preprocessing

Raw Data

Mining

Items of Interest

Relationship
s among
Items
(Rules)

Postprocessing

User

8



3.1. Tổng quan về khai phá luật kết hợp


Quá trình khai phá luật kết hợp
Preprocessing

Raw Data

Mining

Items of Interest

Transactional/
Relational Data

Items

Transaction
Items_bought
--------------------------------2000
A, B, C
1000
A, C
4000
A, D
5000
B, E, F



A, B, C, D, F,


Relationship
s among
Items
(Rules)

Postprocessing

User

Association
Rules

A → C (50%, 66.6%)


Bài toán phân tích giỏ thị trường

9


3.1. Tổng quan về khai phá luật kết hợp


Dữ liệu mẫu của AllElectronics (sau quá
trình tiền xử lý)

10



3.1. Tổng quan về khai phá luật kết hợp


Các khái niệm cơ bản


Item (phần tử)



Itemset (tập phần tử)



Transaction (giao dịch)



Association (sự kết hợp) và association rule (luật
kết hợp)



Support (độ hỗ trợ)



Confidence (độ tin cậy)




Frequent itemset (tập phần tử phổ biến/thường
xuyên)



Strong association rule (luật kết hợp mạnh)

11


3.1. Tổng quan về khai phá luật kết hợp


Dữ liệu mẫu của AllElectronics (sau quá
trình tiền xử lý)

Itemsets:
{I1, I2, I5},
{I2}, …

Item: I4

Transaction: T800
12


3.1. Tổng quan về khai phá luật kết hợp



Các khái niệm cơ bản






Item (phần tử)


Các phần tử, mẫu, đối tượng đang được quan tâm.



J = {I1, I2, …, Im}: tập tất cả m phần tử có thể có trong
tập dữ liệu

Itemset (tập phần tử)


Tập hợp các items



Một itemset có k items gọi là k-itemset.

Transaction (giao dịch)



Lần thực hiện tương tác với hệ thống (ví dụ: giao dịch
“khách hàng mua hàng”)



Liên hệ với một tập T gồm các phần tử được giao dịch

13


3.1. Tổng quan về khai phá luật kết hợp


Các khái niệm cơ bản


Association (sự kết hợp) và association rule (luật
kết hợp)


Sự kết hợp: các phần tử cùng xuất hiện với nhau trong
một hay nhiều giao dịch.
 Thể hiện mối liên hệ giữa các phần tử/các tập phần tử



Luật kết hợp: qui tắc kết hợp có điều kiện giữa các tập
phần tử.
 Thể hiện mối liên hệ (có điều kiện) giữa các tập phần tử

 Cho A và B là các tập phần tử, luật kết hợp giữa A và B là
A  B.


B xuất hiện trong điều kiện A xuất hiện.

14


3.1. Tổng quan về khai phá luật kết hợp


Các khái niệm cơ bản


Support (độ hỗ trợ)


Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.



Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
 Giá trị support nhỏ nhất được chỉ định bởi người dùng.



Confidence (độ tin cậy)



Độ đo đo tần số xuất hiện của một tập phần tử trong
điều kiện xuất hiện của một tập phần tử khác.



Minimum confidence threshold (ngưỡng tin cậy tối
thiểu)
 Giá trị confidence nhỏ nhất được chỉ định bởi người dùng.
15


3.1. Tổng quan về khai phá luật kết hợp


Các khái niệm cơ bản


Frequent itemset (tập phần tử phổ biến)


Tập phần tử có support thỏa minimum support threshold.



Cho A là một itemset
 A là frequent itemset iff support(A) >= minimum support
threshold.




Strong association rule (luật kết hợp mạnh)


Luật kết hợp có support và confidence thỏa minimum
support threshold và minimum confidence threshold.



Cho luật kết hợp AB giữa A và B, A và B là itemsets
 AB là strong association rule iff support(AB) >=
minimum support threshold và confidence(AB) >=
minimum confidence threshold.

16


3.1. Tổng quan về khai phá luật kết hợp


Phân loại luật kết hợp


Boolean association rule (luật kết hợp luận
lý)/quantitative association rule (luật kết hợp lượng
số)



Single-dimensional association rule (luật kết hợp
đơn chiều)/multidimensional association rule (luật

kết hợp đa chiều)



Single-level association rule (luật kết hợp đơn
mức)/multilevel association rule (luật kết hợp đa
mức)



Association rule (luật kết hợp)/correlation rule (luật
tương quan thống kê)
17


3.1. Tổng quan về khai phá luật kết hợp


Phân loại luật kết hợp


Boolean association rule (luật kết hợp luận
lý)/quantitative association rule (luật kết hợp
lượng số)


Boolean association rule: luật mô tả sự kết hợp giữa sự
hiện diện/vắng mặt của các phần tử.
 Computer  Financial_management_software
[support=2%, confidence=60%]




Quantitative association rule: luật mô tả sự kết hợp
giữa các phần tử/thuộc tính định lượng.
 Age(X, “30..39”) ∧ Income(X, “42K..48K”)  buys(X, high
resolution TV)

18


3.1. Tổng quan về khai phá luật kết hợp


Phân loại luật kết hợp


Single-dimensional association rule (luật kết hợp
đơn chiều)/multidimensional association rule (luật
kết hợp đa chiều)


Single-dimensional association rule: luật chỉ liên quan đến
các phần tử/thuộc tính của một chiều dữ liệu.
 Buys(X, “computer”)  Buys(X,
“financial_management_software”)



Multidimensional association rule: luật liên quan đến các

phần tử/thuộc tính của nhiều hơn một chiều.
 Age(X, “30..39”)  Buys(X, “computer”)
19


3.1. Tổng quan về khai phá luật kết hợp


Phân loại luật kết hợp


Single-level association rule (luật kết hợp đơn mức)
/multilevel association rule (luật kết hợp đa mức)


Single-level association rule: luật chỉ liên quan đến các phần
tử/thuộc tính ở một mức trừu tượng.
 Age(X, “30..39”)  Buys(X, “computer”)
 Age(X, “18..29”)  Buys(X, “camera”)



Multilevel association rule: luật liên quan đến các phần
tử/thuộc tính ở các mức trừu tượng khác nhau.
 Age(X, “30..39”)  Buys(X, “laptop computer”)
 Age(X, “30..39”)  Buys(X, “computer”)
20


3.1. Tổng quan về khai phá luật kết hợp



Phân loại luật kết hợp


Association rule (luật kết hợp)/correlation rule (luật
tương quan thống kê)


Association rule: strong association rules AB (association
rules đáp ứng yêu cầu minimum support threshold và
minimum confidence threshold).



Correlation rule: strong association rules A  B đáp ứng
yêu cầu về sự tương quan thống kê giữa A và B.

21


3.2. Biểu diễn luật kết hợp


Dạng luật: AB [support, confidence]


Cho trước minimum support threshold (min_sup),
minimum confidence threshold (min_conf)




A và B là các itemsets


Frequent itemsets/subsequences/substructures



Closed frequent itemsets



Maximal frequent itemsets



Constrained frequent itemsets



Approximate frequent itemsets



Top-k frequent itemsets
22


3.2. Biểu diễn luật kết hợp



Frequent
itemsets/subsequences/substructures


Itemset/subsequence/substructure X là frequent
nếu support(X) >= min_sup.


Itemsets: tập các items



Subsequences: chuỗi tuần tự các events/items



Substructures: các tiểu cấu trúc (graph, lattice, tree,
sequence, set, …)

23


3.2. Biểu diễn luật kết hợp


Closed frequent itemsets



Một itemset X closed trong J nếu không tồn tại tập
cha thực sự Y nào trong J có cùng support với X.






X ⊆ J, X closed iff ∀ Y ⊆ J và X ⊂ Y: support(Y) <> support
(X).

X là closed frequent itemset trong J nếu X là
frequent itemset và closed trong J.

Maximal frequent itemsets


Một itemset X là maximal frequent itemset trong J
nếu không tồn tại tập cha thực sự Y nào trong J là
một frequent itemset.


X ⊆ J, X là maximal frequent itemset iff ∀ Y ⊆ J và X ⊂ Y: Y
24
không phải là một frequent itemset.


3.2. Biểu diễn luật kết hợp



Constrained frequent itemsets




Approximate frequent itemsets




Frequent itemsets thỏa các ràng buộc do người
dùng định nghĩa.

Frequent itemsets dẫn ra support (xấp xỉ) cho
các frequent itemsets sẽ được khai phá.

Top-k frequent itemsets


Frequent itemsets có nhiều nhất k phần tử với k
do người dùng chỉ định.
25


×