Khai phá dữ liệu thuật toán FP tree ĐH Bách Khoa HN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.67 MB, 34 trang )

Association rules
Luật kết hợp trong khai phá dữ liệu

Sinh viên thực hiện
Lê Việt Hà
Trần Tuấn Việt

Đề tài

Nội dung trình bày

 Bài toán thực tế.
 Các khái niệm cơ bản.
 Mô hình hóa.
 Giải thuật FP-Growth.

Bài toán thực tế

Bài toán thực tế

Bài toán thực tế

Các khái niệm cơ bản

 Ta có bảng dữ liệu sau
TID

Items

1

Bread, milk

2

Bread, diaper, beer, eggs

3

Milk, diaper, beer,coke

4

Bread, milk, diaper, beer

5

Bread, milk, diaper, coke

Các khái niệm cơ bản
 Phần tử (Item): Các phần tử, mẫu, đối tượng đang được quan tâm.
 Tập phần tử (Itemset )
 Tập hợp các phần tử.
 Một tập phần tử có k phần tử gọi là k-itemset.



Giao dịch(Transaction)

 Lần thực hiện tương tác với hệ thống
 Liên hệ với một tập T gồm các phần tử được giao dịch

Các khái niệm cơ bản
Association rule (luật kết hợp): Qui tắc kết hợp có điều kiện giữa các tập phần tử.
Cho X và Y là các tập phần tử thì luật kết hợp giữa X và Y kí hiệu là X->Y.

Vấn đề : Luật kết hợp nào thực sự có giá trị?

Các khái niệm cơ bản
 Độ hỗ trợ ( Support )
 S= σ (X) / |T|
 Độ hỗ trợ tối thiểu(minSup)
 Độ hỗ trợ nhỏ nhất được chỉ định bởi người dùng.

Tuy nhiên, giá trị hỗ trợ là không đủ.

Các khái niệm cơ bản
 Độ tin cậy (Confidence )
 Conf(X->Y)=P(Y/X)=sup(X ∪ Y)/sup(X).
 Ngưỡng tin cậy tối thiểu(MinConf)
 Độ tin cậy nhỏ nhất được chỉ định bởi người dùng.

Các khái niệm cơ bản
 Tập phần tử phổ biến( Frequent itemset)
 Cho A là một tập phần tử
 A là tập phần tử phổ biến nếu support(A) >= minSup

Các khái niệm cơ bản
 Ví dụ:

TID

Items

S=2/5=0,4

1

Bread, milk

C=2/3=0,67

2

Bread, diaper, beer, eggs

3

Milk, diaper, beer,coke

4

Bread, milk, diaper, beer

5

Bread, milk, diaper, coke

{Milk, diaper}

{Beer}

Các khái niệm cơ bản
 Các loại luật kết hợp
 Luật kết hợp luận lý/ Luật kết hợp lượng số
 Luật kết hợp đơn chiều/ Luật kết hợp đa chiều
 Luật kết hợp đơn mức/ Luật kết hợp đa mức
 Luật kết hợp/ Luật tương quan thống kê

Các khái niệm cơ bản
 Bài toán: Cho một tập các giá trị I, một CSDL giao dịch D, ngưỡng độ hỗ trợ
tối thiểu Minsup, ngưỡng độ tin cậy Mincof, tìm các luật kết hợp dạng
X ⇒ Y trên D thoả mãn điều kiện Support (X ⇒ Y) >= Minsup và Confdence
(X⇒Y) >= Mincof

Mô hình hóa
 Với bài toán ban đầu, ta có được bảng dữ liệu dưới đây.

MinSup= 50%
MinConf= 50%

ID

Mặt hàng

100

f,a,c,d,g,I,m,p

200

a,b,c,f,l,m,o

300

b,f,h,j,o,w

400

b,c,k,s,p

500

a,f,c,e,l,p,m,n

Mô hình hóa
 Khai phá luật kết hợp gồm có 2 bước chính:

 Tìm tập phổ biến: Tìm tât cả những tập phần tử có độ hỗ trợ lớn hơn MinSup
cho trước.
 Tìm luật kết hợp: Áp dụng thuật toán và sử dụng tập phổ biến để tìm luật kết
hợp có độ tin cậy lớn hơn MinConf .

Giải thuật FP-Growth

Giải thuật FP-Growth

 Ý tưởng của thuật toán :
 Nén một khối dữ liệu khổng lồ vào một cấu trúc cây( FP –tree).

 Quá trình khai phá chia thành các bước nhỏ
 Không tạo các tập dự tuyển .

Giải thuật FP-Growth
 Input : Bảng dữ liệu giao dịch
minSup (độ hỗ trợ tối thiểu)

 Output: các luật kết hợp dạng X-> Y

với X,Y là tập phần tử .

Giải thuật FP-Growth

 B1:Thiết lập FP tree
 B2: Thiết lập cơ sở mẫu điều kiện cho mỗi hạng mục phổ biến (mỗi nút trên
FP tree).

 B3:Thiết lập cây FP điều kiện (Conditional FP tree) từ mỗi cơ sở mẫu điều
kiện

 B4: Khai thác đệ qui Cond. FP tree và phát triển mẫu phổ biến cho đến khi
Cond FP tree chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của
mẫu phổ biến

Giải thuật FP-Growth
B1: Xây dựng FP tree:
ID

Mặt hàng

Mặt hàng phổ biến

100

f,a,c,d,g,I,m,p

f,c,a,m,p

200

a,b,c,f,l,m,o

f,c,a,b,m

300

b,f,h,j,o,w

f,b

400

b,c,k,s,p

c,b,p

500

a,f,c,e,l,p,m,n

f,c,a,m,p

Giải thuật FP-Growth
B1: Xây dựng FP tree:

Min sup = 3
{}

Bảng
Item