Hoàng Linh - Lê Mai
Hoàng Linh - Lê Mai
1
1
Khai phá dữ liệu
Khai phá dữ liệu
Các thuật toán khai phá dữ
Các thuật toán khai phá dữ
liệu và ứng dụng
liệu và ứng dụng
Giáo viên hướng dẫn :
Giáo viên hướng dẫn :
PGS.TSKH Nguyễn Xuân Huy
PGS.TSKH Nguyễn Xuân Huy
Sinh viên thực hiện:
Sinh viên thực hiện:
Lê Thị Mai
Lê Thị Mai
Phạm Thị Hoàng Linh
Phạm Thị Hoàng Linh
Khai phá dữ liệu Hoàng Linh - Lê Mai 2
Nội dung
Nội dung
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quá trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 3
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 4
Quá trình phát hiện tri thức
Quá trình phát hiện tri thức
Hình thành
định và định nghĩa bài toán
Thu thập và
tiền xử lý dữ liệu
Khai phá dữ liệu,
rút ra kết luận
Phân tích và
kiểm định kết quả
Sử dụng các tri thức
phát hiện được.
Khai phá dữ liệu Hoàng Linh - Lê Mai 5
Quá trình phát hiện tri thức
Quá trình phát hiện tri thức
1. Hình thành, xác định và định nghĩa bài
toán.
2. Thu thập và tiền xử lý dữ liệu.
3. Khai phá dữ liệu, rút ra các tri thức.
4. Sử dụng các tri thức phát hiện được.
Khai phá dữ liệu Hoàng Linh - Lê Mai 6
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 7
Khái niệm khai phá dữ liệu
Khái niệm khai phá dữ liệu
Phát hiện ra các thông tin có giá trị
tiềm ẩn trong các tập dữ liệu lớn (các
kho dữ liệu).
Khai phá dữ liệu Hoàng Linh - Lê Mai 8
Phương pháp khai phá dữ liệu
Phương pháp khai phá dữ liệu
Phương pháp suy diễn
Phương pháp quy nạp
Phương pháp phát hiện các luật kết
hợp
Các phương pháp dựa trên mẫu
Khai phá dữ liệu Hoàng Linh - Lê Mai 9
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 10
Khái niệm về luật kết hợp
Khái niệm về luật kết hợp
Cho I = { I1,I2,…Im}.
Một giao dịch T (T⊆ I).
Gọi D là cơ sở dữ liệu bao gồm n giao dịch
T
∈
D hỗ trợ (support) cho một tập X ⊆ I nếu nó chứa tất cả các
khoản mục của X, nghĩa là X ⊆ T
Ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X.
Khai phá dữ liệu Hoàng Linh - Lê Mai 11
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Cho CSDL:
1- có mua sản phẩm; 0- không mua sản phẩm
Khoản mục
Khoản mục
Giao dịch
Giao dịch
Bánh
Bánh
mì
mì
Bơ
Bơ
Phomat
Phomat
Táo
Táo
Nho
Nho
T1
T1
1
1
1
1
0
0
1
1
0
0
T2
T2
1
1
0
0
1
1
1
1
0
0
T3
T3
0
0
1
1
1
1
1
1
0
0
T4
T4
1
1
0
0
1
1
1
1
1
1
Khai phá dữ liệu Hoàng Linh - Lê Mai 12
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Tập các khoản mục:
I = {Bánh mì, Bơ, Phomat, Táo, Nho}
D là CSDL bao gồm 4 giao dịch
D = {T1, T2, T3, T4}
Cho tập X = {Bánh mì, Phomat}
Các giao dịch không hỗ trợ cho X: T1, T3.
Các giao dịch hỗ trợ cho X: T2,T4.
Khai phá dữ liệu Hoàng Linh - Lê Mai 13
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Độ hỗ trợ của X được ký hiệu là
Support (X). Và Support (X) được tính
như sau:
= 2 / 4 = 1 / 2
Support (X) =
Support (X) =
Số lượng giao dịch hỗ trợ X
Số lượng giao dịch hỗ trợ X
Tổng số giao dịch
Tổng số giao dịch
Khai phá dữ liệu Hoàng Linh - Lê Mai 14
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
X
X
Support
Support
Bánh mì, Phomat
Bánh mì, Phomat
2/4 = 1/2
2/4 = 1/2
Bánh mì, Táo
Bánh mì, Táo
3/4
3/4
Táo, Nho
Táo, Nho
1/4
1/4
Táo
Táo
4/4 = 1
4/4 = 1
Bơ, Phomat,Bánh mì
Bơ, Phomat,Bánh mì
0/4 = 0
0/4 = 0
Khai phá dữ liệu Hoàng Linh - Lê Mai 15
Định nghĩa luật kết hợp
Định nghĩa luật kết hợp
Luật kết hợp có dạng X
⇒
Y, X, Y
⊂
I là
các tập mục gọi là itemsets, X được gọi là
tiền đề, Y là mệnh đề kết quả.
Độ hỗ trợ của luật X
⇒
Y có công thức :
Support(X) =
Support(X) =
Số lượng giao dịch hỗ trợ (X)
Số lượng giao dịch hỗ trợ (X)
Tổng số giao dịch D
Tổng số giao dịch D
Khai phá dữ liệu Hoàng Linh - Lê Mai 16
Định nghĩa luật kết hợp
Định nghĩa luật kết hợp
Độ tin cậy (Confidence) của luật X⇒Y
có công thức:
Các ngưỡng Minsup và mincof của độ
hỗ trợ và độ tin cậy do người dùng xác
định.
Support(X
Support(X
⇒
⇒
Y) =
Y) =
Số lượng giao dịch hỗ trợ (X
Số lượng giao dịch hỗ trợ (X
∪
∪
Y)
Y)
Số lượng giao dịch hỗ trợ X
Số lượng giao dịch hỗ trợ X
Khai phá dữ liệu Hoàng Linh - Lê Mai 17
Ví dụ về luật kết hợp:
Ví dụ về luật kết hợp:
Cho bảng cơ sở dữ liệu D như sau :
Mã số giao
Mã số giao
dịch
dịch
Các mặt
Các mặt
hàng
hàng
10
10
A,B,C
A,B,C
20
20
A,C
A,C
30
30
A,D
A,D
40
40
B,E,F
B,E,F
Khoản mục
Khoản mục
phổ biến
phổ biến
Độ hỗ trợ
Độ hỗ trợ
{A}
{A}
75%
75%
{B}
{B}
50%
50%
{C}
{C}
50%
50%
{A, C}
{A, C}
50%
50%
Khai phá dữ liệu Hoàng Linh - Lê Mai 18
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Luật kết hợp: A ⇒ C
Support = support ({A} ∩ {C}) = 50%
Cofidence = support({A}∩{C}) / support ({A})
= 66,6%.
Cho min_support = 50%, min_conf = 50% :
A ⇒ C (support = 50%, confidence = 66.6%)
C ⇒ A (support = 50%, confidence = 100%).
Khai phá dữ liệu Hoàng Linh - Lê Mai 19
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 20
Quy trình khai phá luật kết hợp
Quy trình khai phá luật kết hợp
Khai phá luật kết hợp trải qua 2 giai đoạn sau:
Khai phá tập các khoản mục thường xuyên.
Khai phá luật kết hợp.
Khai phá dữ liệu Hoàng Linh - Lê Mai 21
Quá trình phát hiện tri thức
Khái niệm,phương pháp khai phá dữ liệu
Khái niệm về luật kết hợp
Quy trình khai phá luật kết hợp
Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 22
Thuật toán Apriori
Thuật toán Apriori
Ý tưởng của thuật toán Apriori
Triển khai thuật toán Apriori
Cài đặt thuật toán Apriori
Giới hạn của Apriori
Ví dụ minh hoạ thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 23
Ý tưởng của thu
Ý tưởng của thu
ậ
ậ
t toán Apriori
t toán Apriori
Tạo ra các tập phổ biến (thường xuyên) có
1 item, rồi tiếp đến là 2 items, 3 items cho
đến khi chúng ta tạo ra tập phổ biến của
mọi kích thước.
Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ tin
cậy.
Tập k item được tạo ra từ tập k-1 items. Tạo danh sách các item
dự kiến của tập k items bằng cách hợp từng đôi một tập k-1
items có trong danh sách.
Khai phá dữ liệu Hoàng Linh - Lê Mai 24
Triển khai thuật toán
Triển khai thuật toán
Apriori
Apriori
Qua 2 bước:
Tạo tập item phổ biến: tạo tất cả các tập item
dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự
kiến không đạt minsup.
Tạo luật kết hợp: Từ các tập con của tập phổ
biến xây dựng luật kết hợp và tính độ tin cậy
của luật.
Khai phá dữ liệu Hoàng Linh - Lê Mai 25
Cài đặt thuật toán Apriori
Cài đặt thuật toán Apriori
Đầu tiên tính toán và kiểm tra tập 1 item
có là phổ biến không.
Lần duyệt thứ k: Sử dụng các tập Lk-1 của
tập k-1 item phổ biến được tìm thấy ở lần
duyệt thứ k-1 để tạo tập dự kiến Ck. Tiếp
theo duyệt CSDL và tính support cho Ck.
Tập hợp các tập k item Lk: là tập hợp của
các tập k_item phổ biến.