Tải bản đầy đủ (.ppt) (29 trang)

Các thuật toán khai phá dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (216.58 KB, 29 trang )

Hoàng Linh - Lê Mai
Hoàng Linh - Lê Mai
1
1
Khai phá dữ liệu
Khai phá dữ liệu
Các thuật toán khai phá dữ
Các thuật toán khai phá dữ
liệu và ứng dụng
liệu và ứng dụng


Giáo viên hướng dẫn :
Giáo viên hướng dẫn :


PGS.TSKH Nguyễn Xuân Huy
PGS.TSKH Nguyễn Xuân Huy
Sinh viên thực hiện:
Sinh viên thực hiện:


Lê Thị Mai
Lê Thị Mai


Phạm Thị Hoàng Linh
Phạm Thị Hoàng Linh


Khai phá dữ liệu Hoàng Linh - Lê Mai 2


Nội dung
Nội dung

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quá trình khai phá luật kết hợp

Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 3

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quy trình khai phá luật kết hợp

Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 4
Quá trình phát hiện tri thức
Quá trình phát hiện tri thức
Hình thành
định và định nghĩa bài toán
Thu thập và
tiền xử lý dữ liệu

Khai phá dữ liệu,
rút ra kết luận
Phân tích và
kiểm định kết quả
Sử dụng các tri thức
phát hiện được.
Khai phá dữ liệu Hoàng Linh - Lê Mai 5
Quá trình phát hiện tri thức
Quá trình phát hiện tri thức
1. Hình thành, xác định và định nghĩa bài
toán.
2. Thu thập và tiền xử lý dữ liệu.
3. Khai phá dữ liệu, rút ra các tri thức.
4. Sử dụng các tri thức phát hiện được.
Khai phá dữ liệu Hoàng Linh - Lê Mai 6

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quy trình khai phá luật kết hợp

Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 7
Khái niệm khai phá dữ liệu
Khái niệm khai phá dữ liệu
Phát hiện ra các thông tin có giá trị
tiềm ẩn trong các tập dữ liệu lớn (các

kho dữ liệu).

Khai phá dữ liệu Hoàng Linh - Lê Mai 8
Phương pháp khai phá dữ liệu
Phương pháp khai phá dữ liệu

Phương pháp suy diễn

Phương pháp quy nạp

Phương pháp phát hiện các luật kết
hợp

Các phương pháp dựa trên mẫu
Khai phá dữ liệu Hoàng Linh - Lê Mai 9

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quy trình khai phá luật kết hợp

Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 10
Khái niệm về luật kết hợp
Khái niệm về luật kết hợp
Cho I = { I1,I2,…Im}.
Một giao dịch T (T⊆ I).

Gọi D là cơ sở dữ liệu bao gồm n giao dịch
T

D hỗ trợ (support) cho một tập X ⊆ I nếu nó chứa tất cả các
khoản mục của X, nghĩa là X ⊆ T
Ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X.
Khai phá dữ liệu Hoàng Linh - Lê Mai 11
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Cho CSDL:
1- có mua sản phẩm; 0- không mua sản phẩm


Khoản mục
Khoản mục
Giao dịch
Giao dịch


Bánh
Bánh




Phomat
Phomat
Táo
Táo
Nho

Nho
T1
T1
1
1
1
1
0
0
1
1
0
0
T2
T2
1
1
0
0
1
1
1
1
0
0
T3
T3
0
0
1

1
1
1
1
1
0
0
T4
T4
1
1
0
0
1
1
1
1
1
1
Khai phá dữ liệu Hoàng Linh - Lê Mai 12
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Tập các khoản mục:
I = {Bánh mì, Bơ, Phomat, Táo, Nho}
D là CSDL bao gồm 4 giao dịch
D = {T1, T2, T3, T4}
Cho tập X = {Bánh mì, Phomat}
Các giao dịch không hỗ trợ cho X: T1, T3.
Các giao dịch hỗ trợ cho X: T2,T4.
Khai phá dữ liệu Hoàng Linh - Lê Mai 13

Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Độ hỗ trợ của X được ký hiệu là
Support (X). Và Support (X) được tính
như sau:

= 2 / 4 = 1 / 2
Support (X) =
Support (X) =
Số lượng giao dịch hỗ trợ X
Số lượng giao dịch hỗ trợ X
Tổng số giao dịch
Tổng số giao dịch
Khai phá dữ liệu Hoàng Linh - Lê Mai 14
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
X
X
Support
Support
Bánh mì, Phomat
Bánh mì, Phomat
2/4 = 1/2
2/4 = 1/2
Bánh mì, Táo
Bánh mì, Táo
3/4
3/4
Táo, Nho
Táo, Nho

1/4
1/4
Táo
Táo
4/4 = 1
4/4 = 1
Bơ, Phomat,Bánh mì
Bơ, Phomat,Bánh mì
0/4 = 0
0/4 = 0
Khai phá dữ liệu Hoàng Linh - Lê Mai 15
Định nghĩa luật kết hợp
Định nghĩa luật kết hợp

Luật kết hợp có dạng X

Y, X, Y

I là
các tập mục gọi là itemsets, X được gọi là
tiền đề, Y là mệnh đề kết quả.

Độ hỗ trợ của luật X

Y có công thức :
Support(X) =
Support(X) =
Số lượng giao dịch hỗ trợ (X)
Số lượng giao dịch hỗ trợ (X)
Tổng số giao dịch D

Tổng số giao dịch D
Khai phá dữ liệu Hoàng Linh - Lê Mai 16
Định nghĩa luật kết hợp
Định nghĩa luật kết hợp

Độ tin cậy (Confidence) của luật X⇒Y
có công thức:


Các ngưỡng Minsup và mincof của độ
hỗ trợ và độ tin cậy do người dùng xác
định.
Support(X
Support(X


Y) =
Y) =


Số lượng giao dịch hỗ trợ (X
Số lượng giao dịch hỗ trợ (X


Y)
Y)
Số lượng giao dịch hỗ trợ X
Số lượng giao dịch hỗ trợ X
Khai phá dữ liệu Hoàng Linh - Lê Mai 17
Ví dụ về luật kết hợp:

Ví dụ về luật kết hợp:
Cho bảng cơ sở dữ liệu D như sau :
Mã số giao
Mã số giao
dịch
dịch
Các mặt
Các mặt
hàng
hàng
10
10
A,B,C
A,B,C
20
20
A,C
A,C
30
30
A,D
A,D
40
40
B,E,F
B,E,F
Khoản mục
Khoản mục



phổ biến
phổ biến




Độ hỗ trợ
Độ hỗ trợ
{A}
{A}


75%
75%


{B}
{B}


50%
50%


{C}
{C}


50%
50%



{A, C}
{A, C}


50%
50%


Khai phá dữ liệu Hoàng Linh - Lê Mai 18
Ví dụ về luật kết hợp
Ví dụ về luật kết hợp
Luật kết hợp: A ⇒ C
Support = support ({A} ∩ {C}) = 50%
Cofidence = support({A}∩{C}) / support ({A})
= 66,6%.
Cho min_support = 50%, min_conf = 50% :
A ⇒ C (support = 50%, confidence = 66.6%)
C ⇒ A (support = 50%, confidence = 100%).
Khai phá dữ liệu Hoàng Linh - Lê Mai 19

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quy trình khai phá luật kết hợp


Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 20
Quy trình khai phá luật kết hợp
Quy trình khai phá luật kết hợp
Khai phá luật kết hợp trải qua 2 giai đoạn sau:

Khai phá tập các khoản mục thường xuyên.

Khai phá luật kết hợp.
Khai phá dữ liệu Hoàng Linh - Lê Mai 21

Quá trình phát hiện tri thức

Khái niệm,phương pháp khai phá dữ liệu

Khái niệm về luật kết hợp

Quy trình khai phá luật kết hợp

Thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 22
Thuật toán Apriori
Thuật toán Apriori

Ý tưởng của thuật toán Apriori

Triển khai thuật toán Apriori

Cài đặt thuật toán Apriori


Giới hạn của Apriori

Ví dụ minh hoạ thuật toán Apriori
Khai phá dữ liệu Hoàng Linh - Lê Mai 23
Ý tưởng của thu
Ý tưởng của thu


t toán Apriori
t toán Apriori

Tạo ra các tập phổ biến (thường xuyên) có
1 item, rồi tiếp đến là 2 items, 3 items cho
đến khi chúng ta tạo ra tập phổ biến của
mọi kích thước.

Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ tin
cậy.

Tập k item được tạo ra từ tập k-1 items. Tạo danh sách các item
dự kiến của tập k items bằng cách hợp từng đôi một tập k-1
items có trong danh sách.
Khai phá dữ liệu Hoàng Linh - Lê Mai 24
Triển khai thuật toán
Triển khai thuật toán
Apriori
Apriori
Qua 2 bước:

Tạo tập item phổ biến: tạo tất cả các tập item

dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự
kiến không đạt minsup.

Tạo luật kết hợp: Từ các tập con của tập phổ
biến xây dựng luật kết hợp và tính độ tin cậy
của luật.
Khai phá dữ liệu Hoàng Linh - Lê Mai 25
Cài đặt thuật toán Apriori
Cài đặt thuật toán Apriori

Đầu tiên tính toán và kiểm tra tập 1 item
có là phổ biến không.

Lần duyệt thứ k: Sử dụng các tập Lk-1 của
tập k-1 item phổ biến được tìm thấy ở lần
duyệt thứ k-1 để tạo tập dự kiến Ck. Tiếp
theo duyệt CSDL và tính support cho Ck.

Tập hợp các tập k item Lk: là tập hợp của
các tập k_item phổ biến.

×