Data Mining Concepts
LÊ VINH HIỆP 51001048
TRẦN ĐƯỜNG TÚ 51003857
Nội dung
•
Giới thiệu khai phá dữ liệu và khám phá tri thức
•
Mục tiêu của khám phá tri thức
•
Các kĩ thuật khai phá dữ liệu:
•
Association rules
•
Classification
•
Clustering
Dữ liệu và tri thức
•
Sự bùng nổ của dữ liệu:
•
Mạng xã hội, world wide web,…
•
Dữ liệu trong kinh doanh, khoa học, xã hội,…
•
Lên tới mức terabytes thậm chí petabytes.
•
Chúng ta có dữ liệu nhưng cần tri thức.
•
Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn.
Ứng dụng khai phá tri thức
•
Marketing:
•
Tự động phân loại khách hàng, hàng hóa, dịch vụ
•
Đưa ra chiến lược kinh doanh, quảng cáo
•
Tài chính:
•
Đánh giá hành vi sử dụng tài khoản tín dụng
•
Phân tích khả năng đầu tư
•
Y học:
•
Phân tích gene
Khai phá dữ liệu và kho dữ liệu
•
Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã
được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết
định
•
Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining)
để đưa ra một quyết định cụ thể nào đó.
•
Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu
Khai phá dữ liệu và khám phá tri thức
•
Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn
hơn là Khám phá tri thức (Knowledge discovery).
Mục tiêu của khai phá dữ liệu
•
Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng có
thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào
giỏ hàng.
•
Nhận diện: ví dụ nhận diện cấu trúc gene
•
Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng, phân
lớp họ
•
Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như thời
gian, không gian, nhân lực,…
Các kiểu tri thức
•
Không có cấu trúc:
•
Dạng các luật hoặc logic mệnh đề
•
Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá ta
có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi có
mức nguy cơ cao.
•
Có cấu trúc:
•
Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…
Các luật kết hợp
(Association rules)
Bài toán giỏ thị trường
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Association Rule – các khái niệm
•
Item (phần tử)?
•
Itemset (tập phần tử, gọi tắt là tập)?
•
K-Itemset
•
Transaction (giao dịch)?
•
Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1,
x2, ..., xn}, và Y = {y1, y2,..., ym} là những tập phần tử, với mọi xi, yj
là những phần tử khác nhau
•
LHS (left-hand side), RHS (right-hand side)
•
LHS RHS∪ = itemset
Association Rule - Các khái niệm
Support (độ hỗ trợ)
•
Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.
•
Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
Confidence (độ tin cậy)
•
Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất
hiện của một tập phần tử khác
•
Confidence = support(LHS RHS)/support(LHS)∪
•
Minimum confidence threshold (ngưỡng tin cậy tối thiểu).
•
Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.