Tải bản đầy đủ (.pptx) (31 trang)

Khai phá dữ liệu và khám phá tri thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.74 MB, 31 trang )

Data Mining Concepts
LÊ VINH HIỆP 51001048
TRẦN ĐƯỜNG TÚ 51003857
Nội dung

Giới thiệu khai phá dữ liệu và khám phá tri thức

Mục tiêu của khám phá tri thức

Các kĩ thuật khai phá dữ liệu:

Association rules

Classification

Clustering
Dữ liệu và tri thức

Sự bùng nổ của dữ liệu:

Mạng xã hội, world wide web,…

Dữ liệu trong kinh doanh, khoa học, xã hội,…

Lên tới mức terabytes thậm chí petabytes.

Chúng ta có dữ liệu nhưng cần tri thức.

Khai phá dữ liệu: khám phá tri thức từ kho dữ liệu rất lớn.
Ứng dụng khai phá tri thức


Marketing:

Tự động phân loại khách hàng, hàng hóa, dịch vụ

Đưa ra chiến lược kinh doanh, quảng cáo

Tài chính:

Đánh giá hành vi sử dụng tài khoản tín dụng

Phân tích khả năng đầu tư

Y học:

Phân tích gene
Khai phá dữ liệu và kho dữ liệu

Kho dữ liệu (data warehouse) là tập hợp những dữ liệu đã
được làm sạch, hướng chủ đề để hổ trợ khả năng ra quyết
định

Kho dữ liệu được kết hợp với khai phá dữ liệu (data mining)
để đưa ra một quyết định cụ thể nào đó.

Kho dữ liệu quyết định tính hiệu quả của khai phá dữ liệu
Khai phá dữ liệu và khám phá tri thức

Khai phá dữ liệu chỉ là một công đoạn trong một quá trình lớn
hơn là Khám phá tri thức (Knowledge discovery).
Mục tiêu của khai phá dữ liệu


Dự đoán: ví dụ dự đoán những mặt hàng mà một khách hàng có
thể sẽ quan tâm dựa trên những thứ mà người ấy đã cho vào
giỏ hàng.

Nhận diện: ví dụ nhận diện cấu trúc gene

Phân lớp: dựa vào thông tin sử dụng tài khoảng tín dụng, phân
lớp họ

Tối ưu: tối ưu lợi nhuận từ một tập giới hạn tài nguyên như thời
gian, không gian, nhân lực,…
Các kiểu tri thức

Không có cấu trúc:

Dạng các luật hoặc logic mệnh đề

Ví dụ từ một dữ liệu của một ngân hàng, sau quá trình khai phá ta
có kết quả: những tài khoản chưa kết hôn và nhỏ hơn 20 tuổi có
mức nguy cơ cao.

Có cấu trúc:

Dạng cây ra quyết định, mạng ngữ nghĩa, mạng neuron,…
Các luật kết hợp
(Association rules)
Bài toán giỏ thị trường
Click to edit Master text styles
Second level

Third level
Fourth level
Fifth level
Association Rule – các khái niệm

Item (phần tử)?

Itemset (tập phần tử, gọi tắt là tập)?

K-Itemset

Transaction (giao dịch)?

Một luật kết hợp (association rule) có dạng X => Y, nếu X = {x1,
x2, ..., xn}, và Y = {y1, y2,..., ym} là những tập phần tử, với mọi xi, yj
là những phần tử khác nhau

LHS (left-hand side), RHS (right-hand side)

LHS RHS∪ = itemset
Association Rule - Các khái niệm
Support (độ hỗ trợ)

Độ đo đo tần số xuất hiện của các phần tử/tập phần tử.

Minimum support threshold (ngưỡng hỗ trợ tối thiểu)
Confidence (độ tin cậy)

Độ đo đo tần số xuất hiện của một tập phần tử trong điều kiện xuất
hiện của một tập phần tử khác


Confidence = support(LHS RHS)/support(LHS)∪

Minimum confidence threshold (ngưỡng tin cậy tối thiểu).

Giá trị support , confidence nhỏ nhất được chỉ định bởi người dùng.

×