Tải bản đầy đủ (.ppt) (18 trang)

Tổng quan về Khai phá dữ liệu Khai thác dữ liệu data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (171.84 KB, 18 trang )

Bài 1:
Tổng quan về khai phá dữ liệu
PGS. TS. Đỗ Phúc
Trường Đại học Công nghệ Thông tin, ĐHQG.HCM
Năm 2007

Khai phá dữ liệu

1


Khai phá dữ liệu
• Có sẵn khối dữ
liệu lớn:
– Các CSDL khổng lồ
– Dữ liệu từ Internet

Khai phá dữ liệu

2


Khai phá dữ liệu là gì ?
– Rút trích thông tin hữu ích, chưa biết, tiềm
ẩn trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn .

Khai phá dữ liệu

3




Khai phá dữ liệu là gì ?
• Thuật ngữ:
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD
– Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền xử
lý, KPDL, hậu xử lý .

Khai phá dữ liệu

4


Khai phá dữ liệu có ích lợi gì ?
Cung cấp tri thức hỗ trợ
ra quyêt định
Dự báo
Khái quát dữ liệu

Tiếp thị
CSDL Tiếp

Nhà kho dữ liệu

Khai phá dữ liệu

thị


KDD &
Data Mining

5


Các ứng dụng tiềm năng
• Phân tích dữ liệu, hỗ trợ ra quyết định
– Phân tích và quản lý thị trường
– Quản lý và phân tích rủi ro
– Quản lý và phân tích các sai hỏng

• Các ứng dụng khác:
– Khai thác Web
– Khai thác văn bản (text mining)
– etc.

Khai phá dữ liệu

6


Tiến trình khai phá dữ liệu(1)
Nghiên
êncứu
cứulĩnh
lĩnhvực
vực
Nghi
ạotập

tậpdữ
dữliệu
liệuđầu
đầuvào
vào
TTạo

Tiền
ềnxử
xửlý/
lý/làm
làmsạch,
sạch,mã
mã hóa
hóa
Ti
Rút
útgọn
gọn//chiều
chiều
R
Chọn
ọntác
tácvụ
vụKhai
Khaithác
thácdữ
dữliệu
liệu
Ch

Khai phá dữ liệu

7


Tiến trình khai phá dữ liệu(2)
Chọn
ọn các
các thuật
thuật giải
giải KTDL
KTDL
Ch
KTDL: TTìm
ìmkiếm
kiếmtri
trithức
thức
KTDL:
Đánhgiá
giámẫu
mẫutìm
tìmđược
được
Đánh

Biểu
ểu diễn
diễn tri
tri thức

thức
Bi
dụngcác
cáctri
trithức
thứcvừa
vừakhám
khámphá
phá
SSửửdụng
Khai phá dữ liệu

8


Tiến trình KDD tiêu biểu
Time
based
selection
n
ctio
e
l
Se

Input
Inputdata
data

1


Preprocessing

Cleaned
Verified
Focused

Raw
data
Operational
Operational
Database
Database

Data
Datamining
mining

Eval. of
interestingness
Postprocessing

2

Utilization
Utilization

Khai phá dữ liệu

n

ctio
e
l
Se

Results
Results

3

Selected
usable
patterns

9


Khai phá dữ liệu
Increasing potential
to support
business decisions

Making
Decisions

End User

Data Presentation
Visualization Techniques


Business
Analyst

Data Mining
Information Discovery

Data
Analyst

Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP

Khai phá dữ liệu

10


Từ dữ liệu đến quyết định
Quyết định
• Promote product A in region Z.

Tri thức

• Mail ads to families of profile P
• Cross-sell service B to clients C


• A quantity Y of product A is used in

region Z
• Customers of class Y use x% of C
during period D

Thông tin
• X lives in Z

Dữ liệu
• Customer data

• S is Y years old
• X and S moved
• W has money in Z

• Store data
• Demographical Data
• Geographical data

Khai phá dữ liệu

11


Các quan niệm về KPDL
• Các tiếp cận tổng quan:
– KPDL mô tả :
• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ

liệu
• Giải thích dữ liệu đó
– KPDL dự báo:
• Dựa trên dữ liệu quá khứ, dự báo tương lai
• Xu thế phát triển!

Khai phá dữ liệu

12


Các quan niệm về KTDL
• Quan niệm dựa trên …
– CSDL để khai thác
– Tri thức được khám phá
– Các kỹ thuật được sử dụng
– Các ứng dụng

Khai phá dữ liệu

13


Các quan niệm về KPDL
CSDLccần
ầnkhai
khaithác
thác
CSDL
Databases







Quan hệ
Giao tác
Huớng đối tượng
Huớng đối
tượng, quan hệ
• Active
• Không gian
• Thời gian
Khai phá dữ liệu









Text, XML
Multi-media
Heterogeneous
Legacy
Inductive
WWW

etc.
14


Các quan niệm về KPDL
ácvụ
vụkhai
khaithác
thác
TTác

Knowledge • Đặc trưng
=
• Phân biệt
task
• Kết hợp
• Phân lớp
• Gom cụm
• Xu thế
Khai phá dữ liệu

• Phân tích độ
lệch
• Phân tích hiếm
etc.

15


Các quan niệm KPDL

Các
áckỹ
kỹthuật
thuậtđã
đãsử
sửdụng
dụng
C

Techniques







CSDL
Nhà kho dữ liệu (OLAP)
Máy học
Thống kê
Trực quan hóa
Mạng nơron và thuật giải GA
....
Khai phá dữ liệu

16


Các quan niệm về KPDL

Các
ácứng
ứngdụng
dụng
C
Applic.

• Bán lẻ, siêu thị • Phân tích cổ
phiếu
• Ngân hàng
• Khai thác gen • KTDL Web
• Phân tích dữ
liệu

Khai phá dữ liệu

17


Kết luận



KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ
CSDL lớn
Các bước của KDD
– Tiền xử lý
– KTDL( data mining tasks)
– Hậu xử lý




Các quan niệm, khía cánh …






CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
Tri thức (đặc trưng, gom cụm, kết hợp, …)
Kỹ thuật (máy học, thống kê, trực quan hóa, …)
Ứng dụng (bán lẻ, điện thoại, khai thác Web …)

Khai phá dữ liệu

18



×