Bài 1:
Tổng quan về khai phá dữ liệu
PGS. TS. Đỗ Phúc
Trường Đại học Công nghệ Thông tin, ĐHQG.HCM
Năm 2007
Khai phá dữ liệu
1
Khai phá dữ liệu
• Có sẵn khối dữ
liệu lớn:
– Các CSDL khổng lồ
– Dữ liệu từ Internet
Khai phá dữ liệu
2
Khai phá dữ liệu là gì ?
– Rút trích thông tin hữu ích, chưa biết, tiềm
ẩn trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn .
Khai phá dữ liệu
3
Khai phá dữ liệu là gì ?
• Thuật ngữ:
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD
– Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền xử
lý, KPDL, hậu xử lý .
Khai phá dữ liệu
4
Khai phá dữ liệu có ích lợi gì ?
Cung cấp tri thức hỗ trợ
ra quyêt định
Dự báo
Khái quát dữ liệu
Tiếp thị
CSDL Tiếp
Nhà kho dữ liệu
Khai phá dữ liệu
thị
KDD &
Data Mining
5
Các ứng dụng tiềm năng
• Phân tích dữ liệu, hỗ trợ ra quyết định
– Phân tích và quản lý thị trường
– Quản lý và phân tích rủi ro
– Quản lý và phân tích các sai hỏng
• Các ứng dụng khác:
– Khai thác Web
– Khai thác văn bản (text mining)
– etc.
Khai phá dữ liệu
6
Tiến trình khai phá dữ liệu(1)
Nghiên
êncứu
cứulĩnh
lĩnhvực
vực
Nghi
ạotập
tậpdữ
dữliệu
liệuđầu
đầuvào
vào
TTạo
Tiền
ềnxử
xửlý/
lý/làm
làmsạch,
sạch,mã
mã hóa
hóa
Ti
Rút
útgọn
gọn//chiều
chiều
R
Chọn
ọntác
tácvụ
vụKhai
Khaithác
thácdữ
dữliệu
liệu
Ch
Khai phá dữ liệu
7
Tiến trình khai phá dữ liệu(2)
Chọn
ọn các
các thuật
thuật giải
giải KTDL
KTDL
Ch
KTDL: TTìm
ìmkiếm
kiếmtri
trithức
thức
KTDL:
Đánhgiá
giámẫu
mẫutìm
tìmđược
được
Đánh
Biểu
ểu diễn
diễn tri
tri thức
thức
Bi
dụngcác
cáctri
trithức
thứcvừa
vừakhám
khámphá
phá
SSửửdụng
Khai phá dữ liệu
8
Tiến trình KDD tiêu biểu
Time
based
selection
n
ctio
e
l
Se
Input
Inputdata
data
1
Preprocessing
Cleaned
Verified
Focused
Raw
data
Operational
Operational
Database
Database
Data
Datamining
mining
Eval. of
interestingness
Postprocessing
2
Utilization
Utilization
Khai phá dữ liệu
n
ctio
e
l
Se
Results
Results
3
Selected
usable
patterns
9
Khai phá dữ liệu
Increasing potential
to support
business decisions
Making
Decisions
End User
Data Presentation
Visualization Techniques
Business
Analyst
Data Mining
Information Discovery
Data
Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Khai phá dữ liệu
10
Từ dữ liệu đến quyết định
Quyết định
• Promote product A in region Z.
Tri thức
• Mail ads to families of profile P
• Cross-sell service B to clients C
• A quantity Y of product A is used in
region Z
• Customers of class Y use x% of C
during period D
Thông tin
• X lives in Z
Dữ liệu
• Customer data
• S is Y years old
• X and S moved
• W has money in Z
• Store data
• Demographical Data
• Geographical data
Khai phá dữ liệu
11
Các quan niệm về KPDL
• Các tiếp cận tổng quan:
– KPDL mô tả :
• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ
liệu
• Giải thích dữ liệu đó
– KPDL dự báo:
• Dựa trên dữ liệu quá khứ, dự báo tương lai
• Xu thế phát triển!
Khai phá dữ liệu
12
Các quan niệm về KTDL
• Quan niệm dựa trên …
– CSDL để khai thác
– Tri thức được khám phá
– Các kỹ thuật được sử dụng
– Các ứng dụng
Khai phá dữ liệu
13
Các quan niệm về KPDL
CSDLccần
ầnkhai
khaithác
thác
CSDL
Databases
•
•
•
•
Quan hệ
Giao tác
Huớng đối tượng
Huớng đối
tượng, quan hệ
• Active
• Không gian
• Thời gian
Khai phá dữ liệu
•
•
•
•
•
•
•
Text, XML
Multi-media
Heterogeneous
Legacy
Inductive
WWW
etc.
14
Các quan niệm về KPDL
ácvụ
vụkhai
khaithác
thác
TTác
Knowledge • Đặc trưng
=
• Phân biệt
task
• Kết hợp
• Phân lớp
• Gom cụm
• Xu thế
Khai phá dữ liệu
• Phân tích độ
lệch
• Phân tích hiếm
etc.
15
Các quan niệm KPDL
Các
áckỹ
kỹthuật
thuậtđã
đãsử
sửdụng
dụng
C
•
Techniques
•
•
•
•
•
•
CSDL
Nhà kho dữ liệu (OLAP)
Máy học
Thống kê
Trực quan hóa
Mạng nơron và thuật giải GA
....
Khai phá dữ liệu
16
Các quan niệm về KPDL
Các
ácứng
ứngdụng
dụng
C
Applic.
• Bán lẻ, siêu thị • Phân tích cổ
phiếu
• Ngân hàng
• Khai thác gen • KTDL Web
• Phân tích dữ
liệu
Khai phá dữ liệu
17
Kết luận
•
•
KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ
CSDL lớn
Các bước của KDD
– Tiền xử lý
– KTDL( data mining tasks)
– Hậu xử lý
•
Các quan niệm, khía cánh …
–
–
–
–
CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
Tri thức (đặc trưng, gom cụm, kết hợp, …)
Kỹ thuật (máy học, thống kê, trực quan hóa, …)
Ứng dụng (bán lẻ, điện thoại, khai thác Web …)
Khai phá dữ liệu
18