Tải bản đầy đủ (.ppt) (25 trang)

Khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (514.92 KB, 25 trang )

Khai phá dữ liệu
(Data Mining)
Nguyễn Đình Thuân
UIT – VNU HCM

03/12/15

1


Nội dung môn học

12/03/15

11

Chương 1: Tổng quan về khai phá dữ liệu

2

Chương 2: Luật kết hợp

3

Chương 3: Dãy phổ biến

4

Chương 4: Phân lớp dữ liệu

5



Chương 5: Gom cụm dữ liệu

66

Giới thiệu 10 thuật toán hàng đầu của DataMining

www.lhu.edu.vn

2


Thông tin về môn học
Đánh giá

Phương pháp đánh giá

12/03/15

Trọng số[%]

Chuyên cần, bài tập trên lớp

10%

Thực hành, thí nghiệm

15%

Kiểm tra giữa kỳ


15%

Tiểu luận, báo cáo trên lớp

20%

Thi cuối học kỳ

40%
www.lhu.edu.vn

3


Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình + Slide Bài giảng Khai thác dữ liệu, ĐHQG
TPHCM, 2005.
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining,
IOIT, 2001.
3. Jiawei Han and Micheline Kamber, Data Mining Concepts and
Techniques, University of Illinois, Morgan Kaufmann Publishers, 2006.
4. X. Wu, V. Kumar, J. Ross Quinlan, ... Top 10 Algorithms in Data
Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.
5. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server
2005, Wiley Publishing, 2005.
12/03/15

www.lhu.edu.vn


4


Chương 1 Tổng quan
Các khái niệm cơ bản
Dữ liệu (Data): có thể xem là chuỗi các
bit, là số, ký tự…mà chúng ta thu thập
hàng ngày trong công việc.
Thông tin (Information): là tập hợp của
những dữ liệu đã được xử lý, dùng mô
tả, giải thích đặc tính của một đối
tượng nào đó.
Tri thức (Knowledge): là tập hợp
những thông tin có liên hệ với nhau,
được lập luận chặt chẽ hoặc được
thực nghiệm kiểm chứng quan nhiều
thế hệ. Tri thức thể hiện tư duy của con
người về một vấn đề.
12/03/15

www.lhu.edu.vn

5


Các khái niệm cơ bản

Khám phá tri thức từ cơ sở dữ liệu:
(Knowledge Discovery in Databases – KDD)
– “KDD is the automatic extraction of non-obvious,

hidden knowledge from large volumes of data.”
Fayyad, Platetsky-Shapiro, Smyth (1996)
– “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao
gồm nhiều công đoạn như: xác định vấn đề, tập hợp
và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết
quả, giải thích dữ liệu, áp dụng tri thức vào thực tế
– />
12/03/15

www.lhu.edu.vn

6


Tại sao phải khai phá dữ liệu ?

John Naisbitt (www.naisbitt.com/) in 1982:
“We are drowning in data, but starving for
knowlegde”.
Dữ liệu được thu thập hàng
ngày là rất lớn
– Các CSDL khổng lồ
– Dữ liệu từ Internet

Theo các báo cáo của IBM,
chỉ có 80% dữ liệu được
khai thác, 20% còn lại ẩn
trong các Database là những
tri thức quý giá
12/03/15


www.lhu.edu.vn

7


Khai phá dữ liệu là gì?

Khai phá dữ liệu (Datamining) là một bước
trong quy trình khám phá tri thức, nhằm:
– Rút trích thông tin hữu ích, chưa biết, tiềm ẩn
trong khối dữ liệu lớn
– Phân tích dữ liệu bán tự động
– Giải thích dữ liệu trên các tập dữ liệu lớn .

12/03/15

www.lhu.edu.vn

8


Lợi ích của khai phá dữ liệu

Giá trị

EDP
MIS
DSS


Số lượng
12/03/15

EDP: Electronic Data Processing
MIS: Management Information Systems
DSS: Decision Support Systems

www.lhu.edu.vn

9


Khai phá dữ liệu là gì ?
Thuật ngữ:
– Khai phá dữ liệu - Data mining
• KPDL là một buớc của tiến trình KDD
– Knowledge discovery in databases (KDD)
• Thuật ngữ tổng quát gồm các buớc như tiền
xử lý, KPDL, hậu xử lý .

10


Khai phá dữ liệu có ích lợi gì ?
•Cung cấp tri thức hỗ trợ
ra quyêt định
•Dự báo
•Khái quát dữ liệu

Tiếp thị

CSDL Tiếp

Nhà kho dữ liệu

thị

KDD &
Data Mining

11


Tiến trình khai phá dữ liệu(1)
Nghiên
êncứu
cứulĩnh
lĩnhvực
vực
Nghi
ạotập
tậpdữ
dữliệu
liệuđầu
đầuvào
vào
TTạo

Tiền
ềnxử
xửlý/

lý/làm
làmsạch,
sạch,mã
mã hóa
hóa
Ti
Rút
útgọn
gọn//chiều
chiều
R
Chọn
ọntác
tácvụ
vụKhai
Khaithác
thácdữ
dữliệu
liệu
Ch
12


Tiến trình khai phá dữ liệu(2)
Chọn
ọn các
các thuật
thuật giải
giải KTDL
KTDL

Ch
KTDL: TTìm
ìmkiếm
kiếmtri
trithức
thức
KTDL:
Đánhgiá
giámẫu
mẫutìm
tìmđược
được
Đánh

Biểu
ểu diễn
diễn tri
tri thức
thức
Bi
dụngcác
cáctri
trithức
thứcvừa
vừakhám
khámphá
phá
SSửửdụng
13



Tiến trình KDD tiêu biểu
Time
based
selection
n
ctio
e
l
Se

Input
Inputdata
data

1

Preprocessing

Cleaned
Verified
Focused

Raw
data
Operational
Operational
Database
Database


Data
Datamining
mining

2

Utilization
Utilization

Eval. of
interestingness
Postprocessing

n
ctio
e
l
Se

Results
Results

3

Selected
usable
patterns

14



Khai phá dữ liệu
Increasing potential
to support
business decisions

Making
Decisions

End User

Data Presentation
Visualization Techniques

Business
Analyst

Data Mining
Information Discovery

Data
Analyst

Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP

15


Từ dữ liệu đến quyết định
Quyết định
• Promote product A in region Z.

Tri thức

• Mail ads to families of profile P
• Cross-sell service B to clients C

• A quantity Y of product A is used in

region Z
• Customers of class Y use x% of C
during period D

Thông tin
• X lives in Z

Dữ liệu
• Customer data

• S is Y years old
• X and S moved
• W has money in Z

• Store data
• Demographical Data

• Geographical data

16


Các quan niệm về KPDL
Các tiếp cận tổng quan:
– KPDL mô tả :
• Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ
liệu
• Giải thích dữ liệu đó
– KPDL dự báo:
• Dựa trên dữ liệu quá khứ, dự báo tương lai
• Xu thế phát triển!

17


Các quan niệm về KTDL
Quan niệm dựa trên …
– CSDL để khai thác
– Tri thức được khám phá
– Các kỹ thuật được sử dụng
– Các ứng dụng

18


Các quan niệm về KPDL
CSDLccần

ầnkhai
khaithác
thác
CSDL
Quan hệ
Databases Giao tác
Huớng đối
tượng
Huớng đối
tượng, quan hệ
Active
Không gian
Thời gian

Text, XML
Multi-media
Heterogeneous
Legacy
Inductive
WWW
etc.
19


Các quan niệm về KPDL
ácvụ
vụkhai
khaithác
thác
TTác


Đặc trưng
Knowledge Phân biệt
=
task
Kết hợp
Phân lớp
Gom cụm
Xu thế

Phân tích độ
lệch
Phân tích hiếm
etc.

20


Các quan niệm KPDL
Các
áckỹ
kỹthuật
thuậtđã
đãsử
sửdụng
dụng
C
CSDL
TechniquesNhà kho dữ liệu (OLAP)
Máy học

Thống kê
Trực quan hóa
Mạng nơron và thuật giải GA
....
21


Các quan niệm về KPDL
Các
ácứng
ứngdụng
dụng
C
Bán lẻ, siêu thị
Applic. Ngân hàng
Khai thác gen

Phân tích cổ
phiếu
KTDL Web
Phân tích dữ
liệu

22


Các ứng dụng

Sản xuất


Kinh doanh
- Phân tích dữ liệu bán
hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Xác định gian lận

Khoa học

12/03/15

- Không gian
- Sinh học
- Địa lý
- etc.

- Điều khiển và lập lịch
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm

Y học
- Bệnh lý
- Sinh học
23

www.lhu.edu.vn


Các kỹ thuật sử dụng


Tìm các đặc trưng của lớp
các đối tượng và sử dụng
để phân lớp dữ liệu mới.

Gom cụm

Phân lớp
?

Dữ đoán dữ liệu tương
lai dựa trên dữ liệu quá
khứ.

Dự đoán

Mẫu tuần tự
12/03/15

Xác định các cụm
tiềm ẩn trong các
tập đối tượng chưa
được xếp lớp.

Tìm các mẫu phổ biến
từ dữ liệu và mối
quan hệ của các đối
tượng dữ liệu.

Luật kết hợp
Khám phá các

mẫu tín hiệu phổ
biến nhất từ dữ
liệu các sự kiện

Xác định trật tự dữ
liệu, cấu trúc lưu trữ
phù hợp với tác vụ
khai phá

Nhà kho- OLAP

24

www.lhu.edu.vn


Kết luận

KPDL: tiến trình khám phá bán tự động các
thông tin, mẫu có ích từ CSDL lớn
Các bước của KDD
– Tiền xử lý
– KTDL( data mining tasks)
– Hậu xử lý

Các quan niệm, khía cạnh …
– CSDL (quan hệ, hướng đối tượng, không gian,
WWW, …)

Tri thức (đặc trưng, gom cụm, kết hợp, …)

– Kỹ thuật (máy học, thống kê, trực quan hóa, …)
– Ứng dụng (bán lẻ, điện thoại, khai thác Web …)
12/03/15

25

www.lhu.edu.vn


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×