DM BI chapter 2 data

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 39 trang )

Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh

Chương 2: Dữ liệu được khai phá
Cao Học Ngành Hệ Thống Thông Tin Quản Lý
Giáo trình điện tử
Biên soạn bởi: TS. Võ Thị Ngọc Châu
()
Học kỳ 2 – 2016-2017

1

Tài liệu tham khảo













[1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts
and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.

[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin
Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,
2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley &
Sons, Inc, 2006.
[7] Ian H.Witten, Frank Eibe, Mark A. Hall, “Data mining : practical
machine learning tools and techniques”, Third Edition, Elsevier Inc,
2011.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery
Handbook”, Second Edition, Springer Science + Business Media, LLC
2
2005, 2010.

Nội dung






Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Dữ liệu được khai phá
Chương 3: Các vấn đề tiền xử lý dữ liệu

Chương 4: Các kỹ thuật khai phá dữ liệu











Hồi qui dữ liệu
Phân loại dữ liệu
Gom cụm dữ liệu
Luật kết hợp

Chương 5: Hệ trí tuệ kinh doanh
Chương 6: Khai phá dữ liệu và trí tuệ kinh doanh
với công nghệ cơ sở dữ liệu
Chương 7: Các đề tài nghiên cứu trong khai phá
dữ liệu và trí tuệ kinh doanh
Ôn tập

3

Chương 2: Dữ liệu được khai phá


2.1. Kiểu dữ liệu



2.2. Các độ đo khoảng cách trong khai phá dữ liệu



2.3. Vấn đề thu thập và chuẩn bị dữ liệu



2.4. Vấn đề chất lượng dữ liệu



2.5. Trực quan hóa dữ liệu



2.6. Tóm tắt

4

Tổng quan về quá trình khám phá tri thức
Dữ liệu được khai phá

Pattern Evaluation/
Presentation

Data Mining

Patterns

Task-relevant Data

Data Warehouse

Selection/Transformation

Data
Cleaning
Data Integration
Data Sources

5

2.1. Kiểu dữ liệu


Tính cấu trúc của dữ liệu



Việc lưu trữ của dữ liệu



Lượng dữ liệu



Các vấn đề cần xem xét cho dữ liệu

6

2.1. Kiểu dữ liệu
 Tính

cấu trúc của dữ liệu



có cấu trúc



bán cấu trúc



phi cấu trúc

 Dữ

liệu thực tế có thể bao gồm các

thành phần có các cấu trúc khác nhau.

7

2.1. Kiểu dữ liệu
 Tính


cấu trúc của dữ liệu

Structured  simple
 Ví



Semi-structured  complex
 Ví



dụ: relational data

dụ: XML data

Un-structured  complex
 Ví

dụ: text data, multimedia data
8

2.1. Kiểu dữ liệu


Việc lưu trữ của dữ liệu


Dữ liệu được lưu trữ











Các tập tin truyền thống (flat files)

Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ
đối tượng (object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho
dữ liệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian
(spatial databases), cơ sở dữ liệu thời gian (temporal
databases), cơ sở dữ liệu không thời gian (spatio-temporal
databases), cơ sở dữ liệu chuỗi thời gian (time series
databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ
liệu đa phương tiện (multimedia databases), …

Các kho thông tin: the World Wide Web, …

Dữ liệu tạm thời: các dòng dữ liệu (data streams)
9

2.1. Kiểu dữ liệu


Lượng dữ liệu

Source: Wikipedia, p. petabyte, 2013.

10

2.1. Kiểu dữ liệu


Massive datasets


Twitter: > 7 terabytes per day



Facebook: 10 terabytes per day



Some enterprises: terabytes of data every hour
of every day of the year

 Let’s

imagine data all over the world:

* 2000: 800000 petabytes

* 2020: 35 zettabytes
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5-6.

11

2.1. Kiểu dữ liệu


Massive datasets


Volume




How big is big?

Variety


How complex is
complex?



Velocity


How fast is fast?

Figure 1-1 IBM characterizes Big Data by its volume, velocity, and variety - or simply, V3.
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5.

12

2.1. Kiểu dữ liệu


Các vấn đề cần xem xét cho dữ liệu






Các đặc trưng của dữ liệu


Vốn có



Rút trích



Xây dựng

Kiểu dữ liệu cho phần tính toán


Rời rạc/liên tục



Có thứ tự/không thứ tự

Sự thay đổi trong dữ liệu được khai phá
13

2.1. Kiểu dữ liệu
 Sự



thay đổi trong dữ liệu được khai phá

Khả năng biến đổi theo thời gian
 Không

biến đổi

 Biến

đổi nhưng chỉ trạng thái hiện thời được
quan tâm

 Biến

gian



đổi với các trạng thái khác nhau theo thời

Nguồn gốc: raw facts that enter the system
14

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Ma trận dữ liệu (data matrix)
 x11

 ...
x
 i1
 ...
x
 n1

... x1f
... ...
...

xif

...

...

... xnf

... x1p 

... ... 
... xip 


... ... 
... xnp 


-n đối tượng (objects)
-p biến/thuộc tính (variables/attributes)
15

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Ma trận sai biệt (dissimilarity matrix)
 0

 d(2,1)

0


 d(3,1) d ( 3,2) 0



:
:

:


d ( n,1) d ( n,2) ... ... 0

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
16

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
d(i,j)  0
d(i,i) = 0
d(i,j) = d(j,i)

d(i,j)  d(i,k) + d(k,j)

17

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Đối tượng vector (vector objects)



Đối tượng i và j được biểu diễn tương ứng bởi vector x và y.
Độ tương tự (similarity) giữa i và j được tính bởi độ đo
cosine:

x = (x1, …, xp)

y = (y1, …, yp)
s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2)1/2*(y12+ … + yp2)1/2)
18

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Interval-scaled variables/attributes



Binary variables/attributes



Categorical variables/attributes



Ordinal variables/attributes



Ratio-scaled variables/attributes



Variables/attributes of mixed types
19

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Interval-scaled variables/attributes

Mean absolute deviation

sf  1
n (| x1 f  m f |  | x2 f  m f | ... | xnf  m f |)

Mean

mf  1
n (x1 f  x2 f

Z-score measurement

 ... 

xnf )

.

xif  m f
zif 
sf

20

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Độ đo khoảng cách Minkowski

d (i, j)  q (| x  x |q  | x  x |q ... | x  x |q )
i1
j1

i2
j2
ip
jp


Độ đo khoảng cách Manhattan

d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1
i2 j 2
ip
jp


Độ đo khoảng cách Euclidean

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1
j1
i2
j2
ip
jp
21

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Binary variables/attributes
Object j

1
0
1
a
b
0
c
d
Object i
sum a  c b  d

sum
a b
cd
p (= a + b + c + d)

Hệ số so trùng đơn giản (nếu symmetric):

d (i, j) 

bc
a bc  d

Hệ số so trùng Jaccard (nếu asymmetric):

d (i, j) 

bc
a bc
22

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Binary variables/attributes


Ví dụ

Name
Jack
Mary
Jim




Gender
M
F
M

Fever
Y

Y
Y

Cough
N
N
P

Test-1
P
P
N

Test-2
N
N
N

Test-3
N
P
N

Test-4
N
N
N

gender: symmetric
Binary attributes còn lại: asymmetric

Y, P  1, N  0

0 1
 0.33
2  0 1
11
d ( Jack , Jim ) 
 0.67
111
1 2
d ( Jim , Mary) 
 0.75
11 2
d ( Jack , Mary) 

23

2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Variables/attributes of mixed types


Tổng quát

 pf  1 ij( f ) dij( f )
d (i, j) 
 pf  1 ij( f )



Nếu xif hoặc xjf bị thiếu (missing) thì



f (variable/attribute): binary (nominal)
dij(f) = 0 if xif = xjf , or dij(f) = 1 otherwise



f : interval-scaled (Minkowski, Manhattan, Euclidean)



f : ordinal or ratio-scaled
r 1
 tính ranks rif và zif  M  1
 zif trở thành interval-scaled
if

f

24

5.1. Tổng quan về gom cụm dữ liệu

R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, 16(3),
May 2005, pp. 645-678.

DM BI chapter 2 data

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về