Tải bản đầy đủ (.pdf) (39 trang)

DM BI chapter 2 data

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 39 trang )

Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh

Chương 2: Dữ liệu được khai phá
Cao Học Ngành Hệ Thống Thông Tin Quản Lý
Giáo trình điện tử
Biên soạn bởi: TS. Võ Thị Ngọc Châu
()
Học kỳ 2 – 2016-2017

1


Tài liệu tham khảo













[1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts
and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.


[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin
Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,
2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley &
Sons, Inc, 2006.
[7] Ian H.Witten, Frank Eibe, Mark A. Hall, “Data mining : practical
machine learning tools and techniques”, Third Edition, Elsevier Inc,
2011.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery
Handbook”, Second Edition, Springer Science + Business Media, LLC
2
2005, 2010.


Nội dung






Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Dữ liệu được khai phá
Chương 3: Các vấn đề tiền xử lý dữ liệu

Chương 4: Các kỹ thuật khai phá dữ liệu











Hồi qui dữ liệu
Phân loại dữ liệu
Gom cụm dữ liệu
Luật kết hợp

Chương 5: Hệ trí tuệ kinh doanh
Chương 6: Khai phá dữ liệu và trí tuệ kinh doanh
với công nghệ cơ sở dữ liệu
Chương 7: Các đề tài nghiên cứu trong khai phá
dữ liệu và trí tuệ kinh doanh
Ôn tập

3


Chương 2: Dữ liệu được khai phá



2.1. Kiểu dữ liệu



2.2. Các độ đo khoảng cách trong khai phá dữ liệu



2.3. Vấn đề thu thập và chuẩn bị dữ liệu



2.4. Vấn đề chất lượng dữ liệu



2.5. Trực quan hóa dữ liệu



2.6. Tóm tắt

4


Tổng quan về quá trình khám phá tri thức
Dữ liệu được khai phá

Pattern Evaluation/
Presentation

Data Mining

Patterns

Task-relevant Data

Data Warehouse

Selection/Transformation

Data
Cleaning
Data Integration
Data Sources

5


2.1. Kiểu dữ liệu


Tính cấu trúc của dữ liệu



Việc lưu trữ của dữ liệu



Lượng dữ liệu




Các vấn đề cần xem xét cho dữ liệu

6


2.1. Kiểu dữ liệu
 Tính

cấu trúc của dữ liệu



có cấu trúc



bán cấu trúc



phi cấu trúc

 Dữ

liệu thực tế có thể bao gồm các

thành phần có các cấu trúc khác nhau.

7


2.1. Kiểu dữ liệu
 Tính


cấu trúc của dữ liệu

Structured  simple
 Ví



Semi-structured  complex
 Ví



dụ: relational data

dụ: XML data

Un-structured  complex
 Ví

dụ: text data, multimedia data
8



2.1. Kiểu dữ liệu


Việc lưu trữ của dữ liệu


Dữ liệu được lưu trữ











Các tập tin truyền thống (flat files)

Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ
đối tượng (object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho
dữ liệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian
(spatial databases), cơ sở dữ liệu thời gian (temporal
databases), cơ sở dữ liệu không thời gian (spatio-temporal
databases), cơ sở dữ liệu chuỗi thời gian (time series
databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ
liệu đa phương tiện (multimedia databases), …


Các kho thông tin: the World Wide Web, …

Dữ liệu tạm thời: các dòng dữ liệu (data streams)
9


2.1. Kiểu dữ liệu


Lượng dữ liệu

Source: Wikipedia, p. petabyte, 2013.

10


2.1. Kiểu dữ liệu


Massive datasets


Twitter: > 7 terabytes per day



Facebook: 10 terabytes per day




Some enterprises: terabytes of data every hour
of every day of the year

 Let’s

imagine data all over the world:

* 2000: 800000 petabytes

* 2020: 35 zettabytes
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5-6.

11


2.1. Kiểu dữ liệu


Massive datasets


Volume




How big is big?


Variety


How complex is
complex?



Velocity


How fast is fast?

Figure 1-1 IBM characterizes Big Data by its volume, velocity, and variety - or simply, V3.
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5.

12


2.1. Kiểu dữ liệu


Các vấn đề cần xem xét cho dữ liệu







Các đặc trưng của dữ liệu


Vốn có



Rút trích



Xây dựng

Kiểu dữ liệu cho phần tính toán


Rời rạc/liên tục



Có thứ tự/không thứ tự

Sự thay đổi trong dữ liệu được khai phá
13


2.1. Kiểu dữ liệu
 Sự



thay đổi trong dữ liệu được khai phá

Khả năng biến đổi theo thời gian
 Không

biến đổi

 Biến

đổi nhưng chỉ trạng thái hiện thời được
quan tâm

 Biến

gian



đổi với các trạng thái khác nhau theo thời

Nguồn gốc: raw facts that enter the system
14


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu



Vấn đề kiểu dữ liệu/đối tượng được khai phá


Ma trận dữ liệu (data matrix)
 x11

 ...
x
 i1
 ...
x
 n1

... x1f
... ...
...

xif

...

...

... xnf

... x1p 

... ... 
... xip 


... ... 
... xnp 


-n đối tượng (objects)
-p biến/thuộc tính (variables/attributes)
15


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Ma trận sai biệt (dissimilarity matrix)
 0

 d(2,1)

0


 d(3,1) d ( 3,2) 0



:
:

:


d ( n,1) d ( n,2) ... ... 0

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
16


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
d(i,j)  0
d(i,i) = 0
d(i,j) = d(j,i)

d(i,j)  d(i,k) + d(k,j)

17


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu



Vấn đề kiểu dữ liệu/đối tượng được khai phá


Đối tượng vector (vector objects)



Đối tượng i và j được biểu diễn tương ứng bởi vector x và y.
Độ tương tự (similarity) giữa i và j được tính bởi độ đo
cosine:

x = (x1, …, xp)

y = (y1, …, yp)
s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2)1/2*(y12+ … + yp2)1/2)
18


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Vấn đề kiểu dữ liệu/đối tượng được khai phá


Interval-scaled variables/attributes




Binary variables/attributes



Categorical variables/attributes



Ordinal variables/attributes



Ratio-scaled variables/attributes



Variables/attributes of mixed types
19


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Interval-scaled variables/attributes

Mean absolute deviation

sf  1
n (| x1 f  m f |  | x2 f  m f | ... | xnf  m f |)


Mean

mf  1
n (x1 f  x2 f

Z-score measurement

 ... 

xnf )

.

xif  m f
zif 
sf

20


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Độ đo khoảng cách Minkowski

d (i, j)  q (| x  x |q  | x  x |q ... | x  x |q )
i1
j1

i2
j2
ip
jp


Độ đo khoảng cách Manhattan

d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1
i2 j 2
ip
jp


Độ đo khoảng cách Euclidean

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1
j1
i2
j2
ip
jp
21


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu



Binary variables/attributes
Object j

1
0
1
a
b
0
c
d
Object i
sum a  c b  d

sum
a b
cd
p (= a + b + c + d)

Hệ số so trùng đơn giản (nếu symmetric):

d (i, j) 

bc
a bc  d

Hệ số so trùng Jaccard (nếu asymmetric):

d (i, j) 


bc
a bc
22


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Binary variables/attributes


Ví dụ

Name
Jack
Mary
Jim




Gender
M
F
M

Fever
Y

Y
Y

Cough
N
N
P

Test-1
P
P
N

Test-2
N
N
N

Test-3
N
P
N

Test-4
N
N
N

gender: symmetric
Binary attributes còn lại: asymmetric

Y, P  1, N  0

0 1
 0.33
2  0 1
11
d ( Jack , Jim ) 
 0.67
111
1 2
d ( Jim , Mary) 
 0.75
11 2
d ( Jack , Mary) 

23


2.2. Các độ đo khoảng cách trong
khai phá dữ liệu


Variables/attributes of mixed types


Tổng quát

 pf  1 ij( f ) dij( f )
d (i, j) 
 pf  1 ij( f )



Nếu xif hoặc xjf bị thiếu (missing) thì



f (variable/attribute): binary (nominal)
dij(f) = 0 if xif = xjf , or dij(f) = 1 otherwise



f : interval-scaled (Minkowski, Manhattan, Euclidean)



f : ordinal or ratio-scaled
r 1
 tính ranks rif và zif  M  1
 zif trở thành interval-scaled
if

f

24


5.1. Tổng quan về gom cụm dữ liệu

R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, 16(3),
May 2005, pp. 645-678.


25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×