Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Chương 2: Dữ liệu được khai phá
Cao Học Ngành Hệ Thống Thông Tin Quản Lý
Giáo trình điện tử
Biên soạn bởi: TS. Võ Thị Ngọc Châu
()
Học kỳ 2 – 2016-2017
1
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts
and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin
Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,
2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley &
Sons, Inc, 2006.
[7] Ian H.Witten, Frank Eibe, Mark A. Hall, “Data mining : practical
machine learning tools and techniques”, Third Edition, Elsevier Inc,
2011.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery
Handbook”, Second Edition, Springer Science + Business Media, LLC
2
2005, 2010.
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Dữ liệu được khai phá
Chương 3: Các vấn đề tiền xử lý dữ liệu
Chương 4: Các kỹ thuật khai phá dữ liệu
Hồi qui dữ liệu
Phân loại dữ liệu
Gom cụm dữ liệu
Luật kết hợp
Chương 5: Hệ trí tuệ kinh doanh
Chương 6: Khai phá dữ liệu và trí tuệ kinh doanh
với công nghệ cơ sở dữ liệu
Chương 7: Các đề tài nghiên cứu trong khai phá
dữ liệu và trí tuệ kinh doanh
Ôn tập
3
Chương 2: Dữ liệu được khai phá
2.1. Kiểu dữ liệu
2.2. Các độ đo khoảng cách trong khai phá dữ liệu
2.3. Vấn đề thu thập và chuẩn bị dữ liệu
2.4. Vấn đề chất lượng dữ liệu
2.5. Trực quan hóa dữ liệu
2.6. Tóm tắt
4
Tổng quan về quá trình khám phá tri thức
Dữ liệu được khai phá
Pattern Evaluation/
Presentation
Data Mining
Patterns
Task-relevant Data
Data Warehouse
Selection/Transformation
Data
Cleaning
Data Integration
Data Sources
5
2.1. Kiểu dữ liệu
Tính cấu trúc của dữ liệu
Việc lưu trữ của dữ liệu
Lượng dữ liệu
Các vấn đề cần xem xét cho dữ liệu
6
2.1. Kiểu dữ liệu
Tính
cấu trúc của dữ liệu
có cấu trúc
bán cấu trúc
phi cấu trúc
Dữ
liệu thực tế có thể bao gồm các
thành phần có các cấu trúc khác nhau.
7
2.1. Kiểu dữ liệu
Tính
cấu trúc của dữ liệu
Structured simple
Ví
Semi-structured complex
Ví
dụ: relational data
dụ: XML data
Un-structured complex
Ví
dụ: text data, multimedia data
8
2.1. Kiểu dữ liệu
Việc lưu trữ của dữ liệu
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ
đối tượng (object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho
dữ liệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian
(spatial databases), cơ sở dữ liệu thời gian (temporal
databases), cơ sở dữ liệu không thời gian (spatio-temporal
databases), cơ sở dữ liệu chuỗi thời gian (time series
databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ
liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
9
2.1. Kiểu dữ liệu
Lượng dữ liệu
Source: Wikipedia, p. petabyte, 2013.
10
2.1. Kiểu dữ liệu
Massive datasets
Twitter: > 7 terabytes per day
Facebook: 10 terabytes per day
Some enterprises: terabytes of data every hour
of every day of the year
Let’s
imagine data all over the world:
* 2000: 800000 petabytes
* 2020: 35 zettabytes
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5-6.
11
2.1. Kiểu dữ liệu
Massive datasets
Volume
How big is big?
Variety
How complex is
complex?
Velocity
How fast is fast?
Figure 1-1 IBM characterizes Big Data by its volume, velocity, and variety - or simply, V3.
Source: P. C. Zikopoulos, C. Eaton, D. deRoos, T. Deutsch, G. Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p. 5.
12
2.1. Kiểu dữ liệu
Các vấn đề cần xem xét cho dữ liệu
Các đặc trưng của dữ liệu
Vốn có
Rút trích
Xây dựng
Kiểu dữ liệu cho phần tính toán
Rời rạc/liên tục
Có thứ tự/không thứ tự
Sự thay đổi trong dữ liệu được khai phá
13
2.1. Kiểu dữ liệu
Sự
thay đổi trong dữ liệu được khai phá
Khả năng biến đổi theo thời gian
Không
biến đổi
Biến
đổi nhưng chỉ trạng thái hiện thời được
quan tâm
Biến
gian
đổi với các trạng thái khác nhau theo thời
Nguồn gốc: raw facts that enter the system
14
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Vấn đề kiểu dữ liệu/đối tượng được khai phá
Ma trận dữ liệu (data matrix)
x11
...
x
i1
...
x
n1
... x1f
... ...
...
xif
...
...
... xnf
... x1p
... ...
... xip
... ...
... xnp
-n đối tượng (objects)
-p biến/thuộc tính (variables/attributes)
15
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Vấn đề kiểu dữ liệu/đối tượng được khai phá
Ma trận sai biệt (dissimilarity matrix)
0
d(2,1)
0
d(3,1) d ( 3,2) 0
:
:
:
d ( n,1) d ( n,2) ... ... 0
d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
16
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Vấn đề kiểu dữ liệu/đối tượng được khai phá
d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính.
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
17
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Vấn đề kiểu dữ liệu/đối tượng được khai phá
Đối tượng vector (vector objects)
Đối tượng i và j được biểu diễn tương ứng bởi vector x và y.
Độ tương tự (similarity) giữa i và j được tính bởi độ đo
cosine:
x = (x1, …, xp)
y = (y1, …, yp)
s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2)1/2*(y12+ … + yp2)1/2)
18
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Vấn đề kiểu dữ liệu/đối tượng được khai phá
Interval-scaled variables/attributes
Binary variables/attributes
Categorical variables/attributes
Ordinal variables/attributes
Ratio-scaled variables/attributes
Variables/attributes of mixed types
19
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Interval-scaled variables/attributes
Mean absolute deviation
sf 1
n (| x1 f m f | | x2 f m f | ... | xnf m f |)
Mean
mf 1
n (x1 f x2 f
Z-score measurement
...
xnf )
.
xif m f
zif
sf
20
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Độ đo khoảng cách Minkowski
d (i, j) q (| x x |q | x x |q ... | x x |q )
i1
j1
i2
j2
ip
jp
Độ đo khoảng cách Manhattan
d (i, j) | x x | | x x | ... | x x |
i1 j1
i2 j 2
ip
jp
Độ đo khoảng cách Euclidean
d (i, j) (| x x |2 | x x |2 ... | x x |2 )
i1
j1
i2
j2
ip
jp
21
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Binary variables/attributes
Object j
1
0
1
a
b
0
c
d
Object i
sum a c b d
sum
a b
cd
p (= a + b + c + d)
Hệ số so trùng đơn giản (nếu symmetric):
d (i, j)
bc
a bc d
Hệ số so trùng Jaccard (nếu asymmetric):
d (i, j)
bc
a bc
22
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Binary variables/attributes
Ví dụ
Name
Jack
Mary
Jim
Gender
M
F
M
Fever
Y
Y
Y
Cough
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Test-3
N
P
N
Test-4
N
N
N
gender: symmetric
Binary attributes còn lại: asymmetric
Y, P 1, N 0
0 1
0.33
2 0 1
11
d ( Jack , Jim )
0.67
111
1 2
d ( Jim , Mary)
0.75
11 2
d ( Jack , Mary)
23
2.2. Các độ đo khoảng cách trong
khai phá dữ liệu
Variables/attributes of mixed types
Tổng quát
pf 1 ij( f ) dij( f )
d (i, j)
pf 1 ij( f )
Nếu xif hoặc xjf bị thiếu (missing) thì
f (variable/attribute): binary (nominal)
dij(f) = 0 if xif = xjf , or dij(f) = 1 otherwise
f : interval-scaled (Minkowski, Manhattan, Euclidean)
f : ordinal or ratio-scaled
r 1
tính ranks rif và zif M 1
zif trở thành interval-scaled
if
f
24
5.1. Tổng quan về gom cụm dữ liệu
R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, 16(3),
May 2005, pp. 645-678.
25