Chương 2: Các vấn đề tiền xử lý dữ liệu
1
Nội dung
Tổng quan về giai đoạn tiền xử lý dữ liệu
Tóm tắt mơ tả về dữ liệu
Làm sạch dữ liệu
Tích hợp dữ liệu
Biến đổi dữ liệu
Thu giảm dữ liệu
Rời rạc hóa dữ liệu
Tạo cây phân cấp ý niệm
Tóm tắt
2
Tổng quan về giai đoạn tiền xử lý dữ liệu
Giai đoạn tiền xử lý dữ liệu:
- Các kỹ thuật datamining đều thực hiện trên các cơ
sở dữ liệu, nguồn dữ liệu lớn. Đó là kết quả của quá
trình ghi chép liên tục thơng tin phản ánh hoạt động
của con người, các quá trình tự nhiên…
- Các dữ liệu lưu trữ hồn tồn là dưới dạng thơ,
chưa sẵn sàng cho việc phát hiện, khám phá thông
tin ẩn chứa trong đó. Do vậy chúng cần phải qua
giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất
kỳ một phân tích nào.
3
Tổng quan về giai đoạn tiền xử lý dữ liệu
Chất lượng dữ liệu (data quality)
- Tính chính xác (accuracy): giá trị được ghi nhận
đúng với giá trị thực.
- Tính hiện hành (currency/timeliness): giá trị được
ghi nhận không bị lỗi thời.
- Tính tồn vẹn (completeness): tất cả các giá trị
dành cho một biến/thuộc tính đều được ghi nhận.
- Tính nhất quán (consistency): tất cả giá trị dữ liệu
đều được biểu diễn như nhau trong tất cả các
trường hợp.
4
Tổng quan về giai đoạn tiền xử lý dữ liệu
Pattern Evaluation/
Presentation
Data Mining Patterns
Task-relevant Data
Data Warehouse Selection/Transformation
Data
Cleaning
Data Integration
Data Sources 5
Tổng quan về giai đoạn tiền xử lý dữ liệu
6
Tổng quan về giai đoạn tiền xử lý dữ liệu
Các kỹ thuật tiền xử lý dữ liệu
- Làm sạch dữ liệu (data cleaning/cleansing)
- Tích hợp dữ liệu (data integration)
- Biến đổi dữ liệu (data transformation)
- Thu giảm dữ liệu (data reduction)
7
Tóm tắt mơ tả về dữ liệu
Các kiểu dữ liệu
8
Tóm tắt mơ tả về dữ liệu
Xác định các thuộc tính (properties) tiêu biểu của dữ
liệu về xu hướng chính (central tendency) và sự phân
tán (dispersion) của dữ liệu
- Các độ đo về xu hướng chính: mean, median,
mode, midrange
- Các độ đo về sự phân tán: quartiles, interquartile
range (IQR), variance
Làm nổi bật các giá trị dữ liệu nên được xem như
nhiễu (noise) hoặc phần tử biên (outliers), cung cấp
cái nhìn tổng quan về dữ liệu
9
Tóm tắt mơ tả về dữ liệu
Các độ đo về xu hướng chính của dữ liệu
- Mean
- Weighted arithmetic mean
- Median xN /2 if N odd
Median
(xN /2 xN /21) / 2 if N even
- Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu
- Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất
trong tập dữ liệu
10
Tóm tắt mơ tả về dữ liệu
Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về
lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng
dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110
Tính giá trị trung bình của các lương trên?
11
Tóm tắt mơ tả về dữ liệu
Ví dụ: Median: Giả sử chúng ta có các giá trị sau về
lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng
dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110
Tính median của các lương trên?
- Dữ liệu trên được sắp xếp tăng dần, giá trị
middlemost là 52 và 56. Do vậy median=
(52+56)/2= 108/2= 54.
12
Tóm tắt mơ tả về dữ liệu
Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị
sau về lương (tính theo đơn vị nghìn đơla) theo thứ tự
tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110
Mode, Midrange của các lương trên?
Mode là $52,000 và $70,000
Midrange=
13
Tóm tắt mơ tả về dữ liệu
Các độ đo về sự phân tán của dữ liệu
- Quartiles
The first quartile (Q1): the 25th percentile
The second quartile (Q2): the 50th percentile (median)
The third quartile (Q3): the 75th percentile
- Interquartile Range (IQR) = Q3 – Q1
Outliers (the most extreme observations): giá trị nằm
cách trên Q3 hay dưới Q1 một khoảng 1.5xIQR
- Variance
14
Tóm tắt mơ tả về dữ liệu
Ví dụ: Q1, Q2, Q3, IRQ: Giả sử chúng ta có các giá trị
sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự
tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110
Q1= 47$, Q3=63$, IRQ= 63-47=16$
15
Tóm tắt mơ tả về dữ liệu
Ví dụ: Variance and standard deviation: Giả sử chúng
ta có các giá trị sau về lương (tính theo đơn vị nghìn
đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52,
52, 56, 60, 63, 70, 70, 110
16
Tóm tắt mơ tả về dữ liệu
Q1 Q2 Q3
Tóm tắt mơ tả về sự phân bố dữ liệu gồm năm trị số quan trọng:
median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự:
Minimum, Q1, Median, Q3, Maximum).
17
Tóm tắt mơ tả về dữ liệu Outliers
(the most
Boxplots và Outliers extreme
- Boxplot là cách để biểu observatio
diễn sự phân tán dữ liệu ns): giá
- Boxplot được biểu diễn trị nằm
bởi 5 giá trị Minimum, Q1, cách trên
Median, Q3, Maximum Q3 hay
như sau: dưới Q1
Chiều dài của box là một
interquartile range. khoảng
Median được đánh dấu bởi đường 1.5xIQR
gạch trong box.
Hai gạch ngoài box là
whiskers là the smallest
(Minimum) và largest
(Maximum)
18
Làm sạch dữ liệu (data cleaning/cleansing):
Thiếu giá trị
- Hãy xem xét một kho dữ liệu bán hàng và quản lý
khách hàng. Trong đó có thể có một hoặc nhiều giá
trị mà khó có thể thu thập được ví dụ như thu nhập
của khách hàng. Vậy làm cách nào để chúng ta có
được các thơng tin đó?
19
Làm sạch dữ liệu (data cleaning/cleansing):
Thiếu giá trị
- Hãy xem xét các phương pháp sau:
Bỏ qua các bộ
Điền vào các giá trị thiếu bằng tay
Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị
thiếu
Sử dụng các giá trị của các bộ cùng thể loại để thay thế
cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các
giá trị thiếu
20