CHƯƠNG 2: CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (555.24 KB, 20 trang )

Chương 2: Các vấn đề tiền xử lý dữ liệu

1

Nội dung

 Tổng quan về giai đoạn tiền xử lý dữ liệu
 Tóm tắt mơ tả về dữ liệu
 Làm sạch dữ liệu
 Tích hợp dữ liệu
 Biến đổi dữ liệu
 Thu giảm dữ liệu
 Rời rạc hóa dữ liệu
 Tạo cây phân cấp ý niệm
 Tóm tắt

2

Tổng quan về giai đoạn tiền xử lý dữ liệu

 Giai đoạn tiền xử lý dữ liệu:
- Các kỹ thuật datamining đều thực hiện trên các cơ
sở dữ liệu, nguồn dữ liệu lớn. Đó là kết quả của quá
trình ghi chép liên tục thơng tin phản ánh hoạt động
của con người, các quá trình tự nhiên…
- Các dữ liệu lưu trữ hồn tồn là dưới dạng thơ,
chưa sẵn sàng cho việc phát hiện, khám phá thông
tin ẩn chứa trong đó. Do vậy chúng cần phải qua
giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất
kỳ một phân tích nào.

3

Tổng quan về giai đoạn tiền xử lý dữ liệu

 Chất lượng dữ liệu (data quality)

- Tính chính xác (accuracy): giá trị được ghi nhận
đúng với giá trị thực.

- Tính hiện hành (currency/timeliness): giá trị được
ghi nhận không bị lỗi thời.

- Tính tồn vẹn (completeness): tất cả các giá trị
dành cho một biến/thuộc tính đều được ghi nhận.

- Tính nhất quán (consistency): tất cả giá trị dữ liệu
đều được biểu diễn như nhau trong tất cả các
trường hợp.

4

Tổng quan về giai đoạn tiền xử lý dữ liệu

Pattern Evaluation/
Presentation

Data Mining Patterns

Task-relevant Data

Data Warehouse Selection/Transformation

Data

Cleaning
Data Integration

Data Sources 5

Tổng quan về giai đoạn tiền xử lý dữ liệu

6

Tổng quan về giai đoạn tiền xử lý dữ liệu

 Các kỹ thuật tiền xử lý dữ liệu
- Làm sạch dữ liệu (data cleaning/cleansing)
- Tích hợp dữ liệu (data integration)
- Biến đổi dữ liệu (data transformation)
- Thu giảm dữ liệu (data reduction)

7

Tóm tắt mơ tả về dữ liệu

 Các kiểu dữ liệu

8

Tóm tắt mơ tả về dữ liệu

 Xác định các thuộc tính (properties) tiêu biểu của dữ
liệu về xu hướng chính (central tendency) và sự phân
tán (dispersion) của dữ liệu
- Các độ đo về xu hướng chính: mean, median,
mode, midrange
- Các độ đo về sự phân tán: quartiles, interquartile
range (IQR), variance

 Làm nổi bật các giá trị dữ liệu nên được xem như
nhiễu (noise) hoặc phần tử biên (outliers), cung cấp
cái nhìn tổng quan về dữ liệu

9

Tóm tắt mơ tả về dữ liệu

 Các độ đo về xu hướng chính của dữ liệu

- Mean

- Weighted arithmetic mean

- Median  xN /2 if N odd
Median  
(xN /2  xN /21) / 2 if N even

- Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu

- Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất

trong tập dữ liệu

10

Tóm tắt mơ tả về dữ liệu

 Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về
lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng
dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110

 Tính giá trị trung bình của các lương trên?

11

Tóm tắt mơ tả về dữ liệu

 Ví dụ: Median: Giả sử chúng ta có các giá trị sau về
lương (tính theo đơn vị nghìn đơla) theo thứ tự tăng
dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110

 Tính median của các lương trên?
- Dữ liệu trên được sắp xếp tăng dần, giá trị
middlemost là 52 và 56. Do vậy median=
(52+56)/2= 108/2= 54.

12

Tóm tắt mơ tả về dữ liệu

 Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị
sau về lương (tính theo đơn vị nghìn đơla) theo thứ tự
tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110

 Mode, Midrange của các lương trên?
 Mode là $52,000 và $70,000

 Midrange=

13

Tóm tắt mơ tả về dữ liệu

 Các độ đo về sự phân tán của dữ liệu
- Quartiles
 The first quartile (Q1): the 25th percentile
 The second quartile (Q2): the 50th percentile (median)
 The third quartile (Q3): the 75th percentile
- Interquartile Range (IQR) = Q3 – Q1
 Outliers (the most extreme observations): giá trị nằm
cách trên Q3 hay dưới Q1 một khoảng 1.5xIQR
- Variance

14

Tóm tắt mơ tả về dữ liệu

 Ví dụ: Q1, Q2, Q3, IRQ: Giả sử chúng ta có các giá trị

sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự
tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110

 Q1= 47$, Q3=63$, IRQ= 63-47=16$

15

Tóm tắt mơ tả về dữ liệu

 Ví dụ: Variance and standard deviation: Giả sử chúng
ta có các giá trị sau về lương (tính theo đơn vị nghìn
đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52,
52, 56, 60, 63, 70, 70, 110

16

Tóm tắt mơ tả về dữ liệu

Q1 Q2 Q3
Tóm tắt mơ tả về sự phân bố dữ liệu gồm năm trị số quan trọng:
median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự:
Minimum, Q1, Median, Q3, Maximum).

17

Tóm tắt mơ tả về dữ liệu Outliers
(the most
 Boxplots và Outliers extreme
- Boxplot là cách để biểu observatio

diễn sự phân tán dữ liệu ns): giá
- Boxplot được biểu diễn trị nằm
bởi 5 giá trị Minimum, Q1, cách trên
Median, Q3, Maximum Q3 hay
như sau: dưới Q1
Chiều dài của box là một
interquartile range. khoảng
Median được đánh dấu bởi đường 1.5xIQR
gạch trong box.
Hai gạch ngoài box là
whiskers là the smallest
(Minimum) và largest
(Maximum)

18

Làm sạch dữ liệu (data cleaning/cleansing):
 Thiếu giá trị

- Hãy xem xét một kho dữ liệu bán hàng và quản lý
khách hàng. Trong đó có thể có một hoặc nhiều giá
trị mà khó có thể thu thập được ví dụ như thu nhập
của khách hàng. Vậy làm cách nào để chúng ta có
được các thơng tin đó?

19

Làm sạch dữ liệu (data cleaning/cleansing):

 Thiếu giá trị

- Hãy xem xét các phương pháp sau:
 Bỏ qua các bộ
 Điền vào các giá trị thiếu bằng tay
 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị
thiếu
 Sử dụng các giá trị của các bộ cùng thể loại để thay thế
cho giá trị thiếu
 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các
giá trị thiếu

20

CHƯƠNG 2: CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về