Tải bản đầy đủ (.pdf) (19 trang)

BÀI BÁO CÁO-Bài 2. Tiền xử lý dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (269.11 KB, 19 trang )

Bài 2. Tiền xử lý dữ liệu
Hồ Nhật Quang
BM Công nghệ phần mềm
Nội dung
 Mục đích
 Các giai đoạn của quá trình xử lý dữ liệu
 Các phương pháp xử lý dữ liệu lỗi
 Chuẩn hoá dữ liệu
 Trích chọn đặc tính
Mục đích
 Tăng tính hiệu quả của các thuật giải KPDL :
giảm số chiều dữ liệu, giảm kích thước dữ
liệu….
 Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp
với yêu cầu của thuật giải KPDL
 Dữ liệu sau khi xử lý là INPUT của thuật giải
KPDL
I. Các giai đoạn của quá trình XLDL
 Chuẩn bị dữ liệu : nhằm xác định các tham số đặc
tính, dò tìm lỗi bất thường của dữ liệu đầu vào
– Phân tích dữ liệu.
– Chuẩn hoá dữ liệu
 Trích chọn dữ liệu: trích chọn, rút gọn, chuyển đổi
các đặc tính, giảm về số chiều và tập giá trị của dữ
liệu…
– Trích chọn đặc tính
– Trích chọn giá trị


Các giai đoạn của quá trình KPTT



Các giai đoạn của quá trình KPDL
The KDD Process
Data organized by
function (accounting. etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate
noisy data
Transform
values
Select DM
method (s)
Create derived
attributes
Extract
knowledge
Find important

attributes &
value ranges
Test
knowledge
Refine
knowledge
Query & report generation
Aggregation & sequences
Advanced methods
Data warehousing
II.1. Phân tích dữ liệu
Quá trình xử lý dữ liệu

For each row in DataSer
If row is error then
Begin
Marked row
Delete Row | Replace Normal Value
End
EndFor

II.1.a. Phân tích dữ liệu - Các lỗi DL
 Mất giá trị (Missing Value)
 Sai kiểu dữ liệu: (Wrong Type data)
 Giá trị ko mong muốn: (Outlier ) dữ liệu có
những giá trị bất thường, (do giá trị đo của
các trường hợp rất đặc biệt, do lỗi của công
cụ đo lường,…). Lỗi này là lỗi khó phát hiện
nhất, gây ra các sai sót nghiêm trọng làm sai
lệch, giảm hiệu quả thực hiện các thuật toán

khai phá

II.2.b. Phân tích dữ liệu – Cách xử lý
 Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất
hiện nhiều nhất.
 Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất
hiện ít nhất.
 Dữ liệu được sinh ngẫu nhiên trong phạm vi cho
trước.
 Chỉ đích danh giá trị sẽ dùng để thay thế.
Riêng với kiểu dữ liệu số
 Giá trị Min
 Giá trị Max
 Lấy trung bình chung giá trị của đặc tính của các bộ
dữ liệu trong lân cận
Phân tích dữ liệu – Cách xử lý
 Dò tìm lỗi dữ liệu bất thường:
Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng
cách chỉ ra miền giá trị hợp lý của các đặc
tính trong bộ dữ liệu
Ví dụ : Tuổi của người : 0 – 130
Chiều cao của người: …
Màu da: …
II.2. Chuẩn hoá dữ liệu
 Định nghĩa:
Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao
cho phù hợp với đầu vào của các thuật toán
khai phá như: chuyển đối các giá trị kiểu ký
tự thành các giá trị kiểu số
 Các giá trị kiểu ký tự, kiểu thời gian… đều

phải được chuyển đổi về kiểu số trước khi
nạp vào đầu vào của thuật giải
II.2.b.Chuẩn hoá dữ liệu–Phương pháp
Một đặc tính có N giá trị khác nhau
 Mã hoá một trong N (One of N encoding): sử dụng
một tập gồm N các cột nguyên để chuẩn hoá,
low (0, 0, 1), mid (0, 1, 0), high (1,0,0)
 Mã hoá nhị phân (Binary encoding): chuẩn hoá
thành M cột nhị phân, với M l= [log2N].
low (0,0), mid (1,0), high (1,1)
 Mã hoá số nguyên (Numeric encoding): chuẩn hoá
thành một cột có giá trị nguyên, mỗi giá trị của cột
tương ứng với thứ tự của giá trị gốc có trong tập giá
trị ban đầu:
low (1), mid (2), high (3)
II.2.b.Chuẩn hoá dữ liệu–Quy chuẩn
SF = (SRmax-SRmin)/(Xmax-Xmin)
Xp = SRmin + (X-Xmin)* SF
Với X - Là giá trị thực, giá trị gốc ban đầu của cột
Xmin - Giá trị nhỏ nhất trong các bộ dữ liệu
Xmax - Giá trị lớn nhất trong các bộ dữ liệu
SRmin - Giá trị cận dưới của phạm vi cần co dãn
SRmax - Giá trị cận trên của phạm vi cần co dãn
SF - Hệ số co dãn
Xp - Giá trị sau khi thực hiện chuyển đổi co dãn theo
tỷ lệ
III. Trích chọn dữ liệu
 Mục đích: tăng tính hiệu quả của thuật giải,
không làm thay đổi độ chính xác của thuật
giải.

 Phân loại:
– Trích chọn đặc tính : cột dữ liệu
– Trích chọn bộ dữ liệu: hàng
– Trích chọn giá trị

III.1 Trích chọn đặc tính – Ý nghĩa
 Việc giảm số lượng đầu vào có thể các thuật toán sẽ
thực hiện nhanh hơn.
 Độ chính xác cao hơn do mô hình có khả năng khái
quát hoá tốt hơn từ dữ liệu .
 Kết quả của quá trinh KPDL đơn giản hơn, và như
vậy cũng dễ sử dụng và dễ hiểu hơn.
 Qua việc phân tích trích chọn có thể tại các lần thu
nhận dữ liệu lần sau, không phải thu nhận các dữ
liệu đã bị loại bỏ, các dữ liệu trùng lặp…
III. Trích chọn đặc tính – Phương pháp
 Các thuật toán xếp hạng đặc tính: các đặc tính sẽ
được đánh giá, ước lượng ‘độ quan trọng’ thông qua
việc sử dụng một hàm lượng giá nào đó.
– Việc ước lượng có thể thực hiện bằng nhiều cách thức
khác nhau như: tính chính xác của dữ liệu, tính nhất quán,
nội dung thông tin, khoảng cách giữa các mẫu, các thống
kê đặc tính…
– Các thuật toán thuộc lớp xếp hạng này không chỉ ra được
một tập con các đặc tính quan trọng là gì, mà chỉ mối quan
hệ của đặc tính với các đặc tính khác
III. Trích chọn đặc tính – Phương pháp
 Các thuật toán thuộc lớp tối thiểu hoá tập
con: chỉ đưa ra một tập con các đặc tính
‘quan trọng’, các đặc tính đã chọn lựa đều có

hạng như nhau, và chỉ liên quan đến tiến
trình tối thiểu hoá
III.2 Trích chọn giá trị - Kỹ thuật rời rạc
hoá đặc tính
 Chuyển đổi các giá trị về những khoảng giá
trị, và những khoảng giá trị đó lại được thay
thế bởi một giá trị khác,
 Số lượng các giá trị của đặc tính ban đầu chỉ
được quy về số các khoảng giá trị.
 Ví dụ, tuổi của người có thể quy về 5 khoảng
Child, Adolescent, Adult, Middle-age, Elderly
Q & A

×