Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 31

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (830.97 KB, 27 trang )

.c
om
ng
co

ng

th

an

Chương 4
cu

u

du
o

Khai phá dữ liệu

1
CuuDuongThanCong.com

/>
1

.c
om

Nội dung
Tiền xử lý dữ liệu.

2.

Phương pháp khai phá bằng luật kết hợp.

3.

Phương pháp cây quyết định.

4.

Các phương pháp phân cụm.

5.

Các phương pháp khai phá dữ liệu phức tạp.

cu

u

du
o

ng

th

an

co

ng

1.

CuuDuongThanCong.com

/>
2

u

du
o

ng

th

an

co

ng

Phân lớp dữ liệu (Classification):

cu



.c
om

Phân lớp dữ liệu

CuuDuongThanCong.com

/>
3

Phân lớp dữ liệu (Classification) là quá trình

ng



.c
om

Phân lớp dữ liệu

co

phân chia các đối tượng dữ liệu cào các lớp cho

th

Bước học: giai đoạn huấn luyện (training). Giai

du
o



ng

Gồm hai bước:

u

đoạn này thường áp dụng các giải thuật học có

cu



an

trước.

giám sát (supervised learning)


Bước phân loại: Phân dữ liệu mới vào các lớp đã

biết.
CuuDuongThanCong.com

/>
4

Một số giải thuật dùng trong phân loại dữ liệu:

du
o

ng

th

an

co

ng

Mạng neural (Neural Network),

u



cu



.c
om

Phân lớp dữ liệu

CuuDuongThanCong.com

/>
5

Một số giải thuật dùng trong phân loại dữ liệu:

co

ng

Mạng Bayesian (dạng đơn giản là Naïve Bayes).



du
o

ng

th

an

P( X | H ) P( H )
P( H | X ) 
P( X )
Trong đó: P(H), P(X|H), P(H) có thể được tính

u



từ tập dữ liệu cho trước,

cu



.c
om

Phân lớp dữ liệu



P(H|X) được tính từ định lý Bayes.

CuuDuongThanCong.com

/>

6

Một số giải thuật dùng trong phân loại dữ liệu:

an

co

ng

Cây quyết định (decision tree),

ng

th

A

?

a1

a2

du
o

?

u



cu



.c
om

Phân lớp dữ liệu

?
b1
CuuDuongThanCong.com

?
an

?
bn
/>
7

Cây quyết định (decision tree)

Là một mơ hình phân lớp điển hình.



Node trong: Kiểm thử một thuộc tính,



Node lá: Mơ tả một lớp



Nhánh (từ một node trong): Kết quả của một

du
o

ng

th

an

co

ng





u

phép thử trên thuộc tính tương ứng.
Có thể chuyển mơ hình cây quyết định sang mơ

cu



.c
om

Cây quyết định

hình luật phân lớp: Đi từ node gốc tới node lá,
mỗi đường đi tương ứng với một luật phân lớp.
CuuDuongThanCong.com

/>
8

cu

u

du
o

ng

th

an

co

ng

.c
om

Cây quyết định

CuuDuongThanCong.com

/>
9

cu

u

du
o

ng

th

an

co

ng

.c
om

Cây quyết định

CuuDuongThanCong.com

/>
10

Các độ đo dùng trong phân lớp bằng cây quyết

co

Entropy: Entropy dùng trong thông tin là một khái

an



ng

định:

th

niệm mở rộng của entropy trong Nhiệt động lực học

du
o

ng

và Cơ học thống kê. Entropy mơ tả mức độ hỗn loạn

u

trong một tín hiệu lấy từ một sự kiện ngẫu nhiên.

cu



.c
om

Cây quyết định

Trong đó: pi là xác suất xuất hiện một thơng tin trong
tập dữ liệu.

CuuDuongThanCong.com

/>
11

Các độ đo dùng trong phân lớp bằng cây quyết

co

an

Gini Index: Độ đo về độ không tinh khiết của thông

du
o

ng

th

tin.

u



ng

định:

cu



.c
om

Cây quyết định

CuuDuongThanCong.com

/>
12

Các độ đo dùng trong phân lớp bằng cây quyết

an

co

Information Gain (Độ lợi thông tin): Là độ sai biệt

th

giữa trị thông tin trước phân hoạch (Info(D)) và trị

du
o

ng

thông tin sau phân hoạch với A (InfoA(D)).

Gain(A) = Info(D) - InfoA(D)

u



ng

định:

cu



.c
om

Cây quyết định

CuuDuongThanCong.com

/>
13

th

an

co

ng

Entropy:

Pro(Bus) = 4/10



Pro(Car) = 3/10



Pro(Train) = 3/10



Entropy = -0.4log2(0.4) – 0.3log2(0.3) – 0.3log2(0.3)

u

du
o

ng



cu



.c
om

Cây quyết định

= 1.571


Gini Index = 1 – (0.42 + 0.32 + 0.32) = 0.66
CuuDuongThanCong.com

/>
14

Sunny
Sunny

Mild High

u
Overcast
Overcast Hot
Rain

CuuDuongThanCong.com

Mild
Mild
Mild High

Mild High

Wind

ng

co

an
th

Cool
Cool
Cool
Cool

Rain
Sunny

Humidity
High
High
High
Mild High

du
o

Hot
Hot
Overcast Hot
Rain
Rain
Rain
Overcast

cu

Sunny
Sunny

Temperature

ng

Outlook

.c
om

Cây quyết định
Weak (false)
Strong (true)
Weak

Yes
Weak
Yes
Normal Weak
Yes
Normal
Strong
Normal
Strong Yes
Weak
Normal Weak
Yes
Normal Weak
Yes
Normal
Strong Yes
Strong Yes
Normal Weak
Yes
Strong
Total

/>
Play ball
No
No

No
No

No
14

15

Gain information:

an

co

ng

 Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14)
= 0.940

Gain(S, Windy) = Entropy(S) - (8/14)Entropy(S ) -

th

false

ng

(6/14)Entropy(S ) = 0.048

du
o

true

Windy: Weak=8(6+,2-), Strong=6(3+,3-)



Entropy(Sfalse)=-6/8Log2(6/8)-2/8Log2(2/8)=0.811



Entropy(Strue) =-3/6Log2(3/6)-3/6Log2(3/6)=1



Gain(S,Windy) = 0.940-(8/14)(0.811)-(6/14)(1)=0.048

u



cu



.c
om

Cây quyết định

CuuDuongThanCong.com

/>
16

Gain information:

co

ng

 Tính tương tự ta được:

an

 Gain(S, Windy) = 0.048

th

 Gain(S, Humidity) = 0.151

du
o

ng

 Gain(S, Temperature) = 0.029

u

 Gian(S, Outlook) = 0.246

cu



.c
om

Cây quyết định

CuuDuongThanCong.com

/>
17

cu

u

du
o

ng

th

an

co

ng

.c
om

Cây quyết định

CuuDuongThanCong.com

/>
18

cu

u

du
o

ng

th

an

co

ng

.c
om

Cây quyết định

CuuDuongThanCong.com

/>
19

Continuous attributes
Temperature

Humidity

.c
om

Outlook

Wind

Play ball

D1

Sunny

Hot

High

D2

Sunny

Hot

High

D3

OvercastHot

High

Weak

Yes

D4

Rain

MildHigh

Weak

Yes

D5

Rain

Cool

NormalWeak

Yes

D6

Rain

th

Day

Normal

StrongNo

D7

Overcast

Normal

Strong

Sunny

D11

cu

Rain

Sunny

D12

Overcast

D13

OvercastHot

D14

ng

co

an

ng

D9

du
o

Sunny

D10

Cool

u

D8

Rain

CuuDuongThanCong.com

Weak

Cool
MildHigh
Cool

No
StrongNo

Weak

Yes
No

NormalWeak

Yes

Mild

NormalWeak

Yes

Mild

Normal

MildHigh

Strong

Yes

Strong

Yes

NormalWeak
MildHigh

Yes
StrongNo

/>
20

.c
om

Thuộc tính giá trị liên tục
ng

EntropyDay(S) = (1/14)Entropy(SD1) + (1/14)Entropy(SD2) +

co

… + (1/14)Entropy(SD14)

th

ng

→ EntropyDay(S) = 0

an

Entropy(SD1) = Entropy(SD2) = … = Entropy(SD14) = 0

du
o

Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14) = 0.940

cu

u

Gain(S, Day) = Entropy(S) - EntropyDay(S) = 0.940

CuuDuongThanCong.com

/>
21

co

ng

.c
om

Thuộc tính giá trị liên tục

ng

du
o

D1

th

an

Day

N

D14
D3

P

…

N

cu

u

N

D2

CuuDuongThanCong.com

/>
22

Vấn đề:


Thuộc tính ngày có độ thu thập thơng tin cao  có

ng



.c
om

Thuộc tính giá trị liên tục

Nếu ý nghĩa của thuộc tính Day khơng cao thì sự

th



an

co

độ ưu tiên trong lựa chọn quyết định.

du
o

ng

lựa chọn quyết định này là khơng hiệu quả  tính
dự đốn kém.

u

Giải quyết vấn đề: nguyên tắc lựa chọn phân tách:

cu





Tỷ lệ tăng thêm thông tin (GainRatio) cao,



Có Entropy của thuộc tính lớn hơn Entropy trung

bình của tất cả các thuộc tính
CuuDuongThanCong.com

/>
23

Temperature

0.9
0.87
0.93
0.89
0.80
0.59
0.77
0.91
0.68
0.84
0.72
0.49
0.74
0.86

an

co
du
o

ng

Cool
Cool
Cool

th

Mild

cu

u

Sunny
Hot
Sunny
Hot
Overcast Hot
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast Hot
Rain

Humidity

ng

Outlook

.c
om

Thuộc tính giá trị liên tục

CuuDuongThanCong.com

Mild

Cool

Mild
Mild
Mild
Mild

Wind

Weak

Play ball

No
StrongNo

Weak
Weak
Weak
StrongNo

Strong
Weak
No
Weak
Weak
Strong
Strong
Weak
StrongNo
Total
/>
Yes
Yes
Yes

Yes
Yes
Yes
Yes
Yes
Yes

14

24

SplitInfomation: Thông tin tiềm ẩn được tạo ra bằng

co

ng

cách chia tập dữ liệu trong một số tập con nào đó.
c

i 1

Si là tập con của S chứa các thể hiện của thuộc

u



du
o

ng

th

an

SplitInformation( S , A)  

Si
Si
log 2
S
S

tính A mang giá trị Vi.

cu



.c
om

Thuộc tính giá trị liên tục



Splitinfomation thực sự chính là Entropy của S với
sự liên quan trên những giá trị của thuộc tính A
CuuDuongThanCong.com

/>
25

Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 31

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về