.c
om
ng
co
ng
th
an
Chương 4
cu
u
du
o
Khai phá dữ liệu
1
CuuDuongThanCong.com
/>
1
.c
om
Nội dung
Tiền xử lý dữ liệu.
2.
Phương pháp khai phá bằng luật kết hợp.
3.
Phương pháp cây quyết định.
4.
Các phương pháp phân cụm.
5.
Các phương pháp khai phá dữ liệu phức tạp.
cu
u
du
o
ng
th
an
co
ng
1.
CuuDuongThanCong.com
/>
2
u
du
o
ng
th
an
co
ng
Phân lớp dữ liệu (Classification):
cu
.c
om
Phân lớp dữ liệu
CuuDuongThanCong.com
/>
3
Phân lớp dữ liệu (Classification) là quá trình
ng
.c
om
Phân lớp dữ liệu
co
phân chia các đối tượng dữ liệu cào các lớp cho
th
Bước học: giai đoạn huấn luyện (training). Giai
du
o
ng
Gồm hai bước:
u
đoạn này thường áp dụng các giải thuật học có
cu
an
trước.
giám sát (supervised learning)
Bước phân loại: Phân dữ liệu mới vào các lớp đã
biết.
CuuDuongThanCong.com
/>
4
Một số giải thuật dùng trong phân loại dữ liệu:
du
o
ng
th
an
co
ng
Mạng neural (Neural Network),
u
cu
.c
om
Phân lớp dữ liệu
CuuDuongThanCong.com
/>
5
Một số giải thuật dùng trong phân loại dữ liệu:
co
ng
Mạng Bayesian (dạng đơn giản là Naïve Bayes).
du
o
ng
th
an
P( X | H ) P( H )
P( H | X )
P( X )
Trong đó: P(H), P(X|H), P(H) có thể được tính
u
từ tập dữ liệu cho trước,
cu
.c
om
Phân lớp dữ liệu
P(H|X) được tính từ định lý Bayes.
CuuDuongThanCong.com
/>
6
Một số giải thuật dùng trong phân loại dữ liệu:
an
co
ng
Cây quyết định (decision tree),
ng
th
A
?
a1
a2
du
o
?
u
cu
.c
om
Phân lớp dữ liệu
?
b1
CuuDuongThanCong.com
?
an
?
bn
/>
7
Cây quyết định (decision tree)
Là một mơ hình phân lớp điển hình.
Node trong: Kiểm thử một thuộc tính,
Node lá: Mơ tả một lớp
Nhánh (từ một node trong): Kết quả của một
du
o
ng
th
an
co
ng
u
phép thử trên thuộc tính tương ứng.
Có thể chuyển mơ hình cây quyết định sang mơ
cu
.c
om
Cây quyết định
hình luật phân lớp: Đi từ node gốc tới node lá,
mỗi đường đi tương ứng với một luật phân lớp.
CuuDuongThanCong.com
/>
8
cu
u
du
o
ng
th
an
co
ng
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
9
cu
u
du
o
ng
th
an
co
ng
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
10
Các độ đo dùng trong phân lớp bằng cây quyết
co
Entropy: Entropy dùng trong thông tin là một khái
an
ng
định:
th
niệm mở rộng của entropy trong Nhiệt động lực học
du
o
ng
và Cơ học thống kê. Entropy mơ tả mức độ hỗn loạn
u
trong một tín hiệu lấy từ một sự kiện ngẫu nhiên.
cu
.c
om
Cây quyết định
Trong đó: pi là xác suất xuất hiện một thơng tin trong
tập dữ liệu.
CuuDuongThanCong.com
/>
11
Các độ đo dùng trong phân lớp bằng cây quyết
co
an
Gini Index: Độ đo về độ không tinh khiết của thông
du
o
ng
th
tin.
u
ng
định:
cu
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
12
Các độ đo dùng trong phân lớp bằng cây quyết
an
co
Information Gain (Độ lợi thông tin): Là độ sai biệt
th
giữa trị thông tin trước phân hoạch (Info(D)) và trị
du
o
ng
thông tin sau phân hoạch với A (InfoA(D)).
Gain(A) = Info(D) - InfoA(D)
u
ng
định:
cu
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
13
th
an
co
ng
Entropy:
Pro(Bus) = 4/10
Pro(Car) = 3/10
Pro(Train) = 3/10
Entropy = -0.4log2(0.4) – 0.3log2(0.3) – 0.3log2(0.3)
u
du
o
ng
cu
.c
om
Cây quyết định
= 1.571
Gini Index = 1 – (0.42 + 0.32 + 0.32) = 0.66
CuuDuongThanCong.com
/>
14
Sunny
Sunny
Mild High
u
Overcast
Overcast Hot
Rain
CuuDuongThanCong.com
Mild
Mild
Mild High
Mild High
Wind
ng
co
an
th
Cool
Cool
Cool
Cool
Rain
Sunny
Humidity
High
High
High
Mild High
du
o
Hot
Hot
Overcast Hot
Rain
Rain
Rain
Overcast
cu
Sunny
Sunny
Temperature
ng
Outlook
.c
om
Cây quyết định
Weak (false)
Strong (true)
Weak
Yes
Weak
Yes
Normal Weak
Yes
Normal
Strong
Normal
Strong Yes
Weak
Normal Weak
Yes
Normal Weak
Yes
Normal
Strong Yes
Strong Yes
Normal Weak
Yes
Strong
Total
/>
Play ball
No
No
No
No
No
14
15
Gain information:
an
co
ng
Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14)
= 0.940
Gain(S, Windy) = Entropy(S) - (8/14)Entropy(S ) -
th
false
ng
(6/14)Entropy(S ) = 0.048
du
o
true
Windy: Weak=8(6+,2-), Strong=6(3+,3-)
Entropy(Sfalse)=-6/8Log2(6/8)-2/8Log2(2/8)=0.811
Entropy(Strue) =-3/6Log2(3/6)-3/6Log2(3/6)=1
Gain(S,Windy) = 0.940-(8/14)(0.811)-(6/14)(1)=0.048
u
cu
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
16
Gain information:
co
ng
Tính tương tự ta được:
an
Gain(S, Windy) = 0.048
th
Gain(S, Humidity) = 0.151
du
o
ng
Gain(S, Temperature) = 0.029
u
Gian(S, Outlook) = 0.246
cu
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
17
cu
u
du
o
ng
th
an
co
ng
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
18
cu
u
du
o
ng
th
an
co
ng
.c
om
Cây quyết định
CuuDuongThanCong.com
/>
19
Continuous attributes
Temperature
Humidity
.c
om
Outlook
Wind
Play ball
D1
Sunny
Hot
High
D2
Sunny
Hot
High
D3
OvercastHot
High
Weak
Yes
D4
Rain
MildHigh
Weak
Yes
D5
Rain
Cool
NormalWeak
Yes
D6
Rain
th
Day
Normal
StrongNo
D7
Overcast
Normal
Strong
Sunny
D11
cu
Rain
Sunny
D12
Overcast
D13
OvercastHot
D14
ng
co
an
ng
D9
du
o
Sunny
D10
Cool
u
D8
Rain
CuuDuongThanCong.com
Weak
Cool
MildHigh
Cool
No
StrongNo
Weak
Yes
No
NormalWeak
Yes
Mild
NormalWeak
Yes
Mild
Normal
MildHigh
Strong
Yes
Strong
Yes
NormalWeak
MildHigh
Yes
StrongNo
/>
20
.c
om
Thuộc tính giá trị liên tục
ng
EntropyDay(S) = (1/14)Entropy(SD1) + (1/14)Entropy(SD2) +
co
… + (1/14)Entropy(SD14)
th
ng
→ EntropyDay(S) = 0
an
Entropy(SD1) = Entropy(SD2) = … = Entropy(SD14) = 0
du
o
Entropy(S) = -(9/14)log2(9/14) -(5/14)log2(5/14) = 0.940
cu
u
Gain(S, Day) = Entropy(S) - EntropyDay(S) = 0.940
CuuDuongThanCong.com
/>
21
co
ng
.c
om
Thuộc tính giá trị liên tục
ng
du
o
D1
th
an
Day
N
D14
D3
P
…
N
cu
u
N
D2
CuuDuongThanCong.com
/>
22
Vấn đề:
Thuộc tính ngày có độ thu thập thơng tin cao có
ng
.c
om
Thuộc tính giá trị liên tục
Nếu ý nghĩa của thuộc tính Day khơng cao thì sự
th
an
co
độ ưu tiên trong lựa chọn quyết định.
du
o
ng
lựa chọn quyết định này là khơng hiệu quả tính
dự đốn kém.
u
Giải quyết vấn đề: nguyên tắc lựa chọn phân tách:
cu
Tỷ lệ tăng thêm thông tin (GainRatio) cao,
Có Entropy của thuộc tính lớn hơn Entropy trung
bình của tất cả các thuộc tính
CuuDuongThanCong.com
/>
23
Temperature
0.9
0.87
0.93
0.89
0.80
0.59
0.77
0.91
0.68
0.84
0.72
0.49
0.74
0.86
an
co
du
o
ng
Cool
Cool
Cool
th
Mild
cu
u
Sunny
Hot
Sunny
Hot
Overcast Hot
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast Hot
Rain
Humidity
ng
Outlook
.c
om
Thuộc tính giá trị liên tục
CuuDuongThanCong.com
Mild
Cool
Mild
Mild
Mild
Mild
Wind
Weak
Play ball
No
StrongNo
Weak
Weak
Weak
StrongNo
Strong
Weak
No
Weak
Weak
Strong
Strong
Weak
StrongNo
Total
/>
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
14
24
SplitInfomation: Thông tin tiềm ẩn được tạo ra bằng
co
ng
cách chia tập dữ liệu trong một số tập con nào đó.
c
i 1
Si là tập con của S chứa các thể hiện của thuộc
u
du
o
ng
th
an
SplitInformation( S , A)
Si
Si
log 2
S
S
tính A mang giá trị Vi.
cu
.c
om
Thuộc tính giá trị liên tục
Splitinfomation thực sự chính là Entropy của S với
sự liên quan trên những giá trị của thuộc tính A
CuuDuongThanCong.com
/>
25