Đề tài: Tìm hiểu cây quyết định và ID3
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
- - - - -o0o- - - - -
BÁO CÁO BÀI TẬP LỚN
MÔN: KHAI PHÁ DỮ LIỆU
Đề tài: TÌM HIỂU CÂY QUYẾT ĐỊNH VÀ ID3
Giáo viên hướng dẫn : Trần Hùng Cường
Lớp
: KHMT4 – K9
Nhóm sinh viên thực hiện
: Nhóm 5
-- Hà Nội, ngày 04 tháng 04 năm 2018--
1
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
- - - - -o0o- - - - -
BÁO CÁO BÀI TẬP LỚN
MÔN: HỆ CHUYÊN GIA
Đề tài: TÌM HIỂU CÂY QUYẾT ĐỊNH VÀ ID3
Giáo viên hướng dẫn : Trần Hùng Cường
Lớp
: KHMT4 – K9
Sinh viên thực hiện
: Vũ Văn Duy
Hoàng Bá Vũ
Nguyễn Thị Dịu
Dương Đức Tuyến
Dương Quang Nam
-- Hà Nội, ngày 04 tháng 04 năm 2018--
2
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
LỜI CẢM ƠN
Ngày nay, công nghệ thông tin là lĩnh vực không thể thiếu trong đời sống
con người. Đặc biệt các sản phẩm của công nghệ thông tin ngày nay còn đóng
vai trò như một chuyên gia trong nhiều lĩnh vực như y học, hóa học, dự báo,..có
thể mã hóa các tri thức cũng như lập luận của những chuyên gia này và đưa vào
máy tính nhằm hỗ trợ người sử dụng.
Với đề tài “Tìm hiểu cây quyết định và ID3”, chúng em đã bước đầu làm
quen, có cách nhìn nhận đầy đủ về hệ thống và tiến tới xây dựng được phần
mềm có khả năng như chuyên gia con người trong một lĩnh vực cụ thể.
Các thuật toán này sẽ hỗ trợ người sử dụng đưa ra quyết định có mua máy
tính hay không? Chỉ cần người sử dụng nhập vào các yêu cầu của mình về hệ
điều hành, mức thu nhập của mình, yêu cầu về cấu hình máy tính, hãng sản
xuất,….
Chúng em đã cố gắng tiếp thu lời góp ý của thầy và các bạn để xây dựng
được một chương trình cơ bản sử dụng cây quyết định. Tuy vậy, bài tập lớn vẫn
còn nhiều thiếu sót. Rất mong thầy cùng các bạn sẽ đánh giá và góp ý.
Chúng em xin gửi lời cảm ơn chân thành tới thầy Tràn Hùng Cường đã
tận tình hướng dẫn nhóm em nắm bắt các kiến thức cơ bản về môn học Khai
phá dữ liệu trong học kỳ này. Đặc biệt, chúng em xin cảm ơn thầy đã hướng dẫn
và những nhận xét đánh giá quý báu của thầy để chúng em hoàn thành bài tập
lớn.
Chúng em xin gửi lời cảm ơn những ý kiến đóng góp của các bạn sinh
viên trong lớp để giúp chúng em hoàn thành bài tập lớn.
Chúng em xin chân thành cảm ơn!
3
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
MỤC LỤC
CHƯƠNG 1: TÌM HIỂU ĐỀ TÀI BÀI TẬP LỚN
1.1. Mục đích chọn đề tài
Với đề tài “ Tìm hiểu cây quyết định và ID3” đã giúp nhóm hiện thực
được môn học Hệ chuyên gia, hiểu được bản chất và cách xây dựng từng bước
để tạo nên một hệ chuyên gia với cơ sở tri thức và động cơ suy diễn của nó để
có thể đáp ứng với nhu cầu ngày càng cao của xã hội về việc công nghệ thông
tin hóa.
1.2. Lý do chọn đề tài
Ngày nay, CNTT là lĩnh vực không thể thiếu trong đời sống con người.
Hầu như trong mọi nghành, mọi lĩnh vực, CNTT đều có mặt. Các sản phẩm
phần mềm tạo ra đã phục vụ và đem lại nhiều lợi ích về kinh tế như các phần
mềm quản lý , thương mại điện tử, các dịch vụ mạng truyền thông…
Một câu hỏi đặt ra bằng cách nào ta có thể mã hóa các tri thức cũng như
lập luận của những chuyên gia này và đưa vào máy tính nhằm hỗ trợ người sử
dụng đưa ra những quyết định cũng như tư vẫn cho họ khi không có chuyên gia
bên cạnh.
Để đáp ứng những nhu cầu trên đòi hỏi có một công cụ tư vấn giúp người
dùng dễ dàng lựa chọn hay đưa ra quyết định. Nhóm đã quyết định lựa chọn đề
4
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
tài “ Tìm hiểu cây quyết định và ID3” để hỗ trợ người sử dụng có thẻ quyết định
mua một chiếc máy tính cho bản thân.
1.3. Quy trình thực hiện
- Thu thập tập dữ liệu mẫu từ thực tế.
- Sử dụng thuật giải ID3 để xây dựng cây quyết định từ tập dữ liệu mẫu.
- Từ cây quyết định sinh ra tập luật.
- Thiết kế và xây dựng, cài đặt suy diễn tư vấn mua máy tính.
- Sử dụng C# để phân tích tạo cây ID3.
CHƯƠNG 2: CÂY QUYẾT ĐỊNH
2.1. Cây quyết định
2.1.1. Cây quyết định là gì?
Việc học trên cây quyết định dựa trên dữ liệu huấn luyện có dạng bảng,
trong đó các cột là thuộc tính diều kiện và thuộc tính mục tiêu( quyết định), mỗi
dòng sẽ được dán nhãn là giá trị của thuộc tính mục tiêu. Chẳng hạn với bảng
dữ liệu( Bảng 3.1) các thuộc tính “Age” và “Salary” là thuộc tính điều kiện còn
thuộc tính “Class” là thuộc tính mục tiêu.
ID
Age
Salary
Class
1
30
65
Good
2
23
15
Bad
3
40
75
Good
4
55
40
Bad
5
55
100
Good
6
45
60
Good
5
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Bảng 3.1. Dữ liệu huấn luyện
Cây quyết định là một công cụ khá phổ biến trong nhiều dạng ứng dụng,
với cơ chế rút trích các dạng luật if- then dựa trên tập liệu mẫu. Sau đây là định
nghĩa cây quyết định.
6
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Cây quyết định là dạng đặc biệt của cáu trúc cây nhằm hỗ trợ cho tiến
trình ra quyết định. Cây gồm các thành phần:
o Nút trong: Biểu diễn thuộc tính.
o Nhánh: Biểu diễn giá trị cụ thể của thuộc tính đó.
o Nút lá: Đại diện cho giá trị dự đoán của thuộc tính mục tiêu.
Hình 3.1.: Mô tả cây quyết định
Age
H<=35
h>35
Salary
H<=40
Bad
Salary
h>40
Good
H<=50
Bad
h>50
Good
Hình 3.2. Cây quyết định tương ứng với bảng 4.1
Dựa trên cây này ta có thể đưa ra được quyết định.
Chẳng hạn với mẫu x=(30,30,?) sẽ được gán nhãn là “Bad”.
7
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
2.1.2. Các kiểu cây quyết định
Cây hồi quy( Regresstion tree) :Ước lượng các hàm giá có giá trị là số thực
thay vì được sử dụng thay vì được sử dụng cho các nhiệm vụ phan loại.
Cây phân loại ( Classification tree): Nếu biến chúng ta cần tìm hiểu là biến
phân loại như :giới (tính nam hay nữ ), kết quả của một trận đấu( thắng hay
thua).
2.2. Thuật toán ID3
2.2.1. Thuật toán ID3 xây dựng cây quyết định
Với bảng dữ liệu huấn luyện có nhiều thuộc tính điều kiện. Vấn đề đặt ra
là lựa chọn thuộc tính nào làm gốc của cây. Để lựa chọn thuộc tính làm gốc của
cây ta đưa ra tiêu chuẩn để đánh giá, một trong các tiêu chuẩn đó là độ lợi thông
tin (information Gain) của thuộc tính. Thuộc tính có độ lợi thông tin lớn nhất sẽ
được chọn làm gốc của cây.
Độ lợi thông tin của thuộc tính A, ký hiệu là Gain( S, A) và được xác định
qua công thức:
Gain(S, A)=Entropy(S) -∑((|Sv | / |S|)* Entropy(Sv) )
Thuật toán ID3:
Cho X là tập vectơ đặc trưng( không gian đặc trưng):
X={x1, x2,...,xn}
C là tập các giá trị phân lớp
C: X ─> C thực hiện gán nhãn cho các phần tử trong X
D= { D = {(x1, c(x1)), (x2, c(x2)),…, (xn, c(xn))} ⊆ X × C}
Nhiệm vụ: Dựa trên D, hãy xây dựng cây quyết định T xấp xỉ c.
8
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
ID3( D, Atributes, Target)
{
Tạo nút t cho cây.
Nếu tất cả các mẫu trong D đều thuộc lớp dương thì trả về cây có nút gốc
t và được dán nhãn “+”.
Nếu tất cả các mẫu trong D đều thuộc lớp âm thì trả về cây có nút gốc t
và được dán nhãn “-”.
Đặt t là nhãn phổ biến nhất của thuộc tính mục tiêu trong D.
Nếu Atributes rỗng thì trả về cây có nút gốc trỏ bởi t.
Trường hợp khác:
• Đặt A* là thuộc tính phân lớp tốt nhất trong D.
• Thuộc tính quyết định của t là A*.
• Với mỗi giá trị a của A* thực hiện:
Bổ sung nhánh mới dưới t ứng với A* = “a”.
Đặt D_a là tập con của D chứa các mẫu mà A* = “a”.
Nếu D_a rông thì nhánh mới này bổ sung nút lá với nhãn
phổ biến nhất trong D.
Ngược lại, dưới nhánh mới này bổ sung cây con ID3( D_a,
• Trả về t.
Atributes – { A*}, Target).
}
9
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Sau đây là mã giả cho thuật giải ID3:
ID3( D, Atributes, Target)
{
1.
2.
3.
4.
5.
6.
7.
t= createNode().
IF IF ∀(x, c(x)) ∈ D: c(x) = 1 THEN label(t) = ‘+’ return(t) ENDIF.
IF ∀(x, c(x)) ∈ D: c(x) = 0 THEN label(t) = ‘-’ return(t) ENDIF.
label(t) = mostCommonClass(D, Target).
IF Attributes = ∅ THEN return(t) ENDIF.
A* = argmaxA∈Attributes(Gain(D, A)).
FOREACH a∈A* DO
Da = {(x, c(x)) ∈ D: x| A* = a}
IF Da = ∅ THEN
t’ = createNode()
label(t’) = mostCommonClass(D, Target)
createEdge(t, a, t’)
ELSE
createEdge(t, a, ID3(Da, Attributes – {A*}, Target))
ENDIF
ENDDO
8. return(t)
}
10
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
2.2.2. Minh họa thuật giải ID3
Để minh họa cho thuật toán này, ta xét tập dữ liệu huấn luyện sau:
Day
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14
Outlook
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Temperature
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild
Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Strong
Play ball
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
Bảng 3.2. Số liệu quan sát về điều kiện chơi bóng
Bây giờ ta tính độ lợi thông tin cho từng thuộc tính sau đó chọn thuộc
tính có độ lợi thông tin lớn nhất làm gốc cây quyết định.
S là tập hợp của 14 mẫu, trong đó có 9 mẫu thuộc lớp YES và 5 mẫu
thuộc lớp NO. Khi đó:
Entropy( S)= -(9/14)* log2(9/14) - (5/14)* log2(5/14)= 0.940
Xét thuộc tính “Wind”:
Entropy( SWeak)= - (6/8)* log2(6/8) - (2/8)* log2(2/8)= 0.811
Entropy( SStrong)= - (3/6)* log2(3/6) - (3/6)* log2(3/6)= 1.00
Gain( S, Wind)= Entropy( S) – (8/14) * Entropy( S Weak) – (6/14) *
Entropy( SStrong) = 0.940 – (8/14)*0.811 – (6/14)*1,00= 0.048
11
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Tương tự như vậy với các thuộc tính điều kiện còn lại:
Gain( S, Outlook) = 0.246
Gain( S, Temperature) = 0.029
Gain( S, Humidity ) = 0.151
Trong các thuộc tính điều kiện trên ta thấy “Outlook” có độ lơi thông lớn nhất
nên thuộc tính này được chọn làm gốc của cây quyết định.
Trong nhánh Outlook = Sunny, SSunny= {D1, D2, D8, D9, D11}
Gain( SSunny, Humidity) = 0.970
Gain( SSunny, Temperature) = 0.570
Gain( SSunny, Wind) = 0.019
Tương tự như vậy với nhánh Outlook= Rain, ta cũng tính được độ lợi thông tin
cho các thuộc tính còn lại và chọn “Wind” làm gốc.
Cuối cùng ta xây dựng được cây quyết định:
Hình 3.3. Cây quyết định ứng với bảng dữ liệu 3.2
12
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Sinh luật từ cây quyết định:
Mỗi luật là một đường dẫn từ gốc đến lá và các thuộc tính trên cùng một đường
đi được kết hợp bởi phép AND. Từ cây quyết định này ta có tập luật sau:
Rule 1: IF Outlook= Sunny AND Humidity = High THEN Play ball= No
Rule 2: IF Outlook= Sunny AND Humidity = Normal THEN Play ball= Yes
Rule 3: IF Outlook= Rain AND Wind = Strong THEN Play ball= No
Rule 4: IF Outlook= Overcast THEN Play ball= Yes
Rule 5: IF Outlook= Rain AND Wind= Weak THEN Play ball= Yes
Với mẫu D15 = (Overcast, Mild, Normal, Weak, ? ) thỏa mãn luật rule 4. Do đó
D15 được xếp vào lớp “Yes”.
13
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM
3.1. Bài toán
Bảng 4.1: Bảng dữ liệu thu thập tiêu thụ máy tính tại miền Bắc
14
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
3.1.1. Phát biểu bài toán.
Bài toán lấy dữ liệ liệu thực tế về mua bán kinh doanh máy tính tại siêu
thị miền Bắc trong năm gần đây.Từ việc chọn các giượi ý trong từng thuộc tính ,
người mua có thể quyết định được mình có nên mua máy tính này hay không.
Để tối giản nhất có thể, nhóm lựa chọn ba hệ điều hành phổ biến nhất
hiện nay được nhiều người sử dụng là Windows, Mac OS, Linux.
3.1.2. Thông tin các thuộc tính.
Từ dữ liệu thực tế chúng em thu thập được thông tin cho các thuộc tính
như
sau:
Thuộc tính Age chỉ định tuổi tác của khách hàng
Gồm : youth, senior middle- ages
Thuộc tính Sex chỉ định giới tính của khách hàng
Gồm :male, female
Thuộc tính Income chỉ định thu nhập của khách hàng
Gồm: high, medium, low
Thuộc tính Configuration chỉ định cấu hình mà khách hàng muốn mua
Gồm: high, medium, low
Thuộc tính Manifuctures chỉ định khách hàng muốn mua của nhà sản xuất nào
Gồm các hãng sau: Sony, Samsung, Dell, Apple, HP, Asus
Thuộc tính Os chỉ định hệ điểu hàng mà khách hàng muốn mua
Gồm: Window, Linux, Mac OS
3.3. Giải quyết bài toán
Sử dụng giải thuật ID3 để tạo cây quyết định:
15
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Tập hợp S là tập có 47 mẫu, trong đó có 27 mẫu thuộc lớp “Yes” và 20
mẫu thuộc lớp “ No”.
Vậy ta có : Entropy( S )= -(27/47)* log2(27/47) - (20/47)* log2(20/47 )
Entropy( S ) = 0.984
Tính độ lợi thông tin của các thuộc tính trong tập dữ liệu trong mẫu dựa vào
thuật giải ID3 :
• Xét thuộc tính “Age”:
Entropy(Syouth) = - (9/16) log2(9/16) – (7/16) log2(7/16) = 0.989
Entropy(Smiddle-aged) = - (7/15) log2(7/15) - (8/15) log2(8/15) = 0.997
Entropy(Ssenior) = - (11/16) log2(11/16) - (5/16) log2(5/16) = 0.896
→ Gian( S, Age)= Entropy( S) – (16/47)* Entropy(S youth) – (15/47)*
Entropy(Smiddle-aged) – (16/47)* Entropy(Ssenior)
= 0.984 – (16/47) * 0.989 – (15/47) * 0.997 – (16/47) * 0.896
= 0.024
16
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
• Xét thuộc tính “Sex”:
Entropy(Smale) = - (17/26)* log2(17/26) – (9/26)* log2(9/26) = 0.931
Entropy(Sfemale) = - (10/21)* log2(10/21) – (11/21)* log2(11/21) = 0.998
→ Gain(S, Sex) = Entropy(S) – (26/47) * Entropy(S male) – (21/47) *
Entropy(Sfemale)
= 0.984 – (26/47) * 0.931 – (21/47) * 0.998
= 0.023
• Xét thuộc tính “Income”:
Entropy(Shigh) = - (9/15)* log2(9/15) – (6/15)* log2(6/15) = 0.971
Entropy(Smedium) = - (12/18)* log2(12/18) – (6/18)* log2(6/18) = 0.918
Entropy(Slow) = - (6/14)* log2(6/14) – (8/14)* log2(8/14) = 0.985
→ Gain(S, Income) = Entropy(S) – (15/47) * Entropy(S high) – (18/47) *
Entropy(Smedium) – (14/47) * Entropy(Slow)
= 0.984 – (15/47) * 0.971 – (18/47) * 0.918 – (14/47) * 0.985
= 0.029
• Xét thuộc tính “Configuration”:
Entropy(Shigh) = - (8/17)* log2(8/17) – (9/17)* log2(9/17) = 0.998
Entropy(Smedium) = - (10/17)* log2(10/17) – (7/17)* log2(7/17) = 0.977
Entropy(Slow) = - (9/13)* log2(9/13) – (4/13)* log2(4/13) = 0.890
→ Gain(S, Configuration) = Entropy(S) – (17/47) * Entropy(S high) –
(17/47) * Entropy(Smedium) – (13/47) * Entropy(Slow)
= 0.984 – (17/47) * 0.998 – (17/47) * 0.977 – (13/47) * 0.890
= 0.023
17
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
• Xét thuộc tính “Manufacturers”:
Entropy(SSONY) = - (3/5)* log2(3/5) – (2/5)* log2(2/5) = 0.971
Entropy(SAPPLE) = - (7/13)* log2(7/13) – (6/13)* log2(6/13) = 0.996
Entropy(SDELL) = - (6/9)* log2(6/9) – (3/9)* log2(3/9) = 0.918
Entropy(SASUS) = - (4/8)* log2(4/8) – (4/8)* log2(4/8) = 1
Entropy(SSAMSUNG) = - (2/3)* log2(2/3) – (1/3)* log2(1/3) = 0.918
Entropy(SHP) = - (5/9)* log2(5/9) – (4/9)* log2(4/9) = 0.991
→ Gain(S, Manufacturers) = Entropy(S) – (5/47) * Entropy(S SONY) –
(13/47) * Entropy(SAPPLE) – (9/47) * Entropy(SDELL) – (8/47) *
Entropy(SASUS) – (3/47) * Entropy(SSAMSUNG) – (9/47) * Entropy(SHP)
= 0.984 – (5/47) * 0.971 – (13/47) * 0.996 – (9/47) * 0.918 – (8/47) * 1–
(3/47) * 0.918 – (9/47) * 0.991
= 0.011
• Xét thuộc tính “OS”:
Entropy(SWindows) = - (15/22)* log2(15/22) – (7/22)* log2(7/22) =
0.902
Entropy(SMac OS) = - (7/14)* log2(7/14) – (7/14)* log2(7/14) = 1
Entropy(SLinux) = - (5/11)* log2(5/11) – (6/11)* log2(6/11) = 0.994
→ Gain(S, OS) = Entropy(S) – (22/47) * Entropy(SWindows)
– (14/47) * Entropy(SMac OS) – (11/47) * Entropy(SLinux)
= 0.984 – (22/47) * 0.902 – (14/47) * 1 – (11/47) * 0.994
= 0.031
18
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Trong các thuộc tính điều kiện trên ta thấy “OS” có độ lợi thông tin lớn nhất nên
thuộc tính này sẽ được chọn làm gốc của cây.
3.2.1. Nhánh OS = Windows
Trong nhánh OS= Windows, ta có:
SWindows = {1, 2, 6, 11, 12, 13, 14, 16, 17, 22, 23, 24, 27, 33, 34, 35, 38, 39, 43,
45, 46, 47}
Ta có: Entropy(SWindows) = 0.902
• Xét thuộc tính Age:
Entropy(Syouth) = - (5/8)* log2(5/8) – (3/8)* log2(3/8) = 0.954
Entropy(Smiddle-aged) = - (4/5)*log2(4/5) – (1/5)* log2(1/5) = 0.722
Entropy(Ssenior) = - (6/9)* log2(6/9) – (3/9)* log2(3/9) = 0.918
→ Gain(SWindows, Age) = Entropy(SWindows) – (8/22) * Entropy(Syouth)
– (5/22) * Entropy(Smiddle-aged) – (9/22) * Entropy(Ssenior)
= 0.902 – (8/22) * 0.954 – (5/22) * 0.722 – (9/22) * 0.918
= 0.015
• Xét thuộc tính Sex:
Entropy(Smale) = - (9/10)* log2(9/10) – (1/10)* log2(1/10) = 0.469
Entropy(Sfemale) = - (6/12)* log2(6/12) – (6/12)* log2(6/12) = 1
→ Gain(SWindows, Sex) = Entropy(SWindows) – (10/22) * Entropy(Smale)
- (12/22) * Entropy(Sfemale)
= 0.902 – (10/22) * 0.469 – (12/22) * 1
19
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
= 0.131
• Xét thuộc tính Income:
Entropy(Shigh) = - (8/10)* log2(8/10) – (2/10)* log2(2/10) = 0.722
Entropy(Smedium) = - (5/7)* log2(5/7) – (2/7)* log2(2/7) = 0.863
Entropy(Slow) = - (2/5)* log2(2/5) – (3/5)* log2(3/5) = 0.971
→ Gain(SWindows, Income) = Entropy(SWindows) – (10/22) *
Entropy(Shigh) – (7/22) * Entropy(Smedium) – (5/22) * Entropy(Slow)
= 0.902 – (10/22) * 0.722 – (7/22) * 0.863 – (5/22) * 0.971
= 0.079
• Xét thuộc tính Configuration:
Entropy(Shigh) = - (3/8)* log2(3/8) – (5/8)* log2(5/8) = 0.954
Entropy(Smedium) = - (6/8)* log2(6/8) – (2/8)* log2(2/8) = 0.811
Entropy(Slow) = - (6/6)* log2(6/6) = 0
→ Gain(SWindows, Configuration) = Entropy(SWindows) – (8/22) *
Entropy(Shigh) – (8/22) * Entropy(Smedium) – (6/22) * Entropy(Slow)
= 0.902 – (8/22) * 0.954 – (8/22) * 0.811 – (6/22) * 0
= 0.260
• Xét thuộc tính Manufacturers:
20
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Entropy(SSONY) = - (3/4)* log2(3/4) – (1/4)* log2(1/4) = 0.811
Entropy(SHP) = - (3/4)* log2(3/4) – (1/4)* log2(1/4) = 0.811
Entropy(SDELL) = - (6/8)* log2(6/8) – (2/8)* log2(2/8) = 0.811
Entropy(SASUS) = - (3/5)* log2(3/5) – (2/5)* log2(2/5) = 0.971
Entropy(SSAMSUNG) = - (1/1)* log2(1/1) = 0
→ Gain(SWindows, Manufacturers) = Entropy(SWindows) – (4/22) *
Entropy(SSONY) – (4/22) * Entropy(SHP) – (8/22) * Entropy(SDELL) –
(5/22) * Entropy(SASUS) – (1/22) * Entropy(SSAMSUNG)
= 0.902 – (4/22) * 0.811 – (4/22) * 0.811 – (8/22) * 0.811 – (5/22)
* 0.971 – (1/22) * 0
= 0.092
Trong các thuộc tính điều kiện trên ta thấy “Configuration” có độ lợi thông tin
lớn nhất nên thuộc tính này sẽ được chọn làm gốc.
Bây giờ ta tiếp tục xét lần lượt từng nhánh trong Configuration.
Nhánh Configuration = high
Trong nhánh Configuration = high, ta có:
Shigh = {1, 6, 11, 14, 23, 33, 38, 43}.
Ta có: Entropy(Shigh) = 0.954
• Xét thuộc tính Age:
Entropy(Syouth) = - (1/4)* log2(1/4) – (3/4)* log2(3/4) = 0.811
Entropy(Smiddle-aged) = - (1/2)* log2(1/2) – (1/2)* log2(1/2) = 1
21
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Entropy(Ssenior) = - (1/2)* log2(1/2) – (1/2)* log2(1/2) = 1
→ Gain(Shigh, Age) = Entropy(Shigh) – (4/8) * Entropy(Syouth)
– (2/8) * Entropy(Smiddle-aged) – (2/8) * Entropy(Ssenior)
= 0.954 – (4/8) * 0.811 – (2/8) * 1 – (2/8) * 1
= 0.049
• Xét thuộc tính Sex:
Entropy(Smale) = - (2/3)* log2(2/3) – (1/3)* log2(1/3) = 0.918
Entropy(Sfemale) = - (1/5)* log2(1/5) –
(4/5)* log2(4/5) =
0.722
→ Gain(Shigh, Sex) = Entropy(Shigh) – (3/8) * Entropy(Smale) –
(5/8) * Entropy(Sfemale)
= 0.954 – (3/8) * 0.918 – (5/8) * 0.722
= 0.159
• Xét thuộc tính Income:
Entropy(Shigh) = - (3/4)* log2(3/4) – (1/4)* log2(1/4) = 0.811
Entropy(Smedium) = - (2/2)* log2(2/2) = 0
Entropy(Slow) = - (2/2)* log2(2/2) = 0
→
Gain(Shigh,
Income)
=
Entropy(Shigh)
–
(4/8)
*
Entropy(Shigh) – (2/8) * Entropy(Smedium) – (2/8) *
Entropy(Slow)
= 0.954 – (4/8) * 0.811 – (2/8) * 0 – (2/8) * 0
22
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
= 0.549
• Xét thuộc tính Manufacturers:
Entropy(SSONY) = - (1/1)* log2(1/1) = 0
Entropy(SDELL) = - (1/3)* log2(1/3) - (2/3)* log2(2/3) = 0.918
Entropy(SASUS) = - (1/3)* log2(1/3) - (2/3)* log2(2/3) = 0.918
Entropy(SSAMSUNG) = - (1/1)* log2(1/1) = 0
→ Gain(Shigh, Manufacturers) = Entropy(Shigh) –
(1/8) * Entropy(SSONY) – (3/8) * Entropy(SDELL) – (3/8) *
Entropy(SASUS) – (1/8) * Entropy(SSAMSUNG)
= 0.954 – (1/8) * 0 – (3/8) * 0.918 – (3/8) * 0.918 – (1/8) * 0
= 0.266
Trong các thuộc tính điều kiện trên ta thấy Income có độ lợi thông tin lớn nhất
nên thuộc tính này được chọn làm gốc.
Bây giờ ta tiếp tục xét từng nhánh trong Income.
Nhánh Income = high
Trong nhánh Incom= High, Shigh = {1, 6, 33, 43}.
Entropy(Shigh) = 0.811
• Xét thuộc tính Age:
Entropy(Syouth) = - (1/2)* log2(1/2) – (1/2)* log2(1/2) = 1
Entropy(Smiddle-aged) = - (1/1)* log2(1/1) = 0(YES)
23
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Entropy(Ssenior) = - (1/1)* log2(1/1) = 0(YES)
→ Gain(Shigh, Age) = Entropy(Shigh) – (2/4) * Entropy(Syouth) –
(1/4) * Entropy(Smiddle-aged) – (1/4) * Entropy(Ssenior)
= 0.811 – (2/4) * 1 – (1/4) * 0 – (1/4) * 0
= 0.311
• Xét thuộc tính Sex:
Entropy(Smale) = - (2/2)* log2(2/2) = 0(yES)
Entropy(Sfemale) = - (1/2)* log2(1/2) - (1/2) log2(1/2) = 1
→ Gain(Shigh, Sex) = Entropy(Shigh) – (2/4) * Entropy(Smale) (2/4) * Entropy(Sfemale)
= 0.811 – (2/4) * 0 – (2/4) * 1
= 0.311
• Xét thuộc tính Manufacturers:
Entropy(SSONY) = - (1/1)* log2(1/1) = 0
Entropy(SDELL) = - (1/2)* log2(1/2) - (1/2)* log2(1/2) = 1
Entropy(SASUS) = - (1/1)* log2(1/1) = 0
→ Gain(Shigh, Manufacturers) = Entropy(Shigh) – (1/4) *
Entropy(SSONY) – (2/4) * Entropy(SDELL) – (1/4) *
Entropy(SASUS)
= 0.811 – (1/4) * 0 – (2/4) * 1 – (1/4) * 0
= 0.311
24
Nhóm 5 – Lớp KHMT4 – K9
Đề tài: Tìm hiểu cây quyết định và ID3
Cả 3 thuộc tính trên đều có độ lợi thông tin bằng nhau nên ta chọn 1 trong 3
thuộc tính để làm gốc. Chọn thuộc tính “Age” làm gốc.
Bây giờ ta tiếp tục xét từng nhánh trong Age:
Nhánh Age = middle- age
Smiddle-age = {43} YES
Do Entropy(Smiddle-age) = 0 nên nhánh dừng.
Nhánh Age = senior
Ssenior = {33} YES
Do Entropy(Ssenior) = 0 nên nhánh dừng.
Nhánh Age = youth
Syouth= {1, 6}
Entropy(Syouth) = 1
• Xét thuộc tính Sex:
Entropy(Sfemale) = - (1/1)* log2(1/1) = 0
Entropy(Smale) = - (1/1)* log2(1/1) = 0
→Gain(Syouth, Sex) = Entropy(Syouth) – (1/2)*Entropy(Sfemale)
– (1/2)*Entropy(Sfemale)
= 1 – (1/2) * 0– (1/2) * 0
=1
• Xét thuộc tính Manufacturers:
Entropy(SSONY) = - (1/1)* log2(1/1)= 0
Entropy(SDELL) = - (1/1)* log2(1/1)= 0
→Gain(Syouth, Manufacturers) = Entropy(Syouth) –
(1/2)* Entropy(SSONY) – (1/2)*Entropy(SDELL)
25
Nhóm 5 – Lớp KHMT4 – K9