Cây quyết định (ID3) và
Học Quy nạp (ILA)
Tô Hoài Việt
Khoa Công nghệ Thông tin
Đại học Khoa học Tự nhiên TPHCM
Trang 1
Nội dung
•
•
•
•
•
Cây quyết định
Học cây quyết định – Thuật toán ID3
Biểu diễn tri thức bằng luật
Rút luật từ cây quyết định
Thuật toán học quy nạp
Trang 2
Cây quyết định
Cây quyết định biểu diễn:
• Mỗi nút trong kiểm tra
một thuộc tính
• Mỗi nhánh tương ứng
với giá trị thuộc tính
• Mỗi nút lá được gán một
phân lớp
Định luật Occam: những
cây đơn giản là những
cây quyết định tốt hơn
Trang 3
Thuật toán học ID3
Được phát triển đồng thời bởi Quinlan trong AI và Breiman, Friedman,
Olsen và Stone trong thống kê
Lặp:
1. Chọn A thuộc tính quyết định “tốt nhất” cho nút kế tiếp
2. Gán A là thuộc tính quyết định cho nút
3. Với mỗi giá trị của A, tạo nhánh con mới của nút
4. Phân loại các mẫu huấn luyện cho các nút lá
5. Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGƯNG,
Ngược lại, lặp với các nút lá mới.
Thuộc tính tốt nhất là gì?
Trang 4
Entropy
•
•
S là tập các mẫu huấn luyện
p là tỷ lệ các mẫu dương trong S
• H ≡ – p.log2p – (1 – p).log2(1 – p)
Trang 5
Thuật toán học ID3
Được phát triển đồng thời bởi Quinlan trong AI và Breiman, Friedman,
Olsen và Stone trong thống kê
Lặp:
1. Chọn A thuộc tính quyết định “tốt nhất” cho nút kế tiếp
2. Gán A là thuộc tính quyết định cho nút
3. Với mỗi giá trị của A, tạo nhánh con mới của nút
4. Phân loại các mẫu huấn luyện cho các nút lá
5. Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGƯNG,
Ngược lại, lặp với các nút lá mới.
Thuộc tính tốt nhất sẽ làm tối thiểu hoá entropy trung bình của dữ liệu
trong các nút con
Trang 6
Ví dụ Huấn luyện
Trang 7
Ví dụ (tt)
Outlook
Rain
Overcast
Sunny
3+,2-
4+,0-
2+,3-
H = 0.971
H=0
H = 0.971
Hrain = – 3/5.log23/5 – 2/5.log22/5 = 0.442 + 0.529 = 0.971
Hovercast = – 4/4.log24/4 – 0/4.log20/4 = 0 + 0 = 0
Hsunny = – 2/5.log22/5 – 3/5.log23/5 = 0.529 + 0.442 = 0.971
AE ( ĐHLTB ) =
∑p H
v
v∈Value ( A )
Av
Trang 8
Ví dụ (tt)
Outlook
Rain
Overcast
Temparature
Sunny
Cool
Hot
Mild
3+,2-
4+,0-
2+,3-
2+,2-
4+,2-
H = 0.971
H=0
H = 0.971
H=1
H = 0.918
AE = 5/14*.971 + 4/14*0 + 5/14*.971
= 0.694
3+,1H = 0.811
AE = 4/14*1 + 6/14*.918 + 4/14*.811
= 0.911
Trang 9
Ví dụ (tt)
Humidity
High
Wind
Normal
Weak
Strong
3+,4-
6+,1-
6+,2-
3+,3-
H = 0.985
H = 0.592
H = 0.811
H=1
AE = 7/14*.985 + 7/14*.592
= 0.788
AE = 8/14*.811 + 6/14*1
= 0.892
Chọn Outlook là
thuộc tính quyết định
Trang 10
Ví dụ (tt)
Outlook
Rain
3+,2-
Overcast
Yes
Sunny
2+,3-
Chọn thuộc tính gì tiếp theo?
Tiếp tục thực hiện việc phân chia
Trang 11
Ví dụ (tt)
Outlook
Rain
3+,2-
Overcast
Yes
Sunny
2+,3-
AE (Rain, Temperature) = 2/5*1 + 3/5*.918 = 0.951
AE (Rain, Humidity) = 2/5*1 + 3/5*.918 = 0.951
AE (Rain, Wind) = 2/5*0 + 3/5*0 = 0
Trang 12
Ví dụ (tt)
Outlook
Rain
3+,2-
Overcast
Sunny
Yes
2+,3-
AE (Sunny, Temperature) = 2/5*0 + 2/5*1 + 1/5*0= 0.4
AE (Sunny, Humidity) = 2/5*0 + 3/5*0 = 0
AE (Sunny, Wind) = 2/5*1 + 3/5*.918 = 0.951
Trang 13
Ví dụ (tt)
Outlook
Rain
Sunny
Overcast
Wind
Humidity
Yes
Weak
Strong
Yes
No
Normal
Yes
High
No
Trang 14
Tri thức dạng luật
• Tri thức được biểu diễn dưới dạng luật:
IF Điều kiện 1 ^ Điều kiện 2… THEN Kết luận
• Dễ hiểu với con người, được sử dụng chủ yếu trong các
hệ chuyên gia
• Rút luật từ cây quyết định: đi từ nút gốc đến nút lá, lấy
các phép thử làm tiền đề và phân loại của nút lá làm kết
quả
Trang 15
Rút luật từ cây quyết định
•
IF Outlook = Overcast THEN
Yes
•
IF Outlook = Rain AND
Wind=Weak THEN Yes
•
IF Outlook = Rain AND
Wind=Strong THEN No
High
•
IF Outlook = Sunny AND
Humidity=Normal THEN Yes
No
•
IF Outlook = Sunny AND
Humidity=High THEN No
Outlook
Rain
Overcast
Yes Humidity
Wind
Weak
Yes
Sunny
Strong
No
Normal
Yes
Trang 16
Thuật giải Học Quy nạp (ILA)
Dùng để rút các luật phân lớp từ tập mẫu dữ liệu:
1. Chia tập mẫu thành các tập con ứng với thuộc tính quyết định
2. Với mỗi bảng con
3. Với mỗi tổ hợp thuộc tính có thể bắt (bắt đầu với số lượng = 1)
4. Tìm các giá trị chỉ xuất hiện ở bảng con này mà không xuất hiện
ở các bảng con khác
5. (Nếu có nhiều tổ hợp thì chọn tổ hợp có số lượng mẫu tin nhiều
nhất)
6. Sử dụng tổ hợp thuộc tính, giá trị vừa tìm được để tạo luật
7. Đánh dấu các dòng đã xét
8. Nếu còn dòng chưa xét, lặp lại bước 3
9. Lặp lại bước 2 với các bảng con
Trang 17
Ví dụ ILA
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
2
Nhỏ
Đỏ
Nón
Không mua
3
Nhỏ
Đỏ
Cầu
Mua
4
Lớn
Đỏ
Nón
Không mua
5
Lớn
Xanh lá
Trụ
Mua
6
Lớn
Đỏ
Trụ
Không mua
7
Lớn
Xanh lá
Cầu
Mua
Trang 18
Ví dụ ILA (tt)
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
3
Nhỏ
Đỏ
Cầu
Mua
5
Lớn
Xanh lá
Trụ
Mua
7
Lớn
Xanh lá
Cầu
Mua
Màu sắc
Hình dáng
Quyết định
STT Kích cỡ
2
Nhỏ
Đỏ
Nón
Không mua
4
Lớn
Đỏ
Nón
Không mua
6
Lớn
Đỏ
Trụ
Không mua
Trang 19
Ví dụ ILA (tt)
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
3
Nhỏ
Đỏ
Cầu
Mua
5
Lớn
Xanh lá
Trụ
Mua
7
Lớn
Xanh lá
Cầu
Mua
Màu sắc
Hình dáng
Quyết định
STT Kích cỡ
2
Nhỏ
4
Lớn
6
Lớn
Chọn thuộc
Đỏ tính Màu sắc
Nón
với giá trị Xanh lá
Không mua
Đỏ
Nón
Không mua
Đỏ
Trụ
Không mua
Trang 20
Ví dụ ILA (tt)
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
3
Nhỏ
Đỏ
Cầu
Mua
IF Màu sắc = Xanh lá THEN Quyết định = Mua
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
2
Nhỏ
Đỏ
Nón
Không mua
4
Lớn
Đỏ
Nón
Không mua
6
Lớn
Đỏ
Trụ
Không mua
Trang 21
Ví dụ ILA (tt)
STT Kích cỡ
3
Màu sắc
Hình dáng
Quyết định
Đỏ
Cầu
Mua
Nhỏ
IF Màu sắc = Xanh lá
THEN Quyết định = Mua
IF Kích cỡ = Vừa
THEN Quyết định = Mua
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
2
Nhỏ
Đỏ
Nón
Không mua
4
Lớn
Đỏ
Nón
Không mua
6
Lớn
Đỏ
Trụ
Không mua
Trang 22
Ví dụ ILA (tt)
IF Màu sắc = Xanh lá
THEN Quyết định = Mua
IF Kích cỡ = Vừa
THEN Quyết định = Mua
IF Hình dáng= Cầu
THEN Quyết định = Mua
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
2
Nhỏ
Đỏ
Nón
Không mua
4
Lớn
Đỏ
Nón
Không mua
6
Lớn
Đỏ
Trụ
Không mua
Trang 23
Ví dụ ILA (tt)
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
3
Nhỏ
Đỏ
Cầu
Mua
5
Lớn
Xanh lá
Trụ
Mua
7
Lớn
Xanh lá
Cầu
Mua
Màu sắc
Hình dáng
Quyết định
STT Kích cỡ
2
Nhỏ
Đỏ
Nón
Không mua
4
Lớn
Đỏ
Nón
Không mua
6
Lớn
Đỏ
Trụ
Không mua
IF Hình dáng = Nón
THEN Quyết định = Không mua
Trang 24
Ví dụ ILA (tt)
STT Kích cỡ
Màu sắc
Hình dáng
Quyết định
1
Vừa
Xanh dương
Hộp
Mua
3
Nhỏ
Đỏ
Cầu
Mua
5
Lớn
Xanh lá
Trụ
Mua
7
Lớn
Xanh lá
Cầu
Mua
Màu sắc
Hình dáng
Quyết định
Đỏ
Trụ
Không mua
STT Kích cỡ
6
Lớn
IF Hình dáng = Nón
THEN Quyết định = Không mua
Trang 25