1
XÂY DỰNG, BIỂU DIỄN CÂY QUYẾT ĐỊNH
CÁC VẤN ĐỀ THƯỜNG DÙNG CÂY
QUYẾT ĐỊNH GIẢI QUYẾT
Giáo viên hướng dẫn: PGS. TS Đỗ Phúc
Sinh viên thực hiện: Lê Văn Đào
MSSV: CH1101071
2
Nội dung trình bày
Định nghĩa
Xây dựng cây quyết định
Giới thiệu cây quyết định
Biểu diễn cây quyết định
Các vấn đề thường dùng cây quyết định để giải quyết
Các vấn đề trong cây quyết định
3
Định Nghĩa
Cây Quyết định là một cây phân lớp
Nút nội : là nút thử nghiệm
Nút lá : nút phân loại ( phân lớp )
Cây phân lớp bằng cách lọc mẫu nhập từ
trên xuống
Kết quả là phân biệt và đầy đủ
4
Định Nghĩa
Ví dụ
5
Định Nghĩa
Cây quyết định có thể khác nhau trên một số
khía cạnh :
•
Nút thử nghiệm có thể là đơn biến hay đa biến
•
Có thể có 2 hoặc hơn 2 kết quả đầu ra
•
Các đặc trưng hoặc thuộc tính có thể là phân loại
hoặc là số
•
Đầu ra (cuối cùng) có thể có hai hoặc nhiều lớp
6
Định Nghĩa
Ví dụ
7
Học có giám sát với cây quyết định đơn biến
Chọn lựa kiểu cho thử nghiệm
Giảm độ hỗn loạn để chọn thử nghiệm
Thuộc tính không phải nhị phân
(non-binary)
8
Chọn lựa kiểu cho thử nghiệm
•
Thông thường có n thuộc tính
•
Thuộc tính nhị phân
Giá trị thuộc tính ở nút thử nghiệm là 0 hoặc 1
•
Thuộc tính phân loại ( không phải nhị phân )
Chia giá trị thuộc tính vào các tập con phân biệt và
đầy đủ
Học có giám sát với cây quyết định đơn biến
9
Chọn lựa kiểu cho thử nghiệm
Ví dụ
10
Giảm độ hỗn loạn để xây dựng cây quyết
định
•
Vấn đề : chọn thứ tự các thử nghiệm
•
Với các thuộc tính phân loại và số => chọn
giá trị thích hợp cho thử nghiệm
•
Giải pháp : giảm tối đa độ hỗn loạn (entropy)
Học có giám sát với cây quyết định đơn biến
11
Giảm độ hỗn loạn để xây dựng cây
quyết định
Độ hỗn loạn của các lớp trên tập được
tính bởi
là sác xuất của các mẫu trong
tập thuộc về lớp i
12
Giảm độ hỗn loạn để xây dựng cây
quyết định
Ước lượng bằng thông kê
xác suất thực tế dựa vào thống kê
trong tập thuộc về lớp i
13
Giảm độ hỗn loạn để xây dựng cây
quyết định
Thử nghiệm T có k kết quả, chia tập
thành k tập con
ni là số mẫu của nằm trong i = 1 k.
Độ hỗn loạn của thử nghiệm T trên kết
quả thứ j là
Giảm độ hỗn loạn là
14
Giảm độ hỗn loạn để xây dựng cây
quyết định
Ước lượng trung bình trên toàn bộ
: độ hỗn loạn trung bình sau khi áp
dụng T trên tập
l : xác xuất của thử nghiệm T có kết
quả thứ j
15
Giảm độ hỗn loạn để xây dựng cây
quyết định
Trung bình giảm độ hỗn loạn đạt được
sau khi áp dụng T
16
Giảm độ hỗn loạn để xây dựng cây
quyết định
Ví dụ
Ước lượng trung bình
17
Giảm độ hỗn loạn để xây dựng cây
quyết định
Giảm độ hỗn loạn trên bằng x1
Tương tự với x2 và x3
Chọn thử nghiệm với thuộc tính phân loại
là x1
18
Học có giám sát với cây Quyết định
đơn biến
Thuộc tính không phải nhị phân (non-
binary)
•
Vẫn sử dụng kỹ thuật trên
•
Đặt ngưỡng với miền giá trị thực
•
Chọn gom nhóm phân loại với những giá trị
phân loại
19
Giới thiệu
Cây quyết định là phương pháp suy luận qui nạp
được sử dụng và thực hành rãi nhất.
Là một phương pháp xấp xỉ hàm mục tiêu của
tập các giá trị rời rạc.
Cách biểu diễn các hàm học được
•
Cây quyết định hoặc
•
Tập các luật if-then mà người có thể đọc được.
20
Giới thiệu (tt)
Các phương pháp học được sử dụng rộng rãi:
•
ID3
•
ASSISTANT
•
C4.5
Nhiệm vụ của các phương pháp học:
•
TÌm kiếm không gian giả thuyết hoàn chỉnh
•
Loại bỏ khó khăn của không gian giả thuyết có giới
hạn.
21
Cách biểu diễn cây quyết định
Cây quyết định phân loại các thể hiện bằng cách
sắp xếp chúng vào một cây từ gốc đến lá
•
Mỗi node trong cây là một thuộc tính của các thể hiện
•
Mỗi nhánh là một giá trị có thể có của các thuộc tính này
Cây quyết định được sử dụng trong phân lớp bằng
cách duyệt từ nút gốc của cây cho đến khi đụng đến
nút lá, từ đó rút ra lớp của đối tượng cần xét
22
Ví dụ
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến
hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm,
không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời
tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách
hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) hoặc
mưa (raining)). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (wind) hay không. Và tất
nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.
23
Ví dụ
Day Outlook Temp. Humidity Wind Play?
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cold Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
24
Kiểm tra khi nào chơi golf, khi nào không chơi
WindHumidity
Outlook
YesNo
Yes
Sunny Overcast Rain
YesNo
High Normal Strong Weak
Ví dụ
25
Kiểm tra khi nào chơi golf, khi nào không chơi
Humidity
Outlook
YesNo
Sunny Overcast Rain
High Normal
Mỗi nút mang một thuộc tính (biến
độc lập)
Mỗi nhánh tương ứng với một
giá trị của thuộc tính
Mỗi nút lá là một lớp (biến phụ
thuộc)
Ví dụ