Tải bản đầy đủ (.pptx) (66 trang)

XÂY DỰNG, BIỂU DIỄN CÂY QUYẾT ĐỊNH CÁC VẤN ĐỀ THƯỜNG DÙNG CÂY QUYẾT ĐỊNH GIẢI QUYẾT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (484.57 KB, 66 trang )

1
XÂY DỰNG, BIỂU DIỄN CÂY QUYẾT ĐỊNH
CÁC VẤN ĐỀ THƯỜNG DÙNG CÂY
QUYẾT ĐỊNH GIẢI QUYẾT
Giáo viên hướng dẫn: PGS. TS Đỗ Phúc
Sinh viên thực hiện: Lê Văn Đào
MSSV: CH1101071
2
Nội dung trình bày

Định nghĩa

Xây dựng cây quyết định

Giới thiệu cây quyết định

Biểu diễn cây quyết định

Các vấn đề thường dùng cây quyết định để giải quyết

Các vấn đề trong cây quyết định
3
Định Nghĩa

Cây Quyết định là một cây phân lớp

Nút nội : là nút thử nghiệm

Nút lá : nút phân loại ( phân lớp )

Cây phân lớp bằng cách lọc mẫu nhập từ


trên xuống

Kết quả là phân biệt và đầy đủ
4
Định Nghĩa

Ví dụ
5
Định Nghĩa

Cây quyết định có thể khác nhau trên một số
khía cạnh :

Nút thử nghiệm có thể là đơn biến hay đa biến

Có thể có 2 hoặc hơn 2 kết quả đầu ra

Các đặc trưng hoặc thuộc tính có thể là phân loại
hoặc là số

Đầu ra (cuối cùng) có thể có hai hoặc nhiều lớp
6
Định Nghĩa

Ví dụ
7
Học có giám sát với cây quyết định đơn biến

Chọn lựa kiểu cho thử nghiệm


Giảm độ hỗn loạn để chọn thử nghiệm

Thuộc tính không phải nhị phân
(non-binary)
8

Chọn lựa kiểu cho thử nghiệm

Thông thường có n thuộc tính

Thuộc tính nhị phân

Giá trị thuộc tính ở nút thử nghiệm là 0 hoặc 1

Thuộc tính phân loại ( không phải nhị phân )

Chia giá trị thuộc tính vào các tập con phân biệt và
đầy đủ
Học có giám sát với cây quyết định đơn biến
9
Chọn lựa kiểu cho thử nghiệm

Ví dụ
10

Giảm độ hỗn loạn để xây dựng cây quyết
định

Vấn đề : chọn thứ tự các thử nghiệm


Với các thuộc tính phân loại và số => chọn
giá trị thích hợp cho thử nghiệm

Giải pháp : giảm tối đa độ hỗn loạn (entropy)
Học có giám sát với cây quyết định đơn biến
11
Giảm độ hỗn loạn để xây dựng cây
quyết định
Độ hỗn loạn của các lớp trên tập được
tính bởi

là sác xuất của các mẫu trong
tập thuộc về lớp i
12
Giảm độ hỗn loạn để xây dựng cây
quyết định

Ước lượng bằng thông kê

xác suất thực tế dựa vào thống kê
trong tập thuộc về lớp i
13
Giảm độ hỗn loạn để xây dựng cây
quyết định

Thử nghiệm T có k kết quả, chia tập
thành k tập con

ni là số mẫu của nằm trong i = 1 k.


Độ hỗn loạn của thử nghiệm T trên kết
quả thứ j là

Giảm độ hỗn loạn là
14
Giảm độ hỗn loạn để xây dựng cây
quyết định

Ước lượng trung bình trên toàn bộ

: độ hỗn loạn trung bình sau khi áp
dụng T trên tập

l : xác xuất của thử nghiệm T có kết
quả thứ j
15
Giảm độ hỗn loạn để xây dựng cây
quyết định

Trung bình giảm độ hỗn loạn đạt được
sau khi áp dụng T
16
Giảm độ hỗn loạn để xây dựng cây
quyết định

Ví dụ

Ước lượng trung bình
17
Giảm độ hỗn loạn để xây dựng cây

quyết định

Giảm độ hỗn loạn trên bằng x1

Tương tự với x2 và x3

Chọn thử nghiệm với thuộc tính phân loại
là x1
18
Học có giám sát với cây Quyết định
đơn biến

Thuộc tính không phải nhị phân (non-
binary)

Vẫn sử dụng kỹ thuật trên

Đặt ngưỡng với miền giá trị thực

Chọn gom nhóm phân loại với những giá trị
phân loại
19
Giới thiệu

Cây quyết định là phương pháp suy luận qui nạp
được sử dụng và thực hành rãi nhất.

Là một phương pháp xấp xỉ hàm mục tiêu của
tập các giá trị rời rạc.


Cách biểu diễn các hàm học được

Cây quyết định hoặc

Tập các luật if-then mà người có thể đọc được.
20
Giới thiệu (tt)

Các phương pháp học được sử dụng rộng rãi:

ID3

ASSISTANT

C4.5

Nhiệm vụ của các phương pháp học:

TÌm kiếm không gian giả thuyết hoàn chỉnh

Loại bỏ khó khăn của không gian giả thuyết có giới
hạn.
21
Cách biểu diễn cây quyết định

Cây quyết định phân loại các thể hiện bằng cách
sắp xếp chúng vào một cây từ gốc đến lá

Mỗi node trong cây là một thuộc tính của các thể hiện


Mỗi nhánh là một giá trị có thể có của các thuộc tính này

Cây quyết định được sử dụng trong phân lớp bằng
cách duyệt từ nút gốc của cây cho đến khi đụng đến
nút lá, từ đó rút ra lớp của đối tượng cần xét
22
Ví dụ
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến
hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm,
không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời
tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách
hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (overcast) hoặc
mưa (raining)). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (wind) hay không. Và tất
nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.
23
Ví dụ
Day Outlook Temp. Humidity Wind Play?
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cold Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes

12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
24
Kiểm tra khi nào chơi golf, khi nào không chơi
WindHumidity
Outlook
YesNo
Yes
Sunny Overcast Rain
YesNo
High Normal Strong Weak
Ví dụ
25
Kiểm tra khi nào chơi golf, khi nào không chơi
Humidity
Outlook
YesNo
Sunny Overcast Rain
High Normal
Mỗi nút mang một thuộc tính (biến
độc lập)
Mỗi nhánh tương ứng với một
giá trị của thuộc tính
Mỗi nút lá là một lớp (biến phụ
thuộc)
Ví dụ

×