LOGO
Decision tree &
instance - based
methods
Nguyễn Khánh Ngọc
Nguyễn Quang Tú
Toán – Tin Ứng Dụng 1
K54
LOGO
NỘI DUNG TRÌNH BÀY
1
Giới thiệu mô hình Cây quyết định
2
Vấn đề xây dựng cây quyết định
3
Mô phỏng mô hình sử dụng Weka
4
Lời kết
PHẦN I
PHẦN I
Phần I: Giới thiệu mô hình Cây quyết định
Định nghĩa
Một số ứng dụng
Ưu điểm của cây quyết định
PHẦN I
Phần I: Giới thiệu mô hình Cây quyết định
LOGO
CÂY QUYẾT ĐỊNH LÀ GÌ?!
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn kiểm tra trên một thuộc tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
LOGO
Dự báo thời tiết dựa trên một số yếu tố nhiệt độ, sức
gió, độ ẩm,…
LOGO
Dự báo trong kinh doanh dựa các yếu tố chỉ số tiêu
dùng, yếu tố xã hội, sự kiện,…
LOGO
Tín dụng ngân hàng (khả năng chi trả tín dụng của
khách hàng khi vay mượn)
LOGO
ƯU ĐIỂM CÂY QUYẾT ĐỊNH
Tương đối dễ hiểu.
Tiền xử lý dữ liệu đơn giản.
Xử lý với cả các dữ liệu rời rạc và liên tục.
Mô hình hộp trắng.
Có thể thẩm định bằng thống kê.
PHẦN 2
ID3
Xây dựng
Cây quyết định
C4.5
PHẦN 2
ID3
Xây dựng
Cây quyết định
C4.5
LOGO
XÂY DỰNG CÂY QUYẾT ĐỊNH
a. Xây dựng cây: Chia một cách đệ quy tập dữ liệu chuẩn cho
đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp.
c. Cắt tỉa cây: Là việc dùng để tối ưu hóa cây. Cắt tỉa cây
chính là việc trộn một cây con vào trong một nút lá.
e. Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết
quả. Tiêu chí đánh giá là tổng số mẫu được phân lớp chính
xác trên tổng số mẫu đưa vào.
Ngày
Quang cảnh
Nhiêt độ
Độ ẩm
Gió to
Kết quả
N1
Nắng
Ấm
Bình thường
Không
Thi đấu
N2
Nắng
Nóng
Cao
Có
Không thi đấu
N3
Nắng
Nóng
Cao
Không
Không thi đấu
N4
Nắng
Ấm
Cao
Không
Không thi đấu
N5
Nắng
Lạnh
Bình thường
Không
Thi đấu
N6
Nhiều mây
Ấm
Cao
Có
Thi đấu
N7
Nhiều mây
Nóng
Bình thường
Không
Thi đấu
N8
Nhiều mây
Lạnh
Bình thường
Có
Thi đấu
N9
Nhiều mây
Nóng
Bình thường
Không
Thi đấu
N10
Mưa
Ấm
Cao
Có
Không thi đấu
N11
Mưa
Lạnh
Bình thường
Có
Không thi đấu
N12
Mưa
Ấm
Cao
Không
Thi đấu
N13
Mưa
Lạnh
Cao
Không
Thi đấu
N14
Mưa
Ấm
Cao
Không
Thi đấu
Bảng 1: Tập dữ liệu về thi đấu bóng đá lớp Toán-Tin Ứng Dụng 1
Hình 1: Minh họa phương pháp Hunt
LOGO
THUỘC TÍNH PHÂN LỚP?!
LOGO
Hình 2: Một cây quyết định chọn Nhiệt độ làm gốc
LOGO
2.1. Giới thiệu giải thuật
Tại mỗi đỉnh của cây, một thuộc tính có Information Gains
lớn nhất sẽ được chọn để phân chia tập đối tượng.
Quá trình này sẽ được thực hiện một cách đệ qui cho đến
khi một tập đối tượng tại một cây con đã trở nên thuần nhất,
tức là nó chỉ chứa các đối tượng về cùng môt lớp, lớp này sẽ
trở thành một lá của cây.
LOGO
Như vậy, nhiệm vụ của giải thuật ID3 là xây dựng cây quyết
định từ một tập các dữ liệu học. Nói khác hơn, giải thuật có:
• Đầu vào: Một tập hợp mẫu dữ liệu học. Mỗi ví dụ bao gồm
các thuộc tính mô tả một tình huống, hay một đối tượng nào
đó, và một giá trị phân loại của nó.
• Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các
ví dụ trong tập dữ liệu.
LOGO
2.2. Lựa chọn thuộc tính phân loại tốt nhất
trong đó Value(A) là tập tất cả các giá trị có thể đối với thuộc
tính A, và là tập con của S mà A có giá trị là .
Gọi S là tập các ca dữ liệu, trong đó:
•
là tỉ lệ các ca dương tính trong S (Ví dụ Thi đấu)
•
là tỉ lệ các ca âm tính trong S (Ví dụ Không thi đấu)
Entropy(S) = −P+ log 2 P+ − P− log 2 P−
Trường hợp tổng quát, nếu S bao gồm c lớp, thì Entropy của
S được tính bằng công thức sau:
trong đó
là tỉ lệ của các ca thuộc lớp i trong tập S.
LOGO
Ví dụ 1. Trong Bảng 1 của ví dụ thi đấu bóng đá trên
thì tập S có 9 ca dương và 5 ca âm (ký hiệu là [9+,5-]).
LOGO
Giá trị thuộc tính
(Nhiệt độ)
Lớp
Không thi đấu
Giá trị thuộc tính
(Quang cảnh)
Thi đấu
Lạnh
Thi đấu
Không thi đấu
3
1
Nắng
2
3
Ấm
4
2
Nhiều mây
4
0
Nóng
2
2
Mưa
3
2
Thi đấu
Không thi đấu
Lớp
Lớp
Giá trị thuộc tính
(Độ ẩm)
Thi đấu
Không thi đấu
Giá trị thuộc tính
(Gió to)
Lớp
Bình thường
5
1
Có
2
3
Cao
4
4
Không
7
2
Bảng 2: Thông tin phân bố lớp của các thuộc tính tương ứng
LOGO
Ví dụ 2.
Value(Gió to)={true,false}, S=[9+,5-]
là đỉnh con với giá trị “true”, bằng [2+,3-]
là đỉnh con với giá trị là “false”, bằng [7+,2-]