Tải bản đầy đủ (.pptx) (52 trang)

Khai phá dữ liệu thuật toán decision tree ĐH Bách Khoa HN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.75 MB, 52 trang )

LOGO

Decision tree &
instance - based
methods
Nguyễn Khánh Ngọc
Nguyễn Quang Tú
Toán – Tin Ứng Dụng 1
K54


LOGO

NỘI DUNG TRÌNH BÀY
1

Giới thiệu mô hình Cây quyết định

2

Vấn đề xây dựng cây quyết định

3

Mô phỏng mô hình sử dụng Weka

4

Lời kết



PHẦN I


PHẦN I

Phần I: Giới thiệu mô hình Cây quyết định

Định nghĩa
Một số ứng dụng
Ưu điểm của cây quyết định


PHẦN I

Phần I: Giới thiệu mô hình Cây quyết định


LOGO

CÂY QUYẾT ĐỊNH LÀ GÌ?!


Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ:

• Gốc: là node trên cùng của cây
• Node trong: biểu diễn kiểm tra trên một thuộc tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)



LOGO

Dự báo thời tiết dựa trên một số yếu tố nhiệt độ, sức
gió, độ ẩm,…


LOGO

Dự báo trong kinh doanh dựa các yếu tố chỉ số tiêu
dùng, yếu tố xã hội, sự kiện,…


LOGO

Tín dụng ngân hàng (khả năng chi trả tín dụng của
khách hàng khi vay mượn)


LOGO

ƯU ĐIỂM CÂY QUYẾT ĐỊNH

Tương đối dễ hiểu.
Tiền xử lý dữ liệu đơn giản.
Xử lý với cả các dữ liệu rời rạc và liên tục.
Mô hình hộp trắng.
Có thể thẩm định bằng thống kê.


PHẦN 2


ID3

Xây dựng
Cây quyết định
C4.5


PHẦN 2

ID3

Xây dựng
Cây quyết định
C4.5


LOGO

XÂY DỰNG CÂY QUYẾT ĐỊNH

a. Xây dựng cây: Chia một cách đệ quy tập dữ liệu chuẩn cho
đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp.
c. Cắt tỉa cây: Là việc dùng để tối ưu hóa cây. Cắt tỉa cây
chính là việc trộn một cây con vào trong một nút lá.
e. Đánh giá cây: Dùng để đánh giá độ chính xác của cây kết
quả. Tiêu chí đánh giá là tổng số mẫu được phân lớp chính
xác trên tổng số mẫu đưa vào.



Ngày

Quang cảnh

Nhiêt độ

Độ ẩm

Gió to

Kết quả

N1

Nắng

Ấm

Bình thường

Không

Thi đấu

N2

Nắng

Nóng


Cao



Không thi đấu

N3

Nắng

Nóng

Cao

Không

Không thi đấu

N4

Nắng

Ấm

Cao

Không

Không thi đấu


N5

Nắng

Lạnh

Bình thường

Không

Thi đấu

N6

Nhiều mây

Ấm

Cao



Thi đấu

N7

Nhiều mây

Nóng


Bình thường

Không

Thi đấu

N8

Nhiều mây

Lạnh

Bình thường



Thi đấu

N9

Nhiều mây

Nóng

Bình thường

Không

Thi đấu


N10

Mưa

Ấm

Cao



Không thi đấu

N11

Mưa

Lạnh

Bình thường



Không thi đấu

N12

Mưa

Ấm


Cao

Không

Thi đấu

N13

Mưa

Lạnh

Cao

Không

Thi đấu

N14

Mưa

Ấm

Cao

Không

Thi đấu


Bảng 1: Tập dữ liệu về thi đấu bóng đá lớp Toán-Tin Ứng Dụng 1


Hình 1: Minh họa phương pháp Hunt


LOGO

THUỘC TÍNH PHÂN LỚP?!


LOGO

Hình 2: Một cây quyết định chọn Nhiệt độ làm gốc


LOGO

2.1. Giới thiệu giải thuật
 Tại mỗi đỉnh của cây, một thuộc tính có Information Gains
lớn nhất sẽ được chọn để phân chia tập đối tượng.
 Quá trình này sẽ được thực hiện một cách đệ qui cho đến
khi một tập đối tượng tại một cây con đã trở nên thuần nhất,
tức là nó chỉ chứa các đối tượng về cùng môt lớp, lớp này sẽ
trở thành một lá của cây.


LOGO

Như vậy, nhiệm vụ của giải thuật ID3 là xây dựng cây quyết

định từ một tập các dữ liệu học. Nói khác hơn, giải thuật có:
• Đầu vào: Một tập hợp mẫu dữ liệu học. Mỗi ví dụ bao gồm
các thuộc tính mô tả một tình huống, hay một đối tượng nào
đó, và một giá trị phân loại của nó.
• Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các
ví dụ trong tập dữ liệu.


LOGO

2.2. Lựa chọn thuộc tính phân loại tốt nhất

trong đó Value(A) là tập tất cả các giá trị có thể đối với thuộc
tính A, và là tập con của S mà A có giá trị là .


Gọi S là tập các ca dữ liệu, trong đó:

là tỉ lệ các ca dương tính trong S (Ví dụ Thi đấu)

là tỉ lệ các ca âm tính trong S (Ví dụ Không thi đấu)

Entropy(S) = −P+ log 2 P+ − P− log 2 P−
Trường hợp tổng quát, nếu S bao gồm c lớp, thì Entropy của
S được tính bằng công thức sau:

trong đó

là tỉ lệ của các ca thuộc lớp i trong tập S.



LOGO

Ví dụ 1. Trong Bảng 1 của ví dụ thi đấu bóng đá trên
thì tập S có 9 ca dương và 5 ca âm (ký hiệu là [9+,5-]).


LOGO

Giá trị thuộc tính
(Nhiệt độ)

Lớp
Không thi đấu

Giá trị thuộc tính
(Quang cảnh)

Thi đấu

Lạnh

Thi đấu

Không thi đấu

3

1


Nắng

2

3

Ấm

4

2

Nhiều mây

4

0

Nóng

2

2

Mưa

3

2


Thi đấu

Không thi đấu

Lớp

Lớp

Giá trị thuộc tính
(Độ ẩm)

Thi đấu

Không thi đấu

Giá trị thuộc tính
(Gió to)

Lớp

Bình thường

5

1



2


3

Cao

4

4

Không

7

2

Bảng 2: Thông tin phân bố lớp của các thuộc tính tương ứng


LOGO

Ví dụ 2.

Value(Gió to)={true,false}, S=[9+,5-]
là đỉnh con với giá trị “true”, bằng [2+,3-]
là đỉnh con với giá trị là “false”, bằng [7+,2-]


×