Tải bản đầy đủ (.docx) (11 trang)

Lý thuyết cây quyết định decision tree và ví dụ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 11 trang )

Cây quyết định
Cây quyết định bắt trước mức độ suy nghĩ của con người nên nó đơn
giản để hiểu và thấy được tính logic từ dữ liệu

Cây quyết định là một mơ hình học có giám sát, có thể được áp
dụng vào cả hai bài toán classification và regression. Mỗi một nút
trong (internal node) tương ứng với một biến; đường nối giữa nó với
1


nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại
diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của
các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ
thuật học máy dùng trong cây quyết định được gọi là học bằng cây
quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Có một vài thuật tốn để tạo một cây quyết định, chúng ta sẽ nói
về 2 trong số chúng:
CART (Classification and Regression Trees) → dùng Gini
Index(Classification) để kiểm tra.
ID3 (Iterative Dichotomiser 3) → dùng Entropy function và
Information gain để kiểm tra.
* Phân lớp bằng thuật toán ID3
- Ý tưởng:
2


+Tính tốn entropy của mọi thuộc tính bằng cách sử dụng tập dữ
liệu
+ Chia tập hợp thành các tập hợp con bằng cách sử dụng thuộc
tính mà entropy kết quả (sau khi tách) là nhỏ nhất


+ Tạo một nút cây quyết định có chứa thuộc tính đó
+ Đệ quy đi qua các tập hợp con bằng cách sử dụng các thuộc
tính cịn lại
Các bước:
Input: Tập dữ liệu huấn luyện D,
Tập các lớp C = {c1, c2, ..., cn} là thuộc tính đích,
Attributes = F tập tồn bộ các thuộc tính điều kiện

Step:
1. Tạo nốt gốc (root) cho cây.
2. Nếu tất cả các đối tượng x thuộc D có cùng một lớp ck, trả về

nốt gốc Root với nhãn ck.

3. Nếu khơng cịn thuộc tính điều kiện nào (Attributes = rỗng), trả

về nốt gốc Root với nhãn ck nào xuất hiện nhiều nhất trong D.

4. Nếu khơng thì:

4.1. Chọn thuộc tính A là thuộc Attributes là thuộc tính phân lớp
tốt nhất (với thuận tốn ID3 là thuộc tính phân lớp tốt nhất là
thuộc tính có độ lợi thơng tin lớn nhất) cho tập D làm nốt gốc.
4.2. Đối với mỗi giá trị v của A. Thêm một nhánh dưới nốt root
tương ứng với A = v.
4.2.1. Gọi D(v) là tập các đối tượng thuộc D có v là giá trị
cho thuộc tính A

3



4.2.2. Nếu D(v) = rỗng, thêm một nốt lá (leaf node) dưới
nhánh này với nhãn ck nào đó phổ biến nhất trong D. Ngược lại
dưới nhánh này thêm một cây con ID3(D(v), , Target −
Attribute, Attributes - {A})
5. Trả về nốt gốc Root.

Ví dụ
Tập dữ liệu :

Information Gain theo từng thuộc tính.

4


Dựng cây với nốt là thuộc tính Age.

Tiếp tục tính Information Gain cho những thuộc tính cịn lại:

5


6


1. Chọn nút gốc là Age vì có độ lợi lớn nhất
2. Các giá trị v có thể có của Age có 3 loại, vậy nên tạo ra

3 nhánh


3. Chèn vào cây con ID3 mới với mỗi v sau khi bỏ đi

thuộc tính A (đệ quy)

7


Kết luận:
Ưu điểm
Mơ hình dễ hiểu và dễ giải thích.
Cần ít dữ liệu để huẩn luyện.
Có thể xử lý tốt với dữ liệu dạng số (rời rạc và liên tục) và dữ
liệu hạng mục.
- Mơ hình dạng white box rõ ràng.
- Xây dựng nhanh.
- Phân lớp nhanh.
-

Nhược điểm
Không đảm bảo xây dựng được cây tối ưu.
Có thể overfitting (tạo ra những cây quá khớp với dữ liệu
huấn luyện hay quá phức tạp).
- Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục bằng
các sử dụng Gain Ratio).
-

Ứng dụng
Xử lý tốt dữ liệu dạng bảng biếu với số thuộc tính khơng q
lớn.
- Khơng phù hợp khi số lượng thuộc tính bùng nổ (như dữ liệu

văn bản, hình ảnh, âm thanh, video, ...)
-

8


Assigment 1 – CIS419

9


10


11



×