Giới thiệu về mô hình rừng ngẫu nhiên
GVHD: TS. Đặng Việt Hùng
1.Nguyễn Văn Long
2.Hoàng Xuân Khánh
3.Trần Trung Lý
4.Nguyễn Đình Ngọc Khoa
5.Lê Trung Dũng
Thực hiện: Nhóm 5 – K8MCS
Từ quan sát về
1 sự vật, hiện
tượng
Các kết luận
Mô hình cây quyết định?
•
Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị
nào đó
•
Có hai kiểu cây quyết định: cây phân loại và cây quy hối
Ví dụ cây phân loại
Cây quyết định
•
Nút trong : tương ứng với 1 biến
•
Nhánh : trình bày cho dữ liệu thỏa mãn test
•
Nút lá : lớp (nhãn)
Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định
(play/no)
Cây quyết định cho tập dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity,
Windy
Chọn thuộc tính phân hoạch
•
Ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể
•
việc đánh giá dựa trên
o
độ lợi thông tin, information gain (ID3/C4.5)
o
chỉ số gini, gini index (CART)
=> Chọn thuộc tính có độ lợi thông tin lớn nhất
Độ lợi thông tin
•
Độ lợi thông tin : thông tin được đo lường bằng bits
o
cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy
•
Công thức tính entropy:
Chọn thuộc tính phân hoạch
Ví dụ : thuộc tính outlook
•
“Outlook” = “Sunny”:
Info([2,3] = entropy(2/5,3/5) = -2/5log(2/5) – 3/5log(3/5) = 0.971 bits
•
“Outlook” = “Overcast”:
Info([4,0] = entropy(1,0) = -1log(1) – 0log(0) = 0 bits
•
“Outlook” = “Rainy” :
Info([3,2] = entropy(3/5,2/5) = -3/5log(3/5) – 2/5log(2/5) = 0.971 bits
Thông tin của thuộc tính outlook :
Info([3,2],[4,0],[3,2]) = (5/14)*0.971 + 4/14*0 + 5/14*0.971 = 0.693 bits
Độ lợi thông tin
•
Độ lợi thông tinh :
(trước khi phân hoạch) – ( sau khi phân hoạch)
= info([9,5]) – info([2,3],[4,0],[3,2]) = 0.940 – 0.693
= 0.247 bits
Độ lợi thông tin
•
Độ lợi thông tin độ của các thuộc tính
(trước khi phân hoạch) – (sau khi phân hoạch)
o
Gain(“Outlook”) = 0.247 bits
o
Gain(“Temperature”) = 0.029 bits
o
Gain(“Humidity”) = 0.152 bits
o
Gain(“Windy”) = 0.048 bits
=> chọn thuộc tính Outlook để phân hoạch
Tiếp tục phân hoạch dữ liệu
Kết quả
•
Phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chưa trong
nút lá
Những ưu điểm của mô hình cây quyết định
•
Dễ dàng giải nghĩa các quy tắc quyết định
•
Dễ dàng hợp nhất với một dãy các số hoặc các lớp dữ liệu tuyệt đối. Không cần chọn dữ liệu
trước (unimodal training data)
•
Thô sơ nếu tính đến những những phần nằm ngoài dữ liệu chọn trước (training data)
•
Phân loại là quy tắc nhanh duy nhất được sử dụng
Những nhược điểm của mô hình cây quyết định
•
Mô hình cây dường như quá phù hợp (overfit) đối với những dữ liệu đã được chọn (training data)
vì vậy cho kết quả không tốt khi áp dụng cho tất cả các dữ liệu
•
Chia nhỏ theo đường vuông góc các đối tượng trên trục không gian không phải luôn mang lại
hiệu quả
•
Không thể dự đoán quá giới hạn nhỏ nhất và lớn nhất của biến số tương ứng trong dữ liệu đã
được chọn (training data)
Thế nào là rừng ngẫu nhiên ?
•
Là một lớp phân loại toàn thể sử dụng rất
nhiều mô hình cây quyết định
•
Có thể sử dụng phân loại hay quy hồi
•
Tính chính xác, sự quan trọng của biến số và
các thông tin khác được cung cấp kèm theo
kết quả
Rừng ngẫu nhiên hoạt động như thế nào?
•
Một tập hợp con khác nhau các dữ liệu được chọn ra (63%), thay thế, để chọn mẫu cho từng cây
•
Những dữ liệu được chọn mẫu còn lại (37%) được sử dụng để dự đoán lỗi và sự quan trọng của
các biến sô.
•
Nhóm phân loại được quyết định dựa trên số lượng bình chọn từ tất cả các cây và phép quy hồi
trung bình của các kết quả được sử dụng
Tập hợp con của các biến số
•
Một tập hợp con của các biến số được lựa
chọn ngẫu nhiên để chia từng điểm nút
•
Số lượng các biến số được dùng có thể do
người sử dụng đặt ra hoặc tính toán bằng
các thuật toán (thường là căn bậc 2 )
•
Tập biến nhỏ hơn thì xây dựng cây nhanh
hơn
Những biến số chung của rừng ngẫu nhiên
•
Dữ liệu đầu vào
•
Số lượng cây
•
Số lượng mỗi biến số sử dụng tại mỗi chổ
chia
•
Các lựa chọn để tính toán lỗi và các thông
tin cụ thể của biến số
•
Lấy mẫu có hoặc không có thay thế
Thuật toán Breiman
•
Thuật toán xây dựng cho mỗi cây
o
Số bản ghi của dữ liệu học là N, số biến là M.
o
Gọi m là số dữ liệu biến đầu vào dùng để phân hoạch dữ liệu tại nút của cây, m ≤ M
o
Lựa chọn tập con dữ lieuj học có n hàng. Những dữ liệu học còn lại dùng cho việc dự đoán lỗi
o
Tại mỗi nút của cây, lựa chọn ngẫu nhiên m biến, tính toán để tìm biến phân hoạch dữ liệu tốt nhất
Thông tin rừng ngẫu nhiên
•
Độ chính xác của việc phân loại
•
Sự quan trọng của biến số
•
Các đối tượng phía ngoài
•
Dự đoán các dữ liệu bị mất
•
Tỷ lệ lỗi đối với những đối tượng rừng phân
loại
Những ưu điểm của rừng ngẫu nhiên
•
Không cần đối tượng với những cây đã được cắt tỉa
•
Độ chính xác và sự quan trọng của các biến số tự động được tạo ra
•
Overfitting không phải là một vấn đề
•
Không quá nhạy cảm đối với những đối tượng ngoài dữ liệu được chọn
•
Dễ dàng thiết lập các tham số
Những hạn chế của rừng ngẫu nhiên
•
Phép quy hồi không thể dự đoán quá ngưỡng những dữ liệu được chọn
•
Trong phép quy hồi, những giá trị vượt quá thường không được dự đoán chính xác – hoặc là
đánh giá quá thấp hoặc là đánh giá quá cao
Những ứng dụng Viễn thám chung của rừng ngẫu
nhiên
•
Phân loại lớp phủ đất
•
Phân loại mây/bóng trên màn hình
•
Lập bàn đồ sinh khối