Tải bản đầy đủ (.pptx) (27 trang)

Giới thiệu về mô hình rừng ngẫu nhiên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 27 trang )

Giới thiệu về mô hình rừng ngẫu nhiên
GVHD: TS. Đặng Việt Hùng
1.Nguyễn Văn Long
2.Hoàng Xuân Khánh
3.Trần Trung Lý
4.Nguyễn Đình Ngọc Khoa
5.Lê Trung Dũng
Thực hiện: Nhóm 5 – K8MCS
Từ quan sát về
1 sự vật, hiện
tượng
Các kết luận
Mô hình cây quyết định?

Là mô hình phỏng đoán sử dụng một loạt quy tắc nhị phân để tính toán một giá trị
nào đó

Có hai kiểu cây quyết định: cây phân loại và cây quy hối
Ví dụ cây phân loại
Cây quyết định

Nút trong : tương ứng với 1 biến

Nhánh : trình bày cho dữ liệu thỏa mãn test

Nút lá : lớp (nhãn)
Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định
(play/no)
Cây quyết định cho tập dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity,
Windy
Chọn thuộc tính phân hoạch



Ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể

việc đánh giá dựa trên
o
độ lợi thông tin, information gain (ID3/C4.5)
o
chỉ số gini, gini index (CART)
=> Chọn thuộc tính có độ lợi thông tin lớn nhất
Độ lợi thông tin

Độ lợi thông tin : thông tin được đo lường bằng bits
o
cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy

Công thức tính entropy:
Chọn thuộc tính phân hoạch
Ví dụ : thuộc tính outlook

“Outlook” = “Sunny”:
Info([2,3] = entropy(2/5,3/5) = -2/5log(2/5) – 3/5log(3/5) = 0.971 bits

“Outlook” = “Overcast”:

Info([4,0] = entropy(1,0) = -1log(1) – 0log(0) = 0 bits

“Outlook” = “Rainy” :

Info([3,2] = entropy(3/5,2/5) = -3/5log(3/5) – 2/5log(2/5) = 0.971 bits
Thông tin của thuộc tính outlook :

Info([3,2],[4,0],[3,2]) = (5/14)*0.971 + 4/14*0 + 5/14*0.971 = 0.693 bits
Độ lợi thông tin

Độ lợi thông tinh :
(trước khi phân hoạch) – ( sau khi phân hoạch)
= info([9,5]) – info([2,3],[4,0],[3,2]) = 0.940 – 0.693
= 0.247 bits
Độ lợi thông tin

Độ lợi thông tin độ của các thuộc tính
(trước khi phân hoạch) – (sau khi phân hoạch)
o
Gain(“Outlook”) = 0.247 bits
o
Gain(“Temperature”) = 0.029 bits
o
Gain(“Humidity”) = 0.152 bits
o
Gain(“Windy”) = 0.048 bits
=> chọn thuộc tính Outlook để phân hoạch
Tiếp tục phân hoạch dữ liệu
Kết quả

Phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chưa trong
nút lá
Những ưu điểm của mô hình cây quyết định

Dễ dàng giải nghĩa các quy tắc quyết định

Dễ dàng hợp nhất với một dãy các số hoặc các lớp dữ liệu tuyệt đối. Không cần chọn dữ liệu

trước (unimodal training data)

Thô sơ nếu tính đến những những phần nằm ngoài dữ liệu chọn trước (training data)

Phân loại là quy tắc nhanh duy nhất được sử dụng
Những nhược điểm của mô hình cây quyết định

Mô hình cây dường như quá phù hợp (overfit) đối với những dữ liệu đã được chọn (training data)
vì vậy cho kết quả không tốt khi áp dụng cho tất cả các dữ liệu

Chia nhỏ theo đường vuông góc các đối tượng trên trục không gian không phải luôn mang lại
hiệu quả

Không thể dự đoán quá giới hạn nhỏ nhất và lớn nhất của biến số tương ứng trong dữ liệu đã
được chọn (training data)
Thế nào là rừng ngẫu nhiên ?

Là một lớp phân loại toàn thể sử dụng rất
nhiều mô hình cây quyết định

Có thể sử dụng phân loại hay quy hồi

Tính chính xác, sự quan trọng của biến số và
các thông tin khác được cung cấp kèm theo
kết quả
Rừng ngẫu nhiên hoạt động như thế nào?

Một tập hợp con khác nhau các dữ liệu được chọn ra (63%), thay thế, để chọn mẫu cho từng cây

Những dữ liệu được chọn mẫu còn lại (37%) được sử dụng để dự đoán lỗi và sự quan trọng của

các biến sô.

Nhóm phân loại được quyết định dựa trên số lượng bình chọn từ tất cả các cây và phép quy hồi
trung bình của các kết quả được sử dụng
Tập hợp con của các biến số

Một tập hợp con của các biến số được lựa
chọn ngẫu nhiên để chia từng điểm nút

Số lượng các biến số được dùng có thể do
người sử dụng đặt ra hoặc tính toán bằng
các thuật toán (thường là căn bậc 2 )

Tập biến nhỏ hơn thì xây dựng cây nhanh
hơn
Những biến số chung của rừng ngẫu nhiên

Dữ liệu đầu vào

Số lượng cây

Số lượng mỗi biến số sử dụng tại mỗi chổ
chia

Các lựa chọn để tính toán lỗi và các thông
tin cụ thể của biến số

Lấy mẫu có hoặc không có thay thế
Thuật toán Breiman


Thuật toán xây dựng cho mỗi cây
o
Số bản ghi của dữ liệu học là N, số biến là M.
o
Gọi m là số dữ liệu biến đầu vào dùng để phân hoạch dữ liệu tại nút của cây, m ≤ M
o
Lựa chọn tập con dữ lieuj học có n hàng. Những dữ liệu học còn lại dùng cho việc dự đoán lỗi
o
Tại mỗi nút của cây, lựa chọn ngẫu nhiên m biến, tính toán để tìm biến phân hoạch dữ liệu tốt nhất
Thông tin rừng ngẫu nhiên

Độ chính xác của việc phân loại

Sự quan trọng của biến số

Các đối tượng phía ngoài

Dự đoán các dữ liệu bị mất

Tỷ lệ lỗi đối với những đối tượng rừng phân
loại
Những ưu điểm của rừng ngẫu nhiên

Không cần đối tượng với những cây đã được cắt tỉa

Độ chính xác và sự quan trọng của các biến số tự động được tạo ra

Overfitting không phải là một vấn đề

Không quá nhạy cảm đối với những đối tượng ngoài dữ liệu được chọn


Dễ dàng thiết lập các tham số
Những hạn chế của rừng ngẫu nhiên

Phép quy hồi không thể dự đoán quá ngưỡng những dữ liệu được chọn

Trong phép quy hồi, những giá trị vượt quá thường không được dự đoán chính xác – hoặc là
đánh giá quá thấp hoặc là đánh giá quá cao
Những ứng dụng Viễn thám chung của rừng ngẫu
nhiên

Phân loại lớp phủ đất

Phân loại mây/bóng trên màn hình

Lập bàn đồ sinh khối

×