Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 22 trang )

Nhóm: 2
Cắt tỉa cây tối đa
bằng phương pháp minimal cost-complexity
1. Vấn đề “Overfitting” trong xây dựng cây tối đa.
2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp.
3. Tránh “overfitting” bằng phương pháp xác thực chéo
4. Lựa chọn cây tối ưu theo quy tắc 1SE (one standard error)
Nội dung báo cáo

Quá khớp dữ liệu (overfitting) là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy
tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác lại giảm.

Cho một không gian H, quá khớp với tập dữ liệu huấn luyện nếu tồn tại sao cho :
◦
h có tỉ lệ lỗi thấp hơn h’ với tập dữ liệu huấn luyện.
◦
h’ có tỉ lệ lỗi thấp hơn h với dữ liệu tổng quát.
1. Vấn đề “Overfitting”


Thống kê độ chính xác của cây quyết định

Do bộ dữ liệu test có nhiễu.

Số lượng dữ liệu đem đi huấn luyện quá ít

Dữ liệu huấn luyện chỉ nghiêng về một đặc trưng nào đó thôi chứ không bao quát toàn bộ các trường hợp
Nguyên nhân quá khớp dữ liệu:

Cách giải quyết:
◦ Dừng phát triển cây trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu, yêu cầu là phải ước lượng chính xác thời điểm

dừng phát triển.
◦
Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây

Trong thực tế ta sử dụng phương pháp 2, việc cắt tỉa cây giúp tổng quát hóa, cải thiện độ chính xác của mô hình phân lớp.

Kích thước bộ dữ liệu tăng sẽ dẫn đến tăng độ phức tạp của cây mặc dù nó không cải thiện được nhiều tỉ lệ phân loại sai.
Phương pháp tránh “quá khớp” dữ liệu:
Cắt tỉa cây tối đa

Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp R
a
(T) :

Ta cần tìm cây tối ưu sao cho:

T
max
không phải là điểm khởi đầu tốt để tính toán giá trị , ta sẽ lược bớt cây T
max
để thu được cây con T
1
có tỉ lệ lỗi R(T
1
) =
R(T
max
) nhưng có độ phức tạp nhỏ hơn.



2.
Phương pháp cắt tỉa tối thiểu chi phí phức tạp






Lược bớt cây tối đa


Gọi T
t
là nhánh con bắt nguồn từ node cha t, ta định nghĩa R(T
t
) là tỉ lệ lỗi resubstitution của nhánh:

là số node lá của nhánh T
t

Nếu t không phải node cuối hay node nội bộ của cây T
1
, và tỉ lệ lỗi R(t) > R(T
t
) chúng ta có thể thay thế nhánh T
t
bằng node
t để tăng tỉ lệ lỗi resubstitution
Tăng tỉ lệ lỗi resubstitution:


t


Ta định nghĩa hàm liên kết g(t) cho 1 node :

Liên kết yếu nhất trong T
1
là của node có:

là giá trị tham số phức tạp cho cây con tỉa ký hiệu là α
2
. Cây ký hiệu là T
2
.

Quá trình này được lặp lại cho đến khi được cây T
n
chỉ còn node gốc ta có các chuỗi cây và các giá trị tăng dần



Cắt tỉa liên kết yếu nhất







Quá trình tỉa cây


Để tránh hiện tượng overfitting giá trị α sẽ được tính toán dựa trên phương pháp xác thực chéo
3 Phương pháp xác thực chéo (Cross-validation)

Dữ liệu sẽ được chia thành V phần bằng nhau

V- 1 tập con sẽ được dùng để xây dựng cây phân loại, tập còn lại dùng
để test

Quá trình được lặp lại N lần.
Phương pháp xác thực chéo

Xây dựng cây trên tập dữ liệu đầy đủ và tính các giá trị và T
1
> T
2
> … > T
K
, T
k
là cây con nhỏ nhất với

Đặt :
◦
là giá trị đại diện cho
◦
tương ứng với T
k

◦



Bước 1: (Cross-validation)



Chia dữ liệu thành V nhóm G
1
, G
2
, …, G
v
(kích thước bằng nhau) và cho mỗi nhóm G
j
:
◦
Tính toán chuỗi cây với cost-complexity pruning cho tất cả tập dữ liệu trừ G
j
và xác định cho chuỗi này.
◦
Tính sai số của trên G
j.


Bước 2: (Cross-validation)


Đối với mỗi β
k
, tính tổng các lỗi của trên G

j
(j =1,…,v).

Cho β
h
là giá trị có tổng lỗi nhỏ nhất, ta sẽ chọn T
h
tương ứng là cây tốt nhất.

Sử dụng lỗi tính được bằng phương pháp xác thực chéo như một ước tính tỉ lệ lỗi cho cây.


Bước 3: (Cross-validation)

β
2
có giá trị nhỏ nhất với 40 lỗi nên cây T
2
được chọn.

Tỉ lệ lỗi tính đươc trên T
2
là 20%
Ví dụ:

Với một số bộ dữ liệu cách tỉa cây con bằng tối thiểu là không ổn định

Những thay đổi nhỏ trong giá trị tham số hay dữ liệu cho mỗi lần xác thực chéo có thể cho kết quả T
final
rất khác nhau


Ta sử dụng quy tắc 1SE để giảm sự bất ổn trong việc lựa chọn cây cuối cùng
Sự bất ổn trong lựa chọn cây tối ưu

Kết quả khi chưa sử dụng quy tắc 1SE

Gọi N tổng số trường hợp trong dữ liệu gốc. Ước tính sai số chuẩn cho được định nghĩa:

Việc lựa chọn T
final
theo quy tắc 1SE phải thỏa mãn:


Quy tắc 1SE (one standard error)


Lựa chọn bằng quy tắc 1SE

Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về