Tải bản đầy đủ (.pptx) (36 trang)

kỹ thuật khai phá dữ liệu cây quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 36 trang )

<span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

THÀNH VIÊN NHĨM 11

ID3, C4.5

NGƠ TRƯƠNG HỒNG NGỌC

Phân loại dữ liệu, dự

đốn và các lĩnh vực phổ biến

PHAN THỊ HỒNG THÚY

Giới thiệu khai phá dữ liệu và cây quyết định

PHẠM THÚY DIỄM QUỲNH

<small>02</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

ỨNG DỤNG

Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng

0304

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

SỰ CẦN THIẾT CỦA KHAI PHÁ DỮ LIỆU TRONG THỜI ĐẠI SỐ HĨA

• Mọi dữ liệu hàng ngày đều được <sub>thu thập</sub> và trở thành phần của big data.

• Bigdata khơng chỉ hỗ trợ nghiên cứu khoa học mà cịn phân tích hành vi tiêu dùng, từ đó mang lại lợi ích cho cả doanh nghiệp và khách hàng.

• Dữ liệu - được mệnh danh là <sub>“dầu mỏ mới”</sub>.

• Nâng cao khả năng cạnh tranh, đóng góp vào sự tiến bộ và phát triển bền vững của xã hội.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

• Hỗ trợ ra quyết định dựa trên dữ liệu

VAI TRÒ QUAN TRỌNG CỦA CÂY QUYẾT ĐỊNH

TRONG KHAI PHÁ DỮ LIỆU

• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu

• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu

(Nguồn: Viblo)

<small>06</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

CÂY QUYẾT ĐỊNH

ĐỊNH NGHĨA

Tạo mơ hình dự đoán giá trị của biến mục tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ đặc điểm dữ liệu

MỤC TIÊU

Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm

CẤU TRÚC

Mỗi nút bên trong biểu thị tính năng, các nhánh

biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật tốn.Một thuật tốn máy học

có giám sát, phân loại và hồi quy

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

CÁC BƯỚC TẠO CÂY QUYẾT ĐỊNH

Tìm thuộc tính tốt nhất

BƯỚC 02

Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc

phân loại được dự đoán

BƯỚC 05

Chia “nút gốc” thành các tập con

BƯỚC 03

Thuật toán bắt đầu ở trên cùng, “nút gốc”, đại diện cho toàn bộ tập

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

THUẬT TOÁN

CÂY QUYẾT ĐỊNH

ID3, C4.5, CART,...

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

THUẬT TỐN ID3

Information Gain

Entropy

• H(p) là phân phối xác suất của các giá trị khác nhau mà biến rời rạc có thể nhận• ( pi ) là xác suất của giá trị thứ ( i ).

• H(S) là Entropy của toàn bộ tập dữ liệu ( S )

• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )

<small>12</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

THUẬT TỐN C4.5

SPLITINFOR Gain Ratio

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

THUẬT TỐN CLS

• Đơn giản, dễ cài đặt

• Thiết kế theo chiến lược chia để trị từ trên xuống

• Áp dụng cho các CSDL số lượng các thuộc tính nhỏ

• CSDL lớn và chứa các thuộc tính mà giá trị của nó là liên tục thì CLS làm việc ít hiệu quả

<small>14</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

ỨNG DỤNG

CÂY QUYẾT ĐỊNH

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

PHÂN LOẠI DỮ LIỆU

Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị)

PHÂN LOẠI DỮ LIỆU VĂN BẢN

Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)

PHÂN LOẠI KHÁCH HÀNG

Mơ hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học (Đào Việt Anh)

PHÂN LOẠI ỨNG VIÊN

<small>16</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

DỰ ĐOÁN QUYẾT ĐỊNH

Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)

DỰ DỐN RỦI RO TÍN

Hệ thống chuẩn đoán bệnh tự kỷ sử dụng cây quyết định. (Nguyễn Văn Hiệu , Đỗ Thị Thu Hà)

DỰ ĐOÁN BỆNH LÝ

Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học (Nguyễn Văn

DỰ ĐOÁN NGÀNH HỌC

PHÙ HỢP

<sub>Ứng dụng cây quyết </sub>

định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)

TỐI ƯU HÓA QUYẾT ĐỊNH

KINH DOAN

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

ỨNG DỤNG CỦA CÂY QUYẾT ĐỊNH

LĨNH VỰC ỨNG DỤNG PHỔ BIẾN

Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ dịch vụ tại ngân hàng thương mại (Vũ Văn Hiệu, Trương Hải Nam)

TIẾP THỊ

Nghiên cứu các mơ hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng (Quan Toại Mẫn)

TÀI CHÍNH

Ứng dụng kỹ thuật học máy vào phân loại bệnh tim (Trần Đình Tồn, Dương Thị Mộng Thùy)

Y TẾ

Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)

NÔNG NGHIỆP

<small>18</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

HÀNH VI MUA SẮM TRỰC TUYẾN

CỦA KHÁCH HÀNG

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

MÔI TRƯỜNG THỰC HIỆN

Công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu.

Giao diện người dùng đồ họa dễ sử dụng, cho phép người dùng thực hiện các công việc phức tạp trong phân tích dữ liệu mà khơng cần kiến thức sâu về lập trình.

<small>20</small>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

TẬP DỮ LIỆU

Lấy từ UCI Machine Learning.

Trong đó có 10422 khách hàng chưa hoàn tất giao dịch chiếm 84,5% được gán nhãn Revenue là 1 và 1908 khách hàng hoàn tất giao dịch chiến 15,5% được gán nhãn Revenue là 0.

Tập dữ liệu chức 18 thuộc tính và 12330 dịng dữ liệu

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Bỏ qua các đặc trưng không cần thiết

XỬ LÝ DỮ LIỆU

<small>22</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Lựa chọn Revenue làm biến mục tiêu

XỬ LÝ DỮ LIỆU

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Kiểm tra dữ liệu có 0,1% chứa các giá trị trống

XỬ LÝ DỮ LIỆU

<small>24</small>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Sử dụng tính năng Impute để loại bỏ dữ liệu trống.

XỬ LÝ DỮ LIỆU

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Xóa outlier bằng phương thức One class SVM

XỬ LÝ DỮ LIỆU

<small>26</small>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Sau khi loại bỏ outlier dữ liệu còn 6156 dòng

XỬ LÝ DỮ LIỆU

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

TRIỂN KHAI MƠ HÌNH

Chia tập dữ liệu thành tập train và tập test bằng tính năng Data Sample với tỷ lệ 80/20

4927 dịng làm tập train

<small>28</small>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Tạo ra một cây quyết định nhị phân

Số lượng tối thiểu của các mẫu trong lá

TRIỂN KHAI MƠ HÌNH

xác định giới hạn cho độ sâu tối đa của cây quyết định

Không chia tập con nhỏ hơn

Dừng lại khi một phần lớn của các mẫu trong một nút thuộc vào cùng một lớp

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

KẾT QUẢ

Sử dụng tính năng Tree View để xuất kết quả cho thấy có 287 nút và 144 lá

<small>30</small>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

False Positive True Positive

ĐÁNH GIÁ KẾT QUẢ

False Negative

True Negative

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

ĐÁNH GIÁ KẾT QUẢ

Đánh giá trên tập testChỉ số đánh giá

<small>32</small>

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

ĐÁNH GIÁ KẾT QUẢ

Độ chuẩnPrecision

F1-scoreĐộ chính xác

Đường cong ROC

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

TÀI LIỆU THAM KHẢO

<small>• [1] Đ. V. Anh, “Mơ hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học,” 2019.</small>

<small>• [2] N. V. Hiệu, Đ. T. T. Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.</small>

<small>• [18] N. T. T. Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,” 2011.</small>

<small>• [3] N. V. Chức, T. T. K. Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đốn bệnh đái tháo đường,” 2014.</small>

<small>• [4] Q. T. Mẫn, “Nghiên cứu các mơ hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng,” 2023. [Trực tuyến]. Available:</small>

<small>• [Đã truy cập 30 April 2024].</small>

<small>• [5] T. Đ. Tồn, D. T. M. Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.</small>

<small>• [6] N. H. Cường (2018). Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương. Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93. </small>

<small>• [7] Đ. V. Nam, N. T. P. Bắc, N. T. H. Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển dụng nhân sự,” 2018.</small>

<small>• [8] N. V. Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học," 2014.</small>

<small>• [9] N. D. Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại,” 2014.</small>

<small>• [10] H. P. Toàn, N. V. Lâm, N. M. Trung, Đ. T. Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết </small>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

f o r l i s t e n i n g

</div>

×