Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 36 trang )
<span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">
ID3, C4.5
Phân loại dữ liệu, dự
đốn và các lĩnh vực phổ biến
Giới thiệu khai phá dữ liệu và cây quyết định
<small>02</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Dự đoán tỷ lệ rời bỏ khách hàng của ngân hàng
• Mọi dữ liệu hàng ngày đều được <sub>thu thập</sub> và trở thành phần của big data.
• Bigdata khơng chỉ hỗ trợ nghiên cứu khoa học mà cịn phân tích hành vi tiêu dùng, từ đó mang lại lợi ích cho cả doanh nghiệp và khách hàng.
• Dữ liệu - được mệnh danh là <sub>“dầu mỏ mới”</sub>.
• Nâng cao khả năng cạnh tranh, đóng góp vào sự tiến bộ và phát triển bền vững của xã hội.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">• Hỗ trợ ra quyết định dựa trên dữ liệu
• Diễn giải cao, cung cấp một cách tiếp cận trực quan, dễ hiểu
• Giúp “nhìn thấy” thông tin và “hiểu được” dữ liệu
(Nguồn: Viblo)
<small>06</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Tạo mơ hình dự đoán giá trị của biến mục tiêu bằng cách tìm hiểu các quy tắc quyết định đơn giản được suy ra từ đặc điểm dữ liệu
Cấu trúc phân cấp, dễ dàng điều hướng và tìm kiếm
Mỗi nút bên trong biểu thị tính năng, các nhánh
biểu thị các quy tắc và các nút lá biểu thị kết quả của thuật tốn.Một thuật tốn máy học
có giám sát, phân loại và hồi quy
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Tìm thuộc tính tốt nhất
Tạo đệ quy các cây quyết định mới, “nút lá” cuối cùng, đại diện cho các kết quả hoặc
phân loại được dự đoán
Chia “nút gốc” thành các tập con
Thuật toán bắt đầu ở trên cùng, “nút gốc”, đại diện cho toàn bộ tập
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">ID3, C4.5, CART,...
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">• H(p) là phân phối xác suất của các giá trị khác nhau mà biến rời rạc có thể nhận• ( pi ) là xác suất của giá trị thứ ( i ).
• H(S) là Entropy của toàn bộ tập dữ liệu ( S )
• H(f, S) là Entropy khi chia tập ( S ) dựa trên thuộc tính ( f )
<small>12</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">• Đơn giản, dễ cài đặt
• Thiết kế theo chiến lược chia để trị từ trên xuống
• Áp dụng cho các CSDL số lượng các thuộc tính nhỏ
• CSDL lớn và chứa các thuộc tính mà giá trị của nó là liên tục thì CLS làm việc ít hiệu quả
<small>14</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Phân loại thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ Thanh Nghị)
Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)
Mơ hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học (Đào Việt Anh)
<small>16</small>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng (Nguyễn Thị Tâm Minh)
Hệ thống chuẩn đoán bệnh tự kỷ sử dụng cây quyết định. (Nguyễn Văn Hiệu , Đỗ Thị Thu Hà)
Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học (Nguyễn Văn
định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại (Nguyễn Dương Hùng)
Ứng dụng phân lớp dữ liệu trong dự báo khách hàng rời bỏ dịch vụ tại ngân hàng thương mại (Vũ Văn Hiệu, Trương Hải Nam)
Nghiên cứu các mơ hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng (Quan Toại Mẫn)
Ứng dụng kỹ thuật học máy vào phân loại bệnh tim (Trần Đình Tồn, Dương Thị Mộng Thùy)
Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương (Nguyễn Hữu Cường)
<small>18</small>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu.
Giao diện người dùng đồ họa dễ sử dụng, cho phép người dùng thực hiện các công việc phức tạp trong phân tích dữ liệu mà khơng cần kiến thức sâu về lập trình.
<small>20</small>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Lấy từ UCI Machine Learning.
Trong đó có 10422 khách hàng chưa hoàn tất giao dịch chiếm 84,5% được gán nhãn Revenue là 1 và 1908 khách hàng hoàn tất giao dịch chiến 15,5% được gán nhãn Revenue là 0.
Tập dữ liệu chức 18 thuộc tính và 12330 dịng dữ liệu
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Bỏ qua các đặc trưng không cần thiết
<small>22</small>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">Lựa chọn Revenue làm biến mục tiêu
Kiểm tra dữ liệu có 0,1% chứa các giá trị trống
<small>24</small>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">Sử dụng tính năng Impute để loại bỏ dữ liệu trống.
Xóa outlier bằng phương thức One class SVM
<small>26</small>
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">Sau khi loại bỏ outlier dữ liệu còn 6156 dòng
Chia tập dữ liệu thành tập train và tập test bằng tính năng Data Sample với tỷ lệ 80/20
4927 dịng làm tập train
<small>28</small>
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">Tạo ra một cây quyết định nhị phân
Số lượng tối thiểu của các mẫu trong lá
xác định giới hạn cho độ sâu tối đa của cây quyết định
Không chia tập con nhỏ hơn
Dừng lại khi một phần lớn của các mẫu trong một nút thuộc vào cùng một lớp
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">Sử dụng tính năng Tree View để xuất kết quả cho thấy có 287 nút và 144 lá
<small>30</small>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">False Positive True Positive
False Negative
True Negative
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">Đánh giá trên tập testChỉ số đánh giá
<small>32</small>
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">Độ chuẩnPrecision
F1-scoreĐộ chính xác
Đường cong ROC
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35"><small>• [1] Đ. V. Anh, “Mơ hình phân loại sử dụng cây quyết định áp dụng cho hệ thống tuyển sinh của trường đại học,” 2019.</small>
<small>• [2] N. V. Hiệu, Đ. T. T. Hà, “Hệ thống chẩn đoán bệnh tự kỷ sử dụng cây quyết định,” 2015.</small>
<small>• [18] N. T. T. Minh, “Ứng dụng cây quyết định để dự đoán chỉ số nhóm nợ hỗ trợ quản lý rủi ro tín dụng,” 2011.</small>
<small>• [3] N. V. Chức, T. T. K. Hằng, “Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự đốn bệnh đái tháo đường,” 2014.</small>
<small>• [4] Q. T. Mẫn, “Nghiên cứu các mơ hình học máy dự đoán khả năng vỡ nợ của khách hàng doanh nghiệp tại ngân hàng,” 2023. [Trực tuyến]. Available:</small>
<small>• [Đã truy cập 30 April 2024].</small>
<small>• [5] T. Đ. Tồn, D. T. M. Thùy, “Ứng dụng kỹ thuật máy học vào phân loại bệnh tim, 2022.</small>
<small>• [6] N. H. Cường (2018). Ứng dụng kỹ thuật khai phá dữ liệu đánh giá thích nghi đất đai cây cao su trên địa bàn huyện Phú Giáo, tỉnh Bình Dương. Tạp chí Khoa học Đại học cần Thơ, 54(3), 84-93. </small>
<small>• [7] Đ. V. Nam, N. T. P. Bắc, N. T. H. Yến, “Nghiên cứu và sử dụng cây quyết định trong bài toán tuyển dụng nhân sự,” 2018.</small>
<small>• [8] N. V. Chức, "Ứng dụng kỹ thuật cây quyết định trong khai phá dữ liệu xây dựng hệ thống tư vấn chọn ngành tuyển sinh đại học," 2014.</small>
<small>• [9] N. D. Hùng, “Ứng dụng cây quyết định vào việc phân loại khách hàng vay tiêu dùng tại ngân hàng thương mại,” 2014.</small>
<small>• [10] H. P. Toàn, N. V. Lâm, N. M. Trung, Đ. T. Nghị, “Phân loại thư rác với giải thuật Boosting cây quyết </small>
</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">