Tải bản đầy đủ (.pdf) (101 trang)

Chuyên đề thực tập: Hiệu quả của kỹ thuật phân nhóm dữ liệu theo WOE (Weight of Evidence) trong bài toán phân loại sử dụng mô hình Logistic và thuật toán học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (30.72 MB, 101 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN KHOA TOÁN KINH TẾ

CHUYÊN ĐÈ THỰC TẬP

CHUYEN NGÀNH TỐN TÀI CHÍNH

<small>Dé tai:</small>

HIEU QUA CUA KY THUAT PHAN NHOM DU

LIEU THEO WOE (Weight of Evidence) TRONG BAI TỐN PHAN LOẠI SỬ DUNG MƠ HÌNH LOGISTIC

VÀ THUẬT TOÁN HỌC MÁY

Giảng viên hướng dẫn : Ths. Nguyễn Thị Liên

<small>Hà Nội, 2022</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến Thạc sĩ Nguyễn Thị Liên — Giang viên bộ mơn Tốn Tài chính, khoa Tốn Kinh tẾ, trường Đại học Kinh tế

Quốc dân đã đồng hành và hướng dẫn em hoàn thành chuyên đề thực tập này.

Em xin gửi lời biết ơn sâu sắc đến các thầy cô khoa Tốn Kinh tế đã ln tận

tình truyền dạy kiến thức và định hướng cho sinh viên chúng em. Đó là những kiến thức cần thiết, là hành trang quý báu dé chúng em từng ngày hoàn thiện và tự tin cống hiến hết mình cho sự nghiệp sau này.

<small>Bên cạnh đó, em cũng chân thành cảm ơn người thân trong gia đình, bạn bẻ</small>

đã lăng nghe, chia sẻ và tạo điều kiện, nhiệt tình hỗ trợ, ln là điểm tựa giúp em yên tâm bước chân vững chắc trên cả chặng đường của quá trình học Đại học.

Tuy nhiên, do trình độ của bản thân cịn nhiều mặt hạn chế, đề tài có thể cịn nhiều mặt chưa được hồn chỉnh. Vì vậy, em rất mong nhận được những lời góp ý từ thầy cơ và bạn học dé bài đề tài trở nên hồn thiện hơn. Thêm vào đó, em hy vọng đề tài này sẽ mang tính ứng dung cao, có thé áp dụng kết quả nghiên cứu dé cải thiện về

<small>mơ hình của các ngân hàng, doanh nghiệp, ... trong các bai toán phân loại.</small>

Cuối cùng, em xin kính chúc các thầy cơ đồi dao sức khỏe và thành công trong

cuộc song.

<small>Em xin chan thanh cam on!</small>

<small>Sinh vién thuc hién,</small>

<small>Nguyễn Thi Thu Ha</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<small>MỤC LỤC</small>

LỜI MỞ DAU oiceescsssessesssesssesssesssessecssecssessusssecssessusssusssecssessssssessssssessusssesssesssessessseeases 1

1. Lý do lựa chọn để taiccecceccecccccccsssssssscsscsscsscssessesscsucssssessessessesscsuessesscsssessessesseeseanees 1

<small>2. Mục tiêu nghiÊn CỨU...-- G1 1919931991119 11H nh HH nh 33. Phương pháp nghiÊn CỨU...-. .-- - «+ 1t 1 931931 1 ng HH ng nh nh nàn 3</small>

5. Dự kiến kết quả...---:- + 2 + £+S£+E£EE£EEEEEEEE2E1211215217171111111211 1111111111 c0.5

6. Ket cau 0ýn) 0 Nga... ˆOỪ..Ầ... 5 CHƯƠNG 1: CƠ SỞ LÝ THUYET VA TONG QUAN NGHIÊN CỨU... 6

1.1. Cơ sở lý thuyết về bài toán phân loại ...--- - +: + 2+ ++££+E£+E££EerEerxerxerxrrezes 6

<small>1.2. Các phương pháp sử dụng trong bài toán phân loại...-- --¿++-+++s<++s+ss 8</small>

<small>1.2.1. Phương pháp mơ hình LOB1SfIC...- 5 5 + 1x1 rkeeeekrrrrkrrke 81.2.1.1. Phương pháp Goldberger ((196⁄‡)...--- sư 81.2.1.2. Phương pháp Berkson ((1953)...-- -- -- c c 1x 1x 1 1 1191 11 8 rệt 9</small>

1.2.1.3. Ưu nhược điểm của mơ hình LOgistiC...---- 2 2 2522 x£s+zszss2 10

<small>1.2.2. Phương pháp học mấy ...- -- 5 +2 2331193115113 11111 1111 ng ng rưy 10</small>

<small>1.2.2.1. Học máy là gì...-¿- ¿- + 2212 kEEEE21211211717112112111111. 21121. 11x 10</small>

1.2.2.2. Một số thuật toán học MAY ...--- 2 ¿+ s+++£++E++E£EezEerkerxersrreee 11

<small>1.3. Kỹ thuật phan nhóm theo WOIE... ..-- --- + kg Hư, 15</small>

1.3.1. Giới thiệu về kỹ thuật WOE...--¿- ¿5c St E2 121121121121 11 11111. xe. 15

<small>1.3.2. Phương pháp phân nhóm theo kỹ thuật WOE...- - 525cc sssssssseres 15</small>

1.3.3. Ưu nhược điểm của kỹ thuật WOE...-- 2-55 ©522c2+EEvEEeEEEEerxerkerree 17

1.4. Mơ hình Logistic kết hợp kỹ thuật WOE...--2- 52c ©5£222EE‡EEtZEzEerxerrree 17 1.4.1. Dang tổng qt mơ hình ...-- 2 ¿¿++++E+++Ex++E++E+++zx++zxezxxerxeerxee 17 1.4.2. Đặc điểm mơ hình...----2- 2-52 %+Sk£SE£E2EEEEEEEEEEEEEEEE2171 71121121 EErxe 17

<small>1.4.3. Đánh giá mơ hình...---- 2-2 ©5£+2++2x£SE2E+2EEEEEEEEEEEEEEEEEEEEEEErrrrrrrkrrvee 18</small>

<small>1.4.3.1. Mục đích của việc đánh giá mơ hình...- -- 55+ ++s+++c+sxsesserss 181.4.3.2. Các chỉ tiêu đánh giá mơ hình...-- 2-5 ©5¿+£+x+£x+x+x+zzerxrseee 18</small>

1.4.4. Cơng thức tinh điểm từ kết quả mơ hình ...--- 2 2 22 s2 £x+zs+zs+s+2 22 CHƯƠNG 2: THUC TRANG MỘT SO LĨNH VUC KINH TẾ XÃ HỘI... 24

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

2.1. Tổng quan quy trình xây dựng thẻ điểm ngân hàng ...-.----:---- 24 2.1.1. Sự cần thiết của thẻ điểm ngân hàng ...----¿ 2 525x+2zx+cxevrxesrxee 24 2.1.2. Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng ...--- 25

2.1.2.1. Lập kết hoạch xây dựng mơ hình...-- ¿2 2 s+x+££+£z+£x+rxrsez 25 2.1.2.2. Xem xét dữ liệu và thông sé dự AN... ecccceccccccsessececeeseessseeeeeeeessaeees 26

<small>2.1.2.3. Tạo lập cơ sở dit LGU o.ceecccescessesssesssesssessssssesssecssessssssecssecsuscsesssecssecseeenes 28</small>

2.1.2.4. Phát triển mơ hình ...- 2-2 + ©+£+S£+EE+EE+EE+EEE£EE+EEtEEezEerrerrxerxerree 28 2.1.2.5. Hậu kiểm mơ hình ...- 2-2 ¿+ +£++£++£+EE£+EE+EEE£EE++EE++Exrrxerrxerrxee 30

2.2. Sự cần thiết của bài toán dự báo trong y học...----¿- 2 x+cxczezresrxerxcres 31

2.3. Sự cần thiết của bài toán dự báo kha năng rời bỏ của khách hàng... 32 CHƯƠNG 3: XÂY DUNG MÔ HINH LOGISTIC GIẢI QUYET MỘT SO BÀI

<small>¡9 98:790097.1007... sa... 34</small>

3.1. Xây dựng mơ hình Logistic với bài toán châm điểm khách hàng ... 34

<small>3.1.2. Xây dung mơ hình Logistic với dữ liệu phân nhóm WOE... 36</small>

3.1.2.1. Phân tích thống kê mơ tả và kết quả nhóm dữ liệu WOE... 36

<small>3.1.2.2. i0 án... 42</small>

3.1.2.3. Phân tích kết quả hồi quy ...--- + ¿+ E©E+EE+E++EE+EzEerEerxerxerxrree 42 E6 no nnn... 43 3.1.2.5. Kiểm định mơ hình... 2-2 + ¿+ £+EE+EE£EE£EEESEEEEEtEErEerEkrrxerkerree 44

<small>3.1.3. Xây dựng mơ hình Logistic với dit liệu gốc...--- 2z scx+cs+cs+ce2 45</small>

<small>3.2. Xây dựng mơ hình Logistic với bài toán dự báo ung thư ... .-- ---- 46</small>

<small>3.2.1. Mơ tả dữ liệu...---¿- ¿2+ ©++22E22EE2E12211271127121127112112211211 11121121. cre.463.2.2. Xây dựng mơ hình Logistic với dữ liệu phan nhóm WOE... 48</small>

3.2.2.1. Phân tích thống kê mơ tả và kết quả nhóm dit liệu WOE... 48

<small>3.2.2.2. Phân tích tương Quan...- - c3 3221323135111 111111111 50</small>

3.2.2.3. Phân tích kết quả hồi quy...--- 2-2 + +E2E++EE+£E+£EzEzEsrkerxerree 50 3.2.2.4. Bảng điỂm...---:- 6S EEEEE1211211211211 1111111111111. 11 1111 11k. 51 3.2.2.5. Kiểm định mơ hình... ¿2-2 5¿+S£2E++EE+EEtEEEEEEEEEerErEerrrerxerkerree 52

3.2.3. Xây dựng mơ hình Logistic với tập dữ liệu gốc "—... 53

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>3.3. Xây dựng mơ hình Logistic với bài tốn dự báo khả năng rời bỏ của khách hàng¬ 543.3.1. MG ta dit 543.3.2. Xây dung mơ hình Logistic với tập dữ liệu phân nhóm WOE... 57</small>

3.3.2.1. Phân tích thống kê mơ tả và kết quả nhóm dữ liệu WOE... 57

<small>3.3.2.2. Phân tích tương Quañ...- -- -- c 132113123111 1113 11 1111 11 E111 ng rry 58</small>

3.3.2.3. Phan tích kết quả hồi quy...--- 2 2 + +E2E++EE+EE+EEzEzEzrxerxerxee 59

k8: cu ynn...,ÔỎ 59 3.3.2.5. Kiểm định mơ hình...--- 2-2 £+S£+EE+EE+EEtEEE+EEEEEtEErEerrkrrkrrkerree 60 3.3.3. Xây dựng mơ hình Logistic với tập dit liệu gỐc...--- ¿5 5 + +2 61

3.4. So sánh kết quả dự báo từ mô hình Logistic dé giải quyết ba bài tốn phân loại

<small>¬— 62</small>

CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN HOC MAY GIẢI QUYẾT MỘT SO BÀI

<small>TỐN PHAN LOẠI ...---- 2: 2£ ©5£+S<EEE9EEEEEE2E1E21211211211717112111171211 111110. 64</small>

4.1. Kết quả dự báo từ thuật toán học máy với dữ liệu phân nhóm WOE... 64 4.2. Kết quả dự báo từ thuật toán học máy với dit liệu gốc ...---::-s. 64 4.3. So sánh kết quả dự báo giữa phương pháp mơ hình Logistic và phương pháp

<small>a0 ... ... 65</small>

<small>CHƯƠNG 5: KET LUẬN VÀ KHUYEN NGHHỊ...--- 2-2 22s +x+£x+zvzsse2 67</small> 5.1. Kết luận chung về đề tai. .cececcecccscessessessecsessessessessessessessecssessessessesseesseeseeseees 67

5.2. Những hạn chế của dé tài...- --¿- 2 2 x+SE2E2EE£EEEEEEEEEEEEEEEEEEEEExErkrrkrrei 68 5.3. Chính sách khuyến nghị ...-- 2-22 ++2++E+++EE+2EEtEEEEEEESEESEEerEkerkesrkrrrrees 68 DANH MỤC TÀI LIEU THAM KHẢO...--- 2-2 +2+2££+EEt£xezxzreerxerxrree 70

<small>Isi000695... 71</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

DANH MỤC TỪ VIET TAT

<small>WOE Weight of Evidence</small>

<small>MAPE Mean Absolute Percentage Error</small>

<small>MLE Maximum Likelihood Estimation</small>

<small>LPM Linear Probability Model</small>

<small>OLS Ordinary Least Square</small>

<small>G GoodB Bad</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

DANH MỤC BANG

Bảng 1: Thông tin dit liệu trong đề tài...---¿- 2 ¿+ +Sx+SE+EE+E£EeEEEEESEEEErEerkerkerkrreee 4 Bảng 2: Thang đánh giá chỉ số Gini...---2-- 252 2SE‡EEEEEEE2EEEEEEEEEEErEkrrkerkrred 20 Bảng 3: Dạng ma trận nhầm lẫn...-- 2-2 ¿5£ SE+SE£EE£EE£EE£EE+EEvEEtEEzEerrkrrrrred 21 Bảng 4: Thông tin các biến độc lập tap đữ liệu ngân hàng...---.2- 52552 35 Bang 5: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ liệu

<small>0118001115200 -4a-... ... 37</small>

Bảng 6: Thông tin liên quan biến “interest” sau khi chia thành 20 nhóm... 38

Bảng 7: Thông tin liên quan biến “interest” sau khi chia lại nhóm... - 39

Bảng 8: Thơng tin liên quan biến “total_loan” sau khi chia thành 20 nhóm... 40

Bảng 9: Ma trận tương quan các biến đã được chuyển đổi WOE tập dữ liệu ngân <small>9... ... 43</small>

Bảng 11: Bảng điểm cuối cùng với tập dữ liệu ngân hang phân nhóm WOE... 44

Bang 12: Chỉ số Gini của mơ hình từ tap dit liệu ngân hang phân nhóm WOE... 44

Bang 13: Ma trận nhằm lẫn với tập dữ liệu ngân hàng phân nhóm WOE... 45

Bảng 14: Chỉ số đo độ chính xác mơ hình từ tập dữ liệu ngân hàng phân nhóm <small>"9... ... 45</small>

Bảng 15: Ma trận nhằm lẫn mơ hình Logistic với tập dữ liệu ngân hàng gốc... 46

Bang 16: Thông tin các biến độc lập tập dữ liệu y sinh...-- 2-2 2 z+sezxsxs 47 Bang 17: Phân biệt khối u lành tính và khối u ác tính...---2- ¿22 s2£+zxz+se2 48 Bảng 18: Thông tin thống kê mô tả và lựa chọn biến sau khi phân nhóm theo kỹ thuật <small>WOE v6i tap dit LGU y Sime... ... 49</small>

Bang 19: Ma trận tương quan các biến đã được chuyên đổi WOE tap dit liệu y

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Bang 21: Thẻ điểm cuối cùng với tập dit liệu y sinh phân nhóm WOE... 52 Bảng 22: Chỉ số Gini của mơ hình xây dựng từ tập dữ liệu y sinh phân nhóm WOE

Bảng 23: Ma trận nhằm lẫn tập dit liệu y sinh phân nhóm WOE...--.-- 53 Bang 24: Chi số do độ chính xác mơ hình từ tập dữ liệu y sinh phân nhóm

<small>WOE... ... 33</small>

Bảng 25: Ma trận nhằm lẫn mơ hình Logistic với tập dữ liệu y sinh gốc... 54 Bang 26: Thông tin các biến độc lập tập dữ liệu viễn thông...---- 2: 55 Bảng 27: Thống kê mô tả và thông tin lựa chọn biến sau khi phân nhóm với tập dữ

<small>i0 2758/07 17777-““‹“‹1... 57</small> Bảng 28: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn Bang 29: Ma trận tương quan các biến đã được chuyển đôi WOE tập dữ liệu viễn

thơng có hệ số tương quan nhỏ hơn (.5...-- 2-2 2+2 ESE£EE2E£+E££E+EE+EE+EEzEzEerszrs 5 Bảng 30: Kết quả hồi quy mơ hình với tập dữ liệu viễn thơng phân nhóm WOE

Bang 33: Ma trận nhằm lẫn tập dữ liệu viễn thơng phân nhóm WOE... 61 Bảng 34: Chỉ số đo độ chính xác mơ hình từ tập dữ liệu viễn thơng phân nhóm WOE

Bang 35: Ma trận nhằm lẫn mơ hình Logistic với tap dit liệu viễn thơng gốc... 62

<small>Bảng 36: So sánh kết quả dự báo từ mơ hình Logistic với đữ liệu gốc và dữ liệu phân nhóm</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Bảng 37: Ma trận nhằm lẫn kết quả từ thuật toán học máy trên tập kiểm định dữ liệu

Bảng 38: Ma trận nhằm lẫn kết quả từ thuật toán học máy trên tập kiểm định dữ liệu

<small>phân nhóm WOE...- c2. 1222011201201 1 SH cm nh nh nh hy 65</small>

Bảng 39: Chỉ số đo độ chính xác của các thuật toán trên từng tap dữ liệu, với G là dt liệu gốc và W là dữ liệu đã phân nhóm WOE...---¿--¿+-+++++++++++---Ĩ5

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

DANH MỤC HÌNH VẼ

Hình 1: Đồ thi dang hàm Sigmoid...-2- 2-52 2E E£SE£EE£EE+E£EEEESEEEEEEEErEerkerkerkee 8

<small>Hình 2: Mơ tả thuật tốn Random FOreSf... ---- << 3333232222 EE£EEeeseeess 13</small>

<small>Hình 3: Mơ tả thuật tốn Gradient BOOSfITE...- 5 G119 He, 14</small>

Hình 4: Sơ đồ phương pháp xác định thời gian lay dữ liệu...---5¿ 27 Hình 5: Biểu đồ số lượng good, bad và giá trị WOE từng nhóm của biến “interest”

<small>[400810 210)00200:1105i 001157 ... 39</small>

Hình 6: Biểu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “interest”

<small>khi Chia lạI... ..---- 2 22 1122231813231 1123311 12531 1110311 cư 40</small>

Hình 7: Biéu đồ số lượng good, bad và giá tri WOE từng nhóm của biến “total loan”

<small>khi chia thành 20 nhóm...-...-- + ¿2 E121 91 211 11 11 1 1123 1 H1 TH ngư 41</small>

Hình 8: Hình anh so sánh tế bào thường và tế bào ung thư...-- 2 555248

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

LOI MO DAU 1. Ly do lựa chọn đề tai

Trong các mơ hình Kinh tế Lượng, có hai bài tốn chính, đó là là bài tốn dự

báo (đối với biến mục tiêu liên tục) và bài toán phân loại (đối với biến mục tiêu là rời

rac). Bài toán phân loại là lớp bài tốn được ứng dụng phơ biến trong nhiều lĩnh vực có thé kề đến như:

Phân loại khách hàng trong ngân hàng: Sự khác biệt về sức khoẻ tín dụng giữa các ngân hàng được đánh giá trên khả năng kiểm soát nợ xấu. Các khoản cho vay của ngân hàng luôn tiềm an những nguy cơ vỡ nợ, do đó các ngân hàng cần phải đánh giá rủi ro đối với khách hàng của mình thơng qua các mơ hình phân loại nợ xấu để ra quyết định có cho vay hay khơng và vay với hạn mức, kỳ hạn, lãi suất là bao nhiêu. Bên cạnh những biện pháp về phòng ngừa và tuân thủ, dé tạo ra một hệ thống quan

trị rủi ro hiệu quả, ngân hàng cần sử dụng các cơng cụ mơ hình dé lượng hoá rủi ro

<small>khách hàng.</small>

Phân loại bệnh trong y sinh: Đây là một trong những lĩnh vực có nhiều tiềm năng phát triển và giúp giải quyết các vấn đề liên quan đến sức khoẻ con người. Trong y sinh, một số mơ hình phân loại giúp cho chúng ta đưa ra các chuẩn đoán bệnh dựa trên các chỉ số xét nghiệm đầu vào sơ bộ như huyết áp, đường huyết, hồng cầu, bạch cầu, tiểu cầu,... Bên cạnh đó xử lý ảnh trong y sinh cũng là một lĩnh vực có tính ứng dụng cao. Các mơ hình thị giác máy tính có thé đưa ra những khuyến nghị cho bác sĩ về vị trí, kích thước và loại khối u,...

Bên trên là một số ứng dụng nhỏ về tính hữu ích và sự phơ biến của các bài tốn phân loại. Có thé thay rang, bài tốn phân loại hiện tại đang giải quyết rất nhiều van dé mà con người đang phải đối mặt. Đồng thời với vai trị to lớn của mình, nó đã và đang mang lại nhiều thay đổi cho nhân loại.

Dé giải quyết các bài tốn trên, mơ hình tốt nhất được dé xuất là mơ hình Logistic. Tuy nhiên, mơ hình Logistic cần một dữ liệu đủ nhiều quan sát dé đảm bảo

<small>tính chính xác của mơ hình, đơng thời gặp vân đê với các biên thiêu giá trị, các giá trị</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 1</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

ngoại lai và khơng thé đưa biến rời rac vào mơ hình nếu khơng sử dung biến giả, nhưng, việc dùng biến giả cho các biến định tính có nhiều đặc tính hơn hai sẽ mat

nhiều bậc tự do, đặc biệt nếu mẫu quan sát nhỏ, ước lượng thu được khơng chính xác.

Đối với người xây dựng mơ hình, việc tận dụng được tất cả các dữ liệu đang có thể hiện khả năng xây dựng tốt của họ. Ví dụ như một bộ dữ liệu ngân hàng, với các biến như giới tinh, ta dé dang mã hóa 0 là nữ va 1 là nam. Tuy nhiên, các biến như nghề nghiệp, loại sản pham vay dùng,... rõ rang có tác động đến khả năng thanh

tốn đúng hạn, vậy làm sao có thé đưa nó vào mơ hình Logistic dé đưa ra quyết định

<small>cho khách hàng vay hay khơng?</small>

Câu trả lời, đó là có thé dùng kỹ thuật WOE (weight of evidence) dé rời rac

hóa một biến bằng cách chia nhóm mà các quan sát trong nhóm có đặc tính giống

nhau, mỗi nhóm được gắn một giá tri đại diện. Day cũng là cách đơn giản để giải

quyết các van đề như thiếu quan sát, giá trị ngoại lai, bién rời rac, làm tăng tính chính

xác trong dự báo. Một số nghiên cứu đã chỉ ra tính ưu việt của phương pháp này, cụ thé:

<small>Regmi, Netra R., John R. Giardino và John D. Vitek (2010) đã nghiên cứu kha</small>

năng sac lở đất bởi 17 yếu tố thông qua phương pháp WOE. Băng cách kết hợp các yếu tơ đại diện cho địa hình, thủy văn, địa chất, lớp phủ đất và ảnh hưởng của con người, sáu mơ hình đã được phát triển. Bản đồ kết quả của các khu vực dễ bị sạt lở

<small>với phương pháp WOE có độ chính xác dự đốn là 78%.</small>

Fang, Jintao (2019) đã xây dựng mơ hình điểm tín dụng để phân tích nhiều tham số được thu thập thơng qua các kênh khác nhau và dé xác định ai đủ điều kiện vay, ở mức lãi suất nào và giới hạn tín dụng. Dự án này đã chỉ ra rằng, WOE là một phương pháp tiềm năng để cải thiện hiệu suất của mơ hình điểm tín dụng.

Với sự cần thiết và nhu cầu thực tiễn của các lĩnh vực ngân hàng, y tế, điện tử

viễn thông,... em quyết định lựa chọn đề tài “Hiệu quả của kỹ thuật phân nhóm dữ

<small>liệu theo WOE (Weight of Evidence) trong bài tốn phân loại sử dụng mơ hình</small>

Logistic và thuật tốn học máy”. Em hy vọng răng đây là một đề tài mang tính ứng

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 2</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

dụng cao, có thé áp dụng kết qua nghiên cứu nay dé cải thiện về mô hình của các

<small>ngân hàng, doanh nghiệp,... trong các bai tốn phân loại.2. Mục tiêu nghiên cứu</small>

Đề tài này trước tiên nghiên cứu về ưu nhược điểm của kỹ thuật WOE, từ đó

đưa ra những điều kiện, phương pháp dé sử dụng kỹ thuật WOE dé xử lý biến. Bên

cạnh đó, đề tài đánh giá tính ứng dụng của kỹ thuật WOE trong các ngành: ngân hàng,

y học, viễn thông dé đưa ra dự báo, và từ dit liệu phân nhóm WOE sẽ được ứng dụng

vào mơ hình Logistic và học máy. Cụ thé:

- Phân tích ưu nhược điểm, điều kiện sử dụng và phương pháp áp dụng kỹ thuật WOE dé xử lý dữ liệu.

<small>- So sánh hiệu quả dự báo khi sử dụng phương pháp mơ hình Logistic và thuật</small>

toán học máy giữa dữ liệu gốc và dữ liệu phân nhóm WOE, kỳ vọng kết quả sử dụng

<small>dữ liệu phân nhóm WOE đưa ra dự báo chính xác hơn.</small>

<small>- So sánh hiệu quả dự báo giữa phương pháp mô hình Logistic và phương pháp</small>

<small>học máy, kỳ vọng phương pháp học máy đưa ra dự báo chính xác hơn.</small>

<small>3. Phương pháp nghiên cứu</small>

Đề tài sử dụng kỹ thuật WOE dé rời rac hóa và phân nhóm dữ liệu, phân tích

tương quan dé lựa chọn biến và sử dụng hồi quy Logistic với dữ liệu gốc và dữ liệu

phân nhóm WOE dé đưa ra kết quả. Quá trình này sử dụng ngơn ngữ SAS.

Bên cạnh đó, đề tài sử dụng một số thuật toán như Random Forest, Light GBM và XGBoost dé xây dựng mơ hình hoc máy với dữ liệu gốc và dit liệu đã phân nhóm WOE để dua ra dự báo. Quá trình này được thực hiện băng R.

<small>4. Phạm vi và dữ liệu</small>

Đề tài thực hiện nghiên cứu hiệu quả của kỹ thuật WOE khi áp dụng vào mơ

<small>hình bài tốn phân loại trên 3 lĩnh vực: ngân hàng, y sinh và viễn thông. Với tap dit</small>

<small>liệu ngân hàng, phạm vi nghiên cứu là những người nộp hồ sơ yêu cầu vay tiền của</small>

ngân hàng, với tập dữ liệu y sinh là những bệnh nhân có khối u và với tập dữ liệu

<small>viễn thông là những khách hàng đang sử dụng dịch vụ của công ty.</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 3</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Đề tài lựa chọn nhiều lĩnh vực nhằm mục dich kiểm tra tính ứng dụng đa dạng của kỹ thuật WOE với nhiễu loại dit liệu, kiêm tra sự phù hợp của kỹ thuật WOE với

từng bài toán thực tế. Cả ba tập dit liệu này đều có biến phụ thuộc chuyên đôi được về hai giá trị 0 và 1, các biến độc lập có biến rời rạc, có giá trị ngoại lai nên thích hợp

dé đánh giá được tính ưu việt của kỹ thuật WOE khi xử lý biến. Chi tiết các dữ liệu

sử dụng trong đề tài được tóm tắt tại bảng sau:

<small>Bang 1: Thơng tin dữ liệu trong dé tài</small>

Loại Định nghĩa Mục tiêu Nguồn dữ liệu biến phụ thuộc mơ hình dữ liệu

<small>Khách hàng đã từng quá | Đánh giá khách hang có | afo</small>

hạn trong 90 ngày gần | khả năng quá hạn trong | untain.cn/datasets/

nhất, với quy ước: 90 ngày, từ đó đưa ra | 6274.

<small>Ngân A, a: ⁄ ⁄</small>

om" | 1; Khách hàng đã quá hạn | quyết định có cho khách

<small>hàng ` A</small>

trong 90 ngay. hàng vay hay không.

<small>0: Khách hàng chưa quá</small>

<small>hạn trong 90 ngày.</small>

Bệnh nhân có khối u, với | Đánh giá xem bệnh | gl quy ước: nhân có khối u lành tính | e.com/code/buddhi

<small>Ysinh „ -- Ậ z :</small>

<small>B (1): Khối u lành tính có thê chun sang ác | niw/breast-cancer-M (0): Khối u ác tính tính hay khơng. prediction/data</small>

Sự gắn bó của khách hàng | Đánh giá khả năng | gl

<small>với dịch vụ của công ty | khách hàng rời bỏ dich | e.com/datasets/bla</small>

<small>- viễn thông, với quy ước: | vụ của công ty. </small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

5. Du kién két qua

Xây dựng mơ hình Logistic trên dit liệu đã được phân nhóm WOE cho kết qua dự báo ưu việt hơn khi xây dựng mơ hình trên dữ liệu gốc, đồng thời phương pháp thuật tốn học máy cho kết quả chính xác hơn phương pháp mơ hình Logistic.

6. Kết cau chun đề

Đề tài gồm chương, cụ thể:

Chương 1: Cơ sở lý thuyết và tong quan nghiên cứu

Chương 2: Thực trạng một số lĩnh vực kinh tế xã hội cần thiết

Chương 3: Xây dựng mơ hình Logistic giải quyết một số bài tốn phân loại

Chương 4: Sử dụng thuật toán học máy giải quyết một số bài toán phân loại

Chương 5: Kết luận và khuyến nghị

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 5</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

CHUONG 1: CO SO LY THUYET VA TONG QUAN NGHIEN CUU

Trong chương này trình bày về co sở lý thuyết của bài toán phân loại, một số phương pháp giải quyết bài toán phân loại (cụ thể là phương pháp mơ hình Logistic

<small>và phương pháp thuật tốn học máy).</small>

Bên cạnh đó, chương này cung cấp lý thuyết tong quan về đặc điểm, điều kiện áp dụng, công thức, ưu nhược điểm của một kỹ thuật tiền xử lý dữ liệu trước khi tiễn hành xây dựng mô hình hay huấn luyện thuật tốn, đó là kỹ thuật phân nhóm dữ liệu WOE (Weight of Evidence — trọng số băng chứng), đồng thời đưa ra phương pháp áp

<small>dụng kỹ thuật này vào mơ hình.</small>

1.1. Cơ sở lý thuyết về bài toán phân loại

Mặc dù đến nay vẫn chưa có một khái niệm cụ thé được mọi người cùng chấp

thuận, tuy nhiên, kinh tế lượng đã và đang được ứng dụng cho rất nhiều lĩnh vực, và trong mỗi lĩnh vực đó, người ta có một quan niệm khác nhau. Thuật ngữ tiếng Anh

“Econometrics” được ghép từ hai gốc từ: “Econo” nghĩa là “kinh tế” va “Metrics” <small>nghĩa là “đo lường”. Hiểu nôm na, kinh tế lượng là đo lường kinh tế. Đó là sự kết hợp</small>

giữa kinh tế học, tốn học và thống kê tốn nhằm lượng hóa, kiểm định và dự báo các quan hệ kinh tế. Thơng qua mơ hình kinh tế lượng, các con số trở nên “biết nói” hơn, các nhà kinh tế có một “con mắt mới” dé nghiên cứu các vấn đề kinh tẾ, và từ đó có

một cơ sở thực nghiệm để con người áp dụng và đưa ra quyết định trong mọi lĩnh

vực: sản xuất kinh doanh, hoạch định chính sách, xây dựng chiến lược kinh tế - xã

“Giá cổ phiếu ngày mai có thé là bao nhiêu?”, “GDP của quốc gia năm tới có

khả năng tăng trưởng như thế nào?”, “Ước tính thu nhập của người lao động trong năm nay?”,... đó là một số bài tốn mà kinh tế lượng có thé giải quyết. Một đặc điểm

chung của những bài tốn này, đó là biến phụ thuộc (biến mục tiêu) cần ước lượng đều là biến liên tục.

Tuy nhiên, có nhiều hiện tượng, nhiều q trình mà khi mơ tả bằng mơ hình kinh tế lượng, biến phụ thuộc là biến định tính, nhận hai giá trị có thể có là 0 và 1.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 6</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Ngồi ra, cũng có nhiều trường hợp biến phụ thuộc có thé nhận giá trị nguyên, hoặc

bị hạn chế trong một khoảng nào đó. Nhiều bài tốn được đặt ra cần giải quyết liên

quan đến van dé này, ví dụ như: “Trong nơng nghiệp, người nơng dân quyết định có canh tác hay khơng?”; “Trong ngân hàng, ngân hàng và tơ chức tín dụng quyết định có cho khách hàng vay khơng?”; “Trong y học, bệnh nhân có khả năng chuyền biến khối u từ lành tính sang ác tính hay khơng?”; “Trong quan lý kinh tế, một gia đình có

<small>phải hộ nghèo hay khơng?”;...</small>

Như vậy, tóm lại, trong các mơ hình kinh tế lượng, có hai bài tốn chính, đó là là bài toán dự báo (đối với biến phụ thuộc là biến liên tục) và bài toán phân loại (đối với biến phụ thuộc là biến là rời rạc). Trong các bài tốn phân loại, bài tốn thường gặp và phơ biến nhất là bài toán nhị phân.

Phân loại nhị phân là bài tốn có biến phụ thuộc gồm hai giá trị là 0 va 1, trong

<small>đó quy ước | là nhãn tích cực (positive) va 0 là nhãn tiêu cực (negative). Nhãn tích</small>

cực ở đây mang hàm ý xảy ra sự kiện, còn nhãn tiêu cực thé hiện sự vắng mặt của sự kiện. Mục tiêu của bài toán phân loại nhị phân là ước lượng ra xác suất xuất hiện hay vắng mặt của sự kiện, lần lượt tương ứng với nhãn tích cực và nhãn tiêu cực. Tổng

của hai xác suất này bang 1.

<small>PŒ = 0|X) + P(Y = 1|X) = 1</small>

Nhận thấy giá tri các xác suất đều nam trong đoạn từ 0 đến 1. Do đó, sử dụng hàm Sigmoid dé tiến hành dự báo với bài tốn phân loại nhị phân. Hàm Sigmoid có

<small>1+e*a(x) =</small>

<small>Ham Sigmoid có dạng đường cong chữ S và tinh đơn điệu tăng. Dé dàng chứng</small>

minh được giá trị của hàm Sigmoid nam trong đoạn từ 0 đến 1:

Jim, a(x) = im, 1+e* =1 Jim, a(x) ~ Jim, 1+e* =0

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 7</small>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

<small>=10.0 “75 50 25 00 75 50 75 100</small>

<small>Hình 1: Do thị dang hàm Sigmoid</small>

Do đó, hàm Sigmoid phù hợp để dự báo xác suất ở những bài toán phân loại,

<small>nên còn được gọi là hàm Logistic.</small>

<small>1.2. Các phương pháp sử dụng trong bài tốn phân loại</small>

<small>1.2.1. Phương pháp mơ hình Logistic</small>

Bài tốn phân loại thường sử dung mơ hình hồi quy Logistic.

Phương trình nay được gọi là hàm phân bố Logistic.

Nhận xét thấy, p; khơng phải hàm tuyến tính của các biến độc lập. Với mỗi XB €(—œ; +00), thì p; € [0; 1], p; phi tuyến với X và các tham số B, do đó khơng thê sử dụng ước lượng OLS. Người ta sử dụng phương pháp ước lượng hợp lý tối đa (MLE - Maximum Likelihood Estimation) dé ước lượng ổ.

Do chi có Y = 0 hoặc Y = 1, tức Y có phân bồ nhị thức, nên hàm hợp lý với

<small>mẫu kích thước n có dạng như sau:</small>

TT. ah

b= | [pha-poTM = ar ry se0D)

<small>Sinh viên thực hiện: Nguyễn Thi Thu Hà 8</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

<small>Suy ra:</small>

InL = HỒ. XY,) — » In(1 + exp(X;B))

Ước lượng Ø bang cách tìm cực trị của hàm số trên. Sau khi ước lượng được B, tính được:

<small>1 + exp (X;P)</small>

Như vậy, thay vì nghiên cứu tính ảnh hưởng trực tiếp của biến độc lập lên biến phụ thuộc, mơ hình Logistic xem xét đến ảnh hưởng của các biến độc lập đến xác

suất dé biến phụ thuộc nhận giá trị bằng 1.

<small>Ảnh hưởng của biến phụ thuộc X„ đến p; được tính như sau:</small> Op;

aX, pi(1 — pi) Bx

<small>1.2.1.2. Phuong phap Berkson (1953)</small>

Phương pháp này xác định p; bang cách tuyến tính hóa:

<small>1— pj</small>

Ly = In(P) + uy = Bọ + BiX1 + + BX + ty

Do đó, L khơng chi tuyến tính với biến số mà cịn tuyến tính với tham số.

Phương pháp này phù hợp với dữ liệu phân nhóm. Do chưa biết p; nên sẽ sử dụng ước lượng của p;. Giả sử rằng mỗi mẫu có Đ, giá trị X;, trong Đ; quan sát này

Thực hiện biến đồi biến số và dùng OLS, ước lượng mơ hình:

VwiLi = Bo wi + Bry wi Xi + JWiui

<small>Hay: Lj; = Bọ + BX; + vị</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 9</small>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

1.2.1.3. Ưu nhược điểm của mơ hình Logistic

Về mặt ưu điểm, mơ hình Logistic đã cải thiện được vẫn đề của mơ hình LPM

<small>(mơ hình xác suất tuyến tính) là giả thiết xác suất là một hàm tuyến tính của biến độc</small>

lập. Đây là giả thiết không phù hợp với thực tế, dẫn đến các nhược điểm như phương sai không đồng đều, sai số không phân phối chuẩn, ước lượng của biến phụ thuộc

nằm ngoài đoạn [0, 1], hệ số xác định thấp.

Tuy nhiên, mơ hình Logistic cũng tồn tại một số van đề như sau.

Một là, cần một lượng mẫu đủ lớn dé phân bồ logistic là phân phối chuẩn, do đó nếu dữ liệu thu thập có giá trị quan sát thiếu, giá trị ngoại lai,... nếu dùng cách

loại bỏ chúng sẽ giảm kích thước mẫu, mơ hình khơng là tốt nhất có thẻ.

Hai là, mơ hình Logistic thuần túy chỉ sử dụng được các biến độc lập là các biến liên tục. Tuy nhiên, ứng dụng của mơ hình Logistic là rộng trong hầu hết các lĩnh vực, việc không tận dụng được các biến rời rac là một tơn thất. Khi đó, cần sử

dụng các kỹ thuật khác dé khắc phục nhược điểm này.

<small>1.2.2. Phương pháp học máy1.2.2.1. Học máy là gì?</small>

<small>Những năm trở lại đây, trí tuệ nhân tao (Artificial Intelligance — AT) đã và dang</small>

nhanh chóng phát triển, có khả năng tạo ra nhiều sự hình thành theo những phương

pháp bất ngờ, đưa ra nhiều cơ hội và thách thức mới. Thuật ngữ AI được sử dụng lần đầu bởi John McCarthy — một nhà khoa học máy tính của Đại học Stanford (Hoa Kỳ).

Ngồi việc phát triển và cách mạng hóa các lĩnh vực như hàng không, giáo dục, y tế, giao thông vận tải, robot,... AI cũng ngày càng được sử dụng nhiều trong các ngành tài chính — ngân hàng dé khai thác dit liệu, phân tích thị trường, quan lý tài sản, xác

<small>định các mơ hình và đưa ra dự đốn chính xác cho tương lai, từ đó đạt được mục tiêu</small>

quản lý của con người. Không thể phủ định rằng, AI là nhân tố cốt lõi trong các hệ

thống công nghệ cao, được ứng dụng trong hau hết các lĩnh vực đời sống hiện tại.

<small>Theo Simon, khái niệm “học” (learning) được mơ tả là q trình cải thiện hành</small>

vi thơng qua việc tìm hiểu, khám phá và tích lũy những kiến thức mới theo thời gian.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 10</small>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Nhu vậy, việc học được thực hiện băng các thiết bị máy, được gọi là “học máy”, hay chính là Machine Learning — ML. Có thé coi hoc máy là một tập con cua trí tuệ nhân

Học máy và các phương pháp tiếp xan dựa trên bộ dir liệu đang dan trở nên

quan trọng trong nhiều lĩnh vực. Trong ngân hàng và các tơ chức tài chính, ML được sử dụng dé xác định dữ liệu quan trong và ngăn chặn gian lận,...; đối với chính phủ, việc tận dụng ML có thể khai thác nhiều nguồn dữ liệu hơn dé tăng hiệu quả các

phương pháp vi mơ, phịng ngừa và ngăn chặn hành vi đánh cắp thông tin,...; trong <small>lĩnh vực giao thơng vận tải, ML có thé từ việc phân tích dữ liệu dé đưa ra các tuyến</small>

đường hiệu quả và dự đoán các van đề tiềm ấn trên hành trình của tài xé;... Và, mục đích chính của học máy là phát triển các mơ hình và cải thiện kết quả dự đốn của

<small>các mơ hình nghiên cứu trước đây.</small>

1.2.2.2. Một số thuật toán học máy

<small>Các thuật tốn của học máy nhìn chung được mơ tả dưới dạng hàm sau đây:</small>

Y= f(x)

Trong đó, f là một ham (target function) dé chuyển đổi các biến độc lập X thành biến phụ thuộc Y. Có một số thuật tốn cơ bản sau đây:

Một là, thuật tốn hơi quy tuyến tính (linear regression). Đây là thuật tốn cơ bản nhất, nổi tiếng nhất và được hiểu rõ nhất trong cả thống kê và học may. Phuong

pháp dé ước lượng các hệ số thường được sử dụng với thuật toán này là phương pháp

bình phương nhỏ nhất (Ordinary Least Square — OLS).

Hai là, thuật toán hồi quy Logistic (logistic regression). Giỗng như thuật tốn

hồi quy tuyến tính, thuật tốn này được mượn từ lĩnh vực thống kê vào học máy. Logistic là một hàm khơng tuyến tính, với biến phụ thuộc Y nhận giá trị trong đoạn

từ 0 đến 1. Phương pháp dé ước lượng các hệ số thường được sử dụng với thuật toán

<small>này là phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation —</small>

<small>Sinh viên thực hiện: Nguyễn Thi Thu Hà II</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Ba là, thuật tốn phân tích phân loại tuyến tinh (linear discriminant analyst). Biến độc lập là các giá trị trung bình của mỗi lớp và phương sai các lớp. Dự đoán

được thực hiện bằng cách tính giá trị phân biệt cho mỗi lớp và dự đốn cho lớp có giá

trị lớn nhất.

Bon là, thuật toán cây quyết định (decisiom tree). Đây là một thuật toán quan trọng. Với thuật toán này, mỗi “node” được hiểu là đại diện cho một biến độc lập X và một điểm phân chia trên biến đó. Các dự đốn được thực hiện bằng cách đi trên

các nhánh của cây cho đến khi đến một “node” và đưa ra giá trị tại “node” đó.

Và cịn rất nhiều thuật tốn khác.

<small>Tuy nhiên, trong học máy có một định lý gọi là “No Free Lunch”. Đây là một</small>

định lý xuất phát từ tóa học dân gian, lần đầu xuất hiện vào năm 1997 trong bài báo “No Free Lunch Theorems forr Optimization”, dịch nghĩa là “Tối ưu các định lý khơng có bữa trưa miễn phí” được viết bởi David Wolpert và William G. Macready.

<small>Và chính Wolpert đã áp dụng các định lý này dành cho học máy trước đó (năm 1996,</small>

tuy nhiên khi ay “No Free Lunch” chưa được công bồ là một định lý). Hiểu một cách ngắn gọn, “No Free Lunch” cho rằng, khơng có thuật toán nào là tốt nhất trong mọi vấn đề.

Do đó, thay vì cố gắng xây dựng một mơ hình tốt nhất, có thể xây dựng một nhóm các mơ hình yếu hơn nhưng khi kết hợp lại thu được mơ hình vượt trội. Một số

thuật tốn có thé đáp ứng điều này:

<small>Mot là, thuật toán Bagging. Mục tiêu của Bagging là giảm phương sai, áp</small>

dụng cho các mơ hình đã có sẵn độ lệch thấp nhưng đang bị phương sai cao. Theo

<small>thuật toán này sẽ xây dựng một lượng lớn các mơ hình thường là cùng loại trên các</small>

mẫu phát triển khác nhau từ mẫu ban đầu. Những mô hình này được xây dựng độc

lập và song song nhau nhưng dự đoán biến phụ thuộc sẽ được tinh băng cách lay trung bình cộng. “Random forest” (rừng ngẫu nhiên) là một thuật toán con tiêu biểu

<small>cho thuật toán này. Các bước thực hiện của “Random forest”:</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 12</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Bước 1: Tao tập dữ liệu đầu vào cho các mơ hình cây quyết định. Nếu bộ dữ

liệu gốc có M biến, chọn m thuộc tính ngẫu nghiên được sử dụng đưa vào xây dựng cây quyết định (m < M). Chọn ngẫu nhiên n quan sát từ bộ dit liệu (1 quan sát bat kỳ có thê được lấy lặp lại) tạo ra bộ dữ liệu mới.

Bước 2: Xây dựng cây quyết định dựa trên bộ số liệu vừa được tạo.

Bước 3: Chọn số lượng cây quyết định muốn xây dựng là N.

Bước 4: Lặp lại bước 1 và 2 cho đến khi đủ cây quyết định.

Bước 5: Đưa ra kết quả dự đoán cho các điểm dữ liệu mới của các cây quyết

định và gán nhãn cho danh mục dành được đa số phiếu bầu.

<small>majority voting / averaging the predictions</small>

<small>Hình 2: Mơ tả thuật tốn Random Forest</small>

<small>Hai là, thuật tốn Boosting. Mục tiêu của Boosting là giảm độ lệch, áp dụng</small>

cho các mơ hình có phương sai thấp nhưng đang bị độ lệch cao. Theo thuật toán này

<small>cũng xây dựng một lượng lớn các mơ hình cùng loại, mỗi mơ hình sau sẽ học cách</small>

<small>sửa lỗi của mơ hình trước, tức sửa với những quan sát mà mơ hình trước dự đốn sai,</small>

từ đó tạo thành một chuỗi các mơ hình mà mơ hình sau sẽ tốt hơn mơ hình trước, và lây kết quả của mơ hình cuối cùng làm kết quả dự đoán biến phụ thuộc. Light GBM

và XGBoost là hai thuật toán nồi tiếng và được ưa chuộng nhất. Cả hai đều được cải

tiền từ thuật toán Gradient Boosting.

Gradient Boosting xây dựng để giải quyết bài toán tối ưu sau:

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 13</small>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

min L » CnụM,

Cu=1:N,wn=1:N Ớ, nWn)

<small>Các bước của thuật toán Gradient Boosting:</small>

Bước 1: Khởi tạo giá trị pseudo-residuals là bang nhau cho từng điểm dữ liệu:

<small>; 0</small>

<small>pseudo residuals = —n 2w Wav)</small>

Bước 2: Tại vòng lặp thứ i, tiến hành xây dựng mơ hình mới được thêm vào

dé điền vào giá tri của pseudo-residuals đã có, tính tốn giá trị confidence score của

mơ hình vừa xây dựng, cập nhật mơ hình chính W = W + c,w;, rồi tính tốn giá tri pseudo-residuals để làm nhãn cho các mơ hình tiếp theo.

<small>Bước 3: Lap lai với vòng lặp i + 1.</small>

<small>train a weak model update the pseudo-residuals</small>

<small>+ 33- and aggregate it to œ< considering predictions of @ predictions of the current ensemble model</small>

<small>bón ung the current ensemble model TM@ pseudo-residuals (targets of the weak learner)</small>

<small>Hình 3: Mơ tả thuật tốn Gradient Boosting</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 14</small>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

<small>1.3. Kỹ thuật phân nhóm theo WOE</small>

1.3.1. Giới thiệu về kỹ thuật WOE

Như đã trình bày ở trên, khơng thể ước lượng trực tiếp các biến rời rạc là nhược điểm của mô hình Logistic. Sử dụng biến giả là một phương pháp. Tuy nhiên, việc

dùng biến giả cho các biến định tính có đặc tính nhiều hơn hai sẽ mat nhiều bậc tự

do. Thêm vào đó, mỗi bộ dữ liệu đều có thé gặp các vấn đề giá trị bị thiếu, giá trị

ngoại lai,... Kỹ thuật WOE sẽ giải quyết được vấn đề này.

Giá trị bị thiếu là một thuật ngữ chỉ các giá trị khơng có thơng tin. Ngun nhân của giá trị bị thiếu đến từ các lý do như: lỗi trong quá trình thu thập dữ liệu, bản

thân quan sát khơng có giá trị, hay cách ghi nhận của hệ thống. Do mơ hình hồi quy

chỉ chạy trên các quan sát khơng có giá trị bị thiếu, do đó không thể ước lượng giá trị biến phụ thuộc với các quan sát có giá trị bị thiếu. Thơng thường, người ta xóa các quan sát có giá trị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu nhỏ; xóa biến có giá trị bị thiếu trong trường hợp tỷ lệ giá trị bị thiếu lớn; thay thế giá trị bị thiếu bởi các

<small>giá trị đại diện chung của mẫu khác như trung bình, trung vị, mode,... Một cách khác</small>

nữa là tiền hành phân nhóm dữ liệu (binning).

Giá trị ngoại lai là một thuật ngữ chỉ các giá trị lớn hoặc nhỏ bat thuong.

Nguyên nhân có thé do lỗi trong quá trình thu nhập dữ liệu hoặc bản thân quan sát. Giá trị ngoại lai ảnh hưởng đến các chi số thống kê như trung bình, phương sai,...

đồng thời ảnh hưởng đến ước lượng tham số mơ hình. Có thể xử lý giá trị ngoại lai bằng cách xóa các quan sát chứa giá trị giá trị ngoại lai, chuyển đổi bằng ham log

hoặc tiễn hành phân nhóm dữ liệu (binning).

Như vậy, kỹ thuật WOE là việc rời rạc hóa một biến bằng cách chia biến thành các nhóm mà các quan sát trong nhóm có đặc tính giống nhau, mỗi nhóm được gán

<small>một giá tri đại diện cho cả nhóm.</small>

<small>1.3.2. Phương pháp phân nhóm theo kỹ thuật WOE</small>

Việc sử dụng kỹ thuật WOE đề đưa các biến liên tục vào mơ hình Logistic bao

<small>gơm các bước sau:</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 15</small>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Bước 1: Chia biến thành 20 nhóm, tùy thuộc vào số lượng quan sát có thé lay

<small>nhỏ hon 20 nhóm, đảm bảo khơng có nhóm nào 0 “good” hoặc 0 “bad”.</small>

<small>Bước 2: Tính tốn WOE và vẽ đường WOE của mỗi nhóm.</small>

<small>Bước 3: Nhóm các nhóm nhỏ thành các nhóm lớn theo các tiêu chí:</small>

<small>- Các nhóm có WOE tương tự.</small>

- Mỗi nhóm tối thiểu 5% quan sát. - Giải thích được xu hướng biến.

Bước 4: Lặp lại bước 3 nếu kết quả nhận được chưa vừa ý.

Với các biến rời rạc, thực hiện chia nhóm bằng cách gộp các quan sát có giá trị giống nhau thành một nhóm, tiến hành đánh giá sự tác động của từng nhóm tới biến phụ thuộc, dựa vào các tiêu chí như độ rủi ro,... để xem xét biến có xu hướng

phù hợp hay khơng. Có thể nhóm các nhóm rời rạc có ý nghĩa tương đồng.

Giá trị đại diện cho mỗi nhóm (WOE) được tính bằng cơng thức:

Thang đánh giá chi số IV:

<small>IV < 0.02 : Biến khơng có tính dự báo</small>

<small>0.02 < IV < 0.1 : Biến dự báo yếu</small>

<small>0.1<IV<0.3 : Biến dự báo trung bìnhIV>0.3 : Biến dự báo mạnh</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 16</small>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

<small>Trong do:</small>

Good: Số lượng quan sát mà biến phụ thuộc nhận gid trị là tốt trong

<small>mỗi nhóm (vi dụ với 0 là khách hàng chưa từng quá hạn, I là khách hang đã từng quá</small>

hạn, thi “good” là sỐ lượng quan sát mà biến phụ thuộc nhận giá tri băng 0).

Bad: Sé lượng quan sát mà biến phụ thuộc nhận giá trị là xấu trong mỗi

nhóm (như ví dụ trên, “bad” là số lượng quan sát mà biến phụ thuộc nhận giá trị bằng

Total: Tống số lượng quan sát trong mỗi nhóm. 1.3.3. Ưu nhược điểm của kỹ thuật WOE

Kỹ thuật WOE có các ưu điểm như sau: - Chuẩn hóa giá trị của các biến.

- Giảm thiểu lỗi khi tính tốn với số mũ.

- Quan sát trực quan và rõ ràng mối liên hệ giữa biến độc lập và biến phụ thuộc

<small>thông qua đường xu hướng của WOE từng nhóm.</small>

<small>- Tăng tính chính xác khi dự đốn.</small>

- Có thể điều chỉnh kết quả dựa trên hiéu biết về dữ liệu. Điều này thể hiện kỹ

<small>năng và trình độ của người xây dựng mơ hình.</small>

Tuy nhiên, việc chuẩn hóa giá tri các biến có thể dẫn đến hiện tượng

“overfitting”, đó là nhược điểm của kỹ thuật này.

1.4. Mơ hình Logistic kết hợp kỹ thuật WOE 1.4.1. Dạng tổng qt mơ hình

Hàm hồi quy có cấu trúc một Neural Network, các biến được chuyên đổi thành

dạng WOE trước khi đưa vào mơ hình hơi quy:

In ( ; P 5) = In (odds) = By + B; WOEx, + By WOE, + --: + B,WOEx,

1.4.2. Đặc điểm mơ hình

Mơ hình Logistic kết hợp kỹ thuật WOE có những ưu điểm nổi bật sau đây:

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 17</small>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

- Cau tric mé hinh don gian.

<small>- M6 hinh manh.</small>

<small>- Dé giai thich.</small>

- Không gặp các vấn đề với giá tri bi thiéu, giá tri ngoại lai, biến rời rạc.

<small>- Dễ dàng sử dụng.</small>

Khi sử dụng mơ hình WOE — Logistic, cần lưu ý dau của các hệ số ước lượng

đều phải dương, bởi WOE được tinh bang logarit tự nhiên của ty lệ “good” chia tỷ lệ

“bad”, do đó các biến độc lập trong mơ hình có quan hệ đồng biến với biến phụ thuộc. Nếu kết quả ước lượng mang dấu âm, bắt buộc phải loại bién ra khỏi mơ hình.

<small>1.4.3. Đánh giá mơ hình</small>

<small>1.4.3.1. Mục đích của việc đánh giá mơ hình</small>

Mỗi một mơ hình được xây dựng ln phục vụ cho một ứng dụng thực tế. Người xây dựng mô hình khơng nhằm mục đích chỉ đưa ra kết quả hồi quy, mà từ kết quả đó có thê đưa ra hỗ trợ quyết định cho bài toán ban đầu. Do đó, chất lượng mơ hình tốt là mục tiêu hướng đến của mọi người xây dựng.

<small>Do đó, mục đích của việc đánh giá mơ hình:</small>

- Là các đánh giá định lượng về chất lượng của mơ hình.

<small>- Có sự so sánh tương quan giữa các mơ hình với nhau.</small>

- Quyết định sử dụng hay từ chối mơ hình dựa trên các tiêu chí đánh giá.

<small>- Đánh giá lợi ích thu được từ việc sử dụng mơ hình.</small>

<small>1.4.3.2. Các chỉ tiêu đánh giá mơ hình</small>

Chia tập dữ liệu thành hai phan. “Xây dựng mơ hình” dé xây dựng mơ hình va

kiêm định mơ hình dé kiêm nghiệm. Sau khi xây dựng mơ hình trên tập “train”, cần tính tốn các chỉ số để đánh giá mơ hình. Các tính tốn này cũng đồng thời được thực hiện trên tập kiểm định mơ hình.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 18</small>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

- Đánh giá độ 6n định

Do tập quan sát mẫu có thé thay đơi theo thời gian, do thay đối chính sách <small>hoặc lỗi hệ thống mà mơ hình có thé bị mat 6n định.</small>

Đánh giá độ ơn định tồn mẫu của mơ hình nhằm mục đích đảm bảo giả thuyết

tương lai giống với quá khứ, đảm bảo các chỉ số cut — off vẫn giữ nguyên ý nghĩa với

mau. Bên cạnh đó, đánh giá độ ôn định từng biến nhằm tìm ra nguyên nhân mat ôn định của mô hình, đánh giá biến động của mỗi biến qua thời gian và tìm ra các sai sót trong hệ thống. Đánh giá độ 6n định từng biến qua thời gian dài bằng cách quan sát đồ thị phân phối biến, dé từ đó thấy được xu hướng dịch chuyền giữa các nhóm biết

<small>và phát hiện các sai sót trong dữ liệu.</small>

Đề đánh giá độ ơn định của mơ hình, sử dụng chi số PSI.

%Rec;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập kiểm định mơ hình <small>%Dev;: Tỷ lệ quan sát ở hạng thứ i so với toàn mẫu ở tập xây dựng mơ hình</small>

Thang đánh giá chỉ số PSI:

<small>PSI < 10 : Mơ hình ổn định</small>

<small>10 < PSI < 20 : Mơ hình tương đối ổn định</small>

<small>PSI > 20 : Mơ hình khơng ổn định</small>

<small>- Đánh giá độ phân biệt</small>

Độ phân biệt trong mơ hình là độ phân biệt về mục tiêu giữa các nhóm. Một độ phân biệt tốt mang đến nhiều lợi ích, chăng hạn như với bài tốn chấm điểm khách hàng để quyết định có cho khách hàng vay hay không, khi xác định điểm cắt sẽ lọc được nhiều khách hàng xấu và tránh lọc nhằm các khách hàng tốt. Nói chung, độ

phân biệt tốt giúp có thé lọc ra các quan sát tốt hay xấu đúng với u cầu xây dựng

mơ hình. Có hai cách cơ bản dé đánh giá độ phân biệt.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 19</small>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

Một là, kiểm tra thứ tu “bad rate” — ty lệ xấu. Sau khi chia mẫu ra thành từng nhóm, tính “bad rate” thực tế trong mỗi nhóm. Một mơ hình tốt cần đảm bảo “bad rate” giảm dần theo dự báo từ xấu đến tốt.

Hai là, sử dụng đường cong Gini và chỉ số Gini.

Về mặt ý tưởng, cách đánh giá độ phân biệt trong mơ hình WOE — Logistic lay từ hệ số Gini dùng dé biéu thị độ bat bình đăng trong thu nhập trên nhiều vùng

miền, tầng lớp của một đất nước. Nó có giá trị từ 0 (mọi người đều có mức thu nhập

bình đăng) đến 1 (bất bình đăng) và băng tỷ số giữa phần diện tích nằm giữa đường cong Lorenz và đường bình dang tuyệt đối với phần diện tích năm dưới đường bình đăng tuyệt đối. Hệ số này được phát triển bởi nhà thống kê học người Ý Corrado Gini

và được chính thức cơng bồ trong bài viết năm 1912 của ông mang tên “Variabilità e mutabilità”. Chỉ số Gini là hệ số Gini được thé hiện dưới dạng tỷ lệ phan trăm, được

tính bằng hệ số Gini nhân với 100. Cơng thức tính chỉ số Gini:

<small>Gini = 2AUROC — 1</small>

Thang đánh giá chỉ số Gini:

<small>Bảng 2: Thang đánh giá chỉ số Gini</small>

<small>Application Model Behavior Model Danh gia phan biét</small>

Gini < 30% Gini < 50% Yéu

<small>30% < Gini < 40% 50% < Gini < 60% Trung binh</small>

<small>Gini = 40% Gini = 60% Manh</small>

<small>- Đánh gia độ chính xác</small>

Sai số dự báo là thước đo đánh giá giá trị dự báo so với giá trị thực tế. Có nhiều

tiêu chí để đánh giá độ chính xác của mơ hình, như MSE, RMSE, MAE, MAPPE,... Tuy nhiên, khi đánh giá các mơ hình được xây dựng trên cùng tập đữ liệu, các biến đưa vào trong mơ hình có thê khác nhau, dạng mơ hình khác nhau, do đó thường dùng MAPE để đánh giá, vì đây là thước đo tương đối.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 20</small>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TOÁN TÀI CHÍNH &)

A, là giá trị thực tế trong nhóm điểm k. P, là giá trị dự đốn trong nhóm điểm k. Thang đánh giá chỉ số MAPE:

<small>MAPE < 25% : Dự đoán gần thực tế</small>

<small>25% < MAPE < 50% : Dự đoán tương đối gần thực tế</small>

<small>MAPE > 50% : Dự đốn khác thực tế</small>

Tuy nhiên, với dạng mơ hình Logistic, người ta thường dùng ma trận nhằm lẫn (confusion matrix) dé đánh giá độ chính xác của mơ hình.

Ma trận nhằm lẫn có dạng như sau:

<small>Bảng 3: Ma trận nhằm lẫn tổng quát</small>

<small>Giá trị dự báo</small>

<small>Good Bad</small>

<small>„ Good True Positive False NegativeGiá tri thực tê</small>

<small>Bad False Positive True Negative</small>

<small>Một sô chỉ sô được xét từ ma trận:</small>

“Accuracy” hay độ chính xác được hiểu là độ chính xác tổng qt của mơ hình

đang xây dựng, được tính bằng tỷ lệ giữa các quan sát dự báo đúng và tổng số quan sát. Đây cũng là chỉ số quan trọng nhất được tính ra từ ma trận.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Bên cạnh đó, ta cịn xét đến “Precision” là tỷ lệ dự báo đúng các quan sát tốt trong tổng số các quan sát dự báo là tốt.

Nếu mơ hình có “Precision” thấp va “Sensitivity” cao hoặc ngược lại, có thé

sử dụng F — score dé đánh giá mơ hình. F — score nhận giá tri trong khoảng (0; 1], giá trị này càng cao thì độ phân loại mơ hình càng tốt.

<small>2 * Sensitivity + Precision</small>

<small>F — score = —————_</small>

<small>Sensitivity + Precision</small>

1.4.4. Công thức tinh điểm từ kết qua mơ hình

Do cơng thức của Logistic đơi khi khơng thể thực hiện trên các hệ thống, do đó cần đưa ra kết quả đơn giản hơn, đồng thời so sánh được trọng số của từng nhóm

trong từng biến dé các đơn vị kinh doanh có thé hiểu được.

<small>Ta có:</small>

<small>f(t) =</small>

© 1+ert

<small>Với: t = In(odds) = By + B; WOE,, + B2WOE,, + --:</small>

Theo lý thuyết, ham f(t) là hàm đồng biến, do đó:

<small>f(t,) > f(t.) et, >t,</small>

<small>Sinh viên thực hiện: Nguyễn Thi Thu Hà 22</small>

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

Cơng thức biến đối:

<small>Score = Offset + Factor + In(odds)</small>

<small>Offset = BaseScore — Factor * In (odds)</small>

Và: pdo là điểm dé nhân đôi hệ số odds.

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 23</small>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

CHUONG 2: THUC TRANG MOT SO LĨNH VUC KINH TE XÃ HOI Kinh tế xã hội ngày càng phát triển, một phần nguyên nhân đó là con người đã, đang và luôn luôn sử dụng trí tuệ của mình dé giải quyết những bài tốn thực tế đặt ra trong quá trình nền kinh tế vận hành. Sự xuất hiện của những cuộc khủng hoảng

<small>trong ngành ngân hàng tài chính, những cơng ty viễn thơng bị khách hàng rời bỏ,...</small>

đã chỉ ra rằng hệ thống quản lý đang có sự yếu kém. Hay cùng với sự phát triển kinh tế và các cuộc cách mạng công nghiệp, nhiều căn bệnh mới cũng xuất hiện và ảnh

hưởng trực tiếp đến sức khỏe con người. Lam sao dé quản lý hoạt động kinh doanh

hiệu quả, và làm sao để phòng ngừa và chữa trị những căn bệnh mới? Chương này trình bày về thực trạng một số lĩnh vực kinh tế xã hội, cụ thể đó là sự cần thiết của việc xây dựng thẻ điểm ngân hàng, sự cần thiết của dự báo ung thư trong y học và sự cần thiết của việc đánh giá khả năng khách hàng rời bỏ của công ty dịch vụ viễn

2.1. Tổng quan quy trình xây dựng thẻ điểm ngân hàng

2.1.1. Sự cần thiết của thẻ điểm ngân hàng

Việc phát triển thẻ điểm tin dụng này nay trở nên pho biến ở nhiều quốc gia và nhiều ngân hàng. Có nhiều yêu tố thúc day việc sử dụng thẻ điểm, trong đó, yếu tố lớn nhất là do Hiệp định Basel II.

Cụ thể, các ngân hàng đã chọn (hoặc được yêu cầu) tuân thủ phương pháp tiếp

cận dựa trên đánh giá nội bộ cơ sở, ước tính được xác suất vỡ nợ (PD — Probability of Default), cũng như tỷ trong tốn thất ước tinh (LGD — Loss Given Default) và tổng du ng khach hang tai thoi diém không trả được nợ (EAD — Exposure at Default).

Nhiều tổ chức, chang hạn như các công ty tin dụng bán lẻ, hoặc các công ty cho vay ô tô,... không bắt buộc phải tuân thủ Basel I, nhưng ho đã chọn tuân thủ như một cách dé chứng minh năng lực của họ với thị trường, cũng như một dấu chứng nhận mạnh mẽ trong quy trình nội bộ của họ. Và lợi ích lớn nhất của việc tuân thủ Basel II, đó khơng phải là một hoạt động quản lý bắt buộc, mà cịn có thé phát triển

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 24</small>

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

các phương pháp dẫn đến cơ hội cai thiện các quy trình nội bộ mỗi ngân hàng, cơng

<small>ty, doanh nghiép,...</small>

Vào thời điểm đó, các ngân hàng lớn đã mở rộng việc phát triển thẻ điểm tín dụng và buộc phải chứng minh năng lực của họ trong việc chấm điểm, và tại nhiều

quốc gia, đặc biệt là Châu Âu, các ngân hàng nhỏ bị áp lực cạnh tranh khi vẫn sử

dụng các phương pháp thủ cơng và phán đốn, nên họ cũng quyết định áp dụng những cách tiếp cận mới này, do đó, lần đầu tiên các ngân hàng phải bắt đầu xây dựng mơ hình. Điều này dẫn đến một số thách thức, khi ngân hàng chưa bao giờ xây dựng thẻ điểm, họ sẽ bắt đầu từ đâu?

Câu trả lời là, các ngân hàng có thể có hai lựa chon. Một là, họ có thé đi mua

thẻ điểm từ các tổ chức có kha năng xây dựng và phát hành. Hai là, họ phải tự đầu tư

nhân lực, vật lực dé tự xây dựng thẻ điểm. Quyết định này tùy thuộc vào tình huống

riêng của từng ngân hàng: số lượng và loại dữ liệu có san, trình độ kiến thức, đội ngũ

nhân viên, các giới hạn về thời gian chờ đợi,... Với việc th ngồi, chi phí sẽ rẻ hơn với các danh mục đầu tư nhỏ, không cần quản lý tài nguyên và công nghệ dé duy trì thẻ điểm. Tuy nhiên, nếu tự phát triển thẻ điểm, ngân hàng có thể linh hoạt hơn khi

có sự thay đổi trong các quy định giám sát, không cần chờ đợi nhà cung cấp, có thé

phân tích phân khúc khách hàng tồn diện với ngân hàng mình, đồng thời tăng hiểu biết của ngân hàng về khách hàng họ đang có.

Và trong mục đích phát triển dài hạn, với những quy định và lợi ích mà thẻ điểm mang lại, việc tự phát triển nó là một xu hướng tất yếu của các ngân hàng, trong

đó có Ngân hang Thương mại Cổ phan Việt Nam Thịnh Vuong (VP Bank).

2.1.2. Quy trình xây dựng thẻ điểm cơ bản của Ngân hàng

2.1.2.1. Lập kết hoạch xây dựng mơ hình

Bước đầu tiên trong bat kỳ dự án phát triển thẻ điểm nào đều là xác định mục

tiêu của ngân hàng cũng như vai trò của thẻ điểm. Về mục tiêu của ngân hàng, có thể bao gồm:

<small>- Giảm nợ xâu / phá sản / khiêu nại / gian lận.</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 25</small>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

- Tăng ty lệ phê duyệt, vi dụ như trong các lĩnh vực khoản vay có tài sản thé chấp.

- Tăng hiệu quả hoạt động hoặc tiết kiệm chi phí. Ví dụ nhiều ngân hàng còn đang sử dụng phương pháp chuyên gia (phương pháp thủ công), bây giờ mong muốn xử lý hồ sơ nhanh hơn qua phương pháp mô hình.

- Cải thiện, tăng khả năng dự đốn của thẻ điểm hiện tại.

2.1.2.2. Xem xét dữ liệu và thông số dự án

Sau khi lập kế hoạch xây dựng mơ hình, cần xem xét việc phát triển thẻ điểm có khả thi hay khơng và nếu có, cần thiết lập các thông số dự án. Giai đoạn này đặt

ra van dé cần giải quyết, đó là: “Dữ liệu có đủ tốt dé bắt đầu dự án không?”, tức quan tâm, đánh giá đến số lượng và chat lượng dữ liệu.

Số lượng đữ liệu cần thiết cho mỗi dự án có thể khác nhau, nhưng nói chung phải đáp ứng đầy đủ các yêu cầu về độ tin cậy, ý nghĩa thống kê, tính đại diện và tính ngẫu nhiên. Việc tìm kiếm và xác định mẫu tối ưu là công việc cần thiết, và theo

<small>Crone và Finlay, những người đã nghiên cứu xem xét ảnh hưởng của kích thước mau</small>

và tỷ lệ “good” và “bad”, đưa ra khuyến nghị với các mơ hình hồi quy Logistic, một mẫu tối thiểu 5000 quan sát là “bad” với thẻ điểm tín dụng (application score) và 12000 quan sát là “bad” với thẻ điểm hành vi (behavioral score) có thé dat duoc hé số Gini tối đa.

Tuy nhiên, chất lượng dữ liệu có thể bù đắp cho việc thiếu đữ liệu. Trong thời

đại của “Big data”, nơi các ngân hang có thé thực hiện xây dựng mơ hình với hang ty quan sát, thì một bộ dữ liệu sạch va đáng tin cậy sẽ là tốt nhất đề xây dựng thẻ điểm.

Sau khi đánh giá số lượng và chất lượng dữ liệu nội bộ, ngân hàng có thé quyết

định xây dựng thẻ điểm chỉ dựa trên dit liệu nội bộ hoặc lựa chọn đữ liệu bổ sung từ các nguồn bên ngoài như văn phịng tín dụng, kho lưu trữ trung tâm, nhà cung cấp dữ

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 26</small>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

Vào cuối giai đoạn nay, khi xác định rằng có dữ liệu đủ tốt dé xây dựng thẻ điểm, thì cơng việc tiếp theo là thu thập dữ liệu ban đầu dé xác định thông số dự án.

Các thông số dự án cần xác định bao gồm:

- Target: La giá tri mà mơ hình cần dự báo, ví dụ: dự đốn khách hàng có bị

<small>q han 90 ngày trong | năm tới hay khơng, dự đốn khách hàng có đóng thẻ trongmột tháng tới hay khơng, dự đốn lợi nhuận từ thẻ tín dụng của khách hàng trong 6</small>

tháng tiếp theo,... Target được đặc trưng bởi hai yếu té là outcome và denfinition.

<small>+ Outcome: Là khoảng thời gian trong tương lai mà mơ hình sé dự đốn. Cách</small>

<small>xác định outcome phụ thuộc vào mục tiêu của mô hình hoặc từ phân tích của người</small>

xây dựng. Đối với các mơ hình phục vụ Basel, IFRS hoặc mơ hình hành vi thơng

thường thì outcome là 1 năm sau ngày quan sát, cịn đối với mơ hình phục vụ collection thì thời gian outcome có thể ngắn hơn. Ví dụ với mơ hình tín dụng, việc xác định outcome chính xác giúp các khách hàng xấu thật sự có đủ thời gian dé trở

thành xấu. Đề xác định outcome, lấy tích lũy tỷ lệ quá hạn 30+ trong các khoảng thời gian, vẽ đồ thi và quan sát khoảng thời gian mà tỷ lệ 30+ không tăng đáng kẻ.

<small>+ Denfinition: Là định nghĩa cua target, phụ thuộc vào mục tiêu của mơ hình</small>

hoặc từ phân tích của người xây dựng. Các định nghĩa có thê là các sự kiện đơn giản như “đóng thẻ”, “tất tốn sớm”,... hay phức tạp như “khách hàng quá hạn 90 ngày”,

<small>“lợi nhuận”,...</small>

- Observation date: Là thời gian lây các quan sát, được xác định như cơng

<small>thức và hình vẽ minh họa sau đây:</small>

<small>Earliest day + behavior period < obs date < recent day — outcome</small>

<small>Hình 4: So đơ phương pháp xác định thời gian lấy dữ liệu</small>

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 27</small>

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

CHUYEN ĐÈ THUC TẬP - CHUYÊN NGÀNH TỐN TÀI CHÍNH &)

Lưu ý, đữ liệu xây dựng mơ hình được quan sát trong q khứ, nên cần lui về quá khứ dé xác định biến phụ thuộc và biến độc lập. Mơ hình được xây dựng sẽ áp dụng cham điểm trên dữ liệu hiện tại nên cần dam bảo thời gian quan sát không quá

xa với thời điểm hiện tại. Và trong trường hơp dữ liệu từ thời điểm sớm nhất đến hiện

tại nhỏ, cần cân nhắc về outcome và số lượng quan sát là “bad” trong mơ hình.

<small>2.1.2.3. Tạo lập cơ sở dữ liệu</small>

Việc lựa chọn các biến để xây dựng mơ hình là một phần quan trọng của việc phát triển thẻ điểm. Thông thường, các biến độc lập của một thẻ điểm bao gồm:

- Nhân khẩu học: Là những thông tin liên quan đến cá nhân người đi vay, như giới tính, tuổi tác, nghề nghiệp, tình trạng hơn nhân, tình trạng nhà ở, thu nhập,...

<small>- Lịch sử tín dụng: Là những thơng tin được quản lý tập trung bởi cục tín dụng</small>

và các ngân hàng có thê kiểm tra chéo thơng tin tín dụng của khách hàng từ các ngân

Sau khi xác định được mẫu hoàn chỉnh, chia dữ liệu làm hai phan. 70 — 80%

dữ liệu được sử dung để xây dựng mơ hình, 20 — 30% dir liệu cịn lại để thực hiện

kiểm định và đánh giá mơ hình, từ đó đưa ra được thẻ điểm tối ưu. 2.1.2.4. Phát triển mơ hình

Phát triển mơ hình là giai đoạn trọng tâm của quá trình phát triển thẻ điểm. Giai đoạn này bao gồm các công đoạn: lựa chọn biến, xây dựng các mơ hình trên các biến đã chọn và đánh giá mơ hình, lựa chọn mơ hình tốt nhất.

- Xử lý và lựa chọn biến đưa vào hồi quy

Sơ đồ tông quan các bước trong công đoạn xử lý và lựa chọn biến:

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 28</small>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

<small>x Khai pha đữ liệu . Xửlý biến</small>

<small>Dữ liệu gốc —————> Các biến ban đầu —— Các biến đã được xử lý</small>

<small>Biến đổi biến „. Lựa chọn biến</small>

<small>———>Các biến đã được biến đổi ———— Danh sách biến rút gọn.</small>

Khai phá di liệu là quá trình phân tích tổng quan ý nghĩa các biến trong cơ sở dữ liệu đã tạo lập trong giai đoạn 3, phân tích lý thuyết xu hướng biến và lựa chọn

các biến dé đưa vào phân tích chuyên sâu. Đầu vào của quá trình là các biến trong cơ sở dit liệu và đầu ra là các biến ban dau dé tiến hành các quá trình tiếp theo.

Xử lý biến là quá trình đánh giá chất lượng các biến, xem xét các vấn đề như

giá trị bị thiếu, giá trị ngoại lai,... Nếu giá trị bị thiếu, giá trị ngoại lai có ý nghĩa thì

giữ lại, nếu khơng cần giải quyết bằng cách xóa biến, xóa quan sát hoặc thay thế giá

trị, tùy thuộc vào ý nghĩa biến. Đầu ra của quá trình này là các biến đã được xử lý.

Biến đổi biến là q trình đơi giá trị các biến từ giá trị ban đầu thành giá trị WOE. Quá trình này bao gồm các cơng việc phân nhóm, chia lại nhóm sao cho các

giá trị WOE tuyến tính (hoặc nếu khơng tuyến tính phải giải thích được xu hướng).

Đầu ra của quá trình là các biến đã được biến đổi.

Lựa chọn biến là quá trình đánh giá chất lượng và mỗi quan hệ các biến. Các biến được chọn phải có IV lớn hơn 0.02 và khơng có tương quan cao với các biến

khác, tức hệ số tương quan phải nhỏ hơn 0.5.

Kết thúc công đoạn này, thu được các biến sẵn sàng đưa vào mơ hình hồi quy.

- Hồi quy mơ hình

Hồi quy Logistic là một kỹ thuật phé biến được xử dụng dé phát triển thẻ điểm.

Thông thường, có 3 phương pháp đưa biến vào mơ hình Logistic:

Phương pháp 1: Lựa chọn lần lượt (forward selection). Theo phương pháp này, đầu tiên chọn một mơ hình đặc trưng tốt nhất dựa trên khả năng dự đoán riêng

của từng biến, sau đó thêm lần lượt các biến khác vào mơ hình, việc lựa chọn dựa vào các thống kê Chi — square hoặc giá trị p-value.

<small>Phương pháp 2: Loại bỏ ngược (backward elimination). Phương pháp nay trái</small>

ngược với phương pháp trên. Theo loại bỏ ngược, tất cả các biến đều được đưa vào

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 29</small>

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

CHUYEN ĐÈ THUC TẬP - CHUN NGÀNH TỐN TÀI CHÍNH &)

mơ hình, sau đó loại các biến không thỏa mãn thống kê Chi — square hoặc p — value nhỏ hơn mức ý nghĩa định trước (thường là 5%). Như vậy, các biến dự báo mạnh được giữ lại trong mơ hình và các biến dự báo yếu bị loại bỏ.

Phương pháp 3: Stepwise. Đây là sự kết hợp của phương pháp 1 và phương

pháp 2. thêm và xóa tự động các biến vào / ra khỏi mơ hình cho đến khi đạt được sự kết hợp tốt nhất. Người ta thường dùng giá trị p — value dé làm điều kiện các biến

<small>được đưa vào mơ hình và sau đó bi loại ra khỏi mơ hình.</small>

- Lựa chọn mơ hình tốt nhất

Trong q trình lựa chọn biến, chăng hạn như hai biến có tương quan cao, có

thể dựa vào ý nghĩa biến hoặc so sánh giá trị IV để loại một biến. Tuy nhiên, theo

những người xây dựng mơ hình có kinh nghiệm, họ không ngay lập tức loại bỏ biến, mà thay vào đó, họ xây dựng nhiều hơn một mơ hình, sau đó đánh giá các mơ hình với nhau. Có nhiều thước đo thống kê dé đánh giá các mô hình, như p — value, chỉ số

<small>Gini, giá tri Chi — square, R — square,...</small>

Bên cạnh các thước đo thống kê đó, cần quan tâm đến mục tiêu phát triển thẻ điểm. Ví dụ, với mục đích phát triển thẻ điểm dé đưa ra quyết định cho vay, mục tiêu quan trọng nhất là lựa chọn được một tập hợp các biến tốt nhất, dé từ đó xây dựng một hồ sơ đánh giá rủi ro toàn diện nhất. Các biến lý tưởng dé xây dựng mơ hình này

nên gồm các biến liên quan đến nhân khẩu học và đữ liệu tài chính.

- Kiểm định mơ hình

Khi mơ hình cuối cùng được lựa chọn (final model), cần kiểm định lại kết quả mơ hình. Thơng thường, người ta chia tập dữ liệu ban đầu thành hai phan, với 70% dé xây dựng mơ hình và 30% dé kiểm định mơ hình. Tuy nhiên, ngân hàng nên thực hiện thêm kiểm định trên mẫu “out of time” được thu thập sau thời điểm xây dựng mơ hình dé có đánh giá thực tế hơn với tập dữ liệu mà mơ hình sẽ áp dụng.

2.1.2.5. Hậu kiểm mơ hình

Sau khi mơ hình cuối cùng được lựa chọn và sản xuất thẻ điểm áp dụng thực tế, cũng như hoàn thành các báo cáo đầy đủ về quản lý thẻ điểm, ngân hàng cần đánh

<small>Sinh viên thực hiện: Nguyễn Thị Thu Hà 30</small>

</div>

×