Tải bản đầy đủ (.pdf) (68 trang)

Đề tài nghiên cứu khoa học: Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 68 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH </b>

<b>---PHƯƠNG PHÁP ƯỚC LƯỢNG LASSO: CƠ SỞ TOÁN HỌC VÀ ỨNG DỤNG </b>

<i><b>ĐỀ TÀI KHOA HỌC CẤP CƠ SỞ </b></i>

<i><b>Người thực hiện: Bùi Thị Thiện Mỹ </b></i>

<b> Trần Thị Thu Hương Nguyễn Thị Yến </b>

<i><b> </b></i>

<b>TP HỒ CHÍ MINH – 2021 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>3. Đối tượng và phạm vi nghiên cứu ... 3</b>

<b>4. Phương pháp nghiên cứu ... 4</b>

<b>5. Những đóng góp mới của đề tài ... 4</b>

<b>CHƯƠNG 1. CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP LASSO ... 5</b>

<b>1.1. Các kiến thức liên quan... 5</b>

1.1.1. Hàm lồi và các tính chất ... 5

1.1.2. Điều kiện cần và đủ để hàm lồi đạt cực tiểu. ... 6

<b>1.2. Phương pháp Lasso cho mơ hình hồi quy tuyến tính ... 7</b>

1.2.1 Bài toán tổng quát ... 7

1.2.2. Cơ sở toán học của phương pháp Lasso ... 9

1.2.3. Thuật tốn tìm ước lượng Lasso ... 10

<b>1.3. Phương pháp Lasso cho bài toán phân loại ... 14</b>

1.3.1. Mơ hình hồi quy Logistic (LR) ... 14

1.3.2. Mơ hình hồi quy Lasso-Logistic (LL) ... 15

<b>CHƯƠNG 2. ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY ... 18</b>

<b>2.1. Mơ hình nghiên cứu và các biến ... 18</b>

<b>2.2 Quy trình tính tốn ... 20</b>

<b>2.3. Kết quả tính tốn ... 21</b>

<b>2.4. Kết luận ... 25</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>CHƯƠNG 3. ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI ... 26</b>

<b>3.1. Giới thiệu ... 26</b>

<b>3.2. Khung phân tích vấn đề xây dựng mơ hình đánh giá tín dụng. ... 27</b>

3.2.1. Khái niệm đánh giá tín dụng ... 27

3.2.2. Các yếu tố đầu vào ... 28

<b>3.3. Các phương pháp thống kê trong xây dựng mơ hình đánh giá tín dụng . 29</b>3.3.1. Các phương pháp thống kê truyền thống ... 29

3.3.2. Các mơ hình học máy trong đánh giá tín dụng ... 31

<b>3.4. Vấn đề mất cân bằng dữ liệu trong bài toán phân loại ... 32</b>

3.4.1. Phương pháp CSL ... 33

3.4.2. Các kỹ thuật tái chọn mẫu ... 33

<b>3. 5. Mô hình đánh giá tín dụng SMOTE-Lasso-Logistic ... 35</b>

Quy trình thực hiện mơ hình SMOTE-Lasso-Logistic ... 35

<b>3.6. Kết quả thực nghiệm ... 36</b>

3.6.1. Dữ liệu thực nghiệm ... 36

3.6.2. Các độ đo đánh giá hiệu quả của mơ hình ... 37

3.6.3. Hiệu quả mơ hình SMOTE-Lasso-Logistic... 39

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC BẢNG BIỂU </b>

Bảng 1. Thuật toán giảm chiều ... 12

Bảng 2. Thuật toán giảm chiều theo quỹ đạo. ... 13

Bảng 3. Các biến giải thích trong mơ hình. ... 19

Bảng 4. Thống kê mô tả các biến. ... 19

Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với tốt nhất. ... 22

Bảng 6. So sánh MSE từ Lasso với tốt nhất và OLS trên tập kiểm tra ... 23

Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO . 28Bảng 8. Thuật toán SMOTE(T, k, r) ... 34

Bảng 9. Quy trình thực hiện mơ hình SMOTE-Lasso-Logistic ... 35

Bảng 10. Ma trận nhầm lẫn trong đánh giá tín dụng ... 37

Bảng 11. Kết quả ước lượng mơ hình SMOTE-Lasso-Logistic ... 40

Bảng 12. Ma trận nhầm lẫn với ngưỡng 63.35% trên tập kiểm tra ... 42

Bảng 13. Các độ đo hiệu quả của SMOTE-Lasso-Logistic trên tập kiểm tra ... 42

Bảng 14. Giá trị AUC và KS của các mơ hình LL, LR, DT kết hợp các kỹ thuật lấy mẫu ... 43

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC HÌNH ẢNH </b>

Hình 1. Đồ thị hàm lồi (a) và khơng lồi (b) ... 5

Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge ... 9

Hình 3. Đồ thị của tốn tử biên mềm. ... 11

Hình 4. Sự biến thiên của các ước lượng hệ số theo . ... 21

Hình 5. Sự biến thiên của CVM theo lambda. ... 22

Hình 6. Biểu đồ của mơ hình (2.1) ... 24

Hình 7. Biểu đồ của mơ hình (2.2) ... 25

Hình 8. Minh họa mơ hình Cây quyết định ... 32

Hình 9. Minh họa đường cong ROC và AUC ... 39

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>PHẦN MỞ ĐẦU 1. Lý do chọn đề tài </b>

Ngày nay, trong lĩnh vực kinh tế, tài chính và quản trị, các nghiên cứu được thực hiện thơng qua phân tích dữ liệu và mơ hình ngày càng phổ biến. Kết quả các nghiên cứu bằng phương pháp định lượng này bị ảnh hưởng bởi các yếu tố đầu vào như độ tin cậy của dữ liệu, tần suất lấy dữ liệu, các biến số trong mơ hình, định dạng mơ hình… Trong đó, lựa chọn biến số có liên quan là vấn đề quan trọng hàng đầu, đặc biệt đối với bài toán hồi quy (regression) và bài toán phân loại (classification). Lựa chọn biến (variable selection) được hiểu là lựa chọn tập con gồm các biến tốt nhất cho mơ hình.

Xét mơ hình thống kê như sau:

( ) với ( ) (1) Ký hiệu: ̂ ̂( ) là ước lượng của Khi đó, trung bình bình phương sai số ước lượng (mean squared error) của mơ hình được phân tích thành: độ chệch (biasness), phương sai (variance) và sai số (Hastie, Tibshirani & Friedman, 2017).

( ̂) [ ( ) ̂( )]

, ( ̂( ) ( )- , ( ) ( ̂( )- ( ) Độ chệch Phương sai Phương sai sai số

Trong đó, thành phần sai số là thành phần không thể tránh khỏi trong mọi mơ hình. Thành phần độ chệch và phương sai phụ thuộc vào sự phức tạp của mơ hình. Khi mơ hình có ít biến giải thích, ̂( ) có độ chệch lớn và phương sai nhỏ. Ngược lại, khi mô hình nhiều biến giải thích, tính phức tạp vì thế tăng lên, ̂( ) có độ chệch nhỏ nhưng phương sai lớn. Ý tưởng lựa chọn biến nhằm tối ưu hóa sự đánh đổi giữa độ chệch và phương sai của ̂( ). Các phương pháp thường được sử

<i>dụng trong lựa chọn biến là Chọn lựa tập con tốt nhất (The best subset selection), </i>

<i>Tiếp cận từng bước (Stepwise approach) và Lasso (Roncalli, 2020). </i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Phương pháp ước lượng Lasso (The Least Absolute Shrinkage and Selection Operator) là một trong những phương pháp chọn biến được sử dụng rộng rãi trong lĩnh vực học máy (Tibshirani, 1996). Nội dung của phương pháp Lasso như sau:

Tìm ước lượng ̂ ̂( ) ( ̂ ) sao cho:

{ <sub>̂</sub> { . ( ̂ )/}

‖ ̂‖ <sup> (2) </sup>Trong đó:

 ( ) là tham số của mơ hình; ̂ ( ̂ ̂ ) là

<i><b>ước lượng của β. </b></i>

 . ( <i>̂ )/ là hàm tổn thất trong quy trình thực hiện ước lượng tham </i>

<i>Chọn lựa tập con tốt nhất và có thể sử dụng trong trường hợp kích thước mẫu bé </i>

hơn số biến giải thích của mơ hình (Hastie & ctg, 2017).

Mặt khác, với xu hướng xét lại các thủ tục kiểm định giả thuyết thống kê, các công cụ phân tích cổ điển như mơ hình hồi quy tuyến tính sử dụng phương pháp ước lượng OLS (Ordinary Least Squares, OLS), mơ hình hồi quy Logistic đang đứng trước những thách thức vì nếu khơng sử dụng p-value (hoặc các thủ tục kiểm định giả thuyết thống kê), không thể trả lời được câu hỏi thường gặp nhất

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

trong q trình phân tích mơ hình: “Những biến độc lập nào là quan trọng nhất, thể hiện sự ảnh hưởng mạnh lên biến phụ thuộc trong mô hình hồi quy?” Khi đó,

<i>phương pháp Cách tiếp cận từng bước không thể được sử dụng. Phương pháp ước </i>

lượng Lasso là một lựa chọn thay thế hợp lý nhất.

Gần đây, một số nghiên cứu thuộc lĩnh vực kinh tế, tài chính, ngân hàng đã áp dụng Lasso và đạt được một số kết quả đáng lưu ý (Bui & Nguyen, 2021; Nguyễn Đức Trung, Lê Hoàng Anh, Đinh Thị Phương Anh, 2021). Tuy vậy, các nghiên cứu này chỉ dừng lại ở mức độ ứng dụng Lasso trên bài toán hồi quy. Một khung kiến thức cơ sở toán học của Lasso chưa được trình bày một cách chặt chẽ. Bên cạnh đó, phương pháp Lasso cịn có thể được ứng dụng trong bài toán phân loại. Hiện tại chưa có nghiên cứu thực nghiệm tại Việt Nam áp dụng Lasso cho bài toán phân loại. Nghiên cứu sẽ cung cấp một khung phân tích về cơ sở toán học, phương pháp tính tốn và tình huống thực nghiệm áp dụng Lasso trong lĩnh vực tài chính, ngân hàng cho bài tốn hồi quy và phân loại. Nghiên cứu đồng thời so sánh Lasso với phương pháp ước lượng OLS trong bài toán hồi quy; so sánh mô hình Lasso-Logistic với mơ hình hồi quy Logistic trong bài tốn phân loại.

<b>2. Mục đích nghiên cứu </b>

Nghiên cứu được thực hiện nhằm các mục đích sau:

 Giới thiệu một khung lý thuyết về phương pháp ước lượng Lasso.

 Giới thiệu các tình huống thực nghiệm với bộ dữ liệu Việt Nam bằng cách áp dụng phương pháp ước lượng Lasso. Qua đó, chứng minh khả năng cải thiện dự báo của Lasso so với phương pháp ước lượng OLS trong bài toán hồi quy và so với mơ hình hồi quy Logistic trong bài tốn phân loại.

<b>3. Đối tƣợng và phạm vi nghiên cứu </b>

<i>Đối tượng nghiên cứu: Cơ sở lý thuyết và ứng dụng của phương pháp ước </i>

lượng Lasso trong bài toán hồi quy và phân loại.

<i>Phạm vi nghiên cứu: </i>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

 Cơ sở toán học cho lời giải của phương pháp Lasso, các thuật tốn tìm lời giải Lasso, tính chất của các ước lượng từ phương pháp Lasso.

 Ứng dụng Lasso trong lĩnh vực Tài chính – Ngân hàng trên bài tốn hồi quy và phân loại.

<b>4. Phương pháp nghiên cứu </b>

 Nghiên cứu sử dụng phương pháp phân tích, tổng hợp các tài liệu (sách, bài báo) có liên quan đến phương pháp ước lượng Lasso để rút ra những vấn đề liên quan như: Thuật tốn tìm ước lượng Lasso, cơ sở tốn học của thuật tốn, các tính chất của ước lượng Lasso.

 Đối với nội dung ứng dụng Lasso, nghiên cứu sử dụng phương pháp định lượng với các mơ hình phân tích hồi quy, mơ hình phân loại dữ liệu. Các ước lượng mơ hình được thực hiện trên ngơn ngữ lập trình R.

<b>5. Những đóng góp mới của đề tài </b>

Phổ biến một phương pháp chọn biến của mơ hình hồi quy và phân loại trong phân tích kinh tế, tài chính, ngân hàng. Phương pháp này vừa có khả năng xây dựng một mơ hình đơn giản, ít biến giải thích, đồng thời có thể cải thiện khả năng dự báo so với các phương pháp truyền thống.

Thông qua ví dụ ứng dụng Lasso cho bài tốn phân loại, nghiên cứu đề xuất một mơ hình đánh giá tín dụng có hiệu quả cao hơn các phương pháp phân loại phổ biến.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>CHƯƠNG 1. CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP LASSO 1.1. Các kiến thức liên quan </b>

Nếu với mọi bất đẳng thức trong định nghĩa trên là dấu bất đẳng thức chặt (<) thì hàm số được gọi là lồi chặt.

<b>Hình 1. Đồ thị hàm lồi (a) và khơng lồi (b) </b>

<i>Nguồn: Hastie & ctg (2017) </i>

Hình 1 minh họa đồ thị hàm lồi (a) và không lồi (b). Theo định nghĩa hàm lồi, mọi đoạn thẳng nối hai điểm ( ( )) ( ( )) luôn nằm trên hoặc trùng với phần đồ thị hàm số trên khoảng ( ) Hơn nữa, nếu đường thẳng nối ( ( )) ( ( )) ln nằm trên thì hàm số là lồi chặt. Đồ thị (a) là đồ thị của một hàm lồi chặt.

<i>Ví dụ 1: Trên </i> , các hàm ( ) ( ) | | là hàm lồi. Trong đó, ( ) là hàm lồi chặt; ( ) | | là hàm lồi nhưng không chặt.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i>Ví dụ 2: Trên </i> , các chuẩn là những hàm lồi, trong đó chuẩn Euclide là hàm lồi chặt, chuẩn là hàm lồi không chặt.

<i><b>1.1.2. Điều kiện cần và đủ để hàm lồi đạt cực tiểu. </b></i>

Các kiến thức về tối ưu lồi sau đây bỏ qua phần chứng minh, mọi chi tiết có thể được tham khảo qua các tài liệu về tối ưu lồi. (Bertsekas, Nedic & Ozdaglar, 2003; Boyd & Vanderberghe, 2004).

Nhắc lại một số khái niệm và tính chất:

<i><b>* Gradient (bậc nhất) của hàm số thực </b></i> biến tại kí hiệu là ( ), được định nghĩa như sau:

( ) (<sup> </sup>

( ) <sup> </sup>

<sup>( </sup> <sup>)) </sup> <sup> </sup>với <sup> </sup>

<small> </small> ( ) là đạo hàm riêng của theo biến tại

<i><b>* Subgradient của hàm số thực </b></i> biến tại là vectơ thoả: ( ) ( ) 〈 〉

Với 〈 〉 là ký hiệu tích vơ hướng của Tập tất cả các subgradient của tại là một tập lồi trên , ký hiệu là ( ) Khi hàm số khả vi tại thì ( ) * ( )+

<i>Ví dụ: Xét hàm số </i> ( ) | |, khi đó:

( ) {

* + nếu * + nếu , - nếu

Ta thường dùng kí hiệu ( ) để chỉ ( ) của hàm giá trị tuyệt đối của

<i><b>* Tính chất cực tiểu của hàm lồi. Giả sử </b></i> là một hàm lồi, nếu đạt cực tiểu địa phương tại thì là điểm cực tiểu tồn cục của Nếu là hàm lồi chặt và có cực tiểu thì điểm cực tiểu là toàn cục và duy nhất.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<i><b>* Điều kiện cần và đủ của cực tiểu toàn cục. Xét hàm lồi </b></i> và tập ràng buộc đối với biến số là tập lồi <b> . Xét bài toán tối ưu: </b><sub> </sub> ( ) sao cho

i) Giả sử khả vi tại . Điều kiện cần và đủ để là điểm cực tiểu toàn cục của trên là 〈 ( ) <b>〉 </b>

Trường hợp , bài tốn trở thành tối ưu khơng có điều kiện ràng buộc. Khi đó, điều kiện cần và đủ để <sub> là điểm cực tiểu toàn cục của là ( </sub> ) .

ii) Xét và không khả vi tại , điều kiện cần và đủ để là điểm cực tiểu toàn cục của là ( )

<b>1.2. Phương pháp Lasso cho mơ hình hồi quy tuyến tính </b>

<i><b>1.2.1 Bài tốn tổng qt </b></i>

Xét mơ hình hồi quy tổng thể có dạng:

<sub> </sub> <sub> </sub> (3) Trong đó là biến được giải thích (biến phụ thuộc), ( ) là các biến giải thích (biến độc lập), là sai số ngẫu nhiên với kỳ vọng bằng 0.

Một số ký hiệu sử dụng ngôn ngữ vector – ma trận được sử dụng trong bài viết như sau.

 ‖ ‖ ∑<sub> </sub>| | ‖ ‖ (∑<sub> </sub> ) <sup>⁄</sup> với và (‖ ‖ ‖ ‖ là chuẩn và chuẩn Euclide trên không gian metric );

 ( ) là vectơ biến phụ thuộc, ( ) <b>; </b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (5) Trong bài toán (2) và (5), giá trị được gọi là tham số điều chỉnh. Khi giá trị đủ lớn, điều kiện ràng buộc về độ lớn các tham số không quá chặt, các ước lượng ̂ thu được từ bài toán (5) trùng với các ước lượng ̂ thu được từ bài toán (4). Ngược lại, khi giá trị gần 0, các ước lượng ̂ rất bé và do ràng buộc bởi chuẩn ‖ ‖ nên một số ước lượng nhận giá trị bằng 0.

Để thuận tiện trong kí hiệu và việc so sánh các tham số của mơ hình, các biến giải thích được chuẩn hóa theo cơng thức sau:

<sup> </sup><sup>̅</sup>

( )<sup> (6) </sup>với ̅ ∑<sub> </sub> <sub> </sub> ; ( ) √

<small> </small>∑<sub> </sub>( <sub> </sub> ̅ )

Hơn nữa, giả sử biến được giải thích có trung bình bằng 0. Khi đó, tham số và ta có thể bỏ tham số ra khỏi mơ hình (3). Từ đây trở về sau, trong khuôn khổ của nghiên cứu này, ta sẽ xét bài toán (5) với giả thiết các biến được chuẩn hóa (tức là các biến giải thích có trung bình bằng 0, phương sai bằng 1; biến được giải thích có trung bình bằng 0). Khi đó, bài tốn (5) trở thành:

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (7) Ta sẽ so sánh bài toán (7) và bài toán ước lượng Ridge để hiểu lí do chọn ràng buộc các tham số với chuẩn mà không phải là chuẩn Euclide:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Bài toán ước lượng Ridge:

{

‖ ̂ ‖ } với điều kiện ‖ ̂‖ (8) Các hàm mục tiêu trong bài toán (7) và (8) giống nhau, tuy nhiên điều kiện ràng buộc của hai bài tốn khác nhau. Hình 2 minh họa kết quả ước lượng từ Lasso và Ridge cho trường hợp . Phần diện tích màu xanh là miền phẳng xác định bởi điều kiện | | | | (trái) và (phải). Cả hai phương pháp đều mong muốn tìm giao điểm đầu tiên của các đường elip (là đồ thị của hàm mục tiêu) với miền giới hạn. Với miền giới hạn là đa giác có các góc nằm trên các trục tọa độ, nhiều khả năng giao điểm sẽ rơi vào các góc này, khi đó sẽ có một tham số bằng 0. Điều này không thể xảy ra khi miền giới hạn là hình trịn. Do đó, bài tốn (8) sẽ cho kết quả các ước lượng khác 0. Khi , miền giới hạn ở phương pháp Lasso sẽ có nhiều góc, cạnh phẳng và mặt, vì thế nhiều khả năng cho kết quả ước lượng bằng 0 hơn (Hastie, Tibshirani & Friedman, 2017).

<i>Nguồn: Hastie & ctg (2017) </i>

<i><b>1.2.2. Cơ sở toán học của phương pháp Lasso </b></i>

Đặt ( )

<small> </small>‖ ‖ và ( ) ‖ ‖ . Khi đó ( ) ( ) là các hàm lồi và liên tục trên ; hơn nữa tập ràng buộc * | ( ) + là tập

<b>Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge </b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

lồi, đóng và bị chặn trên . Theo các kết quả tối ưu lồi, bài tốn (7) tồn tại lời giải và có thể đưa về bài toán tương đương như sau:

{

‖ ̂ ‖ ‖ ̂‖ } với (9) Trong bài toán (9), tham số <i> được gọi là mức phạt của mơ hình. Khi đủ </i>

lớn, tất cả các giá trị ước lượng của từ (9) bằng 0. Khi bé, chỉ một vài giá trị ̂bằng 0, tương ứng với một số biến giải thích bị loại khỏi mơ hình (3). Tham số tương ứng một-một với tham số điều chỉnh trong (7). Với mỗi tham số điều chỉnh , ta có thể xác định duy nhất giá trị sao cho ‖ ̂‖ . Ngược lại, với mỗi tham số tham số điều chỉnh được xác định bởi ‖ <sup>̂</sup> ‖ .

Bài toán (9) là bài tốn tối ưu lồi khơng ràng buộc, với hàm mục tiêu là

‖ ̂ ‖ ‖ ̂‖ ( ̂) ( ̂)

Tuy nhiên, hàm mục tiêu này không khả vi tại những điểm có ít nhất một ̂ . Theo tính chất cực tiểu của hàm lồi, điều kiện cần và đủ để <sup>̂</sup> là điểm cực tiểu toàn cục của ( ̂) ( ̂) là :

( <sup>̂</sup> ) ( <sup>̂</sup> ) hay ( <sup>̂</sup> ) (10) Trong đó vectơ thỏa mãn ( <sup>̂</sup> )với mọi

<i><b>1.2.3. Thuật toán tìm ước lượng Lasso </b></i>

<i>Trong nhiều thuật tốn tìm lời giải cho bài toán (9), thuật toán giảm chiều </i>

(Coordinate descent, CD) là thuật toán tuy đơn giản nhưng rất hiệu quả.

<i><b>1.2.3.1. Trường hợp hồi quy đơn </b></i>

Bài toán (9) được phát biểu như sau: Từ mẫu * +<sub> </sub>, cần tìm ̂ sao cho:

<sub> </sub>{

<small> </small>∑<sub> </sub>( ̂) | ̂|} với (11) Từ điều kiện cần và đủ được cho bởi (10), nghiệm của (11) được xác định như sau:

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

∑<sub> </sub>( )( ̂) ̂ 〈 〉 (với ( ̂)) Như vậy:

̂

〈 〉 nếu 〈 〉 nếu | 〈 〉|

〈 〉 nếu 〈 〉

Nếu đặt ( ) ( )(| | ) ( <i>( ) được gọi là toán tử biên mềm) </i>

thì kết quả ước lượng trên có thể viết như sau:

̂ ( 〈 〉) (12) Lưu ý rằng ̃ 〈 〉 là kết quả ước lượng mơ hình (3) bằng phương pháp OLS.

<b>Hình 3. Đồ thị của tốn tử biên mềm. </b>

<i>Nguồn: Hastie & ctg (2017) </i>

Hình 3 minh họa đồ thị của toán tử biên mềm ( ). Khi thì ( ) . Tuy nhiên, khi thì | ( )| | |. Nói cách khác toán tử ( ) co độ lớn của về 0. Theo cơng thức (11), có thể cho rằng trường hợp hồi quy đơn, phương pháp Lasso đã co độ lớn của các ước lượng OLS về 0.

<i><b>1.2.3.2. Trường hợp hồi quy bội </b></i>

Ý tưởng của thuật toán giảm chiều trong trường hợp hồi quy bội như sau: Lần lượt áp dụng thuật toán giảm chiều, tìm cực tiểu hàm mục tiêu theo một biến

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

giải thích và giữ khơng đổi các biến giải thích cịn lại. Cụ thể, hàm mục tiêu trong bài toán (6) được viết lại:

̂ ( 〈 <small>( )</small> 〉) (14) Quá trình cứ thế được lặp lại tuần tự trên các tham số khác cho đến khi hàm mục tiêu đạt cực tiểu toàn cục.

<b>Bảng 1. Thuật toán giảm chiều </b>

<b>Dữ liệu vào </b> Mẫu {( <sub> </sub> <sub> </sub>)}

<small> </small>, và .

Bước 1 Gán và ̂ ( ̂ ̂ ) ( ) Bước 2 Tính <sup>( )</sup> ∑<sub> </sub> ̂ <sub> </sub>

Bước 3 Tính ̂ . 〈 <small>( )</small> 〉/.

Bước 4

+ Tính giá trị hàm mục tiêu:

<small> </small>∑<sub> </sub>( ∑<sub> </sub> ̂ <sub> </sub>) ∑<sub> </sub>| ̂ | + tăng thêm 1 đơn vị.

Bước 5 Lặp lại từ bước 2 đến bước 4 cho đến khi thì dừng. Bước 6 <sub>Trả về </sub>̂ ( ̂ ̂ <b>) tương ứng với { </b>}

<small> </small>.

<b>Dữ liệu ra </b> ̂ ( ̂ ̂ <b>) sao cho thỏa mãn (9). </b>

<i>Nguồn: Hastie & ctg (2017) </i>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<b>Bảng 2. Thuật toán Giảm chiều theo quỹ đạo. </b>

Dữ liệu vào Mẫu {( <sub> </sub> <sub> </sub>)}

1.4

+ Tính giá trị hàm mục tiêu:

<small> </small> <sub> </sub>∑<sub> </sub>( ∑<sub> </sub> ̂ <sub> </sub>) ∑<sub> </sub>| ̂ |

<i>+ j tăng thêm 1 đơn vị.</i>

1.5 Lặp lại từ Bước 1.2 đến Bước 1.5 cho đến khi . Bước 2 + giảm 1 đơn vị.

+ Lặp lại Bước 1 cho đến khi . Bước 3 Trả về ( ̂ ) tương ứng với { <sub> </sub>}

<small> </small> Dữ liệu ra ( <sup>̂</sup> ) ( ̂ ̂ <b>) sao cho thỏa mãn (9).</b>

<i>Nguồn: Hastie & ctg (2017) </i>

Trong thực hành, việc tìm lời giải cho phương pháp ước lượng Lasso thực hiện trên một tập các giá trị của thay vì tại một giá trị đơn lẻ. Ban đầu, thuật toán giảm chiều áp dụng với <sub> </sub> đủ lớn (thường chọn <sub> </sub> | 〈 〉|), kết quả nhận được là ̂ * +. Sau đó giảm giá trị một lượng nhỏ định trước, tiếp tục áp dụng thuật toán giảm chiều với tương ứng; kết quả ước lượng ̂ ở bước trước đó được xem như là giá trị khởi đầu của các tham số ̂ ở bước kế tiếp. Quá trình cứ thế tiếp tục cho đến khi bài tốn (7) đạt cực tiểu tồn cục

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

tại ( ̂ <i>) Thuật toán vừa trình bày được gọi là Giảm chiều theo quỹ đạo (Pathwise Coordinate Descent). Các thuật tốn được tóm tắt ở Bảng 1 và 2. </i>

<i>Nhận xét: Thuật toán ở Bảng 1 và 2 cho thấy phương pháp Lasso có thể áp </i>

dụng cho các trường hợp kích thước mẫu bé hơn số biến giải thích trong mơ hình ( ).

<b>1.3. Phương pháp Lasso cho bài toán phân loại </b>

Khơng mất tính tổng qt, ở mục này, ta xét bài toán phân loại nhị phân (các bài tốn phân loại đa nhãn đều có thể được đưa về phân loại nhị phân). Mơ hình hồi quy Logistic đã được ứng dụng từ rất lâu để giải quyết bài toán phân loại dữ liệu. Ý tưởng của phương pháp Lasso (1) có thể áp dụng cho mơ hình hồi quy Logistic, với hàm tổn thất là hàm âm log-likelihood. Mục này nhắc lại mơ hình hồi quy Logistic và giới thiệu phương pháp Lasso cho mơ hình hồi quy Logistic (sẽ được gọi là Lasso-Logistic).

<i><b>1.3.1. Mơ hình hồi quy Logistic (LR) </b></i>

<i>Giả sử dữ liệu gồm n quan sát *( </i> )+<sub> </sub> với * + là biến chỉ nhãn của quan sát thứ và là vector chỉ các biến giải thích, mơ tả các đặc điểm

<i>của quan sát thứ i. Một quan sát có nhãn bằng </i> được gọi là quan sát “dương tính”, ngược lại được gọi là “âm tính”.

Một mơ hình phân loại nhị phân là một ánh xạ <sup> </sup> * +. Trong đó, *( ) <small> </small>| * + + là tập dữ liệu.

Mơ hình hồi quy Logistic (LR) giả sử rằng hàm mật độ xác suất có điều kiện khi nhận giá trị 1 có dạng:

( | )

<small> </small>

<small> </small> ( ) (15) trong đó:

 là ma trận cột chuyển vị của các vector biến giải thích ;

 ( <sub> </sub>) ;

 và là các tham số cần ước lượng; ( )

<small> </small><sup> </sup><i> là hàm sigmoid. </i>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

LR tính tốn các xác suất ( | ) với mọi * + và xếp quan sát vào nhóm tương ứng với xác suất lớn hơn. Giả sử rằng các quan sát là độc lập, các tham số ( <sub> </sub>) và được ước lượng bằng phương pháp hợp lý cực đại (Maximum Likelihood) với hàm mục tiêu là:

( ( | )) (∏<sub> </sub> ( | )) ∑<sub> </sub> ( ( | ) ∑<sub> </sub> .

<small> ( )</small>/ ∑<sub> </sub> ( <sup> </sup> <sup>( </sup> <sup> </sup> <sup>)</sup>) (16) Một quan sát mới ( ) được gán nhãn (hoặc ) nếu xác suất có điều kiện ( | ) (hoặc ( | )) lớn hơn. Trong thực hành, xác suất có điều kiện ( | ) được so sánh với một ngưỡng cho trước. Nếu ( | ) không bé hơn ngưỡng , được xếp vào lớp có nhãn " Ngược lại, nếu ( | <i>) bé hơn α, </i> được xếp vào lớp có nhãn

<i><b>1.3.2. Mơ hình hồi quy Lasso-Logistic (LL) </b></i>

Sử dụng các ký hiệu ở mục 1.3.1, giả định của mơ hình LL là:

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

) bằng mơ hình LR. Giá trị tốt nhất của được chọn căn cứ vào các tiêu chuẩn AIC, BIC hoặc thủ tục Xác thực chéo.

Lập luận tương tự trường hợp bài tốn hồi quy tuyến tính, hàm mục tiêu ∑<sub> </sub> ( <small> ( ̂ )</small>) ‖ ̂‖ ( ̂) ( ̂) là hàm lồi và ( ̂) là hàm khả vi. Do đó, bài tốn (18) tồn tại cực tiểu tồn cục. Điểm cực tiểu ̂ <sub> được xác định </sub>như sau:

( ̂) ( ̂)

∑ <sup> </sup><sup> ̂</sup> <small> ( ̂ ) </small>

với ( ̂)( ) (19) Giải hệ (19) bằng cách sử dụng phương pháp lặp Newton. Hiện nay các phần mềm tính tốn có thể dễ dàng giải hệ (19) bằng các gói chương trình có sẵn. Ví dụ, đối với ngơn ngữ R, gói có thể giải quyết bài tốn tìm ước lượng cho mơ hình LL.

<b>1.4. Tính chất của ƣớc lƣợng Lasso </b>

<i><b>1.4.1. Bậc tự do </b></i>

Xét mơ hình (2), giả sử lời giải Lasso chỉ ra tập con gồm biến giải thích được chọn. Nếu là trường hợp hồi quy tuyến tính thì bậc tự do của mơ hình ước lượng ̂( ) là . Trường hợp hồi quy Logistic, bậc tự do của mô hình lớn hơn . Với tham số phạt cho trước, giá trị là ước lượng khơng chệch cho bậc tự do của mơ hình ước lượng ̂( ) (Hastie & ctg, 2017).

<i><b>1.4.2. Tính duy nhất </b></i>

Ước lượng Lasso không là ước lượng duy nhất. Nhận thấy ước lượng Lasso là điểm cực tiểu tồn cục của một hàm lồi khơng chặt, do đó có thể khơng là cực tiểu duy nhất. Một số trường hợp Lasso cho kết quả ước lượng không duy nhất, ví dụ: các biến giải thích có tương quan tuyến tính hồn hảo hoặc dữ liệu có biến định tính, được mã hóa bởi biến giả 0-1. Ngược lại, nếu dữ liệu được rút ra từ một phân phối xác suất liên tục thì ước lượng Lasso là duy nhất (Hastie & ctg,

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

2017) Ước lượng Lasso có thể không duy nhất nhưng kết quả dự báo dựa trên Lasso là duy nhất.

<i><b>1.4.3. Tính chệch </b></i>

Các ước lượng Lasso là ước lượng chệch. Chẳng hạn trường hợp , ước lượng Lasso có cơng thức tính là ̂ ( ̃) với ̃ là ước lượng OLS. Giả sử rằng kỳ vọng có điều kiện của sai số ngẫu nhiên <i>u</i><sub> ở mơ hình (3) bằng 0. Khi đó, ̃ là </sub>

ước lượng không chệch: ( ̃) . Với , ta có:

( ̂) ( ( ̃) ) . ( ̃)(| ̃ | ) / ( ̃)( (| ̃ |) )

( ̃)(| | )

<i><b>1.4.4. Tính vững </b></i>

Xét mơ hình hồi quy tuyến tính: ( ) và giả sử ̂ là ước lượng Lasso của mơ hình gồm giá trị ước lượng ̂ khác khơng.

Nếu thì <sup>‖ ( </sup><sup>̂)‖</sup> ‖ ‖ √<sup> ( )</sup> với xác suất rất lớn.

Như vậy, nếu ‖ ‖ <sub> (√</sub>

<small> ( )</small>) thì ước lượng Lasso là ước lượng vững. Nói cách khác, nếu mơ hình ( ) thật sự là mô hình thưa theo tỉ lệ

<small> ( )</small> thì ước lượng Lasso là ước lượng vững.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<b>CHƯƠNG 2. ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY </b>

<i>Chương này giới thiệu một nghiên cứu thực nghiệm với chủ đề “Sự ảnh </i>

<i>hưởng của các yếu tố nội tại đến khả năng sinh lợi của các ngân hàng thương mại cổ phần Việt Nam”. Trong đó, phương pháp Lasso được sử dụng cho bài toán hồi </i>

quy để xác định các yếu tố bên trong có ảnh hưởng mạnh đến khả năng sinh lợi của các ngân hàng thương mại cổ phần Việt Nam. Đồng thời, nghiên cứu thực hiện ước lượng bằng phương pháp OLS và so sánh với kết quả của phương pháp Lasso.

<b>2.1. Mơ hình nghiên cứu và các biến </b>

Nghiên cứu sử dụng ROA – suất sinh lợi trên tổng tài sản và ROE – suất sinh lợi trên vốn chủ sở hữu để đo lường khả năng sinh lợi của các ngân hàng. Các yếu tố nội tại của ngân hàng được xem xét dựa trên các nghiên cứu đã thực hiện tại các nền kinh tế khác nhau. Bảng 3 giới thiệu các biến giải thích của mơ hình, thể hiện các yếu tố nội tại của ngân hàng, cách tính tốn và cơ sở đề xuất. Dữ liệu được tổng hợp từ các báo cáo tài chính và báo cáo thường niên của mười ngân hàng thương mại cổ phần niêm yết Việt Nam trong giai đoạn 2009 – 2019. Các ngân hàng được chọn trong mẫu nghiên cứu bao gồm: Vietcombank, Vietinbank, BIDV,

<i><b>ACB, Eximbank, MB, NCB, Sacombank, SHB và VP. Mơ hình nghiên cứu </b></i>

<i> </i>

<i> ( ) </i>

<i> ( ) </i>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>Bảng 3. Các biến giải thích trong mơ hình. </b>

<b>TT Yếu tố nội tại </b>

<b>Biến giải thích </b>

<b>xuất </b>

1 Quy mơ ngân hàng

SIZE Logarit tự nhiên tổng tài sản ngân hàng

(Abdul Rahman & Md Reja, 2015; Isik et al., 2018; Lin & Zhang, 2009; Swai & Mbogela, 2014) 2 EQU Tỷ lệ tăng trưởng vốn chủ sở hữu

3 Cấu trúc sở hữu

STATE Tỷ lệ sở hữu cổ phần của nhà nước 4 FOR Tỷ lệ sở hữu cổ phần của nước ngoài

5

Rủi ro tín dụng

CRE

Tỷ lệ dự phịng rủi ro tín dụng/dư nợ cho vay khách hàng và cho thuê tài chính

6 LDR Tỷ lệ cho vay khách hàng/tiền gởi khách hàng

7 LOAN Tỷ lệ cho vay/tổng tài sản 8 Đòn bẩy tài

chính <sup>FLE </sup> Tỷ lệ nợ/tổng tài sản

<i>Nguồn: Tác giả tổng hợp </i>

<b>Bảng 4. Thống kê mô tả các biến. </b>

<small>Giá trị nhỏ nhất 0.01 0.07 16.74 -7.16 -1.01 34.86 58.53 79.60 0.00 0.00 Giá trị lớn nhất 2.54 27.73 21.12 104.27 5.41 74.37 138.01 95.94 30.00 100.00 Khoảng biến thiên 2.53 27.66 4.38 111.43 6.42 39.51 79.48 16.34 30.00 100.00 Trung vị 0.88 13.03 19.23 11.10 0.87 58.92 85.69 92.92 12.28 9.09 Trung bình 0.96 13.05 19.21 17.86 1.08 57.94 88.57 92.36 14.24 29.89 Độ lệch chuẩn 0.59 7.26 1.00 20.22 0.93 10.51 17.11 2.47 11.89 36.78 </small>

<i><small>Nguồn: Tác giả </small></i>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<b>2.2 Quy trình tính tốn </b>

Nghiên cứu sử dụng phần mềm R thực hiện tính tốn với quy trình như sau:

<b>Bước 1. Chuẩn hóa dữ liệu các biến giải thích, đối với biến được giải thích </b>

chỉ thực hiện biến đổi đưa về trung bình bằng 0. Xét tập giá trị của gồm 1000 giá trị cách đều nhau từ 10<sup>–4</sup> đến 10<sup>1</sup>.

<b>Bước 3. Vì dữ liệu mẫu là dữ liệu bảng, thực hiện ước lượng các mơ hình </b>

<i>(2.1) và (2.2) bằng kỹ thuật hai chiều trong cùng nhóm (within estimator for the </i>

two-way) để kiểm soát các ảnh hưởng của yếu tố thời gian và yếu tố cá biệt của mỗi ngân hàng. Trên cơ sở đó, dùng thuật tốn giảm chiều, thủ tục xác thực chéo để tìm tốt nhất và thực hiện phương pháp ước lượng Lasso với tốt nhất trên tập huấn luyện.

<b>Thủ tục xác thực chéo (Cross validation) là một trong những phương pháp </b>

được sử dụng để tìm ước lượng tốt nhất cho . Trong thủ tục xác thực chéo, tập dữ liệu được chia ngẫu nhiên làm tập con, kí hiệu . Với mỗi giá trị , thủ tục xác thực chéo được thực hiện như sau: Xem là tập kiểm tra, tập còn lại là tập huấn luyện. Áp dụng phương pháp Lasso trên tập huấn luyện này thu được mơ hình ước lượng (fitted model). Sau đó, áp dụng mơ hình ước lượng trên tập kiểm tra để dự báo giá trị của biến được giải thích và ghi nhận lại giá trị (Mean Squared Erorrs). Lần lượt thực hiện với Đặt là trung bình của các :

<sup>∑</sup><sup> </sup><sup> </sup>

Như vậy, mỗi tương ứng với một . Khi biến thiên trên một tập cho trước, giá trị tốt nhất là giá trị tương ứng với nhỏ nhất (Hastie & ctg, 2017).

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>Bước 4. Tính của các mơ hình tương ứng với phương pháp ước lượng </b>

Lasso và OLS trên tập kiểm tra.

<b>Bước 5. Thực hiện lặp lại 100 lần từ Bước 2 đến Bước 4 để so sánh </b>

của các mơ hình (2.1) và (2.2) tương ứng với phương pháp ước lượng Lasso và OLS trên tập kiểm tra.

<b>2.3. Kết quả tính tốn </b>

<b>Bước 1: Chuẩn hóa dữ liệu các biến giải thích, đối với biến được giải thích </b>

chỉ thực hiện biến đổi đưa về trung bình bằng 0.

<b>Bước 2. Tập huấn luyện và tập kiểm tra được phân chia ngẫu nhiên theo tỉ lệ </b>

Tập kiểm tra gồm 22 quan sát với các quan sát thứ: 1, 2, 5, 7, 9, 17, 22, 25, 32, 35, 42, 51, 53, 56, 60, 75, 76, 80, 83, 91, 101, 102. Tập huấn luyện gồm 88 quan sát còn lại.

<b>Bước 3. Hình 4 minh họa sự biến thiên của các hệ số ước lượng trong các </b>

mơ hình (2.1) (trái) và mơ hình (2.2) (phải) khi biến thiên trên tập .

<b>Hình 4. Sự biến thiên của các ước lượng hệ số theo .</b>

<i>Nguồn: Tác giả </i>

<b>- Dùng thủ tục xác thực chéo với </b> để tìm tốt nhất. Hình 5 minh họa sự biến thiên của theo đối với mơ hình (2.1) (trái) và mơ hình (2.2) (phải). Mức phạt tốt nhất lần lượt đối với các mô hình (2.1) và (2.2) là <sub> </sub> .

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Các kết quả ước lượng theo hai phương pháp - Lasso (theo tốt nhất) và OLS của các mô hình (2.1), (2.2) đồng thời thể hiện ở Bảng 5. Đối với mơ hình (2.1), biến chỉ thành phần sở hữu nhà nước STATE có ước lượng hệ số hồi quy bằng 0, do đó bị loại ra khỏi mơ hình.

<b>Hình 5. Sự biến thiên của CVM theo lambda.<small> </small></b>

<i>Nguồn: Tác giả </i>

<b>Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với tốt nhất. </b>

<small>Biến giải thích </small>

<small>Mơ hình (2.1) </small>

<small> </small>

<small>Mơ hình (2.2) Lasso (λ=0.007707) OLS Lasso (λ=0.220467) OLS </small>

<small>Hệ số ước lượng </small><sup>Hệ số ước </sup>

<small>lượng </small> <sup>Thống kê t Hệ số ước lượng </sup>

<small>Hệ số ước </small>

<small>lượng </small> <sup>Thống kê t </sup><small>SIZE 0.2208 0.2687</small><sup>*</sup> <small>2.58 3.6685 4.5555</small><sup>***</sup> <small>3.461 EQU 0.2068 0.2119</small><sup>***</sup> <small>4.008 3.6699 3.8580</small><sup>***</sup> <small>5.774 CRE 0.1753 0.1706</small><sup>**</sup> <small>3.333 1.0174 1.0006 1.547 LOAN -0.2507 -0.2848</small><sup>***</sup> <small>-4.171 -2.4018 -3.2745</small><sup>***</sup> <small>-3.794 LDR 0.1494 0.1654</small><sup>**</sup> <small>2.834 1.2249 1.6554</small><sup>*</sup> <small>2.245 FLE -0.1905 -0.2105</small><sup>**</sup> <small>-3.22 0.0000 -0.2215 -0.268 FOR 0.0555 0.0495 0.658 0.0000 -0.0615 -0.07 STATE 0.0000 -0.0179 -0.25 0.0000 -0.2282 -0.252 </small>

<i><small>Nguồn: Tác giả Ghi chú: Các ký hiệu </small><sup>* , **, ***</sup><small> lần lượt chỉ mức ý nghĩa thống kê 10%, 5%, và 1%. </small></i>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Đối với mơ hình (2.2), các biến chỉ số địn bẩy tài chính (FLE), thành phần sở hữu nhà nước (STATE) và thành phần sở hữu nước ngồi (FOR) bị loại ra khỏi mơ hình.

Bên cạnh đó, điểm tương đồng trong kết quả ước lượng của Lasso và OLS là hầu hết những hệ số có ước lượng Lasso bằng 0 thì khơng có ý nghĩa thống kê nếu suy diễn từ ước lượng OLS (trừ hệ số của biến FOR ở mơ hình (2.1) và hệ số của biến LDR ở mơ hình (2.2)). Mặt khác, ở mơ hình (2.1), vì giá trị <sub> </sub> rất gần giá trị

<b>0 nên kết quả ước lượng Lasso khá gần với kết quả ước lượng OLS. </b>

<b>Bước 4. Để so sánh khả năng dự báo của phương pháp Lasso và OLS, ta so </b>

sánh trên tập kiểm tra của các ước lượng mơ hình (2.1) và (2.2) bằng hai phương pháp nói trên. Kết quả ở Bảng 6 cho thấy của các mơ hình được ước lượng bằng Lasso nhỏ hơn của các mơ hình được ước lượng bằng OLS.

<b>Bảng 6. So sánh từ Lasso với tốt nhất và OLS trên tập kiểm tra </b>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

& Mbogela (2014). Bên cạnh đó, nhận thấy ở cả hai trường hợp (2.1) và (2.2), trên tập kiểm tra, của mô hình được ước lượng từ phương pháp Lasso nhỏ hơn từ OLS. Tuy vậy, sự khác biệt của hai phương pháp ước lượng không quá lớn.

<b>Bước 5. Nhằm ước lượng các phân bố của , thực hiện lặp lại 100 lần từ </b>

Bước 2 đến Bước 4, thu được của các mơ hình từ các phương pháp Lasso và OLS. Hình 6 và 7 mô tả trực quan phân bố mẫu của từ phương pháp ước lượng Lasso và OLS cho các mơ hình (2.1) và (2.2).

Hình ảnh cho thấy rằng, đối với mơ hình (2.1), phương pháp Lasso cho nhỏ hơn phương pháp OLS, tuy không đáng kể. Đối với mô hình (2.2), từ hai phương pháp là như nhau. Phân bố của từ hai phương pháp tương đối giống nhau ở cả hai mơ hình.

<b>Hình 6. Biểu đồ của mơ hình (2.1) </b>

<i>Nguồn: Tác giả </i>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<b>Hình 7. Biểu đồ của mơ hình (2.2) </b>

<i>Nguồn: Tác giả </i>

<b>2.4. Kết luận </b>

Chương 2 đã cung cấp ví dụ ứng dụng phương pháp Lasso trong phân tích hồi quy. Có thể kết luận rằng phương pháp ước lượng Lasso là một điều chỉnh của phương pháp OLS với mục đích chính là co gọn mơ hình. Khi đó, mơ hình co gọn này dễ diễn giải hơn vì xác định rõ các yếu tố có ảnh hưởng mạnh đến biến được giải thích. Đây là ưu điểm vượt trội của phương pháp Lasso so với các phương pháp ước lượng OLS hay phương pháp ước lượng điều chỉnh Ridge. Kết quả thực nghiệm trong nghiên cứu cịn cho thấy rằng Lasso có thể cải thiện khả năng dự báo của mơ hình. Tuy nhiên, sự khác biệt giữa sai số của mơ hình ước lượng bằng Lasso và OLS ở ví dụ ứng dụng này khơng đáng kể.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>CHƯƠNG 3. ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI </b>

Chương này giới thiệu ứng dụng phương pháp Lasso trong bài toán phân

<i>loại qua tình huống thực nghiệm “Xây dựng mơ hình đánh giá tín dụng”. </i>

Một mơ hình đánh giá tín dụng tin cậy phải phát hiện đúng nhóm khách hàng xấu. Điều này thường khó đạt được khi chênh lệch số phần tử hai nhóm khách hàng tốt - xấu là lớn. Bên cạnh đó, mơ hình đánh giá tín dụng cần chỉ rõ những đặc điểm quan trọng của khách hàng để dự báo khả năng vỡ nợ. Nghiên cứu đề xuất một mơ hình đánh giá tín dụng, được gọi là SMOTE-Lasso-Logistic. Áp dụng kết hợp kỹ thuật tái chọn mẫu SMOTE và phương pháp Lasso trên mơ hình hồi quy Logistic, mơ hình SMOTE-Lasso-Logistic được kỳ vọng có thể giải quyết những vấn đề nói trên đồng thời đạt hiệu quả phân loại cao hơn các tiếp cận truyền thống như mơ hình hồi quy Logistic và mơ hình Cây phân loại.

<b>3.1. Giới thiệu </b>

Đánh giá tín dụng hay chấm điểm tín dụng (Credit Scoring) là vấn đề rất được quan tâm trong các nền kinh tế hiện đại. Mỗi cá nhân, các công ty, doanh nghiệp (từ đây sẽ gọi chung là khách hàng) được gán một mức điểm số hoặc thứ hạng tín dụng bởi các ngân hàng, các tổ chức cung cấp dịch vụ tín dụng (gọi chung là ngân hàng). Xếp hạng tín dụng nhằm đánh giá mức độ rủi ro của khoản cho vay, có ý nghĩa quan trọng đối với cả hai phía ngân hàng và khách hàng. Đối với phía ngân hàng, đó là những thơng tin giúp các ngân hàng phịng ngừa rủi ro tín dụng. Một phân loại khơng chính xác với bản chất của khách hàng, ví dụ khách hàng tiềm ẩn nhiều rủi ro tín dụng lại được nhận diện là khách hàng tốt, có thể dẫn đến những tổn thất to lớn của ngân hàng (Abdou & Pointon, 2011). Đối với phía khách hàng, những hiểu biết về điểm số hoặc mức xếp hạng tín dụng của bản thân giúp họ có thể cải thiện các chỉ số đánh giá tín dụng, nhờ đó có thể tiếp cận các khoản vay với lãi suất và thời hạn hợp lý. Tại các nền kinh tế phát triển, mức xếp hạng tín dụng cao không những giúp khách hàng thuận lợi tiếp cận nguồn vốn ngân hàng mà còn là một trong những yếu tố thể hiện ở hồ sơ xin việc làm, đơn xin nhập học cho con cái, các giao dịch mua bán trả góp… Có thể cho rằng cơng tác đánh giá tín dụng đã

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

góp phần ngăn ngừa tổn thất cho xã hội và giúp dòng tiền lưu chuyển hợp lý trong nền kinh tế.

Có nhiều hướng tiếp cận để giải quyết bài tốn đánh giá tín dụng, bao gồm các phân tích định tính và định lượng. Trong đó, phổ biến nhất là sử dụng các công cụ thống kê nhằm phân biệt hai nhóm khách hàng “tốt” và “xấu” từ những thơng tin về đặc điểm khách hàng và khoản vay (Onay & Öztürk, 2018). Bên cạnh yêu cầu phân loại chính xác nhóm khách hàng tốt và xấu, hai vấn đề tồn tại trong bài tốn đánh giá tín dụng, đó là: i) Xác định các đặc điểm quan trọng để nhận dạng nhóm khách hàng; và ii) Vấn đề dữ liệu đầu vào mất cân bằng. Trên bộ dữ liệu của một ngân hàng thương mại cổ phần lớn tại Việt Nam, nghiên cứu đề xuất một mô hình đánh giá tín dụng có thể giải quyết hai vấn đề trên. Trước tiên, vấn đề dữ liệu mất cân bằng được giải quyết bằng kỹ thuật SMOTE. Sau đó, phương pháp ước lượng Lasso được sử dụng cho mơ hình hồi quy Logistic để tính xác suất vỡ nợ của khách hàng. Từ đó, với một giá trị ngưỡng được chọn, có thể phân loại khách hàng tốt và xấu. Các độ đo hiệu quả AUC và KS cho thấy mơ hình phân loại đề xuất tốt hơn các mơ hình phân loại truyền thống như Hồi quy Logistic và Cây quyết định.

<b>3.2. Khung phân tích vấn đề xây dựng mơ hình đánh giá tín dụng. </b>

<i><b>3.2.1. Khái niệm đánh giá tín dụng </b></i>

Đánh giá tín dụng/ chấm điểm tín dụng/ xếp hạng tín dụng là các thuật ngữ

<i>Việt hóa của từ gốc credit scoring. Theo các tài liệu, credit scoring có nhiều định nghĩa. Credit chỉ một khoản tiền do một tổ chức tài chính cho khách hàng vay và khoản tiền này phải được hoàn trả dần cùng với phần lãi. Scoring chỉ việc sử dụng </i>

một số công cụ số học để xếp hạng các khoản vay căn cứ vào chất lượng thực tế

<i>hoặc cảm nhận (Anderson & Hardin, 2014; Hand & Henley, 1997). Scores có thể </i>

được biểu diễn dưới dạng số hoặc dưới dạng điểm - qua hình thức “chữ cái” hoặc “nhãn”, nhằm thể hiện chất lượng của khách hàng. Một định nghĩa rộng hơn của

<i>credit scoring - là một biểu diễn số học dựa trên phân tích mức độ tin cậy của </i>

khách hàng, biểu diễn đó là một cơng cụ hữu ích trong đánh giá và dự phòng rủi ro vỡ nợ (Louzada, Ara & Fernandes, 2016).

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Từ những định nghĩa trên, trong khuôn khổ đề tài, chúng tôi chọn sử dụng thuật ngữ Việt hóa là “đánh giá tín dụng” với ý nghĩa: Dựa trên dữ liệu đầu vào là các tính chất của khách hàng và khoản vay, sử dụng các mơ hình phân loại để gán nhãn “xấu” và “tốt” cho khách hàng tín dụng. Trong đó, nhãn “xấu” được gán cho khách hàng có khả năng vỡ nợ cao và ngược lại, nhãn “tốt” được gán cho khách hàng có khả năng vỡ nợ thấp.

<i><b>3.2.2. Các yếu tố đầu vào </b></i>

Trong giai đoạn ban đầu, đánh giá tín dụng được thực hiện theo phương pháp chuyên gia. Phổ biến nhất là quy tắc 5C, bao gồm những yếu tố được cho là quan trọng nhất trong quy trình đánh giá rủi ro tín dụng.

<b>Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO </b>

1. Đặc điểm khách hàng (Character)

1. Lịch sử trả nợ của khách hàng (Payment History)

3. Tài sản thế chấp

3. Khoảng thời gian ghi nhận lịch sử tín dụng (Length of Credit History)

15%

4. Khả năng chi trả

4. Các khoản tín dụng

mới (New Credit) <sup>10% </sup>

5. Điều kiện của thị

5. Các loại hình tín dụng khác mà khách hàng sử dụng (Credit Mix)

10%

<i>Nguồn: Tác giả tổng hợp </i>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Tuy nhiên, tiếp cận 5C chỉ quan tâm đến khoản vay hiện tại của khách hàng, bỏ qua rất nhiều thông tin hữu ích như lịch sử trả nợ vay của khách hàng, thói quen chi tiêu của khách hàng… Hiện tại, nổi tiếng nhất là tổ chức Fair and Issac (FICO) đánh giá tín dụng qua 5 yếu tố với tỷ trọng khác nhau trong cơng thức chấm điểm tín dụng. Bảng 7 giới thiệu các yếu tố được xem xét trong quy trình đánh giá tín dụng của quy tắc 5C và FICO.

Có thể thấy, từ cách tiếp cận 5C đến phương pháp chấm điểm tín dụng của FICO, bài tốn xếp hạng tín dụng đã mở rộng các thông tin liên quan của khách hàng. Điểm hạn chế của FICO là không đưa ra giải thích hợp lý cho trọng số của các thành phần trong Bảng 7. Tuy vậy, các yếu tố được đề cập đến trong tiếp cận 5C và FICO là những yếu tố được sử dụng tại hầu hết các ngân hàng hoặc trong các nghiên cứu xây dựng mơ hình phân loại hoặc chấm điểm tín dụng khách hàng.

<b>3.3. Các phương pháp thống kê trong xây dựng mơ hình đánh giá tín dụng </b>

<i><b>3.3.1. Các phương pháp thống kê truyền thống </b></i>

Đánh giá tín dụng được giải quyết bằng cách áp dụng các mơ hình phân loại, trong đó phổ biến nhất là phương pháp Phân tích phân biệt và hồi quy Logistic. Mục này tóm tắt các kiến thức về phương pháp Phân tích phân biệt.

<i><b>i) Phân tích Phân biệt tuyến tính và bậc hai </b></i>

Nội dung phương pháp Phân tích phân biệt tuyến tính (Linear Discriminant Analysis, LDA) như sau:

<i>Giả sử dữ liệu gồm n quan sát *( </i> )+<sub> </sub> với * + là biến chỉ nhãn (label) và <i> là vector chỉ các đặc tính của quan sát thứ i. Phân tích phân </i>

biệt sẽ phân loại một quan sát ( ) (chưa biết giá trị của ) vào một trong các nhóm * +dựa vào đặc điểm riêng được mô tả bởi tập các biến độc lập .

LDA giả định rằng:

i) ( <i><b>) có phân phối chuẩn p-chiều, ( , ) với </b></i> là vector kỳ vọng và là ma trận hiệp phương sai của .

</div>

×