Tải bản đầy đủ (.pdf) (38 trang)

Xây dựng mô hình dự báo khách hàng đủ điều kiện được phê duyệt khoản vay mua nhà của công ty tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.89 MB, 38 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH</b>

<b>BÁO CÁO DỰ ÁN CUỐI KỲ</b>

MƠN KHOA HỌC DỮ LIỆU

<b>XÂY DỰNG MƠ HÌNH DỰ BÁO KHÁCH HÀNG ĐỦĐIỀU KIỆN ĐƯỢC PHÊ DUYỆT KHOẢN VAY MUA</b>

<b>NHÀ CỦA CƠNG TY TÀI CHÍNH</b>

Giảng viên: Ths.Trương Việt Phương

Mã LHP: 24D1INF50905908 Buổi học: Sáng thứ Hai

TP. Hồ Chí Minh - 2024

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI MỞ ĐẦU</b>

Lời đầu tiên, chúng em xin gửi lời cảm ơn đến thầy Trương Việt Phương đã truyền đạt kiến thức cho chúng em trong suốt những tuần qua với bộ môn Khoa học dữ liệu. Thay mặt các bạn, chúng em cảm ơn sự tận tâm qua từng buổi học, từng lời giảng, sự tận tình của thầy về bộ mơn này và cả những kinh nghiệm trong việc khắc phục những thiếu sót của chúng em, điều đó đã giúp chúng em rất nhiều trong lúc thực hiện dự án cuối kì này. Từ những kiến thức được học, nhóm chúng em đã cố gắng tìm tịi và học hỏi thêm để hoàn thành dự án này, Tuy nhiên, nhận thức rằng kiến thức và kinh nghiệm của chúng em vẫn còn hạn chế và khơng tránh khỏi những sai sót. Chúng em rất mong nhận được những góp ý chân thành từ thầy để có thể cải thiện hơn cho những dự án tương lai.

Dự án mà nhóm của chúng em đã thực hiện là "<b>Xây dựng mơ hình dự báo khách hàngđủ điều kiện được phê duyệt khoản vay mua nhà của cơng ty tài chính.</b>" Mục tiêu chính của dự án này là tìm hiểu kĩ hơn về đặc điểm khách hàng qua bộ dữ liệu từ nước ngoài, qua đó đối chiếu và đưa ra khuyến nghị về việc cho vay tín dụng ở Việt Nam. Chúng em hy vọng rằng thơng qua dự án này, nhóm chúng em có thể phát triển kỹ năng làm việc nhóm, kỹ năng mềm cần thiết và tích lũy thêm nhiều kinh nghiệm hơn trong xử lý dữ liệu để chuẩn bị cho các công việc tương lai.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>MỤC LỤC</b>

<b>I. GIỚI THIỆU DỰ ÁN... 1</b>

1. Tóm tắt dự án... 1

2. Giới thiệu dự án... 1

2.1. Lĩnh vực cho vay tiêu dùng là gì?... 1

2.2. Thực trạng cho vay tiêu dùng tại Việt Nam... 2

2.3. Khoa học dữ liệu và lĩnh vực vay tiêu dùng...3

2.4. Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính cho bài tốn... 3

2.5. Phương pháp nghiên cứu...4

<b>II. XÂY DỰNG MƠ HÌNH DỰ BÁO BẰNG ORANGE...4</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC HÌNH ẢNH</b>

Hình 1. Dữ liệu các thơng tin từ danh sách khách hàng các khoản vay tiêu dùng... 6

Hình 2. Data Table về các thơng tin từ danh sách người vay tiêu dùng...6

Hình 3. Tiền xử lý dữ liệu bị thiếu... 7

Hình 4. Data Table sau khi đã Tiền xử lý dữ liệu (no missing data)... 8

Hình 5. Lưu dữ liệu tiến hành phân cụm...8

Hình 6. Mơ hình tiến hành thống kê mơ tả dữ liệu...9

Hình 7. Kết quả thu được sau khi tiến hành thống kê mơ tả dữ liệu... 9

Hình 8. Mơ hình bài tốn phân cụm... 15

Hình 9. Mơ tả phương pháp k-Means...16

Hình 10. Phương pháp Hierarchical Clustering... 16

Hình 11. Mơ tả phương pháp Hierarchical Clustering theo 2 cụm...17

Hình 12. Phân chia 2 cụm...17

Hình 13. Đồ thị chỉ số Silhouette Scores 2 cụm bằng Hierarchical Clustering...18

Hình 14.Data table kết quả mơ hình phân cụm... 18

Hình 15. Mơ tả phương pháp Hierarchical Clustering theo 3 cụm... 19

Hình 16. Phân chia 3 cụm...19

Hình 17. Đồ thị chỉ số Silhouette Scores 3 cụm bằng Hierarchical Clustering...20

Hình 18. Data table kết quả mơ hình phân cụm... 21

Hình 19. Mơ hình bài tốn phân lớp...22

Hình 20. Insert bộ dữ liệu huấn luyện... 23

Hình 21. Data Table sau khi đã tiền xử lý dữ liệu... 24

Hình 22. Rank xếp hạng độ tương quan với biến target...24

Hình 23. Kết quả test and Score... 25

Hình 24. Đồ thị ROC với target N qua 3 phương pháp phân lớp...26

Hình 25. Đồ thị ROC với target Y qua 3 phương pháp phân lớp...26

Hình 26. Ma trận nhầm lẫn cho Tree Decision...27

Hình 27. Ma trận nhầm lẫn cho Logistic Regression... 27

Hình 28. Ma trận nhầm lẫn cho SVM... 28

Hình 29. Mơ hình bài tốn dự báo...29

Hình 30. Trích 10 dịng dữ liệu trong bộ dữ liệu processed... 29

Hình 31. Kết quả dự báo bằng cơng cụ Predictions... 30

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>I.GIỚI THIỆU DỰ ÁN1.Tóm tắt dự án</b>

Tín dụng tiêu dùng ngày càng trở nên không thể thiếu và là một phần quan trọng của cơ cấu kinh tế thị trường, đồng thời đó cũng là chiến lược và mục tiêu hàng đầu mà các cơng ty tài chính trên thế giới hướng đến, đặc biệt là Việt Nam. Trong bối cảnh này, nhu cầu vay tiêu dùng của người dân nhằm đáp ứng các mục tiêu như mua nhà, mua xe ngày càng tăng cao. Mặc dù việc vay tiêu dùng trở nên phổ biến và thuận tiện, nhưng để đáp ứng nhu cầu ấy thành công, người cho vay cần xem xét cẩn thận khả năng thanh toán của người vay trong khoảng thời gian nhất định.

<b>Dự án “Xây dựng mơ hình dự báo khách hàng đủ điều kiện được phê duyệt khoảnvay mua nhà của cơng ty tài chính” dựa trên tính cấp thiết của việc phát triển lĩnh vực</b>

cho vay tiêu dùng, sử dụng đặc điểm khách hàng lấy trong bộ dữ liệu từ nước ngồi. Nhóm sẽ tiến hành dự báo khả năng cho vay và đề ra khuyến nghị để phát triển việc cho vay tín dụng ở Việt Nam. .

Cụ thể, thơng qua phương pháp phân tích dữ liệu, phân cụm dữ liệu, phân lớp dữ liệu và dự báo kết quả để xác định yếu tố cũng như mức độ ảnh hưởng của đặc điểm khách hàng đến khả năng vay vốn. Nhờ vào kết quả phân tích này, các cơng ty tài chính có thể xác định được phân khúc khách hàng đủ điều kiện vay vốn, đề xuất hướng phát triển dịch vụ cho vay, tối ưu hóa lợi nhuận và đạt hiệu quả tốt nhất cho cả hai bên.

<b>2.Giới thiệu dự án</b>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Như vậy, cho vay tiêu dùng là nguồn tài chính quan trọng giúp người tiêu dùng có thể trang trải các nhu cầu trong cuộc sống như nhà ở, phương tiện đi lại, tiện nghi sinh hoạt, học tập, du lịch, y tế… trước khi họ có đủ khả năng về tài chính để hưởng thụ. (Khuất, n.d.)

<b>2.2. Thực trạng cho vay tiêu dùng tại Việt Nam</b>

Trong một thập niên qua, xu hướng tiêu dùng tại thị trường Việt Nam đã có nhiều thay đổi, người dân sẵn sàng chi tiêu trước cho các nhu cầu đời sống, thay vì tiết kiệm trước, chi tiêu sau; chuyển từ sử dụng tiền mặt sang thẻ tín dụng trong thanh tốn và các kênh bán lẻ trực tuyến thay vì chuỗi cửa hàng bán lẻ, tác động lớn đến sự phát triển của tín dụng tiêu dùng trong hệ thống các tổ chức tín dụng. Dựa trên thống kê của Hiệp hội Ngân hàng Việt Nam, đến cuối tháng 9/2023, toàn hệ thống có 84 tổ chức tín dụng triển khai hoạt động tín dụng tiêu dùng, trong đó có 15 cơng ty tài chính tiêu dùng. Tổng dư nợ cho vay nền kinh tế đạt khoảng 12.749 nghìn tỷ đồng, trong đó tín dụng tiêu dùng của tồn hệ thống đạt khoảng 2.703 nghìn tỷ đồng, chiếm tỷ trọng 21,2% tổng dư nợ nền kinh tế. (Nguyễn, 2020)

Tuy nhiên, tình hình kinh tế trong nước cùng nền kinh tế tồn cầu thời gian gần đây đang phải trải qua vô số biến động phức tạp, dẫn đến hoạt động cho vay tiêu dùng gặp nhiều thách thức với tỷ lệ tăng trưởng thấp. Khi so sánh giữa cuối năm 2022, dư nợ cho vay tiêu dùng toàn hệ thống chỉ tăng khoảng 1,53% - một mức tăng rất thấp so với 5 năm qua.

Bên cạnh đó, tỷ lệ nợ xấu trong tín dụng tiêu dùng tồn hệ thống có xu hướng gia tăng khoảng gần 3,7% tổng dư nợ tín dụng tiêu dùng. Đặc biệt, tỷ lệ nợ xấu của các cơng ty tài chính có nguy cơ tăng hơn 15%, nhiều cơng ty lâm vào tình trạng khó khăn, thậm chí thua lỗ do phải trích dự phịng rủi ro nợ xấu. (Anh Hồng, 2023).

Nguyên nhân của tất cả bối cảnh trên, ngồi những yếu tố khách quan nói chung, cịn có những yếu tố chủ quan và rất nguy hiểm chưa được xử lý như: Khách hàng cố ý không trả nợ, người trước khuyên người sau không trả nợ, hay cán bộ cơng ty đến địi nợ hoặc nhắc nợ thì bị chống đối, tố cáo…

Chính vì thế, đây là những vấn đề đòi hỏi sự chú ý và giải quyết kịp thời để có thể khai thác hết tiềm năng của cho vay tiêu dùng, hồi phục mức độ tăng trưởng của tín dụng tiêu

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>2.3. Khoa học dữ liệu và lĩnh vực vay tiêu dùng</b>

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu, có ý nghĩa đối với hoạt động kinh doanh; đồng thời kết hợp với các nguyên tắc từ toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu. Ngày nay, khoa học dữ liệu thường được các tổ chức cho vay sử dụng nhằm phân tích và xác định khách hàng đáng tin cậy, từ đó giảm thiểu rủi ro cũng như tạo nền tảng vững chắc trong việc cho vay tiêu dùng.

<b>Câu hỏi “Các đối tượng Khách Hàng có đủ điều kiện cho vay hay khơng?” sẽ là mục</b>

tiêu chính của dự án trong việc áp dụng khoa học dữ liệu cho lĩnh vực đầy tiềm năng này.

<b>2.4. Phân tích đặc điểm của cho vay tiêu dùng từ đó xác định được thuộc tính chobài tốn</b>

Cho vay tiêu dùng thường có những đặc điểm sau đây:

Thứ nhất, quy mô của các hợp đồng vay thường nhỏ, dẫn đến chi phí tổ chức cho vay cao. Điều này nghĩa là dù giá trị vay lớn hay nhỏ, nhân viên ngân hàng hoặc nhân viên tổ chức tín dụng vẫn phải thực hiện đầy đủ các bước trong quy trình tín dụng, dẫn đến chi phí quản lý tương đương với việc cho doanh nghiệp vay một món lớn để sản xuất kinh doanh.

Thứ hai, hoạt động cho vay tiêu dùng thường nhạy cảm theo chu kỳ kinh tế. Nó tăng lên khi nền kinh tế mở rộng, người dân cảm thấy lạc quan về tương lai; giảm khi nền kinh tế suy thoái, khiến nhiều cá nhân và hộ gia đình hạn chế vay mượn.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Dựa trên những đặc tính của cho vay tiêu dùng, nhóm nghiên cứu đã xác định một số thuộc tính quan trọng như ID của cá nhân đi vay, số người phụ thuộc, giới tính, tình trạng hơn nhân, trình độ học vấn, khả năng làm chủ doanh nghiệp, thu nhập của người đề đơn vay, thu nhập của người đồng đề đơn vay, số tiền muốn vay, thời hạn vay theo tháng, lịch sử tín dụng của người đi vay, khu vực của người đi vay và quyết định có nên cho vay hay khơng của tổ chức tài chính. Những thuộc tính này sẽ là cơ sở vững chắc để phân tích khả năng cho vay và đưa ra dự báo có tính hiệu quả về quản lý rủi ro, giúp các tổ chức tài chính đưa ra quyết định thông minh về việc cho vay tiêu dùng đối với khách hàng. (Phân Tích Các Yếu Tố ảnh Hưởng đến Quyết định Vay Tiêu Dùng Tại Các Ngân Hàng Thương Mại Của Công Nhân Trên địa Bàn Thành Phố Biên Hòa, Tỉnh Đồng Nai, 2022)

<b>2.5. Phương pháp nghiên cứu</b>

Dựa vào bộ dữ liệu bao gồm dữ liệu huấn luyện và dữ liệu dự báo có sẵn, nhóm tiến hành tiền xử lý dữ liệu và phân cụm khách hàng để thấy rõ từng đặc điểm của họ thông qua những công cụ như Hierarchical clustering, Partitioning clustering (K-Means),... Sau q trình phân cụm, nhóm sử dụng dữ liệu đã phân cụm để tiến hành phân lớp, với mục đích dự đốn khả năng phê duyệt khoản vay mua nhà của cơng ty tài chính. Cuối cùng, nhóm khai thác công cụ SVM, Tree, Logistic Regression để phân lớp và áp dụng Test and Score, ROC Analysis, Confusion Matrix để chọn ra phương pháp phù hợp.

<b>II.XÂY DỰNG MƠ HÌNH DỰ BÁO BẰNG ORANGE1.Phân tích dữ liệu</b>

<b>1.1. Mơ tả bộ dữ liệu</b>

Phân tích dữ liệu của các đặc trưng có tính phân loại:

Bộ dữ liệu của nhóm được thu thập từ cơng ty tài chính chun giải quyết tất cả các khoản vay. Quá trình thu thập dữ liệu được thực hiện bằng cách họ đưa ra bài toán xác định phân khúc khách hàng đủ điều kiện vay vốn để nhắm mục tiêu cụ thể đến những khách hàng này. Bằng cách dựa trên thông tin chi tiết khách hàng được cung cấp khi điền vào mẫu đơn đăng ký trực tuyến bằng thời gian thực.

Bộ dữ liệu gồm 367 đối tượng (hàng), có 10 thuộc tính (cột) đồng thời bộ dữ liệu này đã được xác thực. Trước khi tiến hành phân tích nhóm có thực hiện bước xử lý dữ liệu trước vì nhận thấy có sự tồn tại một số dữ liệu mà thông tin thiếu hay bị bỏ trống. Bên cạnh đó,

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

nhóm cũng đã chọn skip để bỏ qua 1 cột meta do khơng phù hợp trong q trình phân tích.

<b>Bảng 1: Tổng quát dữ liệu về các thông tin của khách hàng vay tiêu dùng.</b>

Loan_ID Mã định danh của khách hàng Chuỗi ký tự chữ và số Dependents Số người phụ thuộc của người đi vay Số tự nhiên

Education Trình độ học vấn Graduate/Not Graduate Self_Employed Người đi vay có tự làm chủ doanh

nghiệp của mình hay khơng

Yes/No Applicant Income Thu nhập của người đề đơn vay Số tự nhiên Co applicant Income Thu nhập của người đồng đề đơn vay Số tự nhiên

Loan Amount Term Thời hạn vay theo tháng Số tự nhiên Credit_History Lịch sử tín dụng của người vay Số tự nhiên

Property Area Khu vực của người đi vay Urban/SemiUrban /Rural Loan_Status Quyết định có nên cho vay hay

Yes/No

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>1.2. Tiền xử lý dữ liệu</b>

<b>Hình 1. Dữ liệu các thơng tintừ danh sách khách hàng các khoản vay tiêu dùng.</b>

Báo cáo sử dụng dữ liệu được lấy từ trangkaggle.com.

Nhập bộ dữ liệu test.csv vào máy, ta có thể thấy các cột giá trị của bộ dữ liệu. Trong đó, Loan_ID chứa dữ liệu dạng ký tự nên sẽ không ảnh hưởng đến kết quả dự báo, ta chọn Skip; Dependents là số người phụ thuộc của người đi vay, ta chọn type là categorical và role là feature.

<b>Hình 2. Data Table về các thơng tintừ danh sách người vay tiêu dùng.</b>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Từ data table thấy được có 2.1% dữ liệu bị thiếu (missing value), do đó tiến hành tiền xử lý dữ liệu thông qua preprocessing widget. Chọn Impute Missing Values và Average/Most frequent (thay thế các giá trị bị thiếu bằng giá trị trung bình/xuất hiện nhiều nhất).

<b>Hình 3. Tiền xử lý dữ liệu bị thiếu.</b>

Sau khi tiền xử lý dữ liệu, ta có được một bộ dữ liệu hồn chỉnh.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>Hình 4. Data Table sau khi đã Tiền xử lý dữ liệu (no missing data)</b>

<b>Hình 5. Lưu dữ liệu tiến hành phân cụm</b>

Sau đó, nhóm sẽ tiến hành lưu dữ liệu (Save data widget) để tiến hành phân cụm.

<b>1.3. Thống kê mô tả dữ liệu</b>

Từ dữ liệu đã lưu tiến hànhchọn feature statistic widget để tiến hành thống kê mô tả dữ liệu.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Hình 6. Mơ hình tiến hành thống kê mơ tả dữ liệu</b>

<b>Hình 7. Kết quả thu được sau khi tiến hành thống kê mô tả dữ liệu</b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>Các thuộc tính mơ tả dữ liệu:</b>

● Gender

Qua Thống kê cho thấy khách hàng có nhu cầu vay tiêu dùng chủ yếu là nam với297 khách hàng chiếm 80.93%và70 khách hàng chiếm 19.07%đối với khách hàng nữ.

● Married

Qua kết quả phân tích nhận thấy rằng khách hàng đã kết hơn chiếm tỉ lệ cao233 người với 63.49%và134 người chưa kết hôn chiếm 36.51%.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

● Education

Đa phần khách hàng có nhu cầu vay đã tốt nghiệp với283 khách hàng chiếm 77.11%và khách hàng chưa tốt nghiệp84 khách hàng chiếm 22.89%.

● Self_Employed

Phần lớn khách hàng không tự kinh doanh chiếm số lượng lớn với330 khách hàng chiếm 89.92% và khách hàng tự kinh doanh chiếm số lượng nhỏ với 37 khách hàng chiếm 10.08%.

● Credit_History

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Đa phần đây đều là lần đầu hay lần thứ hai của khách hàng có nhu cầu vay. Trong đó có 59 khách hàng chưa từng vay trước đó chiếm 16,58% và 308 khách hàng đã từng vay 1 lần chiếm 83,92%.

● Property_Area

Tất cả các khu vực đều có nhu cầu vay và số lượng khu vực lần lượt là nông thôn (Rural) là 111 khách hàng chiếm 30.25% và bán đô thị (Semiurban) là 116 khách hàng chiếm 31.61% và đơ thị (Urban) là 140 khách hàng chiếm 38.15%.

● Dependents

Nhìn chung, phần lớn khách hàng có nhu cầu vay tín dụng khơng có người phụ thuộc (chiếm 57.22% với 210 người), cao thứ hai là có 59 khách hàng có 2 người phụ thuộc chiếm 16.08%, còn lại số khách hàng có 1 người phụ thuộc là 58 người chiếm 15.8% và từ 3 người phụ thuộc trở lên chiếm 10.9%.

● ApplicantIncome

Trung bình Yếu vị Trung vị Độ phân tán Min Max

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Trung bình thu nhập của người nộp đơn là 4805.60$, người có thu nhập cao nhất là 72529$ và vẫn tồn tại khách hàng có nhu cầu vay tín dụng khơng có thu nhập.

● CoapplicantIncome

Trung bình Yếu vị Trung vị Độ phân tán Min Max

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Số tiền vay của khách hàng trung bình là 136.13 nghìn $, khách hàng có nhu cầu vay tiền cao nhất là 550 nghìn $ và thấp nhất là 28 nghìn $. Phần lớn khách hàng có nhu cầu vay tín dụng thường muốn vay khoảng 150 nghìn $.

● Loan_amount_term (đơn vị tháng)

Trung bình Yếu vị Trung vị Độ phân tán Min Max

Khách hàng có nhu cầu vay với nhiều kỳ hạn khác nhau. Trong đó kỳ hạn trung bình thường là 342 tháng, trong đó kỳ hạn vay lâu nhất là 480 tháng tương ứng 40 năm và thấp nhất là chỉ trong 6 tháng.

</div>

×