Tải bản đầy đủ (.pdf) (34 trang)

Phân tích và dự đoán về sự chấp nhận của khách hàng trong vấn đề chuyển khoản nợ thành khoản vay

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.73 MB, 34 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN VỀ SỰ CHẤP NHẬN CỦA KHÁCH HÀNG TRONG VẤN ĐỀ CHUYỂN

<b>KHOẢN NỢ THÀNH KHOẢN VAY </b>

<b>GVHD: ThS. Nguyễn Văn Hồ </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Bảng đánh giá mức độ hoàn thành của các thành viên </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ... 5

<b>2.1. </b> Tổng quan về Khoa học dữ liệu ... 5

<b>2.2.L</b>ợi ích của Khoa học dữ liệu trong kinh doanh quản lý: ... 6

<b>2.3. </b> Quy trình thực hiện dự án Khoa học dữ liệu: ... 6

<b>2.4. </b> Lý thuyết và các phương pháp trong phân tích dữ liệu ... 7

2.4.1. Phương pháp phân lớp: ... 7

2.4.2. Các phương pháp đánh giá mơ hình phân lớp: ... 11

CHƯƠNG 3. PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU .. 14

<b>3.1. </b> Xác định và phân tích yêu cầu người dùng: ... 14

<b>3.2. </b> Tổng quan về cơ sở dữ liệu nguồn ... 15

<i>3.2.1. Mô tả dữ liệu nguồn ... 15 </i>

<i>3.2.2. Dữ liệu cần phân tích đối với yêu cầu người dùng………. 17 </i>

CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ ... 18

<b>4.1 </b> Giới thiệu giải pháp và quy trình thực hiện: ... 18

<b>4.2. </b> Phân tích và trực quan hóa kết quả (nếu có): ...18

<b>4.3 Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI

<b>1.1. </b> Lý do chọn đề tài

Vay vốn hiện nay khơng cịn xa lạ với khách hàng cá nhân hay doanh nghiệp nữa. Nhờ có hình thức vay ngân hàng này mà khách hàng có thể giải quyết ngay những vấn đề của bản thân như: kinh doanh, đầu tư, mua sắm hay trải nghiệm,…Để hoạt động ngân hàng ngày càng đạt hiệu quả cao hơn, hạn chế thấp nhất các rủi ro cho vay, Ngân hàng cần đặc biệt quan tâm đến việc nâng cao hiệu quả cho vay khách hàng cá nhân trong thời gian tới. Các khoản cho vay là một món nợ đối với cá nhân hay doanh nghiệp đi vay nhưng lại là một tài sản đối với ngân hàng. So sánh với các tài sản khác, khoản mục cho vay có tính thanh khoản kém hơn với thông thường chúng không thể chuyển thành tiền mặt trước khi các khoản cho vay đó đến hạn thanh toán.

<b>1.2. </b> Mục tiêu đề tài

Giới thiệu phương pháp phân lớp khác nhau Logistic Regression, Tree, Neural Network, SVM (Support Vector Machine) để xem xét, dự đốn số khách hàng chuyển từ có khoản nợ thành có khoản vay

<b>1.3. </b> Đối tượng và phạm vi nghiên cứu của đề tài

Sử dụng bộ dữ liệu bao gồm các thông tin công khai về danh sách khoản vay cá nhân của ngân hàng (Thera Bank)

<b>1.4. </b> Công cụ sử dụng

- Sử dụng phần mềm Orange

Phần mềm Orange là một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thực hành data mining. Hệ thống của Orange được gọi là widget, bao gồm từ việc trực quan hóa dữ liệu đơn giản, lựa chọn tập con và xử lý trước, đến việc đánh giá thực nghiệm các thuật tốn và mơ hình dự đốn. Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp ta bắt tay ngay vào phân tích dữ liệu gồm:

<i>Data: </i>dùng để rút trích, biến đổi và n p d ạ ữ liệu (ETL process).

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<i>Visualize: dùng để</i> biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn.

<i>Model: g m các hàm machine learning phân l p d</i>ồ ớ ữ liệu, có c Neural Network ả gồm các hyper-parameter cơ bản để b n xây d ng nhanh Deep learning th n thánh mà ạ ự ầ các fan Deep-learning based đang theo đuổi.

<i>Evaluate: các phương pháp đánh giá mô hình máy học. </i>

<i>Unsupervised: g m các hàm machine learing gom nhóm d</i>ồ ữ liệu.

<b>1.5. </b> Ý nghĩa nghiên cứu

Chuyển đổi khách hàng nợ thành khách hàng cho vay cá nhân (trong khi vẫn giữ họ làm người gửi tiền).

Khuyến khích bộ phận tiếp thị bán lẻ đưa ra các chiến dịch tiếp thị mục tiêu tốt hơn để tăng tỷ lệ thành công với ngân sách tối thiểu.

<b>1.6. </b> Cấu trúc đề tài:

Trình bày vắn tắt các chương của đề tài

Phần mở đầu và kết luận, danh mục từ viết tắt, danh mục bảng và biểu đồ, danh mục tài liệu tham khảo và phụ lục, đề tài được kết cấu thành các mục như sau:

Chương 1: Chương 2:

<b>Chương 3: </b>

Từ dữ liệu ban đầu, phân tích, đánh giá…

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

<b>2.1. </b> Tổng quan về Khoa học dữ liệu

- “Khoa học dữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích dữ liệu để dự đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến

<i>lược hành động.” </i>

- Nhiều doanh nghiệp, bất kể quy mô, đều sử dụng một chiến lược khoa học dữ liệu như một cách hiệu quả để thúc đẩy tăng trưởng và duy trì lợi thế cạnh tranh

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

trên thị trường. Một số lợi ích chính bao gồm: khám phá các mẫu biến đổi tiềm ẩn; sáng tạo các sản phẩm và giải pháp mới; tối ưu hóa trong thời gian thực;...

- Khoa học dữ liệu gồm 3 phần chính: + Tạo ra giá trị và quản trị dữ liệu. + Phân tích dữ liệu về lĩnh vực cụ thể.

+ Chuyển kết quả phân tích thành giá trị hành động.

<b>2.2. L</b>ợi ích của Khoa học dữ liệu trong kinh doanh quản lý:

- Khoa học dữ liệu giúp con người mơ tả, chẩn đốn, dự đốn, và đề xuất từ đó đưa ra quyết định và hành động chính xác và hiệu quả nhất. Ví dụ: cụ thể là trong bài toán đặt ra ở trên về dự đoán số lượng khách hàng chấp nhận chuyển đổi từ khoản nợ sang khoản vay; với một lượng lớn dữ liệu cần được xử lý trong bài tốn thì việc ứng dụng khoa học dữ liệu, khai thác các phương pháp và tính năng trong nó để xử lý bài tốn là hồn tồn phù hợp và đem lại hiệu quả cao.

- Khoa học dữ liệu giúp các doanh nghiệp phân tích kinh doanh nhằm quản lý nhân sự, hiểu khách hàng, quyết định đầu tư vào thị trường nào và bán sản phẩm gì. - Vai trị của khoa học dữ liệu thể hiện qua 6 bài toán của doanh nghiệp như tài chính, khách hàng, bán hàng, thị trường, nhân sự, hiểu khách hàng, quyết định đầu tư và thị trường nào và bán sản phẩm gì.

- Khi nguồn dữ liệu là rất lớn và cần được xử lý thì cần áp dụng những ứng dụng của khoa học dữ liệu vào mơ hình kinh doanh.

<b>2.3. </b> Quy trình thực hiện dự án Khoa học dữ liệu: - Quy trình thực hiện được yêu cầu như sau:

+ Thu thập dữ liệu và hiểu dữ liệu <i>(Data collection and understanding)</i>: dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tải xuống từ Internet.

+ <i>Tiền xử lý dữ liệu (Data preprocessing): là quy trình chuẩn hóa dữ liệu </i>

dựa theo một định dạng được định trước. Quy trình này bao gồm xử lý dữ liệu cịn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữ liệu ngoại lai.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

+ Chuyển đổi dữ liệu<i> (Data transformation)</i>: là thao tác phân tích sơ bộ dữ liệu được sử dụng để lập kế hoạch kỹ hơn cho các chiến lược mô hình hóa dữ liệu.

+ Phân tích d <i>ữ liệu-Ra quyết định (Data Analysis,making decisions): là một </i>

quá trình thu th p d ậ ữ liệu thơ và sau đó chuyển đổi nó thành thơng tin h u ích cho viữ ệc ra quyết định của người dùng. Dữ liệu được thu thập và phân tích để trả ờ l i các câu hỏi, kiểm tra các gi thuyả ết hoặc bác b các l thuyỏ ý ế t.

+ <i>Diễn giải kết quả và đưa ra đánh giá (Interpretation and Evaluation): Các </i>

nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để chuyển đổi thông tin chi tiết về dữ liệu thành hành động. Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện những xu hướng và dự đốn. Tóm tắt dữ liệu giúp các bên liên quan hiểu rõ và triển khai kết quả một cách hữu hiệu.

<b>2.4. </b> Lý thuyết và các phương pháp trong phân tích dữ liệu

<i>2.4.1. Phương pháp phân lớp: </i>

<i>2.4.1.1. Cây quyết định (Decision Tree) </i>

- Khái niệm:

+ Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định.

+ Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.

- Ưu khuyết điểm:

+ Ưu điểm: Dễ hiểu hơng địi hỏi việc chuẩn hóa dữ liệu ó thể xử lý , k , c trên nhiều kiểu dữ liệu khác nhau, xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. + Khuyết điểm: Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian, chi phí xây dựng mơ hình cao.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<i>2.4.1.2. Hồi quy logistic (Logistic Regression): </i>

- Định nghĩa: “là một mơ hình xác suất dự đốn giá trị đầu ra rời rạc từ

<i>một tập các giá trị đầu vào (biểu diễn dưới dạng vector).” </i>

<i>2.4.1.3. SVM (Support Vector Machine): </i>

- Khái niệm:

+ “SVM là một thuật tốn có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách

<i>các lớp dữ liệu.” </i>

+ Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

+ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau.

Phân lớp đa lớp (biên giữa các lớp là tuyến tính)

Kernel SVM Dữ liệu là phi tuyến - Ưu, nhược điểm

+ Ưu điểm:

● Tiết kiệm bộ nhớ (do quá trình test chỉ cần so với điểm dữ liệu mới với mặt siêu phẳng tìm được mà khơng cần tính tốn lại).

● Linh hoạt: vừa có thể phân loại tuyến tính và phi tính (sử dụng các kernel

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i>2.4.1.4. Neural Network: </i>

- Khái niệm: “Neural Network là mạng nơ ron nhân tạo, đây là một chuỗi <i></i>

-những thuật tốn được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các

<i>dữ liệu. Thông qua việc học theo cách thức hoạt động từ não bộ con người.” </i>

- Ưu, nhược điểm: + Ưu điểm:

● Có thể xây dựng một mơ hình tính tốn có khả năng học dữ liệu rất cao. ● Thích ứng với nhiều loại thông số.

● Dễ sử dụng.

● Yêu cầu số liệu thống kê tối thiểu đào tạo.

● Phát hiện các mối quan hệ phức tạp giữa đầu vào và đầu ra. + Nhược điểm:

● Khó thiết kế.

● Khó lập mơ hình phân tích do sự nhạy cảm với những thay đổi ở đầu vào dữ liệu.

● Yêu cầu lượng lớn tài nguyên để có thể vận hành. ● Mạng hoạt động không tốt với các tập dữ liệu nhỏ.

<i>2.4.1.5. Random Forest: </i>

- Khái niệm: “Random forest là một phương pháp thống kê mơ hình hóa bằng máy dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định.”

- Ưu và nhược điểm:

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

+ Ưu điểm:

● Là một phương pháp chính xác và mạnh mẽ, không bị vấn đề về overfitting, lý do chính là nó mất trung bình của tất cả các dự toán.

● Sử dụng trong cả hai vấn đề phân loại và hồi quy.

● Xử lý được các giá trị còn thiếu bằng cách sử dụng các giá trị trung bình để thay thế các biến liên tục và tính tốn mức trung bình gần kề của các giá trị bị thiếu.

+ Nhược điểm:

● Tốn thời gian và mơ hình khó hiểu hơn cây quyết định.

<i>2.4.2. Các phương pháp đánh giá mơ hình phân lớp: </i>

- Khái niệm:

+ “Là các phương pháp nhằm kiểm tra tính hiệu quả của mơ hình phân lớp

<i>trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mơ hình đó hay khơng.” </i>

+ Một mơ hình lý tưởng là một mơ hình khơng q đơn giản, khơng q phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting).

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<i>2.4.2.1. Ma trận nhầm lẫn (Confusion Matrix): </i>

- “Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào lớp nào. Confusion matrix là có

<i>kích thước k x k với k là số lượng lớp của dữ liệu.” </i>

Xét ví dụ, bài tốn dự đốn vay nợ, có 2 lớp. Lớp có vay nợ (Positive) và lớp không vay nợ (Negative).

● True positive (TP): Số các trường hợp dự đốn có vay nợ đúng hay có vay nợ thật.

● True negative (TN): Số các trường hợp dự đốn khơng vay nợ đúng hay khơng vay nợ thật.

● False positive (FP): Số các trường hợp dự đốn có vay nợ sai hay không vay nợ.

● False negative (FN): Số các trường hợp dự đốn khơng vay nợ sai hay có vay nợ.

- Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu, nhưng không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.

ACC= CA = <sup>𝑇𝑃 + 𝑇𝑁</sup> <small>𝑃 + 𝑁</small>

- Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng.

Precision = <sub>𝑇𝑃 + 𝐹𝑃</sub><sup>𝑇𝑃</sup>

- Độ phủ (Recall) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate).

Recall = <sup>𝑇𝑃</sup>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

- F1 -score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.

F1 = 2 𝑥 <sub>𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙</sub><sup>𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙</sup>

- ROC (Receiver Operating Characteristic): “Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo True positive rate (TPR) dựa trên tỷ lệ dự báo

<i>False positive rate (FPR) tại các ngưỡng khác nhau.” </i>

- AUC (Area Under the Curve): “là diện tích nằm dưới đường cong ROC; giá trị này là một số dương nhỏ hơn hoặc bằng 1; giá trị này càng lớn thì mơ hình

<i>càng tốt.” </i>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i>2.4.2.2. Phương pháp phân chia giữ liệu Hold-out: </i>

<i>Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo </i>

một tỷ lệ nhất định. Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%.

Phương pháp này thích hợp cho các tập dữ liệu nhỏ. Tuy nhiên, các mẫu có thể khơng đại diện cho tồn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).

Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên : thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.

<i>2.4.2.3. K- ld cross validation: fo</i>

<i>Phương pháp F-fold này phân chia dữ liệu thành k tập con có cùng kích thước </i>

(gọi là các fold). Một trong các fold được sử dụng làm tập dữ liệu đánh giá phần còn , lại được sử dụng làm tập huấn luyện. Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá.

CHƯƠNG 3. PHÂN TÍCH U CẦU NGƯỜI DÙNG VÀ MƠ TẢ DỮ LIỆU

<b>3.1. </b> Xác định và phân tích u cầu người dùng:

Bài tốn dự đốn số khách hàng cũ đang có khoản nợ với ngân hàng có quyết định chuyển đổi thành khoản vay khơng. Việc chuyển đổi khoản nợ thành khoản vay là hành động có lợi cho cả hai bên khách hàng và ngân hàng nếu cả hai đều đưa ra các hành động đúng đắn.

- Đối với khách hàng, nếu chuyển khoản nợ mà khách hàng đang nợ ngân hàng thành khoản vay thì khách hàng có quyền lợi là được hưởng chiết khấu nếu trả trong thời gian được quy định trong hợp đồng thay vì phải trả hết khoản nợ và phần lãi vay phát sinh thêm sau thời gian chuyển đổi. Ví dụ, khi chuyển từ nợ thành lãi vay khách hàng sẽ được áp dụng ưu đãi 2/30, nghĩa là khi trả tiền vay trong 30 ngày đầu thì sẽ được hưởng 2% số tiền giảm cho khoản vay phải trả, cịn nếu sau đó thì khơng

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

được giảm mà vẫn phải trả tiền với số lãi vay kèm theo. Trong trường hợp khách hàng khơng chuyển thành lãi vay thì sẽ khơng có được khoản giảm giá nếu trả sớm trong 30 ngày như khi đã chuyển đổi.

- Về phía ngân hàng, khi khách hàng chuyển đổi thành nợ vay và trả sớm theo thời gian quy định trong hợp đồng và được hưởng chiết khấu thì ngân hàng thu về khoản tiền đó sớm, làm tăng nguồn tiền tại ngân hàng và không phải lo lắng về các rủi ro phát sinh về việc có nhiều khoản phải thu nhưng lại thiếu hụt về dòng tiền.

<b>3.2. </b> Tổng quan về cơ sở dữ liệu nguồn

Dữ liệu bao gồm thông tin nhân khẩu học của khách hàng (tuổi, thu nhập, v.v.), mối quan hệ của khách hàng với ngân hàng (thế chấp, tài khoản chứng khoán, v.v.) và phản ứng của khách hàng đối với chiến dịch cho vay cá nhân gần đây nhất (Personal Loan).

<i>3.2.1. </i>Mô tả dữ liệu nguồn

Mô tả bộ dữ liệu khai thác:

Bộ dữ liệu được sử dụng là tổng hợp thông tin của 5000 khách hàng. Trong số 5000 khách hàng này, chỉ có 480 (= 9,6%) chấp nhận khoản vay cá nhân được cung cấp cho họ trong chiến dịch trước đó.

Sau đây là cấu trúc của tập dữ liệu:

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

ZIP CODE Mã địa chỉ nhà 91107,90089,.... nhân được cung cấp trong chiến dịch trước khoản chứng khoán tại ngân hàng này khơng?

(0- Khơng,1-Có)

<small>0,1 </small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

CD_ACCOUNT Khách hàng có tài khoản chứng chỉ tiền gửi (CD) tại ngân hàng này

<i>3.2.2. Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng </i>

Lấy những dữ liệu “Income”, “Age”, “Experience”, “Family”, “Education”, “CCAvg”, “Mortgage”, “Personal loan” để phân tích đối với yêu cầu người dùng.

</div>

×