Tải bản đầy đủ (.pdf) (46 trang)

Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.81 MB, 46 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC UEH</b>

<b>TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH</b>

<b>ĐỀ TÀI</b>

<b>ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO DỰ BÁO VIỆC RỜI ĐI HAY Ở LẠI CỦA KHÁCH HÀNG TRONG NGÂN HÀNG</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<i><b>Lời cảm ơn</b></i>

Lời đầu tiên, nhóm 1 xin phép gửi lời biết ơn sâu sắc đến thầy Nguyễn Mạnh Tuấn -giảng viên bộ môn Khoa học dữ liệu, Đại học Kinh tế thành phố Hồ Chí Minh. Trong suốt thời gian học tập, nhóm đã được thầy trang bị thêm các kiến thức nền tảng mới, đã giúp cho nhóm tự tìm hiểu và là hành trang giúp ích trong cơng việc sau này. Ngồi ra, thầy đã đưa ra thêm các lời khuyên và kinh nghiệm thực tế khi nhóm đối mặt với một số vấn đề khó khăn khi thực hiện đề tài.

Với sự giúp đỡ của thầy, chúng em có thể hiểu sâu thêm về đề tài mình đang làm. Bằng tất cả sự kính trọng và biết ơn sâu sắc nhất, một lần nữa nhóm xin gửi lời cảm ơn chân thành đến thầy. Và để báo đáp phần nào đó, nhóm mong đề tài này sẽ mang lại hữu ích cho ngành ngân hàng.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<i><b>Mức độ liên quan đến chuyên ngành của các bài toán</b></i>

Dự án của nhóm gồm những biến liên quan đến chuyên ngành tài chính:

• <i><b>Điểm tín dụng (CreditScore ) là một cơng cụ đánh giá quan trọng để xác định rủi</b></i>

ro tín dụng và quyết định về các dịch vụ tài chính, như vay vốn, điều kiện vay, lãi suất hay thẻ tín dụng.

• <i><b>Số dư trong tài khoản ngân hàng (Balance) là một phần quan trọng của ngân sách</b></i>

cá nhân hoặc doanh nghiệp. Nó giúp xác định khả năng chi tiêu và đầu tư trong các kế hoạch tài chính. Số dư tài khoản có thể ảnh hưởng đến điểm tín dụng và khả năng vay vốn.

• <i><b>Sử dụng thẻ tín dụng (HasCrCard) có thể ảnh hưởng đến điểm tín dụng của cá</b></i>

nhân. Thẻ tín dụng thường đi kèm với lãi suất nếu người sử dụng khơng thanh tốn đầy đủ số tiền mỗi tháng. Thẻ tín dụng là một phương tiện thanh tốn linh hoạt và phổ biến trong lĩnh vực tài chính.

• <i><b>Thu nhập ước tính (EstimatedSalary) có thể ảnh hưởng đến sự lựa chọn về các</b></i>

dịch vụ tài chính, chẳng hạn như loại tài khoản ngân hàng, thẻ tín dụng, hay các sản phẩm đầu tư. Thu nhập đóng vai trị quan trọng trong quản lý tài chính cá nhân. Nó ảnh hưởng đến khả năng chi tiêu, tiết kiệm, và đầu tư.

• <i><b>Việc rời bỏ ngân hàng (Exited) là một quyết định tài chính quan trọng và có ảnh</b></i>

hưởng đến mối quan hệ của cá nhân hoặc doanh nghiệp với ngành tài chính. Rời bỏ ngân hàng có thể ảnh hưởng đến loại tài khoản và các dịch vụ tài chính mà người dùng có thể tiếp cận, cách quản lý chi tiêu, tiết kiệm, và đầu tư.

Trong dự án này, tỷ lệ khách hàng rời bỏ được phân tích xuyên suốt trong qua 3 bài toán với các biến như trên. Nghiên cứu trong các bài tốn mang lại thơng tin thực tiễn và ứng dụng cho ngành tài chính ngân hàng.

<i><b> Do vậy, nhóm đánh giá rằng các bài tốn trong dự án thuộc mức độ 1 (liên quan đếnchuyên ngành).</b></i>

<i>Link drive chứa các file dữ liệu cần thiết cho đồ án: </i>link

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Chương 2: Quy trình thực hiện và Kết quả...7

1. Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu...7

1.1. Mô tả nguồn dữ liệu...7

1.2. Cấu trúc nguồn dữ liệu...7

2. Tiền xử lý...8

3. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu...9

3.1. Dashboard: Tổng quan về ngân hàng...9

3.2. Orange: Phân tích đặc thù...11

3.3. Kết luận bài toán...15

4. Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ở lại của khách hàng16 4.1 Mơ tả bài tốn...16

4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài tốn...16

4.3 Chạy mơ hình và kết quả...17

4.4. Kết luận cho bài toán:...25

5. Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành...26

5.1. Mơ tả bài toán...26

5.2. Các kiến thức chuyên ngành nếu liên quan đến bài tốn...28

5.3. Chạy mơ hình và kết quả...28

5.4. Kết luận bài toán...37

Chương 3: Kết luận và kiến nghị...38

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

2.1. Kiến nghị giải pháp cho ngân hàng để giữ chân khách hàng rời đi...39

2.2. Kiến nghị giúp ngân hàng để giữ chân khách hàng ở lại để tìm được khách hàng trung thành...40

Giải thích thuật ngữ...41

Tài liệu tham khảo...41

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>MỤC LỤC BẢNG BIỂU – HÌNH ẢNH</b>

<b>Bảng 1: Cấu trúc nguồn dữ liệu...7</b>

<b>Hình 1: Mơ hình tiền xử lý...9</b>

<b>Hình 2: Dashboard – Churn For Bank Customers...10</b>

<b>Hình 3: Mơ hình Orange phân tích đặc thù...11</b>

<b>Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng...12</b>

<b>Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng...12</b>

<b>Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua...13</b>

<b>Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng...13</b>

<b>Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng...14</b>

<b>Hình 9: Biểu đồ cột thể hiện số dư của khách hàng...14</b>

<b>Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng...15</b>

<b>Hình 11: Mơ hình phân lớp dự đốn khả năng rời đi của khách hàng...16</b>

<b>Hình 12: Kết quả Test and Score...17</b>

<b>Hình 13: Kết quả Logistic Regression...18</b>

<b>Hình 14: Kết quả SVM...18</b>

<b>Hình 15: Kết quả Tree...19</b>

<b>Hình 16: Mơ hình phân tích chuyên sâu Logistic Regression và Tree...20</b>

<b>Hình 17: Bảng đánh giá chuyên sâu bằng phương pháp Logistic Regression...21</b>

<b>Hình 18: Bảng đánh giá chuyên sâu bằng phương pháp Tree Viewer...22</b>

<b>Hình 19: Kết quả dự báo Predictions...23</b>

<b>Hình 20: File kết quả dự báo Excel (1)...24</b>

<b>Hình 21: File kết quả dự báo Excel (2)...24</b>

<b>Hình 22: File kết quả dự báo Excel (3)...25</b>

<b>Hình 23: File kết quả dự báo Excel (4)...25</b>

<b>Hình 24: Mơ hình phân tách dữ liệu trong phân cụm...26</b>

<b>Hình 25: Select Rows – Lựa chọn nhóm khách hàng...27</b>

<b>Hình 26: Mơ hình phân cụm về đặc điểm của nhóm khách hàng rời bỏ ngân hàng...28</b>

<b>Hình 27: Bảng kết quả của phương pháp K-Means...29</b>

<b>Hình 28: Kết quả Silhouette Plot...30</b>

<b>Hình 29: Mơ hình điểm tín dụng của 2 cụm...31</b>

<b>Hình 30: Phân bố nhóm khách hàng rời bỏ ngân hàng theo tuổi...31</b>

<b>Hình 31: Phân bố nhóm khách hàng rời bỏ ngân hàng theo vị trí địa lý...32</b>

<b>Hình 32: Phân bố nhóm khách hàng rời bỏ ngân hàng theo giới tính...33</b>

<b>Hình 33: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số dư ngân hàng...33</b>

<b>Hình 34: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số năm khách hàng hợp tác </b> với ngân hàng...34

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>Hình 35: Phân bố nhóm khách hàng rời bỏ ngân hàng theo số sản phẩm mà khách hàng </b>

đã sử dụng... 34

<b>Hình 36: Phân bố nhóm khách hàng rời bỏ ngân hàng theo thành viên tích cực...35Hình 37: Phân bố nhóm khách hàng rời bỏ ngân hàng theo mức lương của khách hàng 35Hình 38: Phân bố nhóm khách hàng rời bỏ ngân hàng theo thẻ tín dụng...36Hình 39: Kết quả của Feature Statistic...37</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<i><b>Chương 1: Tổng quan</b></i>

<b>1. Lý do chọn đề tài</b>

Sau khủng hoảng tài chính năm 2008, Ngân hàng Trung ương Châu Âu (ECB - The

<i>European Central bank) đã sử dụng các biện pháp tiền tệ rất linh hoạt (như nới lỏng địnhlượng<small>1</small> và chính sách lãi suất bằng không<small>2</small></i>) để thúc đẩy tăng trưởng, tăng lạm phát và giảm tỷ lệ thất nghiệp. Những biện pháp này tuy có lợi trong việc kích thích nền kinh tế của các quốc gia, nhưng lại gây bất lợi cực kỳ lớn cho lợi nhuận của các ngân hàng phụ thuộc vào lãi suất do ECB quy định. Khi đó, các ngân hàng khơng cịn lựa chọn nào khác ngồi việc tìm kiếm các nguồn thu nhập thay thế, về bản chất bao gồm việc kiểm sốt chi phí và xem xét chính sách giá của họ bằng cách tính phí hoa hồng cao hơn. Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thơng qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lịng của khách hàng và do đó đã dẫn đến mức độ rời bỏ khách hàng tăng lên.

Khách hàng rời bỏ (customer churn) là tình trạng khách hàng dù đã bắt đầu sử dụng sản phẩm hoặc dịch vụ của doanh nghiệp nhưng vì lý do này hay lý do khác, ngừng hoàn toàn và chuyển sang lựa chọn một đối thủ khác. Trong kinh doanh, khi khách hàng khơng hài lịng với dịch vụ, sản phẩm mà doanh nghiệp cung cấp thì họ sẽ ngừng kết nối, hợp tác với doanh nghiệp. Theo như số liệu thống kê từ nhiều nguồn nghiên cứu trên thế giới:

Nghiên cứu của <i>Deloitte (2018) </i>chỉ ra rằng khả năng cung cấp giá trị và dịch vụ chất lượng là một trong những yếu tố quan trọng nhất ảnh hưởng đến quyết định của khách hàng về việc ở lại hoặc rời bỏ ngân hàng.

Nghiên cứu của <i>Accenture (2019) </i>đã nhấn mạnh sự quan trọng của trải nghiệm khách hàng trong q trình giữ chân khách hàng. Nói chung, khách hàng đánh giá cao các trải nghiệm tích cực và có thể chuyển đổi với các tổ chức có trải nghiệm khách hàng kém.

Thống kê từ <i>Federal Reserve Bank of St. Louis (2020) </i>cho thấy chi phí và phí liên quan đến tài khoản ngân hàng là một trong những lý do quan trọng khiến khách hàng đưa ra quyết định rời bỏ ngân hàng.

Theo <i>Nie et al. (2011), </i>giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuận của ngân hàng lên tới 85%.

Ta thấy rằng sự rời bỏ hay ở lại của khách hàng là yếu tố quyết định sự phát triển của ngân hàng. Việc tìm kiếm một khách hàng mới sẽ “đắt hơn” rất nhiều so với việc giữ chân một khách hàng hiện có. Thế nên nhu cầu phân tích tỷ lệ khách hàng rời bỏ ngày càng tăng. Đặc biệt là nhu cầu về mơ hình dự đốn được xây dựng trên các phương pháp thuộc lĩnh vực khoa học dữ liệu. Nếu ngân hàng có thể dự đốn tỷ lệ rời bỏ của khách hàng, các chiến

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

dịch tiếp thị nhằm giữ chân khách hàng sẽ được cải thiện, mang lại hiệu quả hơn cho doanh nghiệp.

Và đó là lý do nhóm chọn đề tài “Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng”. Bằng cách tìm hiểu và nghiên cứu về hành vi rời bỏ ngân hàng của khách hàng tại Pháp, Đức và Tây Ban Nha nói riêng và tại châu Âu nói chung, nhóm mong rằng sẽ đóng góp một phần vào sự phát triển của ngành tài chính -ngân hàng, đồng thời tạo ra giá trị cho các tổ chức trong việc duy trì khách hàng và tăng cường sự cạnh tranh.

<b>2. Mục tiêu nghiên cứu</b>

<b>2.1. Mục tiêu tổng quát</b>

Nhìn chung, mục tiêu tổng quát của đồ án này là phân tích và dự báo hành vi rời bỏ của khách hàng tại ngân hàng nhằm giảm bớt tỷ lệ khách hàng rời bỏ.

<b>2.2. Mục tiêu cụ thể</b>

Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Bài toán 2: Dự đoán khả năng rời bỏ hay ở lại của khách hàng

Bài tốn 3: Bài tốn phân cụm nhằm xác định nhóm khách hàng trung thành

<b>3. Đối tượng nghiên cứu</b>

Nghiên cứu hành vi rời bỏ của khách hàng trên bộ dữ liệu “Churn for Bank Customers”.

<b>4. Phương pháp thực hiện</b>

<b>Bước 1: Thu thập dữ liệu</b>

Nhóm chọn bộ dữ liệu “Churn for Bank Customers” từ trang Kaggle.

<b>Bước 2: Tiền lý trước dữ liệu</b>

o Excel: Tạo Dashboard để khái quát về các ngân hàng.

o Orange: Tiến hành phân tích đặc thù của dữ liệu và mối tương quan giữa chúng.

<b>Bước 4: Phát triển mô hình</b>

Triển khai các thuật tốn học máy trong các bài tốn phân lớp và phân cụm thơng qua Orange.

<b>Bước 5: Đánh giá mơ hình</b>

Đánh giá hiệu suất và xem xét lại quy trình.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i><b>Chương 2: Quy trình thực hiện và Kết quả</b></i>

<b>1. Mơ tả nguồn dữ liệu và cấu trúc nguồn dữ liệu</b>

<b>1.1. Mô tả nguồn dữ liệu</b>

Bộ dữ liệu cho đề tài có tên là “Churn for Bank Customers” và có nguồn từ Kaggle (link). Dữ liệu được thu thập từ một ngân hàng ở châu Âu với các khách hàng ở các quốc gia Pháp, Tây Ban Nha và Đức. Mục đích của việc nghiên cứu bộ dữ liệu này là dự đoán tỷ lệ rời bỏ khách hàng. Dữ liệu chứa tổng cộng 10.000 quan sát với 14 cột thuộc tính. Trong đó, “Exited” là biến phụ thuộc và phần cịn lại là biến độc lập.

<b>1.2. Cấu trúc nguồn dữ liệu</b>

<i><b>Bảng 1: Cấu trúc nguồn dữ liệu</b></i>

<b>STTThuộc tính<sup>Kiểu dữ</sup><sub>liệu</sub>Khoảng giá trịÝ nghĩa</b>

1 RowNumber Word 1 đến 10,000 Số thứ tự và không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng

2 CustomerId Longtin 15,565,701 đến 15,815,690

ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh hưởng đến việc khách hàng rời

4 CreditScore Word 350 đến 650 <i>Điểm tín dụng <small>3</small></i>của khách hàng. 5 Geography String Spain, France,

Germany <sup>Vị trí (quốc gia) của khách hàng.</sup> 6 Gender String Male, Female Giới tính của khách hàng. 7 Age Integer 18 - 92 Tuổi của khách hàng

8 Tenure Integer 0 – 10 Thâm niên khách hàng, thể hiện số năm kể từ khi khách hàng hợp tác với ngân hàng.

9 Balance Real 0 đến 250,898.1 Số dư trong tài khoản của khách hàng.

10 NumOfProducts Integer 1 đến 4 Số lượng sản phẩm (thẻ tín dụng, thẻ ghi nợ,...) hoặc dịch vụ (gửi tiền tiết kiệm, mua bán ngoại tệ,...) mà khách hàng đã mua từ ngân

hàng.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

12 IsActiveMember Integer 0, 1 Thể hiện việc khách hàng có phải là thành viên tích cực của ngân hàng hay khơng. Nếu giá trị là 1 thì khách hàng này là thành viên tích cực và giá trị là 0 thì ngược lại.

13 EstimatedSalary Real 11.58 đến

199,992.5 <sup>Thu nhập ước tính của khách</sup>hàng. 14 Exited Integer 0, 1 Cho biết khách hàng khàng có rời bỏ ngân hàng hay khơng. Nếu giá

Bộ dữ liệu được sử dụng gồm 14 biến và 10.000 quan sát, bao gồm đầy đủ thông tin cần thiết cho mục đích nghiên cứu nên nhóm cũng sẽ khơng tích hợp thêm bộ dữ liệu nào khác vào đề án.

<b>Bước 3: Rút gọn dữ liệu</b>

Nhóm sử dụng cơng cụ Select Columns của Orange để chọn lọc thuộc tính, loại ra các cột thuộc tính khơng cần thiết cho đề tài nghiên cứu bao gồm:

<i>o RowNumber: Số thứ tự của khách hàng, không ảnh hưởng đến việc rời bỏ ngân</i>

<i>o CustomerId: ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh </i>

hưởng đến việc khách hàng rời khỏi ngân hàng.

<i>o Surname: Họ của khách hàng không ảnh hưởng đến việc khách hàng rời khỏi </i>

ngân hàng.

Sau đó, nhóm lưu file sau rút gọn thành “Bài tốn 1.xlsx” để thực hiện bài toán 1.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>Bước 4: Chỉnh dạng dữ liệu</b>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Nhóm khơng thực hiện chuẩn hóa dữ liệu do khơng cần thiết nhiều cho các bài tốn.

<i><b>Hình 1: Mơ hình tiền xử lý</b></i>

<b>3. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu</b>

Trong bài tốn này, nhóm sẽ lấy file “Bài toán 1.xlsx” được lưu trong phần tiền xử lý. Và bài tốn được thực hiện bằng hai cơng cụ:

<b>Excel: Dùng Dashboard để cung cấp cái nhìn tổng quát về ngân hàng, giúp người</b>

đọc nắm thêm thông tin để phục vụ cho phần phân tích chuyên sâu hơn trong Orange.

<b>Orange: Phân tích sâu hơn về hành vi rời bỏ của khách hàng. Nhóm sẽ phân tích</b>

từng biến độc lập để xem chúng có thực sự ảnh hưởng đến việc “rời bỏ” hay khơng. Những phân tích này sẽ làm rõ hơn về hành vi “rời bỏ” của khách hàng và giúp ngân hàng cải thiện chất lượng dịch vụ.

<b>3.1. Dashboard: Tổng quan về ngân hàng</b>

<b>3.1.1. Các bước thực hiện:</b>

<b>Bước 1: Tạo Table</b>

Chọn một ô bất kỳ trên vùng dữ liệu sau đó vào thẻ Insert chọn vào Table (phím tắt Ctrl + T), tại cửa sổ Create Table chọn vào My table has headers, hoàn tất chọn OK.

<b>Bước 2: Tạo Pivottable</b>

o Trong thẻ Insert chọn PivotTable, tích vào New Worksheet để tạo PivotTable ở sheet mới.

o Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn. o Kế tiếp sẽ vào thẻ Analyze, chọn PivotChart để chọn loại biểu đồ. Sau đó tùy

chỉnh các định dạng của biểu đồ sau cho phù hợp.

o Đối với các loại biểu đồ không được dùng trong Pivottable có thể sao chép bảng dữ liệu từ Pivottable để tạo biểu đồ.

<b>Bước 3: Tạo Dashboard</b>

o Tạo một Sheet mới với tên là Dashboard sau đó Copy các PivotTable vừa tạo và dán nó qua sheet Dashboard.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

o Nhóm khơng sử dụng chức năng Slicer do trong phần Dashboard này chỉ cung cấp một cái nhìn tổng qt. Trong phần Orange tiếp theo, nhóm sẽ tiến hành phân tích sâu hơn về các biến.

o File Dashboard này được nhóm gắn vào link drive. File tên “Dashboard” nằm trong thư mục “Bài toán 1”.

<b>3.1.2. Nhận xét kết quả:</b>

<i><b>Hình 2: Dashboard – Churn For Bank Customers</b></i>

<b>EXITED: Tỷ lệ khách hàng rời bỏ là 20% (2037), trong khi 80% (7963) khách</b>

hàng vẫn sử dụng sản phẩm/dịch vụ của ngân hàng. Trong ngành tài chính/tín dụng, tỷ lệ khách hàng rời bỏ là 25% <i>(Nguồn: Filum.ai, link)</i>. Do đó, ta thấy rằng con số 20% này là không quá lớn trong ngành tài chính/tín dụng.

<b>AGE: Phần lớn khách hàng thuộc độ tuổi từ 28 đến 48 tuổi, chiếm 74% (7.438).</b>

Đặc biệt, nhóm khách hàng từ 78 tuổi trở lên chiếm chưa tới 1% (24 người). Đa số khách hàng là người trung niên, những người lớn tuổi (hơn 78 tuổi) chiếm khá ít.

<b>TENURE: Ngân hàng hiện đang có 413 khách hàng mới, chưa sử dụng qua sản</b>

phẩm/ dịch vụ nào của ngân hàng và 490 khách hàng có thâm niên 10 năm. Lượng khách hàng mới (tenure = 0) và lượng khách với thâm niên là 10 năm đều ít tương tự nhau, chiếm chưa tới 5%. Hiện tại, phần lớn khách hàng có thâm niên từ 1 đến 9 năm.

<b>NUMBER OF PRODUCTS: Hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/</b>

dịch vụ tại ngân hàng. Hơn 50% (5084) khách hàng chỉ mua 1 dịch vụ hoặc sản phẩm của ngân hàng. Số lượng khách mua 1 sản phẩm/ dịch vụ gần như ngang bằng với lượng khách mua 2 sản phẩm/ dịch vụ (4590). Ngoài ra, số lượng khách hàng mua 3 hoặc 4 sản phẩm dịch vụ ít hơn đáng kể, chiếm lần lượt là 0.26% và 0.06%.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>GENDER: Khách hàng nam chiếm 55% (5457) và nữ chiếm 45% (4543). Chênh</b>

lệch giới tính khơng được xem là quá lớn.

<b>CREDIT CARD: Nhìn chung, phần lớn khách hàng có thẻ tín dụng. Hiện có 71%</b>

(7055) khách hàng có thẻ tín dụng và 29% (2945) cịn lại khơng có.

<b>ACTIVE MEMBER: Ngân hàng có 52% (5151) khách hàng là thành viên tích</b>

cực và 48% (4849) cịn lại khơng phải là thành viên tích cực. Ta thấy rằng hơn một nửa khách hàng là thành viên tích cực.

<b>GEOGRAPHY: Lượng khách hàng ở Pháp chiếm 50% (5010). Còn lại là 25%</b>

(2509) ở Đức và 25% (2477) ở Tây Ban Nha.

<b>ESTIMATED SALARY: Giá trị 3 tứ phân vị lần lượt là $51.015, $100.218 và</b>

$149.400. Thu nhập ít nhất là $90.07 và cao nhất là $199.992,5. Trung bình thu nhập của khách hàng là $100.097,8 mỗi người.

<b>BALANCE: Có khoảng 36% (3617) khách hàng khơng có tiền trong tài khoản. </b>

Do đó điểm min (0) trùng với tứ phân vị thứ nhất. Tứ phân vị thứ 2 và 3 lần lượt là

97.208 và 127.648. Giá trị số dư cao nhất là 250.898. Trung bình số dư của khách hàng là 76.486.

<b>CREDIT SCORE: Điểm tín dụng trải dài từ 350 đến 850 điểm. Giá trị 3 tứ phân </b>

vị lần lượt là 584, 652 và 718. Điểm tín dụng trung bình là 650.53.

<b>3.2. Orange: Phân tích đặc thù</b>

<b>3.2.1. Các bước thực hiện</b>

<b>Bước 1: Xây dựng mơ hình trong Orange</b>

Tương tự như phần Dashboard, nhóm tiếp tục sử dụng file “Bài toán 1.xlsx” trong Tiền xử lý. File này được nhóm đưa vào Orange và được thể hiện bằng các biểu đồ thơng qua chức năng Distribution.

<i><b>Hình 3: Mơ hình Orange phân tích đặc thù</b></i>

<b>3.2.2. Nhận xét kết quả</b>

Từ chức năng Distributions trong Orange, ta nhận sẽ nhận được một loạt các biểu đồ. Các thuộc tính sẽ được đánh giá là có liên quan đến hành vi rời bỏ nếu tỷ lệ rời bỏ chênh lệch lớn hơn 10% và ngược lại, dưới 10% thì các thuộc tính sẽ không tác động đến việc rời đi hay ở lại của khách hàng. Cụ thể như sau:

<b>Age (Tuổi): Trong biểu đồ sau, độ tuổi từ 56-58 tuổi có tỷ lệ rời bỏ cao nhất,</b>

60.69%. Và từ độ tuổi 76 trở lên, tỷ lệ rời bỏ hầu như là 0%. Sự khác biệt này đã chứng minh rằng độ tuổi tác động mạnh mẽ đến hành vi rời bỏ của khách hàng.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Các khách hàng

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

trung niên (44-66 tuổi) có tỷ lệ rời bỏ khá cao. Trong khi những người lớn tuổi (trên 76 tuổi) thường có xu hướng trung thành hơn.

<i><b>Hình 4: Biểu đồ cột thể hiện độ tuổi của khách hàng</b></i>

<b>CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở</b>

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng có điểm tín dụng từ 400 đến 600 là 21.26%. Từ đó có thể nói rằng điểm tín dụng có tác động đến hành vi rời bỏ của khách hàng. Khách hàng có điểm tín dụng càng cao thì càng ít có khả năng rời bỏ.

<i><b>Hình 5: Biểu đồ cột thể hiện điểm tín dụng của khách hàng</b></i>

<b>NumberOfProducts (Số lượng sản phẩm/dịch vụ): Các khách hàng đã mua 2</b>

sản phẩm/dịch vụ có khá ít khách hàng rời bỏ 7.58%. Ngược lại, các khách hàng đã mua 4 sản phẩm/dịch vụ thì ln luôn rời bỏ ngân hàng với tỷ lệ rời bỏ là 100%. Ta thấy rằng, rõ ràng số lượng sản phẩm/dịch vụ có tác động đến tỷ lệ rời bỏ của ngân hàng. Đa số các khách hàng mua 1 -2 sản phẩm/dịch vụ thì ít có khả năng rời bỏ ngân hàng hơn.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<i><b>Hình 6: Biểu đồ cột thể hiện số lượng sản phẩm/dịch vụ khách hàng đã mua</b></i>

<b>IsActiveMember (Thành viên tích cực): Tỷ lệ rời bỏ trong nhóm khách hàng</b>

thành viên tích cực là 26.85% và trong nhóm khách hàng khơng phải thành viên tích cực là 14.27%. Rõ ràng, những thành viên tích cực có tỷ lệ rời bỏ cao hơn.

<i><b>Hình 7: Biểu đồ cột thể hiện vị trí của khách hàng</b></i>

<b>Geography (Vị trí): Tại Đức, tỷ lệ rời bỏ là 32.44%. Trong khi đó, tỷ lệ rời bỏ ở</b>

Pháp và Tây Ban Nha lần lượt là 16.15% và 16.67%. Do đó, vị trí của khách hàng có thể ảnh hưởng đến việc họ rời bỏ ngân hàng. Đặc biệt, khách hàng ở Đức có xu hướng rời bỏ hơn là ở Pháp và Tây Ban Nha.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i><b>Hình 8: Biểu đồ cột thể hiện thu nhập của khách hàng</b></i>

<b>Balance (Số dư): Đối với nhóm khách hàng có số dư bằng 0 thì tỷ lệ rời bỏ chiếm</b>

13.85%. Khi số dư trong khoảng 200.000 đến 210.000 thì có 57.14% khách hàng rời bỏ. Do đó, số dư có tác động đến tỷ lệ rời bỏ của ngân hàng. Nhìn chung, những người có số dư cao sẽ rời bỏ ngân hàng.

<i><b>Hình 9: Biểu đồ cột thể hiện số dư của khách hàng</b></i>

<b>CreditScore (Điểm tín dụng): Đối với biến độc lập là thẻ tín dụng, tỷ lệ rời bỏ ở</b>

nhóm khách hàng có điểm tín dụng ít hơn 400 là 100% và ở nhóm khách hàng có điểm tín dụng từ 400 đến 600 là 21.26%. Từ đó có thể nói rằng điểm tín dụng có tác động đến hành vi rời bỏ của khách hàng. Khách hàng có điểm tín dụng càng cao thì càng ít có khả năng rời bỏ.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<i><b>Hình 10: Biểu đồ cột thể hiện điểm tín dụng của khách hàng</b></i>

Bên cạnh đó, nhóm phát hiện ra rằng 4 thuộc tính sau khơng tác động đến việc rời bỏ của khách hàng do có tỷ lệ chênh lệch giữa rời bỏ và ở lại dưới 10%.

<b>Gender (Giới tính): Tỷ lệ rời bỏ ở nam và nữ là 16.46% và 25.07%.Tenure (Thâm niên): Ở mỗi mức thâm niên, tỷ lệ rời bỏ dao động từ 17-23%.HasCrCard (Thẻ tín dụng): Tỷ lệ rời bỏ ở nhóm khách hàng có thẻ tín dụng và</b>

khơng có thẻ lần lượt là 20.81% và 20.18%.

<b>EstimatedSalary (Thu nhập khách hàng): Tỷ lệ rời bỏ đối với các mức thu nhập</b>

của khách hàng dao động từ 15.91% đến 25%.

<b>3.3. Kết luận bài toán</b>

<b>Dashboard: Tổng quan về các ngân hàng</b>

Ngân hàng có đa số khách hàng thuộc độ tuổi trung niên, có thu nhập trung bình cao, và hầu hết đều có thẻ tín dụng. Tuy nhiên, lượng khách hàng mới và khách hàng với thâm niên với 10 năm chiếm chưa tới 5% và hầu hết khách hàng chỉ mua 1 hoặc 2 sản phẩm/ dịch vụ tại ngân hàng. Ngoài ra, với hơn một nửa khách hàng là thành viên tích cực và 36% khách hàng khơng có tiền trong tài khoản.

<b>Orange: Phân tích đặc thù</b>

Trong q trình phân tích, nhóm đã loại ra 4 yếu tố không tác động đến hành vi rời bỏ (giới tính, thâm niên, thẻ tín dụng, thu nhập). Khách hàng rời bỏ ngân hàng có đặc thù như sau: là thành viên tích cực, có số dư và điểm tín dụng thấp, thuộc các nước Pháp và Đức, nằm trong độ tuổi trung niên, mua nhiều sản phẩm/dịch vụ.

 Nhìn chung, ngân hàng có một lượng khách hàng ổn định và có nhu cầu sử dụng thẻ tín dụng. Đây là những yếu tố tích cực cho ngân hàng, cho thấy ngân hàng có uy tín và chất lượng dịch vụ tốt. Bên cạnh đó, tỷ lệ rời bỏ 20% cũng là một con số mà ngân hàng cần xem xét để có thể tăng thêm lợi nhuận.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>4. Bài toán 2: Bài toán phân lớp về dự đoán khả năng rời bỏ hay ởlại của khách hàng</b>

<b>4.1 Mơ tả bài tốn</b>

<b>Bước 1: Chọn dữ liệu File “churn_Data” và chọn cột “Exited” làm target (</b>

biến phụ thuộc) và các biến còn lại là biến độc lập.

<b>Bước 2: Mở File “churn_Data” → Mở Preprocess nối với File và logistic</b>

<b>Bước 3: Nối File và 3 phương pháp SVM, Tree và Logistic Regression với Test </b>

and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn.

<b>Bước 4: Liên kết phương pháp tốt nhất và File “churn_forecast” với Predictions để</b>

đánh giá và phân loại dữ liệu đầu vào.

<b>Bước 5: Dựa vào kết quả dự báo đưa ra đánh giá và nhận xét.</b>

<i><b>Hình 11: Mơ hình phân lớp dự đốn khả năng rời đi của khách hàng</b></i>

<b>4.2 Các kiến thức chuyên ngành liên quan đến việc giải quyết bài tốnRủi ro tín dụng và đánh giá tín nhiệm: Đánh giá khả năng thanh tốn và rủi ro</b>

tín dụng của khách hàng. Điều này có thể bao gồm việc sử dụng các mơ hình đánh giá tín nhiệm để đo lường rủi ro tín dụng của khách hàng.

<b>Sản phẩm/Dịch vụ tài chính: Kiến thức sâu rộng về các sản phẩm tài chính như</b>

tín dụng cá nhân, thẻ tín dụng. Điều này giúp hiểu rõ về lựa chọn và ưu tiên của khách hàng.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b>Thu nhập và số dư: Nếu mức lương của khách hàng giảm, họ có thể phải điều</b>

chỉnh chi tiêu hàng tháng. Nếu số tiền rút hàng tháng tăng lên, họ có thể cảm thấy khó khăn trong việc giữ lại tài khoản ngân hàng hiện tại.

<b>4.3 Chạy mô hình và kết quả:</b>

<b>4.3.1 Đánh giá mơ hình dựa trên kết quả của Confusion Matrix:</b>

<i><b>Hình 12: Kết quả Test and Score</b></i>

Sau khi đánh giá kết quả dựa trên Confusion Matrix ta thấy rằng chỉ số CA, F1, Prec, Recall, MCC của phương pháp Tree cao nhất. Vì thế, nhóm quyết định chọn phương pháp Tree.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<i><b>Hình 13: Kết quả Logistic Regression</b></i>

<i><b>Hình 14: Kết quả SVM</b></i>

</div>

×