Tải bản đầy đủ (.pdf) (75 trang)

Mô hình dự báo churn cho khách hàng bằng phương pháp học máy suy diễn phương sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------ĐÀO CƠNG ÂN

ĐÀO CƠNG ÂN

TỐN TIN

MƠ HÌNH DỰ BÁO CHURN CHO KHÁCH HÀNG BẰNG
PHƯƠNG PHÁP HỌC MÁY SUY DIỄN PHƯƠNG SAI

LUẬN VĂN THẠC SĨ KHOA HỌC
Tốn tin

KHỐ 2015B
Hà Nội – Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------ĐÀO CƠNG ÂN

MƠ HÌNH DỰ BÁO CHURN CHO KHÁCH HÀNG BẰNG PHƯƠNG
PHÁP MÁY HỌC SUY DIỄN PHƯƠNG SAI

LUẬN VĂN THẠC SĨ KHOA HỌC
Toán tin

NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS. Nguyễn Thị Ngọc Anh


Hà Nội – Năm 2018


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Đào Cơng Ân.
Đề tài luận văn: Mơ hình dự báo Churn cho khách hàng bằng phương pháp
máy học suy diễn Phương sai.
Chuyên ngành: Toán tin.
Mã số SV: CB150076
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
19/10/2018 với các nội dung sau:
-

Mô tả các các biến phần phụ lục đưa lên phần mô tả dữ liệu .

-

Bổ xung các bước thực hiện xử lý dữ liệu đặc biệt khi làm online tiền xử lý dữ
liệu.

-

Các phần mềm để chạy, các tham số chi tiết chạy các thuật toán.

-


Đo thời gian chạy của các thuật toán.

Ngày tháng 10 năm 2018
Giáo viên hướng dẫn

Nguyễn Thị Ngọc Anh
CHỦ TỊCH HỘI ĐỒNG

Tác giả luận văn

Đào Công Ân


LỜI CAM ĐOAN

Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi và được sự
hướng dẫn khoa học của TS. Nguyễn Thị Ngọc Anh. Các nội dung nghiên cứu, các
số liệu, kết quả nêu trong Luận văn là trung thực được chỉ rõ nguồn trích dẫn. Kết
quả nghiên cứu này chưa từng được ai công bố trong bất kỳ cơng trình nào khác.
Tơi xin chịu mọi trách nhiệm về cơng trình nghiên cứu của riêng mình !.

Hà Nội, Ngày 28 tháng 09 năm 2018
Tác giả luận văn

Đào Công Ân


Mục lục
Danh sách bảng


3

Danh sách hình vẽ

4

Lời mở đầu

6

1 Giới thiệu chung

9

1.1

Giới thiệu bài toán Churn. . . . . . . . . . . . . . . . . . . . . . . . 10

1.2

Các cơng trình nghiên cứu liên quan. . . . . . . . . . . . . . . . . . 12

1.3

Mục tiêu nghiên cứu của luận văn. . . . . . . . . . . . . . . . . . . 13

1.4

Học máy, ứng dụng vào dự báo Churn trong ngân hàng. . . . . . . 13


1.5

Cấu trúc luận văn. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Áp dụng học máy trong bài tốn dự báo Churn

16

2.1

Phương pháp phân tích dự báo Churn. . . . . . . . . . . . . . . . . 16

2.2

Áp dụng cây quyết định (Decision Tree) cho dự báo Churn. . . . . 19

2.3

2.2.1

Khái niệm cây quyết định (Decision tree). . . . . . . . . . . 19

2.2.2

Thuật toán xây dựng cây quyết định. . . . . . . . . . . . . 20

2.2.3

Ứng dụng cây quyết định cho dự báo Churn. . . . . . . . . 23


Áp dụng mạng Nơron (Artificial Neural Network - ANN) cho dự
báo Churn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1

Perceptron learning algorithm (PLA). . . . . . . . . . . . . 28

2.3.2

Mơ hình Logistic regression. . . . . . . . . . . . . . . . . . . 31
1


LUẬN VĂN
2.3.3
2.4

Đào Công Ân
Áp dụng mạng Nơron cho dự báo Churn. . . . . . . . . . . 34

Áp dụng suy diễn phương sai trực tuyến cho phân phối Gaussian
đa biến (VIGO) cho dự báo Churn . . . . . . . . . . . . . . . . . . 35
2.4.1

Phương pháp học trực tuyến. . . . . . . . . . . . . . . . . . 35

2.4.2

Phương pháp suy diễn xấp xỉ. . . . . . . . . . . . . . . . . . 37

2.4.3


Suy diễn phương sai cho ước lượng Bayes nhiều biến. . . . 41

2.4.4

Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều
biến. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3 Ứng dụng bài tốn dự báo Churn vào lĩnh vực ngân hàng

48

3.1

Mơ tả dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.2

Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.3

Các kết quả phân tích bài tốn Churn. . . . . . . . . . . . . . . . . 51

3.4

Một số tiêu chí đánh giá mơ hình học. . . . . . . . . . . . . . . . . 56

3.5


Chọn model và thực hiện training cho bài toán dự báo Churn. . . 58

3.6

Kết quả cho bài toán dự báo Churn. . . . . . . . . . . . . . . . . . 59
3.6.1

Cây quyết định (Decision Tree). . . . . . . . . . . . . . . . 59

3.6.2

Mạng Nơron (ANN). . . . . . . . . . . . . . . . . . . . . . . 61

3.6.3

Suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều
biến (VIGO). . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.6.4

Ưu nhược điểm của các kỹ thuật học máy . . . . . . . . . . 65

Kết luận

65
66

Tài liệu tham khảo

67


A Một số kết quả chạy của bài toán dự báo Churn

70

Trang 2


Danh sách bảng
3.2

Tỷ lệ phân loại sai của dự báo Churn sử dụng kỹ thuật cây quyết
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3

Tỷ lệ phân loại sai của dự báo Churn sử dụng kỹ thuật mạng Nơron 62

3.4

Độ chính xác của ba phương pháp . . . . . . . . . . . . . . . . . . 63

3.5

Tỷ lệ phân loại sai của dự báo Churn dựa trên mean và var . . . . 64

3.6

Ưu nhược điểm của các kỹ thuật học máy . . . . . . . . . . . . . . 65


3


Danh sách hình vẽ
1.1.1 Mơ hình dịng chảy khách hàng. . . . . . . . . . . . . . . . . . . . . 11
2.1

Kết hợp mơ hình dự báo Churn với kỹ thuật học máy. . . . . . . . 17

2.2.1 Mơ hình cấu trúc cây quyết định. . . . . . . . . . . . . . . . . . . . 19
2.2.2 Sơ đồ thuật toán cây quyết định cho dự báo Churn. . . . . . . . . 24
2.3.1 Kiến trúc của một một ANN. . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Q trình xử lý thơng tin của một ANN. . . . . . . . . . . . . . . 26
2.3.3 Đồ thị hàm sigmoid (bên trái) và hàm tanh (bên phải). . . . . . . 27
2.3.4 Mơ hình mơ tả thuật toán Perceptron learning algorithm [20]. . . 30
2.3.5 Sơ đồ thuật toán mạng Nơron cho dự báo Churn . . . . . . . . . . 34
2.4.1 Mơ hình tổng qt cho phân loại trực tuyến [5] . . . . . . . . . . . 36
3.3.1 Ma trận tương quan giữa các thuộc tính (feature) dữ liệu. . . . . . 51
3.3.2 Biểu đồ số lượng khách hàng Churn và Non-churn. . . . . . . . . . 52
3.3.3 Mô tả dữ liệu các thuộc tính theo nhóm Churn và Non-Churn. . . 52
3.3.4 Phân phối theo thuộc tính tỉ lệ ghi nợ trong quý T (X81). . . . . 53
3.3.5 Biểu đồ phân phối theo thuộc tính tuổi. . . . . . . . . . . . . . . . 53
3.3.6 Phân phối theo thuộc tính Day-of-open. . . . . . . . . . . . . . . . 54
3.3.7 Phân phối theo thuộc tính số dư hiện tại. . . . . . . . . . . . . . . 54
3.3.8 Phân phối tỷ lệ Churn theo thuộc tính tuổi. . . . . . . . . . . . . . 55
3.3.9 Phân phối tỷ lệ Churn theo thuộc tính Day-of-open. . . . . . . . . 56
3.6.1 Biểu đồ dự báo Churn với kỹ thuật Cây quyết định . . . . . . . . 60
4



LUẬN VĂN

Đào Công Ân

3.6.2 Receiver operating characteristic of decision tree . . . . . . . . . . 61
3.6.3 Mơ hình dự báo Churn với kỹ thuật mạng Nơron . . . . . . . . . . 62
3.6.4 Receiver operating characteristic of atifical neural network. . . . . 63
3.6.5 Biểu đồ Mean và Var. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
A.0.1Mơ hình cây quyết định xây dựng từ bộ dữ liệu ngân hàng . . . . 70
A.0.2Kết quả của mơ hình mạng Nơron từ bộ dữ liệu ngân hàng . . . . 71

Trang 5


Lời mở đầu.
Nhà bác học nổi tiếng người Mỹ là John Naisbitt từng nói: Thế giới đang
đói khát về tri thức nhưng chết chìm trong thơng tin. Theo nghiên cứu của IBM:
năm 2003 con người đã tạo ra năm exabyte - 5 tỷ gigabyte thông tin. Vào năm
2011, lượng thông tin mỗi ngày được tạo ra đã lên tới 2,5 tỷ gigabyte. Mặt khác,
sự phát triển của internet đã đánh dấu bước tiến quan trọng trong sự bùng nổ
thông tin, dữ liệu được trao đổi qua internet năm 1993 chỉ là 100 gigabyte trong
một ngày, vào năm 1997 vẫn 100 gigabyte đó nhưng là trong một giờ, năm 2002
chỉ cịn là một giây, đến năm 2013 đã là 28 875 gigabyte trong một giây, và đến
năm 2018 thì đã lên đến 50 000 gigabyte trong 1 giây [12]. Đặc biệt, 90% dữ liệu
trên thế giới được tạo ra trong 2 năm lại đây. Dữ liệu đến từ mọi nơi ví dụ như:
từ cảm biến được sử dụng để thu thập thơng tin, từ trang web, mạng xã hội,
hình ảnh kỹ thuật số và video, các giao dịch điện tử và tín hiệu định vị tồn cầu
(global positioning system) trên điện thoại di động. Sự bùng nổ thơng tin tồn
cầu nhưng lượng tri thức mà chúng ta thấy được, khai thác được lại rất là hạn
chế. Nguyên nhân chính là do cấu trúc của thơng tin thường có tính đặc thù,

đa dạng về cấu trúc và hơn nữa 80 − 90% dữ liệu đều ở dạng là phi cấu trúc nên
việc khai thác, trích rút tri thức gặp rất nhiều khó khăn. Vì vậy, yêu cầu đặt ra
là cần nghiên cứu các phương pháp mới để có thể khai thác, trích rút tri thức,
phân loại tri thức tốt hơn, chính xác hơn.
Sự phát triển bùng nổ của công nghệ thông tin đã làm thay đổi cả thế giới,
6


LUẬN VĂN

Đào Công Ân

thay đổi hành vi của con người, công nghệ đã mang lại cho con người, các tổ
chức, doanh nghiệp cả cơ hội và thách thức. Đặc biệt, trong bối cảnh cạnh tranh
khốc liệt, các tổ chức, doanh nghiệp ngày càng phải tăng cường năng lực cạnh
tranh, đổi mới, sáng tạo và cho ra đời nhiều dịch vụ tiện ích. Do đó, hệ thống
quản trị thơng tin khách hàng (CRM Customer Relational Management) ra đời.
Đây là chiến lược của các công ty trong việc phát triển quan hệ gắn bó với khách
hàng thơng qua nghiên cứu, tìm hiểu kỹ lưỡng nhu cầu và thói quen của khách
hàng. CRM giúp cho doanh nghiệp thiết lập mối quan hệ tốt đẹp với khách hàng
với rất nhiều lợi ích như (i) giúp doanh nghiệp phân loại khách hàng; (ii) giúp
thúc đẩy lòng trung thành của khách hàng; (iii) xác định nguyên nhân khách
hàng rời bỏ (Churn); (iv) dự đoán khách hàng Churn để từ đó hỗ trợ lãnh đạo
doanh nghiệp trong việc ra quyết định giữ chân khánh hàng [7].
Trong luận văn này, tôi đề cập đến ứng dụng của ba thuật tốn phân lớp
đó là: cây quyết định (Decision tree - DT), mạng Nơron nhân tạo (Artificial
neural network - ANN) và phân lớp sử dụng suy diễn phương sai trực tuyến cho
ước lượng Bayes nhiều biến (Online VI for multivariate Gaussian distribution
- VIGO) trong bài toán dự báo Churn với dữ liệu thu thập được từ một ngân
hàng ở Việt Nam. Cây quyết định là một kỹ thuật học máy phổ biến học kiến

thức từ tập dữ liệu huấn luyện cho ta một cấu trúc cây phân cấp; ANN và VIGO
được chứng minh được những ưu điểm của mình và là các thuật toán phân lớp
mạnh được sử dụng trong nghiên cứu này. So sánh giữa ba thuật toán cho chúng
ta thấy lợi thế và bất lợi của mỗi thuật tốn trong mơ hình dự báo Churn.
Trước khi đi vào nội dung luận văn, đầu tiên tơi xin có lời cảm ơn chân thành
tới TS. Nguyễn Thị Ngọc Anh đã tận tình hướng dẫn tơi hồn thành luận
văn này. Tiếp theo, tôi xin cảm ơn các thầy cô trong Viện Toán Ứng dụng và
Tin học - Đại học Bách khoa Hà Nội đã dành sự quan tâm cũng như tạo điều
kiện thuận lợi cho tơi trong q trình làm luận văn. Hơn nữa, tôi xin cám ơn
bạn bè và gia đình đã động viên, giúp đỡ tơi trong suốt thời gian qua. Mặc dù
Trang 7


LUẬN VĂN

Đào Cơng Ân

có nhiều cố gắng trong q trình thực hiện nhưng chắc chắn khơng tránh khỏi
thiếu sót, vì vậy tơi mong nhận được những góp ý của các thầy các cô, bạn bè
để nội dung luận văn được hoàn thiện hơn.

Hà Nội, ngày 29 tháng 10 năm 2018
Học viên thực hiện

Đào Công Ân

Trang 8


Chương 1


Giới thiệu chung
Sự bùng nổ thông tin đã mang lại cơ hội và thách thức rất lớn cho con người.
Do đó các doanh nghiệp (bao gồm tổ chức và cá nhân) phải không ngừng đổi
mới, nâng cao năng lực cạnh tranh, bắt kịp xu thế phát triển. Để làm được điều
này thì các doanh nghiệp cần phải thu thập các thơng tin, hành vi, thói quen
của khách hàng.
Các tổ chức tài chính đã khơng ngừng thu thập thơng tin, nghiên cứu cho
ra đời công nghệ mới nhất nhằm tăng lợi nhuận, giảm chi phí. Do đó, khách
hàng "rời bỏ" đã tạo ra sự cần thiết phải phát triển bài tốn dự báo Churn. Các
vấn đề mơ hình dự báo Churn có khả năng rời khỏi hệ thống được thực hiện và
giải quyết bằng các kỹ thuật học máy. Các phương pháp học máy được trình
bày trong luận văn là cây quyết định [3], mạng Nơron [18], phân lớp dựa trên
suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến (Online VI for
multivariate Gaussian distribution - VIGO).

9


LUẬN VĂN

1.1

Đào Cơng Ân

Giới thiệu bài tốn Churn.

Đối với doanh nghiệp việc trì khách hàng hiện tại ngày càng cấp bách trong
mơi trường cạnh tranh hiện nay. có rất nhiều nhân tố ảnh hưởng ví dụ như:
(i) Chăm sóc và duy trì khách hàng; (ii) Tập trung vào cơng nghệ. Đây là hai

nhân tố được quan trọng nhất ảnh hưởng lớn nhất đến tăng trưởng và phát
triển của doanh nghiệp. Việc đầu tiên, doanh nghiệp cần phải làm giữ chân các
khách hàng hiện có. Mặt khác để tìm kiếm được một khách hàng mới thì doanh
nghiệp đó sẽ phải bỏ ra chi phí lớn hơn rất nhiều lần so với chi phí giữ chân một
khách hàng. Chính vì vậy, doanh nghiệp cần phải lưu chữ các thông tin về khách
hàng, quản tri các hoạt động của họ với khách hàng. Hệ thống quản trị quan
hệ khách hàng (Customer relationship management : CRM) ra đời giúp doanh
nghiệp quản trị tốt các hoạt động của doanh nghiệp với khách hàng. Doanh
nghiệp sử dụng khai thác thơng tin khách hàng ví dụ như lịch sử mua hàng,
thơng tin về tài chính của khách hàng để từ đó giúp doanh nghiệp: (i) phân tích,
đánh giá tiềm năng của khách hàng hiện tại; (ii) phân loại khách hàng; (iii) dự
đoán nhu cầu của khách hàng; (iv) hỗ trợ ra quyết định. Việc kết hợp quy trình
kinh doanh với cơng nghệ giúp doanh nghiệp thiết lập được mối quan hệ tốt đẹp
với khách hàng và giúp doanh nghiệp phát triển bền vững[7].
Từ những dữ liệu lưu trữ thông tin khách hàng, quản trị các hoạt động với
khách hàng mà doanh nghiệp có, họ mong muốn có thể khai thác, trích rút được
tri thức tiền ẩn để phục vụ hoạt động kinh doanh tốt nhất. Kỹ thuật khai phá
dữ liệu sẽ giúp khai thác, trích rút được những tri thức tiền ẩn bên trong dữ liệu,
đặc biệt có thể dự đốn được khách hàng có nguy cơ rời bỏ hệ thống (Churn
prediction).
a, Định nghĩa 1: Khách hàng Churn là khách hàng đó ngừng tất cả các
hoạt động với doanh nghiệp trong một khoảng thời gian.

Trang 10


LUẬN VĂN

Đào Công Ân


b, Định nghĩa 2: Tỷ lệ Churn là tổng số lượng khách hàng Churn trên tổng
số lượng khách hàng tại một khoảng thời gian.

Hình 1.1.1: Mơ hình dòng chảy khách hàng.
Số lượng khách hàng ngừng tất cả các hoạt động với doanh nghiệp mà lớn sẽ
ảnh hưởng rất lớn đến doanh nghiệp. Do đó, doanh nghiệp cần phải phân tích
các hoạt động của khách hàng với doanh nghiệp để từ đó tìm ra các ngun
nhân khách hàng rời bỏ đồng thời dự đoán khác hàng churn. Khi đó sẽ giúp cho
các nhà lãnh đạo doanh nghiệp ra những chính sách nhằm lơi kéo khách hàng
quay lại và phải cải tiến bản thân doanh nghiệp để phát triển doanh nghiệp bền
vững.
Phân loại và dự đoán khách hàng trong dự báo Churn chính là xây dựng bài
tốn phân lớp nhị phân. Tập dữ liệu khách hàng có đầu vào là N thuộc tính
X = {x1 , . . . , xN } và thuộc tính nhãn Y = {N on − churn, Churn} có thể được mã

hóa bởi {0, 1}. Mục đích việc phân lớp là xác định khách hàng thuộc lớp nào
trong hai lớp {N on − churn, Churn} một cách chính xác nhất có thể. Cho M
quan sát {(x1 , y1 ), (x2 , y2 ), . . . , (xM , yM )} trong đó xi = (xi1 , . . . , xiN ) là các giá trị
tại thuộc tính quan sát của khách hàng. Học máy (Machine learning) là phương
pháp chính được sử dụng để giải quyết việc phân lớp khi mà dữ liệu tương đối
Trang 11


LUẬN VĂN

Đào Cơng Ân

phức tạp.

1.2


Các cơng trình nghiên cứu liên quan.

Trên thế giới có rất nhiều cơng trình nghiên cứu về bài tốn dự báo Churn,
ví dụ như:

• Nghiên cứu về Churn của khách hàng chơi game trên thiết bị di động của

ˇ c and Igor Andjelkovi´c" [13]. Ban đầu
tác giả Miloˇs Miloˇsevi´c , Nenad Zivi´
sẽ phân loại khách hàng Churn và Non-Churn với bộ dữ liệu với 2 triệu
người chơi game cùng một trò chơi bằng phương pháp học máy : Logistic Regression, Decision Tree, Random Forest, Naive Bayes và Gradient
Boosting. Sau đó sẽ theo dõi hoạt động của người dùng, xác định các tính
năng của trị chơi có khả năng thú vị đối với người chơi. Tiếp theo sẽ đẩy
các thơng báo, gợi ý các tính năng đó để lôi kéo người chơi tiếp tục chơi.
Kết quả cho thấy tỉ lệ Churn giảm lên đến 28%;
• Nghiên cứu về dự đốn Churn trong lĩnh vực viễn thơng của tác giả Adnan

Amin và cộng sự trong "Customer churn prediction in telecommunication
industry using data certainty" năm 2018 [1]. Họ đã chia bộ dữ liệu ra làm
2 nhóm (i)dữ liệu có độ chắc chắn cao (ii) dữ liệu có độ chắc chắn thấp dự
trên yếu tố khoảng cách Manhattan. Sau đó sử dụng phương pháp Naive
Bayes để phân lớp khách hàng Churn. Qua các biện pháp đánh giá hiện
đại như accuracy, f-measure, precision and recall cho thấy yếu tố khoảng
cách Manhattan phụ thuộc chặt chẽ trong phân loại bài tốn Churn.
• Nghiên cứu về dự đoán khách hàng Churn của Arno De Caigny và cộng

sự đã sử dụng kết hợp hai model Decision trees và logistic regression trong
bài toán dự báo khách hàng Churn [4]. Phương pháp được đưa ra là chia
Trang 12



LUẬN VĂN

Đào Công Ân

làm 2 phase: phase 1 sẽ xây dựng cây quyết định để phân loại khách hàng
Churn, phase 2 sử dụng model logistic regression để dự đoán khách hàng
Churn. Với sự kết hợp của 2 phương pháp, kết quả thực nghiệm cho thấy
thời gian dự đoán một khách hàng Churn giảm đáng kể.

1.3

Mục tiêu nghiên cứu của luận văn.

Trong phạm vi luận văn này, tôi nghiên cứu ứng dụng học máy cho dự báo
Churn trong ngân hàng. Cụ thể: (i) ứng dụng 3 kỹ thuât trong học máy đó
là: cây quyết định (Decision tree - DT), mạng Nơron nhân tạo (Artificial neural
network - ANN), phân lớp dựa trên suy diễn phương sai trực tuyến cho ước lượng
Bayes nhiều biến (Online VI for multivariate Gaussian distribution - VIGO) vào
bài tốn dự báo Churn; (ii) Sau đó áp dụng 3 kỹ thuật trên bộ dữ liệu của ngân
hàng ở Việt Nam; (iii) so sánh kết quả 3 kỹ thuật trên được áp dụng vào dự báo
Churn.

1.4

Học máy, ứng dụng vào dự báo Churn trong
ngân hàng.

Định nghĩa Học máy (machine learning) là một lĩnh vực của trí tuệ nhân

tạo liên quan đến việc phát triển các kỹ thuật cho phép các máy tính có thể
"học". Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình
máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến
thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác
với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc
thực thi tính tốn.

Trang 13


LUẬN VĂN

Đào Cơng Ân

Trong mỗi lĩnh vực sẽ có định nghĩa Churn khác nhau. Định nghĩa Churn tại
ngân hàng được định nghĩa là khi khách hàng rời khỏi hệ thống dịch vụ trong
một khoảng thời gian nhất định [15]. Cụ thể, các định nghĩa về dịch vụ ngân
hàng trong ngân hàng là các giao dịch của khách hàng thấp hơn ngưỡng hoặc
khách hàng đã đóng tài khoản của mình [14].
Trong luận văn này, khách hàng churn trong ngân hàng Việt Nam được xác
định bằng số lượng giao dịch của khách hàng trong một năm là bằng không và
số tiền hiện tại trong tài khoản ngân hàng của khách hàng thấp hơn ngưỡng (50
000 VND).
Như vậy bài toán đặt ra ở đây: Chúng ta sẽ phân lớp khách hàng trong ngân
hàng chia làm 2 lớp là Churn và Non-Churn với dữ liệu bộ của ngân hàng. Đây
là bài tốn phân tích dữ liệu từ cơ sở dữ liệu big data của ngân hàng. Mục tiêu
của bài toán đặt ra sau khi chúng ta phân loại khách hàng rồi thì chúng ta sẽ
kết hợp với hệ thống CRM (Customer relationship management) để phân tích,
nắm bắt được nhu cầu, xu hướng của khách hàng để từ đó đưa ra các chính sách
khuyến khích, thu hút lại những khách hàng đang Churn. Bởi vì để tìm kiếm

một khách hàng mới khó hơn rất nhiều so với việc giữ chân khách hàng đang
có. Bất kỳ một ngân hàng nào cũng luôn luôn trú trọng giữ vững số khách hàng
đang có là ưu tiên số 1 và sau đó mới là tìm kiếm khách hàng mới.
Cấu trúc của luận văn được chia làm 3 chương chính, phần kết luận và phần
phụ lục: Chương 1: Giới thiệu khái niện liên quan đến bài toán dự báo Churn.
Chương 2: Giới thiệu một số kỹ thuật học máy được sử dụng trong bài tốn dự
báo Churn đó là cây quyết định, mạng nơ-ron nhân tạo, phân lớp dựa trên suy
diễn phương sai trực tuyến cho ước lượng Bayes nhiều biến. Chương 3: Trong
chương này, tôi sẽ sử dụng ba phương pháp trên cùng một bộ dữ liệu ngân hàng
tại Việt Nam để đưa ra kết quả thực nghiệm đồng thời so sánh thuật toán. Tiếp
theo, các kết luận sau khi thực hiện được so sánh, đánh giá.

Trang 14


LUẬN VĂN

1.5

Đào Công Ân

Cấu trúc luận văn.

Trong phần trên tôi đã giới thiệu về mơ hình dự báo Churn và phương pháp
học máy cho dự báo Churn. được chia làm 3 chương chính, phần kết luận và
phần phụ lục:

• Chương 1: Giới thiệu khái niện liên quan đến bài toán dự báo Churn, lựa

chọn bài toán, phương pháp xây dựng và cách thức thực hiện, ứng dụng

của luận văn.
• Chương 2: Giới thiệu một số kỹ thuật học máy được sử dụng trong bài tốn

dự báo Churn đó là cây quyết định (Decision tree - DT), mạng nơ-ron nhân
tạo (Artificial neural network - ANN), phân lớp dựa trên suy diễn phương
sai trực tuyến cho ước lượng Bayes nhiều biến (Online VI for multivariate
Gaussian distribution - VIGO).
• Chương 3: Trong chương này, tôi sẽ sử dụng ba phương pháp trên cùng

một bộ dữ liệu ngân hàng tại Việt Nam để đưa ra kết quả thực nghiệm
đồng thời so sánh thuật tốn.
• Kết Luận: các kết luận sau khi thực hiện được so sánh, đánh giá và đề

xuất hướng phát triển của luận văn.

Trang 15


Chương 2

Áp dụng học máy trong bài
toán dự báo Churn
Trong phần này sẽ tìm hiểu phương pháp phân tích bài tốn dự báo Churn và
mơ tả ba kỹ thuật trong học máy (machine learning) kết hợp với bài toán dự báo
Churn đó là: kết hợp mơ hình Churn với kỹ thuật cây quyết định (Decision Tree
- DT), kỹ thuật mạng Nơron (Artificial Neural Network - ANN) và kỹ thuật
phân lớp dựa trên suy diễn phương sai trực tuyến cho ước lượng Bayes nhiều
biến (Online VI for multivariate Gaussian distribution - VIGO).

2.1


Phương pháp phân tích dự báo Churn.

Trước khi chúng ta đi vào các kỹ thuật trong học máy, chúng ta sẽ đi tìm
hiểu về phương pháp khi phân tích bài toán dự báo Churn. Như chúng ta đã
biết, ngân hàng có một khối lượng dữ liệu khổng lồ về khách hàng với rất nhiều
phân hệ kinh doanh, dữ liệu khác kiểu nhau, dữ liệu luôn luôn được cập nhật
(các hệ thống chạy ở chế độ thời gian thực rất nhiều), và có rất nhiều nguồn dữ
16


LUẬN VĂN

Đào Cơng Ân

liệu. Chính vì vậy việc phân tích dữ liệu lớn gặp rất nhiều khó khăn, và chúng
ta thường xuyên phải quay lại các bước đã làm để phân tích lại.

Hình 2.1: Kết hợp mơ hình dự báo Churn với kỹ thuật học máy.

• Bước 0: Trích chọn dữ liệu (Data Selection): đây là bước trích ra,

chọn ra những tập dữ liệu cần được khai phá theo một số tiêu chỉ nhất
định nào từ cơ sở dữ liệu (database). Cơng việc này địi hỏi phải hiểu được
nghiệp vụ, hiểu được dữ liệu để có thể đưa ra các tiêu trí, chọn đúng dữ
liệu cần được lấy ra để đem phân tích.
• Bước 1: Xác định định nghĩa Churn cho bài tốn (Define Churn

classification): sau khi ta có dữ liệu ở bước 0 chúng ta cần phân tích dữ
liệu, khai phá dữ liệu đó, xác định các tiêu trí, đánh giá các tiêu trí đó và

đưa ra định nghĩa Churn cho bài toán. Nếu chưa phù hợp quay lại bước 0
để trích trọn lại dữ liệu.
• Bước 2: Tiền xử lý dữ liệu (Data Cleansing and Preprocessing

Data): đây là bước là sạch dữ liệu tức là ở bước này chúng ta sẽ xử lý
Trang 17


LUẬN VĂN

Đào Công Ân

những dữ liệu không đầy đủ, không nhất quán, những dữ liệu gây nhiễu,
rút gọn dữ liệu, rời rạc hóa dữ liệu (dựa vào đồ thị, entropy, phân khoảng).
• Bước 3: Biến đổi dữ liệu (Data Transformation): đây là bước tạo dữ

liệu chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất
cho quá trình khai phá dữ liệu trước khi đưa vào mơ hình. kết quả của
bước này là chúng ta có được bộ dữ liệu Customer.
• Bước 4: Chọn model và tiến hành training data (Model Selection

and Training): đây là bước chúng ta chọn mơ hình Machine learning để
training, và áp dụng các kỹ thuật phân tích, khai phá, các mơ hình, các
giải thuật nhằm khai thác dữ liệu. Đây được xem là bước quan trọng nhất
của tồn q trình xây dựng mơ hình Churn.
• Bước 5: Đánh giá (Evaluation): sau khi xây dựng được mơ hình Churn

ở bước trên, chúng ta sẽ biểu diễn thông tin và mối liên hệ trong dữ liệu
đã được khám phá ở bước trên được biến đổi và biểu diễn ở một dạng gần
gũi với người sử dụng như đồ thị, cây, bảng biểu. Sau đó chúng ta sẽ đánh

giá mơ hình, độ chính xác, kết quả mơ hình đã xây dựng. Nếu chưa phù
hợp quay lại bước trước đó để điều chỉnh.
• Bước 6: Đưa vào sử dụng (Go live): sau khi đánh giá xong mơ hình

Churn và thấy mơ hình đã đúng đắn, chúng ta đưa mơ hình vào sử dụng
hỗ trợ người dùng trong việc ra quyết định.

Chú ý: Quá trình thực hiện xây dựng bài tốn Churn khơng chỉ là một quá trình
tuần tự từ bước đầu tiên đến bước cuối cùng mà là một q trình lặp và có quay
trở lại các bước đã qua.

Trang 18


LUẬN VĂN

2.2

Đào Công Ân

Áp dụng cây quyết định (Decision Tree)
cho dự báo Churn.

2.2.1

Khái niệm cây quyết định (Decision tree).

Trong lĩnh vực học máy, cây quyết định được sử dụng để phân lớp đối tượng
(các quan sát) dựa trên dãy các luật, nó là một đồ thị cây phân cấp có cấu trúc
và có một đỉnh đặc biệt gọi là đỉnh gốc của cây, giữa các đỉnh trong cây có mối

quan hệ phân cấp ’cha-con’. Cây quyết định là một dạng đặc biệt của cấu trúc
cây[11].

Hình 2.2.1: Mơ hình cấu trúc cây quyết định.

Cây quyết định là một đồ thị có cấu trúc dạng cây như sau[2] :

• Các nút trên cây: có 3 loại nút

Trang 19


LUẬN VĂN

Đào Cơng Ân

• Nút gốc: là nút trên cùng của cây.
• Nút trong: biểu diễn một thuộc tính (biến) nào đó được chọn làm phân

lớp.
• Nút lá: biểu diễn tập giá trị cuối cùng của nhánh và đại diện cho giá trị

dự đốn của mục tiêu.
• Nhánh: là một đường đi trên cây bắt đầu là nút gốc kết thúc là nút lá.

Giả sử chúng ta có bộ dữ liệu ban đầu, chúng ta chia ra tập này ra làm 2 tập
là: tập huấn luyện (training set thường là 80% tập mẫu ) và tập kiểm tra (test
set thường chiếm khoảng 20% tập mẫu). Trong đó:
Tập huấn luyện (training set): sẽ dùng để huấn luyện xây dựng nên cây
quyết định.

Tập kiểm tra (test set): sẽ dùng kiểm tra tính chính xác của cây quyết định
sau xây dựng.
Thuộc tính :Trong tập dữ liệu thường có 2 loại thuộc tính:(i) thuộc tính có giá
trị liên tục (continous attribute) và (ii) thuộc tính có giá trị rời rạc (category
attribute).

2.2.2

Thuật tốn xây dựng cây quyết định.

Để xây dựng một cây quyết định và đánh giá hiệu quả của cây quyết định
đó ta cần phải thực hiện các bước sau:

• Bước 1: Tách cơ sở dữ liệu mẫu ban đầu thành 2 phần :

+ Tập huấn luyện (training set) dùng để xây dựng cây quyết đinh.
+ Tập kiểm tra (test set) để đánh giá độ chính xác của cây quyết định.

Trang 20


LUẬN VĂN

Đào Cơng Ân

• Bước 2. Thực hiện thuật tốn dựng cây: phân lớp một cách đệ quy tập

huấn với điều kiện dừng:
+ Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá).
+ Khơng cịn thuộc tính nào để phân chia mẫu nữa

+ Khơng cịn mẫu nào tại nút đó
• Bước 3. Cắt tỉa cây sao cho phù hợp và tối ưu hóa.
• Bước 4. Đánh giá cây - dùng tập kiểm tra (test set) để đánh giá độ chính

xác của cây đã xây dựng ở bước trên. Tiêu chí đánh giá là tổng số mẫu
được phân lớp chính xác trên tổng số mẫu đưa vào.

Khi xây dựng cây quyết định việc lựa chọn một số lượng nhất định của mẫu
là rất quan trọng. Trong khi số lượng mẫu không phải là càng nhiều càng tốt
mà là quan trọng đối với tính đồng nhất và đại diện của mẫu.
Khi xây dựng cây quyết định việc chọn thuộc tính để phân lớp là rất quan
trọng. Đối với thuộc tính có giá trị liên tục chúng ta sắp xếp chúng theo giá
trị tăng dần và phân chia các ngưỡng. Tại ngưỡng chúng ta sẽ tính Information
gain [21] hay Gain ratio [17] và Gain ratio lớn nhất sẽ được chọn làm ngưỡng
phân chia của thuộc tính đó.
Để đánh giá một cây là tốt ta sử dụng hàm Information entropy: Entropy
thông tin mô tả mức độ hỗn loạn trong một quan sát lấy từ một sự kiện ngẫu
nhiên. Nói cách khác, entropy cũng chỉ ra lượng thông tin trong quan sát, với
thông tin là các phần không hỗn loạn ngẫu nhiên của quan sát. Entropy thông
tin là một thang đo mức độ ngẫu nhiên
Information entropy: giả sử ta có tập dữ liệu huấn luyện S và có M mẫu, thuộc
tính nhãn B có K giá trị và chia vào K nhóm khác nhau Bi (i = 1, 2, 3, .., K). Giả
sử ni là số mẫu thuộc nhãn Bi trong S. Thì khi đó Information entropy E(S)
Trang 21


×