Tải bản đầy đủ (.pdf) (75 trang)

Mô hình phân tích thực trạng và dự đoán xu hướng tỷ lệ khách hàng rời bỏ doanh nghiệp trong lĩnh vực bán lẻ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

TRẦN THỊ THANH ĐÀO

MƠ HÌNH PHÂN TÍCH THỰC TRẠNG VÀ DỰ ĐOÁN
XU HƯỚNG TỶ LỆ KHÁCH HÀNG RỜI BỎ DOANH
NGHIỆP TRONG LĨNH VỰC BÁN LẺ

LUẬN VĂN THẠC SĨ KINH TẾ

TP. Hồ Chí Minh - Năm 2020


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

TRẦN THỊ THANH ĐÀO

MƠ HÌNH PHÂN TÍCH THỰC TRẠNG VÀ DỰ ĐOÁN
XU HƯỚNG TỶ LỆ KHÁCH HÀNG RỜI BỎ DOANH
NGHIỆP TRONG LĨNH VỰC BÁN LẺ
Chuyên ngành: Hệ thống thông tin quản lý
(Công nghệ thiết kế thông tin và truyền thông)
Hướng đào tạo: Ứng dụng
Mã số: 8340405

LUẬN VĂN THẠC SĨ KINH TẾ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HỒ TRUNG THÀNH



TP. Hồ Chí Minh - Năm 2020


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tơi,
khơng sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện
dưới sự hướng dẫn của TS. Hồ Trung Thành. Nội dung lý thuyết trong luận văn tơi
có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham
khảo. Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung
thực và chưa được công bố trong bất kỳ một cơng trình nào khác.
Tp.Hồ Chí Minh, ngày 12 tháng 8 năm 2020
Tác giả

Trần Thị Thanh Đào


MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
TĨM TẮT
ABSTRACT
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI ......................................................................1
1.1. Sự cần thiết của vấn đề nghiên cứu .................................................................1
1.2. Mục tiêu nghiên cứu ........................................................................................3
1.3. Đối tượng và phạm vi nghiên cứu ...................................................................3

1.4. Phương pháp nghiên cứu .................................................................................4
1.5. Đóng góp của nghiên cứu ................................................................................4
1.6. Quy trình nghiên cứu .......................................................................................4
1.7. Cấu trúc của luận văn.......................................................................................5
CHƯƠNG 2. TỔNG QUAN CÁC NGHIÊN CỨU LIÊN QUAN ........................7
2.1. Phân tích ý nghĩa hợp đồng (contract) và không hợp đồng (non-contract)
trong dự đốn xu hướng churn ................................................................................7
2.2. Phân tích ý nghĩa mất gián đoạn (intermittent lost) và mất vĩnh viễn
(permanent lost) trong dự đốn xu hướng churn ....................................................8
2.3. Phân tích khách hàng rời đi (Customer churn) ................................................8
2.4. Phân tích nhóm biến hành vi khách hàng thơng qua thuyết RFM ...................9
2.5. Mơ hình phân lớp (Classification model) trong phân tích xu hướng churn ....9
2.6. Xác định các khoảng trống nghiên cứu .........................................................12
CHƯƠNG 3. CƠ SỞ LÝ THUYẾT .......................................................................14
3.1. Giới thiệu khai phá dữ liệu ............................................................................14
3.2. Ứng dụng khai phá dữ liệu trong phân tích CRM .........................................15
3.3. Mơ hình Hồi quy Logistic ..............................................................................17
3.4. Mơ hình Cây quyết định ................................................................................20


3.5. Mơ hình Random Forests ...............................................................................22
3.6. Các phương pháp kiểm định mơ hình dự đốn ..............................................24
CHƯƠNG 4. ĐỀ XUẤT MƠ HÌNH VÀ THẢO LUẬN KẾT QUẢ THỰC
NGHIỆM ..................................................................................................................27
4.1. Đề xuất mơ hình nghiên cứu tổng qt ..........................................................27
4.1.1 Thu thập dữ liệu .......................................................................................28
4.1.2 Tiền xử lý dữ liệu ....................................................................................29
4.1.3 Gán nhãn dữ liệu......................................................................................30
4.1.4 Phân tích ma trận tương quan giữa các biến định lượng .........................31
4.1.5 Phân tích các biến định tính.....................................................................33

4.1.6 Đề xuất danh sách các biến đầu vào mơ hình..........................................34
4.2. Tối ưu hóa mơ hình ........................................................................................35
4.2.1. Lựa chọn thuộc tính ................................................................................35
4.2.2. Tối ưu tham số mơ hình..........................................................................37
4.3. Kiểm định và so sánh mơ hình ......................................................................39
4.3.1. Kiểm định mơ hình với tập dữ liệu mẫu .................................................39
4.3.2. Kiểm định mơ hình với tập dữ liệu tổng quát ........................................42
4.3.3. So sánh và thảo luận kết quả của ba mơ hình .........................................44
4.4. Phân tích và dự đoán xu hướng khách hàng churn ........................................45
4.5. Kết luận chương .............................................................................................53
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................54
5.1. Kết luận ..........................................................................................................54
5.2. Các mặt hạn chế và hướng phát triển.............................................................54
TÀI LIỆU THAM KHẢO
PHỤ LỤC


DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Tên tiếng Anh

Tên tiếng Việt

CRM

Customer Relationship

Hệ quản trị quan hệ khách hàng


Management
CART

Classification and Regression

Cây hồi quy phân lớp

Tree
RF

Random forest

Thuật toán Rừng ngẫu nhiên

DT

Decision Tree

Thuật toán Cây quyết định

LR

Logistic Regression

Thuật toán Hồi quy Logistic

Churn

Customer Churn


Khách hàng rời bỏ doanh nghiệp

IDIC

Identify Differentiate Interact

Mơ hình IDIC ứng dụng trong

Customize

CRM

RFM

Recency Frequency Monetary

Mơ hình RFM

R

Recency

Số ngày mua hàng gần nhất

F

Frequency

Tần suất mua hàng


M

Monetary

Chi tiêu của khách hàng

PCC

Percent correct classification

Phương pháp kiểm định mơ hình

AUC

Area Under the Curve

Phương pháp kiểm định mơ hình
Phương pháp kiểm định mơ hình

Lift
GLM

General Linear Model

Mơ hình tuyến tính tổng qt


DANH MỤC CÁC BẢNG
Bảng 2.1. Liệt kê các biến đầu vào, thuật tốn, phương pháp kiểm tra hiệu quả mơ
hình và tác giả của từng nghiên cứu

Bảng 3.1. Ứng dụng của Khai phá dữ liệu trong CRM
Bảng 3.2. Ma trận nhầm lẫn
Bảng 3.3. Các mức đánh giá mơ hình
Bảng 4.1. Danh sách các biến đề xuất đưa vào xây dựng mơ hình Học máy
Bảng 4.2. Ma trận nhầm lẫn (Confusion Matrix) của 3 mơ hình phân lớp.
Bảng 4.3. So sánh các độ đo trên 3 mơ hình thực nghiệm


DANH MỤC CÁC HÌNH
Hình 1.1. Mơ hình IDIC ứng dụng trong CRM
Hình 1.2. Quy trình nghiên cứu
Hình 3.1. Quá trình phát hiện tri thức
Hình 3.2. Đồ thị hàm Sigmoid
Hình 3.3. Mơ hình Random Forests
Hình 4.1. Đề xuất mơ hình nghiên cứu tổng quát
Hình 4.2. Số lượng giao dịch từng năm
Hình 4.3. Ma trận hệ số tương quan giữa các biến định lượng
Hình 4.4. Mối tương quan giữa 2 biến total_sales và transaction_count
Hình 4.5. Mối tương quan ngược chiều giữa 2 biến rfm_score và recency_days
Hình 4.6. Thống kê mơ tả các biến nhân khẩu học thơng tin khách hàng
Hình 4.7. Mơ hình Hồi quy Logistic: Mức độ quan trọng của các biến
Hình 4.8. Mơ hình Cây quyết định: Mức độ quan trọng của các biến
Hình 4.9. Mơ hình Random Forests: Mức độ quan trọng của các biến.
Hình 4.10. Mơ hình Hồi quy Logistic: Tối ưu tham số mơ hình
Hình 4.11. Mơ hình Cây quyết định: Tối ưu tham số mơ hình
Hình 4.12. Mơ hình Random Forests: Tối ưu tham số mơ hình
Hình 4.13. Mơ hình Hồi quy Logistic: Các kiểm định mơ hình
Hình 4.14. Mơ hình Cây quyết định: Các kiểm định mơ hình
Hình 4.15. Mơ hình Random Forests: Các kiểm định mơ hình
Hình 4.16. So sánh độ tin cậy Accuracy của 3 mơ hình

Hình 4.17. So sánh Precision của 3 mơ hình
Hình 4.18. So sánh Recall của 3 mơ hình
Hình 4.19. So sánh F1 của 3 mơ hình
Hình 4.20. Dự đốn số lượng khách hàng rời đi trong năm 1999
Hình 4.21. Danh sách khách hàng dự đoán rời đi trong năm 1999
Hình 4.22. Dự đốn số lượng khách hàng churn qua từng tháng
Hình 4.23. Doanh thu hàng tháng


Hình 4.24. Tần suất mua hàng của khách hàng
Hình 4.25. Phân tích tỷ lệ khách hàng churn theo từng quốc gia
Hình 4.26. Phân tích tỷ lệ khách hàng churn qua từng nhóm tuổi
Hình 4.27. Phân tích tỷ lệ khách hàng churn theo từng nhóm thu nhập
Hình 4.28. Phân tích tỷ lệ khách hàng churn theo từng q
Hình 4.29. Dự đốn xu hướng khách hàng churn qua từng tháng trong năm 1998
Hình 4.30. Số lượng khách hàng churn tại các cửa hàng
Hình 4.31. Danh sách nhãn hàng có số lượng khách hàng churn cao trong năm 1998


TÓM TẮT
Khách hàng rời bỏ doanh nghiệp (Customer Churn) xảy ra khi khách hàng
không tiếp tục sử dụng sản phẩm hay dịch vụ của doanh nghiệp. Trong lĩnh vực bán
lẻ, khách hàng được xem là Customer Churn khi khách hàng không thực hiện giao
dịch trong khoảng thời gian cụ thể có thể là tháng, quý hoặc năm tùy thuộc vào tính
đặc thù của loại hình kinh doanh. Khi khách hàng rời bỏ doanh nghiệp sẽ ảnh hưởng
trực tiếp tới doanh thu và lợi nhuận của doanh nghiệp. Trong nghiên cứu của
Buckinx và Van den Poel (2005), Coussement and Van den Poel (2008) đã chỉ ra
rằng chi phí để duy trì một khách hàng hiện tại thấp hơn nhiều so với chi phí tìm
một khách hàng mới. Do đó, việc hiểu khách hàng để giữ chân là việc quan trọng
mà doanh nghiệp luôn quan tâm. Trong luận văn này, chúng tôi đề xuất mơ hình

phân tích thực trạng và dự đốn xu hướng tỷ lệ khách hàng rời bỏ doanh nghiệp làm
cơ sở để xây dựng những chiến lược kinh doanh hiệu quả cho việc duy trì và giữ
chân khách hàng và nghiên cứu cho tình huống cụ thể trên tập dữ liệu bán lẻ của
doanh nghiệp. Thử nghiệm mơ hình với ba phương pháp học máy gồm Cây quyết
định (Decision Tree), Random Forests và Hồi quy Logistic với tham số đầu vào
của ba phương pháp được xây dựng bằng mô hình RFM và một biến churn được
gắn liền với mỗi điểm dữ liệu. Giá trị biến churn được tính dựa trên các giao dịch
của khách hàng trong khoảng thời gian cụ thể. Kết quả thực nghiệm đã chọn ra
được mô hình tốt để phân tích và dự đốn nguy cơ khách hàng rời bỏ doanh nghiệp.
Từ khóa: khách hàng rời bỏ doanh nghiệp, mơ hình RFM, học máy, phân tích
và dự đoán khách hàng rời đi.


ABSTRACT
Customer churn happens when a customer discontinues the business’s
products and services. In the retail sector, a customer is treated to be churned once a
customer’s transaction outdates a particular period can be a month, quarter, or year
depending on the specificity of the business type. When customers become churn, it
will directly affect the revenue and profit of the business. In the study of Buckinx
and Van den Poel (2005), Coussement and Van den Poel (2008) show that retaining
an existing customer is a much lower cost than acquiring a new customer.
Therefore, understanding customers to retain is an important problem that
businesses are always focusing on. In this thesis, we propose a model for analyzing
the current situation and predicting the tendency of customers churn as the basis to
build effective business strategies for customer maintaining. Test the model with
three machine learning methods including Decision Tree, Random Forests, and
Logistic Regression with input parameters of three methods built by the RFM
model and a churn variable attached to each data point. This churn variable value is
determined based on customer transactions over a specific period. Empirical results
have chosen the best model to analyze and predict the risk of customer churn.

Keywords: customer churn, RFM model, machine learning, churn analyzing,
and churn predicting.


1
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI
Trong chương này luận văn trình bày chi tiết về sự cần thiết của vấn đề nghiên
cứu, mục tiêu và câu hỏi nghiên cứu, đối tượng và phạm vi nghiên cứu, phương
pháp nghiên cứu, đóng góp của nghiên cứu. Bên cạnh đó, chương này trình bày quy
trình nghiên cứu cũng như cấu trúc của luận văn.
1.1. Sự cần thiết của vấn đề nghiên cứu
Việt Nam là một nước đang phát triển với tổng dân số chiếm khoảng 96,2 triệu
dân (theo Tổng Cục Thống kê năm 2019) thì thị trường thực phẩm, hàng tiêu dùng
là một miếng bánh béo bở cho các doanh nghiệp. Tính riêng tại thị trường thành phố
Hồ Chí Minh đã có nhiều ơng lớn có thể nhắc tới như Sài Gịn Co-op, Vin-Mart,
Bách Hóa Xanh, Big C, Aeon,… và rất nhiều cửa hàng nhỏ lẻ khác. Như vậy khi có
nhu cầu mua một sản phẩm thiết yếu hay một sản phẩm cơ bản, khách hàng có thể
dễ dàng mua tại bất kỳ đâu, có thể nói nơi nào gần nhất, rẻ nhất hoặc sản phẩm tốt
nhất, đẹp nhất, thời trang nhất là khách hàng ghé mua. Điều này dẫn đến tình trạng
doanh nghiệp thường xuyên phải đối mặt với tình trạng khách hàng rời đi. Trong thị
trường cạnh tranh khốc liệt này, thuật ngữ CRM (Customer Relationship
Management – Hệ thống quản trị quan hệ khách hàng) được nhiều doanh nghiệp
biết đến như một chiến lược kinh doanh quan trọng (Chen và Cộng sự, 2012). Các
doanh nghiệp sử dụng hệ thống CRM để xây dựng mối quan hệ lâu dài giữa khách
hàng và lợi nhuận của công ty (Coussement và Van den Poel, 2008). Một trong
những nhiệm vụ quan trọng của hệ thống CRM là duy trì và giữ chân khách hàng
(Chen và Cộng sự, 2012). Vào năm 2004, hai nhà đồng sáng lập tập đoàn Peppers
và Rogers Group đã đưa ra lý thuyết về mơ hình IDIC (Identify, Differentiate,
Interact, Customize) trong CRM (Siddiqi và Cộng sự, 2006). Mơ hình IDIC như
Hình 1.1, chủ yếu gồm 2 phần chính là phân tích và tác nghiệp. Phần phân tích bao

gồm xác định khách hàng mục tiêu và phân biệt khách hàng dựa trên giá trị mang
lại cho doanh nghiệp và nhu cầu của khách hàng. Doanh nghiệp có thể thực hiện
phân tích dữ liệu mà không cần sự tham gia của khách hàng. Trong bài luận văn


2
này, nghiên cứu đi sâu vào phân tích thực trạng và dự đoán xu hướng khách hàng
rời bỏ doanh nghiệp, làm ảnh hưởng đến lợi ích của doanh nghiệp. Từ đó phần tác
nghiệp sẽ dựa vào dữ liệu đầu ra là tập khách hàng có nguy cơ rời đi mà doanh
nghiệp có những chiến lược kinh doanh phù hợp nhằm duy trì quan hệ khách hàng
lâu dài và tạo nguồn doanh thu lợi nhuận bền vững hơn cho doanh nghiệp.
Thông tin của tổ chức về Khách hàng và Nhu cầu
của khách hàng

I - Xác định khách
hàng

D - Tìm kiếm sự khác biệt giữa các khách hàng

Xác định Khách
hàng mục tiêu của
doanh nghiệp là ai?

Phân biệt khách
hàng dựa trên giá
trị mang lại cho tổ
chức

Phân biệt khách
hàng dựa trên nhu

cầu của khách
hàng

Sàng lọc giá trị

I – Tương tác với
khách hàng

C – Cá biệt hóa
theo từng đơn vị
khách hàng

Tương tác với khách
hàng dựa trên giá trị
và nhu cầu

Cá biệt hóa sản
phầm và dịch vụ
theo nhu cầu khách
hàng

Thông tin về khả năng thõa mãn nhu cầu
của khách hàng

Hình 1.1. Mơ hình IDIC ứng dụng trong CRM
(Nguồn: )
Trong lĩnh vực kinh doanh việc tạo ra doanh thu, lợi nhuận là nhu cầu cấp
thiết và ảnh hưởng trực tiếp đến sự tồn vong của doanh nghiệp. Để tăng doanh thu
lợi nhuận, doanh nghiệp cần tìm kiếm khách hàng mới và duy trì khách hàng cũ.
Theo nghiên cứu của Buckinx and Van den Poel (2005) chỉ ra rằng chi phí để có

được một khách hàng mới cao hơn nhiều so với chi phí duy trì khách hàng hiện có.
Vì vậy việc phân tích và dự đốn tỷ lệ khách hàng rời bỏ doanh nghiệp là điều cần
thiết. Dựa trên kết quả phân tích và dự đốn, doanh nghiệp có thể xây dựng các
chiến lược kinh doanh hiệu quả hơn nhằm giữ chân khách hàng, giảm chi phí tìm
kiếm khách hàng mới và tăng doanh thu lợi nhuận bền vững hơn. Chính vì những lý


3
do nêu trên, đề tài “Mơ hình phân tích thực trạng và dự đoán xu hướng tỷ lệ
khách hàng rời bỏ doanh nghiệp trong lĩnh vực bán lẻ” được thực hiện.
1.2. Mục tiêu nghiên cứu
- Ứng dụng kỹ thuật phân lớp trong học máy như Cây quyết định, Hồi quy
Logistic, Random Forest trong việc phân lớp khách hàng nhằm dự đoán tỷ lệ khách
hàng rời bỏ doanh nghiệp trong lĩnh vực bán lẻ.
- Ứng dụng quy trình khai phá dữ liệu nhằm rút trích thơng tin có ích từ tập
dữ liệu bán hàng của công ty bán lẻ hàng tiêu dùng nhằm đưa ra các hàm ý kinh
doanh hỗ trợ các chiến lược duy trì khách hàng.
- Ứng dụng phương pháp thống kê, kiểm định mơ hình trong mơn học kinh tế
lượng và học máy nhằm chọn ra mơ hình tối ưu trong việc dự đoán tỷ lệ khách hàng
rời bỏ doanh nghiệp mà cụ thể là so sánh độ tin cậy của ba phương pháp Cây quyết
định, Hồi quy Logistic, Random Forest.
- Áp dụng mơ hình RFM trong phân khúc khách hàng và gán nhãn dữ liệu
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Các phương pháp phân lớp trong học máy như Random
Forests, Cây quyết định, Hồi quy Logistic ứng dụng trong việc phân lớp khách hàng
nhằm dự đoán tỷ lệ khách hàng rời bỏ doanh nghiệp trong lĩnh vực bán lẻ. Mơ hình
RFM ứng dụng trong việc phân tích hành vi khách hàng.
Phạm vi nghiên cứu: Các dữ liệu về thông tin khách hàng, thông tin sản phẩm,
thông tin cửa hàng, lịch sử giao dịch của khách hàng được đưa vào nghiên cứu và
thực nghiệm xây dựng mơ hình. Các dữ liệu này được thu thập từ một Tập đoàn bán

lẻ hàng tiêu dùng có trụ sở chính tại Mỹ và các chi nhánh con đặt tại các quốc gia
như Mỹ, Canada và Mexico trong khoảng thời gian từ năm 1997 đến năm 1998.


4
1.4. Phương pháp nghiên cứu
Phương pháp nghiên cứu định tính: Khảo sát và nghiên cứu dữ liệu thứ cấp từ
các nghiên cứu trước, khảo sát cơ sở lý thuyết, phân tích các mơ hình trong kinh
doanh và từ đó đề xuất mơ hình, phương pháp thực hiện.
Phương pháp nghiên cứu định lượng: Thu thập dữ liệu giao dịch, làm sạch dữ
liệu, tích hợp và áp dụng phương pháp thống kê, học máy để phân tích dữ liệu nhằm
khám phá những tri thức tiềm ẩn. Những tri thức tiềm ẩn trong dữ liệu là những
phân khúc khách hàng, tỷ lệ churn và xu hướng được phân tích và từ đó có những
thảo luận và hàm ý trong kinh doanh.
1.5. Đóng góp của nghiên cứu
- Đề xuất phương pháp nghiên cứu mang tính liên ngành giữa ứng dụng kỹ
thuật phân lớp của học máy nhằm khai thác dữ liệu và phân tích mơ hình kinh
doanh trong lĩnh vực bán lẻ.
- Đề xuất phương pháp gán nhãn dữ liệu dựa trên mơ hình RFM kết hợp cả 3
biến (1) là R thời gian mua hàng gần nhất, (2) là F tần suất mua hàng, (3) là M chi
tiêu của khách hàng để đánh giá một khách hàng có rời bỏ doanh nghiệp trong
khoảng thời gian cụ thể.
- Đề xuất phương pháp phân tích và dự đoán xu hướng tỷ lệ khách hàng rời
bỏ doanh nghiệp.
- Ứng dụng mơ hình phân tích churn trong lĩnh vực bán lẻ không thực hiện
hợp đồng và giải pháp giữ chân khách hàng thông qua phương pháp khai phá dữ
liệu.
- Ứng dụng phương pháp học máy vào phân tích thực trạng và dự đốn xu
hướng tỷ lệ churn dựa trên dữ liệu giao dịch trong lĩnh vực bán lẻ.
1.6. Quy trình nghiên cứu

Nghiên cứu được thực hiện theo quy trình như Hình 1.2


5

Hình 1.2. Quy trình nghiên cứu
(Nguồn: Tác giả)
1.7. Cấu trúc của luận văn
Luận văn gồm có 6 chương:
Chương 1. Tổng quan đề tài
Trình bày chi tiết về sự cần thiết của vấn đề nghiên cứu, mục tiêu nghiên
cứu, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, đóng góp của
nghiên cứu, cấu trúc của luận văn.
Chương 2. Tổng quan các nghiên cứu liên quan
Trình bày lý thuyết và lược khảo các cơng trình nghiên cứu trong và ngồi
nước có liên quan đến vấn đề nghiên cứu.
Chương 3. Cơ sở lý thuyết
Trình bày các cơ sở lý thuyết, lý luận, các giả thuyết khoa học, phương pháp
nghiên cứu khoa học, phân tích lựa chọn phương pháp nghiên cứu.
Chương 4. Đề xuất mơ hình và thảo luận kết quả thực nghiệm
Xây dựng giải pháp và trình bày, đánh giá, bàn luận kết quả thu được từ thực
nghiệm. Sau đó trình bày kết quả nghiên cứu đạt được trong quá trình thực
nghiệm.


6
Chương 5. Kết luận và hướng phát triển
Tổng kết những điểm chính liên quan đến vấn đề nghiên cứu, nguyên nhân
của vấn đề và các giải pháp phù hợp. Trình bày các kết quả nghiên cứu đạt
được, những điểm mới và đóng góp của đề tài, những hạn chế cần khắc phục và

định hướng phát triển.


7
CHƯƠNG 2. TỔNG QUAN CÁC NGHIÊN CỨU LIÊN QUAN
Chương này, luận văn trình bày về các nghiên cứu liên quan với đề tài, các
nghiên cứu về phân tích thực trạng và dự đoán xu hướng tỷ lệ khách hàng rời bỏ
doanh nghiệp. Cuối chương là những khoảng trống nghiên cứu, và đây cũng chính
là những động lực để thực hiện nghiên cứu luận văn.
2.1. Phân tích ý nghĩa hợp đồng (contract) và khơng hợp đồng (noncontract) trong dự đốn xu hướng churn
Khái niệm hợp đồng thường xuất hiện trong các lĩnh vực viễn thơng, tài
chính, bất động sản, bảo hiểm, thuê dịch vụ công nghệ, dịch vụ quảng cáo. Đây là
những lĩnh vực điển hình xuất hiện khái niệm hợp đồng. Trong hợp đồng quy định
rõ ràng quyền và nghĩa vụ của các bên liên quan. Sau khi khách hàng ký hợp đồng
với doanh nghiệp, khách hàng cần thực hiện nghĩa vụ liên quan theo hợp đồng để
được hưởng quyền lợi tương ứng. Vì vậy giao dịch giữa khách hàng và doanh
nghiệp bị ràng buộc bởi các thỏa thuận trong hợp đồng. Do đó hành vi giao dịch
tương đối ổn định và tỷ lệ khách hàng rời bỏ doanh nghiệp thấp (Xia and He, 2018).
Trong những lĩnh vực bán lẻ thực phẩm, đồ uống, thời trang thường các giao
dịch không xuất hiện khái niệm hợp đồng. Khách hàng thực hiện giao dịch đầu tiên
với doanh nghiệp và không bị ràng buộc bởi hợp đồng. Sau đó khách hàng tiếp tục
thực hiện nhiều giao dịch trong khoảng thời gian dài hoặc khơng thực hiện giao
dịch nữa. Khách hàng có thể tự do tham gia hoặc rời bỏ doanh nghiệp. Lý do của sự
rời bỏ có thể do chất lượng sản phẩm/dịch vụ, dịch vụ chăm sóc khách hàng, các
chiến lược quảng cáo của đối thủ cạnh tranh, giá cả, tính thời trang của sản phẩm và
nhiều lý do khác mà doanh nghiệp khơng lường trước được. Vì có q nhiều lý do
dẫn đến khách hàng rời bỏ doanh nghiệp và không có sự ràng buộc bởi hợp đồng
nên hành vi giao dịch tương đối ngẫu nhiên và tỷ lệ khách hàng rời bỏ doanh nghiệp
cao (Xia and He, 2018).



8
2.2. Phân tích ý nghĩa mất gián đoạn (intermittent lost) và mất vĩnh viễn
(permanent lost) trong dự đoán xu hướng churn
Khái niệm intermittent lost và permanent lost thường được quan tâm trong
các giao dịch non-contract.
Intermittent lost – mất gián đoạn là hiện tượng khách hàng thực hiện giao
dịch và ngưng trong một khoảng thời gian cụ thể sau đó tiếp tục thực hiện giao dịch
với cùng một doanh nghiệp. Trong một khoảng thời gian cụ thể, khách hàng không
thực hiện giao dịch khơng có nghĩa là mất khách hàng vĩnh viễn mà khách hàng sẽ
thực hiện giao dịch vượt ngưỡng thời gian cụ thể mà doanh nghiệp quy định. Vì vậy
tần suất giao dịch có thể ảnh hưởng đến việc phân tích xu hướng tỷ lệ khách hàng
rời bỏ doanh nghiệp (Xia and He, 2018).
Permanent lost – mất vĩnh viễn là hiện tượng khách hàng thực hiện giao dịch
và ngưng trong khoảng thời gian dài không quay lại thực hiện giao dịch nữa. Khi
khách hàng quay lại thực hiện giao dịch thì trạng thái của khách hàng là intermittent
lost vì vậy khó xác định khách hàng là permanent lost. Trong phân tích xu hướng
khách hàng rời bỏ doanh nghiệp, ta cần nắm rõ các khái niệm để có thể phân loại
khách hàng churn trong từng khoảng thời gian cụ thể (Xia and He, 2018).
2.3. Phân tích khách hàng rời đi (Customer churn)
Customer Churn chỉ những khách hàng không tiếp tục hợp đồng với doanh
nghiệp hoặc ngưng không sử dụng sản phẩm hay dịch vụ của doanh nghiệp trong
khoảng thời gian cụ thể. Tùy theo loại hình kinh doanh mà doanh nghiệp quy định
khoảng thời gian cụ thể là tháng, quý hoặc năm.
Churn rate là tỷ lệ khách hàng rời bỏ doanh nghiệp được tính bằng tỷ số giữa
tổng khách hàng churn trong kỳ chia cho tổng khách hàng đầu kỳ.

(2.1)



9
2.4. Phân tích nhóm biến hành vi khách hàng thơng qua thuyết RFM
Thuyết RFM (Recency - Frequency - Monetary) được sử dụng phổ biến
trong các nghiên cứu dự đoán hành vi khách hàng với nhiều lĩnh vực khác nhau
(Buckinx and Van den Poel, 2005). Trong đó, (1) Recency là khoảng thời gian mua
hàng gần đây nhất là bao lâu. Cho biết khách hàng có đang thực sự hoạt động gần
thời điểm đánh giá. Chỉ số này càng lớn càng cho thấy xu hướng rời bỏ của khách
hàng càng cao; (2) là Frequency là tần suất mua hàng của khách hàng. Nếu khách
hàng mua càng nhiều đơn hàng thì giá trị về doanh số mang lại cho doanh nghiệp
càng cao. Chỉ số này càng lớn càng cho thấy lòng trung thành của khách hàng càng
cao và xu hướng rời bỏ doanh nghiệp càng thấp; (3) Monetary là số tiền chi tiêu của
khách hàng. Chỉ số này sẽ tác động trực tiếp tới doanh thu và bị tác động gián tiếp
thông qua hai yếu tố Recency và Frequency. Nếu khách hàng mua ít đơn hàng
nhưng giá trị đơn hàng cao cho thấy lòng tin của khách hàng đối với sản phẩm, dịch
vụ của doanh nghiệp. Vì vậy chỉ số này càng cao cho thấy xu hướng rời bỏ doanh
nghiệp càng thấp. Đây là nhóm thuộc tính thể hiện hành vi mua hàng của khách
hàng (Buckinx and Van den Poel, 2005).
2.5. Mơ hình phân lớp (Classification model) trong phân tích xu hướng
churn
Việc phân tích khách hàng có churn hay khơng churn được nhiều nghiên cứu
thực hiện dựa trên các kỹ thuật phân lớp (classification) trong học máy như Bảng
2.1, cụ thể như sau:
 Nhóm biến nhân khẩu học bao gồm các thơng tin khách hàng như tuổi,
giới tính, tình trạng hơn nhân, thu nhập hàng năm, trình độ học vấn, số
con, số xe sở hữu, có sở hữu nhà hay khơng… được các nghiên cứu
trước đưa vào mơ hình làm biến đầu vào cho việc huấn luyện mơ hình
học máy.
 Nhóm biến hành vi khách hàng như (1) Recency là khoảng thời gian
mua hàng gần đây nhất là bao lâu, (2) Frequency là tần suất mua hàng



10
của khách hàng, (3) Monetary là số tiền chi tiêu của khách hàng, (4)
Product purchase là nhóm biến hành vi mua sản phẩm, (5) Brand
purchase là nhóm biến hành vi mua thương hiệu được các nghiên cứu
trước đưa vào mô hình làm biến đầu vào cho việc huấn luyện mơ hình.
 Các thuật tốn được sử dụng thơng dụng nhất cho việc dự đoán khách
hàng churn như Random Forests, Hồi quy Logistic, Neural Network,
Cây quyết định và một số thuật tốn khác trong nhánh học máy có giám
sát (Supervised)
 Các kiểm định thường được sử dụng để kiểm định hiệu quả của mơ
hình như độ tin cậy của mơ hình (Accuracy), ma trận nhầm lẫn
(Confusion Matrix), ngoài ra các nghiên cứu trước còn sử dụng một số
kiểm định như PCC, AUC, Lift.
Bảng 2.1. Liệt kê các biến đầu vào, thuật tốn, phương pháp kiểm tra hiệu quả
mơ hình và tác giả của từng nghiên cứu
Tác giả

Nhóm biến nhân

Xie et al.

Burez and

Chen

Migueis et

Migueis et


Xia and

Luận văn

(2009)

Van den

et al.

al. (2012)

al. (2013)

He

này

Poel (2009)

(2012)

x

(2018)

x

x


x

x

x

khẩu học
Nhóm

Recency

x

x

x

x

x

biến

Frequency

x

x

x


x

x

hành

Monetary

x

x

x

x

x

vi

Product

khách

purchase

hàng

Brand


x

x

purchase
Thuật

Thuật

Cây quyết

Hồi quy

H-

Hồi quy

Hồi quy

Artificial

tốn

tốn 1

định

Logistic


MK-

Logistic

Logistic

Neural

SVM

Networks

Hồi quy
Logistic

Thuật

Support

Gradient

Multivariate

Support

Cây

tốn 2

Vector


Boosting

Adaptive

Vector

quyết

Regression

Machine

định

Machine


11
Splines
(MARS)
Thuật

Artificial

Weighted

IBRF –

Random


tốn 3

Neural

Random

Improved

Forests

Networks

Forests

Balanced
Random
Forests

Kiểm

PCC

x

định

AUC

x




Lift

x

x

x

x

x

x

x

x

hình

(Nguồn: Tác giả tổng hợp)
Dưới đây là tóm tắt nội dung các nghiên cứu liên quan:
(1) Buckinx và Van den Poel (2005) đã thực hiện nghiên cứu phân tích tập dữ
liệu khách hàng trong lĩnh vực bán lẻ khơng thực hiện hợp đồng với chủ đề
phân tích khách hàng mất gián đoạn (hay còn gọi là churn trong một khoản
thời gian cụ thể) về hành vi trung thành của khách hàng. Nghiên cứu sử dụng
các kỹ thuật phân lớp như Hồi quy Logistic, Neural Network, Random

Forests để thực hiện xây dựng mơ hình dự đốn lịng trung thành của khách
hàng. Các biến được sử dụng đưa vào huấn luyện mơ hình gồm nhóm biến
nhân khẩu học, nhóm biến hành vi mua hàng (RFM), nhóm biến hành vi mua
sản phẩm, thương hiệu. Nghiên cứu đề xuất khoảng thời gian cụ thể cho việc
phân tích khách hàng churn là 5 tháng. Kết quả mơ hình được chọn cho dự
đốn là Random Forests.
(2) Migueis và Cộng sự (2013) đã đề xuất mơ hình dự đốn khách hàng churn sử
dụng 2 kỹ thuật phân lớp Hồi quy Logistic và Multivariate Adaptive
Regression Splines (MARS). Nghiên cứu thực hiện đánh nhãn churn theo
nguyên tắc doanh thu của kỳ này thấp hơn 30% so với tổng doanh thu kỳ
trước thì được đánh nhãn là churn và chu kì phân tích là 3 tháng. Các biến
đầu vào xây dựng mơ hình học máy gồm nhóm biến nhân khẩu học, nhóm
biến hành vi khách hàng mua hàng, hành vi mua sản phẩm, thương hiệu.


12
(3) Chen và Cộng sự (2012) đã đề xuất mô hình dự đốn khách hàng churn với
kỹ thuật phân lớp (H-MK-SVM) Hierarchical multiple kernel support vector
machine cho dữ liệu hành vi khách hàng. Nghiên cứu đề xuất mơ hình từ
việc thu thập dữ liệu, xử lý dữ liệu, huấn luyện và kiểm định mơ hình, chọn
thuộc tính, chọn mơ hình tối ưu, chọn chuỗi thời gian trong phân tích và kết
quả dự đoán.
(4) Migueis và Cộng sự (2012) thực hiện nghiên cứu phân tích và dự đốn khách
hàng churn trong lĩnh vực bán lẻ với kỹ thuật phân lớp Hồi quy logistic. Biến
đầu vào của mơ hình phân lớp là nhóm biến hành vi mua hàng của khách
hàng (RFM) và hành vi mua sản phẩm đầu tiên và sản phẩm sau cùng. Kết
quả dự đoán churn trên hành vi mua sản phẩm sau cùng.
(5) Xie và Cộng sự (2009) nghiên cứu thực hiện dự đoán khách hàng churn bằng
kỹ thuật phân lớp improved balanced random forests (IBRF) trong lĩnh vực
tài chính ngân hàng kết hợp với các thuật tốn khác như artificial neural

networks, Cây quyết định và class-weighted core support vector machine.
Kết quả mơ hình phân lớp IBRF đạt độ chính xác cao nhất trong dự đốn
khách hàng churn.
2.6. Xác định các khoảng trống nghiên cứu
Việc trả lời câu hỏi “Bao nhiêu khách hàng đã rời bỏ doanh nghiệp?”, “Những
khách hàng nào đã rời bỏ doanh nghiệp?”, “Ai là khách hàng có khả năng rời bỏ
doanh nghiệp tiếp theo?” là vấn đề được rất nhiều doanh nghiệp quan tâm bởi nó
ảnh hưởng trực tiếp tới doanh thu và lợi nhuận của doanh nghiệp cũng như sự sống
còn của doanh nghiệp. Doanh nghiệp hoạt động trong rất nhiều lĩnh vực khác nhau
đều có nhu cầu phân tích và dự đốn tỷ lệ khách hàng rời bỏ doanh nghiệp do đó
các nghiên cứu đã xuất hiện nhiều trong một số lĩnh vực điển hình như tài chính
(Safinejad et al, 2018), viễn thơng (Ahmed, 2019), lĩnh vực bán lẻ hàng tiêu dùng
(Buckinx & Van den Poel, 2005; Miguéis et al, 2012; Chen & Fan, 2013). Trong
lĩnh vực kinh doanh bán lẻ như thực phẩm, đồ uống, thời trang…các nghiên cứu tại
Việt Nam còn thưa vì vậy bài báo tập trung nghiên cứu những yếu tố ảnh hưởng đến


13
việc khách hàng rời bỏ doanh nghiệp, từ đó xem xét yếu tố nào có thể đưa vào ứng
dụng mơ hình học máy để dự đốn khả năng khách hàng rời bỏ doanh nghiệp trong
lĩnh vực bán lẻ.


14
CHƯƠNG 3. CƠ SỞ LÝ THUYẾT
Chương này, luận văn trình bày lý thuyết về khai phá dữ liệu, các ứng dụng
của học máy trong việc phân tích dữ liệu khách hàng, phân tích hành vi khách hàng.
Tổng quan các mơ hình Hồi quy Logistic, Cây quyết định, Random Forests và các
phương pháp kiểm định mơ hình.
3.1. Giới thiệu khai phá dữ liệu

Khai phá dữ liệu là quá trình khám phá tri thức có ích từ lượng dữ liệu lớn.
Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có trong cơ
sở dữ liệu, kho dữ liệu hoặc trong các loại lưu trữ thông tin khác. Những cơng cụ,
phương pháp khai phá dữ liệu có thể phát hiện những xu hướng trong tương lai, các
tri thức mà khai phá dữ liệu mang lại có thể hỗ trợ ra quyết định kịp thời.(Vũ Thị
Thu Hương, 2017) Quá trình phát hiện tri thức gồm các bước:
Bước 1. Trích chọn dữ liệu: là bước chọn ra những tập dữ liệu phù hợp, cần
được khai phá trong tập dữ liệu lớn.
Bước 2. Tiền xử lý dữ liệu: là bước làm sạch dữ liệu như xử lý dữ liệu thiếu,
dữ liệu nhiễu, dữ liệu không nhất quán.
Bước 3. Chuyển đổi dữ liệu: là bước chuẩn hóa dữ liệu để đưa dữ liệu về
dạng phù hợp cho quá trình khai phá dữ liệu.
Bước 4. Khai phá dữ liệu: là bước quan trọng và tốn nhiều thời gian nhất của
quá trình khám phá tri thức, sử dụng thuật toán để đưa ra những mơ hình dữ liệu.
Bước 5. Mơ hình biểu diễn tri thức và đánh giá: dùng các kỹ thuật biểu diễn,
trực quan hóa dữ liệu đã được khai thác nhằm biểu diễn tri thức một cách dễ hiểu.
Đồng thời đánh giá tri thức khai thác được theo nhiều tiêu chí nhất định nhằm xác
định xem mơ hình dữ liệu vừa tìm được có chứa thơng tin hữu ích hay khơng, tri
thức trong đó có đúng hay khơng.


×