ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HOÀN
MỘT MÔ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT
CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG
CÓ NGUY CƠ RỜI MẠNG VINAPHONE
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HOÀN
MỘT MÔ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT
CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG
CÓ NGUY CƠ RỜI MẠNG VINAPHONE
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số:60.48.01.04
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Ngƣời hƣớng dẫn khoa học: PGS.TS. HÀ QUANG THỤY
HÀ NỘI - 2015
iii
Lời cảm ơn
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS Hà
Quang Thụy, người Thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình
từ khi là sinh viên, tới khi học thạc sĩ và trong suốt quá trình nghiên cứu và thực hiện
luận văn này.
Tôi xin chân thành cảm ơn sự dậy bảo, giúp đỡ, tạo điều kiện của các Thầy, Cô
trong trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội trong suốt quá trình tôi
học tập tại Trường.
Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi trong
quá trình nghiên cứu của các Thầy, Cô, anh chị tại phòng thí nghiệm Khoa học dữ liệu
và Công nghệ tri thức (DS&KTLAB) và Đề tài ĐHQGHN QG.14.13.
Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè – những
người luôn ở bên tôi trong lúc khó khăn, động viên, khuyến khích tôi trong cuộc sống
và công việc.
Tôi xin chân thành cảm ơn!
Tác giả
Nguyễn Thị Hoàn
i
Lời cam đoan
Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và
phát triển các nghiên cứu về bài toán dự báo khách hàng rời mạng trong nước và trên
thế giới do tôi thực hiện.
Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá
trình nghiên cứu đưa ra và không sao chép nguyên bản từ bất kỳ một nguồn tài liệu
nào khác.
ii
Mục lục
Lời cảm ơn ....................................................................................................................... i
Danh mục các hình vẽ và bảng biểu ................................................................................ v
Danh mục từ viết tắt ....................................................................................................... vi
Mở đầu ............................................................................................................................ 1
Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng ................................. 2
1.1.Bài toán dự đoán khách hàng rời mạng ..................................................................... 2
1.2.Vai trò của khai phá dữ liệu trong quản lý khách hàng rời mạng ............................. 3
1.3. Một số nghiên cứu cho bài toán dự đoán khách hàng rời mạng............................... 4
1.3.1. Đánh giá hiệu quả của mô hình ............................................................................. 4
1.3.2. Một số mô hình nghiên cứu về dự đoán khách hàng rời mạng ............................. 5
1.4.Tóm tắt chương 1....................................................................................................... 8
Chƣơng 2: Một số mô hình điển hình cho bài toán dự đoán khách hàng rời mạng9
2.1. Mô hình dựa trên luật cho bài toán dự đoán khách hàng rời mạng dịch vụ viễn
thông ............................................................................................................................ 9
2.1.1. Giới thiệu mô hình phân lớp dựa trên luật ............................................................ 9
2.1.2. Mô hình sinh các luật ............................................................................................ 9
2.1.3. Phân lớp ............................................................................................................... 12
2.1.4. Kết quả và đánh giá mô hình ............................................................................... 13
2.2. Mô hình học lai cho bài toán dự đoán khách hàng rời mạng ................................. 15
2.3. Tóm tắt chương 2 .................................................................................................... 21
Chƣơng 3: Mô hình kết hợp giám sát và bán giám sát cho bài toán dự đoán khách
hàng rời mạng .............................................................................................................. 22
3.1. Tiếp cận mô hình bài toán ...................................................................................... 22
3.2. Tiền xử lý dữ liệu ................................................................................................... 24
3.3. Mô hình học giám sát dựa trên thuật toán K-NN ................................................... 24
3.4. Mô hình học bán giám sát dựa trên thuật toán self-training ................................... 25
3.5. Mô hình học giám sát dựa trên hệ thống luật: ........................................................ 27
3.6. Phân lớp .................................................................................................................. 28
Tổng kết chương 3 ......................................................................................................... 29
iii
Chƣơng 4: Thực nghiệm và đánh giá kết quả .......................................................... 30
4.1. Môi trường thực nghiệm:........................................................................................ 30
4.2. Quá trình thực nghiệm ............................................................................................ 30
4.3. Kết quả thực nghiệm............................................................................................... 32
4.4. Đánh giá kết quả và hướng nghiên cứu tiếp theo ................................................... 34
4.5.Tóm tắt chương 4.................................................................................................... 34
Tài liệu tham khảo ....................................................................................................... 35
iv
Danh mục các hình vẽ và bảng biểu
Hình 1: So sánh độ AUC giữa các mô hình .................................................................. 14
Hình 2: So sánh AUC mô hình CRL và DMEL cho tỉ lệ churn rate khác nhau ........... 15
Hình 3: So sánh AUC cho mô hình CRL và DMEL với tập dữ liệu UCI ..................... 15
Hình 4: Giải thuật sinh luật FOIL................................................................................. 17
Hình 5: Giải thuật sinh 1 luật FOIL............................................................................... 18
Hình 6: Mô hình dự đoán lai cua Ying Hwuang và cộng sự ......................................... 18
Hình 7: So sánh đường cong ROC, AUC với kỹ thuật phân lớp khác nhau ................ 21
Hình 8: So sánh hiệu quả của mô hình lai đề xuất và các mô hình lai khác dựa trên
ROC ............................................................................................................................... 21
Hình 9: Mô hình kết hợp học giám sát và bán giám sát ................................................ 23
Hình 10: Một ví dụ về phân lớp KNN ........................................................................... 25
Hình 11: Mô hình học bán giám sát Self-training ......................................................... 26
Hình 12: Sơ đồ thuật toán Self-training......................................................................... 27
Hình 13: Giả mã học luật FOIL ..................................................................................... 28
Hình 14: Giả mã học 1 luật FOIL .................................................................................. 28
Bảng 1: Tỉ lệ rời mạng của các mạng tại Hàn Quốc năm 2007-2008 ............................. 9
Bảng 2: Chức năng, kỹ thuật khai phá dữ liệu và ứng dụng ........................................... 3
Bảng 3: Ma trận Confusion ............................................................................................. 4
Bảng 4: Tập dữ liệu cho mô hình dự đoán dựa trên luật ............................................... 13
Bảng 5: Tập dữ liệu mô hình Ying Hwuang và cộng sự ............................................... 20
Bảng 6: Kết quả mô hình Ying Hwuang và cộng sự sử dụng độ đo AUC.................... 20
Bảng 7: So sánh mô hình Ying Hwuang và cộng sự với một số mô hình khác ............ 20
Bảng 8: Phần mềm sử dụng trong luận văn ................................................................... 30
Bảng 9: Bảng mô tả dữ liệu mẫu .................................................................................. 31
Bảng 10: Trọng số một số thuộc tính dữ liệu ................................................................ 31
Bảng 11: Ma trận Confusion ......................................................................................... 33
Bảng 12: Kết quả thực nghiệm với trọng số weight2 .................................................... 33
Bảng 13: Kết quả thực nghiệm với trọng số weight1 .................................................... 34
v
Danh mục từ viết tắt
STT
Từ/cụm từ
Tên viết tắt
1
K Nearest Neigbours
KNN
2
Area Under ROC
AUC
3
Support Vector Machines
SVM
4
Classification by Rules Learning
CRL
5
Data Mining by Evolutionary Learning
DMEL
6
True Prediction/False Prediction
TP/FP
7
First Order Inductive Learning
FOIL
vi
Mở đầu
Sự phát triển mạnh mẽ của công nghệ viễn thông trong những năm gần đây đã
mở ra nhiều cơ hội cho các nhà cung cấp dịch vụ mạng di động. Song song với việc
mở rộng và phát triển các khách hàng mới, việc quản lý khách hàng cũ cũng là một
nhiệm vụ quan trọng. Dự báo khách hàng có nguy cơ rời mạng chính là phần trọng yếu
trong quản lý khách hàng rời mạng. Xác định được khách hàng có nguy cơ rời mạng
giúp nhà cung cấp dịch vụ kịp thời đưa ra các biện pháp, phương thức để quản lý,
chăm sóc khách hàng, tránh để khách hàng rời bỏ dịch vụ của mình.
Nhiều mô hình cho bài toán dự báo khách hàng rời mạng đã được nghiên cứu
và phát triển. Các công trình nghiên cứu về dự báo khách hàng rời mạng được công bố
trong các hội nghị nổi tiếng như Elsevier1 và được áp dụng thực tế tại các nhà mạng
lớn như Taiwan Mobile của Đài Loan, China Mobile, của Trung Quốc, T&T của Mỹ.
Nội dung luận văn thạc sĩ “Một mô hình kết hợp học giám sát và bán giám sát
cho bài toán dự báo khách hàng có nguy cơ rời mạng Vinaphone” tập trung vào nghiên
cứu, khảo sát, đánh giá và đề xuất một mô hình dự đoán khách hàng rời mạng, bên
cạnh đó, áp dụng mô hình này cho dự đoán khách hàng có nguy cơ rời bỏ mạng viễn
thông VinaPhone.
Ngoài phần mở đầu và kết luận, luận văn đƣợc tổ chức thành 4 chƣơng
nhƣ sau:
Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng giới thiệu khái
quát dự đoán khách hàng rời mạng trong viễn thông, các khái niệm liên quan. Trình
bày vai trò của khai phá dữ liệu trong dự đoán khách hàng rời mạng. Một số nghiên
cứu về bài toán dự đoán khách hàng rời mạng.
Chƣơng 2: Một số mô hình điển hình cho bài toán dự báo khách hàng rời
mạng giới thiệu một số mô hình điển hình cho bài toán dự bao khách hàng rời mạng.
Chƣơng 3: Kết hợp học giám sát và bán giám sát cho bài toán dự đoán
khách hàng rời mạng phân tích, đề xuất, trình bày mô hình kết hợp giữa học bán
giám sát self-training và học giám sát dựa trên luật cho bài toán dự đoán các khách
hàng có nguy cơ rời mạng.
Chƣơng 4: Thực nghiệm và đánh giá kết quả trình bày quá trình thực nghiệm
của luận văn, đưa ra một số đánh giá về hiệu quả của mô hình, nhận xét các kết quả đạt
được.
1
Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng
Bài toán dự đoán khách hàng rời mạng
Trong những năm gần đây, có nhiều sự thay đổi lớn trong công nghiệp viễn
thông như sự mở rộng của thị trường, các dịch vụ và công nghệ mới dẫn đến cạnh
tranh khốc liệt trong thị trường viễn thông. Việc rời bỏ mạng của khách hàng làm sụt
1.1.
giảm một lượng lớn dịch vụ viễn thông và khiến nó trở thành vấn đề nghiêm trọng của
các nhà cung cấp dịch vụ.
Khách hàng rời mạng (customer churn) được xem là những khách hàng có giá
trị rời bỏ sử dụng dịch của một nhà mạng sang sử dụng dịch vụ của một nhà mạng
khác. Quản lý khách hàng rời mạng (churn management) là các chính sách xử lý của nhà
mạng nhằm giữ chân các khách hàng có nguy cơ rời mạng. Một trong những thách thức của
“churn management” là dự đoán các “churner”. Bài toán dự đoán khách hàng rời mạng (churn
prediction) chính là đi tìm các “churner” dựa trên các thuộc tính của khách hàng như: dữ liệu
hợp đồng, thông tin khách hàng, log sử dụng dịch vụ, chi tiết cuộc gọi, dữ liệu khiếu nại,
thông tin hóa đơn và thanh toán.
Theo các nghiên cứu thị trường của Berson, Smitch và cộng sự năm 2000 [C1_06], tỉ
lệ khách hàng ngưng sử dụng dịch vụ của các nhà mạng di động lên tới 2% trên tháng. Điều
đó có nghĩa mỗi nhà mạng mất gần ¼ lượng khách hàng mỗi năm, hơn nữa, các nhà mạng
Châu Á phải đối mặt với nhiều thách thức rời mạng hơn là các nhà mạng khác trên thế giới.
Hình 1: Tỉ lệ rời mạng của một số mạng Châu Âu năm 2010-2011(1)
Trên thực tế, một nhà mạng có thể phân đoạn các khách hàng của họ dựa trên
các lợi ích mà khách hàng mang lại và quản lý khách hàng chỉ dựa trên phân đoạn
khách hàng có lợi ích. Tuy nhiên, công nghiệp dịch vụ viễn thông không thể tiêu
2
Tài liệu tham khảo
[Abbas-14] Keramat, Abbas, Rouhollah Jafari-Marandi, M.. Aliannejadi, Iman Ahmadian,
Mahdieh Mozaffari, and Uldoz Abbasi. Improved churn prediction in telecommunication
industry using data mining techniques. Applied Soft Computing Journal 24, no. 4 (2014).
[Au-03] Au, W., Chan, C., & Yao, X. (2003). A novel evolutionary data mining algorithm
with applications to churn prediction. IEEE Transactions on Evolutionary Computation, 7,
532–545.
[Bing-12] Bing Quan Huang, Mohand Tahar Kechadi, Brian Buckley. Customer churn
prediction in telecommunications. Expert Systems with Applications 39 (2012) 1414–1425.
[Bradley-97] Bradley, A. P. (1997). The use of the area under the roc curve in the evaluation
of machine learning algorithms. Pattern Recognition, 30, 1145–1159.
[Burges-98] Burges, C. J. C. (1998). A tutorial on support vector machines for pattern
recognition. Data Mining and Knowledge Discovery, 2(2), 121–167.
[Langley-92] Langley, P., Iba, W., & Thompson, K. (1992). An analysis of Bayesian
classifiers. In Proceedings of the 10th national conference on ARTI CIAL intelligence (pp.
223–228). MIT Press.
[Lee-06] Lee, J.S., & Lee.J.C – 2006 Customer churn prediction by hybrid model.
Proceedings of the second international conference on advanced data mining and applications,
Xi’an, China, August 14-16. Berlin, heidelgerg: Springer-verlag.
[Lejeune-01] Lejeune, M. (2001). Measuring the impact of data mining on churn
management. Internet Research: Electronic Network Applications and Policy, 11(5), 375–387.
[Ngai-08] Eric W. T. Ngai, Li Xiu, Dorothy C. K. Chau. Application of data mining
techniques in customer relationship management A literature review and classification.
[Ngai-09] Ngai, E.W.T, Xiu, L,&Chau.(2009). Application of dataa mining techniques in
customer relatonship management: A literature review and classification Journal of expert
System with Applications, 36, 2592-2602.
[Rumelhart-86] Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal
representations by error propagation (Vol. 1). MA: MIT Press.
[SAS-2000] SAS Institute, (2000). Best Price in Churn Prediction, SAS Institute White Paper.
[Shin-06] Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang. Applying data mining to telecom
churn management. Expert Syst. Appl. 31(3).
[Xia-08] Xia, G, E &dong Jin, W.D (2008). Model of customer churn prediction on support
vector maching. Journal of Systems Enginerring – Theory and Practice.
[Yeshwanth-11] Yeshwanth, V., Raj, V.V. & Saravana, M. (2011). Evolutionary churn
prediction in mobile networks using hybrid learning in Precddding of the twenty-fourth
internatinoal Floriad artificial intelligence research society conference. Palm Beach, Florida,
USA, May 18-20. AAAI Press.
[Ying-13] Ying Huang, M. Tahar Kechadi, An effective hybrid learning system for
telecommunication churn prediction. Expert Systems with Applications 40 (2013) 5635–5647.
35
[Ying-11] Ying Huang, Bing Quan Huang, M. Tahar Kechadi. A Rule-Based Method for
Customer Churn Prediction in Telecommunication Services. Springer-Verlag Berlin
Heidelberg 2011.
[Vapnik-98] Vapnik, V.N. (1998). The nature of statistical learning theory (2nd ed., pp. 23–
57)
[Zhang-07] Zhang, Y.M.Qi, J.Y.Shu, H.Y & Cao.J.T(2007): A hybrid KNN-LR classifier
and its application in customer churn prediction. In proceeding of the IEEE international
confference on systems, man and cyberetics, (SMC), Montreal, Canada, 7-10 october. IEEE.
Website tham khảo:
/> /> />
36