Tải bản đầy đủ (.pdf) (50 trang)

Luận văn thạc sĩ xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ

ĐỒN VĂN TÂM

XÂY DỰNG MƠ HÌNH DỰ ĐỐN KHÁCH HÀNG TIỀM
NĂNG CHO CÁC GĨI CƯỚC TRONG MẠNG DI ĐỘNG

Ngành: Cơng nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN TRỌNG HIẾU

Hà nội – 12/2019


MỤC LỤC
LỜI CẢM ƠN..........................................................................................ii
LỜI CAM ĐOAN .................................................................................. iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................... iv
DANH MỤC HÌNH VẼ .......................................................................... v
DANH MỤC BẢNG .............................................................................. vi
Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh vực viễn thông ... 1
1.1
1.2
1.3
1.4



Giới thiệu ................................................................................ 1
Khai phá dữ liệu trong lĩnh vực viễn thơng ........................... 3
Nhóm bài tốn về quản lý trải nghiệm khách hàng ............... 4
Lựa chọn bài toán ................................................................. 11

Chương 2: Bài toán dự đoán khách hàng tiềm năng ....................... 12
2.1
2.2
2.3
2.4
2.5
2.6

Phát biểu bài toán dự đoán khách hàng tiềm năng............... 12
Phương pháp cây quyết định ................................................ 13
Phương pháp SVM ............................................................... 15
Phương pháp kNN (k người láng giếng gần nhất) ............... 17
Phương pháp ghép nối các mơ hình học máy ...................... 17
Phương pháp đánh giá .......................................................... 18

Chương 3: Mơ hình đề xuất ................................................................. 20
3.1 Mơ hình đề xuất.................................................................... 20
3.2 Tập dữ liệu và tiền xử lý dữ liệu .......................................... 21
3.3 Tiền xử lý và trích xuất đặc trưng ........................................ 27
Chương 4: Thực nghiệm và đánh giá ................................................. 33
4.1 Môi trường và các công cụ thực nghiệm.............................. 33
4.2 Kịch bản thực nghiệm .......................................................... 34
4.3 Kết quả thực nghiệm và đánh giá ......................................... 34
KẾT LUẬN ............................................................................................ 40

TÀI LIỆU THAM KHẢO .................................................................... 41

i


LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo
TS. Trần Trọng Hiếu – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho
tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hồn thành cơng việc
của mình.
Tơi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung
cấp cho tơi những kiến thức vô cùng quý giá và đã cho tơi điều kiện tốt nhất
trong suốt q trình học tập, nghiên cứu tại trường.
Cuối cùng, tôi xin cảm ơn tất cả những người thân u trong gia đình
cùng tồn thể bạn bè, đồng nghiệp những người đã luôn giúp đỡ, động viên
tơi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ,
ĐHQGHN.
Luận văn này được tài trợ bởi đề tài cấp ĐHQGHN mã số QG19.23.

ii


LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ Cơng nghệ thơng tin “Xây dựng
mơ hình dự đốn khách hàng tiềm năng cho các gói cước trong mạng di
động” là cơng trình nghiên cứu của riêng tơi, khơng sao chép lại của người
khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày
hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều nguồn tài liệu.
Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.

Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày …. tháng 12 năm 2019

iii


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt

Ý nghĩa

KPDL

Khai phá dữ liệu

CSDL

Cơ sở dữ liệu

VLR

Tập đồn Cơng nghiệp – Viễn thông Quân đội
Viettel
Tổng đài ghi nhận đăng nhập mạng của thuê bao
di động (Visitor Location Register)

GSM

Mạng thông tin di động (Global System for

Mobile Communications)

CDR

Lịch sử cuộc gọi (Call Data Record)

ARPU

Doanh thu trung bình trên một khách hàng
(Average revenue per user)

SMS

Tin nhắn ngắn (Short Message Services)

Viettel

Telesale
CEM

Bán hàng qua điện thoại
Quản lý trải nghiệm khách hàng

iv


DANH MỤC HÌNH VẼ
Hình 1: Số liệu th bao di động theo các nhà mạng tháng 01-04/2019.. 1
Hình 2: Thị phần di động của các nhà mạng ............................................ 2
Hình 3: Ví dụ mơ tả cây quyết định........................................................ 13

Hình 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng
cách biên lớn nhất (Các điểm gần H nhất nằm trên H1 và H2 là vector hỗ trợ).
......................................................................................................................... 16
Hình 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5. ...... 17
Hình 6: Mơ hình dự đốn khách hàng tiềm năng cho các gói cước ....... 20
Hình 7: Phân bố gói cước trong tập dữ liệu............................................ 23
Hình 8: Lược đồ xử lý dữ liệu và trích xuất đặc trưng ........................... 30
Hình 6: Giao diện cơng cụ khai phá dữ liệu Knime ............................... 33

v


DANH MỤC BẢNG
Bảng 1: Thuật toán xây dựng cây quyết định ......................................... 14
Bảng 2: Mô tả các trường của tập dữ liệu thuê bao ................................ 21
Bảng 3: Mô tả các gói cước là nhãn dự báo ........................................... 23
Bảng 4: Bảng danh sách các trường thông tin tổng hợp kết quả ............ 27
Bảng 5: Bảng danh sách các nhóm đặc trưng được trích xuất ............... 31
Bảng 6: Các cơng cụ thực nghiệm .......................................................... 33
Bảng 7: Môi trường thực nghiệm ........................................................... 34
Bảng 8: Kết quả thực nghiệm sử dụng thuật toán kNN.......................... 34
Bảng 9: Kết quả thực nghiệm sử dụng thuật toán SVM......................... 35
Bảng 10: Kết quả thực nghiệm sử dụng thuật toán cây quyết định........ 37
Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mơ hình................ 38

vi


Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh
vực viễn thông

1.1

Giới thiệu

Hiện nay, thị trường dịch vụ viễn thông di động tại Việt Nam đã đạt mức
bão hòa và cuộc cạnh tranh giữa các nhà mạng bước qua một giai đoạn mới:
đó là cạnh tranh về chất lượng các chương trình khuyến mại, chất lượng dịch
vụ và chăm sóc khách hàng, chất lượng mạng và vùng pht quả thực nghiệm sử dụng SVM với macro-F là 0.54 và micro-F là
0.57 cho thấy hiệu quả hơn so với thuật toán kNN là 0.14 với độ đo micro-F.
Lớp TOM11 đạt kết quả F tốt nhất là 0.71 và độ hồi tưởng tốt nhất là 0.78,
lớp POBAS đạt kết quả độ chính xác tốt nhất 0.74. Hầu hết các lớp đều cho
kết quả tốt hơn so với việc sử dụng thuật toán kNN ngoại trừ hai lớp TOMCD
(0.37 so với 0.4) và ECD50 (0.3 so với 0.52), đây là hai lớp có số lượng dữ
liệu thấp.
c) Thực nghiệm đánh giá kết quả phân loại sử dụng thuật toán cây quyết
định
Thực nghiệm sử dụng thuật toán cây quyết định sử dụng các tham số liên
quan đến các thuật toán đánh giá và tối ưu trên cây, cụ thể:
- Độ đo đánh giá: Gini index và Gain ratio
- Tỉa cây: không tỉa cây và có tỉa cây
36


- Số lượng nút nhỏ nhất trên cây: chạy trong khoảng 2 đến 5
Kết quả thực nghiệm cho thấy kết quả tốt nhất tại độ đo đánh giá là Gini,
không tỉa cây và số lượng nút nhỏ nhất là 3. Bên cạnh đấy thuật tốn này
khơng sử dụng kỹ thuật chuẩn hóa khoảng biên độ dữ liệu về khoảng 0-1
bằng thuật toán Min-Max mà giữ nguyên các giá trị dạng số.
Bảng 10: Kết quả thực nghiệm sử dụng thuật toán cây quyết định
TẬP

MẪU

SỐ
MÁY DỰ
ĐỘ
ĐỘ HỒI KẾT
LIỆU
ĐỐN
CHÍNH TƯỞNG QUẢ
ĐÚNG
ĐƯỢC
XÁC

TOM50

7513

4618

7914

0.58

0.61

0.60

TOM11

4429


3607

5210

0.69

0.81

0.75

POBAS

4409

3217

3487

0.92

0.73

0.81

EXSTUDENT

3367

1964


3574

0.55

0.58

0.57

ECO50

3365

2349

2741

0.86

0.70

0.77

TOM690

2840

2144

3119


0.69

0.75

0.72

TOMA1

2185

1546

2267

0.68

0.71

0.69

TOMCD

1528

1018

1684

0.60


0.67

0.63

ECD50

768

451

512

0.88

0.59

0.70

ECOM1

718

398

614

0.65

0.55


0.60

0.71

0.67

0.69

MACRO-F

0.68

MICRO-F

Kết quả thực nghiệm cho thấy việc sử dụng thuật toán cây quyết định
cho kết quả tốt hơn SVM là 0.11 với độ đo micro-F là 0.68 và macro-F là
0.69. Tất cả các lớp đều cho kết quả tốt hơn các lớp trong 2 thuật toán kNN
và SVM, lớp POBAS cho kết quả tốt nhất với độ đo F là 0.81 và độ chính xác
tốt nhất là 0.92, lớp TOM11 cho kết quả độ hồi tưởng tốt nhất là 0.81. Tuy
nhiên có một số lớp kết quả vẫn chưa tốt như EXSTUDENT, TOMCD,
TOM50 và ECOM1.
37


d) Thực nghiệm đánh giá kết quả phân loại sử dụng kết hợp các mơ hình
Qua 3 thực nghiệm ở trên, kết quả của thuật toán cây quyết định cho kết
quả vượt trội hơn so với các thực nghiệm sử dụng các kỹ thuật khác. Tuy
nhiên một số lớp kết quả vẫn chưa đạt được hiệu quả cao. Trong thực nghiệm
sử dụng kết hợp các mơ hình (ensemble models), luận văn tiến hành ghép nối

các mơ hình theo tiêu chí sau:
- Kết quả mơ hình sử dụng kNN đầu ra có giá trị là 1
- Kết quả mơ hình sử dụng SVM đầu ra có giá trị là 1.5
- Kết quả mơ hình sử dụng cây quyết định đầu ra có giá trị là 2
Việc đưa ra các giá trị của bộ phân lớp thành phần dựa trên mức độ hiệu
quả của các thực nghiệm ở trên (cây quyết định tốt hơn SVM và kNN). Kết
quả từ bộ phân lớp kết hợp tương ứng với nhãn lớp có tổng giá trị cao nhất.
Ví dụ 1:
- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1)
- Nhãn lớp đầu ra của bộ phân lớp SVM là: ECOM1 (giá trị 1.5)
- Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)
 Nhãn lớp đầu ra của mơ hình kết hợp là ECD50 (giá trị 2)
Ví dụ 2:
- Nhãn lớp đầu ra của bộ phân lớp kNN là: TOM11 (giá trị 1)
- Nhãn lớp đầu ra của bộ phân lớp SVM là: TOM11 (giá trị 1.5)
- Nhãn lớp đầu ra của bộ phân lớp cây quyết định: ECD50 (giá trị 2)
 Nhãn lớp đầu ra của mơ hình kết hợp là TOM11 (giá trị 2.5)
Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mơ hình
TẬP
MẪU

SỐ
MÁY DỰ
ĐỘ
ĐỘ HỒI KẾT
LIỆU
ĐỐN
CHÍNH TƯỞNG QUẢ
ĐÚNG
ĐƯỢC

XÁC

TOM50

7513

4251

6049

0.70

0.57

0.63

TOM11

4429

3709

5007

0.74

0.84

0.79


POBAS

4409

3547

4158

0.85

0.80

0.83

EXSTUDENT

3367

2143

3689

0.58

0.64

0.61

38



TẬP
MẪU

SỐ
MÁY DỰ
ĐỘ
ĐỘ HỒI KẾT
LIỆU
ĐỐN
CHÍNH TƯỞNG QUẢ
ĐÚNG
ĐƯỢC
XÁC

ECO50

3365

2309

2947

0.78

0.69

0.73

TOM690


2840

2218

3642

0.61

0.78

0.68

TOMA1

2185

1688

2674

0.63

0.77

0.69

TOMCD

1528


986

1557

0.63

0.65

0.64

ECD50

768

579

694

0.83

0.75

0.79

ECOM1

718

538


705

0.76

0.75

0.76

0.71

0.72

0.72

MACRO-F
MICRO-F

0.71

Kết quả chung của thực nghiệm cho kết quả tốt nhất so với 3 thực
nghiệm còn lại với độ đo micro-F là 0.71 hơn kết quả của cây quyết định 0.68
là 0.03, SVM 0.57 là 0.14, kNN 0.43 là 0.28. Thực nghiệm ưu tiên kết quả
cây quyết định có giá trị cao hơn nên hầu hết các kết quả tương quan với mơ
hình sử dụng thuật toán cây quyết định, bên cạnh đấy một số kết quả của các
mơ hình cịn lại cũng bổ sung thêm cho mơ hình kết hợp giúp mơ hình này
mang lại hiệu quả tốt hơn. Tương tự như trong thực nghiệm cây quyết định,
lớp POBAS cũng đạt kết quả tốt nhất tại độ đo F là 0.83 (hơn so với thuật
toán cây quyết định 0.81 là 0.02) và tốt nhất độ đo chính xác là 0.85, lớp
TOM11 cũng đạt độ hồi tưởng tốt nhất là 0.84. Các lớp có lượng dữ liệu thấp

như ECD50 và ECOM1 cũng tăng đáng kể hiệu quả từ 0.70 lên 0.79 và 0.6
lên 0.76.

39


KẾT LUẬN
Nội dung đã đạt được
Nghiên cứu tìm hiểu bài tốn dự đốn khách hàng tiềm năng cho các gói
cước viễn thông và các hướng tiếp cận giải quyết bài tốn.
Phân tích, tìm hiểu và xử lý các đặc trưng, đặc tính của dữ liệu thuê bao,
đưa ra các đặc trưng phù hợp nhất với bài tốn.
Đưa ra được mơ hình phân lớp dữ liệu thuê bao sử dụng các thuật toán
cây quyết định, SVM, kNN và kỹ thuật kết hợp các mơ hình phân loại.
Sau khi tìm hiểu và nghiên cứu lý thuyết phân lớp dữ liệu thuê bao, thực
nghiệm phân lớp dữ liệu với dữ liệu cụ thể và đánh giá hiệu năng của các
thuật toán. Kết quả của mơ hình kết hợp đạt kết quả khả quan với độ đo
micro-F là 0.71.
Hướng tiếp cận trong tương lai
Do dữ liệu lấy mẫu chưa nhiều nên số lượng gói cước đảm bảo tính phổ
biến để vào mơ hình phân loại chỉ là 10 gói cước tương ứng với 10 nhãn, cịn
lại 153 gói cước chưa được đưa vào mơ hình. Vì vậy hướng nghiên cứu tiếp
theo của học viên là mở rộng tập dữ liệu cho các gói cước khác và đánh giá
trên một quy mô tập nhãn lớn hơn.

40


TÀI LIỆU THAM KHẢO
Tiếng Việt

1. Hồng Xn Huấn, Giáo trình nhận dạng mẫu, Nhà xuất bản Đại học
Quốc gia Hà Nội, 2012, tr.145-178.
2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá
dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.249-286

Tiếng Anh
1. Almana, A. M., Aksoy, M. S., & Alzahrani, R. (2014). A survey on data
mining techniques in customer churn analysis for telecom industry.
International Journal of Engineering Research and Applications, 45, 165171.
2. Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A.
Mirza. "Spammer classification using ensemble methods over structural
social network features." Proceedings of the 2014 IEEE/WIC/ACM
International Joint Conferences on Web Intelligence (WI) and Intelligent
Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014.
3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine
learning, 20(3), 273-297.
4. Giacinto and F. Roli. Design of effective neural network ensembles
for image classification purposes. Image and Vision Computing, 19(9-10):
699–707, 2001.
5. Giacinto, F. Roli, and G. Fumera. Design of effective multiple
classifier systems by clustering of classifiers. In Proceedings of the 15th
International Conference on Pattern Recognition, pages 160–163,
Barcelona, Spain, 2000.
6. Giacinto, F. Roli, and L. Didaci. Fusion of multiple classifiers for
intrusion detection in computer networks. Pattern Recognition Letters,
24(12): 1795–1803, 2003so cu5so moi6
7. Giacinto, R. Perdisci, M. D. Rio, and F. Roli. Intrusion detection in
computer networks by a modular ensemble of one-class classifiers.
Information Fusion, 9(1):69–82, 2008.


41


8.

Hilas, C. S., & Mastorocostas, P. A. (2008). An application of

supervised and unsupervised learning approaches to telecommunications
fraud detection. Knowledge-Based Systems, 21(7), 721-726.
9. Hilas, C. S., Kazarlis, S. A., Rekanos, I. T., & Mastorocostas, P. A.
(2014). A genetic programming approach to telecommunications fraud
detection and classification. In Proc. 2014 Int. Conf. Circuits, Syst. Signal
Process. Commun. Comput (pp. 77-83).
10. Hilas, C. S., Mastorocostas, P. A., & Rekanos, I. T. (2015). Clustering
of telecommunications user profiles for fraud detection and security
enhancement in large corporate networks: a case study. Applied
Mathematics & Information Sciences, 9(4), 1709.
11. Insani, R., & Soemitro, H. L. (2016, May). Data mining for marketing
in telecommunication industry. In 2016 IEEE Region 10 Symposium
(TENSYMP) (pp. 179-183). IEEE.
12. Jansen, S. M. H. (2007). Customer segmentation and customer
profiling for a mobile telecommunications company based on usage
behavior. A Vodafone Case Study, 66.
13. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015,
December). Big data use case domains for telecom operators. In 2015
IEEE International Conference on Smart City/SocialCom/SustainCom
(SmartCity) (pp. 850-855). IEEE.
14. Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer
segmentation and strategy development based on customer lifetime value:
A case study. Expert systems with applications, 31(1), 101-107.

15. Li, Q. (2009, April). An algorithm of quantitative association rule on
fuzzy clustering with application to cross-selling in telecom industry. In
2009 International Joint Conference on Computational Sciences and
Optimization (Vol. 1, pp. 759-762). IEEE.
16. Masoud, R., & Ahmed, T. M. (2016). Using data mining in
telecommunication industry: Customer's churn prediction model. Journal
of Theoretical and Applied Information Technology, 91(2), 322.
17. Russell, S., & Lodwick, W. (1999, June). Fuzzy clustering in data
mining for telco database marketing campaigns. In 18th International

42


Conference of the North American Fuzzy Information Processing SocietyNAFIPS (Cat. No. 99TH8397) (pp. 720-726). IEEE.
18. Tianyuan, Z. (2018). Telecom customer segmentation and precise
package design by using data mining (Doctoral dissertation).
19. van Wezel, Michiel, and Rob Potharst. "Improved customer choice
predictions using ensemble methods." European Journal of Operational
Research 181.1 (2007): 436-452.
20. Wang, Y., Sanguansintukul, S., & Lursinsap, C. (2008, September).
The customer lifetime value prediction in mobile telecommunications. In
2008 4th IEEE International Conference on Management of Innovation
and Technology (pp. 565-569). IEEE.
21. Weiss, G. M. (2005). Data mining in telecommunications. In Data
Mining and Knowledge Discovery Handbook (pp. 1189-1201). Springer,
Boston, MA.
22. Wu, W., Liu, Z., & He, Y. (2015). Classification of defects with
ensemble methods in the automated visual inspection of sewer pipes.
Pattern Analysis and Applications, 18(2), 263-276.
23. Ye, L., Qiu-ru, C., Hai-xu, X., Yi-jun, L., & Zhi-min, Y. (2012, July).

Telecom customer segmentation with K-means clustering. In 2012 7th
International Conference on Computer Science & Education (ICCSE) (pp.
648-651). IEEE.
24. Zhang, Z., Lin, H., Liu, K., Wu, D., Zhang, G., & Lu, J. (2013). A
hybrid fuzzy-based personalized recommender system for telecom
products/services. Information Sciences, 235, 117-129.

43



×