Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 44 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HOÀN

MỘT MÔ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT
CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG
CÓ NGUY CƠ RỜI MẠNG VINAPHONE

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HOÀN

MỘT MÔ HÌNH KẾT HỢP HỌC GIÁM SÁT VÀ BÁN GIÁM SÁT
CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG
CÓ NGUY CƠ RỜI MẠNG VINAPHONE

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số:60.48.01.04

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Ngƣời hƣớng dẫn khoa học: PGS.TS. HÀ QUANG THỤY

HÀ NỘI - 2015

iii

Lời cảm ơn

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS Hà
Quang Thụy, người Thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình
từ khi là sinh viên, tới khi học thạc sĩ và trong suốt quá trình nghiên cứu và thực hiện
luận văn này.
Tôi xin chân thành cảm ơn sự dậy bảo, giúp đỡ, tạo điều kiện của các Thầy, Cô
trong trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội trong suốt quá trình tôi
học tập tại Trường.
Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi trong
quá trình nghiên cứu của các Thầy, Cô, anh chị tại phòng thí nghiệm Khoa học dữ liệu
và Công nghệ tri thức (DS&KTLAB) và Đề tài ĐHQGHN QG.14.13.
Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè – những
người luôn ở bên tôi trong lúc khó khăn, động viên, khuyến khích tôi trong cuộc sống
và công việc.
Tôi xin chân thành cảm ơn!

Tác giả

Nguyễn Thị Hoàn

i

Lời cam đoan
Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và

phát triển các nghiên cứu về bài toán dự báo khách hàng rời mạng trong nước và trên
thế giới do tôi thực hiện.
Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá
trình nghiên cứu đưa ra và không sao chép nguyên bản từ bất kỳ một nguồn tài liệu
nào khác.

ii

Mục lục
Lời cảm ơn ....................................................................................................................... i
Danh mục các hình vẽ và bảng biểu ................................................................................ v
Danh mục từ viết tắt ....................................................................................................... vi
Mở đầu ............................................................................................................................ 1
Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng ................................. 2
1.1.Bài toán dự đoán khách hàng rời mạng ..................................................................... 2
1.2.Vai trò của khai phá dữ liệu trong quản lý khách hàng rời mạng ............................. 3
1.3. Một số nghiên cứu cho bài toán dự đoán khách hàng rời mạng............................... 4
1.3.1. Đánh giá hiệu quả của mô hình ............................................................................. 4
1.3.2. Một số mô hình nghiên cứu về dự đoán khách hàng rời mạng ............................. 5
1.4.Tóm tắt chương 1....................................................................................................... 8
Chƣơng 2: Một số mô hình điển hình cho bài toán dự đoán khách hàng rời mạng9
2.1. Mô hình dựa trên luật cho bài toán dự đoán khách hàng rời mạng dịch vụ viễn
thông ............................................................................................................................ 9
2.1.1. Giới thiệu mô hình phân lớp dựa trên luật ............................................................ 9
2.1.2. Mô hình sinh các luật ............................................................................................ 9
2.1.3. Phân lớp ............................................................................................................... 12
2.1.4. Kết quả và đánh giá mô hình ............................................................................... 13
2.2. Mô hình học lai cho bài toán dự đoán khách hàng rời mạng ................................. 15
2.3. Tóm tắt chương 2 .................................................................................................... 21

Chƣơng 3: Mô hình kết hợp giám sát và bán giám sát cho bài toán dự đoán khách
hàng rời mạng .............................................................................................................. 22
3.1. Tiếp cận mô hình bài toán ...................................................................................... 22
3.2. Tiền xử lý dữ liệu ................................................................................................... 24
3.3. Mô hình học giám sát dựa trên thuật toán K-NN ................................................... 24
3.4. Mô hình học bán giám sát dựa trên thuật toán self-training ................................... 25
3.5. Mô hình học giám sát dựa trên hệ thống luật: ........................................................ 27
3.6. Phân lớp .................................................................................................................. 28
Tổng kết chương 3 ......................................................................................................... 29
iii

Chƣơng 4: Thực nghiệm và đánh giá kết quả .......................................................... 30
4.1. Môi trường thực nghiệm:........................................................................................ 30
4.2. Quá trình thực nghiệm ............................................................................................ 30
4.3. Kết quả thực nghiệm............................................................................................... 32
4.4. Đánh giá kết quả và hướng nghiên cứu tiếp theo ................................................... 34
4.5.Tóm tắt chương 4.................................................................................................... 34
Tài liệu tham khảo ....................................................................................................... 35

iv

Danh mục các hình vẽ và bảng biểu
Hình 1: So sánh độ AUC giữa các mô hình .................................................................. 14
Hình 2: So sánh AUC mô hình CRL và DMEL cho tỉ lệ churn rate khác nhau ........... 15
Hình 3: So sánh AUC cho mô hình CRL và DMEL với tập dữ liệu UCI ..................... 15
Hình 4: Giải thuật sinh luật FOIL................................................................................. 17
Hình 5: Giải thuật sinh 1 luật FOIL............................................................................... 18
Hình 6: Mô hình dự đoán lai cua Ying Hwuang và cộng sự ......................................... 18

Hình 7: So sánh đường cong ROC, AUC với kỹ thuật phân lớp khác nhau ................ 21
Hình 8: So sánh hiệu quả của mô hình lai đề xuất và các mô hình lai khác dựa trên
ROC ............................................................................................................................... 21
Hình 9: Mô hình kết hợp học giám sát và bán giám sát ................................................ 23
Hình 10: Một ví dụ về phân lớp KNN ........................................................................... 25
Hình 11: Mô hình học bán giám sát Self-training ......................................................... 26
Hình 12: Sơ đồ thuật toán Self-training......................................................................... 27
Hình 13: Giả mã học luật FOIL ..................................................................................... 28
Hình 14: Giả mã học 1 luật FOIL .................................................................................. 28
Bảng 1: Tỉ lệ rời mạng của các mạng tại Hàn Quốc năm 2007-2008 ............................. 9
Bảng 2: Chức năng, kỹ thuật khai phá dữ liệu và ứng dụng ........................................... 3
Bảng 3: Ma trận Confusion ............................................................................................. 4
Bảng 4: Tập dữ liệu cho mô hình dự đoán dựa trên luật ............................................... 13
Bảng 5: Tập dữ liệu mô hình Ying Hwuang và cộng sự ............................................... 20
Bảng 6: Kết quả mô hình Ying Hwuang và cộng sự sử dụng độ đo AUC.................... 20
Bảng 7: So sánh mô hình Ying Hwuang và cộng sự với một số mô hình khác ............ 20
Bảng 8: Phần mềm sử dụng trong luận văn ................................................................... 30
Bảng 9: Bảng mô tả dữ liệu mẫu .................................................................................. 31
Bảng 10: Trọng số một số thuộc tính dữ liệu ................................................................ 31
Bảng 11: Ma trận Confusion ......................................................................................... 33
Bảng 12: Kết quả thực nghiệm với trọng số weight2 .................................................... 33
Bảng 13: Kết quả thực nghiệm với trọng số weight1 .................................................... 34

v

Danh mục từ viết tắt
STT

Từ/cụm từ

Tên viết tắt

1

K Nearest Neigbours

KNN

2

Area Under ROC

AUC

3

Support Vector Machines

SVM

4

Classification by Rules Learning

CRL

5

Data Mining by Evolutionary Learning

DMEL

6

True Prediction/False Prediction

TP/FP

7

First Order Inductive Learning

FOIL

vi

Mở đầu
Sự phát triển mạnh mẽ của công nghệ viễn thông trong những năm gần đây đã
mở ra nhiều cơ hội cho các nhà cung cấp dịch vụ mạng di động. Song song với việc
mở rộng và phát triển các khách hàng mới, việc quản lý khách hàng cũ cũng là một
nhiệm vụ quan trọng. Dự báo khách hàng có nguy cơ rời mạng chính là phần trọng yếu
trong quản lý khách hàng rời mạng. Xác định được khách hàng có nguy cơ rời mạng
giúp nhà cung cấp dịch vụ kịp thời đưa ra các biện pháp, phương thức để quản lý,
chăm sóc khách hàng, tránh để khách hàng rời bỏ dịch vụ của mình.
Nhiều mô hình cho bài toán dự báo khách hàng rời mạng đã được nghiên cứu
và phát triển. Các công trình nghiên cứu về dự báo khách hàng rời mạng được công bố
trong các hội nghị nổi tiếng như Elsevier1 và được áp dụng thực tế tại các nhà mạng
lớn như Taiwan Mobile của Đài Loan, China Mobile, của Trung Quốc, T&T của Mỹ.

Nội dung luận văn thạc sĩ “Một mô hình kết hợp học giám sát và bán giám sát
cho bài toán dự báo khách hàng có nguy cơ rời mạng Vinaphone” tập trung vào nghiên
cứu, khảo sát, đánh giá và đề xuất một mô hình dự đoán khách hàng rời mạng, bên
cạnh đó, áp dụng mô hình này cho dự đoán khách hàng có nguy cơ rời bỏ mạng viễn
thông VinaPhone.
Ngoài phần mở đầu và kết luận, luận văn đƣợc tổ chức thành 4 chƣơng
nhƣ sau:

Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng giới thiệu khái
quát dự đoán khách hàng rời mạng trong viễn thông, các khái niệm liên quan. Trình
bày vai trò của khai phá dữ liệu trong dự đoán khách hàng rời mạng. Một số nghiên
cứu về bài toán dự đoán khách hàng rời mạng.
Chƣơng 2: Một số mô hình điển hình cho bài toán dự báo khách hàng rời
mạng giới thiệu một số mô hình điển hình cho bài toán dự bao khách hàng rời mạng.
Chƣơng 3: Kết hợp học giám sát và bán giám sát cho bài toán dự đoán
khách hàng rời mạng phân tích, đề xuất, trình bày mô hình kết hợp giữa học bán
giám sát self-training và học giám sát dựa trên luật cho bài toán dự đoán các khách
hàng có nguy cơ rời mạng.
Chƣơng 4: Thực nghiệm và đánh giá kết quả trình bày quá trình thực nghiệm
của luận văn, đưa ra một số đánh giá về hiệu quả của mô hình, nhận xét các kết quả đạt
được.

1

Chƣơng 1: Khái quát bài toán dự đoán khách hàng rời mạng
Bài toán dự đoán khách hàng rời mạng
Trong những năm gần đây, có nhiều sự thay đổi lớn trong công nghiệp viễn
thông như sự mở rộng của thị trường, các dịch vụ và công nghệ mới dẫn đến cạnh
tranh khốc liệt trong thị trường viễn thông. Việc rời bỏ mạng của khách hàng làm sụt

1.1.

giảm một lượng lớn dịch vụ viễn thông và khiến nó trở thành vấn đề nghiêm trọng của
các nhà cung cấp dịch vụ.
Khách hàng rời mạng (customer churn) được xem là những khách hàng có giá
trị rời bỏ sử dụng dịch của một nhà mạng sang sử dụng dịch vụ của một nhà mạng
khác. Quản lý khách hàng rời mạng (churn management) là các chính sách xử lý của nhà
mạng nhằm giữ chân các khách hàng có nguy cơ rời mạng. Một trong những thách thức của
“churn management” là dự đoán các “churner”. Bài toán dự đoán khách hàng rời mạng (churn
prediction) chính là đi tìm các “churner” dựa trên các thuộc tính của khách hàng như: dữ liệu
hợp đồng, thông tin khách hàng, log sử dụng dịch vụ, chi tiết cuộc gọi, dữ liệu khiếu nại,
thông tin hóa đơn và thanh toán.
Theo các nghiên cứu thị trường của Berson, Smitch và cộng sự năm 2000 [C1_06], tỉ
lệ khách hàng ngưng sử dụng dịch vụ của các nhà mạng di động lên tới 2% trên tháng. Điều
đó có nghĩa mỗi nhà mạng mất gần ¼ lượng khách hàng mỗi năm, hơn nữa, các nhà mạng
Châu Á phải đối mặt với nhiều thách thức rời mạng hơn là các nhà mạng khác trên thế giới.

Hình 1: Tỉ lệ rời mạng của một số mạng Châu Âu năm 2010-2011(1)
Trên thực tế, một nhà mạng có thể phân đoạn các khách hàng của họ dựa trên
các lợi ích mà khách hàng mang lại và quản lý khách hàng chỉ dựa trên phân đoạn
khách hàng có lợi ích. Tuy nhiên, công nghiệp dịch vụ viễn thông không thể tiêu

2

chuẩn hóa tập độ đo lợi ích. Vì vậy, kỹ thuật khai phá dữ liệu được áp dụng để
giải quyết vấn đề thách thức của khách hàng rời mạng trong lĩnh vực dịch vụ viễn
thông.
1.2.

Vai trò của khai phá dữ liệu trong quản lý khách hàng rời mạng
Áp dụng công cụ hỗ trợ của khai phá dữ liệu trong quản lý khách hàng là một
xu hướng trong kinh tế toàn cầu. Phân tích và hiểu các hành vi, đặc tính của khách
hàng để giữ lại các khách hàng tiềm năng, tối ưu hóa giá trị khách hàng. Công cụ khai
phá dữ liệu tỏ ra hữu dụng trong việc trích xuất và xác định các thông tin hữu dụng,
các kiến thức từ cơ sở dữ liệu khách hàng.
Khai phá dữ liệu là trích xuất các thông tin ẩn từ một tập dữ liệu lớn với khả
năng cao để giúp các công ty tìm ra các xu hướng quan trọng nhất trong dữ liệu lớn
của họ. Các hỗ trợ từ công cụ khai phá dữ liệu có thể trả lời các câu hỏi mà kinh doanh
truyền thống cần nhiều thời gian để giải quyết. Leijeune [Lei-01] cho rằng kỹ thuật
khai phá dữ liệu là kỹ thuật cho phép biến đổi dữ liệu gốc thành tri thức kinh doanh.
Viện SAS [SAS] định nghĩa khai phá dữ liệu như là “xử lý lựa chọn, biểu diễn và mô
hình lượng lớn dữ liệu để khám phá ra các mẫu có lợi cho kinh doanh chưa được biết
đến trước đó”. Tóm lại, chúng ta có thể nói rằng, khai phá dữ liệu là áp dụng các thuật
toán phân tích và khám phá dữ liệu để phát hiện ra các mẫu cho dự đoán và mô tả.
Trong quản lý quan hệ khách hàng, kỹ thuật khai phá dữ liệu hay được sử dụng
nhất gồm: phân cụm, luật quy nạp, thuật toán di truyền, cây quyết định và mạng
neuron. Bảng dưới chỉ ra các kỹ thuật, hàm khai phá dữ liệu và ứng dụng trong miền
khai phá dữ liệu.
Chức năng
Thống kê

Phân lớp

Dự đoán

Phân đoạn

Kỹ thuật

Ứng dụng

Mạng Neuron

Đánh gia tỉ lệ thay đổi
Đánh giá giá cổ phiếu
Biển thủ hóa đơn
Phân đoạn thị trường

Cây quyết định
Làm mờ
Mạng Neuron
Thuật toán di truyền
Mạng Neuron
Hồi quy
Cây quyết định
Mạng Neuron
Thuật toán di truyền
Cây quyết định

Dự đoán khách hàng rời mạng
Dự đoán gian lân

Phân đoạn thị trường

Thống kê

Bảng 1: Chức năng, kỹ thuật khai phá dữ liệu và ứng dụng

3

1.3. Một số nghiên cứu cho bài toán dự đoán khách hàng rời mạng
1.3.1. Đánh giá hiệu quả của mô hình

Sau khi bộ phân lớp/dự đoán được xây dựng, nó được sử dụng để dự đoán các
hành vi tương lai của khách hàng. Một trong những bước quan trọng để chắc chắn mô
hình hoạt động tốt là đánh giá mô hình dự đoán, có nghĩa là xem xét tỉ lệ khách hàng
rời mạng. Tỉ lệ dự đoán được đánh giá bằng tỉ lệ rời mạng đúng (True churn rate - TP)
và tỉ lệ rời mạng sai (false churn rate– FP). Mục tiêu của phương pháp là đạt tỉ lệ TP
cao và tỉ lệ FP thấp. Bảng 3 định nghĩa ma trận về tỉ lệ TP và FP, trong đó, a11 là số
churner được dự đoán đúng, a12 là số churner được dự đoán sai, a21 là số non-churn
được dự đoán đúng và a22 là số non-churn dự đoán sai. Theo ma trận, tỉ lệ TP

-

được định nghĩa là tỉ lệ các churner được phân lớp đúng, tính theo công thức:
TP 

a11
a11  a12

Và FP được định nghĩa là tỉ lệ các churner được phân lớp sai, tính theo công thức:
FP 

a21
a21  a22

Confusion matrix
Actual

Churn
Non-churn

Predicted
Non-churn
a12
a21

Churn
a11
a22

Bảng 2: Ma trận Confusion

Từ cặp TP và FE, kỹ thuật đường cong hoạt động nhận được (Receive
Operationg Curves (ROC) ) [Bradley-97] được sử dụng để tìm cặp tỉ lệ dự đoán mong
đợi (TP và FP).
Tuy nhiên, kỹ thuật ROC thường khó sử dụng để đánh giá từ các kỹ thuật mô
hình dự đoán khác nhau hoặc tập thuộc tính dữ liệu khác nhau. Để giải quyết khó
khăn, kỹ thuật tính miền dưới đường cong ROC (Area under ROC AUC) được sử
dụng để đánh giá mô hình và tập thuộc tính trong dự đoán khách hàng rời mạng. Miền
dưới đường cong ROC được tính theo công thức:
AUC 

s0  n0 x(n0  1) x0.5
n0 n1

4

Với S0 là tổng xếp hạng của lớp 0 (churn) mẫu test, n0 là số mẫu trong tập test thuộc
lớp 0(churn) và n1 là số mẫu thuộc tập lớp 1(nonchurn).
1.3.2. Một số mô hình nghiên cứu về dự đoán khách hàng rời mạng

a. Trích chọn đặc trƣng
Trích chọn đặc trưng là một bước quan trọng, có thể ảnh hưởng tới hiệu quả của
mô hình dự đoán. Tập thuộc tính cho dự đoán khách hàng rời mạng trong lĩnh vực dịch
vụ viễn thông chia thành các mục con sau:
 Thông tin tiểu sử khách hàng: Các nhóm thông tin về giới tính, tuổi, loại


khách hàng.
Thông tin về tài khoản: loại dịch vụ sử dụng (trả trước/trả sau), chu kỳ
cước, tài khoản, loại thiết bị, phương thức thanh toán, tổng hợp các thuộc



tính về thời lượng cuộc gọi, số cuộc gọi.
Dịch vụ sử dụng: Các gói cước đăng ký



Thông tin khiếu nại




Thông tin thanh toán và hóa đơn
Cuộc gọi chi tiết: Thời lượng cuộc gọi, giá cả, loại cuộc gọi cho mọi cuộc
gọi.

Chi tiết cuộc gọi đến:



b. Chuẩn hóa dữ liệu
Một số mô hình dự đoán, phân lớp gặp khó khăn trong xử lý dữ liệu liên tục
(dạng chuỗi,..). Quá trình chuẩn hóa dữ liệu chia các các thuộc tính liên tục thành các
thuộc tính rời rạc. Quá trình này thường được sử dụng như bước đầu tiên trong các hàm tuyến
tính hoặc học quy nạp. Mô tả dữ liệu thành dạng mà bộ phân lớp, dự đoán có thể hiểu được.

c. Dự đoán/Phân lớp
Rất nhiều kỹ thuật được đề xuất cho mô hình dự đoán trong viễn thông, dưới đây
là bẩy mô hình phổ biến:
 Mô hình hồi quy logic (Logistic Regressions): [Hosmer-89]: Được áp dụng
rộng rãi cho phân lớp xác xuất rõ ràng. Hồi quy xác suất đánh giá xác suất
để xảy ra sự kiện như sau:
0 

prob( y  1) 

e
1 e

k

 k k
k 1

0 

k

 k k
k 1

Trong đó y là biến thập phân biểu diễn xuất hiện sự kiện (ví dụ y = 1 nếu sự
kiện xảy ra, y =0 nếu ngược lại). 1,  2 ,...,  k là các tham số đầu vào độc lập. 0, 1 ,..., k
là các hệ số hồi quy được đánh giá bởi phương thức thống kê cực đại, dựa trên các các
5

dữ liệu đào tạo được cung cấp. Chi tiết về phương pháp hồi quy logic được mô tả bởi
Homsmer và Lemeseshow [Homs-89] .


Mô hình cây quyết định

Phương pháp “chia để trị” được áp dụng để xây dựng một cây nhị phân. Ban
đầu, phương pháp tìm kiếm các thuộc tính với thông tin tốt nhất để làm node gốc và
chia cây nhị phân thành các cây con. Tương tự, đối với các cây con cũng được mở
rộng với luật giống như cây cha.Việc phân chia dừng lại nếu đến node hoặc khi hết
thông tin. Khi cây được tạo, các luật thu được bằng cách thăm mỗi nhánh của cây. Chi
tiết về cây quyết định được Quinlan mô tả kỹ trong [Quinlan-96] .
 Mô hình Naïve Bayes
Thuật toán Naïve Bayes dựa trên định lý Bayes được phát biểu như sau:
( )
( )

( | )

( | ) ( )
( )

Áp dụng trong bài toán phân loại, các dữ kiện gồm có:
 D: tập dữ liệu huấn luyện đã được vector hóa dưới dạng ⃗
 Ci: phân lớp i, với i = {1,2,…,m}.
 Các thuộc tính độc lập điều kiện đôi một với nhau.
Theo định lý Bayes:
( | )

(

)

( | ) ( )
( )

Theo tính chất độc lập điều kiện:
( | )

∏ (

| )

Trong đó:

( | ) là xác suất thuộc phân lớp i khi biết trước mẫu X.

( ) xác suất là phân lớp i.


( | ) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i.
Các bước thực hiện thuật toán Naïve Bayes:
Bước 1: Huấn luyện Naïve Bayes (dựa vào tập dữ liệu), tính ( ) và (

| )

Bước 2: Phân lớp
(
), ta cần tính xác suất thuộc từng phân lớp khi đã biết
new
new
trước X . X được gán vào lớp có xác suất lớn nhất theo công thức
( ( )∏ (

6

| ))

Chi tiết phân lớp Naïve Bayes chi tiết trong mô tả của [Langley-92]
 Phân lớp tuyến tính (Linear Classifiers)
Bộ phân lớp tuyến tính map một không gian thuộc tính X vào một tập nhãn lớp
Y bằng một hàm tuyến tính. Hàm phân lớp tuyến tính f(x) có thể được viết như sau:
f ( x)  sgn( w i xi  b)
i

Với w i  là trọng số của các lớp và b  là hằng số. giá trị của f ( x) với
biến đầu vào x quyết định lớp gán nhãn. Ví dụ, trong phân lớp nhị phân, nhãn của lớp
là +1 nếu f ( x)  0, ngược lại, gán nhãn là -1. Trong số wi và hằng số b được xác định
từ tập ví dụ học đã gán nhãn. Chi tiết được mô tả trong [Vapnik-98].

 Mạng Neuron nhân tạo (Artificial neural networks)
Một một neuron đa lớp (Multilayer Perceptron Neural Networks (MLP)) là một
mạng neuron giám sát, thường bao gồm lớp đầu và lớp ẩn và lớp đầu ra. Thông
thường, hàm khởi động của MLP là hàm sigmoid. Ví dụ MLP với một lớp ẩn, đầu ra
mạng có thể đạt được bằng cách biến đổi hàm khởi động của đơn vị ẩn sử dụng hai
tầng xử lý.
L

D

i 1

i

Outputnet ( j )  f ( w ji f ( w ii xi )), j  1,..., J

Với D, L và J là tổng số đơn vị lớp đầu vào, ẩn, và lớp ra, f là hàm khởi tạo.
Chi tiết về mạng Neuron nhân tạo được Rumelhart, Hiton và Williams mô tả chi
tiết trong [Rumelhart-86]
 Máy Vector hỗ trợ (Support Vector Machines - SVM)
Một bộ phân lớp SVM sử dụng thuật toán học nhằm xây dựng một siêu mặt
phẳng làm cực tiểu hóa độ phân lớp sai của một đối tượng dữ liệu mới. Độ phân lớp
sai của một siêu phẳng được đặc trưng bởi khoảng cách bé nhất tới siêu phẳng đấy.
Xét bài toán phân lớp đơn giản nhất – phân lớp hai lớp với tập mẫu dữ liệu:
{(x i ,yi )i=1,2,...N, x i  R m }

Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu dương và
mẫu âm.
Các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gãn nhãn yi=1.
Các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán nhãn yi=-1.

Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra một
không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân lớp là thấp
nhất.
Trong trường hợp này, tập phân lớp SVM là mặt phẳng phân tách các mẫu
dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch-còn gọi là
7

Lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt
siêu phẳng nhất. Mặt siêu phẳng này được gọi là mặt siêu phẳng lề tối ưu.
Tập phân lớp SVM được định nghĩa như sau:
f ( x)  sign(C   w i x )

Với w = w1+w2+…+wn là bộ hệ số siêu phẳng hay là các vector trọng số. C là
độ dịch.
Trong đó:
sign(z) = +1 nếu z  0 và sign(z) =-1 nếu z<0.
Nếu f(x) = +1 thì x thuộc về lớp dương (lĩnh vực được quan tâm), và ngược lại,
nếu f(x) =-1 thì x thuộc về lớp âm (các lĩnh vực khác).
Chi tiết về thuật toán SVM được Burges mô tả chi tiết trong [Burges-98].


Khai phá dư liệu bằng học tiến hóa (Data Mining by Evolutionary
Learning)

DMEL là một kỹ thuật phân lớp di truyền. Một bộ phân lớp DMEL gồm một
tập các luật đã được gán nhãn được sinh ra bởi thuật toán di truyền. Ví dụ, bộ phân lớp
DMEL áp dụng luật để gán mẫu và lớp quy định. Chi tiết bộ phân lớp DMEL được
mô tả chi tiết bởi Auu [Auu-03].
1.4.Tóm tắt chƣơng 1

Trong chương này, luận văn giới thiệu khái quát về bài toán dự đoán khách
hàng rời mạng, các khái niệm liên quan. Chương 1 cũng đề cập đến vai trò của khai
phá dữ liệu và một số kỹ thuật khai phá dữ liệu dùng trong bài toán dự đoán khách
hàng có nguy cơ rời mạng. Trong chương tiếp theo, luận văn sẽ giới thiệu chi tiết hai
mô hình dự đoán khách hàng rời mạng: Mô hình dự đoán dựa trên học luật và mô hình
dựa trên học giám sát và không giám sát của Ying Huwang và cộng sự.

8

Chƣơng 2: Một số mô hình điển hình cho bài toán dự đoán khách
hàng rời mạng
2.1. Mô hình dựa trên luật cho bài toán dự đoán khách hàng rời mạng dịch vụ
viễn thông
2.1.1. Giới thiệu mô hình phân lớp dựa trên luật

Phương pháp phân lớp dựa trên học luật (classification by rule learning (CRL))
là một phương pháp nổi tiếng. Một trong những đặc trưng của quy nạp luật là chúng rõ
ràng và dễ hiểu hơn những mô hình khác. Đã có nhiều nghiên cứu về lĩnh vực này.
Trong xử lý luật quy nạp, hai phương pháp thường được sử dụng là: general-tospecific(top-down) tức là xử lý từ luật chung đến các luật riêng và phương pháp
specific-to-general (bottom-up) tức là đi từ các luật riêng tới các luật chung. Trong đó,
phương pháp top-down thường được áp dụng rộng rãi hơn.
“Luật” được định nghĩa là một mệnh đề dạng: {NẾU Tiền đề THEN kết quả},
với tiền đề được định nghĩa là một sự kết hợp của một số cặp cách> và kết quả là nhãn của lớp. “Luật chung” và “luật riêng” là hai khái niệm quan
trọng. Thông thường, một luật với cặp <thuộc tính, khoảng cách> nhỏ hơn trong kết
quả thì “chung” hơn.
2.1.2. Mô hình sinh các luật

Phân lớp dựa trên học luật (CRL) là một chiến lược từ chung-đến-riêng, vì vậy,

nó bắt đầu bằng việc sinh các luật chung, first-order luật, sau đó sinh các luật lớp cao
hơn dựa vào các luật bậc thập hơn (lower-order). Thuật toán [Giải thuật1] bên dưới
minh họa việc xử lý sinh tập luật. Với SETrules là tập luật được sinh ra, k là số bậc. và
threshold là số bậc tối đa.
Giải thuật 1: CRL Algorithm (training data)
1: SETrules ←  ;
2: k ← 1;
3: SETrules ← First_order_rules(training data)
4: While k ≤ threshold do
5:

high_order ← Higher_order_rules(lower_order_rules);

6:

SETrules ← SETrules

high_order;

8: end while
9: return SETrules
9

First-order Rules (Giải thuật 2): Thuật toán sinh ra luật bậc đầu tiên first-order rules.
Để tránh mất thông tin, tất cả các cặp <thuộc tính, khoảng cách> được đưa vào tài
khoản. Trong thuật toán 2, num_attribute, num_interval và num_class định nghĩa số
thuộc tính, số khoảng cách của thuộc tính hiện tại và số phân lớp khác nhau. Đầu tiên,
set first_order_rule là rỗng, ruleijk là luật có dạng “IF fi=Intervalj THEN Classk”, Nếu
Prunning(ruleijk) trả lại false, thì ruleijk được xem là một luật hữu ích.

Giải thuật 2: First_order_rules(training data)
1. First_order_rules ←  ;
2. For i=1; i ≤ num_attribute; i++ do
3.
4.
5.
6.
7.
8.

For j=1; j≤ num_interval; j++ do
For k=1; k≤ num_class; k++ do
If Pruning (ruleijk) returns fales then
First_order_rules ← First_order_rule

ruleijk

End if
End for

9. End for
10. End for
11. Return First_order_rules
High-order Rules (Giải thuật 3): Highter-order rules được xây dựng lặp lại từ các
luật cấp thấp hơn. Luật bậc 2 (second_order) được xây dựng từ luật bậc 1 (first_order),
luật bậc 3 (third_order) được xây dựng từ luật bậc 2 (second_order). Luật (n-1)_order
là cơ sơ để xây dựng luật n_order. Trong thuật toán 3, item được dùng để định nghĩa
một cặp <thuộc tính, khoảng cách>, positive_items bao gồm tất các các phần tử được
trích xuất từ tất cả các luật dương. Tập các negative-items cũng được sinh tương tự.
Mỗi luật riêng được đặc tả bởi thuật toán hill_climbing để thêm một phần tử vào phần

tiền đề của luật hiện tại.
Để đánh giá chất lượng của luật được sinh ra, chúng ta có thể sử dụng độ đo
Weighted Relative Accuracy (WRA), được tính như sau:
WRA 

Num _(a)
Num _(a, c)
Num(c)
x(

)
Num _ total
Num _(a) Num _ total

10

Trong đó Num_(a) và Num_(c) là số trường hợp dữ liệu được trích xuất từ tiền đề và
kết quả của luật, và num_total được định nghĩa là số trường hợp trong tập dữ liệu học.

Giải thuật 3: Higher_order_rules (a set of lower_order_rules)
1. all_rules ←  ;
2. positive_items ← get all exclusive items from positive_lower_order_rules;
3. negative_items ← get all exclusive items from negative_lower_order_rules;
4. accuracy_list ←  ;
5. For i=1; i ≤ num_positive_rules; i++ do
6. High_rule ← hill_climbing (positivei , positive_item);
7. If Pruning (high_rule) returns false then
8.
WRAi ← calculate the Weighted_Relative_Accuracy for high_rule;

9. If WRAi is not in the list of accuracy_list then
10. all_rules ← all_rules high_rule;
11. accuracy_list ← accuracy_list WRAi ;
12. end if
13. end if
14. end for
15. do same work to generate negative_rules;
16. all_rules ← all_rules negative_rule;
17. return all_rules

Thuật toán hill_climbing
Giải thuật 4: hill_climbing (one_lower_rule, all_low_items)
1. accuracy_list ←  ;
2. for i=1; i ≤ num_low_items; i++ do
3. If one_lower_rule does not include itemi then
4.
one_high_rule ← combination of one_lower_rule and itemi;
5.
WRAi ← calculate the Weighted_Relative_Accuracy for one_high_rule;
6.
accuracy_list ← accuracy_list WRAi ;
7. end if
8. end for
9. BEST ← one of high order rules having the highest WRA;
10. return BEST

Số lương luật sinh ra có thể rất lớn, để việc phân lớp được hiệu quả, Ying Hwuang và
cộng sự đã loại bỏ bớt những luật xấu với các thông tin nhiễu hoặc không quan trọng.

11

Thông thường, một thống kê mẫu  2 được xử dụng để kiểm tra nếu tồn tại một quan
hệ tuyến tính mạnh giữa hai thuộc tính.  2 được tính như sau:
2 

(O  E )2
E

Với O và E là tần số mong đợi và quan sát, được tính bằng công thức:
O  Num _(a, c)

E

Num _(a) xNum _(c)
Num _ total

Ngoài ra, còn có độ đánh giá Support và Confidence được sử dụng để đánh giá
luật có bị loại bỏ (pruned) hay không?
Support 

Num _(a, c)
Num _ total

Confidence 

Num _(a, c)
Num _(a)

Giải thuật (5) là một giải thuật tìm ra một luật có bị loại bỏ hay không? Với  là

ngưỡng giá trị đánh giá  2 , minS và minC là hai giá trị ngưỡng, được định nghĩa là
giá trị nhỏ nhất của support và confidence.
Giải thuật 5: pruning (rule)
1. flag ← true;
2. If chi-square statistics > α AND support_rule > minS AND Confidence_rule >
minC then
3. flag ← false;
4. End if
5. return flag;

2.1.3. Phân lớp

Để phân lớp cho tập dữ liệu, Ying Hwuang và cộng sự coi Rules bao gồm hai
lớp: churn và non-churn. Hai mô hình dự đoán được xây dựng dựa trên tất cả các luật
churn và tất cả các luật non-churn. Để đánh giá độ quan trọng của các luật, Ying
Hwuang và cộng sử xếp hạng các luật trong mỗi mô hình dựa trên một số nguyên lý
sau:
 Nếu confidence_1 > confidence_2 thì luật rule_1 có độ ưu tiên cao hơn
rule_2.
 Nếu confidence_1= confedence_2 và support_1 > support_2 thì luật
rule_1 có độ ưu tiên cao hơn rule_2.
12

 Nếu confidence_1 = confedence_2 và support_1 = support_2 vàn
rule_2 là “chung” hơn luật rule_2 thì rule_1 có độ ưu tiên cao hơn
rule_2.
Sau khi xếp hạng, mỗi luật có một vị trí trong mỗi mô hình dự đoán, nếu một
luật có độ quan trọng hơn các luật khác thì nó có vị trí tốt hơn. Ying Hwuang và cộng
sự định nghĩa mực độ quan trọng của mỗi luật như sau:

S ignificance _ level 

Num _ rules  position
Num _ rules

Với Num_rules là số luật, position được định nghĩa là vị trí của luật trong tập
luật được xếp hạng. Vì vậy, luật quan trọng nhất thì significance_level có giá trị 1,
ngược lại, luật ít quan trọng nhất thì độ quan trọng là

1
. Để phân lớp một
Num _ rules

đối tượng, tìm tất cả các luật trong mô hình churn và non-churn, nếu tổng
Significance_level của tất các luật được trích xuất trong mô hình churn mà lớn hơn mô
hình non-churn , thì gán nhãn churn đối tượng, ngược lại, đối tượng sẽ gán nhãn nonchurn.
2.1.4. Kết quả và đánh giá mô hình

Trong phần thực nghiệm, Ying Hwuang và cộng sự sử dụng 4 tập dữ liệu UCI
và 6 tập dữ liệu viễn thông của mạng viễn thông Ireland. Tập dữ liệu của Ying
Hwuang và cộng sự. [Ying-11]

Bảng 3: Tập dữ liệu cho mô hình dự đoán dựa trên luật

Để đánh giá hiệu quả của mô hình, tác giả sử dụng đường cong AUC ( Area under lift
Curve) để đánh giá. Giá trị AUC được tính theo công thức sau:
AUC 

S0  n0 x(n0  1) x0.5
n0 n1

Với S0 là tổng xếp hạng của lớp 0 (churn) tập mẫu, n0 là số tập mẫu thuộc về lớp 0
(churn) và n1 là số tập mẫu thuộc lớp 1 (nonchurn).
13

Hình 2: So sánh độ AUC giữa các mô hình

Hình trên mô tả kết quả so sánh AUC khi áp dụng CRL và DMEL với các tỉ lệ
churn-rate khác nhau: (a):1%, (b) :2%, (c): 4%, (d): 6%, (e): 8%, (f):10%. [Huang-11]

14

Hình 3: So sánh AUC mô hình CRL và DMEL cho tỉ lệ churn rate khác nhau

Hình 4: So sánh AUC cho mô hình CRL và DMEL với tập dữ liệu UCI

Bên trên là kết quả của tác giả Ying Hwuang và cộng sự khi so sánh độ AUC
cho mô hình CRL và DMEL với dữ liệu viễn thông có tỉ lệ churn-rate khác nhau, và
hình 4 là kết quả với dữ liệu UCI [Ying-11].
2.2. Mô hình học lai cho bài toán dự đoán khách hàng rời mạng
Ngoài mô hình phân lớp dựa trên luật, Ying Hwuang và công sự M.Tahar còn
xây dựng mô hình lai để dự đoán các hành vi tương lai của khách hàng. Ý tưởng chính
cho mô hình học lai là dự đoán khách hàng theo dữ liệu học tương tự với nó. Giả thiết
rằng, khách hàng có thuộc tính giống nhau thì hành vi sẽ giống nhau. Vì vậy, sẽ chính
xác hơn nếu một đối tượng chưa gán nhãn được dự đoán sử dụng đối tượng học hơn là
toàn bộ dữ liệu bằng cách chia dữ liệu học thành các cụm và đối tượng test được gán
nhãn theo cụm gần nó nhất.
15

Mô hình lai của Ying Hwuang và cộng sự gồm 3 phần chính: Chuẩn hóa dữ
liệu, đào tạo mô hình học lai và phân lớp.
2.2.1. Chuẩn hóa dữ liệu:
Dữ liệu gồm các thông tin biểu diễn dưới các dạng khác nhau. Rời rạc hóa dữ
liệu là quá trình biểu diễn dữ liệu dưới dạng vector, trong đó các trường dữ liệu liên
tục được biểu diễn thành các dạng rời rạc ví dụ dữ liệu dạng số. Trong mô hình của
Ying Hwuang và cộng sự, tác giả sử dụng kỹ thuật rời rạc hóa dữ liệu lớp phụ thuộc
(Class -Dependent) để chuẩn hóa dữ liệu chứa ký tự và thuộc tính liên tục thành các dữ
liệu dạng số.
2.2.2. Đào tạo mô hình lai
Trong mô hình lai của Ying Hwuang và cộng sự gồm hai phần: Phân cụm và
sinh các luật
a. Phân cụm k-mean và phân cụm k-mean có đánh trọng số
 Phân cụm k-mean
Kỹ thuật phân cụm được sử dụng rộng rãi trong rất nhiệu ứng dụng khai phá dữ
liệu. Có nhiều thuật toán phân cụm như: phân cụm có thứ bậc, phân cụm mờ, phân
cụm cứng, trong đó phân cụm k-mean là kỹ thuật đơn giản, tương tự với phân cụm
cứng.
Xét tập dữ liệu cần phân cụm D, với K là só cụm và o là một đối tượng thuộc
D. Ci và ci là cụm và trung tâm cụm thứ i. Thuật toán K-Mean khởi tạo K trung tâm
cụm ban đầu. Tại mỗi bước lặp, mỗi đối tượng trong D sẽ được tính khoảng các tới các
trung tâm cụm, và gán vào cụm gần nó nhất. Tiếp theo, sẽ tính toán lại trung tâm các
cụm. Quá trình này lặp đi lặp lại cho tới khi trung tâm các cụm không thay đổi.
Giải thuật K-means
1. Chọn K đối tượng như là các trung tâm cụm khởi tạo
2. Repeat
3. Gán mỗi đối tượng (o) tới các cụm mà khoảng cách tới trung tâm cụm là
gần nhất

4. Tính toán lại trung tâm cụm của tất cả các cụm
5. Until trung tâm cụm không thay đổi
Trung tâm các cụm không thay đổi là việc khó đạt được, vì vậy, để kết thúc
vòng lặp, người ta tính toán độ SSE (Sum of the Squared Error), tức là tổng khoảng
cách từ các đối tượng tới các trung tâm cụm đạt được một ngưỡng nào đó.

16

K

ni

SSE   | (ci  oij )

2

i 1 j 1

Giá trị của SSE càng nhỏ, thì độ chính xác càng cao.
 Phân cụm K-means có trọng số
Ying Hwuang và cộng sự sử dụng tập dữ liệu được cung cấp bởi nhà mạng viễn
thông cho mô hình. Tập dữ liệu có một lượng lớn các thuộc tính mà mỗi thuộc tính có
độ ảnh hưởng khác nhau đến kết quả. Vì vậy, để hiệu quả hơn, tác giả đánh trọng số
cho mỗi thuộc tính, nhằm mục đích giảm độ ảnh hưởng của một thuộc tính đối với kết
quả.
b. Học luật quy nạp
Học luật quy nạp là một phần quan trọng trong mô hình dự đoán lai. Một tập
các luật được sinh ra từ các cụm, các luật này biểu diễn đặc trưng của các cụm. Ưu
điểm chính của phương pháp học dựa trên luật là kết quả dễ hiểu và rõ ràng. Trong

nghiên cứu của mình, tác giả sử dụng thuật toán FOIL (First Order Inductive Learning)
để trích xuất các luật. Thuật toán FOIL được mô tả như sau [Ying-13]:
Giải thuật FOIL: FOIL (Example)
1. Pos ← Positive Examples;
2. Neg ← Negative Examples;
3. Learned_rules ←  ;
4. While Pos is not empty then
5. Rule ← Learn-A-Rule (Examples, Neg);
6. learned_rules ← learned_rules Rule;
7. Pos ← Pos – {Positive examples covered by Rule};
8. Example ← Example – {any examples covered by Rule};
9. End while
10. return learned_rules;

Hình 5: Giải thuật sinh luật FOIL

17

Trích đoạn

Kết quả thực nghiệm

Một mô hình kết hợp học giám sát và bán giám sát cho bài toán dự báo khách hàng có nguy cơ rời mạng vinaphone

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về