Tải bản đầy đủ (.docx) (62 trang)

Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (854.76 KB, 62 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƢ NGỌC

PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN
DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội -2014


ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƢ NGỌC

PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN
DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHAN XUÂN HIẾU


Hà Nội -2014


LỜI CẢM ƠN
Trước hết, tôi xin gửi lời cảm ơn sâu sắc nhất đến TS. Phan Xuân Hiếu - Trường
Đại học Công Nghệ - Đại học Quốc gia Hà Nội, người đã tận tình hướng dẫn, chỉ bảo
và định hướng cho tôi trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội và các
thầy cô giáo đã giảng dạy tôi trong suốt thời gian học tập tại trường, tạo điều kiện giúp
đỡ tôi hoàn thiện luận văn này. Xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn động
viên giúp đỡ tôi trong thời gian học tập và hoàn thành luận văn.
Trong quá trình nghiên cứu, thực hiện, mặc dù đã cố gắng, nỗ lực để hoàn thiện,
luận văn của tôi cũng không tránh khỏi những thiếu sót và hạn chế. Kính mong nhận
được sự đóng góp của thầy cô và các bạn.
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 10 năm 2014
Học viên
Nguyễn Thị Như Ngọc


LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những
điều đã trình bày là của cá nhân tôi hoặc được tôi tổng hợp từ nhiều nguồn tài liệu. Tất
cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp, không
có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài
liệu tham khảo.
Tôi xin chịu toàn bộ trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời
cam đoan của tôi.


Hà Nội, tháng 10 năm 2014

Tác giả

Nguyễn Thị Như Ngọc


1

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................................
DANH MỤC HÌNH ẢNH ..........................................................................................................
DANH MỤC BẢNG BIỂU ........................................................................................................
MỞ ĐẦU ....................................................................................................................................
Chương 1. TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG ......................................................

1.1.Thị trường thông tin di động Việt Nam .................................

1.2.Khái niệm “churn” ................................................................

1.3.Phân loại “churn” ..................................................................

1.4.Các nghiên cứu liên quan ......................................................

1.5.Mục tiêu và phạm vi đề tài ....................................................
Chương 2. KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG .................................................
2.1. Lý thuyết khai phá dữ liệu .............................................................................................
2.1.1. Tại sao cần khai phá dữ liệu ....................................................................................
2.1.2. Khái niệm khai phá dữ liệu .....................................................................................
2.1.3. Các bài toán khai phá dữ liệu điển hình ..................................................................


2.2.Mô hình kho dữ liệu di động..................................................
2.2.1. Tầng dưới ................................................................................................................
2.2.2. Tầng giữa .................................................................................................................
2.2.3. Tầng trên .................................................................................................................

2.3.Một số ứng dụng khai phá dữ liệu di động .............................
2.3.1. Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, dịch vụ ...............................
2.3.2. Nhận dạng và dự đoán các biểu hiện gian lận .........................................................
2.3.3. Phân tích dự đoán thuê bao rời mạng ......................................................................
2.3.4. Dự đoán nhu cầu tăng dung lượng đường truyền ....................................................
Chương 3. BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG .........................

3.1.Phát biểu bài toán ...................................................................

3.2.Phân lớp dữ liệu thuê bao rời mạng ........................................
3.2.1. Dữ liệu .....................................................................................................................
3.2.2. Lựa chọn thuộc tính .................................................................................................
3.2.3. Cây quyết định C4.5 ................................................................................................
3.2.4. Naïve Bayes.............................................................................................................
3.2.5. Support Vector Machines ........................................................................................
3.2.6. Neural Networks .....................................................................................................


2

3.2.7. Mô hình đánh giá hiệu năng ....................................................................................
Chương 4.

THỰC NGHIỆ


4.1.

Dữ liệu thực nghiệm ...............................................

4.2.

Thực nghiệm ...........................................................

4.2.1.

Phân lớp dữ liệ

4.2.2.

Phân lớp sử dụ

4.2.3.

Phân lớp sử dụ

4.2.4.

Phân lớp sử dụ

4.3.

Đánh giá hiệu năng .................................................

KẾT LUẬN


........................

TÀI LIỆU THAM KHẢO ........................................................................................................
PHỤ LỤC 1

........................

PHỤ LỤC 2

........................


3

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Thuật ngữ
Bộ TT&TT
ITU
USD

KPDL
KDD
DWH
OLAP
VAS
NB
SVM
NN



4

DANH MỤC HÌNH ẢNH
Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012
Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012...........................................
Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam .............................................
Hình 4 - Quá trình phát hiện tri thức trong CSDL .........................................................................
Hình 5 - Mô hình kho dữ liệu di động .............................................................................................
Hình 6 - Tiến trình phân lớp dữ liệu ................................................................................................
Hình 7 - Mô hình quan hệ các bảng dữ liệu ....................................................................................
Hình 8 - Các giai đoạn của mô hình dự đoán thuê bao rời mạng .............................................
Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu ...............................................................
Hình 10 - Số lượng thuộc tính được thu thập ...........................................................................
Hình 11 - Ví dụ về cây quyết định ...........................................................................................
Hình 12 - Nhiều mặt phẳng phân tách dữ liệu .........................................................................
Hình 13 - Siêu mặt phẳng phân tách.........................................................................................
Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp........................................................................
Hình 15 - Mạng nơ- ron hồi quy ...............................................................................................
Hình 16 - Dữ liệu thực nghiệm .................................................................................................
Hình 17 - Dữ liệu rời rạc ..........................................................................................................
Hình 18 - Thực hiện phân lớp với thuật toán Naïve Bayes .....................................................
Hình 19 - Thực hiện phân lớp với thuật toán SVM .................................................................
Hình 20 - Thực hiện phân lớp với thuật toán Neural Networks ..............................................
Hình 21 - Hiệu năng các thuật toán với lớp thuê bao rời mạng ...............................................


5

DANH MỤC BẢNG BIỂU

Bảng 1 - Ma trận nhầm lẫn .......................................................................................................
Bảng 2 - Kết quả mô hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác nhau ...........................
Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/10 ..............................................
Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/2 ................................................
Bảng 5 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/1 ................................................
Bảng 6 - Kết quả mô hình phân lớp sử dụng NB với tỷ lệ mẫu khác nhau ..............................
Bảng 7 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/10 ................................................
Bảng 8 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/2 ..................................................
Bảng 9 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/1 ..................................................
Bảng 10 - Kết quả mô hình phân lớp sử dụng SVM với tỉ lệ mẫu khác nhau ..........................
Bảng 11 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/10 ...........................................
Bảng 12 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 .............................................
Bảng 13 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 .............................................
Bảng 14 - Kết quả mô hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau.............................
Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10 ..............................................
Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2 ................................................
Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1 ................................................
Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp C4.5 ....................
Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp Naïve Bayes ........
Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp SVM ...................
Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp NN ......................


6

MỞ ĐẦU
Dịch vụ thông tin di động ngày càng phát triển mạnh mẽ, trở thành một phần tất
yếu trong cuộc sống của mỗi người dân Việt Nam. Với sự ra đời của hàng loạt các nhà
cung cấp dịch vụ mạng điện thoại di động. Quản lý thông tin thuê bao di động nhằm
nâng cao khả năng chăm sóc khách hàng, đưa ra các chiến lược kinh doanh là việc

không thể thiếu đối với các nhà cung cấp dịch vụ mạng di động.
Ngày nay “kho dữ liệu” đã trở thành một khái niệm quen thuộc đối với các doanh
nghiệp, “kho dữ liệu” hỗ trợ doanh nghiệp ra quyết định cho các hoạt động tăng sự tập
trung vào khách hàng như phân tích các mô hình khách hàng, so sánh hiệu suất doanh
số bán hàng theo quý, theo năm, và theo vùng địa lý để điều chỉnh chiến lược sản xuất,
phân tích hoạt động và tìm kiếm nguồn lợi nhuận, quản lý các mối quan hệ khách
hàng, điều chỉnh môi trường và quản lý chi phí tài sản của công ty. Xây dựng kho dữ
liệu thuê bao di động là hướng đi đúng đắn nhằm nâng cao năng lực cạnh tranh và
chăm sóc khách hàng của các nhà mạng di động.
Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, khách hàng ngày
càng đòi hỏi cao về chất lượng và dịch vụ. Hơn nữa khách hàng có nhiều lựa chọn và
có quyền chuyển đổi nhà cung cấp dịch vụ, kết quả là khách hàng rời mạng tăng lên
một cách nhanh chóng. Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễn
thông cần phải đưa ra những hoạch định chiến lược để giữ chân khách hàng.
Các yếu tố quan trọng để giữ chân khách hàng là dự đoán khách hàng rời mạng và
chiến lược phòng chống khách hàng rời mạng hiệu quả. Hướng nghiên cứu của tôi là
từ kho dữ liệu di động thực hiện khai thác, phân tích nhằm phát hiện các hành vi rời
mạng của thuê bao và dự đoán thuê bao rời mạng cho đề tài luận văn của mình. Luận
văn được xây dựng dựa theo lý thuyết khai phá dữ liệu được các nhà khoa học nghiên
cứu đồng thời tôi xin trình bày quan điểm riêng của mình về việc áp dụng khai phá dữ
liệu trong phát hiện hành vi và dự đoán thuê bao rời mạng.
Dữ liệu được sử dụng trong luận văn là dữ liệu “anonymous”, chỉ mang tính chất
nghiên cứu và không tiết lộ bất cứ thông tin của tổ chức hay cá nhân nào.
Luận văn được chia thành các chương như sau:
Chương 1: Trình bày tổng quan thuê bao rời mạng viễn thông, khái niệm thuê bao
rời mạng, phân biệt các hình thức rời mạng của thuê bao và sự cần thiết của việc dự
đoán thuê bao rời mạng.
Chương 2: Trình bày về lý thuyết khai phá dữ liệu di động. Các ứng dụng khai phá
dữ liệu di động như: Dự đoán xu hướng phát triển của các sản phẩm và dịch vụ, nhận
dạng và dự đoán gian lận, dự đoán nhu cầu tăng dung lượng đường truyền.

Chương 3: Trình bày về bài toán phân lớp dữ liệu thuê bao rời mạng, đầu vào và
dầu ra của bài toán. Đưa ra mô hình kho dữ liệu di động và mô hình phân lớp dữ liệu
thuê bao rời mạng. Dữ liệu được trích xuất từ kho dữ liệu di động và các thuật toán


7

phân lớp là hai thành phần chính của bài toán phân lớp. Trong luận văn sẽ sử dụng các
thuật toán cây quyết định C4.5, Naïve Bayes, SVM và Neural Networks để phân lớp
dự đoán thuê bao rời mạng viễn thông.
Chương 4: Thực nghiệm bài toán phân lớp dữ liệu di động với dữ liệu cụ thể. Đánh
giá kết quả đạt được với các mô hình phân lớp.


8

Chƣơng 1. TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG
Thị phần và khách hàng là hai yếu tố hết sức quan trọng, quyết định sự thành công
của các nhà cung cấp dịch vụ mạng di động. Trong bối cảnh thị trường viễn thông đã
đi vào giai đoạn bão hòa, việc phát triển thuê bao mới ngày càng trở nên khó khăn.
Trong khi đó khách hàng ngày càng có nhiều cơ hội lưa chọn dịch vụ và ít bị rằng
buộc bởi nhà cung cấp dịch vụ. Hiện tượng khách hàng chuyển đổi qua lại giữa các
nhà cung cấp ngày càng tăng, hiện tượng thuê bao ngưng sử dụng trên mạng ngày càng
nhiều cho thấy khách hàng hiện nay không còn trung thành với nhà mạng như thị
trường độc quyền trước đây. Chính vì vậy việc giữ chân khách hàng, giảm tỉ lệ thuê
bao rời mạng là chiến lược kinh doanh quan trọng để giữ vững thị phần của các nhà
cung cấp dịch vụ.

1.1. Thị trƣờng thông tin di động Việt Nam
Đã hơn 20 năm, kể từ khi MobiFone - mạng di động đầu tiên của Việt Nam chính

thức đi vào hoạt động. Ở thời điểm đó, thông tin di động còn là khái niệm xa lạ với đa
số người tiêu dùng, số lượng thuê bao của mạng di động này không nhiều do vùng phủ
sóng hạn chế và giá cước cũng như thiết bị đầu cuối còn đắt. Điện thoại di động rất
khan hiếm, giá thành mỗi chiếc máy khoảng 1.000 USD. Ngoài việc khan hiếm máy,
tiền thuê bao và cước cuộc gọi cũng rất đắt, phí hòa mạng 200 USD/thuê bao, thuê bao
tháng khoảng 30 USD, cước cuộc gọi cho nội hạt TP Hồ Chí Minh hoặc Hà Nội là 0,3
USD/ phút. Riêng với các cuộc gọi liên tỉnh, mức cước phí là 0,3 USD/ phút + cước
liên tỉnh.
Sự bùng nổ của thị trường thông tin di động Việt Nam chỉ thực sự diễn ra trong
10 năm trở lại đây, khi Viettel chính thức bước chân vào thị trường di động năm 2004.
Theo thống kê, giá cước di động Việt Nam trong vòng 10 năm qua đã giảm hơn 3 lần.
Cuộc cạnh tranh nóng bỏng trên thị trường di động đã đưa Việt Nam từ nước có giá
cước thuộc hàng cao trên thế giới đã trở thành nước có mức cước thuộc hàng rẻ nhất
thế giới. Theo báo cáo của Bộ TT&TT, tính hết năm 2012, tổng số thuê bao di động
trên toàn quốc là 131.673.724 và tỉ lệ thuê bao/100 dân là 148,33%. Mới đây, ITU đã
xếp Việt Nam đứng vị trí thứ 8 trên thế giới về mật độ thuê bao di động và được đánh
giá như một điểm sáng của viễn thông thế giới.


9

Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012[4]
Cùng với sự phát triển của thuê bao di động, doanh thu từ mạng viễn thông cũng
tăng lên đáng kể. Tính đến hết năm 2012 doanh thu dịch vụ di động trên cả nước là
6.472,30 triệu USD.

Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012[4]
Tuy nhiên, cuộc chạy đua cạnh tranh giữa các doanh nghiệp trong nước cũng bộc
lộ nhiều điểm hạn chế. Điều đó được minh chứng rất rõ ràng thông qua công cụ cạnh
tranh chủ yếu của các doanh nghiệp chỉ là giảm giá và khuyến mãi. Để thu hút thuê

bao mới, các mạng di động phải đua nhau khuyến mãi liên tục các tháng trong năm.
Tuy nhiên sau khi kết thúc mỗi đợt khuyến mãi, số thuê bao sử dụng hết tài khoản lập
tức rời mạng, tạm ngưng hoặc chuyển sang mạng khác tăng lên rõ rệt, số thuê bao rời
mạng nhiều hơn số thuê bao mới gia nhập, lượng thuê bao hoạt động tăng giảm bất
thường, doanh thu không tăng theo số thuê bao tăng trưởng. Đây là kiểu cạnh tranh
ngược với xu thế hội nhập của ngành thông tin di động Việt nam. Xét ở góc độ quản lý
vĩ mô cho thấy thực trạng trên thể hiện một thị trường tiêu cực và lãng phí tài nguyên
của ngành.
Theo quy định của Bộ Bưu chính-Viễn thông thì các nhà cung cấp có thị phần
khống chế (trên 30%) thì giá cước do chính phủ quyết định, trong khi các nhà cung cấp
dịch vụ nhỏ như S-fone, Vietnamobile và Gmobile có thị phần nhỏ được phép tự quyết
định giá cước. Tuy giá cước là lợi thế cạnh tranh, nhưng chất lượng dịch vụ của các
doanh nghiệp này lại không đảm bảo do đầu tư không theo kịp tốc độ tăng trưởng thuê
bao hay hạn chế về vùng phủ sóng. Ngược lại, mạng di động Mobifone và


10

Vinaphone có chất lượng dịch vụ ổn định hơn do có quá trình đầu tư và bề dày kinh
nghiệm nhưng giá cước và cách tính cước còn bị khống chế nên không hấp dẫn khách
hàng. Hiện tượng khách hàng chạy theo các đợt khuyến mại của các mạng cũng trở
nên phổ biến đặc biệt là khách hàng giới trẻ hiện nay thể hiện qua số liệu thuê bao hoạt
động thực tăng giảm giữa các kỳ khuyến mãi và không khuyến mãi. (Phát triển thực =
phát triển mới – ngưng sử dụng).

Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam[4]
Do vậy, để thị trường di động Việt nam phát triển một cách tích cực và bền vững,
chiến lược của các nhà cung cấp dịch vụ di động hiện nay là phải tìm cách duy trì
khách hàng hiện có bằng cách nâng cao mức độ trung thành và giá trị khách hàng. Một
khi thị trường đã trở nên cạnh tranh quyết liệt như hiện nay thì chiến lược phòng thủ

để duy trì khách hàng hiện có còn quan trọng hơn so với chiến lược công kích nhằm
mở rộng quy mô toàn bộ thị trường bằng việc gia nhập của các khách hàng tiềm năng
[Fornell, 1992; Ahmad & Buttle, 2002].

1.2. Khái niệm “churn”
Đặc điểm của thị trường viễn thông những năm qua là biến đổi nhanh chóng, tự do
hóa thị trường, cải tiến kỹ thuật, độ bão hòa và cạnh tranh khốc liệt. Khách hàng có
nhiều sự lựa chọn giữa các nhà khai thác di động, họ có thể chuyển đổi giữa các nhà
khai thác mà không có bất kỳ khó khăn nào và không ngừng tìm kiếm nhà mạng có
dịch vụ tốt hơn với chi phí thấp.
“Churn” là một thuật ngữ được sử dụng trong viễn thông và nhiều ngành công
nghiệp khác nó đề cập đến quyết định di chuyển từ một nhà cung cấp dịch vụ này đến
một nhà cung cấp dịch vụ khác của khách hàng. “Churn” có nguồn gốc từ change (sự
thay đổi) và turn (chiều hướng). “Churn” xảy ra bởi nhiều lý do khác nhau như không
hài lòng với các dịch vụ hay các hóa đơn cao hoặc khách hàng thường nhận được ưu
đãi hấp dẫn khi đăng ký với một nhà cung cấp dịch vụ di động mới. Khi khách hàng
rời mạng cũng ảnh hưởng đến những người quen của họ trong cùng một mạng, điều
này làm gia tăng khả năng rời mạng của các thuê bao này. Nếu coi việc rời mạng là
một hiện tượng thì việc rời mạng là sự kết hợp của thói quen sử dụng của người dùng
và của những hoạt động của người xung quanh. Tỷ lệ “churn” trung bình trong một
nhà cung cấp dịch vụ di động là khoảng 2% mỗi tháng (Berson, Smith, và Thearling,


11

2000). Tỷ lệ rời mạng hàng năm ở Châu Âu là 25%, Mỹ 37% và Châu Á 48%
(Mattersion, 2001).
Việc mất khách hàng đồng nghĩa với việc mất doanh thu trong tương lai và mất chi
phí đầu tư để có lại những khách hàng này. Trong khi đó, tìm kiếm khách hàng mới trở
nên khó khăn hơn bao giờ hết do sự cạnh tranh khốc liệt và độ bão hòa của thị trường

thông tin di động. Chi phí được khách hàng mới là cao hơn đáng kể so với việc giữ
khách hàng hiện tại. Trong thực tế, chi phí để phát triển một thuê bao mới lớn 5-10 lần
chi phí để giữ chân khách hàng. Đối mặt với thách thức này, các nhà khai thác cần phải
tập trung vào việc làm thế nào để ngăn chặn khách hàng rời mạng. Biết trước khi nào
khách hàng rời mạng sẽ cho phép nhà quản lý có chiến lược phòng tránh, và có nhiều
cơ hội hơn trong việc giữ chân khách hàng thành công. Dự đoán khi nào khách hàng sẽ
“churn” giúp tăng doanh thu và tiết kiệm được nguồn lực cho nhà mạng.

1.3. Phân loại “churn”
Có nhiều lý do dẫn đến việc rời mạng của thuê bao, có thể chia là 3 nhóm chính:
-Thuê bao bị buộc rời khỏi mạng bởi nhà cung cấp dịch vụ: Các nhà mạng
chủ động cắt hủy dịch vụ của khách hàng bởi nhiều lý do khác nhau như
khách hàng nợ cước, gian lận, tạm dừng sử dụng dịch vụ trong thời gian
dài…
-Nhóm chủ động rời khỏi mạng và chuyển sang một nhà cung cấp dịch vụ
khác: Lý do việc rời mạng có thể là: không hài lòng với chất lượng dịch, chi
phí quá cao, giá cả không cạnh tranh, không có những khuyến mại cho
khách hàng trung thành, không có hiểu biết về các chương trình dịch vụ,
dịch vụ hỗ trợ khách hàng không tốt, các lý do riêng tư …
-Nhóm khách hàng rời mạng bất ngờ và không có mục đích chuyển sang
nhà cung cấp dịch vụ khác. Lý do có thể là: khách hàng có thể phải do di
chuyển đến vùng địa lý khác nơi không có mặt của nhà cung cấp, hay do
tình hình tài chính dẫn đến không có khả năng thanh toán.
Phân biệt nhóm khách hàng chủ động rời mạng và nhóm khách hàng rời mạng bất
ngờ là một vấn đề khó. Tuy nhiên, nhóm khách hàng rời mạng bất ngờ chỉ thuộc một
phần nhỏ so với nhóm khách hàng chủ động rời mạng.
“Churn” cũng có thể được chia thành 3 nhóm:
-“Churn” hoàn toàn: Khách hàng hủy tất cả các dịch vụ và thanh lý hợp
đồng.
-“Churn” ẩn: Hợp đồng của khách hàng không được hủy bỏ, nhưng các

khách hàng không chủ động sử dụng dịch vụ đã một thời gian dài.
-“Churn” một phần: Hợp đồng không được hủy bỏ, nhưng các khách hàng
không sử dụng dịch vụ đầy đủ và chỉ sử dụng các bộ phận của nó.


12

Tùy thuộc vào từng nhà mạng, hợp đồng dịch vụ và mô hình kinh doanh được áp
dụng cho khách hàng “churn” ẩn hoặc một phần có thể dẫn đến giảm doanh thu và cần
có những hành đồng thiết thực dẫn đến không mất khách hàng hoàn toàn.
Một điều quan trọng nữa trong phân loại “churn” là phân loại khách hàng tiềm
năng. Đối với khách hàng tiềm năng, bộ phận tiếp thị của công ty có thể đưa ra chiến
lược tiếp thị để giữ chân những khách hàng tiềm năng này.

1.4. Các nghiên cứu liên quan
Trên thế giới đã có rất nhiều nghiên cứu về mô hình dự đoán “churn” trong viễn
thông như:
-Nghiên cứu các nguyên nhân của thuê bao rời mạng viễn thông sử dụng
Fuzzy Logic[10]
-Phân tích mạng xã hội (Social Network Analysis -SNA) dự đoán thuê bao
rời mạng viễn thông.[11]
-Sử dụng Artificial Neural Network (ANN) tích hợp mô hình dự báo cho các
khách hàng trả trước nhằm giải thích lý do rời mạng với dữ liệu mẫu là bộ
dữ liệu khiếu nại từ các thuê bao.[12]
- Neural Network (NN) cùng với cây quyết định và Support Vector Machine
(SVM) được sử dụng để xây dựng một mô hình lai để dự đoán thuê bao rời
mạng trong viễn thông. [13]
- Xây dựng mô hình lai sử dụng Logistic regression và Voted perceptron để
dự đoán thuê bao rời mạng trong viễn thông.[14]


1.5. Mục tiêu và phạm vi đề tài
Mục tiêu của đề tài
Từ kho dữ liệu di động xác định các thuê bao rời mạng, thực hiện phân tích các
hoạt động, hành vi trước khi rời mạng của các thuê bao bằng các phương pháp khai
phá dữ liệu nhằm phát hiện những yếu tố liên quan đến việc rời mạng của thuê bao. Từ
đấy thực hiện phân tích các thuê bao đang hoạt động nhằm phân lớp và dự đoán các
thuê bao rời mạng viễn thông. Nguồn dữ liệu phân tích được bắt nguồn từ chi tiết sử
dụng dịch vụ, hồ sơ khách hàng và các thông tin liên quan.
Phạm vi đề tài
Việc xây dựng kho dữ liệu thuê bao di động với nhiều nguồn dữ liệu khác nhau là
một quá trình lâu dài và phức tạp, trong phạm vi luận văn sẽ không đề cập đến việc
xây dựng kho dữ liệu di động mà hướng đến phân tích và khai phá dữ liệu di động đưa
ra dự đoán những thuê bao có khả năng chủ động rời mạng viễn thông. Cách phân tích
dữ liệu đối với thuê bao trả trước và trả sau có sự khác biệt lớn (hầu hết khách hàng trả
trước rời mạng một khoảng thời gian dài trước khi nhà mạng nhận ra là khách hàng đã
rời mạng) bởi vậy trong luận văn này chỉ thực hiện phân tích dữ liệu đối với thuê bao


13

trả sau. Đối tượng thực hiện phân tích là nhóm khách hàng chủ động rời khỏi mạng và
chuyển sang một nhà cung cấp dịch vụ khác.


14

Chƣơng 2. KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG
Khai phá dữ liệu là một lĩnh vực liên ngành có liên quan đến việc khai thác các
thông tin tiềm ẩn từ cơ sở dữ liệu lớn. Trong kinh doanh, khai thác dữ liệu cung cấp
các công cụ để tìm kiếm các mô hình có ý nghĩa và cung cấp tri thức hỗ trợ ra quyết

định từ dữ liệu thô. Nó giúp cho doanh nghiệp xác nhận được các giả thuyết hoặc tìm
ra những điều chưa được biết đến trong dữ liệu, cung cấp cho doanh nghiệp cái nhìn
sâu sắc có giá trị và lợi thế cạnh tranh. Quá trình khai thác dữ liệu đòi hỏi phải có sự
hợp tác của các lĩnh vực như: hệ thống cơ sở dữ liệu, kho dữ liệu, học máy, thống kê.
Luận văn này tập trung vào phần phân tích khai thác dữ liệu, làm thế nào áp dụng được
học máy để dự đoán thuê bao rời mạng.

2.1. Lý thuyết khai phá dữ liệu
2.1.1. Tại sao cần khai phá dữ liệu
Ngày nay công nghệ thông tin đang có mặt ở tất cả các lĩnh vực, cùng với đó là
các dữ liệu lưu trữ không ngừng tăng lên. Tiềm ẩn bên trong lượng dữ liệu này là
những tri thức hết sức quý báu giúp ích cho các hoạt động sản xuất kinh doanh của con
người.
Theo Fayyad và cộng sự, việc nghiên cứu, phát triển lĩnh vực khai phá dữ liệu và
phát hiện tri thức trong cơ sở dữ liệu(Knowledge Discovery and Data Mining: KDD)
nhằm giải quyết tình trạng “ngập tràn thông tin mà thiếu thốn tri thức”.
2.1.2. Khái niệm khai phá dữ liệu
Phát hiện tri thức trong cơ sở dữ là lĩnh vực nghiên cứu và triển khai được phát
triển nhanh chóng, có phạm vi rộng lớn, được nhiều nhóm nghiên cứu tại nhiều trường
đại học, viện nghiên cứu, công ty cổ phần ở nhiều quốc gia trên thế giới quan tâm. Bởi
vậy tồn tại nhiều cách tiếp cần khác nhau đối với việc phát hiện tri thức trong cơ sở dữ
liệu, cùng với đó cũng có nhiều thuật ngữ khác nhau mang cùng nghĩa với KDD như
chiết lọc tri thức(knowledge extraction), phát hiện thông tin (information harvesting),
khai thác dữ liệu(data archaeology), xử lý mẫu dữ liệu(data/parttern analysis)…
Khái niệm 1: Phát hiện tri thức trong cơ sở dữ liệu là quá trình không tầm
thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ
[1]
liệu.
Trong khái niệm 1 chúng ta coi KDD là một quá trình gồm nhiều bước thực hiện
trong đó khai phá dữ liệu là một bước thực hiện chính yếu.

Khái niệm 2:(Frawley, Piatetski-Shapiro và Matheus) : Khai phá dữ liệu là một
bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu, thi hành một thuật toán
khai phá dữ liệu để tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp[1]


15

Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD và KDD được
xem như 7 quá trình khác nhau theo thứ tự sau:
-Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các dữ
liệu không cần thiết.
-Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử
lý (datacleaning & preprocessing).
-Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá
trình nàybao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không
đầy đủ(incomplete data), .v.v.
-Chuyển đổi dữ liệu: các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý
-Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất,
trong
đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ
liệu.
-Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.
-Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.

Hình 4 - Quá trình phát hiện tri thức trong

CSDL[1] 2.1.3. Các bài toán khai phá dữ liệu điển hình
Mô tả khái niệm (concept description): là bài toán tìm đặc trưng và tính chất
của khái niệm. Bài toán thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt
văn bản.
Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá
đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ


16

mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh,
y học, tin-sinh, tài chính & thị trường chứng khoán, .v.v.
Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào
một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.
Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây
quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn
gọi phân lớp là học có giám sát (học có thầy).
Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như
tên) của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám sát
(học không thầy).
Hồi quy (regression ): là bài toán điển hình trong phân tích thống kê và dự báo.
Trong khai phá dữ liệu, bài toán hồi quy được quy về việc học một hàm ánh xạ dữ liệu
nhằm xác định một giá trị thực của một biến theo biến số khác. Phân tích hồi quy sẽ
xác định được định lượng quan hệ giữa các biến, và quảng bá giá trị một biến phụ
thuộc vào giá trị của những biến khác. Phương pháp hồi quy khác với phân lớp dự liệu
là hồi quy dùng để dự đoán những giá trị liên lục, còn phân lớp dữ liệu là dự đoán các
giá trị rời rạc.
Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật
kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng
dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo

cao.
Ngoài ra còn có một số bài toán khai phá dữ liệu thống kê khác.

2.2. Mô hình kho dữ liệu di động
Mô hình kho dữ liệu thuê bao di động gồm 3 lớp:
Tầng dưới cùng: là lớp thực hiện khai thác làm sạch chuẩn hóa và tập trung dữ liệu
từ các nguồn dữ liệu tổng đài, cước và thông tin khách hàng.
Tầng giữa: sử dụng kiến trúc Relational OLAP sever lưu trữ dữ liệu dưới dạng cơ
sở dữ liệu quan hệ thực hiện phân tích dữ liệu theo nhiều khía cạnh khác nhau.
Tầng trên cùng: sử dụng các công cụ thực hiện truy vấn báo cáo, phân tích và khai
thác dữ liệu.


17

Hình 5 - Mô hình kho dữ liệu di động
2.2.1. Tầng dƣới
Nguồn dữ liệu thông tin thuê bao di động được tập trung từ rất nhiều các hệ thống
khác nhau trong đó có các hệ thống cơ bản sau:
Hệ thống HLR (Home Location Register): là nơi quan lý lưu trữ tình trạng thuê
bao.
Hệ thống Billing: nơi quản lý và lưu trữ thông tin cước của thuê bao.
Hệ thống CRM (Customer relationship management): nơi quản lý thông tin quan
hệ khách hàng thuê bao.
Ngoài ra còn rất nhiều hệ thống dữ liệu khác như hệ thống IN (Intelligent network)
xử lý điều khiển các cuộc gọi của thuê bao trả trước Prepaid, lưu trữ thông tin tài
khoản của thuê bao trả trước, các hệ thống VAS như SMSC (Short Message Service
Center), MCA (Miscall Alert System), CRBT (Colour Ringback Tone)…
Các hệ thống này đều có những hệ thống cơ sở dữ liệu riêng của mình, được tập
trung tại máy chủ cơ sở dữ liệu hoặc phân tán. Các cơ sở dữ liệu này không thống nhất

cho một đối tượng quán lý (Ví dụ: thông tin thuê bao, khách hàng, dịch vụ…) thông
tin chồng chéo, không gắn kết thông tin giữa các nguồn dữ liệu, phức tạp cho quá trình
kiểm soát thông tin từ tất cả các nguồn dữ liệu.
Tiến trình ETL (Extraction, Transformation, and Loading) thực hiện trích xuất,
làm sạch, chuẩn hóa theo thiết kế của mô hình kho dữ liệu và tập trung thành một
nguồn dữ liệu thống nhất đẩy vào DWH.


18

2.2.2. Tầng giữa
Sử dụng kiến trúc Relational OLAP sever lưu trữ dữ liệu dưới dạng cơ sở dữ liệu
quan hệ mặc dù có hiệu suất chậm hơn kiến trúc Multidimensional OLAP nhưng nó lại
có những ưu điểm đáng kể như: có thể được truy nhập bởi bất kỳ công cụ báo cáo SQL
nào, có khả năng mở rộng hơn trong sử lý khối lượng lớn dữ liệu.
Trên cơ sở các đặc thù nghiệp vụ và các nguồn dữ liệu sẵn có xây dựng các chủ đề
thuê bao, lưu lượng, doanh thu, dịch vụ trong kho dữ liệu thuê bao.
2.2.3. Tầng trên
Gồm các báo cáo nghiệp vụ được xây dựng theo tháng, quý và năm dưới dạng số
liệu chi tiết và tổng hợp. Dữ liệu được phân tích và thể hiện dưới dạng biểu đồ giúp
người dùng thấy rõ xu hướng phát triển thuê bao và dịch vụ.
Ngoài ra tầng trên còn nhằm mục đích khai phá những thông tin đang ẩn trong
nguồn dữ liệu sẵn có của hệ thống.

2.3. Một số ứng dụng khai phá dữ liệu di động
Số lượng các thuê bao và các dịch vụ kèm theo đang ngày một gia tăng hầu hết các
giao dịch, thao tác, hoạt động đều được lưu lại trong hệ thống cơ sở dữ liệu. Từ đó,
lượng dữ liệu thu thập và lưu trữ được về các hoạt động sản xuất kinh doanh cũng trở
nên ngày càng khổng lồ. Tiềm ẩn bên trong lượng dữ liệu này là những tri thức hết sức
quí báu về thị trường, khách hàng, sản phẩm…

Trong quá trình hoạt động sản xuất kinh doanh, các nhà quản lý thường xuyên phải
đưa ra các quyết định liên quan đến những sự việc sẽ xảy ra trong tương lai. Để giúp
các quyết định này có độ tin cậy cao, giảm thiểu mức độ rủi ro, người ta cần đưa ra các
dự báo. Vì vậy dự báo là hết sức quan trọng và cần thiết cho các doanh nghiệp, đặc
biệt là ngày nay các doanh nghiệp lại hoạt động trong môi trường của nền kinh tế thị
trường mà ở đó luôn diễn ra những sự cạnh tranh gay gắt giữa các doanh nghiệp với
nhau.
Phân tích, khai thác dữ liệu sử dụng các thuật toán và mô hình toán học cho phép
các doanh nghiệp đưa ra các quyết định hiệu quả và kịp thời. Dưới đây là một số ứng
dụng áp dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh mạng di
động:
2.3.1. Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, dịch vụ
Trong ngành công nghiệp viễn thông sản phẩm và dịch vụ có nguồn doanh thu
chiếm tỷ lệ cao. Bởi vậy thực hiện phân tích và dự đoán xu hướng, nhu cầu sử dụng
sản phẩm dịch vụ là yêu cầu cần thiết cho quá trình kinh doanh các sản phẩm dịch vụ.
Từ kho dữ liệu di động thực hiện khai phá có thể đưa ra được nhu cầu sử dụng các
sản phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút. Dữ liệu có thể được sử dụng


19

như dữ liệu chi tiết cuộc gọi, dữ liệu mạng mô tả thành phần phần cứng và phần mềm
trong hệ thống mạng, dữ liệu thanh toán và doanh thu của doanh nghiệp, và dữ liệu về
các khách hàng đang sử dụng dịch vụ viễn thông.
Một trong những nghiên cứu dự đoán nhu cầu sử dụng sản phẩm dịch vụ là sử
dụng mạng neural và các quy tắc tập mờ để dự đoán theo thời gian, và kết quả thu
được so sánh với tập dữ liệu test bằng cách sử dụng hồi quy tuyến tính.[19]
2.3.2. Nhận dạng và dự đoán các biểu hiện gian lận
Nhận dạng các biểu hiện gian lận trong sử dụng dịch vụ viễn thông đang là mối
quan tâm lớn của các nhà cung cấp dịch vụ viễn thông. Bất kỳ một hoạt động nào sử

dụng dịch vụ viễn thông mà không trả tiền đều có thể được định nghĩa là gian lận viễn
thông. Việc gian lận trong viễn thông dẫn đến doanh thu nhà mạng giảm, gây bức xúc
trong dư luận và ảnh hưởng đến niềm tin của khách hàng.
Nhận dạng và dự đoán các biểu hiện gian lận trong sử dụng dịch vụ viễn thông tại
các tỉnh, thành phố thông qua dữ liệu quản lý khách hàng thuê bao, hồ sơ gian lận,
thông tin sử dụng dịch vụ của khách hàng. Sử dụng các thuật toán khai phá dữ liệu
trong kho dữ liệu tìm độ lệch và dữ liệu bất thường nhằm xác định các đối tượng bị
nghi ngờ là có gian lận và các khu vực có nhiều khả năng xảy ra gian lận. Các thuật
toán thường được sử dụng để phát hiện gian lận trong viễn thông như các mô hình
thống kê, Bayes, phân cụm, luật kết hợp, mạng neural, các mô hình Markov hay các
mô hình lai.
Khai thác viễn thông đang bị gian lận dưới nhiều hình thức khác nhau. Một trong
những hình thức gian lận là tình trạng nợ xấu, tình trạng này xảy ra với thuê bao trả
sau, khi khách hàng không thanh toán cước sử dụng dịch vụ và đơn phương chấm dứt
hợp đồng. Nợ xấu dẫn đến tăng tài sản xấu, lợi nhuận không đúng với thực tế trong các
công ty viễn thông. Thuật toán phận cụm mạng neural Kohonen được áp dụng để dự
đoán nợ xấu trong viễn thông.[20]
2.3.3. Phân tích dự đoán thuê bao rời mạng
Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, việc phát triển
thuê bao mới ngày càng trở nên khó khăn. Trong khi đó khách hàng có nhiều lựa chọn
và có quyền chuyển đổi nhà cung cấp dịch vụ. Thuê bao rời mạng là hiện tượng phổ
biến trong nghành công nghiệp viễn thông. Trong thực tế, trung bình mỗi năm có tới
30-50 phần trăm thuê bao rời mạng, và chi phí để phát triển một thuê bao mới lớn 5-10
lần chi phí để giữ chân khách hàng. Chính vì vậy, giữ chân khách hàng, giảm tỉ lệ thuê
bao rời mạng là chiến lược kinh doanh quan trọng của các nhà cung cấp dịch vụ.
Dữ liệu được sử dụng cho việc phân tích thuê bao rời mạng là tất cả các dữ liệu
diễn ra trong thời gian thuê bao khách hàng còn hoạt động như: dữ liệu quản lý thông
tin khách hàng, hồ sơ khiếu nại, chi tiết sử dụng dịch vụ của khách hàng, cước thanh



20

toán dịch vụ... Các nghiên cứu liên quan đến dự đoán thuê bao rời mạng đã được đưa
ra tại chương 1(1.4).
2.3.4. Dự đoán nhu cầu tăng dung lƣợng đƣờng truyền
Nâng cao chất lượng dịch vụ là yêu cầu quan trọng trong chăm sóc khách hàng,
đảm bảo niềm tin, sự trung thành của khách hàng. Cùng với sự gia tăng thuê bao và
các sản phẩm dịch vụ thì đường truyền dữ liệu cũng cần gia tăng để đảm bảo chất
lượng dịch vụ.
Từ thông tin về tình hình sử dụng dung lượng đường truyền của các thuê bao, các
thuật toán khai phá dữ liệu được sử dụng để dự đoán nhu cầu tăng dung lượng đường
truyền của tại các tỉnh thành.


21

Chƣơng 3. BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI
MẠNG
3.1. Phát biểu bài toán
Đầu vào:
-Dữ liệu quản lý khách hàng khách hàng thuê bao
-Dữ liệu chi tiết sử dụng dịch vụ của thuê bao
-Dữ liệu hóa đơn của thuê bao
-Dữ liệu khuyến mại của thuê bao
-Dữ liệu thuê bao rời mạng
-Dữ liệu thuê bao cần cần dự báo
Đầu ra: Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút
ra từ mô hình giúp đưa ra dự báo khách hàng có thể rời mạng.
Ví dụ:
Đầu vào: Thông tin về khách hàng: Khách hàng đã hoạt động được 6 tháng, là thuê

bao Postpaid, số cuộc gọi ngoại mạng trong tháng gần nhất tăng cao, số lượng cuộc gọi
nội mạng giảm dần, số lượng tin nhắn tháng gần nhất tăng 50% so với các tháng trước
Đầu ra: Dự đoán khách hàng có 60% khả năng rời mạng.

3.2. Phân lớp dữ liệu thuê bao rời mạng
Học có giám sát là một nhánh của học máy có mục tiêu là thiết lập mô hình mô tả
mối quan hệ giữa các dữ liệu huấn luyện nhằm đưa ra những ý tưởng có giá trị. Các
thuật toán học máy được áp dụng vào dữ liệu thiết lập để xây dựng các học viên. Đầu
vào để phân lớp là tập hợp các thuộc tính ( , ) , ( , ) …( , ). Mỗi thộc tính x được biểu
diễn dưới dạng vecto n chiều x=[ ] và lớp y {-1,+1}
thuộc trường hợp phân lớp nhị phân. Trong dự đoán thuê bao rời mạng các thuộc tính
là thuê bao và các nhãn để phân lớp là “churn” và “non-churn”. Hai thành phần để
thực hiện phân lớp là dữ liệu và các thuật toán. Một tập dữ liệu huấn luyện là cần thiết
để xây dựng mô hình và ước tính các thông số để đưa ra các tập luật.
Phần này đưa nền tảng lý thuyết cho việc phân lớp dữ liệu di động. Đầu tiên, dữ
liệu mẫu được đưa vào để lựa chọn các thuộc tính thích hợp, các thuộc tính không
thích hợp sẽ được loại bỏ. Trong đó, dữ liệu mẫu được tổng hợp từ kho dữ liệu di
động. Sau khi lựa chọn, dữ liệu sẽ chỉ gồm các thuộc tính phù hợp nhất. Tiếp đó, thuật
toán học máy sẽ được áp dụng cho dữ liệu này để thực hiện phân lớp. Các thuật toán


×