Tải bản đầy đủ (.pdf) (25 trang)

Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động vinaphone (tóm tắt luận văn ngành hệ thống thông tin)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (807.93 KB, 25 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------------

Vi Quyết Thắng
ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN
LOẠI THUÊ BAO DI ĐỘNG VINAPHONE

Chuyên ngành: Hệ thống thông tin
Mã số: 8480104

TÓM TẮT LUẬN VĂN THẠC SĨ
(Theo định hướng ứng dụng)

HÀ NỘI – 2018


Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ
Phản biện 1:
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
Phản biện 2:
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………


………………………………………………………………………………………
………………………………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Cơng
nghệ Bưu chính Viễn thơng.
Vào lúc:.......giờ.......ngày.......tháng.........năm ...............

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thơng


1

MỞ ĐẦU
Trong lĩnh vực viễn thông, khách hàng (các thuê bao di động) chính là những
người mang lại doanh thu và duy trì hoạt động cho nhà cung cấp dịch vụ, vì vậy việc
nghiên cứu, phân loại và đánh giá họ để đưa ra những quyết sách phù hợp là cần thiết.
Ngoài ra, một lý do quan trọng nữa là việc phân loại sẽ giúp nhà cung cấp tiết kiệm
chi phí trong cơng cuộc giữ chân những th bao đang hoạt động, tác động duy trì
những thuê bao định rời mạng kịp thời và phát triển các thuê bao mới.
Xuất phát từ tình hình thực tế tại cơ quan và dưới sự dẫn dắt của PGS.TS. Trần
Đình Quế, tơi đã đề xuất ý tưởng thực hiện đề tài luận văn: “Ứng dụng kỹ thuật
phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone”. Luận văn đi sâu vào
áp dụng phương pháp phân lớp dữ liệu dựa trên cây quyết định, từ đó sẽ đánh giá,
phân loại và dự đoán hành vi của các thuê bao di động đang hoạt động.
Luận văn này có ba chương:
Chương 1: Tổng quan về phân lớp dữ liệu
Chương này trình bày về cơ sở lý thuyết như khái niệm, trình bày một số
phương pháp phân lớp dữ liệu phổ biến. Tìm hiểu các điểm mạnh điểm yếu của từng
phương pháp, qua đó cho thấy ưu điểm của phương pháp phân lớp dữ liệu dựa trên

cây quyết định phù hợp để giải quyết vấn đề phân loại các thuê bao di động.
Chương 2: Cây quyết định trong vấn đề phân loại thuê bao di động
Chương này tập trung vào khảo sát tình hình thực tế tại TTVT5 Móng Cái,
trình bày về sự cần thiết của việc phân loại các thuê bao di động. Chương này cũng
trình bày các ứng dụng của cây quyết định trong viễn thông và phương pháp thiết kế
xây dựng cây quyết định để giải quyết vấn đề phân loại.
Chương 3: Thử nghiệm và đánh giá
Với cơ sở lý luận và thực trạng đã trình bày ở các chương 1 và 2, với mẫu thử
là dữ liệu của các thuê bao di động được thu thập từ TTVT5 Móng Cái – VNPT
Quảng Ninh, tôi đã áp dụng thử nghiệm trên chương trình, xuất ra kết quả phân loại
và dự đốn. Từ kết quả đó sẽ đưa ra nhận xét, đánh giá và phương hướng phát triển
chương trình trong tương lai.


2

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU
1.1 Giới thiệu
Khoa học công nghệ ngày càng phát triển đồng nghĩa với việc lượng thông tin,
dữ liệu ngày càng nhiều. Để có thể phát hiện và trích xuất những tri thức, những
thơng tin đáng giá từ kho dữ liệu khổng đó để đưa vào phục vụ con người thì chúng
ta đã biết tới khái niệm “Khai phá dữ liệu”, được biết đến như là một giải pháp có
khả năng giải quyết tình trạng thơng tin thừa, tri thức thiếu. Muốn tìm tri thức, chúng
ta phải “đào” trong các “mỏ” thông tin. Về mặt kỹ thuật, phân lớp dữ liệu là một
trong các phương pháp khai phá dữ liệu đã được ứng dụng rộng rãi trong nhiều lĩnh
vực khác nhau. Trong chương 1 này sẽ trình bày tổng quan về phân lớp dữ liệu và
một số kỹ thuật phân lớp phổ biến.

1.2 Phân lớp dữ liệu
1.2.1 Khái niệm và quy trình của phân lớp dữ liệu

Phân lớp dữ liệu là một hướng nghiên cứu quan trọng trong khai phá dữ liệu.
Nó là một dạng của phân tích dữ liệu nhằm chọn lọc, trích rút, mơ tả và phân loại một
cách có hệ thống các thơng tin hữu ích để phục vụ một mục đích cụ thể nào đó như
khảo sát, phân tích, đánh giá, dự đoán.
Về mặt kỹ thuật, phân lớp dữ liệu là một quá trình gồm hai bước:
- Bước học (giai đoạn huấn luyện): Xây dựng nên mơ hình phân lớp hoặc nói
cách khác là bộ phân loại bằng việc phân tích/ học tập huấn luyện.
- Bước phân lớp: Từ mơ hình vừa xây dựng ở bước học sẽ được sử dụng để
dự đoán các nhãn lớp cho những dữ liệu nào đó. Nếu độ chính xác của bộ phân loại
được đánh giá là chấp nhận được thì tại bước này sẽ tiến hành phân loại dữ liệu/ đối
tượng.

1.2.2 Các vấn đề trong phân lớp dữ liệu
 Tiền xử lý dữ liệu
o

Làm sạch dữ liệu

o

Phân tích sự cần thiết của dữ liệu

o

Chuyển đổi dữ liệu


3

 So sánh các mơ hình phân lớp

o

Độ chính xác dự đốn

o

Tốc độ

o

Sức mạnh

o

Khả năng mở rộng

o

Tính hiểu được

o

Tính đơn giản

 Đánh giá độ chính xác của mơ hình phân lớp

1.3 Một số kỹ thuật phân lớp dữ liệu
1.3.1 Phân lớp dữ liệu bằng Neural Network
Học bằng mạng nơ-rôn nhân tạo (ANN) được giới thiệu năm 1943 bởi nhà
thần kinh học Warren McCulloch và nhà logic học Walter Pits. Nhưng với những kỹ

thuật trong thời gian này chưa cho phép họ nghiên cứu được nhiều. Những năm gần
đây việc mô phỏng ANN mới xuất hiện và phát triển. Một mạng nơ-rôn nhân tạo, hay
gọi tắt là mạng nơ-rôn là một tập hợp các nút xuất/ nhập nối kết với nhau, trong đó
mỗi đường nối kết có một trọng số liên kết với nó.
Ưu điểm:
-

Chịu được dữ liệu nhiễu cao

-

Thích hợp với các dữ liệu nhập và xuất có giá trị liên tục

Nhược điểm:
-

Thời gian huấn luyện dài

-

Khó hiểu

1.3.2 Phân lớp dữ liệu bằng mạng Nạve Bayes
Các mơ hình phân lớp dựa theo Bayes (Bayesian classifier) là loại mơ hình
phân lớp theo lý thuyết thống kê. Chúng có thể dự đốn xác suất của các thành viên
lớp, chẳng hạn xác suất để một bản ghi nhất định thuộc về một lớp cụ thể nào đó.
Phân lớp dựa theo Bayes căn cứ vào nền tảng lý thuyết là Định lý Bayes (đặt tên theo
Thomas Bayes, nhà toán học người Anh sống ở thế kỷ 18).



4

Thuật tốn phân lớp Nạve Bayes giả định rằng ảnh hưởng của một giá trị
thuộc tính nào đó trên một lớp nhất định là độc lập với các giá trị của các thuộc tính
khác. Giả định này được gọi là sự độc lập theo điều kiện lớp (class-conditional
independence). Người ta giả định như vậy để đơn giản hóa khối lượng tính tốn cần
thiết, và vì lý do này, nó được gọi là “ngây thơ” (nạve).
Ưu điểm:
-

Thời gian học ít

-

Hiệu năng cao với cơ sở dữ liệu lớn

-

Dễ hiểu và thực hiện

Nhược điểm:
-

Các thuộc tính phụ thuộc nhau

-

Khơng sinh ra những mơ hình phân lớp dễ hiểu

1.3.3 Phân lớp dữ liệu bằng giải thuật học ILA

Thuật giải học quy nạp ILA (Inductive Learning Algorithm) được dùng để xác
định các luật phân loại cho tập hợp các mẫu học. Giải thuật này thực hiện theo cơ chế
lặp, để tìm luật riêng đại diện cho tập mẫu của từng lớp. Sau khi xác định được luật,
thuật giải sẽ loại bỏ các mẫu mà luật này bao hàm, đồng thời thêm luật mới này vào
tập luật. Kết quả có được là một danh sách có thứ tự các luật.
Q trình học của ILA xuất phát từ các thuộc tính quyết định. ILA chia tập dữ
liệu huấn luyện thành các tập con rời nhau, mỗi tập con là một phân lớp dựa trên
thuộc tính quyết định. Tiếp đến ILA sẽ xem xét trong từng phân lớp xem có thuộc
tính nào (hoặc tổ hợp thuộc tính nào) có giá trị chỉ xuất hiện trong lớp đó mà khơng
xuất hiện trong lớp khác hay khơng. Nếu có những (tổ hợp) thuộc tính và giá trị đó
sẽ được chọn làm đặc trưng cho phân lớp đó.
Ưu điểm:
-

Được đánh giá là mạnh mẽ

Nhược điểm:
-

Chi phí đào tạo cao


5

1.3.4 Phân lớp dữ liệu bằng cây quyết định
Cây quyết định là một cấu trúc biểu diễn dưới dạng cây. Mỗi cây quyết định
là một cấu trúc cây kiểu lưu đồ, trong đó mỗi nút trong biểu thị một sự kiểm tra trên
một thuộc tính nào đó, mỗi nhánh biểu diễn một kết quả của sự kiểm tra đó, cịn mỗi
nút lá chứa một nhãn lớp. Một số thuật toán cây quyết định chỉ sinh ra các cây nhị
phân (trong đó mỗi nút trong sẽ rẽ nhánh đến hai nút khác), trong khi một số thuật

toán cây quyết định khác lại có thể sinh ra những cây khơng phải nhị phân. Quy nạp
cây quyết định là việc tìm kiếm các cây quyết định từ những bản ghi huấn luyện đã
có nhãn lớp.
Ưu điểm:
-

Khả năng sinh ra những quy tắc hiểu được

-

Xử lý cả thuộc tính liên tục và rời rạc

-

Thể hiện rõ ràng thuộc tính tốt nhất

-

Dễ dàng tính tốn khi phân lớp

Nhược điểm:
-

Chi phí đào tạo cao

-

Có khả năng xảy ra lỗi khi có quá nhiều lớp

1.4 Kết luận

Chương 1 đã trình bày cái nhìn khái quát nhất về phân lớp dữ liệu, giới thiệu
một số kỹ thuật dùng cho phân lớp dữ liệu cũng như nhìn nhận các ưu điểm và nhược
điểm của từng phương pháp. Từ đó sẽ lựa chọn phương pháp phân lớp dữ liệu dựa
trên cây quyết định để giải quyết bài toán phân lớp được đặt ra. Chương 2 tiếp theo
sẽ đi vào tìm hiểu kỹ hơn phương pháp này.


6

CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN
LOẠI THUÊ BAO DI ĐỘNG
2.1 Giới thiệu
Đối với kinh doanh các dịch vụ viễn thông, tôi được biết song song với tăng
cường, nâng cấp cơ sở hạ tầng cùng với tăng chất lượng dịch vụ thì cũng cần quan
tâm đến việc đánh giá và phân loại khách hàng, tức là quản lý các thuê bao di động
đang hoạt động bằng cách chia họ thành các nhóm khác nhau với nhu cầu sử dụng
khác nhau. Bởi lẽ nếu chúng ta nắm được thông tin cùng với hành vi khách hàng
trong quá trình sử dụng dịch vụ đồng nghĩa sẽ đánh giá được xu hướng, dự đoán được
hành vi của họ trong tương lai gần, từ đó đưa ra các đối sách phù hợp để thỏa mãn họ
và thúc đẩy hoạt động kinh doanh một cách hiệu quả.
Đối với vấn đề phân loại, có rất nhiều phương pháp để thực hiện điều này, đơn
cử là hai phương pháp phân cụm dữ liệu và phân lớp dữ liệu. Trong luận văn này
nghiên cứu xoay quanh phương pháp phân lớp. Với những ưu điểm như đã phân tích
tại chương 1, tơi sẽ sử dụng cây quyết định để giải quyết vấn đề phân lớp dữ liệu để
phân loại các thuê bao di động trong viễn thông.

2.2 Vấn đề phân loại thuê bao di động Vinaphone
2.2.1 Thực trạng tại TTVT5 Móng Cái – VNPT Quảng Ninh
Dựa trên báo cáo của Sở Thông tin và Truyền thông Quảng Ninh, trong năm
2016 tỉnh Quảng Ninh có tổng số 2.584.060 thuê bao di động, đạt tỷ lệ 185 thuê

bao/100 dân, trong đó thuê bao trả sau có 144.817. Tại thành phố Móng Cái có 3969
thuê bao trả sau. Việc thống kê số lượng thuê bao ngừng sử dụng dịch vụ được làm
hàng tháng.
Thực tế hiện nay tại Trung tâm viễn thơng Móng Cái – VNPT Quảng Ninh việc
phân loại th bao di động chưa được chú trọng và chủ yếu được thực hiện thủ công
khi được yêu cầu. Do chưa nắm rõ từng loại thuê bao nào sẽ được hưởng những quyền
lợi nào nên chưa khai thác hiệu quả nguồn khách hàng sẵn có cũng như tìm kiếm


7

nguồn khách hàng mới, việc này gây khó khăn khơng nhỏ khi cạnh tranh với các nhà
mạng khác đã “hiểu rõ khách hàng” hơn. Tương tự các nhà mạng khác, Vinaphone
phân thành các thuê bao di động trả trước và trả sau.
Với thuê bao trả trước:
Thuê bao trả trước được phân loại tương đối chi tiết phục vụ từng đối tượng
khách hàng riêng biệt với ưu đãi riêng:
- Nhóm cơ bản dành cho các khách hàng phổ thơng.
- Nhóm theo vị trí địa lý có các mức cước phí ưu đãi riêng cho từng khu vực.
- Nhóm theo đối tượng (gia đình, cán bộ Đồn, học sinh sinh viên, cặp đôi).
Với thuê bao trả sau:
Thuê bao trả sau thường là những khách hàng gắn bó và xác định sử dụng dịch
vụ lâu dài. Nếu việc phân loại thuê bao trả trước khoa học, giá cước minh bạch hợp
lý và thái độ phục vụ cũng như cơ sở hạ tầng tốt thì khả năng khách hàng chuyển từ
trả trước sang trả sau là rất cao. Đây có thể coi là những khách hàng “trung thành”.
Họ cũng được phân loại để quản lý:
- Nhóm cơ bản dành cho các thuê bao có lưu lượng cuộc gọi nhiều, với giá cước
thấp hơn 40% so với thuê bao trả trước, một số tiện ích miễn phí, được quan tâm bằng
các hoạt động quà tặng, mừng sinh nhật…
- Nhóm cho các dịch vụ kinh doanh: Dành cho thương gia (cá nhân) hoặc các

doanh nghiệp (tổ chức) đã được tối ưu cước phí.
- Nhóm gia đình và nhóm đồng nghiệp: Dành cho các khách hàng đăng ký cùng
trong một gia đình hoặc một cơ quan/ tổ chức.

2.2.2 Các vấn đề tồn tại
Ngoài chủ trương phân loại khách hàng theo mục đích sử dụng dịch vụ như đề
cập bên trên thì chúng tơi cũng đã đề xuất chia nhóm các khách hàng theo giá trị
khách hàng. Tức là xác định được đâu là các khách hàng “trung thành”, khách hàng
thân thiết, khách hàng có khả năng rời mạng để đưa ra chiến lược nhằm tiếp tục phục
vụ với nhiều ưu đãi hơn hoặc kịp thời đánh giá, khắc phục những thiếu xót trong q
trình phục vụ để thỏa mãn những khách hàng có khả năng rời mạng. Điều đó khơng


8

chỉ giữ được nguồn khách hàng hiện có một cách ổn định mà cịn có tác dụng phát
triển nguồn khách hàng tiềm năng. Vấn đề đặt ra là thực hiện chia bằng phương pháp
gì và độ tin cậy ra sao?
Ngồi vấn đề quản lý khách hàng thì việc kiểm sốt được việc khách hàng rời
mạng, cắt hủy số điện thoại cũng là một việc rất quan trọng cần được quan tâm. Hàng
ngày sẽ ghi nhận các trường hợp cắt hủy của khách hàng sau đó tổng hợp theo từng
tháng để đánh giá. Trên thực tế, hàng tháng có thể lên đến hàng vài trăm trường hợp
rời mạng là bình thường. Nhiệm vụ đặt ra là làm sao để giảm thiểu được số lượng
thuê bao rời mạng một cách kịp thời và chính xác nhất. Điều này đồng nghĩa với việc
phải dự đoán được khách hàng sắp rời mạng, hiểu họ cần gì, hài lịng hay khơng hài
lịng với dịch vụ mình cung cấp.

2.3 Ứng dụng cây quyết định trong phân loại thuê bao di động
2.3.1 Xác định giá trị khách hàng
Từ quan điểm kinh doanh, giá trị khách hàng được xem như là dòng tiền ròng

của khách hàng và lợi nhuận tiềm năng, được xác định từ các yếu tố sau: Giá trị hiện
tại, giá trị lịch sử, dự đoán giá trị dài hạn, tín dụng và lịng trung thành. Qua đó, sự
đóng góp của khách hàng sẽ được đánh giá và định lượng để hỗ trợ cho các quyết
định của nhà cung cấp với mục đích phục vụ khách hàng một cách tốt nhất – điều này
kéo theo với việc phát triển thị trường doanh nghiệp, tức chúng ta có thể ngầm hiểu
là tăng ngân sách cho nhà mạng.
Theo tình hình thực tế tại cơ sở, hệ thống đánh giá khách hàng dựa trên giá trị
khách hàng hiện nay tuy được chú ý nhưng chưa được thiết kế và hệ thống thẩm định
giá trị khách hàng vẫn đang được xem xét. Hiện nay, Vinaphone dự đốn vịng đời
của th bao trong mạng dựa trên dữ liệu đặc tính, sau đó tính tốn giá trị dài hạn của
các th bao. Việc này theo quan điểm cá nhân của người viết luận văn thì có vẻ như
hướng đến từng th bao riêng lẻ hơn là khoanh vùng để phân loại thuê bao. Việc xác
định giá trị khách hàng để phân họ ra thành các nhóm có cùng đặc tính khơng chỉ
phản ảnh được thứ tự ưu tiên của từng nhóm mà cịn có thể giải quyết vấn đề họ gặp


9

phải. Bởi khi đó nhà cung cấp dịch vụ “hiểu” khách hàng của mình hơn, biết họ đang
có nhu cầu sử dụng thế nào, mong đợi điều gì, điều gì làm họ khơng hài lịng.

2.3.2 Khả năng dự đốn th bao rời mạng
2.3.2.1 Khái nhiệm rời mạng và tỷ lệ rời mạng
Trong tình hình hiện tại, khách hàng rời mạng đã trở thành vấn đề quan tâm
chính của các nhà cung cấp dịch vụ di động. Đây là một trong những ngành có tỉ lệ
khách hàng hủy dịch vụ cao với tỉ lệ trung bình hàng năm từ 20% đến 40%. Với kỷ
nguyên công nghệ thông tin như hiện nay, việc một cá nhân/ tổ chức không sử dụng
dịch vụ di động là điều ít thấy. Nhu cầu trao đổi tin tức, cập nhật thông tin giữa người
với người là điều không thể thiếu trong cuộc sống và công việc. Vì vậy, khái niệm
rời mạng trong lĩnh vực viễn thơng ngồi ý nghĩa cắt hủy dịch vụ cịn được hiểu là

khách hàng chuyển từ nhà cung cấp này sang nhà cung cấp khác.
Tỷ lệ rời mạng được tính như sau:
𝑇ỷ 𝑙ệ 𝑟ờ𝑖 𝑚ạ𝑛𝑔 =

Số khách hàng rời mạng trong tháng
. 100
Tổng số khách hàng đầu tháng

Việc xác định tỷ lệ rời mạng rất quan trọng bởi vì nếu tỷ lệ này cao đồng nghĩa
với việc đang tồn tại nhiều vấn đề yếu kém trong kinh doanh, cơ sở hạ tầng xuống
cấp, thái độ phục vụ tồi… và đó cũng là dấu hiệu cho thấy sự tăng trưởng thị phần
của các đối thủ cạnh tranh.
2.3.2.2 Kỹ thuật dự đoán rời mạng trong viễn thơng
Do tìm kiếm khách hàng tiềm năng bằng các biện pháp truyền thống như
truyền thông, tuyên truyền, quảng cáo… có chi phí rất cao, tốn thời gian và cơng sức
nên việc dự đốn hành vi của khách hàng đã trở thành một phần không thể tách rời
của quá trình ra quyết định và hoạch định chiến lược kinh doanh của ngành viễn
thơng. Song song với tìm kiếm những khách hàng mới, hãy tìm cách giữ chân các
khách hàng cũ. Không chỉ ở Việt Nam mà các hãng viễn thông lớn trên thế giới cũng
đang nghiên cứu và phát triển những mơ hình mới nhằm dự đốn hành vi khách hàng
để có biện pháp giữ chân những khách hàng có thể rời mạng và đưa ra lời khuyên kịp
thời trước khi hành vi đó xảy ra. Từ đó có thể tránh được nguy cơ mất đi khách hàng


10

cũ của nhà mạng. Trong phần này sẽ trình bày một số kỹ thuật phổ biến để giải quyết
vấn đề dự đốn, trong đó có cây quyết định.
Các giai đoạn thực hiện:






Thu thập dữ liệu
Chuẩn bị dữ liệu
Biến suy diễn
Trích xuất biến
Dựa trên thông tin thu thập được từ các cá nhân của nhà cung cấp dịch vụ viễn

thông, tôi đã lựa chọn các biến có thể dùng cho việc mơ hình cây quyết định. Các
biến được lựa chọn được nhóm lại thành 4 loại và được mơ tả dưới đây:
Nhóm 1: Thơng tin khách hàng
Nhóm 2: Hóa đơn và thanh tốn
Nhóm 3: Chi tiết cuộc gọi
Nhóm 4: Dịch vụ chăm sóc khách hàng
 Xây dựng mơ hình:
-

Ban đầu đối với mỗi thuộc tính, giá trị

DỮ LIỆU

KHO CHỨA
DỮ LIỆU

TIỀN XỬ LÝ
DỮ LIỆU

TRÍCH XUẤT ĐẶC

TÍNH / BIẾN

DỮ LIỆU ĐÃ
PHÂN TÍCH

DỮ LIỆU THỬ
NGHIỆM

ngưỡng sẽ được gán.
-

Các giá trị thuộc tính của tập dữ liệu huấn

luyện được so sánh với ngưỡng của thuộc tính để
kết luận rằng một khách hàng sẽ quay lại hay
không. Các luật đơn giản "if ... then ... else" được
áp dụng trong q trình này.
-

Một mơ hình sau đó được xây dựng cho tập

dữ liệu đào tạo.
-

Mơ hình này sẽ được áp dụng trên tập dữ

liệu thử nghiệm và liệt kê kết quả.
-

Các bước trên có thể được lặp lại bằng cách


thay đổi giá trị ngưỡng của các thuộc tính được
chọn.
Hình 2.3: Tạo dựng mơ hình khai phá dữ liệu trong Viễn thơng

TẠO MƠ HÌNH
DỰ ĐỐN
(Cây quyết định)


11

Kỹ thuật khai phá dữ liệu được áp dụng trong cơ sở dữ liệu ngành viễn thơng
cho các mục đích khác nhau. Mỗi loại sử dụng các loại dữ liệu viễn thơng khác nhau
tùy thuộc vào mục đích muốn làm gì. Dữ liệu trong ngành viễn thơng được chia thành
3 loại. Đó là: Dữ liệu khách hàng (Nhân khẩu học); Dữ liệu mạng; Dữ liệu hoá đơn.
Sau khi dữ liệu đã được xử lý chúng ta có thể áp dụng một trong các kỹ thuật dùng
trong khai phá dữ liệu như: Cây quyết định, mạng nơ – rôn nhân tạo, hồi quy
logistic… để xây dựng mơ hình dự đốn.
2.3.2.3 So sánh một số mơ hình dự đốn rời mạng
Phần này sẽ so sánh hai kỹ thuật: Dự đoán rời mạng bằng cây quyết định và
hồi quy logistic. So sánh này làm rõ sự tốt hơn của kỹ thuật cây quyết định và nhấn
mạnh nhu cầu về những phương pháp tiên tiến để mơ hình hóa vấn đề dự đốn rời
mạng trong viễn thông do lượng dữ liệu của ngành này rất lớn đòi hỏi một phương
pháp mạnh mẽ đủ để giải quyết vấn đề.
 Kỹ thuật sử dụng cây quyết định
Mục đích chính của cây quyết định là sử dụng để phân loại và dự đoán lớp của
các đối tượng chưa biết. Với ưu điểm dễ dàng tính tốn khi phân lớp của cây quyết
định: Mặc dù cây quyết định có thể chứa nhiều định dạng, nhưng trong thực tế, các
thuật toán sử dụng để tạo ra cây quyết định thường tạo ra những cây với số phân

nhánh thấp và các test đơn giản tại từng nút. Những test điển hình là: So sánh số, xem
xét phần tử của một tập hợp, và các phép nối đơn giản. Mặc dù nhược điểm của cây
quyết định là chi phí cao khi có quá nhiều nút hoặc quá nhiều lớp, nhưng trong lĩnh
vực viễn thông, các nút này không nhiều bởi số lớp khơng nhiều và khách hàng cũng
khơng nhiều thuộc tính.
 Mơ hình hồi quy logistic
Hồi quy logistic cũng là một kỹ thuật khai phá dữ liệu có khả năng áp dụng để
dự đoán khách hàng rời mạng trong ngành Viễn thơng. Hồi quy logistic được dựa
trên một phương pháp tốn học theo định hướng để phân tích ảnh hưởng của các biến


12

trên những biến khác. Nó là mơ hình định lượng trong đó biến phụ thuộc là biến giả,
chỉ nhận 2 giá trị là 0 và 1.
Biến

Ký hiệu

Loại

Phụ thuộc

y

Nhị phân

Độc lập

xi


Liên tục hoặc rời rạc

Dự đoán được thực hiện bằng cách tạo ra một tập hợp các phương trình liên
kết giữa các giá trị đầu vào (ví dụ như những gì ảnh hưởng đến khách hàng) với
trường đầu ra (khách hàng sẽ rời mạng). Các phương trình (2.2), (2.3), (2.4) dưới đây
đưa ra các cơng thức tốn học cho một mơ hình hồi quy logistic:
𝑝(𝑦 = 1 |𝑥1 , … , 𝑥𝑛 ) = 𝑓(𝑦)
𝑓(𝑦) =

1
1+𝑒 −𝑦

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑛 𝑥𝑛

(2.2)
(2.3)
(2.4)

Trong đó:
o y là biến mục tiêu (biến phụ thuộc) cho mỗi cá thể j (khách hàng trong
mơ hình churn), y là một lớp nhị phân có nhãn (0 hoặc 1)
o 𝛽0 là một hằng số
o 𝛽1 là trọng số cho biến cụ thể được liên kết với mỗi khách hàng j (j
=1,…,m)
o 𝑥1 , … , 𝑥𝑛 là các biến dự đốn (biến độc lập) cho mỗi khách hàng j, từ
đó y sẽ được dự đoán
Bộ dữ liệu khách hàng được phân tích để tạo thành phương trình hồi quy. Một
quy trình đánh giá cho mỗi khách hàng trong tập dữ liệu tiếp đó sẽ được thực hiện.
Một khách hàng có thể có nguy cơ bị dự đốn sẽ rời mạng (churn) nếu giá trị p cho

khách hàng lớn hơn giá trị được xác định trước (ví dụ: 0.5).
Nhận xét:
Có nhiều kỹ thuật để xây dựng nên mơ hình dự đốn rời mạng như một số kỹ
thuật đã trình bày. Nhưng với ưu thế về độ dễ hiểu, có khả năng sinh ra những quy
tắc hiểu được, xử lý dữ liệu nhanh chóng thì sử dụng cây quyết định để giải quyết
vấn đề phân loại các thuê bao di động là lựa chọn đúng đắn.


13

2.4 Thiết kế và xây dựng cây quyết định
2.4.1 Tư tưởng thuật tốn xây dựng cây quyết định
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như CLS, ID3,
C4.5... nhưng nhìn chung quá trình xây dựng cây quyết định đều được chia là 3 giai
đoạn cơ bản:
Giai đoạn 1: Xây dựng cây
Giai đoạn 2: Cắt tỉa cây
Giai đoạn 3: Đánh giá cây

2.4.2 Xây dựng cây quyết định
Vấn đề xây dựng cây quyết định có thể giải quyết bằng nhiều phương án, sau
đây là một số thuật toán phổ biến được ứng dụng rộng rãi:
2.4.2.1 Thuật toán CLS
2.4.2.2 Thuật toán ID3
2.4.2.3 Thuật toán C4.5
2.4.2.4 Thuật toán SLIQ

2.4.3 Cắt tỉa cây quyết định
Việc cắt tỉa cây là nhằm tối ưu hóa cây kết quả: tối ưu về kích cỡ và độ chính
xác của việc phân lớp bằng cách cắt bỏ các nhánh không phủ hợp.

Tiền cắt tỉa:
Phương pháp sẽ dừng việc phát triển cây trước khi cây vươn đến điểm mà việc
phân lớp các mẫu huấn luyện được hoàn thành. Nghĩa là trong quá trình xây dựng
cây, một nút có thể sẽ khơng được tách thêm bước nữa nếu như kết quả của phép tách
đó rơi vào một ngưỡng khơng được phép, nút đó trở thành nút là và được gán nhãn là
nhãn của lớp phổ biến nhất của tập mẫu tại nút đang xét.
Hậu cắt tỉa:
Phương pháp này ngược với phương pháp trên, nó cho phép phát triển cây đầy
đủ sau đó mới cắt tỉa. Nghĩa là xây dựng cây sau đó mới thực hiện cắt bỏ các nhánh
khơng hợp lý. Điều này cũng có nghĩa là trong quá trình xây dựng cây cho phép tình


14

trạng Over fitting xảy ra. Nếu một nút mà các cây con của nó bị cắt thì nó trở thành
nút là và nhãn của nút là là nhãn của lớp phổ biến nhất trong các con của nó.

2.6 Kết luận
Chương 2 tập trung nghiên cứu về tư tưởng thuật toán, quy trình xây dựng cây
quyết định, ứng dụng của cây quyết định trong viễn thông như phân lớp dữ liệu để
xác định giá trị khách hàng và dự đoán thuê bao rời mạng. So sánh hai phương pháp
dự đoán là kỹ thuật sử dụng cây quyết định và hồi quy logistic. Trong chương 2 cũng
trình bày thực trạng và các vấn đề phân loại thuê bao di động tại TTVT5 Móng Cái –
VNPT Quảng Ninh. Nhận thấy rằng phân loại như hiện tại là rất khoa học và hiệu
quả, được áp dụng trên tồn quốc. Tuy nhiên tơi đã đề xuất thêm một số hướng phân
loại thuê bao khác có thể tiến hành song song với cách phân loại hiện tại. Cụ thể sẽ
trình bày trong chương 3.


15


CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1 Giới thiệu
Như đã trình bày tại phần 2.2 chương 2, sau khi khảo sát thực trạng và nắm
được những vấn đề tồn tại trong phân loại các thuê bao di động tại TTVT5 Móng Cái
– VNPT Quảng Ninh, chương 3 tơi xin đề xuất một số giải pháp để giải quyết vấn đề
phân loại thuê bao di động Vinaphone. Dựa vào đó ta có thể đánh giá giá trị khách
hàng và dự đốn được hành vi khách hàng trong tương lai gần, mục đích chính là dự
đốn th bao nào có khả năng sẽ rời mạng để đưa ra đối sách trước khi điều đó xảy
ra. Việc này sẽ hỗ trợ trực tiếp hoạt động kinh doanh, giảm thiểu chi phí duy trì và
tìm kiếm khách hàng. Hoặc sử dụng như dữ liệu lưu trữ ghi lại lịch sử hành vi khách
hàng nhằm hoạch định chiến lược kinh doanh trong tương lai.

3.2 Thu thập dữ liệu
Từ hệ thống của Viễn thông Quảng Ninh sẽ xuất ra những file dữ liệu chứa
thông tin của khách hàng theo từng tháng, các file này có định dạng *.mht, có thể mở
bằng trình duyệt Internet Explorer của Windows hoặc mở bằng Microsoft Word. Đây
là dữ liệu chứa rất nhiều thông tin của khách hàng như họ tên, mã số, số điện thoại,
số tiền phải thanh toán hàng tháng, số tiền phát sinh, lịch sử cuộc gọi… vì thế chưa
thể dùng dữ liệu này để phân loại được, mà phải tinh chỉnh, chọn lọc những thông tin
cần thiết phục vụ việc phân loại.
Trước mắt, việc tạo một danh mục khách hàng đã được loại bỏ dữ liệu thừa sẽ
được thực hiện trên Microsoft Excel. Việc xây dựng một ứng dụng để tự động lọc các
thông tin cần thiết từ dữ liệu thô được xuất ra từ hệ thống là một vấn đề khác, ứng
dụng đó sẽ được xây dựng trong tương lai. Trong luận văn này chỉ xoay quanh vấn
đề phân loại khách hàng mà thơi.

3.3 Tình hình phát hiện rời mạng được ứng dụng trong nước hiện nay
Hiện nay để phát hiện rời mạng Vinaphone và một số nhà mạng khác đã áp
dụng quy trình như sau:

- Thu thập dữ liệu
- Xử lý và trích xuất dữ liệu


16

- Phân tích đặc trưng dữ liệu
- Xác định luật
- Thực nghiệm và đánh giá
Về cơ bản, đây là phương pháp phổ biến, phương pháp này dựa trên các thông
tin chăm sóc khách hàng, nhà mạng trích chọn các đặc trưng cần thiết của các thuê
bao có khả năng rời mạng để áp dụng dự đốn. Sau đó xây dựng các luật để phân lớp
dữ liệu khách hàng. Sau khi đã phân lớp thì việc phát hiện rời mạng sẽ được thực hiện
dựa trên các đặc tính riêng biệt của từng lớp.

3.4 Phân loại khách hàng và dự đoán rời mạng dựa trên số tiền thanh toán
Việc phân loại nhằm mục đích đánh giá giá trị và dự đốn hành vi khách hàng
có thể thực hiện bằng nhiều phương thức khác nhau. Chẳng hạn như phân loại khách
hàng dựa trên tuổi tác, vị trí địa lý, vị trí xã hội, nghề nghiệp… là hồn tồn có thể
bởi với mỗi đặc tính đều có thể rút ra các thói quen, các hành vi thường xuyên, từ đó
suy ra các luật phục vụ việc phân loại và dự đoán. Các phương thức trên rất phổ biến
và đã được áp dụng rộng rãi trong vấn đề phân loại thuê bao di động cũng như các
lĩnh vực khác. Tuy nhiên với tiêu chí “sử dụng tất cả những gì mình đang có” nhằm
tiết kiệm chi phí, thời gian, tơi xin đề xuất phân loại khách hàng dựa theo số tiền
khách hàng thanh toán hàng tháng.
Cụ thể, tôi xin đề xuất chia một năm làm ba đợt đánh giá, mỗi đợt bốn tháng và sẽ
chia khách hàng thành ba lớp khác nhau. Tôi thực hiện như sau:
Nhóm thứ nhất: Các khách hàng “Có khả năng rời mạng”. Nhóm này gồm
những khách hàng có hai đặc điểm sau:
- Các khách hàng nợ cước ít nhất 2 tháng.

- Vì phân lớp theo số tiền khách hàng phải trả hàng tháng, mà mỗi tháng số tiền
có thể tăng giảm nhiều hay ít, ta gặp vấn đề số tiền giảm đó có phải do khách hàng
đang muốn rời mạng hay không? Để giải quyết vấn đề này tôi sẽ tính giá trị trung
bình cộng số tiền khách hàng phải trả trong bốn tháng đang xét. Sau đó lấy giá trị
trung bình đó so sánh với giá trị của tháng đầu kỳ. Nếu những thuê bao nào có số tiền


17

trung bình xét trong bốn tháng có giá trị bằng 70% trở xuống so với số tiền của tháng
đầu kỳ đang xét thì xếp vào lớp “Có khả năng rời mạng”.
Nhóm thứ hai: Các khách hàng “Ưu tiên 1”. Lớp này gồm các khách hàng có
số tiền trung bình trong bốn tháng đang xét bằng 110% so với tháng đầu kỳ.
Nhóm thứ ba: Các khách hàng “Ưu tiên 2”. Lớp này gồm các khách hàng có
số tiền trung bình trong bốn tháng sao cho: 70% < X < 110%.

3.5 Cài đặt
Từ những file chứa thông tin cụ thể của từng khách hàng như trong hình 3.1,
chúng ta chỉ lựa chọn những thuộc tính cần thiết cho việc phân loại khách hàng, tránh
đụng chạm đến thông tin riêng tư của họ như lịch sử cuộc gọi. Các thuộc tính được
lựa chọn bao gồm: Số thứ tự; Mã khách hàng; Họ, tên đệm; Tên; Địa chỉ; Số thuê
bao; Số tiền thanh toán các tháng đang xét (dữ liệu mẫu ghi lại các tháng 5, 6, 7, 8);
Nợ cước; Số tháng nợ cước; Số tiền nợ. Những thuộc tính này được nhập dưới dạng
file Excel có định dạng là *.xlsx.

Hình 3.1: File đầu vào sau khi đã được chọn lọc thuộc tính

Sau khi đã có dữ liệu đầu vào với định dạng như trên, một chương trình được
viết bằng Python sẽ phân tích file dữ liệu đầu vào đó. Từ cây quyết định dùng để dự
đốn như hình 3.2, chúng ta rút ra các luật để phân loại các thuê bao di động. Đoạn

code dưới đây thể hiện việc phân loại các thuê bao di động dựa trên số tiền thanh toán
hàng tháng của khách hàng như đã trình bày cụ thể trong phần 3.3:
Giao diện chương trình:


18

Hình 3.2: Giao diện chương trình phân loại khách hàng

3.6 Thử nghiệm và đánh giá
3.6.1 Thử nghiệm
Như đã đề cập trong phần 3.2, khách hàng sẽ được chia thành 3 nhóm khác
nhau: Nhóm “Ưu tiên 1”; Nhóm “Ưu tiên 2”; và cuối cùng là nhóm được xếp vào các
thuê bao có thể rời mạng.
Từ giao diện này chúng ta sẽ lựa chọn file dữ liệu đầu vào bằng nút “Browse”.
Tiếp theo chọn “Phân tích”, chương trình sẽ tiến hành đọc và hiển thị ra giao diện
chương trình thơng tin của file đầu vào cùng với các số liệu về “Tổng số thuê bao”,
“Số thuê bao ưu tiên 1”, “Số thuê bao ưu tiên 2”, “Số thuê bao dự đoán rời mạng”
như trong hình 3.4.


19

Cũng trên giao diện này, nếu muốn xem các nhóm thuê bao hiển thị theo từng
danh sách riêng biệt thì chọn các nút tương ứng với nhóm đó. Ví dụ nếu muốn biết
những thuê bao nào có thể sẽ rời mạng thì chọn chức năng “Dự đốn rời mạng” trên
giao diện chương trình. Thể hiện như trong hình 3.5 bên dưới.

Hình 3.3: Chức năng “Dự đốn rời mạng”


Nếu muốn xuất dữ liệu ra dưới dạng file Excel, ta chọn chức năng “Export”,
lựa chọn vị trí lưu trên máy tính và bấm “Save” để lưu lại.
Chương trình cũng hỗ trợ vẽ biểu đồ dựa trên số liệu đầu vào, giúp có cái nhìn
trực quan và khái quát hơn.


20

Hình 3.4: Biểu đồ thể hiện tỷ lệ các thuê bao di động

Các chức năng còn lại cũng đưa ra thơng tin tương tự, ứng với mỗi nhóm th
bao di động được xét. Về cơ bản, chương trình đã giải quyết được bài toán phân loại
khách hàng, đánh giá giá trị và dự đoán rời mạng. Tuy nhiên việc dự đốn rời mạng
vẫn phải nói rằng đó chỉ là “dự đốn” để đưa ra biện pháp phịng ngừa kịp thời chứ
chưa thể khẳng định những khách hàng trong nhóm “Có thể rời mạng” chắc chắn sẽ
rời mạng. Nhưng, với những số liệu dao động bất thường theo từng tháng, những thuê
bao như vậy sẽ được chú ý và kiểm chứng trong điều kiện thực tế.

3.6.2 Đánh giá
Theo đánh giá khách quan thì chương trình cịn rất thơ sơ do chỉ tập trung vào
vấn đề phân loại các thuê bao di động, từ đó sẽ đánh giá giá trị và dự đốn hành vi
của các th bao mà thơi. Tuy kết quả đưa ra thỏa mãn bài toán phân loại, nhưng


21

trong thực tế còn nhiều vấn đề như: Dữ liệu đa dạng hơn, vấn đề liên kết giữa chương
trình với cơ sở dữ liệu khách hàng của VNPT Quảng Ninh để trích xuất dữ liệu cần
thiết cũng như cần thu thập thông tin về tất cả những dịch vụ di động đang hoạt động
trên địa bàn, các chức năng đọc, ghi, in, tra cứu, xử lý dữ liệu tự động… cũng cần

được bổ sung.

3.7 Kết luận
Qua cài đặt, thử nghiệm và đánh giá tại chương 3, luận văn đã giải quyết được
vấn đề phân loại thuê bao di động bằng phương pháp phân lớp dữ liệu. Với ý tưởng
so sánh giữa giá tiền trung bình xét theo bốn tháng một lần với giá tiền của tháng đầu
tiên xét trong bốn tháng đó đã giải quyết được bài tốn. Từ dữ liệu thử nghiệm đầu
vào cho ra kết quả phù hợp, đúng với mong đợi của người viết. Tuy nhiên đây mới
chỉ là bộ dữ liệu thử nghiệm, số lượng thuê bao chưa nhiều, dịch vụ chưa đa dạng nên
chương trình cần phải tiếp tục kiểm tra trên bộ dữ liệu lớn hơn để có thể đánh giá một
cách chính xác hơn.


22

KẾT LUẬN
 Luận văn đã đạt được các kết quả sau:
- Nghiên cứu, tìm hiểu về phân lớp dữ liệu và một số phương pháp phân lớp
dữ liệu phổ biến. Rút ra ưu điểm, nhược điểm của từng phương pháp. Từ
đó chọn ra phương pháp phân lớp dữ liệu dựa trên cây quyết định để giải
quyết vấn đề phân loại thuê bao di động. Trình bày quy tắc và một số thuật
toán xây dựng cây quyết định.
- Ứng dụng của cây quyết định trong viễn thông như xác định giá trị khách
hàng và dự đoán rời mạng. Nghiên cứu và so sánh hai thuật toán dự đoán
rời mạng là kỹ thuật sử dụng cây quyết định và hồi quy logistic để làm rõ
ưu thế của cây quyết định.
- Đánh giá thực trạng và các vấn đề tồn tại tại TTVT5 Móng Cái. Thu thập/
xử lý dữ liệu và đề xuất một giải pháp phân loại các thuê bao di động dựa
trên số tiền khách hàng thanh tốn hàng tháng, có thể thực thiện song song
với phương pháp phân loại cũ đã được triển khai.

- Chia một năm làm ba đợt đánh giá, mỗi đợt xét trong bốn tháng. Việc đánh
giá giá trị khách hàng và dự đoán những thuê bao có thể rời mạng trong
tương lai như sau:
o Các khách hàng đang nợ cước hơn một tháng bị xếp vào nhóm “Có
thể rời mạng”.
o Tính giá trị trung bình của số tiền mà khách hàng phải thanh toán trong
bốn tháng đang xét. Nếu giá trị đó chỉ bằng 70% trở xuống so với
tháng đầu kỳ đang xét thì thuê bao đó thuộc nhóm “Có thể rời mạng”.
o Nếu giá trị trung bình của số tiền mà khách hàng phải thanh toán trong
bốn tháng đang xét lớn hơn hoặc bằng 110% so với tháng đầu kỳ thì
xếp th bao đó vào “Nhóm Ưu tiên 1”.
o Các th bao cịn lại, tức là các th bao có số tiền trung bình bốn
tháng thỏa mãn: 70% < X < 110% sẽ xếp vào “Nhóm Ưu tiên 2”.


23

-

Từ dữ liệu thử nghiệm, chương trình cho kết quả thỏa mãn yêu cầu đặt ra.
Trong số 50 khách hàng trong dữ liệu mẫu, chương trình xác định được:
o Số thuê bao Ưu tiên 1: Có 6 (chiếm 12.00%)
o Số thuê bao Ưu tiên 2: Có 36 (chiếm 72.00%)
o Số th bao được dự đốn rời mạng: Có 8 (chiếm 16.00%)

 Những hạn chế:
-

Do mới dừng lại ở dữ liệu thử nghiệm, việc thu thập thông tin các thuê bao
di động là khá khó khăn nên số lượng dữ liệu cịn ít và chưa đa dạng do mới

tập trung ở các thuê bao sử dụng dịch vụ trả sau. Vì thế chưa mơ phỏng
được hết những tình huống có khả năng xảy ra trong thực tế.

-

Việc xử lý dữ liệu thơ để trích chọn những thuộc tính cần thiết để tinh chế
thành dữ liệu đầu vào cho ứng dụng phân loại cịn phải thực hiện thủ cơng,
chưa có tiện ích xử lý tự động. Ngoài ra cũng chưa xây dựng hệ thống lưu
trữ dữ liệu dành riêng cho ứng dụng.

-

Giao diện chương trình cịn thơ sơ, chỉ hướng đến mục tiêu đã đề ra phân
loại thuê bao di động và dự đốn rời mạng là chính, chưa có thêm tiện ích.

-

Tỷ lệ chưa được tính chính xác, chỉ dừng ở mức độ tương đối.

 Phương hướng phát triển:
-

Ứng dụng có thể phân loại, đánh giá và dự đoán với tập dữ liệu đa dạng
hơn, khơng cịn gói gọn trong dữ liệu thuê bao trả sau như hiện nay.

-

Vấn đề lưu trữ dữ liệu sẽ được hồn thiện, khơng cịn là các file rời rạc mà
sẽ được lưu trữ tập trung và khoa học để quản lý dễ dàng.


-

Nghiên cứu biện pháp xử lý dữ liệu thô thành dữ liệu tinh chế để tích hợp
vào chương trình, khơng cần thao tác thủ công qua Microsoft Excel.

-

Thiết kế lại giao diện thân thiện với người dùng hơn; Biểu diễn số liệu đầu
ra khoa học hơn để dễ dàng theo dõi tình hình rời mạng và phát triển theo
từng tháng; Thêm một số tiện ích như tra cứu, tìm kiếm, in ấn…


×