Tải bản đầy đủ (.pdf) (114 trang)

Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.48 MB, 114 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THƠNG
Chun ngành: Hệ thống thơng tin
Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019



LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo
điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi,
đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để
phục vụ cho q trình học tập và cơng tác của tơi.
Đặc biệt, tơi xin được bày tỏ lịng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN
HIẾU đã tận tình chỉ bảo cho tơi trong suốt q trình học tập và nghiên cứu, giúp
tơi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thơng tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin được gửi lời cảm ơn tới gia đình, đờng nghiệp, người thân đã động
viên, giúp đỡ tơi trong q trình hồn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn cịn ít nên luận văn khơng
tránh khỏi những thiếu sót. Tơi xin trân trọng tiếp thu các ý kiến của các thầy, cô,
bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.


LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu
và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đồn Cơng nghiệp
- Cơng nghệ Cao Viettel và đối tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà khơng
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 12 tháng 11 năm 2019.
Học viên


Nguyễn Chung Thành Hưng.


MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ....................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv
DANH MỤC CÁC BẢNG .............................................................................................. i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. TỞNG QUAN .......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5
1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5
1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6
1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10
1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13
1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17
1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19
1.2.2. Xử lý dữ liệu trong BigData .........................................................................22
1.2.2.1. Xử lý dữ liệu với mơ hình Map-Reduce ................................................22
1.2.2.2. Các tác vụ Map và Reduce .....................................................................23
1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25
1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28
1.3.1. Bài toán phân tích dự báo .............................................................................28
1.3.2. Các mơ hình dự báo cơ bản. .........................................................................28
1.3.2.1. Mơ hình dự báo dựa trên thuật tốn cây quyết định: .............................28
1.3.2.2. Mơ hình dự báo Gradient Boosting. .......................................................30

1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31
1.3.3.1. Tạo biến đặc trưng ..................................................................................31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32
1.3.3.3. Huấn luyện và xác thực trong các mơ hình dự báo ................................ 34
1.3.3.4. Đánh giá mơ hình dự báo .......................................................................35
1.3.4. Giới thiệu cơng cụ phân tích Rapidminer .....................................................42
CHƯƠNG 2. ................................................................................................................. 44


PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44
2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44
2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47
2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48
2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50
2.1.2. Hiện trạng của Viettel ...................................................................................50
2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50
2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51
2.2.1.1. Tầng Data Ingestion ...............................................................................53
2.2.1.2. Tầng Data Processing .............................................................................53
2.2.1.3. Tầng Data Analysis Layer ......................................................................54
2.2.1.4. Tầng Data Visualization .........................................................................54
2.2.1.5. Tầng Data Repository.............................................................................54
2.2.1.6. Tầng Data Govenance ............................................................................55
2.2.2. Mơ hình tở chức thực tế hệ thống BigData tại Viettel ..................................55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56
2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60

CHƯƠNG 3. ................................................................................................................. 62
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62
DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62
3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62
3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62
3.1.2. Bài toán yêu cầu ............................................................................................62
3.1.3. Các bước thực nghiệm. .................................................................................63
3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63
3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63
3.2.1.1. Mơ hình triển khai Logic ........................................................................63
3.2.1.2. Mơ hình triển khai vật lý và thông số hệ thống ......................................64
3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65
3.2.1.4. Nguồn dữ liệu .........................................................................................67


3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68
3.2.2. Xây dựng mơ hình dự báo TBRM. ...............................................................69
3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74
3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74
3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS
(VAS_CDR_DAY) .............................................................................................75

3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75
3.3.2. Lựa chọn đặc trưng và mơ hình hóa .............................................................76
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76
3.3.2.2. Huấn luyện và xác nhận mơ hình rời mạng. ..........................................79
3.3.3. Tối ưu mơ hình dự báo. ................................................................................80
3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81
3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82
3.3.3.4. Tối ưu mơ hình bằng cách lựa chọn lại các đặc trưng ...........................82
3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82
3.3.3.6. Lựa chọn mơ hình dự đốn tốt nhất .......................................................83
3.3.3.7. Chạy lại mơ hình dự báo với thuật toán Gradien Booting. ....................83
3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84
3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84
3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84
KẾT LUẬN .................................................................................................................. 86
TÀI LIỆU THAM KHẢO ............................................................................................ 87
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90


PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT

Ký hiệu/chữ
viết tắt

1


ACID

2
3

AUC
AUROC

4

BASE

5

BLOB

6

CAP

7

CEM

8
9
10
11
12

13
14
15
16
17
18
19
20
21

CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB

22

IMDG

23

24
25
26

IOB
IoT
LS
M2M

27

MDA

Ý nghĩa
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype

Extract Transform Load (Trích xuất dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
Information Gain (Độ tăng thông tin)
In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập huấn luyện)
Machine to Manchine
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)


STT

Ký hiệu/chữ
viết tắt

28

MDG

29
30

31

OOB
POD
QC

32

RDBMS

33
34
35
36
37
38
39
40
41
42

RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR

WFLD

Ý nghĩa
Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với
mỗi biến)
Out-of-bag
Period of Day
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date


DANH MỤC CÁC BẢNG
STT Chương

Mục

Bảng

1


1

1.3.3.1

Bảng 1.1

2

1

1.3.3.2

Bảng 1.2

3

3

3.2.1.2

Bảng 3.1

4

3

3.2.1.4

Bảng 3.2


5

3

3.3.1.1

Bảng 3.3

6

3

3.3.1.2

Bảng 3.4

7

3

3.3.1.3

Bảng 3.5

8

3

3.3.1.4


Bảng 3.6

9

3

3.3.1.5

Bảng 3.7

10

3

3.3.1.6

Bảng 3.8

11

3

3.3.1.7

Bảng 3.9

12

3


3.3.1.8

Bảng 3.10

13

3

3.3.1.9

Bảng 3.11

14

3

3.3.1.10

Bảng 3.12

15

3

3.3.1.11

Bảng 3.13

16


3

3.3.1.12

Bảng 3.14

17

3

3.3.2.1

Bảng 3.15

18

3

3.3.2.2

Bảng 3.16

19

3

3.3.2.2

Bảng 3.17


Tên bảng
Các thuộc tính ví dụ Ngày và Khách truy
cập và thuộc tính được trích xuất IsWeekendDayfDayg
Các phương pháp trích chọn thuộc tính
Cấu hình hệ thống phân tích BigData thực
nghiệm
Ng̀n dữ liệu hệ thống phân tích BigData
thực nghiệm
Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu sử dụng Data
của thuê bao
Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
Các biến đặc trưng cho dữ liệu cước phí các
gói sử dụng theo chu kỳ của thuê bao
Các biến đặc trưng cho dữ liệu tổng hợp
charge cước sử dụng các dịch vụ VAS của
thuê bao

Các biến đặc trưng cho dữ liệu home của
thuê bao
Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
Lựa chọn các thuộc tính quan trọng bằng
thuật toán Decision Tree
Validation of the Training Data Set (80% of
Total)
Validation of the Testing Data Set (20% of
Total)


STT Chương
Mục
20
3
3.3.2.2
21
3
3.3.2.2
22
3
3.3.2.2
23
3
3.3.3.1

Bảng
Bảng 3.18
Bảng 3.19

Bảng 3.20
Bảng 3.21

24

3

3.3.3.1

Bảng 3.22

25

3

3.3.3.4

Bảng 3.23

26

3

3.3.3.6

Bảng 3.24

27

3


3.3.3.7

Bảng 3.25

Tên bảng
Sử dụng Logistic Regression
Sử dụng Naïve Bayes
So sánh các kết quả
Kết quả phân cụm bằng thuật toán K-mean
Kết quả chi tiết phân cụm bằng thuật tốn
K-mean
Tối ưu mơ hình bằng cách lựa chọn lại các
đặc trung
Lựa chọn mơ hình dự đốn tốt nhất
Mơ hình dự báo với thuật tốn Gradien
Booting


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT
1
2

Chương
1
1

Mục
1.1.1.4

1.1.1.4

Hình
Hình 1.1
Hình 1.2

3

1

1.1.1.4

Hình 1.3

4
5

1
1

1.1.1.4
1.1.1.4

Hình 1.4
Hình 1.5

6

1


1.1.1.5

Hình 1.6

7

1

1.1.1.5

Hình 1.7

8

1

1.1.1.5

Hình 1.8

9

1

1.1.1.5

Hình 1.9

10


1

1.1.2

Hình 1.10

11

1

1.2.1.2

Hình 1.11

12

1

1.2.1.2

Hình 1.12

13

1

1.2.1.2

Hình 1.13


14

1

1.2.1.2

Hình 1.14

15

1

1.2.1.2

Hình 1.15

16

1

1.2.2.2

Hình 1.16

17

1

1.2.2.2


Hình 1.17

18
19

1
1

1.3.2.1
1.3.2.1

Hình 1.18
Hình 1.19

20

1

1.3.2.3

Hình 1.20

21

1

1.3.2.3

Hình 1.21


Tên hình vẽ
Một ví dụ về lưu trữ dạng Key-value
Một ví dụ về lưu trữ dạng Document
Một ví dụ về lưu trữ dạng Columnfamily
Một ví dụ về lưu trữ dạng Graph
Sơ đờ Venn tóm tắt định lý CAP
Một quy trình ETL có thể trích x́t dữ
liệu từ nhiều ng̀n và chuyển đởi nó
để tải vào một hệ thống đích duy nhất
Một tác vụ có thể được chia thành ba
tác vụ phụ được thực thi song song trên
ba bộ xử lý khác nhau trong cùng một
máy
Một ví dụ về xử lý dữ liệu phân tán
Hadoop là một khung đa năng cung cấp
cả khả năng xử lý và lưu trữ
Giá trị và độ phức tạp tăng từ phân tích
mơ tả đến phân tích đề x́t
Thiết bị lưu trữ trong bộ nhớ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so với
thiết bị lưu trữ trên đĩa
Một ví dụ mơ tả việc truy x́t dữ liệu
từ IMDG
Một ví dụ về lưu trữ IMDG xử lý với
một truy vấn liên tục
Một ví dụ mơ tả việc truy xuất dữ liệu
từ IMDB
Một ví dụ về lưu trữ IMDB được cấu
hình với một truy vấn liên tục
Một minh họa về cơng việc

MapReduce
Một ví dụ về MapReduce đang hoạt
động
Biểu diễn cây quyết định cơ bản
Cây quyết định cho việc chơi Tennis
Biểu đờ hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
Biểu đờ hàm chi phí


STT
22

Chương
1

Mục
1.3.2.3

Hình
Hình 1.22

23

1

1.3.2.4

Hình 1.23


24
25
26
27
28
29
30

1
1
1
1
1
1
1

1.3.2.5
1.3.2.5
1.3.3.3
1.3.3.4
1.3.3.4
1.3.3.4
1.3.3.4

Hình 1.24
Hình 1.25
Hình 1.26
Hình 1.27
Hình 1.28
Hình 1.29

Hình 1.30

31

1

1.3.3.4

Hình 1.31

32

1

1.3.3.4

Hình 1.32

33

1

1.3.3.4

Hình 1.33

34

1


1.3.3.4

Hình 1.34

35

2

2.1.1

Hình 2.1

36

2

2.1.1

Hình 2.2

37

2

2.2.1

Hình 2.3

38


2

2.2.2

Hình 2.4

39
40

2
2

2.2.3.2
2.2.4

Hình 2.5
Hình 2.6

41

3

3.2.1.1

Hình 3.1

42

3


3.2.1.2

Hình 3.2

43

3

3.2.1.3

Hình 3.3

44
45

3
3

3.2.1.5
3.2.2

Hình 3.4
Hình 3.5

46

3

3.3.2.1


Hình 3.6

Tên hình vẽ
Mơ phỏng Gradient Descent
Sơ đờ Cây quyết định (Ng̀n: Basten
K., 2016)
Mơ hình mạng nơron nhiều lớp
Tiến trình học
Vai trị của mơ hình và từng tập dữ liệu
Overfitting, Underfitting
Confusion Matrix
Phương pháp Bias & Variance
Phương pháp đường cong AUC-ROC
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp tốt nhất khi 2 đường cong
không chồng lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp khi 2 đường cong có chờng
lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp tệ nhất khi 2 đường cong
hoàn tồn chờng lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp khi AUC xấp xỉ 0
Các lĩnh vực phân tích dữ liệu lớn trong
viễn thông
Mức độ ứng dụng phân tích dữ liệu lớn
trong viễn thông
Phương pháp tổ chức hệ thống dữ liệu
lớn

Mơ hình tở chức thực tế hệ thống
BigData tại Viettel
So sánh CDH và HDP
Các phân hệ cài đặt Big Data của HDP
Mơ hình triển khai hệ thống BigData
thực nghiệm
Mơ hình đấu nối hệ thống
L̀ng khai phá dữ liệu trong
Rapidminer
L̀ng xử lý khai phá dữ liệu
Mơ hình dự báo thuê bao rời mạng
Phương pháp huấn luyện một cây quyết
định cho mỗi nguồn dữ liệu


STT

Chương

Mục

Hình

47

3

3.3.2.1

Hình 3.7


48

3

3.3.2.1

Hình 3.8

49

3

3.3.2.1

Hình 3.9

50

3

3.3.3.5

Hình 3.10

Tên hình vẽ
Cắt bỏ các mức thấp và trích x́t các
nút từ các cấp cao hơn
Mơ tả cây quyết định trên Rapidminer
Các thuộc tính quan trọng sau khi cắt

bỏ
Mơ hình tối ưu


MỞ ĐẦU
Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề
trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí
tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra
một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần
hiện nay [4]. Thơng qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo
ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới
(doanh nghiệp, chính phủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho
các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý
vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động
ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ
sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng
dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích
dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này
doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh
doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng
dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng
(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới
(Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation
Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới,
tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất
các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn
nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng

dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó
là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng
mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác
cung cấp nền tảng dữ liệu lớn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài tốn,
tơi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG
1


PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN
THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản
thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đây:
Tổng quan về vấn đề nghiên cứu:
 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công
nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về
bài tốn phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.
 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo
thuê bao rời mạng tại Viettel.

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).
 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
 Các khái niệm cơ bản về dữ liệu lớn.
 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.
 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể..


Phương pháp nghiên cứu:
 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với
mục tiêu là hiểu được nền tảng cơ bản.
 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và
triển khai được cơng nghệ.
 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel

phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững
các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData.

2


Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn
dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân
tích dự báo thuê bao rời mạng của Viettel.
Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ
cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê
bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này
dựa trên các thuật tốn dự báo tiên tiến kết hợp với cơng nghệ xử lý dữ liệu lớn sẽ
cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này
sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách
hàng của mình.
Luận văn được cấu trúc như sau:
CHƯƠNG 1: TỞNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ
và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mơ hình dự báo, giới thiệu
các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là
một trong những nội dung quan trọng của phần này.

CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.
Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu
các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ
liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần
còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết
kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel.
CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung
ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân
tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công
cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về
đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự
báo.
Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực
tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì cịn phải thực hiện tối
3


ưu mơ hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính
chất tham khảo, chưa thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ cịn nhiều tờn tại
và thiết sót. Do vậy, rất mong q thầy cơ, bạn học và nhất là hội đồng tốt nghiệp
cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự
báo được áp dụng hiệu quả trong thực tế.

4



CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHÁI NIỆM CƠ BẢN
1.1.1. Khái niệm chung về dữ liệu lớn
Bộ dữ liệu (Data sets)
Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là
bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính
giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:
+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file).
+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp
định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục.
+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML
Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng
lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định
vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,
Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi
so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định
các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8].
Phân biệt các loại dữ liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mơ
hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan
hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và
hệ thống thơng tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm
các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng.
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mơ hình
dữ liệu hoặc lược đờ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính
rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào.
Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu
trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)

hoặc nhị phân (binary).
5


Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở
dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu
quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object). Ngồi ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu
phi cấu trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là
dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có
dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường
được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là
các dạng phở biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này
và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn
dữ liệu phi cấu trúc.
Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu
điện tử (EDI), bảng tính, ng̀n dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc
thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ
bản khơng dựa trên văn bản. Một ví dụ về tiền xử lông tin dữ liệu thô: Chi tiết từng phiên kết nối dữ liệu data.
- Tạo các biến cho dữ liệu sử dụng Data của thuê bao như trong bảng 3.7.
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao
STT
1
2
3
4
5
6
7

8
9
10
11
12
13
14
15

Tên biến
No. of data sessions
Total up-down-volume
Average volume per session
Max session volume
Min session volume
Std. dev. In session volume
Total volume by POD
Max volume by POD
Avg volume by POD
Total volume by Daytype
Max volume by Daytype
Avg volume by Daytype
Total volume by WFLD
Avg volume by WFLD
Max volume by WFLD

Ý nghĩa
Tởng số phiên kết nối.
Lượng dữ liệu trung bình của một phiên
Lượng dữ liệu lớn nhất của một phiên.

Lượng dữ liệu nhỏ nhất của một phiên.
Tổng dữ liệu tiêu dùng theo POD
Lượng dữ liệu Max theo POD
Lượng dữ liệu trung bình theo POD
Tởng dữ liệu tiêu dùng theo DT
Lượng dữ liệu Max theo DT
Lượng dữ liệu trung bình theo DT
Tởng dữ liệu tiêu dùng theo WFLD
Lượng dữ liệu Max theo WFLD
Lượng dữ liệu trung bình theo WFLD

72


3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng hàng ngày
- Tạo các biến như trong bảng 3.8.
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao
STT
1
2
3
4
5
6
7
8
9
10
11

12
13
14
15
16
17
18

Tên biến
Number of days that charges were
incurred
Total org charges
Ratio of total org charges by daytype
Ratio of total voice org charge (over
total org charges)
Ratio of total sms org charge
Ratio of total data org charge
Ratio of total mms org charge
Subscribed data pkg (Y/N)

Ý nghĩa
Số ngày phát sinh cước

Tổng số cước phát sinh tiêu dùng gốc
Tỷ lệ phát sinh cước tiêu dùng gốc theo DT
Tỷ lệ cước thoại tiêu dùng gốc (trên tổng số
cước).
Tỷ lệ cước phát sinh tiêu dùng gốc SMS
Tỷ lệ cước phát sinh tiêu dùng gốc DATA
Tỷ lệ cước phát sinh tiêu dùng gốc MMS

Thuê bao có sử dụng data (C/K).
Tỷ lệ cước phát sinh tiêu dùng gốc
Ratio of total vas_voice org charge
vas_voice
Ratio of total vas_sms org charge
Tỷ lệ cước phát sinh tiêu dùng gốc vas_sms
Ratio of total vas_data org charge
Tỷ lệ cước phát sinh tiêu dùng gốc vas_data
Tỷ lệ cước phát sinh tiêu dùng gốc
Ratio of total vas_others org charge
vas_others
Ratio of total org charges (over total Tỷ lệ cước tiêu dùng gốc (so sánh với tổng
charges)
cước phát sinh).
Total RS charges
Tổng cước RS
Total RV charges
Tổng cước RV
Total free voice duration
Tổng thời lượng thoại miễn phí.
Total free sms times
Tổng thời lượng sms miễn phí.
Total free data volume
Tổng thời lượng data miễn phí.

3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)
- Thông tin dữ liệu thô: Chi tiết nạp tiền tài khoản tiêu dùng.
- Tạo các biến như trong bảng 3.9.
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao
STT

Tên biến
1 Total count of refill times
2 Total topup amount
3 Maximum amount after topup

Ý nghĩa
Tổng số lần nạp tiền.
Tổng số tiền nạp
Số tiền tối đa sau khi nạp

73


STT
4
5
6
7
8
9
10
11
12
13
14
15
16

Tên biến
Minimum amount before topup

Maximum refill amount
Avg refill amount
Avg amount after topup
Avg amount before topup
No. of distinct province topup is done
No. of distinct district topup is done
Count of refill times by Daytype
Total topup amount by daytype
Ratio of refill times by daytype
Ratio of refill amount by daytype
Refill_diff_province (Y/N)
Refill_diff_district (Y/N)

Ý nghĩa
Số tiền tối thiểu sau khi nạp
Số tiền nạp tối đa
Số tiền trung bình các lần nạp
Số tiền trung bình sau khi nạp
Số tiền trung bình trước khi nạp
Số tỉnh được nạp tiền
Số quận được nạp tiền
Số lần nạp tiền theo DT.
Tổng số tiền nạp theo DT
Tỷ lệ số lần nạp tiền theo DT
Tỷ lệ số lượng nạp tiền theo DT
Có nạp khác tỉnh không (C/K)
Có nạp khác quận không (C/K)

3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng tài khoản hàng ngày của từng thuê bao.

Tạo các biến như trong bảng 3.10.
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao
STT
1
2
3
4
5

Ý nghĩa
Số dư tài khoản tối thiểu
Số dư tài khoản tối đa
Số dư trung bình của tài khoản

Tên biến
Min basic account balance
Max basic account balance
Avg basic account balance
Std dev. basic account balance
Avg promotion account balance

Số dư tài khoản khuyến mãi trung bình.

3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE)
- Thơng tin dữ liệu thô: Hồ sơ chi tiết khoản khấu trừ phí gói dữ liệu. Tạo các biến
như trong bảng 3.11.
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng theo chu kỳ
của thuê bao
STT
1


Tên biến
Ý nghĩa
Level of account balance after each Mức tài khoản sau mỗi lần khấu trừ
dailyfee deduction (Low/OK/NA)
hàng ngày (Thấp / OK / NA)

74


3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY)
- Thông tin dữ liệu thô: Chi tiết về đăng ký / sử dụng dịch vụ vas. Tạo các biến
như trong bảng 3.12.
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các
dịch vụ VAS của thuê bao
STT
Tên biến
1 Total count of chargeable vas
2 Total count of non-chargeable vas
Total count of each chargeable vas by
3
vas_type

Ý nghĩa
Tổng số cước VAS
Tổng số cước VAS không tính ph.í.
Tổng số cước VAS theo vas_type

Trong đó:
 chargeable_vas (charge_type = 1),

 non_chargeable_vas (charge_type = -1 and total_charge < 0)
3.3.1.11. Dữ liệu home (HOME_ACC)
- Thông tin dữ liệu thô: Chi tiết vị trí thuê bao thường xuyên theo ngày. Tạo các
biến như trong bảng 3.13.
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao
STT
1

Tên biến
Ý nghĩa
Number of distinct home locations over the
Số vị trí của thuê bao trong tháng
month

3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS)
- Thông tin dữ liệu thô: Thông tin chi tiết từng thuê bao
- Tạo các biến như trong bảng 3.14.
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng
STT
1
2
3
4

Ý nghĩa

Tên biến

Tuổi
Giới tính (theo 3 loại)

Gói Data đăng ký
Có phải thuê bao Dcom không (1/0)

Age
Sex (3 categories)
Data package subscribed
Dcom flag (1 or 0)

75


3.3.2. Lựa chọn đặc trưng và mơ hình hóa
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree
- Bằng cách huấn luyện một cây quyết định cho mỗi nguồn dữ liệu. Ở đây, thực
nghiệm đã sử dụng Cây quyết định (độ phức tạp cao) để phù hợp với dữ liệu
huấn luyện, với mục đích xác định tất cả các thuộc tính có liên quan đến kết
quả rời mạng.
- Trích xuất các thuộc tính quan trọng từ Cây quyết định theo thứ tự. Mục đích
là tối ưu toàn bộ 1270 biến thành một tập hợp con nhỏ hơn để xử lý mơ hình
h́n luyện nhanh hơn. Kết quả thu gọn thành 703 thuộc tính, bao gồm các
nhóm như trong bảng 3.15.
Bảng 3.15. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree
Data Source
VOICE_OG
VOICE_IC
SMS_OG
SMS_IC
GPRS
TOTAL_CHARGE_DAILY
TOPUP

ACCOUNT2_DAY
DAILYFEE
VAS_CDR_DAY
HOME_ACC
PRE-SUBS
Total

Initial Number New Number
of Attributes of Attributes
286
210
268
90
92
64
92
68
196
92
108
44
120
57
30
30
6
6
66
32
6

6
4
4
1274
703

76


Hình 3.6. Phương pháp huấn luyện 1 cây quyết định cho mỗi nguồn dữ liệu.

Hình 3.7. Cắt bỏ các mức thấp và trích xuất các nút từ các cấp cao hơn

77


×