Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.48 MB, 114 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THƠNG
Chun ngành: Hệ thống thơng tin
Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019

LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo
điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi,
đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để
phục vụ cho q trình học tập và cơng tác của tơi.
Đặc biệt, tơi xin được bày tỏ lịng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN
HIẾU đã tận tình chỉ bảo cho tơi trong suốt q trình học tập và nghiên cứu, giúp
tơi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thơng tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin được gửi lời cảm ơn tới gia đình, đờng nghiệp, người thân đã động
viên, giúp đỡ tơi trong q trình hồn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn cịn ít nên luận văn khơng
tránh khỏi những thiếu sót. Tơi xin trân trọng tiếp thu các ý kiến của các thầy, cô,
bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.

LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu
và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đồn Cơng nghiệp
- Cơng nghệ Cao Viettel và đối tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà khơng
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 12 tháng 11 năm 2019.
Học viên

Nguyễn Chung Thành Hưng.

MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ....................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv
DANH MỤC CÁC BẢNG .............................................................................................. i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. TỞNG QUAN .......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5
1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5
1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6
1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10
1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13
1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17
1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19
1.2.2. Xử lý dữ liệu trong BigData .........................................................................22
1.2.2.1. Xử lý dữ liệu với mơ hình Map-Reduce ................................................22
1.2.2.2. Các tác vụ Map và Reduce .....................................................................23
1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25
1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28
1.3.1. Bài toán phân tích dự báo .............................................................................28
1.3.2. Các mơ hình dự báo cơ bản. .........................................................................28
1.3.2.1. Mơ hình dự báo dựa trên thuật tốn cây quyết định: .............................28
1.3.2.2. Mơ hình dự báo Gradient Boosting. .......................................................30

1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31
1.3.3.1. Tạo biến đặc trưng ..................................................................................31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32
1.3.3.3. Huấn luyện và xác thực trong các mơ hình dự báo ................................ 34
1.3.3.4. Đánh giá mơ hình dự báo .......................................................................35
1.3.4. Giới thiệu cơng cụ phân tích Rapidminer .....................................................42
CHƯƠNG 2. ................................................................................................................. 44

PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44
2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44
2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47
2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48
2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50
2.1.2. Hiện trạng của Viettel ...................................................................................50
2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50
2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51
2.2.1.1. Tầng Data Ingestion ...............................................................................53
2.2.1.2. Tầng Data Processing .............................................................................53
2.2.1.3. Tầng Data Analysis Layer ......................................................................54
2.2.1.4. Tầng Data Visualization .........................................................................54
2.2.1.5. Tầng Data Repository.............................................................................54
2.2.1.6. Tầng Data Govenance ............................................................................55
2.2.2. Mơ hình tở chức thực tế hệ thống BigData tại Viettel ..................................55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56
2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60

CHƯƠNG 3. ................................................................................................................. 62
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62
DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62
3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62
3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62
3.1.2. Bài toán yêu cầu ............................................................................................62
3.1.3. Các bước thực nghiệm. .................................................................................63
3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63
3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63
3.2.1.1. Mơ hình triển khai Logic ........................................................................63
3.2.1.2. Mơ hình triển khai vật lý và thông số hệ thống ......................................64
3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65
3.2.1.4. Nguồn dữ liệu .........................................................................................67

3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68
3.2.2. Xây dựng mơ hình dự báo TBRM. ...............................................................69
3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74
3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74
3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS
(VAS_CDR_DAY) .............................................................................................75

3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75
3.3.2. Lựa chọn đặc trưng và mơ hình hóa .............................................................76
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76
3.3.2.2. Huấn luyện và xác nhận mơ hình rời mạng. ..........................................79
3.3.3. Tối ưu mơ hình dự báo. ................................................................................80
3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81
3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82
3.3.3.4. Tối ưu mơ hình bằng cách lựa chọn lại các đặc trưng ...........................82
3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82
3.3.3.6. Lựa chọn mơ hình dự đốn tốt nhất .......................................................83
3.3.3.7. Chạy lại mơ hình dự báo với thuật toán Gradien Booting. ....................83
3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84
3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84
3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84
KẾT LUẬN .................................................................................................................. 86
TÀI LIỆU THAM KHẢO ............................................................................................ 87
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90

PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT

Ký hiệu/chữ
viết tắt

1

ACID

2
3

AUC
AUROC

4

BASE

5

BLOB

6

CAP

7

CEM

8
9
10
11
12

13
14
15
16
17
18
19
20
21

CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB

22

IMDG

23

24
25
26

IOB
IoT
LS
M2M

27

MDA

Ý nghĩa
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype

Extract Transform Load (Trích xuất dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
Information Gain (Độ tăng thông tin)
In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập huấn luyện)
Machine to Manchine
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)

STT

Ký hiệu/chữ
viết tắt

28

MDG

29
30

31

OOB
POD
QC

32

RDBMS

33
34
35
36
37
38
39
40
41
42

RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR

WFLD

Ý nghĩa
Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với
mỗi biến)
Out-of-bag
Period of Day
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date

DANH MỤC CÁC BẢNG
STT Chương

Mục

Bảng

1

1

1.3.3.1

Bảng 1.1

2

1

1.3.3.2

Bảng 1.2

3

3

3.2.1.2

Bảng 3.1

4

3

3.2.1.4

Bảng 3.2

5

3

3.3.1.1

Bảng 3.3

6

3

3.3.1.2

Bảng 3.4

7

3

3.3.1.3

Bảng 3.5

8

3

3.3.1.4

Bảng 3.6

9

3

3.3.1.5

Bảng 3.7

10

3

3.3.1.6

Bảng 3.8

11

3

3.3.1.7

Bảng 3.9

12

3

3.3.1.8

Bảng 3.10

13

3

3.3.1.9

Bảng 3.11

14

3

3.3.1.10

Bảng 3.12

15

3

3.3.1.11

Bảng 3.13

16

3

3.3.1.12

Bảng 3.14

17

3

3.3.2.1

Bảng 3.15

18

3

3.3.2.2

Bảng 3.16

19

3

3.3.2.2

Bảng 3.17

Tên bảng
Các thuộc tính ví dụ Ngày và Khách truy
cập và thuộc tính được trích xuất IsWeekendDayfDayg
Các phương pháp trích chọn thuộc tính
Cấu hình hệ thống phân tích BigData thực
nghiệm
Ng̀n dữ liệu hệ thống phân tích BigData
thực nghiệm
Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu sử dụng Data
của thuê bao
Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
Các biến đặc trưng cho dữ liệu cước phí các
gói sử dụng theo chu kỳ của thuê bao
Các biến đặc trưng cho dữ liệu tổng hợp
charge cước sử dụng các dịch vụ VAS của
thuê bao

Các biến đặc trưng cho dữ liệu home của
thuê bao
Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
Lựa chọn các thuộc tính quan trọng bằng
thuật toán Decision Tree
Validation of the Training Data Set (80% of
Total)
Validation of the Testing Data Set (20% of
Total)

STT Chương
Mục
20
3
3.3.2.2
21
3
3.3.2.2
22
3
3.3.2.2
23
3
3.3.3.1

Bảng
Bảng 3.18
Bảng 3.19

Bảng 3.20
Bảng 3.21

24

3

3.3.3.1

Bảng 3.22

25

3

3.3.3.4

Bảng 3.23

26

3

3.3.3.6

Bảng 3.24

27

3

3.3.3.7

Bảng 3.25

Tên bảng
Sử dụng Logistic Regression
Sử dụng Naïve Bayes
So sánh các kết quả
Kết quả phân cụm bằng thuật toán K-mean
Kết quả chi tiết phân cụm bằng thuật tốn
K-mean
Tối ưu mơ hình bằng cách lựa chọn lại các
đặc trung
Lựa chọn mơ hình dự đốn tốt nhất
Mơ hình dự báo với thuật tốn Gradien
Booting

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT
1
2

Chương
1
1

Mục
1.1.1.4

1.1.1.4

Hình
Hình 1.1
Hình 1.2

3

1

1.1.1.4

Hình 1.3

4
5

1
1

1.1.1.4
1.1.1.4

Hình 1.4
Hình 1.5

6

1

1.1.1.5

Hình 1.6

7

1

1.1.1.5

Hình 1.7

8

1

1.1.1.5

Hình 1.8

9

1

1.1.1.5

Hình 1.9

10

1

1.1.2

Hình 1.10

11

1

1.2.1.2

Hình 1.11

12

1

1.2.1.2

Hình 1.12

13

1

1.2.1.2

Hình 1.13

14

1

1.2.1.2

Hình 1.14

15

1

1.2.1.2

Hình 1.15

16

1

1.2.2.2

Hình 1.16

17

1

1.2.2.2

Hình 1.17

18
19

1
1

1.3.2.1
1.3.2.1

Hình 1.18
Hình 1.19

20

1

1.3.2.3

Hình 1.20

21

1

1.3.2.3

Hình 1.21

Tên hình vẽ
Một ví dụ về lưu trữ dạng Key-value
Một ví dụ về lưu trữ dạng Document
Một ví dụ về lưu trữ dạng Columnfamily
Một ví dụ về lưu trữ dạng Graph
Sơ đờ Venn tóm tắt định lý CAP
Một quy trình ETL có thể trích x́t dữ
liệu từ nhiều ng̀n và chuyển đởi nó
để tải vào một hệ thống đích duy nhất
Một tác vụ có thể được chia thành ba
tác vụ phụ được thực thi song song trên
ba bộ xử lý khác nhau trong cùng một
máy
Một ví dụ về xử lý dữ liệu phân tán
Hadoop là một khung đa năng cung cấp
cả khả năng xử lý và lưu trữ
Giá trị và độ phức tạp tăng từ phân tích
mơ tả đến phân tích đề x́t
Thiết bị lưu trữ trong bộ nhớ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so với
thiết bị lưu trữ trên đĩa
Một ví dụ mơ tả việc truy x́t dữ liệu
từ IMDG
Một ví dụ về lưu trữ IMDG xử lý với
một truy vấn liên tục
Một ví dụ mơ tả việc truy xuất dữ liệu
từ IMDB
Một ví dụ về lưu trữ IMDB được cấu
hình với một truy vấn liên tục
Một minh họa về cơng việc

MapReduce
Một ví dụ về MapReduce đang hoạt
động
Biểu diễn cây quyết định cơ bản
Cây quyết định cho việc chơi Tennis
Biểu đờ hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
Biểu đờ hàm chi phí

STT
22

Chương
1

Mục
1.3.2.3

Hình
Hình 1.22

23

1

1.3.2.4

Hình 1.23

24
25
26
27
28
29
30

1
1
1
1
1
1
1

1.3.2.5
1.3.2.5
1.3.3.3
1.3.3.4
1.3.3.4
1.3.3.4
1.3.3.4

Hình 1.24
Hình 1.25
Hình 1.26
Hình 1.27
Hình 1.28
Hình 1.29

Hình 1.30

31

1

1.3.3.4

Hình 1.31

32

1

1.3.3.4

Hình 1.32

33

1

1.3.3.4

Hình 1.33

34

1

1.3.3.4

Hình 1.34

35

2

2.1.1

Hình 2.1

36

2

2.1.1

Hình 2.2

37

2

2.2.1

Hình 2.3

38

2

2.2.2

Hình 2.4

39
40

2
2

2.2.3.2
2.2.4

Hình 2.5
Hình 2.6

41

3

3.2.1.1

Hình 3.1

42

3

3.2.1.2

Hình 3.2

43

3

3.2.1.3

Hình 3.3

44
45

3
3

3.2.1.5
3.2.2

Hình 3.4
Hình 3.5

46

3

3.3.2.1

Hình 3.6

Tên hình vẽ
Mơ phỏng Gradient Descent
Sơ đờ Cây quyết định (Ng̀n: Basten
K., 2016)
Mơ hình mạng nơron nhiều lớp
Tiến trình học
Vai trị của mơ hình và từng tập dữ liệu
Overfitting, Underfitting
Confusion Matrix
Phương pháp Bias & Variance
Phương pháp đường cong AUC-ROC
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp tốt nhất khi 2 đường cong
không chồng lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp khi 2 đường cong có chờng
lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp tệ nhất khi 2 đường cong
hoàn tồn chờng lên nhau
Đánh giá mơ hình qua chỉ số AUC.
Trường hợp khi AUC xấp xỉ 0
Các lĩnh vực phân tích dữ liệu lớn trong
viễn thông
Mức độ ứng dụng phân tích dữ liệu lớn
trong viễn thông
Phương pháp tổ chức hệ thống dữ liệu
lớn

Mơ hình tở chức thực tế hệ thống
BigData tại Viettel
So sánh CDH và HDP
Các phân hệ cài đặt Big Data của HDP
Mơ hình triển khai hệ thống BigData
thực nghiệm
Mơ hình đấu nối hệ thống
L̀ng khai phá dữ liệu trong
Rapidminer
L̀ng xử lý khai phá dữ liệu
Mơ hình dự báo thuê bao rời mạng
Phương pháp huấn luyện một cây quyết
định cho mỗi nguồn dữ liệu

STT

Chương

Mục

Hình

47

3

3.3.2.1

Hình 3.7

48

3

3.3.2.1

Hình 3.8

49

3

3.3.2.1

Hình 3.9

50

3

3.3.3.5

Hình 3.10

Tên hình vẽ
Cắt bỏ các mức thấp và trích x́t các
nút từ các cấp cao hơn
Mơ tả cây quyết định trên Rapidminer
Các thuộc tính quan trọng sau khi cắt

bỏ
Mơ hình tối ưu

MỞ ĐẦU
Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề
trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí
tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra
một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần
hiện nay [4]. Thơng qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo
ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới
(doanh nghiệp, chính phủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho
các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý
vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động
ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ
sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng
dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích
dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này
doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh
doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng
dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng
(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới
(Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation
Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới,
tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất
các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn
nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng

dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó
là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng
mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác
cung cấp nền tảng dữ liệu lớn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài tốn,
tơi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG
1

PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN
THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản
thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đây:
Tổng quan về vấn đề nghiên cứu:
 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công
nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về
bài tốn phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.
 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo
thuê bao rời mạng tại Viettel.

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).
 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
 Các khái niệm cơ bản về dữ liệu lớn.
 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.
 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể..

Phương pháp nghiên cứu:
 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với
mục tiêu là hiểu được nền tảng cơ bản.
 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và
triển khai được cơng nghệ.
 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel

phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững
các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData.

2

Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn
dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân
tích dự báo thuê bao rời mạng của Viettel.
Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ
cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê
bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này
dựa trên các thuật tốn dự báo tiên tiến kết hợp với cơng nghệ xử lý dữ liệu lớn sẽ
cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này
sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách
hàng của mình.
Luận văn được cấu trúc như sau:
CHƯƠNG 1: TỞNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ
và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mơ hình dự báo, giới thiệu
các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là
một trong những nội dung quan trọng của phần này.

CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.
Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu
các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ
liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần
còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết
kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel.
CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung
ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân
tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công
cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về
đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự
báo.
Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực
tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì cịn phải thực hiện tối
3

ưu mơ hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính
chất tham khảo, chưa thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ cịn nhiều tờn tại
và thiết sót. Do vậy, rất mong q thầy cơ, bạn học và nhất là hội đồng tốt nghiệp
cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự
báo được áp dụng hiệu quả trong thực tế.

4

CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHÁI NIỆM CƠ BẢN
1.1.1. Khái niệm chung về dữ liệu lớn
Bộ dữ liệu (Data sets)
Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là
bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính
giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:
+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file).
+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp
định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục.
+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML
Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng
lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định
vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,
Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi
so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định
các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8].
Phân biệt các loại dữ liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mơ
hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan
hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và
hệ thống thơng tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm
các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng.
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mơ hình
dữ liệu hoặc lược đờ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính
rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào.
Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu
trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)

hoặc nhị phân (binary).
5

Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở
dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu
quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object). Ngồi ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu
phi cấu trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là
dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có
dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường
được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là
các dạng phở biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này
và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn
dữ liệu phi cấu trúc.
Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu
điện tử (EDI), bảng tính, ng̀n dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc
thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ
bản khơng dựa trên văn bản. Một ví dụ về tiền xử l�ông tin dữ liệu thô: Chi tiết từng phiên kết nối dữ liệu data.
- Tạo các biến cho dữ liệu sử dụng Data của thuê bao như trong bảng 3.7.
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao
STT
1
2
3
4
5
6
7

8
9
10
11
12
13
14
15

Tên biến
No. of data sessions
Total up-down-volume
Average volume per session
Max session volume
Min session volume
Std. dev. In session volume
Total volume by POD
Max volume by POD
Avg volume by POD
Total volume by Daytype
Max volume by Daytype
Avg volume by Daytype
Total volume by WFLD
Avg volume by WFLD
Max volume by WFLD

Ý nghĩa
Tởng số phiên kết nối.
Lượng dữ liệu trung bình của một phiên
Lượng dữ liệu lớn nhất của một phiên.

Lượng dữ liệu nhỏ nhất của một phiên.
Tổng dữ liệu tiêu dùng theo POD
Lượng dữ liệu Max theo POD
Lượng dữ liệu trung bình theo POD
Tởng dữ liệu tiêu dùng theo DT
Lượng dữ liệu Max theo DT
Lượng dữ liệu trung bình theo DT
Tởng dữ liệu tiêu dùng theo WFLD
Lượng dữ liệu Max theo WFLD
Lượng dữ liệu trung bình theo WFLD

72

3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng hàng ngày
- Tạo các biến như trong bảng 3.8.
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao
STT
1
2
3
4
5
6
7
8
9
10
11

12
13
14
15
16
17
18

Tên biến
Number of days that charges were
incurred
Total org charges
Ratio of total org charges by daytype
Ratio of total voice org charge (over
total org charges)
Ratio of total sms org charge
Ratio of total data org charge
Ratio of total mms org charge
Subscribed data pkg (Y/N)

Ý nghĩa
Số ngày phát sinh cước

Tổng số cước phát sinh tiêu dùng gốc
Tỷ lệ phát sinh cước tiêu dùng gốc theo DT
Tỷ lệ cước thoại tiêu dùng gốc (trên tổng số
cước).
Tỷ lệ cước phát sinh tiêu dùng gốc SMS
Tỷ lệ cước phát sinh tiêu dùng gốc DATA
Tỷ lệ cước phát sinh tiêu dùng gốc MMS

Thuê bao có sử dụng data (C/K).
Tỷ lệ cước phát sinh tiêu dùng gốc
Ratio of total vas_voice org charge
vas_voice
Ratio of total vas_sms org charge
Tỷ lệ cước phát sinh tiêu dùng gốc vas_sms
Ratio of total vas_data org charge
Tỷ lệ cước phát sinh tiêu dùng gốc vas_data
Tỷ lệ cước phát sinh tiêu dùng gốc
Ratio of total vas_others org charge
vas_others
Ratio of total org charges (over total Tỷ lệ cước tiêu dùng gốc (so sánh với tổng
charges)
cước phát sinh).
Total RS charges
Tổng cước RS
Total RV charges
Tổng cước RV
Total free voice duration
Tổng thời lượng thoại miễn phí.
Total free sms times
Tổng thời lượng sms miễn phí.
Total free data volume
Tổng thời lượng data miễn phí.

3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)
- Thông tin dữ liệu thô: Chi tiết nạp tiền tài khoản tiêu dùng.
- Tạo các biến như trong bảng 3.9.
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao
STT

Tên biến
1 Total count of refill times
2 Total topup amount
3 Maximum amount after topup

Ý nghĩa
Tổng số lần nạp tiền.
Tổng số tiền nạp
Số tiền tối đa sau khi nạp

73

STT
4
5
6
7
8
9
10
11
12
13
14
15
16

Tên biến
Minimum amount before topup

Maximum refill amount
Avg refill amount
Avg amount after topup
Avg amount before topup
No. of distinct province topup is done
No. of distinct district topup is done
Count of refill times by Daytype
Total topup amount by daytype
Ratio of refill times by daytype
Ratio of refill amount by daytype
Refill_diff_province (Y/N)
Refill_diff_district (Y/N)

Ý nghĩa
Số tiền tối thiểu sau khi nạp
Số tiền nạp tối đa
Số tiền trung bình các lần nạp
Số tiền trung bình sau khi nạp
Số tiền trung bình trước khi nạp
Số tỉnh được nạp tiền
Số quận được nạp tiền
Số lần nạp tiền theo DT.
Tổng số tiền nạp theo DT
Tỷ lệ số lần nạp tiền theo DT
Tỷ lệ số lượng nạp tiền theo DT
Có nạp khác tỉnh không (C/K)
Có nạp khác quận không (C/K)

3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY)
- Thông tin dữ liệu thô: Chi tiết tiêu dùng tài khoản hàng ngày của từng thuê bao.

Tạo các biến như trong bảng 3.10.
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao
STT
1
2
3
4
5

Ý nghĩa
Số dư tài khoản tối thiểu
Số dư tài khoản tối đa
Số dư trung bình của tài khoản

Tên biến
Min basic account balance
Max basic account balance
Avg basic account balance
Std dev. basic account balance
Avg promotion account balance

Số dư tài khoản khuyến mãi trung bình.

3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE)
- Thơng tin dữ liệu thô: Hồ sơ chi tiết khoản khấu trừ phí gói dữ liệu. Tạo các biến
như trong bảng 3.11.
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng theo chu kỳ
của thuê bao
STT
1

Tên biến
Ý nghĩa
Level of account balance after each Mức tài khoản sau mỗi lần khấu trừ
dailyfee deduction (Low/OK/NA)
hàng ngày (Thấp / OK / NA)

74

3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY)
- Thông tin dữ liệu thô: Chi tiết về đăng ký / sử dụng dịch vụ vas. Tạo các biến
như trong bảng 3.12.
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng hợp charge cước sử dụng các
dịch vụ VAS của thuê bao
STT
Tên biến
1 Total count of chargeable vas
2 Total count of non-chargeable vas
Total count of each chargeable vas by
3
vas_type

Ý nghĩa
Tổng số cước VAS
Tổng số cước VAS không tính ph.í.
Tổng số cước VAS theo vas_type

Trong đó:
 chargeable_vas (charge_type = 1),

 non_chargeable_vas (charge_type = -1 and total_charge < 0)
3.3.1.11. Dữ liệu home (HOME_ACC)
- Thông tin dữ liệu thô: Chi tiết vị trí thuê bao thường xuyên theo ngày. Tạo các
biến như trong bảng 3.13.
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao
STT
1

Tên biến
Ý nghĩa
Number of distinct home locations over the
Số vị trí của thuê bao trong tháng
month

3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS)
- Thông tin dữ liệu thô: Thông tin chi tiết từng thuê bao
- Tạo các biến như trong bảng 3.14.
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng
STT
1
2
3
4

Ý nghĩa

Tên biến

Tuổi
Giới tính (theo 3 loại)

Gói Data đăng ký
Có phải thuê bao Dcom không (1/0)

Age
Sex (3 categories)
Data package subscribed
Dcom flag (1 or 0)

75

3.3.2. Lựa chọn đặc trưng và mơ hình hóa
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree
- Bằng cách huấn luyện một cây quyết định cho mỗi nguồn dữ liệu. Ở đây, thực
nghiệm đã sử dụng Cây quyết định (độ phức tạp cao) để phù hợp với dữ liệu
huấn luyện, với mục đích xác định tất cả các thuộc tính có liên quan đến kết
quả rời mạng.
- Trích xuất các thuộc tính quan trọng từ Cây quyết định theo thứ tự. Mục đích
là tối ưu toàn bộ 1270 biến thành một tập hợp con nhỏ hơn để xử lý mơ hình
h́n luyện nhanh hơn. Kết quả thu gọn thành 703 thuộc tính, bao gồm các
nhóm như trong bảng 3.15.
Bảng 3.15. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree
Data Source
VOICE_OG
VOICE_IC
SMS_OG
SMS_IC
GPRS
TOTAL_CHARGE_DAILY
TOPUP

ACCOUNT2_DAY
DAILYFEE
VAS_CDR_DAY
HOME_ACC
PRE-SUBS
Total

Initial Number New Number
of Attributes of Attributes
286
210
268
90
92
64
92
68
196
92
108
44
120
57
30
30
6
6
66
32
6

6
4
4
1274
703

76

Hình 3.6. Phương pháp huấn luyện 1 cây quyết định cho mỗi nguồn dữ liệu.

Hình 3.7. Cắt bỏ các mức thấp và trích xuất các nút từ các cấp cao hơn

77

Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về