Luận văn thạc sĩ công nghệ thông tin tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.48 MB, 114 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019

LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo
điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi,
đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để
phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN
HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp
tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động
viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô,
bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.

LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu
và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp
- Công nghệ Cao Viettel và đối tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 12 tháng 11 năm 2019.
Học viên

Nguyễn Chung Thành Hưng.

MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ....................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv
DANH MỤC CÁC BẢNG .............................................................................................. i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. TỔNG QUAN .......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5
1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5
1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6
1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10
1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13
1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17
1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19
1.2.2. Xử lý dữ liệu trong BigData .........................................................................22
1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce ................................................22
1.2.2.2. Các tác vụ Map và Reduce .....................................................................23
1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25
1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28
1.3.1. Bài toán phân tích dự báo .............................................................................28
1.3.2. Các mô hình dự báo cơ bản. .........................................................................28
1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .............................28
1.3.2.2. Mô hình dự báo Gradient Boosting. .......................................................30

1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31
1.3.3.1. Tạo biến đặc trưng ..................................................................................31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32
1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo ................................ 34
1.3.3.4. Đánh giá mô hình dự báo .......................................................................35
1.3.4. Giới thiệu công cụ phân tích Rapidminer .....................................................42
CHƯƠNG 2. ................................................................................................................. 44

PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44
2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44
2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47
2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48
2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50
2.1.2. Hiện trạng của Viettel ...................................................................................50
2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50
2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51
2.2.1.1. Tầng Data Ingestion ...............................................................................53
2.2.1.2. Tầng Data Processing .............................................................................53
2.2.1.3. Tầng Data Analysis Layer ......................................................................54
2.2.1.4. Tầng Data Visualization .........................................................................54
2.2.1.5. Tầng Data Repository.............................................................................54
2.2.1.6. Tầng Data Govenance ............................................................................55
2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel ..................................55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56
2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60

CHƯƠNG 3. ................................................................................................................. 62
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62
DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62
3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62
3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62
3.1.2. Bài toán yêu cầu ............................................................................................62
3.1.3. Các bước thực nghiệm. .................................................................................63
3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63
3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63
3.2.1.1. Mô hình triển khai Logic ........................................................................63
3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ......................................64
3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65
3.2.1.4. Nguồn dữ liệu .........................................................................................67

3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68
3.2.2. Xây dựng mô hình dự báo TBRM. ...............................................................69
3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74
3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74
3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS
(VAS_CDR_DAY) .............................................................................................75

3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75
3.3.2. Lựa chọn đặc trưng và mô hình hóa .............................................................76
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76
3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng. ..........................................79
3.3.3. Tối ưu mô hình dự báo. ................................................................................80
3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81
3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82
3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng ...........................82
3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82
3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất .......................................................83
3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting. ....................83
3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84
3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84
3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84
KẾT LUẬN .................................................................................................................. 86
TÀI LIỆU THAM KHẢO ............................................................................................ 87
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90

PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT

Ký hiệu/chữ
viết tắt

1

ACID

2
3

AUC
AUROC

4

BASE

5

BLOB

6

CAP

7

CEM

8
9
10
11
12

13
14
15
16
17
18
19
20
21

CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB

22

IMDG

23

24
25
26

IOB
IoT
LS
M2M

27

MDA

Ý nghĩa
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype

Extract Transform Load (Trích xuất dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
Information Gain (Độ tăng thông tin)
In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập huấn luyện)
Machine to Manchine
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)

STT

Ký hiệu/chữ
viết tắt

28

MDG

29
30

31

OOB
POD
QC

32

RDBMS

33
34
35
36
37
38
39
40
41
42

RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR

WFLD

Ý nghĩa
Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với
mỗi biến)
Out-of-bag
Period of Day
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date

DANH MỤC CÁC BẢNG
STT Chương

Mục

Bảng

1

1

1.3.3.1

Bảng 1.1

2

1

1.3.3.2

Bảng 1.2

3

3

3.2.1.2

Bảng 3.1

4

3

3.2.1.4

Bảng 3.2

5

3

3.3.1.1

Bảng 3.3

6

3

3.3.1.2

Bảng 3.4

7

3

3.3.1.3

Bảng 3.5

8

3

3.3.1.4

Bảng 3.6

9

3

3.3.1.5

Bảng 3.7

10

3

3.3.1.6

Bảng 3.8

11

3

3.3.1.7

Bảng 3.9

12

3

3.3.1.8

Bảng 3.10

13

3

3.3.1.9

Bảng 3.11

14

3

3.3.1.10

Bảng 3.12

15

3

3.3.1.11

Bảng 3.13

16

3

3.3.1.12

Bảng 3.14

17

3

3.3.2.1

Bảng 3.15

18

3

3.3.2.2

Bảng 3.16

19

3

3.3.2.2

Bảng 3.17

Tên bảng
Các thuộc tính ví dụ Ngày và Khách truy
cập và thuộc tính được trích xuất IsWeekendDayfDayg
Các phương pháp trích chọn thuộc tính
Cấu hình hệ thống phân tích BigData thực
nghiệm
Nguồn dữ liệu hệ thống phân tích BigData
thực nghiệm
Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu sử dụng Data
của thuê bao
Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
Các biến đặc trưng cho dữ liệu cước phí các
gói sử dụng theo chu kỳ của thuê bao
Các biến đặc trưng cho dữ liệu tổng hợp
charge cước sử dụng các dịch vụ VAS của
thuê bao

Các biến đặc trưng cho dữ liệu home của
thuê bao
Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
Lựa chọn các thuộc tính quan trọng bằng
thuật toán Decision Tree
Validation of the Training Data Set (80% of
Total)
Validation of the Testing Data Set (20% of
Total)

STT Chương
Mục
20
3
3.3.2.2
21
3
3.3.2.2
22
3
3.3.2.2
23
3
3.3.3.1

Bảng
Bảng 3.18
Bảng 3.19

Bảng 3.20
Bảng 3.21

24

3

3.3.3.1

Bảng 3.22

25

3

3.3.3.4

Bảng 3.23

26

3

3.3.3.6

Bảng 3.24

27

3

3.3.3.7

Bảng 3.25

Tên bảng
Sử dụng Logistic Regression
Sử dụng Naïve Bayes
So sánh các kết quả
Kết quả phân cụm bằng thuật toán K-mean
Kết quả chi tiết phân cụm bằng thuật toán
K-mean
Tối ưu mô hình bằng cách lựa chọn lại các
đặc trung
Lựa chọn mô hình dự đoán tốt nhất
Mô hình dự báo với thuật toán Gradien
Booting

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT
1
2

Chương
1
1

Mục
1.1.1.4

1.1.1.4

Hình
Hình 1.1
Hình 1.2

3

1

1.1.1.4

Hình 1.3

4
5

1
1

1.1.1.4
1.1.1.4

Hình 1.4
Hình 1.5

6

1

1.1.1.5

Hình 1.6

7

1

1.1.1.5

Hình 1.7

8

1

1.1.1.5

Hình 1.8

9

1

1.1.1.5

Hình 1.9

10

1

1.1.2

Hình 1.10

11

1

1.2.1.2

Hình 1.11

12

1

1.2.1.2

Hình 1.12

13

1

1.2.1.2

Hình 1.13

14

1

1.2.1.2

Hình 1.14

15

1

1.2.1.2

Hình 1.15

16

1

1.2.2.2

Hình 1.16

17

1

1.2.2.2

Hình 1.17

18
19

1
1

1.3.2.1
1.3.2.1

Hình 1.18
Hình 1.19

20

1

1.3.2.3

Hình 1.20

21

1

1.3.2.3

Hình 1.21

Tên hình vẽ
Một ví dụ về lưu trữ dạng Key-value
Một ví dụ về lưu trữ dạng Document
Một ví dụ về lưu trữ dạng Columnfamily
Một ví dụ về lưu trữ dạng Graph
Sơ đồ Venn tóm tắt định lý CAP
Một quy trình ETL có thể trích xuất dữ
liệu từ nhiều nguồn và chuyển đổi nó
để tải vào một hệ thống đích duy nhất
Một tác vụ có thể được chia thành ba
tác vụ phụ được thực thi song song trên
ba bộ xử lý khác nhau trong cùng một
máy
Một ví dụ về xử lý dữ liệu phân tán
Hadoop là một khung đa năng cung cấp
cả khả năng xử lý và lưu trữ
Giá trị và độ phức tạp tăng từ phân tích
mô tả đến phân tích đề xuất
Thiết bị lưu trữ trong bộ nhớ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so với
thiết bị lưu trữ trên đĩa
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDG
Một ví dụ về lưu trữ IMDG xử lý với
một truy vấn liên tục
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDB
Một ví dụ về lưu trữ IMDB được cấu
hình với một truy vấn liên tục
Một minh họa về công việc

MapReduce
Một ví dụ về MapReduce đang hoạt
động
Biểu diễn cây quyết định cơ bản
Cây quyết định cho việc chơi Tennis
Biểu đồ hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
Biểu đồ hàm chi phí

STT
22

Chương
1

Mục
1.3.2.3

Hình
Hình 1.22

23

1

1.3.2.4

Hình 1.23

24
25
26
27
28
29
30

1
1
1
1
1
1
1

1.3.2.5
1.3.2.5
1.3.3.3
1.3.3.4
1.3.3.4
1.3.3.4
1.3.3.4

Hình 1.24
Hình 1.25
Hình 1.26
Hình 1.27
Hình 1.28
Hình 1.29

Hình 1.30

31

1

1.3.3.4

Hình 1.31

32

1

1.3.3.4

Hình 1.32

33

1

1.3.3.4

Hình 1.33

34

1

1.3.3.4

Hình 1.34

35

2

2.1.1

Hình 2.1

36

2

2.1.1

Hình 2.2

37

2

2.2.1

Hình 2.3

38

2

2.2.2

Hình 2.4

39
40

2
2

2.2.3.2
2.2.4

Hình 2.5
Hình 2.6

41

3

3.2.1.1

Hình 3.1

42

3

3.2.1.2

Hình 3.2

43

3

3.2.1.3

Hình 3.3

44
45

3
3

3.2.1.5
3.2.2

Hình 3.4
Hình 3.5

46

3

3.3.2.1

Hình 3.6

Tên hình vẽ
Mô phỏng Gradient Descent
Sơ đồ Cây quyết định (Nguồn: Basten
K., 2016)
Mô hình mạng nơron nhiều lớp
Tiến trình học
Vai trò của mô hình và từng tập dữ liệu
Overfitting, Underfitting
Confusion Matrix
Phương pháp Bias & Variance
Phương pháp đường cong AUC-ROC
Đánh giá mô hình qua chỉ số AUC.
Trường hợp tốt nhất khi 2 đường cong
không chồng lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp khi 2 đường cong có chồng
lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp tệ nhất khi 2 đường cong
hoàn toàn chồng lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp khi AUC xấp xỉ 0
Các lĩnh vực phân tích dữ liệu lớn trong
viễn thông
Mức độ ứng dụng phân tích dữ liệu lớn
trong viễn thông
Phương pháp tổ chức hệ thống dữ liệu
lớn

Mô hình tổ chức thực tế hệ thống
BigData tại Viettel
So sánh CDH và HDP
Các phân hệ cài đặt Big Data của HDP
Mô hình triển khai hệ thống BigData
thực nghiệm
Mô hình đấu nối hệ thống
Luồng khai phá dữ liệu trong
Rapidminer
Luồng xử lý khai phá dữ liệu
Mô hình dự báo thuê bao rời mạng
Phương pháp huấn luyện một cây quyết
định cho mỗi nguồn dữ liệu

STT

Chương

Mục

Hình

47

3

3.3.2.1

Hình 3.7

48

3

3.3.2.1

Hình 3.8

49

3

3.3.2.1

Hình 3.9

50

3

3.3.3.5

Hình 3.10

Tên hình vẽ
Cắt bỏ các mức thấp và trích xuất các
nút từ các cấp cao hơn
Mô tả cây quyết định trên Rapidminer
Các thuộc tính quan trọng sau khi cắt

bỏ
Mô hình tối ưu

MỞ ĐẦU
Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề
trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí
tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra
một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần
hiện nay [4]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo
ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới
(doanh nghiệp, chính phủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho
các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý
vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động
ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ
sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng
dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích
dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này
doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh
doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng
dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng
(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới
(Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation
Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới,
tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất
các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn
nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng

dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó
là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng
mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác
cung cấp nền tảng dữ liệu lớn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán,
tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG
1

PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN
THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản
thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đây:
Tổng quan về vấn đề nghiên cứu:
 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công
nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về
bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.
 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo
thuê bao rời mạng tại Viettel.

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).
 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
 Các khái niệm cơ bản về dữ liệu lớn.
 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.
 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể..

Phương pháp nghiên cứu:
 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với
mục tiêu là hiểu được nền tảng cơ bản.
 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và
triển khai được công nghệ.
 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel

phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững
các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData.

2

Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn
dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân
tích dự báo thuê bao rời mạng của Viettel.
Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ
cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê
bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này
dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ
cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này
sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách
hàng của mình.
Luận văn được cấu trúc như sau:
CHƯƠNG 1: TỔNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ
và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu
các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là
một trong những nội dung quan trọng của phần này.

CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.
Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu
các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ
liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần
còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết
kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel.
CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung
ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân
tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công
cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về
đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự
báo.
Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực
tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối
3

ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính
chất tham khảo, chưa thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại
và thiết sót. Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp
cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự
báo được áp dụng hiệu quả trong thực tế.

4

CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHÁI NIỆM CƠ BẢN
1.1.1. Khái niệm chung về dữ liệu lớn
Bộ dữ liệu (Data sets)
Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là
bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính
giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:
+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file).
+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp
định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục.
+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML
Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng
lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định
vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,
Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi
so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định
các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8].
Phân biệt các loại dữ liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô
hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan
hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm
các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng.
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình
dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính
rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào.
Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu
trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)

hoặc nhị phân (binary).
5

Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở
dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu
quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu
phi cấu trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là
dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có
dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường
được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là
các dạng phổ biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này
và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn
dữ liệu phi cấu trúc.
Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc
thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ
bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác
thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó.
Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và
cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu được tạo bằng máy và có thể
được thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử
lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu
và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ
XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích
thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường
dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc
[5].

1.1.2. Các khái niệm lưu trữ dữ liệu lớn
Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc
cấu trúc có thể xử lý ngay được. Để khắc phục được tình trạng này, việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gồm các
bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu. Do nhu cầu lưu trữ dữ
liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc
lưu trữ hiệu quả và có khả năng mở rộng cao [5].
6

Cụm dữ liệu (Clusters)
Trong điện toán, một cụm là một tập hợp các máy chủ hoặc các nút được liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và được kết nối với
nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử lý dữ liệu.
Mỗi nút trong cụm có các tài nguyên riêng biệt, chẳng hạn như bộ nhớ, bộ xử lý
và ổ cứng. Một cụm có thể thực thi một tác vụ bằng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
Hệ thống lưu trữ file, hệ thống lưu trữ file phân tán
Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp
lưu trữ và sắp xếp dữ liệu trên thiết bị lưu trữ (ổ đĩa flash, DVD, ổ cứng…). File
(tệp) là một đơn vị lưu trữ dữ liệu nhỏ nhất được quản lý bởi hệ thống file. Về mặt
logic, hệ thống file có cấu trúc như một cây thư mục. Các hệ điều hành sử dụng
hệ thống file để lưu trữ và truy xuất dữ liệu cho các ứng dụng. Mỗi một hệ điều
hành có thể có một hoặc nhiều hệ thống file, ví dụ hệ thống file NTFS trên hệ điều
hành Microsoft Windows và hệ thống file EXT trên Linux.
Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file
có thể lưu trữ các file (tệp) có dung lượng lớn được phân tán đều trên các nút của
cụm dữ liệu. Nó cho phép các file được truy cập từ nhiều vị trí khác nhau. Ví dụ,
hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop
(HDFS) [5].

Cơ sở dữ liệu không quan hệ (Non-SQL)
Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, có khả năng mở rộng cao,
tính chịu lỗi và được thiết kế đặc biệt cho dữ liệu không có cấu trúc hoặc bán cấu
trúc. CSDL Non-SQL này thường được cung cấp giao diện truy vấn API và có thể
được gọi từ bên trong ứng dụng. CSDL Non-SQL còn có khả năng hỗ trợ các truy
vấn có cấu trúc (SQL).
CSDL Non-SQL có thể được phân thành bốn loại dựa trên cách chúng lưu trữ
dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá trị); Dạng document
(tài liệu); Dạng column-family; Dạng graph (đồ thị) [5].

7

Hình 1.1. Một ví dụ về lưu trữ dạng Key-value.

Hình 1.2. Một ví dụ về lưu trữ dạng Document.

Hình 1.3. Một ví dụ về lưu trữ dạng Column-family.

Hình 1.4. Một ví dụ về lưu trữ dạng Graph.
Phân đoạn dữ liệu (Sharding)
Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, từ một tập
dữ liệu lớn thành một tập hợp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn được gọi là
phân đoạn. Các phân đoạn được phân phối trên nhiều nút, trong đó mỗi một nút
là máy chủ. Mỗi phân đoạn được lưu trữ trên một nút riêng biệt và mỗi nút chỉ
chịu trách nhiệm cho dữ liệu được lưu trữ trên đó. Mỗi phân đoạn có cùng một
lược đồ (schema) và tất cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn
chỉnh [5].
Việc xử lý phân đoạn dữ liệu thường trong suốt với các máy client, phân đoạn dữ
liệu cho phép phân phối tải xử lý trên nhiều nút (node) để có khả năng mở rộng lưu

trữ dữ liệu theo chiều ngang. Đây là phương pháp để tăng năng lực của hệ thống
8

bằng cách thêm các tài nguyên (node). Khi đó mỗi một node chỉ chịu trách nhiệm
cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi được cải thiện rất
nhiều. Một lợi ích khác của phân đoạn dữ liệu là khả năng chịu lỗi. Trong trường hợp
một node bị lỗi, chỉ có dữ liệu trên node đó bị ảnh hưởng [5].
Sao lưu dữ liệu (Repilication)
Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu nằm ở trên
nhiều node. Sao lưu dữ liệu cung cấp khả năng mở rộng và tính khả dụng của dữ
liệu do được lưu trên nhiều node khác nhau. Khả năng chịu được lỗi cũng được
cải thiện do có dự phòng dữ liệu – dữ liệu không bị mất đi khi một node riêng lẻ
bị lỗi. Hiện nay, có 02 mô hình sao lưu dữ liệu là sao lưu chủ – tớ (master-slave)
và sao lưu ngang hàng (peer-to-peer) [5].
Nguyên lý CAP (Consistency, Availability, and Partition tolerance)
Nguyên lý CAP [5] còn được
gọi là nguyên lý Brewer, thể hiện
với ba ràng buộc liên quan đến các
hệ thống cơ sở dữ liệu phân tán đó
là tính nhất quán (C-Consistency),
độ khả dụng (Availability) và
ngưỡng

phân

vùng

(Partition

tolerance). Nguyên lý nói rằng một
hệ thống cơ sở dữ liệu phân tán,
chạy trên một cụm, chỉ có thể đáp
ứng hai trong ba thuộc tính sau:

Hình 1.5. Sơ đồ Venn - định lý CAP.

+ Tính nhất quán:Việc đọc từ bất kỳ nút nào đều có dữ liệu đầu ra như nhau
+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn được xác nhận dưới hai dạng: thành
công hay thất bại.
+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng được mất điện
liên lạc chia cụm thành nhiều silo và vẫn có thể phục vụ các yêu cầu đọc/ghi.
Nguyên tắc thiết kế ACID
ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dịch.
Nó là từ viết tắt của tính nguyên tử (Atomicity), tính nhất quán (Consistency), độ
cách ly (Isolation) và độ bền (Durability)

9

ACID là một phương pháp quản lý các giao dịch đồng thời, kiểm soát thông
qua khóa bản ghi (record locks) để đảm bảo tính nhất quán được duy trì. ACID là
phương pháp truyền thống để quản lý cơ sở dữ liệu giao dịch trong các hệ thống
quản lý cơ sở dữ liệu quan hệ (RDBMS).
+ Tính nguyên tử đảm bảo rằng tất cả các giao dịch sẽ luôn luôn thành công
hoặc thất bại hoàn toàn. Nói cách khác, không có giao dịch một phần.
+ Tính nhất quán đảm bảo rằng dữ liệu phải luôn luôn phù hợp với định dạng
để có thể được ghi được vào CSDL. Một CSDL ở trạng thái nhất quán sẽ
vẫn ở trạng thái nhất quán sau khi giao dịch thành công.
+ Độ cách ly đảm bảo rằng kết quả của một giao dịch đang thực hiện không

thể ảnh hưởng bởi một giao dịch khác cho đến khi giao dịch đó hoàn thành.
+ Độ bền đảm bảo rằng kết quả của một giao dịch là vĩnh viễn. Nói cách khác,
một khi giao dịch đã được thực hiện, nó không thể được khôi phục dù cho
hệ thống có thể xảy ra lỗi [5].
1.1.3 Các khái niệm về xử lý dữ liệu lớn
Xử lý giao dịch trực tuyến (OLTP)
OLTP là một hệ thống phần mềm xử lý dữ liệu theo hướng giao dịch. Thuật
ngữ giao dịch trực tuyến dùng để chỉ các hành động xử lý theo hướng thời gian
thực (real time). Dữ liệu được lưu giữ trong hệ thống OLTP được chuẩn hóa, cơ
bản có cấu trúc và là đầu vào cho các xử lý phân tích.
Các truy vấn được xử lý trong hệ thống OLTP bao gồm các thao tác chèn, xóa
và cập nhật đơn giản với thời gian phản hồi mức mili giây. Ví dụ bao gồm hệ
thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].
* Xử lý phân tích trực tuyến (OLAP)
Các hệ thống xử lý phân tích trực tuyến (OLAP) được sử dụng để xử lý các
truy vấn phân tích dữ liệu. OLAP là một phần không thể thiếu của BI, khai phá
dữ liệu và học máy. OLAP có liên quan đến BigData ở chỗ chúng có thể đóng vai
trò là nguồn dữ liệu đầu vào cũng như nguồn dữ liệu đầu ra của BigData. Chúng
được sử dụng trong phân tích chẩn đoán, phân tích dự đoán và phân tích đề xuất.
Các hệ thống OLAP thực hiện các truy vấn phức tạp, dài hạn đối với cơ sở dữ liệu
đa chiều có cấu trúc được tối ưu hóa để thực hiện các phân tích nâng cao.
Hệ thống OLAP lưu trữ dữ liệu lịch sử dưới dạng không được chuẩn hóa để
hỗ trợ khả năng báo cáo nhanh. OLAP cũng có khả năng lưu trữ các dữ liệu này

10

dưới dạng cấu trúc đa chiều để đáp ứng các truy vấn phức tạp dựa trên mối quan
hệ dữ liệu [5].
* Trích xuất dữ liệu (ETL)

Trích xuất dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải từ
hệ thống nguồn đến hệ thống đích. Hệ thống nguồn ở đây có thể là CSDL, tệp
hoặc ứng dụng. Tương tự hệ thống đích có thể là CSDL hoặc các hệ thống lưu trữ
khác. ETL là các xử lý chính trong kho dữ liệu (Data warehouse). Trong BigData,
ETL được sử dụng để chuyển đổi giữa các loại dữ liệu khác nhau. Hình 1.6 cho
thấy dữ liệu trích xuất được lấy từ các nguồn khác nhau, được chuyển đổi trước
khi được đưa vào hệ thống đích [5].

Hình 1.6. Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển
đổi nó để tải vào một hệ thống đích duy nhất.
Xử lý dữ liệu song song
Xử lý dữ liệu song song là việc chia một nhiệm vụ lớn hơn thành nhiều nhiệm vụ
nhỏ hơn chạy đồng thời với mục tiêu là giảm thời gian thực hiện. Mặc dù cơ chế xử lý
dữ liệu song song có thể đạt được thông qua nhiều máy được nối mạng, nhưng thông
thường được áp dụng trong phạm vi một máy chủ có nhiều bộ xử lý hoặc lõi, mỗi một
bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5].

Hình 1.7. Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song
song trên ba bộ xử lý khác nhau trong cùng một máy.
11

Luận văn thạc sĩ công nghệ thông tin tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về