Tải bản đầy đủ (.pdf) (109 trang)

Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.02 MB, 109 trang )

.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THƠNG
Chun ngành: Hệ thống thơng tin
Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
C






: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019


LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã
tạo điều kiện cho học vi n lớp c o học 24

TT một môi trường học tập thuận

l i đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy kho
học để phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt tôi xin đư c bày tỏ lịng biết ơn sâu sắc đến

T

đã tận tình chỉ bảo cho tơi trong suốt q trình học tập và nghiên
cứu, giúp tơi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và
làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp

o học

ệ thống Thơng tin

K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gi n học tập


uối

cùng tôi xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân đã động
vi n giúp đỡ tôi trong q trình hồn thành luận văn
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn cịn ít nên luận văn khơng
tránh khỏi những thiếu sót. Tơi xin trân trọng tiếp thu các ý kiến của các thầy cô,
bạn bè để luận văn đư c hoàn thiện.
Trân trọng cám ơn

i


LỜI CAM ĐOAN
Tôi xin c m đo n các kết quả nghi n cứu thực nghiệm đư c trình bày trong
luận văn này do tôi thực hiện dưới sự hướng d n củ

T

h n

uân

và đư c thực hiện trong quá trình h p tác nghi n cứu giữ Tập đồn
nghiệp - ông nghệ

iếu
ông

o iettel và đối tác


T t cả những th m khảo t các nghi n cứu li n qu n đều đư c n u nguồn gốc
một cách r ràng t d nh mục tài liệu th m khảo củ luận văn Trong luận văn
không c việc s o ch p tài liệu cơng trình nghi n cứu củ người khác mà không
chỉ r về tài liệu th m khảo
n

n y

t n

n m

H

Ngu

ii

C

T

H

9


MỤC LỤC
LỜI CẢM ƠN ................................................................................................................ i

LỜI CAM ĐOAN ......................................................................................................... ii
MỤC LỤC ....................................................................................................................iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................. v
DANH MỤC CÁC BẢNG.......................................................................................... vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................viii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG
11

TỔNG QUAN ........................................................................................ 4

Ả ....................................................................................4

1 1 1 hái niệm chung về dữ liệu lớn ............................................................................4
1 1 2 ác khái niệm lưu trữ dữ liệu lớn ..........................................................................5
1 1 3 ác khái niệm về xử l dữ liệu lớn ........................................................................9
1 1 4 ái khái niệm phân t ch dữ liệu và các loại hình phân t ch dữ liệu .................... 13
1.2. Hệ thống phân tích dữ liệu lớn ...............................................................................16
1 2 1 ông nghệ lưu trữ dữ liệu trong BigData ............................................................ 16
1 2 2 ử l dữ liệu trong BigData ................................................................................21
1.2.3. Kỹ thuật phân t ch bigd t hiện n y ...................................................................25
1 3 ác
T
T

............................................................... 28
1 3 1 ài toán phân t ch dự báo .................................................................................... 28
1 3 2 ác mơ hình dự báo cơ bản ................................................................................28
1 3 3 ác kỹ thuật phân t ch dự báo .............................................................................30
1.3.4. Giới thiệu cơng cụ phân tích Rapidminer............................................................ 41

CHƯƠNG 2 PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN ...... 44
21
ỆT Ố
T
Ữ Ệ
Ớ T
Ễ T
.........44
2 1 1 ột số ứng dụng hệ thống phân t ch dữ liệu lớn phổ biến hiện n y ................... 44
2 1 2 iện trạng củ iettel .......................................................................................... 50
2 2 2 ơ hình tổ chức thực tế hệ thống ig t tại iettel ........................................56
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn ................................................58
2 2 4 ác phân hệ cài đặt củ louder ig t nterprise fl tform: ........................ 60
CHƯƠNG 3 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự
O T RM ....... 62
31 Ộ
T Ự
Ệ ...............................................................................62
3 1 1 Định ngh thu b o rời mạng ............................................................................62
3 1 2 ài toán y u cầu ..................................................................................................62
3.1.3. ác bước thực nghiệm ........................................................................................ 63
32 T Ể
ỆT Ố
T Ự
Ệ ....................................................... 63
iii


321


ây dựng hệ thống phân t ch ig

t thực nghiệm ..........................................63

322
33

ây dựng mơ hình dự báo TBRM. ......................................................................68
T
ẢT Ự


....................................69

3 3 1 hám phá dữ liệu và tạo các biến đặc trưng ...................................................... 69
3 3 2 ự chọn đặc trưng và mơ hình h ....................................................................75
3 3 3 Tối ưu mơ hình dự báo ....................................................................................... 79
34 Đ
T

.................................................................................... 82
3 4 1 ết quả đầu r củ hệ thống phân t ch dự báo thu b o rời mạng .................... 82
3 4 2 Tri thức thu đư c s u thực nghiệm .....................................................................82
KẾT LUẬN ................................................................................................................. 84
TÀI LIỆU THAM KHẢO.......................................................................................... 85
PHỤ ỤC
ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ
TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI ......................................................... 87
PHỤ ỤC 2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI ........................................................................... 90


iv


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT



ệ / ữ
ết tắt

1

ACID

2
3

AUC
AUROC

4

BASE

5

BLOB

6


CAP

7

CEM

8
9
10
11
12
13
14
15
16
17
18
19
20
21

CEP
CNN
DBM
DBN
DT
ETL
FN
FP

FPR
GBM
GBRT
ID3
IG
IMDB

22

IMDG

23
24
25
26

IOB
IoT
LS
M2M

27

MDA

28

MDG

29

30

OOB
POD

Ý

ĩa

Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype
Extract Transform Load (Trích xu t dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines

Gradient Boosting Regression Trees
Interactive Dichotomizer 3
nform tion in (Độ tăng thông tin)
In- emory t b ses ( ơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập hu n luyện)
Machine to Manchine
e n ecre se ccur cy (Độ chính xác giảm bình qn cho
mỗi biến)
Mean Decrease Gini (Sự giảm bình quân hệ số ini đối với
mỗi biến)
Out-of-bag
Period of Day
v


STT
31



ệ / ữ
ết tắt
QC

32


RDBMS

33
34
35
36
37
38
39
40
41
42

RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR
WFLD

Ý

ĩa

Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở

dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date

vi


DANH MỤC CÁC BẢNG
Bảng 1 1 ác thuộc t nh v dụ Ngày và Khách truy cập và thuộc t nh đư c trích xu t
IsWeek-endDayfDayg ...................................................................................................31
Bảng 1 2 ác phương pháp tr ch chọn thuộc t nh ........................................................ 33
Bảng 3.1. C u hình hệ thống phân tích BigData thực nghiệm. .....................................65
Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm ............................. 67
Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao ......................................69
Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao ...................................70
Bảng 3.5. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao .............................. 71
Bảng 3.6. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao. ............................. 71
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao .......................... 72
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao ..............72
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao ..................................73
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao..................... 74
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng .......................... 74

theo chu kỳ của thuê bao ............................................................................................... 74
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng h p ch rge cước sử dụng các dịch vụ
VAS của thuê bao ..........................................................................................................74
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao ....................................75
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng .................75
Bảng 3 15 ự chọn các thuộc t nh qu n trọng b ng thuật toán ecision Tree .................75
Bảng 3.16. Validation of the Training Data Set (80% of Total) ...................................78
Bảng 3.17. Validation of the Testing Data Set (20% of Total). ....................................78
Bảng 3.18. Sử dụng Logistic Regression ......................................................................78
Bảng 3.19. Sử dụng Naïve Bayes ..................................................................................78
Bảng 3.20. So sánh các kết quả ..................................................................................... 79
ảng 3 21 ết quả phân cụm b ng thuật toán -mean. ...............................................79
ảng 3 22 ết quả chi tiết phân cụm b ng thuật toán -mean ....................................79
ảng 3 23 Tối ưu mơ hình b ng cách lựa chọn lại các đặc trưng ................................ 81
Bảng 3.24. Lựa chọn mơ hình dự đốn tốt nh t. ........................................................... 82
Bảng 3.25. Mơ hình dự báo với thuật toán Gradien Booting ........................................82

vii


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Một ví dụ về lưu trữ dạng ey-value. ............................................................. 7
Hình 1.2. Một ví dụ về lưu trữ dạng ocument ............................................................. 7
Hình 1.4. Một ví dụ về lưu trữ dạng r ph ....................................................................7
ình 1 5

ơ đồ Venn - định lý CAP. ..............................................................................8

Hình 1.6. Một quy trình ETL có thể trích xu t dữ liệu t nhiều nguồn và chuyển đổi nó
để tải vào một hệ thống đ ch duy nh t. ..........................................................................10

Hình 1.8. Một ví dụ về xử lý dữ liệu phân tán. ............................................................. 11
và lưu trữ........................................................................................................................ 12
Hình 1.10.Giá trị và độ phức tạp tăng t phân tích mơ tả đến đề xu t.......................... 13
Hình 1.11. Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nh nh hơn 80 lần so
với thiết bị lưu trữ tr n đ ............................................................................................ 19
Hình 1.12. Một ví dụ mơ tả việc truy xu t dữ liệu t IMDG. .......................................20
Hình 1.13. Một ví dụ mô tả việc truy xu t dữ liệu t IMDB. .......................................21
Hình 1.14. Một minh họa về cơng việc MapReduce ..................................................... 23
Hình 1.15. Một ví dụ về
p educe đ ng hoạt động ..................................................25
Hình 1.16. Biểu diễn cây quyết định cơ bản .................................................................28
Hình 1.17. Cây quyết định cho việc chơi Tennis .......................................................... 29
Hình 1.18. Vai trị của mơ hình và t ng tập dữ liệu ...................................................... 34
Hình 1.19. Overfitting, Underfitting..............................................................................35
Hình 1.20. Confusion Matrix......................................................................................... 36
ình 1 21 hương pháp i s & ri nce ....................................................................37
ình 1 22 hương pháp đường cong
-ROC ......................................................... 39
ình 1 23
ình 1 24
Hình 1 25
ình 1 26
ình 2 1
ình 2 2
ình 2 3
ình 2 4

Trường h p tốt nh t khi 2 đường cong không chồng lên nhau. ..................40
Trường h p khi 2 đường cong có chồng lên nhau. .....................................41
Trường h p tệ nh t khi 2 đường cong hoàn toàn chồng lên nhau. ..............41

Trường h p AUC x p xỉ 0...........................................................................41
ác l nh vực phân t ch dữ liệu lớn trong viễn thông ....................................44
ức độ ứng dụng phân t ch dữ liệu lớn trong viễn thông ............................ 45
hương pháp tổ chức hệ thống dữ liệu lớn.................................................... 53
ơ hình tổ chức thực tế hệ thống BigData tại Viettel. .................................56

ình 2 5
ình 3 1
ình 3 2
ình 3 3
ình 3 4

o sánh

..................................................................................59
ơ hình triển kh i hệ thống ig t thực nghiệm ......................................64
ơ hình đ u nối hệ thống .............................................................................64
i o diện module Cloudera Manager. .......................................................... 66
i o diện công cụ phân t ch pidminer ..................................................... 66
viii


ình 3 5

uồng kh i phá dữ liệu trong

pidminer ................................................... 67

ình 3 6
ình 3 7


uồng xử l kh i phá dữ liệu .......................................................................67
ơ hình dự báo thu b o rời mạng .............................................................. 69

ình 3 8 hương pháp hu n luyện 1 cây quyết định cho mỗi nguồn dữ liệu. .............76
ình 3 9 ắt bỏ các mức th p và trích xu t các nút t các c p c o hơn ...................... 76
ình 3 10 ơ tả cây quyết định tr n pidminer ....................................................... 77
ình 3 11
ình 3 12

ác thuộc t nh qu n trọng s u khi cắt bỏ ................................................... 77
ơ hình tối ưu ............................................................................................ 81

ix


MỞ ĐẦU
Tr n thế giới dữ liệu lớn ( ig t ) đã và đ ng là một trong những v n đề
trung tâm, nhận đư c nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư ig ta chính là cốt l i để sử dụng, phát triển internet vạn vật (IoT) và
trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo
ra một lư ng lớn dữ liệu, dự kiến đến năm 2020 lư ng dữ liệu sẽ tăng g p 50
lần hiện nay [4]. Thông qua thu thập, phân tích và xử l lư ng dữ liệu lớn này sẽ
tạo ra những tri thức mới, hỗ tr việc đư r quyết định của các chủ thể trên thế
giới (doanh nghiệp, chính phủ người dân) [1, 4].
Trong ngành viễn thông và
TT dữ liệu lớn trở thành công cụ hữu hiệu
cho các nhà cung c p dịch vụ viễn thông trong kinh do nh c ng như công tác
quản l vận hành kh i thác dịch vụ ác do nh nghiệp viễn thông ngày n y đã
chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân t ch dữ

liệu làm cơ sở để giám sát quản l và r các quyết định c t nh chiến lư c nh
vực áp dụng dự liệu lớn trong viễn thông r t phong phú li n qu n đến các công
nghệ phân t ch dự báo học máy ( ) tr tuệ nhân tạo ( ) [2, 10]. ự vào
các công cụ này do nh nghiệp c thể nâng c o ch t lư ng dịch vụ cung c p đạt
hiệu quả kinh do nh hạm vi ứng dụng dữ liệu lớn trong viễn thông n i ri ng
r t rộng các ứng dụng c thể kể đến như hệ thống phân t ch quản l trải nghiệm
khách hàng ( ustomer xperience gmt) hệ thống giám sát quản l và tối ưu
mạng lưới ( etwork
) hệ thống phân t ch hoạt động do nh nghiệp
( per tion n lytics) và thương mại dữ liệu ( t
onetiz tion) [7, 11]
iettel là một do nh nghiệp hàng đầu iệt m luôn c chiến lư c đổi mới
ti n phong trong công nghệ iệc ứng dụng một cách nh nh nh t hiệu quả nh t
các công nghệ mới n i chung và nh t là các công nghệ li n qu n đến dữ liệu lớn
n i ri ng luôn là thách thức củ đội ng kỹ thuật iettel ột trong những ứng
dụng phổ biến nh t hiện n y mà các nhà cung c p dịch vụ viễn thông sử dụng đ
là hệ thống phân t ch dự báo khách hàng rời mạng Đây là hệ thống qu n trọng
mà đội ng kỹ thuật iettel tự nghi n cứu xây dựng dự tr n tư v n củ đối tác
cung c p nền tảng dữ liệu lớn louder
ản thân là một trong những thành vi n th m gi dự án xây dựng bài
tốn tơi xin giới thiệu đề tài nghi n cứu: "TỔ

T

T Ố
T
Ữ Ệ

T


T
Ễ T
" ới mong muốn hiểu đư c phương pháp phân t ch dự
1


báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u
nghi n cứu các nội dung s u đây:
Tổng quan về vấn đề nghiên cứu:
 Tìm hiểu về dữ liệu lớn các công nghệ li n qu n đến dữ liệu lớn (công
nghệ xử l và lưu trữ dữ liệu) các ứng dụng cho dữ liệu lớn Tìm hiểu về
bài toán phân t ch dự báo và phương pháp dự báo thu b o rời mạng dự
tr n hành vi ti u dùng và th i quen sử dụng dịch vụ củ khách hàng


ây dựng t ch h p hệ thống phân t ch dữ liệu lớn phục vụ công tác dự báo
thu b o rời mạng tại iettel
Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh do nh củ iettel
Đối tượng nghiên cứu:


ữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ tr ).

 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
 Các khái niệm cơ bản về dữ liệu lớn
 Giải pháp mã nguồn mở cho Big t dự tr n louder l tform
 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân t ch dự báo cụ thể
Phương pháp nghiên cứu:

 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin
với mục tiêu là hiểu đư c nền tảng cơ bản.
 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu
và triển kh i đư c cơng nghệ.
 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xu t kinh doanh của Viettel
phục vụ cho sản xu t kinh doanh của doanh nghiệp với mục ti u nắm
vững các nguồn dữ liệu lớn đ ng c và triển khai việc xây dựng BigData.
Phương pháp thực nghiệm: ây dựng t ch h p một hệ thống dữ liệu lớn
dự tr n nền tảng louder l tform phục vụ cho một ứng dụng cụ thể là phân
t ch dự báo thu b o rời mạng củ iettel
ới các mục ti u xác định cụ thể như tr n kết quả củ luận văn dự kiến sẽ
cho r đời một hệ thống phân t ch dữ liệu lớn phục vụ cho công tác dự báo thu
b o rời mạng mới (th y thế cho hệ thống v c ) ệ thống phân t ch mới này
dự tr n các thuật toán dự báo ti n tiến kết h p với công nghệ xử l dữ liệu lớn
sẽ cho r kết quả phân t ch nh nh hơn và c độ ch nh xác hơn u đ công cụ
2


này sẽ giúp iettel đư r quyết định kịp thời và hiệu quả hơn trong việc gìn giữ
khách hàng củ mình
Luận văn đư c c u trúc như s u:
1: TỔ
hương này trình bày các khái niệm cơ bản về dữ liệu lớn công nghệ lưu trữ
và xử l dữ liệu lớn ác bài toán phân t ch dự báo mơ hình dự báo giới thiệu
các kỹ thuật phân t ch dự báo và công cụ phân t ch dữ liệu pidminer c ng là
một trong những nội dung qu n trọng củ phần này
2: TỔ

ỘT Ệ T Ố
T

Ữ Ệ

Đây là chương khá qu n trọng đư c chi làm 02 phần hần thứ nh t giới
thiệu các ứng dụng phân t ch dữ liệu lớn phổ biến hiện n y hiện trạng các
nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân t ch dữ liệu lớn tại
Viettel hần c n lại sẽ chi s phương pháp tổ chức hệ thống dữ liệu lớn tập
trung cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại củ iettel
3: T Ự
Ệ T
ỆT Ố

THU
Ờ Ạ
hương 3 là chương chuyển thể các kiến thức nghi n cứu đư c thành nội
dung ứng dụng thực tế hương này đư r thực nghiệm t ch h p một hệ thống
phân t ch dự báo thu b o rời mạng với một hệ thống xử l dữ liệu lớn thành
một công cụ c áp dụng dự báo cụ thể ệ thống này bước đầu cho r các kết
quả sơ bộ về đặc điểm thu b o rời mạng với độ ch nh xác >80 s u khi tối ưu
các bước dự báo
Tuy nhi n để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong
thực tế kinh doanh của Viettel, ngồi việc tối ưu lại hệ thống thì cịn phải thực
hiện tối ưu mơ hình li n tục. Kết quả thực nghiệm củ chương trình này chỉ
mang tính ch t tham khảo chư thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là qu n điểm và tư duy cá nhân sẽ cịn nhiều tồn tại
và thiết sót. Do vậy, r t mong quý thầy cô, bạn học và nh t là hội đồng tốt
nghiệp cho ý kiến đ ng g p để luận văn đư c hoàn thiện, kết quả luận văn là
công cụ dự báo đư c áp dụng hiệu quả trong thực tế.

3



CHƯƠNG

TỔNG QUAN

1.1. CÁC KH I NIỆM CƠ ẢN
1.1.1. K



chung về dữ liệu lớn

iệu ata s ts
hiều tập dữ liệu h y nhiều nh m dữ liệu c li n qu n đến nh u đư c gọi là
bộ dữ liệu [5] Trong đ mỗi nh m hoặc tập con dữ liệu đ c cùng thuộc t nh
giống nh u

ột số v dụ về bộ dữ liệu ở 03 định dạng khác nh u:

+ ữ liệu Tweets đư c lưu giữ trong tập tin ph ng (flat file).
+ Tr ch xu t các hàng t bảng dữ liệu (d t b se t ble) đư c lưu giữ trong
tệp định dạng
ộ sưu tập ảnh đư c lưu trong thư mục
+ ác thông tin qu n sát về lịch sử thời tiết đư c lưu dưới dạng
Đặc điểm d liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
ữ liệu lớn ig t c 05 đặc điểm h y c n gọi là 5 : Volume- hối lư ng
lớn; Velocity-Tốc độ;

riety-T nh đ dạng; Veracity-Tính xác thực và


ng lại giá trị. ầu hết các đặc điểm về dữ liệu lớn đư c oug

lue-

ney xác định

vào năm 2001 khi đăng bài viết về dữ liệu do nh nghiệp ( olume

elocity

riety) T nh xác thực ( er city) đư c bổ sung để t nh tỷ lệ sign l-to-noise khi
so sánh dữ liệu phi c u trúc với dữ liệu c c u trúc

uối cùng

lue- để xác

định các kết quả phân t ch dữ liệu lớn m ng lại giá trị gì? [8].
Ph n iệt các oại d liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có c u trúc phù h p với mơ
hình dữ liệu đư c lưu trữ ở dạng bảng

húng đư c sử dụng để mô tả mối quan

hệ giữa các thực thể khác nh u và do đ thường đư c lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có c u trúc thường đư c tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao
gồm các giao dịch ngân hàng h


đơn và hồ sơ khách hàng

Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu khơng phù h p với mơ
hình dữ liệu hoặc lư c đồ dữ liệu đư c gọi là dữ liệu phi c u trúc. gười t ước
tính r ng dữ liệu phi c u trúc chiếm tới 80% dữ liệu trong b t kỳ doanh nghiệp
nào.

gày n y dữ liệu phi c u trúc có tốc độ tăng trưởng nh nh hơn dữ liệu có

4


c u trúc. Một số loại dữ liệu phi c u trúc phổ biến như dữ liệu c dạng văn bản
(text) hoặc nhị phân (binary).
Dữ liệu phi c u trúc không thể đư c xử l hoặc truy v n trực tiếp b ng cơ sở
dữ liệu qu n hệ SQL. Nếu muốn lưu trữ dữ liệu phi c u trúc trong cơ sở dữ liệu
quan hệ, thì phải đư c lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object)

gồi r cơ sở dữ liệu NonSQL có thể đư c sử dụng để lưu trữ dữ liệu

phi c u trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán c u trúc thường là
dữ liệu c c u trúc nhưng không đồng nh t Th y vào đ dữ liệu bán c u trúc c
dạng phân c p (hierarchical) hoặc đồ thị (gr phb sed). Loại dữ liệu này thường
đư c lưu trữ trong các tệp có chứ văn bản. Ví dụ như các tệp XML và JSON là
các dạng phổ biến của dữ liệu bán c u trúc. Do tính ch t văn bản của dữ liệu này
và sự phù h p của nó với một mức độ c u trúc nào đ

n dễ dàng kh i thác hơn


dữ liệu phi c u trúc.
Các nguồn phổ biến của dữ liệu bán c u trúc bao gồm các tệp tr o đổi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu t các bộ cảm biến. Dữ liệu bán c u trúc
thường có các yêu cầu lưu trữ và xử l trước đặc biệt đặc biệt nếu định dạng cơ
bản khơng dự tr n văn bản. Một ví dụ về tiền xử lý dữ liệu bán c u trúc sẽ là
xác thực tệp

để đảm bảo r ng nó tuân thủ theo lư c đồ của nó.

Siêu dữ liệu (Metadata): Siêu dữ liệu cung c p thông tin về các đặc điểm và
c u trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đư c tạo b ng máy và có thể
đư c thêm vào dữ liệu. Việc theo dõi siêu dữ liệu r t quan trọng đối với việc xử
l

lưu trữ và phân tích dữ liệu lớn vì nó cung c p thơng tin về phả hệ của dữ

liệu và nguồn gốc của nó trong q trình xử lý. Ví dụ về siêu dữ liệu bao gồm:
Thẻ XML cung cấp ngày x


t

và ngày tạo tài liệu; Các thu c tính cung cấp

t ước tệp v đ phân giải củ ản kỹ thuật số; Các giải pháp dữ liệu lớn

t ư n d a trên siêu dữ liệu đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu
trúc [5].
1.1.2 C


t ữ ữ ệ ớ
ác dữ liệu thu đư c t các nguồn b n ngoài thường không ở định dạng hoặc
c u trúc c thể xử l ng y đư c Để khắc phục đư c tình trạng này việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết

ử l sắp xếp lưu trữ dữ liệu b o gồm các

bước: ọc dữ liệu làm sạch dữ liệu và chu n bị dữ liệu
5

o nhu cầu lưu trữ dữ


liệu trong

ig

t

n n c nhiều công nghệ ti n tiến đư c tạo r để hướng tới

việc lưu trữ hiệu quả và c khả năng mở rộng c o [5].
ụm
iệu
ust rs
Trong điện toán, một cụm là một tập h p các máy chủ hoặc các nút đư c liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đư c kết nối với
nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử l dữ liệu
Mỗi nút trong cụm c các tài nguy n ri ng biệt ch ng hạn như bộ nhớ, bộ xử lý

và ổ cứng. Một cụm có thể thực thi một tác vụ b ng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
ệ thống ưu tr i hệ thống ưu tr i ph n tán
ệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương
pháp lưu trữ và sắp xếp dữ liệu tr n thiết bị lưu trữ (ổ đ
cứng )

fl sh



ile (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nh t đư c quản l bởi hệ

thống file

ề mặt logic hệ thống file c c u trúc như một cây thư mục

ác hệ

điều hành sử dụng hệ thống file để lưu trữ và truy xu t dữ liệu cho các ứng
dụng

ỗi một hệ điều hành c thể c một hoặc nhiều hệ thống file v dụ hệ

thống file

T

tr n hệ điều hành


icrosoft

indows và hệ thống file

T

trên Linux.
ột hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống
file c thể lưu trữ các file (tệp) c dung lư ng lớn đư c phân tán đều tr n các
nút củ cụm dữ liệu
nh u

cho ph p các file đư c truy cập t nhiều vị tr khác

dụ hệ thống file phân tán củ

oogle (

) và hệ thống file phân tán

Hadoop (HDFS) [5].
ơs
iệu h ng quan hệ
ơ sở dữ liệu onlà

on-SQL)
không qu n hệ c khả năng mở rộng c o

t nh chịu lỗi và đư c thiết kế đặc biệt cho dữ liệu không c c u trúc hoặc bán
c u trúc


on-

này thường đư c cung c p gi o diện truy v n

c thể đư c gọi t b n trong ứng dụng
các truy v n c c u trúc (

on-



c n c khả năng hỗ tr

)

CSDL Non-SQL có thể đư c phân thành bốn loại dự tr n cách chúng lưu
trữ dữ liệu như trong

ình 1.1 – 1.4:

ạng key-value (khóa-giá trị);

document (tài liệu); ạng column-family; ạng gr ph (đồ thị) [5].

6

ạng



Hình 1.1. M t ví dụ về lưu trữ ạn

y-value.

Hình 1.2. M t ví dụ về lưu trữ ạn

o um nt

Hình 1.3. M t ví dụ về lưu trữ ạn

olumn-family.

Hình 1.4. M t ví dụ về lưu trữ ạn

r p

Ph n đoạn
iệu har ing
hân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ng ng t một
tập dữ liệu lớn thành một tập h p các bộ dữ liệu nhỏ hơn dễ quản l hơn đư c
gọi là phân đoạn

ác phân đoạn đư c phân phối trên nhiều nút trong đ mỗi

một nút là máy chủ. Mỗi phân đoạn đư c lưu trữ trên một nút riêng biệt và mỗi
nút chỉ chịu trách nhiệm cho dữ liệu đư c lưu trữ tr n đ

7

ỗi phân đoạn c



cùng một lư c đồ (schema) và t t cả các phân đoạn đều đại diện cho một bộ dữ
liệu hoàn chỉnh [5].
iệc xử l phân đoạn dữ liệu thường trong suốt với các máy client phân đoạn
dữ liệu cho ph p phân phối tải xử l tr n nhiều nút (node) để c khả năng mở rộng
lưu trữ dữ liệu theo chiều ng ng Đây là phương pháp để tăng năng lực củ hệ
thống b ng cách th m các tài nguy n (node)

hi đ mỗi một node chỉ chịu trách

nhiệm cho một phần củ toàn bộ tập dữ liệu do vậy thời gi n đọc ghi đư c cải
thiện r t nhiều

ột l i ch khác củ phân đoạn dữ liệu là khả năng chịu lỗi Trong

trường h p một node bị lỗi chỉ c dữ liệu tr n node đ bị ảnh hưởng [5].
Sao ưu
iệu
pi ication
o lưu dữ liệu là quá trình tạo r nhiều bản s o cho một tập dữ liệu n m ở
tr n nhiều node

o lưu dữ liệu cung c p khả năng mở rộng và t nh khả dụng

củ dữ liệu do đư c lưu tr n nhiều node khác nh u

hả năng chịu đư c lỗi

c ng đư c cải thiện do c dự ph ng dữ liệu – dữ liệu không bị m t đi khi một

node ri ng l bị lỗi

iện n y c 02 mơ hình s o lưu dữ liệu là s o lưu chủ – tớ

(master-slave) và s o lưu ng ng hàng (peer-to-peer) [5].
guyên
P
Nguyên l

onsist ncy vai a i ity an Partition to ranc
[5] còn

đư c gọi là nguy n l Brewer, thể
hiện với ba ràng buộc liên quan
đến các hệ thống cơ sở dữ liệu
phân tán đ là t nh nh t quán ( onsistency)

độ

khả

dụng

( v il bility) và ngưỡng phân
vùng

( rtition

toler nce)


guy n l n i r ng một hệ thống
cơ sở dữ liệu phân tán, chạy trên
một cụm, chỉ có thể đáp ứng h i

Hình 1.5. Sơ đồ Venn - định lý CAP.

trong ba thuộc tính sau:
+ Tính nh t quán:Việc đọc t b t kỳ nút nào đều c dữ liệu đầu r như nh u
+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn đư c xác nhận dưới hai dạng:
thành công hay th t bại.

8


+

gưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng đư c m t điện
liên lạc chia cụm thành nhiều silo và v n có thể phục vụ các yêu cầu đọc/ghi.

guyên t c thi t
ACID là một nguyên tắc thiết kế cơ sở dữ liệu li n qu n đến quản lý giao
dịch. Nó là t

viết tắt củ

t nh nguy n tử ( tomicity) t nh nh t quán

( onsistency) độ cách ly ( sol tion) và độ bền ( ur bility)
ACID là một phương pháp quản l các gi o dịch đồng thời kiểm soát thơng
qu kh


bản ghi (record locks) để đảm bảo tính nh t quán đư c duy trì

là phương pháp truyền thống để quản l cơ sở dữ liệu giao dịch trong các hệ
thống quản l cơ sở dữ liệu quan hệ (RDBMS).
+ T nh nguy n tử đảm bảo r ng t t cả các gi o dịch sẽ luôn luôn thành cơng
hoặc th t bại hồn tồn. Nói cách khác, khơng có giao dịch một phần.
+ Tính nh t qn đảm bảo r ng dữ liệu phải luôn luôn phù h p với định
dạng để c thể đư c ghi đư c vào
ột CSDL ở trạng thái nh t
quán sẽ v n ở trạng thái nh t quán sau khi giao dịch thành công.
+ Độ cách ly đảm bảo r ng kết quả của một giao dịch đ ng thực hiện không
thể ảnh hưởng bởi một gi o dịch khác cho đến khi gi o dịch đ hoàn
thành.
+ Độ bền đảm bảo r ng kết quả của một gi o dịch là v nh viễn. Nói cách
khác, một khi giao dịch đã đư c thực hiện, nó khơng thể đư c khôi phục
dù cho hệ thống c thể xảy r lỗi [5].
1.1.3 C



ề xử ý ữ ệ



Xử lý giao dịch trực tuy n (OLTP)
T là một hệ thống phần mềm xử l dữ liệu theo hướng gi o dịch Thuật
ngữ gi o dịch trực tuyến dùng để chỉ các hành động xử l theo hướng thời gi n
thực (re l time)


ữ liệu đư c lưu giữ trong hệ thống

T đư c chu n h



bản c c u trúc và là đầu vào cho các xử l phân t ch
Các truy v n đư c xử l trong hệ thống OLTP bao gồm các thao tác chèn,
xóa và cập nhật đơn giản với thời gian phản hồi mức mili giây
dụ bao gồm
hệ thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].
* Xử lý phân tích trực tuy n (OLAP)
Các hệ thống xử lý phân tích trực tuyến (

) đư c sử dụng để xử lý các

truy v n phân tích dữ liệu. OLAP là một phần khơng thể thiếu củ
dữ liệu và học máy

kh i phá

c li n qu n đến BigData ở chỗ chúng có thể đ ng
9


vai trò là nguồn dữ liệu đầu vào c ng như nguồn dữ liệu đầu r củ

igData.

húng đư c sử dụng trong phân tích ch n đốn phân t ch dự đoán và phân t ch

đề xu t Các hệ thống OLAP thực hiện các truy v n phức tạp, dài hạn đối với cơ
sở dữ liệu đ chiều có c u trúc đư c tối ưu h

để thực hiện các phân tích nâng

cao.
ệ thống
lưu trữ dữ liệu lịch sử dưới dạng không đư c chu n h để
hỗ tr khả năng báo cáo nh nh
c ng c khả năng lưu trữ các dữ liệu này
dưới dạng c u trúc đ chiều để đáp ứng các truy v n phức tạp dự tr n mối qu n
hệ dữ liệu [5].
* Trích xuất
iệu T
Tr ch xu t dữ liệu ( T - xtr ct Tr nsform o d) là quá trình chuyển tải t
hệ thống nguồn đến hệ thống đ ch

ệ thống nguồn ở đây c thể là

tệp

hoặc ứng dụng Tương tự hệ thống đ ch c thể là

hoặc các hệ thống lưu

trữ khác

t w rehouse) Trong

Big


t

T là các xử l ch nh trong kho dữ liệu (
T

đư c sử dụng để chuyển đổi giữ các loại dữ liệu khác nh u

ình 1.6 cho th y dữ liệu tr ch xu t đư c l y t các nguồn khác nh u đư c
chuyển đổi trước khi đư c đư vào hệ thống đ ch [5].

Hình 1.6. M t quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển
đổ nó để tải vào m t hệ thốn đí
uy n ất.
Xử lý d liệu song song
Xử lý dữ liệu song song là việc chi một nhiệm vụ lớn hơn thành nhiều nhiệm vụ
nhỏ hơn chạy đồng thời với mục ti u là giảm thời gi n thực hiện

ặc dù cơ chế xử

lý dữ liệu song song có thể đạt đư c thông qua nhiều máy đư c nối mạng nhưng

10


thông thường đư c áp dụng trong phạm vi một máy chủ c nhiều bộ xử lý hoặc l i
mỗi một bộ xử l sẽ thực hiện một tác vụ khác nh u ( ình 1.7) [5].

Hình 1.7. M t tác vụ có thể được chia thành ba tác vụ phụ được th c thi song
song trên ba b xử lý khác nhau trong cùng m t máy.

Xử lý d liệu phân tán
Xử lý dữ liệu phân tán có liên quan chặt chẽ với xử lý dữ liệu song song
trong đ áp dụng cùng một nguyên tắc "chi để trị" Tuy nhi n xử lý dữ liệu
phân tán luôn đạt đư c thông qua các máy riêng biệt đư c nối mạng với nhau
thành một cụm. Trong Hình 1.8, một tác vụ đư c chia thành ba nhiệm vụ s u đ
đư c thực hiện trên ba máy khác nhau chia s một cơng tắc vật lý [5].

Hình 1.8. M t ví dụ về xử lý dữ liệu phân tán.

iệu a oop
Hadoop là nền tảng mã nguồn mở để lưu trữ dữ liệu quy mô lớn và xử lý dữ
liệu tương th ch với phần cứng

doop đã trở thành một nền tảng công nghiệp

thực sự cho các giải pháp BigData. Nó có thể đư c sử dụng như một cơng cụ tr ch
xu t chuyển đổi và lưu trữ dữ liệu T ( xtr ct Tr nform tion

o ding)

goài

r c n là một công cụ phân t ch để xử lý một lư ng lớn dữ liệu có c u trúc, bán c u
trúc và không c u trúc

doop thiết lập cơ chế

1.9) [5].

11


p educe để xử l dữ liệu ( ình


Hình 1.9. Hadoop là m t k un đ n n
v lưu trữ.

iệu or oa
Việc xử l dữ liệu trong ig

un

ấp cả khả n n xử lý

t đư c phân biệt theo khối lư ng và tính ch t

của dữ liệu đư c xử lý trong một khoảng thời gian nh t định
thức xử l dữ liệu trong ig

iện c 02 hình

t :

+ Xử l ữ l ệu t o l
t pro ss n , c n đư c gọi là xử lý ngoại
tuyến (offline) là việc xử lý dữ liệu với số lư ng lớn c độ trễ xử l c o
ình thức xử l này thường li n qu n đến một lư ng lớn dữ liệu với việc
đọc/ghi tuần tự hoặc chỉ đọc chỉ ghi ác truy v n có thể phức tạp và liên
qu n đến nhiều ph p nối ác hệ thống chạy cơ chế
như

h y các
công cụ phân t ch đư c định hướng theo lơ vì chúng là các tác vụ đ i hỏi
nhiều khả năng đọc với khối lư ng dữ liệu lớn.
+ Xử lý giao dịch (transaction processing) c n đư c gọi là xử lý trực tuyến
(online) là xử l tương tác dữ liệu c độ trễ th p ình thức xử l dữ liệu
này li n qu n đến một lư ng nhỏ dữ liệu với việc đọc và ghi ng u nhiên.
Khối lư ng công việc giao dịch bao gồm đọc/ghi ng u nhi n c số ph p
nối (joins) t hơn so với xử l dữ liệu theo lô [5].

iệu th o cụm
ust r
Theo cùng cách mà các cụm cung c p hỗ tr cần thiết để tạo ra các giải pháp
lưu trữ có thể mở rộng theo chiều ngang, các cụm c ng cung c p cơ chế cho
phép xử lý dữ liệu phân tán với khả năng mở rộng tuyến tính. Vì các cụm có khả
năng mở rộng cao, chúng cung c p một môi trường l tưởng để xử lý Dữ liệu
lớn vì các bộ dữ liệu lớn có thể đư c chia thành các bộ dữ liệu nhỏ hơn và s u
đ đư c xử lý song song theo cách phân tán. Khi tận dụng một cụm, bộ dữ liệu
BigData có thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real
time).
12


Một l i ích bổ sung của các cụm là chúng cung c p dự phòng và khả năng
chịu lỗi vốn có, vì chúng bao gồm các nút riêng biệt về mặt vật lý. Dự phòng và
khả năng chịu lỗi cho phép xử lý và phân tích khả năng phục hồi xảy ra nếu xảy
ra lỗi mạng hoặc nút. Do sự biến động của nhu cầu xử l đư c đặt trong môi
trường Dữ liệu lớn, tận dụng các dịch vụ cơ sở hạ tầng máy chủ đám mây hoặc
môi trường phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận đư c
do tính linh hoạt và mơ hình tính tốn dựa trên tiện ích của nó [5].
1.1.4. C

ệ p
t
ữ ệ
t
ữ ệ
hân t ch dữ liệu ( t n lysis) là quá trình xử l dữ liệu để tìm r các sự
kiện các mối qu n hệ m u (p tterns) dữ liệu hiểu biết dữ liệu và xu thế

ục

tiêu củ phân t ch dữ liệu là để hỗ tr cho việc r quyết định tốt hơn
ử l phân t ch dữ liệu (
phân t ch dữ liệu (

t

t

n lytics) là một thuật ngữ rộng hơn khái niệm

n lysis)

uá trình này là việc quản l v ng đời dữ

liệu b o gồm: Thu thập dữ liệu; àm sạch dữ liệu; Tổ chức dữ liệu; ưu trữ dữ
liệu; hân t ch và quản l dữ liệu Trong l nh vực ig

t phân t ch dữ liệu c n

cho ph p phát triển các phương pháp dự tr n nền tảng và công nghệ phân tán

c khả năng mở rộng c o

c khả năng phân t ch một khối lư ng dữ liệu lớn

t các nguồn khác nh u

Hình 1.10.Giá trị v đ phức tạp t n từ phân tích mơ tả đến đề xuất
hân t ch dữ liệu cho ph p r quyết định dự tr n dữ liệu thực tế c kho học
n không chỉ đơn thuần dự vào kinh nghiệm và trực giác trong quá khứ

thể

phân thành 04 loại phân t ch dữ liệu: hân t ch mô tả (descriptive n lytics);
hân t ch ch n đoán (di gnostic

n lytics);

hân t ch dự báo (predictive

analytics); hân t ch đề xu t (prescriptive n lytics) [5].

13


Ph n tích m t :
ác thống k cho th y r ng c khoảng 80

kết quả phân t ch đư c dưới dạng

phân t ch mô tả Đây là dạng phân t ch c giá trị th p nh t chỉ cần y u cầu kỹ

năng phân t ch tương đối cơ bản

hân t ch mô tả đư c thực hiện để trả lời các

sự kiện đã xảy r các câu hỏi m u để phân t ch mô tả c dạng như s u:
+ o nh số bán hàng trong 12 tháng đã qu là b o nhi u?
+ o hồng hàng tháng kiếm đư c t mỗi đại l bán hàng?
hân t ch mô tả thường đư c thực hiện thông qu báo cáo hoặc dưới dạng
bảng

shbo rd (đồ thị hoặc biểu đồ)

ác truy v n đư c thực hiện t kho dữ

liệu củ do nh nghiệp

dụ như hệ thống quản l khách hàng

hoạch định nguồn lực

[5].

hệ thống

Ph n tích ch n đốn:
hân t ch ch n đoán nh m xác định nguy n nhân củ hiện tư ng xảy r trong
quá khứ b ng cách sử dụng các câu hỏi tập trung vào l do xảy r sự kiện

ác


dạng câu hỏi m u như:
+ Tại s o do nh thu u 2 th p hơn do nh thu u 1
+ Tại s o c tỷ lệ gi tăng sự cố mạng trong b tháng qu
hân t ch ch n đốn cung c p nhiều thơng tin giá trị hơn phân t ch mô tả do
vậy n y u cầu kỹ năng phân t ch c o hơn

ết quả phân t ch ch n đốn thơng

qu các công cụ trực qu n giúp người dùng xác định đư c xu thế

ác truy v n

dữ liệu trong phân t ch ch n đoán c ng phức tạp hơn so với phân t ch mô tả n
đư c thực hiện tr n dữ liệu đ chiều đư c lưu giữ trong các hệ thống phân t ch
[5].
Ph n tích ự áo ự đoán :
hân t ch dự đoán dùng để xác định kết quả củ một sự kiện nào đ sẽ xảy r
trong tương l i

i một cách ch nh xác hơn phân t ch dự đốn là mơ hình dự

vào sự kiện đã xảy r trong quá khứ với một điều kiện cụ thể để xác định sự kiện
tương tự xảy r trong tương l i

ếu các điều kiện cơ bản này th y đổi thì mơ

hình dự báo phải đư c cập nhật

ác câu hỏi m u cho phân t ch dự báo c dạng


wh t-if v dụ:
+ Tỷ lệ sống của bệnh nhân sẽ là bao nhiêu nếu Thuốc
Thuốc A?

14

đư c dùng thay vì


×