Tải bản đầy đủ (.pdf) (124 trang)

(Luận văn) nghiên cứu ứng dụng công nghệ điện toán đám mây để phân tích dữ liệu lớn trong mạng thông tin di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.98 MB, 124 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

HỒ QUỐC TRUNG

lu
an
n

va
ie

gh

tn

to
p

NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH

do

d

oa

nl

w


DỮ LIỆU LỚN TRONG MẠNG THƠNG TIN DI ĐỘNG

ul

nf

va

an

lu
oi
lm

LUẬN VĂN THẠC SĨ: KỸ THUẬT VIỄN THƠNG

z
at
nh
z
m
co

l.
ai

gm

@
an

Lu

Bình Định - Năm 2019

n

va
ac
th
si


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

HỒ QUỐC TRUNG

lu
an
n

va

NGHIÊN CỨU ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY ĐỂ PHÂN TÍCH

p

ie

gh


tn

to

DỮ LIỆU LỚN TRONG MẠNG THƠNG TIN DI ĐỘNG

nl

w

do
Mã số: 8520208

d

oa

Chuyên nghành: Kỹ Thuật Viễn Thông

oi
lm

ul

nf

va

an


lu

z
at
nh

Người hướng dẫn: TS. HUỲNH CÔNG TÚ

z
m
co

l.
ai

gm

@
an
Lu
n

va
ac
th
si


LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng điện tốn đám mây
để phân tích Dữ liệu lớn trong mạng thông tin di động” là do tôi tự tìm hiểu
và nghiên cứu và hồn thành dưới sự hướng dẫn của TS. Huỳnh Cơng Tú
Tơi xin chịu hồn toàn trách nhiệm về lời cam đoan này.
Quy Nhơn, Ngày

tháng

năm 2019

lu

Học viên

an
n

va
p

ie

gh

tn

to
d

oa


nl

w

do
oi
lm

ul

nf

va

an

lu
z
at
nh
z
m
co

l.
ai

gm


@
an
Lu
n

va
ac
th
si


LỜI CẢM ƠN
Để hoàn thành đề tài luận văn thạc sĩ hồn chỉnh, ngồi sự cố gắng của bản
thân cịn có sự hướng dẫn nhiệt tình của q Thầy Cơ cũng như sự động viên ủng
hộ của gia đình và bạn bè trong suốt thời gian học tập nghiên cứu và thực hiện
luận văn thạc sĩ.
Tôi xin chân thành bày tỏ lịng biết ơn đến thầy TS. Huỳnh Cơng Tú, người
đã tận tình hướng dẩn, giúp đỡ và tạo mọi điều kiện tốt nhất cho tơi hồn thành
luận văn này. Xin chân thành bày tỏ lòng biết ơn đến quý Thầy Cô Trường Đại

lu
an

học Quy Nhơn và quý Thầy Cô đã giảng dạy tạo mọi điều kiện thuận lợi cho tôi

va
n

học tập, nghiên cứu thực hiện đề tài luận văn tốt nghiệp này. Tôi xin chân thành


tn

to

cảm ơn quý Thầy Cơ phản biện đã đóng góp ý kiến, hướng dẩn cho bài luận văn
Cuối cùng tôi xin chân thành cảm ơn đến gia đình, các anh chị và các bạn

p

ie

gh

được hồn chỉnh.

do

nl

w

đồng nghiệp ln bên tơi, động viên tơi rất nhiều trong suốt quá trình học tập,

d

oa

nghiên cứu và thực hiện đề tài luận văn cuối khóa này.

an


lu

Bình Định, ngày

tháng

năm 2019

oi
lm

ul

nf

va

Học viên thực hiện

z
at
nh
z
m
co

l.
ai


gm

@
an
Lu
n

va
ac
th
si


MỤC LỤC
MỞ ĐẦU ............................................................................................................ 1
1. Lý do chọn đề tài: ............................................................................................ 1
2. Tổng quan về tình hình nghiên cứu đề tài ........................................................ 2
3. Mục đích và nhiệm vụ nghiên cứu ................................................................... 5
4. Đối tượng và phạm vi nghiên cứu.................................................................... 5
5. Phương pháp nghiên cứu ................................................................................. 5

lu

CHƯƠNG I: TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY VÀ DỮ LIỆU LỚN 6

an
va

1.1 Điện toán đám mây........................................................................................ 6


n

1.2 Kiến trúc và đặc điểm của dịch vụ điện toán đám mây ................................. 8

to

1.2.2 Đặc điểm của dịch vụ điện toán đám mây ........................................... 9

p

ie

gh

tn

1.2.1 Kiến trúc điện tốn đám mây .............................................................. 8

do

1.3 Mơ hình và hoạt động điện toán đám mây ................................................... 11

oa

nl

w

1.3.1 Cơ sở hạ tầng như một dịch vụ (IaaS) ............................................... 12


d

1.3.2Nền tảng như một dịch vụ (Paas) ....................................................... 13

an

lu

1.3.3 Phần mềm như một dịch vụ (SaaS) ................................................... 14

nf

va

1.4 Mơ hình triển khai điển tốn đám mây ........................................................ 15

oi
lm

ul

1.4.1 Đám mây cơng cộng (Public Cloud) ................................................. 15
1.4.2 Đám mây doanh nghiệp (Private Cloud) ........................................... 17

z
at
nh

1.4.3 Đám mây lai (Hybrid Cloud) ............................................................ 17
1.4.4 Đám mây cộng đồng (Community Cloud) ........................................ 18


z

gm

@

1.5 Tổng quan Dữ liệu lớn................................................................................. 18
1.6 Nguồn tạo ra dữ liệu lớn và các dạng dữ liệu ............................................. 23

l.
ai

m
co

CHƯƠNG II: CÁC NỀN TẢNG CƠNG NGHỆ PHÂN TÍCH DỮ LIỆU LỚN VÀ
VẤN ĐỀ BẢO MẬT......................................................................................... 28

an
Lu

2.1. Công nghệ tiền xử lý dữ liệu lớn ................................................................ 28

n

va

2.1.1 Tích hợp ........................................................................................... 28


ac
th
si


2.1.2 Làm sạch ......................................................................................... 29
2.1.3 Loại bỏ dữ liệu dư thừa .................................................................... 29
2.2. Phân tích dữ liệu lớn ................................................................................... 30
2.3 Một số bộ cơng cụ phân tích dữ liệu lớn ...................................................... 31
2.3.1 Kiến trúc Apache Hadoop ................................................................. 31
2.3.3 Kiến trúc Spark ................................................................................ 42
2.4 Ứng dụng điện toán đám mây phân tích dữ liệu lớn ..................................... 57
2.4.1Trình điều khiển doanh nghiệp: ......................................................... 57

lu
an

2.4.2 Phân tích dữ liệu lớn dưới dạng dịch vụ (Daaas) ............................... 59

n

va

2.4.3 Ứng dụng phân tích dữ liệu lớn dưới dạng dịch vụ DAaaS ............... 60

tn

to

2.4.5 Hạn chế của phân tích Dữ liệu lớn dưới dạng dịch vụ DAaaS ........... 65


ie

gh

2.3. Vấn đề bảo mật ........................................................................................... 66

p

CHƯƠNG III: CÁC NHÀ CUNG CẤP DỊCH VỤ ĐIỆN TOÁN ĐÁM MÂY . 73

do

nl

w

3.1 Dịch vụ web của Amazon (AWS)................................................................ 74

oa

3.2 Microsoft Azure ......................................................................................... 79

d

3.3 Nền tảng đám mây của Google (GCP) ......................................................... 84

lu

va


an

CHƯƠNG IV: ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY PHÂN TÍCH DỮ LIỆU

ul

nf

LỚN TRONG MẠNG THƠNG TIN DI ĐỘNG ............................................... 91

oi
lm

4.1 Nguồn dữ liệu trong mạng thông tin di động ............................................... 91
4.2 Các trường hợp ứng dụng Dữ liệu lớn trong Viễn thơng .............................. 99

z
at
nh

4.3 Ứng dụng điện tốn đám mây để phân tích dữ liệu lớn ................................ 99

z

4.3.1 Thiết lập Google Cloud và Môi trường truy vấn lớn ......................... 99

@

gm


4.3.2 Nghiên cứu trường hợp thực tế ....................................................... 101

l.
ai

KẾT LUẬN ..................................................................................................... 106

m
co

1. Những đóng góp của luận văn ..................................................................... 106

an
Lu

2. Hướng phát triển của luận văn: .................................................................... 106
TÀI LIỆU THAM KHẢO ............................................................................... 107

n

va
ac
th
si


DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Viết tắt


Diễn giải

Dịch nghĩa

Application Program Interface

Giao diện chương trình ứng dụng

Amazon Web Services

Dịch vụ Web Amazon

Big Data

Dữ liệu lớn

AaaS

Analytics as a service

Phân tích dưới dạng dịch vụ

BdaaS

Big Data as a Service

Dữ liệu lớn như một dịch vụ

BI


Business Intelligence

Kinh doanh thơng minh

CC

Cloud Computing

Điện tốn đám mây

Central Processing Unit

Đơn vị xử lý trung tâm

Comma Separated Values

Giá trị phân cách bằng dấu phẩy

API
AWS
BD

lu
an
n

va

p


ie

gh

tn

to
CPU

do

CSV

nl

w
Disaster Recovery

Phục hồi thảm họa

d

oa

DR
EC2

Elastic Compute Cloud

EMR


Elastic Map Reduce

ETL

Extract, Transform, Load

GCP

Google Cloud Platform

GPU

Graphics Processing Unit

Đơn vị xử lý đồ họa

HDD

Hard Disk Drive

Ổ đĩa cứng

IaaS

Infrastructure as a Service

MS

Microsoft


Tập đồn Microsoft

AMS

Microsoft Azure

Điện tốn đám mây của Azure

NIST

National Institute of Standards

an

lu

Đám mây điện toán đàn hồi

nf

va

Bản đồ đàn hồi giảm

oi
lm

ul


Trích xuất, chuyển đổi, tải

z
at
nh
z

@

Cơ sở hạ tầng như một dịch vụ

m
co

l.
ai

gm

an
Lu

Viện tiêu chuẩn và công nghệ

n

va

and Technology


Nền tải đám mây của Google

ac
th
si


Opex

Operational Expenditure

Chi phí hoặt động

PaaS

Platform as a Service

Nền tảng là một dịch vụ

RAM

Random Access Memory

Bộ nhớ truy cập tạm thời

ERP

Hệ thống hoạch định nguồn lực

Enterprise Resource Planning

RDBMS

Doanh nghiệp

Relational Database

Hệ thống quản lý quan hệ dữ liệu

Management Systems

lu

S3

an

Dịch vụ lưu trữ đơn giản

SaaS

Software as a Service

Phần mềm như một dịch vụ

TED

Technology Entertainment

Cơng nghệ giải trí


AWS

Amazon Web Services

Dịch vụ Web của Amazon

Virtual Machine

Máy ảo

n

va

Simple Storage Service

ie

gh

tn

to

p

VM

do


Massachusetts Institute of

Viện công nghệ Massachusetts

oa

nl

w

MIT

Technology

d
Dynamic computing resources

Nguồn tài ngun tính tốn động

nf

va

Cloud Provider

Nhà cung cấp đám mây

oi
lm


ul

CP

Máy chủ ảo

an

DCR

Virtual Server

lu

VS

CB

Cloud Broker

CA

Cloud Auditor

Nhà vận chuyển đám mây
Nhà mơi giới đám mây
Kiểm tốn viên đám mây

l.
ai


gm

Cloud Carrier

@

CCa

Người tiêu dùng đám mây

z

Cloud Consumer

z
at
nh

CCo

Platform as a Service

Nền tảng như một dịch vụ

IaaS

Infrastructure as a service

Cơ sở hạ tầng như một dịch vụ


SaaS

Software as a Service

Phần mềm như một dịch vụ

m
co

PaaS

an
Lu

n

va
ac
th
si


VLAN

lu
an

Mạng cục bộ ảo


ROI

Return on Investment

Hoàn vốn đầu tư

GAE

Google App Engine

Máy ứng dụng Google

PuC

Public Cloud

Đám mây công cộng

PrC

Private Cloud

Đám mây doanh nghiệp

HC

Hybrid Cloud

Đám mây lai


CC

Community Cloud

Đám mây công cộng

DBMS

Database Management system

Hệ quản lý cơ sở dữ liệu

ERP

Enterprise Resource Planning

Hệ thống hoạch định nguồn lực

LHC

Large Hadron Conllider

Máy gia tốc hạt lớn

HD

Hight Definition

Truyền hình độ nét cao


Scandinavian Arlines System

Hệ thống kinh doanh hàng không

n

va

Virtual Local area network

p

ie

gh

tn

to

RFID

Radio Frequency Identification Công nghệ nhận dạng qua tần số

oa

nl

w


do

SAS

d

vô tuyến

lu

Near - Field Communications

ELT

Extract Transform Load

Giao thức kết nối tầm gần

va

an

NFC

oi
lm

ul

nf


Trích xuất chuyển đổi tải

HDFS

Hadoop Distributed File System Hệ thống tệp phân tán Hadoop

YARN
RM

Yet-Another-ResourceNegotiator
Resource Manager

AM

Application Master

NN

Node Manager

Trình quản lý nút

KB

Kilobyte

1 KB = 1024 Byte

MB


Megabyte

1 MG = 1024 KB

z
at
nh

Bộ phận quản lý tài nguyên khác

z

Quản lý tài nguyên

@

m
co

l.
ai

gm

Ứng dụng quản lý

an
Lu
n


va
ac
th
si


GB

Gigabyte

1 GB = 1024 MB

TB

Terabyte

1 TG = 1024 GB

PB

Betabyte

1 PG = 1024 TG

EB

Exabyte

1 EB = 1024 PG


RDBMS

RDD

Resilient Distributed DataSet

Bộ phận dữ liệu phân tán đàn hồi

SQL

Structured Query Language

Ngôn ngữ truy vấn có cấu trúc

API

Application Programming
Interface
Machine Learning

Giao diện lập trình ứng dụng

Directed Acyclic Graph

Đồ thị theo chu kỳ có hướng

MapReduce

Mơ hình ứng dụng thu nhỏ


lu

SIMR

Relational
Hệ quản lý cơ sở dữ liệu quan hệ
Database Management System
Spark In MapReduce
Spark trong MapReduce

an
n

va

ie

gh

tn

to
ML

p

DAG

Phân tích dữ liệu lớn dưới dạng


oa

DAaaS

nl

w

do

MR

Thư viện máy học

d

Data Analytics as Service
Software As A Service

Phần mềm như một dịch vụ

nf

va

SaaS

an


lu

dịch vụ

Business Intelligence

IoT

Internet of Thing

IP

Internet Protocol

Kinh doanh thông minh

oi
lm

ul

BI

Internet của vạn vật

z
at
nh

Giao thức Internet

Hệ thống ngăn ngừa xâm nhập

Intrusion Prevention Systems

TDS

Intrusion Detection Systems

AWS

Amazon Web Service

Dịch vụ Web của Amazon

GCP

Google Cloud Platform

Điện toán đám mây của Google

IAM

Identily and AccessManagement Quản lý nhận dạng và truy cập

z

TPS

@


m
co

l.
ai

gm

Hệ thống phát hiện xâm nhập

an
Lu

n

va
ac
th
si


lu
an

Call Detail Record

Bản ghi chi tiết cuộc gọi

HLR


Home Location Register

Nơi đăng ký dữ liệu tại chổ

CRM

Customer relationship

Hệ Thống thông tin quan hệ

management

khách hàng

XDR

Extended Data Record

Bản ghi dữ liệu mở rộng

RBS

Radio Base Station

Trạm gốc vô tuyến

IPDR

Internet Protocol Dtail Record


Bản ghi giao thức Internet

BSS

Business Support System

Hệ thống hổ trợ bán hàng

OSS

Operating Support System

Hệ thống hổ trợ điều hành

SON

Self-organizing network

Mạng tự tổ chức, vân hành

n

va

CDR

p

ie


gh

tn

to

d

oa

nl

w

do
oi
lm

ul

nf

va

an

lu
z
at
nh

z
m
co

l.
ai

gm

@
an
Lu
n

va
ac
th
si


lu

an

n
va

p
ie
gh

tn
to

d
oa
nl
w
do

oi
lm
ul
nf
va
an
lu

z
at
nh

z

m
co

l.
ai

gm

@

an
Lu

n

va

ac
th

si


DANH MỤC CÁC HÌNH
Hình 1. 1 Kiến trúc điện tốn đám mây .............................................................. 8
Hình 1. 2 Mơ hình 3 lớp dịch vụ điện tốn đám mây ......................................... 12
Hình 1. 3 Mơ hình triển khai điện tốn đám mây .............................................. 17
Hình 1. 4 Sự tăng trưởng và lưu trữ thông tin dữ liệu lớn trên tồn cầu ............ 20
Hình 1. 5 Mơ hình “5Vs” của Big Data – Nguồn Internet ................................. 21
Hình 1. 6 Hoạt động của người dùng Wikipedia được mơ hình hóa và với kích
thước hàng Terabyte, đây cũng là một dạng Dữ liệu lớn ................................... 25

lu
an

Hình 2. 1: Hệ sinh thái của Apache Hadoop v1.x .............................................. 32

va

n

Hình 2. 2: Hệ sinh thái của Apache Hadoop v2.x .............................................. 33

tn

to

Hình 2. 3: Các dịch vụ bên trong một hệ thống HDFS phiên bản 1.x ................ 36

ie

gh

Hình 2. 4 : Các dịch vụ bên trong một hệ thống HDFS phiên bản 2.x ............... 38

p

Hình 2. 5: Các dịch vụ bên trong một hệ thống Apache Hadoop phiên bản 2.x . 40

do

nl

w

Hình 2. 6: Mơ hình MapRecude thế hệ thứ 2 ..................................................... 41

d


oa

Hình 2. 7 Mơ hình Spark được xây dựng trên nền tảng Hadoop ........................ 44

an

lu

Hình 2. 8: Kiến trúc thành phần lõi Apache Spark ............................................ 46

va

Hình 2. 9 Khung hoặt động tương tác trên MapReduce ..................................... 49

ul

nf

Hình 2. 10. Chia sẻ dữ liệu bằng Spark RDD ................................................... 50

oi
lm

Hình 2. 11Hoạt động tương tác trên Spark RDD ............................................... 51

z
at
nh

Hình 2. 12 Hoạt động truy vấn trong RDD ....................................................... 51

Hình 2. 13. So sánh Spark với Hadoop MapReduce. ......................................... 54

z

Hình 2. 14. Thống kê số lượng ứng dụng dử dụng Spark. .................................. 55

@

gm

Hình 2. 15. Đóng góp của Spark trong lĩnh vực phân tích Big Data .................. 56

m
co

l.
ai

Hình 2. 16. Các đối tác của Spark ..................................................................... 56
Hình 2. 17- Dữ liệu lớn và đám mây xen kẽ ....................................................... 58

an
Lu

Hình 2. 18 Phân tích Dữ liệu lớn dưới dạng dịch vụ là sự kết hợp giữa phân tích

n

va


dữ liệu lớn và đám mây ..................................................................................... 60

ac
th
si


Hình 2. 19 Phân tích dữ liệu theo xu hướng dịch vụ ......................................... 63
Hình 3. 1 Các nhà cung cấp dịch vụ điện tốn đám mây .................................. 73
Hình 3. 2 Bản đồ các khu vực Azure của Microsoft, trải rộng trên toàn cầu; sự
gần gũi với một trung tâm dữ liệu rất quan trọng đối với khách hàng đám mây.
.......................................................................................................................... 84
Hình 3. 3 Nền tảng đám mây của Google cung cấp một loạt các công cụ và được
coi là đặc biệt mạnh về phân tích dữ liệu. ......................................................... 89
Hình 4. 1 Các thông tin thông dụng trong log file của mạng lưới ..................... 92

lu
an

Hình 4. 2. Các thơng tin có trong bản ghi chi tiết cuộc gọi ............................... 93

n

va

Hình 4. 3. Tập dữ liệu mẫu của Wikipedia trên BigQuery ............................... 101

tn

to


Hình 4. 4. Quá trình tạo một bộ dữ liệu mới. ................................................... 103

ie

gh

Hình 4. 5. Tạo một tập dữ liệu trong BigQuery ............................................... 104

p

Hình 4. 6. Tải tệp lên BigQuery Datwarhouse. ................................................ 104

do

d

oa

nl

w

Hình 4. 7. Bảng truy vấn trên BigQuery Datwarhouse trên Bộ dữ liệu đã tạo . 105

oi
lm

ul


nf

va

an

lu
z
at
nh
z
m
co

l.
ai

gm

@
an
Lu
n

va
ac
th
si



DANH MỤC CÁC BẢNG
Bảng 3. 1 - Các tính năng và chi phí cho dịch vụ AWS phổ biến ................................. 76
Bảng 3. 2- Các tính năng và chi phí của các dịch vụ phổ biến của Microsoft.............. 81
Bảng 3. 3- Các tính năng và chi phí của Dịch vụ đám mây phổ biến của Google ........ 87
Bảng 4. 1: Loại dữ liệu thu thập được bằng MobiTrack từ thiết bị cầm tay ................ 95
Bảng 4. 2: Nguồn dữ liệu tiềm năng cho các nhà khai thác mạng viễn thông .............. 96

lu
an
n

va
p

ie

gh

tn

to
d

oa

nl

w

do

oi
lm

ul

nf

va

an

lu
z
at
nh
z
m
co

l.
ai

gm

@
an
Lu
n

va

ac
th
si


-1-

MỞ ĐẦU
1. Lý do chọn đề tài:
Trong những năm gần đây, với sự tiến bộ về công nghệ, khoa học kỹ thuật,
nhu cầu trao đổi thông tin, dữ liệu của con người ngày càng cao và đa dạng. Hoạt
động thông tin hằng ngày trong tất cả các lĩnh vực kinh tế xã hội đang tạo ra một
lượng dữ liệu khổng lồ, có tốc độ tăng trưởng nhanh chóng và vơ cùng phức tạp.
Có rất nhiều nguồn tạo ra dữ liệu ở rất nhiều các lĩnh vực: Các công ty lưu trữ

lu

thông tin của khách hàng, các hệ thống lưu trữ nhật ký trong quá trình hoạt động

an

vận hành, các mạng cảm biến thu thập dữ liệu từ môi trường, dữ liệu từ người

va
n

dùng chia sẻ lên các trang mạng xã hội…vv .Lượng dữ liệu này đang tăng lên với

tn


to

tốc độ nhanh chóng, ngày càng vượt quá khả năng của các ứng dụng dữ liệu truyền

ie

gh

thống, chúng ta gọi là “Big Data” hay “Dữ liệu lớn”. Với những ưu điểm và tác

p

động mạnh mẽ của Dữ liệu lớn và các ứng dụng liên quan, Dữ liệu lớn đang được

do

nl

w

xem như một yếu tố quyết định đến sự phát triển cũng như mang lại những lợi thế

d

oa

cạnh tranh của các tổ chức. Trong lĩnh vực Viễn thông, Dữ liệu lớn ngày càng trở

an


lu

nên quan trọng và có giá trị. Với sự gia tăng nhanh chóng của các thiết bị kết nối

nf

va

mạng và các ứng dụng nghĩa là sẽ có một lượng dữ liệu đang được thu thập nhiều

oi
lm

ul

hơn bao giờ hết. Tất cả điều này đã dẫn đến một sự bùng nổ của dữ liệu đang tạo
ra những cơ hội mới cho kinh doanh và khoa học.

z
at
nh

Việc kết hợp giữa Dữ liệu lớn, điện toán đám mây và các thuật toán, kỹ
thuật mới trong biểu thị thông tin làm cho hoạt động phân tích hội tụ – tiến hành

z

gm

@


phân tích trên dữ liệu từ nhiều nguồn khác nhau trở nên khả thi. Những kỹ thuật
mới hỗ trợ vận chuyển và quản lý dữ liệu này cũng cho phép phát triển phân tích

l.
ai

m
co

như một dịch vụ (AaaS) dựa trên nền tảng đám mây. Nhiều nền tảng Phân tích dữ
liệu lớn đang áp dụng cơng nghệ điện tốn đám mây cho phép các doanh nghiệp

an
Lu

khả năng xử lý các dữ liệu từ có cấu trúc đến cả khơng có cấu trúc.Với mục đích

n

va

nghiên cứu ứng dụng cơng nghệ điện tốn đám mây cho việc phân tích Dữ liệu

ac
th
si


-2-


lớn nhằm đưa đến những ứng dụng mới trong thực tiễn, đặc biệt phục vụ trong
lĩnh vực Viễn thông tôi đã chọn đề tài: “Nghiên cứu ứng dụng điện toán đám mây
để phân tích Dữ liệu lớn trong mạng Thơng tin di động”.
2. Tổng quan về tình hình nghiên cứu đề tài
Big data hay Dữ liệu lớn là một lượng dữ liệu có khối lượng cỡ exabytes
(1018) và hơn nữa [1]. Theo Wikipedia Dữ liệu lớn là tập hợp những bộ dữ liệu rất
lớn, rất phức tạp, khó khăn trong việc xử lý với các công cụ quản lý dữ liệu và ứng
dụng xử lý dữ liệu truyền thống. Những thách thức bao gồm thu thập, lưu trữ, tìm

lu
an

kiếm, chia sẻ, chuyển đổi, phân tích và trực quan hóa [2]. Theo Sam Madden từ

va
n

học viện Massachusetts Institute of Technology (MIT) Dữ liệu lớn nghĩa là những

tn

to

dữ liệu rất lớn, tăng rất nhanh và rất khó phân tích với các cơng cụ xử lý dữ liệu

ie

gh


hiện có [3]. Theo nghiên cứu của McKinsey Global Institude, Dữ liệu lớn (Big

p

data) là một thuật ngữ chỉ những bộ dữ liệu có kích thước rất lớn mà kích cỡ của

do

nl

w

nó nằm ngồi khả năng của những ứng dụng cơ sở dữ liệu truyền thống trong việc

d

oa

thu thập, lưu trữ, quản lý và phân tích [4].

an

lu

Theo Gartnet [5] Dữ liệu lớn là một tập hợp dữ liệu có khối lượng rất lớn,

nf

va


tăng với tốc độ nhanh và đa dạng. u cầu cần có một mơ hình xử lý tiến bộ và

oi
lm

ul

hiệu quả về chi phí để rút trích thơng tin và hỗ trợ ra quyết định.
Có rất nhiều định nghĩa về Dữ liệu lớn được đề cập trong các báo cáo khoa

z
at
nh

học của nhiều nhà nghiên cứu. Và tựu chung lại, nội dung của các định nghĩa đều
thể hiện rằng Dữ liệu lớn là một thuật ngữ chỉ những tập dữ liệu không lồ thu thập

z

gm

@

được từ rất nhiều các lĩnh vực. Lượng dữ liệu này có khối lượng rất lớn, tăng

l.
ai

trưởng nhanh và rất đa dạng mà việc phân tích, trích xuất thơng tin khó khăn, nằm


m
co

ngồi khả năng của các ứng dụng quản lý và xử lý dữ liệu truyền thống [6,7,8].

các công cụ riêng là :

an
Lu

Để xử lý, phân tích lượng dữ liệu khổng lồ này nhanh chóng cần có hệ thống

n

va
ac
th
si


-3-

+

Kiến trúc Apache Hadoop

+

Kiến Trúc Apache Spark


+ Công nghệ điện tốn đám mây
Cuộc cách mạng cơng nghệ lần thứ tư hay cịn gọi cơng nghệ 4.0 đang diễn
ra mạnh mẻ tại Việt Nam cũng như trên tồn cầu. Cơng nghệ 4.0 tập trung chính
vào các cơng nghệ chính như điện tốn đám mây, Dữ liệu lớn, Internet của vạn
vật, trí tuệ nhân tạo, mạng thực tế ảo …vv. Trong đó, cơng nghệ điện tốn đám

lu

mây là “ Nền tảng chính ”, là “ Cơ sở hạ tầng ” cung cấp, quản lý, lưu trữ, xử lý,

an

phân phối, truyền dẩn khối lượng tài nguyên, dữ liệu khổng lồ cho các công nghệ

va
n

4.0 khác.

to
gh

tn

Dịch vụ điện toán đám mây là các nguồn điện toán khổng lồ chứa các tài

p

ie


nguyên phần mềm, các dịch vụ, các ứng dụng…vv nằm trên các mấy chủ ảo (đám

do

mây) trên Internet thay vì cài đặt trên các máy tính ở gia đình hay trong văn phịng

oa

nl

w

để mọi người kết nối và sử dụng mổi khi cần. Khi sử dụng dịch vụ điện toán đám

d

mây doanh nghiệp và người sử dụng không phải lo và mua cơ sở hạ tầng, công

an

lu

nghệ thông tin mà chỉ việc tập trung kinh doanh vào lĩnh vực của mình bởi đã có

nf

va

người khác lo cơ sở hạ tầng và công nghệ thông tin thay cho họ.


oi
lm

ul

Việc ứng dụng cơng nghệ điện tốn đám mây để phân tích, xử lý, lưu trữ
Dữ liệu lớn đang rất được quan tâm và ưu chuộng hiện nay. Khi Dữ liệu lớn và

z
at
nh

công nghệ đám mây hội tụ, đan xen, kết hợp sẻ tạo ra một lựa chọn tốt nhất cho
phân tích một khối lượng dữ liệu khổng lồ, không đồng nhất mà doanh nghiệp

z
gm

@

không thể xử lý.

l.
ai

Xu hướng ứng dụng điện toán đám mây vào phân tích Dữ liệu lớn sẻ mang

m
co


lại rất nhiều lợi ích như giảm chi phí cho doanh nghiệp; tốc độ xử lý và đưa ra
vụ mới đáp ứng nhu cầu; tăng cường bảo mật…vv.

an
Lu

quyết định chính xác; nguồn dữ liệu tạo ra càng có giá trị; các sản phẩm và dịch

n

va
ac
th
si


-4-

Đặc biệt là áp dụng các công cụ, các quy trình thơng minh giám cho giám
sát, bảo mật, bảo vệ dữ liệu khi được lưu trữ trên điện toán đám mây.
- Có 3 nhà cung cấp đám mây điện tốn hàng đầu cho các doanh nghiệp lựa
chọn:
+ Dịch vụ web của Amazon (AWS)
+ Microsoft Azure
+ Nền tảng đám mây của Google (GCP)

lu
an

Tất cả các nhà cung cấp dịch vụ điện tốn đám mây lớn đều cho dùng thử


va
n

miễn phí để khám phá các dịch vụ đám mây của họ trong khoảng thời gian cho

Để chọn lựa dịch vụ điện toán đám mây của AWS, Microsoft Azure hay

p

ie

gh

tn

to

phép với các tài nguyên hạn chế.

w

do

Nền tảng đám mây của Google cho phù hợp các doanh nghiệp nên cân nhắc dựa

oa

nl


theo quy mô hoạt động của công ty, số lượng người dùng, ngân sách cho việc

d

quản lý dữ liệu, cơ sở hạ tầng, công nghệ thông tin để lựa chọn nhà cung cấp

lu

nf

va

an

điện toán đám mây phù hợp.

oi
lm

ul

Điện toán đám mây của AWS là lựa chon đúng đắn cho các doanh nghiệp
lớn. Microsoft Azure phù hợp, tiện lợi cho các doanh nghiệp đang sử dụng các

z
at
nh

phần mềm của Microsoft. Nền tảng đám mây của Google đảm bảo chi phí, các
dịch vụ phân tích Dữ liệu lớn, trí tuệ nhân tạo cho các doanh nghiệp nhỏ.


z
@

gm

Trong bài luận văn em có sử dụng Nền tảng đám mây của Google để phân

l.
ai

tích Dữ liệu lớn, chạy Demo và cho kết quả. Bằng các ứng dụng miễn phí tạo tài

m
co

khoản trên Nền tảng đám mây của Google, đăng nhập vào Bảng điều khiển, tải
vào mảng thông tin di động.

an
Lu

xuống, tải lên một số dữ liệu có sẵn, truy vấn, chạy Demo để cho kết quả ứng dụng

n

va
ac
th
si



-5-

3. Mục đích và nhiệm vụ nghiên cứu
- Nghiên cứu ứng dụng điện tốn đám mây để phân tích BigData nhằm khai
thác, trích xuất thơng tin có giá trị phục vụ ứng dụng trong lĩnh vực viễn thơng.
- Tìm hiểu vấn đề bảo mật trên điện toán đám mây khi lưu trữ Dữ liệu lớn.
Các mục tiêu cụ thể là:
+ Khám phá tiềm năng to lớn trong lĩnh vực phân tích Dữ liệu lớn, đặc biệt
là các ứng dụng trong ngành Viễn thơng.
+ Tìm hiểu cơng nghệ điện tốn đám mây và ứng dụng trong Viễn thơng.

lu
an

+ Phân tích mối quan hệ giữa điện toán đám mây và Dữ liệu lớn, nắm được

n

va

chuỗi giá trị trong lĩnh vực phân tích Dữ liệu lớn.

tn

to

+ Ứng dụng cơng nghệ điện tốn đám mây của Google để phân tích Dữ liệu


ie

gh

lớn trong mạng thông tin di động.

p

4. Đối tượng và phạm vi nghiên cứu

do

oa

lớn.

nl

w

- Đối tượng nghiên cứu: Cơng nghệ điện tốn đám mây và phân tích Dữ liệu

d

- Phạm vi nghiên cứu: Trong lĩnh vực Mạng thông tin di động tại Việt Nam.

an

lu


va

5. Phương pháp nghiên cứu

ul

nf

- Phân tích tài liệu, số liệu thu thập được về các vấn đề liên quan đến Dữ

oi
lm

liệu lớn và ứng dụng. Từ đó có cái nhìn tổng quan và đầy đủ, đánh giá được các

z
at
nh

tiến bộ của công nghệ trong lĩnh vực xử lý Dữ liệu lớn.
- Khảo sát số liệu và thông số của các tổ chức chuẩn hóa.

z

- Xây dựng các mơ hình và ứng dụng phân tích dữ liệu trên điện tốn đám

m
co

l.

ai

gm

@

mây.

an
Lu
n

va
ac
th
si


-6-

CHƯƠNG I: TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY VÀ DỮ LIỆU LỚN
1.1 Điện toán đám mây
Điện toán đám mây đã và đang châm ngòi một cuộc cách mạng trong cách
cung cấp thông tin và dịch vụ của các tổ chức. Điện tốn đám mây là một giải
pháp tồn diện cung cấp công nghệ thông tin như một dịch vụ. Nó là giải pháp
điện tốn dựa trên mạng thơng tin tồn cầu (Web). Khái niệm điện tốn đám mây
có thể được diễn giải một cách đơn giản: các nguồn điện toán khổng lồ như phần
mềm, dịch vụ và các ứng dụng sẽ nằm tại các máy chủ ảo (đám mây)

lu

an

trên mạng thơng tin tồn cầu thay vì trong máy tính gia đình và văn phịng (trên

va
n

mặt đất) để mọi người kết nối và sử dụng mỗi khi họ cần.

tn

to

Với các dịch vụ sẵn có trên mạng thơng tin tồn cầu (Internet), doanh

ie

gh

nghiệp khơng phải mua và duy trì hàng trăm, thậm chí hàng nghìn máy tính cũng

p

như phần mềm. Họ chỉ cần tập trung vào kinh doanh lĩnh vực riêng của mình bởi

do

nl

w


đã có người khác lo cơ sở hạ tầng và công nghệ thông tin thay họ. Google, theo lẽ

oa

tự nhiên, nằm trong số những hãng ủng hộ điện tốn máy chủ ảo tích cực nhất bởi

d

hoạt động kinh doanh của họ dựa trên việc phân phối các máy chủ ảo (virtual

an

lu

va

server). Đa số người dùng mạng thông tin toàn cầu (Internet) đã tiếp cận những

ul

nf

dịch vụ đám mây phổ thông như e-mail, album ảnh và bản đồ số. Ở đó cung cấp

oi
lm

tài ngun chia sẻ giống như dịng điện được phân phối trên lưới điện. Các máy


z
at
nh

tính trong đám mây được cấu hình để làm việc cùng nhau và các ứng dụng khác
nhau sử dụng sức mạnh điện toán tập hợp, cứ như thể là chúng đang chạy trên một

z

hệ thống duy nhất.

@

gm

Linh hoạt của điện toán đám mây là một chức năng phân phát tài nguyên

m
co

l.
ai

linh hoạt theo yêu cầu. Điều này tạo điều kiện thuận lợi cho việc sử dụng các tài
nguyên tích lũy của hệ thống, phủ nhận sự cần thiết phải chỉ định phần cứng cụ

an
Lu

thể cho một nhiệm vụ. Trước khi có điện tốn đám mây, các trang thơng tin tồn

cầu và các ứng dụng dựa trên máy chủ đã được thi hành trên một hệ thống cụ thể.

n

va
ac
th
si


-7-

Với sự ra đời của điện toán đám mây, các tài nguyên được sử dụng như một máy
tính gộp ảo. Cấu hình hợp nhất này cung cấp một mơi trường mà ở đó các ứng
dụng thực hiện một cách độc lập mà khơng quan tâm đến bất kỳ cấu hình cụ thể
nào.
Điện tốn đám mây có các đặc tính như sau:
 Sử dụng các tài ngun tính tốn động (Dynamic computing resources): Các
tài nguyên được cấp phát cho doanh nghiệp đúng như những gì doanh nghiệp
muốn một cách tức thời. Thay vì việc doanh nghiệp phải tính tốn xem có nên

lu
an

mở rộng hay không, phải đầu tư bao nhiêu máy chủ thì nay doanh nghiệp chỉ cần

n

va


yêu cầu "Hey, đám mây, chúng tôi cần thêm tài nguyên tương đương với 1 CPU

tn

to

3.0 GHz, 128GB RAM…" và đám mây sẽ tự tìm kiếm tài nguyên rỗi để cung cấp

ie

gh

cho bạn.

p

 Giảm chi phí: Doanh nghiệp sẽ có khả năng cắt giảm chi phí để mua bán,

do

nl

w

cài đặt và bảo trì tài nguyên. Rõ ràng thay vì việc phải cử một chuyên gia đi mua

oa

máy chủ, cài đặt máy chủ, bảo trì máy chủ thì nay bạn chẳng cần phải làm gì ngồi


d

việc xác định chính xác tài ngun mình cần và yêu cầu.

an

lu

va

 Giảm độ phức tạp trong cơ cấu của doanh nghiệp: doanh nghiệp sản xuất

ul

nf

hàng hóa mà lại phải có cả một chuyên gia IT để vận hành, bảo trì máy chủ thì q

oi
lm

tốn kém. Nếu khốn ngồi được quá trình này thì doanh nghiệp sẽ chỉ tập trung
trong cơ cấu.

z
at
nh

vào việc sản xuất hàng hóa chun mơn của mình và giảm bớt được độ phức tạp


z

 Tăng khả năng sử dụng tài ngun tính tốn: Một trong những câu hỏi đau

@

gm

đầu của việc đầu tư tài nguyên (ví dụ máy chủ) là bao lâu thì nó sẽ hết khấu hao,

m
co

l.
ai

đầu tư như thế có lãi hay khơng, có bị lỗi thời về công nghệ hay không. Khi sử
dụng tài ngun trên đám mây thì doanh nghiệp khơng cịn phải quan tâm tới điều

an
Lu

này nữa.

n

va
ac
th
si



-8-

1.2 Kiến trúc và đặc điểm của dịch vụ điện toán đám mây
1.2.1 Kiến trúc điện toán đám mây
Kiến trúc đám mây bao gồm năm thành phần riêng biệt phối hợp với nhau
để cung cấp các dịch vụ theo yêu cầu.

lu
an
n

va
p

ie

gh

tn

to
d

oa

nl

w


do
oi
lm

ul

nf

va

an

lu
Hình 1. 1 Kiến trúc điện tốn đám mây

z
at
nh

z

Hình 1.1 được lấy từ Kiến trúc tham chiếu điện toán đám mây của Viện

gm

@

Tiêu chuẩn và Công nghệ (NIST) [4]. Kiến trúc điện toán đám mây gồm năm


l.
ai

thành phần chinh: nhà cung cấp đám mây (Cloud Provider), người tiêu dùng đám

m
co

mây (cloud consumer), nhà vận chuyển đám mây (cloud carrier), nhà môi giới
a) Nhà cung cấp đám mây

an
Lu

đám mây (Cloud Broker) và kiểm toán viên đám mây (cloud auditor).

n

va
ac
th
si


-9-

Nhà cung cấp đám mây là các tổ chức cung cấp dịch vụ đám mây. Nhà cung
cấp điện toán đám mây có quyền kiểm sốt cơ sở hạ tầng cơng nghệ thông tin và
quản lý các sự cố kỹ thuật nếu có kế hoạch hoặc khơng có kế hoạch. Nhà cung cấp
điện toán đám mây cũng đảm bảo đạt được các thỏa thuận cấp độ dịch vụ như đã

được thỏa thuận.
b) Người tiêu dùng đám mây
Người tiêu dùng trên đám mây là một người hoặc một tổ chức sử dụng
(các) dịch vụ đám mây và có thỏa thuận với nhà cung cấp đám mây hoặc nhà

lu
an

môi giới đám mây.

n

va

c) Nhà vận chuyển đám mây

tn

to

Các nhà mạng đám mây là các công ty mạng và viễn thông, đảm bảo rằng

ie

gh

các dịch vụ từ nhà cung cấp đám mây có sẵn cho người tiêu dùng đám mây. Nhà

p


vận chuyển dịch vụ đám mây phối hợp chặt chẽ với nhà cung cấp đám mây để

do

nl

w

đáp ứng các thỏa thuận như mong đợi .

oa

d) Môi giới đám mây

d

Các nhà môi giới đám mây là các công ty bên thứ ba, hợp tác chặt chẽ với

lu

va

an

cả nhà cung cấp đám mây và người tiêu dùng trên đám mây. Nói chung, đây là các

ul

nf


cơng ty tư vấn và vì vậy họ có thể dễ dàng bán các giải pháp đám mây đa dạng

oi
lm

cho khách hàng hiện tại cũng như cho khách hàng mới.
e) Kiểm toán viên đám mây

z
at
nh

Kiểm toán viên đám mây là các bên thứ ba chuyên đánh giá độc lập các dịch

z

vụ đám mây được cung cấp bởi các nhà cung cấp đám mây. Kiểm tốn viên đám

@

gm

mây có thể kiểm tốn các lĩnh vực khác nhau như bảo mật, quyền riêng tư, hiệu

l.
ai

suất, cấp phép, hoạt động và các lĩnh vực khác để làm nổi bật các lỗ hổng chống

a) Tính tự phục vụ theo nhu cầu


an
Lu

1.2.2 Đặc điểm của dịch vụ điện toán đám mây

m
co

lại các hoạt động khác nhau và các tiêu chuẩn bảo mật dữ liệu.

n

va
ac
th
si


-10-

Đặc tính kỹ thuật của điện tốn đám mây cho phép khách hàng đơn phương
thiết lập yêu cầu nguồn lực nhằm đáp ứng yêu cầu của hệ thống như: Thời gian sử
dụng Server, dung lượng lưu trữ, cũng như là khả năng đáp ứng các tương tác lớn
của hệ thống ra bên ngồi.
b) Truy cập diện rộng
Điện tốn đám mây cung cấp các dịch vụ chạy trên môi trường mạng thơng
tin tồn cầu (Internet) do vậy khách hàng chỉ cần kết nối được với mạng thơng tin
tồn cầu (Internet) là có thể sử dụng được dịch vụ. Các thiết bị truy xuất thơng tin


lu
an

khơng u cầu cấu hình cao như : Mobile phone, Laptop và PDAs…

n

va

c) Dùng chung tài nguyên và độc lập vị trí

tn

to

Tài nguyên của nhà cung cấp dịch vụ được dùng chung, phục vụ cho nhiều

ie

gh

người dùng dựa trên mơ hình “multi-tenant”. Mơ hình này cho phép tài nguyên

p

phần cứng và tài nguyên ảo hóa sẽ được cấp pháp động dựa vào nhu cầu của người

do

nl


w

dùng. Khi nhu cầu người dùng giảm xuống hoặc tăng nên thì tài nguyên sẽ được

oa

trưng dụng để phục vụ yêu cầu.

d

Người sử dụng không cần quan tâm tới việc điều khiển hoặc khơng cần phải

lu

va

an

biết chính xác vị trí của các tài nguyên sẽ được cung cấp. Ví dụ : Tài nguyên sẽ

oi
lm

máy ảo.

ul

nf


được cung cấp bao gồm: Tài nguyên lưu trữ, xử lý, bộ nhớ, băng thông mạng và
d) Khả năng co giãn nhanh chóng

z
at
nh

Khả năng này cho phép tự động mở rộng hoặc thu nhỏ hệ thống tùy theo

z

nhu cầu của người sử dụng một cách nhanh chóng. Khi nhu cầu tăng, hệ thống sẽ

@

l.
ai

tự động giảm bớt tài nguyên.

gm

tự động mở rộng bằng cách thêm tài nguyên vào. Khi nhu cầu giảm, hệ thống sẽ

m
co

Khả năng co giãn giúp cho nhà cung cấp sử dụng tài nguyên hiệu quả, tận

an

Lu

dụng triệt để tài nguyên dư thừa, phục vụ được nhiều khách hàng. Đối với người

n

va
ac
th
si


×