Tải bản đầy đủ (.pdf) (82 trang)

Nghiên cứu công nghệ dữ liệu lớn và ứng dụng giám sát, cảnh báo cước viễn thông tại tổng công ty viễn thông viettel

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.42 MB, 82 trang )

TRẦN THANH PHƯƠNG

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN
CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU CÔNG NGHỆ DỮ LIỆU LỚN VÀ ỨNG
DỤNG GIÁM SÁT, CẢNH BÁO CƯỚC VIỄN THÔNG TẠI
TỔNG CÔNG TY VIỄN THÔNG VIETTEL

TRẦN THANH PHƯƠNG
2015-2017

HÀ NỘI - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

NGHIÊN CỨU CÔNG NGHỆ DỮ LIỆU LỚN VÀ ỨNG
DỤNG GIÁM SÁT, CẢNH BÁO CƯỚC VIỄN THÔNG TẠI
TỔNG CÔNG TY VIỄN THÔNG VIETTEL

TRẦN THANH PHƯƠNG
CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRƯƠNG TIẾN TÙNG

HÀ NỘI - 2017


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.
TÁC GIẢ LUẬN VĂN

Trần Thanh Phương

i


LỜI CẢM ƠN
Qua luận văn này tôi xin chân thành cảm ơn TS.Trương Tiến Tùng - Viện
Đại học Mở Hà Nội đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn tôi
nghiên cứu và hoàn thành luận văn này. Tôi xin cảm ơn các giảng viên trong Viện
Đại học Mở Hà Nội đã giảng dạy và giúp đỡ Tôi trong hai năm học qua, cảm ơn sự
giúp đỡ nhiệt tình của các bạn đồng nghiệp.
Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt
tình, đầy trách nhiệm của TS. Trương Tiến Tùng và các thầy cô giáo trong Viện Đại
học Mở Hà Nội cùng với sự nỗ lực của cá nhân nhưng cũng không thể tránh được
những thiếu sót. Tác giả chân thành mong nhận được những ý kiến đóng góp từ quý
Thầy, Cô và các bạn bè đồng nghiệp.
Trân trọng cám ơn.

Trần Thanh Phương


ii


MỤC LỤC
Trang
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .............................................. vi
DANH MỤC CÁC BẢNG BIỂU ........................................................................... viii
DANH MỤC CÁC HÌNH VẼ................................................................................... ix
MỞ ĐẦU .....................................................................................................................1
CHƯƠNG 1. TỔNG QUAN CÔNG NGHỆ DỮ LIỆU LỚN ...................................3
1.1.

Giới thiệu về Dữ liệu lớn ...............................................................................3

1.1.1.

Khái niệm ................................................................................................3

1.1.2.

Công nghệ dùng trong dữ liệu lớn ..........................................................4

1.1.3.

Sự khác biệt giữa Dữ liệu lớn và dữ liệu truyền thống ...........................5


1.2.

Các đặc trưng cơ bản của Dữ liệu lớn ...........................................................6

1.2.1.

Khối lượng dữ liệu ..................................................................................7

1.2.2.

Tốc độ .....................................................................................................7

1.2.3.

Đa dạng ...................................................................................................7

1.2.4.

Độ tin cậy/chính xác ...............................................................................7

1.2.5.

Giá trị ......................................................................................................7

1.3.

Ứng dụng Dữ liệu lớn trong cuộc sống .........................................................8

1.3.1.


Các lĩnh vực đang ứng dụng Dữ liệu lớn ................................................8

1.3.2.

Thực tế sử dụng dữ liệu lớn tại Việt Nam ............................................10

1.4.

Một số giải pháp xử lý Dữ liệu lớn..............................................................12

1.4.1.

Google Cloud Platform .........................................................................12

1.4.2.

Amazon EMR .......................................................................................13

1.4.3.

Apache Hadoop.....................................................................................16

1.4.4.

So sánh các giải pháp ............................................................................17

1.5.

Kết luận chương 1 .......................................................................................18


CHƯƠNG 2. GIẢI PHÁP XỬ LÝ DỮ LIỆU LỚN APACHE HADOOP ..............19
iii


2.1. Các thách thức về dữ liệu lớn ..........................................................................19
2.2. Giới thiệu về Hadoop ......................................................................................21
2.2.1. Khái niệm về Hadoop...............................................................................21
2.2.2. Các thành phần lõi của Hadoop ...............................................................22
2.2.3. Hadoop giải quyết thách thức dữ liệu lớn. ...............................................24
2.3. Kiến trúc Hadoop File System (HDFS) ..........................................................26
2.3.1. Name node................................................................................................26
2.3.2. Data node..................................................................................................27
2.3.3. Secondary Name node..............................................................................27
2.3.4. Jobtracker .................................................................................................28
2.3.5. Tasktracker ...............................................................................................28
2.4. Mô hình Hadoop MapReduce .........................................................................29
2.4.1. Khái niệm .................................................................................................29
2.4.2. Đầu vào, đầu ra MapReduce ....................................................................31
2.4.3. Phương thức hoạt động MapReduce ........................................................32
2.4.4. Khả năng chống lỗi ..................................................................................36
2.5. Hệ sinh thái các sản phẩm đi kèm Hadoop .....................................................37
2.6. Giới thiệu về Oracle ........................................................................................39
2.7. Kết luận chương 2 ...........................................................................................41
CHƯƠNG 3. ỨNG DỤNG GIÁM SÁT VÀ CẢNH BÁO CƯỚC KẾT NỐI VIỄN
THÔNG TẠI VTT ....................................................................................................43
3.1. Đặt vấn đề bài toán ..........................................................................................43
3.2. Mô tả dữ liệu đầu vào, đầu ra ..........................................................................46
3.3. Lựa chọn giải pháp phân tích số liệu cước Viễn thông ...................................47
3.4. Hệ thống kết hợp giữa Apache Hadoop và Oracle ..........................................48
3.5. Thiết kế giao diện và các Module chức năng ..................................................49

3.6. Thử nghiệm chương trình và đánh giá kết quả................................................53
3.7. Kết luận chương 3 ...........................................................................................58
KẾT LUẬN ...............................................................................................................59
1. Kết quả đề tài đạt được .......................................................................................59
iv


2. Hướng phát triển của đề tài ................................................................................59
DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................61
Tài liệu tiếng Việt ...................................................................................................61
Tài liệu tiếng Anh ...................................................................................................61
Website tham khảo .................................................................................................61
PHỤ LỤC ..................................................................................................................62
1.

Tạo account Hadoop trên các node Master và Slave để sử dụng cho cài đặt

Hadoop: ..................................................................................................................62
2.

Chuyển đối từ dữ liệu thô trên Hadoop sang dữ liệu tinh trên Oracle ........64

3.

Chạy thử phân tích dữ liệu sau khi cài đặt Hadoop: ....................................67

v


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

STT

Từ viết tắt

Tiếng Anh

Tiếng Việt

1

AI

artificial intelligence

trí thông minh nhân tạo

2

BI

Business Intelligence

3

CDR

4

CRM


5

CSDL

6

ERP

Enterprise Resource Planning

7

GPS

global positioning system

hệ thống định vị toàn cầu

8

HD

High Definition

Độ phân giải cao hay độ nét cao

9

HDFS


Hadoop Distributed File

Hệ thống lưu trữ chính được dùng

System

bởi Hadoop

10

IoT

Internet Of Things

Internet kết nối vạn vật

11

KPI

Key Performance Indicators

12

NAS

Network Attached Storage

13


NAT

Network Attached Storage

14

OSS

Operating support system

15

OTT

Over The Top

Hệ thống thống minh hóa doanh
nghiệp

Call Detail Record

Bản ghi chi tiết cuộc gọi

Customer Relationship

Hệ thống quản lý quan hệ khách

Management

hàng

Cơ sở dữ liệu

RDBMS

nghiệp

Hệ thống đo lường và đánh giá
hiệu quả công việc
thiết bị lưu trữ gắn vào mạng
Thiết bị lưu trữ gắn vào mạng, để
lưu trữ, chia sẻ file …
Hệ thống hỗ trợ vận hành)
Ứng dụng Media miễn phí trên nền
tảng Internet

Relational Database
16

Lập kế hoạch nguồn lực doanh

Management System sở dữ
liệu quan hệ)

vi

Hệ thống quản lý cơ sở dữ liệu
quan hệ


STT


Từ viết tắt

Tiếng Anh

Tiếng Việt
Là mạng được thiết kế để kết nối

17

SAN

Storage Area Network

các máy chủ tới hệ thống lưu trữ
dữ liệu.
Ổ cứng thể rắn

18

SSD

Solid-State Drive

19

SQL

Structured Query Language


20

TB

21

vRTAP

22

VTT

ngôn ngữ truy vấn mang tính cấu
trúc
= 1 ngàn tỷ byte

Terabyte
Viettel Realtime Analytic
Processing

Xử lý phân tích thời gian thực
Tổng công ty Viễn thông Quân

Viettel Telecom

Đội

vii



DANH MỤC CÁC BẢNG BIỂU
Trang
Bảng 3.1. Bảng đánh giá hệ thống ........................................................................... 68

viii


DANH MỤC CÁC HÌNH VẼ
Trang
Hình 1.1. Thống kê các nguồn dữ liệu hiện nay ...................................................... 03
Hình 1.2. Một số công ty có tham gia vào dữ liệu lớn ............................................ 04
Hình 1.3. Mô hình 5Vs của dữ liệu lớn ................................................................... 06
Hình 1.4. Mô hình kiến trúc mẫu hệ thống dữ liệu lớn của Google ....................... 12
Hình 1.5. Mô hình kiến trúc tích hợp Amazon webservice điển hình .................... 13
Hình 1.6. Apache Hadoop 2.0 ................................................................................. 16
Hình 2.1. Một số thành phần của Hadoop ............................................................... 22
Hình 2.2. Kiến trúc HDFS ....................................................................................... 26
Hình 2.3. Job Tracker và Task Tracker ................................................................... 29
Hình 2.4. Ví dụ minh họa về MapReduce ............................................................... 30
Hình 2.5. Đầu vào, đầu ra MapReduce ................................................................... 31
Hình 2.6. Sơ đồ luồng hoạt động MapReduce ........................................................ 32
Hình 2.7. Sơ đồ luồng hoạt động của Map ............................................................. 34
Hình 2.8. Sơ đồ luồng hoạt động của Reduce ......................................................... 35
Hình 2.9. Sơ đồ luồng thông báo TaskTracker hoàn thành MapReduce ................ 36
Hình 2.10. Hệ sinh thái các sản phẩm đi kèm Hadoop ........................................... 37
Hình 2.11. Hệ quản trị CSDL Oracle ...................................................................... 39
Hình 3.1. Mô hình kiến trúc tổng thể của hệ thống vRTAS .......................................... 46
Hình 3.2. Mô hình import dữ liệu vào Hadoop ....................................................... 49
Hình 3.3. Khai báo case tổng hợp dữ liệu ............................................................... 50
Hình 3.4. Khai báo case xuất dữ liệu ra file ............................................................ 50

Hình 3.5. Khai báo lập lịch tiến trình ...................................................................... 51
Hình 3.6. Khai báo tạo cảnh báo ............................................................................. 51
Hình 3.7. Nội dung cảnh báo .................................................................................. 52
Hình 3.8. Nội dung File đính kèm ........................................................................... 52
Hình 3.9. Biểu đồ dạng đường ................................................................................ 53
Hình 3.10. Danh mục báo báo ................................................................................. 54
ix


Hình 3.11. Xuất chi tiết cảnh báo ra file ................................................................. 54
Hình 3.12. Danh mục các case cảnh báo ................................................................. 55
Hình 3.13. Nội dung Mail cảnh báo trên Outlook .................................................. 55

x


MỞ ĐẦU
Trước đây, ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay,
với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,
giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...trên
toàn cầu, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông
tin trực tuyến liên tục của người sử dụng [3].
Theo tài liệu của Intel vào tháng 9/2015, hiện nay thế giới đang tạo ra 1
petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài
13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu dữ liệu lớn của riêng
mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ
liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất
cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online
Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu

từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi
năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng
là 7,8TB, 18,5TB và 24,7TB. Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh
từ người dùng tải lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và
video của người dùng cùng nhiều loại thông tin khác có liên quan [10].
Ngày nay, dữ liệu chính là tiền bạc của doanh nghiệp. Chỉ cần doanh nghiệp
biết khai thác hiệu quả, Dữ liệu lớn là công cụ không chỉ giúp tăng lợi nhuận cho
chính họ mà còn giúp tiết kiệm thời gian cho khách hàng trong mua sắm.Với hơn 30
triệu người dùng Internet và hơn 15 triệu người dùng Internet trên điện thoại di
động, Việt Nam đang là đích ngắm của nhiều nhà cung cấp giải pháp Dữ liệu
lớn như Microsoft, IBM, Oracle… Dữ liệu lớn và các công nghệ phân tích có khả
năng làm thay đổi hoàn toàn bộ mặt của các ngành kinh tế và nghề nghiệp. Vì vậy,
những mô hình kinh doanh mới dựa trên Dữ liệu lớn đang được hình thành để giúp
các tổ chức, doanh nghiệp tận dụng dữ liệu. “Đây cũng là xu thế tất yếu trong tương
lai không xa với doanh nghiệp Việt Nam".
1


Tại Tổng công ty viễn thông Viettel (VTT), cùng với việc mở rộng mạng
lưới kinh doanh dịch vụ viễn thông toàn cầu, khối lượng dữ liệu tăng trưởng rất
mạnh. Đặc biệt là số liệu kinh doanh: hóa đơn điện tử, giao dịch đấu nối, dữ liệu
cước, … Việc đầu tư vào nghiên cứu ứng dụng công nghệ Dữ liệu lớn để đưa ra các
quyết định kinh doanh kịp thời và chính xác là rất cần thiết.
Từ nhu cầu thực tế đó, tác giả với sự giúp đỡ của TS. Trương Tiến Tùng lựa
chọn đề tài “Nghiên cứu công nghệ dữ liệu lớn và ứng dụng giám sát, cảnh báo
cước Viễn thông tại Tổng công ty Viễn thông Viettel” cho luận văn tốt nghiệp với
mục đích nghiên cứu công nghệ dữ liệu lớn và giải quyết bài toán phân tích số liệu
cước viễn thông phục vụ giám sát, cảnh báo cước vượt KPI tại VTT.
Luận văn của Tác giả gồm có 3 chương với nội dung cơ bản sau:
Chương 1: Tổng quan Công nghệ Dữ liệu lớn

Chương 2: Giải pháp xử lý Dữ liệu lớn Apache Hadoop
Chương 3: Ứng dụng giám sát và cảnh báo cước Viễn thông tại VTT.

2


CHƯƠNG 1. TỔNG QUAN CÔNG NGHỆ DỮ LIỆU LỚN
Giới thiệu
Trong chương này tác giả giới thiệu tổng quan về dữ liệu lớn: Khái niệm, đặc
trưng của dữ liệu lớn, một số ứng dụng dữ liệu lớn tại Việt Nam và trên thế giới.
Đồng thời, tác giả cũng trình bày một số giải pháp xử lý dữ liệu lớn hiện tại.

1.1. Giới thiệu về Dữ liệu lớn
1.1.1. Khái niệm
Dữ liệu lớn là một thuật ngữ dùng để mô tả các bộ dữ liệu có kích thước rất
lớn, khả năng phát triển nhanh, rất khó thu thập, lưu trữ, quản lý và phân tích với
các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. Dữ liệu lớn rất quan
trọng với các tổ chức, doanh nghiệp. Dữ liệu ngày một lớn và nhiều sẽ giúp các
phân tích càng chính xác hơn. Việc phân tích chính xác này sẽ giúp doanh nghiệp
đưa ra các quyết định giúp tăng hiệu quả sản xuất, giảm rủi ro và chi phí [1].
Một số nhóm kiểu dữ liệu lớn:

Hình 1.1. Thống kê các nguồn dữ liệu hiện nay

Thứ nhất là dữ liệu của các hệ thống doanh nghiệp truyền thống bao gồm các
dữ liệu từ hệ thống CRM, các giao dịch của hệ thống ERP, các dữ liệu kế toán….
Thứ hai là dữ liệu máy tạo ra/ Dữ liệu từ các thiết bị cảm biến: Bao gồm
CDR, các dữ liệu ghi log thiết bị, …

3



Thứ ba là dữ liệu mạng xã hội (Social data): bao gồm các dữ liệu được sinh
ra từ quá trình sử dụng mạng xã hội của người dùng như: hình ảnh, video, thông tin
trên Facebook, Twitter, …

1.1.2. Công nghệ dùng trong dữ liệu lớn
Dữ liệu lớn là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle,
IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty
chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Dữ liệu lớn
có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp
đôi so với tổng ngành phần mềm nói chung [5].

Hình 1.2. Một số công ty có tham gia vào dữ liệu lớn

Dữ liệu lớn cần đến các kĩ thuật khai thác thông tin rất đặc biệt do tính chất
khổng lồ và phức tạp của nó. Năm 2011, tập đoàn phân tích McKinsey đề xuất
những công nghệ có thể dùng với Dữ liệu lớn bao gồm crowsourcing (tận dụng
nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các
thuật toán về gen và di truyền, những biện pháp machine learning (các hệ thống có
khả năng học hỏi từ dữ liệu còn được gọi là máy học, một nhánh của trí tuệ nhân

4


tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao
cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp
các server mạnh lại với nhau...
Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt
động dựa trên hành động tìm kiếm, file hệ thống dạng rời rạc, các hệ thống điện

toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu
trữ) và bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác
nghiên cứu và trích xuất thông tin từ “dữ liệu lớn”. Hiện nay cũng có vài cơ sở dữ
liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng
có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Dữ liệu lớn nữa.
Những người làm việc với Dữ liệu lớn thường khó khăn với các hệ thống lưu
trữ dữ liệu tốc độ chậm, do vậy họ cần những loại ổ lưu trữ nào có thể gắn trực tiếp
vào máy tính (cũng như ổ cứng gắn trong máy tính vậy). Ổ đó có thể là SSD cho
đến các đĩa SATA nằm trong một lưới lưu trữ cỡ lớn. Những người này nhìn vào ổ
NAS hay hệ thống lưu trữ mạng SAN với góc nhìn rằng những thứ này quá phức
tạp, đắt và chậm. Những tính chất nói trên không phù hợp cho hệ thống dùng để
phân tích Dữ liệu lớn vốn nhắm đến hiệu năng cao, tận dụng hạ tầng thông dụng và
chi phí thấp. Ngoài ra, việc phân tích Dữ liệu lớn cũng cần phải được áp dụng theo
thời gian thực hoặc cận thời gian thực, thế nên độ trễ cần phải được loại bỏ bất kì
khi nào và bất kì nơi nào có thể [4].

1.1.3. Sự khác biệt giữa Dữ liệu lớn và dữ liệu truyền thống
Dữ liệu lớn khác với dữ liệu truyền thống ở 4 điểm cơ bản: Dữ liệu đa dạng
hơn; lưu trữ dữ liệu lớn hơn; truy vấn nhanh hơn; độ chính xác cao hơn [1].
Dữ liệu đa dạng hơn: Khi khai thác dữ liệu truyền thống, ta thường phải trả
lời các câu hỏi: Dữ liệu lấy ra kiểu gì, định dạng dữ liệu như thế nào nhưng đối với
dữ liệu lớn ta không phải trả lời các câu hỏi trên. Hay nói cách khác khi khai thác,
phân tích dữ liệu lớn ta không cần quan tâm đến kiểu dữ liệu và định dạng của
chúng, điều quan tâm là giá trị mà dữ liệu mang lại có đáp ứng được cho công việc
hiện tại và tương lai hay không.

5


Lưu trữ dữ liệu lớn hơn: Lưu trữ dữ liệu truyền thống vô cùng phức tạp và

luôn đặt ra câu hỏi lưu như thế nào, dung lượng kho lưu trữ bao nhiêu là đủ, gắn
kèm với câu hỏi đó là chi phí đầu tư tương ứng. Công nghệ lưu trữ dữ liệu lớn hiện
nay đã phần nào có thể giải quyết được vấn đề trên nhờ những công nghệ lưu trữ
đám mây, phân phối lưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán
lại với nhau một cách chính xác và xử lý nhanh trong thời gian thực.
Truy vấn dữ liệu nhanh hơn: Dữ liệu lớn được cập nhật liên tục, trong khi đó
kho dữ liệu truyền thống không được cập nhật liên tục và trong tình trạng không
theo dõi thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm
kiếm được thông tin đáp ứng theo yêu cầu.
Độ chính xác cao hơn: Dữ liệu lớn khi đưa vào sử dụng thường được kiểm
định lại dữ liệu với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra
thông thường rất lớn, và đảm bảo về nguồn lấy dữ liệu không có sự tác động của
con người vào thay đổi số liệu thu thập.

1.2. Các đặc trưng cơ bản của Dữ liệu lớn
Theo khái niệm của Gartner (công ty nghiên cứu Công nghệ Thông tin hàng
đầu thế giới) về mô hình “5Vs” - năm tính chất quan trọng nói lên Dữ liệu lớn [3],
[5]:

Hình 1.3. Mô hình 5Vs của dữ liệu lớn

6


1.2.1. Khối lượng dữ liệu
Dữ liệu lớn là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm đương
của những ứng dụng và công cụ truyền thống. Kích cỡ của Dữ liệu lớn đang từng
ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục
terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp
dữ liệu mà thôi.


1.2.2. Tốc độ
Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới realtime. Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng
không, Quân sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn đc xử lý realtime. Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép xử lý tức thì trước
khi chúng được lưu trữ vào cơ sở dữ liệu.

1.2.3. Đa dạng
Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây ta
hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh
ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Công nghệ Dữ liệu lớn
cho phép ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như
comments/post của một nhóm người dùng nào đó trên Facebook với thông tin video
được chia sẻ từ Youtube và Twitter.

1.2.4. Độ tin cậy/chính xác
Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ chính xác của
dữ liệu. Với xu hướng Social Media và Social Network ngày nay và sự gia tăng
mạnh mẽ tính tương tác và chia sẻ của người dùng thiết bị di động làm cho bức
tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài
toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan
trọng của dữ liệu lớn.

1.2.5. Giá trị
Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ dữ liệu
lớn. Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của

7


dữ liệu lớn cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có

thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào
dữ liệu lớn.
Những năm gần đây, Việt Nam đang ngày càng gia tăng tốc độ phát triển và
hội nhập với các xu hướng công nghệ thế giới. Với hơn 30 triệu người dùng Internet
và hơn 15 triệu ngươi dùng Mobile Internet làm cho Việt Nam đang đứng trước một
cơ hội vô cùng lớn về khai thác dữ liệu lớn. Sẽ có những doanh nghiệp Việt Nam
khai thác thành công dữ liệu lớn với doanh số hàng trăm triệu USD trong vòng 5
năm tới. Đặc biệt, giai đoạn 2014-2016, xu hướng Mobile và lượng người dùng
Internet 3G sẽ tiếp tục tăng mạnh. Các dịch vụ kết nối OTT (Over-the-top) và
truyền thông xã hội đóng góp hơn 80% phương thức giao tiếp online, video online
và nội dung số mobile. Điều này góp phần đẩy mạnh xu hướng truyền thông số đa
phương tiện, đa màn hình (PC, smartphone , tablet, smart TV) sẽ bùng nổ với độ
phủ hơn 50% dân số Việt Nam. Việt Nam là một kho “vàng” dữ liệu vô cùng lớn
cho việc ứng dụng Dữ liệu lớn.

1.3. Ứng dụng Dữ liệu lớn trong cuộc sống
1.3.1. Các lĩnh vực đang ứng dụng Dữ liệu lớn
Mọi khía cạnh trong đời sống đều sẽ bị ảnh hưởng bởi dữ liệu lớn. Dưới đây
các ứng dụng dữ liệu lớn được sử dụng phổ biến nhất cũng như tạo ra được những
lợi ích cao nhất trong một số lĩnh vực [1]:
Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital Marketing):
Đây là một trong những lĩnh vực lớn nhất và được công bố công khai nhất cách dữ
liệu lớn được sử dụng ngày nay. Ở đây, dữ liệu lớn được sử dụng để hiểu rõ hơn về
khách hàng và hành vi cũng như sở thích của họ. Các công ty đều mong muốn mở
rộng tập hợp dữ liệu truyền thống với các dữ liệu truyền thông xã hội, trình duyệt
web cũng như phân tích văn bản và dữ liệu cảm biến để có được một bức tranh
hoàn chỉnh hơn về khách hàng của họ. Trong nhiều trường hợp, mục tiêu lớn hơn là
để tạo ra mô hình dự báo.
Sự hiểu biết và tối ưu hóa quy trình kinh doanh: Dữ liệu lớn cũng ngày càng
được sử dụng để tối ưu hóa quy trình kinh doanh. Các nhà bán lẻ có thể tối ưu hóa

8


giá cả và lượng hàng hóa của họ dựa trên các dự đoán được tạo ra từ dữ liệu phương
tiện truyền thông xã hội, xu hướng tìm kiếm web và dự báo thời tiết. Một quy trình
kinh doanh với rất nhiều phân tích dữ liệu lớn là chuỗi cung ứng hoặc cung cấp lộ
trình tối ưu hóa. Ở đây, cảm biến nhận dạng tần số vô tuyến định vị và địa lý được
sử dụng để theo dõi hàng hóa, phương tiện giao hàng và các tuyến đường tối ưu
bằng cách tích hợp dữ liệu giao thông trực tiếp.
Định lượng cá nhân và tối ưu hóa hiệu suất: Dữ liệu lớn không chỉ dành cho
các công ty và chính phủ mà còn cho từng cá nhân. Ngày nay ta có thể được hưởng
lợi từ dữ liệu được tạo ra từ các thiết bị đeo như đồng hồ thông minh hoặc vòng đeo
tay thông minh.
Cải thiện chăm sóc sức khỏe và y tế công: Khả năng tính toán, phân tích dữ
liệu lớn cho phép giải mã toàn bộ chuỗi DNA trong vài phút và tìm ra những
phương pháp chữa trị mới, nhằm hiểu rõ hơn cũng như dự đoán mô hình bệnh. Các
thử nghiệm lâm sàng trong tương lai sẽ không bị giới hạn bởi kích thước mẫu nhỏ
mà sẽ có khả năng bao quát tất cả mọi người cho phép theo dõi, dự đoán sự phát
triển của dịch bệnh và sự bùng phát dịch bệnh.
Cải thiện hiệu suất thể thao: Hầu hết các môn thể thao hiện đại đều áp dụng
phân tích dữ liệu lớn. Ta sử dụng phân tích video để theo dõi hiệu suất của mỗi cầu
thủ trong bóng đá hoặc bóng chày, và công nghệ cảm biến trong các thiết bị thể thao
như bóng rổ hay các câu lạc bộ golf cho phép có được thông tin phản hồi (thông qua
điện thoại thông minh và các máy chủ điện toán đám mây) về hiệu suất thi đấu của
mình và làm thế nào để cải thiện nó.
Nâng cao khoa học và nghiên cứu: Khoa học và nghiên cứu hiện đang biến
đổi rất nhanh bởi các khả năng mới mà dữ liệu lớn mang lại. Lấy ví dụ, CERN,
phòng thí nghiệm vật lý hạt nhân Thụy Sĩ với chiếc máy gia tốc hạt lớn nhất và
mạnh nhất thế giới, Large Hadron Collider. Với những thí nghiệm để mở khóa
những bí mật của vũ trụ, cách hình thành và vận hành ra sao, đã tạo ra một lượng

lớn dữ liệu.
Tối ưu hóa hiệu suất máy móc và thiết bị: Phân tích dữ liệu lớn giúp máy
móc và thiết bị trở nên thông minh và độc lập hơn. Ví dụ, các công cụ dữ liệu lớn
9


được sử dụng để vận hành xe hơi tự lái của Google. Toyota Prius được trang bị máy
ảnh, GPS cũng như các máy tính mạnh mẽ và bộ cảm biến để lái xe an toàn trên
đường mà không có sự can thiệp của con người.
Cải thiện an ninh và thực thi pháp luật: Dữ liệu lớn được áp dụng rất nhiều
trong việc cải thiện an ninh và cho phép thực thi pháp luật. Cơ quan An ninh Quốc
gia Mỹ (NSA) sử dụng phân tích dữ liệu lớn để chống âm mưu khủng bố (và có thể
gián điệp trên toàn cầu). Các đơn vị khác sử dụng kỹ thuật dữ liệu lớn để phát hiện
và ngăn chặn các cuộc tấn công không gian mạng. Lực lượng cảnh sát sử dụng các
công cụ dữ liệu lớn để bắt tội phạm và thậm chí dự đoán hoạt động tội phạm, và
những công ty thẻ tín dụng sử dụng dữ liệu lớn dùng nó để phát hiện các giao dịch
gian lận.
Cải thiện và tối ưu hóa các thành phố, quốc gia: Cho phép các thành phố tối
ưu hóa luồng giao thông dựa trên thông tin giao thông trong thời gian thực cũng
như dữ liệu trên các phương tiện truyền thông xã hội và dữ liệu thời tiết. Một số
thành phố đang thực hiện thí điểm phân tích dữ liệu lớn với mục đích biến mình
thành thành phố thông minh, nơi mà cơ sở hạ tầng giao thông và các quy trình tiện
ích đều được kết nối với nhau. Nơi một chiếc xe buýt sẽ chờ một đoàn tàu đến trễ
và nơi tín hiệu giao thông dự đoán khối lượng giao thông và hoạt động để giảm
thiểu ùn tắc.
Kinh doanh tài chính: Thể loại cuối cùng về ứng dụng dữ liệu lớn đến từ các
giao dịch tài chính. Tần số giao dịch cao (HFT) là một lĩnh vực nơi dữ liệu lớn được
sử dụng rất nhiều ngày nay. Ở đây, thuật toán dữ liệu lớn được sử dụng để đưa ra
các quyết định giao dịch. Ngày nay, phần lớn các giao dịch cổ phiếu diễn ra thông
qua các thuật toán dữ liệu dựa ngày càng nhiều vào tín hiệu tài khoản từ các mạng

truyền thông xã hội và các trang web tin tức để đưa ra quyết định mua và bán trong
từng giây.

1.3.2. Thực tế sử dụng dữ liệu lớn tại Việt Nam
Hiện tại, cách mạng công nghiệp lần thứ 4 là một thuật ngữ được mô tả về
một nền công nghiệp thông minh với sự phát triển vượt bậc của nhiều công nghệ, có
thể thay đổi mô thức sản xuất trên quy mô toàn cầu. Cục Thương mại điện tử và
10


Công nghệ thông tin (Bộ Công Thương) cho biết, Cách mạng công nghiệp lần thứ 4
đang và sẽ là xu thế lớn có tác động đến phát triển kinh tế - xã hội của tất cả các
quốc gia. Trong đó, một trong những công nghệ quan trọng phải được kể đến là dữ
liệu lớn. Dữ liệu lớn sẽ là yếu tố cốt lõi để sử dụng và phát triển Internet vạn vật
(IoT) và trí tuệ nhân tạo (AI). Do đó, cách thu thập và khai thác dữ liệu lớn sẽ tạo ra
điểm khác biệt giữa các doanh nghiệp hoạt động trên thị trường [3].
Tuy nhiên, tình hình khai thác dữ liệu lớn tại Việt Nam vẫn chưa thu hút
được nhiều sự chú ý. Phần lớn các doanh nghiệp sở hữu khối lượng dữ liệu lớn hàng
đầu Việt Nam chưa tư duy về dữ liệu, chính vì vậy cần trang bị thông tin để có thể
tái cấu trúc hệ thống, thiết lập cơ sở hạ tầng thông tin, thu thập, xử lý, để dữ liệu Dữ
liệu lớn phát huy giá trị to lớn của nó. Trong bối cảnh hiện nay, điểm quan trọng mà
các doanh nghiệp Việt Nam cần tập trung để có thể khai thác được giá trị của Dữ
liệu lớn là cần phát triển một “tư duy phân tích dữ liệu”, nuôi dưỡng một “văn hóa
dữ liệu” trong doanh nghiệp. Điều này là một nhiệm vụ khó khăn.
Tại Viettel nói riêng, Viettel BI 2.0 là hệ thống xây dựng trên nền tảng xử lý
và phân tích dữ liệu lớn thời gian thực vRTAP (Viettel Real-time Big Data
Analytics Platform), cho phép tổng hợp và phân tích hành vi tiêu dùng của khách
hàng viễn thông trên nhiều chiều. Từ đó hệ thống kết hợp với các mô hình thuật
toán máy học để đưa ra quyết định về kinh doanh trong viễn thông, quảng cáo
thương mại điện tử. Sản phẩm đã giải quyết bài toán về nhu cầu xử lý dữ liệu lớn

của các doanh nghiệp lớn, đặc biệt là mạng viễn thông Viettel, giúp tối ưu nguồn
lực nghiên cứu, xây dựng, triển khai, vận hành các hệ thống xử lý dữ liệu dựa trên
cơ sở nền tảng chung hợp nhất. BI 2.0 đã góp phần giúp Viettel trở thành đơn vị đi
đầu trong phân tích dữ liệu lớn vốn còn khá mới tại Việt Nam. Đây sẽ là cơ sở quan
trọng để công ty có thể phục vụ khách hàng như những cá thể riêng lẻ, "may đo"
theo nhu cầu từng khách hàng, điều mà tất cả các doanh nghiệp viễn thông đều đang
hướng tới.

11


1.4. Một số giải pháp xử lý Dữ liệu lớn
1.4.1. Google Cloud Platform
Hứa hẹn của dữ liệu lớn là nhìn thấu bên trong doanh nghiệp nhanh hơn, tốt
hơn, nhưng nó thường rơi vào bài toán hạ tầng. Chẳng hạn bạn có thể thu thập một
lượng dữ liệu khổng lồ, sau đó tìm cách kết hợp, biến đổi để trích xuất dữ liệu có
giá trị bên trong. Giả sử không dựa trên nền tảng Cloud, hệ thống sẽ rất lớn, cồng
kềnh [7], [11].

Hình 1.4. Mô hình kiến trúc mẫu hệ thống Dữ liệu lớn của Google

Xây dựng hệ thống xử lý Dữ liệu lớn dựa trên nền tảng điện toán đám mây
“Cloud computing” sẽ nhanh hơn, sẽ không phải lo lắng về hạ tầng bên dưới. Đặc
biệt hơn, nó cho phép:
Không vận hành (NoOps): Nhà cung cấp Cloud sẽ chịu trách nhiệm triển
khai, quản lý và nâng cấp hạ tầng để làm cho hệ thống tin cậy và có khả năng mở
rộng. “NoOps” có nghĩa là nền tảng tự động xử lý các công việc như thế cho người
sử dụng, giải phóng người dùng hoàn toàn để có thể tập trung vào việc hiểu và khai
thác giá trị dữ liệu.
Chi phí hiệu quả: Không chỉ dễ sử dụng và nhanh, một giải pháp “NoOPs”

cung cấp lợi ích chi phí khá rõ ràng thông qua việc loại bỏ công việc vận hành,
nhưng lợi ích về mặt chi phí của Dữ liệu lớn theo “Cloud way” còn hơn nữa - nền
tảng tự động mở rộng và tối ưu việc tiêu tốn hạ tầng của bạn, bỏ qua các tài nguyên
12


nhàn rỗi như các cụm không hoạt động. Bạn quản lý chi phí bằng số truy vấn và độ
trễ dựa trên phân tích lợi ích/chi phí. Bạn không bao giờ phải cấu trúc lại hệ thống
chỉ để điều chỉnh chi phí.
Cộng tác an toàn và dễ dàng: Bạn có thể chia sẻ bộ dữ liệu “data set” lên
Google Cloud Storage hoặc các bảng trong google big query với bộ cộng tác bên
trong hoặc bên ngoài tổ chức mà không cần tạo bản sao hoặc gán quyền truy cập cơ
sở dữ liệu. Có một phiên bản dữ liệu mà bạn kiểm soát và xác thực quyền truy cập
mà không ảnh hưởng đến hiệu năng.

1.4.2. Amazon EMR
Khi toàn cầu đã trở thành một xã hội kỹ thuật số, số lượng dữ liệu được tạo
ra và thu thập được phát triển và đẩy nhanh đáng kể. Phân tích dữ liệu này sẽ trở
thành một thách thức với các công cụ truyền thống. Đòi hỏi phải cải tiến để thu hẹp
khoảng cách giữa dữ liệu được tạo ra và dữ liệu có thể phân tích hiệu quả [6] [8].

Hình 1.5. Mô hình kiến trúc tích hợp Amazon webservice điển hình

Amazon Web Services (AWS) cung cấp một nền tảng rộng các dịch vụ quản
lý để giúp bạn xây dựng an toàn và liên tục mở rộng quy mô ứng dụng dữ liệu lớn
end-to-end một cách nhanh chóng và dễ dàng. Cho dù các ứng dụng của bạn yêu
cầu streaming thời gian thực hay xử lý dữ liệu hàng loạt, AWS cung cấp cơ sở hạ
tầng và các công cụ để giải quyết dữ liệu lớn của bạn trong tương lai. Không cần
mua sắm phần cứng, không cần bảo trì và mở rộng cơ sở hạ tầng, duy nhất những gì
bạn cần là thu thập, lưu trữ, xử lý và phân tích dữ liệu lớn. AWS có một hệ sinh thái


13


×