Tải bản đầy đủ (.pdf) (94 trang)

Ứng dụng bigdata trong phát hiện xâm nhập mạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6 MB, 94 trang )

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai đó
công bố trong bất kỳ công trình nào khác.

Tác giả luận văn

Nguyễn Thị Hòa

i


LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến TS. Đỗ Xuân Chợ người đã
tận tình hướng dẫn, chỉ bảo, giúp đỡ em trong suốt quá trình làm luận văn.
Em cũng xin gửi lời cảm ơn đến các thầy cô giảng dạy và các thầy cô trong
Khoa đào tạo Sau Đại học đã truyền đạt những kiến thức và giúp đỡ em trong suốt
quá trình học của mình.
Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè
những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để em có được kết quả
như ngày hôm nay.
Tác giả luận văn
Nguyễn Thị Hòa

ii


MỤC LỤC

LỜI CAM ĐOAN .....................................................................................................i
LỜI CẢM ƠN .........................................................................................................ii


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .............................................. v
DANH MỤC CÁC BẢNG BIỂU ........................................................................... vi
DANH MỤC CÁC HÌNH VẼ ...............................................................................vii
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1. TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA ................................... 4
1.1.

Giới thiệu về công nghệ Bigdat. ................................................................. 4

1.1.1.

Khái niệm về Bigdata .......................................................................... 4

1.1.2.

Đặc trưng 5V của Big Data .................................................................. 6

1.1.3.

Vai trò của Big data ............................................................................. 9

1.2.

Một số ứng dụng của bigdata .................................................................... 10

1.3.

Ứng dụng của bigdata trong an toàn thông tin .......................................... 20

1.3.1.


Theo dõi và phát hiện Botnet ............................................................. 21

1.3.2.

Phân tích mã độc................................................................................ 23

1.3.3.

Phát hiện xâm nhập mạng .................................................................. 24

1.3.4.

Phát hiện tấn công APT ..................................................................... 25

1.3.5.

Phát hiện tấn công Zero-day .............................................................. 26

1.3.6.

Điều tra tội phạm công nghệ cao ........................................................ 26

KẾT LUẬN CHƯƠNG 1 ...................................................................................... 27
CHƯƠNG 2. VẤN ĐỀ ỨNG DỤNG CÔNG NGHỆ BIGDATA TRONG PHÁT
HIỆN XÂM NHẬP MẠNG .................................................................................. 28
2.1.

Tổng quan chung về phát hiện xâm nhập mạng ........................................ 28


2.1.1.

Khái niệm về xâm nhập mạng ............................................................ 28

2.1.2.

Vấn đề phát hiện xâm nhập mạng ...................................................... 29

2.1.3.

Một số công cụ phát hiện xâm nhập mạng ......................................... 29

2.2

. Một số công cụ của Bigdata trong phát hiện xâm nhập mạng.................. 36

2.2.1.

Hạn chế của các giải pháp phát hiện xâm nhập phổ biến .................... 36

2.2.2.

Công nghệ Big data trong phát hiện xâm nhập mạng ......................... 36

iii


2.3.

Triển khai ứng dụng Big data trong phát hiện xâm nhập mạng ................. 44


2.3.1.

Tổng quan mô hình ứng dụng Big data trong phát hiện xâm nhập mạng
44

2.3.2.

Dữ liệu phục vụ phát hiện xâm nhập mạng ........................................ 47

2.3.3.

Một số thuật toán phát hiện xâm nhập mạng ...................................... 55

KẾT LUẬN CHƯƠNG 2 ...................................................................................... 64
CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................... 65
3.1.

Thực hiện thực nghiệm ............................................................................. 65

3.1.1.

Lựa chọn thuật toán ........................................................................... 65

3.1.2.

Lựa chọn bộ dữ liệu và công cụ thực nghiệm ..................................... 69

3.2.


Một số kết quả thực nghiệm ..................................................................... 72

3.2.1.

Thực nghiệm huấn luyện.................................................................... 73

3.2.2.

Thực nghiệm kiểm tra ........................................................................ 79

KẾT LUẬN CHƯƠNG 3 ...................................................................................... 82
KẾT LUẬN ........................................................................................................... 83
TÀI LIỆU THAM KHẢO ..................................................................................... 85

iv


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Từ viết tắt

Tiếng Anh

Tiếng việt

APT

Advanced Persistent Threat

Mối đe dọa liên tục nâng cao


IPS

Internet Protocols

Bộ giao thức liên mạng

SSL

Secure Sockets Layer

IT

Tiêu chuẩn của công nghệ bảo
mật

Information Technology

Công nghệ thông tin

FTP

File Transfer Protocol

Giao thức chuyển nhượng tập tin

SQL

Structured Query Language

IP


Ngôn ngữ truy vấn mang tính
cấu trúc

Internet Protocol

Giao thức kết nối Internet

DLP

Data Leak Prevention

Ngăn chặn rò rỉ dữ liệu

DNS

Domain Name System

Hệ thống tên miền

URL

Uniform Resource Locator

SIEM
DDOS

Security Information Event
Managemet
Distributed Denial Of Service


Tham chiếu tài nguyên mạng
Internet
Giám sát an toàn mạng
Tấn công từ chối dịch vụ phân
tán

DOS

Denial of Service attack

NIDS

Network-based

Tấn công từ chối dịch vụ
Intrusion Hệ thống phát hiện xâm nhập

Detection System
KDD99

cho mạng

Knowledge Discovery and Data
Mining 1999

R2L

Remote to Local attack


U2R

User to Root attack

Probe

Surveillance

v


DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1: Các nhóm xâm nhập trái phép trong dữ liệu DARPA ............................ 48
Bảng 2.2: Phân bố dữ liệu theo nhóm trong tập huấn luyện ................................... 49
Bảng 2.3: Phân bố dữ liệu theo nhóm trong tập thử nghiệm ................................... 50
Bảng 2.5: Các đặc trưng của máy chủ được kết nối ............................................... 51
Bảng 2.6: Các đặc trưng về lưu lượng trong khoảng thời gian 2 giây ..................... 52
Bảng 2.7: Các đặc trưng về lưu lượng trong khoảng thời gian 256 giây. ................ 53
Bảng 3.1: Bảng số lượng các bản ghi trong tập dữ liệu KDD 99 ............................ 69
Bảng 3.2: Bảng phân bố thuộc tính của các loại tấn công....................................... 69
Bảng 3.3: Các thuộc tính phát hiện tấn công DOS ................................................. 70
Bảng 3.4: Các thuộc tính trong phát hiện tấn công Probe ....................................... 70
Bảng 3.5: Các thuộc tính trong cuộc tấn công U2R, R2L ....................................... 71
Bảng 3.6: Các giá trị đánh giá ................................................................................ 72
Bảng 3.7: Các giá trị đánh giá theo tỉ lệ ................................................................. 81

vi


DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Sự đa dạng của Big data ........................................................................... 5
Hình 1.2: Khối lượng dữ liệu trong Big Data ........................................................... 6
Hình 1.3: Sự tăng trưởng của dữ liệu ....................................................................... 6
Hình 1.4: Tốc độ của dữ liệu trong Big Data ........................................................... 7
Hình 1.5: Sự đa dạng của dữ liệu trong Big Data ..................................................... 8
Hình 1.6: Dữ liệu cấu trúc và dữ liệu không cấu trúc ............................................... 8
Hình 1.7: Hình ảnh thể hiện độ chắc chắn của dữ liệu.............................................. 9
Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh ...................... 12
Hình 1.9: Mô hình ứng dụng Big data trong y tế .................................................... 13
Hình 1.10: Ứng dụng của Big data trong giám sát dịch bệnh ................................. 14
Hình 1.11: Công nghệ Match Insight của đội tuyển Đức........................................ 15
Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang ................................. 16
Hình 1.13: Mô hình ứng dụng của Big data trong thương mại ............................... 17
Hình 1.14: Mô hình ứng dụng Bigdata trong viễn thông ........................................ 18
Hình 1.15: Mô hình tấn công từ chối dịch vụ xử dụng mạng Botnet ...................... 22
Hình 1.16: Mô hình ứng dụng Big data trong phát hiện botnet............................... 23
Hình 1.17: Mô hình ứng dụng Big data trong phân tích mã độc ............................. 23
Hình 1.18: Mô hình ứng dụng Big data trong phát hiện xâm nhập mạng................ 24
Hình 1.19: Kỹ thuật tấn công APT......................................................................... 26
Hình 2.1. Phát hiện xâm nhập mạng của IDS ......................................................... 30
Hình 2.2: Các thành phần của IDS ......................................................................... 31
Hình 2.3: Kiến trúc của một Snort.......................................................................... 34
Hình 2.4: Kiến trúc của HDFS ............................................................................... 38
Hình 2.5: Công nghệ xử lý dòng trong Big Data .................................................... 39
Hình 2.6: Giao diện của weka ................................................................................ 40
Hình 2.7: Kiến trúc của Apache Hadoop................................................................ 41
Hình 2.8: Mô hình quản lý của Spark .................................................................... 42
Hình 2.9: Mô hình hệ thống phát hiện xâm nhập ................................................... 44
Hình 2.10: Quy trình học máy ............................................................................... 47
vii



Hình 2.11: Một số dữ liệu phục vụ phát hiện xâm nhập mạng................................ 47
Hình 2.12: Mô hình phân loại xâm nhập mạng ...................................................... 55
Hình 2.13: Mô hình cây quyết định ....................................................................... 59
Hình 2.14: Cây quyết định cho phát hiện tấn công ................................................. 60
Hình 2.15: Mô hình mạng nơ-ron trong phát hiện bất thường ................................ 61
Hình 3.1: Mô hình tổng quát MLP ......................................................................... 65
Hình 3.2: Đường nét đứt thể hiện cơ chế lan truyền ngược để điều chỉnh lại trọng số
.............................................................................................................................. 67
Hình 3.3: Giao diện của Weka khi chạy bộ dữ liệu 10% ........................................ 74
Hình 3.4: Giao diện cấu hình tham số trong Weka ................................................. 74
Hình 3.5: Kết quả xây dựng model ........................................................................ 75
Hình 3.6: Lựa chọn thuật toán mạng neuron trong Weka ....................................... 75
Hình 3.7: Kết quả huấn luyện dữ liệu xử dụng thuật toán mạng neuron ................. 76
Hình 3.8: Giao diện của phần mềm ........................................................................ 77
Hình 3.9: Giao diện của công cụ anaconda ............................................................ 78
Hình 3.10: Chọn dữ liệu huấn luyện ...................................................................... 78
Hình 3.11: Kết quả huấn luyện .............................................................................. 79
Hình 3.12: Load lại model đã lưu .......................................................................... 79
Hình 3.13:Thực nghiệm kiểm tra dữ liệu ............................................................... 80
Hình 3.14: Kết quả kiểm tra bằng weka ................................................................. 80
Hình 3.15: Chọn dữ liệu kiểm tra........................................................................... 81
Hình 3.16: Kết quả kiểm tra................................................................................... 82

viii


MỞ ĐẦU
Các nguy cơ mất An toàn thông tin (ATTT) trên thế giới nói chung và Việt

Nam nói riêng liên tục gia tăng và phát triển về cả số lượng cũng như mức độ nguy
hiểm của các cuộc tấn công. Theo ghi nhận của một số công ty bảo mật trên thế
giới, trong vài năm trở lại đây Việt Nam luôn được coi là điểm nóng của mã độc và
các cuộc xâm nhập mạng trái phép. Hàng loạt các cuộc tấn công và xâm nhập mạng
trái phép diễn ra với quy mô và mức độ nguy hiểm vào các hệ thống công nghệ
thông tin của các doanh nghiệp, tổ chức chính phủ… đã gây mất ATTT và ảnh
hưởng nghiêm trọng đến uy tín và doanh nghiệp, tổ chức chính phủ.
Hiện nay, các cơ quan nhà nước, các tổ chức chính phủ đã và đang có nhiều
biện pháp tích cực trong việc phòng chống và phát hiện xâm nhập mạng. Rất nhiều
biện pháp đã được ứng dụng và triển khai trong thực tế. Tuy nhiên, các kỹ thuật tấn
công và xâm nhập ngày càng được biến đổi tinh vi và phức tạp, dẫn đến một số hệ
thống đảm bảo ATTT không phát hiện và ngăn chặn được kịp thời các tấn công này.
Chính vì vậy, để sớm phát hiện và ngăn chặn các cuộc tấn công và xâm nhập mạng
thì yêu cầu các hệ thống đảm bảo ATTT phải liên tục cập nhật và thu thập thông tin
về tấn công từ nhiều nơi khác nhau. Để làm được điều đó, hiện nay một số hãng bảo
mật trên thế giới đang tiến hành nghiên cứu và ứng dụng công nghệ dữ liệu lớn
(Bigdata) nhằm theo dõi và phát hiện sớm các cuộc tấn công và xâm nhập mạng.
Việc ứng dụng công nghệ Bigdata đòi hỏi các nhà nghiên cứu cần phải có các thuật
toán để xử lý dữ liệu và có các công cụ để mô hình hóa quá trình phát hiện xâm
nhập mạng từ những dữ liệu thu thập được. Có nhiều công cụ và công nghệ được
ứng dụng trong quá trình mô hình hóa phát hiện xâm nhập mạng. Một số công cụ
như Apache Spark; Weka, deepej…. Để ứng dụng được các công cụ này đòi hỏi
nhiều quy trình phức tạp cần thực hiện từ việc tiền xử lý dữ liệu đến việc sử dụng
các thuật toán… Đây đều là những quy trình phức tạp với nhiều pha và kỹ thuật cần
thực hiện. Chính vì vậy, để áp dụng công nghệ Bigdata cho quá trình phát hiện xâm
nhập mạng chính là quá trình nghiên cứu, tìm hiểu và ứng dụng các công cụ và kỹ
thuật của môi trường Bigdata. Từ những lý do trên, học viên với sự giúp đỡ của TS

1



Đỗ Xuân Chợ đã lựa chọn đề tài: “Ứng dụng công nghệ Bigdata trong phát hiện
xâm nhập mạng”.
Tổng quan vấn đề cần nghiên cứu
Công nghệ Bigdata là công nghệ dữ liệu lớn bao gồm nhiều công cụ và kỹ
thuật để có thể xử lý được luồng dữ liệu lớn trong thời gian thực hiện. Một số công
cụ của Bigdata có thể kể đến như: Apache Spark; Weka, deepej;

Hadoop;

MapReduce…Trong luận văn, tác giả sẽ đi sâu vào việc nghiên cứu và tìm hiểu để
có thể ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập
mạng.
Để luận văn đạt được những kết quả trên, cần nghiên cứu và làm rõ các nội
dung:
Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;
Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông
tin;
Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện
xâm nhập mạng;
Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập
mạng.
Mục đích nghiên cứu:
Nghiên cứu và tìm hiểu tổng quan về công nghệ Bigdata;
Tìm hiểu về một số ứng dụng của công nghệ Bigdata trong an toàn thông
tin;
Tìm hiểu về một số công cụ trong công nghệ Bigdata trong việc phát hiện
xâm nhập mạng;
Ứng dụng một số công cụ trong công nghệ Bigdata để phát hiện xâm nhập
mạng..

Đối tượng và phạm vi nghiên cứu


Đối tượng nghiên cứu:
-

Công cụ trong công nghệ Bigdata và kỹ thuật phát hiện xâm nhập mạng.

2




Phạm vi nghiên cứu:
-

Công cụ trong công nghệ Bigdata, kỹ thuật xâm nhập mạng, kỹ thuật
theo dõi và phát hiện xâm nhập mạng.

-

Bộ dữ liệu chuẩn KDD99 DATASET...

Phương pháp nghiên cứu:
-

Dựa trên cơ sở lý thuyết của công cụ trong công nghệ Bigdatavà kỹ thuật
phát hiện xâm nhập mạng; kỹ thuật theo dõi và phát hiện xâm nhập mạng

3



CHƯƠNG 1. TỔNG QUAN VỀ CÔNG NGHỆ BIGDATA
1.1.

Giới thiệu về công nghệ Bigdat.
1.1.1. Khái niệm về Bigdata
Big Data là thuật ngữ dùng để chỉ các tập hợp dữ liệu lớn và phức tạp đến

mức những công cụ hay những ứng dụng xử lí dữ liệu truyền thống không giải
quyết được. Big Data chứa nhiều thông tin quý giá mà nếu trích xuất thành công,
những thông tin đấy sẽ giúp cho việc kinh doanh, nghiên cứu khoa học, dự đoán các
dịch bệnh sắp phát sinh và cả việc xác định điều kiện giao thông theo thời gian thực.
Do đó, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ
theo một cách khác so với bình thường. Có rất nhiều khái niệm cũng như định nghĩa
khác nhau về Bigdata. Dựa trên những tiêu trí khác nhau mà mỗi tổ chức và doanh
nghiệp đưa ra những khái niệm này [12], [13], [15].
Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp
mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này [11].
Theo Gartner: Big Data là những nguồn thông tin có đặc điểm chung khối
lượng lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó
muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định,
khám phá và tối ưu hóa quy trình [11].
Theo SAS: Big Data là một thuật ngữ dùng để miêu tả khối lượng lớn của dữ
liệu – cả dữ lệu có cấu trúc và dữ liệu không có cấu trúc. Nhưng độ to lớn của dữ
liệu thì không phải điều quan trọng. Việc các tổ chức làm gì, sử dụng các dữ liệu ấy
như thế nào mới là điều quan trọng. Big Data có thể được phân tích để đưa ra những
thông tin cần thiết qua đó dẫn đến những quyết định và hướng đi tốt hơn trong kinh
doanh [11].


4


Hình 1.1: Sự đa dạng của Big data

Trên đây luận văn
ăn đđã trình bày về một số khai niệm về Big data, ti
tiếp theo, để
hiểu rõ hơn về Big data, lu
luận văn sẽ đi vào mô tả một số đặc điểm
m đđể hình thành
Big data.
Nguồn
n hình thành dữ
d liệu Big Data:
Big data được hiểểu là tập hợi dữ liệu từ nhiều nguồnn khác nhau. Trên đây,
luận văn sẽ trình bày mộtt số
s nguồn dữ liệu hình thành Big data [3], [16]:
• Dữ liệuu hành chính (phát sinh ttừ chương trình của một tổ chức, có thể là
chính phủ hay phi chính phủ).
ph Ví dụ, hồ sơ y tế điện tử ở bệnh
b
viện, hồ sơ
bảo hiểm, hồ sơ ngân hàng.
• Dữ liệu từ hoạtt động
đ
thương mại (phát sinh từ các giao dịch
ch gi
giữa hai thực
thể). Ví dụ,, các giao dịch

d
thẻ tín dụng, giao dịch trên mạng,
ng, bao ggồm cả
từ các thiết bị di đđộng.
• Dữ liệu từ các thiết
thi bị cảm biến như thiết bị chụp hình ảnh
nh vvệ tinh, cảm
biến đường, cảảm biến khí hậu.
• Dữ liệu từ các thi
thiết bị theo dõi, ví dụ theo dõi dữ liệu từ
ừ điện thoại di
động, GPS.
• Dữ liệu từ các hành vi, ví dụ
d như tìm kiếm trực tuyến về một sản phẩm,
một dịch vụ hay thông tin khác, đọc các trang mạng trựcc tuy
tuyến...
• Dữ liệu từ các thông tin về
v ý kiến, quan điểm củaa các cá nhân, ttổ chức,
trên các phương
ương tiện
ti thông tin xã hội.

5


1.1.2. Đặc trưng
ưng 5V của
c Big Data
1.1.2.1.Khối lượng
ng dữ

d liệu (Volume)
Kích thước củaa Big Data được đo bằng khối lượng.
ng. Dung lư
lượng của Big
Data đang tăng lên mộtt cách m
mạnh mẽ theo từng ngày. Lợi ích từ việc xử lý một
khối lượng lớn dữ liệu
u chính là điểm thu hút chính củaa Big Data, tuy nhiên cũng đặt
ra nhiều khó khăn khi khối
khối lượng dữ liệu ngày càng phát triển thì các ứng dụng và
kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên
[3].

Hình 1.2: Khối lượng dữ liệu trong Big Data

Hình 1.2 thể hiệnn khối
kh lượng dữ liệu khổng lồ mà Big Data thu th
thập được:
trong 7 tỉ dân trên thế giớ
ới thì có 6 tỉ người sở hữu điện thoại,
i, hay theo ước tính có
khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) dữ
d liệu được tạo ra mỗii ngày. Đây là đặc
điểm tiêu biểu nhất củaa dữ
d liệu lớn, khối lượng dữ liệu rất lớn.

Hình 1.3: Sự tăng trưởng của dữ liệu
6



1.1.2.2. Tốc độộ (Velocity)
Tốc độ có thể hiểuu theo 2 khía cạnh:
c
• Khối lượng dữ
ữ liệu gia tăng rất nhanh (mỗi giây có tớii 72.9 tri
triệu các yêu
cầu truy cập
p tìm kiếm
ki trên web bán hàng của Amazon).
• Xử lý dữ liệu
u nhanh ở mức thời gian thực (real-time),
time), có ngh
nghĩa dữ liệu
được xử lý ngay tức
t thờii ngay sau khi chúng phát sinh (tính đđến bằng mili
giây).
Các ứng dụng phổ
ổ biến trên lĩnh vực Internet, Tài chính,
ính, Ngân hàng, Hàng
không, Quân sự, Y tế – Sức
S khỏe như hiện nay phần lớn dữ liệu lớnn đư
được xử lý realtime. Công nghệ xử lý dữ
d liệu lớn ngày nay đã cho phép xử lý tứ
ức thì trước khi
chúng được lưu trữ vào cơ sở dữ liệu.

Hình 1.4: Tốc độ của dữ liệu trong Big Data

1.1.2.3.Đa dạng
ng (Variety)

Big Data cho phép liên kkết và phân tích nhiều dạng dữ liệuu khác nhau. Ví dụ,
d
với các bình luận củaa một
m nhóm người dùng nào đóó trên Facebook vvới thông tin
video được chia sẻ từ Youtube và Twitter.

7


Hình 1.5:
1. Sự đa dạng của dữ liệu
u trong Big Data

Như đã đề cập ở trên, Big Data được hình thành từ nhiềuu nguồn
ngu dữ liệu, do
đó tính đa dạng là mộtt đặc
đ điểm không thể thiế. Ngoài ra, đa dạng
ng ccủa Big Data
không chỉ là đa dạng về nguồn
ngu mà còn là đa dạng về các kiểu dữ liệuu thu th
thập và sử
dụng. Trước đây, chỉ có th
thể tiếp cận các dữ liệu có cấu trúc nằm
m trong các bbảng
hoặc các cơ sở dữ liệuu quan hệ
h (ví dụ, các bảng bán hàng theo từng
ng vùng ho
hoặc từng
sản phẩm).
m). Tuy nhiên, trên thực

th tế, 80% dữ liệu trên thế giớii này là ddữ liệu không
cấu trúc và do đó rấtt khó hoặc
ho hầu như không thể đưa vào các bảng
ng (ví ddụ như các
bức ảnh,
nh, các comment trên facbook, các đoạnn video, …). Big Data cho phép khai
thác các loại dữ liệuu khác nhau (cấu
(c trúc, bán cấu trúc và cả không cấu
c trúc) bao
gồm các tin nhắn,
n, các cu
cuộc hội thoại trên mạng xã hội, hình ảnh, dữ
ữ liệu cảm biến,
các video hay các file ghi âm, các file log, … và mang chúng lưu
lưu tr
trữ cùng các dữ
liệu cấu trúc.

Hình 1.
1.6: Dữ liệu cấu trúc và dữ liệu không cấu
u trúc

8


1.1.2.4.

Độ tin ccậy/chính xác (Veracity)

Một trong những

ng tính chất
ch phức tạp nhất của dữ liệu lớnn là đđộ tin cậy/chính
xác của dữ liệu. Vớii xu hướng

phương tiện truyền thông xã hộii (Social Media) và
mạng xã hộii (Social Net
Network) ngày nay và sự gia tăng mạnh mẽ tính ttương tác và
chia sẻ của ngườii dùng Mobile làm cho bbức tranh xác định về độ tin ccậy & chính
xác của dữ liệu ngày mộột khó khăn hơn. Bài toán phân tích và loạii bbỏ dữ liệu thiếu
chính xác và nhiễu đang là tính chất
ch quan trọng của Big Data.

Hình 1.7:Hình
1.
ảnh thể hiện độ chắc chắn của dữ liệu

1.1.2.5.

Giá trị (Value)

Giá trị là đặc điểm
m quan trọng
tr
nhất của dữ liệu lớn, vì khi bắắt đầu triển khai
xây dựng dữ liệu lớn
n thì việc
vi đầu tiên cần phải làm đó là xác định
nh đư
được giá trị của
thông tin mang lại như

ư thế
th nào, khi đó mới có quyết định
nh có nên tri
triển khai dữ liệu
lớn hay không. Nếu
u có dữ
d liệu lớn mà chỉ nhận được 1% lợi ích từ
ừ nó, thì không
nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiệnn rõ nét nhất
nh về
giá trị của dữ liệu lớnn mang lại.
l Ví dụ, từ khối dữ liệuu phát sinh trong quá trình
khám, chữa bệnh sẽ giúp dự
d báo về sức khỏe được chính xác hơn, sẽẽ giảm được chi
phí điều trị và các chi phí liên quan đến y tế.
1.1.3.

Vai trò của
c Big data

Big Data đang ngày càng được sử dụng rộng rãi trong các lĩnh
ĩnh vvực, tổ chức
với nhiều mục đích khác nhau. Ví ddụ [12], [13], [14], [15]:
-

Các công ty sử dụụng Big Data để tìm hiểuu hành vi tiêu dùng ccủa khách hàng
từ đó đưaa ra các đề
đ xuất mua sắm cá nhân hóa cho từng đốii tượng

dựa trên

thông tin thu thậpp được
đư từ họ (Ebay, Facebook, Google…).

9


-

Các cơ sở nghiên cứu khoa học sử dụng Big Data để tìm ra những khám phá
khoa học mới cho nhân loại, ví dụ như xây dựng bản đồ gene của con người,
hay tiêu biểu như các nghiên cứu tại trong máy gia tốc Hadron của Tổ chức
Nghiên cứu Nguyên tử Châu Âu, nếu các kết quả thu được từ các cảm biến
trong máy được ghi nhận đầy đủ, luồng dữ liệu sẽ trở nên vô cùng lớn, có thể
đạt đến 150 triệu petabyte mỗi năm, gấp 200 lần so với tất cả các nguồn dữ
liệu khác trên thế giới gộp lại.

-

ứng dụng trong thương mại: Các nhà nghiên cứu. Hsinchu & Chiang đã phân
tích các ứng dụng của Big Data trong các lĩnh vực thương mại điện tử, chính
phủ điện tử, khoa học công nghệ, chăm sóc sức khỏe. Các phân tích trên
lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình ra quyết định,
giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp.

-

Quản lý cơ sở hạ tầng: O’Leary đề cập tới ứng dụng của Dữ liệu lớn trong
trong quản lý cơ sở hạ tầng đường bộ. Khi Sloan Digital Sky Sruver, một
trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm
2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà

ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi
đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Trong năm 2016,
khi đài quan sát LSST thay thế cho SDSS đi vào hoạt động dự kiến sẽ thu
thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày.
Trên đây, có thể thấy rằng: Big Data, dù mới được nhắc tới trong thời gian

gần đây, vẫn đang ngày càng càng được nghiên cứu và ứng dụng rộng rãi trong
nhiều lĩnh vực khác. Trong phần tiếp theo của luận văn, tác giả sẽ đi sâu vào việc
phân tích các ứng dụng của Big data trong thực tế hiện nay.
1.2.
-

Một số ứng dụng của bigdata
Ứng dụng của Big Data trong chính trị
Có thể lấy ví dụ như việc Tổng thống Mỹ Barack Obama dùng Data Mining

trong cuộc chạy đua với Mitt Romney vào Nhà Trắng để thấy giá trị thật sự của Big
Data. Tại trụ sở của Obama ở Chicago, một đội ngũ gồm gần 150 kỹ thuật viên từ
đầu năm 2012 đã liên tục thu thập và tạo ra một cơ sở Big Data chứa đầy đủ tất cả
10


tiểu sử riêng của các cử tri tiềm năng, đặc biệt là những cử tri chưa rõ sẽ bầu cho ai.
Họ thu thập dữ liệu từ nhiều nguồn khác nhau, nhất là các nguồn trên mạng như từ
16 triệu người đăng ký vào twitter của Obama (so với 500 nghìn của Romney), và
gần 27 triệu người đăng ký vào facebook của Obama (so với 1.8 triệu của Romney).
Các dữ liệu này cho biết nhiều chi tiết như mỗi cử tri thường đọc sách gì, mua sắm
ở đâu, công ăn việc làm là gì, bạn bè là ai, thậm chí mẹ của cử tri lần trước bầu cho
ai… Nhờ vào việc tiếp cận và phân tích được nguồn dữ liệu khổng lồ và vô cùng
quan trọng này, đội quân của Obama đã có những vận động thích hợp với cử tri,

góp phần không nhỏ vào chiến thắng cuối cùng của Obama. Hoặc chương trình
CINDER (Cyber-Insider Threat) nhằm phát triển các phương pháp mới để phát hiện
các hoạt động gián điệp trên mạng máy tính quân sự. Một cách nhằm phát hiện các
hoạt động gián điệp ẩn giấu là CINDER sẽ áp dụng rất nhiều mô hình hoạt động của
đối phương để điều chỉnh các hoạt động trên mạng máy tính nội bộ [12], [13], [14],
[15].
-

Ứng dụng của Big Data trong giao thông
Big Data sử dụng các số liệu đã ghi được trong quá khứ để ước lượng các

dòng giao thông trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch
phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe. Ngoài ra còn đưa ra
thông tin cho người tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi
khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi đường nào là ngắn nhất, v.v...
Việc thu thập và sử dụng thông tin có thể cải thiện dự báo và giúp tăng hiệu quả sử
dụng của các cơ sở hạ tầng giao thông [12], [13], [14], [15].

11


Hình 1.8: Mô hình ứng dụng Big data trong giao thông thông minh

Trên thực tế, hiện nay đã có một số quốc gia sử dụng Big Data trong lĩnh vực
giao thông và cũng đã mang lại được nhiều kết quả quan trọng ngoài việc giảm
thiểu ùn tắc giao thông, Big data còn giúp giảm thiểu được thời gian, chi phí cho
quá trình vận chuyển [12], [13], [14], [15].
-

Ứng dụng Big Data trong y tế

Big Data giúp các tổ chức y tế nắm được toàn vẹn các vấn đề sức khỏe của

bệnh nhận, qua đó phát hiện được những diễn biến mới của bệnh cũng như tìm ra
nhưng kế hoạch điều trị mới và đưa ra các chuẩn đoán chính xác hơn. Không những
thế, Big Data còn có ý nghĩa rất quan trọng trong việc dự đoán bệnh. Khi điều trị
các bệnh nhân, các tổ chức đã thu thập được một lương lớn các dữ liệu có giá trị,
qua đó có thể sử dụng để dự đoán việc tái phát bệnh một cách chính xác. Bên cạnh
đó, các tổ chức còn có thể đưa ra các nguyên nhân gây bệnh và các biện pháp để
phòng tránh. Ví dụ khi điều trị các bệnh nhân bệnh tim, Big Data sẽ lưu trữ các dữ
liệu về thói quen vận động, ăn uống, nghỉ ngơi,… của các bệnh nhân; từ đó các bác
sĩ sẽ có những nhìn nhận rõ ràng hơn về tác nhân gây bệnh cũng như đưa ra các
biện pháp điều trị hợp lý với từng bệnh nhân riêng biệt [12], [13], [14], [15].

12


Hình 1.9: Mô hình ứng dụng Big data trong y tế

Một ví dụ khác đối với các bệnh nhân bị đột quỵ, các bác sĩ dựa trên những
lần đã đột quỵ trước đấy của bệnh nhân, có phải đột quỵ khi đang vận động nặng
hay không, bệnh nhân có sử dụng thuốc lá hay không, có tiền sử bệnh cao huyết áp
hay không,… để đưa ra các nhận định chính xác chẳng hạn như nếu bệnh nhân có
hút thuốc thì nên yêu cầu bệnh nhân bỏ thuốc vì hút thuốc lá là tác nhân của các
bệnh mạch máu não từ đó dẫn đến tình trạng đột quỵ…
Ngoài ra Big Data có khả năng dự đoán các dịch bệnh sắp phát sinh cũng
như tìm ra các phương pháp điều trị thích hợp. Một số kết quả thực nghiệm cho
thấy: việc phân tích Big Data có thể cho thấy điểm xuất phát cũng như xu hướng lây
lan của bệnh cúm gia cầm. Ví dụ vào năm 2009, Google đã sử dụng dữ liệu Big
Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch
cúm H1N1. Dịch vụ này mang tên là Google Flu Trends. Xu hướng mà Google rút

ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là gần
như trùng với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và
HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian
thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều
nơi trên thế giới [12], [13], [14], [15].
Một số ứng dụng thực tế của Big data trong y tế:

13


Ứng dụng đầuu tiên rõ ràng nhất
nh về Big Data đó là “Hồ sơ y tế điện tử”
(EHRs). Mỗi bệnh
nh nhân có m
một hồ sơ điện tử riêng bao gồm
m các thông tin vvề nhân
khẩu học (chủng tộc, độ tuổi,
tu thu nhập, trình độ giáo dục, tình trạng
ng ssở hữu nhà, tình
trạng công việc,…), lịch
ch sử
s y khoa, dị ứng, kết quả kiểm
m tra trong phòng thí
nghiệm,… EHRs cũng
ũng có thể
th kích hoạt cảnh báo và nhắc nhở khi m
một bệnh nhân
cần được xét nghiệm
m trong phòng thí nghiệm
nghi

mới hoặc theo dõi định
nh kì để xem sự
thay đổi nếu một bệnh
nh nhân đã thực hiện theo yêu cầu của bác sĩ.
ĩ. M
Mỹ đã có một
bước nhảy vọt lớn vớii 94% số
s bệnh viện áp dụng
ng EHRs, và theo sau là EU. Ngoài
ra, 1 ứng dụng dễ thấy nữ
ữa đó là các thiết bị đeo thông báo thờii gian th
thực. Các thiết
bị đeo sẽ liên tục thu thậập dữ liệu sức khỏe của bệnh nhân và đưa lên Cloud. Các
bác sĩ sẽ dựa trên các dữ
ữ liệu này để kiểm soát sức khỏe của bệnh
nh nhân. Ví ddụ nếu
bệnh nhân có dấu hiệu
u tăng
tă huyết áp, bác sĩ sẽ yêu cầu bệnh
nh nhân có các ch
chế độ ăn
uống, nghĩ ngơi hợp lý hơ
ơn …

Hình 1.10:
1.
Ứng dụng của Big data trong giám sát dịch
ch b
bệnh


Theo hình 1.10 đường
đư
màu xanh là dự đoán củaa Google Flu Trends ddựa trên
số từ khóa tìm kiếm
m liên quan đến các dịch cúm, màu vàng là dữ li
liệu do cơ quan
phòng chống dịch của Mỹỹ đưa ra.
-

Ứng dụng
ng Big Data trong thể
th thao
Năm 2014, độii tuyển
tuy Đức sử dụng công nghệ Match Insight - công nghệ

mang tính độc quyền củaa đội
đ tuyển Đức khi đó – nhằm
m phân tích mô hình hhệ thống
cấu trúc sơ đồ chiến thuậật của đội tuyển Đức, từ đó đưa ra những
ng đđiểm bất hợp lý
trong cấu trúc của độii tuyển
tuy Đức. Hay như Slamtracker củaa IBM dành cho gi
giải đầu

14


quần vợtt Wimbledon. Có 3 người
ng
trực thuộc Hiệp Hộii Tennis (LTA) – là những vận

động viên chuyên nghiệp
p và có thứ
th hạng cao – sẽ theo dõi các dữ liệu
li của trận đấu
theo thời gian thựcc và theo dõi bằng
b
các thiết bị được tùy chỉnh
nh riêng ccủa IBM. Họ
theo dõi được những dữ liệu mà các máy tính hiện tạii không theo dõi được như các
lỗi của vận động
ng viên trong khi thi đấu. Bằng cách kết hợpp Slamtracker vvới dữ liệu
định tính – có thể là tốcc độ
đ đánh bóng hoặc động tác của vận động
ng viên - phần mềm
này có thể theo dõi tất cảả những gì nó cần trong một trận đấu [12], [13], [14], [15]
[15].

Hình 1.11:
1.
Công nghệ Match Insight của đội tuyển
n Đức
Đ

-

Ứng dụng của
ủa Big Data trong tài
t chính – ngân hàng
Các ngân hàng đềều nhận ra rằng Big Data có thể mang lạii ssự thay đổi lớn


trong hoạt động
ng kinh doanh, qu
quản lý của ngân hàng. Tiếp cận,
n, nghiên ccứu và khai
thác về Big Data sẽ mang đến
đ nhiều lợi ích cho ngân hàng trong
rong kinh doanh nh
như:
Tiết giảm chi phí; tăng
ăng thời
th gian phát triển và tối ưu hóa sản phẩm;
m; đđồng thời hỗ trợ
ban lãnh đạo, cán bộ ngân hàng đưa ra những quyết định đúng và hhợp lý hơn; tiết
kiệm thời gian xử lý thông tin của
c khách hàng và phòng chống
ng rrủi ro gian
lận…[12],
[12], [13], [14], [15].

15


Hình 1.12: Mô hình ứng dụng của Big data trong ngân hang

-

Ứng dụng của Big Data trong thương mại
Trong thương mại Big Data giúp thực hiện một số công việc sau: Phân khúc

thị trường và khách hàng; phân tích hành vi khách hàng tại cửa hàng; tiếp thị trên

nền tảng định vị; phân tích tiếp thị chéo kênh, tiếp thị đa kênh; quản lý các chiến
dịch tiếp thị và khách hàng thân thiết; So sánh giá; Phân tích và quản lý chuỗi cung
ứng; Phân tích hành vi, thói quen người tiêu dùng. Việc vận dụng Big Data sẽ giúp
cho doanh nghiệp không chỉ nắm bắt được thị hiếu của khách hàng mà còn giúp họ
kịp thời đưa ra những thay đổi nhằm cải thiện chất lượng sản phẩm. Ví dụ: Mỗi
chiếc xe do Tesla sản xuất đều được gắn một thiết bị cảm biến có khả năng gửi
những thông tin liên quan đến vấn đề kỹ thuật, hoạt động của xe trở về nhà sản xuất
để xử lý kịp thời những trục trặc nếu có trước khi sự cố xảy ra. Bằng việc kết nối
với khách hàng thường xuyên, liên tục và trực tiếp, thay vì thông qua bên trung
gian, Tesla luôn thu về những dữ liệu chính xác và kịp thời nhất, cho phép họ cải
thiện trải nghiệm người dùng và cạnh tranh với những hãng sản xuất ô tô chạy bằng
xăng vốn đang rất phổ biến khác.

16


Hình 1.13: Mô hình ứng dụng của Big data trong thương mại

-

Trong kinh doanh
Một trong những vai trò được đề cập nhiều nhất của Big Data đó chính là các

vai trò trong vấn đề kinh doanh. Ngày nay khi mạng xã hội càng ngày càng phát
triển, việc thu thập thông tin về sở thích, nhu cầu, thói quen của các khách hàng
ngày càng trở nên dễ dàng hơn và từ đó các doanh nghiệp sẽ tìm ra những cách đầu
tư, quảng cáo, tiếp thi hợp lý hơn nhằm giảm các chi phí dư thừa cũng như hướng
đến được đúng đối tượng mình cần. Một nguyên tắc luôn đúng trong kinh doanh đó
là doanh nghiệp nắm rõ thông tin về một khách hàng bao nhiêu thì càng có khả năng
phân tích và dự đoán hành vi mua hàng của khách hàng này bấy nhiêu, từ đó có thể

đưa ra những chào hàng chính xác và kịp thời. Về chiến lược tiếp thị, nếu như có
những số liệu rõ ràng về hành vi người tiêu dùng, người làm marketing có thể đưa
ra các dự đoán chuẩn xác hơn so với việc chỉ võ đoán và thực hiện các chiến dịch
tiếp thị quảng bá sản phẩm, với mong muốn tác động đến hành vi người tiêu dùng ở
đời sống thực. Thông qua nguồn Big Data của mạng xã hội, doanh nghiệp có thể
trích xuất ra những thông tin về sở thích, thói quen, lịch sử mua sắm của người tiêu
dùng, qua đó cung cấp cho từng người dùng những trải nghiệm nhãn hiệu phù hợp
với riêng cá nhân họ trên chính môi trường mạng xã hội đó. Một ví dụ đơn giản, khi

17


×