Tải bản đầy đủ (.docx) (43 trang)

Big data về an toàn mạng máy tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 43 trang )

BAN CƠ YẾU CHÍNH PHỦ
HỌC VIỆN KỸ THUẬT MẬT MÃ

THU NHẬP VÀ PHÂN TÍCH TTAN MẠNG
Nhóm 11

NGHIÊN CỨU, TÌM HIỂU BIG DATA ỨNG DỰNG TRONG
GIÁM SÁT ATTT

Hà Nội - 5/2022


MỤC LỤC

2


DANH MỤC HÌNH ẢNH
Hình 1.1 Sự đa dạng của Bigdata ...............................................................................3
Hình 1.2 Khối lượng dữ liệu trong Big Data...............................................................5
Hình 1.3 Sự tăng trưởng của dữ liệu ...........................................................................5
Hình 1.4 Tốc độ của dữ liệu trong Big Data................................................................6
Hình 1.5 Sự đa dạng của dữ liệu trong Big Data.........................................................6
Hình 1.6 Dữ liệu cấu trúc và dữ liệu khơng cấu trúc...................................................7
Hình 1.7 Hình ảnh thể hiện độ chắc chắn của dữ liệu.................................................7
Hình 1.8 Mơ hình ứng dụng Big data trong y tế..........................................................9
Hình 1.9 Mơ hình ứng dụng của Big data trong ngân hang.........................................10
Hình 1.10 Mơ hình ứng dụng Bigdata trong viễn thơng..............................................11
Hình 1.11 Mơ hình tấn cơng từ chối dịch vụ xử dụng mạng Botnet.............................12
Hình 1.12 Mơ hình ứng dụng Big data trong phát hiện botnet....................................13
Hình 1.13 Mơ hinhg ứng dụng Bigdata trong phân tích mã độc..................................14


Hình 1.14 Mơ hình ứng dụng Big data trong phát hiện xâm nhập mạng.....................15
Hình 1.15 Kỹ thuật tấn cơng APT................................................................................16
Hình 2.1 Chu trình giám sát an tồn mạng..................................................................20
Hình 2.2 Kiến trúc của HDFS.....................................................................................23
Hình 2.3 Cơng nghệ xử lý dịng trong Big Data..........................................................24
Hình 2.4 Giao diện của weka.......................................................................................25
Hình 2.5 Kiến trúc của Apache Hadoop......................................................................26
Hình 2.6 Mơ hình quản lý của Spark...........................................................................28
Hình 2.7 Mơ hình hệ thống phát hiện xâm nhập..........................................................29
Hình 2.8 Quy trinh học máy........................................................................................31
Hình 3.1 Mối quan hệ giữa trí tuệ nhân tạo, Machine Learning và Deep Learning....
..................................................................................................................................... 32

3


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Từ viết
tắt

Tiếng
Anh

Tiếng
việt

APT

Advanced Persistent Threat


Mối đe dọa liên tục nâng cao

IPS

Internet Protocols

Bộ giao thức liên mạng

IT

Information Technology

Công nghệ thông tin

Structured Query Language

Ngôn ngữ truy vấn mang tính

SQL

cấu trúc
IP

Internet Protocol

Giao thức kết nối Internet

DNS

Domain Name System


Hệ thống tên miền

SIEM

Security Information Event

Giám sát an toàn mạng

Managemet
DDOS

Distributed Denial Of Service

Tấn công từ chối dịch vụ
phân
tán

DOS

Denial of Service attack

Tấn công từ chối dịch vụ

NIDS

Network-based Intrusion
Detection System

Hệ thống phát hiện xâm nhập

cho mạng

4


MỞ ĐẦU
Các nguy cơ mất An tồn thơng tin (ATTT) trên thế giới nói chung và Việt Nam
nói riêng liên tục gia tăng và phát triển về cả số lượng cũng như mức độ nguy hiểm
của các cuộc tấn công. Theo ghi nhận của một số công ty bảo mật trên thế giới,
trong vài năm trở lại đây Việt Nam ln được coi là điểm nóng của mã độc và các
cuộc xâm nhập mạng trái phép. Hàng loạt các cuộc tấn công và xâm nhập mạng trái
phép diễn ra với quy mô và mức độ nguy hiểm vào các hệ thống công nghệ thông
tin của các doanh nghiệp, tổ chức chính phủ… đã gây mất ATTT và ảnh hưởng
nghiêm trọng đến uy tín và doanh nghiệp, tổ chức chính phủ.
Hiện nay, các cơ quan nhà nước, các tổ chức chính phủ đã và đang có nhiều biện
pháp tích cực trong việc phòng chống và phát hiện xâm nhập mạng. Rất nhiều biện
pháp đã được ứng dụng và triển khai trong thực tế. Tuy nhiên, các kỹ thuật tấn công
và xâm nhập ngày càng được biến đổi tinh vi và phức tạp, dẫn đến một số hệ thống
đảm bảo ATTT không phát hiện và ngăn chặn được kịp thời các tấn cơng này. Chính
vì vậy, để sớm phát hiện và ngăn chặn các cuộc tấn cơng và xâm nhập mạng thì yêu
cầu các hệ thống đảm bảo ATTT phải liên tục cập nhật và thu thập thông tin về tấn
công từ nhiều nơi khác nhau. Để làm được điều đó, hiện nay một số hãng bảo mật
trên thế giới đang tiến hành nghiên cứu và ứng dụng công nghệ dữ liệu lớn (Bigdata)
nhằm theo dõi và phát hiện sớm các cuộc tấn công và xâm nhập mạng. Việc ứng
dụng công nghệ Bigdata địi hỏi các nhà nghiên cứu cần phải có các thuật tốn để xử
lý dữ liệu và có các cơng cụ để mơ hình hóa q trình phát hiện xâm nhập mạng
từ những dữ liệu thu thập được. Có nhiều công cụ và công nghệ được ứng dụng
trong quá trình mơ hình hóa phát hiện xâm nhập mạng. Một số công cụ như
Apache Spark; Weka, deepej…. Để ứng dụng được các cơng cụ này địi hỏi nhiều
quy trình phức tạp cần thực hiện từ việc tiền xử lý dữ liệu đến việc sử dụng các

thuật toán… Đây đều là những quy trình phức tạp với nhiều pha và kỹ thuật cần thực
hiện. Chính vì vậy, để áp dụng cơng nghệ Bigdata cho q trình phát hiện xâm nhập
mạng chính là quá trình nghiên cứu, tìm hiểu và ứng dụng các công cụ và kỹ thuật
của môi trường Bigdata.

5


Tổng quan vấn đề cần nghiên cứu
Công nghệ Bigdata là công nghệ dữ liệu lớn bao gồm nhiều công cụ và
kỹ thuật để có thể xử lý được luồng dữ liệu lớn trong thời gian thực hiện.
Một số công cụ của Bigdata có thể kể đến như: Apache Spark; Weka, deepej;
Hadoop; MapReduce…Bài báo cáo sẽ đi sâu vào việc nghiên cứu và tìm hiểu
để có thể ứng dụng một số công cụ trong công nghệ Bigdata để giám sát
ATTT.
Để báo cáo đạt được những kết quả trên, cần nghiên cứu và làm rõ các
nội dung:
 Nghiên cứu và tìm hiểu tổng quan về cơng nghệ Bigdata;
 Tìm hiểu về các hệ khai phá tri thức dựa trên big data.
 Nghiên cứu tìm hiểu ứng dụng của big data trong hệ chun gia phân

tích giám sát an tồn thơng tin.
 Nghiên cứu ứng dụng của Big data trong phân tích dữ liệu an tồn
thơng tin kết hợp thuật tốn máy học để đưa ra quyết định giám sát an
tồn thơng tin
Mục đích nghiên cứu:
 Nghiên cứu và tìm hiểu tổng quan về cơng nghệ Bigdata;
 Tìm hiểu về các hệ khai phá tri thức dựa trên big data.
 Nghiên cứu tìm hiểu ứng dụng của big data trong hệ chuyên gia phân


tích giám sát an tồn thơng tin.
 Nghiên cứu ứng dụng của Big data trong phân tích dữ liệu an tồn
thơng tin kết hợp thuật tốn máy học để đưa ra quyết định giám sát an
tồn thơng tin
Đối tượng và phạm vi nghiên cứu :


Đối tượng nghiên cứu:
Cơng cụ trong cơng nghệ Bigdata và kỹ thuật phân tích giám sát an ninh

mạng.
Phương pháp nghiên cứu:
-

Dựa trên cơ sở lý thuyết của công cụ trong công nghệ Bigdata và
kỹ thuật giám sát an ninh mạng, kết hợp với thuật toán học máy để


đưa ra quyết định giám sát an ninh mạng.


CHƯƠNG 1:

TỔNG QUAN VỀ CÔNG NGHỆ BIG DATA

1.1. Giới thiệu về công nghệ Big data.
1.1.1.

Khái niệm về Bigdata


Big Data là thuật ngữ dùng để chỉ các tập hợp dữ liệu lớn và phức tạp đến
mức những công cụ hay những ứng dụng xử lí dữ liệu truyền thống khơng giải
quyết được. Big Data chứa nhiều thông tin quý giá mà nếu trích xuất thành cơng,
những thơng tin đấy sẽ giúp cho việc kinh doanh, nghiên cứu khoa học, dự đoán các
dịch bệnh sắp phát sinh và cả việc xác định điều kiện giao thơng theo thời gian thực.
Do đó, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ
theo một cách khác so với bình thường. Có rất nhiều khái niệm cũng như định nghĩa
khác nhau về Bigdata. Dựa trên những tiêu trí khác nhau mà mỗi tổ chức và doanh
nghiệp đưa ra những khái niệm này.
Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp
mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.
Theo Gartner: Big Data là những nguồn thơng tin có đặc điểm chung khối lượng
lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn
khai thác được địi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá
và tối ưu hóa quy trình.
Theo SAS: Big Data là một thuật ngữ dùng để miêu tả khối lượng lớn của dữ liệu –
cả dữ lệu có cấu trúc và dữ liệu khơng có cấu trúc. Nhưng độ to lớn của dữ liệu thì
khơng phải điều quan trọng. Việc các tổ chức làm gì, sử dụng các dữ liệu ấy như thế
nào mới là điều quan trọng. Big Data có thể được phân tích để đưa ra những thơng tin
cần thiết qua đó dẫn đến những quyết định và hướng đi tốt hơn trong kinh doanh
[11].

Hình 1.1 Sự đa dạng
Hình
Hình
của1.1
1.1
BigSự
Sự
data

đa
đa dạng
dạng của Bigdata
Big data


Nguồn hình thành dữ liệu Big Data:
Big data được hiểu là tập hợp dữ liệu từ nhiều nguồn khác nhau. Trên đây,
luận văn sẽ trình bày một số nguồn dữ liệu hình thành Big data [3], [16]:
Dữ liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chính phủ hay
phi chính phủ). Ví dụ, hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng.
• Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa hai

thực thể). Ví dụ, các giao dịch thẻ tín dụng, giao dịch trên mạng,
bao gồm cả từ các thiết bị di động.
• Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh,

cảm biến đường, cảm biến khí hậu.
• Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại

di động, GPS.
• Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến về một sản

phẩm, một dịch vụ hay thông tin khác, đọc các trang mạng trực
tuyến...
• Dữ liệu từ các thơng tin về ý kiến, quan điểm của các cá nhân, tổ

chức, trên các phương tiện thông tin xã hội.
1.1.2.


Đặc trưng 5V của Big Data

1.1.2.1. Khối lượng dữ liệu (Volume):

Kích thước của Big Data được đo bằng khối lượng. Dung lượng của Big
Data đang tăng lên một cách mạnh mẽ theo từng ngày. Lợi ích từ việc xử
lý một khối lượng lớn dữ liệu chính là điểm thu hút chính của Big Data,
tuy nhiên cũng đặt ra nhiều khó khăn khi khối lượng dữ liệu ngày càng
phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần
phải được đánh giá lại khá thường xuyên [3].


Hình 1.2 Khối lượng dữ liệu trong Big Data
Hình 1.2 thể hiện khối lượng dữ liệu khổng lồ mà Big Data thu thập
được: trong 7 tỉ dân trên thế giới thì có 6 tỉ người sở hữu điện thoại, hay theo
ước tính có khoảng 2.5 tỉ tỉ GigaBytes (108 Bytes) dữ liệu được tạo ra mỗi
ngày. Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất
lớn.

Hình 1.3 Sự tăng trưởng của dữ liệu
1.1.2.2. Tốc độ (Velocity)

Tốc độ có thể hiểu theo 2 khía cạnh:
• Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các

u cầu truy cập tìm kiếm trên web bán hàng của Amazon).
• Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ

liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến



bằng mili giây).
Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng,
Hàng khơng, Qn sự, Y tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được
xử lý real- time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép xử lý tức
thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.

Hình 1.4 Tốc độ của dữ liệu trong Big Data
1.1.2.3. Đa dạng (Variety)

Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau.
Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với
thông tin video được chia sẻ từ Youtube và Twitter.

Hình 1.5 Sự đa dạng của dữ liệu trong Big Data
Như đã đề cập ở trên, Big Data được hình thành từ nhiều nguồn dữ liệu, do đó
tính đa dạng là một đặc điểm khơng thể thiếu. Ngồi ra, đa dạng của Big Data không chỉ
là đa dạng về nguồn mà còn là đa dạng về các kiểu dữ liệu thu thập và sử dụng. Trước
đây, chỉ có thể tiếp cận các dữ liệu có cấu trúc nằm trong các bảng hoặc các cơ sở dữ


liệu quan hệ (ví dụ, các bảng bán hàng theo từng vùng hoặc từng sản phẩm). Tuy nhiên,
trên thực tế, 80% dữ liệu trên thế giới này là dữ liệu khơng cấu trúc và do đó rất khó
hoặc hầu như khơng thể đưa vào các bảng (ví dụ như các bức ảnh, các comment trên
facbook, các đoạn video, …). Big Data cho phép khai thác các loại dữ liệu khác nhau
(cấu trúc, bán cấu trúc và cả không cấu trúc) bao gồm các tin nhắn, các cuộc hội
thoại trên mạng xã hội, hình ảnh, dữ liệu cảm biến, các video hay các file ghi âm, các
file log, … và mang chúng lưu trữ cùng các dữ liệu cấu trúc.

Hình 1.6 Dữ liệu cấu trúc và dữ liệu không cấu trúc

1.1.2.4.

Độ tin cậy/chính xác (Veracity)

Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ tin
cậy/chính xác của dữ liệu. Với xu hướng phương tiện truyền thông xã hội
(Social Media) và mạng xã hội (Social Network) ngày nay và sự gia tăng mạnh
mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác
định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài tốn
phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan
trọng của Big Data.

Hình 1.7 Hình ảnh thể hiện độ chắc chắn của dữ liệu


1.1.2.5.

Giá trị (Value) :

Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển
khai xây dựng dữ liệu lớn thì việc đầu tiên cần phải làm đó là xác định được
giá trị của thơng tin mang lại như thế nào, khi đó mới có quyết định có nên
triển khai dữ liệu lớn hay khơng. Nếu có dữ liệu lớn mà chỉ nhận được 1%
lợi ích từ nó, thì khơng nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo
chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ,
từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về
sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên
quan đến y tế.
1.1.3. Vai trò của Big data :




Big Data đang ngày càng được sử dụng rộng rãi trong các lĩnh vực, tổ
chức với nhiều mục đích khác nhau. Ví dụ:
Các cơng ty sử dụng Big Data để tìm hiểu hành vi tiêu dùng của
khách hàng từ đó đưa ra các đề xuất mua sắm cá nhân hóa cho
từng đối tượng dựa trên thông tin thu thập được từ họ (Ebay,
Facebook, Google…).
- Ứng dụng trong thương mại: Các nhà nghiên cứu. Hsinchu & Chiang đã
phân tích các ứng dụng của Big Data trong các lĩnh vực thương mại điện
tử, chính phủ điện tử, khoa học cơng nghệ, chăm sóc sức khỏe. Các
phân tích trên lượng dữ liệu lớn cịn góp phần cải tiến và tối ưu hóa q
trình ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho
doanh nghiệp.
-

1.2. Một số ứng dụng của bigdata
-Ứng dụng của Big Data trong chính trị
Có thể lấy ví dụ như việc Tổng thống Mỹ Barack Obama dùng Data Mining
trong cuộc chạy đua với Mitt Romney vào Nhà Trắng để thấy giá trị thật sự của Big
Data. Tại trụ sở của Obama ở Chicago, một đội ngũ gồm gần 150 kỹ thuật viên từ đầu
năm 2012 đã liên tục thu thập và tạo ra một cơ sở Big Data chứa đầy đủ tất cả tiểu sử
riêng của các cử tri tiềm năng, đặc biệt là những cử tri chưa rõ sẽ bầu cho ai. Họ thu
thập dữ liệu từ nhiều nguồn khác nhau, nhất là các nguồn trên mạng như từ 16 triệu
người đăng ký vào twitter của Obama (so với 500 nghìn của Romney), và gần 27 triệu


người đăng ký vào facebook của Obama (so với 1.8 triệu của Romney). Các dữ liệu này
cho biết nhiều chi tiết như mỗi cử tri thường đọc sách gì, mua sắm ở đâu, cơng ăn việc
làm là gì, bạn bè là ai, thậm chí mẹ của cử tri lần trước bầu cho ai… Nhờ vào việc tiếp

cận và phân tích được nguồn dữ liệu khổng lồ và vô cùng quan trọng này, đội quân của
Obama đã có những vận động thích hợp với cử tri, góp phần khơng nhỏ vào chiến
thắng cuối cùng của Obama. Hoặc chương trình CINDER (Cyber-Insider Threat) nhằm
phát triển các phương pháp mới để phát hiện các hoạt động gián điệp trên mạng máy
tính quân sự. Một cách nhằm phát hiện các hoạt động gián điệp ẩn giấu là CINDER sẽ
áp dụng rất nhiều mơ hình hoạt động của đối phương để điều chỉnh các hoạt động trên
mạng máy tính nội bộ.
-Ứng dụng Big Data trong y tế
Big Data giúp các tổ chức y tế nắm được toàn vẹn các vấn đề sức khỏe của
bệnh nhận, qua đó phát hiện được những diễn biến mới của bệnh cũng như tìm ra những
kế hoạch điều trị mới và đưa ra các chuẩn đốn chính xác hơn. Khơng những thế, Big
Data cịn có ý nghĩa rất quan trọng trong việc dự đoán bệnh. Khi điều trị các bệnh
nhân, các tổ chức đã thu thập được một lượng lớn các dữ liệu có giá trị, qua đó có thể
sử dụng để dự đoán việc tái phát bệnh một cách chính xác. Bên cạnh đó, các tổ chức cịn
có thể đưa ra các nguyên nhân gây bệnh và các biện pháp để phịng tránh. Ví dụ khi
điều trị các bệnh nhân bệnh tim, Big Data sẽ lưu trữ các dữ liệu về thói quen vận động,
ăn uống, nghỉ ngơi,… của các bệnh nhân; từ đó các bác sĩ sẽ có những nhìn nhận rõ
ràng hơn về tác nhân gây bệnh cũng như đưa ra các biện pháp điều trị hợp lý với
từng bệnh nhân riêng biệt.


Hình 1.8 Mơ hình ứng dụng Big data trong y tế
Ứng dụng đầu tiên rõ ràng nhất về Big Data đó là “Hồ sơ y tế điện tử” (EHRs).
Mỗi bệnh nhân có một hồ sơ điện tử riêng bao gồm các thông tin về nhân khẩu học
(chủng tộc, độ tuổi, thu nhập, trình độ giáo dục, tình trạng sở hữu nhà, tình trạng cơng
việc,…), lịch sử y khoa, dị ứng, kết quả kiểm tra trong phịng thí nghiệm,… EHRs cũng
có thể kích hoạt cảnh báo và nhắc nhở khi một bệnh nhân cần được xét nghiệm
trong phịng thí nghiệm mới hoặc theo dõi định kì để xem sự thay đổi nếu một bệnh
nhân đã thực hiện theo yêu cầu của bác sĩ. Mỹ đã có một bước nhảy vọt lớn với
94% số bệnh viện áp dụng EHRs, và theo sau là EU. Ngồi ra, 1 ứng dụng dễ thấy nữa

đó là các thiết bị đeo thông báo thời gian thực. Các thiết bị đeo sẽ liên tục thu thập dữ
liệu sức khỏe của bệnh nhân và đưa lên Cloud. Các bác sĩ sẽ dựa trên các dữ liệu này
để kiểm sốt sức khỏe của bệnh nhân. Ví dụ nếu bệnh nhân có dấu hiệu tăng huyết áp,
bác sĩ
sẽ yêu cầu
bệnh
nhân có các
chế độ
ăn uống, nghĩ
ngơi
hợp lý hơn …

-

Ứng dụng của Big Data trong tài chính – ngân hàng :

Các ngân hàng đều nhận ra rằng Big Data có thể mang lại sự thay
đổi lớn trong hoạt động kinh doanh, quản lý của ngân hàng. Tiếp cận, nghiên
cứu và khai thác về Big Data sẽ mang đến nhiều lợi ích cho ngân hàng


trong kinh doanh như: Tiết giảm chi phí; tăng thời gian phát triển và tối ưu
hóa sản phẩm; đồng thời hỗ trợ ban lãnh đạo, cán bộ ngân hàng đưa ra những
quyết định đúng và hợp lý hơn; tiết kiệm thời gian xử lý thơng tin của khách
hàng và phịng chống rủi ro gian lận….

Hình 1.9 Mơ hình ứng dụng của Big data trong ngân hàng
-

Ứng dụng Bigdata trong viễn thông


Với khối lượng dữ liệu gia tăng mạnh mẽ đi cùng sự phát triển của
doanh nghiệp trong môi trường cạnh tranh gay gắt đòi hỏi doanh nghiệp phải
quản lý hữu hiệu nguồn dữ liệu, xử lý thành thông tin chiến lược đưa ra những
chiến lược kinh doanh đúng đắn. Phân tích Big Data khơng chỉ là cơ hội cho
các tổ chức, doanh nghiệp tìm kiếm những thơng tin chiến lược để đảm bảo
việc kinh doanh bền vững, các chiến lược tiếp thị hiệu quả đồng thời việc khai
thác tốt Big Data này còn là một thách thức lớn đối với doanh nghiệp sở hữu
nguồn tài ngun này.

Hình 1.10 Mơ hình ứng dụng Bigdata trong viễn thông


1.3. Ứng dụng của bigdata trong an tồn thơng tin
Việc phân tích các bản ghi dữ liệu sinh ra từ các thiết bị mạng, ứng
dụng, gói tin mạng và các sự kiện hệ thống được phục vụ cho mục đích điều
tra và phát hiện xâm nhập trong ATTT. Tuy nhiên, các cơng nghệ truyền thống
thực sự rất khó khăn trong việc cung cấp các cơng cụ phân tích dài hạn, quy
mơ lớn, vì việc lưu trữ số lượng lớn dữ liệu là không hề khả thi về mặt kinh tế.
Kết quả là hầu hết các bản ghi nhật ký sự kiện trên các hệ thống và thiết bị
thường được xóa sau một thời gian duy trì cố định.
Sự ra đời của Big Data sẽ chuyển đổi phân tích ATTT bằng cách thu
thập các dữ liệu ở một quy mô lớn từ nhiều nguồn, từ các bản ghi nhật kí hệ
thống đến các cơ sở dữ liệu về lỗ hổng bảo mật, dữ liệu về tấn công mạng,
dữ liệu về mã độc… Sau đó nó sẽ phân tích sâu hơn trên những dữ liệu đã có,
qua đó cung cấp một cái nhìn bao qt, hợp nhất các thơng tin liên quan đến an
tồn và đảm bảo được việc phân tích thực hiện theo thời gian thực của luồng
dữ liệu. Chính vì thế, Big Data rất phù hợp để sử dụng với các ứng dụng như:
theo dõi botnet, phát hiện xâm nhập mạng, phân tích mã độc, phát hiện tấn
cơng APT... u cầu mới được đặt ra, trong khi những phương pháp truyền

thống khơng thể đáp ứng được, thì việc phân tích Big Data đang mở ra
nhiều hướng nghiên cứu mới trong lĩnh vực ATTT. Có thể xem đây là một
bước tiến quan trọng trong việc xây dựng các chương trình giám sát an tồn
mạng, đáp ứng được việc phân tích sâu hơn trên lượng lớn dữ liệu thu thập
được, từ đó tăng khả năng phát hiện và ngăn chặn các nguy cơ, mối đe
dọa, các cuộc tấn công tinh vi trên khơng gian mạng. Tiếp theo, luận văn sẽ
trình bày về các ứng dụng của Big data trong ATTT.

Theo dõi và phát hiện Botnet :
Mạng botnet là một mạng rất lớn gồm hàng trăm hàng ngàn máy tính
Zombie kết nối với một máy chủ IRC (Internet Replay Chat) qua các máy chủ DNS để
nhận lệnh từ hacker một cách nhanh nhất. Các mạng bot gồm hàng ngàn “thành viên”
(gọi tắt là bot hay robot) là một công cụ lý tưởng cho các cuộc giao tranh trên mạng như
DDOS, spam, cài đặt các chương trình quảng cáo. Nếu như máy tính là một thành phần
trong mạng botnet thì có nghĩ máy tính đã bị nhiễm virus: trojan, worm… Hacker tạo
ra mạng botnet để điều khiển, sử dụng hàng trăm thậm chí hàng ngàn các máy tính để
1.3.1.


phục vụ cho mục đích xấu của chúng.

Hình 1.11 Mơ hình tấn cơng từ chối dịch vụ xử dụng mạng Botnet.
B
otnet đang là một trong những mối đe dọa lớn nhất trên Internet và là một thách thức
đối với các chuyên gia ATTT. Việc phát hiện Botnet đòi hỏi phải thu thập một
lượng lớn dữ liệu mạng để phân tích. Với việc ứng dụng Big Data, dự án nghiên cứu
Botcloud do nhóm Jerome Fracois và đồng nghiệp tại đại học Luxembourg thực hiện
đã sử dụng mơ hình MapReduce để phân tích một số lượng lớn các dữ liệu Netflow
để xác định các máy tính bị lây nhiễm đang tham gia trong một mạng Botnet. Dự án
này đã mở ra nhiều hướng mới trong công việc xây dựng các hệ thống thông

minh để phát hiện Botnet. Botcloud được xây dựng dựa trên kiến trúc BotTrack.
Kiến trúc này được thiết kế để theo dõi và phát hiện Botnet bằng việc sử dụng
Netflow và thuật toán PageRan, thực hiện việc theo dõi các kênh C&C (Command
and Control) trong Botnet.
Dự án này đã mở ra nhiều hướng mới trong việc xây dựng các hệ
thống thông minh để phát hiện Botnet. MapReduce được sử dụng cho dự án
này, vì một lượng lớn các dữ liệu Netflow được thu thập cần phải phân tích.
720 triệu bản ghi Netflow (77GB) được thu thập chỉ trong 23 giờ đồng hồ.


Hình 1.12 Mơ hình ứng dụng Big data trong phát hiện botnet.
Phân tích mã độc
Hiện tại, có một số cơng cụ đang được sử dụng để giúp xác định và lưu trữ
những phần mềm độc hại mà có sử dụng Bigdata.
1.3.2.

Hình 1.13 Mơ hinhg ứng dụng Bigdata trong phân tích mã độc

Hiện tại, Sourcefire sử dụng Big Data analysis để cung cấp công cụ tốt hơn
nhằm chống lại những phần mềm độc hại với FireAMP. FireAMP là một
phát hiện và phân tích nền tảng phần mềm độc hại mà có thể xác định các
mối đe dọa tiên tiến, và cung cấp các dữ liệu cần thiết để hiểu được phạm vi


của các mối đe dọa, và lưu trữ nó. Sourcefire sử dụng một công cụ nhỏ trên
thiết bị đầu cuối để chuyển tiếp dữ liệu tới FireCLOUD - một công cụ phân
tích dựa trên đám mây sử dụng phân tích dữ liệu lớn để xác định và ghi các
mối đe dọa được bỏ qua bởi các công cụ bảo mật khác.
1.3.3.


Phát hiện xâm nhập mạng:

Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra
trong một hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra
các dấu hiệu sự cố có thể xảy ra, đó là các vi phạm hoặc các mối đe dọa
sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử
dụng được chấp nhận hoặc thực hành bảo mật tiêu chuẩn. Trước sự gia tăng
của các cuộc tấn công ngày càng tinh vi thì ngược lại các giải pháp phát hiện
và ngăn chặn có vẻ như đang khơng đáp ứng được các nhu cầu thực tế. Mặc dù
hầu hết các hãng đã trang bị những giải pháp phòng chống, phát hiện xâm
nhập, tường lửa tiên tiến nhưng kết quả là vẫn có nhiều các cuộc tấn công và
các dữ liệu vẫn bị lấy cắp [15].

Hình 1.14 Mơ hình ứng dụng Big data trong phát hiện xâm nhập mạng
Trên hình 1.14 chỉ ra quy trình xây dựng mơ hình và quy trình kiểm
tra mơ hình trong hệ thống IDS. Qúa trình xây dựng mơ hình diễn ra như sau:
- Đầu tiên, dữ liệu truy cập đi vào sẽ được tiền xử lý, để loại bỏ các
dấu hiệu và tín hiệu nhiễu. Tiếp theo, dữ liệu này sẽ qua mơ hình
huấn luyện. Qúa trình huấn luyện sẽ xây dựng được mơ hình để sau này
phục vụ cho việc phát hiện xâm nhập.
- Sau khi xây dựng mơ hình huấn luyện xong, hệ thống sẽ kiểm tra việc


xây dựng mơ hình có hợp lý và chính xác hay khơng. Tồn bộ q trình
này cũng được tiến hành như trong q trình huấn luyện.
Chính vì vậy, việc áp dụng cơng nghệ Big Data vào việc phân tích,
giám sát và phát hiện ra các sự bất thường trong hệ thống sẽ kịp thời cảnh
báo chúng ta những vụ tấn cơng tinh vi. Đặc biệt, Big Data cho phép có
thể thực thi các thuật toán Data Mining để gom nhiều sự kiện lại vào các
ngữ cảnh, nên có thể phát hiện những bất thường xảy ra: bất thường trong các

giao thức, bất thường về các kết nối, bất thường về băng thông, hay bất thường
về các tên miền/ địa chỉ IP,…
Như vậy, với sự hỗ trợ của Big Data, các hệ thống giám sát an ninh
mạng có thể giải quyết được những hạn chế về tính tốn, phát hiện các sự
bất thường trong
hệ thống dẫn đến những cảnh báo quan trọng về các vụ
xâm nhập. Big Data sẽ giải quyết được phần lớn các địi hỏi về tính thời gian
thực cao, lưu lượng dữ liệu cần xử lí rất lớn (cả quá khứ và hiện tại), các
thuật toán phức tạp nhằm phát hiện sự bất thường.
1.3.4.

Phát hiện tấn công APT

Thuật ngữ APT (Advanced Persistent Threat) được dùng để chỉ kiểu tấn cơng
dai dẳng và có chủ đích vào một thực thể. Kẻ tấn cơng có thể được hỗ trợ bởi
chính phủ của một nước nào đó nhằm tìm kiếm thơng tin tình báo từ một chính
phủ nước khác. Tuy nhiên khơng loại trừ mục tiêu tấn cơng có thể chỉ là một tổ
chức tư nhân. Tấn công APT thường do những đối tượng có trình độ chun
mơn cao thực hiện, được hậu thuẫn bởi những tổ chức có tiềm lực. Một thách
thức trong việc dị tìm các cuộc tấn cơng APT là việc lọc toàn bộ số lượng dữ
liệu nhằm phát hiện những bất thường đang xảy ra. Vì thế phân tích dữ liệu
lớn là một tiếp cận phù hợp trong việc dị tìm các cuộc tấn cơng.

Hình 1.15 Kỹ thuật tấn công APT


1.3.4.

Phát hiện tấn công Zero-day


Tại Symantec, bằng việc ứng dụng Big data, các kỹ sư an toàn một nền tảng
WINE (Worldwide Intelligence Network Enviornment) cho việc tiến hành
phân tích dữ liệu, trên phạm vi rộng, sử dụng các dữ liệu thu thập được.
Nền tảng WINE đã từng được sử dụng để đo thời gian của 18 cuộc tấn công
zero-day bằng cách kết hợp các hệ nhị phân tin cậy và tập dữ liệu về các
dấu hiệu ngăn chặn mã độc từ xa, tiến hành phân tích các trường dữ liệu
được thu thập trên 11 triệu máy chủ (host) trên khắp thế giới, các tấn công
này kéo dài từ 19 ngày đến 30 tháng. Hơn nữa, 60% các lỗ hổng bảo mật
được xác định trong nghiên cứu này đã bị khai thác trong các tấn cơng zeroday mà trước đó chưa tìm ra.

1.4. Các hệ khai phá tri thức dựa trên big data :
1.4.1. Các bước khám phá tri thức :

Khái niệm : Khai phá dữ liệu để trích xuất ra thông tin, tri thức mới dựa vào trên dữ
liệu đã có. Đây chính là q trình khám phá tri thức.
Bước 1- Trích chọn dữ liệu (data selection): Là bước trích chọn những tập dữ liệu cần
được khai phá từ các tập dữ liệu lớn (databases,data warehouses).
Bước 2 - Tiền xử lý dữ liệu (data preprocessing): Là bước làm sạch dữ liệu (xử lý dữ
liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,...), rút gọn dữ liệu (sử dụng
các phương pháp thu gọn dữ liệu, histograms, lấy mẫu,...), rời rạc hoá dữ liệu (dựa vào
histograms, entropy, phân khoảng,…). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được
rút gọn và được rời rạc hoá.
Bước 3- Biến đổi dữ liệu (data transformation): Là bước chuẩn hoá và làm mịn dữ liệu
để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước
sau.
Bước 4- Khai phá dữ liệu (data mining): Đây là bước quan trọng và tốn nhiều thời gian
nhất của quá trình khám phá tri thức, áp dụng các kỹ thuật khai phá (phần lớn là các
kỹ thuật của machine learning) để khai phá, trích chọn được các mẫu (pattern) thông tin,
các mối liên hệ đặc biệt trong dữ liệu.



Bước 5- Đánh giá và biểu diễn tri thức (knowledge representation & evaluation): Dùng
các kỹ thuật hiển thị dữ liệu để trình bày các mẫu thơng tin (tri thức) và mối liên hệ đặc
biệt trong dữ liệu đã được khai phá ở bước trên biểu diễn theo dạng gần gũi với người
sử dụng như đồ thị, cây, bảng biểu, luật,… Đồng thời, bước này cũng đánh giá những tri
thức khai phá được theo những tiêu chí nhất định.
Trong giai đoạn KPDL, có thể cần sự tương tác của người dùng để điều chỉnh và rút ra
các tri thức cần thiết nhất. Các tri thức nhận được cũng có thể được lưu và sử dụng lại.
1.4.2. Các phương pháp chính trong khai phá dữ liệu :



Phương pháp luật kết hợp

Một trong những chủ đề phổ biến của KPDL là khai phá luật kết hợp. Mục đích của khai
phá luật kết hợp là xác định mối quan hệ, sự kết hợp giữa các mục dữ liệu (item) trong
một CSDL lớn.


Phương pháp cây quyết định

Mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất
định. Các nút của cây được gán nhãn là tên các mục dữ liệu, các cạnh được gán các giá
trị có thể của các mục dữ liệu, các lá mô tả các lớp khác nhau. Các đối tượng được phân
lớp theo các đường đi trên cây, qua các cạnh tương ứng với các giá trị của mục dữ liệu
tới lá.


Phương pháp K-Mean


Có nhiều phương pháp được sử dụng trong phân cụm, phương pháp k-Mean được coi là
các kỹ thuật cơ bản của phân cụm. Với phương pháp này sẽ chia tập có n đối tượng
thành k cụm sao cho các đối tượng trong cùng một cụm thì giống nhau, các đối tượng
khác cụm thì khác nhau.


Các phương pháp dựa trên mẫu

Phương pháp này sử dụng khai phá chuỗi theo thời gian (Sequential temporal patterns).
Xét về mặt kỹ thuật thì tương tự như KPDL bằng luật kết hợp nhưng có thêm tính thứ tự
và tính thời gian. Một luật mơ tả mẫu tuần tự có dạng tiêu biểu X -> Y phản ánh sự xuất


hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này được
ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khốn bởi chúng có tính dự
báo cao.


CHƯƠNG 2:

ỨNG DỤNG CÔNG NGHỆ BIGDATA TRONG
GIÁM SÁT AN NINH MẠNG

2.1 Tổng quan chung về giám sát an ninh mạng:
2.1.1. Khái niệm về giám sát an ninh mạng:
Giám sát mạng là q trình thu thập, xử lý và phân tích các gói dữ liệu được
truyền hoặc nhận qua mạng máy tính. Các gói dữ liệu này có thể được phân tích cho
các số liệu khác nhau như sử dụng băng thơng, tỷ lệ mất gói, số lượng kết nối bị
gián đoạn, v.v.
Phần mềm giám sát mạng được sử dụng để thu thập dữ liệu trên mạng, phân

tích và cung cấp thơng tin về hoạt động của mạng. Nó có thể được sử dụng cho
nhiều mục đích bao gồm:
- Giám sát hiệu suất của mạng.
- Phát hiện bất kỳ vấn đề hiệu suất nào.
- Thông báo cho các nhà khai thác mạng khi có sự cố xảy ra.
- Giúp nhà khai thác mạng chẩn đoán và khắc phục sự cố.
2.1.2. Các vấn đề liên quan đến giám sát an ninh mạng :

Với tiêu chí dựa trên chức năng, hoạt động giám sát an toàn mạng bao gồm:
Bảo vệ: Tập trung vào việc ngăn chặn xâm nhập và tấn công khai thác trái phép
vào hệ thống. Các chức năng bao gồm đánh giá lỗ hổng, quản lý chống lại các phần
mềm độc hại, đào tạo nâng cao nhận thức của người dùng và các nhiệm vụ đảm bảo
thơng tin khác.
Dị tìm (phát hiện): Tập trung vào việc phát hiện và phân tích các tấn công đang
xảy ra theo thời gian thực hoặc đã xảy ra. Việc phát hiện xâm nhập mạng có thể dựa vào
so sánh mẫu, dựa trên dấu hiệu bất thường hoặc phân tích trạng thái bất thường của giao
thức.


×