DANH MỤC VIẾT TẮT
Từ viết tắt
Ý nghĩa
AI
Artificial Intelligence
ANN
Artficial Neural Network
CNN
Convolutional Neural Network
DL
Deep Learning
DT
Decision Tree
FSL
Few-shot Learning
ICMP
Internet Control Message Protocol
IP
Internet Protocol
IPS
Intrusion Prevention System
KNN
K-Nearest Neighbor
ML
Machine Learning
NIDS
Network Intrusion Detection System
OSI
Open System Interconnection
OSSEC
Open Source HIDS SECurity
SVM
Suppost Vector Machine
TCP
Transmission Control Protocol
UDP
User Datagram Protocol
MỤC LỤC
MỞ ĐẦU ................................................................................................................... 1
Chương 1. TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG ...................... 6
1.1. Tổng quan về an toàn, an ninh mạng............................................................. 6
1.1.1. Định nghĩa về an toàn, an ninh mạng...................................................... 6
1.1.2. Tầm quan trọng về an toàn, an ninh mạng trong thế giới hiện đại ......... 7
1.1.3. Thực trạng an toàn, an ninh mạng hiện nay ............................................ 8
1.2. Các hướng tiếp cận trong phát hiện xâm nhập mạng phổ biến ................... 11
1.2.1. Hệ thống phát hiện xâm nhập................................................................ 11
1.2.2. Phát hiện xâm nhập sử dụng hệ thống các luật ..................................... 16
1.2.3. Phát hiện xâm nhập sử dụng học máy................................................... 18
1.3. Một số hệ thống phát hiện xâm nhập mạng phổ biến hiện nay ................... 22
1.3.1. Hệ thống phát hiện xâm nhập mạng mã nguồn mở Snort..................... 22
1.3.2. Hệ thống phát hiện xâm nhập mạng Suricata ....................................... 25
Chương 2. PHÁT HIỆN XÂM NHẬP MẠNG DỰA TRÊN CÁC KỸ THUẬT
META LEARNING ................................................................................................ 30
2.1. Meta-Learning trong phát hiện xâm nhập mạng............................................ 30
2.1.1. Khái niệm về Meta-Learning ................................................................... 30
2.1.2. Những ưu điểm khi ứng dụng Meta-Learning vào trong hệ thống phát
hiện xâm nhập .................................................................................................... 31
2.2. Một số kỹ thuật Meta Learning phổ biến....................................................... 33
2.2.1. Few-shot learning .................................................................................... 33
2.2.2. Transfer Learning ..................................................................................... 37
2.3. Đề xuất mơ hình Few-shot dựa trên khung Meta-Learning .......................... 39
2.3.1. Tại sao nên sử dụng Few-shot Learning. ................................................. 39
2.3.2. Biểu diễn trực quan luồng dữ liệu mạng ................................................. 42
2.3.3. Kỹ thuật Few-shot dựa trên khung meta-learning ................................... 46
2.3.4. Đánh giá mơ hình ..................................................................................... 54
Chương 3. XÂY DỰNG HỆ THỐNG VÀ KIỂM THỬ...................................... 63
3.1. Thiết kế kiến trúc hệ thống ............................................................................ 63
3.1.1. Mơ hình kiến trúc hệ thống ...................................................................... 63
3.1.2. Giao diện người dùng .............................................................................. 64
3.1.3. API và tương tác. ..................................................................................... 68
3.2. Môi trường triển khai và các công cụ sử dụng .............................................. 69
3.2.1. Môi trường phát triển ............................................................................... 69
3.2.2. Các công cụ sử dụng ................................................................................ 70
3.3. Xây dựng và triển khai hệ thống. ................................................................... 74
3.3.1. Thu thập dữ liệu ....................................................................................... 74
3.3.2. Xử lí dữ liệu ............................................................................................. 74
3.4. Kiểm thử và đánh giá hệ thống ...................................................................... 76
3.4.1. Kiểm thử trên tập dữ liệu có sẵn .............................................................. 76
3.4.2. Giám sát, phát hiện tấn công thời gian thực. ........................................... 79
3.5. Kết luận. ......................................................................................................... 81
KẾT LUẬN ............................................................................................................. 82
TÀI LIỆU THAM KHẢO ..................................................................................... 83
DANH MỤC HÌNH VẼ
Hình 1.1. Thống kê các cuộc tấn công mạng ở Việt Nam từ 2017 - nửa đầu 2022 . 10
Hình 1.2. Tam giác CIA trong an tồn thơng tin ...................................................... 11
Hình 1.3. Hệ thống phát hiện, ngăn chặn xâm nhập IDS/IPS.................................. 12
Hình 1.4. Mơ hình Network-base IDS ..................................................................... 13
Hình 1.5. OSSEC được triển khai trên các Server ................................................... 15
Hình 1.7. Hệ thống IDS Snort .................................................................................. 22
Hình 1.8. Suricata có thể chạy như một hệ thống phát hiện xâm nhập IDS ............ 27
Hình 1.9. Ví dụ về phân loại trong Meta-Learning.................................................. 32
Hình 2.1. Phương pháp giải quyết bài tốn Few-shot Learning với thuật tốn dữ liệu 36
Hình 2.2. Sơ đồ phân chia tập dữ liệu trong Meta-learning..................................... 42
Hình 2.3. Mơ hình tham chiếu OSI .......................................................................... 43
Hình 2.4. Biểu diễn trực quan của luồng dữ liệu mạng ........................................... 45
Hình 2.5. Biểu diễn trực quan của 4 loại luồng dữ liệu ........................................... 46
Hình 2.6. Chuẩn bị dữ liệu và phương pháp Few-shot dựa trên Meta-learning ...... 48
Hình 2.7. Flow của mơ hình phát hiện xâm nhập dựa trên Meta-learning .............. 49
Hình 2.8. Luồng thực thi của một nhiệm vụ phát hiện few-shot ............................. 50
Hình 2.9. Kiến trúc tổng thể của FC-Net ................................................................. 51
Hình 2.10. Giá trị mất mát sau mỗi phiên huấn luyện ............................................. 59
Hình 2.11. Mơ hình đề xuất cho kết quả phát hiện tốt chỉ với số lượng mẫu nhỏ ... 60
Hình 2.12. Kết quả phát hiện các loại tấn cơng trong tập dữ liệu ISCX2012FS ..... 61
Hình 3.1. Sơ đồ chức năng BFD của hệ thống phát hiện xâm nhập ........................ 63
Hình 3.2. Mơ hình tổng qt hệ thống ..................................................................... 64
Hình 3.3. Thiết kế hệ thống ...................................................................................... 64
Hình 3.4. Giao diện Dashboard của hệ thống .......................................................... 65
Hình 3.5. Thống kê số lượng luồng dữ liệu đã thu thập và kiểm thử ...................... 65
Hình 3.6. Biểu đồ thể hiện tỉ lệ kết quả kiểm thử các tập dữ liệu ............................ 66
Hình 3.7. Các luồng dữ liệu được xác định là từ luồng dữ liệu tấn cơng ................ 66
Hình 3.8. Giao diện kiểm thử dữ liệu thu thập sẵn .................................................. 67
Hình 3.9. Các luồng dữ liệu được upload lên hệ thống ........................................... 67
Hình 3.10. Các bộ dữ liệu sau khi đã xử lí sẽ sẵn sàng để phân loại ....................... 68
Hình 3.11. Thiết lập công cụ Tshark để bắt lưu lượng mạng liên tục ...................... 74
Hình 3.12. Sử dụng cơng cụ Packet2flow-master để chia dữ liệu thành các flow .. 74
Hình 3.13. File .pcap được phân tích thành các flow dữ liệu .................................. 75
Hình 3.14. Xử lí chuyển đổi từ flow dữ liệu thành dataset ...................................... 75
Hình 3.15. Các dataset sau khi xử lí các flow .......................................................... 76
Hình 3.16. Tải lên bộ dữ liệu thu thập sẵn để tiến hành kiểm thử ........................... 77
Hình 3.17. Luồng dữ liệu được tải lên hệ thống thành cơng ................................... 77
Hình 3.18. Các luồng dữ liệu chưa được xử lí đã được tải lên hệ thống ................. 78
Hình 3.19. Danh sách các dataset đã được tiền xử lí, sẵn sàng cho kiểm thử ......... 78
Hình 3.20. Kết quả kiểm thử thông báo đây là luồng dữ liệu tấn cơng ................... 79
Hình 3.21. Hệ thống phát hiện xâm nhập được cài đặt trên server .......................... 79
Hình 3.22. Chọn network interface cần giám sát ..................................................... 80
Hình 3.23. Giám sát tấn công xâm nhập thời gian thực........................................... 80
DANH MỤC BẢNG BIỂU
Bảng 2.1. Cấu hình siêu tham số .............................................................................. 53
Bảng 2.2. Mã kí hiệu cho các loại tấn công ............................................................. 56
Bảng 3.1. Các module tấn công mà Patator hỗ trợ .................................................. 72
1
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, vấn đề về an tồn và bảo mật thơng tin cùng với các thách thức
trong không gian mạng đã xâm nhập sâu vào cuộc sống xã hội. Chúng không chỉ trở
thành một phần không thể thiếu của an ninh quốc gia, mà cịn là một đề tài nóng bỏng
với quy mơ tồn cầu. Sự phức tạp của tình hình mất an tồn thông tin hiện nay đe
dọa nghiêm trọng đến việc sử dụng công nghệ thông tin để phát triển kinh tế và xã
hội cũng như đảm bảo an ninh và quốc phịng.
Tuy nhiên, ở Việt Nam, tình hình an ninh thơng tin đang trải qua những biến
động phức tạp. Các cơ quan nước ngoài, cùng với các thế lực thù địch và những yếu
tố phản động, đang gia tăng hoạt động tình báo, gián điệp và phá hoại hệ thống thơng
tin. Họ lan truyền thông tin gây hại nhằm can thiệp vào chính trị nội bộ, thay đổi
hướng dẫn chính sách và pháp luật của Việt Nam. Cùng với đó, việc tăng cường các
cuộc tấn công mạng nhằm vào hệ thống thông tin quan trọng của quốc gia và hệ
thống thông tin liên quan đến an ninh quốc gia đang ngày càng gia tăng.
Thống kê cho thấy mỗi ngày, một cuộc tấn công mạng mới xuất hiện trên web,
với khoảng cách chỉ sau 39 giây. Cái con số này không thể khơng gây lo ngại, khi có
đến 2.244 vụ tấn cơng xảy ra trên internet hàng ngày. Thông tin cũng cho thấy rằng
vào tháng 3 năm 2022, gần 4 triệu hồ sơ đã bị tấn cơng. Trong số này, đã có 88 vụ
tấn công mạng được tiết lộ công khai, dẫn đến việc vi phạm 3.987.593 hồ sơ cá nhân.
Trong cả quý đầu tiên của năm 2022, tổng cộng đã có 75.099.482 hồ sơ bị xâm phạm.
Số liệu thống kê cũng cho thấy mỗi ngày, có khoảng 300.000 phần mềm độc hại mới
được tạo ra, bao gồm vi rút, phần mềm quảng cáo, Trojan, keylogger, với mục đích
chung là đánh cắp thơng tin cá nhân.
Trong lĩnh vực tài chính, hơn 60% cơng ty có hơn 1.000 tệp nhạy cảm mà tất
cả nhân viên đều có thể truy cập. Điều này tiềm ẩn rủi ro lớn với sự thụ động trong
2
việc thay đổi mật khẩu, khi khoảng 60% công ty sử dụng hơn 500 mật khẩu mà không
bao giờ thay đổi.
Điều đáng chú ý là tin tặc không ngừng sáng tạo hàng trăm nghìn phần mềm
độc hại mới mỗi ngày. Những phần mềm này không được tạo ra để đứng yên, mà
chúng được thiết kế để triển khai trên web và xâm nhập vào các lỗ hổng trong các
mục tiêu cụ thể. Điều này nói lên một sự thật quan trọng: một cuộc tấn cơng khơng
hẳn là vi phạm, vì thành cơng hay thất bại của nó phụ thuộc vào biện pháp an ninh
mạng mà mục tiêu đã thiết lập.
Hiện nay, các cơ quan nhà nước, các tổ chức chính phủ đã và đang có nhiều
biện pháp tích cực trong việc phòng chống và phát hiện xâm nhập mạng. Rất nhiều
biện pháp đã được ứng dụng và triển khai trong thực tế. Tuy nhiên, các kỹ thuật tấn
công và xâm nhập ngày càng được biến đổi tinh vi và phức tạp, dẫn đến một số hệ
thống đảm bảo an toàn thông tin không phát hiện và ngăn chặn kịp thời các tấn cơng
này. Chính vì vậy, để sớm phát hiện và ngăn chặn các cuộc tấn công và xâm nhập
mạng thì u cầu hệ thống đảm bảo an tồn thơng tin phải liên tục cập nhật, có khả
năng phát hiện các cuộc tấn công mới và thu thập, xử lý dữ liệu lớn về tấn công từ
nhiều nơi khác nhau cũng như các loại dữ liệu khác nhau như lưu lượng mạng, dữ
liệu qua giao thức HTTPS, dữ liệu qua giao thức HTTP,... Để làm được điều đó, ta
cần phải tiến hành nghiên cứu, tìm hiểu và ứng dụng cơng nghệ xử lý dữ liệu lớn
(BigData) nhằm theo dõi và phát hiện sớm các cuộc tấn công xâm nhập mạng. Ngồi
ra, các phương pháp phát hiện xâm nhập thơng thường chủ yếu sử dụng kỹ thuật so
sánh mẫu dựa trên cơ sở dữ liệu được xây dựng và định nghĩa từ trước, tuy nhiên
phương pháp này bộc lộ nhiều nhược điểm đó là khơng có khả năng phát hiện các
hình thức tấn công mới, số lượng dữ liệu độc hại ngày càng gia tăng làm cho cơ sở
dữ liệu mẫu trở nên ngày càng lớn. Thực tế cho thấy hướng nghiên cứu dựa vào công
nghệ AI để phân loại và phát hiện các cuộc tấn công đang chứng tỏ là một phương
pháp tiềm năng và hiệu quả khi có thể cải thiện được các nhược điểm ở phương pháp
3
truyền thống. Tuy nhiên, một trong những vấn đề được quan tâm là làm sao để xây
dựng được mơ hình AI tốt nhất đạt hiểu quả chính xác và hiệu quả cao.
Nhận thức được vấn đề, tôi đã quyết định chọn đề tài: “Nghiên cứu xây dựng
hệ thống phát hiện xâm mạng dựa trên các kỹ thuật Meta-Learning“ với mục tiêu xây
dựng hệ thống giám sát và phát hiện tấn công mạng sử dụng các kỹ thuật metalearning nâng cao khả năng phát hiện và ngăn chặn các cuộc tấn công bất hợp pháp
vào hệ thống công nghệ thông tin của đơn vị.
Đề tài chủ yếu tập trung giới thiệu về cách xây dựng một mơ hình mạng neutral
network có ứng dụng các kỹ thuật meta-learning để phát hiện các traffic mạng tấn
cơng, từ đó phát hiện các cuộc tấn cơng xâm nhập vào hệ thống mạng.
Cấu trúc chính của đề tài bao gồm các phần sau:
Lời mở đầu: Nêu lên tầm quan trọng và xu hướng phát triển của vấn đề bảo
mật hiện nay và giới thiệu về đề tài.
Chương 1: Tổng quan về phát hiện xâm nhập mạng.
Chương 2: Phát hiện xâm nhập mạng dựa trên các kỹ thuật meta-learning.
Chương 3: Xây dựng và thử nghiệm hệ thống.
Kết luận: Đánh giá tổng kết về đề tài cũng như đưa ra một số định hướng.
2. Mục đích, yêu cầu.
Nghiên cứu xây dựng hệ thống giám sát và phát hiện tấn cơng mạng máy tính
với các tính năng sau:
- Xử lí dữ liệu từ tệp pcap thơ thành bộ dữ liệu có thể cho vào mơ hình fewshot learning.
4
- Giám sát và phát hiện lưu lượng mạng tấn công dựa trên các kỹ thuật Metalearning (Few-shot Learning).
- Phát hiện các loại tấn công xâm nhập mạng với số lượng ít mẫu được gắn
nhãn
3. Đối tượng, phạm vi và phương pháp nghiên cứu.
- Đối tượng nghiên cứu:
Trong đề tài này, đối tượng nghiên cứu là lưu lượng mạng (network traffic);
phương pháp trích xuất, phân tích dữ liệu gói tin mạng; các loại tấn công mạng phổ
biến; kỹ thuật meta-learning trong phát hiện tấn công mạng.
- Phạm vi nghiên cứu:
Đề tài nghiên cứu xây dựng hệ thống phát hiện tấn công mạng dựa trên kỹ
thuật Few-shot Learning
- Phương pháp nghiên cứu lý thuyết:
Dựa trên lý thuyết về hệ thống giám sát, phát hiện tấn công mạng và các kỹ
thuật trong việc phát hiện; mơ hình mạng OSI, TCP/IP, giao thức truyền dữ liệu TCP,
giao thức HTTP,… và phương pháp chặn bắt, phân tích gói tin trên mạng.
Dựa trên cơ sở lý thuyết về phát hiện tấn cơng dựa trên trích xuất đặc trưng và
một số thuật toán Meta-learning được sử dụng trong phát hiện tấn công mạng.
Dựa trên cơ sở lý thuyết về cách phát hiện các luồng dữ liệu đặc trưng của các
cuộc tấn công xâm nhập mạng
Dựa trên lý thuyết về công nghệ Realtime Dashboard SentEvent.
- Phương pháp nghiên cứu thực tế:
Thử nghiệp hệ thống khi thực hiện tái hiện q trình cuộc tấn cơng
5
Đánh giá, so sánh kết quả thu được từ đó đưa ra đề xuất tối ưu.
Để hoàn thành đồ án này, tơi muốn bày tỏ lịng biết ơn chân thành đối với các
thầy cô giáo trong Bộ môn và Khoa đã luôn hỗ trợ, hướng dẫn và tạo điều kiện thuận
lợi cho tôi suốt thời gian học tại Học viện. Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu
sắc đến thầy giáo TS Cao Văn Lợi và ThS Vũ Ngọc Cương, những người đã dành
thời gian và tâm huyết để hướng dẫn, quan tâm và tận tâm chỉ bảo trong q trình
hồn thiện dự án này.
Tơi cũng muốn bày tỏ lịng biết ơn đến gia đình và bạn bè, những người luôn
ở bên, hỗ trợ, động viên và quan tâm đến tôi trong suốt thời gian học tập và hoàn
thiện đồ án tốt nghiệp. Mặc dù đã nỗ lực hết sức, nhưng do thời gian có hạn và kiến
thức cịn hạn chế, khơng thể tránh khỏi những thiếu sót. Vì vậy, tơi trân trọng mọi ý
kiến góp ý và hướng dẫn từ các thầy cô giáo để đồ án có thể hồn thiện hơn và tơi có
thể rút ra nhiều kinh nghiệm quý báu cho học tập, công việc và nghiên cứu trong
tương lai.
Tôi xin chân thành cảm ơn!
6
Chương 1. TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG
1.1.
Tổng quan về an tồn, an ninh mạng
Trong bối cảnh cơng nghệ thông tin phát triển mạnh mẽ, bảo mật mạng và an tồn
thơng tin trở thành vấn đề quan trọng cần được chú trọng, cùng với việc các hoạt
động mạng diễn ra đang ngày càng phức tạp. Việc nghiên cứu đánh giá thực trạng
an tồn thơng tin, các giải pháp khắc phục và những thách thức, hạn chế còn tồn tại
hiện nay là cơ sở quan trọng để chúng ta có thể lựa chọn những giải pháp thay thế
tối ưu, giải quyết hiệu quả các vấn đề thực tiễn đặt ra.
1.1.1. Định nghĩa về an toàn, an ninh mạng
An toàn, an ninh mạng là sự bảo vệ thông tin, hệ thống thông tin trên mạng
tránh bị truy cập trái phép, sử dụng, làm lộ, làm hỏng, chỉnh sửa hoặc phá hoại trái
phép nhằm bảo đảm tính bí mật, tồn vẹn và tính khả dụng của thơng tin.
An tồn mạng (network security) là sự bảo vệ các hệ thống mạng khỏi các truy
cập, sử dụng, tiết lộ, gián đoạn, sửa đổi hoặc phá hoại trái phép. An toàn mạng tập
trung vào việc bảo vệ các cơ sở hạ tầng mạng vật lý và logic, bao gồm phần cứng,
phần mềm, mạng và dữ liệu.
An ninh mạng (cybersecurity) là một khái niệm rộng hơn an toàn mạng, bao
gồm cả an toàn mạng. An ninh mạng đề cập đến việc bảo vệ tất cả các tài sản kỹ thuật
số, bao gồm máy tính, thiết bị di động, dữ liệu và mạng. An ninh mạng cũng bao gồm
việc bảo vệ chống lại các mối đe dọa kỹ thuật số, chẳng hạn như phần mềm độc hại,
tấn cơng mạng và xâm nhập trái phép.
Tóm lại, an tồn, an ninh mạng là một lĩnh vực vơ cùng rộng bao gồm tổng
thể các hoạt động và biện pháp nhằm bảo vệ thông tin và hệ thống thông tin khỏi các
mối đe dọa kỹ thuật số.
7
1.1.2. Tầm quan trọng về an toàn, an ninh mạng trong thế giới hiện đại
Trong thế giới hiện đại, công nghệ thơng tin và truyền thơng đóng vai trị quan
trọng trong mọi lĩnh vực của đời sống xã hội, từ kinh tế, chính trị, xã hội, văn hóa,
giáo dục, y tế,... đến an ninh quốc phòng. Việc sử dụng rộng rãi các hệ thống thơng
tin và mạng máy tính đã tạo ra nhiều cơ hội phát triển mới, nhưng cũng đặt ra những
thách thức lớn về an toàn, an ninh mạng.
Tầm quan trọng của an toàn, an ninh mạng trong bối cảnh hiện nay được thể
hiện qua các khía cạnh sau:
Về kinh tế: an toàn, an ninh mạng là điều kiện cần thiết để bảo vệ các tài sản kỹ
thuật số, bao gồm dữ liệu, hệ thống thông tin và cơ sở hạ tầng công nghệ thông tin.
Đây là những tài sản quan trọng đối với hoạt động kinh doanh, sản xuất, cung cấp dịch
vụ của các doanh nghiệp, tổ chức. Các vụ xâm nhập mạng, tấn cơng mạng có thể gây
thiệt hại lớn về tài sản, uy tín và thậm chí là phá sản đối với các doanh nghiệp.
Về chính trị: an tồn, an ninh mạng là vấn đề quan trọng đối với quốc gia, dân
tộc. Các cuộc tấn cơng mạng có thể được sử dụng để phá hoại cơ sở hạ tầng quan
trọng, đánh cắp thông tin nhạy cảm hoặc gây rối loạn trật tự xã hội. Các hoạt động
gián điệp mạng của các quốc gia khác cũng có thể gây ra những tác động tiêu cực
đến an ninh quốc gia.
Về xã hội: an toàn, an ninh mạng có vai trị quan trọng trong việc bảo vệ quyền
riêng tư và an toàn của cá nhân. Các vụ xâm nhập mạng có thể dẫn đến việc đánh
cắp thơng tin cá nhân, như thơng tin tài chính, thơng tin y tế,... Điều này có thể gây
ra những tổn hại về kinh tế, sức khỏe và tinh thần cho người dân.
Về văn hóa, giáo dục, y tế: an tồn, an ninh mạng là điều kiện cần thiết để đảm
bảo hoạt động bình thường của các lĩnh vực văn hóa, giáo dục và y tế. Các cuộc tấn
8
cơng mạng có thể gây gián đoạn các hoạt động giảng dạy, học tập, khám chữa bệnh,...
Điều này có thể ảnh hưởng đến chất lượng cuộc sống của người dân.
Về an ninh quốc phịng: an tồn, an ninh mạng có vai trò quan trọng trong việc
bảo vệ quốc phòng, an ninh quốc gia. Các cuộc tấn cơng mạng có thể được sử dụng
để xâm nhập hệ thống thông tin quân sự, đánh cắp bí mật quân sự, gây rối loạn hoạt
động quân sự. Điều này có thể đe dọa đến an ninh quốc gia và chủ quyền quốc gia.
Tóm lại, an toàn, an ninh mạng là một vấn đề quan trọng trong thế giới hiện
đại. Việc đảm bảo an toàn, an ninh mạng là nhiệm vụ của toàn xã hội, từ các cơ quan
nhà nước, doanh nghiệp, tổ chức đến mỗi cá nhân.
1.1.3. Thực trạng an toàn, an ninh mạng hiện nay
Năm 2021, Việt Nam đã chứng kiến sự bùng nổ của các nền tảng số, đồng thời
phải đối mặt với một loạt cuộc tấn cơng mạng có mục tiêu đánh cắp thông tin và hủy
hoại danh tiếng quốc gia. Các hoạt động tấn công trực tuyến đã nhắm vào hệ thống
thông tin của các cơ quan quan trọng như truyền thông, hàng không, năng lượng, và
các cơ sở y tế, gây ra những hậu quả nghiêm trọng ngày càng gia tăng. Trong 6 tháng
đầu năm 2021, đã có 1.555 trang web và cổng thông tin điện tử tại Việt Nam, trong
đó có 412 trang thuộc quản lý của các cơ quan nhà nước, bị tấn công bởi các hacker.
So với cùng kỳ năm trước, số lượng các trang và cổng thông tin điện tử bị tấn công
đã giảm đi 12%. Tình hình vi phạm và tội phạm liên quan đến thông tin ngày càng
phức tạp, với số lượng vụ vi phạm tăng lên, và các thủ đoạn trở nên tinh vi hơn, gây
ra thiệt hại nghiêm trọng trên nhiều khía cạnh.
Các hành vi tấn cơng gây hại hạ tầng thơng tin, làm gián đoạn hoạt động bình
thường của mạng máy tính và viễn thơng, và tạo ra những thiệt hại kinh tế và an ninh
lớn đối với các tổ chức và cá nhân. Hệ thống thông tin của Việt Nam tiếp tục có nhiều
điểm yếu và lỗ hổng bảo mật dễ bị tấn công và xâm nhập, dẫn đến rị rỉ thơng tin nhà
nước qua hệ thống thơng tin gia tăng mạnh. Việc lợi dụng trái phép dữ liệu cá nhân
9
và sử dụng trái phép cơ sở dữ liệu và tài nguyên thông tin quốc gia đã trở nên phức
tạp hơn. Ngoài ra, xuất hiện nhiều dịch vụ mới và hiện đại cũng đã làm tăng khó
khăn trong cơng tác quản lý và kiểm soát của các cơ quan chức năng.
Thực tế trên cũng đã mang đến nhiều mối đe dọa đối với an ninh thông tin của
Việt Nam, không chỉ từ bên trong mà cịn từ bên ngồi. Trong nước, xuất hiện nguy
cơ tụt hậu về công nghệ và sự phụ thuộc đối với cơng nghệ nước ngồi, đặc biệt là
hệ thống mạng lõi. Sự lan tràn của phần mềm và dịch vụ thơng tin từ nước ngồi
đang khiến Việt Nam mất chủ quyền nội dung số và tài ngun thơng tin. Các tình
huống xâm phạm chính trị nội bộ thông qua mạng xã hội và tác động tiêu cực trên
dư luận cũng đã tăng lên. Trong khi đó, từ bên ngoài, các thế lực thù địch đã tận dụng
hệ thống thông tin để tác động và can thiệp vào nội bộ, thúc đẩy các hoạt động phản
đối và thay đổi chính sách. Điều này càng trở nên nguy hiểm hơn khi xâm phạm độc
lập và chủ quyền quốc gia trên không gian mạng và chiến tranh thông tin ngày càng
phổ biến. Các tổ chức khủng bố và phản động cũng đang tận dụng không gian mạng
để tấn công và phá hoại hệ thống thông tin quan trọng đối với an ninh quốc gia.
Hiện tại, Việt Nam đang đối diện với các thách thức lớn từ Cuộc Cách mạng
Công nghiệp lần thứ tư, mà có sự phát triển mạnh mẽ của trí tuệ nhân tạo, robot, và
cơng nghệ sinh học. Điều này đã tạo ra nhiều lĩnh vực mới như "Internet công
nghiệp", "Nhà máy thông minh", "Thành phố thông minh", "Xã hội siêu thơng minh"
và "Chính phủ điện tử". Tất cả hoạt động trên không gian mạng và mang theo tiềm
năng phát triển kinh tế và xã hội. Mối nguy hiểm lớn nhất đối với an ninh mạng của
Việt Nam là tình trạng phát triển chậm chạp và sự phụ thuộc vào cơng nghệ thơng
tin của nước ngồi, đặc biệt là các hệ thống mạng lõi. Việc sử dụng mạng xã hội để
tán phát thông tin giả và thông tin xấu, độc nhằm gây rối nội bộ và kích động các
cuộc biểu tình và bạo loạn đã trở thành một thách thức đối với Việt Nam.
10
Hình 1.1. Thống kê các cuộc tấn cơng mạng ở Việt Nam từ 2017 - nửa đầu 2022
Những thách thức này càng trở nên đặc biệt khi đại dịch COVID-19 tiếp tục
ảnh hưởng trên toàn thế giới và thúc đẩy sự chuyển đổi số trong đời sống xã hội. Việc
áp dụng công nghệ vào cuộc sống là cách để đối phó với khó khăn mà đại dịch mang
lại. Với xu hướng này, an ninh mạng của Việt Nam sẽ đối diện với nhiều thách thức
và tình hình tấn cơng mạng dự kiến sẽ ngày càng phức tạp và gia tăng.
Trong bối cảnh này, sự phát triển và ứng dụng nhanh chóng của cơng nghệ
thơng tin đồng thời mang lại nhiều cơ hội lớn và đặc biệt đối với Việt Nam. Tuy
nhiên, điều này cũng tạo ra nhiều thách thức cho an ninh mạng. Các cuộc tấn công
và tội phạm mạng có xu hướng gia tăng về số lượng và phức tạp hơn. Trong 6 tháng
đầu năm 2021, đã phát hiện hơn 2.551 cuộc tấn công mạng và 5,4 triệu lượt địa chỉ
IP của các cơ quan, bộ, ngành 63 tỉnh, thành bị tấn công với 15 biến thể mã độc. Các
tội phạm sử dụng công nghệ cao ngày càng tinh vi hơn và tạo ra nhiều mối đe dọa
đối với xã hội. Với tốc độ phát triển và sự ứng dụng mạnh mẽ của cơng nghệ thơng
tin, tình hình an ninh mạng của Việt Nam dự kiến sẽ tiếp tục phức tạp và nguy cơ tấn
công mạng và tội phạm mạng sẽ gia tăng.
11
1.2.
Các hướng tiếp cận trong phát hiện xâm nhập mạng phổ biến
1.2.1. Hệ thống phát hiện xâm nhập
Tự động phát hiện các cuộc tấn cơng vào hệ thống máy tính là một lĩnh vực
cốt lõi trong nghiên cứu bảo mật máy tính và đã có những bước đầu tiên từ những
nghiên cứu về bảo mật trên các hệ thống multi-user (Andersion, 1980). Bảo mật máy
tính liên quan đến việc bảo vệ tính bảo mật, tính tồn vẹn và khả năng sẵn sàng của
tài nguyên. Tấn công an ninh mạng là những hành động nhằm gây hại cho tính bảo
mật, tính tồn vẹn và tính sẵn sàng của tài ngun. Cụ thể, tấn cơng an ninh mạng có
thể bao gồm nghe trộm trên đường truyền (xâm phạm tính bảo mật), thay đổi dữ liệu
trên máy chủ (xâm phạm tính tồn vẹn) hoặc gây hại cho phần cứng (xâm phạm tính
sẵn sàng). Dựa vào nguồn gốc của cuộc tấn cơng, ta có thể phân biệt giữa tấn công
từ bên trong hệ thống và tấn cơng từ xa.
Hình 1.2. Tam giác CIA trong an tồn thơng tin
Để đối phó với các cuộc tấn công mạng, nhiều cơ chế khác nhau trong lĩnh vực
bảo mật máy tính đã được phát triển. Tuy nhiên, cơ chế đầu tiên và cuối cùng của bất
kỳ giải pháp bảo mật nào đó là ngăn chặn các cuộc tấn cơng. Ví dụ, cơ chế kiểm sốt
truy cập (access control) và mã hố (cryptography) là một số ví dụ. Tuy nhiên, qua
lịch sử dài của bảo mật máy tính, đã được chứng minh rằng khơng có một cơ chế ngăn
ngừa hồn hảo nào mà có thể cung cấp mức bảo vệ tuyệt đối. Vì vậy, cơ chế phát hiện
12
tấn công đã trở thành một phần quan trọng trong danh mục các giải pháp bảo mật.
Nhiệm vụ chính của nó là xây dựng hệ thống phát hiện xâm nhập (IDS) để phát hiện
và cảnh báo về các hành động tấn cơng vào mạng hoặc hệ thống máy tính.
Hệ thống phát hiện xâm nhập có nhiệm vụ thu thập thơng tin và dữ liệu từ
nhiều nguồn khác nhau trên mạng hoặc từ hệ thống để theo dõi và phát hiện các hoạt
động tấn cơng. Mục tiêu chính của hệ thống phát hiện xâm nhập là ngăn ngừa các
hành động gây thiệt hại đối với tính bảo mật của hệ thống hoặc phát hiện những hành
động này trong quá trình tấn cơng.
Hình 1.3. Hệ thống phát hiện, ngăn chặn xâm nhập IDS/IPS
Điều này là quan trọng vì trong lĩnh vực bảo mật, nguy cơ ln tồn tại và
khơng ngừng tiến hóa. Chúng ta cần sự tổng hợp của nhiều phương pháp và cơng cụ
khác nhau để đảm bảo tính an tồn và bảo mật của mạng và hệ thống máy tính.
Hệ thống IDS gồm 2 cách phân loại, thứ nhất là dựa trên cơ chế IDS phát hiện
xâm nhập và tiêu chí thứ hai là nguồn thơng tin dữ liệu mà IDS sử dụng. Với tiêu chí
thứ nhất dựa trên cơ chế phát hiện xâm nhập IDS phân thành 2 loại: phát hiện dựa
trên dấu hiệu đã biết (Signature-based IDS) và phát hiện dựa trên dấu hiệu bất thường
(Anomaly-based IDS). Hai cơ chế này được trình bày chi tiết trong phần các kỹ thuật
13
phát hiện tấn công mạng. Theo tiêu chuẩn thứ 2 IDS phân thành Network-based IDS
(NIDS) và Host-based IDS (HIDS).
a. Network-base IDS
Hệ thống IDS dựa trên mạng, thường được gọi là NIDS, hoạt động bằng cách
theo dõi và phân tích giao tiếp trên mạng trong thời gian thực. Nó kiểm tra dữ liệu
gửi qua mạng, quét các header của các gói tin, và thậm chí có thể kiểm tra nội dung
của các gói tin này để phát hiện ra các đoạn mã độc hại hoặc các dạng tấn cơng khác.
Một ví dụ điển hình của việc sử dụng NIDS là trong việc phát hiện tấn công DoS
(Denied of Service) dựa trên băng thơng.
Hình 1.4. Mơ hình Network-base IDS
* Ưu điểm của NIDS:
- Quản lý tồn bộ mạng: NIDS có khả năng quản lý và giám sát toàn bộ một
phân đoạn mạng (network segment), bao gồm nhiều máy trạm và thiết bị mạng.
- Theo dõi thời gian thực: NIDS hoạt động ở thời gian thực, cho phép nó phát
hiện các hành vi tấn công ngay khi chúng xảy ra.
- Cài đặt và bảo trì đơn giản: Cài đặt và duy trì NIDS khơng ảnh hưởng đến
cấu trúc mạng hiện có và khơng đòi hỏi sự can thiệp lớn.
14
- Tránh tấn cơng DoS cục bộ: NIDS có khả năng ngăn chặn các cuộc tấn công
DoS nhằm vào một máy trạm cụ thể.
- Xác định lỗi tại tầng Network: NIDS có khả năng xác định lỗi ở tầng
Network, giúp xác định và khắc phục các vấn đề liên quan đến mạng.
- Độc lập với hệ điều hành: NIDS không phụ thuộc vào hệ điều hành của máy
tính mục tiêu.
* Nhược điểm của NIDS:
- Báo động giả: Có thể xảy ra trường hợp NIDS phát hiện các tấn công giả
mạo (false positive).
- Khơng thể phân tích dữ liệu đã được mã hóa: NIDS khơng thể giải mã dữ
liệu đã được mã hóa bằng các phương pháp như SSL, SSH, IPSec, điều này làm giảm
khả năng phát hiện tấn công trong trường hợp này.
- Cần cập nhật chữ ký thường xuyên: Để đảm bảo hiệu suất, NIDS cần được
cập nhật thường xuyên với các chữ ký mới nhất.
- Độ trễ: Có độ trễ giữa thời điểm xảy ra tấn công và thời điểm NIDS phát hiện
nó. Trong khoảng thời gian này, hệ thống có thể đã bị tổn hại.
- Khơng biết tấn công thành công hay không: NIDS chỉ phát hiện sự hiện diện
của tấn công, không thể xác định liệu tấn công đã thành công hay không.
- Hạn chế băng thơng: NIDS phải xử lý tồn bộ lưu lượng mạng, do đó, khi
tốc độ mạng tăng lên, NIDS cũng phải tăng khả năng xử lý.
b. Host-based IDS (HIDS)
Hệ thống IDS dựa trên máy chủ, thường được gọi là HIDS, hoạt động bằng
cách cài đặt một phần mềm trực tiếp trên máy chủ. HIDS quan sát và ghi lại tất cả
các hoạt động liên quan đến hệ thống, bao gồm cả lưu lượng mạng, file log, tiến trình,
15
mức sử dụng CPU, RAM, tính tồn vẹn của hệ thống, và nhiều thông số khác. HIDS
thường được cài đặt trên các máy chủ quan trọng và các máy chủ trong mạng DMS
(Demilitarized Zone).
* Ưu điểm của HIDS:
- Xác định người dùng liên quan: HIDS có khả năng xác định người dùng liên
quan đến các sự kiện.
- Phát hiện tấn cơng trên máy tính: HIDS có khả năng phát hiện các tấn cơng
xảy ra trên máy tính cụ thể.
- Phân tích dữ liệu đã mã hóa: HIDS có khả năng phân tích các dữ liệu đã được
mã hóa, bao gồm cả SSL, SSH, và IPSec.
- Cung cấp thông tin chi tiết về host: HIDS cung cấp thông tin chi tiết về trạng
thái của máy chủ trong q trình tấn cơng.
Hình 1.5. OSSEC được triển khai trên các Server
* Nhược điểm của HIDS:
- Thông tin không đáng tin cậy sau khi bị tấn cơng: Thơng tin từ HIDS có thể
khơng đáng tin cậy ngay khi máy chủ bị tấn công thành công.
16
- Tương thích với hệ điều hành: HIDS phụ thuộc vào hệ điều hành của máy
tính mục tiêu và có thể bị vơ hiệu hóa hoặc lừa đảo.
- Cần cài đặt trên từng máy chủ: HIDS cần phải được cài đặt và cấu hình trên
từng máy chủ cần giám sát.
- Khơng phát hiện các cuộc qt mạng: HIDS khơng có khả năng phát hiện
các cuộc quét mạng như Nmap hoặc Netcat.
- Tài nguyên máy tính: HIDS cần tài nguyên máy tính để hoạt động đúng cách
và có thể ảnh hưởng đến hiệu suất máy chủ.
- Khả năng phát hiện thấp khi bị tấn cơng DOS (Denial of Service): HIDS có
thể không hiệu quả trong việc phát hiện các cuộc tấn công DOS.
1.2.2. Phát hiện xâm nhập sử dụng hệ thống các luật
Phương pháp phát hiện xâm nhập sử dụng hệ thống các luật (gọi tắt là
Signature-Based Intrusion Detection) là một trong những kỹ thuật phổ biến và cổ
điển trong lĩnh vực phát hiện xâm nhập mạng. Phương pháp này dựa trên việc xác
định các đặc điểm hoặc dấu hiệu của các cuộc tấn công mạng đã biết trước, như các
mẫu mã độc hại hoặc hoạt động khơng bình thường trong mạng. Trong phần này, tơi
sẽ trình bày ngun lý hoạt động, loại dấu hiệu, cách thức phát hiện, và ưu nhược
điểm của phương pháp này.
Phương pháp phát hiện xâm nhập sử dụng hệ thống các luật hoạt động theo
cách sau:
- Thu thập dữ liệu: Hệ thống IDS thu thập dữ liệu từ nhiều nguồn khác nhau
trong hệ thống thông tin, bao gồm dữ liệu mạng, dữ liệu hệ thống, và dữ liệu ứng dụng.
17
- Phân tích dữ liệu: Dữ liệu thu thập được sau đó được phân tích để xác định
các dấu hiệu của các cuộc tấn công mạng đã biết trước. Các dấu hiệu này bao gồm
các mẫu mã độc hại hoặc các hoạt động không thường xuất hiện trong mạng.
- Phát hiện và cảnh báo: Khi hệ thống phát hiện các dấu hiệu của cuộc tấn cơng
mạng trong dữ liệu, nó sẽ phát ra cảnh báo cho người quản trị hệ thống, cho họ biết
rằng có sự cố xâm nhập mạng đang xảy ra.
Trong phương pháp này, có hai loại dấu hiệu chính được sử dụng:
- Dấu hiệu tĩnh (Static Signature): Đây là các dấu hiệu không thay đổi theo
thời gian và dựa vào các thông tin cố định như các mẫu mã độc hại, danh sách các
địa chỉ IP của các máy chủ độc hại, và các chuỗi ký tự cụ thể.
- Dấu hiệu động (Dynamic Signature): Đây là các dấu hiệu có thể thay đổi theo
thời gian và dựa vào các hoạt động thực tế trong mạng, chẳng hạn như các hành vi
không thường xuất hiện của người dùng, các hoạt động không thường trên mạng, và
sự thay đổi của các thơng số mạng.
Có hai cách thức chính để phát hiện các dấu hiệu của cuộc tấn công mạng
trong phương pháp này:
- So sánh với cơ sở dữ liệu dấu hiệu: Hệ thống IDS sử dụng một cơ sở dữ liệu
chứa các dấu hiệu của các cuộc tấn công mạng đã biết trước. Khi dữ liệu thu thập được
trùng khớp với các dấu hiệu trong cơ sở dữ liệu này, hệ thống sẽ phát ra cảnh báo.
- Sử dụng thuật tốn phân tích dữ liệu: Hệ thống IDS có thể sử dụng các thuật
tốn phân tích dữ liệu để tìm kiếm các dấu hiệu của cuộc tấn cơng mạng trong dữ
liệu thu thập được. Các thuật tốn này có thể phát hiện các mẫu mới mà không cần
phải dựa vào cơ sở dữ liệu dấu hiệu.
Phương pháp này là một trong những phương pháp hiệu quả và phổ biến nhất
hiện nay, bởi những ưu điểm mà nó sở hữu như
18
- Dễ triển khai và quản lý: Phương pháp này dễ dàng triển khai và quản lý vì
nó dựa vào việc so sánh với các dấu hiệu đã biết trước.
- Phát hiện các cuộc tấn công với hiệu suất cao: Nó có thể phát hiện các cuộc
tấn cơng mạng đã biết trước đối với các đối tượng được xác định.
Tuy nhiên cũng có những nhược điểm nhất định như:
- Khó phát hiện các cuộc tấn công mới hoặc các dấu hiệu mới: Phương pháp
này gặp khó khăn trong việc phát hiện các cuộc tấn công mới hoặc các dấu hiệu mới
mà khơng có trong cơ sở dữ liệu dấu hiệu.
- Có thể gây ra các cảnh báo sai: Nó có thể phát ra các cảnh báo sai khi dấu hiệu
đã biết trước bất ngờ xuất hiện trong môi trường không phải là cuộc tấn công thực sự.
1.2.3. Phát hiện xâm nhập sử dụng học máy
Phương pháp phát hiện xâm nhập mạng sử dụng machine learning là một
phương pháp tiên tiến trong lĩnh vực an ninh mạng, sử dụng các thuật tốn machine
learning để tự động phân tích dữ liệu và nhận biết các hoạt động khơng bình thường,
có thể là dấu hiệu của cuộc tấn công mạng.
Nguyên lý hoạt động của việc phát hiện xâm nhập dựa trên các thuật toán học
máy cụ thể như sau:
- Thu thập dữ liệu: dữ liệu từ các hệ thống thông tin như lưu lượng mạng, dữ
liệu hệ thống, và dữ liệu ứng dụng được thu thập.
- Sử dụng thuật toán machine learning: các thuật tốn machine learning được
áp dụng để phân tích dữ liệu và xây dựng các mơ hình hoạt động bình thường dựa
trên dữ liệu đã thu thập. Các mơ hình này có khả năng học từ dữ liệu và tự cập nhật
để phản ánh sự thay đổi trong môi trường mạng.
19
- Phân loại hoạt động: khi có dữ liệu mới được thu thập, hệ thống sử dụng các
mơ hình đã học phân loại các hoạt động thành bình thường hoặc bất thường. Các hoạt
động được xem là bất thường sẽ được đánh dấu là tiềm năng có thể là tấn công mạng.
- Phát hiện và báo lỗi: khi phát hiện các hoạt động bất thường, hệ thống sẽ phát
ra cảnh báo cho người quản trị hoặc thực hiện các biện pháp tự động để ngăn chặn
tấn cơng.
Những thuật tốn machine learning phổ biến và hiệu quả, đang được ứng dụng
rộng rãi nhất hiện nay có thể kể đến như:
a. Suppost Vector Machine (SVM)
Suppost Vector Machine (SVM) có thể được sử dụng cho cả phân loại và hồi
quy. SVM xác định các lớp khác nhau cần dự đốn thơng qua một siêu mặt phẳng
phân tách. Cách phân loại phụ thuộc vào bản chất của vấn đề và tập dữ liệu được sử
dụng. Nếu tập dữ liệu là một chiều, thì siêu mặt phẳng là một điểm trên đường thẳng
một chiều. Trong trường hợp dữ liệu là hai chiều, siêu mặt phẳng là một đường phân
cách, và đối với dữ liệu ba chiều, siêu mặt phẳng trở thành một mặt phẳng. Cuối
cùng, đối với tập dữ liệu có nhiều chiều hơn, siêu mặt phẳng sẽ trở thành siêu mặt
phẳng nhiều chiều.
SVM được sử dụng rộng rãi trong hầu hết các hệ thống phát hiện xâm nhập do
khả năng đưa ra các dự đốn chính xác.
b. Artficial Neural Network (ANN)
Mạng nơ-ron nhân tạo (ANN) là một loại thuật toán học máy được truyền cảm
hứng từ cách hoạt động và khả năng tính tốn của hệ thống thần kinh của con người.
Mơ hình của ANN bao gồm một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu
ra. Các lớp ẩn này trọng số và xử lý đầu vào được đưa vào các nơ-ron nhân tạo, để
quyết định đầu ra đối với lớp tiếp theo.