Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 202 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Đồng Nai, năm 2022

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chun ngành: Khoa học máy tính
Mã số ngành: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. TRẦN VĂN LĂNG

Đồng Nai, năm 2022

LỜI CAM ĐOAN
Tên tơi là: Hồng Ngọc Thanh
Sinh ngày: 13/11/1969

Nơi sinh: Bình Định

Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học
Lạc Hồng.
Tơi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu
trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là
cơng trình nghiên cứu của cá nhân tơi, đây là cơng trình do tơi thực hiện dưới sự hướng dẫn
của giảng viên, người hướng dẫn khoa học là: PGS. TS. Trần Văn Lăng. Các thuật toán, số
liệu và kết quả trình bày trong luận án là hồn tồn có được từ các thử nghiệm, trung thực
và khơng sao chép.

Nghiên cứu sinh

Hoàng Ngọc Thanh

LỜI CẢM ƠN
Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. Trần
Văn Lăng - người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như
tâm huyết nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều
kiện tốt nhất để tơi hồn thành luận án này.
Tơi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,
Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi

trong suốt thời gian tôi tham gia nghiên cứu sinh.
Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,
Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gịn, nơi tơi đang
cơng tác. Và tơi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những
người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.
Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những
người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tơi vững bước và
vượt qua mọi khó khăn.

Tác giả

Hồng Ngọc Thanh

TÓM TẮT
Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường
an ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng
cao khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS).
Các nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong
việc cải thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.
Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và
cải tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ
thống phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:
(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các
NIDS.
(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên
quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính
tốn.
(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính
xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát

hiện xâm nhập.
Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai
đoạn tiền xử lý dữ liệu, cụ thể là:
(1) Đề x́t 2 thuật tốn lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật tốn lựa chọn
thuộc tính FFC và BFE đã biết.
(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.
Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối
hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,
Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm
trên các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy,
các giải pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.
Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại
những tồn tại và định hướng phát triển trong tương lai:
(1) Thời gian huấn luyện các mơ hình phân lớp đề x́t cịn lớn, việc phối hợp đúng
đắn các thuật tốn để xây dựng một mơ hình phân lớp lai, đa nhãn và đáp ứng thời gian thực
là vấn đề cần được tiếp tục nghiên cứu.
(2) Năng lực xử lý đóng vai trị quan trọng trong việc khai thác các thuật toán học
máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối
ưu các tham số cho các kỹ thuật học máy là vấn đề còn bo ngo.

ABSTRACT
Stream-based intrusion detection is a growing problem in computer network
security environments. Many previous researches have applied machine learning as a
method to detect attacks in Network Intrusion Detection Systems (NIDS). However, these
methods still have limitations of low accuracy, high false alarm rate and detecting new
attacks.
The content of the thesis proposes some solutions using ensemble machine learning
techniques and improving data preprocessing techniques in improving the classification
quality of NIDS. This is based on the fact that:

(1) There is a lot of class imbalance data in the training datasets used for NIDS.
(2) Machine learning algorithms can use some features that are really irrelevant to
the classification goal, which reduces the quality of classification and increases computation
time.
(3) Ensemble classifiers outperform the single classifiers in classification accuracy.
The advantages of the ensemble classifier are particularly evident in the area of network
intrusion detection.
To solve the problem, the thesis proposes to improve the implementation of two
solutions in the data preprocessing stage, details as follows:
(1) Proposing 2 feature selection algorithms on the basis of improving 2 known
FFC and BFE feature selection algorithms.
(2) Improving techniques for oversampling and undersampling the training dataset.
The resulting data after preprocessing is used to train the ensemble classifiers using
both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,
Stacking and RF) ensemble machine learning algorithms. The experimental results on the
full training and testing datasets of the UNSW-NB15 dataset show that the proposed
solutions have improved the classification quality of the NIDS.
In addition to the achieved results, the research results of the thesis also leave
shortcomings and future development orientations:
(1) The training time of the proposed classification models is still large, the
coordination the right algorithms to build a hybrid, multi-label and real-time response
classification model is a problem that needs to be further researched.
(2) Processing capacity plays an important role in exploiting machine learning
algorithms. The improvement of processing efficiency in the direction of parallel processing
as well as the optimization of parameters for machine learning techniques is still an open
issue.

MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU.................................................................................................. 1

1.1 Hệ thống phát hiện xâm nhập...................................................................................... 1
1.1.1 Giới thiệu về IDS................................................................................................ 1
1.1.2 Phân loại IDS...................................................................................................... 2
1.1.3 IDS sử dụng kỹ thuật học máy............................................................................ 3
1.2 Tính cấp thiết của đề tài luận án................................................................................... 5
1.3 Mục tiêu nghiên cứu.................................................................................................... 5
1.4 Đối tượng và phạm vi nghiên cứu................................................................................ 6
1.4.1 Đối tượng nghiên cứu......................................................................................... 6
1.4.2 Phạm vi nghiên cứu............................................................................................ 6
1.5 Phương pháp nghiên cứu............................................................................................. 6
1.6 Ý nghĩa khoa học và thực tiễn...................................................................................... 6
1.6.1 Ý nghĩa khoa học................................................................................................ 6
1.6.2 Ý nghĩa thực tiễn................................................................................................. 6
1.7 Những điểm đóng góp mới.......................................................................................... 7
1.8 Kết cấu của luận án...................................................................................................... 7
CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN.............................................................. 8
2.1 Cơ sở lý thuyết............................................................................................................. 8
2.1.1 Lựa chọn thuộc tính............................................................................................ 8
2.1.2 Lấy mẫu lại tập dữ liệu..................................................................................... 15
2.1.3 Kỹ thuật học máy.............................................................................................. 21
2.1.4 Tập dữ liệu sử dụng cho các IDS...................................................................... 27
2.1.5 Chỉ số đánh giá hiệu năng các IDS................................................................... 33
2.2 Các nghiên cứu liên quan về học máy cho IDS.......................................................... 36
2.2.1 Lựa chọn thuộc tính.......................................................................................... 36
2.2.2 Lấy mẫu lại tập dữ liệu..................................................................................... 38
2.2.3 Các mơ hình học máy cho các IDS................................................................... 40
2.2.4 Nhận xét............................................................................................................ 56
CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH................................................. 57
3.1 Giải pháp lựa chọn thuộc tính đề xuất........................................................................ 57
3.1.1 Các chỉ số đo thơng tin...................................................................................... 57

3.1.2 Thuật tốn loại bo thuộc tính ngược BFE......................................................... 58
3.1.3 Thuật tốn chọn thuộc tính thuận FFC.............................................................. 59
3.1.4 Thuật tốn lựa chọn thuộc tính đề x́t............................................................. 61
3.2 Kết quả thực hiện....................................................................................................... 65
3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms.................................................. 66

3.2.2 Lựa chọn thuộc tính với kiểu tấn cơng Shellcode............................................. 68
3.2.3 Lựa chọn thuộc tính với kiểu tấn cơng Backdoor.............................................. 70
3.2.4 Lựa chọn thuộc tính với kiểu tấn cơng Analysis............................................... 72
3.2.5 Lựa chọn thuộc tính với kiểu tấn cơng Recce................................................... 74
3.2.6 Lựa chọn thuộc tính với kiểu tấn cơng DoS...................................................... 76
3.2.7 Lựa chọn thuộc tính với kiểu tấn cơng Fuzzers................................................. 78
3.2.8 Lựa chọn thuộc tính với kiểu tấn cơng Exploits................................................ 80
3.2.9 Lựa chọn thuộc tính với kiểu tấn cơng Generic................................................ 82
3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất....................84
CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU............................................ 87
4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất................................................................... 87
4.1.1 Giải pháp tăng mẫu........................................................................................... 87
4.1.2 Giải pháp giảm mẫu.......................................................................................... 91
4.2 Kết quả thực hiện....................................................................................................... 95
4.2.1 Tăng mẫu tập dữ liệu........................................................................................ 96
4.2.2 Giảm mẫu tập dữ liệu...................................................................................... 106
4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu.......................... 117
CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MƠ HÌNH IDS....................................... 120
5.1 Kỹ thuật phối hợp đề xuất........................................................................................ 120
5.2 Kết quả thực hiện..................................................................................................... 125
5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms..................................... 127
5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode................................. 129
5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor.................................131

5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis................................... 133
5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce....................................... 135
5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS.......................................... 137
5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.................................... 139
5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits.................................... 141
5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.................................... 143
5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp................................................. 145
5.4 Mơ hình phân lớp lai đề xuất................................................................................... 146
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................ 149
6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển............................... 149
6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án................................................ 150

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Viết tắt
ABC
ADASYN
ANN
AUC
Bagging
BFE
BFS
BN
CA
CART
CFS
CNN
CSE
CV
DoS

DT
FFC
ELM
ENN
FPR
GA
GAR
GC
GP
GR
ICA
IDS
IG
KNN
KNNCF
LC
LDA
LOO
LR

Viết đầy đủ
Artificial Bee Colony
Adaptive Synthetic Sampling
Artificial Neural Network
Area Under the Curve
Bootstrap Aggregation
Backward Feature Elimination
Best First Search
Bayesian Network
Correlation Attribute

Classification and Regression Trees
Correlation-based Feature Selection
Convolutional Neural Network
Consistency Subset Evaluator
Cross Validation
Denial of Service
Decision Tree
Forward Feature Construction
Extreme Learning Machines
Edited Nearest Neighbors
False Positive Rate
Genetic Algorithm
GRASP with Annealed Randomness
Global Competence
Genetic Programming
Gain Ratio
Independent Component Analysis
Intrusion Detection System
Information Gain
K Nearest Neighbours
K Nearest Neighbor Collaborative Filtering
Local Competence
Linear Discriminant Analysis
Leave One Out
Logistic Regression

LSTM
MARS
ML

MLP
MV
NB
NCR
NSGA
OAR
OSELM
PART
PCA
PSO
R2L
RBF
RF
RMV
RNN
ROC
RT
SMOTE
SSV
SU
SVM
TPR
U2R
WLC
WMV
WRMV
WTA

Long Short - Term Memory
Multivariate Adaptive Regression Splines

Machine Learning
Multi Layer Perceptron
Majority Voting
Naïve Bayes
Neighborhood Cleaning Rule
Non-dominated Sorting Genetic Algorithm
One Against Rest
Sequential Extreme Learning Machine
Partial Decision Tree
Principal Component Analysis
Particle Swarm Optimization
Remote to Local
Radial Basis Function
Random Forest
Rigged Majority Voting
Recurrent Neural Network
Receiver Operating Characteristics
Random Tree
Synthetic Minority Over-Sampling Technique
Separability Split Value
Symmetrical Uncertainty
Support Vector Machine
True Positive Rate
User to Root
Weighted Local Competence
Weighted Majority Voting
Weighted Rigged Majority Voting
Winner Takes All

DANH MỤC CÁC BẢNG, BIỂU
Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15..............................................................30
Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15.............................................................................32
Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS..................................................................40
Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất............................................... 45
Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất................................................. 47
Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết........................................................... 52
Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến.........................................................55
Bảng 2.8. So sánh độ chính xác tổng thể......................................................................................55
Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15......................................65
Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Worms......................67
Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms....................68
Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Worms....................68
Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms.........................68
Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Shellcode.................69
Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Shellcode................70
Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode................70
Bảng 3.9. So sánh mBFE-GR với các thuật tốn khác với kiểu tấn cơng Shellcode...................70
Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71
Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Backdoor..............72
Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Backdoor..............72
Bảng 3.13. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn công Backdoor.................72
Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Analysis.................73
Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis................74
Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Analysis................74
Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn cơng Analysis...................74
Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75
Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Recce....................76
Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce....................76
Bảng 3.21. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn cơng Recce.......................76

Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng DoS........................77
Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS.......................78
Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng DoS.......................78
Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS..........................78
Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Fuzzers...................79
Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Fuzzers.................80
Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80
Bảng 3.29. So sánh mBFE-IG với các thuật tốn khác với kiểu tấn cơng Fuzzers......................80
Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits..................81
Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Exploits................82
Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Exploits.................82
Bảng 3.33. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn công Exploits....................82
Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Generic..................83
Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic.................84
Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Generic.................84
Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84

Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công................................... 85
Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính...........................103
Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính.......................104
Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu....................................................105
Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms.................................107
Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode.............................108
Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor.............................108
Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis.............................. 109
Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce...................................110
Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS......................................111
Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers.............................. 111
Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits............................. 112

Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic..............................113
Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính........................114
Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính....................115
Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu.................................................116
Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu....................................117
Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu........................................118
Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms..............128
Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms.........129
Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode..........130
Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode.....131
Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor..........132
Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor.....133
Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134
Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135
Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce................136
Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce.........137
Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138
Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139
Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers...........140
Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers......141
Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits..........142
Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143
Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic...........144
Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic......145
Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn....................................................145
Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp............................................145
Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công.............................................................147
Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất....................................................................147
Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất......................................................148
Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây........................................148

Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây......................................148

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4
Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp......................................................16
Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE............................................................................. 17
Hình 2.3. Các Liên kết Tomek loại bo sự chồng chéo giữa các lớp.............................................20
Hình 2.4. Kỹ thuật Bootstrap........................................................................................................22
Hình 2.5. Kỹ thuật Bagging..........................................................................................................22
Hình 2.6. Kỹ thuật Boosting.........................................................................................................23
Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta......................................................................24
Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................ 28
Hình 2.9. Mơ hình trích x́t dữ liệu UNSW-NB15 sử dụng cơng cụ IXIA................................29
Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15.......................................32
Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC.........................................................35
Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS....................................................................35
Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS..................................................................... 42
Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS....................................................42
Hình 3.1. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Worms.....................................67
Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn cơng Worms........................................67
Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Worms..................................67
Hình 3.4. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Shellcode.................................68
Hình 3.5. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Shellcode...................................69
Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Shellcode..............................69
Hình 3.7. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Backdoor.................................71
Hình 3.8. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Backdoor................................... 71
Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Backdoor..............................71
Hình 3.10. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Analysis.................................72
Hình 3.11. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Analysis...................................73

Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Analysis..............................73
Hình 3.13. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Recce.....................................74
Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn cơng Recce....................................... 75
Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Recce..................................75
Hình 3.16. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng DoS....................................... 76
Hình 3.17. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng DoS..........................................77
Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn cơng DoS.....................................77
Hình 3.19. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Fuzzers..................................79
Hình 3.20. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Fuzzers.....................................79
Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Fuzzers...............................79
Hình 3.22. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Exploits.................................81

Hình 3.23. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Exploits....................................81
Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Exploits.............................. 81
Hình 3.25. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Generic..................................83
Hình 3.26. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Generic.................................... 83
Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Generic...............................83
Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề x́t.....................85
Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms........................................... 97
Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Shellcode.......................................97
Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Backdoor.......................................98
Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis.........................................99
Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Recce.............................................99
Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng DoS..............................................100
Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Fuzzers........................................101
Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Exploits....................................... 101
Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Generic........................................102
Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106
Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Worms..........................107

Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Shellcode......................108
Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Backdoor......................109
Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Analysis.......................110
Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Recce............................110
Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng DoS...............................111
Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Fuzzers.........................112
Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Exploits........................112
Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Generic.........................113
Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất.........117
Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu...............................121
Hình 5.2. Chọn mơ hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn cơng...........122
Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn cơng.......................122
Hình 5.4. Kỹ thuật phối hợp Voting khơng đồng nhất với từng kiểu tấn cơng..........................122
Hình 5.5. Mơ hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm.............125
Hình 5.6. Mơ hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm..................................126
Hình 5.7. Mơ hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm.......................126
Hình 5.8. Mơ hình IDS đề x́t phát hiện các kiểu tấn công mạng............................................147

DANH MỤC CÁC THUẬT TỐN
Thuật tốn 2.1. Thuật tốn Focus......................................................................................... 12
Thuật tốn 2.2. Thuật tốn AAB.......................................................................................... 12
Thuật tốn 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính.................................. 13
Thuật tốn 2.4. Lựa chọn thuộc tính LVF............................................................................. 14
Thuật tốn 2.5. Kỹ thuật tăng mẫu SMOTE......................................................................... 16
Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN......................................... 18
Thuật tốn 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE....................................................... 19
Thuật toán 2.8. Xác định và loại bo các Liên kết Tomek...................................................... 20
Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate................................................. 25
Thuật tốn 3.1. Lựa chọn thuộc tính sử dụng BFE............................................................... 58

Thuật tốn 3.2. Lựa chọn thuộc tính sử dụng FFC............................................................... 59
Thuật tốn 3.3. Thuật tốn lựa chọn thuộc tính mFFC......................................................... 63
Thuật tốn 3.4. Thuật tốn lựa chọn thuộc tính mBFE......................................................... 64
Thuật tốn 4.1. Thuật toán tăng mẫu kết hợp với mFFC...................................................... 89
Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE...................................................... 90
Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC..................................................... 93
Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE..................................................... 94
Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.................... 123
Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124

1

CHƯƠNG 1. GIỚI THIỆU
Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán
nghiên cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện và Cấu
trúc của luận án.
1.1 Hệ thống phát hiện xâm nhập
Internet là xu hướng của thời đại, mang lại lợi thế cho các cá nhân, doanh nghiệp
biết tận dụng và phát huy thế mạnh của internet. Internet là chìa khóa vàng để đi đến thành
công. Để đạt đến 50 triệu người dùng, phát thanh mất 38 năm, truyền hình mất 13 năm,
internet chỉ cần 4 năm, và mạng xã hội facebook chỉ cần 2 năm. Internet và những công cụ
trên internet, các website bán hàng, website kinh doanh online, … đã được khai thác vào các
hoạt động kinh doanh và mang lại những nguồn thu lớn cho các cá nhân, doanh nghiệp.
Bên cạnh những lợi ích của internet, các cơ quan, doanh nghiệp cũng phải đối đầu
với mặt trái của mạng internet, một trong những mặt tiêu cực đó là vấn đề tấn cơng mạng.
Tấn cơng mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính,
website, cơ sở dữ liệu, hạ tầng mạng, thiết bị của các cá nhân, doanh nghiệp thông qua
mạng internet với những mục đích bất hợp pháp. Mục tiêu của một cuộc tấn cơng mạng rất
đa dạng, có thể là vi phạm dữ liệu (đánh cắp, thay đổi, mã hóa, phá hủy), cũng có thể nhắm

tới sự tồn vẹn của hệ thống (gây gián đoạn, cản trở dịch vụ), hoặc lợi dụng tài ngun của
nạn nhân.
Để đối phó với vấn đề tấn cơng mạng, một vấn đề then chốt đối với những nhà quản
trị mạng ở các cơ quan, doanh nghiệp là nhanh chóng phát hiện xâm nhập và tiến tới ngăn
chặn xâm nhập. Một trong những hệ thống được các nhà quản trị mạng sử dụng thông dụng
hiện nay là Hệ thống phát hiện xâm nhập (Intrusion Detection System: IDS).
1.1.1 Giới thiệu vê IDS
IDS là hệ thống giám sát lưu lượng mạng hoặc máy chủ nhằm phát hiện ra hiện
tượng bất thường, các hoạt động trái phép xâm nhập vào hệ thống mạng hoặc máy chủ của
các cơ quan, doanh nghiệp. IDS có thể phân biệt các cuộc tấn cơng từ nội bộ hoặc từ bên
ngồi. IDS có thể phát hiện dựa trên các dấu hiệu đặc biệt về nguy cơ đã biết hoặc dựa trên
so sánh lưu lượng mạng hiện tại với thơng số chuẩn của hệ thống để tìm ra các dấu hiệu bất
thường. Tính hiệu quả của một IDS được thể hiện qua các tiêu chí:
(1) Tính chính xác (Accuracy): IDS phải có độ chính xác cao, tránh các trường hợp
báo động giả hoặc không phát hiện xâm nhập khi bị tấn cơng;
(2) Hiệu năng (Performance): IDS có thể phát hiện xâm nhập trong thời gian ngắn
nhất, để kịp thời có các hành động ứng phó phù hợp. Tránh tình trạng phát hiện ra khi tội
phạm mạng đã gây tổn hại cho hệ thống;
(3) Tính trọn vẹn (Completeness): IDS không được bo qua bất cứ một xâm nhập trái
phép nào;
(4) Khả năng chịu lỗi (Fault Tolerance): IDS phải có khả năng chống lại tấn cơng.
Có trường hợp, bản thân IDS cũng khơng hoạt động khi phía xâm nhập tấn cơng vào chính
IDS;
(5) Khả năng mở rộng (Scalability): IDS phải có khả năng mở rộng để đáp ứng nhu
cầu ngày càng cao của người dùng về lưu lượng dữ liệu.

2

1.1.1.1 Kiến trúc của IDS

Kiến trúc của IDS bao gồm 3 thành phần chính: (1) Thành phần thu thập gói tin; (2)
Thành phần phân tích gói tin và phát hiện xâm nhập và (3) Thành phần phản hồi nếu gói tin
được xác định là một cuộc tấn công. Trong 3 thành phần này thì thành phần phân tích gói tin
và phát hiện xâm nhập là thành phần quan trọng nhất, và ở thành phần này bộ cảm biến
(sensor) đóng vai trò quyết định.
1.1.1.2 Các chức năng của IDS
Chức năng quan trọng nhất của IDS là: (1) Giám sát lưu lượng truy cập mạng hoặc
các hoạt động bất thường; (2) Cảnh báo cho người quản trị mạng khi biết được các hoạt
động bất thường và (3) Có những hành động chống lại kẻ xâm nhập.
Ngồi ra, IDS cịn có các chức năng mở rộng như: (1) Ngăn chặn sự gia tăng của
các tấn công; (2) Cập nhật, bổ sung những điểm yếu mà hệ thống chưa làm được và (3)
Đánh giá chất lượng của việc thiết kế hệ thống.
1.1.1.3 Quy trình hoạt đợng của IDS
Quy trình hoạt động của IDS gồm các bước như sau:
(1) Khi có các truy cập vào ra mạng, các cảm biến trên mạng sẽ đọc các gói tin. Các
cảm biến này được đặt sao cho nó có thể đọc được tất cả các gói tin vào ra trên mạng;
(2) Một chương trình phát hiện nằm trong bộ cảm biến kiểm tra xem có gói tin nào
có dấu hiệu xâm nhập khơng, khi có dấu hiệu xâm nhập thì một cảnh báo sẽ được tạo ra và
gửi đến giao diện điều khiển;
(3) Khi giao diện điều khiển nhận được cảnh báo, nó sẽ gửi cho người quản trị
mạng, đồng thời:
(4) Khởi tạo và thực hiện quy trình phản hồi ứng với từng dấu hiệu xâm nhập.
1.1.2 Phân loại IDS
Hệ thống IDS được chia làm 2 loại cơ bản:
- IDS dựa trên mạng (Network-based IDS: NIDS): là các IDS sử dụng dữ liệu trên
tồn bộ lưu thơng mạng cùng dữ liệu kiểm tra từ một hoặc một vài máy trạm để phát hiện
xâm nhập.
- IDS dựa trên máy chủ (Host-based IDS: HIDS): là các IDS sử dụng dữ liệu kiểm
tra từ một máy chủ đơn lẻ để phát hiện xâm nhập.
1.1.2.1 IDS dựa trên mạng

Hệ thống IDS dựa trên mạng sẽ kiểm tra các giao tiếp trên mạng với thời gian thực.
Nó kiểm tra các giao tiếp, quét tiêu đề của các gói tin và có thể kiểm tra nội dung của các
gói đó để phát hiện ra các đoạn mã nguy hiểm hay các dạng tấn công khác nhau.
Ưu điểm của NIDS: quản lý được cả một mạng; trong suốt với người dùng lẫn tội
phạm mạng; cài đặt và bảo trì đơn giản; có khả năng xác định lỗi ở tầng mạng và độc lập
với hệ điều hành.

3

Nhược điểm của NIDS: có thể xảy ra trường hợp báo động giả; khơng thể phân tích
các dữ liệu đã được mã hóa; địi hoi phải được cập nhật các chữ ký mới; có độ trễ giữa thời
điểm bị tấn công với thời điểm phát báo động và cuối cùng là giới hạn về thông lượng.
1.1.2.2 IDS dựa trên máy chủ
Bằng cách cài đặt một phần mềm trên máy chủ, HIDS quan sát tất cả những hoạt
động về hệ thống và các file log, lưu lượng mạng thu thập, … HIDS cũng theo dõi hệ điều
hành, những cuộc gọi hệ thống, lịch sử và những thông điệp báo lỗi trên hệ thống máy chủ.
HIDS thường được cài đặt và giám sát các hoạt động trên một máy tính nhất định thay vì
giám sát hoạt động của một mạng. Nhiệm vụ của HIDS là theo dõi các thay đổi trên hệ
thống gồm: các tiến trình; mức độ sử dụng CPU; tình trạng RAM; tính tồn vẹn của hệ
thống, ...
Ưu điểm của HIDS: có khả năng xác định người dùng liên quan tới sự kiện; có khả
năng phát hiện tấn cơng diễn ra trên một máy; có thể phân tích các dữ liệu mã hóa; và có thể
cung cấp các thơng tin về máy chủ trong lúc cuộc tấn công diễn ra.
Nhược điểm của HIDS: thông tin từ HIDS là không đáng tin cậy ngay khi việc tấn
công vào máy chủ thành công; khi hệ điều hành không thể hoạt động do bị tấn công, HIDS
cũng sẽ không hoạt động được; HIDS phải được thiết lập trên từng máy chủ cần giám sát;
HIDS khơng có khả năng phát hiện các cuộc dị quét mạng (Nmap, Netcat, ...) và cuối cùng,
HIDS cần tài nguyên trên máy chủ để hoạt động.
1.1.3 IDS sử dụng kỹ thuật học máy

Đối với các IDS, có ba phương pháp để phát hiện các cuộc tấn công: (1) Phát hiện
dựa trên chữ ký; (2) Phát hiện dựa trên sự bất thường và (3) Phát hiện dựa trên sự kết hợp
nhằm khắc phục các nhược điểm, phát huy các ưu điểm của hai phương pháp trên.
Phát hiện dựa trên chữ ký được thiết kế để phát hiện các cuộc tấn công đã biết bằng
cách sử dụng chữ ký của các cuộc tấn cơng đó. Đây là một phương pháp hiệu quả để phát
hiện các cuộc tấn công đã biết được lưu trữ trong cơ sở dữ liệu IDS. Do đó, nó chính xác
hơn nhiều trong việc xác định một nỗ lực xâm nhập của một cuộc tấn công đã biết.
Tuy nhiên, với các kiểu tấn công mới hoặc biến thể, IDS khơng thể phát hiện vì chữ
ký của tấn cơng đó khơng được lưu trữ. Để khắc phục sự cố này, tính năng phát hiện dựa
trên sự bất thường, so sánh các hoạt động hiện tại của người dùng với các cấu hình xác định
trước để phát hiện xâm nhập. Tính năng phát hiện dựa trên sự bất thường có hiệu quả chống
lại các cuộc tấn công không xác định hoặc các cuộc tấn cơng zero-day mà khơng có bất kỳ
bản cập nhật nào cho hệ thống. Tuy nhiên, phương pháp này thường có tỷ lệ dương tính giả
cao [1].
Các tiếp cận phát hiện xâm nhập của các IDS được trình bày ở Hình 1.1. Với các
IDS phát hiện xâm nhập dựa trên sự bất thường, có nhiều nghiên cứu đã đề xuất sử dụng kỹ
thuật học máy (Machine Learning: ML) để phát hiện xâm nhập nhằm giảm tỷ lệ dương tính
giả và tạo ra các IDS chính xác. Tuy nhiên, để đối phó với dữ liệu lớn, các kỹ thuật ML
truyền thống cần nhiều thời gian cho việc huấn luyện và phân lớp dữ liệu. Sử dụng các kỹ
thuật dữ liệu lớn và ML cho IDS có thể giải quyết nhiều thách thức như tốc độ và thời gian
tính tốn cũng như phát triển các IDS chính xác [1], [2].

4

Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS

5

1.2 Tính cấp thiết của đê tài luận án
Những tiến bộ nhanh chóng của internet và lĩnh vực truyền thơng đã dẫn đến sự gia
tăng lớn về quy mô mạng và dữ liệu tương ứng. Nhiều cuộc tấn công mới đang được tạo ra
và đặt ra những thách thức cho an ninh mạng trong việc phát hiện chính xác các cuộc tấn
công. Hơn thế nữa, càng không thể bo qua sự hiện diện của những tội phạm mạng với mục
đích là khởi động các cuộc tấn công khác trong mạng. IDS là một trong những công cụ ngăn
chặn tấn công mạng bằng cách kiểm tra lưu lượng mạng, để đảm bảo tính bảo mật, tính tồn
vẹn và tính khả dụng của nó. Bất chấp những nổ lực to lớn của các nhà nghiên cứu, các IDS
vẫn phải đối mặt với những thách thức trong việc cải thiện độ chính xác, giảm tỷ lệ cảnh
báo sai và phát hiện được các tấn công mới. Cho đến nay, các hệ thống IDS dựa trên học
máy và học sâu đang được triển khai như các giải pháp tiềm năng để phát hiện các hành vi
tấn công mạng một cách hiệu quả. Khraisat và các cộng sự (2019) [3] đã trình bày chi tiết
một cuộc khảo sát các nghiên cứu gần đây về phương pháp luận, loại và công nghệ của các
hệ thống phát hiện xâm nhập dựa trên kỹ thuật học máy với những ưu điểm và hạn chế của
chúng. Các tác giả kết luận, các cách tiếp cận như vậy vẫn còn tồn tại các thách thức trong
việc tạo và cập nhật thông tin về các cuộc tấn công mới, cũng như giảm tỷ lệ cảnh báo sai và
tăng độ chính xác phát hiện.
X́t phát từ những nhận định đó, chúng tơi nhận thấy việc tìm kiếm giải pháp để
giải quyết những thách thức nêu trên khi xây dựng các IDS vẫn cịn mang tính thời sự và
cần được tiếp tục nghiên cứu. Về mặt thực tiễn, việc này có ý nghĩa rất lớn, vì nó giúp các
nhà quản trị mạng tại các cơ quan, doanh nghiệp phát hiện những nguy cơ tấn cơng xâm
nhập một cách nhanh chóng và chính xác, để từ đó phản ứng lại với các lưu lượng bất
thường bằng cách ngăn chặn người dùng hoặc địa chỉ nguồn truy cập mạng một cách kịp
thời và hiệu quả. Vì lẽ đó, vấn đề cấp thiết đặt ra của đề tài là tìm giải pháp để nâng cao chất
lượng phân lớp của các IDS trong điều kiện tài nguyên tính tốn hạn chế, đồng thời giảm tỷ
lệ cảnh báo sai.
1.3 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu là đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp
của các IDS mạng; cụ thể là nâng cao độ chính xác, đồng thời giảm tỷ lệ cảnh báo sai trong
điều kiện hạn chế về tài ngun tính tốn.

Nhằm thực hiện mục tiêu nghiên cứu nêu trên, luận án có các nội dung chính sau:
(1) Phân tích và đánh giá các tập dữ liệu hiện đang được sử dụng để huấn luyện và
kiểm tra các IDS. Để từ đó lựa chọn tập dữ liệu huấn luyện và kiểm tra, đảm bảo cho việc
xây dựng các mơ hình IDS hiệu quả với các hành vi bình thường hiện đại và các hoạt động
tấn công tổng hợp đương đại.
(2) Chọn chỉ số đánh giá phù hợp nhất để đánh giá độ chính xác của các IDS với các
đặc thù về dữ liệu.
(3) Đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp của các IDS thông
qua việc xử lý dữ liệu và xây dựng mơ hình học máy phù hợp với đặc thù của IDS.

6

1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận án là các hệ thống phát hiện xâm nhập mạng, với sự
quan tâm cụ thể về các tập dữ liệu huấn luyện và kiểm tra, các thuật toán xử lý dữ liệu, các
thuật toán học máy và các chỉ số đánh giá chất lượng của hệ thống.
1.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu của luận án là các hệ thống phát hiện xâm nhập mạng dựa trên
bất thường sử dụng kỹ thuật học máy có giám sát.
1.5 Phương pháp nghiên cứu
Phương pháp thực nghiệm được sử dụng bao gồm:
(1) Thu thập thông tin về các tập dữ liệu huấn luyện và kiểm tra được sử dụng trong
các IDS, cũng như thu thập số liệu từ các tài liệu tham khảo và các kết quả thử nghiệm.
(2) Dữ liệu thu thập được tổng hợp, phân bổ và đưa vào máy tính, tạo thành cơ sở
dữ liệu. Thơng tin được phân tích, so sánh từ các nguồn với nhau, theo thời gian, không gian
để có những nhận xét xác đáng về vấn đề nghiên cứu.
(3) Bảng biểu, đồ thị được sử dụng để trình bày kết quả số liệu, giúp thấy rõ quá
trình vận động, quy luật của đối tượng nghiên cứu. Đồng thời sử dụng để so sánh và đánh

giá hiệu quả của các kỹ thuật trước và sau khi thực hiện các giải pháp đề xuất.
(4) So sánh, phân tích và đánh giá thực trạng các hệ thống phát hiện xâm nhập
mạng, từ đó phát hiện ra những tồn tại, yếu kém, nguyên nhân cũng như xác định những vấn
đề đặt ra cần giải quyết.
1.6 Ý nghĩa khoa học và thực tiễn
1.6.1 Ý nghĩa khoa học
Kết quả nghiên cứu của luận án trên tập dữ liệu UNSW-NB15 cho thấy, so với các
nghiên cứu hiện có cho đến nay của nhiều nhà nghiên cứu, các giải pháp đề xuất đã giúp
nâng cao chất lượng phân lớp khi xây dựng các IDS, cụ thể là:
(1) Đề x́t 2 thuật tốn lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn
thuộc tính FFC và BFE đã biết.
(2) Cải tiến các kỹ thuật tăng mẫu (oversampling) và giảm mẫu (undersampling) tập
dữ liệu huấn luyện.
(3) Xây dựng các bộ phân lớp lai trên cơ sở kết hợp các kỹ thuật tiền xử lý dữ liệu
cải tiến nêu trên với kỹ thuật xây dựng bộ phân lớp phối hợp (ensemble).
1.6.2 Ý nghĩa thực tiễn
IDS là hệ thống phát hiện các dấu hiệu của tấn cơng xâm nhập, đồng thời có thể
khởi tạo các hành động trên thiết bị khác để ngăn chặn tấn công, và cảnh báo cho người
quản trị mạng. Kết quả nghiên cứu của luận án là cơ sở quan trọng giúp các nhà quản trị
mạng ở các cơ quan, doanh nghiệp có được cảnh báo sớm một cách nhanh chóng và hiệu
quả để từ đó có

7

các giải pháp ứng phó phù hợp hoặc tự động ngăn chặn tấn công thông qua việc thêm các
luật vào các thiết bị như tường lửa.
1.7 Những điểm đóng góp mới
Những điểm mới về khoa học của luận án trong việc nghiên cứu và đề xuất các giải
pháp giúp nâng cao chất lượng phân lớp của các IDS mạng, gồm:

(1) Đề xuất kỹ thuật cải tiến việc lựa chọn thuộc tính của tập dữ liệu h́n luyện, tức
là tìm các thuộc tính quan trọng đối với kết quả phân lớp, điều này giúp loại bo các thuộc
tính khơng liên quan và dư thừa, nhờ đó giảm thời gian huấn luyện và kiểm tra bộ phân lớp,
đồng thời nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai [CT2], [CT3], [CT5].
(2) Đề xuất kỹ thuật cải tiến việc xử lý nguồn dữ liệu mất cân bằng vốn có trong các
IDS (dữ liệu tấn cơng chiếm tỷ trọng rất ít so với dữ liệu bình thường), nhờ đó cải thiện chất
lượng phân lớp của hệ thống.
(3) Đề xuất phương pháp xây dựng mơ hình lai trên cơ sở sử dụng các kỹ thuật lấy
mẫu lại tập dữ liệu và lựa chọn thuộc tính như đã đề xuất ở phần trên với xây dựng bộ phân
lớp phối hợp trên cơ sở tổng hợp dự đoán của các bộ phân lớp cơ sở [CT4], [CT6], [CT7].
1.8 Kết cấu của luận án
- Chương 1: Giới thiệu
Trình bày những nội dung tổng quan nhất về luận án gồm: tính cấp thiết, đối tượng
và phạm vi nghiên cứu; mục tiêu và nhiệm vụ; phương pháp nghiên cứu, những điểm đóng
góp mới cũng như ý nghĩa khoa học và thực tiễn của luận án.
- Chương 2: Các nghiên cứu liên quan
Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số
phương pháp tiếp cận phát hiện xâm nhập mạng, cũng như nêu ra các hạn chế, tồn tại.
- Chương 3: Giải pháp lựa chọn thuộc tính
Trình bày các giải pháp lựa chọn thuộc tính đề xuất, kết quả thực hiện và một số
nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS.
- Chương 4: Giải pháp lấy mẫu lại tập dữ liệu
Trình bày các giải pháp lấy mẫu lại tập dữ liệu huấn luyện, kết quả thực hiện và một
số nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS.
- Chương 5: Kỹ thuật phối hợp cho mơ hình IDS
Trình bày giải pháp sử dụng kỹ thuật phối hợp để xây dựng các IDS, kết quả thực
hiện và một số nhận xét, kết luận khi sử dụng giải pháp cũng đã được trình bày.
- Chương 6: Kết luận và hướng phát triển
Trình bày một số kết luận; Các hạn chế, tồn tại và hướng phát triển của luận án.
- Danh mục các công trình đã công bố của luận án

Liệt kê các cơng trình đã cơng bố có liên quan đến đề tài luận án.

8

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN
Chương 2 trình bày các cơng trình nghiên cứu liên quan, các khái niệm cơ bản,
nghiên cứu có liên quan trực tiếp đến các cơng trình cũng như đóng góp chính của luận án,
gồm:
(1) Việc lựa chọn thuộc tính sử dụng cho các IDS;
(2) Lấy mẫu lại tập dữ liệu được sử dụng để huấn luyện các IDS;
(3) Các kỹ thuật học máy để xây dựng các IDS, đặc biệt là kỹ thuật học máy phối
hợp.
Qua đó so sánh, làm rõ những tồn tại, thách thức cần được tiếp tục nghiên cứu, hoàn
thiện và đó cũng là các mục tiêu nghiên cứu của luận án này.
2.1 Cơ sở lý thuyết
2.1.1 Lựa chọn tḥc tính
2.1.1.1 Phương pháp lựa chọn tḥc tính
Khi dữ liệu tăng theo cấp số nhân, chất lượng dữ liệu để xử lý bằng khai phá dữ
liệu, nhận dạng mẫu, xử lý hình ảnh và các thuật toán học máy, … giảm dần. Dữ liệu kích
thước lớn hơn dẫn đến sự phổ biến của dữ liệu nhiễu, không liên quan và dư thừa. Điều đó
làm tăng tỷ lệ lỗi, giảm độ chính xác dự báo của các thuật toán học máy. Vấn đề chính là
làm thế nào để cải thiện được hiệu quả phân lớp dựa trên những tri thức học được từ dữ liệu.
Một trong những phương pháp cải thiện hiệu quả phân lớp như vậy là lựa chọn thuộc tính.
Nếu ta chọn được các thuộc tính có liên quan đến nhãn lớp và loại bo các thuộc tính nhiễu,
dư thừa, thì ta sẽ có được tập dữ liệu tốt hơn cho việc phân lớp. Điều đó giúp nâng cao hiệu
quả phân lớp mà cụ thể là độ chính xác phân lớp, đồng thời giảm thời gian huấn luyện và
kiểm tra [4], [5], [6].
Có thể định nghĩa lựa chọn thuộc tính là một q trình tìm ra một tập con các thuộc
tính từ M tập thuộc tính của tập dữ liệu ban đầu, như vậy phải xác định tiêu chuẩn lựa chọn

thuộc tính. Theo cách này, kích cỡ của khơng gian thuộc tính được rút ngắn tối đa theo một
tiêu chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được mở rộng, số phần tử
của tập dữ liệu sẽ tăng lên, vì vậy việc tìm kiếm một tập đại diện tốt nhất thường gặp khó
khăn và có nhiều vấn đề liên quan đến tập được chọn. Nhìn chung, một thuật toán lựa chọn
gồm 4 bước cơ bản: sinh tập con, lượng giá tập con, điều kiện dừng và xác nhận kết quả.
Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản nó sinh ra những tập con
dùng cho việc lượng giá. Gọi N là số các thuộc tính của tập dữ liệu gốc ban đầu, thì tổng số
các tập con có thể được sinh ra sẽ là 2N, 2N tập này sẽ liệt kê toàn bộ các tập con của không
gian. Mỗi tập con được sinh ra bằng thuật toán cần được lượng giá trị bằng một tiêu chuẩn
lượng giá trị nhất định và được so sánh với tập con tốt nhất đã tìm được trước nó.
Lựa chọn các thuộc tính có thể tiến hành theo hai cách: cách thứ nhất là xếp loại các
thuộc tính theo một tiêu chuẩn nào đó và lấy ra k thuộc tính đầu tiên, do đó cách này là dựa
vào ngưỡng để chọn thuộc tính. Cách thứ hai là chọn ra tập con nho nhất mà không làm
giảm đi q trình học, do đó với cách này tự động xác định số lượng thuộc tính. Lựa chọn
thuộc

9

tính có thể dựa vào các mơ hình, các chiến lược tìm kiếm, thước đo chất lượng thuộc tính và
ước lượng.
a) Chiến lược tìm kiếm
Lựa chọn thuộc tính có thể được xem như là một vấn đề tìm kiếm, trong đó mỗi
bước trong khơng gian tìm kiếm xác định ra một tập con thuộc tính liên quan. Giả sử ta có
một tập dữ liệu với 3 thuộc tính (A1, A2, A3). Một mảng nhị phân mà mỗi thành phần của
mảng được thiết lập là 1 nếu thuộc tính có chỉ số tương ứng trong mảng nhị phân được
chọn. Nếu mảng có giá trị (1, 1, 1) có nghĩa là cả 3 thuộc tính được chọn và (1, 0, 0) có
nghĩa là chỉ thuộc tính A1 được chọn. Do đó, sẽ có tất cả 2N tập con có thể có, trong đó N là
số lượng thuộc tính của tập dữ liệu. Một tập con tối ưu thường nằm đâu đó giữa điểm đầu và
điểm cuối. Câu hoi đặt ra ở đây là: Ta nên bắt đầu tìm kiếm từ đâu. Vấn đề sẽ rất đơn giản

nếu khơng gian tìm kiếm nho. Tuy nhiên, trên thực tế khơng gian tìm kiếm thường rất lớn
(2N), bắt đầu từ câu hoi “Đâu là điểm tìm kiếm phù hợp” sẽ xuất hiện các câu hoi khác:
Chiến lược tìm kiếm phù hợp là gì? Trên thực tế chiến lược tìm kiếm lại bị ảnh hưởng bởi
hướng tìm kiếm.
Giả sử ban đầu ta chưa có một khái niệm cụ thể nào về tập thuộc tính tối ưu trong
khơng gian tìm kiếm, thì sẽ khơng có sự khác biệt trong việc xác định điểm xuất phát nên
bắt đầu từ đâu (một tập rỗng hay một tập đầy đủ các thuộc tính). Do đó, đối với phần lớn
các vấn đề trong tìm kiếm thì thời gian trung bình để tìm ra tập con tối ưu giữa các hướng
tìm kiếm khác nhau khơng có sự khác biệt. Tuy nhiên, hướng tìm kiếm lại có mối liên hệ
chặt chẽ trong việc tạo ra tập con thuộc tính. Một phương pháp tìm kiếm là tìm ra tập con tối
ưu bắt đầu từ một tập rỗng các thuộc tính (như Forward Feature Construction: FFC),
phương pháp cịn lại là tìm ra tập con tối ưu bằng cách lần lượt loại bo các thuộc tính ít quan
trọng từ một tập đầy đủ các thuộc tính ban đầu (như Backward Feature Elimination: BFE).
b) Tiêu chuẩn lựa chọn
Tất cả các chiến lược tìm kiếm đều có nhu cầu đánh giá một thuộc tính hoặc một tập
con thuộc tính để xác định thuộc tính/tập con đó là tốt hay không tốt. Việc đánh giá này
thường là phức tạp và có nhiều chiều đánh giá. Ví dụ, đánh giá có thể được đo lường theo
những khía cạnh: các thuộc tính được lựa chọn có làm tăng độ chính xác của bộ phân lớp
hay khơng và các thuộc tính được lựa chọn có giúp làm đơn giản các kết quả học, do đó có
thể dễ dàng để hiểu hay khơng, … Sau đây là một số đo lường thường được sử dụng.
(1) Đo lường thông tin
Một khái niệm cơ bản của lý thuyết thông tin là số lượng của thông tin trong thơng
báo, gọi là nội dung thơng tin, nó có thể xác định và đo được bằng đại lượng tốn học.
Thuật ngữ “nội dung” ở đây khơng liên quan gì đến nội dung của thơng báo được truyền đi,
mà là xác suất nhận được thông báo đã cho từ một tập hợp các thơng báo có thể. Giá trị cao
nhất đối với nội dung thông tin được gán cho thơng báo có ít khả năng nhất, tức là có độ
khơng xác định lớn nhất. Bởi vì độ khơng xác định của một phép thử càng lớn thì sự xác
định kết quả của nó sẽ cho một thơng tin càng lớn. Nếu thông báo được mong đợi với 100%
chắc chắn thì nội dung của nó bằng 0, và khi đó độ khơng xác định của nó cũng bằng 0.

10

(2) Đo lường khoảng cách
Kiểu đo lường này cũng được biết đến như là đo lường khác biệt hoặc đo lường
phân biệt. Đo lường này được thực hiện thông qua việc đo khoảng cách giữa các hàm xác
suất điều kiện lớp. Ví dụ đối với trường hợp có 2 lớp c1 và c2, D(X) là khoảng cách giữa P(X|
c1) và P(X|c2), luật đánh giá thuộc tính xây dựng dựa trên khoảng cách D(X) nói rằng, trong
hai thuộc tính X và Y, thuộc tính X được chọn nếu D(X) > D(Y). Mục đích của việc lựa chọn
này là ta cố gắng tìm ra các thuộc tính sao cho khoảng cách giữa 2 lớp là xa nhất có thể.
(3) Đo lường phụ thuộc
Đo lường này cũng được biết đến như là đo lường mối quan hệ, đo lường mối liên
hệ. Đo lường này được thiết kế để lượng hóa mối quan hệ giữa hai biến bằng việc nếu biết
được giá trị một biến ta có thể dự đốn được giá trị của biến cịn lại. Trong đánh giá thuộc
tính, thay bằng việc kiểm tra một thuộc tính thay đổi thơng tin thu thập được hoặc thay đổi
kỳ vọng xác suất lớp như thế nào, thì ta sẽ xem xét một thuộc tính liên hệ với một lớp như
thế nào (mạnh hay yếu). Gọi R(X) là đo lường phụ thuộc giữa thuộc tính X và lớp C, ta chọn
thuộc tính X dựa trên đo lường phụ thuộc với thuộc tính Y nếu R(X) > R(Y). Nói một cách
khác, ta chọn thuộc tính có mối liên hệ chặt chẽ với lớp C hơn. Nếu X và C là độc lập thống
kê thì giữa X và Y sẽ khơng có mối liên hệ và việc loại bo thuộc tính X sẽ khơng làm ảnh
hưởng đến việc phân lớp các thuộc tính cịn lại. Nếu mỗi giá trị của thuộc tính X có mối liên
hệ với một giá trị của lớp C, ta kỳ vọng rằng R(X) sẽ có giá trị cực đại và thuộc tính X được
chọn thuộc về lớp C.
c) Mô hình lựa chọn
Dựa trên các tiêu chí đánh giá và sự tương tác với thuật tốn học máy, có ba loại mơ
hình lựa chọn thuộc tính là mơ hình lọc (Filter), mơ hình gói (Wrapper) và mơ hình nhúng
(Embedded).
Cách sử dụng đơn giản nhất của lựa chọn thuộc tính là sử dụng độ chính xác của bộ
phân lớp như một phương pháp đo lường hiệu quả của bộ phân lớp. Nếu mục đích của ta là
để cực tiểu hóa tỷ lệ lỗi khi phân lớp và chi phí đo lường đối với mỗi thuộc tính là như nhau

thì việc sử dụng độ chính xác dự báo như một tiêu chí đo lường hiệu quả là rất khả thi. Vậy
nên, ta xây dựng một bộ phân lớp với mục đích là để có được độ chính xác dự báo cao nhất
có thể, sau đó lựa chọn các thuộc tính được sử dụng bởi bộ phân lớp như là các thuộc tính
tối ưu. Một mơ hình như vậy được gọi là mơ hình gói.
Mơ hình gói bao gồm hai giai đoạn: Giai đoạn 1 - lựa chọn tập con thuộc tính, trong
giai đoạn này các tập con thuộc tính tốt nhất sẽ được lựa chọn dựa trên tiêu chí độ chính xác
phân lớp (của tập dữ liệu huấn luyện); Giai đoạn 2 - học và kiểm tra (learning and testing),
một bộ phân lớp sẽ học các tri thức từ dữ liệu huấn luyện thông qua một tập các thuộc tính
tốt nhất được lựa chọn, và được kiểm tra lại bằng một tập dữ liệu kiểm tra. Khi các tập con
thuộc tính được tạo ra một cách hệ thống (hướng tìm kiếm), đối với mỗi tập con thuộc tính
sẽ có một bộ phân lớp được tạo ra từ dữ liệu bao gồm các thuộc tính đã được lựa chọn. Độ
chính xác của bộ phân lớp được ghi lại trong mỗi lần thử nghiệm và tập con thuộc tính với
độ chính xác cao nhất sẽ được giữ lại. Khi quá trình lựa chọn kết thúc, tập con thuộc tính
với độ chính xác cao nhất sẽ được chọn.

Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng.

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về