Tải bản đầy đủ (.doc) (202 trang)

Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.51 MB, 202 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Đồng Nai, năm 2022


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chun ngành: Khoa học máy tính
Mã số ngành: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. TRẦN VĂN LĂNG


Đồng Nai, năm 2022


LỜI CAM ĐOAN
Tên tơi là: Hồng Ngọc Thanh
Sinh ngày: 13/11/1969

Nơi sinh: Bình Định

Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học
Lạc Hồng.
Tơi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu
trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là
cơng trình nghiên cứu của cá nhân tơi, đây là cơng trình do tơi thực hiện dưới sự hướng dẫn
của giảng viên, người hướng dẫn khoa học là: PGS. TS. Trần Văn Lăng. Các thuật toán, số
liệu và kết quả trình bày trong luận án là hồn tồn có được từ các thử nghiệm, trung thực
và khơng sao chép.

Nghiên cứu sinh

Hoàng Ngọc Thanh


LỜI CẢM ƠN
Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. Trần
Văn Lăng - người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như
tâm huyết nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều
kiện tốt nhất để tơi hồn thành luận án này.
Tơi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,
Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi

trong suốt thời gian tôi tham gia nghiên cứu sinh.
Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,
Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gịn, nơi tơi đang
cơng tác. Và tơi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những
người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.
Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những
người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tơi vững bước và
vượt qua mọi khó khăn.

Tác giả

Hồng Ngọc Thanh


TÓM TẮT
Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường
an ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng
cao khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS).
Các nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong
việc cải thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.
Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và
cải tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ
thống phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:
(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các
NIDS.
(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên
quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính
tốn.
(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính
xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát

hiện xâm nhập.
Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai
đoạn tiền xử lý dữ liệu, cụ thể là:
(1) Đề x́t 2 thuật tốn lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật tốn lựa chọn
thuộc tính FFC và BFE đã biết.
(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.
Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối
hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,
Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm
trên các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy,
các giải pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.
Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại
những tồn tại và định hướng phát triển trong tương lai:
(1) Thời gian huấn luyện các mơ hình phân lớp đề x́t cịn lớn, việc phối hợp đúng
đắn các thuật tốn để xây dựng một mơ hình phân lớp lai, đa nhãn và đáp ứng thời gian thực
là vấn đề cần được tiếp tục nghiên cứu.
(2) Năng lực xử lý đóng vai trị quan trọng trong việc khai thác các thuật toán học
máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối
ưu các tham số cho các kỹ thuật học máy là vấn đề còn bo ngo.


ABSTRACT
Stream-based intrusion detection is a growing problem in computer network
security environments. Many previous researches have applied machine learning as a
method to detect attacks in Network Intrusion Detection Systems (NIDS). However, these
methods still have limitations of low accuracy, high false alarm rate and detecting new
attacks.
The content of the thesis proposes some solutions using ensemble machine learning
techniques and improving data preprocessing techniques in improving the classification
quality of NIDS. This is based on the fact that:

(1) There is a lot of class imbalance data in the training datasets used for NIDS.
(2) Machine learning algorithms can use some features that are really irrelevant to
the classification goal, which reduces the quality of classification and increases computation
time.
(3) Ensemble classifiers outperform the single classifiers in classification accuracy.
The advantages of the ensemble classifier are particularly evident in the area of network
intrusion detection.
To solve the problem, the thesis proposes to improve the implementation of two
solutions in the data preprocessing stage, details as follows:
(1) Proposing 2 feature selection algorithms on the basis of improving 2 known
FFC and BFE feature selection algorithms.
(2) Improving techniques for oversampling and undersampling the training dataset.
The resulting data after preprocessing is used to train the ensemble classifiers using
both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,
Stacking and RF) ensemble machine learning algorithms. The experimental results on the
full training and testing datasets of the UNSW-NB15 dataset show that the proposed
solutions have improved the classification quality of the NIDS.
In addition to the achieved results, the research results of the thesis also leave
shortcomings and future development orientations:
(1) The training time of the proposed classification models is still large, the
coordination the right algorithms to build a hybrid, multi-label and real-time response
classification model is a problem that needs to be further researched.
(2) Processing capacity plays an important role in exploiting machine learning
algorithms. The improvement of processing efficiency in the direction of parallel processing
as well as the optimization of parameters for machine learning techniques is still an open
issue.


MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU.................................................................................................. 1

1.1 Hệ thống phát hiện xâm nhập...................................................................................... 1
1.1.1 Giới thiệu về IDS................................................................................................ 1
1.1.2 Phân loại IDS...................................................................................................... 2
1.1.3 IDS sử dụng kỹ thuật học máy............................................................................ 3
1.2 Tính cấp thiết của đề tài luận án................................................................................... 5
1.3 Mục tiêu nghiên cứu.................................................................................................... 5
1.4 Đối tượng và phạm vi nghiên cứu................................................................................ 6
1.4.1 Đối tượng nghiên cứu......................................................................................... 6
1.4.2 Phạm vi nghiên cứu............................................................................................ 6
1.5 Phương pháp nghiên cứu............................................................................................. 6
1.6 Ý nghĩa khoa học và thực tiễn...................................................................................... 6
1.6.1 Ý nghĩa khoa học................................................................................................ 6
1.6.2 Ý nghĩa thực tiễn................................................................................................. 6
1.7 Những điểm đóng góp mới.......................................................................................... 7
1.8 Kết cấu của luận án...................................................................................................... 7
CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN.............................................................. 8
2.1 Cơ sở lý thuyết............................................................................................................. 8
2.1.1 Lựa chọn thuộc tính............................................................................................ 8
2.1.2 Lấy mẫu lại tập dữ liệu..................................................................................... 15
2.1.3 Kỹ thuật học máy.............................................................................................. 21
2.1.4 Tập dữ liệu sử dụng cho các IDS...................................................................... 27
2.1.5 Chỉ số đánh giá hiệu năng các IDS................................................................... 33
2.2 Các nghiên cứu liên quan về học máy cho IDS.......................................................... 36
2.2.1 Lựa chọn thuộc tính.......................................................................................... 36
2.2.2 Lấy mẫu lại tập dữ liệu..................................................................................... 38
2.2.3 Các mơ hình học máy cho các IDS................................................................... 40
2.2.4 Nhận xét............................................................................................................ 56
CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH................................................. 57
3.1 Giải pháp lựa chọn thuộc tính đề xuất........................................................................ 57
3.1.1 Các chỉ số đo thơng tin...................................................................................... 57

3.1.2 Thuật tốn loại bo thuộc tính ngược BFE......................................................... 58
3.1.3 Thuật tốn chọn thuộc tính thuận FFC.............................................................. 59
3.1.4 Thuật tốn lựa chọn thuộc tính đề x́t............................................................. 61
3.2 Kết quả thực hiện....................................................................................................... 65
3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms.................................................. 66


3.2.2 Lựa chọn thuộc tính với kiểu tấn cơng Shellcode............................................. 68
3.2.3 Lựa chọn thuộc tính với kiểu tấn cơng Backdoor.............................................. 70
3.2.4 Lựa chọn thuộc tính với kiểu tấn cơng Analysis............................................... 72
3.2.5 Lựa chọn thuộc tính với kiểu tấn cơng Recce................................................... 74
3.2.6 Lựa chọn thuộc tính với kiểu tấn cơng DoS...................................................... 76
3.2.7 Lựa chọn thuộc tính với kiểu tấn cơng Fuzzers................................................. 78
3.2.8 Lựa chọn thuộc tính với kiểu tấn cơng Exploits................................................ 80
3.2.9 Lựa chọn thuộc tính với kiểu tấn cơng Generic................................................ 82
3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất....................84
CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU............................................ 87
4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất................................................................... 87
4.1.1 Giải pháp tăng mẫu........................................................................................... 87
4.1.2 Giải pháp giảm mẫu.......................................................................................... 91
4.2 Kết quả thực hiện....................................................................................................... 95
4.2.1 Tăng mẫu tập dữ liệu........................................................................................ 96
4.2.2 Giảm mẫu tập dữ liệu...................................................................................... 106
4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu.......................... 117
CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MƠ HÌNH IDS....................................... 120
5.1 Kỹ thuật phối hợp đề xuất........................................................................................ 120
5.2 Kết quả thực hiện..................................................................................................... 125
5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms..................................... 127
5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode................................. 129
5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor.................................131

5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis................................... 133
5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce....................................... 135
5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS.......................................... 137
5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.................................... 139
5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits.................................... 141
5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.................................... 143
5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp................................................. 145
5.4 Mơ hình phân lớp lai đề xuất................................................................................... 146
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................ 149
6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển............................... 149
6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án................................................ 150


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Viết tắt
ABC
ADASYN
ANN
AUC
Bagging
BFE
BFS
BN
CA
CART
CFS
CNN
CSE
CV
DoS

DT
FFC
ELM
ENN
FPR
GA
GAR
GC
GP
GR
ICA
IDS
IG
KNN
KNNCF
LC
LDA
LOO
LR

Viết đầy đủ
Artificial Bee Colony
Adaptive Synthetic Sampling
Artificial Neural Network
Area Under the Curve
Bootstrap Aggregation
Backward Feature Elimination
Best First Search
Bayesian Network
Correlation Attribute

Classification and Regression Trees
Correlation-based Feature Selection
Convolutional Neural Network
Consistency Subset Evaluator
Cross Validation
Denial of Service
Decision Tree
Forward Feature Construction
Extreme Learning Machines
Edited Nearest Neighbors
False Positive Rate
Genetic Algorithm
GRASP with Annealed Randomness
Global Competence
Genetic Programming
Gain Ratio
Independent Component Analysis
Intrusion Detection System
Information Gain
K Nearest Neighbours
K Nearest Neighbor Collaborative Filtering
Local Competence
Linear Discriminant Analysis
Leave One Out
Logistic Regression


LSTM
MARS
ML

MLP
MV
NB
NCR
NSGA
OAR
OSELM
PART
PCA
PSO
R2L
RBF
RF
RMV
RNN
ROC
RT
SMOTE
SSV
SU
SVM
TPR
U2R
WLC
WMV
WRMV
WTA

Long Short - Term Memory
Multivariate Adaptive Regression Splines

Machine Learning
Multi Layer Perceptron
Majority Voting
Naïve Bayes
Neighborhood Cleaning Rule
Non-dominated Sorting Genetic Algorithm
One Against Rest
Sequential Extreme Learning Machine
Partial Decision Tree
Principal Component Analysis
Particle Swarm Optimization
Remote to Local
Radial Basis Function
Random Forest
Rigged Majority Voting
Recurrent Neural Network
Receiver Operating Characteristics
Random Tree
Synthetic Minority Over-Sampling Technique
Separability Split Value
Symmetrical Uncertainty
Support Vector Machine
True Positive Rate
User to Root
Weighted Local Competence
Weighted Majority Voting
Weighted Rigged Majority Voting
Winner Takes All



DANH MỤC CÁC BẢNG, BIỂU
Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15..............................................................30
Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15.............................................................................32
Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS..................................................................40
Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất............................................... 45
Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất................................................. 47
Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết........................................................... 52
Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến.........................................................55
Bảng 2.8. So sánh độ chính xác tổng thể......................................................................................55
Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15......................................65
Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Worms......................67
Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms....................68
Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Worms....................68
Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms.........................68
Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Shellcode.................69
Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Shellcode................70
Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode................70
Bảng 3.9. So sánh mBFE-GR với các thuật tốn khác với kiểu tấn cơng Shellcode...................70
Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71
Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Backdoor..............72
Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Backdoor..............72
Bảng 3.13. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn công Backdoor.................72
Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Analysis.................73
Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis................74
Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Analysis................74
Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn cơng Analysis...................74
Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75
Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Recce....................76
Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce....................76
Bảng 3.21. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn cơng Recce.......................76

Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng DoS........................77
Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS.......................78
Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng DoS.......................78
Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS..........................78
Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Fuzzers...................79
Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Fuzzers.................80
Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80
Bảng 3.29. So sánh mBFE-IG với các thuật tốn khác với kiểu tấn cơng Fuzzers......................80
Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits..................81
Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn cơng Exploits................82
Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Exploits.................82
Bảng 3.33. So sánh mBFE-CA với các thuật tốn khác với kiểu tấn công Exploits....................82
Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn cơng Generic..................83
Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic.................84
Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn cơng Generic.................84
Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84


Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công................................... 85
Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính...........................103
Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính.......................104
Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu....................................................105
Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms.................................107
Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode.............................108
Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor.............................108
Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis.............................. 109
Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce...................................110
Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS......................................111
Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers.............................. 111
Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits............................. 112

Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic..............................113
Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính........................114
Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính....................115
Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu.................................................116
Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu....................................117
Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu........................................118
Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms..............128
Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms.........129
Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode..........130
Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode.....131
Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor..........132
Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor.....133
Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134
Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135
Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce................136
Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce.........137
Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138
Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139
Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers...........140
Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers......141
Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits..........142
Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143
Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic...........144
Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic......145
Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn....................................................145
Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp............................................145
Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công.............................................................147
Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất....................................................................147
Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất......................................................148
Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây........................................148

Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây......................................148


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4
Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp......................................................16
Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE............................................................................. 17
Hình 2.3. Các Liên kết Tomek loại bo sự chồng chéo giữa các lớp.............................................20
Hình 2.4. Kỹ thuật Bootstrap........................................................................................................22
Hình 2.5. Kỹ thuật Bagging..........................................................................................................22
Hình 2.6. Kỹ thuật Boosting.........................................................................................................23
Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta......................................................................24
Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................ 28
Hình 2.9. Mơ hình trích x́t dữ liệu UNSW-NB15 sử dụng cơng cụ IXIA................................29
Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15.......................................32
Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC.........................................................35
Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS....................................................................35
Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS..................................................................... 42
Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS....................................................42
Hình 3.1. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Worms.....................................67
Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn cơng Worms........................................67
Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Worms..................................67
Hình 3.4. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Shellcode.................................68
Hình 3.5. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Shellcode...................................69
Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Shellcode..............................69
Hình 3.7. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Backdoor.................................71
Hình 3.8. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Backdoor................................... 71
Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Backdoor..............................71
Hình 3.10. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Analysis.................................72
Hình 3.11. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Analysis...................................73

Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Analysis..............................73
Hình 3.13. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Recce.....................................74
Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn cơng Recce....................................... 75
Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Recce..................................75
Hình 3.16. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng DoS....................................... 76
Hình 3.17. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng DoS..........................................77
Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn cơng DoS.....................................77
Hình 3.19. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Fuzzers..................................79
Hình 3.20. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Fuzzers.....................................79
Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Fuzzers...............................79
Hình 3.22. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Exploits.................................81


Hình 3.23. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Exploits....................................81
Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Exploits.............................. 81
Hình 3.25. Độ lợi thơng tin của các thuộc tính với kiểu tấn cơng Generic..................................83
Hình 3.26. Tỷ śt lợi ích của các thuộc tính với kiểu tấn cơng Generic.................................... 83
Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn cơng Generic...............................83
Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề x́t.....................85
Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms........................................... 97
Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Shellcode.......................................97
Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Backdoor.......................................98
Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis.........................................99
Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Recce.............................................99
Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng DoS..............................................100
Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Fuzzers........................................101
Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Exploits....................................... 101
Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Generic........................................102
Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106
Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Worms..........................107

Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Shellcode......................108
Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Backdoor......................109
Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Analysis.......................110
Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Recce............................110
Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng DoS...............................111
Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Fuzzers.........................112
Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Exploits........................112
Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn cơng Generic.........................113
Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất.........117
Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu...............................121
Hình 5.2. Chọn mơ hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn cơng...........122
Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn cơng.......................122
Hình 5.4. Kỹ thuật phối hợp Voting khơng đồng nhất với từng kiểu tấn cơng..........................122
Hình 5.5. Mơ hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm.............125
Hình 5.6. Mơ hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm..................................126
Hình 5.7. Mơ hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm.......................126
Hình 5.8. Mơ hình IDS đề x́t phát hiện các kiểu tấn công mạng............................................147


DANH MỤC CÁC THUẬT TỐN
Thuật tốn 2.1. Thuật tốn Focus......................................................................................... 12
Thuật tốn 2.2. Thuật tốn AAB.......................................................................................... 12
Thuật tốn 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính.................................. 13
Thuật tốn 2.4. Lựa chọn thuộc tính LVF............................................................................. 14
Thuật tốn 2.5. Kỹ thuật tăng mẫu SMOTE......................................................................... 16
Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN......................................... 18
Thuật tốn 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE....................................................... 19
Thuật toán 2.8. Xác định và loại bo các Liên kết Tomek...................................................... 20
Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate................................................. 25
Thuật tốn 3.1. Lựa chọn thuộc tính sử dụng BFE............................................................... 58

Thuật tốn 3.2. Lựa chọn thuộc tính sử dụng FFC............................................................... 59
Thuật tốn 3.3. Thuật tốn lựa chọn thuộc tính mFFC......................................................... 63
Thuật tốn 3.4. Thuật tốn lựa chọn thuộc tính mBFE......................................................... 64
Thuật tốn 4.1. Thuật toán tăng mẫu kết hợp với mFFC...................................................... 89
Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE...................................................... 90
Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC..................................................... 93
Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE..................................................... 94
Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.................... 123
Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124


1

CHƯƠNG 1. GIỚI THIỆU
Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán
nghiên cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện và Cấu
trúc của luận án.
1.1 Hệ thống phát hiện xâm nhập
Internet là xu hướng của thời đại, mang lại lợi thế cho các cá nhân, doanh nghiệp
biết tận dụng và phát huy thế mạnh của internet. Internet là chìa khóa vàng để đi đến thành
công. Để đạt đến 50 triệu người dùng, phát thanh mất 38 năm, truyền hình mất 13 năm,
internet chỉ cần 4 năm, và mạng xã hội facebook chỉ cần 2 năm. Internet và những công cụ
trên internet, các website bán hàng, website kinh doanh online, … đã được khai thác vào các
hoạt động kinh doanh và mang lại những nguồn thu lớn cho các cá nhân, doanh nghiệp.
Bên cạnh những lợi ích của internet, các cơ quan, doanh nghiệp cũng phải đối đầu
với mặt trái của mạng internet, một trong những mặt tiêu cực đó là vấn đề tấn cơng mạng.
Tấn cơng mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính,
website, cơ sở dữ liệu, hạ tầng mạng, thiết bị của các cá nhân, doanh nghiệp thông qua
mạng internet với những mục đích bất hợp pháp. Mục tiêu của một cuộc tấn cơng mạng rất
đa dạng, có thể là vi phạm dữ liệu (đánh cắp, thay đổi, mã hóa, phá hủy), cũng có thể nhắm

tới sự tồn vẹn của hệ thống (gây gián đoạn, cản trở dịch vụ), hoặc lợi dụng tài ngun của
nạn nhân.
Để đối phó với vấn đề tấn cơng mạng, một vấn đề then chốt đối với những nhà quản
trị mạng ở các cơ quan, doanh nghiệp là nhanh chóng phát hiện xâm nhập và tiến tới ngăn
chặn xâm nhập. Một trong những hệ thống được các nhà quản trị mạng sử dụng thông dụng
hiện nay là Hệ thống phát hiện xâm nhập (Intrusion Detection System: IDS).
1.1.1 Giới thiệu vê IDS
IDS là hệ thống giám sát lưu lượng mạng hoặc máy chủ nhằm phát hiện ra hiện
tượng bất thường, các hoạt động trái phép xâm nhập vào hệ thống mạng hoặc máy chủ của
các cơ quan, doanh nghiệp. IDS có thể phân biệt các cuộc tấn cơng từ nội bộ hoặc từ bên
ngồi. IDS có thể phát hiện dựa trên các dấu hiệu đặc biệt về nguy cơ đã biết hoặc dựa trên
so sánh lưu lượng mạng hiện tại với thơng số chuẩn của hệ thống để tìm ra các dấu hiệu bất
thường. Tính hiệu quả của một IDS được thể hiện qua các tiêu chí:
(1) Tính chính xác (Accuracy): IDS phải có độ chính xác cao, tránh các trường hợp
báo động giả hoặc không phát hiện xâm nhập khi bị tấn cơng;
(2) Hiệu năng (Performance): IDS có thể phát hiện xâm nhập trong thời gian ngắn
nhất, để kịp thời có các hành động ứng phó phù hợp. Tránh tình trạng phát hiện ra khi tội
phạm mạng đã gây tổn hại cho hệ thống;
(3) Tính trọn vẹn (Completeness): IDS không được bo qua bất cứ một xâm nhập trái
phép nào;
(4) Khả năng chịu lỗi (Fault Tolerance): IDS phải có khả năng chống lại tấn cơng.
Có trường hợp, bản thân IDS cũng khơng hoạt động khi phía xâm nhập tấn cơng vào chính
IDS;
(5) Khả năng mở rộng (Scalability): IDS phải có khả năng mở rộng để đáp ứng nhu
cầu ngày càng cao của người dùng về lưu lượng dữ liệu.


2

1.1.1.1 Kiến trúc của IDS

Kiến trúc của IDS bao gồm 3 thành phần chính: (1) Thành phần thu thập gói tin; (2)
Thành phần phân tích gói tin và phát hiện xâm nhập và (3) Thành phần phản hồi nếu gói tin
được xác định là một cuộc tấn công. Trong 3 thành phần này thì thành phần phân tích gói tin
và phát hiện xâm nhập là thành phần quan trọng nhất, và ở thành phần này bộ cảm biến
(sensor) đóng vai trò quyết định.
1.1.1.2 Các chức năng của IDS
Chức năng quan trọng nhất của IDS là: (1) Giám sát lưu lượng truy cập mạng hoặc
các hoạt động bất thường; (2) Cảnh báo cho người quản trị mạng khi biết được các hoạt
động bất thường và (3) Có những hành động chống lại kẻ xâm nhập.
Ngồi ra, IDS cịn có các chức năng mở rộng như: (1) Ngăn chặn sự gia tăng của
các tấn công; (2) Cập nhật, bổ sung những điểm yếu mà hệ thống chưa làm được và (3)
Đánh giá chất lượng của việc thiết kế hệ thống.
1.1.1.3 Quy trình hoạt đợng của IDS
Quy trình hoạt động của IDS gồm các bước như sau:
(1) Khi có các truy cập vào ra mạng, các cảm biến trên mạng sẽ đọc các gói tin. Các
cảm biến này được đặt sao cho nó có thể đọc được tất cả các gói tin vào ra trên mạng;
(2) Một chương trình phát hiện nằm trong bộ cảm biến kiểm tra xem có gói tin nào
có dấu hiệu xâm nhập khơng, khi có dấu hiệu xâm nhập thì một cảnh báo sẽ được tạo ra và
gửi đến giao diện điều khiển;
(3) Khi giao diện điều khiển nhận được cảnh báo, nó sẽ gửi cho người quản trị
mạng, đồng thời:
(4) Khởi tạo và thực hiện quy trình phản hồi ứng với từng dấu hiệu xâm nhập.
1.1.2 Phân loại IDS
Hệ thống IDS được chia làm 2 loại cơ bản:
- IDS dựa trên mạng (Network-based IDS: NIDS): là các IDS sử dụng dữ liệu trên
tồn bộ lưu thơng mạng cùng dữ liệu kiểm tra từ một hoặc một vài máy trạm để phát hiện
xâm nhập.
- IDS dựa trên máy chủ (Host-based IDS: HIDS): là các IDS sử dụng dữ liệu kiểm
tra từ một máy chủ đơn lẻ để phát hiện xâm nhập.
1.1.2.1 IDS dựa trên mạng

Hệ thống IDS dựa trên mạng sẽ kiểm tra các giao tiếp trên mạng với thời gian thực.
Nó kiểm tra các giao tiếp, quét tiêu đề của các gói tin và có thể kiểm tra nội dung của các
gói đó để phát hiện ra các đoạn mã nguy hiểm hay các dạng tấn công khác nhau.
Ưu điểm của NIDS: quản lý được cả một mạng; trong suốt với người dùng lẫn tội
phạm mạng; cài đặt và bảo trì đơn giản; có khả năng xác định lỗi ở tầng mạng và độc lập
với hệ điều hành.


3

Nhược điểm của NIDS: có thể xảy ra trường hợp báo động giả; khơng thể phân tích
các dữ liệu đã được mã hóa; địi hoi phải được cập nhật các chữ ký mới; có độ trễ giữa thời
điểm bị tấn công với thời điểm phát báo động và cuối cùng là giới hạn về thông lượng.
1.1.2.2 IDS dựa trên máy chủ
Bằng cách cài đặt một phần mềm trên máy chủ, HIDS quan sát tất cả những hoạt
động về hệ thống và các file log, lưu lượng mạng thu thập, … HIDS cũng theo dõi hệ điều
hành, những cuộc gọi hệ thống, lịch sử và những thông điệp báo lỗi trên hệ thống máy chủ.
HIDS thường được cài đặt và giám sát các hoạt động trên một máy tính nhất định thay vì
giám sát hoạt động của một mạng. Nhiệm vụ của HIDS là theo dõi các thay đổi trên hệ
thống gồm: các tiến trình; mức độ sử dụng CPU; tình trạng RAM; tính tồn vẹn của hệ
thống, ...
Ưu điểm của HIDS: có khả năng xác định người dùng liên quan tới sự kiện; có khả
năng phát hiện tấn cơng diễn ra trên một máy; có thể phân tích các dữ liệu mã hóa; và có thể
cung cấp các thơng tin về máy chủ trong lúc cuộc tấn công diễn ra.
Nhược điểm của HIDS: thông tin từ HIDS là không đáng tin cậy ngay khi việc tấn
công vào máy chủ thành công; khi hệ điều hành không thể hoạt động do bị tấn công, HIDS
cũng sẽ không hoạt động được; HIDS phải được thiết lập trên từng máy chủ cần giám sát;
HIDS khơng có khả năng phát hiện các cuộc dị quét mạng (Nmap, Netcat, ...) và cuối cùng,
HIDS cần tài nguyên trên máy chủ để hoạt động.
1.1.3 IDS sử dụng kỹ thuật học máy

Đối với các IDS, có ba phương pháp để phát hiện các cuộc tấn công: (1) Phát hiện
dựa trên chữ ký; (2) Phát hiện dựa trên sự bất thường và (3) Phát hiện dựa trên sự kết hợp
nhằm khắc phục các nhược điểm, phát huy các ưu điểm của hai phương pháp trên.
Phát hiện dựa trên chữ ký được thiết kế để phát hiện các cuộc tấn công đã biết bằng
cách sử dụng chữ ký của các cuộc tấn cơng đó. Đây là một phương pháp hiệu quả để phát
hiện các cuộc tấn công đã biết được lưu trữ trong cơ sở dữ liệu IDS. Do đó, nó chính xác
hơn nhiều trong việc xác định một nỗ lực xâm nhập của một cuộc tấn công đã biết.
Tuy nhiên, với các kiểu tấn công mới hoặc biến thể, IDS khơng thể phát hiện vì chữ
ký của tấn cơng đó khơng được lưu trữ. Để khắc phục sự cố này, tính năng phát hiện dựa
trên sự bất thường, so sánh các hoạt động hiện tại của người dùng với các cấu hình xác định
trước để phát hiện xâm nhập. Tính năng phát hiện dựa trên sự bất thường có hiệu quả chống
lại các cuộc tấn công không xác định hoặc các cuộc tấn cơng zero-day mà khơng có bất kỳ
bản cập nhật nào cho hệ thống. Tuy nhiên, phương pháp này thường có tỷ lệ dương tính giả
cao [1].
Các tiếp cận phát hiện xâm nhập của các IDS được trình bày ở Hình 1.1. Với các
IDS phát hiện xâm nhập dựa trên sự bất thường, có nhiều nghiên cứu đã đề xuất sử dụng kỹ
thuật học máy (Machine Learning: ML) để phát hiện xâm nhập nhằm giảm tỷ lệ dương tính
giả và tạo ra các IDS chính xác. Tuy nhiên, để đối phó với dữ liệu lớn, các kỹ thuật ML
truyền thống cần nhiều thời gian cho việc huấn luyện và phân lớp dữ liệu. Sử dụng các kỹ
thuật dữ liệu lớn và ML cho IDS có thể giải quyết nhiều thách thức như tốc độ và thời gian
tính tốn cũng như phát triển các IDS chính xác [1], [2].


4

Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS


5


1.2 Tính cấp thiết của đê tài luận án
Những tiến bộ nhanh chóng của internet và lĩnh vực truyền thơng đã dẫn đến sự gia
tăng lớn về quy mô mạng và dữ liệu tương ứng. Nhiều cuộc tấn công mới đang được tạo ra
và đặt ra những thách thức cho an ninh mạng trong việc phát hiện chính xác các cuộc tấn
công. Hơn thế nữa, càng không thể bo qua sự hiện diện của những tội phạm mạng với mục
đích là khởi động các cuộc tấn công khác trong mạng. IDS là một trong những công cụ ngăn
chặn tấn công mạng bằng cách kiểm tra lưu lượng mạng, để đảm bảo tính bảo mật, tính tồn
vẹn và tính khả dụng của nó. Bất chấp những nổ lực to lớn của các nhà nghiên cứu, các IDS
vẫn phải đối mặt với những thách thức trong việc cải thiện độ chính xác, giảm tỷ lệ cảnh
báo sai và phát hiện được các tấn công mới. Cho đến nay, các hệ thống IDS dựa trên học
máy và học sâu đang được triển khai như các giải pháp tiềm năng để phát hiện các hành vi
tấn công mạng một cách hiệu quả. Khraisat và các cộng sự (2019) [3] đã trình bày chi tiết
một cuộc khảo sát các nghiên cứu gần đây về phương pháp luận, loại và công nghệ của các
hệ thống phát hiện xâm nhập dựa trên kỹ thuật học máy với những ưu điểm và hạn chế của
chúng. Các tác giả kết luận, các cách tiếp cận như vậy vẫn còn tồn tại các thách thức trong
việc tạo và cập nhật thông tin về các cuộc tấn công mới, cũng như giảm tỷ lệ cảnh báo sai và
tăng độ chính xác phát hiện.
X́t phát từ những nhận định đó, chúng tơi nhận thấy việc tìm kiếm giải pháp để
giải quyết những thách thức nêu trên khi xây dựng các IDS vẫn cịn mang tính thời sự và
cần được tiếp tục nghiên cứu. Về mặt thực tiễn, việc này có ý nghĩa rất lớn, vì nó giúp các
nhà quản trị mạng tại các cơ quan, doanh nghiệp phát hiện những nguy cơ tấn cơng xâm
nhập một cách nhanh chóng và chính xác, để từ đó phản ứng lại với các lưu lượng bất
thường bằng cách ngăn chặn người dùng hoặc địa chỉ nguồn truy cập mạng một cách kịp
thời và hiệu quả. Vì lẽ đó, vấn đề cấp thiết đặt ra của đề tài là tìm giải pháp để nâng cao chất
lượng phân lớp của các IDS trong điều kiện tài nguyên tính tốn hạn chế, đồng thời giảm tỷ
lệ cảnh báo sai.
1.3 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu là đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp
của các IDS mạng; cụ thể là nâng cao độ chính xác, đồng thời giảm tỷ lệ cảnh báo sai trong
điều kiện hạn chế về tài ngun tính tốn.

Nhằm thực hiện mục tiêu nghiên cứu nêu trên, luận án có các nội dung chính sau:
(1) Phân tích và đánh giá các tập dữ liệu hiện đang được sử dụng để huấn luyện và
kiểm tra các IDS. Để từ đó lựa chọn tập dữ liệu huấn luyện và kiểm tra, đảm bảo cho việc
xây dựng các mơ hình IDS hiệu quả với các hành vi bình thường hiện đại và các hoạt động
tấn công tổng hợp đương đại.
(2) Chọn chỉ số đánh giá phù hợp nhất để đánh giá độ chính xác của các IDS với các
đặc thù về dữ liệu.
(3) Đề xuất một số giải pháp giúp nâng cao chất lượng phân lớp của các IDS thông
qua việc xử lý dữ liệu và xây dựng mơ hình học máy phù hợp với đặc thù của IDS.


6

1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu của luận án là các hệ thống phát hiện xâm nhập mạng, với sự
quan tâm cụ thể về các tập dữ liệu huấn luyện và kiểm tra, các thuật toán xử lý dữ liệu, các
thuật toán học máy và các chỉ số đánh giá chất lượng của hệ thống.
1.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu của luận án là các hệ thống phát hiện xâm nhập mạng dựa trên
bất thường sử dụng kỹ thuật học máy có giám sát.
1.5 Phương pháp nghiên cứu
Phương pháp thực nghiệm được sử dụng bao gồm:
(1) Thu thập thông tin về các tập dữ liệu huấn luyện và kiểm tra được sử dụng trong
các IDS, cũng như thu thập số liệu từ các tài liệu tham khảo và các kết quả thử nghiệm.
(2) Dữ liệu thu thập được tổng hợp, phân bổ và đưa vào máy tính, tạo thành cơ sở
dữ liệu. Thơng tin được phân tích, so sánh từ các nguồn với nhau, theo thời gian, không gian
để có những nhận xét xác đáng về vấn đề nghiên cứu.
(3) Bảng biểu, đồ thị được sử dụng để trình bày kết quả số liệu, giúp thấy rõ quá
trình vận động, quy luật của đối tượng nghiên cứu. Đồng thời sử dụng để so sánh và đánh

giá hiệu quả của các kỹ thuật trước và sau khi thực hiện các giải pháp đề xuất.
(4) So sánh, phân tích và đánh giá thực trạng các hệ thống phát hiện xâm nhập
mạng, từ đó phát hiện ra những tồn tại, yếu kém, nguyên nhân cũng như xác định những vấn
đề đặt ra cần giải quyết.
1.6 Ý nghĩa khoa học và thực tiễn
1.6.1 Ý nghĩa khoa học
Kết quả nghiên cứu của luận án trên tập dữ liệu UNSW-NB15 cho thấy, so với các
nghiên cứu hiện có cho đến nay của nhiều nhà nghiên cứu, các giải pháp đề xuất đã giúp
nâng cao chất lượng phân lớp khi xây dựng các IDS, cụ thể là:
(1) Đề x́t 2 thuật tốn lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn
thuộc tính FFC và BFE đã biết.
(2) Cải tiến các kỹ thuật tăng mẫu (oversampling) và giảm mẫu (undersampling) tập
dữ liệu huấn luyện.
(3) Xây dựng các bộ phân lớp lai trên cơ sở kết hợp các kỹ thuật tiền xử lý dữ liệu
cải tiến nêu trên với kỹ thuật xây dựng bộ phân lớp phối hợp (ensemble).
1.6.2 Ý nghĩa thực tiễn
IDS là hệ thống phát hiện các dấu hiệu của tấn cơng xâm nhập, đồng thời có thể
khởi tạo các hành động trên thiết bị khác để ngăn chặn tấn công, và cảnh báo cho người
quản trị mạng. Kết quả nghiên cứu của luận án là cơ sở quan trọng giúp các nhà quản trị
mạng ở các cơ quan, doanh nghiệp có được cảnh báo sớm một cách nhanh chóng và hiệu
quả để từ đó có


7

các giải pháp ứng phó phù hợp hoặc tự động ngăn chặn tấn công thông qua việc thêm các
luật vào các thiết bị như tường lửa.
1.7 Những điểm đóng góp mới
Những điểm mới về khoa học của luận án trong việc nghiên cứu và đề xuất các giải
pháp giúp nâng cao chất lượng phân lớp của các IDS mạng, gồm:

(1) Đề xuất kỹ thuật cải tiến việc lựa chọn thuộc tính của tập dữ liệu h́n luyện, tức
là tìm các thuộc tính quan trọng đối với kết quả phân lớp, điều này giúp loại bo các thuộc
tính khơng liên quan và dư thừa, nhờ đó giảm thời gian huấn luyện và kiểm tra bộ phân lớp,
đồng thời nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai [CT2], [CT3], [CT5].
(2) Đề xuất kỹ thuật cải tiến việc xử lý nguồn dữ liệu mất cân bằng vốn có trong các
IDS (dữ liệu tấn cơng chiếm tỷ trọng rất ít so với dữ liệu bình thường), nhờ đó cải thiện chất
lượng phân lớp của hệ thống.
(3) Đề xuất phương pháp xây dựng mơ hình lai trên cơ sở sử dụng các kỹ thuật lấy
mẫu lại tập dữ liệu và lựa chọn thuộc tính như đã đề xuất ở phần trên với xây dựng bộ phân
lớp phối hợp trên cơ sở tổng hợp dự đoán của các bộ phân lớp cơ sở [CT4], [CT6], [CT7].
1.8 Kết cấu của luận án
- Chương 1: Giới thiệu
Trình bày những nội dung tổng quan nhất về luận án gồm: tính cấp thiết, đối tượng
và phạm vi nghiên cứu; mục tiêu và nhiệm vụ; phương pháp nghiên cứu, những điểm đóng
góp mới cũng như ý nghĩa khoa học và thực tiễn của luận án.
- Chương 2: Các nghiên cứu liên quan
Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số
phương pháp tiếp cận phát hiện xâm nhập mạng, cũng như nêu ra các hạn chế, tồn tại.
- Chương 3: Giải pháp lựa chọn thuộc tính
Trình bày các giải pháp lựa chọn thuộc tính đề xuất, kết quả thực hiện và một số
nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS.
- Chương 4: Giải pháp lấy mẫu lại tập dữ liệu
Trình bày các giải pháp lấy mẫu lại tập dữ liệu huấn luyện, kết quả thực hiện và một
số nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS.
- Chương 5: Kỹ thuật phối hợp cho mơ hình IDS
Trình bày giải pháp sử dụng kỹ thuật phối hợp để xây dựng các IDS, kết quả thực
hiện và một số nhận xét, kết luận khi sử dụng giải pháp cũng đã được trình bày.
- Chương 6: Kết luận và hướng phát triển
Trình bày một số kết luận; Các hạn chế, tồn tại và hướng phát triển của luận án.
- Danh mục các công trình đã công bố của luận án

Liệt kê các cơng trình đã cơng bố có liên quan đến đề tài luận án.


8

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN
Chương 2 trình bày các cơng trình nghiên cứu liên quan, các khái niệm cơ bản,
nghiên cứu có liên quan trực tiếp đến các cơng trình cũng như đóng góp chính của luận án,
gồm:
(1) Việc lựa chọn thuộc tính sử dụng cho các IDS;
(2) Lấy mẫu lại tập dữ liệu được sử dụng để huấn luyện các IDS;
(3) Các kỹ thuật học máy để xây dựng các IDS, đặc biệt là kỹ thuật học máy phối
hợp.
Qua đó so sánh, làm rõ những tồn tại, thách thức cần được tiếp tục nghiên cứu, hoàn
thiện và đó cũng là các mục tiêu nghiên cứu của luận án này.
2.1 Cơ sở lý thuyết
2.1.1 Lựa chọn tḥc tính
2.1.1.1 Phương pháp lựa chọn tḥc tính
Khi dữ liệu tăng theo cấp số nhân, chất lượng dữ liệu để xử lý bằng khai phá dữ
liệu, nhận dạng mẫu, xử lý hình ảnh và các thuật toán học máy, … giảm dần. Dữ liệu kích
thước lớn hơn dẫn đến sự phổ biến của dữ liệu nhiễu, không liên quan và dư thừa. Điều đó
làm tăng tỷ lệ lỗi, giảm độ chính xác dự báo của các thuật toán học máy. Vấn đề chính là
làm thế nào để cải thiện được hiệu quả phân lớp dựa trên những tri thức học được từ dữ liệu.
Một trong những phương pháp cải thiện hiệu quả phân lớp như vậy là lựa chọn thuộc tính.
Nếu ta chọn được các thuộc tính có liên quan đến nhãn lớp và loại bo các thuộc tính nhiễu,
dư thừa, thì ta sẽ có được tập dữ liệu tốt hơn cho việc phân lớp. Điều đó giúp nâng cao hiệu
quả phân lớp mà cụ thể là độ chính xác phân lớp, đồng thời giảm thời gian huấn luyện và
kiểm tra [4], [5], [6].
Có thể định nghĩa lựa chọn thuộc tính là một q trình tìm ra một tập con các thuộc
tính từ M tập thuộc tính của tập dữ liệu ban đầu, như vậy phải xác định tiêu chuẩn lựa chọn

thuộc tính. Theo cách này, kích cỡ của khơng gian thuộc tính được rút ngắn tối đa theo một
tiêu chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được mở rộng, số phần tử
của tập dữ liệu sẽ tăng lên, vì vậy việc tìm kiếm một tập đại diện tốt nhất thường gặp khó
khăn và có nhiều vấn đề liên quan đến tập được chọn. Nhìn chung, một thuật toán lựa chọn
gồm 4 bước cơ bản: sinh tập con, lượng giá tập con, điều kiện dừng và xác nhận kết quả.
Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản nó sinh ra những tập con
dùng cho việc lượng giá. Gọi N là số các thuộc tính của tập dữ liệu gốc ban đầu, thì tổng số
các tập con có thể được sinh ra sẽ là 2N, 2N tập này sẽ liệt kê toàn bộ các tập con của không
gian. Mỗi tập con được sinh ra bằng thuật toán cần được lượng giá trị bằng một tiêu chuẩn
lượng giá trị nhất định và được so sánh với tập con tốt nhất đã tìm được trước nó.
Lựa chọn các thuộc tính có thể tiến hành theo hai cách: cách thứ nhất là xếp loại các
thuộc tính theo một tiêu chuẩn nào đó và lấy ra k thuộc tính đầu tiên, do đó cách này là dựa
vào ngưỡng để chọn thuộc tính. Cách thứ hai là chọn ra tập con nho nhất mà không làm
giảm đi q trình học, do đó với cách này tự động xác định số lượng thuộc tính. Lựa chọn
thuộc


9

tính có thể dựa vào các mơ hình, các chiến lược tìm kiếm, thước đo chất lượng thuộc tính và
ước lượng.
a) Chiến lược tìm kiếm
Lựa chọn thuộc tính có thể được xem như là một vấn đề tìm kiếm, trong đó mỗi
bước trong khơng gian tìm kiếm xác định ra một tập con thuộc tính liên quan. Giả sử ta có
một tập dữ liệu với 3 thuộc tính (A1, A2, A3). Một mảng nhị phân mà mỗi thành phần của
mảng được thiết lập là 1 nếu thuộc tính có chỉ số tương ứng trong mảng nhị phân được
chọn. Nếu mảng có giá trị (1, 1, 1) có nghĩa là cả 3 thuộc tính được chọn và (1, 0, 0) có
nghĩa là chỉ thuộc tính A1 được chọn. Do đó, sẽ có tất cả 2N tập con có thể có, trong đó N là
số lượng thuộc tính của tập dữ liệu. Một tập con tối ưu thường nằm đâu đó giữa điểm đầu và
điểm cuối. Câu hoi đặt ra ở đây là: Ta nên bắt đầu tìm kiếm từ đâu. Vấn đề sẽ rất đơn giản

nếu khơng gian tìm kiếm nho. Tuy nhiên, trên thực tế khơng gian tìm kiếm thường rất lớn
(2N), bắt đầu từ câu hoi “Đâu là điểm tìm kiếm phù hợp” sẽ xuất hiện các câu hoi khác:
Chiến lược tìm kiếm phù hợp là gì? Trên thực tế chiến lược tìm kiếm lại bị ảnh hưởng bởi
hướng tìm kiếm.
Giả sử ban đầu ta chưa có một khái niệm cụ thể nào về tập thuộc tính tối ưu trong
khơng gian tìm kiếm, thì sẽ khơng có sự khác biệt trong việc xác định điểm xuất phát nên
bắt đầu từ đâu (một tập rỗng hay một tập đầy đủ các thuộc tính). Do đó, đối với phần lớn
các vấn đề trong tìm kiếm thì thời gian trung bình để tìm ra tập con tối ưu giữa các hướng
tìm kiếm khác nhau khơng có sự khác biệt. Tuy nhiên, hướng tìm kiếm lại có mối liên hệ
chặt chẽ trong việc tạo ra tập con thuộc tính. Một phương pháp tìm kiếm là tìm ra tập con tối
ưu bắt đầu từ một tập rỗng các thuộc tính (như Forward Feature Construction: FFC),
phương pháp cịn lại là tìm ra tập con tối ưu bằng cách lần lượt loại bo các thuộc tính ít quan
trọng từ một tập đầy đủ các thuộc tính ban đầu (như Backward Feature Elimination: BFE).
b) Tiêu chuẩn lựa chọn
Tất cả các chiến lược tìm kiếm đều có nhu cầu đánh giá một thuộc tính hoặc một tập
con thuộc tính để xác định thuộc tính/tập con đó là tốt hay không tốt. Việc đánh giá này
thường là phức tạp và có nhiều chiều đánh giá. Ví dụ, đánh giá có thể được đo lường theo
những khía cạnh: các thuộc tính được lựa chọn có làm tăng độ chính xác của bộ phân lớp
hay khơng và các thuộc tính được lựa chọn có giúp làm đơn giản các kết quả học, do đó có
thể dễ dàng để hiểu hay khơng, … Sau đây là một số đo lường thường được sử dụng.
(1) Đo lường thông tin
Một khái niệm cơ bản của lý thuyết thông tin là số lượng của thông tin trong thơng
báo, gọi là nội dung thơng tin, nó có thể xác định và đo được bằng đại lượng tốn học.
Thuật ngữ “nội dung” ở đây khơng liên quan gì đến nội dung của thơng báo được truyền đi,
mà là xác suất nhận được thông báo đã cho từ một tập hợp các thơng báo có thể. Giá trị cao
nhất đối với nội dung thông tin được gán cho thơng báo có ít khả năng nhất, tức là có độ
khơng xác định lớn nhất. Bởi vì độ khơng xác định của một phép thử càng lớn thì sự xác
định kết quả của nó sẽ cho một thơng tin càng lớn. Nếu thông báo được mong đợi với 100%
chắc chắn thì nội dung của nó bằng 0, và khi đó độ khơng xác định của nó cũng bằng 0.



10

(2) Đo lường khoảng cách
Kiểu đo lường này cũng được biết đến như là đo lường khác biệt hoặc đo lường
phân biệt. Đo lường này được thực hiện thông qua việc đo khoảng cách giữa các hàm xác
suất điều kiện lớp. Ví dụ đối với trường hợp có 2 lớp c1 và c2, D(X) là khoảng cách giữa P(X|
c1) và P(X|c2), luật đánh giá thuộc tính xây dựng dựa trên khoảng cách D(X) nói rằng, trong
hai thuộc tính X và Y, thuộc tính X được chọn nếu D(X) > D(Y). Mục đích của việc lựa chọn
này là ta cố gắng tìm ra các thuộc tính sao cho khoảng cách giữa 2 lớp là xa nhất có thể.
(3) Đo lường phụ thuộc
Đo lường này cũng được biết đến như là đo lường mối quan hệ, đo lường mối liên
hệ. Đo lường này được thiết kế để lượng hóa mối quan hệ giữa hai biến bằng việc nếu biết
được giá trị một biến ta có thể dự đốn được giá trị của biến cịn lại. Trong đánh giá thuộc
tính, thay bằng việc kiểm tra một thuộc tính thay đổi thơng tin thu thập được hoặc thay đổi
kỳ vọng xác suất lớp như thế nào, thì ta sẽ xem xét một thuộc tính liên hệ với một lớp như
thế nào (mạnh hay yếu). Gọi R(X) là đo lường phụ thuộc giữa thuộc tính X và lớp C, ta chọn
thuộc tính X dựa trên đo lường phụ thuộc với thuộc tính Y nếu R(X) > R(Y). Nói một cách
khác, ta chọn thuộc tính có mối liên hệ chặt chẽ với lớp C hơn. Nếu X và C là độc lập thống
kê thì giữa X và Y sẽ khơng có mối liên hệ và việc loại bo thuộc tính X sẽ khơng làm ảnh
hưởng đến việc phân lớp các thuộc tính cịn lại. Nếu mỗi giá trị của thuộc tính X có mối liên
hệ với một giá trị của lớp C, ta kỳ vọng rằng R(X) sẽ có giá trị cực đại và thuộc tính X được
chọn thuộc về lớp C.
c) Mô hình lựa chọn
Dựa trên các tiêu chí đánh giá và sự tương tác với thuật tốn học máy, có ba loại mơ
hình lựa chọn thuộc tính là mơ hình lọc (Filter), mơ hình gói (Wrapper) và mơ hình nhúng
(Embedded).
Cách sử dụng đơn giản nhất của lựa chọn thuộc tính là sử dụng độ chính xác của bộ
phân lớp như một phương pháp đo lường hiệu quả của bộ phân lớp. Nếu mục đích của ta là
để cực tiểu hóa tỷ lệ lỗi khi phân lớp và chi phí đo lường đối với mỗi thuộc tính là như nhau

thì việc sử dụng độ chính xác dự báo như một tiêu chí đo lường hiệu quả là rất khả thi. Vậy
nên, ta xây dựng một bộ phân lớp với mục đích là để có được độ chính xác dự báo cao nhất
có thể, sau đó lựa chọn các thuộc tính được sử dụng bởi bộ phân lớp như là các thuộc tính
tối ưu. Một mơ hình như vậy được gọi là mơ hình gói.
Mơ hình gói bao gồm hai giai đoạn: Giai đoạn 1 - lựa chọn tập con thuộc tính, trong
giai đoạn này các tập con thuộc tính tốt nhất sẽ được lựa chọn dựa trên tiêu chí độ chính xác
phân lớp (của tập dữ liệu huấn luyện); Giai đoạn 2 - học và kiểm tra (learning and testing),
một bộ phân lớp sẽ học các tri thức từ dữ liệu huấn luyện thông qua một tập các thuộc tính
tốt nhất được lựa chọn, và được kiểm tra lại bằng một tập dữ liệu kiểm tra. Khi các tập con
thuộc tính được tạo ra một cách hệ thống (hướng tìm kiếm), đối với mỗi tập con thuộc tính
sẽ có một bộ phân lớp được tạo ra từ dữ liệu bao gồm các thuộc tính đã được lựa chọn. Độ
chính xác của bộ phân lớp được ghi lại trong mỗi lần thử nghiệm và tập con thuộc tính với
độ chính xác cao nhất sẽ được giữ lại. Khi quá trình lựa chọn kết thúc, tập con thuộc tính
với độ chính xác cao nhất sẽ được chọn.


×