SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
1
2
Nguyễn Đình Chiểu |
Một Số Thuật Toán Phân Lớp Và Ứng
Dụng Phát Hiện Xâm Nhập Trái Phép
1
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
2
2
NỘI DUNG CHÍNH
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
2
1. ĐẶT VẤN ĐỀ
3. MỘT SỐ KỸ THUẬT PHÂN LỚP
4. THỰC NGHIỆM
5. KẾT LUẬN
2. TỔNG QUAN HỆ THỐNG PHÁT HIỆN
XÂM NHẬP TRÁI PHÉP
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
3
2
ĐẶT VẤN ĐỀ
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
3
1. Lý do
3. Đối tượng và phạm vi nghiên cứu
4. Phương pháp nghiên cứu
2. Mục tiêu
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
4
2
TỔNG QUAN VỀ IDS
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
4
1. Hệ thống phát hiện xâm nhập
2. Phân loại hệ thống phát hiện xâm nhập.
3. Kiến trúc của hệ thống phát hiện xâm nhập
4. Các kỹ thuật phát hiện xâm nhập trái phép.
5. Kỹ thuật khai phá dữ liệu trong phát hiện xâm
nhập trái phép
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
5
2
Hệ thống phát hiện xâm nhập
1. Khái niệm:
2. Phát hiện xâm nhập:
3. Chính sách của IDS:
-
Phần cứng và phần mềm.
-
Xâm nhập tính toàn vẹn, tính sẵn sàn, tính tin
cậy của HT.
-
HT thực hiện giám sát theo dõi, thu thập thông
tin.
-
Phân tích, đánh giá.
-
Network intrusion detection
system.
-
Host-base Intrusion detection
system.
-
Ai sẽ giám sát hệ thống IDS?
-
Ai sẽ điều hành IDS?
-
Xử lý phát hiện như thế nào?
5
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
6
2
PHÂN LOẠI IDS
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
6
ƯU ĐIỂM HẠN CHẾ
NIDS
-
Quản lý được phân đoạn
mạng.
-
Có tính trong suốt, độc
lập.
-
Cài đặt, bảo trì đơn giản.
-
Tránh bị tấn công bởi một
host cụ thể.
-
Xãy ra trường hợp báo động giả.
-
Không phân tích được lưu lượng
đã mã hoá.
-
Phải luôn cập nhật thường xuyên.
-
Khó biết được việc mạng bị tấn
công.
-
Giới hạn về băng thông.
-
Hacker vận dụng phân mãnh
chồng chéo.
HIDS
-
Xác định được người dùng.
-
Phát hiện tấn công trên
một máy.
-
Phân tích dữ liệu đã được
mã hoá.
-
Cung cấp các thông tin
về host.
-
Hệ điều hành cùng thoả hiệp.
-
HIDS cần thiết lập trên từng host.
-
Không có khả năng phát hiện,
thăm dò mạng.
-
Cần tài nguyên host để thực
hiện.
-
Tấn công từ chối dịch vụ (Dos).
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
7
2
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
7
Ngăn chặn (Prevention)
Giám sát xâm nhập (IM)
Kiểm tra xâm nhập (IS)
Trả lời (Response)
Mô phỏng
Phân tích
Thông báo
1. Quá trính thực hiện
của IDS
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
8
2
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật toán Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
8
2. Cơ sở hạ tầng
IDS
Thêm cơ sở hạ tầng IDS
Thông
báo
Giám
sát
Hệ thống bảo
vệ
Nhiệm vụ của IDS
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
9
2
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
9
3. Kiến trúc của
IDS
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
10
2
KIẾN TRÚC CỦA IDS
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
10
4. Giải pháp Kiến trúc đa tác
nhân:
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
11
2
CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP TRÁI PHÉP
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
11
1) Phát hiện dựa vào dấu hiệu bất thường
2) Phát hiện dựa trên sự bất thường
3) Phát hiện dựa và phân tích trạng thái giao thức.
4) Phát hiện dựa trên mô hình.
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
12
2
KỸ THUẬT DATA MINING TRONG IDS
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
12
Connection/
session records
Packets/
event
(ASCII)
Raw audit data
models
Evaluation
feedback
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
13
2
MỘT SỐ KỸ THUẬT PHÂN LỚP
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
13
1. Tổng quan về khai phá dữ liệu
2. Một số kỹ thuật phân lớp dữ liệu.
3. Phân lớp dựa trên phương pháp học Naïve Bayes.
4. Phân lớp dựa trên cây quyết định.
5. Kỹ thuật phân loại máy vector hỗ trợ.
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
14
2
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
14
Khái niệm về khai phá dữ liệu
Ứng dụng trong khai phá dữ liệu
Các bài toán trong khai phá dữ liệu
Tiến trình trong khai phá dữ liệu
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
15
2
MỘT SỐ KỸ THUẬT PHÂN LỚP
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
15
Khái niệm về phân lớp.
Mục đích của phân lớp.
Các tiêu chí đánh giá thuật toán phân lớp.
Các phương pháp đánh giá độ chính xác của
mô hình phân lớp.
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
16
2
Phân lớp Naïve Bayes
Học theo xác suất:
•
Tính các xác suất rõ ràng cho các giả thuyết.
•
Một trong những hướng thiết thực cho một số vấn
đề thuộc phương pháp học.
Có tăng trưởng:
•
Mỗi mẫu huấn luyện có thể tăng/giảm dần khả
năng đúng của một giả thuyết.
•
Tri thức ưu tiên có thể kết hợp với dữ liệu quan sát.
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
16
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
17
2
Phân lớp Naïve Bayes
Dự đoán theo xác suất: Dự đoán nhiều giả thuyết,
trọng số cho bởi khả năng xảy ra của chúng.
Chuẩn: Tất cả loại phân lớp nào cũng theo một chuẩn
nhất định. Nhằm để tạo ra quyết định ưu tiên đối
với từng thuật toán.
Thuật toán này dựa theo định lý Bayes để áp dụng:
P(C|X)= P(X|C).P(C)/P(X)
- P(X) là hằng số cho tất cả các lơp.
- P(C) là tần số liên quan của các mẫu thuộc lớp C.
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
17
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
18
2
Phân lớp Cây quyết định
Là một cây phân cấp có cấu trúc được dùng để phân lớp các
đối tượng dựa vào dãy các luật.
Việc xây dựng cây quyết định được tiến hành một cách đề qui.
Lần lượt từ nút gốc đến tận nút lá.
Gốc
●
Nhánh
●
Lá
●
Lá
●
Lá
●
Nhánh
●
Lá
●
Lá
●
Lá
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
18
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
19
2
Phân lớp Cây quyết định
Hai giai đoạn tạo cây quyết định.
Xây dựng cây:
Bắt đầu, lấy tất cả các mẫu huấn luyện đều ở gốc.
Phân chia các mẫu dựa trên các thuộc tính được chọn.
Kiểm tra các thuộc tính được chọn dựa trên một độ đo thông kê hoặc
heuristic.
Thu gọn cây:
Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm.
Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luật.
Mỗi cặp giá trị thuộc tính trên một đường dẫn tạo nên một sự liên quan.
Nút lá giữ quyết định phân lớp dự đoán.
Các luật được tạo dễ hiểu hơn các cây.
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
19
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
20
2
Phân lớp Cây quyết định
Thuật toán căn bản
Xây dựng một cây đệ qui phân chia và xác định đắc
tính từ trên xuống.
Các thuộc tính được xem rõ ràng, rời rạc.
Tham lam (có thể truyền cực đại cục bộ).
Nhiều dạng khác nhau: ID3, C4.5, CART, CHAID.
Điểm khác biệt chính: tiêu chuẩn/thuộc tính phân
chia, độ đo để lựa chọn
Độ lợi thông tin.
Gini index: - số thống kê bảng ngẫu nhiên
(contingency table statistic).
G- Thống kê (statistic)
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
20
2
x∀
2
x
∀
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
21
2
Phân lớp SVM
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
21
Máy vector hỗ trợ là một khái niệm trong thống kê khoa học máy tính
cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để
phân loại và phân tích hồi qui.
SVM tuyến tính:
Là phân lớp nhị phân, phân biệt giữa lớp + và lớp Đây là ý tưởng
phân chia biên rộng.
SVM phi tuyến:
Ánh xạ vector dữ liệu vào không gian chiều cao có số chiều cao hơn
nhiều.
n
ii
P
iii
yRxyxD
1
}}1,1{,|),{(
=
−∈∈=
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
22
2
Thực Nghiệm
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
22
1. Phát biểu bài toán
Thu thập dữ liệu trên mạng
Tiền xử lý dữ liệu
Giải nén dữ liệu
Chọn lựa thuộc tính
Xây dựng bộ phân lớp
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
23
2
Thực Nghiệm
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
23
a. Thu thập dữ liệu
Tập dữ liệu bao gồm 1 kiểu bình thường, 22 kiểu tấn công.
Chia thành 4 lớp: Từ chối dịch vụ (DOS), trinh sát hệ thống
(probe), chiếm quyền hệ thống (U2L), khai thác điểm yếu (R2L).
b. Rút trích dữ liệu
Trong tập dữ liệu KDD Cup 1999 ta trích chọn 10% trong số dữ
liệu này để làm thực nghiệm. Bao gồm 91.059 bảng ghi và có 41
thuộc tính. Phân phối của các bảng ghi như sau:
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
24
2
Thực Nghiệm
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
24
2. Kết quả thực nghiệm.
a. Phân lớp dựa trên cây quyết định:
Kết quả Sử dụng cây quyết định như bộ phân lớp nhị phân
Thời gian học Thời gian kiểm thử Mức độ đúng (%)
Normal 60,08 0.2 99,91
DoS 55,6 0,18 99,6
Probe 69,38 0,15 98,8
U2R 51,2 0.16 72,7
R2L 75,02 0,19 98,3
SECURITY BOOTCAMP 2012 | Make yourself to be an expert!
25
2
Thực Nghiệm
IDS; Data mining; Ba thuật toán: Naïve Bayes, DC, SVM; Nguyễn
Đình Chiểu
25
Lớp Số lượng bảng ghi Tỉ lệ %
Nomal
23872 26,2
DoS
65776 72,2
Probe
1042 1,1
U2R
35 0,03
R2L
334 0,3
Tổng cộng
91059 100
c. Xây dựng bộ phân lớp
Xây dựng bộ phân lớp để phát hiện xâm nhập dựa trên ba thuật
toán. Naïve Bayes, Cây quyết định, Support vector machine.
Mục đích đánh giá hiệu quả về hai khía cạnh thời gian và độ
chính xác của thuật toán.