Tải bản đầy đủ (.pdf) (26 trang)

Nghiên cứu đề xuất phương pháp phân tích và phát hiện lưu lượng bất thường trên mạng internet (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (624.25 KB, 26 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

NGUYỄN HÀ DƢƠNG

NGHIÊN CỨU ĐỀ XUẤT PHƢƠNG PHÁP PHÂN TÍCH VÀ
PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG
TRÊN MẠNG INTERNET
Chuyên ngành: Kỹ thuật viễn thông
Mã số: 62.52.02.08

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội - 2017


Công trình được hoàn thành tại: Học viện Công nghệ
Bưu chính Viễn thông
Người hướng dẫn khoa học: PGS. TSKH. Hoàng Đăng Hải

Phản biện 1:……………………………………………
…………………………………………….
Phản biện 2:……………………………………………
…………………………………………….
Phản biện 3……………………………………………
…………………………………………….
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện
tại:………………………………………………………………..
………………………………………………………………………
Vào hồi


giờ

ngày

tháng

năm

Có thể tìm hiểu luận án tại thư viện:………………………………..
Thư viện Quốc gia Việt Nam
Thư viện Học viện Công nghệ Bưu chính Viễn thông


1

MỞ ĐẦU
Phát hiện lưu lượng mạng bất thường đã là một chủ đề nghiên cứu
được quan tâm nhiều trong những năm qua. Bất thường có thể do
nhiều nguyên nhân như: hỏng hóc thiết bị mạng, lỗi đường truyền,
lỗi cấu hình, tăng đột ngột số lượng truy nhập của khách hàng, các
hoạt động tấn công của tin tặc, phát tán thư rác, sâu máy tính v.v..
Để xác định nguyên nhân và xử lý, việc đầu tiên cần thực hiện là
thu thập dữ liệu về lưu lượng mạng, tiến hành phân tích và phát hiện
dấu hiệu bất thường. Sau đó cần phân loại nguồn gốc, xác định
nguyên nhân và xử lý các bất thường căn cứ theo nguyên nhân. Phân
tích và phát hiện bất thường là giai đoạn quan trọng trong toàn bộ
quá trình và là phạm vi nghiên cứu của luận án. Cụ thể, trọng tâm
của luận án là trên cơ sở lưu lượng mạng thu thập được cần có
phương pháp xác định xem lưu lượng đó có phải là bất thường hay
không để đưa ra cảnh báo.

Đối tượng nghiên cứu của luận án là nghiên cứu các phương
pháp phân tích và phát hiện lưu lượng bất thường dựa trên phân tích
thành phần chính (PCA), đề xuất một số đóng góp mới, cụ thể gồm:
- Đề xuất một công thức mới cho tính khoảng cách dựa trên công
thức Minkowski có bổ sung thêm trọng số.
- Đề xuất một phương pháp mới có tên là dPCA sử dụng công thức
tính khoảng cách nêu trên. dPCA hoạt động phân cấp dùng 1 mức
ngưỡng và 2 mức ngưỡng.
- Đề xuất hai phương pháp phát hiện và khử ngoại lai trong tập dữ
liệu mẫu là: phương pháp udPCA và phương pháp K-means trong
kết hợp với phương pháp dPCA.
- Đề xuất một mô hình kết hợp giữa phát hiện xâm nhập dựa trên
dấu hiệu và phát hiện bất thường theo phương pháp dPCA được tích
hợp vào một hệ thống giám sát cho phân tích và phát hiện lưu lượng


2

bất thường, phát hiện tấn công mạng trên phân đoạn mạng có kết nối
Internet.
Phương pháp nghiên cứu được sử dụng trong luận án là nghiên
cứu mô hình toán học kết hợp với mô phỏng, thử nghiệm.
Cấu trúc của luận án gồm phần mở đầu, 4 chương nội dung, phần
kết luận. Nội dung chính của các chương như sau:
- Chương 1: Cơ sở lý thuyết và các nghiên cứu liên quan.
- Chương 2: Phương pháp phân tích và phát hiện lưu lượng bất
thường dPCA.
- Chương 3: Phương pháp khử ngoại lai trong tập dữ liệu mẫu
- Chương 4: Hệ thống giám sát với phương pháp phát hiện lưu
lượng bất thường.

CHƢƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU
LIÊN QUAN
1.1. Thu thập lƣu lƣợng mạng Internet
Hiện nay, phương pháp cơ bản để thu thập lưu lượng là theo gói
tin hoặc luồng tin. Để phát hiện bất thường, các nghiên cứu cho thấy
rằng cần tách lưu lượng thu được thành dữ liệu thuộc tính. Các thuộc
tính gồm số byte, số gói tin, địa chỉ IP, cổng nguồn/ đích v.v… Việc
lựa chọn thuộc tính dữ liệu rất quan trọng vì ảnh hưởng trực tiếp đến
hiệu suất c ng như độ chính xác phát hiện.
1.2. Tổng quan về các phƣơng pháp, mô hình phân tích và phát
hiện lƣu lƣợng bất thƣờng
Trong một số năm qua, nhiều giải pháp đã được đưa ra để phân
tích và phát hiện lưu lượng bất thường. Mặc dù các giải pháp hết sức
đa dạng, song chúng thường được phân loại theo ba nhóm chính là:
1) nhóm dựa vào thống kê, 2) nhóm dựa vào khai phá dữ liệu và học
máy, 3) nhóm dựa vào tri thức. Việc phân loại mang tính chất tương
đối vì thực tế một phương pháp có thể đồng thời thuộc các nhóm


3

khác nhau. Phương pháp thống kê dựa trên giả định mô hình tuân
theo một phân bố thống kê biết trước hoặc dựa trên dữ liệu thực
nghiệm trong điều kiện bình thường từ đó so sánh với độ lệch hoặc
khoảng cách với điều kiện bình thường để phát hiện ra bất thường.
1.3. Phƣơng pháp phân tích và phát hiện lƣu lƣợng bất thƣờng
dựa trên PCA (gọi tắt là phƣơng pháp PCA)
Đây là phương pháp thuộc nhóm thống kê, dựa trên thuật toán
phân tích thành phần chính (Principal Component Analysis) làm nền
tảng. PCA là thuật toán thống kê sử dụng phương pháp biến đổi

tuyến tính trực giao nhằm chuyển một tập hợp các quan sát có sự
tương quan thành tập các giá trị tuyến tính không tương quan được
gọi là thành phần chính (Principal Component - gọi tắt là PC). Tập
hợp quan sát với dữ liệu p-chiều được ánh xạ sang miền m-chiều
(miền con hay không gian con có m thành phần chính). Số lượng
thành phần chính có thể bằng hoặc ít hơn các biến ban đầu.
Phương pháp chung để phân tích và phát hiện bất thường là tính
khoảng cách thống kê của mỗi tập dữ liệu quan sát tới tâm hay trung
bình thống kê của tập dữ liệu. Khoảng cách phổ biến là Euclidean,
Mahalanobis. Những phương pháp PCA điển hình là phương pháp
phân tích từng thành phần chính, phương pháp phân tích phần dư
(dựa trên nhóm PC cuối), phương pháp dựa trên thống kê T2 hay
khoảng cách Mahalanobis (sử dụng PC chủ yếu và thứ yếu).
1.4. Nhận xét, đánh giá
Qua khảo sát các công trình nghiên cứu phân tích và phát hiện lưu
lượng mạng bất thường dựa trên PCA tới nay, có thể đưa ra một số
nhận xét, đánh giá như sau:
 Vẫn chưa có một công thức bao quát cho tính khoảng cách để từ
đó tìm ra các tham số phù hợp với mục tiêu giảm độ phức tạp tính
toán song vẫn đạt hiệu quả.


4

 Vấn đề sử dụng những thành phần chính nào hiệu quả và giảm
được số chiều dữ liệu khi xét đến độ phức tạp của thuật toán.
 Đối với các phương pháp PCA sử dụng tập dữ liệu mẫu, ngoại lai
có thể xuất hiện trong tập dữ liệu mẫu làm sai lệch profile. Vì vậy
việc làm sạch tập dữ liệu mẫu trước khi tạo profile là điều cần thiết.
Các nghiên cứu dựa trên PCA tới nay chưa có đề xuất cụ thể nào về

phương pháp loại bỏ ngoại lai trong tập dữ liệu mẫu mà thường giả
thiết tập mẫu không chứa ngoại lai khi thử nghiệm.
 Việc lựa chọn vị trí thu thập, lựa chọn các thuộc tính lưu lượng
cần thu thập c ng góp phần quan trọng vào nâng cao hiệu quả phát
hiện bất thường.
1.5. Kết luận chƣơng 1
Chương 1 đã trình bày tổng quan về cơ sở lý thuyết và các nghiên
cứu liên quan đến đề tài luận án trong đó có nhận xét đánh giá về vấn
đề phân tích và phát hiện lưu lượng bất thường với phương pháp
PCA, những vấn đề nghiên cứu còn mở làm cơ sở cho những nghiên
cứu và đề xuất ở các chương tiếp theo.
CHƢƠNG 2: PHƢƠNG PHÁP PHÂN TÍCH VÀ PHÁT HIỆN
LƢU LƢỢNG BẤT THƢỜNG
2.1. Mở đầu
Chương 2 trình bày về mô hình chung hệ thống phân tích và phát
hiện lưu lượng bất thường với dựa trên PCA, đề xuất phương pháp
dPCA và thử nghiệm, đánh giá phương pháp đề xuất.
2.2. Mô hình hệ thống dựa trên phƣơng pháp PCA
Hệ thống hoạt động theo hai pha:
Pha tạo profile: Hệ thống cần tạo trước profile với dữ liệu sạch
(dữ liệu không chứa bất thường . Pha này hoạt động ngoại tuyến
(offline).


5

Pha phát hiện: Pha này hoạt động trực tuyến online . ỗi quan
sát mới chứa các thuộc tính dữ liệu cần chuyển sang miền con của
PCA từ áp dụng phương pháp phân tích, phát hiện bất thường.
Mô hình chung của hệ thống phân tích, phát hiện lưu lượng bất

thường dựa trên PCA bao gồm những thành phần sau:
 Thu thập, tiền xử l dữ liệu, tách thuộc tính
 Bộ biến đổi PCA: Dữ liệu sau quá trình chuẩn hóa được biến đổi
để chuyển sang miền dữ liệu của PCA.
 Module phân tích và phát hiện bất thường: thực hiện việc phân
tích những thành phần chính nào sử dụng để phát hiện bất thường,
tính khoảng cách, thiết lập mức ngưỡng, tạo tập tham số trạng
thái bình thường (profile). Từ profile đã tạo sẽ so sánh với những
dữ liệu cần kiểm tra để phát hiện bất thường.
 Cảnh báo: Kết quả phát hiện được đưa ra cảnh báo.
2.3. Công thức tính khoảng cách thống kê trong phân tích và
phát hiện lƣu lƣợng bất thƣờng.
Việc xác định hệ thống ở trạng thái bình thường hay bất thường
phụ thuộc vào độ lệch hay khoảng cách thống kê (gọi tắt là khoảng
cách) của điểm đang xét từ trạng thái bình thường. Các phương pháp
tính khoảng cách phổ biến là khoảng cách Euclidean, bình phương
Euclidean, Mahalanobis. Những phương pháp khác như khoảng cách
Mahattan (hay City Block), khoảng cách Minkowski, khoảng cách
Canberra chủ yếu chỉ được sử dụng trong các bài toán thống kê.
Luận án đề xuất áp dụng công thức Minkowski bổ sung trọng số
trong miền con PCA như sau:
Khi chuyển sang miền con PCA, khoảng cách Minkowski từ mỗi
quan sát đến tâm (gốc tọa độ của miền con PCA) sẽ là:
p

d   yi
i 1

c


(2.11)


6

Tuy nhiên, mỗi biến có thể có độ biến thiên hoặc đơn vị khác
nhau. Đồng thời, trong miền con PCA, không cần thiết phải tính
khoảng cách cho tất cả p thành phần chính. Vì vậy, luận án bổ sung
trọng số wi phù hợp với mỗi biến để làm giảm sự sai lệch trong công
thức tính khoảng cách như sau:
q

d   wi yi

c

(2.13)

ir

Trong đó:d là khoảng cách hình thành từ các thành phần chính yi
và trọng số wi tương ứng.
wi là trọng số cho thành phần chính yi
c là số m của| yi| và là hằng số.
p là số thuộc tính ban đầu và là số biến đầu vào
1 r  q  p

Trong miền con PCA, nếu chọn tham số thích hợp, ta sẽ thu được
những công thức tính khoảng cách để phát hiện bất thường với hiệu
quả tương đương với phương pháp đã có.

2.4. Phƣơng pháp PCA
Phương pháp dPCA (Distance-based anomaly detection method
in PCA subspace là phương pháp phân tích và phát hiện bất thường
trong miền con PCA và sử dụng công thức tính khoảng cách (2.13).
2.4.1. Lựa chọn các tham số để tính khoảng cách trong dPCA
Bằng cách thay đổi các trọng số wi và tham số c, ta có thể thiết lập
linh hoạt các tham số cho công thức tính khoảng cách (2.13).
 Khi c=2, wi=1, công thức (2.13) trở thành:
q

d   yi 2  yr 2  yr 12  ...  yq 2

(2.18)

i r

Công thức này tương đương với công thức được áp dụng trong
phương pháp phân tích phần dư của các nghiên cứu đã khảo sát.
 Khi c=2, wi ≠ 1:


7

Về lý thuyết có thể chọn nhiều giá trị wi khác nhau nhưng cách
thường dùng là chuẩn hóa theo phương sai. Do trị riêng λi đóng vai
trò là phương sai trong miền con PCA nên có thể chuẩn hóa với λi.
q
yq2
y2 y2 y2
d   i  r  2  ... 

(2.19)
ir

i

r

2

q

Công thức 2.19 tương đương với công thức của phương pháp
PCA trong các nghiên cứu đã khảo sát áp dụng thống kê T2.
 Khi c=1, wi =1 công thức (2.13) trở thành khoảng cách Manhattan
trong miền con PCA:
q

d   yi  yr  yr 1  ...  yq

(2.21)

i r

 Khi c=1, wi ≠ 1:
Do trị riêng đóng vai trò là phương sai trong miền con PCA nên
có thể chuẩn hóa các giá trị |yi| với căn bậc hai của trị riêng.
q

d 
i r


yi

i



yr

r



y2

2

 ... 

yq

q

(2.22)

 Nhận xét:
- wi=1 phù hợp khi tính d với các thành phần chính khi sự
chênh lệch giữa các trị riêng không lớn, đặc biệt là
những PC thứ yếu.
- wi ≠ 1 phù hợp khi tính d với các thành phần chính khi

có sự chênh lệch đáng kể giữa các trị riêng. Sự chênh
lệch thường nằm ở những PC chủ yếu hoặc khi dùng tất
cả PC để tính khoảng cách.
- Độ phức tạp của thuật toán tính khoảng cách:


8

o

Khi c=2 độ phức tạp là O(kn2) với k là số PC được sử dụng,

n là số lượng quan sát được tính khoảng cách
o

Khi c=1 độ phức tạp là O(kn). Do đó có thể sử dụng c=1 để

giảm độ phức tạp tạp trong tính khoảng cách của dPCA so với
các công trình nghiên cứu điển hình dựa trên PCA trước đây.
2.4.2. Sự phân cấp của dPCA
Hình 2.3 mô tả chế độ hoạt động của phương pháp dPCA.
Tất cả PC
Cấp 1

PC thứ yếu

Chế độ
hoạt động

dPCA


Cấp 2

PC chủ yếu
Phân tích từng PC

Hình 2.1.

Phân cấp trong phương pháp dPCA

Trong đó dPCA hoạt động theo 2 cấp:
 Cấp 1: dPCA sử dụng PC thứ yếu để tính khoảng cách. Trong
trường hợp cần thiết có thể sử dụng tất cả PC và bỏ qua cấp 2.
Phương pháp này cần 1 mức ngưỡng cho khoảng cách được gọi là
dPCA1T (dPCA with 1 threshold). Khi sử dụng tất cả PC để tính
khoảng cách d, có thể phát hiện được bất thường có đột biến xuất
hiện ở những PC khác nhau. Tuy nhiên sử dụng tất cả PC để tính
khoảng cách với dPCA1T chỉ được áp dụng khi số thuộc tính p
ban đầu không quá lớn vì sẽ tốn nhiều tài nguyên của hệ thống và
nên đặt trọng số wi ≠ 1.
 Cấp 2: Cấp 2 có các chế độ hoạt động


9

- Hoạt động song song với cấp 1: Chế độ song song sử dụng PC
chủ yếu để tính khoảng cách đồng thời với khoảng cách dùng PC
thứ yếu tại cấp 1.
- Hoạt động dự phòng cho cấp 1: Chế độ dự phòng chỉ sử dụng PC
chủ yếu để tính khoảng cách với những dữ liệu đã được phát hiện

là bình thường tại cấp 1 để tìm những bất thường mà cấp 1 có thể
bỏ sót. Ưu điểm của phương pháp này là không cần tính đồng thời
tất cả dữ liệu với cả 2 cấp do đó giảm được số lượng dữ liệu mà
cấp 2 cần xử l . Nhược điểm là phải chờ sau khi cấp 1 xử lý
xong, dữ liệu coi là bình thường mới chuyển đến cấp 2.
- Xét từng PC để phát hiện bất thường nếu cần thiết: phương pháp
này khó phân tích đồng thời nhiều PC và phải thiết lập mức
ngưỡng cho từng PC.
dPCA1T chỉ sử dụng một mức ngưỡng cho khoảng cách. Khoảng
cách được tính theo công thức (2.13) dùng PC thứ yếu hoặc dùng tất
cả PC.
Khi sử dụng cả PC thứ yếu và PC chủ yếu để tính khoảng cách,
mỗi khoảng cách cần có một mức ngưỡng riêng nên phương pháp
này được luận án đặt tên là dPCA2T (dPCA with 2 thresholds).
dPCA2T có thể phát hiện thêm bất thường với khoảng cách sử dụng
PC chủ yếu nhưng đồng thời c ng làm tăng tỷ lệ cảnh báo sai.
Do phát hiện c ng lúc bất thường ở cả PC chủ yếu và thứ yếu,
phương pháp này cho kết quả phát hiện bất thường TPR cao hơn
một chút so với chỉ sử dụng PC thứ yếu. Tuy nhiên phương pháp 2
mức ngưỡng thường c ng trả giá bằng tỷ lệ cảnh báo sai cao hơn và
tốn nhiều tài nguyên hơn. Trong những hệ thống thực tế, thông
thường số lượng dữ liệu bình thường chiếm đa số so với bất thường.
Vì vậy nếu tỷ lệ cảnh báo sai tăng lên một chút c ng làm cho số
lượng dữ liệu bình thường phát hiện sai là bất thường tăng lên nhiều.


10

Ví dụ: dữ liệu bình thường chiếm 90%, bất thường chiếm 10%, như
vậy chỉ 1% dữ liệu bình thường phát hiện nhầm là bất thường c ng

gây ra số lượng lớn cảnh báo sai. Do đó tính khoảng cách với cả PC
chủ yếu và thứ yếu liên tục có thể vừa tốn năng lực xử lý, tài nguyên
của hệ thống vừa làm tăng cảnh báo sai không cần thiết.
Khi trạng thái bình thường trong profile thiết lập tốt, phần lớn
những bất thường trong PC chủ yếu đã được phát hiện với PC thứ
yếu tại cấp 1. Trong trường hợp số lượng bất thường phát hiện được
với cấp 2 không hiệu quả vì cấp 1 đã hoạt động tốt thì t y theo điều
kiện thực tế có thể giảm tần suất kiểm tra tại cấp 2 hoặc tắt hẳn cấp 2
nhằm giảm tỷ lệ cảnh báo sai trong điều kiện dữ liệu bình thường
chiếm đa số và giảm mức độ tính toán.
2.4.3. Thiết lập mức ngưỡng
Thiết lập mức ngưỡng là một vấn đề khó trong các phương pháp
phát hiện lưu lượng bất thường nói chung. Mức ngưỡng là tham số
rất nhạy cảm giữa tỷ lệ phát hiện bất thường chính xác đúng và tỷ
lệ cảnh báo sai (phát hiện nhầm dữ liệu bình thường là bất thường).
Trong luận án, mức ngưỡng được tính dựa trên hàm phân bố tích
l y thực nghiệm (Empirical cumulative distribution function ECDF). Đây là hàm ước tính dựa trên dữ liệu thực nghiệm của hàm
phân bố tích lu . Từ α là tỷ lệ cảnh báo sai ước lượng, ta có thể tính
khoảng cách với mức ngưỡng dN tương ứng với (1- α) của hàm phân
bố tích l y thực nghiệm. Ví dụ: với α = 5%, mức ngưỡng lựa chọn
tương ứng với 95% của ECDF. Tùy thuộc áp dụng dPCA1T hoặc
dPCA2T, sẽ cần thiết lập một hoặc hai mức ngưỡng với ECDF
2.5. Mô phỏng, thử nghiệm
Việc thử nghiệm nhằm mục đích đánh giá độ chính xác của
phương pháp luận án đề xuất và so sánh với những phương pháp đã
có. Tập dữ liệu thử nghiệm dựa trên tập dữ liệu đã được cộng đồng
nghiên cứu chấp nhận) là Kyoto Honeypot,. Mỗi quan sát là một kết


11


nối có tổng cộng 14 thuộc tính. Các thông số đánh giá độ chính xác
dựa trên các thông số phổ biến của những nghiên cứu đã có bao gồm:
- TPR (True Positive Rate): Tỷ lệ giữa số quan sát bất thường phát
hiện đúng và tổng số quan sát bất thường thử nghiệm
- FPR (False Positive Rate): Tỷ lệ giữa số quan sát bình thường bị
phát hiện sai là bất thường và tổng số quan sát bình thường.
Để so sánh với các kết quả của những nghiên cứu điển hình đã có,
biểu đồ và các bảng thể hiện các nhóm tham số như sau:
- Nhóm 1: nhóm sử dụng công thức (2.13) với c=2 và wi=1 tương
đương phương pháp phân tích phần dư của những nghiên cứu đã có.
Trên biểu đồ ký hiệu tham số (c=2, w=1).
- Nhóm 2: nhóm sử dụng công thức (2.13) với c=1, wi=1/ tương
đương phương pháp sử dụng thống kê T2 của những nghiên cứu đã
có. Trên biểu đồ dạng cột nhóm này có ký hiệu tham số (c=2, w<>1).
- Nhóm 3: nhóm sử dụng công thức (2.13) với c=1,wi=1. Trên biểu
đồ nhóm này có ký hiệu tham số (c=1, w=1).
- Nhóm 4: nhóm sử dụng công thức (2.13) với c=1, wi = 1/ i .
Trên biểu đồ nhóm này có ký hiệu tham số ( c=1, w<>1).
k là số thành phần chính được sử dụng để tính khoảng cách.
TP là số kết nối phát hiện đúng
Kết quả thử nghiệm thể hiện trên hình 2.3, bảng 2.3 và bảng 2.6.
Nhận xét: Khi k=3, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP
và TPR cao hơn nhóm 1, xấp xỉ nhóm 2. Tỷ lệ cảnh báo sai FPR của
nhóm 3 và nhóm 4 nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi tăng số
lượng PC lên k=5, dPCA1T (nhóm 3 và nhóm 4) cho kết quả TP và
TPR cao hơn nhóm 1và nhóm 2. Tỷ lệ FPR của nhóm 3 và nhóm 4
nhỏ hơn nhóm 1 và xấp xỉ nhóm 2. Khi k=14 (tất cả PC), dPCA1T
nhóm 3 kém hơn nhóm 1 và 2, song dPCA1T nhóm 4 cho kết quả tốt



12

Các nhóm khoảng cách

Hình 2.3.

Số kết nối bất thường phát hiện đúng

Bảng 2.3. Thử nghiệm dPCA1T

1
1
1

k
3
5
14
3
5
14
3
5
14

Mức ngƣỡng: 95%
TPR (%) FPR (%)
92.4
4.7

91.8
5.2
94.4
5.3
94.6
4.9
91.9
5.6
93.8
5.0
94.3
4.8
91.3
5.2
92.1
5.4

1

1/ i

3

94.1

4.3

1

1/ i


5

98.1

4.7

1

1/ i

14 94.4

4.3

c
2
2
2
2
2
2
1
1
1

wi
1
1
1

1/ i
1/ i

1/ i


13

hơn nhóm 2, xấp xỉ nhóm 1. FPR nhóm 3 và 4 c ng ngang bằng hoặc
xấp xỉ nhóm 1, 2.Như vậy khi tăng số PC của dPCA1T (k=5), TPR
không thay đổi nhiều. Sử dụng từ 3 đến 5 PC không khác biệt với sử
dụng tất cả PC. Vì vậy, trong trường hợp này, số PC thứ yếu chỉ cần
lựa chọn là k=3. Áp dụng c=1 trong nhóm 3 và nhóm 4 (trường hợp
riêng đề xuất của luận án) có kết quả phát hiện tương đương với áp
dụng c=2 của nhóm 1 và 2 (của những nghiên cứu đã có) nhưng độ
phức tạp tính toán của việc tính d giảm đi.
Bảng 2.4. Thử nghiệm dPCA2T
PC ch

ếu,

PC thứ ếu,
FPR
(%)
6.3

1

TPR
(%)

3 99.6
5 92.2

1

1

3

99.9

7.2

4

1

1

3

100

8.1

1/ i

4

1


1

5

97.7

6.9

2

1/ i

4

2

1/ i

3

99.9

8.2

2

1/ i

4


2

1/ i

5

92.2

8.0

1

1/ i

4

1

1/ i

3

99.9

7.1

1

1/ i


4

1

1/ i

5

99.6

7.3

c

wi

k c

wi

k

2

1/ i

4

2


1

2

1/ i

4

2

2

1/ i

4

1

1/ i

1

6.9

dPCA2T thường cho kết quả TPR cao hơn dPCA1T nhưng không
nhiều. Hơn nữa FPR của dPCA2T c ng tăng lên, mức độ tính toán
nhiều hơn. So với d ng c=2 các kết quả TPR và FPR của dPCA2T
với c=1 c ng gần tương đương. Do vậy có thể sử dụng c=1 trong
công thức tính khoảng cách với phương pháp dPCA2T hoặc kết hợp

linh hoạt với c=2 trong PC chủ yếu hoặc thứ yếu để giảm độ phức
tạp. PC thứ yếu có thể phát hiện những biến đổi nhỏ hơn mà những


14

PC chủ yếu không phát hiện được nên PC thứ yếu thường phát hiện
được nhiều bất thường hơn. Để phát hiện nhanh chỉ cần dùng
dPCA1T thứ yếu. dPCA2T có thể d ng để quét với tần suất thấp
hơn để phát hiện thêm bất thường tại PC chủ yếu.
2.6. Kết luận chƣơng 2
Chương 2 đã đề xuất đề xuất công thức tính khoảng cách mới dựa
trên công thức inkowski và phương pháp dPCA. So sánh phương
pháp PCA đã có, dPCA được đề xuất hoạt động phân cấp để có thể
phát hiện nhanh với PC thứ yếu. Cấp 2 có thể phát hiện bất thường
dùng dPCA1T với tất cả PC và dPCA2T. dPCA2T cho phép lựa
chọn linh hoạt các tham số hơn các phương pháp đã có trước đây.
CHƢƠNG 3: PHƢƠNG PHÁP KHỬ NGOẠI LAI TRONG TẬP
DỮ LIỆU MẪU
3.1. Vấn đề khử ngoại lai trong tập dữ liệu mẫu
Ngoại lai trong tập dữ liệu mẫu ảnh hưởng đến profile của trạng
thái bình thường và làm sai lệch kết quả phát hiện. Chương 3 đề xuất
phương pháp khử ngoại lai trong tập dữ liệu mẫu là udPCA và Kmeans. Đây là đóng góp mới của luận án mà qua khảo sát các công
trình dựa trên phương pháp PCA hiện nay chưa thực hiện.
3.2. Phƣơng pháp phát hiện và khử ngoại lai bằng udPCA
Phương pháp udPCA Unclean dPCA d ng để phát hiện ngoại
lai trực tiếp trên tập dữ liệu thuộc tính đầu vào.
uá trình tạo profile và phát hiện ngoại lai của udPCA được mô
tả trong hình 3.2. Trong đó, tập dữ liệu mẫu cần khử ngoại lai được
chuẩn hóa, qua biến đổi PCA và tính khoảng cách. Khoảng cách

được so sánh với mức ngưỡng để phát hiện ngoại lai. Những dữ liệu
bị phát hiện là ngoại lai sẽ bị loại bỏ khỏi tập dữ liệu mẫu. Tập dữ liệu
mẫu đã làm sạch sau đó có thể d ng cho phương pháp dPCA. Thực


15

chất udPCA vẫn cần tạo một profile tạm thời để từ đó so sánh mức
ngưỡng với các điểm hoặc quan sát.
Dữ liệu đầu vào để tạo tập mẫu

Chuẩn hóa

PCA

Tính hoảng cách

Mức ngƣỡng
So ánh hoảng cách và
mức ngƣỡng
Phát hiện ngoại lai

Hình 3.2. Quá trình phát hiện ngoại lai của udPCA
Profile của udPCA không dựa trên tập mẫu mà tạo trực tiếp với
dữ liệu thuộc tính đầu vào. udPCA sử dụng tất cả các PC để phát
hiện ngoại lai. Lý do là vì khi phát hiện ngoại lai trực tiếp trong tập
mẫu, trạng thái bình thường trong profile không ổn định nên ngoại
lai có thể xuất hiện ở PC bất kỳ. Vì vậy, udPCA sử dụng phương
pháp 1 ngưỡng với đầy đủ các PC để có thể phát hiện được ngoại lai
có mức biến thiên lớn ở những PC khác nhau.

Để khử được nhiều ngoại lai cần thiết lập ngưỡng ở mức thấp hơn
so với phương pháp sử dụng tập dữ liệu mẫu vì nếu đặt mức ngưỡng
cao sẽ bỏ qua nhiều ngoại lai. Điều này phải trả giá bằng việc tăng tỷ
lệ FPR hay số lượng dữ liệu bình thường bị phát hiện sai tăng lên.


16

Khi khử ngoại lai, không chỉ ngoại lai vượt quá mức ngưỡng bị
loại bỏ mà ngay cả những dữ liệu bình thường này c ng bị loại bỏ
khỏi tập dữ liệu mẫu. Đây là những dữ liệu bình thường tạo nên
khoảng cách lớn hơn những dữ liệu bình thường khác nên sẽ ảnh
hưởng đến các tham số trong profile. Sự ảnh hưởng này liên quan
đến dữ liệu bình thường có khoảng cách lớn nên những dữ liệu này
sẽ có thể bị phát hiện sai là bất thường trong dPCA. Nói cách khác
việc loại bỏ những dữ liệu bình thường có khoảng cách lớn sẽ làm
cho tỷ lệ cảnh báo sai FPR của dPCA tăng lên. ột k thuật để khắc
phục vấn đề này là ngay sau khi thiết lập mức ngưỡng trong profile
của dPCA, có thể chỉnh mức ngưỡng lên một khoảng nhất định.
3.3. Phƣơng pháp phát hiện và khử ngoại lai bằng K-Means
K-means là thuật toán phân cụm phổ biến được áp dụng trong
nhiều lĩnh vực. K-means sử dụng giá trị trung bình (mean) của các
đối tượng trong cụm làm tâm của cụm đó và phân nhóm các đối
tượng đã có vào K cụm (K cần được xác định trước) sao cho khoảng
cách giữa các đối tượng đến tâm cụm (centroid ) là nhỏ nhất.
Phương pháp để phát hiện ngoại lai bằng K-means như sau: Để
phát hiện ngoại lai cần thiết lập cụm bình thường normal cluster và
cụm chứa ngoại lai outlier cluster . Trong trường hợp K=2, chỉ có
một cụm là bình thường và cụm còn lại chứa ngoại lai. Cụm chứa
ngoại lai được coi là cụm có số lượng điểm nhỏ hơn so với cụm bình

thường. Do vậy, kết quả phân cụm sẽ chọn cụm có số lượng điểm
nhỏ hơn là cụm chứa ngoại lai. Một điểm xi được coi là ngoại lai nếu:
- xi nằm gần tâm của cụm chứa ngoại lai hơn cụm bình thường.
- xi nằm ngoài phạm vi giới hạn bởi khoảng cách ngưỡng đến tâm
cụm bình thường.
Những điểm phát hiện là ngoại lai sẽ bị loại bỏ tập dữ liệu mẫu
của dPCA.
3.4. Thử nghiệm phát hiện và khử ngoại lai


17

Quá trình thử nghiệm c ng được thực hiện trên dữ liệu Kyoto
Honeypot. Việc thử nghiệm nhằm mục đích: đánh giả ảnh hưởng của
ngoại lai đến khả năng phát hiện bất thường, khả năng phát hiện
ngoại lai của udPCA, khả năng phát hiện ngoại lai của K-means, hiệu
quả của việc khử ngoại lai trong tập dữ liệu mẫu. Tập dữ liệu mẫu
gồm có 10% là ngoại lai, 90% còn lại là kết nối bình thường. Mức
ngưỡng của d được đặt bằng 75% đến 80% của ECDF. Bảng 3.2
trình bày kết quả phát hiện ngoại lai của udPCA, trong đó:
- Tỷ lệ phát hiện đúng ngoại lai: là tỷ lệ số lượng ngoại lai phát
hiện chính xác trên tổng số ngoại lai trong thử nghiệm. Thông số này
thực chất chính là TPR. Tỷ lệ này càng cao chứng tỏ khả năng phát
hiện ngoại lai càng cao.
- Tỷ lệ phát hiện sai ngoại lai: là tỷ lệ số lượng dữ liệu bình thường
phát hiện sai là ngoại lai trên tổng số dữ liệu bình thường thử
nghiệm. Thông số này thực chất chính là FPR.
Bảng 3.2. Kết quả phát hiện ngoại lai bằng udPCA
T lệ phát hiện đúng


T lệ phát hiện

c

wi

k

2

1/ i

14

99.8

16.7

1

1/ i

14

99.4

16.7

2


1/ i

14

100

16.6

1

1/ i

14

99.2

16.7

2

1/ i

14

97.7

17.0

1


1/ i

ngoại lai

)

ai ngoại lai

)

14
98.8
22.3
Bảng 3.3 là kết quả phát hiện ngoại lai bằng K-means.
ức
ngưỡng khoảng cách Euclidean dùng trong K-means được xác định
tương ứng với 75% đến 80% của hàm phân bố tích l y thực nghiệm.
Kết quả cho thấy K-means c ng có thể phát hiện ngoại lai với hiệu
quả tương đương với udPCA.


18

Bảng 3.3. Kết quả phát hiện ngoại lai bằng K-Means
T lệ phát hiện đúng
ngoại lai

T lệ phát hiện ai

)


ngoại lai (%)

100

15.2

100

24.1

99.7

21.8

99.3
18.0
Bảng 3.4 biểu diễn kết quả phát hiện của dPCA1T chương 2
trước khi khử ngoại lai cho tập dữ liệu mẫu. Ngoại lai làm ảnh hưởng
đến khả năng phát hiện bất thường, cụ thể là làm tỷ lệ TPR suy giảm.
Bảng 3.4. Kết quả dPCA1T trước khi loại bỏ ngoại lai
c
2

wi
1

k
3


Mức ngƣỡng 5
TPR (%) FPR (%)
42.4
1.4

2

1/ i

3

41.5

1.1

2

1/ i

14

27.8

2.3

1

1/ i

3


29.3

2.2

1

1/ i

14

28.3

2.8

1

1

3

26.4

2.5

Bảng 3.5 biểu diễn kết quả phát hiện của dPCA một mức
ngưỡng (dPCA1T) sau khi khử ngoại lai cho tập dữ liệu mẫu.
Bảng 3.5. Kết quả dPCA1T sau khi loại bỏ ngoại lai

c


wi

k

2

1

3

Mức ngƣỡng
95%
TPR FPR
(%)
(%)
99.9
15.9

Mức ngƣỡng
99%
TPR
FPR
(%)
(%)
99.9
6.7


19


2

1/ i

3

100

19.6

100

7.6

2

1/ i

14 100

20.8

100

6.6

1

1/ i


3

100

19.6

100

6.7

1

1/ i

14 100

20.8

100

6.1

1

1

3

17.1


98.9

6.7

100

ức ngưỡng 95% là mức ngưỡng giống như đã d ng cho dPCA
chương 2; ức ngưỡng 99% là mức ngưỡng được nâng lên để b
vào lượng dữ liệu bình thường đã bị loại bỏ trong quá trình khử
ngoại lai cho tập mẫu. Nhận xét: Việc khử ngoại lai trong tập dữ liệu
mẫu làm tăng tỷ lệ TPR của dPCA so với dPCA trước khi khử ngoại
lai bảng 3.4 . Tuy nhiên, ngoài ngoại lai, một số dữ liệu bình thường
có khoảng cách lớn c ng bị loại bỏ khỏi tập mẫu. Điều này ảnh
hưởng đến chất lượng tập mẫu và các tham số trong profile. Kết quả
là tỷ lệ cảnh báo sai FPR tăng lên đáng kể. Việc chỉnh mức ngưỡng
sau khi khử ngoại lai giảm tác động của những dữ liệu bình thường
bị mất. Do vậy tỷ lệ FPR giảm đi so với giữ nguyên mức ngưỡng.
3.5. Kết luận chƣơng 3
Các kết quả thử nghiệm cho thấy udPCA và K-means là những
phương pháp hiệu quả để khử ngoại lai. Sau khi khử ngoại lai, tỷ lệ
phát hiện bất thường TPR của dPCA tăng lên r rệt. Hạn chế của
việc khử ngoại lai là làm tăng tỷ lệ cảnh báo sai FPR. Để khắc phục
vấn đề này, luận án đã đề xuất một k thuật chỉnh mức ngưỡng để b
lại sự hao hụt những dữ liệu bình thường đã bị khử với udPCA và Kmeans, do đó cải thiện được tỷ lệ FPR. Tỷ lệ FPR cao hơn của dPCA
sau khi khử ngoại lai là chấp nhận được vì một số dữ liệu bình
thường gây đột biến về lưu lượng c ng được coi là bất thường. Thực
tế đó có thể là do người d ng có những hành động hợp lệ nhưng vượt
ngoài mức bình thường. Việc phát hiện những luồng gây ra đột biến
như vậy c ng là cần thiết và coi như một dạng bất thường.



20

CHƢƠNG 4: HỆ THỐNG GIÁM SÁT VỚI PHƢƠNG PHÁP
PHÁT HIỆN LƢU LƢỢNG BẤT THƢỜNG
4.1. Mở đầu
Trong chương này, luận án đề xuất việc ứng dụng phương pháp
dPCA vào một hệ thống giám sát có thể triển khai trong thực tế cho
một mạng nội bộ của một tổ chức, doanh nghiệp có kết nối Internet
4.2. Kiến trúc hệ thống giám sát
Một hệ thống giám sát điển hình thường gồm 2 phần chính: Các
máy trinh sát và phần trung tâm phân tích xử lý hay còn gọi là trung
tâm giám sát.
Máy trinh sát (sensor): Thu thập thông tin và các sự kiện trên
mạng chuyển về trung tâm giám sát để xử lý, phân tích. Ngoài ra,
trên máy trinh sát có thể có thêm chức năng phân tích, phát hiện sơ
bộ để có cảnh báo nhanh gửi về trung tâm giám sát. Sensor là phần
căn bản nhất cho chức năng thu thập thông tin và có thể thực hiện
thêm chức năng phân tích, phát hiện (do sự cố mạng, tắc nghẽn, hoặc
tấn công mạng để có cảnh báo nhanh gửi về trung tâm giám sát.
dPCA được đề xuất tích hợp như một tiện ích vào phần mềm của
sensor, thực hiện chức năng phân tích, phát hiện lưu lượng bất
thường đi qua mỗi điểm trinh sát. Mặt khác, dPCA có thể cài đặt tại
trung tâm giám sát để thực hiện chức năng phân tích, phát hiện lưu
lượng bất thường trên toàn bộ phân đoạn mạng. Để thu thập dữ liệu
lưu lượng cho dPCA tại sensor, có thể sử dụng các phần mềm công
cụ như Ntop, Fprobe để thu lưu lượng trên phân đoạn mạng có kết
nối Internet. Dữ liệu thuộc tính được tổng hợp từ kết nối hoặc luồng
tin. Tập dữ liệu thuộc tính sau đó được lưu tạm thời tại máy trinh sát

và chuyển về cơ sở dữ liệu tại trung tâm giám sát.
Trung tâm giám sát gồm 04 thành phần chính: 1) Thu thập thông
tin từ các máy trinh sát và xử lý dữ liệu sơ bộ; 2 Cơ sở dữ liệu; 3)


21

Xử lý, phân tích, phát hiện bất thường; 4) Quản trị hệ thống, hiển thị
cảnh báo.
4.3. Nhận ạng, phân loại ất thƣờng và hả n ng ết hợp phát
hiện lƣu lƣợng bất thƣờng với phát hiện tấn công mạng.
Sau khi phát hiện cần xác định nguyên nhân, phân loại bất
thường. ột số công trình nghiên cứu sử dụng phân lớp, phân cụm
để phân loại các bất thường vào các lớp đã tạo sẵn hoặc các cụm.
Các công trình khác sử dụng mẫu dấu hiệu để nhận dạng những bất
thường phổ biến. Có thể kết hợp phát hiện bất thường với phát hiện
xâm nhập dựa trên mẫu dấu hiệu để xác định được kiểu tấn công dựa
trên tập luật và cơ sở dữ liệu về các loại tấn công đã biết. Cách kiểm
tra trực tiếp bởi con người đòi hỏi người quản trị, chuyên gia có thể
phân tích từng loại bất thường phát hiện được.
4.4. Mô hình ết hợp phát hiện bất thƣờng với IDS
Trong hệ thống giám sát, dPCA cần kết hợp với những thành
phần khác, đặc biệt là bộ phận phát hiện xâm nhập dựa trên tập mẫu
dấu hiệu (IDS). Dữ liệu đầu vào để tạo tập mẫu được kiểm tra bởi
phần mềm phát hiện xâm nhập IDS theo mẫu dấu hiệu ví dụ Snort,
Suricata, Bro để loại bỏ những tấn công đã biết. Tiếp đó, tập dữ liệu
mẫu đi qua bộ khử ngoại lai để khử ngoại lai có thể xuất hiện. Bộ
biến đổi PCA d ng để tính ra các tham số của profile và tính khoảng
cách. Khoảng cách vượt quá giá trị ngưỡng được coi là bất thường.
Kết quả phát hiện được kiểm tra lại IDS mẫu dấu hiệu hoặc bởi

phương pháp học máy dựa trên các lớp bất thường đã biết. Những
bất thường không thể nhận dạng sẽ được kiểm tra trực tiếp. Để tránh
quá tải cho IDS theo mẫu dấu hiệu, những dữ liệu được phát hiện là
bình thường sẽ không phải kiểm tra lại toàn bộ bởi IDS theo mẫu dấu
hiệu mà được kiểm tra lại một cách ngẫu nhiên để xem có tấn công
hay không.
4.5. Mô phỏng thử nghiệm phát hiện tấn công c a dPCA


22

Luận án áp dụng dPCA để phát hiện một số loại tân công với tỷ lệ
phát hiện đúng như bảng 4.2. Từ kết quả này có thể thấy dPCA có
thể áp dụng để phát hiện tấn công. Tuy nhiên mỗi loại tấn công có
thể cần số lượng PC(k) khác nhau để đạt kết quả tốt.
Bảng 4.2. Kết quả phát hiện của dPCA1T với một số loại tấn công
IPPortGuestSmurf sweep Sweep
Pwd
(%)
(%)

c

wi

k

1
2


1
1

3
3

73.1
76.2

87.5
63.8

31.4
17.0

88.1
88.6

2

1/ i

3

86.2

76.2

19.4


86.8

2

1/ i

4

73.9

62.6

40.5

86.8

2

1/ i

5

81.6

88.1

49.8

98.1


2

1/ i

6

71.2

99.5

73.6

96.2

2

1/ i

16

67.7

13.3

82.7

98.1

1


1/ i

3

91.1

85.2

18.3

88.6

1

1/ i

4

90.2

80.4

37.1

98.1

1

1/ i


5

83.4

97.8

47.2

98.1

1

1/ i

6

86.1

87.6

66.0

88.7

1

1/ i

16


68.1

20.4

83.1

98.1

4.6. Kết luận chƣơng 4
Trong chương 4, luận án trình bày về kiến trúc một hệ thống giám
sát. Luận án đề xuất áp dụng dPCA vào hệ thống giám sát trong đó
có kết hợp với IDS mẫu dấu hiệu và các phương pháp nhận dạng bất


23

thường. Kết quả mô phỏng phát hiện một số loại tấn công cho thấy
khả năng áp dụng dPCA để phát hiện tấn công là khả thi trên thực tế.
KẾT LUẬN
Luận án đã chỉ những sự hạn chế của phương pháp PCA và có
một số đóng góp mới cụ thể như sau:
- Đề xuất một công thức mới để tính khoảng cách trong miền con
PCA dựa trên công thức Minkowski có bổ sung thêm trọng số.
- Đề xuất một phương pháp mới có tên là dPCA phân cấp với 2
mức ngưỡng: dPCA1T và dPCA2T. Kết quả thử nghiệm cho thấy có
thể thay đổi tham số để giảm độ phức tạp tính toán so với các công
trình trước đó, trong khi vẫn duy trì được hiệu quả phát hiện tương
đương ở mức chấp nhận được.
- Đề xuất hai phương pháp phát hiện và khử ngoại lai trong tập dữ
liệu mẫu là: udPCA và K-means Các kết quả thử nghiệm đã cho

thấy, việc khử ngoại lai trong tập dữ liệu mẫu với udPCA và Kmeans làm tăng tỷ lệ TPR lên đáng kể khi áp dụng dPCA đã khử
ngoại lai so với khi áp dụng dPCA chưa khử ngoại lai.
- Luận án đã đề xuất ứng dụng phương pháp dPCA vào một hệ
thống giám sát cho mục tiêu phân tích và phát hiện lưu lượng bất
thường, phát hiện tấn công mạng trên phân đoạn mạng có kết nối
Internet trong đó có sự kết hợp với phát hiện xâm nhập dựa trên mẫu
dấu hiệu.


×