Tải bản đầy đủ (.pdf) (36 trang)

ứng dụng bản đồ tự tổ chức som (self organizing map) phát hiện phát tán virus máy tính qua hành vi(slide )

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 36 trang )

GVHD : TS. Trịnh Ngọc Minh
Học viên : Nguyễn Quốc Doanh
1
19/01/2013
ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC SOM (SELF
ORGANIZING MAP) PHÁT HIỆN PHÁT TÁN
VIRUS MÁY TÍNH QUA HÀNH VI
Giới thiệu đề tài
Mục tiêu đề tài
Cơ sở lý thuyết
Kết quả nghiên cứu
Kết luận và hướng phát triển
1
 Tiếp cận giải quyết vấn đề mã độc bằng phương pháp máy học
và ứng dụng Bản đồ tự tổ chức (SOM), góp phần bảo vệ an
toàn dữ liệu cho các hệ thống công nghệ thông tin.

2
 Hơn 20 năm qua, bài toán nhận dạng mã độc, phát hiện phát
tán virus máy tính vẫn chưa được giải quyết trọn vẹn .
 Mã độc (malware) máy tính phát triển qua nhiều thời kỳ với
nhiều biến thể, nhiều loại hình quấy rối gây thiệt hại cho hệ
thống mạng.
 Cảnh báo đến nhà quản trị khi có mã độc tấn công xâm
nhập


3
 Triển khai hệ thống IDS phát hiện phát tán mã độc
chạy trên hệ điều hành Linux
 Phát hiện các hành vi tấn công của mã độc


Gồm 2 phần chính
 Thuật toán Bản đồ tự tổ chức SOM (Self Organizing Map)
4
 Xây dựng tham số đặc trưng của hệ thống
SOM là một trong những mô hình của mạng nơron, là kỹ thuật
trực quan hóa dữ liệu. Mô hình đầu tiên được mô tả bởi giáo sư
Teuvo Kohonen và thường được gọi là mạng Kohonen.
1. Khái niệm
5
2. Cấu trúc mạng Kohonen
Mạng Kohonen là một lớp mạng truyền thẳng trong đó đầu ra
được sắp xếp thường là 2 chiều hoặc 3 chiều
Ví dụ: m = 2, lớp Kohonen là một lưới 2 chiều các nơron, 2 chiều
có nghĩa là ta có ma trận MxN các nơron
V
11
V
12
…V
1n
V
21
V
22
…V
2n


V
m1

V
m2
…V
mn

Trong đó, mỗi V
ij
là một véc-tơ có k chiều, tức là V
ij
= (x
1
, x
2
,…,x
k
)
Mỗi nút có một cấu hình mạng cụ thể (tọa độ x, y), nếu dữ liệu
huấn luyện chứa véc-tơ x-n chiều (x
1
, x
2
, ,x
n
) thì mỗi nút sẽ chứa
một véc-tơ trọng số tương ứng m
i
(t) cũng n chiều (m
1
,m
2

,
m
3
, ,m
n
)
6
Các nơron trong lưới có liên kết đến các nơron lân cận bằng một
quan hệ láng giềng.
3. 1. Khởi tạo
nT
n
Rxxxx  ], ,,[
21
Xét một tập dữ liệu là các vectơ trong không gian n chiều:
Một nơron thứ i là một vectơ mẫu có kích thước p:
pT
ipii
Rmmm  ], ,[
1
3. Thuật toán SOM
7
Tính toán khoảng cách giữa x đến tất cả các nơron trong bản đồ,
trong đó c là đơn vị có mẫu gần x nhất gọi là BMU được xác định
như sau:
3.2 Xác định BMU (Best Matching Unit)
 
ic
mxmx  min
3.3 Cập nhật trọng số và lân cận của BMU

)]()()[()()()1( tmtxthttmtm
iciii


với t: là thời gian
x: véc-tơ đầu vào ngẫu nhiên rút từ tập dữ liệu đầu vào tại thời điểm t
α(t): hệ số tỷ lệ học
h
ci
(t): nhân lân cận quanh c tại thời điểm t.
8
4. Quá trình học của thuật toán SOM
Bước 8: Gán t=t+1. Nếu t > T hay lỗi lượng tử trung bình <
Epsilon thì DỪNG thuật toán. Ngược lại, quay về bước 3.
)]()()[()()()1( tmtxthttmtm
iciii


9
Bước 1: Khởi tạo bước học đầu tiên t=0
Bước 2: Khởi tạo ngẫu nhiên các nơron.
Bước 3: Chọn ngẫu nhiên vectơ x
i
từ tập dữ liệu đầu vào.
Bước 4: Tính khoảng cách từ vectơ x
i
đến các nơron.
Bước 5: Chọn nơron chiến thắng là nơron gần vectơ x
i
nhất.

Bước 6: Cập nhật trọng số của các nơron chiến thắng
Bước 7: Hiệu chỉnh trọng số vectơ của nơron chiến thắng và
nơron lân cận bằng công thức:
x
i
: véc-tơ dữ liệu huấn luyện.
m
c
: véc-tơ trọng số BMU.

10
5. Chất lượng Bản đồ tự tổ chức
1
1
n
q i c
i
e x m
n



- Bản đồ “tốt” là bản đồ có lỗi lượng tử trung bình thấp nhất.
- Lỗi lượng tử trung bình đo sự khác biệt giữa véc-tơ học và nơron
kết quả của quá trình học, được tính theo công thức sau:
6. Phương pháp tìm ngưỡng cảnh báo:
- Độ sai khác giới hạn giữa trạng thái của hệ thống hiện tại và
trạng thái của hệ thống khi bị mã độc tấn công.
11
- Ta cần phải hiệu chỉnh ngưỡng cảnh báo để hệ thống IDS hoạt

động hiệu quả nhất qua các độ đo.
- Ban đầu lỗi lượng tử trung bình là ngưỡng cảnh báo.
• TN(True Nagitive): Hệ thống bình thường, IDS không cảnh báo.
• TP(True Positive): Hệ thống có mã độc tấn công, IDS có cảnh báo.
• FN(Fasle Nagitive): Hệ thống bị tấn công, IDS không cảnh báo.
• FP(False Positive) : Hệ thống bình thường nhưng IDS lại cảnh báo
có mã độc.
6. Phương pháp tìm ngưỡng cảnh báo
12
- Để đánh giá hiệu quả của hệ thống phát hiện xâm nhập, chúng ta
thường dùng các độ đo như sau: độ chính xác (accuracy), độ đo truy
hồi (recall), độ rõ ràng (precision).
1. Nhóm tài nguyên chính của máy IDS
• Bộ nhớ máy chủ IDS (Server memory)
• Tài nguyên của bộ vi xử lí (Processor Usage)
• Tài nguyên mạng (Network Usage).
• Tình trạng CPU, RAM,
• Số tiến trình xử lý, …
• Số lượng gói tin gửi, nhận …
2. Đề xuất tham số đặc trưng
13
2.1. Tài nguyên bộ nhớ
14
 Đề xuất tham số đặc trưng tài nguyên bộ nhớ
• MemFree: Bộ nhớ trống.
• Buffers: Dung lượng bộ nhớ vật lý được sử dụng cho các bộ
đệm.
• Cache: Bộ nhớ đệm.
• HighFree: Dung lượng bộ nhớ còn trống ở vùng nhớ cao
• LowFree: Dung lượng bộ nhớ trống của vùng bộ nhớ địa chỉ

thấp.
• PageTables: Số lượng bộ nhớ dành riêng cho mức thấp nhất
của các bảng trang.
• Committed_AS: Số lượng bộ nhớ ước lượng để phân bổ trên
hệ thống.
15
2.2 Tài nguyên của bộ vi xử lí
16
 Đề xuất tham số đặc trưng tài nguyên bộ vi xử lý
• load.for1min: % bộ vi xử lý sử dụng trong 1 phút cuối cùng
• load.for5min: % bộ vi xử lý sử dụng trong 5 phút cuối cùng
• load.for15min: % bộ vi xử lý sử dụng trong 15 phút cuối cùng
• Uptime: Số giây hệ thống đã chạy
• Idletime: Số giây idle hệ thống
• processes : Số lượng tiến trình kể từ khi khởi động.
• procs_running: Số các tiến trình trong trạng thái đang chạy.
• procs_blocked: Số tiến trình bị chặn chờ đợi cho I/O để hoàn
thành.
17
2.3 Tài nguyên mạng
18
• SocketTotal: Tổng số lượng socket (socket là một quá trình
thông tin mạng thực hiện bằng cách sử dụng giao thức liên
mạng trên tầng vận chuyển Ethernet)
• ICMP: Số lượng gói tin ICMP gửi tới máy chủ
• UDP: Số lượng gói tin UDP gửi tới máy chủ
• TCP: Số lượng TCP kết nối tới máy chủ
 Đề xuất tham số đặc trưng tài nguyên mạng
19
3. Thuật toán xây dựng các đặc trưng

1. Chọn danh sách chứa các tham số đặc trưng n=19. Đưa danh
sách tham số đặc trưng này vào mảng chuỗi.
2. Gọi hàm để rút trích thông tin trong danh sách chứa tham số
đặc trưng.
3. Khởi tạo một phiên làm việc (session) để truy xuất giá trị của
các tham số đặc trưng từ cấu hình cho trước. Sau khi nhận giá trị
thì chương trình đóng phiên làm việc.
4. Các giá trị của danh sách tham số đặc trưng đã được chuẩn
hóa trong đoạn[0,1] trước khi đưa vào quá trình giám sát với
thuật toán "Bản đồ tự tổ chức".
5. Kết quả trả về của thuật toán xây dựng đặc trưng là một mảng
kết nối với mỗi phần tử trong mảng chứa một lớp các thông tin
của tham số đặc trưng trong danh sách đặc trưng ban đầu.
20
I. Mô hình tổng quát
Mạng LAN
eth1
192.168.1.10
eth0
IDS
172.16.1.1
192.168.1.0/24
Mạng Internet
Client extanal
Hình 5.1 Mô hình tổng quát thực nghiệm phát hiện phát tán
mã độc trên máy IDS
21
II. Xây dựng môi trường thực nghiệm
1/ Phần mềm tạo máy ảo VMware Workstation
2/ Phần mềm đóng băng ổ cứng Deep Freeze

Virtual Machine
Virtual Ethernet Switch [VMnet1]
Virtual Machine
Mail server
Router
Internet
eth0
eth1
172.16.1.1
192.168.1.10
192.168.1.0/24
 1 máy IDS sử dụng hệ điều hành
Linux CentOS 6.2.

 1 máy phục vụ Mail server sử
dụng hệ điều hành Windows
Server 2003

 2 máy tính trạm sử dụng hệ điều
hành Windows XP 2.

Các máy kết nối với nhau thành một
mạng LAN ảo VMnet Switch.
22
III. Chương trình thực nghiệm phát hiện xâm nhập mã độc
23
1. Tải tập tin dữ liệu học
24

×