Số hóa bởi Trung tâm Học liệu
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN VĂN DIỄN
NGHIÊN CỨU GIẢI PHÁP PHÁT HIỆN XÂM NHẬP MẠNG MÁY
TÍNH BẤT THƯỜNG DỰA TRÊN KHAI PHÁ DỮ LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2014
i
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Nghiên cứu Giải pháp phát hiện xâm nhập mạng máy
tính bất thƣờng dựa trên Khai phá dữ liệu” là công trình nghiên cứu của riêng tôi.
Đề tài đƣợc hoàn thành dƣới sự hƣớng dẫn của Thầy TS. Nguyễn Ngọc Cƣơng.
Những kết quả nghiên cứu, thử nghiệm đƣợc thực hiện hoàn toàn khách quan và
trung thực. Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực và
chƣa từng đƣợc công bố trong bất cứ công trình nào.
Các tài liệu tham khảo sử dụng trong luận văn đều đƣợc dẫn nguồn (có bảng
thống kê các tài liệu tham khảo) hoặc đƣợc sự đồng ý trực tiếp của tác giả.
Nếu xảy ra bất cứ điều gì không đúng nhƣ những lời cam đoan trên, tôi xin
chịu hoàn toàn trách nhiệm.
Hà Nội, ngày 18 tháng 07 năm 2014
TÁC GIẢ
Nguyễn Văn Diễn
ii
LỜI CẢM ƠN
Em xin chân thành cảm ơn Thầy TS. Nguyễn Ngọc Cƣơng ngƣời đã trực tiếp
hƣớng dẫn tận tình em trong suốt quá trình thực hiện Luận văn tốt nghiệp.
Em xin chân thành cảm ơn Quý thầy, cô Trƣờng Đại học Công nghệ thông
tin & Truyền thông Thái Nguyên, Viện Công nghệ Thông Tin, những ngƣời đã
nhiệt tình giảng dạy và truyền đạt những kiến thức quí báu trong suốt thời gian em
học tập và nghiên cứu tại trƣờng. Với vốn kiến thức tiếp thu đƣợc trong quá trình
học tập và nghiên cứu không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà
còn là hành trang quí báu trong quá trình hoạt động chuyên môn của em.
Cuối cùng, em xin kính chúc Quý thầy cô, đồng nghiệp, gia đình dồi dào sức
khỏe và thành công.
Trân trọng cảm ơn!
iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC BẢNG vii
DANH MỤC HÌNH viii
MỞ ĐẦU ix
TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN xi
CHƢƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG VÀ PHƢƠNG PHÁP
PHÁT HIỆN XÂM NHẬP MẠNG 1
1. 1 Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System) 1
1.1.1. Định nghĩa 1
1.1.2. Vai trò, chức năng của IDS 1
1.1.3. Mô hình IDS mức vật lý 2
1.1.4. Kiến trúc và hoạt động bên trong mô hình hệ thống IDS 3
1.1.5. Phân loại IDS 6
1.1.6. Một số kiểu tấn công cơ bản vào hệ thống mạng 8
1. 2 Một số phƣơng pháp phát hiện bất thƣờng trong hệ thống IDS 11
1.2.1 Phƣơng pháp tiếp cận dựa trên xác suất thống kê 11
1.2.2 Phƣơng pháp tiếp cận dựa trên trạng thái 12
1.2.3 Phƣơng pháp tiếp cận dựa trên hệ chuyên gia 12
1.2.4 Phƣơng pháp tiếp cận dựa trên khai phá dữ liệu 13
1. 3 Khai phá dữ liệu trong IDS 14
1.3.1 Định nghĩa khai phá dữ liệu 14
iv
1.3.2 Nhiệm vụ của khai phá dữ liệu 16
1.3.3 Các loại dữ liệu đƣợc khai phá 17
1.3.4 Quy trình khai phá dữ liệu 18
1.3.5 Một số phƣơng pháp khai phá dữ liệu 19
1.3.6 Một số kỹ thuật dùng trong khai phá dữ liệu 21
CHƢƠNG 2: PHƢƠNG PHÁP PHÁT HIỆN BẤT THƢỜNG DỰA TRÊN KỸ
THUẬT KHAI PHÁ DỮ LIỆU 26
2.1. Phát hiện bất thƣờng dựa trên khai phá dữ liệu. 26
2.1.1. Phƣơng pháp phát hiện bất thƣờng dựa trên khai phá dữ liệu 26
2.1.2. Kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu 26
2.2. Bài toán phát hiện phần tử dị biệt trong khai phá dữ liệu 28
2.2.1. Một số thuật toán phát hiện dị biệt trong khai phá dữ liệu 30
2.2.2. Mô hình phát hiện bất thƣờng dựa trên kỹ thuật khai phá dữ liệu 36
CHƢƠNG 3: ĐỀ XUẤT TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG PHÁT HIỆN
XÂM NHẬP MẠNG. 42
3.1. Bài toán phân cụm dữ liệu trong CSDL kết nối mạng 42
3.2. Thuật toán sử dụng cho bài toán ứng dụng 42
3.3. Đánh giá Thuật toán phân cụm ứng dụng trong bài toán 44
3.4. Ứng dụng thuật toán phân cụm K-medoids trong KPDL 48
3.4.1. Quy trình xử lý bài toán ứng dụng: 48
3.4.2. Tập hợp dữ liệu 49
3.4.3. Tiền xử lý 49
3.4.4. Tiến trình khai phá dữ liệu 51
3.5. Chƣơng trình Demo 54
v
3.6. Nhận xét bài toán KPDL 59
KẾT LUẬN VÀ HƢỚNG PHÁP TRIỂN 61
TÀI LIỆU THAM KHẢO 62
vi
DANH MỤC TỪ VIẾT TẮT
ADAM Audit Data Analysis Mining
CSDL Cơ sở dữ liệu
DdoS Distributed Daniel of Servies
DOS Daniel of Services
HIDS Host Instrucsion Detection System
HTTP Hypertext Markup Languge
ICMP Internet Control Message Protocol
IDS Intrucsion Detection System
IDDM Intrucsion Detection Data Mining
IPS Intrucsion Prevention System
IP Internet Protocol
KPDL Khai phá dữ liệu
LOF Local Outlier Partor
LSC Local Sparsity Ratio
NIDS Networks Instrusion Detection System
MAC Media Accsess Controllers
SQL Structured Query Language
VPN Virtual Private Network
TCP Transmission Control Protocol
UDP User Datagram Protocol
vii
DANH MỤC BẢNG
Bảng 2.1: Danh sách các cảnh báo chƣa rút gọn
Bảng 2.2: Danh sách các cảnh báo sau khi rút gọn
Bảng 3.1: Bảng thuộc tính CSDL mạng
Bảng 3.2: Thông tin chƣơng trình cài đặt ứng dụng
viii
DANH MỤC HÌNH
Hình 1.1: Mô hình IDS vật lý
Hình 1.2: Kiến trúc Modul trong IDS
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
Hình 1.4: Mô hình thu thập dữ liệu trong luồng
Hình 1.5: Modul phân tích, phát hiện tấn công
Hình 1.6: Quá trình khám phá tri thức
Hình 2.1: Gán giá trị để lƣợng hóa các cuộc tấn công trên sơ đồ
Hình 2.2: Minh họa bài toán phát hiện phần tử dị biệt
Hình 2.3: Khoảng cách Reach – dist
Hình 2.4: Phƣơng pháp LOF
Hình 2.5: Thuật toán LSC – Mine
Hình 2.6: Mô hình phát hiện bất thƣờng sử dụng kỹ thuật KPDL
Hình 2.7: Mô hình Modul tổng hợp
Hình 3.1: Lƣu đồ thuật toán K-Medoids
Hình 3.2: Tiến trình phát hiện xâm nhập mạng sử dụng kỹ thuật phân cụm
Hình 3.3: Biểu diễn CSDL mạng
Hình 3.4: Biến đổi dữ liệu trong CSDL
Hình 3.5: Gom cụm dữ liệu trong CSDL
Hình 3.6: Biểu diễn kết quả mẫu bất thƣờng
Hình 3.7: Giao diện Menu chính
Hình 3.8: Giao diện khai phá trên giao thức HTTP
Hình 3.9: Giao diện khai phá dữ liệu tự động
Hình 3.10: Giao diện tiền xử lý
Hình 3.11: Giao diện khai phá dựa trên ngƣỡng kết nối
ix
MỞ ĐẦU
Ngày nay, Công nghệ thông tin nói chung và Ngành mạng máy tính nói riêng
đã đƣợc ứng dụng trong hầu hết các lĩnh vực quan trọng của đời sống, nó tác động
trực tiếp đến sự tồn tại và phát triển của nền kinh tế tri thức và công nghệ. Chính vì
vậy, việc áp dụng Công nghệ thông tin đã trở thành một yêu cầu không thể thiếu
cho tất cả các tổ chức, doanh nghiệp. Với tầm quan trọng nhƣ vậy, cần phải có một
hệ thống mạng doanh nghiệp ổn định, hoạt động liên tục, đảm bảo tính tin cậy,
nguyên vẹn, sẵn sàng và không thể từ chối để đáp ứng đƣợc mọi yêu cầu kết nối và
xử lý của công việc.
Tuy nhiên, bên cạnh yêu cầu cấp thiết đó thì mạng máy tính luôn phải đối diện
với rất nhiều nguy cơ mất an toàn nhƣ các cuộc “viếng thăm” bất hợp pháp hoặc các
cuộc tấn công từ bên ngoài mạng luôn luôn có thể xảy ra với mức độ ngày càng
phức tạp và tinh vi hơn. Do đó, yêu cầu phải có một hệ thống có thể phát hiện tự
động những hành vi thâm nhập không đƣợc phép để cảnh báo nguy cơ và ngăn
chặn đã trở nên cấp thiết.
Đã có nhiều hƣớng nghiên cứu và xây dựng hệ thống cảnh báo và thâm nhập
dựa trên các phƣơng pháp thâm nhập nhƣ: phát hiện thâm nhập dựa vào luật; kỹ
thuật phân biệt ý định ngƣời dùng, phân tích trạng thái phiên, phƣơng pháp phân
tích thống kê … Tuy nhiên đây là các phƣơng pháp phát hiện xâm nhập dựa trên các
dấu hiệu bất thƣờng. Tức là dựa trên các dấu hiệu của các vụ tấn công đã biết, các
phƣơng pháp này phát hiện ra xâm nhập mạng bằng cách so sánh các giá trị đặc tả
với một dãy các ký tự tấn công đƣợc cung cấp bởi chuyên gia và đƣợc cập nhật lại
trong cơ sở dữ liệu. Điểm hạn chế của các phƣơng pháp trên là chúng không thể
phát hiện ra các cuộc tấn công mới không có trong cơ sở dữ liệu. So với các phƣơng
pháp trên thì phƣơng pháp phân tích dựa trên kỹ thuật khai phá dữ liệu có nhiều ƣu
điểm rõ rệt hơn. Phƣơng pháp này có thể sử dụng với cơ sở dữ liệu chứa nhiều
nhiễu, dữ liệu không đầy đủ, biến đổi liên tục, đặc biệt phƣơng pháp này đòi hỏi
mức độ sử dụng các chuyên gia không quá thƣờng xuyên. Các ƣu điểm này đem lại
x
cho phƣơng pháp sử dụng kỹ thuật khai phá dữ liệu có khả năng xử lý dữ liệu lớn,
sử dụng trong các hệ thống thời gian thực.
Đây là lý do để chúng tôi chọn đề tài “ Nghiên cứu giải pháp phát hiện xâm
nhập mạng máy tính bất thƣờng dự trên khai phá dữ liệu”. Đề tài sẽ tập trung
nghiên cứu phƣơng pháp phát hiện xâm nhập mạng máy tính bất thƣờng bằng kỹ
thuật khai phá dữ liệu để phát hiện các hành vi xâm nhập một cách tự động dựa trên
dấu hiệu bất thƣờng so với dữ liệu quá khứ.
xi
TỔNG QUAN VỀ NHIỆM VỤ CỦA LUẬN VĂN
Với mục tiêu xây dựng đƣợc một giải pháp an toàn mạng cho các nhà quản trị
mạng, luận văn tập trung vào nghiên cứu một số phƣơng pháp phát hiện xâm nhập
mạng dựa trên cơ chế phát hiện bất thƣờng của các hệ thống phát hiện xâm nhập
mạng hiện nay. Từ đó, đề xuất đƣợc ý kiến triển khai một hệ thống hoạt động dựa
theo một trong các phƣơng pháp đó. Với mong muốn đƣa ra đƣợc một giải pháp tốt
nhất cho việc đảm bảo an toàn, an ninh mạng, luận văn tập trung vào các nhiệm vụ
chính:
1. Nắm đƣợc kiến trúc, chức năng và cơ chế hoạt động của một hệ thống phát
hiện xâm nhập mạng máy tính.
2. Nghiên cứu một số phƣơng pháp phát hiện xâm nhập mạng dựa trên cơ chế
phát hiện bất thƣờng của các hệ thống phát hiện xâm nhập mạng hiện nay.
3. Nghiên cứu các phƣơng pháp phát hiện bất thƣờng trên CSDL dựa trên kỹ
thuật Khai phá dữ liệu.
4. Đề xuất phƣơng pháp để triển khai chƣơng trình ứng dụng phát hiện xâm
nhập mạng máy tính bất thƣờng dựa trên Khai phá dữ liệu
Bố cục của luận văn
Luận văn đƣợc chia làm 3 chƣơng:
Chƣơng 1: Hệ thống phát hiện xâm nhập mạng và các phƣơng pháp phát hiện xâm
nhập mạng.
Chƣơng 2: Phƣơng pháp phát hiện bất thƣờng dựa trên kỹ thuật khai phá dữ liệu.
Chƣơng 3: Đề xuất triển khai thử nghiệm hệ thống phát hiện xâm nhập mạng.
1
CHƢƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG VÀ PHƢƠNG
PHÁP PHÁT HIỆN XÂM NHẬP MẠNG
1. 1 Hệ thống phát hiện xâm nhập mạng IDS (Intrusion Detection System)
1.1.1. Định nghĩa
Xâm nhập là một thuật ngữ dùng để chỉ các hành động đột nhập trái phép làm
ảnh hƣởng tới hệ thống mạng hoặc các thiết bị máy tính điện tử của bạn.
Phát hiện xâm nhập là một tập hợp các kỹ thuật và phƣơng pháp đƣợc sử
dụng để phát hiện các hành vi đáng ngờ ở cả trên mạng cũng nhƣ ở mức độ host.
Hệ thống phát hiện xâm nhập (IDS) là hệ thống có nhiệm vụ theo dõi, phát
hiện và (có thể) ngăn cản sự xâm nhập, cũng nhƣ các hành vi khai thác trái phép tài
nguyên của hệ thống đƣợc bảo vệ mà có thể dẫn đến việc làm tổn hại đến tính bảo
mật, tính toàn vẹn và tính sẵn sàng của hệ thống.
Nhƣ vậy, hệ thống phát hiện xâm nhập là một thành phần quan trọng trong hệ
thống bảo mật mạng, hệ thống này liên tục theo dõi các hoạt động diễn ra trong
mạng hay trên một máy nhất định, nó thu thập thông tin từ nhiều nguồn khác nhau,
phân tích, tổng hợp để tìm ra những hiểm họa hay những dấu hiệu có khả năng đe
dọa tính toàn vẹn, tính sẵn sàng hay tính xác thực của hệ thống, đồng thời hệ thống
cũng có thể đƣa ra các phản ứng đối với mỗi hành vi hiểm họa phát hiện đƣợc. Tất
cả những thông tin thu thập đƣợc và các cơ chế phát hiện cũng nhƣ cơ chế ngăn
chặn hay cơ chế phản ứng đều phải tuân theo các chính sách bảo mật.
1.1.2. Vai trò, chức năng của IDS
- Phát hiện các nguy cơ tấn công và truy nhập trái phép
Đây là vai trò chính của một hệ thống phát hiện xâm nhập IDS, nó có nhiệm
vụ xác định những tấn công và truy nhập trái phép vào hệ thống mạng bên trong. Hệ
thống IDS có khả năng hỗ trợ phát hiện các nguy cơ an ninh đe dọa mạng mà các hệ
thống khác không có, kết hợp với hệ thống ngăn chặn xâm nhập IPS (Intrusion
2
Prevention System) giúp cho hệ thống chặn đứng, hạn chế các cuộc tấn công, xâm
nhập từ bên ngoài.
- Tăng khả năng hiểu biết về những gì đang hoạt động trên mạng
IDS cung cấp khả năng giám sát xâm nhập và khả năng mô tả an ninh để cung
cấp kiến thức tổng hợp về những gì đang chạy trên mạng từ góc độ ứng dụng cũng
nhƣ góc độ mạng cùng với khả năng liên kết với phân tích, điều tra an ninh nhằm
đƣa ra các thông tin về hệ thống nhờ đó giúp ngƣời quản trị nắm bắt và hiểu rõ
những gì đang diễn ra trên mạng.
- Khả năng cảnh báo và hỗ trợ ngăn chặn tấn công
IDS có thể hoạt động trong các chế độ làm việc của một thiết bị giám sát thụ
động hỗ trợ cho các thiết bị giám sát chủ động hay nhƣ là một thiết bị ngăn chặn
chủ động. Hỗ trợ cho các hệ thống an ninh đƣa ra các quyết định về lƣu lƣợng dựa
trên địa chỉ IP hoặc cổng cũng nhƣ đặc tính của tấn công. Cảnh báo và ghi lại các
biến cố cũng nhƣ thực hiện bắt giữ gói lƣu lƣợng khi phát hiện tấn công để cung cấp
cho nhà quản trị mạng các thông tin để phân tích và điều tra các biến cố.
Ngay sau khi các phép phân tích và điều tra đƣợc thực hiện, một quy tắc loại
bỏ lƣu lƣợng sẽ đƣợc đƣa ra dựa trên kết quả phân tích, điều tra đó. Tổ hợp của
những thuộc tính và khả năng này cung cấp cho nhà quản trị mạng khả năng tích
hợp IDS vào mạng và tăng cƣờng an ninh đến một mức độ mà trƣớc đây không thể
đạt đến bằng các biện pháp đơn lẻ nhƣ bức tƣờng lửa.
1.1.3. Mô hình IDS mức vật lý
Hình 1.1: Mô hình IDS mức vật lý
3
- Bộ cảm ứng (Sensor): giám sát các lƣu lƣợng bên trong các khu vực mạng
khác nhau, nhằm thu thập các thông tin, dữ liệu và hoạt động trong mạng.
- Máy chủ lưu trữ dữ liệu tập trung ( Centralize database server): nơi tập
trung lƣu trữ thông tin, dữ liệu do các bộ cảm ứng gửi về.
- Giao diện người dùng ( User Interface): giúp ngƣời quản trị mạng quản lý,
giám sát hệ thống.
1.1.4. Kiến trúc và hoạt động bên trong mô hình hệ thống IDS
Hệ thống phát hiện xâm nhập bao gồm 3 modul chính:
- Modul thu thập thông tin, dữ liệu.
- Modul phân tích, phát hiện tấn công.
- Modul phản ứng.
+ Modul thu thập thông tin, dữ liệu: Modul này có nhiệm vụ thu thập các gói
tin trên mạng để đem phân tích. Trong hệ thống mạng thông thƣờng IDS sẽ đƣợc
đặt ở vị trí mà ta cần giám sát.
Hình 1.2: Kiến trúc Modul trong IDS
4
Có hai mô hình chính để thu thập dữ liệu đó là : Mô hình ngoài luồng và Mô
hình trong luồng.
+ Mô hình thu thập dữ liệu ngoài luồng: Trong mô hình ngoài luồng không
can thiệp trực tiếp vào luồng dữ liệu. Luồng dữ liệu vào ra hệ thống mạng sẽ đƣợc
sao một bản và đƣợc chuyển tới modul thu thập dữ liệu .
Theo cách tiếp cận này hệ thống phát hiện xâm nhập IDS không làm ảnh
hƣởng tới tốc độ lƣu thông của mạng.
+ Mô hình thu thập dữ liệu trong luồng: Trong mô hình này, hệ thống phát
hiện xâm nhập IDS đƣợc đặt trực tiếp vào luồng dữ liệu vào ra trong hệ thống
mạng, luồng dữ liệu phải đi qua hệ thống phát hiện xâm nhập IDS trƣớc khi đi vào
trong mạng.
Ƣu điểm của mô hình này là: hệ thống phát hiện xâm nhập IDS trực tiếp kiểm
soát luồng dữ liệu và phản ứng tức thời với các sự kiện an toàn.
Nhƣợc điểm của mô hình này là: ảnh hƣởng đáng kể đến tốc độ lƣu thông của
mạng.
Hình 1.3: Mô hình thu thập dữ liệu ngoài luồng
5
+ Module phân tích, phát hiện tấn công: Đây là modul quan trọng nhất nó có
nhiệm vụ phát hiện các tấn công. Modul này đƣợc chia thành các giai đoạn: Tiền xử
lý, phân tích, cảnh báo.
+ Tiền xử lý: Tập hợp dữ liệu, tái định dạng gói tin. Dữ liệu đƣợc sắp xếp theo
từng phân loại, phân lớp. Xác định định dạng của của dữ liệu đƣa vào. Ngoài ra, nó
có thể tái định dạng gói tin, sắp xếp theo chuỗi.
+ Phân tích: Giai đoạn này sẽ phát hiện đƣợc sự lạm dụng hệ thống hoặc phát
hiện tình trạng bất thƣờng của hệ thống trên CSDL.
Phát hiện sự lạm dụng (Misuse detection models): dựa trên mẫu, ƣu điểm
chính xác để xác định các mẫu tấn công đã biết trƣớc đó giúp ngƣời quản trị xác
định các lỗ hổng báo mật trong hệ thống, tuy nhiên nó không thể phát hiện hoặc
Hình 1.4: Mô hình thu thập dữ liệu trong luồng
Hình 1.5: Modul phân tích, phát hiện tấn công
6
cảnh báo các cuộc tấn công mới chƣa có trong CSDL, chính vì vậy hệ thống luôn
phải cập nhật các mẫu tấn công mới.
Phát hiện tình trạng bất thƣờng (Anomaly detection models): hệ thống sẽ
thƣờng xuyên lƣu giữ các mô tả sơ lƣợc về các quá trình hoạt động bình thƣờng của
hệ thống. Khi có các cuộc tấn công xâm nhập gây ra các hoạt động bất bình thƣờng
thì kỹ thuật này sẽ phát hiện ra các hoạt động bất bình thƣờng dựa trên các phát hiện
bất thƣờng nhờ: mức ngƣỡng, phát hiện nhờ quá trình tự học, phát hiện dựa trên bất
thƣờng về giao thức.
+ Cảnh báo: Quá trình này thực hiện sinh ra các cảnh báo tùy theo đặc điểm
và loại tấn công, xâm nhập mà hệ thống phát hiện đƣợc.
+ Modul phản ứng: Khi có dấu hiệu của sự tấn công hoặc xâm nhập, modul
phát hiện tấn công sẽ gửi tín hiệu báo hiệu sự tấn công hoặc xâm nhập đến modul
phản ứng, lúc này modul phản ứng gửi tín hiệu kích hoạt tƣờng lửa để thực hiện
chức năng ngăn chặn cuộc tấn công hoặc cảnh báo tới ngƣời quản trị. Modul phản
ứng này tùy theo mỗi hệ thống thiết kế có các chức năng, phƣơng pháp ngăn chặn
khác nhau.
1.1.5. Phân loại IDS
- Dựa trên phương thức phát hiện tấn công: bao gồm phát hiện lạm dụng và
phát hiện bất thƣờng.
+ Phát hiện lạm dụng: thông thƣờng còn có tên là phát hiện dựa trên dấu hiệu.
Phát hiện lạm dụng đòi hỏi những file mẫu của dấu hiệu để nhận dạng những hành
động xâm nhập. Những file mẫu của dấu hiệu sử dụng trong phƣơng pháp phát hiện
lạm dụng phải đƣợc cập nhật thƣờng xuyên.
Ưu điểm: có thể phát hiện và đƣa ra cảnh báo chính xác cuộc tấn công dựa
trên sự so sánh tƣơng xứng đối với bất kỳ dấu hiệu nào đã đƣợc định dạng trong
File mẫu của dấu hiệu.
7
Nhược điểm: Không có khả năng phát hiện các cuộc tấn công mới hoặc sự
thay đổi của các cuộc tấn công khi File mẫu các dấu hiệu tấn công chƣa đƣợc cập
nhật.
+ Phát hiện dựa trên sự bất thƣờng: là mô tả sơ lƣợc phân tích những hoạt
động của mạng máy tính và lƣu lƣợng mạng nhằm tìm kiếm sự bất thƣờng. Khi tìm
thấy sự bất thƣờng, một tín hiệu cảnh báo sẽ đƣợc khởi phát. Sự bất thường là bất
cứ sự chệch hướng hay đi khỏi những thứ tự, định dạng, nguyên tắc thông
thường. Chính vì dạng phát hiện này tìm kiếm những bất thƣờng nên nhà quản trị
bảo mật phải định nghĩa đâu là những hoạt động, lƣu lƣợng bình thƣờng.
Nhà quản trị bảo mật có thể định nghĩa những hoạt động bình thƣờng bằng
cách tạo ra những bản mô tả sơ lƣợc nhóm ngƣời dùng (user group profiles). Bản
mô tả sơ lƣợc nhóm ngƣời dùng thể hiện ranh giới giữa những hoạt động cũng nhƣ
những lƣu lƣợng mạng trên một nhóm ngƣời dùng cho trƣớc. Những nhóm ngƣời
dùng đƣợc định nghĩa và đƣợc dùng để thể hiện những chức năng công việc chung.
Một cách điển hình, những nhóm sử dụng nên đƣợc chia theo những hoạt động
cũng nhƣ những nguồn tài nguyên mà nhóm đó sử dụng. Nếu một ngƣời sử dụng
làm chệch quá xa những gì họ đã định nghĩa trong profile, hệ thống IDS sẽ phát
sinh cảnh báo.
Ưu điểm: Với phƣơng pháp này, kẻ xâm nhập không bao giờ biết lúc nào có,
lúc nào không phát sinh cảnh báo và cũng không biết chính xác cái gì gây ra cảnh
báo bởi vì họ không có quyền truy cập vào những profile sử dụng để phát hiện
những cuộc tấn công.
Ƣu điểm lớn nhất của phát hiện dựa trên profile hay sự bất thƣờng là nó không
dựa trên một tập những dấu hiệu đã đƣợc định dạng hay những đợt tấn công đã
đƣợc biết . profile có thể là động và có thể sử dụng trí tuệ nhân tạo để xác định
những hoạt động bình thƣờng. Bởi vì phát hiện dựa trên profile không dựa trên
những dấu hiệu đã biết, nó thực sự phù hợp cho việc phát hiện những cuộc tấn công
chƣa hề đƣợc biết trƣớc đây miễn là nó chệch khỏi profile bình thƣờng. Phát hiện
8
dựa trên profile đƣợc sử dụng để phát hiện những phƣơng pháp tấn công mới mà
phát hiện bằng dấu hiệu không phát hiện đƣợc.
Nhược điểm: Khó khăn trong việc định nghĩa các hành động bình thƣờng của
những profile nhóm ngƣời dùng, cũng nhƣ đảm bảo chất lƣợng của những profile
này. Dễ cảnh báo nhầm, gây ra sự phức tạp trong quá trình định nghĩa ngƣỡng bình
thƣờng và bất bình thƣờng của từng profile và nhóm profile.
- Dựa trên phƣơng thức bảo vệ: IDS đƣợc chia làm hai loại chính:
+ HIDS (Host Intrusion Detection System): triển khai trên máy trạm hoặc
server quan trọng, chỉ để bảo vệ riêng từng máy.
Ƣu điểm: Phát hiện tốt các cuộc tấn công xâm nhập từ bên trong, phát hiện
dựa trên thông tin, dữ liệu trên Host.
Nhƣợc điểm: Chỉ áp dụng đƣợc trong phạm vi một Host dẫn đến chi phí cao
và phải phụ thuộc nhiều vào hệ điều hành đƣợc cài đặt trên Host đó gây ra độ phức
tạp cao khi cài đặt và triển khai.
+ NIDS (Network Intrusion Detection System): đặt tại những điểm quan trọng
của hệ thống mạng, để phát hiện xâm nhập cho khu vực đó
Ƣu điểm: Phát hiện tốt các cuộc tấn công xâm nhập từ bên ngoài, phát hiện
dựa trên thông tin, dữ liệu trên toàn bộ mạng. Tiết kiệm chi phí và dễ dàng trong
quá trình cài đặt và triển khai.
Nhƣợc điểm: Khó tƣơng thích với các Swich, router, hạn chế về hiệu năng vì
phải liên tục sử lý một lƣợng lớn thông tin, làm tăng lƣu lƣợng mạng do các bộ
phận của IDS luôn phải thƣờng xuyên trao đổi thông tin với nhau và thay đổi với
trong tâm phân tích.
1.1.6. Một số kiểu tấn công cơ bản vào hệ thống mạng
1.1.6.1. Tấn công từ chối dịch vụ (Denial of Service attack): là kiểu tấn
công làm cho hệ thống máy tính hay hệ thống mạng quá tải, không thể cung cấp
dịch vụ hoặc phải ngừng hoạt động. Trong các cuộc tấn công từ chối dịch vụ, máy
9
chủ dịch vụ sẽ bị “ngập” bởi hàng loạt các lệnh truy cập từ lƣợng kết nối khổng lồ.
Khi số lệnh truy cập quá lớn, máy chủ sẽ quá tải và không còn khả năng xử lý các
yêu cầu. Hậu quả là ngƣời dùng không thể truy cập vào các dịch vụ trên các trang
Web bị tấn công từ chối dịch vụ. Hiện nay xuất hiện một số dạng tấn công từ chối
dịch vụ:
- Tấn công từ chối dịch vụ cổ điển DoS(Denial of Service): là một phƣơng
thức tấn công từ chối dịch vụ xuất hiện đầu tiên với các kiểu tấn công nhƣ Smurl
Attack, Tear Drop, … các kiểu tấn công này thƣờng áp dụng đối với đối tƣợng tấn
công là hệ thống máy chủ bảo mật kém, băng thông yếu, thậm chí trong nhiều
trƣờng hợp đối tƣợng tin tặc có thể sử dụng đƣờng truyền có tốc độ vừa phải cũng
có thể thực hiện thành công kiểu tấn công này.
- Tấn công từ chối dịch vụ phân tán DDoS(Distributed Denial of Service): là
kiểu tấn công chủ yếu nhằm vào việc chiếm dụng băng thông (Bandwidth) gây
nghẽn mạch hệ thống, dẫn đến ngƣng hoạt động hệ thống.
- Tấn công từ chối dịch vụ phản xạ nhiều vùng DRDoS(Distributed
Reflection Denial of Service): là kiểu tấn công vô hiệu hóa các cổng kết nối chạy
trên nền TCP/IP nhƣ DNS, HTTP, FTP, POP3, …
1.1.6.2. Tấn công quét cổng và thăm dò (Scanning và Proble): là sử dụng
một chƣơng trình dò tìm tự động nhằm tìm ra các điểm yếu của hệ thống mạng. Các
công cụ quét và thăm dò bao gồm: SATAN, ISS Internet Scanner, NETA Cybercop,
Asmodeus, … Việc thăm dò có thể thực hiện bằng cách “Ping” đến hệ thống cũng
nhƣ kiểm tra các cổng TCP và UDP để phát hiện ra các ứng dụng có những lỗi đã
đƣợc biết đến để tấn công hoặc xâm nhập.
Ta có thể sử dụng giải pháp của IDS nhƣ: Network-based IDS để phát hiện các
hành động xâm nhập bất hợp pháp này trƣớc khi có sự xâm nhập xẩy ra.
1.1.6.3. Tấn công vào mật mã (Password attack): là kiểu tấn công nhằm “ăn
cắp” các thông tin về User account, password của ngƣời sử dụng trên hệ thống
mạng, nhằm mang lại quyền hành và tính linh động cao nhất cho kẻ tấn công để có
10
thể truy nhập tới mọi thông tin tại mọi thành phần trong mạng. Các hacker thƣờng
sử dụng một chƣơng trình đoán mã với thuật toán mã hóa chạy trên mạng, cố gắng
login vào các phần Share trên mạng. Các hacker thƣờng tấn công Password bằng
một số phƣơng pháp nhƣ: brute – force attack, chƣơng trình Trojan House, IP
spoofing và packet sniffer.
1.1.6.4. Tấn công chiếm đặc quyền (Privilege – grabbing): là dạng tấn công
nhằm mục đích đánh cắp dữ liệu, giành lấy một phiên giao dịch, phân tích traffic
trong mạng, từ chối dịch vụ, phá hỏng dữ liệu đƣợc truyền. Khi kẻ tấn công đã xâm
nhập đƣợc vào hệ thống, chúng sẽ chiếm quyền truy cập vào hệ thống. Đối với hệ
điều hành UNIX sẽ chiếm đặc quyền “root”, trong hệ điều hành Windows sẽ chiếm
đặc quyền “Administrator”, trong hệ điềi hành NetWare sẽ chiếm đặc quyền
“Supervisor”.
Một số kỹ thuật thƣờng dùng cho việc tấn công chiếm đặc quyền: Đoán và bẻ
khóa của root hoặc administrator, gây tràn bộ đệm, khai thác registry của Windows,
truy nhập và khai thác console đặc quyền, thăm dò file và các lỗi của hệ điều hành.
Ta có thể sử dụng giải pháp của IDS nhƣ: Network-based IDS để phát hiện các
hành động thay đổi đặc quyền trái phép này. Do Host-based IDS có thể tìm kiếm,
đƣa ra hoặc có thể ngừng ngay mọi hành động của ngƣời dùng không có đặc quyền
có sự thay đổi không thông qua hệ thống phân quyền đƣợc quản lý.
1.1.6.5. Tấn công cài đặt mã độc nguy hiểm (Hostile code insertion): Kẻ
tấn công có thể sử dụng hoặc cài đặt một số chƣơng trình nguy hiểm nhƣ: Virus,
Trojan Horse, Backdoor, malicious Apple, … vào hệ thống thông qua lỗ hổng bảo
mật hoặc sự bất cẩn của ngƣời sử dụng nhằm lấy trộm dữ liệu, gây từ chối dịch vụ,
xóa file, hay tạo backdoor cho lần truy nhập trái phép tiếp theo vào hệ thống.
1.1.6.6. Tấn công khai thác lỗ hổng (Application – Level Attacks): Hầu hết
các chƣơng trình đang sử dụng thƣờng chƣa đƣợc tối ƣu lỗi, đây là nguồn để kẻ tấn
công có thể truy nhập bất hợp pháp vào hệ thống thông qua các lỗi chúng có thể tìm
kiếm đƣợc từ hệ thống của ngƣời sử dụng. Kẻ tấn công thƣờng sử dụng các chƣơng
trình quét tìm kiếm các lỗi trên hệ thống, sau đó sử dụng hoặc phát triển các công cụ
11
khai thác lỗ hổng để tấn công xâm nhập trái phép vào hệ thống thông qua các lỗ
hổng tìm thấy tùy vào mức độ lỗi của hệ thống.
1.1.6.7. Tấn công vào nội dung CSDL (Proprietary data theft): Kẻ tấn
công thƣờng lợi dụng các lỗ hổng bảo mật hoặc lợi dụng sự bất cẩn của ngƣời dùng
để cài đặt các câu lệnh truy vấn SQL bất hợp pháp vào cơ sở dữ liệu từ các ứng
dụng trên Web. Kẻ tấn công thƣờng có thể tấn công vào các ứng dụng web có dữ
liệu đƣợc quản lí bằng các hệ quạn trị cơ sở dữ liệu nhƣ SQL Server, Oracle, DB2,
Sysbase.
Một số kiểu tấn công vào nội dung CSDL: Chèn mã lệnh thực thi các trình
duyệt, chèn câu lệnh trên hệ thống, chèn câu truy vấn SQL, chèn ngôn ngữ hoặc các
ký tự mở rộng trên máy chủ, …
1. 2 Một số phƣơng pháp phát hiện bất thƣờng trong hệ thống IDS
1.2.1 Phƣơng pháp tiếp cận dựa trên xác suất thống kê
Các phƣơng pháp thống kê đo lƣờng các hành vi của ngƣời dùng và của hệ
thống bằng một số các biến đƣợc lấy mẫu theo thời gian và xây dựng các profile
dựa trên các thuộc tính của hành vi bình thƣờng. Các thông số theo dõi trên thực tế
sẽ đƣợc so sánh với các profile này, và các sai khác vƣợt qua một ngƣỡng sẽ bị coi
là một bất thƣờng.
Các hệ thống phát hiện bất thƣờng nhƣ ADAM, NIDES, và SPADE có một
cách tiếp cận trong đó hệ thống sẽ học một mô hình thống kê về lƣu lƣợng bình
thƣờng của mạng, và xem xét các sai khác so với mô hình này. Các mô hình thống
kê thƣờng dựa trên sự phân bố của các thành phần nhƣ các địa chỉ IP nguồn và đích,
các cổng nguồn và đích trên mỗi giao tác (nhƣ các kết nối TCP, và đôi khi là các
gói tin UDP và ICMP). Các thành phần có xác suất càng nhỏ thì có mức độ bất
thƣờng càng cao.
Các hệ thống phát hiện bất thƣờng sử dụng các mô hình tần suất, trong đó xác
suất của một sự kiện đã đƣợc tính toán bằng tần suất trung bình của nó trong quá
trình huấn luyện dựa trên thời gian, trong đó xác suất của một sự kiện phụ thuộc vào
12
thời điểm mà nó xảy ra lần cuối cùng. Đối với mỗi thuộc tính, chúng thu thập một
tập các giá trị cho phép, và sẽ coi các giá trị mới của thuộc tính đó là bất thƣờng.
Một phƣơng pháp tiếp cận thống kê gần đây đƣợc đề nghị là việc thống kê mô
hình lƣu lƣợng để phát hiện các tấn công loại mới trên mạng. Theo cách tiếp cận
này, một mô hình hành vi của mạng đƣợc sử dụng để phát hiện một lƣợng lớn các
tấn công từ chối dịch vụ và dò quét cổng bằng cách giám sát lƣu lƣợng mạng.
1.2.2 Phƣơng pháp tiếp cận dựa trên trạng thái
Một cách tiếp cận hơi khác so với phát hiện bất thƣờng truyền thống là cách
tiếp cận phát hiện dựa trên trạng thái đối với phát hiện xâm nhập trên mạng. Phƣơng
pháp luận của nó là cố gắng phát hiện xâm nhập thông qua việc chuyển trạng thái
bất thƣờng. Ƣu điểm chính của cách tiếp cận này là nó có thể phát hiện với tỷ lệ cao
các tấn công đã biết và chƣa biết. Tại cùng một thời điểm, nó có một tỷ lệ cảnh báo
nhầm có thể so sánh đƣợc với các phƣơng pháp phát hiện xâm nhập dựa trên dấu
hiệu. Tuy nhiên nó có giá thành khá cao do phải xây dựng các mô hình chuyển
trạng thái của các giao thức mạng. Bên cạnh đó, các hệ thống dựa trên trạng thái
đều gặp phải vấn đề lớn về kích thƣớc của mô hình hệ thống.
Một trong các bộ phân loại phát hiện bất thƣờng áp dụng cách tiếp cận này là
các mô hình chuỗi Markov ẩn. Đây là một máy trạng thái hữu hạn mạnh, mỗi trạng
thái đại diện một chuỗi các lời gọi hệ thống hoặc các hành vi của ngƣời dùng. Trong
mỗi trạng thái, có một giá trị xác suất của việc sinh ra các trạng thái đầu ra và một
xác suất chỉ ra các trạng thái kế tiếp. Trong quá trình huấn luyện, máy trạng thái
hữu hạn này sẽ đƣợc cập nhật các trạng thái mà nó đƣợc học. Sau đó trong pha phát
hiện, các sự kiện chuyển trạng thái bất thƣờng sẽ bị hệ thống phát hiện và phát ra
cảnh báo.
1.2.3 Phƣơng pháp tiếp cận dựa trên hệ chuyên gia
Để phát hiện bất thƣờng, các hệ chuyên gia mô tả các hành vi bình thƣờng của
ngƣời sử dụng bằng một tập các luật. Các hệ thống phát hiện bất thƣờng sử dụng hệ
13
chuyên gia đã triển khai là ComputerWatch ( Dowell và Ramstedt, 1990) và
Wisdom & Sense (Liepins và Vaccaro,1992).
ComputerWatch ( phát triển tại AT&T) sử dụng hệ chuyên gia để tổng kết các
sự kiện an ninh nhạy cảm và xây dựng các luật để phát hiện các hành vi bất thƣờng.
Nó sẽ kiểm tra các hành vi của ngƣời dùng theo một tập các luật mô tả chính sách
sử dụng bình thƣờng của hệ thống, và sẽ kết luận các hành động không phù hợp với
các mẫu có thể chấp nhận đƣợc là bất thƣờng.
Wisdom & Sense ( đƣợc phát triển tại phòng thí nghiệm Los Alamos National)
phát hiện các bất thƣờng có tính thống kê trong hành vi của ngƣời dùng. Đầu tiên,
nó xây dựng một tập các luật mô tả một cách thống kê hành vi dựa trên việc ghi lại
các hành vi của ngƣời dùng theo một khoảng thời gian cho trƣớc. Các chuỗi hành vi
nhỏ sau đó đƣợc so sánh với những luật này để phát hiện các hành vi mâu thuẫn. Cơ
sở tri thức luật đƣợc xây dựng lại một cách định kỳ để phù hợp với các mẫu sử dụng
mới.
1.2.4 Phƣơng pháp tiếp cận dựa trên khai phá dữ liệu
Khai phá dữ liệu tập trung khai thác các thông tin hữu ích tiềm tàng, chƣa biết
trƣớc từ các tập dữ liệu. Các hệ thống phát hiện xâm nhập có ứng dụng phƣơng
pháp khai phá dữ liệu trong phát hiện bất thƣờng là ADAM (Audit Data Analysis
and Mining, của Wu,2001, Barbara và cộng sự, 2001), IDDM (Intrusion Detection
using Data Mining, của Abraham, 2001), và eBayes ( của Valdes và Skinner,2000).
Trong cách tiếp cận này, việc khai phá dữ liệu tìm kiếm các phiên kết nối và
nó khác so với cách tiếp cận phát hiện bất thƣờng dựa trên việc tìm kiếm thông tin
trên các gói tin riêng biệt. Phƣơng pháp này sử dụng các công cụ và phƣơng pháp
khai phá dữ liệu để phân biệt các phiên bất thƣờng so với các phiên bình thƣờng
theo cách sử dụng lặp đi lặp lại dữ liệu huấn luyện nó thu thập đƣợc nhƣ một tham
chiếu. Khai phá dữ liệu là một công nghệ có hiệu quả cao, mang lại khả năng phát
hiện các tấn công chƣa biết và đã biết, nhƣng lại khá phức tạp và đòi hỏi giá thành
cao.