Tải bản đầy đủ (.docx) (44 trang)

Nghiên cứu xây dựng hệ thống IDS để chống lại xâm nhập có sử dụng thuật toán Descion Tree

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (471.38 KB, 44 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
KHOA KỸ THUẬT ĐIỆN TỬ 1
----------F FF----------

BÁO CÁO BÀI TẬP LỚN
MÔN MẠNG CẢM BIẾN
Đề tài :Nghiên cứu hệ thống phát hiện xâm nhập IDS cho mạng
cảm biến khơng dây có sử dụng thuật tốn Cây quyết định.
Giảng viên hướng dẫn
Nhóm lớp học
Nhóm bài tập lớn
Sinh viên thực hiện

:Ths Trần Thị Thanh Thủy
:01
:02
:Chu Cao Danh -B20DCT027
:Trần Ngọc Danh -B20DCDT029
:Lê Anh Dũng -B20DCDT030
:Nguyễn Tiến Dũng -B20DCDT031
:Nguyễn Tiến Dũng-B20DCDT032

Hà Nội-2023
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA KỸ THUẬT ĐIỆN TỬ 1
----------FFF----------


BÁO CÁO BÀI TẬP LỚN
MÔN MẠNG CẢM BIẾN
Đề tài :Nghiên cứu hệ thống phát hiện xâm nhập IDS cho mạng


cảm biến khơng dây có sử dụng thuật tốn Cây quyết định.
Giảng viên hướng dẫn
Nhóm lớp học
Nhóm bài tập lớn
Sinh viên thực hiện

Hà Nội -2023

:Ths Trần Thị Thanh Thủy
:01
:02
:Chu Cao Danh -B20DCT027
:Trần Ngọc Danh -B20DCDT029
:Lê Anh Dũng -B20DCDT030
:Nguyễn Tiến Dũng -B20DCDT031
:Nguyễn Tiến Dũng-B20DCDT032


BẢNG PHÂN CÔNG CÔNG VIỆC
Họ và tên

Mã sinh viên

Chu Cao Danh

B20DCDT027

Trần Ngọc Danh

B20DCDT029


Lê Anh Dũng

B20DCDT030

Nguyễn Tiến Dũng
(Trưởng nhóm )
Nguyễn Tiến Dũng

B20DCDT031
B20DCDT032

Cơng việc
Đánh giá
Tìm hiểu IDS , Hồn thành cơng
thuyết trình
việc
Tìm hiểu DT và
Hồn thành cơng
kdd-99,
làm
việc
powpoint

Thiết

lập

mơi Hồn thành cơng


trường thử nghiệm việc
Tìm hiểu DT và Hồn thành cơng
KDD-99,làm word

việc


NHẬN XÉT CỦA GIẢNG VIÊN

MỤC LỤC


BẢNG PHÂN CÔNG CÔNG VIỆC.....................................................................1
NHẬN XÉT CỦA GIẢNG VIÊN.........................................................................2
MỤC LỤC.............................................................................................................3
DANH MỤC HÌNH ẢNH.....................................................................................6
LỜI MỞ ĐẦU.......................................................................................................7
CHƯƠNG I: GIỚI THIỆU CHUNG VỀ MẠNG CẢM BIẾN VÀ IDS..............8
1.1 .Sự phổ biến của mạng cảm biến.....................................................................8
1.1.1. Mạng cảm biến trên thế giới....................................................................8
1.1.2. Đặt vấn đề và thực trạng về an ninh mạng..............................................8
1.1.3. Mục tiêu cho nguyên cứu.........................................................................9
1.2. Hệ thống IDS..................................................................................................9
1.2.1. Khái niệm và vai trò của IDS...............................................................9
1.2.2. Kiến trúc, chức năng và phương thức hoạt động của IDS.................10
1.2.3. Phân loại IDS.....................................................................................11
1.2.4 Các loại tấn cơng thường gặp và IDS tương ứng................................13
CHƯƠNG 2: THUẬT TỐN DECESION TREE VÀ KDD-99.......................15
2.1. Tổng quan về thuật toán Decision Tree....................................................15
2.1.1.Khái niệm thuật toán Decision Tree ..................................................15

2.1.2. Các thuật toán xây dựng thuật toán Decision Tree............................16
2.1.3. Ưu và nhược điểm của thuật toán Decision Tree...............................17
2.1.4. Ứng dụng của thuật toán Decision Tree.............................................18
2.2. Các bước để xây dựng Decision Tree.......................................................19
2.3. Áp dụng thuật toán Decision Tree trong phát hiện xâm nhập................20


2.4. Ưu điểm và hạn chế của thuật toán Decision Tree trong phát hiện xâm
nhập..................................................................................................................21
2.4.1. Ưu điểm...........................................................................................21
2.4.2. Nhược điểm.....................................................................................21
2.5. Các thơng số cơ bản của thuật tốn Decision Tree trong việc phát hiện
xâm nhập.........................................................................................................22
2.6.Sơ lược về KDD-99...................................................................................23
2.6.1.Khái niệm và phân loại...........................................................................23
2.6.1.1. Khái niệm........................................................................................23
2.6.1.2. Phân loại..........................................................................................24
2.6.2. Khả năng của KDD-99..........................................................................25
2.6.3. Công nghệ áp dụng................................................................................26
CHƯƠNG 3 : XÂY DỰNG HỆ THỐNG...........................................................26
3.1 Thiết lập môi trường thử nghiệm...................................................................26
3.1.1 Giới thiệu về google colab.................................................................26
3.1.2 Thiết lập mơi trường trên gg colab.....................................................29
3.2.Xây dựng chương trình thực hiện..................................................................30
3.2.1.Mơ hình chương trình.........................................................................31
3.2.2 Tiền xử lí dữ liệu KDD-99..................................................................31
3.2.3 Training machine learning model.......................................................35
3.2.4 Đánh giá..............................................................................................35
CHƯƠNG 4 : KẾT LUẬN..................................................................................36
4.1. Kết quả thực nghiệm....................................................................................36

4.2 Những hạn chế...............................................................................................37


4.3 Phương hướng phát triển...............................................................................37
TÀI LIỆU THAM KHẢO...................................................................................38


DANH MỤC HÌNH ẢNH

Số

Tên hình ảnh

Trang

Hình 1 :Ví dụ về cây quyết định
1
2
3
4

5

16
Hình 2: Giao diện google colab
Hình 3:Tạo folder notebook trên drive.
Hình 4:Tạo colab notebook trên driver

Hình 5 : Đổi tên file


29
31
32

32

Hình 6:Mơ hình hệ thống
6
7

33
Hình 7:Ma trận Confusion

41


LỜI MỞ ĐẦU
Những ngày đầu của thế kỷ 21 đánh dấu dấu sự tăng gia đáng kể về sự phát triển
và sự phổ biến của mạng cảm biến không dây (WSN - Mạng cảm biến không dây).
WSN được ứng dụng rộng rãi trong nhiều lĩnh vực, theo dõi môi trường tự nhiên, kiểm
sốt cơng nghiệp đến qn sự và y tế, WSN đã cung cấp kết nối và thu thập thông tin
từ môi trường xung quanh, tạo ra lượng lớn dữ liệu lớn và giá trị.Tuy nhiên, điều quan
trọng là bảo vệ tồn bộ tính chất của dữ liệu và hệ thống trong mạng cảm biến khơng
dây, bởi vì nó phải đối mặt với nhiều công thức bảo mật. Một trong những mối nguy
hiểm lớn nhất mà mạng cảm biến không dây đối diện là xâm nhập (Intrusion). Sự xâm
nhập có thể dẫn đến việc truy cập trái phép, có thể xâm nhập vào mạng và thậm chí
gây hỏng hoạt động của các nút cảm ứng.
Để đảm bảo an toàn cho mạng cảm biến không dây, nghiên cứu hệ thống phát
hiện xâm nhập (IDS - Hệ thống phát hiện xâm nhập) là một yếu tố không thể thiếu.
IDS là một phần mềm hoặc phần cứng thiết bị được thiết kế để phát hiện các hoạt động

xâm nhập hoặc bất thường trong mạng. Việc phát triển một hệ thống hiệu quả, IDS có
vai trị quan trọng trong việc ngăn chặn các cuộc tấn cơng và bảo vệ an tồn bộ tính
năng của mạng cảm biến không dây.Trong nghiên cứu này, chúng em sẽ tập trung vào
công việc nghiên cứu và phát triển hệ thống phát hiện xâm nhập (IDS) cho mạng cảm
biến khơng dây, sử dụng của thuật tốn "Cây quyết định". Việc sử dụng thuật toán Cây
quyết định trong hệ thống IDS có tiềm năng để xác định các hoạt động xâm nhập dựa
trên các quyết định được thực hiện thơng qua một loạt luật và quy tắc.Chúng em sẽ
trình bày chi tiết về việc xây dựng hệ thống IDS, cách thu thập và xử lý dữ liệu từ các
ứng dụng cảm biến, cũng như cách sử dụng cây quyết định thuật toán để phát hiện các
xâm nhập. Điều này hy vọng sẽ đóng góp nghiên cứu cải thiện bảo mật và đáng tin cậy
của mạng cảm biến không dây, mở ra những phát triển khai mới và hiệu quả trong
công việc quản lý và bảo vệ mạng cảm biến này ở tương lai.


CHƯƠNG I: GIỚI THIỆU CHUNG VỀ MẠNG CẢM BIẾN VÀ
IDS
1.1 .Sự phổ biến của mạng cảm biến
1.1.1. Mạng cảm biến trên thế giới
Mạng cảm biến đã trở thành một biểu tượng toàn cầu, đánh dấu bước tiến lớn
trong cuộc cách mạng kỹ thuật số. Trên khắp thế giới, mạng cảm biến đã trải qua sự
phát triển đáng kể và được phát triển rộng rãi trong nhiều lĩnh vực quan trọng. Việc sử
dụng các thiết bị cảm biến không dây đã biến các góc tối của thế giới trở nên sáng hơn
và mang lại nhiều lợi ích cho lớn.
Tại các thị trường lớn, mạng cảm biến đã được sử dụng để giám sát chất lượng
khơng khí, giao thơng và nguồn nước. Các cảm biến đo nồng độ khí thải, lưu lượng xe
cộ, và có sẵn nguồn nước, cung cấp thơng tin quan trọng cho các cơ quan quản lý và
cộng đồng để đảm bảo môi trường sống khỏe mạnh và bền vững.
Trong lĩnh vực nông nghiệp, mạng cảm biến đã giúp nâng cao năng suất và hiệu
quả trong công việc quản lý cây trồng và động vật. Cảm biến đo lường độ ẩm, nhiệt độ
và chất lượng đất cho phép nông dân tối ưu hóa q trình hoạt động và tăng cường sự

chắc chắn của nguồn lương thực.
Hơn nữa, mạng cảm biến đã có khả năng mạnh mẽ trong các ứng dụng y tế và
quân sự. Tại các bệnh viện và trung tâm y tế, các thiết bị cảm biến theo dõi sức khỏe
của bệnh nhân và giúp cung cấp dịch vụ chăm sóc sức khỏe tốt hơn. Trong lĩnh vực
quân sự, mạng lưới cảm biến đóng vai trị quan trọng trong công việc giám sát biên
giới và giám sát hoạt động quân sự, cung cấp thông tin cần thiết để bảo vệ an ninh
quốc gia.

1.1.2. Đặt vấn đề và thực trạng về an ninh mạng
Mạng cảm biến không dây, dù đã mang lại nhiều lợi ích đáng kể cho xã hội và
công nghiệp, cũng đối mặt với những công thức về an ninh mạng ngày càng nguy
hiểm. Trong thời đại kỹ thuật số hiện nay, mạng cảm biến trở nên dễ dàng bị tấn cơng
và xâm nhập, đe dọa tính toàn vẹn của dữ liệu, quyền riêng tư và hoạt động của mạng.


Với công việc ngày càng nhiều dữ liệu quan trọng được thu thập và trao đổi trong
mạng cảm biến, nhu cầu về một mạng lưới ninh mạng trở nên cấp thiết.
Trước đó, việc kết nối liên tục và truyền tải dữ liệu trong mạng cảm biến đã tạo ra rủi
ro về bảo mật. Dữ liệu quan trọng và cảm biến nhạy cảm có thể bị đánh cắp hoặc thay
đổi bởi những kẻ tấn công không mong muốn. Công việc bảo vệ thơng tin này đang trở
thành một nhiệm vụ khó khăn đối với các nhà nghiên cứu và nhà quản lý mạng cảm
biến.
Thực tế cho thấy, mạng cảm biến cũng phải đối mặt với các công thức tấn công
và xâm nhập ngày càng phức tạp. Kẻ xâm nhập có thể sử dụng các phương pháp tinh
vi để xâm nhập vào mạng cảm biến và thực hiện các hành vi sai trái đạo đức hoặc gây
hại. Nhu cầu phát triển các hệ thống phát hiện xâm nhập (IDS) mạnh mẽ và hiệu quả
để theo dõi và bảo vệ mạng cảm biến đã trở nên cung cấp thiết bị hơn bao giờ hết.
Vấn đề về an ninh mạng không chỉ thiết lập mối đe dọa quan tâm về tính bảo mật của
dữ liệu mà còn liên quan đến việc đảm bảo hoạt động liên tục và đáng tin cậy của
mạng cảm biến. Bất kỳ sự cố nào cũng có thể dẫn đến sự gián đoạn trong quá trình thu

thập và truyền tải dữ liệu, ảnh hưởng đến môi trường quản lý, quá trình sản xuất và các
ứng dụng khác. Do đó, một mạng lưới trở thành thành yếu tố sau đó sẽ ở trong sự
thành công và sự phát triển của mạng cảm biến không dây.

1.1.3. Mục tiêu cho nguyên cứu
Mục tiêu chính của nghiên cứu là giải quyết vấn đề mạng lưới trong mạng cảm
biến bằng cách xây dựng hệ thống IDS thơng minh và hiệu quả ,sử dụng thuật tốn
“cây quyết định”, có khả năng phát hiện các hành vi xâm nhập và bảo vệ toàn bộ dữ
liệu vật liệu và hoạt động của cảm biến mạng.

1.2. Hệ thống IDS
1.2.1. Khái niệm và vai trò của IDS
a, Khái niệm
IDS (Intrusion Detection System- hệ thống phát hiện xâm nhập) là một hệ thống
giám sát lưu thông mạng, các hoạt động khả nghi và cảnh báo cho hệ thống, nhà quản
trị. IDS cũng có thể phân biệt giữa những tấn cơng bên trong từ bên trong (từ những
người trong công ty) hay tấn cơng từ bên ngồi (từ các hacker). IDS phát hiện dựa trên


các dấu hiệu đặc biệt về các nguy cơ đã biết (giống như cách các phần mềm diệt virus
dựa vào các dấu hiệu đặc biệt để phát hiện và diệt virus) hay dựa trên so sánh lưu
thông mạng hiện tại với baseline (thông số đo đạc chuẩn của hệ thống) để tìm ra các
dấu hiệu khác thường.
b, Vai trị của IDS
Chức năng quan trọng nhất là: giám sát – cảnh báo – bảo vệ


Giám sát: lưu lượng mạng và các hoạt động khả nghi.




Cảnh báo: báo cáo về tình trạng mạng cho hệ thống và nhà quản trị.



Bảo vệ: Dùng những thiết lập mặc định và sự cấu hình từ nhà quản trị mà có
những hành động thiết thực chống lại kẻ xâm nhập và phá hoại.
Chức năng mở rộng:



Phân biệt: "thù trong giặc ngồi" tấn cơng bên trong và tấn cơng bên ngồi.



Phát hiện: những dấu hiệu bất thường dựa trên những gì đã biết hoặc nhờ vào sự
so sánh thơng lượng mạng hiện tại với baseline.
Ngồi ra hệ thống phát hiện xâm nhập IDS cịn có chức năng:





Ngăn chặn sự gia tăng của những tấn công
Bổ sung những điểm yếu mà các hệ thống khác chưa làm được
Đánh giá chất lượng của việc thiết kế hệ thống
Khi IDS chạy một thời gian sẽ đưa ra được những điểm yếu đó là điều hiển nhiên

và việc đưa ra những điểm yếu đó nhằm đánh giá chất lượng việc thiết kế mạng cũng
như cách bố trí bảo vệ phịng thủ của các nhà quản trị mạng.


1.2.2. Kiến trúc, chức năng và phương thức hoạt động của IDS
a, Kiến trúc
Kiến trúc của IDS gồm 3 thành phần :


Thành phần thu thập gói tin (information collection)



Thành phần phân tích gói tin (Dectection)



Thành phần phản hồi
Trong ba thành phần này thì thành phần phân tích gói tin là quan trọng nhất và ở

thành phần này bộ cảm biến đóng vai trị quyết định nên chúng ta sẽ đi vào phân tích
bộ cảm biến để hiểu rõ hơn kiến trúc của hệ thống phát hiện xâm nhập là như thế nào.


Bộ cảm biến được tích hợp với thành phần sưu tập dữ liệu – một bộ tạo sự kiện. Cách
sưu tập này được xác định bởi chính sách tạo sự kiện để định nghĩa chế độ lọc thông
tin sự kiện. Bộ tạo sự kiện (hệ điều hành, mạng, ứng dụng) cung cấp một số chính sách
thích hợp cho các sự kiện, có thể là một bản ghi các sự kiện của hệ thống hoặc các gói
mạng. Số chính sách này cùng với thơng tin chính sách có thể được lưu trong hệ thống
được bảo vệ hoặc bên ngoài. Trong trường hợp nào đó, ví dụ khi luồng dữ liệu sự kiện
được truyền tải trực tiếp đến bộ phân tích mà khơng có sự lưu dữ liệu nào được thực
hiện. Điều này cũng liên quan một chút nào đó đến các gói mạng.


b,Hoạt động của IDS
Nhiệm vụ chính của các hệ thống phát hiện xâm phạm là bảo vệ cho một hệ thống
máy tính bằng cách phát hiện các dấu hiệu tấn công. Việc phát hiện các tấn công phụ
thuộc vào số lượng và kiểu hành động thích hợp . Để ngăn chặn xâm phạm tốt cần
phải kết hợp tốt giữa “bả và bẫy” được trang bị cho việc nghiên cứu các mối đe dọa.
Việc làm lệnh hướng sự tập trung của kẻ xâm nhập vào tài nguyên được bảo vệ là một
nhiệm vụ quan trọng khác. Toàn bộ hệ thống cần phải được kiểm tra một cách liên tục.
Dữ liệu được tạo ra từ các hệ thống phát hiện xâm nhập được kiểm tra một cách cẩn
thận (đây là nhiệm vụ chính cho mỗi IDS) để phát hiện các dấu hiệu tấn cơng (sự xâm
phạm).

1.2.3. Phân loại IDS
Có hai phương pháp khác nhau trong việc phân tích các sự kiện để phát hiện các
vụ tấn công: phát hiện dựa trên các dấu hiệu và phát hiện sự bất thường.
Có 2 loại IDS: Network base IDS-NIDS và Host based IDS - HIDS

a,Network base IDS :
Hệ thống IDS dựa trên mạng sử dụng bộ dò và bộ bộ cảm biến cài đặt trên tồn
mạng. Những bộ dị này theo dõi trên mạng nhằm tìm kiếm những lưu lượng trùng với
những mơ tả sơ lược được định nghĩa hay là những dấu hiệu. Những bộ bộ cảm biến
thu nhận và phân tích lưu lượng trong thời gian thực. Khi ghi nhận được một mẫu lưu
lượng hay dấu hiệu, bộ cảm biến gửi tín hiệu cảnh báo đến trạm quản trị và có thể
được cấu hình nhằm tìm ra biện pháp ngăn chặn những xâm nhập xa hơn. NIPS là tập
nhiều sensor được đặt ở tồn mạng để theo dõi những gói tin trong mạng so sánh với
với mẫu đã được định nghĩa để phát hiện đó là tấn cơng hay khơng.


Được đặt giữa kết nối hệ thống mạng bên trong và mạng bên ngoài để giám sát
toàn bộ lưu lượng vào ra. Có thể là một thiết bị phần cứng riêng biệt được thiết lập sẵn
hay phần mềm cài đặt trên máy tính. Chủ yếu dùng để đo lưu lượng mạng được sử

dụng. Tuy nhiên có thể xảy ra hiện tượng nghẽn cổ chai khi lưu lượng mạng hoạt động
ở mức cao.

b, Host based IDS - HIDS:
Bằng cách cài đặt một phần mềm trên tất cả các máy tính chủ, IPS dựa trên máy
chủ quan sát tất cả những hoạt động hệ thống, như các file log và những lưu lượng
mạng thu thập được. Hệ thống dựa trên máy chủ cũng theo dõi OS, những cuộc gọi hệ
thống, lịch sử sổ sách (audit log) và những thông điệp báo lỗi trên hệ thống máy chủ.
Trong khi những đầu dò của mạng có thể phát hiện một cuộc tấn cơng, thì chỉ có hệ
thống dựa trên máy chủ mới có thể xác định xem cuộc tấn cơng có thành cơng hay
khơng. Thêm nữa là, hệ thống dựa trên máy chủ có thể ghi nhận những việc mà người
tấn công đã làm trên máy chủ bị tấn công (compromised host).
Không phải tất cả các cuộc tấn công được thực hiện qua mạng. Bằng cách giành
quyền truy cập ở mức vật lý (physical access) vào một hệ thống máy tính, kẻ xâm nhập
có thể tấn công một hệ thống hay dữ liệu mà không cần phải tạo ra bất cứ lưu lượng
mạng (network traffic) nào cả. Hệ thống dựa trên máy chủ có thể phát hiện các cuộc
tấn công mà không đi qua đường công cộng hay mạng được theo dõi, hay thực hiện từ
cổng điều khiển (console), nhưng với một kẻ xâm nhập có hiểu biết, có kiến thức về hệ
IDS thì hắn có thể nhanh chóng tắt tất cả các phần mềm phát hiện khi đã có quyền truy
cập vật lý.Một ưu điểm khác của IDS dựa trên máy chủ là nó có thể ngăn chặn các
kiểu tấn cơng dùng sự phân mảnh hoặc TTL. Vì một host phải nhận và tái hợp các
phân mảnh khi xử lí lưu lượng nên IDS dựa trên host có thể giám sát chuyện này.
HIDS thường được cài đặt trên một máy tính nhất đinh. Thay vì giám sát hoạt
động của một network segment, HIDS chỉ giám sát các hoạt động trên một máy tính.
HIDS thường được đặt trên các host xung yếu của tổ chức, và các server trong vùng
DMZ - thường là mục tiêu bị tấn cơng đầu tiên. Nhiêm vụ chính của HIDS là giám sát
các thay đổi trên hệ thống, bao gồm (not all):


Các tiến trình.




Các entry của Registry.




Mức độ sử dụng CPU.



Kiểm tra tính tồn vẹn và truy cập trên hệ thống file.



Một vài thông số khác.
Các thông số này khi vượt qua một ngưỡng định trước hoặc những thay đổi khả

nghi trên hệ thống file sẽ gây ra báo động.

1.2.4 Các loại tấn công thường gặp và IDS tương ứng
a, Tấn công từ chối dịch vụ Dos
Tấn công DoS là một loại tấn công mà tấn công cố gắng làm cho mạng cảm biến
không thể cung cấp dịch vụ cho người dùng bằng cách tải mạng hoặc làm gián đoạn
hoạt động của nó. Thơng qua việc gửi nhiều yêu cầu giả mạo hoặc tạo ra sự cố kỹ
thuật, tấn cơng DoS có thể gây ra sự gián đoạn nghiêm trọng trong việc thu thập dữ
liệu mà khơng chỉ ảnh hưởng đến tính chất tồn diện của thơng tin mà cịn đe dọa khả
năng sử dụng của mạng.
IDS tương ứng : IDS có khả năng phát hiện và cảnh báo về sự gia tăng bất ngờ

trong mạng lưới lưu trữ năng lượng, đánh giá các yếu tố như tần số, nguồn gốc và mục
tiêu của các yêu cầu. IDS có thể sử dụng các quy tắc thống kê để phát hiện tấn cơng
DoS.

b, Qt và thăm dị
Tấn cơng qt và thăm dị là q trình của kẻ tấn công xâm nhập thử nghiệm các
lỗ bảo mật trong mạng cảm biến bằng cách quét và tìm hiểu về cấu trúc và dịch vụ của
mạng. Điều này có thể là bước đầu tiên để chuẩn bị cho việc tấn cơng thực sự.
IDS tương ứng : IDS có khả năng theo dõi hoạt động quét và thăm dò trong mạng
cảm biến. Nó có thể xác định các mẫu và quy tắc thường xuyên trong quá trình quét và
truy cập và cảnh báo khi có hoạt động bình thường.

c, Tấn cơng vào mật khẩu
Tấn công mật khẩu để mong đợi hoặc sử dụng mật khẩu đăng nhập của người
dùng hoặc thiết bị trong mạng cảm biến. Các kỹ thuật tấn công này bao gồm thử các
mật khẩu mà người dùng có thể sử dụng hoặc sử dụng phương pháp tấn công vét cạn
để tìm ra mật khẩu chính xác.


IDS tương ứng : IDS có thể sử dụng quy tắc và phân tích dữ liệu đăng nhập để
phát hiện các hoạt động đáng ngờ liên quan đến tấn công vào mật khẩu. Nó có thể theo
dõi các lỗi đăng nhập cố gắng hoặc những thay đổi không thường xuyên trong thông
tin đăng nhập.

d, Chiếm đặc quyền
Tấn công chiếm đặc quyền là một loại tấn công mà kẻ xâm nhập cố gắng nâng
cao đặc quyền hoặc quyền truy cập trong mạng cảm biến. Điều này có thể dẫn đến việc
kẻ tấn cơng có khả năng kiểm sốt hoặc thay đổi các phần quan trọng của mạng.
IDS tương ứng: IDS có khả năng theo dõi các sự thay đổi trong quyền truy cập
hoặc đặc quyền của người dùng hoặc thiết bị trong mạng. Nó có thể cảnh báo về

những hoạt động không thường liên quan đến tấn công chiếm đặc quyền.

e,Cài đặt mã nguy hiểm
Tấn công cài đặt mã nguy hiểm là quá trình đưa mã độc hại vào mạng cảm biến
thông qua các phương tiện như phần mềm độc hại hoặc virus. Mã độc hại có thể tạo ra
các lỗ hổng bảo mật, theo dõi hoạt động của mạng hoặc lấy dữ liệu mà khơng được
phép.
IDS tương ứng: IDS có khả năng phát hiện các hoạt động không thường liên quan
đến cài đặt mã độc hại, bao gồm việc theo dõi các tệp và thư mục, kiểm tra mã nguồn
và môi trường thực thi.

f,Tấn công hạ tầng bảo mật
Tấn công hạ tầng bảo mật là loại tấn cơng tím vào cơ sở hạ tầng yếu tố của mạng
cảm biến, bao gồm cả thiết bị chuyển mạng và hệ thống bảo mật. Cơng việc này có thể
dẫn đến việc tắt hoạt động của biến mạng hoặc gây ra sự gián đoạn trong q trình thu
thập và truyền dữ liệu.
IDS có khả năng theo dõi hoạt động của mạng chuyển thiết bị và bảo mật hệ
thống. Nó có thể phát hiện các hoạt động không thường xuyên liên quan đến tấn công
hạ tầng bảo mật, bao gồm việc kiểm tra tính truy cập không được cấp quyền vào các
thiết bị quan trọng, thay đổi cấu hình khơng thường xun.


CHƯƠNG 2: THUẬT TOÁN DECESION TREE VÀ KDD-99
2.1. Tổng quan về thuật toán Decision Tree
2.1.1.Khái niệm thuật toán Decision Tree
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận
về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng
với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến
đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của

các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng
trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định.


Hình 1 :Ví dụ về cây quyết định
Trong đó:


Gốc: là node trên cùng của cây



Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)



Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)



Node lá: biểu diễn lớp hay sự phân phối lớp (hình trịn)
Tóm lại, cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp

các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng dựa vào dãy các luật.
Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như nhị phân
(binary), định danh (nominal), thứ tự (ordinal), số lượng (quantitative) trong khi đó
thuộc tính phân lớp phải có kiểu dữ liệu binary hoặc ordinal.
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào
kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá

biểu diễn dự đoán giá trị phân lớp mẫu đó.

2.1.2. Các thuật tốn xây dựng thuật tốn Decision Tree


ID3 (Iterative Dichotomiser 3): Đây là một trong những thuật toán đầu tiên
được phát triển để xây dựng cây quyết định. Sử dụng độ đo Entropy và thông
tin để chọn thuộc tính tốt nhất để chia cây.




C4.5 (Classification and Regression Trees): Là phiên bản nâng cấp của ID3.
Sử dụng độ đo Gain Ratio thay vì Entropy và có khả năng xử lý dữ liệu bị
thiếu thơng tin.



M5P (M5 Prime): Là một biến thể của C4.5 được sử dụng cho bài tốn hồi
quy. Nó tạo ra các cây quyết định cho việc dự đoán giá trị số học thay vì lớp
phân loại.



CART (Classification and Regression Trees): Là một thuật toán phổ biến
khác để xây dựng cây quyết định. Nó sử dụng độ đo Gini Impurity để chọn
thuộc tính tốt nhất cho việc chia cây. CART cũng có thể được sử dụng cho bài
toán hồi quy.




Classification And Regression Tree for LWF (CART-LWF): Đây là một biến
thể của CART được sử dụng cho các bài toán phân loại nhiều lớp (multi-class
classification).



Random Forest: Đây khơng phải là một thuật tốn xây dựng cây quyết định
đơn lẻ mà là một phương pháp kết hợp nhiều cây quyết định. Nó hoạt động
bằng cách xây dựng nhiều cây và kết hợp kết quả từ chúng để tạo ra một dự
đoán tốt hơn.



Gradient Boosting Trees: Bao gồm XGBoost, LightGBM và CatBoost, là một
loạt các thuật toán sử dụng các cây quyết định như thành phần cơ bản. Chúng
tạo ra một chuỗi các cây theo cách tuần tự để cải thiện dự đoán.



Chi-squared Automatic Interaction Detection (CHAID): Là một thuật tốn sử
dụng trong phân tích thống kê để tạo cây quyết định cho dữ liệu phân loại.

2.1.3. Ưu và nhược điểm của thuật toán Decision Tree
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có
một số ưu điểm:


Cây quyết định dễ hiểu: Người ta có thể rất nhanh hiểu được mơ hình cây
quyết định sau khi được giải thích ngắn gọn.




Việc chuẩn hóa dữ liệu là cơ bản hoặc khơng cần thiết: Các kỹ thuật khác
thường địi hỏi chuẩn hóa dữ liệu, tạo các biến phụ (dummy variable) và loại


bỏ các giá trị rỗng. Với cây quyết định thì có thể khơng cần, giúp tiết kiệm
thời gian tiền xử lý dữ liệu.


Có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể
loại: Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm
một loại biến. Nhưng Decesion Tree thì có thể xử lý hai loại dữ liệu là số và
chữ.



Là một mơ hình hộp trắng: Nếu có thể quan sát một tình huống cho trước
trong một mơ hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic
Boolean.



Có thể thẩm định một mơ hình bằng các kiểm tra thống kê: Điều này làm cho
ta có thể tin tưởng vào mơ hình.



Có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn: Có thể dùng máy

tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để
cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây
quyết định.



Xử lý cả dữ liệu phân loại và hồi quy: Cây quyết định có thể được sử dụng cả
cho bài tốn phân loại (classification) lẫn hồi quy (regression), tùy thuộc vào
cách chúng được cấu hình.



Khả năng xử lý dữ liệu bị thiếu thơng tin: Có khả năng xử lý dữ liệu bị thiếu
thơng tin một cách tự nhiên bằng cách sử dụng các khu vực hoặc nhánh khác
để đối phó với dữ liệu bị thiếu.



Khả năng tạo ra quyết định tốt cho các biến rời rạc và liên tục: Cây quyết định
có thể tạo ra quyết định tốt cho cả biến rời rạc và biến liên tục.

Bên cạnh những ưu điểm trên, cây quyết định có những nhược điểm sau:


Dễ bị quá khớp (Overfitting): Cây quyết định dễ bị quá khớp dữ liệu đào tạo,
đặc biệt khi chúng quá phức tạp hoặc khi khơng có điều kiện cắt tỉa (pruning)
đúng cách. Q khớp dẫn đến hiệu suất kém trên dữ liệu mới.




×