Tải bản đầy đủ (.docx) (49 trang)

Phương pháp phát hiện bất thường trên hệ thống mạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 49 trang )

TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

LỜI CẢM ƠN
Em xin gửi lời cảm ơn trân trọng nhất đến gia đình, thầy cô và bạn bè đã ủng hộ, giúp đỡ em
trong suốt quá trình thực hiện đề tài, đặc biệt là Giảng Viên ThS Huỳnh Nguyên Chính người đã
trực tiếp tận tình hướng dẫn em hoàn thành bài tiều luận này.
Do thời gian nghiên cửu có hạn nên khoá luận không tránh khỏi những thiếu sót nhất định rất
mong được sự đóng góp ý kiến của các thầy cô và những người quan tâm tới đề tài này.Em xin
chân thành cảm ơn!

TP. HCM, tháng 12 năm 2014.
Nguyễn Văn Lệnh

Page 1


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Lời Nhận Xét Của Giáo Viên Hướng Dẫn
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................


.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................

Danh Mục Viết Tắt
ICMP
TELNET
FTP
TCP
UDP
IDS
IPS
NIDS

HIDS
DoS
MLP

The Internet Control Message Protocol
TErminaL NETwork
File Transfer Protocol
Transmission Control Protocol
User Datagram Protocol
Intrusion detection system
Intrusion prevention system
Network-based intrusion detection system
Host-based intrusion detection system
Denial of Service
Multi-layered Perceptron

Page 2


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Chương I: Tổng quát an toàn mạng
1. An toàn mạng và các yêu cầu cơ bản.
1.1 Khái quát an toàn mạng.
- Trong thế kỷ 21 là một thế kỷ hiện đại, một thế kỷ thuật công nghệ. Bên cạnh các công

nghệ rất phát triển như công nghệ vi mạch, công nghệ SmartPhone...thì mạng internet cũng
phát triển ngày càng mạnh, theo thông kế số người dùng liên tục tăng dẫn đến nhiều dịch

vụ trực tuyến cũng phát triển mạng mẽ như các dịch vụ thương mại điện tử, thanh toán trực
tuyến.... Một khi các dịch vụ trực tuyến tăng thì yêu cầu đảm bảo an toàn các dịch vụ, đảm
bảo thông tin người dùng là một thách thứ lớn, không ai dám chắc rằng thông tin khi đến
người nhận thì sẽ không bị đánh cắp hoặc thay đổi bên cạnh đó các lỗ hổng bảo mật bị phát
hiện và khai thác cho nên vấn đề đảm bảo an toàn mạng luôn luôn là vấn đề nóng và được
-

quan tâm đến trong mỗi thời điểm.
An ninh mạng có nghĩa là bảo vệ hệ thống mạng máy tính khỏi sự phá hoại phần cứng hay
chỉnh sửa dữ liệu (phần mềm) mà không được sự cho phép từ những người cố ý hay vô
tình. An toàn mạng cung cấp giải pháp, chính sách, bảo vệ máy tính, hệ thống mạng để làm
cho những người dùng trái phép, cũng như các phần mềm chứa mã độc xâm nhập bất hợp

-

pháp vào máy
Năm 2010, Việt Nam là một trong 10 nước có nguy cơ mất an toàn thông tin cao nhất (dựa
trên các bản báo cao tổng hợp về an ninh thông tin của nhiều hãng bảo mật nước ngoài
như McAfee, Kaspersky hay checkPoint...) và đứng thứ 5 sau Trung Quốc, Nga, Ấn Độ,

Page 3


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Mỹ về mức độ rủi ro mà người dùng và các nhà cung cấp dịch vụ internet có thể bị tấn
công.
1.2 Các yêu cầu cơ bản về an toàn mạng.

- Khái niệm an toàn mạng thông tin: là đảm bảo an toàn khi truyền thông tin giữa các máy
tính, đảm bảo các quyền truy xuất, sử dụng các tài nguyên thông tin, tính bảo mật của các
-

dịch vụ, thông tin người dùng trên hệ thống các dịch vụ cũng như hệ thống mạng.
An toàn hệ thống mạng là 1 điều cần thiết trong một hệ thống mạng. Sự an toàn của hệ
thống mạng được thể hiện qua 3 vấn đề chính sau:
 Thông tin – bí mật: phải đảm bảo thông tin chỉ cung cấp cho những người hợp pháp một
cách chính xác khi có truy nhập hợp pháp.
 Thông tin – toàn vẹn: thông tin chỉ được chỉnh sửa (có thể sửa, xóa hoặc thay thế ) bởi

những người được ủy quyền.
 Thông tin – sẵn sàng: thông tin dữ liệu sẽ được sẵn sàng cung cấp cho những người hợp
pháp và cần đến nó thật sự.
- Một hệ thống an ninh mạng phải đảm bảo các yêu cầu cơ bản sau:
 Tính bí mật (Confidentiality): đảm bảo dữ liệu được bảo vệ một cách an toàn, bí mật
không bị các nhóm tấn công lấy cắp.
 Tính toàn vẹn dữ liệu (data integrity): hệ thống sẽ đảm bảo tính toàn vẹn của dữ liệu khi
có một sự cố xảy ra đối với hệ thống mạng hoặc sửa đổi trái phép trong cơ sở dữ liệu.
 Tinh ủy quyền (authorization): đảm bảo chỉ có những người được quyền mới đăng nhập
vào hệ thống.
 Tính sẵn sàng (availability): đảm bảo người dùng hợp pháp được truy cập vào các tài
nguyên mạng.
2. Bảo mật thông tin.
- Thông tin có giá trị cao nên phải đảm bảo tính chính xác và kịp thời, hệ thống chỉ có thể
cung cấp các thông tin có giá trị thực sự khi các chức năng của hệ thống đảm bảo hoạt
động đúng đắn. Mục tiêu của việc đảm bảo an toàn an ninh mạng cho hệ thống thông tin là
đưa ra các giải pháp và ứng dụng vào các giải pháp này để loại bỏ và giảm bớt nguy hiểm.
Các cộng tấn công có thể đến từ nhiều hướng theo nhiều cách khác nhau do đó cần phải
-


đưa ra các chính sách và biện pháp đề phòng cần thiết.
Bảo mật thông tin là sự hạn chế khả năng lạm dụng tài nguyên và tài sản dữ liệu. Hạn chế
có nghĩa là không triệt phá hết ngay được việc xâm phạm dữ liệu, cho nên cần phải hạn chế

Page 4


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

mọi khả năng xấu, phân tích chính xác các cuộc tấn công, các điểm yếu của hệ thống và
tăng cường bảo mật những vùng cần thiết để giảm thiểu thiệt hại cho hệ thống.
- Bảo mật thông tin được chia làm 3 lĩnh vực chính là:
 Bảo mật máy tính (computer Security): là một tiến trình ngăn chặn và phát hiện sử dụng
không hợp pháp vào máy tính bằng cách lựa chọn các công cụ thiết kế để đảm bảo về dữ
liệu và tấn công của hackers.
 Bảo mật mạng (network security): là phương pháp bảo vệ dữ liệu trong suốt quá trình
chuyển động của mạng nội bộ.
 Bảo mật internet (internet security): là phương pháp để bảo vệ dữ liệu trong suốt quá
trình vận chuyển trong mạng nội bộ ra ngoài internet.
2.1 Các nguy cơ đe dọa:
- Trong một hệ thống đang vận hành thì không một công ty hay tổ chức nào khẳng định rằng

“Hệ thống đó là hoàn hảo và không có lỗ hỏng bảo mật”, do đó sự tồn tại các lỗ hổng bảo
mật bên trong hệ thống là điều tất yếu, các lỗ hổng thường xuất hiện trên:
 Phần mềm: do quá trình thiết kế và lập trình của một phần mềm là khá dái, đồng thời
cũng do nhiều người cùng tham gia nên sẽ có những sai xót.
Vd: dưới đây là đoạn code kiểm tra tài khoản user của 1 phần mềm.

statement = "SELECT * FROM users WHERE name = '" + userName + "';"
Đoạn code này chưa có phần kiềm tra ký tự thoát, nên hacker có thể dùng kỹ thuật Sql
injection để vượt qua phần đăng nhập.
 Các chính sách: Người quản trị đóng vai trò trong vấn đề này. Trong quá trình phân

quyền người quản trị có thể phân quyền nhầm cho 1 pc, đối với thông tin lưu trên máy
chủ thì lúc đó người ngồi trên pc đó có thể thay đổi thông tin trên trên máy chủ một cách
dễ dàng.
 Người dùng: Dù bạn có một hệ thống hoàn hảo đến mấy thì vấn đề con người cũng rất
quan trọng, chẳng hạn quyền hạn máy tính của bạn có quyền đọc và ghi dữ liệu lên trên
máy chủ, mà bạn lại cho một người khác sử dụng máy tính của bạn trong khi đó người
này hoàn toàn không có quyền ghi dữ liệu lên máy chủ, lúc đó việc phân quyền của quản
trị viên đã bị vô tác dụng.
- Một số hình thức tấn công:
 Dò Quét: Trước mỗi cuộc tấn công thì hacker bắt buộc sử dụng các phần mềm để quét hệ
thống mạng, sau đây là một vài phần mềm thông dụng mà hacker thường sử dụng trước
khi tấn công vào hệ thống:
Page 5


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

 Dùng Pinger, Hping2,… các phần mềm này gửi gói tin Echo vào hệ thống thông qua

giao thức ICMP để phát hiện xem hệ thống còn hoạt đông hay không, nếu hệ thống
không còn hoạt động thì hoạn lại cuộc tấn công ngay từ đầu.
 Dùng Nmap đề vẽ ra network map.
 Dùng Sniffer để thăm dò thông tin trên một đoạn mạng nào đó, phần mềm này các

quản trị viên dùng theo hướng tích cực là đề xét tính ồn định của mạng. Mặt khác các
hacker sử dụng nó như 1 công cụ thăm dò phát hiện các thông tin username và
password không mã hoá trên đường truyền.
 Tấn công từ chối dịch vụ (Denial of service): Hình thức tấn công này nhằm mục đích làm
gián đoạn hay gậy ra một độ trễ nhất định trong hệ thống mạng cản trở sự hoạt đồng hợp
lệ cúa các máy tính khác, hình thức tấn công vào các thiết bị định tuyến hay một trang
web,…
 Tấn công vào ứng dụng (Application-level Attack): Hình thức tấn công này nhằm vào các
ứng dụng dịch vụ của hệ thống. Thường thì tấn công này nếu thành công thì hacker có thề
kiềm soát toàn bộ hệ thống. Ngày càng nhiều các cuộc tấn công diễn ra trên thế giới và
các cuộc tấn công ngày càng tinh vi nhờ có các công cụ có sẵn được phát tán rộng rãi trên
mạng

Page 6


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 1.1 : Gần 5,2 tỷ cuộc tấn công diễn ra vào năm 2013 (Theo laodong.com.vn)
2.2 Các nguyên tắc bảo vệ thông tin:
- Cơ bản nhất là các chính sách đối với các máy tính trong mạng, các chính sách đối với

người dùng trong hệ thống mạng. Cần thiết lập cho các hosts quyền tối thiểu mà host đó
cần dùng, không thể cho một host bình thường quá nhiều quyền. Nhằm hạn chế tối thiểu
-

việc trình diễn nội dung ra bên ngoài hệ thống.
Áp dụng nguyên tắc bảo mật theo nhiều mức, tức là có nhiều lớp phòng vệ. Điều này làm


-

cho các hacker trở nên nản chí khi có quá nhiều mức phòng vệ trong hệ thống.
Xây dựng các hệ thống phát hiện các dạng tấn công đã từng gặp.
Sử dụng kết hợp các biện pháp an toàn trong bảo mật. Sử dụng các thiết bảo mật
(Firewall), xây dụng các hệ thống phát hiện xâm nhập trái phép (IDS), đồng thời yếu tố con
người cũng rất quan trọng để tạo ra một hệ thống có tính bảo mật cao.

Chương II : Hệ thống phát hiện xâm nhập trên mạng(IDS)
1. Định nghĩa, chức năng, nguyên lý làm việc IDS.
1.1 Định nghĩa:
- IDS là hệ thống theo dõi, phát hiện xâm nhập và có thể phòng chống việc xâm nhập bất

hợp pháp nhằm đánh cắp, sửa đổi thông tin trên hệ thống làm ảnh hưởng đến tính toàn vẹn
dữ liệu và tính sẵn sàng của hệ thống. IDS thu thập thông tin trong hệ thống bằng nhiều
-

cách khác nhau sau đó phân tích và xác định các xâm nhập trái phép.
Một hệ thống IDS có thể vừa là phần cứng vừa là phần mềm phối hợp một cách hợp lý để
nhận ra những mối nguy hại có thể tấn công. Hệ thống có thể phát hiện những hoạt động

-

xâm nhập trái phép vào mạng bằng việc kiểm tra sự đi lại của mạng.
IDS có thể phát hiện các cuộc tấn công từ bên ngoài hay bên trong nhờ sự bắt giữ địa chỉ
ip….IDS sẽ dựa vào các dấu hiệu đặc biệt như so sánh lưu lượng lưu thông trên mạng hiện
tại với baseline (so với thông số đo đạt chuẩn của hệ thống) để tìm ra các dấu hiệu khác
thường.


Page 7


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 2.1: vị trí đặt thiết bị IDS trong hệ thống mạng.
-

Một hệ thống IDS (phát hiện xâm nhập trái phép) cần thỏa mãn nhưng yêu cầu sau:
 Tính chính xác (Accuracy): IDS không được xem hành động thông thường trong môi
trường hệ thống là những hành động bất thường hay lạm dụng.
 Hiệu năng (performance): chức năng của IDS phải đủ để phát hiện xâm nhập trái phép

trong khoảng thời gian thực (thời gian thực có nghĩa là thời gian mà hành động xâm nhập
trái phép phải được phát hiện trước khi làm tổn thương hệ thống).
 Tính trọn vẹn (Completeness):IDS không được phép bỏ qua một cuộc xâm nhập trái phép

nào. Nhưng những điều này khó có thể đáp ứng được vì không thể nào ngăn chặn tất cả
các cuộc xâm nhập trái phép.
 Chịu lỗi (Fault tolerance): IDS phải có khả năng chống lại tấn công.
 Khả năng mở rộng (Scalability): IDS phải có khả năng sử lý trong trang thái xấu nhất là

không bỏ sót thông tin. Có nghĩa là khi có sự cố thì IDS cũng đảm bảo cho hệ thống hoạt
động tốt không bị tê liệt hệ thống.
1.2 Chức năng:
- Hệ thống IDS cho phép các tổ chức, công ty bảo vệ hệ thống khỏi các mối đe doạ của môi
trường mạng rộng lớn bên ngoài. An ninh mạng ngày càng trở nên quan trọng đối với các
hệ thống, vấn đề đặt ra là giải pháp nào đáng tin cậy và tốt nhất. Người ta đưa ra một số lý

do như sau để chứng mình là hệ thông mạng của ta nên sử dụng IDS:
 Bảo vệ tính toàn vẹn của dữ liệu trong hệ thống: Có các biện pháp đưa ra nhằm ngăn

chặn được sự xâm nhập bất hợp pháp hoặc thay đổi dữ liệu trái phép.
Page 8


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

 Bảo vệ tính bí mật: giữ cho thông tin không bị lộ ra ngoài.
 Bảo vệ tính khả dụng: tức là luôn giữ hệ thống có tính sẵn sàng thực hiện như cầu của

người dùng hợp pháp.
 Bảo vệ được sự riêng tư:tức là người sử dụng sẽ được dùng tài nguyên theo đúng chức
năng mà họ được phép.
 Thông báo thông tin về sự xâm nhập: dưa ra các chính sách đối phó, khắc phục, sửa chữa.
- Tóm lại IDS có những chức năng như sau:
 Giám sát: lưu lượng trên mạng và các hoạt động khả nghi.
 Cảnh báo: báo cáo tình trạng mạng cho người quản trị.
 Bảo vệ: chống lại các xâm nhập nhằm phá hoại dữ liệu trên hệ thống.
1.3 Nguyên lý làm việc:
- Nguyên lý làm việc của IDS dựa vào 2 cơ chế:
 Phát hiện sự không bình thường(anomaly detection): với cơ chế này sẽ phân biệt được
các bất thường để tìm ra các thay đổi hay các hành vi bất hợp pháp. Phát hiện sự không
bình thường được chia làm 2 loại:
 Phát hiện tĩnh: bộ phát hiện tĩnh đưa ra một vài xâu bit cố định để định nghĩa trạng thái của

hệ thống. Chúng sẽ thu được một biểu diễn về trạng thái có thể ở dạng nén. Sau đó nó sẽ so

sánh biểu diễn trạng thái thu được với biểu diễn tương tự được tính toán trên trạng thái hiện
tại của xấu bit cố định nếu có sự khác biệt thì sẽ cho rằng là có xâm nhập hay lỗi hệ thống.
Khi phát hiện tĩnh sử dụng các xâu bit để so sánh thì nó sẽ làm tốn kém về lưu trữ cũng như
về các phép toán so sánh nên chúng ta có thể sử dụng dạng biểu diện nén để giảm chi phí vì
chỉ cần chỉ ra cái sai chú không cần chỉ ra sai chỗ nào.
 Phát hiện động: các hệ thống phát hiện động thường tạo ra một file profile cơ sở để mô tả
đặc điểm các hành vi bình thường, chấp nhận được. Một profile bao gồm tập các đo lường về
hành vi. Mỗi đại lượng đo lường gồm nhiều chiều:
o Liên quan đến các lựa chọn: thời gian đăng nhập vị trị đăng nhập...
o Các tài nguyên được sử dụng trong cả quá trình hoặc trên một đơn vị thời gian: chiều
dài phiên giao dịch....
o Chuỗi biểu diễn các hành động.
Sau khi tạo ra profile thì quá trình phát hiện xâm nhập được bắt đầu. Phát hiện động lúc
này cũng giống như phát hiện tĩnh kiểm tra và so sánh. Khó khăn chính đối với hệ thống
phát hiện động là chúng phải xây dựng các profile thật chính xác và nhận ra sai trái nhờ
các profile. Profile cơ sở được xây dựng nhờ việc chạy hệ thống và hành vi người dùng
trong thời gian dài.
Page 9


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

 Phát hiện sự lạm dụng (misuse detection): các profile sẽ khó có thể nhận biết được các

hành vi xâm nhập do người dùng dần dần thay đổi hành động của họ nên kỹ thuật phát
hiện sự làm dụng được ra đời. Phát hiện sự làm dụng sẽ phát hiện những kẻ xâm nhập
đang cố gắng đột nhập vào hệ thống bằng cách sử dựng một số kỹ thuật đã biết và sẽ liên
tục so sánh hành động của hệ thống hiện tại với 1 số kịch bản xâm nhập để tìm ra kịch

bản đang tiến hành. Do các kịch bản xâm nhập được đặc tả 1 cách chính xác nên hệ thống
phát hiện lạm dụng có thể dựa vào đó theo vết hành động xâm nhập để giảm bớt tác hại
1.4
-

có thể xảy ra.
Phân loại:
cách thông thường nhất để phân loại các hệ thống IDS là dựa vào đặc điểm của nguồn dữ

liệu thu thập được. Hệ thống IDS được chia làm 2 loại:
1.4.1 Network based IDS (NIDS):
- Hệ thống IDS dựa trên mạng sử dụng bộ dò và bộ cảm biến cài đặt trên toàn mạng, những
bộ này dò theo dõi trên mạng nhằm tìm kiếm những lưu lượng trùng với những mô tả sơ
lược được định nghĩa. Những bộ cảm biến đó thu nhận và phân tích, khi ghi nhận được rồi
thì gửi tín hiệu báo đến trạm quản trị sau đó có thể cấu hình nhằm tìm ra biện pháp ngăn
-

chặn những xâm nhập xa hơn.
NIDS thông thường được cài đặt tại các điểm vào của hệ thống để đón bắt lưu lượng phân
tích nội dung và đưa ra cảnh báo bằng cách kiểm tra các luồng thông tin của các trạm giám
sát.

Page 10


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 2.2: thể hiện NIDS được đặt đầu hệ thống.

Ưu điểm:
 Chi phí thấp.
 Phát hiện được các tấn công mà hệ thống HIDS bỏ qua.
 Tốc độ phát hiện nhanh, đối phó kiệp thời.
 Có tính độc lập cao.
 Có khả năng xác định lỗi ở tầng network
- Nhược điểm:
 Khó tương thích với router và switch.
 Có thể xảy ra trường hợp báo động giả có nghĩa là không có xâm nhập mà NIDS vẫn báo
-

là xâm nhập.
 Không thể phân tích các lưu lượng đã được mã hóa (vd: SLL, SSH, IPSec...)
 Hiệu năng với các cuộc tấn công sử dụng các gói tin phân mảnh là không cao
 Dễ trở thành mục tiêu tấn công khi NIDS bị tấn công sẽ ảnh hưởng đến toàn bộ hệ thống.
1.4.2 Host based IDS (HIDS):
- HIDS thường được cài đặt trực tiếp nên các máy trạm cần giám sát vì HIDS tìm kiếm dấu
hiệu của xâm nhập vào một host cục bộ.

Hình 2.3: sơ đồ đặt HIDS.
- Ưu điểm:
 Xác định được kết quả của cuộc tấn công thất bại hay thành công.
 Giám sát được các hoạt động cụ thể của hệ thống mạng.
 Phát hiện được các xâm nhập mà NIDS bỏ qua.
Page 11


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính


 Thích nghi tốt với môi trường đặc biệt là môi trường được mã hóa.
 Không yêu cầu phần cứng.

Nhược điểm:
 Khó quản trị vì HIDS được cài đặt trên nhiều máy khác trong mạng.
 Nguồn thông tin không đảm bảo do các file log có thể bị tấn công trước đó
 Chi phí cao do phải cài đặt nhiều lần.
 Chiếm tài nguyên của các máy trạm.
2. Cách phát hiện kiểu tấn công thông dụng của IDS.
Tấn công từ chối dịch vụ(denial of server): có mục đích chung là đóng băng hay chặn
-

đứng tài nguyên của hệ thống đích. DoS tấn công vào các mục tiêu bao gồm 3 dạng là
-

mạng, hệ thống và ứng dụng.
Phá hoại network: là kiểu tấn công SYN flood (một kiểu tấn công trực tiếp vào máy chủ
bằng cách tạo ra một số lượng lớn các kết nối TCP nhưng không hoàn thành các kết nối
này) là 1 dạng tấn công từ chối dịch vụ, kẻ tấn công sẽ gửi các gói thiết bị kết nối SYN đến

-

hệ thống..
Phá hoại hệ thống: các kiểu tấn công nhàm lợi dụng lỗ hổng trên hệ điều hành nhằm phá

-

hoại, gây quá tải hệ thống.
Phá hoại ứng dụng: bằng cách lợi dụng điểm yếu trên ứng dựng, cở sở dữ liệu, email, trang


web…
 Giải pháp của IDS: một filewall dạng proxy rất hiệu quả để ngăn chặn các gói tin không
mong muốn từ bên ngoài.
Quét và thăm dò (scanning và probe): bộ phận quét và thăm dò sẽ kiếm trên mạng để
xác định điểm yếu. Bộ quét và thăm dò này chỉ có mục đích là phân tích để phòng ngừa.
Các công cụ quét và thăm dò thường sử dụng như là: SATAN, ISS internet scanner… Việc
thăm dò có thể được thực hiện bằng cách ping đến hệ thống để kiểm tra các giao thức TCP,
UDP để tìm ra những lỗ hỏng. Cho nên Hacker sẽ có thể sử dụng để gây hại cho hệ thống
bằng cách sử dụng công cụ này để xâm nhập.
 Giải pháp của IDS: Network-base IDS có thể phát hiện các hành động nguy hiểm trước khi
xảy ra. Host-base IDS cũng có thể có tác dụng đối với kiểu tấn công này. Nhưng hiệu quả sẽ
không bằng giải pháp trên mạng.
Tấn công vào mật mã (password attack): có 3 phương pháp đối với kiểu tấn công
Passwork attack:

Page 12


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng
-

GVHD: Huỳnh Nguyên Chính

Kiểu ăn trộm mật mã mang lại quyền hành cho kẻ tấn công có thể truy nhập tới mọi thành
phần trong mạng. các kiểu ăn trộm mật mã như là nghe trộm mật mã gửi trên mạng, gửi

-

thư.

Đoán hay bẻ khóa mật mã: phương thức tiếp cận được gọi là brute force bằng cách thử
nhiều mật mã để mong tìm ra được mật mã đúng. Với bẻ khóa, kẻ tấn công cần truy nhập
tới mật mã đã được mã hóa hay tìm đến các file chữa mật mã đã mã hóa để tìm ra mật mã
đúng nhờ vào nhiều chương trình đoán nhiều mã với thuật toán mã hóa và tốc độ của máy
tính. Ví dụ như đoán từ tên, thông tin cá nhân, từ các từ thông dụng rồi sử dụng tài khoản
người dùng để chiếm quyền quản trị.

 Giải pháp của IDS: một network-based IDS có thể phát hiện và ngăn chặn cố gắng đoán mã

nhưng nó không có hiệu quả trong việc phát hiện truy nhập trái phép tới file đã bị mã hóa.
Trong khi đó host-based IDS lại rất hiệu quả trong công việc phát hiện việc đoán mật mã
cũng như phát hiện truy cập trái phép tới file chứa mật mã.
Chiếm đặc quyền (privilege-grabbing): khi xâm nhập vào hệ thống thì chúng sẽ cố gắng
chiếm quyền truy nhập để chiếm được hệ thống. Một số kỹ thuật thường dùng cho việc


chiếm quyền:
Đoán hay bẻ khóa của quyền quản trị.
Gây tràn bộ đệm.
Truy cập và khai thác console đặc quyền.
Thăm dò file, scrip hay các lỗi của hệ điều hành với ứng dụng.
Giải pháp của IDS: cả network và host-based IDS đều có thể xác định việc thay đổi đặc
quyền trái phép ngay lập tức, ở cấp phần mềm khi việc đó xảy ra trên thiết bị máy chủ.
Cài đặt mã nguy hiểm: một số tấn công có thể cài đặt mã nguy hiểm vào hệ thống. Mã
này có thể lấy trộm dữ liệu, gây từ chối dịch vụ, xóa file, hay tạo backdoor cho lần truy

-

nhập trái phép tiếp theo. Có một số ví dụ về việc truy cập trái phép.
Virus: có thể là chương trình hay đoạn mã khi thực thi thì sẽ dẫn đến một số hành động tự


-

động làm hại hay không hại hệ thống nhưng tạo ra những file hệ thống hay ứng dụng.
Trojan horse: là chương trình hay đoạn mã mà khi thực thi sẽ dẫn đến một số hành động tự

động, thường thì có hại nhưng không có mục đích nhân bản.
 Giải pháp của IDS: cài đặt các phần mềm bảo mật có tác dụng chống virus và các đoạn mã
nguy hiểm lên gateway, server và workstation là phương pháp hiệu quả nhất để giảm mức
độ nguy hiểm.
Page 13


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hành động phá hoại máy móc (Cyber vandalism): hành động này sẽ là hành động thay
đổi web, xóa file, phá block khởi động và chương trình hệ điều hành, format ổ đĩa.
 Giải pháp của IDS: đối với giải pháp host-based IDS cài đặt và cấu hình cẩn thận có thể xác
định có thể xác định được tất cả vấn đề liên quan với cyber vandalism. Network-based IDS
thì có thể sử dụng dấu hiệu tấn công được định nghĩa trước để phát hiện chính xác việc truy
cập trái phép vào hệ điều hành…
Tấn công vào hạ tầng bảo mật (security infratructure attack): có nhiều loại tấn công
can thiệt vào thiết cơ sở hạ tầng bảo mật như tạo tường lửa trái phép, chỉnh sửa tài khoản
của người dùng hay router. Tấn công vào cơ sở hạ tầng cho phép kẻ xâm nhập có thêm
quyền truy nhập hay tạo ra nhiều đường truy nhập vào hệ thống mạng.
 Giải pháp của IDS: host-based IDS có thể bắt giữ các cuộc đăng nhập mà thực hiện các
3.
3.1


-

hành đồng như đưa thêm tài khoản có đặc quyền hay filewall thay đổi 1 cách đáng nghi.
Phân biệt hệ thống không phải là IDS (So Sánh giữa IPS và IDS).
IPS(intrusion prevention system)
Khái niệm.
Hệ thống chống xâm nhập là một phần cứng hoặc phần mềm có khả năng phát hiện xâm
nhập và ngăn chặn các nguy cơ gây mất an toàn cho hệ thống. IPS được ra đời năm 2003
sau một lọt cuộc tấn công ồ ạt trên quy mô lớn như Code red, NIMDA, SQL Slammer và
năm 2004 được sử dụng rộng rãi nhờ sự giảm bớt các yêu cầu tác động của con người
trong việc đáp lại các nguy cơ phát hiện cũng như giảm bớt phần nào gánh nặng của việc

-

vận hành.
Hệ thống ngăn chặn xâm nhập IPS là một kỹ thuật an ninh mới, kết hợp các ưu điểm của
kỹ thuật filewall và hệ thống phát hiện xâm nhập IDS. Có khả năng phát hiện và ngăn chặn


-

các cuộc tấn công đó.
Phát hiện và ngăn ngừa xâm nhập.
IPS không đơn gian là dò, phát hiện các cuộc tấn công chúng còn có khả năng ngăn chặn
và cản trở các cuộc tấn. Chính vì có những chức năng như trên thì IPS thường đặt ở vành
đai mạng để bảo vệ tất cả các thiết bị mạng cũng như trong hệ thống. Một hệ thống phát
hiện và ngăn ngừa xâm nhập được xem như là thành công thì phải được các yêu cầu sau:
thực hiện nhanh, đưa ra các thông báo hợp lý, chính xác, ngăn chặng thành công các cuộc
xâm nhập trái phép. Hệ Thống IPS có 3 Module chính:


Page 14


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

 Module phân tích luồng dữ liệu: có nhiệm vụ phân tích tất cả các gói tin đi đến mạng.

Nếu các gói tin không có địa chỉ hợp lệ của mạng nào thì sẽ bị hủy bỏ và được IPS thu
nhận tất cả vì carp mạng của IPS được đặt ở chế độ thu nhận. Tất cả các gói tin đó sẽ
được IPS sao chép, xử lý, phân tích dữ liệu xem chúng thuộc kiểu gói tin nào, dịch vụ
nào.... Các thông tin này sẽ được chuyển lên Module phát hiện tấn công.
 Module phát hiện tấn công: là phần quan trọng nhất, phần thông minh nhất của hệ thống
để nhận ra được các cuộc tấn công và các hoạt động bình thường. Để phân biệt được giữa
1 cuộc tấn công và 1 hoạt động bình thường thì nó sẽ sử 2 phương pháp sau:
 Phương pháp dò sự có sẵn (lạm dụng): phương pháp này còn được gọi là phương pháp
dò dấu hiệu. Nó sẽ phân tích, tìm kiếm các hoạt động tấn công giống các cuộc tấn công
của các lần trước. Cho nên có những ưu điểm nhanh, chính xác, không đưa ra những
cảnh báo sai cho hệ thống, giúp người quản trị sẽ đưa ra các lỗ hổng bảo mật và cải
thiện tốt các lỗ hổng bảo mật đó. Tuy nhiên bên cạnh ưu điểm thì có những nhược điểm
là không phát hiện ra được các cuộc tấn công mới nhất.
 Phương pháp dò sự không bình thường: phương pháp này nhận ra các hoạt động không
bình thường của hệ thống mạng. Quan điểm phương pháp này cho rằng các cuộc tấn
công sẽ khác với các hoạt động bình thường bằng cách lưu lại sơ lược về các hoạt động
bình thường của hệ thống do đó các cuộc tấn công sẽ có những hành động khác so với
hoạt động của hệ thống thì sẽ bị phát hiện. Phương pháp do sự không bình thường có
o


những kỹ thuật sau:
Phát hiện mức ngưỡng: các mức ngưỡng sẽ được đặt ra so với các hoạt động bình
thường nếu có sự bất thường nào đó xuất hiện thì hệ thống sẽ cho là sự xâm nhập trái
phép. VD: khi đăng nhập vào facebook thì hệ thống chỉ cho phép đăng nhập sai 5 lần.

Với 5 lần đó là mức ngưỡng nếu hơn thì cho rằng đó là sự xâm nhập trái phép.
o Phát hiện nhờ quá trình tự học: kỹ thuật gồm 2 chế độ. Chế độ tự học được thiết lập
khi phát hiện cuộc tấn công thì tạo ra một hồ sơ về cuộc tấn công đó với các hoạt
động bình thường. Sau đó hệ thống sẽ chạy ở chế độ làm việc để tiến hành theo dõi,
phát hiện các cuộc tấn công theo hồ sơ đã thiết lập trên.
o Phát hiện sự không bình thường của các giao thức: kỹ thuật này dự vào các giao thức,
dịch vụ của hệ thống để phát hiện ra các cuộc tấn công trái phép.
Page 15


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Ưu điểm của phương pháp pháp dò sự không bình thường là phát hiện các kiểu tấn
công mới, cung cấp thông tin hữu cho phương pháp dò sự có sẵn. Tuy nhiên cũng có
nhược điểm là thường gây ra cảnh báo sai làm giảm hiệu suất hoạt động của mạng.
 Module phản ứng: khi nhận được tín hiệu báo cáo có sự tấn công từ Module phát hiện tấn

công thì Module phản ứng sẽ kích hoạt tường lửa để ngăn chặn cuộc tấn công hay cảnh
báo người quản trị. Module phản ứng có các chức năng hay phương pháp ngăn chặn khác
nhau tùy theo hệ thống. Các kỹ thuật ngăn chặn:
 Kết thúc tiến trình: khi hệ thống IPS gửi các gói tin thiết lập lại thì cuộc giao tiếp của
khách và chủ sẽ được thiết lập lại. Kết quả giao tiếp sẽ được bắt đầu lại nên các mục
đích của hacker sẽ không đạt được, cuộc tấn công sẽ kết thúc. Tuy nhiên phương pháp

này có nhiều nhược điểm là thời gian gửi các gói tin thiếp lập lại chậm hơn so với thời
điểm hacker tấn công dẫn đến khí tấn công xong rồi mới thiết lập lại nên khi tiến trình
tấn công quá nhanh thì rất khó thực hiện được phương pháp này.
 Hủy bỏ tấn công: kỹ thuật này dùng tường lửa (firewall) chặng đường hay hủy bỏ các

gói tin của hacker. Tuy nhiên phương pháp này có nhược điểm là dễ nhầm lẫn các gói
tin hợp lệ và không hợp.
 Thay đổi chính sách của tường lửa: kỹ thuật này cho phép người quản trị cấu hình lại

chính sách bảo mật khi có cuộc xâm nhập xảy ra. Cấu hình lại chỉ là tạm thời thay đổi
các chính sách điều khiển truy cập bởi người dùng.
 Cảnh báo thời gian thực:người quản trị sẽ nhận được cảnh báo thời gian thực để biết
các thông tin chi tiết, đặc điểm của các cuộc tấn công của hacker.
 Ghi lại vào tệp tin: dữ liệu của các gói tin sẽ được ghi lại trong file log nhằm để người
3.2


quản trị có thể theo dõi các luồng thông tin giúp module phát hiện tấn công hoạt động.
So sánh IPS và IDS.
Ngay trên cái tên ta đã nhận thấy được sự khác biệt:
IDS(intrusion detection system)
 Kỹ thuật IDS chỉ là phát hiện và cảnh
báo các nguy cơ xâm nhập đối với hệ
thống đang được bảo vệ.
 IDS hiện chỉ sử dụng từ 1 đến 2 cơ chế

để phát hiện tấn công mà mỗi cuộc tấn
Page 16

IPS(intrusion prevention system)

 Kỹ thuật IPS dùng để phát hiện và có
thể tự hành động chống lại các nguy cơ
theo các quy định người quản trị thiết
lập sẵn.
 IPS được xây dựng trên nhiều cơ chế
tấn công và hoàn toàn có thể tạo ra cơ


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng



GVHD: Huỳnh Nguyên Chính

công lại có các cơ chế khác nhau nên
chế phù hợp với các hình thức tấn công
IDS còn hạn chế dễ dẫn đến tình trạng
mới nên sẽ giảm thiểu được khả năng
không phát hiện ra được các cuộc tấn và
tấn công trên mạng.
ảnh hưởng đến hệ thống. Thêm vào đó
cơ chế của IDS là tổng quát, dẫn đến
tình trạng báo cáo nhầm, cảnh báo
nhầm, làm tốn thời gian và công sức
của người quản trị.
 IDS có độ chính xác thấp hơn IPS.
 IPS có độ chính xác cao hơn IDS.
 Nếu kể tấn công giả mạo 1 đối tác hay
 Còn IPS thì nó sẽ phát hiện ngay từ đầu
khách hàng bằng 1 cuộc tấn công từ

dấu hiệu của cuộc tấn công và sau đó
dịch vụ thì IDS có thể chặn được cuộc
khóa ngay các lưu lượng mạng này ->
tấn công từ chối dịch vụ nhưng nó sẽ
giảm thiểu được các cuộc tấn công.
chặn luôn cả IP của đối tác hay khách
hàng -> thiệt hại đến hệ thống vẫn còn.
Tuy nhiên sự khác biệt giữa IPS và IDS trên thực tế không rõ ràng. Một số hệ thống IDS
có khả năng ngăn chăn như một chức năng tùy chọn còn IPS thì không mang đầy đủ chức
năng của hệ thống phòng chống. Tùy vào quy mô, tính chất của từng công ty, hệ thống
mạng cũng nhu chính sách bảo mật mà có thể chọn kỹ thuật tương ứng. Đối với mạng có
quy mô nhỏ, một máy chủ thì chọn giải pháp được cân nhắc nhiều nhất là IPS do có tính
chất phát hiện, cảnh báo, ngăn chặn. Còn đối với mạng lớn, công ty lớn thì chỉ cần phát
hiện, cảnh báo các cuộc tấn công còn ngăn chặn thì sẽ có 1 phần mền chuyên dụng để
ngăn chặn nên làm cho hệ thống sẽ được an toàn hơn.

Page 17


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Chương III: các phương pháp (kỹ thuật) giám sát trong phát hiện đột
nhập
1. Phát hiện bất thường bằng mạng nơ-ron.
1.1. Giới thiệu
- Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu quả

hoạt động của các mạng máy tính hiện đại. Một trong những biện pháp bảo đảm an toàn

cho các hệ thống mạng là Hệ thống phát hiện xâm nhập trái phép (Intrustion Detector
System - IDS). Tuy nhiên, các biện pháp này tỏ ra không hiệu quả khá tốn kém, độ tin cậy
không cao và không có khả năng tự cập nhật để phát hiện xâm nhập mới. Một hướng tiếp
cận khác đã khắc phục được các hạn chế trên và ngày càng thể hiện tính ưu việt là ứng
dụng kỹ thuật học máy (machine learning), với nhiều phương pháp khác nhau. Bài báo này
giới thiệu về ứng dụng mạng nơ- ron, một kỹ thuật học máy trong các hệ thống phát hiện
xâm nhập. Vấn đề này đã đã được nghiên cứu, đề xuất từ những năm 1990 và gần đây có
nhiều kết quả nghiên cứu được công bố trên toàn thế giới.
1.2. Sơ lược về neural sinh học
- Sau đây là những thành phần chính trong cấu trúc của một nơron trong bộ não con người

Hình 3.1 : Mô hình neuron sinh học

Page 18


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng
-

GVHD: Huỳnh Nguyên Chính

Trong đó :
 Các Soma là thân của noron.
 Các dendrites là các dây mảnh, dài, gắn liền với soma, chúng truyền dữ liệu (dưới dạng

xung điện thế) đến cho soma xử lý. Bên trong soma các dữ liệu đó được tổng hợp lại. Có
thể xem gần đúng sự tổng hợp ấy như là một phép lấy tổng tất cả các dữ liệu mà nơron
nhận được.
 Một loại dây dẫn tín hiệu khác cũng gắn với soma là các axon. Khác với dendrites, axons
có khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơron đi các nơi

khác. Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng nào đó (threshold) thì
axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ.
 Axon nối với các dendrites của các nơron khác thông qua những mối nối đặc biệt gọi là

synapse. Khi điện thế của synapse tăng lên do các xung phát ra từ axon thì synapse sẽ nhả
ra một số chất hoá học (neurotransmitters); các chất này mở "cửa" trên dendrites để cho
các ions truyền qua. Chính dòng ions này làm thay đổi điện thế trên dendrites, tạo ra các
xung dữ liệu lan truyền tới các nơron khác.
 Có thể tóm tắt hoạt động của một nơron như sau: nơron lấy tổng tất cả các điện thế vào

mà nó nhận được, và phát ra một xung điện thế nếu tổng ấy lớn hơn một ngưỡng nào đó.
Các nơron nối với nhau ở các synapses. Synapse được gọi là mạnh khi nó cho phép
truyền dẫn dễ dàng tín hiệu qua các nơron khác. Ngược lại, một synapse yếu sẽ truyền
-

dẫn tín hiệu rất khó khăn.
Các synapses đóng vai trò rất quan trọng trong sự học tập. Khi chúng ta học tập thì hoạt

-

động của các synapses được tăng cường, tạo nên nhiều liên kết mạnh giữa các nơron.
Có thể nói rằng người nào học càng giỏi thì càng có nhiều synapses và các synapses ấy
càng mạnh mẽ, hay nói cách khác, thì liên kết giữa các nơron càng nhiều, càng nhạy bén.

1.3. Mạng nơ-ron nhân tạo
- Mạng nơ-ron nhân tạo hay thường gọi ngắn gọn là mạng nơ-ron là một mô hình tính toán

được xây dựng dựa trên các mạng nơ-ron sinh học. Nó gồm có một nhóm các nơ-ron nhân
tạo (nút) nối với nhau, và xửlý thông tin bằng cách truyền theo các kết nối và tính giá
trịmới tại các nút. Trong nhiều trường hợp, mạng nơ-ron nhân tạo là một hệthống thích

ứng (adaptive system) tựthay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay
bên trong chảy qua mạng trong quá trình học.

Page 19


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 3.2: Mô hình mạng nơron
-

Một mạng nơron bao gồm các nút input, nút output và các nút trong các lớp ẩn (hidden
layer). Cấu trúc mạng nơ-ron được chia thành 2 loại:
 Loại thứ nhất sử dụng các thuật toán đào tạo được giám sát (Supervised training

algorithms), ở giai đoạn tự học, hệ thống sẽ nghiên cứu một đầu ra mong muốn cho mỗi
đầu vào đã được định sẵn. Cấu trúc phổ biến của mạng nơron giám sát là kiến trúc nhận
thức đa tầng MLP (Multi-layered Perceptron). MLP là mạng chuyển tiếp đa tầng ( feedforward) bao gồm lớp đầu vào, một hoặc một vài lớp ẩn và lớp đầu ra. Lớp đầu ra cung
cấp phản hồi của hệ thống đến các mẫu hoạt động áp dụng trong lớp đầu vào. Nghiên cứu
hiện tại của MLP mới nhằm giải quyết mẫu bài toán phát hiện 3 lớp, nghĩa là tập trung
xác định hệ thống là bình thường hoặc bị tấn công dạng neptune (tấn công từchối dịch vụ
-SYN) và tấn công dạng Satan ( tấn công bằng cách dò quét tự động mạng hoặc máy tính
đểtìm lỗ hổng xâm nhập), nó có thể mở rộng cho các trường hợp có nhiều dạng tấn công.
Mục đích của MLP là chuyển giao những mẫu đầu vào cho một trong những nhóm mà
chúng được đại diện xét theo khía cạnh các đầu ra (bình thường, neptune hoặc satan) của
mạng nơron sao cho chúng thể hiện đặc tính của một thành viên lớp. Sự thể hiện mang
Page 20



TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

tính biểu trưng này được dùng theo cách sau: số1 ở cột biểu thị sự xuất hiện tồn tại dấu
hiệu tương ứng của cột đó, còn số 0 biểu thị sự không tồn tại. Vì vậy chúng ta có 3
trường hợp có thể nhận biết được kết quả ở đầu ra, đó là: [1 0 0] tình trạng bình thường,
[0 1 0] cho tấn công dạng Neptune và [0 0 1] nếu gặp tấn công dạng satan.
 Loại thứ hai sử dụng các thuật toán đào tạo không qua giám sát (Unsupervised training

algorithms ): ở giai đoạn tự học, hệ thống sẽ nghiên cứu mà không xác định đầu ra mong
muốn. Các bản đồ tổ chức độc lập (SOM -Self-Organizing Maps) là một dạng tiêu biểu
của loại này. Trong hệ thống phát hiện bất thường sử dụng SOM, người ta tập trung vào
việc phân lớp các hành vi từ đó phát hiện ra các hành vi nghi vấn. Tiến trình xử lý của hệ
thống diễn ra như sau: các dữ liệu về mạng được thể hiện dưới dạng vectơ tham số đặc
trưng, sau đó được lưu trong một Input vectơ để tiến hành phân lớp, việc phân lớp sẽ lặp
đi lặp lại cho đến khi hội tụ, khi đã xây dựng nên được các SOM, hệ thống sẽ tiến hành
xác định khoảng cách giữa hành vi đang xét với hành vi bình thường, nếu nó vượt quá
ngưỡng cho phép thì có bất thường xảy ra ở đây. Ví dụ xét nguồn dữ liệu mạng được xét
lấy từ các tệp logs ghi lại hành vi của người dùng:
 Thời gian họat động của người dùng (User activity times): Thời gian một người dùng
hoạt động bình thường.
 Các host người dùng đăng nhập (User login hosts): Các host mà một người dùng đăng

nhập bình thường.
 Các host người dùng bên ngoài (User foreign hosts): Các host mà người dùng truy bình
thường nhập thông qua lệnh hệ thống như các host FTP.
 Các tập lệnh (Command set): các lệnh mà người dùng bình thường sử dụng.
 Sử dụng CPU (CPU usage): Mức độ sử dụng CPU thông thường của một người dùng.

 Sử dụng bộ nhớ (Memory Usage): Mức độ sử dụng bộ nhớ thông thường của một người
dùng.

Page 21


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 3.3 Cấu trúc một hệ thống phát hiện bất thường sử dụng SOM
-

Hình 2.3 mô tả một kiến trúc hoành chỉnh cho một hệ thống phát hiện bất thường sử dụng
SOM. Bộ phận phối hợp xử lý ( coordianting process) chịu trách nhiệm cho các kênh thông
tin của mạng nơron. Mỗi một tính chất hành vi (Thời gian hoạt động của người dùng, các
host đăng nhập … ) được mô hình hóa bởi một mạng SOM cũng như được kiểm tra bởi các
quy tắc lọc cố định để phát hiện các lỗ hổng bảo mật đơn giản. Dữ liệu thu được từ hệ
thống logs được lọc tiếp thông qua bộ phận tiền xử lý đầu vào ( data preprocessing ) chỉ
chọn những dữ liệu cần thiết. Như chúng ta đã biết đầu vào của mạng nơron là dữ liệu dạng
vector bao gồm 6 thuộc tính đặc trưng cho thời gian hoạt động, các host người dùng đăng
nhập, các host người dùng bên ngoài, các tập lệnh, việc sử dụng CPU, việc sử dụng bộ nhớ.
Theo đó một số lượng lớn các biến của dữ liệu này cần được chuẩn hóa để mỗi vectơ đầu
vào có giá trị trong khoảng [-1,1]. Khoảng xác định này được lấy từ các hệ thống phát hiện
Page 22


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính


bất thường bằng mạng nơron khác trước đây. Người ta sử dụng công thức tro ng hình 3.3
để chuẩn hóa dữ liệu.

Hình 3.4 Công thức chuẩn hóa dữ liệu đầu vào
-

Trong đó nv[i] là dữ liệu đã được chuẩn hóa của đặc điểm i, v[i] là giá trị của đặc điểm i, K
là số đặc điểm có trong vectơ dữ liệu đầu vào. Nếu giá trị lấy từ người dùng vượt quá giá
trị ngưỡng đặc biệt thu được thông qua mạng SOM chứng tỏhành vi đó là không bình
thường. Nếu dữ liệu đầu ra nằm trên giá trị ngưỡng đặc biệt hành vi đó cũng là bất thường.

Hình 3.5 Thiết kế của mạng SOM

Page 23


TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

2. Phát hiện bất thường bằng khai phá dữ liệu.
2.1. Giới thiệu
- Về cơ bản, khai phá dữ liệu là về xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong

thông tin đó để bạn có thể quyết định hoặc đánh giá. Các nguyên tắc khai phá dữ liệu đã
được dùng nhiều năm rồi, nhưng với sự ra đời của big data (dữ liệu lớn), nó lại càng phổ
-

biến hơn.

Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật khai phá dữ liệu hơn, một phần
vì kích thước thông tin lớn hơn rất nhiều và vì thông tin có xu hướng đa dạng và mở rộng
hơn về chính bản chất và nội dung của nó. Với các tập hợp dữ liệu lớn, để nhận được số
liệu thống kê tương đối đơn giản và dễ dàng trong hệ thống vẫn chưa đủ. Với 30 hoặc 40
triệu bản ghi thông tin khách hàng chi tiết, việc biết rằng 2 triệu khách hàng trong số đó
sống tại một địa điểm vẫn chưa đủ. Bạn muốn biết liệu 2 triệu khách hàng đó có thuộc về
một nhóm tuổi cụ thể không và bạn cũng muốn biết thu nhập trung bình của họ để bạn có

thể tập trung vào các nhu cầu của khách hàng của mình tốt hơn.
2.2. Quy trình tổng quát thực hiện khai phá dữ liệu
- Quá trình này gồm các bước:
 Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích hợp.
 Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL,
Kho dữ liệu, file text…
 Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm

vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu.
 Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về
dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp.
 Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông
minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu.
 Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thức

dựa vào một số phép đo.
 Trình diễn dữ liệu (Knowlegde presention): Sử dụng các kỹ thuật trình diễn và trực quan
hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.

Page 24



TLCN:PP Phát Hiện Bất Thường Trên Hệ Thống Mạng

GVHD: Huỳnh Nguyên Chính

Hình 3.6: Data mining –quá trình khám phá tri thức
2.3. Phương pháp khai phá dữ liệu
- Từ những nhiệm vụ trên chúng ta thấy rằng việc khai phá dữ liệu không chỉ đơn giản là sử

dụng duy nhất một kỹ thuật nào đó. Bất cứ phương pháp nào hỗ trợ cho việc tìm kiếm
thông tin tốt thì sẽ được sử dụng. Tùy thuộc vào các nhiệm vụ khác nhau mà các phương
pháp có thể được chọn, mỗi phương pháp có điểm mạnh và những mặt hạn chế riêng.
Chúng ta có thể phân loại những phương pháp khai phá dữ liệu theo các nhóm sau:
 Phương pháp thống kê: hướng tiếp cận thống kê dựa trên nền tảng mô hình xác suất.
Cách thực hiện dựa trên việc kiểm chứng những lý thuyết đã xác định trước và dựa trên
việc làm thích hợp những mô hình cho dữ liệu. Thông thường những mô hình này đã
được sử dụng bởi những nhà thống kê. Do vậy con người phải cung cấp những lý thuyết
ứng viên và các mô hình thực hiện.
 Suy diễn dựa trên tình huống: giải quyết vấn đề đưa ra bằng cách dùng trực tiếp các kinh
nghiệm và những giải pháp trong quá khứ. Một tình huống thường là vấn đề đặc biệt đã
Page 25


×