Tải bản đầy đủ (.docx) (58 trang)

Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (595.81 KB, 58 trang )

Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu
KDD CUP 99
Luận văn tốt nghiệp 2013.
MỤC LỤC
Trang
1
1
DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT
Viết tắt Viết đầy đủ
HMD Hệ miễn dịch
KDD Knowledge Discovery and Data Mining
DoS Denial of Services
R2L Remote to Local
U2R User to Root
DANH MỤC HÌNH
Trang
2
2
3
3
MỞ ĐẦU
I. Lí do chọn đề tài
Cùng với sự phát triển của ngành công nghệ thông tin là nhiều thách thức đặt
ra trong vấn đề bảo vệ hệ thống máy tính khỏi sự xâm nhập của các đoạn mã độc
hại. Có nhiều kỹ thuật khác nhau được sử dụng cho mục đích bảo vệ sự an toàn của
hệ thống máy tính như tường lửa, phần mềm chống virus và các hệ thống phát hiện
xâm nhập. Ta có thể áp dụng hệ miễn dịch (HMD) nhân tạo để làm tăng khả năng
phát hiện và loại bỏ những đoạn mã độc hại trong máy tính
Việc áp dụng HMD nhân tạo vào bảo mật, an ninh mạng mang lại hiệu quả
tối ưu hơn so với việc bảo mật bằng các phương pháp truyền thống trước đây. Khi
có xâm nhập mạng, HMD nhân tạo sẽ tự động phân tích những hoạt động lạ không


được phép của hệ thống, của người sử dụng, từ đó đưa ra những cảnh báo sớm để
ngăn chặn kịp thời.
Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phải
tích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu
đủ lớn và trong một thời gian dài. KDD CUP 99 (hay viết ngắn gọn là KDD 99) là
một cơ sở dữ liệu nổi tiếng, có thể được sử dụng để huấn luyện cho những hệ thống
như vậy.
KDD 99 là một cơ sở dữ liệu rất lớn với khoảng 5 triệu bản ghi. Nó bao gồm
rất nhiều tấn công mạng được ghi nhận trong môi trường mạng máy tính quân đội
Mỹ. Tập con dữ liệu chiếm khoảng 10% với nửa triệu bản ghi được khuyến cáo sử
dụng cho huấn luyện cũng là một thách thức với nhiều hệ thống học máy. Có nhiều
vấn đề đặt ra nhằm làm giảm độ phức tạp huấn luyện như phân loại các bản ghi, loại
bỏ các bản ghi trùng lặp,… trong cơ sở dữ liệu này. Chính vì vậy em đã quyết định
chọn đề tài “Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD
CUP 99” làm đề tài nghiên cứu khoa học của mình.
II. Mục đích nghiên cứu
Nghiên cứu phương pháp sinh tập bộ dò có khả năng phát hiện tấn công
DOS trong tập dữ liệu KDD CUP 99.
4
4
III.Nhiệm vụ nghiên cứu
- Tìm hiểu một số thuật toán sinh tập bộ dò.
- Đưa ra phương pháp tiền xử lý dữ liệu KDD 99 để rời rạc hóa dữ liệu cho
sinh tập bộ dò của hệ miễn dịch nhân tạo.
- Cài đặt chương trình thực nghiệm về thuật toán sinh tập bộ dò và áp dụng
cho nhận dạng tấn công mạng loại DOS.
IV. Phương pháp nghiên cứu
Trong quá trình nghiên cứu đề tài, em sử dụng phối hợp các phương pháp
sau:
− Nghiên cứu lý thuyết: Tìm đọc các tài liệu cập nhật, các tài liệu tiếng

Anh về lĩnh vực nghiên cứu.
− Tham khảo ý kiến chuyên gia: Tham khảo ý kiến từ các thầy cô trong
trường, các chuyên gia về bảo mật mạng cũng như những chuyên gia nghiên
cứu lý thuyết về hệ miễn dịch nhân tạo.
− Thực nghiệm: cài đặt các thuật toán và đánh giá chương trình trên một
số tệp dữ liệu KDD.
V. Cấu trúc của đề tài
Mở đầu
Chương 1: Trình bày tổng quan về miễn dịch sinh học và hệ miễn dịch nhân
tạo.
Chương 2: Tìm hiểu về cơ sở dữ liệu KDD CUP 99
Chương 3: Rời rạc hóa dữ liệu và cài đặt chương trình, thực nghiệm với bộ
dữ liệu KDD cụ thể
Kết luận
Tài liệu tham khảo
5
5
Chương 1
HỆ MIỄN DỊCH NHÂN TẠO
I. Hệ miễn dịch
1.2.1. Khái niệm hệ miễn dịch
Miễn dịch học bắt đầu được biết đến vào năm 1976 khi Edward Jenner làm
thí nghiệm tiêm một lượng nhỏ virus đậu mùa vào động vật, sau đó động vật này có
thể chống lại virus đậu mùa lây nhiễm từ lần thứ hai trở đi. Quá trình này được gọi
là quá trình tiêm chủng. Từ đó khoa học về miễn dịch liên tục phát triển đến nay nó
đã đạt được rất nhiều thành tựu cả về mặt lý thuyết cũng như thực tế. Có thể định
nghĩa HMD như sau:
HMD là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục
của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ
những vi sinh vật xâm nhập vào cơ thể [2].

1.2.2. Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch
HMD là một cơ chế bảo vệ tự nhiên hiệu quả và tức thời, cho phép cơ thể chống lại
những lây nhiễm của các vi sinh vật bên ngoài. Nó bao gồm hai tầng bảo vệ là: Hệ
thống miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi. Cả hai hệ thống hoạt
động dựa trên các tế bào bạch huyết (white blood cells) còn gọi là bạch cầu
(leukocyte). Trong đó HMD bẩm sinh chủ yếu dựa vào bạch cầu hạt (granulocyte)
và đại thực bào (macrophage), còn HMD thích nghi dựa vào tế bào lymphô
(lymphocyte – là một loại bạch cầu).
Hình 1.1. Các dòng miễn dịch và các thành phần của nó
6
6
Các thành phần gồm có:
− Đại thực bào (Macrophage): Là thành phần của HMD bẩm sinh. Đại thực bào có
khả năng trình diện các kháng nguyên với các tế bào khác và được gọi là các tế bào
trình diện kháng nguyên (antigen-presenting cells – APC). Đại thực bào là một tế
bào dọn dẹp lớn (một thực bào) có trong mô liên kết và trong nhiều cơ quan như tuỷ
xương, lách, hạch bạch huyết, gan và thần kinh trung ương. Đại thực bào có liên kết
mật thiết với các bạch cầu hạt đơn nhân. Đại thực bào cố định (mô bào) ở tại chỗ
trong các mô liên kết; đại thực bào tự do di chuyển giữa các tế bào và tụ tập ở các ổ
nhiễm để loại bỏ vi trùng và các thể ngoại lai khác ra khỏi các mô và máu.
− Bạch cầu hạt (Granulocyte): Là thành phần của HMD bẩm sinh. Bạch cầu hạt gồm
các loại bạch cầu trung tính (Neutrophils), bạch cầu ưa eosin (Eosionphils), bạch
cầu ái kiếm (Basophils) có khả năng nuốt và tiêu huỷ một số vi sinh vật và một số
phần của kháng nguyên xâm nhập vào cơ thể.
− Bạch cầu trung tính (Neutrophils – Bạch cầu đa hình): Một bạch cầu có nhân hình
thuỳ và trong bào tương có nhiều hạt nhỏ màu đỏ tía, bạch cầu trung tính có khả
năng nuốt và giết các vi trùng, tạo thành một cơ chế bảo vệ quan trọng chống lại các
bệnh nhiễm.
− Bạch cầu ưa eosin (Eosionphils): Là một loại bạch cầu trong bào tương có những
hạt thô nhuộm màu đỏ cam. Chức năng của loại bạch cầu này chưa được biết đầy

đủ, chỉ biết chúng có khả năng nuốt các hạt lạ, có mặt với số lượng lớn trong niêm
mạc và các cơ quan bề mặt bao phủ trong cơ thể đồng thời có liên quan đến các đáp
ứng dị ứng.
− Bạch cầu ái kiếm (Basophils): Chức năng của bạch cầu ái kiếm chưa được biết rõ,
chỉ biết chúng có khả năng nuốt các vật lạ có chứa histamine và heparin.
− Lymphô bào (Lymphocyte): Là thành phần của HMD thích nghi. Là một loại bạch
cầu ở trong các hạch bạch huyết, lách, tuyến ức, thành ruột, và tuỷ xương. Các
lymphô bào có nhân đặc và bào tương màu xanh lạt sáng. Lymphô bào có thể chia
ra lymphô bào B sản sinh ra kháng thể và lymphô bào T liên quan đến việc loại thải
mô ghép. Lymphô bào có nhiệm vụ nhận diện và loại bỏ tác nhân gây bệnh.
7
7
1.2.3. Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản
HMD chứa một tập tế bào (cells) và phần tử (molecules) bảo vệ cơ thể chống
lại sự lây nhiễm. Khi bị các kháng nguyên tấn công HMD thích nghi sẽ được kích
hoạt. Kháng nguyên có thể là những phần tử bên ngoài (antigen) như các phần tử
trên bề mặt của các tác nhân gây bệnh hoặc các kháng nguyên do tế bào của cơ thể
tạo ra (self-antigen) [2].
Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD.
Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện kháng nguyên
(Antigen presenting Cells – APC). Đầu tiên những kháng nguyên sẽ bị các cơ quan
trình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành các
peptide kháng nguyên. Một phần của những peptide này kết hợp với các phần tử
MHC (major histocompatibility complex – phức hợp các phần tử có nhiệm vụ trình
diện peptide kháng nguyên cho T-cell) trên bề mặt của APC tạo thành phức hợp
MHC/peptide (II).
T-Cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng các
phức hợp MHC/peptide khác nhau (III). Mỗi khi nhận diện được MHC/peptide, T-
cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu)
hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác của

HMD hoạt động (IV).
Hình 1.2. Sự nhận diện và cơ chế kích hoạt đơn giản
APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên, MHC
(major histocompatibility complex): Phức hợp các phần tử có nhiệm vụ trình diện
8
8
peptide kháng nguyên cho T-cell, pathogen: Tác nhân gây bệnh, Lymphokines: Là
một loại bạch cầu, B-cell: Tế bào lymphô B, Actived B-cell: B-cell được kích hoạt,
T-cell: Tế bào lymphô T, Activated T-cell: T-cell được kích hoạt, Plasma cell:
Tương bào.
Không giống T-cell (lymphô bào T), B-cell (lymphô bào B) có các cơ quan
thụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ của
những phần tử MHC (V). Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhận
diện một kháng nguyên cụ thể. Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B-
cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasma
cell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn. Những kháng thể này
sẽ vô hiệu hoá tác nhân gây bệnh. Một số B-cell và T-cell được kích hoạt này sẽ
chuyển thành các tế bào ghi nhớ (memory cell). Chúng sẽ tiếp tục lưu thông trong
cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyên
tương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của HMD.
1.2.4. Các tầng bảo vệ của hệ miễn dịch
Hình 1.3. Các tầng miễn dịch
HMD có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo vệ
trong 3 mức:
9
9
 Mức vật lý (Physical Barriers) gồm lớp da và màng nhầy nằm ở các tuyến hô
hấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không cho
những chất lạ xâm nhập vào cơ thể.
 Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi,

nước mắt chứa những enzym có thể loại bỏ kháng nguyên. Các axit trong vùng da
cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của một kháng
nguyên.
 HMD thích nghi và bẩm sinh:
− HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu
trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ
quan trọng chống lại các bệnh truyền nhiễm). Những bạch huyết này có các cơ
quan thụ cảm trên bề mặt có thể nhận diện và bám vào các phần tử gây bệnh.
Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện và
loại bỏ.
HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh
đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so với
lần thứ nhất.
− HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào
(Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell. Các B-cell và T-
cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại
kháng thể nào đó. Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm
trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô
bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra
những kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên. Một
số lymphô bào sẽ trở thành self có khả năng ghi nhớ lưu thông trong cơ thể. Khi
có loại kháng nguyên tương tự lây nhiễm, sau đó HMD thích nghi có thể nhanh
chóng phát hiện và loại bỏ chúng. Khả năng này giúp cho cơ thể không mắc lại
những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn
thiện sau mỗi lần đụng độ với kháng nguyên. Tóm lại, lympho bào gồm lympho
10
10
bào B sản sinh ra kháng thể và lympho bào T liên quan đến việc loại thải mô
ghép. Lympho bào có tác dụng nhận diện và loại bỏ tác nhân gây bệnh.
Như vậy, tế bào chịu trách nhiệm phát hiện mầm bệnh trong HMD là

lympho bào, chúng phát hiện bằng cách liên kết với mầm bệnh, cụ thể là liên kết
giữa tác nhân gây bệnh và các thụ thể bao phủ bề mặt của lympho bào.
Một lympho bào duy nhất chỉ có thể liên kết với các tác nhân gây bệnh cấu
trúc phù hợp, bởi vì tất cả thụ thể trên lympho bào có cấu trúc giống nhau. Số
các thụ thể liên kết với mầm bệnh xác định quan hệ giữa lympho bào và tác
nhân gây bệnh nhất định [9].
Vì các lympho bào phát hiện các tác nhân gây bệnh bằng cách liên kết với
mầm bệnh. Điều đó có nghĩa là HMD phải có các thụ thể của lympho bào đủ đa
dạng để HMD hoạt động tốt và thích nghi.
Hình 1.4. Liên kết (Binding)
1.2.5. Phân biệt self và nonself
Trong quá trình chọn lọc các self B-cell và T-cell, HMD thích nghi không
chỉ phải chọn những self có khả năng nhận biết những self lạ (antigen hay nonself),
mà nó còn phải loại bỏ những self nhận biết được những self do cơ thể tạo ra (self -
antigen hay đơn giản là self). Tương ứng với hai quá trình này ta có quá trình chọn
lọc tích cực và quá trình chọn lọc tiêu cực. Hai quá trình này xảy ra với cả B-cell và
11
11
T-cell với nguyên lý khá giống nhau. Khi xây dựng thuật toán, chúng ta chỉ cần xét
với T-cell.
1.1.5.1. Phép chọn lọc tích cực
Phép chọn lọc tích cực đối với các Lympho bào (T-cell và B-cell) nhằm mục đích
tránh sự xuất hiện của các Lympho bào không có ích. Những Lympho bào mà cơ
quan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên. Kết quả
cuối cùng là những Lympho bào có khả năng
1.1.5.2. Phép chọn lọc tiêu cực
Phép chọn lọc tiêu cực của các lympho bào nhằm mục đích loại bỏ những
lympho bào mà cơ quan thụ cảm của nó nhận diện được các self do cơ thể tạo ra và
nó có thể tiêu diệt những self này.
II. Hệ miễn dịch nhân tạo

1.2.1. Hệ miễn dịch nhân tạo là gì?
Có rất nhiều định nghĩa về HMD nhưng định nghĩa sau là rõ ràng và chặt chẽ
hơn cả và phù hợp với những nội dung mà đề tài sẽ trình bày:
“HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của miễn dịch học
thuyết và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng
giải các bài toán thực tế” (Castro & Timmis - 2002).
Hệ miễn dịch sinh học bảo vệ các sinh vật sống trước các tác nhân gây bệnh
từ bên ngoài như vi khuẩn, virus, kí sinh trùng và độc tố. Vai trò của hệ thống bảo
mật trong máy tính cũng tương tự như vai trò của HMD trong cơ thể các sinh vật
sống, Các đối tượng này có sự tương đồng ở cơ chế và biện pháp bảo vệ chính mình
khỏi các xâm nhập.
1.2.2. Cấu trúc cơ bản của hệ miễn dịch nhân tạo
1.2.2.1. Mô hình chung cho các hệ thống phỏng tiến hoá sinh học
Trong các thuật toán phỏng tiến hoá sinh học nói chung, đối tượng chính của
chúng là một tập nhiễm sắc thể nhân tạo (một quần thể), quần thể này trải qua quá
trình chọn lọc, sản sinh và đột biến gien. Quá trình này lặp lại nhiều lần, mỗi lần
như thế là một quần thể tiến hóa hơn xuất hiện. Để xây dựng được cấu trúc cơ bản
12
12
của mô hình này người ta phải biểu diễn được gien các cá thể trong quần thể, cùng
với các thủ tục lựa chọn, sản sinh và đột biến gien.
Cấu trúc cơ bản của hệ thống phỏng sinh học cần có 3 yếu tố cơ bản sau:
− Biểu diễn các thành phần của hệ thống.
− Cơ chế đánh giá tương tác của các cá thể với môi trường và các cá thể với
nhau. Môi trường thường mô phỏng bởi một tập kích thích vào, một hoặc
nhiều hàm đo độ thích nghi của cá thể với môi trường.
− Các thủ tục thích nghi điều khiển tính động của hệ thống, tức là làm cho
hoạt động của hệ thống thay đổi theo thời gian.
1.2.2.2. Mô hình cho hệ miễn dịch nhân tạo
Hình 1.5. Cấu trúc phân tầng của HMD nhân tạo

− Tầng đầu tiên là lĩnh vực ứng dụng, đây là điểm cơ bản của mọi hệ thống không chỉ
với AIS. Đối với lĩnh vực ứng dụng khác nhau sẽ quyết định những thành phần và
cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phần cũng khác
nhau.
− Tầng thứ hai là biểu diễn các thành phần: Trong AIS phải biểu diễn được hai thành
phần quan trọng là kháng thể và kháng nguyên.
13
13
− Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá độ thích hợp có
thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng
cách Euclid, hoặc khoảng cách Mahattan.
− Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toán miễn
dịch như thuật toán chọn lọc tích cực, thuật toán chọn lọc tiêu cực, thuật toán chọn
lọc clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệ AIS.
− Tầng thứ năm là đưa ra lời giải cho bài toán: Lời giải cho bài toán sẽ được cập nhật
lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều
kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định.
1.2.3. Nhận dạng mẫu gần đúng trong HMD nhân tạo
Trong HMD ở người thì ràng buộc sinh học giữa kháng thể và kháng nguyên
là gần đúng. Nếu áp dụng vào hệ thống máy tính có thể coi các gói dữ liệu là tác
nhân gây bệnh, chúng được phân đoạn cụ thể. Việc sử dụng tập dữ liệu để phù hợp
với các phân đoạn trong gói dữ liệu được gọi là mẫu (pattern). Bằng cách sử dụng
mối quan hệ trưởng thành tương tự với HMD tự nhiên, mẫu có thể nhận ra các phân
đoạn tác nhân gây bệnh trong các gói dữ liệu, khác biệt là phải kiểm soát ngưỡng
quan hệ. Nếu chúng ta có bộ điều khiển ngưỡng thích ứng thì tình hình an ninh của
hệ thống máy tính được cải thiện đáng kể [9]
Hình 1.6. Nhận diện mẫu gần đúng
1.2.4. Thuật toán chọn lọc tích cực và tiêu cực
14
14

Loại bỏ
Cho vào quần thể có giá trị A
Không khớp
Khớp
Phần tử p trong P nhận diện được một phần tử nào đó trong S
S
Quần thể tiềm năng P
1.2.4.1.Thuật toán chọn lọc tích cực (Positive Selection Algorithms)
Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thể
nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), mà
peptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợp
các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thành
MHC/peptide. Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan thụ cảm
T-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này.
Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ. Trái lại
nó được chọn như một self có khả năng miễn dịch và bổ sung vào quần thể A.
Thuật toán chọn lọc tích cực được minh họa như trong sơ đồ 2 và nó có thể
tóm tắt như sau:
Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa
trưởng thành. Giả thiết tất cả các phần tử được biểu diễn như các chuỗi nhị phân có
cùng độ dài L, 2
L
phần tử khác nhau được tạo ra.
Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần tử
trong quần thể P với tất cả phần tử trong tập S.
Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong
P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo e nào đó
thì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể giá trị A
trái lại T-cell bị loại bỏ.
Hình 1.7. Thuật toán chọn lọc tích cực

15
15
Loại bỏ
Cho vào quần thể có giá trị A
Khớp
Không khớp
Phần tử p trong P nhận diện được một phần tử nào đó trong S
S
Quần thể tiềm năng P
1.2.4.2. Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms)
Giống như thuật toán chọn lọc tích cực của Seiden và Celada, thuật toán
chọn lọc tiêu cực của Forrest và các đồng nghiệp khá đơn giản. Giả xử một tập Self-
Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nhận
diện được một self-peptide nó sẽ bị loại bỏ, trái lại nó sẽ được chọn như một self có
khả năng miễn dịch và bổ sung vào quần thể có giá trị A. Thuật toán chọn lọc tiêu
cực được minh họa trong hình 1.4 có thể được tóm tắt như sau:
Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa
trưởng thành. Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các self-peptide)
được biểu diễn bằng một chuỗi nhị phân l bit.
Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong
P với mọi phần tử của tập Self-Set S.
Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưa
trưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một ngưỡng
tương tác chéo e nào đó, thì T- cell nhận diện được self-peptide này và bị loại bỏ,
trái lại T- cell được bổ sung vào quần thể có giá trị A.


Hình 1.8. Thuật toán chọn lọc tiêu cực
Ví dụ về chọn lọc tiêu cực:
16

16
0111
0101
1000
1001
Không khớp
Khớp
0111
1000
……
0010
1000
1001
0000
0100
0010
1001
0011
0111
1000
0101
1000
………
(lấy)
(loại)
Tập bộ dò R
Sinh ngẫu nhiên các chuỗi R0
Các chuỗi self S
Hình 1.9. Quá trình chọn lọc tiêu cực
1.2.5. Sự tương quan giữa hệ miễn dịch với môi trường mạng

Hệ miễn dịch Môi trường mạng
Self Tiến trình hoạt động trong một máy tính
Cơ quan đa bào Máy tính chạy đa tiến trình
Số lượng cơ quan Các máy tính trong mạng
Da và HMD bẩm sinh
Mật khẩu, quyền truy cập file, truy cập nhóm
người dùng,…
HMD thích nghi
Một tiến trình có khả năng kiểm soát các tiến
trình khác để phát hiện bất thường
Đáp ứng tự miễn dịch Chuông cảnh báo
Self Ứng xử bình thường
Nonself Ứng xử bất thường
17
17
Chương 2
CƠ SỞ DỮ LIỆU KDD 99
2.1. Tổng quan về cơ sở dữ liệu KDD 99
2.1.1. Khái quát KDD 99
KDDCUP 99 là tập dữ liệu được sử dụng trong cuộc thi Khám phá kiến thức
và Khai thác dữ liệu quốc tế lần thứ 3 cùng với Hội nghị Khám phá kiến thức và
Khai thác dữ liệu KDD-99 lần thứ năm. Nhiệm vụ trong cuộc thi là xây dựng một
máy phát hiện xâm nhập mạng, một mô hình tiên đoán có khả năng phân biệt giữa
các kết nối “xấu” hay còn gọi là xâm nhập hoặc tấn công, và các kết nối “tốt” hay
còn gọi là bình thường. Cơ sở dữ liệu này chứa một tập hợp các dữ liệu được kiểm
toán, bao gồm một loạt các sự xâm nhập được mô phỏng trong một môi trường
mạng quân đội.
Phần mềm phát hiện xâm nhập mạng bảo vệ một mạng lưới máy tính từ người
sử dụng trái phép và có thể bao gồm cả người trong cuộc. Phát hiện xâm nhập học
có nhiệm vụ là xây dựng một mô hình tiên đoán (tức là phân loại) có khả năng phân

biệt giữa kết nối "xấu" được gọi là sự xâm nhập hoặc tấn công, và "tốt" kết nối bình
thường.
Năm 1998 Chương trình đánh giá phát hiện xâm nhập đã được DARPA chuẩn
bị và quản lý bởi MIT Lincoln Labs. Mục tiêu là để khảo sát và đánh giá nghiên cứu
trong việc phát hiện xâm nhập. Một tập hợp các tiêu chuẩn của dữ liệu được kiểm
toán, bao gồm một loạt các mô phỏng của sự xâm nhập được cung cấp trong một
môi trường mạng quân sự. Cuộc thi phát hiện xâm nhập KDD 1999 sử dụng một
phiên bản của tập dữ liệu này. Lincoln Labs thiết lập một môi trường để có được
chín tuần dữ liệu thô TCP dump cho một mạng cục bộ (LAN) mô phỏng một mạng
LAN không quân Mỹ điển hình. Họ hoạt động mạng LAN như thể nó là một môi
trường Air Force nhưng nó rải rác với nhiều cuộc tấn công.
Dữ liệu huấn luyện thô là khoảng 4 gigabyte nén dữ liệu nhị phân TCP dump
lấy từ bảy tuần lưu lượng mạng. Điều này đã được xử lý vào khoảng 5.000.000 bản
ghi kết nối. Tương tự như vậy, hai tuần của dữ liệu thử nghiệm bắt được khoảng hai
triệu bản ghi kết nối.
18
18
Một kết nối là một chuỗi các gói tin TCP bắt đầu và kết thúc tại một số thời
gian được xác định rõ ràng, giữa những luồng dữ liệu đến và đi từ một địa chỉ IP
nguồn đến một địa chỉ IP đích theo một số giao thức được xác định rõ. Mỗi kết nối
được dán nhãn hoặc là bình thường, hoặc là một tấn công, với chính xác một loại
tấn công cụ thể. Mỗi bản ghi kết nối bao gồm khoảng 100 byte.
Các cuộc tấn công thuộc bốn loại chính sau:
− DOS: tấn công từ chối dịch vụ, ví dụ như SYN Flood;
− R2L: truy cập trái phép từ một máy từ xa, ví dụ như đoán mật khẩu;
− U2R: phép truy cập vào cục bộ (root) để đặc quyền siêu người dùng, ví dụ như
các cuộc tấn công khác nhau như "tràn bộ đệm";
− Probing: giám sát và các thăm dò khác, ví dụ như quét cổng.
Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không phải là từ phân
phối xác suất giống như dữ liệu huấn luyện, và nó bao gồm các kiểu tấn công cụ thể

không có trong dữ liệu huấn luyện. Điều đó làm cho các tấn công thực tế hơn. Một
số chuyên gia xâm nhập tin rằng tấn công mới nhất là biến thể của các cuộc tấn
công được biết đến và "chữ ký" của các cuộc tấn công được biết đến có thể là đủ để
nắm bắt được các biến thể mới lạ. Các bộ dữ liệu huấn luyện chứa tổng cộng 24 loại
tấn công, với 14 loại bổ sung trong các dữ liệu thử nghiệm.
2.1.2. Nguồn gốc các thuộc tính
Các thuộc tính cấp cao hơn có thể trợ giúp trong việc phân biệt các kết nối
bình thường từ các cuộc tấn công. Có một vài loại thuộc tính có nguồn gốc từ:
Thuộc tính "Cùng một máy chủ" kiểm tra các kết nối chỉ có trong hai giây
trong mà các máy chủ đích tương tự như các kết nối hiện tại, và tính toán các số liệu
thống kê liên quan đến hành vi giao thức, dịch vụ,… Tương tự thuộc tính "cùng
dịch vụ" kiểm tra các kết nối chỉ trong hai giây mà có dịch vụ tương tự như các kết
nối hiện tại.
Các thuộc tính thuộc tính "Cùng một máy chủ" và "cùng một dịch vụ" đều
được gọi là thuộc tính dựa trên lưu lượng thời gian truy cập của các bản ghi kết nối.
Một số cuộc tấn công thăm dò quét các máy chủ (hoặc cổng) bằng cách sử
dụng một khoảng thời gian lớn hơn nhiều so với hai giây, ví dụ một phút. Vì vậy,
19
19
bản ghi kết nối cũng được sắp xếp bởi các máy chủ đích, và các thuộc tính được xây
dựng bằng cách sử dụng một cửa sổ của 100 kết nối cùng một máy chủ thay vì một
cửa sổ thời gian. Điều này mang lại một tập hợp các thuộc tính lưu thông được gọi
là dựa trên máy chủ.
Không giống như hầu hết các cuộc tấn công DOS và các cuộc tấn công thăm
dò, có vẻ như là không có mô hình tuần tự thường xuyên trong bản ghi của các cuộc
tấn công R2L và U2R. Có lẽ là bởi vì các cuộc tấn công DOS và các cuộc tấn công
thăm dò liên quan đến nhiều kết nối của một số máy chủ (s) trong một thời gian rất
ngắn, nhưng các cuộc tấn công R2L và U2R được nhúng vào trong phần dữ liệu gói
tin, và thường liên quan đến chỉ có một kết nối duy nhất.
Các thuật toán hữu ích cho việc khai thác các phần dữ liệu phi cấu trúc của các

Có thể sử dụng kiến thức miền để thêm thuộc tính tìm kiếm các hành vi đáng ngờ
trong các phần dữ liệu, chẳng hạn như số lần đăng nhập thất bại. Những thuộc tính
này được gọi là thuộc tính "nội dung".
2.2. Phân tích chi tiết về tập dữ liệu KDD 99
2.2.1. Giới thiệu
Với sự tăng trưởng to lớn của việc sử dụng mạng máy tính và sự gia tăng rất
lớn số các ứng dụng chạy trên nó, an ninh mạng ngày càng trở nên quan trọng. Tất
cả các hệ thống máy tính bị lỗi bảo mật trong đó có cả khó khăn về mặt kỹ thuật và
tốn kém về kinh tế đều được giải quyết bởi các nhà sản xuất. Do đó, vai trò của hệ
thống phát hiện xâm nhập (IDS) được ví như là các thiết bị chuyên dụng dùng để
phát hiện sự bất thường và các tấn công mạng. Những nghiên cứu trong lĩnh vực
phát hiện xâm nhập có được tập trung chủ yếu là dựa trên sự bất thường và lạm
dụng dựa trên kỹ thuật phát hiện trong một thời gian dài. Trong khi lạm dụng phát
hiện bất thường được ưa chuộng trong các sản phẩm thương mại do khả năng dự
đoán của nó và độ chính xác cao của nó, thì trong nghiên cứu lý thuyết phát hiện bất
thường hay được hình thành như là một phương pháp mạnh do tiềm năng lý thuyết
của nó cho địa chỉ tấn công mới.
Tiến hành phân tích sâu các xu hướng nghiên cứu gần đây trong việc phát hiện
bất thường, người ta sẽ bắt gặp một vài phương pháp học máy có một tỷ lệ phát
20
20
hiện rất cao 98% trong khi vẫn giữ tỷ lệ cảnh báo sai ở mức 1%. Tuy nhiên, khi
xem xét giải pháp IDS kiểu hiện đại và thương mại công cụ thì có vài sản phẩm sử
dụng phương pháp phát hiện bất thường và các học viên thì vẫn cho rằng nó không
phải là một công nghệ hoàn thiện. Để tìm ra lý do tương phản này thì chúng ta sẽ
nghiên cứu các chi tiết nghiên cứu được thực hiện trong phát hiện bất thường và
xem xét các khía cạnh khác nhau như phương pháp học máy và phương pháp tiếp
cận phát hiện, tập hợp dữ liệu huấn luyện, tập hợp dữ liệu thử nghiệm, và phương
pháp đánh giá. Nghiên cứu cho thấy rằng có một vấn đề vốn có trong bộ dữ liệu
KDDCUP 99, nó được sử dụng rộng rãi như là một tập dữ liệu công bố công khai

trên mạng cho hệ thống phát hiện bất thường.
Sự khiếm khuyết quan trọng đầu tiên trong tập dữ liệu KDD là số lượng rất lớn
các bản ghi dư thừa. Phân tích tập dữ liệu huấn luyện KDD và tập dữ liệu thử
nghiệm thấy rằng khoảng 78% và 75% các bản ghi được nhân đôi trong tập dữ liệu
huấn luyện và tập dữ liệu thử nghiệm, tương ứng. Số lượng lớn các bản ghi dư thừa
trong các tập dữ liệu huấn luyện sẽ gây ra cho các thuật toán học thiên vị đối với
các bản ghi thường xuyên xuất hiện, và do đó nó hạn chế với các bản ghi ít xuất
hiện và thường gây hại cho các mạng như tấn công U2R. Sự tồn tại của những bản
ghi này lặp đi lặp lại trong các tập dữ liệu thử nghiệm, mặt khác sẽ gây ra các kết
quả đánh giá thiên vị với các phương pháp có tỷ lệ phát hiện tốt hơn trên các bản
ghi thường xuyên.
Ngoài ra, để phân tích mức độ khó của các bản ghi trong Dữ liệu KDD họ sử
dụng 21 học viên (7 học viên từng được huấn luyện 3 lần với các tập dữ liệu huấn
luyện khác nhau) để ghi nhãn bản ghi của toàn bộ dữ liệu KDD huấn luyện và các
tập dữ liệu thử nghiệm, cung cấp 21 nhãn dự đoán cho mỗi bản ghi. Đáng ngạc
nhiên, khoảng 98% các bản ghi trong các tập dữ liệu huấn luyện và 86% của bản
ghi trong các tập dữ liệu thử nghiệm đã được phân loại chính xác với tất cả 21 máy.
Lý do phải đưa ra những thống kê trên cả hai tập dữ liệu KDD là tập huấn luyện và
tập kiểm tra là trong nhiều bài báo khác, các bộ phận ngẫu nhiên của tập KDD huấn
luyện được sử dụng như tập thử nghiệm. Kết quả là, họ đạt khoảng 98% tỷ lệ phân
loại bằng cách áp dụng phương pháp máy học rất đơn giản. Ngay cả áp dụng các tập
21
21
KDD thử nghiệm sẽ có một tỷ lệ phân loại tối thiểu là 86%, mà làm cho sự so sánh
về IDS khá khó khăn khi tất cả chúng đều khác nhau trong phạm vi 86% đến 100%.
Trong bài báo này, họ đã cung cấp một giải pháp để giải quyết hai vấn đề được
đề cập đến, kết quả trong tập dữ liệu huấn luyện mới và tập thử nghiệm trong đó
bao gồm các các bản ghi được lựa chọn của tập dữ liệu KDD đầy đủ. Cung cấp một
tập hợp dữ liệu không tồn tại bất kỳ sai sót nào đề cập đến. Hơn nữa, số lượng các
bản ghi trong tập huấn luyện và các tập thử nghiệm là hợp lý, lợi thế này làm cho

chi phí là phải chăng để chạy hoàn thành các thí nghiệm trên mà không phải chọn
ngẫu nhiên một phần nhỏ trong các tập huấn luyện và các tập thử nghiệm hợp lý.
Do đó, đánh giá kết quả các công trình nghiên cứu khác nhau sẽ phù hợp và có thể
so sánh.
Các phiên bản mới của bộ dữ liệu KDD, NSL-KDD là công khai có sẵn cho
các nhà nghiên cứu thông qua website1. Mặc dù, tập hợp dữ liệu vẫn còn tồn tại
một số các vấn đề và có thể không là một đại diện hoàn hảo của mạng hiện có thật
sự, vì thiếu dữ liệu công cộng đặt IDS dựa trên mạng, họ tin rằng nó vẫn có thể
được áp dụng như một tập dữ liệu chuẩn để giúp các nhà nghiên cứu so sánh
phương pháp phát hiện xâm nhập khác nhau.
2.2.2. Mô tả tập dữ liệu KDD
Từ năm 1999, tập dữ liệu KDD 99 đã được sử dụng nhiều nhất cho việc thẩm
định các phương pháp phát hiện bất thường. Tập hợp dữ liệu này được chuẩn bị và
được xây dựng dựa trên các dữ liệu bắt được trong chương trình đánh giá Hệ thống
phát hiện bất thường DARPA’98. DARPA có khoảng 4GB nén thô (nhị phân) dữ
liệu tcpdump của 7 tuần lưu thông mạng có thể được xử lý thành khoảng 5 triệu bản
ghi kết nối, với mỗi bản ghi khoảng 100 byte. Hai tuần của dữ liệu thử nghiệm có
khoảng 2 triệu bản ghi kết nối. Tập dữ liệu KDD huấn luyện bao gồm khoảng
4.900.000 vectơ kết nối đơn trong đó chứa 41 thuộc tính và được dán nhãn là bình
thường hoặc một loại tấn công cụ thể nào đó với sự chính xác là một loại tấn công
cụ thể. Các cuộc tấn công được mô phỏng xếp vào một bốn loại sau đây:
22
22
 Tấn công từ chối dịch vụ (DoS): là một cuộc tấn công mà trong đó kẻ tấn
công làm cho một số máy tính hoặc bộ nhớ tài nguyên quá bận hoặc quá đầy để xử
ý các yêu cầu hợp lệ, hoặc từ chối người dùng hợp pháp truy cập vào một máy tính.
 Tấn công người dùng vào thư mục gốc (U2R): là một lớp khai thác trong đó
kẻ tấn công bắt đầu với truy cập bình thường vào tài khoản người dùng trên hệ
thông (có thể thu được bằng cách can thiệp mật khẩu, một cuộc tấn công từ điển,
hoặc kỹ thuật xã hội) và có thể khai thác một số lỗ hổng để đạt được thư mục gốc

sau đó truy cập vào hệ thống.
 Tấn công từ xa vào cục bộ (R2L): xảy ra khi một kẻ tấn công có khả năng
gửi gói tin đến một máy tính qua mạng nhưng không có một tài khoản trên máy tính
đó để khai thác qua một số lỗ hổng để truy cập vào cục bộ như là một người sử
dụng máy tính đó.
 Tấn công thăm dò (Probing): là một nỗ lực để thu thập thông tin về một
mạng lưới các máy tính với mục đích rõ ràng là phá vỡ kiểm soát an ninh.
 Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không cùng một phân
phối xác suất như dữ liệu huấn luyện, và nó không có các loại tấn công cụ thể như
trong dữ liệu huấn luyện mà bao gồm các tấn công thực tế hơn. Một số chuyên gia
phát hiện xâm nhập cho rằng hầu hết các loại tấn công mới là các biến thể của các
loại tấn công đã biết và dấu hiệu của các loại tấn công đã biết có thể đủ để nắm bắt
được các biến thể mới lạ. Các tập dữ liệu huấn luyện chứa tổng số 24 các loại tấn
công, và 14 loại bổ sung trong các dữ liệu thử nghiệm.
Các thuộc tính của tập dữ liệu KDD 99 có thể được phân thành ba nhóm:
1. Các thuộc tính cơ bản: nhóm này chứa tất cả các thuộc tính có được từ một kết
nối TCP / IP. Hầu hết các thuộc tính này đều dẫn đến một tiềm ẩn là làm chậm
việc phát hiện.
2. Các thuộc tính lưu thông: nhóm này bao gồm các thuộc tính mà nó được tính
toán với khoảng thời gian một cửa sổ và nó được chia thành hai nhóm:
− Thuộc tính "cùng máy chủ": kiểm tra các kết nối chỉ trong 2 giây mà có cùng
một đích đến là máy chủ kết nối hiện tại, và các số liệu tính toán thống kê liên
quan đến hành vi giao thức, dịch vụ, …
23
23
− Thuộc tính “cùng dịch vụ”: kiểm tra các kết nối chỉ trong 2 giây mà có cùng một
cùng một dịch vụ như dịch vụ kết nối hiện tại.
Hai loại thuộc tính “lưu thông” nói trên được gọi là thuộc tính dựa trên thời
gian. Tuy nhiên, có một số cuộc tấn công thăm dò chậm, quét các máy chủ (hoặc
cổng) sử dụng một khoảng thời gian lớn hơn 2 giây nhiều, ví dụ: trong mỗi phút.

Kết quả là, các cuộc tấn công không sản xuất mô hình xâm nhập với một cửa sổ
thời gian 2 giây. Để giải quyết vấn đề này, thuộc tính "cùng máy chủ" và “cùng
dịch vụ" tính toán lại dựa trên cửa sổ kết nối của 100 của 100 kết nối chứ không
phải là một cửa sổ thời gian 2 giây. Những tính năng này được gọi là thuộc tính
“lưu thông” dựa trên kết nối.
3. Các thuộc tính nội dung: Không giống hầu hết các cuộc tấn công DoS và
Probing, các cuộc tấn công R2L và U2R không có bất kỳ xâm nhập thường
xuyên nào theo mô hình tuần tự. Điều này là do các cuộc tấn công Dos và
Probing liên quan đến nhiều kết nối của một số máy chủ trong một thời gian rất
ngắn. Tuy nhiên các cuộc tấn công R2L và U2R được nhúng trong các phần dữ
liệu của các gói dữ liệu, và thường liên quan đến việc chỉ có một kết nối duy
nhất. Để phát hiện các loại tấn công, cần một số thuộc tính để có thể tìm ra
những hành vi đáng ngờ trong các phần dữ liệu, ví dụ: số lượng cố gắng đăng
nhập thất bại, các thuộc tính này được gọi là các thuộc tính nội dung.
2.2.3. Vấn đề có thể có trong tập dữ liệu KDD 99
Như đề cập trong phần trước, KDD 99 được xây dựng dựa trên các dữ liệu
DARPA'98, do các dữ liệu là tổng hợp nên kết quả là một số vấn đề có trong
DARPA'98 vẫn còn tồn tại trong KDD 99. Tuy nhiên, có một vài cải tiến hơn nó có
thể là có chủ ý hoặc vô ý, và cùng với một số vấn đề bổ sung nữa. Trong phần sau
đây, xem xét lại các vấn đề trong DARPA'98 và sau đó thảo luận về sự tồn tại của
các vấn đề có thể có trong KDD 99. Cuối cùng là thảo luận các vấn đề mới quan sát
thấy trong các tập hợp dữ liệu KDD.
1. Đối với mục đích riêng: các thí nghiệm đã lựa chọn tổng hợp trên cả hai dữ
liệu: dữ liệu nền và dữ liệu tấn công, và dữ liệu được khẳng định là tương tự như
một số dữ liệu mẫu quan sát được từ trong một số cơ sở dữ liệu của lực lượng
24
24
không quân. Tuy nhiên, không phân tích cũng không thí nghiệm xác nhận các đặc
điểm của dữ liệu cảnh báo sai. Hơn nữa, khối lượng công việc của dữ liệu tổng hợp
có vẻ không giống như lưu lượng truy cập trong các mạng thực sự.

2. Lưu lượng sưu tầm như tcpdump, được dùng trong DARPA’98, rất có khả
năng trở thành quá tải và có khả năng là hủy bỏ các gói nếu lưu lượng tải là quá lớn.
Tuy nhiên, không có sự điều tra để khẳng định khả năng huỷ bỏ của các gói tin.
3. Không có định nghĩa chính xác về các cuộc tấn công. Ví dụ: tấn công “thăm
dò” là không nhất thiết phải là một loại tấn công trừ khi số lần lặp lại vượt quá một
ngưỡng cụ thể. Tương tự như vậy, một gói tin gây ra một lỗi tràn bộ đệm không
phải là lúc nào cũng là đại diện của một cuộc tấn công. Trong điều kiện như vậy,
cần có một thỏa thuận về các định nghĩa giữa thẩm định viên và thẩm định. Tuy
nhiên, trong DARPA'98, không có định nghĩa cụ thể về tấn công mạng.
Ngoài ra, có một số phê bình về nguyên tắc phân loại tấn công và biện pháp thực
hiện. Tuy nhiên, vấn đề đó không phải là mối quan tâm nhiều của bài báo này vì
hầu hết các hệ thống phát hiện bất thường làm việc với nhãn nhị phân, nghĩa là: bất
thường và bình thường, thay vì xác định các thông tin chi tiết của các cuộc tấn công.
Bên cạnh đó, thực hiện các biện pháp đánh giá áp dụng trong DARPA'98, ROC
Curves, đã bị phê bình nhiều, và kể từ đó nhiều nhà nghiên cứu đã đề xuất các biện
pháp mới để khắc phục những khiếm khuyết hiện có.
Trong khi sự phê bình của McHugh chủ yếu dựa trên các thủ tục tạo ra các dữ
liệu chứ không phải là phân tích dữ liệu, Mahoney và Chan phân tích mạng lưới lưu
thông mạng nền DARPA và bằng chứng tìm thấy các hiện vật mô phỏng có thể dẫn
đến một đánh giá rất cao về việc thực hiện một số phương pháp phát hiện bất
thường. Trong bài báo, tác giả đề cập đến năm loại bất thường dẫn đến phát hiện tấn
công. Tuy nhiên, phân tích các cuộc tấn công trong các tập dữ liệu DARPA cho
thấy là nhiều cái không phù hợp với bất kỳ loại nào, và có khả năng gây ra bởi các
hiện vật mô phỏng. Ví dụ như: TTL (time to live) có giá trị 126 và 253 chỉ xuất hiện
trong lưu lượng thù địch, trong khi ở hầu hết các lưu lượng truy cập nền tảng giá trị
là 127 và 254. Tương tự như vậy, một số cuộc tấn công có thể được xác định bằng
địa chỉ IP nguồn là bất thường hoặc trường kích thước cử sổ TCP bất thường.
25
25

×