Tải bản đầy đủ (.pdf) (6 trang)

ALID-GAN: Phương pháp hỗ trợ học chủ động cho hệ thống phát hiện xâm nhập dựa trên mạng sinh đối kháng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (961.06 KB, 6 trang )

Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

ALID-GAN: Phương pháp hỗ trợ học chủ động
cho hệ thống phát hiện xâm nhập dựa trên
mạng sinh đối kháng
Bùi Xuân Thái∗† , Nguyễn Ngọc Minh Trí


∗† ,

Nghi Hồng Khoa

∗† ,

Phan Thế Duy∗†

Phịng Thí Nghiệm An Tồn Thơng Tin, Trường Đại Học Cơng Nghệ Thơng Tin
† Đại Học Quốc Gia Tp. Hồ Chí Minh
Email: {18521379, 18521529}@gm.uit.edu.vn, {khoanh, duypt}@uit.edu.vn

Tóm tắt—Hệ thống phát hiện xâm nhập (Intrusion
Detection System - IDS) dựa trên sự bất thường sử dụng
các thuật toán Học máy (Machine Learning - ML) ngày
càng được chú ý do lợi thế của chúng trong việc phát
hiện các cuộc tấn công. Tuy nhiên những nghiên cứu gần
đây chỉ ra rằng các phương pháp phát hiện sử dụng máy
học thường chịu nhiều rủi ro trước các mẫu tấn cơng đối
kháng, là mẫu có đầu vào gần giống với đầu vào gốc nhưng
được phân loại khơng chính xác. Việc huấn luyện các IDS
này yêu cầu một lượng lớn dữ liệu đào tạo, điều này trong
thực tế rất khó đáp ứng vì dữ liệu tấn cơng phát sinh


ngày càng nhiều và đa dạng nên không thể đáp ứng được
hết yêu cầu về dữ liệu của IDS. Do đó, để khắc phục hạn
chế này, chúng tôi đề xuất một phương pháp học tập chủ
động (Active Learning) dựa trên mạng sinh đối kháng Generative Adversarial Network (GAN) để cải thiện khả
năng phát hiện tấn công của IDS. Điểm cải tiến của đề
xuất này là dựa vào dữ liệu tấn công đầu vào, mơ hình học
và sinh ra dữ liệu mới liên quan đến cuộc tấn cơng đó, có
thể sinh ra các dữ liệu của các biến thể của tấn cơng đó
và đưa vào dữ liệu của IDS, từ đó tăng cường khả năng
của IDS. Chúng tơi thực nghiệm mơ hình trên tập dữ liệu
CICIDS2018 [15] và đánh giá mơ hình đề xuất bằng nhiều
tiêu chí khác nhau. Kết quả cho thấy mơ hình đạt tỷ lệ
phát hiện chính xác lên đến 99,931% khi mơ hình IDS chỉ
sử dụng 20% số lượng mẫu dữ liệu được gắn nhãn trong
quá trình đào tạo.
Từ khóa—Intrusion Detection System (IDS), Machine
Learning (ML), Generative Adversarial Network (GAN),
Active Learning.

I. GIỚI THIỆU
Hiện nay, sự phát triển nhanh chóng của Internet of
Things (IoT) đã mở ra một chiều hướng mới khi kết hợp
các thiết bị điện tử, cảm biến, phần mềm và kết nối để
tăng cường kết nối, thu thập và trao đổi dữ liệu. Mặc
dù có khả năng kết hợp và sử dụng rộng rãi, nhưng hầu
hết 80% thiết bị IoT đều dễ bị tấn công mạng [2]. Hệ
thống phát hiện xâm nhập (IDS) chịu trách nhiệm kiểm
tra lưu lượng mạng và dữ liệu hệ thống để tìm các hoạt

ISBN 978-604-80-5958-3


293

động độc hại và đưa ra cảnh báo, là phần đầu tiên và
quan trọng nhất của chiến lược phòng thủ. Có kiến thức
thích hợp về địa điểm và thời gian chính xác nơi các bất
thường cụ thể đang tạo ra các mối nguy hiểm trong hệ
thống sẽ giúp giảm thiểu các tác động bằng cách thực
hiện các hành động thích hợp, và do đó các hệ thống
phịng chống xâm nhập đi vào hoạt động. Hệ thống ngăn
chặn xâm nhập hoạt động đồng thời với hệ thống phát
hiện xâm nhập để ngăn kẻ tấn công thực hiện bất kỳ tác
hại nào đối với hệ thống.
Sự phát triển của IDS đi kèm với sự phát triển của
phần mềm độc hại và các nguy cơ xâm nhập. Đặc biệt,
một nguy cơ đáng báo động xuất hiện trong quá trình
phát triển của phần mềm độc hại là sự phát triển của
phần mềm độc hại tự thích ứng có khả năng điều chỉnh
hành vi của nó để tránh bị phát hiện bởi một cơ chế
bảo mật. Wu và các cộng sự [3] đề xuất một phương
pháp deep Q-learning để vượt qua các mơ hình phát hiện
botnet bằng cách kiểm soát luồng lưu lượng mạng do
botnet tạo ra. Shi và các cộng sự [4] sử dụng Mạng sinh
đối kháng (GAN) để tổng hợp dữ liệu huấn luyện cho các
cuộc tấn cơng thăm dị và các cuộc tấn công causative
trên một bộ phân loại trực tuyến thực để phân tích tính
subjectivity của dữ liệu. Erpek và cộng sự [5] đề xuất
một phương pháp để tấn công gây nhiễu vào các kênh
truyền không dây sử dụng mô hình mạng học sâu để dự
đốn trạng thái kênh truyền và mơ hình GAN để đẩy

nhanh q trình đào tạo mơ hình dự đốn. GAN được
sử dụng trong [6] để sửa đổi lưu lượng mạng trong kênh
truyền dòng lệnh và điều khiển (Command và Control C2) của phần mềm độc hại Trojan Remote Access (truy
cập từ xa) sao cho lưu lượng được sửa đổi giống với
lưu lượng của Facebook chat. Lin và cộng sự [7] cũng
đề xuất một phương pháp dựa trên GAN trong đó trình
tạo tính tốn các đặc điểm lưu lượng mạng đối nghịch
để tấn cơng mơ hình Black-box IDS. Các phương pháp


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

khác nhau được đề xuất trong [3], [6] và [7] có thể được
nhóm lại thành một loại tấn cơng đặc biệt có tên là tấn
cơng đối nghịch nhằm vào các mơ hình IDS dựa trên
ML.
Mặc dù các phương pháp được đề xuất trong [3], [6]
và [7] đã cho thấy hiệu quả trong việc làm sai lệch khả
năng của mơ hình IDS dựa trên ML, mối đe dọa của
chúng trong môi trường mạng thực tế bị hạn chế do các
giả định lý tưởng rằng một lượng lớn các nhãn dữ liệu
để đào tạo có khả dụng và thông tin về hàm mất mát
(loss function) mơ hình IDS đã được biết. Để khắc phục
những hạn chế về mặt dữ liệu này, chúng tôi đề xuất một
phương pháp hỗ trợ học chủ động cho trình phát hiện
xâm nhập, với tên gọi là ALID-GAN, phương pháp của
chúng tơi có những đóng góp sau:
• Khơng u cầu kiến thức về cấu trúc bên trong của
mơ hình IDS hoặc hàm mất mát để đào tạo mơ
hình IDS.

• Khơng u cầu về số lượng lớn dữ liệu đầu vào,
phương pháp sẽ tạo ra dữ liệu mới cung cấp cho
hệ thống IDS.
• Chúng tơi sử dụng lần lượt 3 loại biến thể của
GAN là WGAN, WGAN-GP, WGAN-GP-TTUR
trong mơ hình ALID-GAN, và đánh giá bằng tập
dữ liệu CICIDS2018 [15].
Phần còn lại của bài báo được viết như sau: Trong
phần II cung cấp các kiến thức liên quan đến việc triển
khai mơ hình. Mơ hình đề xuất được chúng tơi trình bày
trong phần III. Trong phần IV, chúng tôi tiến hành thực
nghiệm phương pháp và đưa ra các tiêu chí đánh giá,
và phân tích các số liệu thực nghiệm thu được từ các
thí nghiệm cụ thể. Cuối cùng, kết luận và các công việc
tương lai được đề cập trong phần V.
II. KIẾN THỨC LIÊN QUAN
A. Mạng sinh đối kháng (Generative Adversarial Network – GAN)
GAN được đề xuất bởi Goodfellow và các cộng sự vào
năm 2014 [10], nó là một trong những cơng cụ mạnh
mẽ và hứa hẹn nhất trong học sâu. GAN ước tính một
mơ hình tổng qt thơng qua cách tiếp cận đối nghịch,
bao gồm hai mơ hình độc lập: bộ tạo sinh (Generator G) và bộ phân biệt (Discriminator - D). Mơ hình tổng
qt G ước tính phân phối dữ liệu p(g) trên không gian
dữ liệu thực x. Xét một biến nhiễu đầu vào p(z), mục
tiêu của G là tạo ra mẫu đối nghịch mới G(z) xuất phát
từ cùng một phân phối của x. Mặt khác, mơ hình phân
biệt D trả về xác suất D(x), rằng mẫu x đã cho là từ tập
dữ liệu thực chứ không phải được tạo ra bởi G. Mục
đích của bộ sinh (Generator) là tạo ra dữ liệu đánh lừa


ISBN 978-604-80-5958-3

294

hệ thống IDS, trong khi bộ phân biệt (Discriminator) có
vai trị bắt chước một hệ thống IDS trong việc phân loại
dữ liệu đầu vào (đúng hoặc sai) để đưa ra phản hồi cho
bộ sinh mẫu [8]. Vì vậy, G và D mơ phỏng lại một trị
chơi minmax của hai người chơi, mà ở đó bộ tạo sinh
phải cạnh tranh với đối thù là bộ phân biệt, bộ tạo sinh
sẽ sản sinh các mẫu mà đối thủ của nó phải phân biệt
giữa mẫu dữ liệu từ tập huấn luyện và mẫu từ bộ tạo
sinh. Hàm giá trị V(G, D) được định nghĩa như sau:
min max V (D, G) =
G

D

Ex∼pdata (x) [log D(x)] + Ez∼pz (z) [log(1 − D(G(z)))]
(1)
B. Học chủ động (Active learning)
Học chủ động là một nhóm các phương pháp trong
học máy tối ưu hóa quá trình thu thập dữ liệu đào tạo
để xây dựng một tập dữ liệu đào tạo với kích thước tối
thiểu mà vẫn mang lại hiệu suất phù hợp. Trong học chủ
động, thuật toán chủ động chọn một tập con để làm ví
dụ dán nhãn cho tập tiếp theo chưa được gán nhãn [9].
Phương pháp học tập tích cực thường là một quá trình
lặp đi lặp lại xen kẽ giữa việc đào tạo mơ hình ML (ví
dụ: bộ phân loại) và tăng cường tập dữ liệu đào tạo hiện

tại với các điểm dữ liệu được gắn nhãn mới từ oracle
(ví dụ: chú thích của con người hoặc mơ hình ML). Q
trình này thường được khởi tạo với một tập dữ liệu đào
tạo nhỏ và một nhóm lớn các điểm tính năng chưa được
gắn nhãn. Trong mỗi lần lặp lại, một tập hợp các điểm
đặc trưng được chọn từ nhóm chưa được gắn nhãn và
gửi đến oracle để gắn nhãn. Chiến lược để chọn các
điểm tính năng chưa được gắn nhãn này từ nhóm chưa
được gắn nhãn là một vấn đề quan trọng cần giải quyết
trong học tập tích cực. Trong nghiên cứu này, chúng tôi
sử dụng GAN để sinh ra dữ liệu để giải quyết vấn đề
thiếu hụt dữ liệu hỗ trợ cho IDS học chủ động.
C. Một số biến thể của GAN
Biến thể Wasserstein GAN (WGAN) chính là mơ
hình GAN sử dụng khoảng cách Wasserstein vào làm
hàm mất mát mới. Trong WGAN, để tính khoảng cách
Wasserstein, ta cần sử dụng thêm một hàm là hàm liên
tục K-Lipschitz. Việc sử dụng khoảng cách Wasserstein
giúp cung cấp một số đo mượt hơn với độ dốc gradient,
thích hợp cho q trình học tập ổn định [10]. Ở biến
thể WGAN, việc đảm bảo hàm liên tục Lipschitz bằng
cách cắt giảm trọng lượng (weight clipping) (kẹp trọng
số trong một phạm vi cố định nhỏ [-c,c]) [16]. Trong khi
đó với biến thể WGAN-GP (WGAN Gradient Penalty),
thay vì sử dụng cắt giảm (weight clipping), mơ hình sẽ


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

Hình 1. Mơ hình ALID-GAN hỗ trợ học chủ động cho IDS học máy


bị phạt với mỗi lần độ dốc gradient di chuyển ra khỏi
chuẩn giá trị 1. Việc sử dụng phạt gradient trong biến
thể WGAN-GP cho thấy khả năng học nhanh hơn và
chất lượng tốt hơn so với WGAN [11]. Đối với vấn đề
học tập của GAN, nhóm tác giả [12] đã đề xuất bộ quy
tắc Two Time-Scale Update Rule (TTUR) giúp hội tụ
theo giả định về trạng thái đứng yên cân bằng cục bộ
Nash [17]. Phương pháp sử dụng TTUR đề xuất sử dụng
hai tốc độ học khác nhau cho trình phân biệt và trình
tạo sinh. Trình tối ưu được thay thế từ RMSProp về lại
Adam. Ở đây biến thể WGAN-GP TTUR là biến thể
WGAN-GP được thay đổi theo TTUR.
D. Các nghiên cứu liên quan
Zhu và Bento [13] đề xuất GAAL, sử dụng GAN để
tạo các mẫu tổng hợp không chắc chắn trong mỗi chu kỳ
tạo mẫu đối kháng. Việc tạo thay vì chọn mẫu khơng
chắc chắn dẫn đến vấn để về thời gian do phải chạy
liên tục vì việc tạo một mẫu mới độc lập có cùng kích
thước nhưng phải huấn luyện GAN trước. Họ sử dụng
thuật toán tối ưu hố truyền thơng là khoảng cách tối
thiểu đề thay thế biến x (mẫu chung) bằng tập dữ liệu
đã đào tạo. Sau đó, sử dụng gradient descent để giảm
số lượng đối tượng tối đa. Tuy nhiên, GAAL hoạt động
kém hơn so với lấy mẫu ngẫu nhiên trên hai tập MNIST
và CIFAR-10 (2 nhãn) sử dụng SVM và DC-GAN.
ASAL được Christoph và Radu đề xuất [14], kế thừa
ý tưởng tạo mẫu của Zhu và Bento [13] nhưng sử dụng
thông tin entropy làm thang điểm số cho sự không chắc
chắn và mở rộng thành nhiều nhãn. Đóng góp chính của


ISBN 978-604-80-5958-3

295

họ là chọn mẫu tương đồng nhất từ mẫu chung bằng
phương pháp đối sánh mẫu mới được phát triển. Tác giả
đề xuất ba phương pháp nhận dạng mẫu đặc trưng khác
nhau mà họ tính tốn cho mỗi mẫu chung mơ hình để
phù hợp với mơ hình láng giềng gần nhất. Trong q
trình học chủ động, tác giả tính tốn nhận dạng mẫu
đặc trưng của mẫu tổng hợp và lấy mẫu tương tự nhất
từ nhóm theo thời gian hàm phụ tuyến tính. Ngồi ra,
ASAL sử dụng bộ phân loại dưa trên CNN thay vì SVM
và bộ tạo sinh là Wasserstein GAN [1].
III. MƠ HÌNH ĐỀ XUẤT
Để giải quyết các vấn đề đã nêu ở trên, một kiến
trúc với sự kết hợp giữa GAN và active learning được
chúng tơi đề xuất ở Hình 1, được gọi là ALID-GAN
(Active Learning for Intrusion Detection using GANs).
Hệ thống được chúng tơi tạo ra với vai trị sinh ra các
mẫu dữ liệu mới một cách sao cho gần giống thật nhất
có thể nhằm mục đích cải thiện hệ thống IDS để chống
lại các cuộc tấn công mới trong không gian mạng hiện
nay.
Trong mơ hình trên gồm 3 module: Database Module,
IDS Module, Data Synthesizer Module. Chi tiết về các
module được chúng tơi trình bày ở các phần dưới đây.
A. Database Module
Trong module này chứa các tập dữ liệu phục vụ cho

công việc huấn luyện IDS. Các mẫu dữ liệu được lấy từ
trình sinh dữ liệu của Data Synthesizer Module. Trong
database gồm hai loại dữ liệu:


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2021)

Bảng I
CHI

TIẾT MƠ HÌNH HỌC MÁY CHO

Class
LR

Logistic Regression

IV. THỰC NGHIỆM VÀ ĐÁNH GIÁ

IDS VỚI SCIKIT-LEARN

A. Môi trường thực nghiệm

Parameter
penalty=’12’,*, dual=False, tol=0.0001,
C=1.0, fit_intercept=True,
intercept_scaling=1, class_weight=None,
random_state=None, solver=’lbfgs’,
max_iter=100, multi_class=’auto’,
verbos=0, warm_start=False,

n_jobs=None, l1_ratio=None

SVM

SVC





C=1.0, kernel=’rbf’, degree=3,
gamma=’scale’, coef0=0.0,
shrinking=True, probability=False,
tol=0.001, cache_size=200,
class_weight=None, verbose=False,
max_iter=-1, decision_function_shape=’ovr’,
break_ties=False, random_state=None

Dữ liệu đang xử lý (Pending): Khi GAN sinh ra
dữ liệu mới thì nó sẽ được kiểm chứng để cải thiện
hệ thống IDS. Tuy nhiên do sự không chắc chắn
của GAN, mỗi lô dữ liệu được sinh ra cần được
kiểm tra bằng cách huấn luyện đi huấn luyện lại
nhiều lần.
Dữ liệu tổng hợp (Synthetic): Nếu dữ liệu đang
chờ xử lý góp phần cải thiện hiệu suất của IDS, bộ
điều khiển sẽ thay đổi cờ của chúng từ trạng thái
chờ xử lý thành tổng hợp và lưu trữ chúng vĩnh
viễn trong cơ sở dữ liệu.


x =

B. IDS Module
Ở mô-đun này, ban đầu IDS được huấn luyện trước
với tập dữ liệu đã thu sẵn. Sau đó trong q trình hoạt
động và tương tác với module IDS thì nó lại được tiếp
tục cập nhật. Chúng tơi sử dụng hai thuật tốn học máy
cơ bản là Linear Regression (LR) và Support Vector
Machine (SVM), trong đó SVM là mơ hình cho hiệu
năng khá tốt cho các bài toán phân loại của Machine
Leaning, để xây dựng IDS. Các mơ hình máy học LR,
SVM được triển khai với thư viện scikit-learn (thông số
chi tiết được mô tả trong Bảng I).
C. Data Synthesizer Module (DSM)
Thành phần tổng hợp dữ liệu (Data Synthesizer Module - DSM). Phần cốt lõi của module này dựa trên
mơ hình GAN. Gồm 2 mơ hình là bộ tạo (Generator Module) và bộ phân biệt (Discriminator Module).
Generator sinh ra dữ liệu mới nhằm mục đích đánh lừa
Discriminator. Khi q trình huấn luyện GAN hồn tất
nó tạo ra các mẫu dữ liệu mới với độ chính xác cao.
Mục đích của module này là sinh ra dữ liệu mới cung
cấp cho Database module để huấn luyện mơ hình IDS

ISBN 978-604-80-5958-3

ALID-GAN được triển khai trên mơi trường Google
Colab, với cấu hình: Intel(R) Xeon(R) CPU @ 2.30GHz,
12.69 GB RAM, dung lượng đĩa cứng lưu trữ 107.72
GB.
Chúng tôi thực nghiệm trên tập dữ liệu CICIDS2018
[15], tập dữ liệu chứa mô tả chi tiết về các cuộc xâm

nhập và mô hình phân phối trừu tượng cho các ứng
dụng, giao thức hoặc các thực tể mạng cấp thấp hơn.
Tập dữ liệu bao gồm bảy kịch bản tấn công: DoS,
DDoS, Brute-force, Heartbleed, Botnet, infiltration và
Web attacks. Nhưng đối với nghiên cứu này, chúng tôi
chỉ sử dụng kịch bản tấn công DoS. Trước tiên, chúng
tôi thực hiện một số bước để chuyển các bản ghi dữ
liệu sang dạng số thích hợp. Chúng tơi loại bỏ một số
cột không liên quan và cột thời gian khơng phải dạng
số vì chúng khơng đóng vai trị gì trong nghiên cứu
của chúng tơi. Ngồi ra, ở những dịng dữ liệu chứa
NaN, chúng tơi cũng xóa đi để chuẩn hóa cấu trúc tiêu
chuẩn của bản ghi. Sau đó chúng tôi tiến hành chuyển
đổi giá trị về dạng số nhằm mục đích đưa các giá trị
của các đặc trưng về phạm vi [0,1] bằng phương pháp
chuẩn hóa min-max. Trong đó x là giá trị ban đầu, x’
là giá trị sau khi chuẩn hóa, xmin là giá trị nhỏ nhất
của đặc trưng, xmax là giá trị lớn nhất của đặc trưng.

296

x − xmin
xmax − xmin

(2)

Sau khi chuẩn hóa chúng tối thu được 327 153 mẫu
dữ liệu. Chúng tôi dùng 90% (294 438 mẫu dữ liệu) cho
q trình huấn luyện, cịn 10% (32 715 mẫu dữ liệu) cho
quá trình kiếm tra.

B. Tiêu chí đánh giá
Chúng tơi đã xem xét các chỉ số sau để đánh giá hiệu
suất của ALID-GAN:
• Precision: Tỷ lệ giữa các quan sát tích cực được
dự đốn chính xác trên tổng số quan sát tích cực.
• Recall: Tỷ lệ của các quan sát tích cực được dự
đốn chính xác trên tổng số quan sát tích cực thực
tế.
• F1 score: Trung bình có trọng số của độ chính xác
và thu hồi có tính đến cả False Positive và False
Negative. Trong trường hợp phân phối không đều
FN và FP, F1 score có thể suy ra khả năng hiểu rõ
hơn về hiệu suất của mơ hình.
• Area Under Curve (AUC): Chỉ số được tính tốn
dựa trên đường cong Receiving Operating Curve


Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

(ROC). ROC dùng để biểu diễn khả năng phân loại
của mơ hình tại các ngưỡng threshold, đường cong
này dựa trên hai chỉ số True Positive Rate (TPR
hay Recall) và False Positive Rate (FPR).
• Confusion Matrix: Một bảng nhằm trình bày số
lượng các dự đốn đúng và sai được thực hiện bởi
mỗi lớp. Nó cung cấp thơng tin chi tiết rõ ràng về
dự đốn và hiển thị loại phân loại / phân loại sai.
Do đó, hiệu suất của một IDS có thể được phân tích
bằng cách sử dụng các yếu tố chính quan trọng này.
Bảng II

TIÊU

CHÍ ĐÁNH GIÁ

Tiêu chí
True Positive, TP
False Positive, FP
True Negative, TN
False Negative, FN

Nhãn thực thế
Attack
Normal
Normal
Attack

Dự đốn
Attack
Attack
Normal
Normal

Từ các tiêu chí này, hiệu suất của IDS có thể dễ dàng
được tính tốn bằng cách sử dụng các công thức sau:

TP
(T P + F P )
TP
Recall, R =
(T P + F N )

False Positive Rate, F P R = 1 − T P R
2∗P ∗R
F1 score =
(P + R)
Precision,

P =

(3)
(4)
(5)
(6)

C. Kết quả thực nghiệm
Chúng tôi lấy lần lượt 20%, 40%, 60%, 80%, 100%
số bản ghi trong tập dữ liệu dùng để huấn luyện để giả
lập trường hợp IDS được huấn luyện trong điều kiện
thiếu hụt dữ liệu với các số lượng bản ghi luồng mạng
khác nhau.
Với ALID-GAN, chúng tôi sử dụng 3 biến thể của
GAN để huấn luyện: WGAN, WGAN-GP, WGAN-GPTTUR và đánh giá dựa trên chỉ số F1-Score và AUC
để đánh giá mơ hình một cách tổng quan hơn. Chúng
tơi huấn luyện với hai thuật toán LR và SVM với
learning_rate_g = 0.0001 và learning_rate_d = 0.0001
ở hai mơ hình WGAN và WGAN-GP. Cịn đối với mơ
hình WGAN-GP-TTUR thì learning_rate_g = 0.0001 và
learning_rate_d = 0.0002.
Bảng III và Bảng IV là kết quả của 2 mơ hình khi
chúng tơi huấn luyện được. Với mơ hình thứ nhất thì sẽ
áp dụng GAN sinh ra dữ liệu mới và mơ hình thứ hai sẽ

khơng áp dụng GAN. Kết quả được thể hiện trong Bảng
III và Bảng IV là kết quả của ALID-GAN trên tập dữ

ISBN 978-604-80-5958-3

297

liệu kiểm thử (testing), cho thấy rằng với mơ hình thơng
thường thì các chỉ số đánh giá rất thấp cụ thể ở thuật
toán LR chỉ số F1 chỉ dao động từ 45.71% - 63.932%,
AUC cũng chỉ dao động từ 45.46% - 64%. Chỉ số đánh
giá của thuật tốn SVM với mơ hình thơng thường cũng
rất thấp, F1 dao động từ 50.632% - 72.352%, AUC dao
động từ 50.70% - 72.37%. Đối với mơ hình triển khai,
các chỉ số đánh giá F1 cũng như AUC rất cao dao động
99% - 100% ở cả hai thuật tốn. Ngồi chỉ số đánh giá
cao, ALID-GAN cịn có hiệu quả tốt trong trường hợp
thiếu hụt dữ liệu đầu vào. Cụ thể, ta có thể thấy rằng
các chỉ số F1 và AUC ở mơ hình triển khai ln ổn
định mặc dù kích thước dữ liệu đầu vào thay đổi, cịn
mơ hình thơng thường các chỉ số đánh giá F1 và AUC
tăng dần theo kích thước đầu vào của dữ liệu.
Qua đó chúng tơi có thể kết luận được rằng mơ hình
chúng tơi triển khai có khả năng giải quyết bài tốn
thiếu hụt dữ liệu mà chúng tơi đã đề cập ở phần trước.
V. TỔNG KẾT
Trong bài báo này, chúng tơi đã đề xuất một mơ hình
GAN có khả năng học tập chủ động, ALID-GAN, để
cải thiện khả năng của IDS. Nó hoạt động tốt hơn IDS
độc lập đối với tập dữ liệu mất cân bằng hoặc trong bất

kỳ lĩnh vực hệ thống vật lý mạng mới nổi nào nơi có rất
ít dữ liệu để đào tạo mơ hình. Phân tích và thử nghiệm
cho thấy đề xuất dự đốn với độ chính xác tốt hơn so
với IDS độc lập, ngay cả sau khi được đào tạo với một
tập dữ liệu gốc nhỏ ngay từ đầu.
Trong tương lai, chúng tôi sẽ tiến hành triển khai mơ
hình trên các hệ thống mạng như SDN đồng thời thực
nghiệm trên nhiều tập dữ liệu mới và phức tạp hơn, áp
dụng nhiều thuật toán hơn để có thể cải thiện mơ hình
tốt hơn nữa. Ngồi ra, chúng tơi dự định vận dụng quy
trình MLOps vào trong việc giám sát, hiện thực và triển
khai các mơ hình học máy giúp phát hiện tấn cơng hay
mã độc trong các mơi trường có nhiều thiết bị đa dạng
như mạng IoT.
TÀI LIỆU THAM KHẢO
[1] Shu, Dule, et al. "Generative adversarial attacks against intrusion
detection systems using active learning." Proceedings of the 2nd
ACM Workshop on Wireless Security and Machine Learning.
2020
[2] "Smart
home:
Threats
and
countermeasures".
smart-home/, 2019. Accessed:
2020-01-29.
[3] Di Wu, Binxing Fang, Junnan Wang, Qixu Liu, and Xiang
Cui. 2019. "Evading Machine Learning Botnet Detection Models
via Deep Reinforcement Learning". In ICC 2019-2019 IEEE
International Conference on Communications (ICC). IEEE, 1–6.



Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021)

KẾT

QUẢ CỦA

ALID-GAN ÁP

Size

20
40
60
80
100

KẾT

WGAN
F1
AUC(%)
0.99933
100
0.99932
100
0.99934
100
0.99932

100
0.99933
100

QUẢ CỦA

20
40
60
80
100

WGAN
F1
AUC(%)
0.9982
100
0.9998
100
0.9998
100
0.9998
100
0.9998
100

Bảng III
LINEAR REGRESSION

ALID-GAN

WGAN-GP
F1
AUC(%)
0.99931
100
0.99932
100
0.99933
100
0.99933
100
0.99931
100

ALID-GAN ÁP

Size

DỤNG

DỤNG

ALID-GAN
WGAN-GP
F1
AUC(%)
0.99932
100
0.9998
100

0.9998
100
0.9998
100
0.9998
100

298

IDS THÔNG

THƯỜNG

IDS
WGAN-GP-TTUR
F1
AUC(%)
0.99931
100
0.99933
100
0.99934
100
0.99933
100
0.99932
100

Bảng IV
SUPORT VECTOR MACHINE


[4] Yi Shi, Yalin E Sagduyu, Kemal Davaslioglu, and Jason H
Li. 2018. "Generative adversarial networks for black-box API
attacks with limited train data". In 2018 IEEE International
Symposium on Signal Processing and Information Technology
(ISSPIT). IEEE, 453–458.
[5] Tugba Erpek, Yalin E Sagduyu, and Yi Shi. 2018. "Deep learning
for launching and mitigating wireless jamming attacks. IEEE
Transactions on Cognitive Communications and Networking 5,
1 (2018), 2–14.
[6] Maria Rigaki and Sebastian Garcia. 2018. "Bringing a gan to
a knife-fight: Adapting malware communication to avoid detection". In 2018 IEEE Security and Privacy Workshops (SPW).
IEEE, 70–75.
[7] Zilong Lin, Yong Shi, and Zhi Xue. 2018. "Idsgan: Generative
adversarial networks for attack generation against intrusion detection". arXiv preprint arXiv:1809.02077 (2018).
[8] J. Brownlee, Generative Adversarial Networks with Python:
Deep Learning Generative Models for Image Synthesis and
Image, 2019.
[9] Algorithmia, "Active learning machine learning: What it
is and how it works," 01 10 2021. [Online]. Available:
/>[10] J. Hui, "GAN — Why it is so hard to train Generative Adversarial
Networks!", 2018. [Online].
[11] Ishaan Gulrajani, Faruk Ahmed, Faruk Ahmed, Vincent Du-

ISBN 978-604-80-5958-3

SO VỚI

SO VỚI


F1
0.4571
0.507
0.55322
0.58253
0.63932

IDS THÔNG

AUC(%)
45.46
50.68
54.98
58.25
64.00

THƯỜNG

IDS
WGAN-GP-TTUR
F1
AUC(%)
0.9998
100
0.99981
100
0.9998
100
0.9998
100

0.9998
100

[12]
[13]

[14]
[15]
[16]
[17]

[18]

F1
0.50632
0.5398
0.59654
0.66532
0.72352

AUC(%)
50.70
54.00
59.98
66.62
72.37

moulin, Aaron Courville, "Improved training of Wasserstein
GANs," 2017.
Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard

Nessler, "GANs Trained by a Two Time-Scale Update Rule
Converge to a Local Nash Equilibrium," 2018.
Shahid Anwar, Jasni Mohamad Zain, Mohamad Fadli Zolkipli,
Zakira Inayat, Suleman Khan, Bokolo Anthony, and Victor
Chang. "From intrusion detection to an intrusion response system: fundamentals, requirements, and future directions". Algorithms, 10(2):39, 2017
J.-J. Zhu and J. Bento. Generative adversarial active learn- ing. In
Advances in Neural Information Processing Systems Workshops,
2017.
CSE-CIC-IDS2018 on AWS [Online]
J. Hui, "GAN — Wasserstein GAN WGAN-GP", 2018. [Online].
Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard
Nessler, Sepp Hochreiter. 2018. "GANs Trained by a Two TimeScale Update Rule Converge to a Local Nash Equilibrium".
arXiv:1706.08500v6 [cs.LG] 12 Jan 2018.
Shahriar, Md Hasan, et al. "G-ids: Generative adversarial networks assisted intrusion detection system." 2020 IEEE 44th
Annual Computers, Software, and Applications Conference
(COMPSAC). IEEE, 2020.



×