Tải bản đầy đủ (.docx) (27 trang)

Tiểu luận môn Thuật Toán và Phương Pháp Giải Quyết Vấn Đề ỨNG DỤNG MÁY HỌC ĐỂ NHẬN DẠNG VIRUS MÁY TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (496.47 KB, 27 trang )

1
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
__________
TIỂU LUẬN MÔN HỌC:
THUẬT TOÁN VÀ PHƯƠNG PHÁP
GIẢI QUYẾT VẤN ĐỀ
ỨNG DỤNG MÁY HỌC
ĐỂ NHẬN DẠNG VIRUS MÁY TÍNH
Giảng viên hướng dẫn : PGS.TS ĐỖ VĂN NHƠN
Học viên thực hiện: NGUYỄN THỊ DIỄM AN
MSHV: CH1301075
1
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
2
TP. Hồ Chí Minh, tháng 10 năm 2014
LỜI MỞ ĐẦU
Trong những năm gần đây cùng với sự phát triển mạnh mẽ của công
nghệ thông tin thì các hình thức virus cũng trở nên đa dạng và phong phú.Khi
một loại virus mới ra đời thì các nhà lập trình phải mất một khoảng thời gian
khá lâu để nhận diện và tiêu diệt nó, đủ lâu để các virus gây hại trên diện rộng
cho các hệ thống máy tính.
Thuật toán để cho máy học là một phạm trù rất rộng lớn, trong tiểu luận
này em chủ yếu tập trung vào mô hình hệ miễn dịch nhân tạo, mạng neuron để
phân tích, nhận dạng virus và dự báo virus mới.
Việc vận dụng mạng neron mô phỏng hoạt động của mạng neuron con
người, có khả năng ghi nhớ và nhận biết, từ đó hỗ trợ chương trình nhận dạng
được các loại virus.
2
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075


3
LỜI CẢM ƠN
3
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
Lời đầu tiên em muốn bày tỏ sự cảm ơn của mình tới thầy Đỗ Văn Nhơn chịu
trách nhiệm giảng dạy cho chúng em bộ môn Thuật Toán và Phương Pháp Giai Quyết
Vấn Đề trường Đại học Công Nghệ Thông Tin, ĐHQG – Tp.HCM. Thầy đã tận tụy
hướng dẫn những kiến thức mới và những kinh nghiệm mà thầy đã trải qua, và cùng
những gợi ý để chúng em có những ý tưởng cho bài tiểu luận của mình.
Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót.
Em rất mong nhận được sự đóng góp ý kiến của các Thầy và các bạn để bài tiểu luận
thêm hoàn thiên.
em xin chân thành cảm ơn!
Tp Hồ Chí Minh, tháng 10 năm 2014
Học viên
Nguyễn Thị Diễm An
4
MỤC LỤC
4
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
5
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI
1.1 Lý do chọn đề tài
Sự phát triển ineternet đã tạo môi trường thuận lợi cho các hình thức
xâm nhập trái phép vào các hệ thống máy tính quan trọng.Các hệ thống thường
sử dụng chương trình phát hiện virus trên máy tính dựa vào các loại đã phát
hiện trước đó.Nhưng virus luôn luôn thay đổi để qua mặt các hệ thống phát
hiện, cuộc chiến giữa chương trình phát hiện virus và virus thực sự là một
thách thức lớn đối với các nhà lập trình.Đa phần các chương trình diệt virus
thường chỉ phát hiện được một loại virus mới sau một thời gian ra đời. Khi đó

nó đã kịp lây lan và gây ra những hậu quả nghiêm trọng. Bởi vậy, cần một
hướng tiếp cận mới là đưa ra các phán đoán và dự báo kịp thời về các loại
virus mới. Áp dụng thuật toán máy học trong phát triển phần mềm nhằm hỗ trợ
phát hiện virus trên máy tính và có hướng giải quyết tiêu diệt virus đã phát
hiện, điều này đáp ứng được nhu cầu đặt ra.
1.2 Ý tưởng
Từ lý do các loại virus luôn luôn được đổi mới và phát triển để qua mặt
các hệ thống antivirus, bên cạnh đó đi kèm với virus là rất nhiều những biến
thể. Bởi vậy, yêu cầu đặt ra là làm thế nào một chương trình có khả năng học
hỏi và thích nghi với nhiều loại virus mới được phát triển và đưa ra những dự
báo kịp thời trước khi máy tính bị nguy hại.
Để đáp ứng được những yêu cầu đó thì em mô phỏng hệ miễn dịch
nhân tạo sinh học.Tương tự như trường hợp tiêm vacxin vào con người, từ đó
con người tiết ra kháng thể tiêu diệt được virus xâm nhập vào.Đồng thời kết
hợp khả năng mạnh mẽ của mạng nơ-ron trong quá trình học cũng như ghi nhớ
lại các loại virus đã phát hiện. Mạng nơ-ronđược nghiên cứu dựa trên cơ sở bộ
não con người, mỗi nơ-ron hoạt động như một bộ xử lý đơn giản. Chính sự
tương tác khổng lồ giữa tất cả các nơ-ron này cùng với quá trình xử lý song
5
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
6
song của chúng tạo nên khả năng học và ghi nhớ.
1.3 Mục tiêu của đề tài
Với định hướng đó thì em có những mục tiêu sau:
- Tìm hiểu về cơ chế phát hiện virus bằng chuỗi nhận dạng.
- Tìm hiểu về các thuật toán di truyền (chọn lọc âm tính, ) để xây dựng
hệ miễn dịch nhân tạo, nhằm rút trích các chuỗi virus.
- Mục tiêu quan trong nhất là tìm hiểu về mạng no-ron, đặc biệt là mạng
lan truyển ngược để xây dựng chương trình nhận dạng virus.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Nhận dạng virus
Hiện nay có các loại nhận dạng virus như sau:
- Nhận dạng virus dựa vào chuỗi nhận dạng
- Nhận dạng virus dựa vào hành vi
6
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
7
- Nhận dạng virus dựa vào ý định
Trong tiểu luận của em sẽ tập trung vào chuỗi nhận dạng virus.
Phát hiện virus dựa vào chuỗi nhận dạng
Hoạt động theo nguyên lý nhận dạng mẫu, các antivirus sử dụng một cơ
sở dữ liệu chứa mẫu virus (ID-virus library). Mỗi khi có virus mới, các chuyên
gia anti-virus sẽ giải mã, trích chọn và cập nhật chuỗi nhận dạng virus vào thư
viện. Thông tin về đối tượng chẩn đoán (ghi nhận từ hệ thống đích) cùng với
thông tin của virus (trong thư viện mẫu) sẽ cho kết luận về tình trạng của đối
tượng.
Nhận dạng mẫu giúp antivirus phát hiện các virus đã biết trên tập dữ
liệu chuẩn đoán với độ chính xác cao. Tuy nhiên phương pháp này có khá
nhiều nhược điểm như:
− Cồng kềnh: Kích thước thư viện mẫu tỷ lệ thuận với số virus đã cập
nhật và tỷ lệ nghịch với tốc độ tìm kiếm.
− Bị động: Antivirus chỉ hiệu quả trên các mẫu virus đã cập nhật, không
đáp ứng kịp thời dịch bệnh do tốn thời gian cho việc thu thập mẫu virus
mới, giải mã, phân tích, lập thuật giải, cập nhật phiên bản mới, phát
hành…
− Nhầm lẫn: Các hacker cố gắng tạo vỏ bọc an toàn cho virus. Khi
antivirus so mẫu chẩn đoán giống với virus, dữ liệu sạch của hệ thống
sẽ bị tẩy nhầm.
2.2 Hệ miễn dịch nhân tạo
- Hệ miễn dịch sinh học

Hệ miễn dịch là hệ thống sinh học bảo vệ cơ thể chống lại những tấn
công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận
diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể.
- Chức năng của hệ miễn dịch
7
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
Miễn dịch
Bẩm sinh
Bạch cầu hạt
Ái kiềm
Ưa eosin
Tế bào lympho
Thích nghi
B-cell
T-cell
Đại thực bào
Trung &nh
8
Sinh học là nhận dạng tế bào và phân chia chúng thành hai nhóm khác
nhau: self (những tế bào của cơ thể tạo ra) và non-self (những tế bào lạ), đồng
thời loại bỏ các tế bào thuộc loại non-self.
- Thành phần hệ miễn dịch
Các dòng miễn dịch và thành phần của hệ miễn dịch
- Nhận diện và cơ chế kích hoạt
8
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
9
Sự nhận diện và cơ chế kích hoạt đơn giản
o APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên
o MHC (Major Histocompatibility Complex): Phức hợp các phần

tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell
o Pathogen: Tác nhân gây bệnh
o Lymphokines: Là một loại bạch cầu
o B-cell: Tế bào lympho B
o Actived B-cell: B-cell được kích hoạt
o T-cell: Tế bào lympho T
o Activated T-cell: T-cell được kích hoạt
o Plasma cell: Tương bào.
Hình trên là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của hệ
miễn dịch. Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện
9
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
10
kháng nguyên (Antigen Presenting Cells – APC). Đầu tiên những kháng
nguyên sẽ bị các cơ quan trình diện kháng nguyên như đại thực bào nuốt và
tiêu hoá, phân ra thành các peptide kháng nguyên.Một phần của những peptide
này kết hợp với các phần tử MHC (Major Histocompatibility Complex – phức
hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) trên
bề mặt của APC tạo thành phức hợp MHC/peptide (II).
T-cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng
các phức hợp MHC/peptide khác nhau (III). Mỗi khi nhận diện được
MHC/peptide, T-cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là
một loại bạch cầu) hoặc các tín hiệu hoá học (chemical signals) kích thích các
thành phần khác của hệ miễn dịch hoạt động (IV).
Không giống T-cell (lympho bào T), B-cell (lympho bào B) có các cơ
quan thụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần
hỗ trợ của những phần tử MHC (V).Mỗi cơ quan thụ cảm trên bề mặt B-cell
chỉ có thể nhận diện một kháng nguyên cụ thể. Khi cơ quan thụ cảm B-cell
nhận được tín hiệu, B-cell được kích hoạt và nhân rộng, biệt hoá (biến đổi)
thành các tương bào (Plasma cell), các tương bào sẽ sản sinh ra kháng thể với

số lượng lớn. Những kháng thể này sẽ vô hiệu hoá tác nhân gây bệnh.Một số
B-cell và T-cell được kích hoạt này sẽ chuyển thành các tế bào ghi nhớ
(memory cell).
Chúng sẽ tiếp tục lưu thông trong cơ thể trong một khoảng thời gian
dài, giúp cơ thể chống lại những kháng nguyên tương tự lây nhiễm sau đó, nhờ
có sự “suy luận” (elicit) của hệ miễn dịch.
- Một số thuật toán
Có nhiều thuật toán áp dụng trong hệ miễn dịch nhân tạo như thuật toán
chọn lọc tiêu cực, chọn lọc tích cục, thuật toán nhân bản, đột biến …
trong phần này em chỉ đi nghiên cứu về thuật toán chọn lọc tiêu cực.
10
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
11
- Thuật toán chọn lọc tiêu cực (Negative Selection Algorithm)
Có các bước tiến hành như sau:
Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T-
cell chưa trưởng thành. Giả thiết tất cả các phần tử (các cơ quan thụ
cảm và các self-peptide) được biểu diễn bằng một chuỗi nhị phân L bit.
Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả
T-cell trong P với mọi phần tử của tập self-set S
Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một
T-cell chưa trưởng thành với ít nhất một phần tử self-peptide lớn hơn
hoặc bằng một ngưỡng tương tác chéo
ε
nào đó, thì T-cell nhận diện
được self-peptide này và bị loại bỏ, trái lại T-cell được bổ sung vào
quần thể có giá trị A.
Thuật toán lựa chọn tiêu cực
2.3 Mạng nơ-ron nhân tạo
- Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo được thiết kế để mô phỏng một số tính chất của
mạng nơ-ron sinh học.Tuy nhiên, ứng dụng của nó phần lớn lại có bản chất kỹ
11
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
12
thuật. Mạng nơ-ron nhân tạo là một máy mô phỏng cách bộ não hoạt động và
thực hiên các nhiệm vụ, nó giống mạng nơ-ron sinh học ở hai điểm:
o Tri thức được nắm bắt bởi nơ-ron thông qua quá trình học.
o Độ lớn của trọng số kết nối nơ-ron đóng vai trò khớp nối cất giữ
thông tin.
- Cấu tạo mạng nơ-ron
Cấu tạo một nơ-ron nhân tạo
2.4 Mạng lan truyền ngươc
- Thuật toán lan truyền ngược
Mô hình:
Mạng 3 lớp lan truyền ngược
- Thuật toán
12
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
13
Xem xét một mạng với Q lớp lan truyền ngược, q=1,2, ,Q; với
q
net
i

q
y
i
lần lượt là đầu vào và đầu ra của khối trong lớp thứ q. Mạng có m nơ-ron
đầu vào, một nơ-ron ở lớp ẩn, và n nơ-ron đầu ra. Với

q
w
ij
là trọng số nối từ
q-
1
w
j
đến
q
y
i
.
Đầu vào: các cặp huấn luyện {x
(k)
, d
(k)
| k=1,2, ,p}, ở đó giá trị đầu vào
của phần tử cuối cùng bằng -1, tức là
1
)(
1
−=
+
k
m
x
.
o Bước 0 (Đặt giá trị ban đầu)
Lựa chọn bước tính (Hằng số học) 0<η<1 và E

max
(sai số lớn nhất cho
phép).
Chọn các trọng số ban đầu nối từ phần tử thứ j của lớp (q – 1) đến phần tử
thứ i của lớp q là
q
w
ij
có giá trị nhỏ và ngẫu nhiên.
Cho sai số E = 0 và k = 1.
o Bước 1 (Vòng lặp huấn luyện)
Áp dụng mẫu vào thứ k, cho lớp đầu vào q = 1. Khi đó ta có:
q
y
i
=
1
y
i
= x
i
(k)
cho tất cả các i = 1,2,3,…,m. (2.29)
o Bước 2 (Lan truyền thẳng)
Lan truyền tín hiệu thẳng xuyên suốt mạng sử dụng công thức (4.30) cho
mỗi i và q cho tới khi các đầu ra của lớp đầu ra
Q
y
i
được thực hiện.

).()(
1


==
j
j
q
ij
q
i
q
i
q
ywanetay
(2.30)
o Bước 3 (Đo lường sai số đầu ra)
Tính toán giá trị sai lệch và tín hiệu sai lệch
i
Q
δ
cho lớp đầu ra như sau:
13
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
14
EydE
i
Q
n
i

k
i
+−=

=
2
1
)(
)(
2
1
; (2.31)
)'().(
)(
i
Q
i
Qk
ii
Q
netayd −=
δ
(2.32)
Trong đó:
i
Q
δ
là tín hiệu sai lệch của nơ-ron thứ i cho lớp ra Q;
là đạo hàm của hàm truyền a(.) theo tổng trọng số của phần tử i của
lớp đầu ra là

)(
)'(
i
Q
i
Q
netd
da
neta =
o Bước 4 (lan truyền ngược sai số)
Các sai số lan truyền ngược với mục đích để cập nhật các trọng số và tính
toán các tín hiệu sai lệch
i
q
δ
1−
cho các lớp xử lý:
j
q
i
q
ij
q
yw
1


=∆
δη
;

ij
qold
ij
qnew
ij
q
www ∆+=
(2.33)
j
j
q
ji
q
i
q
i
q
wneta
δδ

−−
= )(
1'1
; với q=Q,Q-1, ,2 (2.34)
Trong đó:
- là sai lệch tại thời điểm tính của giá trị trọng số liên kết cập
nhật mới và cũ, liên kết từ phần tử thứ j của lớp q-1 đến phần tử i
của lớp q.
- là giá trị trọng số liên kết cập nhật mới từ phần tử thứ j
của lớp (q-1) đến phần tử i của lớp q.

14
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
15
- là giá trị trọng số liên kết cũ từ phần tử thứ j của lớp (q-1)
đến phần tử i của lớp q.
- là tín hiệu ra của phần tử j của lớp (q-1).
o Bước 5 (Sau mỗi vòng lặp)
Kiểm tra xem đã lặp hết các giá trị mẫu huấn luyện chưa, nếu chưa quay
vòng hết (tức là k<p) tăng k=k+1, và nhảy tới bước 1, ngược lại (tức k=p) thì
chuyển sang bước 6.
o Bước 6 (Kiểm tra tổng sai số)
Kiểm tra sự khác nhau giữa tổng sai số và sai số cho phép:
Nếu tổng sai số nhỏ hơn sai số cho phép (tức là E < E
max
) thì kết thúc quá
trình huấn luyện, và ghi lại các giá trị trọng số cuối cùng.
Trái lại, thì lại gán E = 0, k = 1 và bắt đầu một quá trình huấn luyện mới
bằng cách nhảy tới bước 1.
Nói cách khác, mạng nơ-ron
tiếp tục quá trình huấn luyện tất cả
các mẫu lặp đi lặp lại cho đến khi
tổng sai số giảm dưới một giá trị
đích đã định trước rồi dừng. Khi tính
toán tổng sai số cho điều kiện dừng
của mạng, cần chuyển các sai số về
giá trị dương.
Sau khi mạng nơ-ron được
huấn luyện, nó sẽ có khả năng nhận
ra được không chỉ các mẫu ví dụ
hoàn thiện mà còn có thể nhận dạng

các mẫu bị lỗi, nhiễu. Thực tế, ta có
thể chủ động thêm vào tập mẫu huấn
15
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
16
luyện các mẫu nhiễu để cải thiện khả năng kháng lỗi của mạng. Quá trình đạo
tạo sẽ hiệu quả hơn nếu các mẫu áp dụng cho việc huấn luyện được sắp xếp
theo thứ tự ngẫu nhiên.
Ngoài phương pháp so sánh tổng sai số với một giá trị định trước, ta có
thể sử dụng một tập mẫu hợp lệ để tránh cho mạng bị huấn luyện quá mức, trở
nên quá chính xác và không thể nhận dạng ngay cả các mẫu nhiễu ít. Ta tạo ra
một tập các mẫu phụ là các mẫu nhiễu và không dùng tập này để huấn luyện.
Tập mẫu nhiễu này sẽ được dùng để tính sai số sau mỗi lần huấn luyện. Khi sai
số trở nên thấp thì mạng sẽ dừng quá trình huấn luyện lại.
Biểu đồ biểu diển sai số của mạng nơ-ron
Khi mạng nơ-ron được huấn luyện đầy đủ, sai số tập hợp lệ sẽ đạt cực
tiểu. Khi mạng bị huấn luyện quá mức, giá trị sai số của tập hợp lệ bắt đầu
tăng dần, và khi đó, mạng nơ-ron này sẽ mất dần khả năng xử lý các dữ liệu
nhiễu.
- Kích thước mạng
Khi giải quyết một vấn đề cụ thể, chúng ta sẽ phải tìm ra kích thước của
mạng nơ-ron như thế nào để đạt hiệu quả nhất cho việc huấn luyện dữ liệu.
Mạng nơ-ron được dùng phổ biến nhất là các mạng gồm 1 lớp nhập, một lớp
ẩn và một lớp xuất. Kích thước lớp nhập được xét theo loại mẫu hay đầu vào
16
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
17
mà mạng sẽ xử lý. Ví dụ xét mạng nơ-ron nhận dạng mẫu với mẫu là một hình
với 4 pixel đen trắngthì mạng sẽ phải có 4 đầu vào.
Tương tự, kích thước lớp xuất được xét theo số lượng mẫu ta muốn

nhận dạng và cách mã hóa đầu ra. Vấn đề còn lại là kích thước lớp ẩn. Theo ví
dụ nhận dạng kí tự với mạng nơ-ron dùng để huấn luyện ghi nhớ 26 chữ trong
bảng chữ cái và mỗi chữ cái là một hình chữ nhật với chiều rộng là 5 ô vuông
và chiều cao là 7 ô vuông thì ta có 5 x7 ô vuông, sẽ cần 35 đầu vào, để nhận
dạng 26 kí tự ta sẽ cần 26 nơ-ron xuất. Mạng sẽ được huấn luyện để nhận dạng
tất cả 26 kí tự với số nơ-ron lớp ẩn trong khoảng 6 đến 22. Dưới 6 nơ-ron thì
mạng không đủ trọng số để chứa tất cả mẫu, trên 22 sẽ khiến tính hiệu quả của
mạng giảm sút. Cuối cùng, số lượng nơ-ron lớp ẩn cần được thực nghiệm để
đạt kết quả tốt nhất.
- Ưu và nhược điểm
o Ưu điểm
Của mạng sử dụng giải thuật lan truyền ngược là khả năng nhận dạng
mẫu (như chúng ta đã bàn ở trên). Các mẫu được trình diện trực tiếp cho mạng
được xác định vị trí trên lưới ô vuông và đúng kích thước.
o Nhược điểm
Trong nhận dạng mẫu của nó là khả năng xử lý các mẫu trong các quan
cảnh hỗn loạn như nhận dạng khuôn mặt trong đám đông hay 1 kí tự trong một
trang in. Do đó, chúng ta sẽ phải cần tiền xử lý dữ liệu để có được định dạng
chuẩn trước khi áp dụng cho mạng.
17
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
18
CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH
3.1 Phân tích yêu cầu
- Danh sách các yêu cầu:
Xử lý dữ liệu đầu vào
Xây dựng hệ miễn dịch nhân tao
Xây dựng mạng nơ-ron
Xây dựng tính năng nhận diện virus
- Đặc tả yêu cầu:

Xử lý dữ liệu đầu vào: là quá trình chuẩn bị dữ liệu cho chương trình.
Dữ liệu đưa vào sẽ được cắt thành những bộ l*32 bit trong màn hình Input.
Sau đó dữ liệu sẽ được chuyển sang cho hệ miễn dịch nhân tạo.
Xây dựng mô hình hệ miễn dịch nhân tạo: là quá trình từ dữ liệu đầu
vào ta tiến hành chọn lọc tiêu cực, cho dữ liệu tiếp xúc với dữ liệu sạch (mô
phỏng tế bào miễn dịch được chọn lọc từ những tế bào sinh ra từ tuyến ức). Dữ
liệu (tế bào) khi trải qua quá trình này sẽ được coi như trưởng thành và sẽ
được sử dụng làm đầu vào cho huấn luyện mạng nơ-ron.
Xây dựng mô hình mạng nơ-ron nhân tạo: dựa vào các bộ phát hiện đã
tìm được trong hệ miễn dịch nhân tạo ta tiến hành huấn luyện mạng nơ-ron với
thuật toán lan truyền ngược. Trọng số tìm được sẽ được lưu làm dữ liệu dùng
để nhận dạng virus.
Xây dựng tính năng nhận diện virus: là quá trình dựa vào những giá trị
trọng số đã huấn luyện trong mạng nơ-ron để tiến hành so khớp và nhận dạng
mẫu.
18
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
19
3.2 Triển khai hệ thống
- Quá trình huấn luyện dữ liệu
Mô hình huấn luyện dữ liệu
19
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
20
- Quá trình nhận diện virus
Mô hình nhận dạng dữ liệu nhiễm virus
20
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
21
21

GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
22
- Hệ miễn dịch
o Xây dựng cấu trúc các tế bào T và tế bào B như sau:
Chương trình xây dựng bộ phát hiện (tế bào T, B) với chiều dài chuỗi l
= n* 32. Các chuỗi này là các chuỗi bít nhị phân, tùy thuộc vào việc phân biệt
độ dài giữa kháng nguyên và kháng thể mà ta có sự lựa chọn n sao cho thích
hơp. Điều này làm linh động cấu trúc của các tế bào bạch cầu, như vậy sẽ phù
hợp với cấu trúc của nhiều mầm bệnh (kháng nguyên) khi xâm nhập vào hệ
thống.
Cấu trúc nhỏ nhất mà ta quy định là 32 bít, như vậy, chiều dài của mỗi
tế bào là bội của 32.
Trước tiên ta rút trích từ các tệp tin virus theo chiều dài cố định là 32 bit
theo nguyên tắc không trùng lặp, để tăng độ chính xác khi ta lấy chiều dài
chuỗi l. Giả sử ta có 2 đơn vị 32 bít liên tục trưởng thành trong quá trình tôi
luyện ở chọn lọc âm tính, như thế l = 2* 32. Trong trường hợp này, khi ta rút
trích dữ liệu với đơn vị là 32 bit không lặp thì ta sẽ có chuỗi l không bị trùng
lặp như trong hình 5.6, còn nếu mà ta rút trích dữ liệu có trùng lặp thì khi đó
tập dữ liệu của ta sẽ bị trùng rất nhiều bit.
Như vậy, trong quá trình rút trích này, ta chọn rút trích dữ liệu không
trùng nhau.
Quy tắc rút trích được mô tả như sau:
Cắt không lặp
l = l1 hoặc l = l2 hoặc l = l1 + l2.
Nếu như ta rút trích tệp tin virus theo kiểu trùng lặp (giả sử trùng lặp 16
bít) có thể sẽ tăng bộ phát hiện nhưng sẽ không chính xác khi ta nối chuổi tạo
thành bộ nhận dạng.
22
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
23

Cắt lặp
l = l1 hoặc l = l2 hoặc l = l3 hoặc l = l1 + l3 + l2 lúc này chuỗi đã bị lặp
lại l3.
Sở dĩ ta có chiều dài bộ phát hiện l = n*32 bit là vì mỗi chuỗi đơn vị 32
bit không thể đặc trưng cho việc nhận dạng một loại mầm bệnh nào vì có thể
những tế bào thuộc cơ thểcũng có thể chứ chuỗi 32 bit đó, như vậy rất dễ rơi
vào tình trạng các tế bào bạch cầu sẽ phản ứng với chính cơ thể của nó.
Hệ thống hệ miễn dịch nhân tạo phải phát hiện được đâu là dữ liệu của
mình và đâu là không phải dựa trên chuổi 32 bit. Mỗi chuỗi 32 bit ta coi là một
phần tử α. Một tập gồm tất cả các phần tử α như vậy tạo thành tập U, U = {α
1
,
α
2
, α
3
, …, α
k
}, gồm 2 tập con riêng biệt U
s
và U
n-s
sao cho U = U
s
ᴗ U
n-s
và U
s

U

n-s
= ø với U
s
là tập con chứa toàn những dữ liệu của mình tức là dữ liệu sạch
và U
n-s
là tập con chứa toàn những dữ liệu không phải của mình tức là dữ liệu
bị nhiễm virus(mầm bệnh).
Như vậy, việc xây dựng cấu trúc các tế bào T và tế bào B trở thành việc
đi xây dựng các bộ phát hiện.Khi đã xây dựng cấu trúc các tế bào, ta đi qua
quá trình trưởng thành và chọn lọc âm tính.
o Chọn lọc âm tính
23
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
24
Quá trình chọn lọc âm tính
Cơ chế chọn lọc âm tính của hệ miễn dịch là cơ sở cho việc phát hiện
các yếu tố bất bình thường. Điều này được mô hình hóa bằng việc yêu cầu
những bộ phát hiện hợp lệ là những cái không hợp lệ phát hiện ra yếu tố của
mình trong thời gian huấn luyện để trưởng thành .
Ví dụ quá trình chọn lọc
24
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075
25
- Mạng nơ-ron nhân tạo – mạng lan truyền ngược: (nhận dạng
virus)
Đầu vào chính là dữ liệu đã được chọn lọc trong hệ thống miễn dịch
nhân tạo như đã trình bày ở trên.
Cho mạng nơ-ron học và ghi nhớ các trọng số
Đầu ra mong muốn là chương trình hỗ trợ nhận diện tệp tin nhiêm virus

là bao nhiêu phần tram.
Mạng nơ-ron được xậy dụng theo phương pháp học giám sát.
- Thuật toán huấn luyện mạng
Thuật toán mạng lan truyền ngược đã được trình bày trong phần cơ sở
lý thuyêt.
25
GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075

×