Tải bản đầy đủ (.docx) (198 trang)

Nghiên cứu đề xuất đặc trưng đồ thị PSI trong phát hiện mã độc botnet trên các thiết bị iot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.31 MB, 198 trang )



ỤC VÀ ĐÀO TẠ


















ỨU ĐỀ

ẤT ĐẶC TRƯNG ĐỒ

ỆN MÃ ĐỘ









Ộ –

Ĩ






ỤC VÀ ĐÀO TẠ



















ỨU ĐỀ

ẤT ĐẶC TRƯNG ĐỒ



ỆN MÃ ĐỘ













Ĩ

NGƯỜI HƯỚ





ốc Dũng



Ộ –






LỜI CAM ĐOAN
Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu đề xuất đặc trưng đồ
thị PSI trong phát hiện mã độc botnet trên các thiết bị IoT” là một cơng trình nghiên
cứu của riêng tơi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và TS.
Nguyễn Anh Quỳnh, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong
nước và quốc tế đã được trích dẫn trong luận án.
Các kết quả, số liệu được trình bày trong luận án là hồn tồn trung thực, một
phần kết quả đã được cơng bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chuyên
ngành công nghệ thông tin (tại Danh mục cơng trình của tác giả), phần cịn lại chưa
từng được cơng bố trong bất kỳ cơng trình nào khác.
Hà Nội, ngày tháng năm 2020
Tác giả

Nguyễn Huy Trung

iii


LỜI CẢM ƠN
Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến
sĩ tại Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam,

Học viện Khoa học và Công nghệ – Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Tại đây, NCS đã được các thầy, cô trong Viện Công nghệ thông tin, Học viện Khoa
học và Công nghệ giúp đỡ, chỉ dạy và trang bị những kiến thức nền tảng cần thiết
trong suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về
lĩnh vực mới và cấp thiết trong bảo mật thông tin liên quan đến phát hiện mã độc nói
chung và mã độc botnet nói riêng trên các thiết bị IoT.
Trước hết, NCS xin bày tỏ lòng biết ơn chân thành tới hai thầy hướng dẫn khoa
học, TS. Ngô Quốc Dũng và TS. Nguyễn Anh Quỳnh. Hai thầy đã ln giúp đỡ, động
viên, khích lệ và cho NCS nhiều kinh nghiệm quý báu, định hướng cách tư duy và
cách làm việc trong nghiên cứu khoa học và cuộc sống, giúp NCS vững tin vượt qua
những khó khăn trong suốt q trình thực hiện luận án.
Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, một người anh đã
cho NCS nhiều lời khuyên quý báu trước khi NCS bắt đầu quá trình học tập nghiên
cứu Tiến sĩ. NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng sự Lê Văn
Hồng, Nguyễn Dỗn Hiếu đã có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực
hiện luận án. Bên cạnh đó, NCS xin gửi lời cảm ơn tới Ban Giám đốc, các Phòng ban
liên quan và TS. Sử Ngọc Anh - lãnh đạo Khoa An ninh thông tin của Học viện An
ninh nhân dân đã tạo điều kiện về thời gian và tài chính để NCS có thể tập trung học
tập và thực hiện luận án này.
Cuối cùng, từ tận đáy lòng NCS xin gửi lời cảm ơn vơ hạn đến với gia đình, đặc
biệt là con gái bởi đó ln là động lực phấn đấu của NCS, ln khuyến khích, động
viên NSC trong q trình nghiên cứu khoa học. Luận án này sẽ khơng thể hồn thành
nếu khơng có sự ủng hộ, động viên và giúp đỡ của họ.


MỤC LỤC

Trang
LỜI CAM ĐOAN...................................................................................................i
LỜI CẢM ƠN....................................................................................................... ii

MỤC LỤC............................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.......................................vi
DANH MỤC CÁC BẢNG..................................................................................vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ............................................................viii
MỞ ĐẦU...............................................................................................................1
1. Đặt vấn đề......................................................................................................1
1.1. Thơng tin cơ bản.....................................................................................1
1.2. Cơ sở đề xuất nghiên cứu.......................................................................3
2. Mục tiêu nghiên cứu......................................................................................5
3. Đối tượng và phạm vi nghiên cứu.................................................................5
4. Nội dung và phương pháp nghiên cứu.......................................................... 6
5. Các đóng góp của luận án..............................................................................8
6. Bố cục của luận án.........................................................................................9
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT....................................................................11
1.1. Mã độc IoT botnet....................................................................................11
1.1.1. Khái niệm và đặc điểm thiết bị IoT...................................................11
1.1.2. Khái niệm mã độc IoT botnet............................................................15
1.1.3. Sự tiến hóa của mã độc IoT botnet....................................................17
1.1.4. Cấu trúc và nguyên lý hoạt động của mã độc IoT botnet..................23
1.1.5. Sự khác biệt giữa mã độc botnet truyền thống và IoT botnet...........25
1.2. Học máy và học sâu trong phát hiện mã độc IoT botnet..........................28
1.2.1. Học máy............................................................................................ 28
1.2.2. Học sâu..............................................................................................34


1.3. Kết luận Chương 1................................................................................... 39
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET...........40
2.1. Tổng quan các phương pháp phát hiện mã độc IoT botnet...................... 40
2.1.1. Phân tích động...................................................................................41
2.1.2. Phân tích tĩnh.....................................................................................43

2.1.3. Phân tích lai.......................................................................................46
2.1.4. So sánh giữa phân tích tĩnh và phân tích động..................................47
2.2. So sánh, đánh giá các phương pháp dựa trên phân tích tích trong phát
hiện mã độc IoT botnet.............................................................................48
2.2.1. Phân tích tĩnh dựa trên đặc trưng phi cấu trúc đồ thị........................ 49
2.2.2. Phân tích tĩnh dựa trên đặc trưng có cấu trúc đồ thị..........................56
2.2.3. Xây dựng bộ cơ sở dữ liệu thử nghiệm............................................. 63
2.2.4. Các tiêu chí đánh giá......................................................................... 68
2.2.5. Kết quả thực nghiệm và nhận xét......................................................70
2.3. Kết luận Chương 2 và định hướng nghiên cứu........................................ 73
CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC IOT
BOTNET............................................................................................................. 75
3.1. Phát biểu bài toán..................................................................................... 75
3.2. Giải thích bài tốn.................................................................................... 76
3.3. Sơ đồ và ý tưởng phương pháp đề xuất....................................................79
3.4. Đồ thị lời gọi hàm trong phát hiện mã độc IoT botnet.............................81
3.4.1. Khái niệm đồ thị lời gọi hàm.............................................................81
3.4.2. Xây dựng đồ thị lời gọi hàm..............................................................83
3.5. Xây dựng đồ thị PSI................................................................................. 88
3.5.1. Các khái niệm liên quan.................................................................... 88
3.5.2. Thuật toán xây dựng đồ thị PSI.........................................................90
3.6. Đánh giá thực nghiệm.............................................................................. 96


3.6.1. Mơi trường thực nghiệm....................................................................96
3.6.2. Mơ hình đánh giá...............................................................................96
3.6.3. Các kết quả thực nghiệm và thảo luận.............................................101
3.7. Kết luận Chương 3................................................................................. 104
CHƯƠNG 4. ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN
MÃ ĐỘC IOT BOTNET...................................................................................105

4.1. Phát biểu bài toán................................................................................... 105
4.2. Sơ đồ và ý tưởng phương pháp đề xuất..................................................106
4.3. Xây dựng đặc trưng đồ thị PSI-rooted subgraph....................................107
4.3.1. Khái niệm........................................................................................ 107
4.3.2 Thuật toán xây dựng PSI-rooted subraph.........................................108
4.4. Thực nghiệm và đánh giá kết quả.......................................................... 112
4.4.1. Môi trường thực nghiệm..................................................................112
4.4.2. Mơ hình đánh giá.............................................................................113
4.4.3. Các kết quả thực nghiệm và thảo luận.............................................116
4.5. Kết luận Chương 4................................................................................. 122
KẾT LUẬN VÀ KIẾN NGHỊ...........................................................................124
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ................................................. 127
TÀI LIỆU THAM KHẢO.................................................................................129


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ viết tắt

Viết đầy đủ (tiếng Anh)

Viết đầy đủ (tiếng Việt)

IoT

Internet of things

Vạn vật kết nối Internet

DL


Deep Learning

Học sâu

ML

Machine Learning

Học máy

SVM

Support Vector Machine

Máy hỗ trợ vector

GPU

Graphical Processing Unit

Thẻ xử lý đồ họa

CFG

Control Flow Graph

Đồ thị luồng điều khiển

PSI


Printable String Information

Thơng tin có ý nghĩa

DNN

Deep Neural Networ

Mạng nơ-ron học sâu

ELF

Executable Linkable Format

Định dạng tập tin ELF

DNS

Domain Name System

Hệ thống tên miền

KNN

K-nearest neighbour

Thuật toán k láng giềng gần nhất

Random Forest


Thuật toán rừng ngẫu nhiên

RNN

Recurrent Neural Network

Mạng nơ-ron hồi quy

CNN

Convolution Neural Network

Mạng nơ-ron tích chập

SVM

Support Vector Machine

Thuật toán máy hỗ trợ vector

RF


DANH MỤC CÁC BẢNG

Trang
Bảng 1.1. So sánh mã độc botnet trên máy tính truyền thống và IoT

26


Bảng 2.1. Ưu điểm và hạn chế của phân tích động

42

Bảng 2.2. Ưu điểm và hạn chế của phân tích tĩnh

44

Bảng 2.3. So sánh các phương pháp phân tích, phát hiện mã độc IoT botnet

47

Bảng 2.4. So sánh các phương pháp phát hiện mã độc IoT botnet dựa trên đặc
trưng tĩnh trong các nghiên cứu gần đây
Bảng 2.5. Mô tả tập dữ liệu mẫu để thử nghiệm

61
67

Bảng 2.6. Kết quả thực nghiệm các hướng tiếp cận dựa trên đặc trưng tĩnh hiện
nay trong phát hiện mã độc IoT botnet

71

Bảng 3.1. So sánh giữa đồ thị PSI và đồ thị lời gọi hàm FCG

93

Bảng 3.2. Chi tiết số lượng cạnh và số lượng đỉnh trong đồ thị PSI giữa các

lớp mẫu

93

Bảng 3.3. Kết quả phát hiện mã độc IoT botnet bằng đồ thị PSI và đồ thị lời
gọi hàm

101

Bảng 3.4. Kết quả so sánh giữa các phương pháp phát hiện IoT botnet

103

Bảng 4.1. Một ví dụ sinh đồ thị con PSI có gốc với độ sâu bằng 2

111

Bảng 4.2. Kết quả của các bộ phân loại với đặc trưng đề xuất

116

Bảng 4.3. Kết quả đánh giá phát hiện mã độc với tập dữ liệu kiến trúc ARM

117

Bảng 4.4. Kết quả đánh giá phát hiện mã độc với tập dữ liệu dựa kiến trúc MIPS 118
Bảng 4.5. So sánh thời gian xử lý

119


Bảng 4.6. So sánh độ chính xác của các bộ phân lớp học máy truyền thống
trong phát hiện mã độc IoT botnet

120


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Hình 1.1. Số lượng các thiết bị IoT từ năm 2015 – 2025

12

Hình 1.2. Minh họa ứng dụng của Internet of Things (IoT) trong cuộc sống

13

Hình 1.3. Số lượng mã độc botnet trên các thiết bị IoT giai đoạn 2016 – 2018

16

Hình 1.4. Vị trí của mã độc IoT botnet trong các loại mã độc

17

Hình 1.5. Mối quan hệ giữa một số mã độc IoT botnet

18

Hình 1.6. Quy trình lây nhiễm của mã độc IoT botnet


23

Hình 1.7. Một ví dụ minh họa cây quyết định

30

Hình 1.8. Minh họa lề tối đa cho siêu phẳng với phân loại 2 lớp

32

Hình 1.9. Biểu diễn một mạng nơ-ron truyền thẳng

34

Hình 1.10. Một mơ hình mạng nơ-ron tích chập

35

Hình 1.11. Mơ hình Skip-gram (trái) và CBOW (phải)

37

Hình 1.12. Mơ hình túi từ phân tán

38

Hình 1.13. Mơ hình bộ nhớ phân tán

38


Hình 2.1. Phân loại các phương pháp phát hiện mã độc IoT botnet

41

Hình 2.2. Các phương pháp phân tích lai

46

Hình 2.3. Tổng quan tiến trình phát hiện mã độc IoT botnet dựa trên các đặc
trưng tĩnh
Hình 2.4. Phân loại các đặc trưng tĩnh trong phát hiện mã độc IoT botnet

48

Hình 2.5. Minh họa các chuỗi Opcode trong tập tin thực thi mã độc

50

Hình 2.6. Một số chuỗi PSI trong tập tin nhị phân mã độc

52

Hình 2.7. Chuỗi BAD được mơ tả dưới dạng ASCII

52

Hình 2.8. Chuỗi BAD được miêu tả dưới dạng Unicode

53


Hình 2.9. Định dạng tập tin ELF

54

Hình 2.10. Q trình biểu diễn mã độc thơng qua ảnh đa mức xám

55

Hình 2.11. Ví dụ ảnh mẫu mã độc dịng Linux.Gafgyt

56

Hình 2.12. Minh họa một đồ thị đơn giản

57

49


Hình 2.13. Minh họa một đồ thị có hướng và nhãn

57

Hình 2.14. Đồ thị CFG của một mẫu mã độc botnet Linux.Bashlite

59

Hình 2.15. Minh họa đồ thị Opcode

60


Hình 2.16. Kết quả tải về tập dữ liệu mã độc IoT botnet từ IoTPOT

63

Hình 2.17. Giao thức telnet

64

Hình 2.18. Giao diện của VirusShare sau khi đăng nhập với tài khoản được cấp

65

Hình 2.19. Kết quả tải về tập dữ liệu mã độc IoT botnet từ VirusShare

66

Hình 2.20. Sự phân bố kiến trúc vi xử lý trong các mẫu mã độc IoT botnet

67

Hình 3.1. Tổng quan bài toán phát hiện mã độc IoT botnet dựa trên đặc trưng
đồ thị

76

Hình 3.2. Quy trình phương pháp đề xuất phát hiện mã độc IoT botnet

80


Hình 3.3. Minh họa cấu trúc của tập tin bị đóng gói bằng UPX

84

Hình 3.4. Một hàm từ mã độc Linux.Mirai

85

Hình 3.5. Một phần đồ thị lời gọi hàm của mã độc Linux.Mirai

87

Hình 3.6. Các chuỗi bị mã hóa trong Linux.Mirai

89

Hình 3.7. Minh họa lưu trữ dữ liệu đồ thị PSI

92

Hình 3.8. Số lượng các cạnh và đỉnh giữa các lớp mẫu

94

Hình 3.9. Đồ thị lời gọi hàm (trái) và đồ thị PSI (phải) của mẫu mã độc
Linux.Bashlite
Hình 3.10. Mơ hình đánh giá đặc trưng đồ thị PSI trong phát hiện mã độc IoT
botnet
Hình 3.11. Mơ hình cơ bản của kỹ thuật nhúng đồ thị


95

Hình 3.12. Mơ hình hoạt động của graph2vec tương đồng với doc2vec

99

Hình 4.1. Minh họa ý tưởng bài tốn dùng đồ thị con PSI có gốc

97
98

105

Hình 4.2. Tổng quan phương pháp đề xuất sử dụng PSI-rooted subgraph trong
phát hiện mã độc IoT botnet
106
Hình 4.3. Một ví dụ đồ thị PSI

107

Hình 4.4. Kết quả thử nghiệm với các độ sâu khác nhau khi duyệt đồ thị con
PSI
109
Hình 4.5. Một minh họa đồ thị con PSI có gốc ở đỉnh 11.

111


Hình 4.6. Biểu đồ phân tán mơ tả phân bố các điểm dữ liệu của đồ thị con PSI
112

có gốc trong tập dữ liệu sau khi giảm chiều LSA 3-D
Hình
4.7.
Minh
họa
kỹ
thuật
đánh
giá
chéo
kfold
Hìn
h
1
4.8. 1
Mơ 4
hình
đánh
giá
đặc
trưn
g đồ
thị
con
PSI

gốc
tron
g
phát

hiện

độc
IoT
botn
et


Hình 4.9. Các bộ phân lớp học máy phổ biến trong phát hiện mã độc
Hình 4.10. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên 116
tập dữ liệu
Hình 4.11. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên 117
tập dữ liệu kiến trúc ARM
Hình 4.12. Kết quả đường cong ROC của Bagging, RF, DT, kNN và
SVM trên tập dữ liệu kiến trúc MIPS

118

Hình 4.13. Cấu trúc mơ hình Skipgram với trường hợp từ trung tâm là
“passes”
121
Hình (i). Mơ hình ứng dụng thực tế của phương pháp phát hiện IoT
botnet sử dụng đặc trưng đồ thị PSI

125


MỞ ĐẦU
1. Đặt vấn đề
7K{̫Qn J WLQ F˯ E

Cuộc cách mạng cơng nghiệp 4.0 hay cịn được gọi với những cái tên như Vạn
vật kết nối Internet (Internet of Things - IoT) hay công nghiệp Internet (Industrial
Internet) làm biến đổi nhanh chóng nền cơng nghiệp ở mọi quốc gia, diễn ra trên toàn
cầu. Với nhiều tên gọi khác nhau nhưng đặc điểm nổi bật nhất của cuộc cách mạng
công nghiệp lần thứ 4 đó là việc dịch chuyển các hệ thống máy móc sản xuất truyền
thống sang các hệ thống tự động hố có khả năng tự hành một cách thông minh dựa
trên nền tảng lõi là các thiết bị IoT. Thông qua cuộc các mạng công nghiệp 4.0 mà giáo
dục, y tế, chính trị, xã hội, kinh tế đã có những thành tựu vượt bậc trong thời gian
ngắn. Bên cạnh những tiện ích mà cuộc cách mạng cơng nghiệp 4.0 mang lại thì an
tồn thơng tin trên khơng gian mạng ngày càng trở nên phức tạp, tiềm ẩn nhiều nguy
cơ ảnh hưởng trực tiếp tới an ninh quốc gia, lợi ích hợp pháp của người dân. Những
nguy cơ này ngày càng hiện hữu khi mà các chuỗi cung ứng, nhà máy, người tiêu dùng
và các hoạt động liên quan được kết nối với nhau. Khác biệt với máy tính truyền
thống, thiết bị IoT rất đa dạng về chủng loại và kiến trúc phần cứng, chính sự đa dạng
của thiết bị IoT khiến sự phát triển về số lượng thiết bị IoT bùng nổ. Dự kiến đến năm
2025 sẽ có khoảng 75 tỷ thiết bị [28] được sử dụng ở nhiều lĩnh vực, ngành nghề và
đem tới nhiều trải nghiệm cho người sử dụng như nhà thông minh, giao thông thông
minh, y tế thông minh [8]. Theo nghiên cứu của Gartner, đến năm 2020 ước tính 25%
các cuộc tấn cơng hệ thống thông tin tập trung và các thiết bị IoT [18], và sẽ ngày càng
nhiều ngành nghề, lĩnh vực áp dụng cơng nghệ IoT, điều đó sẽ khiến số lượng và quy
mô các cuộc tấn công mạng sẽ tiếp tục gia tăng. Bên cạnh đó, nghiên cứu của OWASP
(Open Web Application Security Project) cũng cho thấy 75% các thiết bị IoT có nguy
cơ bị tấn cơng xâm nhập [29]. Dưới góc độ của kẻ tấn cơng, các thiết bị IoT là mơi
trường hấp dẫn bởi khác với máy tính truyền thống, các thiết bị IoT hoạt động liên tục
24/7, khó cài đặt các giải pháp phịng chống mã độc (anti-malware), sử dụng cơ chế
xác thực yếu,… , điều đó khiến kẻ tấn công dễ dàng truy cập mức sâu vào các thiết bị
IoT (ví dụ như Busybox) [22]. Với thực tế đó, nhiều cá nhân và tổ chức trong và ngoài
14



nước đã quan tâm, đầu tư nghiên cứu về đảm bảo an tồn thơng tin đối với thiết bị IoT.
Một khảo sát, thống kê các nghiên

15


cứu đã công bố từ 2016 – 2018 tại các tạp chí uy tín của các nhà xuất bản lớn trên thế
giới như Elsevier, IEEE, Hindawi and Springer [6] cho thấy xác thực vẫn là giải pháp
phổ biến trong bảo mật thiết bị IoT và quản lý tin cậy (trust) vẫn đang tiếp tục được
đẩy mạnh sự đầu tư nghiên cứu. Ngồi ra có thể kể đến một số nghiên cứu về giải pháp
mã hóa nhẹ (light), giao thức và cơ chế truyền thơng an tồn đối với thiết bị IoT.
- Tại Việt Nam, các giải pháp bảo mật IoT theo 2 hướng chính là giải pháp quản lý và
giải pháp công nghệ, kỹ thuật. Đối với các giải pháp quản lý thì có thể kể đến Viện
Chiến lược Thơng tin và Truyền thông - Bộ Thông tin và Truyền thơng đã có đề tài
“Nghiên cứu xu thế phát triển, những tác động của công nghệ IoT (Internet of Things)
và đề xuất giải pháp quản lý phù hợp”, mã số 40-15-KHKT-RD, đã có những nghiên
cứu tổng quan về thiết bị IoT và các ứng dụng của IoT được phát triển ở Việt Nam. Từ
những lợi ích đó, nhóm nghiên cứu của Viện đã đưa ra những giải pháp bảo mật, an
tồn thơng tin cho sự phát triển IoT ở Việt Nam. Tuy nhiên những giải pháp đó mới
dừng ở mức chính sách quản lý đã ban hành và sẽ ban hành, các giải pháp về phát triển
cơ sở hạ tầng, giải pháp bảo mật ở mức ứng dụng cơ bản cũng như các tiêu chuẩn
trong IoT tại Việt Nam. Về giải pháp cơng nghệ, kỹ thuật thì nhóm nghiên cứu của
Trung tâm an tồn an ninh thơng tin - Đại học Bách khoa Hà Nội hiện đang nghiên cứu
một số giải pháp, hệ thống an ninh mạng với thiết bị IoT, có thể kể đến một số nghiên
cứu như Luangoudom sonexay và cộng sự [1], Nguyễn Văn Tánh và cộng sự [2] đã
trình bày giải pháp phát hiện tấn cơng trong mạng IoT, trong đó nghiên cứu chỉ tập
trung phân tích chi tiết các dạng tấn cơng vào giao thức định tuyến RPL (Routing
Protocol for Low-Power and Lossy Networks) được thiết kế cho mạng cảm biến không
dây và IoT.
- Trên thế giới, đã có nhiều cá nhân, tổ chức quan tâm nghiên cứu vấn đề bảo mật cho

IoT như. James King và cộng sự [72] đã phát triển giải pháp nhẹ (light) nhằm bảo vệ
kênh truyền giữa các thiết bị IoT có tài nguyên hạn chế với các cổng kết nối (gateway).
Các nhà nghiên cứu tại Eurecom (Pháp) [10] đã thực hiện khảo sát, đánh giá trên diện
rộng mức độ an toàn của các thiết bị IoT cỡ nhỏ như Router, IPCamera và phát hiện ra
trong 32.256 phần sụn (firmware) được phân tích: có hơn 38 loại lỗ hổng zero- day;
phát hiện nhiều cổng hậu (backdoor) giúp các nhà cung cấp, tin tặc dễ dàng truy cập
trái phép vào các thiết bị từ xa bất hợp pháp. Cùng hướng nghiên cứu này và để thúc


đẩy sự hợp tác trong chương trình nghiên cứu và phát triển về an tồn thơng tin của
cộng


đồng chung Châu Âu (EU), Châu Âu đã thành lập Cụm dự án nghiên cứu trên IoT
(CERP-IoT, Cluster of European Research Projects on IoT) năm 2010 để tiến hành
nghiên cứu chuyên sâu về đảm bảo an ninh, an toàn cho các thiết bị IoT. Các nhà
nghiên cứu Nhật bản cũng đã giới thiệu giải pháp IoTProtect [106] nhằm đảm bảo an
toàn cho các thiết bị IoT. Cơ chế hoạt động của IoTProtect là sử dụng tác tử phần mềm
và danh sách trắng (Whitelist) để kiểm tra định kỳ các tiến trình đang chạy trên thiết bị
IoT và sẽ kết thúc các tiến trình khả nghi hoặc khơng xác định. Bên cạnh đó, dựa trên các
nghiên cứu của Yashaswini và cộng sự [109], Rafiullah Khan và cộng sự [16] thấy rằng
các nguy cơ đe dọa an ninh, an tồn thơng tin đối với các thiết bị IoT bao gồm các
hình thức chính như tấn cơng giả mạo, tấn cơng bằng phần mềm độc hại, tấn cơng
thăm dị, tấn cơng từ chối dịch vụ.
Trong khi đó, mã độc botnet là nguy cơ đe dọa thường trực nhất đối với các
thiết bị IoT [15]. Ví dụ điển hình là tháng 10/2016, nhà cung cấp dịch vụ tên miền lớn
của Mỹ là Dyn đã bị mã độc Linux.Mirai tấn công từ chối dịch vụ phân tán (DDoS –
Distributed Denial of Service), với lưu lượng được ghi nhận lại là lớn nhất từ trước
đến nay ở ngưỡng 1,2 Tbps (Terabit per second) với hơn 1,2 triệu thiết bị IoT bị lây
nhiễm [5], đồng thời mã độc Linux.Mirai cũng hướng tới nhiều dịch vụ trực tuyến phổ

biến như Google, Amazon,…
ͧ ÿ͉&x˯ṷ t nVghiên cͱu
Hiện nay, các nghiên cứu về phát hiện mã độc IoT botnet đã thu hút sự quan
tâm của các nhà nghiên cứu bảo mật. Những nghiên cứu và phương pháp này được
thực hiện dựa trên phát hiện mã độc botnet tự động sử dụng phân tích tĩnh hoặc phân
tích động. Luận án này được thúc đẩy bởi vấn đề nghiên cứu mở sau đây:
- Hiện nay, thiết bị IoT bùng nổ về số lượng, kéo theo số lượng mã độc IoT botnet cũng
gia tăng vượt trội. Dựa trên báo cáo của công ty nghiên cứu thị trường Statista (Đức),
số lượng thiết bị IoT trong năm 2018 đạt 23,14 tỷ thiết bị, tăng 13,7% so với năm 2017
[28]. Theo báo cáo của hãng Kaspersky, số lượng mã độc IoT botnet trong năm 2018
cũng tăng khoảng 73% so với năm 2017.
- Các thiết bị IoT đa dạng, bao gồm nhiều loại thiết bị điện tử nhưng thường được chia
thành 2 nhóm là các thiết bị IoT hạn chế tài nguyên và các thiết bị IoT không hạn


chế tài nguyên. Hiện nay, đã có nhiều nghiên cứu về phát hiện mã độc botnet, tiêu biểu
như nghiên cứu của Zhao và cộng sự [27], Chowdhury và cộng sự [9], Homayoun và
cộng sự [67]. Tuy nhiên, các nghiên cứu này tập trung vào phát hiện mã độc botnet
trên các thiết bị IoT không hạn chế tài nguyên, như máy tính cá nhân truyền thống
(Personal Computer). Do đó, trong phần cơ sở đề xuất này, luận án sẽ tập trung giải
quyết vấn đề nghiên cứu trên các thiết bị IoT hạn chế tài ngun (bộ nhớ thấp, năng
lực tính tốn nhỏ, dung lượng năng lượng pin thấp), ví dụ IP camera, thiết bị định
tuyến, thiết bị chuyển mạch, khóa cửa thông minh,… bởi những thiết bị IoT hạn chế
tài nguyên ít được triển khai cơ chế bảo mật, đảm bảo an tồn thơng tin hoặc các giải
pháp bảo mật rất yếu kém, dễ bị tin tặc khai thác, tấn công.
- Bên cạnh đó, lĩnh vực nghiên cứu phát hiện mã độc botnet trên các thiết bị IoT hạn chế
tài nguyên chưa được quan tâm, đầu tư nghiên cứu, mà chủ yếu các nghiên cứu hiện
nay đều dựa trên các bộ luật (rule-based) và dựa trên luồng (flow-based, ví dụ như địa
chỉ IP nguồn/đích, giao thức, số lượng gói tin được gửi/và nhận,…) . Các phương pháp
trên hiện vẫn còn bộc lộ nhiều hạn chế như khó phát hiện các hành vi độc hại của

botnet một cách hiệu quả, dựa trên bộ luật có tỷ lệ phát hiện nhầm cao khi mã độc sử
dụng kỹ thuật gây rối, … Chính vì thế, các hướng tiếp cận dựa trên cấu trúc đồ thị,
xuất phát từ các thông tin mức luồng dữ liệu để phản ánh hành vi của mã độc botnet là
một giải pháp có thể khắc phục những hạn chế trên [3]. Tuy nhiên, các phương pháp
theo hướng cấu trúc đồ thị trong phát hiện mã độc IoT botnet hiện có độ phức tạp tính
tốn lớn. Bên cạnh đó, nghiên cứu của Elisa Bertino và cộng sự [58], Kolias và cộng
sự [77], là những nghiên cứu này bước đầu tìm hiểu và giới thiệu một số giải pháp kỹ
thuật nhằm hạn chế sự lây nhiễm của mã độc botnet trên thiết bị IoT. Các nghiên cứu
tiêu biểu trong phát hiện mã độc IoT botnet có thể kể đến như Haddadpajouh và cộng
sự [14], Azmoodeh và cộng sự [36], Su và cộng sự [25]; tuy nhiên những nghiên cứu
này hầu hết đưa ra giải pháp, đánh giá và thực nghiệm trên mã độc IoT botnet đơn kiến
trúc.
Những vấn đề cho thấy việc nghiên cứu các phương pháp phát hiện mã độc IoT
botnet mới là cấp thiết, có ý nghĩa về mặt thực tiễn và khoa học, đáp ứng đòi hỏi ngày
càng cao của cơng tác bảo đảm an ninh, an tồn thơng tin cho các thiết bị IoT nói riêng


và khơng gian mạng nói chung. Phương pháp đề xuất của luận án giải quyết được các
thách thức còn tồn tại sau:


- Thứ nhất là tính đa kiến trúc của các thiết bị IoT, một đặc trưng quan trọng của thiết bị
IoT. Trong phạm vi luận án, việc sử dụng hai thuật ngữ thiết bị IoT và thiết bị IoT hạn
chế tài ngun là đồng nhất;
- Thứ hai là có tính hiệu quả cao (độ chính xác cao, độ phức tạp thấp);
- Thứ ba là hướng tiếp cận không theo hướng dựa trên các bộ luật và dựa trên luồng, mà
là dựa trên đồ thị và học máy, học sâu.
2. Mục tiêu nghiên cứu
Từ việc phân tích tính cấp thiết của đề tài đã trình bày ở trên, luận án xác định
mục tiêu nghiên cứu nhằm đề xuất một đặc trưng có cấu trúc đồ thị mới và hiệu quả

(độ chính xác cao, độ phức tạp thấp) trong phát hiện mã độc IoT botnet, có khả năng
xử lý mã độc IoT botnet đa kiến trúc.
3. Đối tượng và phạm vi nghiên cứu
*) Đối tượng nghiên cứu của đề tài: Để đạt được mục tiêu nghiên cứu đã đặt
ra, luận án này tập trung vào nghiên cứu các tập tin thực thi trên thiết bị IoT. Các tập
tin thực thi trên thiết bị IoT có thể là mã độc hoặc lành tính, trong đó các tập tin thực
thi được thu thập từ nhiều nguồn uy tín như mạng bẫy (honeypot) hoặc được bóc tách
từ phần sụn của các thiết bị IoT, sẽ được trình bày chi tiết ở phần sau của luận án này.
Hiện nay đã có những nghiên cứu chỉ ra rằng, trong bài tốn nghiên cứu phát hiện mã
độc thì thường lựa chọn các tập tin thực thi làm mục tiêu phân tích. Nguyên nhân bởi
các tập tin thực thi được xem như là ánh xạ một một, giúp đảm bảo tính tồn vẹn các
hành vi độc hại của mã độc khi lây nhiễm cũng như việc phân tích về sau của luận án.
Bên cạnh đó, các thiết bị IoT chạy trên nền tảng hệ điều hành Linux chiếm đại đa số
[31]. Với những lý do trên, đối tượng nghiên cứu, thực nghiệm của luận án là các tập
tin thực thi trên thiết bị IoT, có tính đa kiến trúc và có nền tảng trên các hệ điều hành
Linux Kernel
2.6 hoặc 3.2. Tuy nhiên, nguyên tắc tổng quát và kiến trúc của phương pháp đề xuất được
áp dụng cho hầu hết các thiết bị IoT chạy trên các nền tảng hệ điều hành khác.
*) Phạm vi nghiên cứu của đề tài:
Bài tốn phân tích mã độc được chia thành 3 nhóm chính sau [26]:


(1) Phát hiện mã độc, cung cấp khả năng phân biệt các tập tin mã độc giữa các tập mẫu
lành tính;
(2) Phân loại mã độc, cung cấp khả năng quyết định mã độc thuộc về loại nào (như
virus, worm, trojan, hay botnet);
(3) Sự tiến hóa của mã độc, phát hiện ra mối liên hệ kế thừa giữa các loại mã độc.
Phân loại mã độc là bài toán phân loại đa lớp và phát hiện mã độc có thể xem
như bài toán phân loại hai lớp (nhị phân). Trong phạm vi nghiên cứu, luận án tập trung
vào bài toán phát hiện mã độc. Luận án này phát triển hướng tiếp cận mới trong phát

hiện mã độc IoT botnet, được trình bày chi tiết trong luận án này với phạm vi nghiên
cứu sau:
-Có nhiều loại mã độc lây nhiễm trên các thiết bị IoT như Trojan, Worm, Ransomware,
… Nhưng trên các thiết bị IoT hạn chế tài ngun thì ít thơng tin người sử dụng để mã
độc giám sát, thu thập, mã hóa; trong khi số lượng thiết bị IoT lớn và phân tán khắp
nơi nên hiện nay hầu hết mã độc lây nhiễm trên thiết bị IoT là mã độc botnet [49]. Vì
lý do đó, luận án chỉ tập trung nghiên cứu, phát hiện mã độc IoT botnet.
-Có nhiều cách phân loại thiết bị IoT như dựa trên hãng sản xuất, dựa trên giao thức sử
dụng, dựa trên mục đích kết nối, … Nhưng để phù hợp với nội dung nghiên cứu của
luận án thì luận án sẽ tập trung vào các thiết bị IoT hạn chế về tài nguyên như năng
lượng tiêu thụ thấp, bộ nhớ lưu trữ hạn chế, khả năng tính tốn hạn chế. Ví dụ IP
camera, thiết bị định tuyến, thiết bị chuyển mạch, khóa cửa thơng minh,…
-Có 02 hướng chính trong phát hiện mã độc botnet là phân tích tĩnh và phân tích động.
Tuy nhiên, để đạt được mục tiêu nghiên cứu, luận án lựa tiếp cận theo phương pháp có
khả năng xử lý vấn đề đa kiến trúc của thiết bị IoT hiệu quả và hiệu suất, đó là phân
tích tĩnh.
4. Nội dung và phương pháp nghiên cứu
*) Nội dung nghiên cứu
Để đạt được mục tiêu nghiên cứu đã đề ra ở trên, luận án sẽ tập trung phân tích,
đánh giá một số nội dung sau:


- Nghiên cứu sự phát triển, tiến hóa và đặc điểm của mã độc IoT botnet cũng như các
phương pháp phát hiện mã độc IoT botnet hiện nay.
- Khảo sát, phân tích và đánh giá lại các phương pháp phát hiện mã độc IoT botnet hiện
nay dựa trên phân tích tĩnh trên cùng bộ cơ sở dữ liệu lớn và môi trường thử nghiệm.
- Nghiên cứu và đề xuất đặc trưng mới có cấu trúc đồ thị trong phát hiện mã độc IoT
botnet
- Đánh giá đặc trưng đã đề xuất về độ chính xác và độ phức tạp trong phát hiện mã độc
IoT botnet bằng cách sử dụng tập dữ liệu lớn và đáng tin cậy, so sánh với những

phương pháp hiện tại cùng hướng tiếp nghiên cứu
Các nội dung trên được giải quyết và trình bày cụ thể trong các Chương sau của
luận án này, cấu trúc cụ thể được trình bày trong phần tiếp theo của luận án này.
*) Phương pháp nghiên cứu
• Nghiên cứu lý thuyết:
Tiến hành nghiên cứu, khảo sát, tổng hợp, đánh giá các công trình nghiên cứu
liên quan ở trong và ngồi nước để phân tích những vấn đề chưa giải quyết, những vấn
đề cần tiếp tục nghiên cứu theo hướng của đề tài. Các cơng trình nghiên cứu được tìm
kiếm tại các kho dữ liệu trực tuyến như:
- Google Scholar ( />- ScienceDirect ( />- ACM Digital Library ( />- IEEE Xplore ( />- Một số hội thảo về an tồn thơng tin trong lĩnh vực cơng nghiệp uy tín hàng đầu như
Blackhat, USENIX, DEF CON, …
Trong đó, tập trung nghiên cứu về đặc trưng hành vi vòng đời lây nhiễm của mã
độc IoT botnet, nghiên cứu các đoạn mã dịch ngược của các tập tin thực thi trên thiết
bị IoT, … Trên cơ sở đó, lựa chọn các nội dung, vấn đề sẽ nghiên cứu, đề xuất và giải
quyết. Hệ thống hóa các vấn đề cần thực hiện, đề xuất mơ hình bài tốn, đưa ra các vấn
đề để phân tích, đánh giá và thực hiện.


• Nghiên cứu thực nghiệm:
Dựa trên tập dữ liệu gồm hơn 10000 mẫu gồm cả mã độc botnet và mẫu lành
tính trên thiết bị IoT, chia thành các tập huấn luyện và kiểm thử, sử dụng kỹ thuật kiểm
thử chéo (cross-validation), luận án tiến hành các thí nghiệm, thực nghiệm xây dựng
đặc trưng mã độc IoT botnet bằng các phương pháp phát hiện mã độc IoT botnet, trên
tập dữ liệu các tập tin thực thi trên IoT (mã độc, lành tính). Thực nghiệm đánh giá tính
hiệu quả của đặc trưng đồ thị PSI mà luận án đề xuất với học sâu. Thực nghiệm xây
dựng và đánh giá đặc trưng đồ thị con PSI có gốc (PSI-rooted subgraph) với các thuật
tốn học máy để nâng cao hiệu quả trong bài toán phát hiện mã độc IoT botnet.
5. Các đóng góp của luận án
Luận án này tập trung giải quyết các nội dung đã nêu trên. Các đóng góp có thể
được liệt kê như kết quả của luận án này:

- Đóng góp 1: Thực nghiệm, phân tích và đánh giá các phương pháp phát hiện mã độc
IoT hiện nay với cùng bộ cơ sở dữ liệu lớn các tập tin thực thi trên IoT (gồm mã độc
và lành tính), trong đó có các mẫu mã độc thực tế, quá trình thực nghiệm các phương
pháp đó thực hiện trên cùng một cấu hình hệ thống. Kết quả đạt được góp phần đem lại
một đánh giá tổng quan về các phương pháp phát hiện mã độc IoT hiện nay, từ đó góp
phần giúp các nhà nghiên cứu có thể lựa chọn hướng tiếp cận phù hợp cho bài tốn
phát hiện mã độc IoT nói chung và IoT botnet nói riêng.
- Đóng góp 2: Luận án đề xuất được một phương pháp mới, gọi là đồ thị PSI (Printable
String Information) có thể mơ phỏng q trình lây nhiễm của mã độc IoT botnet.
Phương pháp đề xuất có độ phức tạp thấp nhưng vẫn đảm bảo độ chính xác cao trong
phát hiện mã độc IoT botnet.
- Đóng góp 3: Luận án đề xuất cải tiến phương pháp phát hiện mã độc IoT botnet dựa trên đồ
thị PSI bằng đồ thị con có gốc PSI (PSI-rooted subgraph) để hồn thiện quy trình phát
hiện mã độc IoT botnet mà luận án đề xuất với độ chính xác cao và độ phức tạp thấp.
Toàn bộ mã nguồn nghiên cứu của luận án được công bố mở tại địa chỉ sau:
/>

6. Bố cục của luận án
Với những kết quả nghiên cứu đã thực hiện, luận án được trình bày trong bố cục
gồm phần mở đầu, 4 chương nội dung và phần kết luận, hướng phát triển của đề tài.
Cụ thể bố cục như sau:
Phần mở đầu: Luận án trình bày tính cấp thiết và ý nghĩa khoa học của đề tài
nghiên cứu, trên cơ sở đó xác định mục tiêu nghiên cứu, đối tượng và phạm vi nghiên
cứu cũng như nội dung và các phương pháp nghiên cứu của luận án.
Chương 1: Luận án trình bày hai nội dung chính về tổng quan về mã độc IoT
botnet và sơ lược học máy, học sâu. Trong nội dung tổng quan về mã độc IoT botnet,
luận án trình bày khái niệm về thiết bị IoT và mã độc IoT botnet. Tiếp đó, luận án phân
tích và đánh giá tổng quan sự tiến hóa của mã độc IoT botnet. Trên cơ sở đó, luận án
thảo luận và đưa ra kiến trúc vòng đời lây nhiễm của mã độc IoT botnet. Đồng thời,
luận án cũng đánh giá đặc điểm và sự khác biệt của mã độc botnet trên thiết bị IoT so

với mã độc botnet trên máy tính truyền thống. Những nội dung đã thảo luận trên giúp
luận án củng cố luận cứ trong xác định phương pháp phát hiện mã độc IoT botnet phù
hợp. Phần thứ hai, luận án trình bày sơ lược về học máy, học sâu bởi đây là những lý
thuyết cơ sở để luận án áp dụng trong các phương pháp phát hiện IoT botnet.
Chương 2: Luận án trình bày sơ lược các phương pháp phát hiện mã độc IoT
botnet. Mỗi phương pháp được đánh giá toàn diện bởi khái niệm, mô tả các thuận lợi
và hạn chế của chúng, tiếp đó là các nghiên cứu liên quan. Kết hợp với những nội
dung đã trình bày ở Chương 1, luận án đề xuất hướng tiếp cận dựa trên phân tích tĩnh
trong phát hiện mã độc IoT botnet. Tiếp đó, luận án thực hiện khảo sát, đánh giá và
thực nghiệm lại các phương pháp phân tích tĩnh trong phát hiện mã độc IoT botnet trên
cùng bộ cơ sở dữ liệu và mơi trường thực nghiệm, trên cơ sở đó đề xuất hướng tiếp cận
phù hợp của luận án.
Chương 3: Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng
đồ thị PSI nhằm phát hiện mã độc IoT botnet hiệu quả và hiệu suất cao. Chương này
gồm 3 phần. Phần thứ nhất trình bày tổng quát quy trình hoạt động của phương pháp
đề xuất. Phần thứ hai giới thiệu về cách thức xây dựng đặc trưng đồ thị PSI. Cuối
cùng là


×