Tải bản đầy đủ (.doc) (148 trang)

Nghiên cứu đề xuất đặc trưng đồ thị PSI trong phát hiện mã độc botnet trên các thiết bị iot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.92 MB, 148 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu đề xuất đặc trưng đồ
thị PSI trong phát hiện mã độc botnet trên các thiết bị IoT” là một công trình nghiên
cứu của riêng tôi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và TS.
Nguyễn Anh Quỳnh, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong
nước và quốc tế đã được trích dẫn trong luận án.
Các kết quả, số liệu được trình bày trong luận án là hoàn toàn trung thực, một
phần kết quả đã được công bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chuyên
ngành công nghệ thông tin (tại Danh mục công trình của tác giả), phần còn lại chưa
từng được công bố trong bất kỳ công trình nào khác.
Hà Nội, ngày

tháng năm 2020
Tác giả

Nguyễn Huy Trung

i


LỜI CẢM ƠN
Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến
sĩ tại Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam,
Học viện Khoa học và Công nghệ – Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Tại đây, NCS đã được các thầy, cô trong Viện Công nghệ thông tin, Học viện Khoa
học và Công nghệ giúp đỡ, chỉ dạy và trang bị những kiến thức nền tảng cần thiết
trong suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về
lĩnh vực mới và cấp thiết trong bảo mật thông tin liên quan đến phát hiện mã độc nói
chung và mã độc botnet nói riêng trên các thiết bị IoT.
Trước hết, NCS xin bày tỏ lòng biết ơn chân thành tới hai thầy hướng dẫn khoa
học, TS. Ngô Quốc Dũng và TS. Nguyễn Anh Quỳnh. Hai thầy đã luôn giúp đỡ, động


viên, khích lệ và cho NCS nhiều kinh nghiệm quý báu, định hướng cách tư duy và
cách làm việc trong nghiên cứu khoa học và cuộc sống, giúp NCS vững tin vượt qua
những khó khăn trong suốt quá trình thực hiện luận án.
Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, một người anh đã
cho NCS nhiều lời khuyên quý báu trước khi NCS bắt đầu quá trình học tập nghiên
cứu Tiến sĩ. NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng sự Lê Văn
Hoàng, Nguyễn Doãn Hiếu đã có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực
hiện luận án. Bên cạnh đó, NCS xin gửi lời cảm ơn tới Ban Giám đốc, các Phòng ban
liên quan và TS. Sử Ngọc Anh - lãnh đạo Khoa An ninh thông tin của Học viện An
ninh nhân dân đã tạo điều kiện về thời gian và tài chính để NCS có thể tập trung học
tập và thực hiện luận án này.
Cuối cùng, từ tận đáy lòng NCS xin gửi lời cảm ơn vô hạn đến với gia đình, đặc
biệt là con gái bởi đó luôn là động lực phấn đấu của NCS, luôn khuyến khích, động
viên NSC trong quá trình nghiên cứu khoa học. Luận án này sẽ không thể hoàn thành
nếu không có sự ủng hộ, động viên và giúp đỡ của họ.

ii


MỤC LỤC

Trang
LỜI CAM ĐOAN.................................................................................................................................... i
LỜI CẢM ƠN........................................................................................................................................... ii
MỤC LỤC................................................................................................................................................. iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.................................................... vi
DANH MỤC CÁC BẢNG.............................................................................................................. vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ................................................................................. viii
MỞ ĐẦU..................................................................................................................................................... 1
1. Đặt vấn đề......................................................................................................................................... 1

1.1. Thông tin cơ bản.................................................................................................................. 1
1.2. Cơ sở đề xuất nghiên cứu............................................................................................... 3
2. Mục tiêu nghiên cứu................................................................................................................... 5
3. Đối tượng và phạm vi nghiên cứu....................................................................................... 5
4. Nội dung và phương pháp nghiên cứu.............................................................................. 6
5. Các đóng góp của luận án........................................................................................................ 8
6. Bố cục của luận án....................................................................................................................... 9
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT........................................................................................... 11
1.1. Mã độc IoT botnet................................................................................................................. 11
1.1.1. Khái niệm và đặc điểm thiết bị IoT.................................................................... 11
1.1.2. Khái niệm mã độc IoT botnet................................................................................ 15
1.1.3. Sự tiến hóa của mã độc IoT botnet...................................................................... 17
1.1.4. Cấu trúc và nguyên lý hoạt động của mã độc IoT botnet........................23
1.1.5. Sự khác biệt giữa mã độc botnet truyền thống và IoT botnet...............25
1.2. Học máy và học sâu trong phát hiện mã độc IoT botnet................................... 28
1.2.1. Học máy............................................................................................................................ 28
1.2.2. Học sâu.............................................................................................................................. 34
iii


1.3. Kết luận Chương 1................................................................................................................ 39
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET...............40
2.1. Tổng quan các phương pháp phát hiện mã độc IoT botnet.............................. 40
2.1.1. Phân tích động............................................................................................................... 41
2.1.2. Phân tích tĩnh.................................................................................................................. 43
2.1.3. Phân tích lai..................................................................................................................... 46
2.1.4. So sánh giữa phân tích tĩnh và phân tích động............................................. 47
2.2. So sánh, đánh giá các phương pháp dựa trên phân tích tích trong phát
hiện mã độc IoT botnet................................................................................................................ 48
2.2.1. Phân tích tĩnh dựa trên đặc trưng phi cấu trúc đồ thị................................49

2.2.2. Phân tích tĩnh dựa trên đặc trưng có cấu trúc đồ thị.................................. 56
2.2.3. Xây dựng bộ cơ sở dữ liệu thử nghiệm............................................................ 63
2.2.4. Các tiêu chí đánh giá.................................................................................................. 68
2.2.5. Kết quả thực nghiệm và nhận xét........................................................................ 70
2.3. Kết luận Chương 2 và định hướng nghiên cứu...................................................... 73
CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC IOT
BOTNET................................................................................................................................................... 75
3.1. Phát biểu bài toán.................................................................................................................. 75
3.2. Giải thích bài toán................................................................................................................. 76
3.3. Sơ đồ và ý tưởng phương pháp đề xuất..................................................................... 79
3.4. Đồ thị lời gọi hàm trong phát hiện mã độc IoT botnet....................................... 81
3.4.1. Khái niệm đồ thị lời gọi hàm................................................................................. 81
3.4.2. Xây dựng đồ thị lời gọi hàm................................................................................... 83
3.5. Xây dựng đồ thị PSI............................................................................................................. 88
3.5.1. Các khái niệm liên quan........................................................................................... 88
3.5.2. Thuật toán xây dựng đồ thị PSI............................................................................ 90
3.6. Đánh giá thực nghiệm......................................................................................................... 96
iv


3.6.1. Môi trường thực nghiệm........................................................................................... 96
3.6.2. Mô hình đánh giá.......................................................................................................... 96
3.6.3. Các kết quả thực nghiệm và thảo luận............................................................ 101
3.7. Kết luận Chương 3............................................................................................................. 104
CHƯƠNG 4. ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN
MÃ ĐỘC IOT BOTNET............................................................................................................... 105
4.1. Phát biểu bài toán................................................................................................................ 105
4.2. Sơ đồ và ý tưởng phương pháp đề xuất................................................................... 106
4.3. Xây dựng đặc trưng đồ thị PSI-rooted subgraph................................................ 107
4.3.1. Khái niệm...................................................................................................................... 107

4.3.2 Thuật toán xây dựng PSI-rooted subraph....................................................... 108
4.4. Thực nghiệm và đánh giá kết quả............................................................................... 112
4.4.1. Môi trường thực nghiệm........................................................................................ 112
4.4.2. Mô hình đánh giá....................................................................................................... 113
4.4.3. Các kết quả thực nghiệm và thảo luận............................................................ 116
4.5. Kết luận Chương 4............................................................................................................. 122
KẾT LUẬN VÀ KIẾN NGHỊ..................................................................................................... 124
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ.................................................................. 127
TÀI LIỆU THAM KHẢO............................................................................................................. 129

v


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ viết tắt

Viết đầy đủ (tiếng Anh)

Viết đầy đủ (tiếng Việt)

IoT

Internet of things

Vạn vật kết nối Internet

DL

Deep Learning


Học sâu

ML

Machine Learning

Học máy

SVM

Support Vector Machine

Máy hỗ trợ vector

GPU

Graphical Processing Unit

Thẻ xử lý đồ họa

CFG

Control Flow Graph

Đồ thị luồng điều khiển

PSI

Printable String Information


Thông tin có ý nghĩa

DNN

Deep Neural Networ

Mạng nơ-ron học sâu

ELF

Executable Linkable Format

Định dạng tập tin ELF

DNS

Domain Name System

Hệ thống tên miền

KNN

K-nearest neighbour

Thuật toán k láng giềng gần nhất

Random Forest

Thuật toán rừng ngẫu nhiên


RNN

Recurrent Neural Network

Mạng nơ-ron hồi quy

CNN

Convolution Neural Network

Mạng nơ-ron tích chập

SVM

Support Vector Machine

Thuật toán máy hỗ trợ vector

RF

vi


DANH MỤC CÁC BẢNG

Trang
Bảng 1.1. So sánh mã độc botnet trên máy tính truyền thống và IoT

26


Bảng 2.1. Ưu điểm và hạn chế của phân tích động

42

Bảng 2.2. Ưu điểm và hạn chế của phân tích tĩnh

44

Bảng 2.3. So sánh các phương pháp phân tích, phát hiện mã độc IoT botnet

47

Bảng 2.4. So sánh các phương pháp phát hiện mã độc IoT botnet dựa trên đặc
61

trưng tĩnh trong các nghiên cứu gần đây
Bảng 2.5. Mô tả tập dữ liệu mẫu để thử nghiệm

67

Bảng 2.6. Kết quả thực nghiệm các hướng tiếp cận dựa trên đặc trưng tĩnh hiện
71

nay trong phát hiện mã độc IoT botnet
Bảng 3.1. So sánh giữa đồ thị PSI và đồ thị lời gọi hàm FCG

93

Bảng 3.2. Chi tiết số lượng cạnh và số lượng đỉnh trong đồ thị PSI giữa các lớp

93

mẫu
Bảng 3.3. Kết quả phát hiện mã độc IoT botnet bằng đồ thị PSI và đồ thị lời gọi

101

hàm
Bảng 3.4. Kết quả so sánh giữa các phương pháp phát hiện IoT botnet

103

Bảng 4.1. Một ví dụ sinh đồ thị con PSI có gốc với độ sâu bằng 2

111

Bảng 4.2. Kết quả của các bộ phân loại với đặc trưng đề xuất

116

Bảng 4.3. Kết quả đánh giá phát hiện mã độc với tập dữ liệu kiến trúc ARM

117

Bảng 4.4. Kết quả đánh giá phát hiện mã độc với tập dữ liệu dựa kiến trúc MIPS 118
Bảng 4.5. So sánh thời gian xử lý
119
Bảng 4.6. So sánh độ chính xác của các bộ phân lớp học máy truyền thống trong
120


phát hiện mã độc IoT botnet

vii


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Hình 1.1. Số lượng các thiết bị IoT từ năm 2015 – 2025

12

Hình 1.2. Minh họa ứng dụng của Internet of Things (IoT) trong cuộc sống

13

Hình 1.3. Số lượng mã độc botnet trên các thiết bị IoT giai đoạn 2016 – 2018

16

Hình 1.4. Vị trí của mã độc IoT botnet trong các loại mã độc

17

Hình 1.5. Mối quan hệ giữa một số mã độc IoT botnet

18

Hình 1.6. Quy trình lây nhiễm của mã độc IoT botnet

23


Hình 1.7. Một ví dụ minh họa cây quyết định

30

Hình 1.8. Minh họa lề tối đa cho siêu phẳng với phân loại 2 lớp

32

Hình 1.9. Biểu diễn một mạng nơ-ron truyền thẳng

34

Hình 1.10. Một mô hình mạng nơ-ron tích chập

35

Hình 1.11. Mô hình Skip-gram (trái) và CBOW (phải)

37

Hình 1.12. Mô hình túi từ phân tán

38

Hình 1.13. Mô hình bộ nhớ phân tán

38

Hình 2.1. Phân loại các phương pháp phát hiện mã độc IoT botnet


41

Hình 2.2. Các phương pháp phân tích lai

46

Hình 2.3. Tổng quan tiến trình phát hiện mã độc IoT botnet dựa trên các đặc
trưng tĩnh

48

Hình 2.4. Phân loại các đặc trưng tĩnh trong phát hiện mã độc IoT botnet

49

Hình 2.5. Minh họa các chuỗi Opcode trong tập tin thực thi mã độc

50

Hình 2.6. Một số chuỗi PSI trong tập tin nhị phân mã độc

52

Hình 2.7. Chuỗi BAD được mô tả dưới dạng ASCII

52

Hình 2.8. Chuỗi BAD được miêu tả dưới dạng Unicode


53

Hình 2.9. Định dạng tập tin ELF

54

Hình 2.10. Quá trình biểu diễn mã độc thông qua ảnh đa mức xám

55

Hình 2.11. Ví dụ ảnh mẫu mã độc dòng Linux.Gafgyt

56

Hình 2.12. Minh họa một đồ thị đơn giản

57

viii


Hình 2.13. Minh họa một đồ thị có hướng và nhãn

57

Hình 2.14. Đồ thị CFG của một mẫu mã độc botnet

59

Linux.Bashlite Hình 2.15. Minh họa đồ thị Opcode


60

Hình 2.16. Kết quả tải về tập dữ liệu mã độc IoT botnet từ

63

IoTPOT Hình 2.17. Giao thức telnet

64

Hình 2.18. Giao diện của VirusShare sau khi đăng nhập với tài khoản được

65

cấp Hình 2.19. Kết quả tải về tập dữ liệu mã độc IoT botnet từ VirusShare

66

Hình 2.20. Sự phân bố kiến trúc vi xử lý trong các mẫu mã độc IoT botnet

67

Hình 3.1. Tổng quan bài toán phát hiện mã độc IoT botnet dựa trên đặc trưng
đồ thị

76

Hình 3.2. Quy trình phương pháp đề xuất phát hiện mã độc IoT


80

botnet Hình 3.3. Minh họa cấu trúc của tập tin bị đóng gói bằng UPX

84

Hình 3.4. Một hàm từ mã độc Linux.Mirai

85

Hình 3.5. Một phần đồ thị lời gọi hàm của mã độc

87

Linux.Mirai Hình 3.6. Các chuỗi bị mã hóa trong Linux.Mirai

89

Hình 3.7. Minh họa lưu trữ dữ liệu đồ thị PSI

92

Hình 3.8. Số lượng các cạnh và đỉnh giữa các lớp mẫu

94

Hình 3.9. Đồ thị lời gọi hàm (trái) và đồ thị PSI (phải) của mẫu mã độc
Linux.Bashlite

95


Hình 3.10. Mô hình đánh giá đặc trưng đồ thị PSI trong phát hiện mã độc IoT
botnet

97

Hình 3.11. Mô hình cơ bản của kỹ thuật nhúng đồ thị

98

Hình 3.12. Mô hình hoạt động của graph2vec tương đồng với doc2vec

99

Hình 4.1. Minh họa ý tưởng bài toán dùng đồ thị con PSI có gốc

105

Hình 4.2. Tổng quan phương pháp đề xuất sử dụng PSI-rooted subgraph trong
phát hiện mã độc IoT botnet

106

Hình 4.3. Một ví dụ đồ thị PSI

107

Hình 4.4. Kết quả thử nghiệm với các độ sâu khác nhau khi duyệt đồ thị con
PSI


109

Hình 4.5. Một minh họa đồ thị con PSI có gốc ở đỉnh 11.

111

ix


Hình 4.6. Biểu đồ phân tán mô tả phân bố các điểm dữ liệu của đồ thị con PSI
có gốc trong tập dữ liệu sau khi giảm chiều LSA 3-D

112

Hình 4.7. Minh họa kỹ thuật đánh giá chéo k-fold

113

Hình 4.8. Mô hình đánh giá đặc trưng đồ thị con PSI có gốc trong phát hiện
mã độc IoT botnet

114

Hình 4.9. Các bộ phân lớp học máy phổ biến trong phát hiện mã độc

115

Hình 4.10. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên tập dữ
liệu


116

Hình 4.11. Đường cong ROC của Bagging, RF, DT, kNN và SVM trên tập dữ
liệu kiến trúc ARM

117

Hình 4.12. Kết quả đường cong ROC của Bagging, RF, DT, kNN và SVM
trên tập dữ liệu kiến trúc MIPS

118

Hình 4.13. Cấu trúc mô hình Skipgram với trường hợp từ trung tâm là “passes”

121

Hình (i). Mô hình ứng dụng thực tế của phương pháp phát hiện IoT botnet sử
dụng đặc trưng đồ thị PSI

125

x


MỞ ĐẦU
1. Đặt vấn đề
n
Cuộc cách mạng công nghiệp 4.0 hay còn được gọi với những cái tên như Vạn vật
kết nối Internet (Internet of Things - IoT) hay công nghiệp Internet (Industrial Internet)
làm biến đổi nhanh chóng nền công nghiệp ở mọi quốc gia, diễn ra trên toàn cầu. Với

nhiều tên gọi khác nhau nhưng đặc điểm nổi bật nhất của cuộc cách mạng công nghiệp lần
thứ 4 đó là việc dịch chuyển các hệ thống máy móc sản xuất truyền thống sang các hệ
thống tự động hoá có khả năng tự hành một cách thông minh dựa trên nền tảng lõi là các
thiết bị IoT. Thông qua cuộc các mạng công nghiệp 4.0 mà giáo dục, y tế, chính trị, xã hội,
kinh tế đã có những thành tựu vượt bậc trong thời gian ngắn. Bên cạnh những tiện ích mà
cuộc cách mạng công nghiệp 4.0 mang lại thì an toàn thông tin trên không gian mạng
ngày càng trở nên phức tạp, tiềm ẩn nhiều nguy cơ ảnh hưởng trực tiếp tới an ninh quốc
gia, lợi ích hợp pháp của người dân. Những nguy cơ này ngày càng hiện hữu khi mà các
chuỗi cung ứng, nhà máy, người tiêu dùng và các hoạt động liên quan được kết nối với
nhau. Khác biệt với máy tính truyền thống, thiết bị IoT rất đa dạng về chủng loại và kiến
trúc phần cứng, chính sự đa dạng của thiết bị IoT khiến sự phát triển về số lượng thiết bị
IoT bùng nổ. Dự kiến đến năm 2025 sẽ có khoảng 75 tỷ thiết bị [28] được sử dụng ở nhiều
lĩnh vực, ngành nghề và đem tới nhiều trải nghiệm cho người sử dụng như nhà thông
minh, giao thông thông minh, y tế thông minh [8]. Theo nghiên cứu của Gartner, đến năm
2020 ước tính 25% các cuộc tấn công hệ thống thông tin tập trung và các thiết bị IoT [18],
và sẽ ngày càng nhiều ngành nghề, lĩnh vực áp dụng công nghệ IoT, điều đó sẽ khiến số
lượng và quy mô các cuộc tấn công mạng sẽ tiếp tục gia tăng. Bên cạnh đó, nghiên cứu
của OWASP (Open Web Application Security Project) cũng cho thấy 75% các thiết bị IoT
có nguy cơ bị tấn công xâm nhập
[29]. Dưới góc độ của kẻ tấn công, các thiết bị IoT là môi trường hấp dẫn bởi khác với
máy tính truyền thống, các thiết bị IoT hoạt động liên tục 24/7, khó cài đặt các giải pháp
phòng chống mã độc (anti-malware), sử dụng cơ chế xác thực yếu,… , điều đó khiến kẻ
tấn công dễ dàng truy cập mức sâu vào các thiết bị IoT (ví dụ như Busybox) [22]. Với
thực tế đó, nhiều cá nhân và tổ chức trong và ngoài nước đã quan tâm, đầu tư nghiên cứu
về đảm bảo an toàn thông tin đối với thiết bị IoT. Một khảo sát, thống kê các nghiên

1


cứu đã công bố từ 2016 – 2018 tại các tạp chí uy tín của các nhà xuất bản lớn trên thế

giới như Elsevier, IEEE, Hindawi and Springer [6] cho thấy xác thực vẫn là giải pháp
phổ biến trong bảo mật thiết bị IoT và quản lý tin cậy (trust) vẫn đang tiếp tục được
đẩy mạnh sự đầu tư nghiên cứu. Ngoài ra có thể kể đến một số nghiên cứu về giải pháp
mã hóa nhẹ (light), giao thức và cơ chế truyền thông an toàn đối với thiết bị IoT.
- Tại Việt Nam, các giải pháp bảo mật IoT theo 2 hướng chính là giải pháp quản lý
và giải pháp công nghệ, kỹ thuật. Đối với các giải pháp quản lý thì có thể kể đến Viện
Chiến lược Thông tin và Truyền thông - Bộ Thông tin và Truyền thông đã có đề tài
“Nghiên cứu xu thế phát triển, những tác động của công nghệ IoT (Internet of Things) và
đề xuất giải pháp quản lý phù hợp”, mã số 40-15-KHKT-RD, đã có những nghiên cứu
tổng quan về thiết bị IoT và các ứng dụng của IoT được phát triển ở Việt Nam. Từ những
lợi ích đó, nhóm nghiên cứu của Viện đã đưa ra những giải pháp bảo mật, an toàn thông
tin cho sự phát triển IoT ở Việt Nam. Tuy nhiên những giải pháp đó mới dừng ở mức
chính sách quản lý đã ban hành và sẽ ban hành, các giải pháp về phát triển cơ sở hạ tầng,
giải pháp bảo mật ở mức ứng dụng cơ bản cũng như các tiêu chuẩn trong IoT tại Việt
Nam. Về giải pháp công nghệ, kỹ thuật thì nhóm nghiên cứu của Trung tâm an

toàn an ninh thông tin - Đại học Bách khoa Hà Nội hiện đang nghiên cứu một số giải
pháp, hệ thống an ninh mạng với thiết bị IoT, có thể kể đến một số nghiên cứu như
Luangoudom sonexay và cộng sự [1], Nguyễn Văn Tánh và cộng sự [2] đã trình bày
giải pháp phát hiện tấn công trong mạng IoT, trong đó nghiên cứu chỉ tập trung phân
tích chi tiết các dạng tấn công vào giao thức định tuyến RPL (Routing Protocol for
Low-Power and Lossy Networks) được thiết kế cho mạng cảm biến không dây và IoT.
- Trên thế giới, đã có nhiều cá nhân, tổ chức quan tâm nghiên cứu vấn đề bảo mật
cho IoT như. James King và cộng sự [72] đã phát triển giải pháp nhẹ (light) nhằm bảo vệ
kênh truyền giữa các thiết bị IoT có tài nguyên hạn chế với các cổng kết nối (gateway).
Các nhà nghiên cứu tại Eurecom (Pháp) [10] đã thực hiện khảo sát, đánh giá trên diện
rộng mức độ an toàn của các thiết bị IoT cỡ nhỏ như Router, IPCamera và phát hiện ra
trong 32.256 phần sụn (firmware) được phân tích: có hơn 38 loại lỗ hổng zero-day; phát
hiện nhiều cổng hậu (backdoor) giúp các nhà cung cấp, tin tặc dễ dàng truy cập trái phép
vào các thiết bị từ xa bất hợp pháp. Cùng hướng nghiên cứu này và để thúc đẩy sự hợp tác

trong chương trình nghiên cứu và phát triển về an toàn thông tin của cộng

2


đồng chung Châu Âu (EU), Châu Âu đã thành lập Cụm dự án nghiên cứu trên IoT
(CERP-IoT, Cluster of European Research Projects on IoT) năm 2010 để tiến hành
nghiên cứu chuyên sâu về đảm bảo an ninh, an toàn cho các thiết bị IoT. Các nhà
nghiên cứu Nhật bản cũng đã giới thiệu giải pháp IoTProtect [106] nhằm đảm bảo an
toàn cho các thiết bị IoT. Cơ chế hoạt động của IoTProtect là sử dụng tác tử phần mềm
và danh sách trắng (Whitelist) để kiểm tra định kỳ các tiến trình đang chạy trên thiết bị
IoT và sẽ kết thúc các tiến trình khả nghi hoặc không xác định. Bên cạnh đó, dựa trên
các nghiên cứu của Yashaswini và cộng sự [109], Rafiullah Khan và cộng sự [16] thấy
rằng các nguy cơ đe dọa an ninh, an toàn thông tin đối với các thiết bị IoT bao gồm các
hình thức chính như tấn công giả mạo, tấn công bằng phần mềm độc hại, tấn công
thăm dò, tấn công từ chối dịch vụ.
Trong khi đó, mã độc botnet là nguy cơ đe dọa thường trực nhất đối với các
thiết bị IoT [15]. Ví dụ điển hình là tháng 10/2016, nhà cung cấp dịch vụ tên miền lớn
của Mỹ là Dyn đã bị mã độc Linux.Mirai tấn công từ chối dịch vụ phân tán (DDoS –
Distributed Denial of Service), với lưu lượng được ghi nhận lại là lớn nhất từ trước
đến nay ở ngưỡng 1,2 Tbps (Terabit per second) với hơn 1,2 triệu thiết bị IoT bị lây
nhiễm [5], đồng thời mã độc Linux.Mirai cũng hướng tới nhiều dịch vụ trực tuyến phổ
biến như Google, Amazon,…
xu t nghiên c u
Hiện nay, các nghiên cứu về phát hiện mã độc IoT botnet đã thu hút sự quan
tâm của các nhà nghiên cứu bảo mật. Những nghiên cứu và phương pháp này được
thực hiện dựa trên phát hiện mã độc botnet tự động sử dụng phân tích tĩnh hoặc phân
tích động. Luận án này được thúc đẩy bởi vấn đề nghiên cứu mở sau đây:
- Hiện nay, thiết bị IoT bùng nổ về số lượng, kéo theo số lượng mã độc IoT
botnet cũng gia tăng vượt trội. Dựa trên báo cáo của công ty nghiên cứu thị trường

Statista (Đức), số lượng thiết bị IoT trong năm 2018 đạt 23,14 tỷ thiết bị, tăng 13,7%
so với năm 2017 [28]. Theo báo cáo của hãng Kaspersky, số lượng mã độc IoT botnet
trong năm 2018 cũng tăng khoảng 73% so với năm 2017.
- Các thiết bị IoT đa dạng, bao gồm nhiều loại thiết bị điện tử nhưng thường được
chia thành 2 nhóm là các thiết bị IoT hạn chế tài nguyên và các thiết bị IoT không hạn

3


chế tài nguyên. Hiện nay, đã có nhiều nghiên cứu về phát hiện mã độc botnet, tiêu biểu
như nghiên cứu của Zhao và cộng sự [27], Chowdhury và cộng sự [9], Homayoun và
cộng sự [67]. Tuy nhiên, các nghiên cứu này tập trung vào phát hiện mã độc botnet
trên các thiết bị IoT không hạn chế tài nguyên, như máy tính cá nhân truyền thống
(Personal Computer). Do đó, trong phần cơ sở đề xuất này, luận án sẽ tập trung giải
quyết vấn đề nghiên cứu trên các thiết bị IoT hạn chế tài nguyên (bộ nhớ thấp, năng
lực tính toán nhỏ, dung lượng năng lượng pin thấp), ví dụ IP camera, thiết bị định
tuyến, thiết bị chuyển mạch, khóa cửa thông minh,… bởi những thiết bị IoT hạn chế
tài nguyên ít được triển khai cơ chế bảo mật, đảm bảo an toàn thông tin hoặc các giải
pháp bảo mật rất yếu kém, dễ bị tin tặc khai thác, tấn công.
- Bên cạnh đó, lĩnh vực nghiên cứu phát hiện mã độc botnet trên các thiết bị IoT
hạn chế tài nguyên chưa được quan tâm, đầu tư nghiên cứu, mà chủ yếu các nghiên cứu
hiện nay đều dựa trên các bộ luật (rule-based) và dựa trên luồng (flow-based, ví dụ như
địa chỉ IP nguồn/đích, giao thức, số lượng gói tin được gửi/và nhận,…) . Các phương
pháp trên hiện vẫn còn bộc lộ nhiều hạn chế như khó phát hiện các hành vi độc hại của
botnet một cách hiệu quả, dựa trên bộ luật có tỷ lệ phát hiện nhầm cao khi mã độc sử dụng
kỹ thuật gây rối, … Chính vì thế, các hướng tiếp cận dựa trên cấu trúc đồ thị, xuất phát từ
các thông tin mức luồng dữ liệu để phản ánh hành vi của mã độc botnet là một giải pháp
có thể khắc phục những hạn chế trên [3]. Tuy nhiên, các phương pháp theo hướng cấu trúc
đồ thị trong phát hiện mã độc IoT botnet hiện có độ phức tạp tính toán lớn. Bên cạnh đó,
nghiên cứu của Elisa Bertino và cộng sự [58], Kolias và cộng sự [77], là những nghiên

cứu này bước đầu tìm hiểu và giới thiệu một số giải pháp kỹ thuật nhằm hạn chế sự lây
nhiễm của mã độc botnet trên thiết bị IoT. Các nghiên cứu tiêu biểu trong phát hiện mã
độc IoT botnet có thể kể đến như Haddadpajouh và cộng sự [14], Azmoodeh và cộng sự
[36], Su và cộng sự [25]; tuy nhiên những nghiên cứu này hầu hết đưa ra giải pháp, đánh
giá và thực nghiệm trên mã độc IoT botnet đơn kiến trúc.

Những vấn đề cho thấy việc nghiên cứu các phương pháp phát hiện mã độc IoT
botnet mới là cấp thiết, có ý nghĩa về mặt thực tiễn và khoa học, đáp ứng đòi hỏi ngày
càng cao của công tác bảo đảm an ninh, an toàn thông tin cho các thiết bị IoT nói riêng
và không gian mạng nói chung. Phương pháp đề xuất của luận án giải quyết được các
thách thức còn tồn tại sau:

4


- Thứ nhất là tính đa kiến trúc của các thiết bị IoT, một đặc trưng quan trọng của
thiết bị IoT. Trong phạm vi luận án, việc sử dụng hai thuật ngữ thiết bị IoT và thiết bị

IoT hạn chế tài nguyên là đồng nhất;
- Thứ hai là có tính hiệu quả cao (độ chính xác cao, độ phức tạp thấp);
- Thứ ba là hướng tiếp cận không theo hướng dựa trên các bộ luật và dựa trên
luồng, mà là dựa trên đồ thị và học máy, học sâu.
2. Mục tiêu nghiên cứu
Từ việc phân tích tính cấp thiết của đề tài đã trình bày ở trên, luận án xác định
mục tiêu nghiên cứu nhằm đề xuất một đặc trưng có cấu trúc đồ thị mới và hiệu quả
(độ chính xác cao, độ phức tạp thấp) trong phát hiện mã độc IoT botnet, có khả năng
xử lý mã độc IoT botnet đa kiến trúc.
3. Đối tượng và phạm vi nghiên cứu
*) Đối tượng nghiên cứu của đề tài: Để đạt được mục tiêu nghiên cứu đã đặt ra,
luận án này tập trung vào nghiên cứu các tập tin thực thi trên thiết bị IoT. Các tập tin thực

thi trên thiết bị IoT có thể là mã độc hoặc lành tính, trong đó các tập tin thực thi được thu
thập từ nhiều nguồn uy tín như mạng bẫy (honeypot) hoặc được bóc tách từ phần sụn của
các thiết bị IoT, sẽ được trình bày chi tiết ở phần sau của luận án này. Hiện nay đã có
những nghiên cứu chỉ ra rằng, trong bài toán nghiên cứu phát hiện mã độc thì thường lựa
chọn các tập tin thực thi làm mục tiêu phân tích. Nguyên nhân bởi các tập tin thực thi
được xem như là ánh xạ một một, giúp đảm bảo tính toàn vẹn các hành vi độc hại của mã
độc khi lây nhiễm cũng như việc phân tích về sau của luận án. Bên cạnh đó, các thiết bị
IoT chạy trên nền tảng hệ điều hành Linux chiếm đại đa số [31]. Với những lý do trên, đối
tượng nghiên cứu, thực nghiệm của luận án là các tập tin thực thi trên thiết bị IoT, có tính
đa kiến trúc và có nền tảng trên các hệ điều hành Linux Kernel 2.6 hoặc 3.2. Tuy nhiên,
nguyên tắc tổng quát và kiến trúc của phương pháp đề xuất được áp dụng cho hầu hết các
thiết bị IoT chạy trên các nền tảng hệ điều hành khác.

*) Phạm vi nghiên cứu của đề tài:
Bài toán phân tích mã độc được chia thành 3 nhóm chính sau [26]:

5


(1) Phát hiện mã độc, cung cấp khả năng phân biệt các tập tin mã độc giữa các
tập mẫu lành tính;
(2) Phân loại mã độc, cung cấp khả năng quyết định mã độc thuộc về loại nào
(như virus, worm, trojan, hay botnet);
(3) Sự tiến hóa của mã độc, phát hiện ra mối liên hệ kế thừa giữa các loại mã độc.

Phân loại mã độc là bài toán phân loại đa lớp và phát hiện mã độc có thể xem
như bài toán phân loại hai lớp (nhị phân). Trong phạm vi nghiên cứu, luận án tập trung
vào bài toán phát hiện mã độc. Luận án này phát triển hướng tiếp cận mới trong phát
hiện mã độc IoT botnet, được trình bày chi tiết trong luận án này với phạm vi nghiên
cứu sau:

- Có nhiều loại mã độc lây nhiễm trên các thiết bị IoT như Trojan, Worm,
Ransomware, … Nhưng trên các thiết bị IoT hạn chế tài nguyên thì ít thông tin người sử
dụng để mã độc giám sát, thu thập, mã hóa; trong khi số lượng thiết bị IoT lớn và phân tán
khắp nơi nên hiện nay hầu hết mã độc lây nhiễm trên thiết bị IoT là mã độc botnet [49]. Vì
lý do đó, luận án chỉ tập trung nghiên cứu, phát hiện mã độc IoT botnet.

- Có nhiều cách phân loại thiết bị IoT như dựa trên hãng sản xuất, dựa trên giao
thức sử dụng, dựa trên mục đích kết nối, … Nhưng để phù hợp với nội dung nghiên
cứu của luận án thì luận án sẽ tập trung vào các thiết bị IoT hạn chế về tài nguyên như
năng lượng tiêu thụ thấp, bộ nhớ lưu trữ hạn chế, khả năng tính toán hạn chế. Ví dụ IP
camera, thiết bị định tuyến, thiết bị chuyển mạch, khóa cửa thông minh,…
- Có 02 hướng chính trong phát hiện mã độc botnet là phân tích tĩnh và phân tích
động. Tuy nhiên, để đạt được mục tiêu nghiên cứu, luận án lựa tiếp cận theo phương

pháp có khả năng xử lý vấn đề đa kiến trúc của thiết bị IoT hiệu quả và hiệu suất, đó là
phân tích tĩnh.
4. Nội dung và phương pháp nghiên cứu
*) Nội dung nghiên cứu
Để đạt được mục tiêu nghiên cứu đã đề ra ở trên, luận án sẽ tập trung phân tích,
đánh giá một số nội dung sau:

6


- Nghiên cứu sự phát triển, tiến hóa và đặc điểm của mã độc IoT botnet cũng
như các phương pháp phát hiện mã độc IoT botnet hiện nay.
- Khảo sát, phân tích và đánh giá lại các phương pháp phát hiện mã độc IoT botnet
hiện nay dựa trên phân tích tĩnh trên cùng bộ cơ sở dữ liệu lớn và môi trường thử nghiệm.

- Nghiên cứu và đề xuất đặc trưng mới có cấu trúc đồ thị trong phát hiện mã

độc IoT botnet
- Đánh giá đặc trưng đã đề xuất về độ chính xác và độ phức tạp trong phát hiện
mã độc IoT botnet bằng cách sử dụng tập dữ liệu lớn và đáng tin cậy, so sánh với
những phương pháp hiện tại cùng hướng tiếp nghiên cứu
Các nội dung trên được giải quyết và trình bày cụ thể trong các Chương sau của
luận án này, cấu trúc cụ thể được trình bày trong phần tiếp theo của luận án này.
*) Phương pháp nghiên cứu
 Nghiên cứu lý thuyết:
Tiến hành nghiên cứu, khảo sát, tổng hợp, đánh giá các công trình nghiên cứu
liên quan ở trong và ngoài nước để phân tích những vấn đề chưa giải quyết, những vấn
đề cần tiếp tục nghiên cứu theo hướng của đề tài. Các công trình nghiên cứu được tìm
kiếm tại các kho dữ liệu trực tuyến như:
- Google Scholar ( />- ScienceDirect ( />- ACM Digital Library ( />- IEEE Xplore ( />- Một số hội thảo về an toàn thông tin trong lĩnh vực công nghiệp uy tín hàng đầu
như Blackhat, USENIX, DEF CON, …
Trong đó, tập trung nghiên cứu về đặc trưng hành vi vòng đời lây nhiễm của mã
độc IoT botnet, nghiên cứu các đoạn mã dịch ngược của các tập tin thực thi trên thiết
bị IoT, … Trên cơ sở đó, lựa chọn các nội dung, vấn đề sẽ nghiên cứu, đề xuất và giải
quyết. Hệ thống hóa các vấn đề cần thực hiện, đề xuất mô hình bài toán, đưa ra các vấn
đề để phân tích, đánh giá và thực hiện.

7


 Nghiên cứu thực nghiệm:
Dựa trên tập dữ liệu gồm hơn 10000 mẫu gồm cả mã độc botnet và mẫu lành
tính trên thiết bị IoT, chia thành các tập huấn luyện và kiểm thử, sử dụng kỹ thuật kiểm
thử chéo (cross-validation), luận án tiến hành các thí nghiệm, thực nghiệm xây dựng
đặc trưng mã độc IoT botnet bằng các phương pháp phát hiện mã độc IoT botnet, trên
tập dữ liệu các tập tin thực thi trên IoT (mã độc, lành tính). Thực nghiệm đánh giá tính
hiệu quả của đặc trưng đồ thị PSI mà luận án đề xuất với học sâu. Thực nghiệm xây

dựng và đánh giá đặc trưng đồ thị con PSI có gốc (PSI-rooted subgraph) với các thuật
toán học máy để nâng cao hiệu quả trong bài toán phát hiện mã độc IoT botnet.
5. Các đóng góp của luận án
Luận án này tập trung giải quyết các nội dung đã nêu trên. Các đóng góp có thể
được liệt kê như kết quả của luận án này:
-

Đóng góp 1: Thực nghiệm, phân tích và đánh giá các phương pháp phát hiện

mã độc IoT hiện nay với cùng bộ cơ sở dữ liệu lớn các tập tin thực thi trên IoT (gồm
mã độc và lành tính), trong đó có các mẫu mã độc thực tế, quá trình thực nghiệm các
phương pháp đó thực hiện trên cùng một cấu hình hệ thống. Kết quả đạt được góp
phần đem lại một đánh giá tổng quan về các phương pháp phát hiện mã độc IoT hiện
nay, từ đó góp phần giúp các nhà nghiên cứu có thể lựa chọn hướng tiếp cận phù hợp
cho bài toán phát hiện mã độc IoT nói chung và IoT botnet nói riêng.
-

Đóng góp 2: Luận án đề xuất được một phương pháp mới, gọi là đồ thị PSI

(Printable String Information) có thể mô phỏng quá trình lây nhiễm của mã độc IoT
botnet. Phương pháp đề xuất có độ phức tạp thấp nhưng vẫn đảm bảo độ chính xác cao
trong phát hiện mã độc IoT botnet.
-

Đóng góp 3: Luận án đề xuất cải tiến phương pháp phát hiện mã độc IoT

botnet dựa trên đồ thị PSI bằng đồ thị con có gốc PSI (PSI-rooted subgraph) để hoàn
thiện quy trình phát hiện mã độc IoT botnet mà luận án đề xuất với độ chính xác cao
và độ phức tạp thấp.
Toàn bộ mã nguồn nghiên cứu của luận án được công bố mở tại địa chỉ sau:

/>
8


6. Bố cục của luận án
Với những kết quả nghiên cứu đã thực hiện, luận án được trình bày trong bố cục
gồm phần mở đầu, 4 chương nội dung và phần kết luận, hướng phát triển của đề tài.
Cụ thể bố cục như sau:
Phần mở đầu: Luận án trình bày tính cấp thiết và ý nghĩa khoa học của đề tài
nghiên cứu, trên cơ sở đó xác định mục tiêu nghiên cứu, đối tượng và phạm vi nghiên
cứu cũng như nội dung và các phương pháp nghiên cứu của luận án.
Chương 1: Luận án trình bày hai nội dung chính về tổng quan về mã độc IoT
botnet và sơ lược học máy, học sâu. Trong nội dung tổng quan về mã độc IoT botnet,
luận án trình bày khái niệm về thiết bị IoT và mã độc IoT botnet. Tiếp đó, luận án phân
tích và đánh giá tổng quan sự tiến hóa của mã độc IoT botnet. Trên cơ sở đó, luận án
thảo luận và đưa ra kiến trúc vòng đời lây nhiễm của mã độc IoT botnet. Đồng thời,
luận án cũng đánh giá đặc điểm và sự khác biệt của mã độc botnet trên thiết bị IoT so
với mã độc botnet trên máy tính truyền thống. Những nội dung đã thảo luận trên giúp
luận án củng cố luận cứ trong xác định phương pháp phát hiện mã độc IoT botnet phù
hợp. Phần thứ hai, luận án trình bày sơ lược về học máy, học sâu bởi đây là những lý
thuyết cơ sở để luận án áp dụng trong các phương pháp phát hiện IoT botnet.
Chương 2: Luận án trình bày sơ lược các phương pháp phát hiện mã độc IoT
botnet. Mỗi phương pháp được đánh giá toàn diện bởi khái niệm, mô tả các thuận lợi
và hạn chế của chúng, tiếp đó là các nghiên cứu liên quan. Kết hợp với những nội dung
đã trình bày ở Chương 1, luận án đề xuất hướng tiếp cận dựa trên phân tích tĩnh trong
phát hiện mã độc IoT botnet. Tiếp đó, luận án thực hiện khảo sát, đánh giá và thực
nghiệm lại các phương pháp phân tích tĩnh trong phát hiện mã độc IoT botnet trên
cùng bộ cơ sở dữ liệu và môi trường thực nghiệm, trên cơ sở đó đề xuất hướng tiếp cận
phù hợp của luận án.
Chương 3: Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng đồ

thị PSI nhằm phát hiện mã độc IoT botnet hiệu quả và hiệu suất cao. Chương này gồm 3
phần. Phần thứ nhất trình bày tổng quát quy trình hoạt động của phương pháp đề xuất.
Phần thứ hai giới thiệu về cách thức xây dựng đặc trưng đồ thị PSI. Cuối cùng là

9


đánh giá tính hiệu quả của phương pháp đề xuất dựa trên tiêu chí về độ chính xác và
độ phức tạp, đồng thời so sánh với các nghiên cứu hiện nay.
Chương 4: Luận án tiến hành đánh giá các hạn chế của phương pháp đề xuất ở
Chương 3 nhằm đưa ra giải pháp mới hiệu quả trong phát hiện mã độc IoT botnet.
Phần này tập trung vào đề xuất cách thức xử lý đồ thị PSI nhằm sinh đặc trưng đồ thị
mới, gọi là đồ thị con PSI có gốc (PSI-rooted subgraph). Trên cơ sở đó đánh giá tính
hiệu quả của đặc trưng đồ thị con PSI có gốc với nhiều bộ phân lớp học máy cơ bản,
kết quả đạt được rất khả quan trong phát hiện mã độc IoT botnet.
Cuối cùng, luận án được kết luận, cùng với đó là các định hướng nghiên cứu
tương lai.

10


CHƯƠNG 1. CƠ SỞ LÝ THUYẾT

1.1. Mã độc IoT botnet
1.1.1. Khái ni

m thi t b IoT

1.1.1.1. Các khái niệm IoT
Sự phát triển không ngừng của công nghệ thông tin, đặc biệt là sự gia tăng tích

hợp, kết nối các thiết bị thông minh bằng công nghệ vạn vật kết nối (Internet of
Things). Thuật ngữ “Internet of things” (IoT) trong những năm gần đây xuất hiện phổ
biến và thu hút không ít sự quan tâm chú ý của thế giới công nghệ. Sự bùng nổ của các
thiết bị IoT có tác động mạnh mẽ tới cuộc sống, công việc và xã hội loài người. Năm
1999, cụm từ Vạn vật kết nối Internet (IoT - Internet of Things) lần đầu được đưa ra
định nghĩa bởi Kevin Ashton [73] - nhà khoa học đã sáng lập ra Trung tâm Auto-ID ở
Viện công nghệ Massachusets (MIT - Massachusetts Institute of Technology) để chỉ
vật dụng, máy móc trong nhà như TV, tủ lạnh, máy giặt, bếp gas,... được trang bị
những công nghệ như Wi-Fi, Bluetooth, cảm biến Radio Frequency Identification
(RFID), Near-Field Communications (NFC),... nhằm giúp chúng kết nối với nhau.
Hiện nay có rất nhiều cách giải thích hay khái niệm khác nhau về IoT được đưa ra,
trong đó có thể kể đến khái niệm về IoT của Liên minh Viễn thông thế giới (ITU –
International Telecommunication Union) [69] đã phần giúp làm sáng tỏ hơn về IoT. Theo
ITU thì: Internet of things là một cơ sở hạ tầng mang tính toàn cầu cho xã hội thông tin,
mang đến những dịch vụ tiên tiến bằng cách kết nối các “đồ vật” (cả vật lý lẫn ảo) dựa
trên sự tồn tại của thông tin, dựa trên khả năng tương tác của các thông tin đó và dựa
trên các công nghệ truyền thông. Thông qua việc khai thác khả năng nhận biết, thu thập
xử lý dữ liệu, công nghệ các hệ thống IoT tận dụng mọi thứ để cung cấp dịch vụ cho tất cả
các loại ứng dụng khác nhau, đồng thời bảo đảm tính bảo mật và quyền riêng tư. Ngoài
định nghĩa về IoT của ITU thì một số tổ chức cũng đưa ra các cách giải thích, khái niệm
về IoT để giúp cho các bên liên quan có cái nhìn đa chiều hơn, hiểu rõ hơn về khái niệm
IoT như trong từ điển Oxford có nêu “Internet of Things (danh từ): là sự kết nối thông
qua Internet của các thiết bị điện toán nhúng trong các đối tượng hàng ngày cho phép
chúng có thể gửi và nhận dữ liệu”. Tổ chức IREC

11


(European Research Cluster on the IoT) cũng đưa ra khái niệm IoT như sau “IoT là
một kiến trúc toàn cầu động, có khả năng tự cấu hình dựa trên giao thức truyền thông

tương tác tiêu chuẩn, ở đó các đồ vật (gồm cả vật lý và ảo) có khả năng định danh và
các tính chất vật lý và ảo hóa, có giao diện thông minh và kết hợp khéo léo với nhau
để hòa vào hệ thống thông tin mạng”. Nhìn chung vẫn chưa có một khái niệm thống
nhất nào về IoT, tuy nhiên các khái niệm của các tổ chức đã đưa ra thì đều cơ bản xoay
quanh việc kết nối các đồ vật qua mạng Internet. Chính vì thế, luận án đưa ra khái
niệm IoT tổng quát như sau:
Định nghĩa 1.1. IoT là nền tảng bao gồm các “vật” (vật lý và ảo hóa) được
tích hợp trên các vật dụng, con người, môi trường và có khả năng kết nối, chia sẻ và
xử lý dữ liệu phục vụ các mục đích khác nhau.
Theo kết quả dự báo của công ty nghiên cứu thị trường Statista (Đức) có thể
thấy số lượng thiết bị IoT sẽ bùng nổ, cụ thể năm 2025 ước đạt gần 75 tỷ thiết bị, gấp
2,4 lần so với năm 2020, minh họa ở hình 1.1.

Hình 1.1. Số lượng các thiết bị IoT từ năm 2015 – 2025 [28]
Từ khái niệm IoT thấy rằng trong môi trường IoT, có rất nhiều loại thiết bị khác
nhau như điện thoại thông minh, máy tính cá nhân, máy tính xách tay, đồng hồ thông
minh, ti vi thông minh, máy in, máy quét, IP Camera, thiết bị định tuyến, ...Từ khái niệm

12


IoT, cũng đã nhiều khái niệm về thiết bị IoT [118], nhưng để phù hợp với nội dung
nghiên cứu, luận án đưa ra khái niệm thiết bị IoT như sau:
Định nghĩa 1.2. Thiết bị IoT là những “vật” (gồm vật lý và ảo hóa) đa kiến
trúc, hạn chế về tài nguyên (có năng lực xử lý thấp, bộ nhớ lưu trữ nhỏ, nguồn điện
năng thấp, ...) có khả năng kết nối, chia sẻ, truyền tải và xử lý dữ liệu phục vụ các mục
đích khác nhau.
Qua khái niệm thiết bị IoT thấy rằng, các thiết bị IoT có mặt ở mọi nơi, hầu hết
các ngành nghề, lĩnh vực như chăm sóc sức khỏe, quản lý dây truyền sản xuất, quản lý
năng lượng, hệ thống giao thông thông minh, hệ thống truyền tải điện năng, …, minh

họa ở hình 1.2. Trong đó, đại đa số các thiết bị IoT chạy trên nền tảng biến thể của hệ
điều hành Linux. Những biến thể đó rất phổ biến bởi chúng chứa nhiều tiện ích phổ
biến, và nhiều khả năng của Unix trong một tập tin thực thi [71]. Đó cũng sẽ là lý do
luận án này chỉ tập trung thử nghiệm, đánh giá các phương pháp đề xuất với các tập tin
thực thi trên Linux, có định dạng phổ biến là ELF (Executable Linkable Format)
nhưng không mất đi tính tổng quát khi áp dụng trên các nền tảng hệ điều hành khác.

Hình 1.2. Minh họa ứng dụng của Internet of Things (IoT) trong cuộc sống [13]

13


Ngoài các tiện ích đem lại và được ứng dụng trong nhiều lĩnh vực, ngành nghề
thì các thiết bị IoT cũng được dự báo sẽ đóng góp lớn vào nền kinh tế toàn cầu. Theo
báo cáo của công ty IoT Analytics [76] (nhà cung cấp hàng đầu về tìm hiểu thị trường
cho IoT có trụ sở ở Đức) thì giá trị kinh tế toàn cầu do IoT mang lại sẽ từ 2.700 tỷ
USD cho đến 6.700 tỷ USD trước năm 2025.
1.1.1.2. Đặc điểm của thiết bị IoT
Thiết bị IoT có những đặc điểm khác biệt với những công nghệ điện toán truyền
thống hiện nay, như [103]:
- Môi trường không được kiểm soát: Các thiết bị IoT có tính di động và tự hành
cao (ví dụ đồng hồ thông minh, thiết bị định tuyến,…). Những thiết bị này có thể truy
cập vật lý vào nhiều vị trí và tuỳ phụ thuộc vào điều kiện môi trường và thực hiện các
nhiệm vụ được lập trình sẵn mà không cần đến sự tham gia của người sử dụng. Với
khả năng tự hành, thu thập và trao đổi dữ liệu giữa các thiết bị IoT dựa trên cơ sở hạ
tầng mạng nên các vấn đề an toàn bảo mật có thể kể đến như mất an toàn giao thức,
mất an toàn ứng dụng trên các thiết bị IoT là có thể xảy ra.
- Tính không đồng nhất: Khác với các thiết bị xử lý dữ liệu truyền thống như máy

tính cá nhân với vi xử lý x86 thì các thiết bị IoT nói chung và các thiết bị IoT cỡ nhỏ

nói riêng sử dụng một cách đa dạng các kiến trúc vi xử lý như: MIPS, ARM, PowerPC,
MIPSEL, ... Ngoài ra, các nhà sản xuất khác nhau, đặc biệt là các nhà sản xuất đến từ
Trung Quốc cũng có những thay đổi riêng trong kiến trúc vi xử lý của riêng mình
nhằm giảm giá thành và thực hiện những mục đích khác nhau. Bên cạnh đó, sự không
đồng nhất còn thể hiện ở việc các thiết bị IoT dựa trên các mạng khác nhau như mạng
Internet, mạng viễn thông, mạng vệ tinh. Vì thế, việc nghiên cứu tổng thể, phổ quát
cho các thiết bị IoT là khó khăn.
- Tài nguyên hạn chế: Các thiết bị IoT thường bị hạn chế triển khai các cơ chế
đảm bảo an toàn nhằm giảm thiểu chi phí sản xuất và giảm kích thước các thiết bị IoT
cỡ nhỏ. Điều này vô hình chung đã dẫn đến các thiết bị IoT cũng bị hạn chế về tài
nguyên như bộ nhớ thấp, năng lực tính toán nhỏ, dung lượng năng lượng pin thấp.
- Trạng thái động: Trạng thái của các thiết bị IoT thay đổi linh hoạt, ví dụ như
lúc hoạt động và ngủ chờ, lúc kết nối và ngắt kết nối... phụ thuộc vào hoàn cảnh của các

14


thiết bị gồm vị trí, chức năng và tốc độ di chuyển. Hơn nữa, số lượng các thiết bị IoT
cũng có thể thay đổi.
- Tính kết nối: Thông qua IoT, mọi vật có thể được kết nối, tương tác với cơ sở
hạ tầng thông tin và truyền thông toàn cầu thường xuyên, liên tục.
Bên cạnh các đặc điểm trên thì các thiết bị IoT hiện thiếu cơ chế bảo mật trong
thiết kế và thường có cấu hình bảo mật yếu kém. Sự tồn tại của hai yếu tố này làm vấn
đề bảo mật IoT càng nghiêm trọng bởi kẻ tấn công luôn cố gắng khai thác thiết bị IoT
từ các lớp trong cấu trúc thiết bị IoT. Cấu trúc của thiết bị IoT gồm [112] lớp chính
sách (policy), lớp giao thức (protocol), lớp giao diện web (web interface), lớp hệ điều
hành và ứng dụng (Operating system and application), lớp phần sụn và lớp phần cứng
(hardware). Từ các lớp bảo mật trên có thể xác định rõ các mối nguy cơ đe dọa đối với
từng lớp, từ đó xây dựng các biện pháp bảo mật phù hợp, hiệu quả. Với nguy cơ đe
dọa từ các tập tin thực thi mã độc thì sẽ tập trung vào các lớp phần sụn, lớp hệ điều

hành và ứng dụng.
Như vậy, để đạt hiệu quả cao trong các bài toán phát hiện mã độc IoT botnet thì
việc nghiên cứu, tìm hiểu xem mã độc IoT botnet có những đặc trưng khác biệt gì so
với mã độc botnet truyền thống là rất quan trọng, phần tiếp theo của luận án sẽ trình
bày chi tiết vấn đề này.
1.1.2. Khái ni

c IoT botnet

Mặc dù có rất nhiều loại mã độc tấn công, lây nhiễm các thiết IoT, nhưng xu
hướng mã độc botnet được xem là phổ biến nhất, gây hậu quả lớn nhất đối với các
thiết bị IoT [49]. Hoạt động của mã độc IoT botnet gần đây cho thấy tội phạm mạng
đang chuyển hướng sử dụng các thiết bị IoT nhằm phát động các cuộc tấn công mạng
quy mô lớn, có khả năng gây gián đoạn mạng Internet. Số lượng mã độc được phát
triển với mục đích lây nhiễm, tấn công các thiết bị IoT cỡ nhỏ ngày càng tăng, cụ thể
là theo báo cáo của hãng Kaspersky thì số lượng mã độc trên thiết bị IoT năm 2018 đã
tăng gấp hơn 37 lần so với năm 2016 [85], minh họa ở hình 1.3.
Trước khi đi vào thuật ngữ mã độc IoT botnet thì cần tìm hiểu thuật ngữ mã độc.
Thuật ngữ mã độc có rất nhiều cách hiểu khác nhau, theo Helenius [65], mã độc được
là các chương trình được thiết kế với mục đích người dùng không mong muốn. Ed

15


×