Tải bản đầy đủ (.doc) (143 trang)

Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.65 MB, 143 trang )

i

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

LÊ HẢI VIỆT

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG
PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

HÀ NỘI – 2022


ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Lê Hải Việt


NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG
PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET

Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Ngơ Quốc Dũng
2. GS.TS. Vũ Đức Thi

Hà Nội – Năm 2022


iii
LỜI CAM ĐOAN
Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu xây dựng hệ thống
V- Sandbox trong phân tích và phát hiện mã độc IoT Botnet” là một cơng trình nghiên
cứu của riêng tơi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và GS.TS. Vũ
Đức Thi, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong nước và quốc
tế đã được trích dẫn trong luận án.
Các kết quả, số liệu được trình bày trong luận án là hồn tồn trung thực, một
phần kết quả đã được công bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chun
ngành (tại Danh mục cơng trình của tác giả), phần cịn lại chưa từng được cơng bố
trong bất kỳ cơng trình nào khác.
Hà Nội, Ngày tháng

Năm 2022


Tác giả luận án


iv
LỜI CẢM ƠN
Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến
sĩ tại Học viện Khoa học và Công nghệ thuộc Viện Hàn lâm Khoa học và Công nghệ
Việt Nam. Tại đây, NCS đã được các thầy, cô trong Học viện Khoa học và Công nghệ,
Viện Công nghệ thông tin chỉ dạy và trang bị những kiến thức nền tảng cần thiết trong
suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về lĩnh
vực mới và cấp thiết trong an tồn thơng tin liên quan tới phát hiện mã độc nói chung
và mã độc Botnet nói riêng trên các thiết bị IoT dân sự.
Trước hết, xin trân trọng cảm ơn hai Thầy đã hướng dẫn nghiên cứu sinh là TS.
Ngô Quốc Dũng và GS.TS. Vũ Đức Thi, các Thầy đã tận tình hướng dẫn nghiên cứu
sinh trong q trình nghiên cứu cũng như hồn thành luận án.
Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, người đồng nghiệp
và là người anh cả gợi mở các ý tưởng cho phương phướng phát triển nghiên cứu khoa
học của NCS. Bên cạnh đó, NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng
sự TS. Nguyễn Huy Trung, Lê Văn Hồng, Nguyễn Dỗn Hiếu, Lương Đức Tuấn Đạt
đã có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực hiện luận án. NCS xin gửi lời
cảm ơn tới Ban Giám đốc, Lãnh đạo Khoa An ninh thơng tin và các Phịng ban liên
quan của Học viện An ninh nhân dân đã tạo điều kiện để NCS có thể tập trung nghiên
cứu và thực hiện luận án này.
Cuối cùng, NCS xin gửi lời cảm ơn chân thành đến gia đình, ln ln là nguồn
động lực phấn đấu, khuyến khích và động viên NCS trong quá trình thực hiện luận án.
Luận án này có một phần đóng góp to lớn của sự ủng hộ, động viên và giúp đỡ của gia
đình.
Xin chân thành cảm ơn!



v
MỤC LỤC
LỜI CAM ĐOAN.......................................................................................................... i
LỜI CẢM ƠN............................................................................................................. iv
MỤC LỤC.................................................................................................................... v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.................................... ……ix
DANH MỤC CÁC BẢNG........................................................................................... x
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.................................................................... xi
MỞ ĐẦU....................................................................................................................... 1
1. Tính cấp thiết của luận án...................................................................................... 1
2. Mục tiêu nghiên cứu của luận án........................................................................... 2
3. Đối tượng và phạm vi nghiên cứu......................................................................... 2
3.1. Đối tượng nghiên cứu........................................................................................... 2
3.2. Phạm vi nghiên cứu.............................................................................................. 3
4. Nội dung và phương pháp nghiên cứu.................................................................. 3
4.1. Nội dung nghiên cứu............................................................................................. 3
4.2. Phương pháp nghiên cứu..................................................................................... 4
4.2.1. Nghiên cứu lý thuyết............................................................................................. 4
4.2.2. Nghiên cứu thực nghiệm....................................................................................... 4
5. Các đóng góp chính của luận án............................................................................ 5
6. Bố cục của luận án.................................................................................................. 5
CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET 7
1.1. Tổng quan về thiết bi IoT.................................................................................. 7
1.1.1. Khái niệm thiết bi IoT......................................................................................... 7
1.1.2. Phân loại thiết bi IoT.......................................................................................... 9
1.1.3. Các vấn đề bảo mật tồn tại trên thiết bi IoT hạn chế tài nguyên.....................11
1.2. Tổng quan về mã độc IoT Botnet.................................................................... 12
1.2.1. Khái niệm mã độc IoT Botnet........................................................................... 12
1.2.2. Đặc điểm của mã độc IoT Botnet...................................................................... 14
1.3. Quy trình phát hiện mã độc IoT Botnet......................................................... 19

1.3.1. Tổng quan.......................................................................................................... 19
1.3.2. Thu thập dữ liệu................................................................................................ 23
1.3.3. Tiền xử lý dữ liệu............................................................................................... 30
1.3.3.1.......................................................................................................................... Ti
ền xử lý dữ liệu luồng mạng......................................................................................... 30
1.3.3.2.......................................................................................................................... Ti
ền xử lý dữ liệu lời gọi hệ thống................................................................................... 33
1.3.3.2. Tiền xử lý dữ liệu tương tác với tài nguyên của hệ thống................................ 39
1.3.4. Phân tích và phát hiện...................................................................................... 41
1.3.4.1.......................................................................................................................... Ứ
ng dụng học máy trong phát hiện mã độc IoT Botnet................................................... 41
1.3.4.2 Ứng dụng học sâu trong phát hiện mã độc IoT Botnet..................................... 43
1.4. Kết luận Chương 1............................................................................................. 45


vi
CHƯƠNG 2. XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ
DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET.............................................. 47
2.1. Phát biểu bài tốn............................................................................................... 47
2.1. Kiến trúc tởng quan mơ hình đề xuất............................................................... 48
2.2. Các thành phần chính........................................................................................ 50
2.2.1. Trích x́t thơng tin thuộc tính cơ bản của ELF (EME)............................... 50
2.2.2. Sinh cấu hình hoạt động Sandbox (SCG)...................................................... 53
2.2.3. Mơi trường Sandbox (SE)............................................................................... 54
2.2.4. Tiền xử lý dữ liệu thô thu thập được (RDP)................................................... 57
2.2.5. Tính tốn khả năng thực thi lại Sandbox (SR).............................................. 58
2.2.6. Giả lập máy chủ C&C (C&C simulator)......................................................... 59
2.2.7. Cơ sở dữ liệu thư viện liên kết động (Share Object DB)................................ 60
2.2.8. Sinh báo cáo tự động (Report)........................................................................ 61
2.3. Thử nghiệm và đánh giá.................................................................................... 61

2.3.1. Bộ dữ liệu thử nghiệm...................................................................................... 61
2.3.2. Triển khai thử nghiệm...................................................................................... 62
2.3.3. Kết quả kiểm nghiệm V-Sandbox...................................................................... 63
2.3.4. So sánh hiệu quả V-Sandbox với các IoT Sandbox khác................................. 66
2.4. Kết luận Chương 2........................................................................................... 69
CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG
TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET..................................................... 71
3.1. Phát biểu bài tốn............................................................................................... 71
3.1.1. Lựa chọn ng̀n dữ liệu động phục vụ tiền xử lý và phân tích.....................71
3.1.2. Bài toán xây dựng đặc trưng từ lời gọi hệ thống........................................... 72
3.1.3. Sơ đồ và ý tưởng phương pháp đề xuất.......................................................... 73
3.2. Đờ thi lời gọi hệ thống có hướng DSCG............................................................ 75
3.2.1. Khái niệm đờ thi lời gọi hệ thống có hướng DSCG......................................... 75
3.2.1. Xây dựng đồ thi lời gọi hệ thống có hướng DSCG.......................................... 76
3.3. Tiền xử lý dữ liệu đồ thi DSCG......................................................................... 79
3.4. Thực nghiệm và đánh giá................................................................................... 81
3.4.1. Bộ dữ liệu thực nghiệm..................................................................................... 81
3.4.2. Triển khai thử nghiệm...................................................................................... 82
3.4.3. Các chỉ số đánh giá........................................................................................... 84
3.4.4. Kết quả thử nghiệm và đánh giá....................................................................... 85
3.5. Kết luận Chương 3............................................................................................. 88
CHƯƠNG 4. MƠ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC
IOT BOTNET............................................................................................................ 90
4.1. Phát biểu bài toán............................................................................................... 90
4.1.1. Vấn đề phát hiện sớm mã độc IoT Botnet........................................................ 90
4.1.2. Mô hình học máy cộng tác trong phát hiện sớm mã độc................................. 91
4.1.3. Khảo sát và đánh giá các nghiên cứu liên quan.............................................. 93
4.1.3.1. Mơ hình học máy cộng tác trong phát hiện mã độc.......................................93



vii
4.1.3.2. Các mơ hình phát hiện sớm trong nghiên cứu mã độc...................................95
4.1.4. Bài toán phát hiện sớm mã độc IoT Botnet...................................................... 98
4.2. Mơ hình đề xuất.................................................................................................. 98
4.2.1. Kiến trúc tổng quan.......................................................................................... 98
4.2.2. Môi trường Sandbox (SC).............................................................................. 100
4.2.3. Tiền xử lý dữ liệu (PPDC).............................................................................. 100
4.2.4. Chuẩn hóa dữ liệu tiền xử lý (DNC).............................................................. 103
4.2.5. Trích chọn đặc trưng phù hợp........................................................................ 104
4.2.6. Bộ phân lớp học máy (MLC).......................................................................... 105
4.2.7. Hàm hợp nhất (FC)........................................................................................ 105
4.3. Thực nghiệm và đánh giá................................................................................. 106
4.3.1. Tập mẫu thực nghiệm..................................................................................... 106
4.3.2. Triển khai thử nghiệm.................................................................................... 106
4.3.3. Kết quả thử nghiệm........................................................................................ 107
4.3.4. Đánh giá kết quả thử nghiệm......................................................................... 112
4.4. Kết luận Chương 4........................................................................................... 113
KẾT LUẬN............................................................................................................... 114
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ....................................................... 117
TÀI LIỆU THAM KHẢO....................................................................................... 119


viii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ký hiệu,
chữ viết tắt

Từ nguyên gốc

Nghĩa tiếng Việt đầy đủ


IoT

Internet of Things

ELF

Linux Executable and Linkable Định dạng tệp tin thực thi và liên kết
Format
động trong Linux

DSCG

Vạn vật kết nối Internet

Directed System Call Graph

Đồ thị lời gọi hệ thống có hướng

International
Telecommunication Union

Cơ quan chuyên trách về công nghệ
thông tin và truyền thông của Liên
hiệp quốc

Supervisory Control And Data
Acquisition

Hệ thống giám sát và điều khiển tập

trung

Peer to Peer network

Mạng ngang hàng

DDoS

Distributed Denial of Service
attack

Tấn công từ chối dịch vụ phân tán

CPU

Central Processing Unit

Bộ xử lý trung tâm

ITU

SCADA
P2P

C&C server Command and Control server

Máy chủ ra lệnh và điều khiển

KNN


K-nearest neighbors

Thuật toán K điểm gần nhất

SVM

Support vector machines

Thuật toán học máy vector hỗ trợ

DT

Decision Tree

Thuật toán cây quyết định

FR

Random Forest

Thuật toán rừng cây ngẫu nhiên


ix
DANH MỤC CÁC BẢNG
Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet................................... 15
Bảng 1.2 So sánh đặc điểm các phương pháp phát hiện mã độc IoT Botnet................22
Bảng 1.3 Các nguồn dữ liệu động được thu thập cho phát hiện mã độc IoT Botnet. . .26
Bảng 1.4 Tóm tắt chức năng các IoT Sandbox............................................................. 29
Bảng 1.5 So sánh đặc điểm các IoT Sandbox hiện có.................................................. 30

Bảng 1.6 Các nghiên cứu liên quan sử dụng đồ thị lời gọi hệ thống............................36
Bảng 2.1 Các tham số cấu hình mặc định cho SE........................................................ 53
Bảng 2.2 Thống kê kết quả chạy V-Sandbox............................................................... 63
Bảng 2.3 Thống kê kết quả chạy LiSa Sandbox........................................................... 67
Bảng 2.4 So sánh các chức năng của các IoT Sandbox................................................ 67
Bảng 2.5 Các mẫu được lựa chọn ngẫu nhiên từ dataset.............................................. 67
Bảng 2.6 Kết quả so sánh giữa LiSa, Cuckoo và V-Sandbox....................................... 68
Bảng 3.1 Mô tả chi tiết về Dataset............................................................................... 81
Bảng 3.2 Các tham số mơ hình học máy được điều chỉnh........................................... 82
Bảng 3.3 Kịch bản phân chia tập dữ liệu thử nghiệm.................................................. 84
Bảng 3.4 Giá trị các chỉ số đánh giá mơ hình đề xuất.................................................. 86
Bảng 3.5 So sánh mơ hình đề xuất và các nghiên cứu liên quan..................................88
Bảng 4.1 Khảo sát các nghiên cứu về phát hiện sớm mã độc....................................... 97
Bảng 4.2 Mô tả chi tiết về Dataset............................................................................. 106
Bảng 4.3 Các tham số thuật toán học máy được sử dụng........................................... 107
Bảng 4.4 Độ chính xác các mơ hình học máy đơn lẻ huấn luyện trên Dataset...........109
Bảng 4.5 Các mơ hình học máy sau khi tối ưu trên Dataset....................................... 109
Bảng 4.6 Kết quả thử nghiệm với các mẫu nằm ngoài Dataset..................................111
Bảng 4.7 So sánh với các nghiên cứu liên quan......................................................... 112


x
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Số lượng các thiết bị được kích hoạt trên tồn cầu.......................................... 8
Hình 1.2 Phân loại thiết bị IoT dựa trên chức năng hoạt động [13]...............................9
Hình 1.3 Phân lớp các thiết bị IoT [18]........................................................................ 10
Hình 1.4 Các bước trong vịng đời của mã độc IoT Botnet.......................................... 18
Hình 1.5 Vịng đời của IoT Botnet............................................................................... 19
Hình 1.6 So sánh quy trình phân tích tĩnh và phân tích động mã độc..........................22
Hình 1.7 Kiến trúc cơ bản của Cuckoo Sandbox [50].................................................. 27

Hình 1.8 Kiến trúc của IoTBox [44]............................................................................ 28
Hình 1.9 Một đồ thị PSI-graph được xây dựng............................................................ 35
Hình 1.10 Đồ thị con PSI-Rooted graph từ đỉnh 11 với độ sâu d=2............................ 36
Hình 1.11 Mơ hình CBOW và Skip-gram.................................................................... 38
Hình 1.12 Minh họa kết quả biểu diễn khơng gian các từ trong word2vec..................38
Hình 1.13 Kiến trúc mạng nơ-ron của word2vec......................................................... 38
Hình 2.1 Kiến trúc của V-Sandbox.............................................................................. 48
Hình 2.2 Sử dụng Readelf đọc Header ELF................................................................. 52
Hình 2.3 Sử dụng Readelf liệt kê các yêu cầu thư viện động....................................... 52
Hình 2.4 Đầu ra của khối EMF.................................................................................... 52
Hình 2.5 Đầu ra của khối SCG.................................................................................... 54
Hình 2.6 Kiến trúc bên trong SE.................................................................................. 55
Hình 2.7 Lệnh khởi động mơi trường SE..................................................................... 55
Hình 2.8 Thông tin thư viện liên kết động xác định bởi ldd......................................... 57
Hình 2.9 Thơng tin thư viện liên kết động xác định bởi readelf................................... 57
Hình 2.10 Khối RDP cập nhật nội dung tệp “Configuration file”................................ 58
Hình 2.11 Kiến trúc kết nối chung của IoT Botnet [2]................................................. 60
Hình 2.12 Các thư mục được trích xuất từ firmware của Router Netgear WNAP320 .
61 Hình 2.13 Thiết bị C500-Extractor......................................................................... 61
Hình 2.14 Mơ hình triển khai thử nghiệm của V-Sandbox........................................... 63
Hình 2.15 Thơng tin thu thập bởi các tác tử của V-Sandbox........................................ 64
Hình 2.16 Thông tin thu thập lời gọi hệ thống bởi SystemCall agent..........................64
Hình 2.17 Thơng tin thu thập bởi File agent................................................................ 64
Hình 2.18 Thông tin thu thập bởi Host performance agent.......................................... 65


xi
Hình 2.19 Thơng tin thu thập bởi Network agent......................................................... 65
Hình 2.20 Thông tin thư viện liên kết động được yêu cầu........................................... 65
Hình 2.21 Báo cáo tởng thể về hành vi của mẫu được chạy......................................... 66

Hình 3.1 Quy trình phương pháp đề xuất phát hiện mã độc IoT Botnet dựa trên DSCG
.......................................................................................................................................75
Hình 3.2 Chuỗi lời gọi hệ thống của mã độc Mirai thu từ V-Sandbox.........................78
Hình 3.3 Đồ thị DSCG cho mẫu mã độc Mirai............................................................ 78
Hình 3.4 Lưu trữ đồ thị DSCG dưới định dạng “gexf”................................................ 79
Hình 3.5 So sánh Doc2vec và Graph2vec.................................................................... 81
Hình 3.6 Các kịch bản thử nghiệm điều chỉnh tham số các mơ hình học máy.............83
Hình 3.7 Đồ thị ROC đối với kịch bản thứ nhất........................................................... 86
Hình 3.8 Đồ thị ROC đối với kịch bản thứ hai............................................................. 87
Hình 3.9 Đồ thị ROC đối với kịch bản thứ ba.............................................................. 87
Hình 4.1 Phương pháp hợp nhất sớm........................................................................... 91
Hình 4.2 Phương pháp hợp nhất muộn........................................................................ 92
Hình 4.3 Mơ hình hợp nhất trung gian......................................................................... 92
Hình 4.4 Kiến trúc của mơ hình đề xuất.................................................................... 100
Hình 4.5 Thống kê số lượng lời gọi hệ thống của IoT Botnet trong Dataset..............101
Hình 4.6 Thống kê số lượng lời gọi hệ thống của mẫu lành tính trong Dataset.........102
Hình 4.7 Thống kê số lượng gói tin luồng mạng của IoT Botnet trong Dataset.........102
Hình 4.8 Thống kê số lượng gói tin luồng mạng của mẫu lành tính trong Dataset....102
Hình 4.9 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của IoT Botnet trong Dataset
.....................................................................................................................................103
Hình 4.10 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của mẫu lành tính trong
Dataset....................................................................................................................... 103
Hình 4.11 Thành phần học cộng tác các dữ liệu đặc trưng......................................... 105
Hình 4.12 Kết quả đánh giá các thuật tốn học máy cộng tác.................................... 109
Hình 4.13 Kết quả phát hiện mã độc 1 pha phân tích................................................. 110
Hình 4.14 Kết quả phát hiện mã độc 2 pha phân tích................................................. 110
Hình 4.15 Kết quả phân tích tệp lành tính.................................................................. 111


xii

MỤC LỤC
LỜI CAM ĐOAN.......................................................................................................... i
LỜI CẢM ƠN............................................................................................................. iv
MỤC LỤC.................................................................................................................... v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.................................... ……ix
DANH MỤC CÁC BẢNG........................................................................................... x
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.................................................................... xi
MỞ ĐẦU....................................................................................................................... 1
7. Tính cấp thiết của luận án...................................................................................... 1
8. Mục tiêu nghiên cứu của luận án........................................................................... 2
9. Đối tượng và phạm vi nghiên cứu......................................................................... 2
9.1. Đối tượng nghiên cứu........................................................................................... 2
9.2. Phạm vi nghiên cứu.............................................................................................. 3
10.Nội dung và phương pháp nghiên cứu.................................................................. 3
10.1................................................................................................................................ N
ội dung nghiên cứu....................................................................................................... 3
10.2................................................................................................................................ P
hương pháp nghiên cứu............................................................................................... 4
10.2.1............................................................................................................................. N
ghiên cứu lý thuyết......................................................................................................... 4
10.2.2............................................................................................................................. N
ghiên cứu thực nghiệm................................................................................................... 4
11. Các đóng góp chính của luận án............................................................................ 5
12.Bố cục của luận án.................................................................................................. 5
CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET 7
1.5. Tổng quan về thiết bi IoT.................................................................................. 7
1.5.1. Khái niệm thiết bi IoT......................................................................................... 7
1.5.2. Phân loại thiết bi IoT.......................................................................................... 9
1.5.3. Các vấn đề bảo mật tồn tại trên thiết bi IoT hạn chế tài nguyên.....................11
1.6. Tổng quan về mã độc IoT Botnet.................................................................... 12

1.6.1. Khái niệm mã độc IoT Botnet........................................................................... 12
1.6.2. Đặc điểm của mã độc IoT Botnet...................................................................... 14
1.7. Quy trình phát hiện mã độc IoT Botnet......................................................... 19
1.7.1. Tổng quan.......................................................................................................... 19
1.7.2. Thu thập dữ liệu................................................................................................ 23
1.7.3. Tiền xử lý dữ liệu............................................................................................... 30
1.7.3.1.......................................................................................................................... Ti
ền xử lý dữ liệu luồng mạng......................................................................................... 30
1.7.3.2.......................................................................................................................... Ti
ền xử lý dữ liệu lời gọi hệ thống................................................................................... 33
1.3.3.2. Tiền xử lý dữ liệu tương tác với tài nguyên của hệ thống................................ 39


xiii
1.7.4. Phân tích và phát hiện...................................................................................... 41
1.7.4.1.......................................................................................................................... Ứ
ng dụng học máy trong phát hiện mã độc IoT Botnet................................................... 41
1.3.4.2 Ứng dụng học sâu trong phát hiện mã độc IoT Botnet..................................... 43
1.8. Kết luận Chương 1............................................................................................. 45
CHƯƠNG 2. XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ
DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET.............................................. 47
2.1. Phát biểu bài toán............................................................................................... 47
2.5. Kiến trúc tởng quan mơ hình đề xuất............................................................... 48
2.6. Các thành phần chính........................................................................................ 50
2.6.1. Trích x́t thơng tin thuộc tính cơ bản của ELF (EME)............................... 50
2.6.2. Sinh cấu hình hoạt động Sandbox (SCG)...................................................... 53
2.6.3. Môi trường Sandbox (SE)............................................................................... 54
2.6.4. Tiền xử lý dữ liệu thô thu thập được (RDP)................................................... 57
2.6.5. Tính tốn khả năng thực thi lại Sandbox (SR).............................................. 58
2.6.6. Giả lập máy chủ C&C (C&C simulator)......................................................... 59

2.6.7. Cơ sở dữ liệu thư viện liên kết động (Share Object DB)................................ 60
2.6.8. Sinh báo cáo tự động (Report)........................................................................ 61
2.7. Thử nghiệm và đánh giá.................................................................................... 61
2.7.1. Bộ dữ liệu thử nghiệm...................................................................................... 61
2.7.2. Triển khai thử nghiệm...................................................................................... 62
2.7.3. Kết quả kiểm nghiệm V-Sandbox...................................................................... 63
2.7.4. So sánh hiệu quả V-Sandbox với các IoT Sandbox khác................................. 66
2.8. Kết luận Chương 2........................................................................................... 69
CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG
TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET..................................................... 71
3.6. Phát biểu bài toán............................................................................................... 71
3.6.1. Lựa chọn nguồn dữ liệu động phục vụ tiền xử lý và phân tích.....................71
3.6.2. Bài tốn xây dựng đặc trưng từ lời gọi hệ thống........................................... 72
3.6.3. Sơ đồ và ý tưởng phương pháp đề xuất.......................................................... 73
3.7. Đồ thi lời gọi hệ thống có hướng DSCG............................................................ 75
3.7.1. Khái niệm đờ thi lời gọi hệ thống có hướng DSCG......................................... 75
3.2.1. Xây dựng đờ thi lời gọi hệ thống có hướng DSCG.......................................... 76
3.8. Tiền xử lý dữ liệu đồ thi DSCG......................................................................... 79
3.9. Thực nghiệm và đánh giá................................................................................... 81
3.9.1. Bộ dữ liệu thực nghiệm..................................................................................... 81
3.9.2. Triển khai thử nghiệm...................................................................................... 82
3.9.3. Các chỉ số đánh giá........................................................................................... 84
3.9.4. Kết quả thử nghiệm và đánh giá....................................................................... 85
3.10.............................................................................................................................. Kế
t luận Chương 3.......................................................................................................... 88
CHƯƠNG 4. MƠ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC


xiv
IOT BOTNET............................................................................................................ 90

4.5. Phát biểu bài toán............................................................................................... 90
4.5.1. Vấn đề phát hiện sớm mã độc IoT Botnet........................................................ 90
4.5.2. Mơ hình học máy cộng tác trong phát hiện sớm mã độc................................. 91
4.5.3. Khảo sát và đánh giá các nghiên cứu liên quan.............................................. 93
4.5.3.1. Mơ hình học máy cộng tác trong phát hiện mã độc.......................................93
4.5.3.2. Các mơ hình phát hiện sớm trong nghiên cứu mã độc...................................95
4.5.4. Bài toán phát hiện sớm mã độc IoT Botnet...................................................... 98
4.6. Mơ hình đề xuất.................................................................................................. 98
4.6.1. Kiến trúc tổng quan.......................................................................................... 98
4.6.2. Môi trường Sandbox (SC).............................................................................. 100
4.6.3. Tiền xử lý dữ liệu (PPDC).............................................................................. 100
4.6.4. Chuẩn hóa dữ liệu tiền xử lý (DNC).............................................................. 103
4.6.5. Trích chọn đặc trưng phù hợp........................................................................ 104
4.6.6. Bộ phân lớp học máy (MLC).......................................................................... 105
4.6.7. Hàm hợp nhất (FC)........................................................................................ 105
4.7. Thực nghiệm và đánh giá................................................................................. 106
4.7.1. Tập mẫu thực nghiệm..................................................................................... 106
4.7.2. Triển khai thử nghiệm.................................................................................... 106
4.7.3. Kết quả thử nghiệm........................................................................................ 107
4.7.4. Đánh giá kết quả thử nghiệm......................................................................... 112
4.8. Kết luận Chương 4........................................................................................... 113
KẾT LUẬN............................................................................................................... 114
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ....................................................... 117
TÀI LIỆU THAM KHẢO....................................................................................... 119


1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Theo thống kê của công ty chuyên về thiết bị mạng Cisco [1], vào năm 2020 có

hơn 50 tỷ thiết bị kết nối Internet, các thiết bị này sẽ có mặt ở khắp mọi nơi mà đặc
biệt là trong nhà thông minh như: Các hệ thống cảm biến môi trường, CameraIP, VoIP,
IP TV, Router SOHO,… Sự phát triển của công nghệ vạn vật kết nối Internet (IoT Internet of Things) đã mang lại các tiện ích trong quản lý năng lượng tối ưu, theo dõi
sức khoẻ, giao thông, đô thị thông minh. Để có được sự phát triển mạnh mẽ của IoT
phải kể đến đóng góp lớn của cơ sở hạ tầng nhúng (embedded system) cho phép tích
hợp và biến mọi đồ vật trở nên “thơng minh” khi có thể tương tác và kết nối với nhau
thông qua Internet. Tuy nhiên, những nghiên cứu, chính sách về bảo mật, an ninh an
tồn thơng tin chưa được quan tâm đúng mức so với sự phát triển nhanh và rộng của
thiết bị IoT. Kết quả nghiên cứu gần đây cũng đã chỉ ra rằng lỗ hổng bảo mật và đặc
biệt là mã độc xuất hiện nhiều trên phần sụn (firmware) của các thiết bị IoT hạn chế tài
nguyên và là nguyên nhân chính cho những mối nguy cơ an ninh an toàn thiết bị IoT
[2]–[5]. Việc bỏ ngỏ các biện pháp đảm bảo an ninh, an tồn cho các thiết bị IoT đã vơ
hình tạo cơ hội cho tin tặc dễ dàng tấn công và chiếm quyền điều khiển các thiết này
này trên toàn thế giới. Theo nhận định của tập đoàn Gartner [6], 25% các cuộc tấn
công mạng sẽ liên quan đến các thiết bị IoT vào năm 2020. Tại Việt Nam, tháng
6/2016, tập đồn BKAV đã cơng bố kết quả khảo sát 21 triệu thiết bị định tuyến trên
Internet, trong đó có tới 5,6 triệu thiết bị trên thế giới (Việt Nam chiếm 5,9%) bị nhiễm
lỗ hổng PetHole, dẫn đến nguy cơ mất quyền điều khiển thiết bị [7]. Lợi dụng các lỗ
hổng bảo mật nghiêm trọng trên các thiết bị này [3, 5] các cuộc tấn công từ chối dịch
vụ quy mô lớn đã được ghi nhận [8]. Điều này đã làm thay đổi nhận thức về mạng lưới
Botnet truyền thống. Khác với Botnet truyền thống, mã độc IoT Botnet có những đặc
điểm khác biệt như phương thức lây lan, hiệu quả tấn cơng,… Với tình hình nêu trên,
vấn đề nghiên cứu giải pháp bảo vệ cho các thiết bị IoT hạn chế tài nguyên trước sự lây
nhiễm của mã độc IoT Botnet là một yêu cầu cấp thiết.


2
2. Mục tiêu nghiên cứu của luận án
Từ những nội dung được nêu trong tính cấp thiết của luận án, nghiên cứu sinh
xác định mục tiêu nghiên cứu của luận án là “nghiên cứu, xây dựng hệ thống thu thập

dữ liệu hành vi và phát hiện mã độc IoT Botnet dựa trên mơ hình học máy nhằm nâng
cao độ chính xác và giảm độ phức tạp trong phát hiện mã độc IoT Botnet trên các thiết
bị IoT hạn chế tài nguyên theo phương pháp phân tích động”. Để đạt được mục tiêu
nghiên cứu này, nghiên cứu sinh xác định các mục tiêu cụ thể như sau:
- Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi tương tác của mã độc
IoT Botnet với các thiết bị IoT hạn chế tài nguyên thông qua môi trường Sandbox tự
xây dựng.
- Nghiên cứu, xây dựng mơ hình học máy phát hiện mã độc IoT Botnet đảm bảo
độ chính xác, tỉ lệ âm tính giả thấp và yêu cầu tối thiểu lượng dữ liệu cần thu thập.
- Nghiên cứu, kết hợp hệ thống thu thập dữ liệu bằng Sandbox tự xây dựng với
mơ hình học máy đề xuất thành hệ thống phát hiện mã độc IoT Botnet hoàn chỉnh ứng
dụng được trong thực tế.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Với mục tiêu nghiên cứu của luận án, nghiên cứu sinh lựa chọn đối tượng
nghiên cứu là các tệp thực thi được (Executable file) trên các thiết bị IoT hạn chế tài
nguyên. Cụ thể, theo kết quả nghiên cứu của Costin và cộng sự [9] đối với các thiết bị
IoT hạn chế tài nguyên thì hệ điều hành phổ biến là Linux. Trong nền tảng hệ điều
hành Linux, tệp thực thi được thường tồn tại dưới dạng tệp ELF. Các tệp ELF này có
thể là tệp tin mã độc (Malware) hoặc tệp tin lành tính (Benign). Các tệp tin ELF sẽ
được nghiên cứu sinh thu thập để làm đối tượng nghiên cứu, thử nghiệm và đánh giá
kết quả của luận án. Nguồn thu thập các tệp tin ELF này từ các Honeypot, kho dữ liệu
nghiên cứu được các tác giả trên thế giới chia sẻ và quá trình tự thu thập, trích xuất từ
bản ảnh (firmware) của các thiết bị IoT hạn chế tài nguyên do nghiên cứu sinh thực
hiện.


3
3.2. Phạm vi nghiên cứu
Trong phạm vi nghiên cứu của mình, nghiên cứu sinh lựa chọn nghiên cứu giải

quyết bài toán phát hiện mã độc, cung cấp khả năng phân biệt các tập tin thực thi là mã
độc (malware) hay lành tính (benign). Luận án này trình bày hướng tiếp cận mới trong
phát hiện mã độc IoT Botnet với những phạm vi nghiên cứu sau:
- Lựa chọn nghiên cứu phát hiện các mẫu mã độc IoT Botnet xuất hiện trên các
thiết bị IoT hạn chế tài nguyên với lý do: mặc dù có nhiều dịng mã độc lây nhiễm trên
thiết bị IoT (như Trojan, Ransomware, Spyware,…) nhưng với đặc điểm hạn chế về
mặt tài nguyên, xuất hiện rộng khắp trên tồn thế giới và tồn tại các lỗ hởng bảo mật cơ
bản thì tỉ lệ mã độc Botnet chiếm tỉ lệ đa số theo thống kê của Kaspersky [4]. Do đó,
vấn đề nghiên cứu giải pháp phát hiện mã độc IoT Botnet là cấp thiết và có ý nghĩa
thực tiễn.
- Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chính
gồm thiết bị hạn chế tài nguyên (constrained) và hiệu năng cao (high-capacity). Các
thiết bị IoT hạn chế tài nguyên có thể kể đến như IP Camera, Wifi Router, Smart Hub,
… Cũng theo thống kê của Kaspersky [4, 10] thì mục tiêu lây nhiễm chủ yếu của mã
độc IoT Botnet chính là các thiết bị IoT này. Vì vậy, luận án này tập trung tìm hiểu,
nghiên cứu phương pháp phát hiện mã độc IoT Botnet cho các thiết bị IoT hạn chế tài
nguyên như trong tiêu chí phân loại của Bencheton.
- Để giải quyết bài toán phát hiện mã độc IoT Botnet, nghiên cứu sinh lựa chọn
hướng tiếp cận sử dụng phương pháp phân tích động để giải quyết các hạn chế của
phân tích tĩnh như đóng gói mã nguồn, làm rối mã, độ phức tạp trong phân tích nội
dung mã nguồn tệp thực thi,…
4. Nội dung và phương pháp nghiên cứu
4.1. Nội dung nghiên cứu
Với mục tiêu nghiên cứu trình bày ở trên, nghiên cứu sinh xác định các nội dung
nghiên cứu chính có 5 nội dung, được trình bày tại các chương của luận án, cụ thể
gồm:
- Khảo sát, nghiên cứu về đặc điểm thiết bị IoT nói chung và thiết bị IoT hạn
chế tài nguyên nói riêng; từ đó xác định các đặc điểm và khảo sát phương pháp phát
hiện mã độc IoT Botnet xuất hiện trên loại thiết bị này.



4
- Nghiên cứu, xây dựng môi trường sandbox đảm bảo các điều kiện để có thể
thu thập đầy đủ dữ liệu hành vi của mã độc IoT Botnet.
- Nghiên cứu, đề xuất đặc trưng mới từ đồ thị lời gọi hệ thống có hướng DSCG
(Directed System Call Graph) trong phát hiện mã độc IoT Botnet.
- Nghiên cứu, đề xuất mô hình học máy kết hợp các đặc trưng phù hợp có khả
năng phát hiện sớm mã độc IoT Botnet.
- Đánh giá đặc trưng và mơ hình học máy đã đề xuất về độ chính xác và hiệu
quả trong phát hiện mã độc IoT Botnet dựa trên tập dữ liệu (dataset) đủ lớn và tin cậy.
Thực hiện so sánh kết quả thực nghiệm, đánh giá với các nghiên cứu có liên quan để
làm nởi bật đóng góp khoa học của luận án.
4.2. Phương pháp nghiên cứu
4.2.1. Nghiên cứu lý thuyết
Thực hiện khảo sát, nghiên cứu, tổng hợp, đánh giá các kết quả nghiên cứu khoa
học đã được công bố trong và ngoài nước về các nội dung liên quan tới mục tiêu
nghiên cứu của luận án. Nguồn tài liệu phục vụ cho nghiên cứu lý thuyết được nghiên
cứu sinh sử dụng tại hai nguồn chính là kho dữ liệu trực tuyến (như Google Scholar,
IEEE Xplore, ACM Digital Library, Crossref,…) và nội dung báo cáo tại các hội thảo
khoa học uy tín trong và ngoài nước như USENIX, Blackhat, SOICT, ICCM, FAIR,…
Trên cơ sở đó hệ thống hóa các vấn đề cịn tồn tại trong bài toán phát hiện mã
độc IoT Botnet trên các thiết bị IoT hạn chế tài nguyên, đưa ra các vấn đề cần phân
tích, đánh giá và thực hiện đảm bảo đúng mục tiêu nghiên cứu đã đề ra.
4.2.2. Nghiên cứu thực nghiệm
Thực nghiệm xây dựng đặc trưng của mã độc IoT Botnet từ đồ thị lời gọi hệ
thống có hướng DSCG trên tập hợp các tập tin ELF của thiết bị IoT (gồm tệp lành tính
và mã độc). Thực nghiệm đánh giá tính hiệu quả của đặc trưng đồ thị DSCG được đề
xuất với thuật toán học máy. Thực nghiệm xây dựng và đánh giá trên tập dữ liệu đã thu
thập cho mơ hình học máy kết hợp các đặc trưng trong bài toán phát hiện sớm mã độc
IoT Botnet.



5
5. Các đóng góp chính của luận án
Luận án tập trung vào giải quyết các nội dung nghiên cứu đã nêu ở trên. Các
đóng góp có thể được liệt kê như kết quả của luận án này, cụ thể bao gồm:
- Đóng góp 1: Luận án xây dựng được một môi trường V-Sandbox đảm bảo mô
phỏng đầy đủ các yêu cầu cần thiết để mã độc IoT Botnet có thể thực thi trọn vẹn vịng
đời của mình. Mơi trường sandbox được xây dựng cho phép thu thập đầy đủ dữ liệu
hành vi của mã độc, hoạt động hoàn toàn tự động, mã nguồn mở và cài đặt dễ dàng, có
tính thực tiễn.
- Đóng góp 2: Luận án đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng
(Directed System Call Graph - DSCG) để cấu trúc hoá một cách tuần tự các lời gọi hệ
thống thu được từ môi trường V-Sandbox đề xuất ở trên. Phương pháp tiền xử lý dữ liệu
lời gọi hệ thống được đề xuất sẽ có độ phức tạp thấp, dễ áp dụng với những thuật tốn
học máy đơn giản.
- Đóng góp 3: Luận án đề xuất được một mơ hình phát hiện mã độc IoT Botnet
mới, có khả năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm mã
độc IoT Botnet. Mơ hình đề xuất dựa trên việc thu thập mức tối thiểu các dữ liệu động cần
thiết mà vẫn có thể đưa ra dự báo có độ chính xác cao, góp phần giảm thiểu thời gian
phát hiện mã độc IoT Botnet.
6. Bố cục của luận án
Với những kết quả nghiên cứu đã thực hiện, luận án được trình bày với bố cục
gồm phần mở đầu, 4 chương nội dung và phần kết luận, hướng phát triển của đề tài. Cụ
thể bố cục của luận án như sau:
Phần mở đầu: Luận án trình bày tính cấp thiết và ý nghĩa khoa học của đề tài
nghiên cứu, trên cơ sở đó xác định mục tiêu nghiên cứu, đối tượng, phạm vi nghiên
cứu, nội dung và phương pháp nghiên cứu của luận án.
Chương 1: Luận án trình bày hai nội dung chính gồm tởng quan về thiết bị IoT
và mã độc IoT Botnet. Trong nội dung tổng quan về thiết bị IoT, luận án trình bày khái

niệm, đặc điểm, phân loại, sự tiến hóa, các vấn đề bảo mật và các kiểu tấn công phổ
biến với thiết bị IoT. Tiếp theo, luận án trình bày khái niệm, đặc điểm và các phương
pháp phát hiện mã độc IoT Botnet. Đồng thời, luận án cũng đánh giá đặc điểm của
mã độc


6
IoT Botnet so với mã độc Botnet truyền thống. Từ những nội dung đánh giá kể trên,
luận án xác định vấn đề nghiên cứu đặt ra với bài toán phát hiện mã độc IoT Botnet.
Chương 2: Luận án trình bày phương pháp luận về xây dựng môi trường môi
trường V-Sandbox đảm bảo các điều kiện để có thể thu thập đầy đủ dữ liệu hành vi của
mã độc IoT Botnet. Mơi trường sandbox được xây dựng hoạt động hồn tồn tự động,
mã nguồn mở và cài đặt dễ dàng, có tính thực tiễn. Chương này gồm 3 phần. Phần thứ
nhất trình bày tởng quan về mơ hình đề xuất. Phần thứ hai mô tả chi tiết các thành phần
của mô hình. Phần thứ ba trình bày nội dung thử nghiệm và đánh giá hiệu quả của mơ
hình đề xuất, đồng thời so sánh với các nghiên cứu liên quan.
Chương 3: Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng
từ đồ thị DSCG phục vụ nâng nâng cao độ chính xác trong phát hiện mã độc IoT
Botnet. Chương này gồm 3 phần. Phần thứ nhất trình bày tởng quan về quy trình hoạt
động của phương pháp đề xuất. Phần thứ hai giới thiệu về cách thức xây dựng đặc
trưng đồ thị DSCG từ dữ liệu thu thập được của V-Sandbox. Cuối cùng là đánh giá tính
hiệu quả của phương pháp đề xuất dựa trên tiêu chí về độ chính xác, đồng thời so sánh
với các nghiên cứu đã có.
Chương 4: Luận án trình bày phương pháp luận về mơ hình học máy mới, có
khả năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm và độ
chính xác cao trong vấn đề nhận diện mã độc IoT Botnet. Chương này gồm 3 phần
chính. Phần thứ nhất, luận án trình bày tởng quan về quy trình hoạt động của mơ hình
đề xuất. Phần thứ hai trình bày về cách thức xây dựng các thành phần của mơ hình đề
xuất. Cuối cùng là đánh giá tính hiệu quả của phương pháp đề xuất dựa trên tiêu chí về
độ chính xác và thời gian phát hiện, đồng thời so sánh với các nghiên cứu đã có.

Cuối cùng, luận án được kết luận, cùng với đó là các định hướng nghiên cứu
trong tương lai.


7
CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET
1.1. Tổng quan về thiết bi IoT
1.1.1. Khái niệm thiết bi IoT
Khái niệm thuật ngữ “Internet of Things” (IoT) đã được nhiều nhà nghiên cứu
đưa ra ý kiến của mình trong từng lĩnh vực chuyên biệt. Tuy nhiên, tất cả đều thống
nhất việc sử dụng thuật ngữ này lần đầu vào năm 1999 do Kevin Ashton. Theo Kevin
Ashton [11], “Internet of Things” là “tập hợp các cảm biến và bộ điều khiển nhúng
trong các thiết bị được liên kết thơng qua mạng có dây và khơng dây”. Tại thời điểm
này, các thiết bị “IoT” được sử dụng để chỉ các thiết bị nhúng được điều khiển bởi con
người thơng qua mạng có dây hoặc khơng dây.
Đến năm 2015, Madakam [12] đưa ra cách hiểu IoT là “một mạng lưới mang
tính mở và tồn diện kết nối các đối tượng thơng minh có khả năng tự động tổ chức,
chia sẻ thông tin, dữ liệu và tài nguyên, phản ứng và hành động khi đối mặt với các
tình huống và thay đổi của môi trường”. Madakam nhấn mạnh về đặc điểm “thông
minh” của các thiết bị IoT bao gồm: Tự tổ chức hoạt động; Chia sẻ thông tin, dữ liệu
và tài nguyên; Có khả năng phản ứng lại với các thay đổi của môi trường xung quanh.
Theo sự phát triển của công nghệ hiện đại, IoT đã phát triển từ sự hội tụ của công nghệ
kết nối không dây, công nghệ vi cơ điện tử và sự phát triển của Internet.
Sau khi xem xét các định nghĩa của các tổ chức khác nhau, ITU (International
Telecommunication Union) đã định nghĩa IoT như sau: “Internet of Things là một cơ
sở hạ tầng tồn cầu cho xã hội thơng tin, cho phép các dịch vụ tiên tiến hoạt động
bằng cách kết nối các vật thể (vật lý và ảo) dựa trên các công nghệ thơng tin truyền
thơng tương thích hiện có và đang phát triển” [13]. Theo khái niệm này, vạn vật
(Things) là đối tượng của thế giới thực (vật chất tồn tại) hoặc của thế giới thơng tin
(thực thể ảo), có khả năng được định danh, tích hợp vào mạng thơng tin và truyền

thơng.
Bên cạnh đó, ITU cũng xác định thiết bị IoT là “thiết bị có khả năng kết nối và
có thể tích hợp cảm biến, cơ cấu truyền động, chức năng thu thập, lưu trữ và xử lý dữ
liệu”. Các thiết bị IoT thu thập các loại thông tin khác nhau và cung cấp cho các mạng
thông tin và truyền thông để xử lý, làm giàu thêm thông tin thu được. Một số thiết bị
IoT cũng thực hiện các hoạt động dựa trên thông tin nhận được từ mạng thông tin và
truyền thông.


8
Với kết quả nghiên cứu của mình, nghiên cứu sinh nhận thấy vẫn chưa có một
khái niệm thống nhất chung về thiết bị IoT. Tuy nhiên, các khái niệm đã có đều cơ bản
chỉ ra đặc điểm nởi bật nhất của loại thiết bị này là khả năng kết nối vào Internet. Vì
vậy, nghiên cứu sinh đưa ra khái niệm thiết bị IoT được sử dụng trong luận án này như
sau:
Khái niệm 1.1. Thiết bị IoT là các thiết bị có khả năng kết nối, chia sẻ dữ liệu,
tài nguyên dựa trên trên các công nghệ thông tin truyền thông tương thích hiện có và
đang phát triển, tự phản ứng với thay đổi của môi thường để đạt được một mục tiêu
nhất định.
Sự tăng trưởng nhanh chóng về số lượng thiết bị IoT so với các thiết bị kết nối
Internet truyền thống như máy tính điện tử được chứng minh thông qua số liệu thống
kê của IoT Analytics [14], được minh họa tại Hình 1.1. Qua số liệu dự báo thống kê
cho thấy, từ năm 2018 đến năm 2025 số lượng thiết bị truyền thống tăng lên không
nhiều (chỉ khoảng 18%) từ 10,8 tỉ lên 12,7 tỉ. Trong khi đó, thiết bị IoT tăng hơn 200%
từ 7 tỉ lên 21,5 tỉ thiết bị kết nối vào Internet. Không chỉ tăng nhanh về số lượng, chủng
loại thiết bị IoT cũng tăng lên nhanh chóng theo mục đích sử dụng. Thiết bị IoT xuất
hiện trong nhiều lĩnh vực như nhà thông minh, chăm sóc sức khỏe, tự động hóa q
trình sản xuất cơng nghiệp, vận chuyển hàng hóa,… Tuy nhiên, khi số lượng của nó
tăng lên, các thiết bị IoT bị hạn chế về tài nguyên ngày càng lộ ra nhiều lỗ hởng bảo
mật hơn [3, 15]. Vì vậy, các thiết bị này đã trở thành mục tiêu ưa thích của các kẻ tấn

Số lượng các thiết bị được kích hoạt tồn cầu (đơn vị tỉ thiết bị)
35.0
30.0
12.7

25.0

12.4
12.1

20.0

11.9

15.0
10.0

10.3

10.1

10.6

5.0
0.0

10.8

11.1


3.8

4.7

5.9

7.0

8.3

2015

2016

2017

2018

2019

Thiết bị IoT

11.3

11.6

9.9

11.6


2020

2021

13.5

2022

15.8

2023

18.5

2024

Thiết bị truyền thống

cơng.
Hình 1.1 Số lượng các thiết bị được kích hoạt trên toàn cầu

21.5

2025


9
1.1.2. Phân loại thiết bi IoT
Dựa trên chức năng hoạt động, các thiết bị IoT có thể được phân thành các loại
chính sau [13]:

- Thiết bị mang dữ liệu: là thiết bị được tích hợp vào các thực thể vật lý để hỗ
trợ kết nối các thực thể này vào hệ thống mạng phục vụ quá trình truyền dữ liệu.
- Thiết bị thu thập dữ liệu: là thiết bị đọc/ghi có khả năng tương tác với thực thể
vật lý. Sự tương tác có thể xảy ra gián tiếp thơng qua các thiết bị mang dữ liệu hoặc
trực tiếp thông qua các chất mang dữ liệu gắn liền với những thực thể vật lý.
- Thiết bị cảm biến và chấp hành (truyền động): Thiết bị cảm biến và chấp hành
có thể phát hiện hoặc đo lường thông tin liên quan đến mơi trường xung quanh và
chuyển đởi nó thành tín hiệu điện tử, kỹ thuật số. Nó cũng có thể chuyển đởi tín hiệu
điện tử, kỹ thuật số từ các mạng thơng tin thành hoạt động chấp hành như đóng mở
cơng tắc, kích hoạt kịch bản hành động,…
- Thiết bị đa chức năng: là thiết bị được tích hợp khả năng xử lý dữ liệu, giao
tiếp với các thiết bị IoT khác và giao tiếp với các mạng truyền thông thông qua các
cơng nghệ có dây hoặc khơng dây.

Hình 1.2 Phân loại thiết bị IoT dựa trên chức năng hoạt động [13]
Bên cạnh đó, Gartner [16] chia hệ sinh thái các thiết bị IoT thành 5 lớp khác
nhau bao gồm:
-

Lớp 1 đại diện cho mọi thiết bị IoT của người dùng cuối như máy tính,
điện thoại, cảm biến mơi trường, đồ gia dụng thông minh,…

-

Lớp 2 đại diện cho thiết bị hạ tầng mạng và truyền thông.

-

Lớp 3 đại diện cho thiết bị tiền xử lý và lưu trữ dữ liệu.



10
-

Lớp 4 đại diện cho thiết bị triển khai các ứng dụng và dịch vụ IoT.

-

Lớp 5 đại diện cho thiết bị phân tích dữ liệu.

Ngày nay, tất cả các ứng dụng hệ thống, ứng dụng web, lưu trữ và cơ sở dữ liệu
đều có thể được cấu hình trong hệ thống điện toán đám mây (Cloud system), Rahman
[17] chọn cách đơn giản hóa và kết hợp Lớp 3 và Lớp 4 thành một lớp duy nhất như
trong Hình 1.3.

Hình 1.3 Phân lớp các thiết bị IoT [17]
Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chính
gồm thiết bị hạn chế tài nguyên (constrained resource) và hiệu năng cao (high-capacity
resource). Theo đó, thiết bị hạn chế tài nguyên được hiểu là các thiết bị với bộ vi xử lý
(CPU), bộ nhớ (RAM, ROM, Flash,…) và tiêu thụ năng lượng điện hạn chế [18].
Thường được sử dụng làm cảm biến, thiết bị thông minh đeo được, thiết bị nhúng, thiết
bị gia dụng thông minh,… Với mục tiêu nghiên cứu như đã trình bày ở trên, luận án sử
dụng khái niệm thiết bị IoT hạn chế tài nguyên như sau:
Khái niệm 1.2. Thiết bị IoT hạn chế tài nguyên là các thiết bị IoT có cấu tạo
hạn chế về tài nguyên sử dụng (như năng lực xử lý dữ liệu, dung lượng bộ nhớ, băng
thông truyền tải dữ liệu,…)
Đặc trưng của thiết bị IoT hạn chế tài nguyên này có tác động đến khả năng bảo
mật của nó và do đó, nó đưa ra các giới hạn cho việc áp dụng một số giải pháp bảo
mật. Do hạn chế về tài nguyên (CPU, RAM, Flash memory), các thiết bị IoT này khó
tích hợp các giải pháp bảo mật và thực tế đã trở thành mục tiêu tấn công được chú ý

với nhiều


11
biến thể của mã độc [2, 8, 19]. Vì vậy, phát hiện mã độc trên các thiết bị IoT hạn chế tài
nguyên là một thách thức đối với các nhà nghiên cứu.
Với các lý do nêu trên, trong phạm vi đề tài luận án Nghiên cứu sinh lựa chọn
thiết bị IoT hạn chế tài nguyên để nghiên cứu phát hiện các hành vi của mã độc.
1.1.3. Các vấn đề bảo mật tồn tại trên thiết bi IoT hạn chế tài nguyên
Internet cung cấp cho con người những lợi ích to lớn, nhưng cũng chứa đựng
các nguy cơ như bị tấn công mạng, lây nhiễm mã độc, đánh cắp thông tin cá nhân,...
Đối với mạng lưới các thiết bị IoT, các nguy cơ này thậm chí cịn nghiêm trọng hơn do
quy mô khổng lồ và khả năng tương tác trở lại với môi trường xung quanh. Các mối đe
dọa từ mạng lưới thiết bị IoT có khả năng vơ hiệu hóa hệ thống an ninh tại nhà, gây rối
loại quy trình sản xuất của nhà máy, phá hoại hệ thống dẫn đường của phương tiện
giao thông không người lái và gây rối loạn các thiết bị hỗ trợ sự sống cho bệnh nhân tại
các bệnh viện. Các nghiên cứu khoa học đã công bố cho thấy, vấn đề lây nhiễm mã độc
và tấn công từ chối dịch vụ là nguy cơ cao ảnh hưởng tới hoạt động của thiết bị IoT [8,
19, 20]. Trong thực tế, các vấn đề này đã được minh chứng bằng các cuộc tấn công từ
chối dịch vụ phân tán (DDoS) sử dụng mạng lưới mã độc IoT Botnet (như Bashlite,
Mirai) lây nhiễm trên các thiết bị IoT hạn chế tài nguyên [8, 21]. Nguyên nhân hầu hết
của các cuộc tấn công này xuất phát từ đặc điểm hạn chế tài nguyên của thiết bị, sẽ khó
có thể triển khai đầy đủ các giải pháp bảo mật cho các thiết bị này như các thiết bị máy
tính truyền thống. Điều này dẫn tới xuất hiện các lỗ hởng bảo mật nghiêm trọng mà các
đối tượng có thể lợi dụng để thực hiện phá hoại.
Cụ thể, kẻ tấn cơng có thể dễ dàng sử dụng một cơng cụ tìm kiếm lỗ hởng bảo
mật của thiết bị IoT như Shodan [22]. Theo kết quả của Shodan, có 150 thiết bị
Niagara SCADA (sử dụng trong điều khiển quản lý sản xuất điện) sử dụng tên đăng
nhập và mật khẩu mặc định; tồn tại 154 thiết bị camera giám sát phương tiện giao
thông chưa được thay đổi mật khẩu mặc định. Đặc biệt, cơng cụ Shodan phát hiện có

19,583 máy in HP chứa lỗ hổng bảo mật cho phép kẻ tấn công cập nhật các phiên bản
firmware khác nhau lên các máy in này. Từ đó, kẻ tấn cơng có thể thay đổi chức năng
của máy in và tấn công vào mạng mà thiết bị này kết nối đến [23].
Tác giả Andrei Costin và cộng sự [24] đã trình bày kết quả khảo sát, đánh giá
mức độ an tồn thơng tin của các thiết bị IoT nói chung và tập trung vào thiết bị mạng


×