Tải bản đầy đủ (.pdf) (138 trang)

Luận án tiến sĩ máy tính nghiên cứu xây dựng hệ thống v sandbox trong phân tích và phát hiện mã độc iot botnet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.38 MB, 138 trang )

ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Lê Hải Việt

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG
PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET

Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Ngơ Quốc Dũng
2. GS.TS. Vũ Đức Thi

Hà Nội – Năm 2022


iii
LỜI CAM ĐOAN
Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet” là một cơng trình nghiên cứu
của riêng tơi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và GS.TS. Vũ Đức
Thi, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong nước và quốc tế đã


được trích dẫn trong luận án.
Các kết quả, số liệu được trình bày trong luận án là hồn tồn trung thực, một
phần kết quả đã được công bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chun
ngành (tại Danh mục cơng trình của tác giả), phần cịn lại chưa từng được cơng bố trong
bất kỳ cơng trình nào khác.
Hà Nội, Ngày

tháng

Năm 2022

Tác giả luận án


iv
LỜI CẢM ƠN
Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến
sĩ tại Học viện Khoa học và Công nghệ thuộc Viện Hàn lâm Khoa học và Công nghệ
Việt Nam. Tại đây, NCS đã được các thầy, cô trong Học viện Khoa học và Công nghệ,
Viện Công nghệ thông tin chỉ dạy và trang bị những kiến thức nền tảng cần thiết trong
suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về lĩnh
vực mới và cấp thiết trong an tồn thơng tin liên quan tới phát hiện mã độc nói chung
và mã độc Botnet nói riêng trên các thiết bị IoT dân sự.
Trước hết, xin trân trọng cảm ơn hai Thầy đã hướng dẫn nghiên cứu sinh là TS.
Ngô Quốc Dũng và GS.TS. Vũ Đức Thi, các Thầy đã tận tình hướng dẫn nghiên cứu
sinh trong q trình nghiên cứu cũng như hồn thành luận án.
Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, người đồng nghiệp
và là người anh cả gợi mở các ý tưởng cho phương phướng phát triển nghiên cứu khoa
học của NCS. Bên cạnh đó, NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng sự
TS. Nguyễn Huy Trung, Lê Văn Hồng, Nguyễn Dỗn Hiếu, Lương Đức Tuấn Đạt đã

có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực hiện luận án. NCS xin gửi lời cảm
ơn tới Ban Giám đốc, Lãnh đạo Khoa An ninh thơng tin và các Phịng ban liên quan của
Học viện An ninh nhân dân đã tạo điều kiện để NCS có thể tập trung nghiên cứu và thực
hiện luận án này.
Cuối cùng, NCS xin gửi lời cảm ơn chân thành đến gia đình, ln ln là nguồn
động lực phấn đấu, khuyến khích và động viên NCS trong quá trình thực hiện luận án.
Luận án này có một phần đóng góp to lớn của sự ủng hộ, động viên và giúp đỡ của gia
đình.
Xin chân thành cảm ơn!


v
MỤC LỤC
LỜI CAM ĐOAN ...........................................................................................................i
LỜI CẢM ƠN ...............................................................................................................iv
MỤC LỤC ...................................................................................................................... v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .............................................ix
DANH MỤC CÁC BẢNG............................................................................................. x
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .....................................................................xi
MỞ ĐẦU ......................................................................................................................... 1
1. Tính cấp thiết của luận án ................................................................................... 1
2. Mục tiêu nghiên cứu của luận án........................................................................ 2
3. Đối tượng và phạm vi nghiên cứu ...................................................................... 2
3.1. Đối tượng nghiên cứu .................................................................................. 2
3.2. Phạm vi nghiên cứu ..................................................................................... 3
4. Nội dung và phương pháp nghiên cứu ............................................................... 3
4.1. Nội dung nghiên cứu.................................................................................... 3
4.2. Phương pháp nghiên cứu ............................................................................ 4
4.2.1. Nghiên cứu lý thuyết ............................................................................. 4
4.2.2. Nghiên cứu thực nghiệm ....................................................................... 4

5. Các đóng góp chính của luận án ......................................................................... 5
6. Bố cục của luận án ............................................................................................... 5
CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET ..... 7
1.1. Tổng quan về thiết bị IoT ................................................................................. 7
1.1.1. Khái niệm thiết bị IoT ............................................................................... 7
1.1.2. Phân loại thiết bị IoT ................................................................................ 9
1.1.3. Các vấn đề bảo mật tồn tại trên thiết bị IoT hạn chế tài nguyên .......... 11
1.2. Tổng quan về mã độc IoT Botnet .................................................................. 12


vi
1.2.1. Khái niệm mã độc IoT Botnet ................................................................. 12
1.2.2. Đặc điểm của mã độc IoT Botnet............................................................ 14
1.3. Quy trình phát hiện mã độc IoT Botnet ....................................................... 19
1.3.1. Tổng quan ................................................................................................ 19
1.3.2. Thu thập dữ liệu ...................................................................................... 23
1.3.3. Tiền xử lý dữ liệu..................................................................................... 30
1.3.3.1. Tiền xử lý dữ liệu luồng mạng ......................................................... 30
1.3.3.2. Tiền xử lý dữ liệu lời gọi hệ thống ................................................... 33
1.3.3.2. Tiền xử lý dữ liệu tương tác với tài nguyên của hệ thống ............... 39
1.3.4. Phân tích và phát hiện ............................................................................ 41
1.3.4.1. Ứng dụng học máy trong phát hiện mã độc IoT Botnet .................. 41
1.3.4.2 Ứng dụng học sâu trong phát hiện mã độc IoT Botnet ..................... 43
1.4. Kết luận Chương 1 .......................................................................................... 45
CHƯƠNG 2. XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ
DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET .............................................. 47
2.1. Phát biểu bài tốn ........................................................................................... 47
2.1. Kiến trúc tởng quan mơ hình đề xuất ........................................................... 48
2.2. Các thành phần chính ..................................................................................... 50
2.2.1. Trích xuất thông tin thuộc tính cơ bản của ELF (EME) ...................... 50

2.2.2. Sinh cấu hình hoạt động Sandbox (SCG) .............................................. 53
2.2.3. Môi trường Sandbox (SE) ....................................................................... 54
2.2.4. Tiền xử lý dữ liệu thơ thu thập được (RDP) .......................................... 57
2.2.5. Tính toán khả năng thực thi lại Sandbox (SR) ...................................... 58
2.2.6. Giả lập máy chủ C&C (C&C simulator) ................................................ 59
2.2.7. Cơ sở dữ liệu thư viện liên kết động (Share Object DB) ....................... 60
2.2.8. Sinh báo cáo tự động (Report) ................................................................ 61


vii
2.3. Thử nghiệm và đánh giá ................................................................................. 61
2.3.1. Bộ dữ liệu thử nghiệm............................................................................. 61
2.3.2. Triển khai thử nghiệm ............................................................................ 62
2.3.3. Kết quả kiểm nghiệm V-Sandbox ........................................................... 63
2.3.4. So sánh hiệu quả V-Sandbox với các IoT Sandbox khác...................... 66
2.4. Kết luận Chương 2 .......................................................................................... 69
CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG TRONG
PHÁT HIỆN MÃ ĐỘC IOT BOTNET ..................................................................... 71
3.1. Phát biểu bài toán ........................................................................................... 71
3.1.1. Lựa chọn nguồn dữ liệu động phục vụ tiền xử lý và phân tích ............ 71
3.1.2. Bài tốn xây dựng đặc trưng từ lời gọi hệ thống ................................... 72
3.1.3. Sơ đồ và ý tưởng phương pháp đề xuất .................................................. 73
3.2. Đồ thị lời gọi hệ thống có hướng DSCG ........................................................ 75
3.2.1. Khái niệm đờ thị lời gọi hệ thống có hướng DSCG ............................... 75
3.2.1. Xây dựng đồ thị lời gọi hệ thống có hướng DSCG ................................ 76
3.3. Tiền xử lý dữ liệu đồ thị DSCG ..................................................................... 79
3.4. Thực nghiệm và đánh giá ............................................................................... 81
3.4.1. Bộ dữ liệu thực nghiệm ........................................................................... 81
3.4.2. Triển khai thử nghiệm ............................................................................ 82
3.4.3. Các chỉ số đánh giá ................................................................................. 84

3.4.4. Kết quả thử nghiệm và đánh giá ............................................................. 85
3.5. Kết luận Chương 3 .......................................................................................... 88
CHƯƠNG 4. MÔ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC
IOT BOTNET .............................................................................................................. 90
4.1. Phát biểu bài toán ........................................................................................... 90
4.1.1. Vấn đề phát hiện sớm mã độc IoT Botnet .............................................. 90
4.1.2. Mô hình học máy cộng tác trong phát hiện sớm mã độc ...................... 91


viii
4.1.3. Khảo sát và đánh giá các nghiên cứu liên quan .................................... 93
4.1.3.1. Mơ hình học máy cộng tác trong phát hiện mã độc ........................ 93
4.1.3.2. Các mơ hình phát hiện sớm trong nghiên cứu mã độc .................... 95
4.1.4. Bài tốn phát hiện sớm mã độc IoT Botnet............................................ 98
4.2. Mơ hình đề xuất .............................................................................................. 98
4.2.1. Kiến trúc tổng quan ................................................................................. 98
4.2.2. Môi trường Sandbox (SC) .....................................................................100
4.2.3. Tiền xử lý dữ liệu (PPDC) ....................................................................100
4.2.4. Chuẩn hóa dữ liệu tiền xử lý (DNC) ....................................................103
4.2.5. Trích chọn đặc trưng phù hợp ..............................................................104
4.2.6. Bộ phân lớp học máy (MLC) ................................................................105
4.2.7. Hàm hợp nhất (FC) ...............................................................................105
4.3. Thực nghiệm và đánh giá .............................................................................106
4.3.1. Tập mẫu thực nghiệm ...........................................................................106
4.3.2. Triển khai thử nghiệm ..........................................................................106
4.3.3. Kết quả thử nghiệm ...............................................................................107
4.3.4. Đánh giá kết quả thử nghiệm ...............................................................112
4.4. Kết luận Chương 4 ........................................................................................113
KẾT LUẬN ................................................................................................................114
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ ........................................................117

TÀI LIỆU THAM KHẢO.........................................................................................119


ix
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ký hiệu,
chữ viết tắt

Từ nguyên gốc

Nghĩa tiếng Việt đầy đủ

IoT

Internet of Things

Vạn vật kết nối Internet

ELF

Linux Executable and Linkable Định dạng tệp tin thực thi và liên kết
Format
động trong Linux

DSCG

Directed System Call Graph

Đồ thị lời gọi hệ thống có hướng


ITU

International
Telecommunication Union

Cơ quan chuyên trách về công nghệ
thông tin và truyền thông của Liên
hiệp quốc

SCADA
P2P

Supervisory Control And Data Hệ thống giám sát và điều khiển tập
Acquisition
trung
Peer to Peer network

Mạng ngang hàng

DDoS

Distributed Denial of Service Tấn công từ chối dịch vụ phân tán
attack

CPU

Central Processing Unit

C&C server Command and Control server


Bộ xử lý trung tâm
Máy chủ ra lệnh và điều khiển

KNN

K-nearest neighbors

Thuật toán K điểm gần nhất

SVM

Support vector machines

Thuật toán học máy vector hỗ trợ

DT

Decision Tree

Thuật toán cây quyết định

FR

Random Forest

Thuật toán rừng cây ngẫu nhiên


x
DANH MỤC CÁC BẢNG

Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet ................................... 15
Bảng 1.2 So sánh đặc điểm các phương pháp phát hiện mã độc IoT Botnet ................ 22
Bảng 1.3 Các nguồn dữ liệu động được thu thập cho phát hiện mã độc IoT Botnet ... 26
Bảng 1.4 Tóm tắt chức năng các IoT Sandbox ............................................................. 29
Bảng 1.5 So sánh đặc điểm các IoT Sandbox hiện có ................................................... 30
Bảng 1.6 Các nghiên cứu liên quan sử dụng đồ thị lời gọi hệ thống ............................ 36
Bảng 2.1 Các tham số cấu hình mặc định cho SE ......................................................... 53
Bảng 2.2 Thống kê kết quả chạy V-Sandbox ................................................................ 63
Bảng 2.3 Thống kê kết quả chạy LiSa Sandbox............................................................ 67
Bảng 2.4 So sánh các chức năng của các IoT Sandbox................................................. 67
Bảng 2.5 Các mẫu được lựa chọn ngẫu nhiên từ dataset .............................................. 67
Bảng 2.6 Kết quả so sánh giữa LiSa, Cuckoo và V-Sandbox ....................................... 68
Bảng 3.1 Mô tả chi tiết về Dataset ................................................................................ 81
Bảng 3.2 Các tham số mơ hình học máy được điều chỉnh ............................................ 82
Bảng 3.3 Kịch bản phân chia tập dữ liệu thử nghiệm ................................................... 84
Bảng 3.4 Giá trị các chỉ số đánh giá mơ hình đề xuất ................................................... 86
Bảng 3.5 So sánh mơ hình đề xuất và các nghiên cứu liên quan .................................. 88
Bảng 4.1 Khảo sát các nghiên cứu về phát hiện sớm mã độc ....................................... 97
Bảng 4.2 Mô tả chi tiết về Dataset ..............................................................................106
Bảng 4.3 Các tham số thuật toán học máy được sử dụng ...........................................107
Bảng 4.4 Độ chính xác các mơ hình học máy đơn lẻ huấn luyện trên Dataset ...........109
Bảng 4.5 Các mô hình học máy sau khi tối ưu trên Dataset .......................................109
Bảng 4.6 Kết quả thử nghiệm với các mẫu nằm ngoài Dataset ..................................111
Bảng 4.7 So sánh với các nghiên cứu liên quan ..........................................................112


xi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Số lượng các thiết bị được kích hoạt trên tồn cầu .......................................... 8
Hình 1.2 Phân loại thiết bị IoT dựa trên chức năng hoạt động [13] ................................ 9

Hình 1.3 Phân lớp các thiết bị IoT [18] ......................................................................... 10
Hình 1.4 Các bước trong vòng đời của mã độc IoT Botnet .......................................... 18
Hình 1.5 Vòng đời của IoT Botnet ................................................................................ 19
Hình 1.6 So sánh quy trình phân tích tĩnh và phân tích động mã độc........................... 22
Hình 1.7 Kiến trúc cơ bản của Cuckoo Sandbox [50] ................................................... 27
Hình 1.8 Kiến trúc của IoTBox [44] ............................................................................. 28
Hình 1.9 Một đồ thị PSI-graph được xây dựng ............................................................. 35
Hình 1.10 Đồ thị con PSI-Rooted graph từ đỉnh 11 với độ sâu d=2 ............................ 36
Hình 1.11 Mơ hình CBOW và Skip-gram ..................................................................... 38
Hình 1.12 Minh họa kết quả biểu diễn khơng gian các từ trong word2vec .................. 38
Hình 1.13 Kiến trúc mạng nơ-ron của word2vec .......................................................... 38
Hình 2.1 Kiến trúc của V-Sandbox ............................................................................... 48
Hình 2.2 Sử dụng Readelf đọc Header ELF .................................................................. 52
Hình 2.3 Sử dụng Readelf liệt kê các yêu cầu thư viện động ....................................... 52
Hình 2.4 Đầu ra của khối EMF ..................................................................................... 52
Hình 2.5 Đầu ra của khối SCG ...................................................................................... 54
Hình 2.6 Kiến trúc bên trong SE ................................................................................... 55
Hình 2.7 Lệnh khởi động mơi trường SE ...................................................................... 55
Hình 2.8 Thơng tin thư viện liên kết động xác định bởi ldd ......................................... 57
Hình 2.9 Thơng tin thư viện liên kết động xác định bởi readelf ................................... 57
Hình 2.10 Khối RDP cập nhật nội dung tệp “Configuration file” ................................ 58
Hình 2.11 Kiến trúc kết nối chung của IoT Botnet [2].................................................. 60
Hình 2.12 Các thư mục được trích xuất từ firmware của Router Netgear WNAP320 . 61
Hình 2.13 Thiết bị C500-Extractor ................................................................................ 61
Hình 2.14 Mơ hình triển khai thử nghiệm của V-Sandbox ........................................... 63
Hình 2.15 Thơng tin thu thập bởi các tác tử của V-Sandbox ........................................ 64
Hình 2.16 Thơng tin thu thập lời gọi hệ thống bởi SystemCall agent ........................... 64
Hình 2.17 Thơng tin thu thập bởi File agent ................................................................. 64
Hình 2.18 Thơng tin thu thập bởi Host performance agent ........................................... 65



xii
Hình 2.19 Thơng tin thu thập bởi Network agent ......................................................... 65
Hình 2.20 Thơng tin thư viện liên kết động được u cầu ............................................ 65
Hình 2.21 Báo cáo tởng thể về hành vi của mẫu được chạy ......................................... 66
Hình 3.1 Quy trình phương pháp đề xuất phát hiện mã độc IoT Botnet dựa trên DSCG
....................................................................................................................................... 75
Hình 3.2 Chuỗi lời gọi hệ thống của mã độc Mirai thu từ V-Sandbox ......................... 78
Hình 3.3 Đồ thị DSCG cho mẫu mã độc Mirai ............................................................. 78
Hình 3.4 Lưu trữ đồ thị DSCG dưới định dạng “gexf” ................................................. 79
Hình 3.5 So sánh Doc2vec và Graph2vec ..................................................................... 81
Hình 3.6 Các kịch bản thử nghiệm điều chỉnh tham số các mơ hình học máy ............. 83
Hình 3.7 Đồ thị ROC đối với kịch bản thứ nhất............................................................ 86
Hình 3.8 Đồ thị ROC đối với kịch bản thứ hai.............................................................. 87
Hình 3.9 Đồ thị ROC đối với kịch bản thứ ba ............................................................... 87
Hình 4.1 Phương pháp hợp nhất sớm ............................................................................ 91
Hình 4.2 Phương pháp hợp nhất muộn .......................................................................... 92
Hình 4.3 Mơ hình hợp nhất trung gian .......................................................................... 92
Hình 4.4 Kiến trúc của mơ hình đề xuất ......................................................................100
Hình 4.5 Thống kê số lượng lời gọi hệ thống của IoT Botnet trong Dataset ..............101
Hình 4.6 Thống kê số lượng lời gọi hệ thống của mẫu lành tính trong Dataset .........102
Hình 4.7 Thống kê số lượng gói tin luồng mạng của IoT Botnet trong Dataset .........102
Hình 4.8 Thống kê số lượng gói tin luồng mạng của mẫu lành tính trong Dataset ....102
Hình 4.9 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của IoT Botnet trong Dataset
.....................................................................................................................................103
Hình 4.10 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của mẫu lành tính trong
Dataset .........................................................................................................................103
Hình 4.11 Thành phần học cộng tác các dữ liệu đặc trưng .........................................105
Hình 4.12 Kết quả đánh giá các thuật tốn học máy cộng tác ....................................109
Hình 4.13 Kết quả phát hiện mã độc 1 pha phân tích .................................................110

Hình 4.14 Kết quả phát hiện mã độc 2 pha phân tích .................................................110
Hình 4.15 Kết quả phân tích tệp lành tính ...................................................................111


1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Theo thống kê của công ty chuyên về thiết bị mạng Cisco [1], vào năm 2020 có
hơn 50 tỷ thiết bị kết nối Internet, các thiết bị này sẽ có mặt ở khắp mọi nơi mà đặc biệt
là trong nhà thông minh như: Các hệ thống cảm biến môi trường, CameraIP, VoIP, IP
TV, Router SOHO,… Sự phát triển của công nghệ vạn vật kết nối Internet (IoT - Internet
of Things) đã mang lại các tiện ích trong quản lý năng lượng tối ưu, theo dõi sức khoẻ,
giao thông, đô thị thông minh. Để có được sự phát triển mạnh mẽ của IoT phải kể đến
đóng góp lớn của cơ sở hạ tầng nhúng (embedded system) cho phép tích hợp và biến
mọi đồ vật trở nên “thơng minh” khi có thể tương tác và kết nối với nhau thông qua
Internet. Tuy nhiên, những nghiên cứu, chính sách về bảo mật, an ninh an tồn thông tin
chưa được quan tâm đúng mức so với sự phát triển nhanh và rộng của thiết bị IoT. Kết
quả nghiên cứu gần đây cũng đã chỉ ra rằng lỗ hổng bảo mật và đặc biệt là mã độc xuất
hiện nhiều trên phần sụn (firmware) của các thiết bị IoT hạn chế tài nguyên và là nguyên
nhân chính cho những mối nguy cơ an ninh an toàn thiết bị IoT [2]–[5]. Việc bỏ ngỏ các
biện pháp đảm bảo an ninh, an tồn cho các thiết bị IoT đã vơ hình tạo cơ hội cho tin tặc
dễ dàng tấn công và chiếm quyền điều khiển các thiết này này trên toàn thế giới. Theo
nhận định của tập đoàn Gartner [6], 25% các cuộc tấn công mạng sẽ liên quan đến các
thiết bị IoT vào năm 2020. Tại Việt Nam, tháng 6/2016, tập đồn BKAV đã cơng bố kết
quả khảo sát 21 triệu thiết bị định tuyến trên Internet, trong đó có tới 5,6 triệu thiết bị
trên thế giới (Việt Nam chiếm 5,9%) bị nhiễm lỗ hổng PetHole, dẫn đến nguy cơ mất
quyền điều khiển thiết bị [7]. Lợi dụng các lỗ hổng bảo mật nghiêm trọng trên các thiết
bị này [3, 5] các cuộc tấn công từ chối dịch vụ quy mô lớn đã được ghi nhận [8]. Điều
này đã làm thay đổi nhận thức về mạng lưới Botnet truyền thống. Khác với Botnet truyền
thống, mã độc IoT Botnet có những đặc điểm khác biệt như phương thức lây lan, hiệu

quả tấn cơng,… Với tình hình nêu trên, vấn đề nghiên cứu giải pháp bảo vệ cho các thiết
bị IoT hạn chế tài nguyên trước sự lây nhiễm của mã độc IoT Botnet là một yêu cầu cấp
thiết.


2
2. Mục tiêu nghiên cứu của luận án
Từ những nội dung được nêu trong tính cấp thiết của luận án, nghiên cứu sinh xác
định mục tiêu nghiên cứu của luận án là “nghiên cứu, xây dựng hệ thống thu thập dữ
liệu hành vi và phát hiện mã độc IoT Botnet dựa trên mơ hình học máy nhằm nâng cao
độ chính xác và giảm độ phức tạp trong phát hiện mã độc IoT Botnet trên các thiết bị
IoT hạn chế tài nguyên theo phương pháp phân tích động”. Để đạt được mục tiêu nghiên
cứu này, nghiên cứu sinh xác định các mục tiêu cụ thể như sau:
- Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi tương tác của mã độc
IoT Botnet với các thiết bị IoT hạn chế tài nguyên thông qua môi trường Sandbox tự xây
dựng.
- Nghiên cứu, xây dựng mơ hình học máy phát hiện mã độc IoT Botnet đảm bảo
độ chính xác, tỉ lệ âm tính giả thấp và yêu cầu tối thiểu lượng dữ liệu cần thu thập.
- Nghiên cứu, kết hợp hệ thống thu thập dữ liệu bằng Sandbox tự xây dựng với
mơ hình học máy đề xuất thành hệ thống phát hiện mã độc IoT Botnet hoàn chỉnh ứng
dụng được trong thực tế.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Với mục tiêu nghiên cứu của luận án, nghiên cứu sinh lựa chọn đối tượng nghiên
cứu là các tệp thực thi được (Executable file) trên các thiết bị IoT hạn chế tài nguyên.
Cụ thể, theo kết quả nghiên cứu của Costin và cộng sự [9] đối với các thiết bị IoT hạn
chế tài nguyên thì hệ điều hành phổ biến là Linux. Trong nền tảng hệ điều hành Linux,
tệp thực thi được thường tồn tại dưới dạng tệp ELF. Các tệp ELF này có thể là tệp tin
mã độc (Malware) hoặc tệp tin lành tính (Benign). Các tệp tin ELF sẽ được nghiên cứu
sinh thu thập để làm đối tượng nghiên cứu, thử nghiệm và đánh giá kết quả của luận án.

Nguồn thu thập các tệp tin ELF này từ các Honeypot, kho dữ liệu nghiên cứu được các
tác giả trên thế giới chia sẻ và quá trình tự thu thập, trích xuất từ bản ảnh (firmware) của
các thiết bị IoT hạn chế tài nguyên do nghiên cứu sinh thực hiện.


3
3.2. Phạm vi nghiên cứu
Trong phạm vi nghiên cứu của mình, nghiên cứu sinh lựa chọn nghiên cứu giải
quyết bài toán phát hiện mã độc, cung cấp khả năng phân biệt các tập tin thực thi là mã
độc (malware) hay lành tính (benign). Luận án này trình bày hướng tiếp cận mới trong
phát hiện mã độc IoT Botnet với những phạm vi nghiên cứu sau:
- Lựa chọn nghiên cứu phát hiện các mẫu mã độc IoT Botnet xuất hiện trên các
thiết bị IoT hạn chế tài nguyên với lý do: mặc dù có nhiều dòng mã độc lây nhiễm trên
thiết bị IoT (như Trojan, Ransomware, Spyware,…) nhưng với đặc điểm hạn chế về mặt
tài nguyên, xuất hiện rộng khắp trên tồn thế giới và tồn tại các lỗ hởng bảo mật cơ bản
thì tỉ lệ mã độc Botnet chiếm tỉ lệ đa số theo thống kê của Kaspersky [4]. Do đó, vấn đề
nghiên cứu giải pháp phát hiện mã độc IoT Botnet là cấp thiết và có ý nghĩa thực tiễn.
- Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chính
gồm thiết bị hạn chế tài nguyên (constrained) và hiệu năng cao (high-capacity). Các thiết
bị IoT hạn chế tài nguyên có thể kể đến như IP Camera, Wifi Router, Smart Hub,…
Cũng theo thống kê của Kaspersky [4, 10] thì mục tiêu lây nhiễm chủ yếu của mã độc
IoT Botnet chính là các thiết bị IoT này. Vì vậy, luận án này tập trung tìm hiểu, nghiên
cứu phương pháp phát hiện mã độc IoT Botnet cho các thiết bị IoT hạn chế tài nguyên
như trong tiêu chí phân loại của Bencheton.
- Để giải quyết bài toán phát hiện mã độc IoT Botnet, nghiên cứu sinh lựa chọn
hướng tiếp cận sử dụng phương pháp phân tích động để giải quyết các hạn chế của phân
tích tĩnh như đóng gói mã nguồn, làm rối mã, độ phức tạp trong phân tích nội dung mã
nguồn tệp thực thi,…
4. Nội dung và phương pháp nghiên cứu
4.1. Nội dung nghiên cứu

Với mục tiêu nghiên cứu trình bày ở trên, nghiên cứu sinh xác định các nội dung
nghiên cứu chính có 5 nội dung, được trình bày tại các chương của luận án, cụ thể gồm:
- Khảo sát, nghiên cứu về đặc điểm thiết bị IoT nói chung và thiết bị IoT hạn chế
tài nguyên nói riêng; từ đó xác định các đặc điểm và khảo sát phương pháp phát hiện mã
độc IoT Botnet xuất hiện trên loại thiết bị này.


4
- Nghiên cứu, xây dựng môi trường sandbox đảm bảo các điều kiện để có thể thu
thập đầy đủ dữ liệu hành vi của mã độc IoT Botnet.
- Nghiên cứu, đề xuất đặc trưng mới từ đồ thị lời gọi hệ thống có hướng DSCG
(Directed System Call Graph) trong phát hiện mã độc IoT Botnet.
- Nghiên cứu, đề xuất mô hình học máy kết hợp các đặc trưng phù hợp có khả
năng phát hiện sớm mã độc IoT Botnet.
- Đánh giá đặc trưng và mơ hình học máy đã đề xuất về độ chính xác và hiệu quả
trong phát hiện mã độc IoT Botnet dựa trên tập dữ liệu (dataset) đủ lớn và tin cậy. Thực
hiện so sánh kết quả thực nghiệm, đánh giá với các nghiên cứu có liên quan để làm nởi
bật đóng góp khoa học của luận án.
4.2. Phương pháp nghiên cứu
4.2.1. Nghiên cứu lý thuyết
Thực hiện khảo sát, nghiên cứu, tổng hợp, đánh giá các kết quả nghiên cứu khoa
học đã được công bố trong và ngoài nước về các nội dung liên quan tới mục tiêu nghiên
cứu của luận án. Nguồn tài liệu phục vụ cho nghiên cứu lý thuyết được nghiên cứu sinh
sử dụng tại hai nguồn chính là kho dữ liệu trực tuyến (như Google Scholar, IEEE Xplore,
ACM Digital Library, Crossref,…) và nội dung báo cáo tại các hội thảo khoa học uy tín
trong và ngồi nước như USENIX, Blackhat, SOICT, ICCM, FAIR,…
Trên cơ sở đó hệ thống hóa các vấn đề cịn tồn tại trong bài toán phát hiện mã độc
IoT Botnet trên các thiết bị IoT hạn chế tài nguyên, đưa ra các vấn đề cần phân tích,
đánh giá và thực hiện đảm bảo đúng mục tiêu nghiên cứu đã đề ra.
4.2.2. Nghiên cứu thực nghiệm

Thực nghiệm xây dựng đặc trưng của mã độc IoT Botnet từ đồ thị lời gọi hệ thống
có hướng DSCG trên tập hợp các tập tin ELF của thiết bị IoT (gồm tệp lành tính và mã
độc). Thực nghiệm đánh giá tính hiệu quả của đặc trưng đồ thị DSCG được đề xuất với
thuật toán học máy. Thực nghiệm xây dựng và đánh giá trên tập dữ liệu đã thu thập cho
mơ hình học máy kết hợp các đặc trưng trong bài toán phát hiện sớm mã độc IoT Botnet.


5
5. Các đóng góp chính của luận án
Luận án tập trung vào giải quyết các nội dung nghiên cứu đã nêu ở trên. Các đóng
góp có thể được liệt kê như kết quả của luận án này, cụ thể bao gồm:
- Đóng góp 1: Luận án xây dựng được một môi trường V-Sandbox đảm bảo mô
phỏng đầy đủ các yêu cầu cần thiết để mã độc IoT Botnet có thể thực thi trọn vẹn vịng
đời của mình. Mơi trường sandbox được xây dựng cho phép thu thập đầy đủ dữ liệu hành
vi của mã độc, hoạt động hoàn toàn tự động, mã nguồn mở và cài đặt dễ dàng, có tính thực
tiễn.
- Đóng góp 2: Luận án đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng (Directed
System Call Graph - DSCG) để cấu trúc hoá một cách tuần tự các lời gọi hệ thống thu được
từ môi trường V-Sandbox đề xuất ở trên. Phương pháp tiền xử lý dữ liệu lời gọi hệ thống
được đề xuất sẽ có độ phức tạp thấp, dễ áp dụng với những thuật tốn học máy đơn giản.
- Đóng góp 3: Luận án đề xuất được một mơ hình phát hiện mã độc IoT Botnet mới,
có khả năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm mã độc IoT
Botnet. Mơ hình đề xuất dựa trên việc thu thập mức tối thiểu các dữ liệu động cần thiết mà
vẫn có thể đưa ra dự báo có độ chính xác cao, góp phần giảm thiểu thời gian phát hiện mã độc
IoT Botnet.
6. Bố cục của luận án
Với những kết quả nghiên cứu đã thực hiện, luận án được trình bày với bố cục
gồm phần mở đầu, 4 chương nội dung và phần kết luận, hướng phát triển của đề tài. Cụ
thể bố cục của luận án như sau:
Phần mở đầu: Luận án trình bày tính cấp thiết và ý nghĩa khoa học của đề tài

nghiên cứu, trên cơ sở đó xác định mục tiêu nghiên cứu, đối tượng, phạm vi nghiên cứu,
nội dung và phương pháp nghiên cứu của luận án.
Chương 1: Luận án trình bày hai nội dung chính gồm tởng quan về thiết bị IoT
và mã độc IoT Botnet. Trong nội dung tổng quan về thiết bị IoT, luận án trình bày khái
niệm, đặc điểm, phân loại, sự tiến hóa, các vấn đề bảo mật và các kiểu tấn công phổ biến
với thiết bị IoT. Tiếp theo, luận án trình bày khái niệm, đặc điểm và các phương pháp
phát hiện mã độc IoT Botnet. Đồng thời, luận án cũng đánh giá đặc điểm của mã độc


6
IoT Botnet so với mã độc Botnet truyền thống. Từ những nội dung đánh giá kể trên, luận
án xác định vấn đề nghiên cứu đặt ra với bài toán phát hiện mã độc IoT Botnet.
Chương 2: Luận án trình bày phương pháp luận về xây dựng môi trường môi
trường V-Sandbox đảm bảo các điều kiện để có thể thu thập đầy đủ dữ liệu hành vi của
mã độc IoT Botnet. Mơi trường sandbox được xây dựng hoạt động hồn tồn tự động,
mã nguồn mở và cài đặt dễ dàng, có tính thực tiễn. Chương này gồm 3 phần. Phần thứ
nhất trình bày tởng quan về mơ hình đề xuất. Phần thứ hai mô tả chi tiết các thành phần
của mô hình. Phần thứ ba trình bày nội dung thử nghiệm và đánh giá hiệu quả của mơ
hình đề xuất, đồng thời so sánh với các nghiên cứu liên quan.
Chương 3: Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng từ
đồ thị DSCG phục vụ nâng nâng cao độ chính xác trong phát hiện mã độc IoT Botnet.
Chương này gồm 3 phần. Phần thứ nhất trình bày tởng quan về quy trình hoạt động của
phương pháp đề xuất. Phần thứ hai giới thiệu về cách thức xây dựng đặc trưng đồ thị
DSCG từ dữ liệu thu thập được của V-Sandbox. Cuối cùng là đánh giá tính hiệu quả của
phương pháp đề xuất dựa trên tiêu chí về độ chính xác, đồng thời so sánh với các nghiên
cứu đã có.
Chương 4: Luận án trình bày phương pháp luận về mơ hình học máy mới, có khả
năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm và độ chính xác
cao trong vấn đề nhận diện mã độc IoT Botnet. Chương này gồm 3 phần chính. Phần thứ
nhất, luận án trình bày tởng quan về quy trình hoạt động của mơ hình đề xuất. Phần thứ

hai trình bày về cách thức xây dựng các thành phần của mơ hình đề xuất. Cuối cùng là
đánh giá tính hiệu quả của phương pháp đề xuất dựa trên tiêu chí về độ chính xác và thời
gian phát hiện, đồng thời so sánh với các nghiên cứu đã có.
Cuối cùng, luận án được kết luận, cùng với đó là các định hướng nghiên cứu trong
tương lai.


7
CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET
1.1. Tổng quan về thiết bị IoT
1.1.1. Khái niệm thiết bị IoT
Khái niệm thuật ngữ “Internet of Things” (IoT) đã được nhiều nhà nghiên cứu
đưa ra ý kiến của mình trong từng lĩnh vực chuyên biệt. Tuy nhiên, tất cả đều thống nhất
việc sử dụng thuật ngữ này lần đầu vào năm 1999 do Kevin Ashton. Theo Kevin Ashton
[11], “Internet of Things” là “tập hợp các cảm biến và bộ điều khiển nhúng trong các
thiết bị được liên kết thơng qua mạng có dây và khơng dây”. Tại thời điểm này, các thiết
bị “IoT” được sử dụng để chỉ các thiết bị nhúng được điều khiển bởi con người thơng
qua mạng có dây hoặc khơng dây.
Đến năm 2015, Madakam [12] đưa ra cách hiểu IoT là “một mạng lưới mang tính
mở và toàn diện kết nối các đối tượng thơng minh có khả năng tự động tổ chức, chia sẻ
thông tin, dữ liệu và tài nguyên, phản ứng và hành động khi đối mặt với các tình huống
và thay đổi của môi trường”. Madakam nhấn mạnh về đặc điểm “thông minh” của các
thiết bị IoT bao gồm: Tự tổ chức hoạt động; Chia sẻ thông tin, dữ liệu và tài nguyên; Có
khả năng phản ứng lại với các thay đổi của môi trường xung quanh. Theo sự phát triển
của công nghệ hiện đại, IoT đã phát triển từ sự hội tụ của công nghệ kết nối không dây,
công nghệ vi cơ điện tử và sự phát triển của Internet.
Sau khi xem xét các định nghĩa của các tổ chức khác nhau, ITU (International
Telecommunication Union) đã định nghĩa IoT như sau: “Internet of Things là một cơ sở
hạ tầng tồn cầu cho xã hội thơng tin, cho phép các dịch vụ tiên tiến hoạt động bằng
cách kết nối các vật thể (vật lý và ảo) dựa trên các công nghệ thơng tin truyền thơng

tương thích hiện có và đang phát triển” [13]. Theo khái niệm này, vạn vật (Things) là
đối tượng của thế giới thực (vật chất tồn tại) hoặc của thế giới thơng tin (thực thể ảo), có
khả năng được định danh, tích hợp vào mạng thơng tin và truyền thơng.
Bên cạnh đó, ITU cũng xác định thiết bị IoT là “thiết bị có khả năng kết nối và có
thể tích hợp cảm biến, cơ cấu truyền động, chức năng thu thập, lưu trữ và xử lý dữ liệu”.
Các thiết bị IoT thu thập các loại thông tin khác nhau và cung cấp cho các mạng thông tin
và truyền thông để xử lý, làm giàu thêm thông tin thu được. Một số thiết bị IoT cũng thực
hiện các hoạt động dựa trên thông tin nhận được từ mạng thông tin và truyền thông.


8
Với kết quả nghiên cứu của mình, nghiên cứu sinh nhận thấy vẫn chưa có một
khái niệm thống nhất chung về thiết bị IoT. Tuy nhiên, các khái niệm đã có đều cơ bản
chỉ ra đặc điểm nởi bật nhất của loại thiết bị này là khả năng kết nối vào Internet. Vì vậy,
nghiên cứu sinh đưa ra khái niệm thiết bị IoT được sử dụng trong luận án này như sau:
Khái niệm 1.1. Thiết bị IoT là các thiết bị có khả năng kết nối, chia sẻ dữ liệu, tài
nguyên dựa trên trên các công nghệ thông tin truyền thơng tương thích hiện có và đang
phát triển, tự phản ứng với thay đổi của môi thường để đạt được một mục tiêu nhất định.
Sự tăng trưởng nhanh chóng về số lượng thiết bị IoT so với các thiết bị kết nối
Internet truyền thống như máy tính điện tử được chứng minh thông qua số liệu thống kê
của IoT Analytics [14], được minh họa tại Hình 1.1. Qua số liệu dự báo thống kê cho
thấy, từ năm 2018 đến năm 2025 số lượng thiết bị truyền thống tăng lên không nhiều
(chỉ khoảng 18%) từ 10,8 tỉ lên 12,7 tỉ. Trong khi đó, thiết bị IoT tăng hơn 200% từ 7 tỉ
lên 21,5 tỉ thiết bị kết nối vào Internet. Không chỉ tăng nhanh về số lượng, chủng loại
thiết bị IoT cũng tăng lên nhanh chóng theo mục đích sử dụng. Thiết bị IoT xuất hiện
trong nhiều lĩnh vực như nhà thơng minh, chăm sóc sức khỏe, tự động hóa q trình sản
xuất cơng nghiệp, vận chuyển hàng hóa,… Tuy nhiên, khi số lượng của nó tăng lên, các
thiết bị IoT bị hạn chế về tài nguyên ngày càng lộ ra nhiều lỗ hởng bảo mật hơn [3, 15].
Vì vậy, các thiết bị này đã trở thành mục tiêu ưa thích của các kẻ tấn công.
Số lượng các thiết bị được kích hoạt tồn cầu (đơn vị tỉ thiết bị)

35.0
30.0
12.7

25.0

12.4
12.1

20.0

11.9
11.6
11.3

15.0
10.0

10.3

10.1

10.6

5.0

10.8

11.1
21.5


4.7

7.0

3.8

5.9

8.3

2015

2016

2017

2018

2019

9.9

2020

11.6

13.5

15.8


18.5

0.0
Thiết bị IoT

2021

2022

2023

2024

Thiết bị truyền thống

Hình 1.1 Số lượng các thiết bị được kích hoạt trên tồn cầu

2025


9
1.1.2. Phân loại thiết bị IoT
Dựa trên chức năng hoạt động, các thiết bị IoT có thể được phân thành các loại
chính sau [13]:
- Thiết bị mang dữ liệu: là thiết bị được tích hợp vào các thực thể vật lý để hỗ trợ
kết nối các thực thể này vào hệ thống mạng phục vụ quá trình truyền dữ liệu.
- Thiết bị thu thập dữ liệu: là thiết bị đọc/ghi có khả năng tương tác với thực thể
vật lý. Sự tương tác có thể xảy ra gián tiếp thơng qua các thiết bị mang dữ liệu hoặc trực
tiếp thông qua các chất mang dữ liệu gắn liền với những thực thể vật lý.

- Thiết bị cảm biến và chấp hành (truyền động): Thiết bị cảm biến và chấp hành
có thể phát hiện hoặc đo lường thông tin liên quan đến mơi trường xung quanh và chuyển
đởi nó thành tín hiệu điện tử, kỹ thuật số. Nó cũng có thể chuyển đởi tín hiệu điện tử, kỹ
thuật số từ các mạng thơng tin thành hoạt động chấp hành như đóng mở cơng tắc, kích
hoạt kịch bản hành động,…
- Thiết bị đa chức năng: là thiết bị được tích hợp khả năng xử lý dữ liệu, giao tiếp
với các thiết bị IoT khác và giao tiếp với các mạng truyền thông thông qua các cơng
nghệ có dây hoặc khơng dây.

Hình 1.2 Phân loại thiết bị IoT dựa trên chức năng hoạt động [13]
Bên cạnh đó, Gartner [16] chia hệ sinh thái các thiết bị IoT thành 5 lớp khác nhau
bao gồm:
-

Lớp 1 đại diện cho mọi thiết bị IoT của người dùng cuối như máy tính,
điện thoại, cảm biến mơi trường, đồ gia dụng thông minh,…

-

Lớp 2 đại diện cho thiết bị hạ tầng mạng và truyền thông.

-

Lớp 3 đại diện cho thiết bị tiền xử lý và lưu trữ dữ liệu.


10
-

Lớp 4 đại diện cho thiết bị triển khai các ứng dụng và dịch vụ IoT.


-

Lớp 5 đại diện cho thiết bị phân tích dữ liệu.

Ngày nay, tất cả các ứng dụng hệ thống, ứng dụng web, lưu trữ và cơ sở dữ liệu
đều có thể được cấu hình trong hệ thống điện toán đám mây (Cloud system), Rahman
[17] chọn cách đơn giản hóa và kết hợp Lớp 3 và Lớp 4 thành một lớp duy nhất như
trong Hình 1.3.

Hình 1.3 Phân lớp các thiết bị IoT [17]
Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chính
gồm thiết bị hạn chế tài nguyên (constrained resource) và hiệu năng cao (high-capacity
resource). Theo đó, thiết bị hạn chế tài nguyên được hiểu là các thiết bị với bộ vi xử lý
(CPU), bộ nhớ (RAM, ROM, Flash,…) và tiêu thụ năng lượng điện hạn chế [18].
Thường được sử dụng làm cảm biến, thiết bị thông minh đeo được, thiết bị nhúng, thiết
bị gia dụng thông minh,… Với mục tiêu nghiên cứu như đã trình bày ở trên, luận án sử
dụng khái niệm thiết bị IoT hạn chế tài nguyên như sau:
Khái niệm 1.2. Thiết bị IoT hạn chế tài nguyên là các thiết bị IoT có cấu tạo hạn
chế về tài nguyên sử dụng (như năng lực xử lý dữ liệu, dung lượng bộ nhớ, băng thông
truyền tải dữ liệu,…)
Đặc trưng của thiết bị IoT hạn chế tài nguyên này có tác động đến khả năng bảo
mật của nó và do đó, nó đưa ra các giới hạn cho việc áp dụng một số giải pháp bảo mật.
Do hạn chế về tài nguyên (CPU, RAM, Flash memory), các thiết bị IoT này khó tích
hợp các giải pháp bảo mật và thực tế đã trở thành mục tiêu tấn công được chú ý với nhiều


11
biến thể của mã độc [2, 8, 19]. Vì vậy, phát hiện mã độc trên các thiết bị IoT hạn chế tài
nguyên là một thách thức đối với các nhà nghiên cứu.

Với các lý do nêu trên, trong phạm vi đề tài luận án Nghiên cứu sinh lựa chọn
thiết bị IoT hạn chế tài nguyên để nghiên cứu phát hiện các hành vi của mã độc.
1.1.3. Các vấn đề bảo mật tồn tại trên thiết bị IoT hạn chế tài nguyên
Internet cung cấp cho con người những lợi ích to lớn, nhưng cũng chứa đựng các
nguy cơ như bị tấn công mạng, lây nhiễm mã độc, đánh cắp thông tin cá nhân,... Đối với
mạng lưới các thiết bị IoT, các nguy cơ này thậm chí cịn nghiêm trọng hơn do quy mô
khổng lồ và khả năng tương tác trở lại với môi trường xung quanh. Các mối đe dọa từ
mạng lưới thiết bị IoT có khả năng vơ hiệu hóa hệ thống an ninh tại nhà, gây rối loại quy
trình sản xuất của nhà máy, phá hoại hệ thống dẫn đường của phương tiện giao thông
không người lái và gây rối loạn các thiết bị hỗ trợ sự sống cho bệnh nhân tại các bệnh
viện. Các nghiên cứu khoa học đã công bố cho thấy, vấn đề lây nhiễm mã độc và tấn
công từ chối dịch vụ là nguy cơ cao ảnh hưởng tới hoạt động của thiết bị IoT [8, 19, 20].
Trong thực tế, các vấn đề này đã được minh chứng bằng các cuộc tấn công từ chối dịch
vụ phân tán (DDoS) sử dụng mạng lưới mã độc IoT Botnet (như Bashlite, Mirai) lây
nhiễm trên các thiết bị IoT hạn chế tài nguyên [8, 21]. Nguyên nhân hầu hết của các cuộc
tấn công này xuất phát từ đặc điểm hạn chế tài nguyên của thiết bị, sẽ khó có thể triển
khai đầy đủ các giải pháp bảo mật cho các thiết bị này như các thiết bị máy tính truyền
thống. Điều này dẫn tới xuất hiện các lỗ hởng bảo mật nghiêm trọng mà các đối tượng
có thể lợi dụng để thực hiện phá hoại.
Cụ thể, kẻ tấn cơng có thể dễ dàng sử dụng một cơng cụ tìm kiếm lỗ hởng bảo
mật của thiết bị IoT như Shodan [22]. Theo kết quả của Shodan, có 150 thiết bị Niagara
SCADA (sử dụng trong điều khiển quản lý sản xuất điện) sử dụng tên đăng nhập và mật
khẩu mặc định; tồn tại 154 thiết bị camera giám sát phương tiện giao thông chưa được
thay đổi mật khẩu mặc định. Đặc biệt, cơng cụ Shodan phát hiện có 19,583 máy in HP
chứa lỗ hổng bảo mật cho phép kẻ tấn công cập nhật các phiên bản firmware khác nhau
lên các máy in này. Từ đó, kẻ tấn cơng có thể thay đổi chức năng của máy in và tấn công
vào mạng mà thiết bị này kết nối đến [23].
Tác giả Andrei Costin và cộng sự [24] đã trình bày kết quả khảo sát, đánh giá
mức độ an tồn thơng tin của các thiết bị IoT nói chung và tập trung vào thiết bị mạng



12
nói riêng. Kết quả nghiên cứu chỉ ra trong 32.256 firmware được phân tích: Có hơn 38
loại lỗ hởng mới chưa được phát hiện trước đó; Trích xuất được 35.000 khóa bí mật RSA
của các thiết bị trực tuyến; Phát hiện nhiều cổng hậu (backdoor) giúp kẻ tấn công hay
gián điệp mạng dễ dàng truy cập trái phép và làm chủ các thiết bị này.
Tháng 6/2016, tập đồn BKAV cơng bố kết quả khảo sát cho thấy 5,6 triệu thiết
bị mạng trên thế giới đang tồn tại lỗ hổng PetHole cho phép kẻ tấn công chiếm quyền
điều khiển, thay đổi các thông số hệ thống để thực hiện các cuộc tấn cơng. Cùng lúc đó,
mã độc Mirai đã lợi dụng lỗ hởng cấu hình trên thiết bị IP camera và router toàn thế giới
để tạo nên một mạng lưới IoT Botnet khổng lồ với hơn nửa triệu thiết bị lây nhiễm [8],
[21]. Cho đến thời điểm này, mã độc Mirai và các biến thể của nó được coi là đã gây ra
một số cuộc tấn công DDoS lớn nhất với thơng lượng lên tới 620 Gbps [21]. Có nhiều
cuộc tấn công DDoS khác đã được thực hiện dựa trên chiến thuật lây nhiễm đơn giản
này khi mã nguồn Mirai được công bố [25].
Lợi dụng các vấn đề bảo mật nêu trên, nhiều hình thức tấn cơng đã hướng tới loại
thiết bị IoT hạn chế tài nguyên này. Theo thống kê của Dange [19], trong số các kiểu tấn
công vào thiết bị IoT thì sử dụng mạng lưới Botnet để tấn công từ chối dịch vụ đang
ngày càng phổ biến và gây ra hậu quả nặng nề hơn cả. Với đặc điểm khác biệt của mạng
lưới thiết bị IoT so với thiết bị truyền thống, mã độc Botnet trên thiết bị IoT đòi hỏi một
cơ chế mới để phát hiện và ngăn chặn. Vì vậy, phạm vi đối tượng mà nghiên cứu sinh
lựa chọn để nghiên cứu là mã độc IoT Botnet. Nội dung tiếp theo luận án sẽ trình bày cụ
thể hơn về loại mã độc này.
1.2. Tổng quan về mã độc IoT Botnet
1.2.1. Khái niệm mã độc IoT Botnet
Mã độc IoT là các mã độc nhắm mục tiêu vào các thiết bị IoT, chủ yếu là các thiết
bị nhúng đa kiến trúc vi xử lý, bao gồm MIPS32, MIPS64, ARM32, ARM64, PowerPC,
SPARC. Loại mã độc này thường hoạt động dựa trên đặc điểm hạn chế tài nguyên của
các thiết bị IoT và là nơi các cơ chế bảo mật thường bị coi nhẹ, bỏ qua. Mặc dù thực thi
trên mục tiêu là các thiết bị hạn chế tài nguyên, mã độc IoT có thể tồn tại các phiên bản

phức tạp cho q trình phân tích, phát hiện. Gần đây, một số họ mã độc IoT đã triển khai


13
các kỹ thuật chống phân tích (anti-analysis), làm xáo trộn mã (code obfuscation) và thực
thi hành vi có điều kiện theo đặc điểm của hệ thống (system conditional behavior) [26].
Ví dụ, một trong các biến thể của mã độc Mirai quan sát đặc điểm của hệ thống
để xác định các điều kiện tối thiểu trước khi liên hệ với máy chủ C&C. Nếu các yêu cầu
tối thiểu không được đáp ứng, mã độc này sẽ kết nối với máy chủ C&C giả mạo, ngăn
không cho tiết lộ máy chủ C&C thật sự. Nhiều biến thể mã độc Mirai khác thực hiện
giám sát các tiến trình đang chạy của hệ thống nhằm tìm kiếm một tập hợp các tên quy
trình được liên kết với các mã độc nổi tiếng để vô hiệu hóa đối thủ tiềm ẩn và tiết kiệm
tài nguyên được chia sẻ hạn chế [27].
Hầu hết mã độc IoT được xây dựng dựa trên một loại ngôn ngữ lập trình và được
biên dịch chéo (cross-compiler) thành nhiều tệp thực thi được trên các kiến trúc CPU
khác nhau (như MIPS, ARM, PowerPC). Tệp thực thi nhị phân (Executable binary)
thường chứa tất cả các thư viện cần thiết (statically link) để giảm sự phụ thuộc vào mơi
trường bên ngồi và tăng cơ hội thực thi của nó trên các thiết bị IoT khác nhau. Các tệp
mã nhị phân này thường thực hiện các tính năng liên quan đến các cuộc tấn công từ chối
dịch vụ phân tán (DDoS), cài đặt Backdoor, tấn cơng dị tìm mật khẩu quản trị (Bruteforce attack), thực thi lệnh từ C&C server, mã hóa dữ liệu tống tiền và các công cụ khai
thác tiền điện tử. Với sự đa dạng của mã độc IoT, theo thống kê của Cozzi và cộng sự
[26] mã độc IoT Botnet chiếm đại đa số. Tiêu biểu cho loại mã độc này có thể kể đến
Mirai và Bashlite, được phát triển đặc biệt để tạo ra các mạng IoT Botnet quy mô lớn
được thiết kế khởi động các kiểu tấn công từ chối dịch vụ phân tán khác nhau [8]. Vì
vậy, vấn đề nghiên cứu tìm hiểu, phát hiện mã độc IoT Botnet là nhiệm vụ quan trọng
trong việc bảo vệ mơi trường IoT nói chung và các thiết bị IoT nói riêng.
Theo Bertino [28], Botnet là một mạng lưới gồm các thiết bị bị xâm nhập (thường
gọi là Bot), thực thi mã độc dưới sự chỉ huy và kiểm soát của Botmaster. Botnet có một
loạt các mục đích bất chính như gửi thư rác (email spam), tấn công từ chối dịch vụ phân
tán (DDoS), bẻ khóa mật khẩu (password cracking), theo dõi bàn phím người dùng

(keylog) và khai thác tiền điện tử (cryptocurrency mining). Các Bot có thể tự động quét
toàn bộ phạm vi mạng và tự lan truyền bằng các lỗ hổng bảo mật đã biết và lợi dụng mật
khẩu yếu trên các thiết bị khác để xâm nhập. Khi một máy tính bị xâm nhập, một chương
trình nhỏ được cài đặt để kích hoạt tác vụ trong tương lai bởi Botmaster, người vào một


14
thời điểm nhất định có thể ra lệnh cho các Bot trong mạng thực hiện các hành động như
gửi yêu cầu đến máy chủ trang web mục tiêu với mục đích khiến nó khơng thể phục vụ
u cầu của người dùng hợp pháp, dẫn đến tấn công từ chối dịch vụ phân tán (DDoS).
Các Botnet ban đầu đã sử dụng một kiến trúc tập trung, trong đó Botmaster sẽ cư trú trên
một hoặc nhiều máy chủ trung tâm. Bởi vì các Botnet như vậy có thể bị vơ hiệu hóa bằng
cách tắt các máy chủ này, các kiến trúc thay thế dựa trên các mạng ngang hàng (P2P) đã
xuất hiện như GameOver Zeus, Sality, ZeroAccess và Kelihos.
Cùng với sự phát triển của Internet of Thing (IoT), IoT Botnet đã ra đời. Theo
Pamela [29], mã độc IoT Botnet là “một mạng lưới các thiết bị IoT (như IP-camera, thiết
bị định tuyến, thiết bị gia dụng, thiết bị cầm tay và đeo được, cảm biến và các thiết bị
khác sử dụng giao thức IP để truyền dữ liệu qua Internet) bị xâm nhập và lây nhiễm mã
độc phục vụ xây dựng Botnet”. Mã độc này cho phép kẻ tấn cơng kiểm sốt các thiết bị
IoT, thực hiện các tác vụ giống như một mạng lưới Botnet truyền thống.
Với các khái niệm đã được các nhà nghiên cứu trình bày ở trên, kết hợp với phạm
vi nghiên cứu của đề tài, khái niệm mã độc IoT Botnet được sử dụng trong luận án này
được xác định như sau:
Khái niệm 1.3. Mã độc IoT Botnet là mã độc có khả năng xâm nhập và lây nhiễm
trên các thiết bị IoT hạn chế tài nguyên phục vụ mục đích xây dựng Botnet.
1.2.2. Đặc điểm của mã độc IoT Botnet
Mạng lưới Botnet truyền thống là tập hợp các máy tính hoặc máy chủ bị xâm nhập
và lây nhiễm mã độc (thường được gọi là “zombie”) dẫn tới bị chiếm quyền điều khiển,
thực hiện các nhiệm vụ theo mục đích của kẻ tấn cơng. Chủ sở hữu mạng lưới Botnet
(Botmaster) có thể kiểm sốt các “zombie” bằng kênh bí mật như Internet Relay Chat

(IRC) hoặc mạng ngang hàng. Các phương pháp kiểm soát này đưa ra các lệnh để thực
hiện các hành vi độc hại như tấn công từ chối dịch vụ phân tán (DDoS), gửi thư rác hoặc
đánh cắp thông tin cá nhân người dùng. Mục tiêu của mã độc IoT Botnet là tập hợp các
thiết bị IoT hạn chế tài nguyên như camera giám sát an ninh kết nối Internet (IP camera),
bộ định tuyến không dây gia dụng (SOHO router wifi), bộ điều khiển trung tâm (smart
hub) và các thiết bị trong nhà thông minh. Điều này cho thấy sự thay đổi về thành phần
cơ bản trong mạng lưới IoT Botnet so với Botnet truyền thống. Ngoài ra, phương pháp
lây nhiễm lên các thiết bị IoT cũng mang những đặc điểm riêng dành cho các thiết bị


×