Tải bản đầy đủ (.pdf) (93 trang)

Ứng dụng thuật toán fuzzy random forest trong phát hiện xâm nhập mạng không dây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 93 trang )

ĐẠI HỌC QUỐC GA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------- 🙞🙞 ---------------

NGUYỄN VĂN LINH

ỨNG DỤNG THUẬT TOÁN FUZZY RANDOM
FOREST TRONG PHÁT HIỆN XÂM NHẬP MẠNG
KHÔNG DÂY

Ngành: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS. Lê Hoàng Sơn

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
--------------- 🙞🙞 ---------------

NGUYỄN VĂN LINH

ỨNG DỤNG THUẬT TOÁN FUZZY RANDOM
FOREST TRONG PHÁT HIỆN XÂM NHẬP MẠNG
KHÔNG DÂY
Ngành: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính


Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS. Lê Hoàng Sơn
Xác nhận của cán bộ hướng dẫn

PGS TS. Lê Hoàng Sơn

Hà Nội - 2019


LỜI CẢM ƠN
Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy
giáo, PGS. TS. Lê Hoàng Sơn đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi
trong suốt quá trình tôi thực hiện luận văn tốt nghiệp.
Tôi xin gửi lời cảm ơn tới các thầy cô trường Đại Học Công Nghệ - Đại Học
Quốc Gia Hà Nội – những người đã tận tình giúp đỡ, hướng dẫn trong quá trình tôi học
tập và tại trường.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh, quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện
luận văn tốt nghiệp này.

Tôi xin chân thành cảm ơn!



Nội,

tháng


04

Học viên

Nguyễn Văn Linh

1

năm

2019


LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong Luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của người khác. Những điều được trình bày trong nội dung Luận
văn, hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài
liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn đúng quy cách. Tôi xin hoàn
toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của
mình.

Hà Nội, tháng 04 năm 2019
Tác giả luận văn

Nguyễn Văn Linh

2


MỤC LỤC

LỜI CẢM ƠN

1

LỜI CAM ĐOAN .................................................................................................. 2
MỤC LỤC ............................................................................................................. 3
DANH SÁCH BẢNG ............................................................................................ 4
DANH SÁCH HÌNH VẼ ....................................................................................... 5
DANH SÁCH TỪ VIẾT TẮT ............................................................................... 7
1

2

3

CHƯƠNG I: TỔNG QUAN BÀI TOÁN VÀ KIẾN THỨC NỀN ............. 11
1.1

Đặt vấn đề

11

1.2

Tổng quan về mạng không dây

12

1.2.1 Kiến trúc mạng 802.11


12

1.2.2

Cơ chế bảo mật

13

1.2.3

Các dạng tấn mạng không dây

16

1.2.4 Các dấu hiệu tấn công mạng không dây

18

1.3

Mục tiêu của luận văn

20

1.4

Tổng kết chương

20


CHƯƠNG II: THUẬT TOÁN FUZZY RANDOM FOREST .................... 22
2.1

Giới thiệu

22

2.2

Thuật toán Decision Tree

24

2.3

Thuật toán Fuzzy Decision Tree

30

2.4

Thuật toán Random Forest

34

2.5

Thuật toán Fuzzy Random Forest

46


2.6

Tổng kết chương

68

CHƯƠNG III : KẾT QUẢ THỰC NGHIỆM ............................................ 70
3.1

Giới thiệu về bộ dữ liệu

70

3.2

Xử lý dữ liệu

76

3.3

Xây dựng ứng dụng

81

3.4

Kết quả đánh giá


81

3.1

Tổng kết chương

84

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 85
TÀI LIỆU THAM KHẢO ................................................................................... 87

3


DANH SÁCH BẢNG
Bảng 1.1 : Dữ liệu sử dụng cho phân lớp Bayes

16

Bảng 2.1: Dữ liệu phân lớp sử dụng cây quyết định

28

Bảng 2.2: Dữ liệu kiểm thử thuật toán cây quyết định

29

Bảng 2.3: Tất cả thuộc tính Sunny của Outlook

30


Bảng 2.4: Tất cả thuộc tính Rain của Outlook

31

Bảng 2.5: Bảng đánh giá và kiểm tra kết quả của thuật toán DT

32

Bảng 2.6: Tập dữ liệu phân lớp cho thuật toán RF

38

Bảng 2.7: Dữ liệu được chọn ngẫu nhiên từ tập dữ liệu ban đầu cho cây 2

39

Bảng 2.8: Dữ liệu để kiểm tra độ chính xác thuật toán RF

39

Bảng 2.9: Tất cả dữ liệu Sunny của Outlook

41

Bảng 2.10: Tất cả dữ liệu Rain của Outlook

41

Bảng 2.11: Bảng đánh dấu dữ liệu được chọn ngẫu nhiên cho cây 3


42

Bảng 2.12: Bảng dữ liệu chọn ngẫu nhiên cho cây 3

43

Bảng 2.13: Tất cả dữ liệu nhánh Strong của Wind

45

Bảng 2.14: Nhánh Sunny của Outlook nốt tiếp Strong của Wind

46

Bảng 2.15: Đánh giá kết quả thuật toán RF

47

Bảng 2.16: Dự liệu training thuật toán FRF

53

Bảng 2.17: Dữ liệu đánh giá thuật toán FRF

54

Bảng 2.18 Giá trị fuzzy của các thuộc tính

57


Bảng 2.19: Nhánh Sunny của outlook (FRF 1)

62

Bảng 2.20: Nhánh rain của outlook(FRF 1)

64

Bảng 2.23: Đánh giá kết quả cây FRF

69

Bảng 3.1: Bộ dữ liệu AWID [36]

70

Bảng 3.2: Các lớp của bộ dữ liệu AWID [36]

71

Bảng 3.3: Tỉ lệ của các bản ghi và lớp trong bộ dữ liệu

71

Bảng 3.4: Thuộc tính trong 1 bảng ghi

71

Bảng 3.5: Đánh giá kết quả của thuật toán


81

4


DANH SÁCH HÌNH VẼ
Hình 1.1: Báo cáo hàng năm về tình hình bảo mật của Cisco [27]

1

Hình 1.2: Kiến trúc mạng không dây [37]

2

Hình 1.3: Cơ chế bảo mật WEP

3

Hình 1.4: Tấn công Flooding

9

Hình 1.5: Tấn công Injection

10

Hình 1.6: Tấn công Impersonation

10


Hình 1.7: Các điểm trong không gian D chiều

11

Hình 1.8: Siêu phẳng phân lớp các điểm trong không gian

12

Hình 1.9 : Đồ thị biểu diễn các điểm trong mặt phẳng R+

13

Hình 1.10 : Các điểm lựa chọn cho siêu phẳng

13

Hình 1.11: Kiến trúc mô hình SVM

14

Hình 1.12: Đồ thị biểu diễn siêu phẳng tìm được

15

Hình 1.13: Kiến trúc chung của mạng nơ-ron

18

Hình 1.14: Mô hình mạng nơ-ron


19

Hình 1.15: Công thức và đồ thị hàm ngưỡng

20

Hình 1.16: Công thức và đồ thị hàm tuyến tính

20

Hình 1.17: Công thức và đồ thị hàm sigmod

21

Hình 1.18: Công thức và đồ thị hàm tanh

21

Hình 1.19: Công thức và đồ thị hàm gausian

22

Hình 2.1: Hình ảnh cây sau vòng lặp đầu tiên của thuật toán DT

30

Hình 2.2: Cây phân lớp sau vòng lặp thứ 2 của thuật toán DT

31


Hình 2.3: Cây phân lớp cuối cùng của thuật toán DT

32

Hình 2.4: Ví dụ về cây quyết định với phân lớp mờ và phân lớp rõ

33

Hình 2.5: Lớp rõ và lớp mờ

34

Hình 2.6: Đồ thị biểu diễn các miền giá trị

35

Hình 2.7: Mô hình thuật toán rừng ngẫu nhiên [3]

37

Hình 2.8: Cây RF 2 sau vòng lặp thứ nhất

40

Hình 2.9: Cây RF 2 sau vòng lặp thứ hai

42

Hình 2.10: Cây RF 2 hoàn chỉnh thứ nhất


42

Hình 2.11: Cây RF 3 sau vòng lặp 1

45

Hình 2.12: Cây RF 3 sau vòng lặp 2

46

Figure 2.13: Cây RF 3 hoàn thiện

46

Hình 2.14: Mô hình fuzzy random forest

51

5


Hình 2.15: Đồ thị miền giá trị mờ của outlook

55

Hình 2.16: Đồ thị miền giá trị mờ của temprature

56


Bảng 2.17: Đồ thị miền giá trị mờ của humidity

56

Hình 2.18: Đồ thị miền giá trị mờ của wind

57

Hình 2.19: Cấy FRF 1 sau vòng lặp đầu tiên

61

Hình 2.20: Cây FRF 1 sau vòng lặp 2

65

Hình 2.21: Cây FRF 1 sau vòng lặp 3

67

Hình 2.22: Cây FRF 1 sau vòng lặp 4

68

Hình 2.23: Cây FRF hoàn thiện

68

Hình 3.1: Dữ liệu sau khi chuyển sang hệ cơ số 10


77

Hình 3.2: Dữ liệu đã được xử lý

78

Hình 3.3: Nhãn cho tập thuộc tính

78

Hình 3.4: Vị trí các thuộc tính dùng để phân lớp

79

Hình 3.5: Khoảng giá trị cho từng thuộc tính

79

Hình 3.6: Đồ thị hàm singleton

79

Hình 3.7: Công thức và đồ thị hàm triangular

80

Hình 3.8: Công thức và đồ thị hàm trapezoidal

80


Hình 3.9: Công thức là đồ thị hàm hình thang phải

80

Hình 3.10: Công thức là đồ thị hàm hình thang trái

81

Hình 3.12: Cây sau khi chạy thuật toán

81

Hình 3.13: Đồ thị đánh giá độ chính xác của cây

82

Hình 3.14: Độ chính xác của từng lớp theo số cây theo precision

83

Hình 3.15: Độ chính xác của từng lớp theo số cây theo recall

83

6


DANH SÁCH TỪ VIẾT TẮT

STT


Từ viết tắt

Đầy đủ

Ý nghĩa
Điểm truy cập: là thiết bị cho phép

1

AP

các thiết bị không dây kết nối với

Access Point

mạng dây sử dụng WiFi hoặc các
chuẩn liên quan
Giao thức phân giải địa chỉ là một

2

ARP

giao thức truyền thông được sử dụng

Address Resolution

để chuyển địa chỉ từ tầng mạng sang


Protocol

tầng liên kết dữ liệu theo mô hình
OSI.

3

CCMP

Counter Mode Cipher

Giao thức CCMP là một giao thức

Block Chaining

truyền dữ liệu và kiểm soát tính

Message

truyền dữ liệu thống nhất để bảo đảm

Authentication Code

cả tính bảo mật và nguyên vẹn của dữ

Protocol

liệu được truyền đi
Cuộc tấn công từ chối dịch vụ (tấn
công DoS - hay tấn công từ chối dịch


4

DoS

vụ phân tán là một nỗ lực làm cho

Denial-of-service

những người dùng không thể sử dụng
tài nguyên của một máy tính
5

DT

Cây quyết định là một thuật toán

Decision tree

dùng để phân lớp dự liệu
Một mã phát hiện lỗi được thêm vào

6

FCS

Frame check sequence

một khung trong giao thức truyền
thông. Khung được sử dụng để gửi dữ

liệu tải trọng từ một nguồn đến đích.

7


Cây quyết định mờ là thuật toán phân
7

FDT

lớp áp dụng lý thuyết mờ vào cây

Fuzzy decision tree

quyết định
Rừng ngẫu nhiên mờ là thuật toán áp
8

FRF

dụng lý thuyết mờ vào rừng ngẫu

Fuzzy random forest

nhiên.
Giao thức truyền tập tin: thường được
dùng để trao đổi tập tin qua mạng
9

FTP


File Transfer Protocol

lưới truyền thông dùng giao thức
TCP/IP (chẳng hạn như Internet mạng ngoại bộ - hoặc Intranet - mạng
nội bộ)
Giao thức truyền tải siêu văn bản: là

10

HTTP

một trong năm giao thức chuẩn của

Hypertext Transfer

mạng Internet, được dùng để liên hệ

Protocol

thông tin giữa Máy cung cấp dịch vụ
và Máy sử dụng dịch vụ.
Viện kỹ nghệ Điện và Điện tử: là một
tổ chức phi lợi nhuận, chuyên nghiệp

11

IEEE

The Institute of


nhằm nâng cao sự thịnh vượng qua sự

Electrical and

phát huy các đổi mới công nghệ tạo

Electronics Engineers

cơ hội nghề nghiệp cho các thành
viên và cổ vũ cộng đồng thế giới mở
rộng
Internet Vạn Vật, hay cụ thể hơn là
Mạng lưới vạn vật kết nối Internet
hoặc là Mạng lưới thiết bị kết nối

12

IoT

Internet là một liên mạng, trong đó

Internet of Thing

các thiết bị, phương tiện vận tải (được
gọi là "thiết bị kết nối" và "thiết bị
thông minh"), phòng ốc và các trang
8



thiết bị khác được nhúng với các bộ
phận điện tử, phần mềm, cảm biến,
cơ cấu chấp hành cùng với khả năng
kết nối mạng máy tính giúp cho các
thiết bị này có thể thu thập và truyền
tải dữ liệu
Giao thức Internet: là một địa chỉ đơn
nhất mà những thiết bị điện tử hiện
13

IP

nay đang sử dụng để nhận diện và

Internet Protocol

liên lạc với nhau trên mạng máy tính
bằng cách sử dụng giao thức Internet.
Điều khiển truy nhập môi trường: là
14

MAC

Media Access Control

tầng con, một phần của tầng liên kết
dữ liệu trong mô hình 7 tầng OSI

15


NLP

16

OOB

Natural Language

Xử lý ngôn ngữ tự nhiên

Processing

Là phương pháp đo lỗi dự đoán của

Out of bag

random forest, decision tree .v.v..
Rừng ngẫu nhiên: Tương tự cây

17

RF

quyết định là thuật toán dùng để phân

Random forest

lớp
Là tên chính của mạng cục bộ không
18


SSID

dây 802,11 gồm mạng gia đình và các

Service Set Identifier

hotspot công cộng
Một thiết bị client trong mạng không
dây 802.11 như máy tính, máy tính
xách tay hoặc điện thoại thông minh.
19

STA

Thuật ngữ STA đôi khi cũng được sử

STAtion

dụng cho điểm truy cập, trong trường
hợp đó, STA là bất kỳ thiết bị nào
giao tiếp qua giao thức 802.11
9


20

TKIP

Là một giao thức bảo mật được sử


Temporal Key

dụng trong chuẩn mạng không dây

Integrity Protocol

IEEE 802.11
Mạng cục bộ không dây (viết tắt từ
tiếng Anh: wireless local area

21

WLAN

network) là mạng cục bộ gồm các

Wireless LAN

máy tính liên lạc với nhau bằng sóng
vô tuyến.

10


1 CHƯƠNG I: TỔNG QUAN BÀI TOÁN VÀ KIẾN THỨC NỀN
1.1 Đặt vấn đề
Ngày nay với sự phát triển của công nghệ và kinh tế, các thiết bị không dây như
điện thoại di động, máy tính xách tay, v.v. không ngừng gia tăng. Kèm theo đó là sự
phát triển của các hệ thống mạng không dây (WiFi) có mặt ở mọi nơi từ gia đình, các

công ty đến các địa điểm công cộng như quán ăn, quán café. Tốc độ phát triển của các
thiết bị không dây và mạng không dây đi kèm theo mối đe dọa từ an ninh mạng. Mỗi
ngày có hàng triệu giao dịch được thực hiện qua mạng. Chính vì sự phổ biến và tầm
quan trọng của nó như vậy mà vấn đề về bảo mật và an toàn cho mạng không dây được
đặt lên cao đặc biệt là ở những nơi quan trọng như ngân hàng hay cơ quan chính phủ.
Các cuộc tấn công mạng ngày các phổ biến làm thiệt hàng tỷ đô cho nền kinh tế.
Trên thế giới thiệt hại do các cuộc tấn công mạng lên đến 200 tỷ usd mỗi năm.
Theo Báo cáo An ninh mạng thường niên năm 2017 của Cisco, hơn 1/3 tổ chức từng bị
vi phạm an ninh trong năm 2016 chịu thiệt hại đáng kể do mất khách hàng, cơ hội và
doanh thu lên đến hơn 20% [5].

Hình 1.1: Báo cáo hàng năm về tình hình bảo mật của Cisco [27]
Hơn nữa ngày nay với sự phát triển của IoT, các thiết bị kết nối internet, router wifi, trở
thành đích nhắm của các hacker. Chính vì vậy rất nhiều biện pháp được đưa ra để phòng
chống và ngăn chặn các hình thức tấn công mạng.
11


Do đó bài toán được đặt ra ở đây là xác định một truy cập là bình thường hay bất
thường, Hay đúng hơn là bài toán phân lớp một truy cập mạng theo các thuộc tính đã
biết.
Trong những năm gần đây với sự phát triển và hoàn thiện của các thuật toán học
máy, nó được ứng dụng trong rất nhiều ngành khác nhau. Trong lĩnh vực an ninh mạng
cũng tương với bài toán phân lớp xâm nhập mạng không dây việc áp dụng các thuật
toán học máy đem lại hiệu quả cao. Trong luận văn này thì sẽ tìm hiểu và áp dụng thuật
toán Fuzzy Random Forest cho bài toán này.
1.2 Tổng quan về mạng không dây
1.2.1 Kiến trúc mạng 802.11
802.11 là một tập các chuẩn của tổ chức IEEE bao gồm các đặc tả kỹ thuật liên
quan đến hệ thống mạng không dây. Chuẩn IEEE 802.11 mô tả một giao tiếp "truyền

qua không khí" sử dụng sóng vô tuyến để truyền nhận tín hiệu giữa một thiết bị không
dây và tổng đài hoặc điểm truy cập, hoặc giữa 2 hay nhiều thiết bị không dây với nhau
(mô hình ad-hoc) [6].

Hình 1.2: Kiến trúc mạng không dây [37]
802.11 cấu trúc gồm 3 thành phần chính: tầng quản lý, tầng điều khiển và tầng dữ
liệu [28].
Tầng quản lý: Đóng vai trò cài đặt giao tiếp giữa STA với AP và duy trì kết nối
[28].
12


Tầng điều khiển: Điều phối truy cập vào môi trường không dây và đóng vai trò
trong việc phân phối các khung dữ liệu từ STA đến AP và ngược lại [28].
Tầng dữ liệu: Được sử dụng để truyền tải thông tin thực tế được tạo ra từ các lớp
khác. Tất cả các khung dữ liệu đều có cùng cấu trúc bao gồm tiêu đề, thân khung và
khung kiểm tra. Chiều dài thân khung trong byte là biến duy nhất của 4byte trong phạm
vi từ 0 đến 2312 [28].
1.2.2 Cơ chế bảo mật
Wired Equivalent Privacy – WEP
WEP là một thuật toán bảo nhằm bảo vệ sự trao đổi thông tin chống lại sự nghe
lén, chống lại những nối kết mạng không được cho phép .v.v.. WEP sử dụng stream
cipher RC4 cùng với một mã 40bit và một số ngẫu nhiên 24bit (initialization vector –
IV) để mã hóa thông tin. Thông tin mã hóa được tạo ra bằng cách thực hiện operation
XOR giữa keystream và plain text [4].

Hình 1.3: Cơ chế bảo mật WEP
Do WEP sử dụng RC4, một thuật toán sử dụng phương thức mã hóa dòng, nên
cần một cơ chế đảm bảo hai dữ liệu giống nhau sẽ không cho kết quả giống nhau sau
khi được mã hóa hai lần khác nhau. Đây là một yếu tố quan trọng trong vấn đề mã hóa

dữ liệu nhằm hạn chế khả năng suy đoán khóa của hacker. Để đạt mục đích trên, một
giá trị có tên Initialization Vector (IV) được sử dụng để cộng thêm với khóa nhằm tạo
ra khóa khác nhau mỗi lần mã hóa. IV là một giá trị có chiều dài 24bit và được chuẩn
IEEE 802.11 đề nghị (không bắt buộc) phải thay đổi theo từng gói dữ liệu. Vì máy gửi
tạo ra IV không theo định luật hay tiêu chuẩn, IV bắt buộc phải được gửi đến máy nhận
13


ở dạng không mã hóa. Máy nhận sẽ sử dụng giá trị IV và khóa để giải mã gói dữ liệu
[4].
Cách sử dụng giá trị IV là nguồn gốc của đa số các vấn đề với WEP. Do giá trị
IV được truyền đi ở dạng không mã hóa và đặt trong header của gói dữ liệu 802.11 nên
bất cứ ai “tóm được” dữ liệu trên mạng đều có thể thấy được. Với độ dài 24 bit, giá trị
của IV dao động trong khoảng 16.777.216 trường hợp. Những chuyên gia bảo mật tại
đại học California-Berkeley đã phát hiện ra là khi cùng giá trị IV được sử dụng với cùng
khóa trên một gói dữ liệu mã hóa (khái niệm này được gọi nôm na là va chạm IV),
hacker có thể bắt gói dữ liệu và tìm ra được khóa WEP. Thêm vào đó, ba nhà phân tích
mã hóa Fluhrer, Mantin và Shamir đã phát hiện thêm những điểm yếu của thuật toán
tạo IV cho RC4. FMS đã vạch ra một phương pháp phát hiện và sử dụng những IV lỗi
nhằm tìm ra khóa WEP [4].
Thêm vào đó, một trong những mối nguy hiểm lớn nhất là những cách tấn công
thêm hai phương pháp nêu trên đều mang tính chất thụ động. Có nghĩa là kẻ tấn công
chỉ cần thu nhận các gói dữ liệu trên đường truyền mà không cần liên lạc với Access
Point. Điều này khiến khả năng phát hiện các tấn công tìm khóa WEP đầy khó thêm và
gần như không thể phát hiện được [4].
Hiện nay, trên Internet đã sẵn có những công cụ có khả năng tìm khóa WEP như
AirCrack, AirSnort, dWepCrack, WepAttack, WepCrack, WepLab. Tuy nhiên, để sử
dụng những công cụ này đòi hỏi nhiều kiến thức chuyên sâu và chúng còn có hạn chế
về số lượng gói dữ liệu cần bắt được [4].
Mặc dù các thuật toán được cải tiến và kích thước kí tự được tăng lên, qua thời

gian nhiều lỗ hổng bảo mật được phát hiện trong chuẩn WEP khiến nó càng ngày càng
dễ bị qua mặt khi mà sức mạnh của máy tính ngày càng được củng cố. Năm 2001, nhiều
lỗ hổng tiềm tàng đã bị phơi bày trên mạng Internet. Đến năm 2005, FBI công khai trình
diễn khả năng bẻ khóa WEP chỉ trong một vài phút bằng phần mềm hoàn toàn miễn phí
nhằm nâng cao nhận thức về sự nguy hiểm của WEP.
Mặc dù nhiều nỗ lực cải tiến được tiến hành nhằm tăng cường hệ thống của
WEP, chuẩn này vẫn đặt người dùng vào vị trí hết sức nguy hiểm và tất cả các hệ thống

14


sử dụng WEP nên được nâng cấp hoặc thay thế. Tổ chức Liên minh WiFi chính thức
cho WEP ngừng hoạt động vào năm 2004.
WiFi Protected Access - WPA
WiFi Protected Access là một chuẩn do liên minh WiFi đưa ra nhằm thay thế
cho WEP. Chuẩn này chính thức được áp dụng vào năm 2003, một năm trước khi WEP
được cho "nghỉ hưu". Cấu hình WPA phổ biến nhất là WPA-PSK. WPA sử dụng mã
hóa 256-bit giúp tăng tính bảo mật lên rất nhiều so với 64-bit và 128-bit của WEP [7].
Một trong những yếu tố giúp WPA bảo mật tốt hơn là nó có khả năng kiểm tra
tính toàn vẹn của gói tin - tính năng giúp kiểm tra xem liệu hacker có thu thập hay thay
đổi gói tin truyền qua lại giữa điểm truy cập và thiết bị dùng WiFi hay không; và
Temporal Key Integrity Protocol, hệ thống kí tự cho từng gói, an toàn hơn rất nhiều so
với kí tự cố định của WEP. TKIP sau đó được thay thế bằng Advanced Encryption
Standard [7].
Mặc dù đã có nhiều cải tiến so với WEP nhưng "bóng ma" của người tiền nhiệm
một lần nữa lại ám ảnh WPA. Nguyên nhân nằm ở TKIP, một thành phần chủ chốt của
thuật toán mã hóa này. Liên minh WiFi đã thiết kế để có thể nâng cấp lên TKIP từ phiên
bản firmware của WEP và hacker có thể lợi dụng các điểm yếu của WEP để hack vào
thành phần này từ đó hack vào mạng WPA. Cũng giống như WEP, các tổ chức về bảo
mật đã chứng minh điểm yếu của WPA thông qua một loạt thử nghiệm. Một điểm thú

vị là các phương thức phổ biến nhất để hack WPA không phải là những cuộc tấn công
trực tiếp vào thuật toán này, mà thông qua 1 hệ thống bổ sung được phát hành cùng
WPA là WiFi Protected Setup (WPS - một hệ thống giúp liên kết thiết bị với các điểm
truy cập 1 cách dễ dàng) [7].
Wi-Fi Protected Access II
Đến năm 2006, WPA được thay thế bằng chuẩn mới là WPA2. Những thay đổi
đáng kể nhất của WPA2 so với người tiền nhiệm của nó là WPA2 sử dụng 1 thành phần
mới thay thế cho TKIP là có tên CCMP; đồng WPA2 yêu cầu phải sử dụng thuật toán
AES. Có thể nói rằng chuẩn WPA2 mới nhất này đã tăng khả năng bảo mật của router
WiFi lên cao nhất từ trước tới nay mặc dù nó vẫn còn 1 số lỗ hổng hơi khó hiểu. Tuy
nhiên bạn có thể hình dung về lỗ hổng này là nó yêu cầu hacker phải có quyền truy cập
15


được vào mạng WiFi trước sau đó chúng mới có thể tiến hành hack được vào các client
khác trong cùng mạng. Bởi thế, WPA2 có thể coi là chuẩn an toàn cho mạng WiFi gia
đình và với lỗ hổng trên, hacker chỉ có thể thâm nhập được vào mạng WiFi của các
doanh nghiệp (với rất nhiều thiết bị kết nối) mà thôi [7].
Ngoài ra, bạn nên lưu ý tắt tính năng WPS, hệ thống dễ bị tấn công trong WPA
và vẫn còn được lưu lại trong WPA2 nhằm tránh các nguy cơ bị tấn công, mặc dù việc
hack vào hệ thống này yêu cầu hacker phải mất từ 2 đến 14 tiếng thông qua một hệ
thống máy tính có năng lực tính toán cao. Bên cạnh đó, việc flash firmware (sử dụng
một bản firmware ngoài, không phải do nhà sản xuất router cung cấp) không hỗ trợ
WPS sẽ giúp cho WiFi của bạn được đảm bảo an toàn tuyệt đối [7].
1.2.3 Các dạng tấn mạng không dây
Có nhiều phương pháp để tấn công mạng không dây, một số phương pháp phổ
biến như:
Tấn công bị động:
Tấn công bị động hay nghe lén là kiểu tấn công không tác động trực tiếp vào
thiết bị nào trên mạng, không làm cho các thiết bị trên mạng biết được hoạt động của

nó vì thế kiểu tấn công này rất khó phát hiện. Các phương thức thường dùng trong tấn
công bị động như: nghe trộm, phân tích luồng thông tin. Sử dụng cơ chế bắt gói tin
Sniffing để lấy trộm thông tin khi đặt một thiết bị thu nằm trong vùng phủ sóng. Tấn
công kiểu bắt gói tin khó bị phát hiện ra sự có mặt của thiết bị bắt gói tin nếu thiết bị đó
không thực sự kết nối tới AP [8].
Có nhiều ứng dụng bắt gói tin có khả năng thu thập được password từ những địa
chỉ HTTP, email, phiên làm việc FTP, telnet. Những kiểu kết nối trên đều truyền
password theo dạng clear text (không mã hóa). Có nhiều ứng dụng có thể lấy được
password trên mạng không dây của quá trình trao đổi giữa Client và Server khi đang
thực hiện quá trình đăng nhập. Việc bắt gói tin giúp kẻ tấn công có thể nắm được thông
tin, phân tích được lưu lượng của mạng và nó còn gián tiếp làm tiền đề cho các phương
thức tấn công phá hoại khác [8].

16


Tấn công chủ động:
Tấn công chủ động là tấn công trực tiếp vào các thiết bị trên mạng như AP. Cuộc
tấn công chủ động có thể được dùng để tìm cách truy cập tới một server để thăm dò, lấy
những dữ liệu quan trọng, thậm chí làm thay đổi cấu hình cơ sở hạ tầng mạng. Kiểu tấn
công này dễ phát hiện nhưng khả năng phá hoại của nó rất nhanh. Kiểu tấn công cụ thể:
Mạo danh, truy cập trái phép [8].
Một trong những cách phổ biến là một máy tính tấn công bên ngoài giả mạo là
máy tính trong mạng rồi xin kết nối vào mạng để rồi truy cập trái phép nguồn tài nguyên
trên mạng. Hacker sẽ giả mạo địa chỉ MAC, địa chỉ IP của thiết bị mạng trên máy tính
của mình thành các giá trị của máy tính đang sử dụng trong mạng, làm cho hệ thống
hiểu nhầm và cho phép kết nối. Các thông tin về địa chị MAC, IP cần giả mạo có thể
thu thập được từ việc bắt trộm các gói tin trên mạng. Việc thay đổi địa chỉ MAC của
card mạng không dây có thể thực hiện dễ dàng trên hệ điều hành Windows, UNIX [8].
Tấn công kẻ ngồi giữa thao túng

Tấn công kiểu thu hút là trường hợp hacker sử dụng một AP giả mạo chèn vào
giữa hoạt động của các thiết bị, thu hút và giành lấy sự trao đổi thông tin của các thiết
bị về minh. AP chèn vào phải có vị trí, khả năng thu phát cao hơn nhiều so với AP hợp
pháp trong vùng phủ sóng của nó để làm cho các client kết nối lại với AP giả mạo này.
Với kiểu tấn công này thì người dùng khó có thể phát hiện được. Để tấn công thu hút,
hacker phải biết được giá trị SSID mà các client đang sử dụng và key WEP nếu mạng
có sử dụng WEP. Kết nối ngược từ AP trái phép được điều khiển thông qua một thiết
bị client như PC card hay workgroup bridge [8].
Tấn công thu hút có thể được thực hiện trên một laptop với 2 PCMCIA card.
Phần mềm AP chạy trên 1 laptop mà ở đó một PC card được sử dụng như một AP, 1PC
card dùng để kết nối laptop với AP hợp pháp. Lúc này latop trở thành kẻ ở giữa hoạt
động giữa client và AP hợp pháp. Hacker dùng kiểu tấn công này có thể lấy được các
thông tin giá trị bằng cách sử dụng các chương trình phân tích trên máy tính [8].
Tấn công xác thực lại
Kẻ tấn công xác định mục tiêu tấn công là các người dùng trong mạng WLAN
và các kết nối của họ đến AP. Sau đó sẽ chèn các frame yêu cầu xác thực lại vào mạng
WLAN bằng cách giả mạo địa chỉ MAC của AP và các người dùng. Người dùng khi
17


nhận được các frame yêu cầu xác thực lại sẽ hiểu nhầm là của AP gửi đến. Sau khi ngắt
được kết nối của một người dùng ra khỏi mạng WLAN, hacker tiếp tục thực hiện ngắt
kết nối với các người dùng còn lại. Sau khi bị ngắt kết nối, thông thường người dùng sẽ
kết nối lại để phục hồi dịch vụ, nhưng kẻ tấn công đã nhanh chóng tiếp tục gửi các gói
yêu cầu xác thực lại cho người dùng [8].
Tấn công giả mạo điểm truy cập
Tấn công giả mạo AP là kiểu tấn công man-in-the-middle cổ điển. Đây là kiểu
tấn công mà tin tặc đứng ở giữa và trộm lưu lượng truyền giữa hai nút. Kiểu tấn công
này rất mạnh vì tin tặc có thể trộm tất cả lưu lượng đi qua mạng. Rất khó khăn để tấn
công theo kiểu man-in-the-middle trong mạng có dây bời vì kiểu tấn công này yêu cầu

truy cập thực sự vào đường truyền. Trong mạng không dây thì lại dễ bị tấn công kiểu
này. Tin tặc sẽ tạo ra một AP giả mạo có cấu hình giống hệt như AP hợp pháp bằng
cách sao chép SSID, địa chỉ MAC.v.v.. của AP hợp pháp (những thông tin cấu hình của
AP hợp pháp có thể thu được bằng việc bắt các gói tin truyền trong mạng). Tin tặc phải
chắc chắn AP giả mạo có cường độ tín hiệu mạnh hơn cả so với AP hợp pháp bằng cách
đặt AP giả mạo gần với client hơn AP hợp pháp [8].
Bước tiếp theo là làm cho nạn nhân kết nối tới AP giả bằng cách đợi cho client
tự kết nối hoặc gây ra một cuộc tấn công DoS vào AP hợp pháp do vậy client sẽ phải
kết nối tới AP giả. Sau khi nạn nhân kết nối, nạn nhân vẫn hoạt động bình thường và
nếu nạn nhân kết nối tới một AP hợp pháp khác thì dữ liệu của nạn nhân đều đi qua AP
giả. Do đó, hacker có thể dùng các ứng dụng để thu thập các thông tin anh ta muốn.
Kiểu tấn công này tồn tại do trong 802.11 không yêu cầu chứng thực 2 hướng giữa AP
và client, AP phát quảng bá ra toàn mạng, rất dễ bị nghe trộm và ăn cắp thông tin bởi
hacker [8].
1.2.4 Các dấu hiệu tấn công mạng không dây
Có 3 loại dấu hiệu giúp chúng ta phát hiện được các điểm bất thường
Flooding Attacks: Loại tấn công này nhằm vào management frame thứ mà
không được bảo vệ trong 802.11, mặc dù 802.11 đã cố gắng để lấp lỗ hổng này.
Flooding attacks tạo ra một lượng tăng management frame đột ngột trên một đơn vị thời
gian. Nó là một dạng tấn công tiêu biểu trong trong tấn công DOS [28].
18


Hình dưới là một deauthentication attack trong các khoảng thời gian 1400 đến
1600 và 2800 đến 3000

Hình 1.4: Tấn công Flooding
Injection Attacks:
Tạo ra một loạt các khung dữ liệu được mã hóa hợp lệ có kích thước nhỏ
hơn.

Hình dưới ARP được thực hiện trên đó truyền một số lượng lớn các khung dữ
liệu nhỏ trong một khoảng thời gian lớn có lặp lại IVs để gợi lên phản ứng của mạng
[28].

Hình 1.5: Tấn công Injection
19


Impersonation Attacks:
Tạo ra một AP giả thường đi kèm với một cuộc tấn công hủy cấp phép để buộc
STA kết nối với AP riêng. Điểm chung của tất cả các cuộc tấn công mạo danh là số
lượng khung đèn hiệu xấp xỉ gấp đôi so với network victim [28].

Hình 1.6: Tấn công Impersonation
1.3 Mục tiêu của luận văn
Luận văn tập trung nghiên cứu và áp dụng thuật toán fuzzy random forest vào
bài toán phân lớp xâm nhập mạng không dây từ đó có thể đặt được một số điểm như
nhau.
-

Biết các dạng tấn công mạng không dây cơ bản

-

Hiểu được một số thuật toán học máy áp dụng trong bài toán phân lớp mạng
không dây

-

Áp dụng được thuật toán fuzzy random forest và áp dụng vào bài toán phân lớp

mạng không dây
Mục tiêu chính của luận văn là xây dựng được một thuật toán phân lớp hiệu quả

và có độ chính xác cao.
1.4 Tổng kết chương
Bài toán phát hiện xâm nhập mạng không dây là một bài toán quan trọng hiện
nay chính bởi vì tầm quan trọng và tốc độ phát triển nhanh của internet. Cùng với sự
phát triển của AI nói chung và ML nói riêng trong những năm trở lại đây, cũng đã có
20


rất nhiều nghiên cứu áp dụng các thuật toán học máy vào bài toán phân lớp và phát hiện
xâm nhập mạng không dây đem lại những kết quả nhất định. Luận văn này cũng tập
trung nghiên cứu và ứng dụng thuật toán fuzzy random forest vào bài toán này với mục
đích xây dựng được một thuật toán phân lớp có kết quả tốt.

21


2 CHƯƠNG II: THUẬT TOÁN FUZZY RANDOM FOREST
2.1 Giới thiệu
Ngày nay với sự phát triển của xã hội dữ liệu ngày càng nhiều kèm theo sự phức
tạp và tính đa dạng. Vì vậy phân lớp dữ liệu luôn là một bài toán đầy thách thức [38].
Rất nhiều thuật toán học máy đã được áp dụng vào bài toán phân lớp dữ liệu [13]. Đã
có rất nhiều thuật toán giải quyết vấn đề phân lớp đem lại độ chính xác cao nhưng với
điều kiện là dữ liệu đầy đủ và chính xác [40].
Trong đó cây quyết định [17] là một thuật toán phổ biến trong bài toán phân lớp
[14,15]. Một số ưu điểm của cây quyết định là độ chính xác cao, đòi hỏi phải điều chỉnh
một số lượng nhỏ các tham số và cây quyết định là một thuật toán dễ hiểu, dễ giải thích
và cài đặt [16].

Nhưng đối với bài toán mà dữ liệu không chắc chắn, không đầy đủ thì thuật toán
cây quyết định chưa phải là tốt nhất. Để giải quyết vấn đề này nhiều kỹ thuật và thuật
toán được đưa ra. Trong đó kỹ thuật kết hợp các thuật toán với cho thấy sự hiệu quả.
Cây quyết định mờ là một trong những cải tiến của cây quyết định cơ bản dùng
cho bài toán với dữ liệu không chắc chắn [18], [19]. Tương tự như cây quyết định cơ
bản thì cây quyết định mờ cũng là một đồ thị không tuần hoàn gồm các thành phần như
gốc, đỉnh, lá .v.v.. Cây được thiết lập theo hướng từ trên xuống dưới theo cách thức chia
để trị, ở điểm ban đầu các mẫu huấn luyện nằm ở gốc của cây. Điều kiện dừng là khi
tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá), không còn thuộc tính nào
để phân chia mẫu, không còn lại mẫu nào tại nút.
Điểm khác biệt giữa cây quyết định mờ và cây quyết định cơ bản là các đỉnh là
các tập mờ thay vì các tập thông thường như ở cây quyết định cơ bản hoặc sử dụng tập
mờ để định lượng các thuộc tính liên tục sau đó sử dụng ID3 để xây dựng cây quyết
định. Entropy mờ, information gain, gain ratio được dùng để đánh giá các thuộc tính.
Các thuật toán khác khai thác sự mơ hồ tối thiểu (không cụ thể) của một phân bố
khả năng [20], chỉ số Gini mờ [21], tầm quan trọng phân loại tối đa của thuộc tính góp
phần vào hệ quả [22] và chuẩn hóa mờ Kolmogorov-Smirnov [23] để chọn thuộc tính
được sử dụng trong nút tách.
22


Một cách tiếp cận khác là các thuộc tính liên tục được phân chia trước quá trình
học cây quyết định mờ. Bằng cách tối ưu hóa các chỉ mục được xác định một cách có
tổ chức [24]. Các tác giả đề xuất một phân tích thú vị về sự kết hợp khác nhau của các
phương pháp discretization để phân chia các thuộc tính thành các phân vùng và các
cách tiếp cận khác nhau để xác định các chức năng thành viên trên các phân vùng này
[25].
Một số bài báo đã đề xuất các thuật toán phân chia các thuộc tính liên tục đồng
thời với sự phát triển cây mờ. Các thuật toán này khai thác các phân đoạn mờ đặc biệt
[21] hoặc các phương pháp khá phức tạp [26], [27].

Việc mờ hóa cây quyết định đã cho thấy sự hiệu quả rõ ràng. Từ sự hiệu quả này
mà việc nghĩ đến áp dụng mờ hóa vào thuật toán random forest được phát triển, thuật
toán gốc được Bonissone và cộng sự giới thiệu vào năm 2010 [5,6].
Về thuật toán fuzzy random forest dựa trên việc khai thác hai thuật toán. Đầu
tiên là thuật toán sinh rừng cho mỗi cây, tiếp theo là lấy mẫu ngẫu nhiên và thay thế
mẫu có sẵn. Thuật toán này dựa trên ID3 và xây dựng cây mờ rồi chọn một tập hợp con
ngẫu nhiên các thuộc tính có sẵn tại mỗi nút và, sau đó, bằng cách chọn một trong những
thuộc tính tốt nhất để thực hiện. Thuộc tính liên tục được phân chia trước khi bắt đầu
việc tạo ra random forest bằng cách sử dụng bộ mờ hình thang.
Các phân vùng này thu được thông qua 2 bước. Đầu tiên 1 điểm phân chia được
xác định bằng thuật toàn học cây quyết định C4.5, tiếp theo đó một thuật toán di truyền
được sử dụng để lấy các tập mờ xác định việc phân chia các thuộc tính liên tục từ các
điểm phân chia. Khi một đối tượng chưa được dán nhãn phải được phân loại, tất cả các
cây mờ được kích hoạt và kết quả đầu ra được kết hợp. Các phương pháp kết hợp khác
nhau được đề xuất và thử nghiệm trong [41].
Bonissone và cộng sự [42] tiếp đến Jose M. Cadenas và cộng sự đã có nhiều cải
tiến cho thuật toán fuzzy random forest ban đầu [43] bằng cách mở rộng xử lý thông tin
trong bộ FRF để kết hợp các dữ liệu có chứa các thuộc tính được đo bằng các giá trị
khoảng cách và các thuộc tính được đo bằng các giá trị mờ có thể khác với các giá trị
mờ tạo thành phân chia mờ của thuộc tính và do đó mức độ tương đồng của các giá trị
mờ này cho mỗi phần tử của phân vùng mờ của thuộc tính có thể nhỏ hơn 1.
23


×