Tải bản đầy đủ (.pdf) (36 trang)

Ứng dụng mạng nơron xây dựng thuật toán tự động phát hiện các trang Web đánh cắp thông tin trên mạng (Phishing)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (956.4 KB, 36 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ GIAO THÔNG VẬN TẢI

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HCM

Nguyễn Lương Anh Tuấn

NG ỤNG MẠNG N RON X Y
NG THUẬT
TO N T ĐỘNG PHÁT HIỆN C C TRANG W
Đ NH CẮP TH NG TIN TR N MẠNG
(PHISHING)
Chuyên Ngành: Kỹ thuật điều khiển và Tự động hóa
Mã số: 62.52.02.16

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HỒ CHÍ MINH – 2016


Công trình được hoàn thành tại: Trường Đại học Giao thông vận tải TP.HCM

Người hướng dẫn khoa học: PGS.TS Nguyễn Hữu Khương

Phản biện 1: PGS.TS Phạm Ngọc Tiệp – Đại học Hàng hải Việt Nam.
Phản biện 2: PGS.TS Nguyễn Thanh Phương – Đại học Công nghệ TP.HCM
Phản biện 3: TS. Võ Công Phương - Đại học Giao thông vận tải TP.HCM

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại:
......................................................................................................................................


......................................................................................................................................
Trường Đại học Giao thông vận tải TP.HCM
Vào lúc:
giờ
ngày
tháng
năm

Có thể tìm hiểu luận án tại thư viện:
- Thư viện Khoa học Tổng hợp Tp. HCM
- Thư viện Trường Đại học Giao thông vận tải TP.HCM


1

CHƯ NG 1. GIỚI THIỆU
1. Mục đích và đối tượng nghiên cứu của luận án
Mục đích chung nghiên cứu của luận án là phân tích đối tượng, xác định cơ sở lý luận,
phát triển, thiết kế và xây dựng mô hình nơron mờ đáp ứng các hệ thống hoặc quá
trình có các đặc trưng ngõ vào không ổn định (chẳng hạn như, phát sinh thêm các đặc
trưng mới hoặc giảm bớt các đặc trưng hoặc vừa thêm vừa giảm các đặc trưng) và ứng
dụng xây dựng hệ thống tự động nhận dạng trang web phishing.
Đối tượng nghiên cứu chính là quá trình tự động nhận dạng trang web phishing. Để
phục vụ cho việc nghiên cứu đối tượng này, luận án cần phải nghiên cứu các vấn đề
sau: Mạng nơron, lý thuyết mờ, mạng nơrơn mờ, các trang web phishing, Web service
và Add-on trong trình duyệt web Firefox.
2. Các phương pháp nghiên cứu đã sử dụng
- Thu thập, phân tích, tổng hợp các tài liệu, các kết quả nghiên cứu của các tác giả
khác đã công bố trong và ngoài nước liên quan đến luận án.
- Nghiên cứu lý thuyết: Phân tích vấn đề nghiên cứu trên cơ sở lý thuyết về mạng

nơron, logic mờ và mạng nơrơn mờ. Tìm hiểu và phân tích đối tượng nhận dạng là các
trang web phishing.
- Nghiên cứu thực nghiệm: Thu thập tập mẫu, lập trình các thuật toán để thực nghiệm
và biểu diễn kết quả nghiên cứu một cách trực quan.
- So sánh phân tích kết quả nghiên cứu với những công trình liên quan khác.
3. ố cục luận án

Luận án bao gồm 7 chương được tổ chức thành 3 phần. Phần 1 giới thiệu tổng
quan và cơ sở lý thuyết. Phần 2 trình bày các đóng góp của luận án. Phần 3 là kết luận
chung và hướng phát triển.
Phần 1 bao gồm 3 chương. Chương 1 giới thiệu tổng quan về luận án. Chương 2
giới thiệu về mô hình mờ, mạng nơron và mô hình nơron mờ. Chương 3 giới thiệu về
trang web giả mạo, các đặc trưng của trang web giả mạo (trang web phishing) và các
công trình liên quan đến việc nhận dạng trang web phishing.
Phần 2 bao gồm 3 chương. Chương 4 trình bày đề xuất các phương pháp tự động
hóa quá trình nhận dạng trang web phishing dựa vào bộ điều khiển sử dụng mô hình
nơron mờ cùng với các kết quả thực nghiệm được so sánh với các phương pháp đã
công bố trước đây. Chương 5 trình bày đề xuất bộ điều khiển sử dụng các dạng mô
hình nơron mờ tổng quan do luận án nghiên cứu và phát triển đề áp dụng cho các bài


2

toán nhận dạng khác nhau. Chương 6 trình bày hệ thống nhận dạng tự động trang web
phishing trực tuyến là một hệ thống phần mềm add-on được nhúng vào trình duyệt
web trên cơ sở kết quả nghiên cứu của luận án.
Phần 3 trình bày những kết luận chung mà luận án đã đạt được và hướng phát
triển của luận án.

CHƯ NG 2. M


HÌNH N RON MỜ
NHẬN ẠNG

NG ỤNG TRONG

Trong chương 2 này, trình bày nghiên cứu tổng quan về lý thuyết mờ, mạng
nơron và mạng nơron mờ lai được ứng dụng trong nhận dạng.

CHƯ NG 3. GIỚI THIỆU PHISHING
“Phishing” được tạo ra bởi hai từ “Phreaking” và “fishing”, “Phreaking” được
định nghĩa từ “Phone” và “breaking”, có nghĩa là lừa người khác để sử dụng điện
thoại mà không phải trả phí. Do đó, phishing được hiểu là hành động “câu” những nạn
nhân vào các trang web giả mạo để đánh cắp thông tin cá nhân như mật mã, tài khoản
ngân hàng, thẻ tín dụng, v.v thông qua việc gửi email, gửi tin nhắn cho người dùng
đưa ra yêu cầu “xác nhận thông tin” hay “cập nhật thông tin”, khi người dùng click
vào liên kết trang web, trang web giả mạo có giao diện giống như trang web thật sẽ
được mở ra làm người dùng không nghi ngờ gì và vẫn nhập các thông tin cá nhân của
mình vào, sau đó, các thông tin cá nhân này sẽ được gửi đến email hay server của
người tạo ra trang web giả mạo [24, 36].
Theo tổ chức APWG (Anti-Phishing Working Group) [22], Hình 3.1 trình bày
báo cáo về số lượng trang web phishing của quý 1 năm 2014.

Hình 3.1 - Số trang web phishing trong quý 1 năm 2014.
Cách thức đánh lừa người dùng cơ bản nhất của các trang web phishing là sử
dụng các liên kết (URL) gần giống với trang web thật và thiết kế giao diện trang web
giả giống như trang web thật, thậm chí các đường liên kết bên trong nội dung sẽ dẫn
đến trang web thật làm cho người dùng tin tưởng và không một chút nghi ngờ .



3

3.1 Các công trình liên quan

Trong phần này, luận án bàn luận các phương pháp nhận dạng trang web
phishing của các tác giả khác trên thế giới, đồng thời đánh giá ưu điểm và khuyết điểm
của các phương pháp này. Sau đó, so sánh kết quả thực nghiệm của các phương pháp
này với các phương pháp mới được đề xuất trong luận án.
3.2 Đặc trưng của trang web phishing
Trong phần này, luận án trình bày các loại đặc trưng hiện có của trang web
phishing mà đa số các tác giả khác trên thế giới đang sử dụng để nhận dạng trang web
phishing. Từ quá trình phân tích các đặc trưng này, luận án đóng góp các đặc trưng
mới giúp nhận dạng trang web phishing hiệu quả hơn.
3.3 Kết luận chương 3
Hiện nay, kỹ thuật tạo một trang web có giao diện giống trang web khác rất dễ
dàng, thậm chí có thể dùng các hình ảnh, video, âm thanh, v.v từ trang web thật để đưa
vào trang web phishing. Vì vậy, nhận dạng trang web phishing dựa vào các đặc trưng
nội dung sẽ không còn hiệu quả.
Luận án tìm và đóng góp một số đặc trưng mới dựa vào địa chỉ web giúp cho việc
nhận dạng rất hiệu quả, các đặc trưng mới này được trình bày cụ thể trong chương 4.
Một số đặc trưng của trang web phishing đến nay không còn ý nghĩa nữa, các cá
nhân hay tổ chức tạo ra các trang web phishing luôn luôn thay đổi để đánh lừa người
dùng và tránh bị nhận dạng bởi các công cụ. Vì vậy, phương pháp nhận dạng trang web
phishing phải đáp ứng với sự thay đổi đặc trưng sẽ là phương pháp hiệu quả và tổng quan.

CHƯ NG 4. ĐỀ XUẤT C C PHƯ NG PH P T

ĐỘNG HÓA

QUÁ TRÌNH NHẬN ẠNG PHISHING

Chương này trình bày các đóng góp chính của luận án. Trước tiên, luận án đề
xuất một số đặc trưng mới hiệu quả cho việc nhận dạng phishing. Sau đó, luận án đề
xuất năm phương pháp tự động hóa quá trình nhận dạng phishing và đồng thời sử dụng
các đặc trưng mới được đề xuất để thực nghiệm các phương pháp này. Năm phương
pháp nhận dạng được đề xuất trong luận án đó là:
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng đặc trưng
heuristic.
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ.

 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng
nơron đơn lớp.
 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình
nơron mờ 4 lớp không dùng tập luật If-Then.


4

 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình
nơron mờ 5 lớp không dùng tập luật If-Then, hàm liên thuộc được loại bỏ hết
các tham số, thuật toán luyện mạng với tỷ lệ học thích nghi, các giá trị ngõ vào
của mạng nơron được chuẩn hóa bằng cách sử dụng phần mờ của mô hình
nơron mờ.
Trong 5 phương pháp mà luận án đóng góp nêu trên thì phương pháp tự động
nhận dạng phishing với bộ điều khiển sử dụng mô hình nơron mờ 5 lớp là mục tiêu
chính đề ra trong luận án này.
4.1 Các đặc trưng đề xuất trong luận án
Trong các nghiên cứu trước đây của một vài tác giả cũng đã sử dụng đặc trưng
của URL nhưng vẫn còn đóng vai trò thứ yếu [66]. Luận án đề xuất một số đặc trưng
mới dựa vào URL kết hợp với chức năng tìm kiếm Suggestion của công cụ tìm kiếm
mạnh nhất trên Internet hiện nay là Google.

Trong luận án này, NCS đề xuất được 7 đặc trưng mới để nhận dạng trang web
phishing hiệu quả đó là PrimaryDomain, SubDomain, PathDomain, AlexaRank,
AlexaReputation, GoogleIndex, BackLink.
4.2 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng đặc trưng
heuristic
Phương pháp này tính giá trị hệ thống bằng cách sử dụng giá trị các heuristic và
các trọng số của chúng, sau đó dùng giá trị hệ thống này so sánh với ngưỡng nhận
dạng trang web phishing được xác định bằng phương pháp thống kê và thừ sai để xác
định trang web là trang web phishing hay là trang web thật. Mỗi heuristic là một đặc
trưng được sử dụng cho hệ thống. Phương pháp này được trình bày trong các công
trình của nghiên cứu sinh [CT8, CT9].
4.2.1 Mô hình hệ thống
Mô hình hệ thống thực hiện qua 4 giai đoạn được trình bày trong hình 4.1.
 Giai đoạn 1: Chọn các heuristic sử dụng cho hệ thống.
 Giai đoạn 2: Tính giá trị cho từng heuristic.
 Giai đoạn 3: Tính giá trị của hệ thống (vs – value of system).
Trong giai đoạn 3 này, giá trị hệ thống được tính theo công thức (4.1)
N

vs

Vi *Wi

(4.1)

i 1

Ở đây, Vi là giá trị từng heuristic được tính trong giai đoạn 2 và Wi là trọng số
cho từng heuristic. Các trọng số Wi được xác định dựa vào kinh nghiệm của chuyên
gia hoặc khai thác dữ liệu trên tập dữ liệu huấn luyện.



5

Hình 4.1 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều
khiển sử dụng đặc trưng heuristic.
 Giai đoạn 4: So sánh giá trị hệ thống vs với ngưỡng nhận dạng trang web
phishing. Hệ thống so sánh giá trị vs với ngưỡng nhận dạng trang web phishing
(ngưỡng nhận dạng trang web phishing được xác định trong quá trình thực nghiệm)
để quyết định trang web là phishing hay không, thuật toán được thực hiện như trình
bày trong hình 4.2. Giá trị ngưỡng được xác định dựa vào tập mẫu.
If vs < ngưỡng then
“Trang web phishing ”
else
“Trang web thật”
End if

Hình 4.2 - Thuật toán xác định kết quả nhận dạng theo ngưỡng.
4.2.2. Thực nghiệm
4.2.2.1 Dữ liệu thực nghiệm

Dữ liệu thực nghiệm trong nghiên cứu này được nghiên cứu sinh tập hợp 11.660
trang web phishing từ Phishtank [75] và 5.000 trang web thật từ DMOZ [33]. Quá trình
thực nghiệm được thực hiện trên phần mềm lập trình bằng ngôn ngữ PHP và tập dữ liệu
được quản lý bằng hệ quản trị cơ sở dữ liệu MYSQL.
4.2.2.2 Kết quả thực nghiệm
Kết quả thực nghiệm được đánh giá theo hai phương pháp đó là sai số RMSE

(Root Mean Square Error – sai số bình phương trung bình) và theo ROC (Receiver
Operating Characteristics), sau đó được so sánh với phương pháp khác.

 Kết quả thực nghiệm được đánh giá theo sai số RMSE
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính
xác là 97,161%.


6

 Kết quả thực nghiệm được đánh giá theo sai số ROC
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.1.
Bảng 4.1 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng
phishing với bộ điều khiển sử dụng đặc trưng heuristic.
Tỷ lệ

Tỷ lệ

Tỷ lệ

Tỷ lệ

Tỷ lệ

“True

“False

“True

“False

trung


Positive”

Positive”

Negative”

Negative”

bình

1

97,10%

2,80%

97,20%

2,90%

97,15%

2

97,81%

1,71%

98,29%


2,19%

98,05%

3

96,54%

2,23%

97,77%

3,46%

97,15%

4

97,69%

2,88%

97,12%

2,31%

97,40%

5


95,63%

1,55%

98,45%

4,37%

97,00%

Tập dữ liệu
kiểm tra

Để đánh giá hiệu quả nhận dạng ở các mức độ kém, khá hay tốt, trong luận án sử
dụng đồ thị ROC được mô tả trong hình 4.3.

Hình 4.3 - Đánh giá kết quả các tỷ lệ theo ROC.
 So sánh kết quả thực nghiệm với phương pháp [82]
Từ kết quả nhận dạng của các phương pháp được biểu diễn thông qua đồ thị
ROC trong hình 4.4 và 4.5, chúng ta nhận thấy hiệu quả nhận dạng của phương pháp
[82] kém hơn phương pháp sử dụng đặc trưng heuristic.


7

Hình 4.4 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web phishing giữa phương pháp tự
động nhận dạng với bộ điều khiển sử dụng đặc trưng heuristic và phương pháp [82].

Hình 4.5 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web thật giữa phương pháp tự

động nhận dạng với bộ điều khiển sử dụng đặc trưng heuristic và phương pháp [82].
4.2.3 Thảo luận
Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng các đặc
trưng heuristic mặc dù tính toán đơn giản, tốc độ tính toán nhanh, thuật toán dễ cài đặt
với độ phức tạp thuật toán O(n) nhưng hiệu quả khá tốt với tỷ lệ nhận dạng đúng
khoảng 97% và tỷ lệ nhận dạng sai khoảng 3%. Hơn nữa, khi thực nghiệm nhận dạng
online mặc dù ảnh hưởng bởi nhiều yếu tố như tốc độ đường truyền Internet, thời gian
truy xuất của các API, v.v nhưng thời gian nhận dạng chưa đến một giây đáp ứng được
yêu cầu thời gian thực của hệ thống online. Tuy nhiên, phương pháp này cũng còn tồn
tại một vài khuyết điểm cần nghiên cứu và phát triển thêm đó là vấn đề xác định trọng
số của các đặc trưng và ngưỡng nhận dạng trang web phishing dựa vào phương pháp
thử sai và phụ thuộc vào kinh nghiệm của chuyên gia hoặc phụ thuộc vào việc khai thác
tập dữ liệu mẫu.
4.3 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết
mờ
Theo lý thuyết mờ, các bộ điều khiển mờ thông thường phải có các khối như sau:
khối mờ hóa, khối luật suy diễn, khối tổng hợp luật và khối giải mờ. Tuy nhiên, trong
phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ này,
nghiên cứu sinh đã kết hợp hai khối mờ hóa và khối luật suy diễn thành một khối bằng


8

cách sử dụng hàm liên thuộc để xác định mức độ thuộc của từng đặc trưng vào trực tiếp
tập kết quả KQ bao gồm Phishing và Legitimate (trong đó Phishing là trang web phishing
và Legitimate là trang web thật). Do đó, phương pháp này không cần xây dựng khối luật
suy diễn If-Then vẫn xác định được mức độ thuộc vào tập kết quả KQ dựa vào giá trị mờ
của từng đặc trưng. Mỗi đặc trưng có 2 biến ngôn ngữ là Phishing và Legitimate, mỗi biến
ngôn ngữ có một hàm liên thuộc để tính giá trị mờ. Kế tiếp, nghiên cứu sinh xây dựng
khối tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết quả là Phishing và tổng hợp

mức độ thuộc của tất cả đặc trưng đối với kết quả là Legitimate. Sau cùng, so sánh giá trị
của 2 mức độ thuộc tổng hợp này để xác định trang web đó là trang web phishing hay là
trang web thật. Phương pháp này cũng không dùng khối giải mờ vì mục đích của kết quả
nhận dạng là trang web phishing hay là trang web thật, và dựa vào kết quả nhận dạng này
hệ thống sẽ điều khiển trình duyệt web. Phương pháp này được trình bày trong công trình
của nghiên cứu sinh [CT7].

4.3.1 Mô hình hệ thống
Mô hình hệ thống của phương pháp này bao gồm 5 giai đoạn được mô tả trong
hình 4.6.
 Giai đoạn 1: Chọn các đặc trưng sử dụng cho hệ thống như là PrimaryDomain,
SubDomain, PathDomain, PageRank, AlexaRank, AlexaReputation.
 Giai đoạn 2: Tiền xử lý tính giá trị cho các đặc trưng.
 Giai đoạn 3: Tính giá trị mờ hay còn gọi là tính mức độ thuộc của từng đặc
trưng vào hai biến ngôn ngữ Phishing và Legitimate bằng cách sử dụng các hàm
liên thuộc s-shaped và z-shaped theo công thức (4.2) và (4.3). Hai biến ngôn ngữ
này cũng chính là tập kết quả KQ cần nhận dạng của hệ thống. Do vậy, hệ thống
này không cần sử dụng tập luật suy diễn If-Then mà đã xác định được mức độ
thuộc của các đặc trưng vào tập kết quả KQ. Trong quá trình nghiên cứu tính chất
của các đặc trưng, nghiên cứu sinh nhận thấy các đặc trưng có chung đặc điểm là
khi giá trị của đặc trưng vượt quá ngưỡng giá trị nào đó sẽ có xu hướng là trang
web phishing hoặc là trang web thật và khi giá trị của đặc trưng nhỏ hơn ngưỡng
giá trị nào đó thì ngược lại. Do vậy, các hàm liên thuộc dùng để tính giá trị mờ
cho các đặc trưng phải có đồ thị dạng hình chữ s và z là phù hợp nhất.


9

Hình 4.6 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều
khiển sử dụng lý thuyết mờ.


0,

S ( x, a , b )

x

x
2
b
1 2

a
a

2

, a

x b
b a

,

Z ( x, a , b )
2
0,

x
b


x b
b a

a
a
2

,

b
2
b

x

a

, a

x

2

a

b
2

a


x

1,

a

x

2

1,

1 2

a

b

2
x b

(4.2)

x

b

a


b
2

x

(4.3)

b

 Giai đoạn 4: Tính giá trị trung bình cho MP (Mean Phishing) và ML (Mean
Legitimate). Giai đoạn này tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết
quả là Phishing và tổng hợp mức độ thuộc của tất cả đặc trưng đối với kết quả là
Legitimate theo phương pháp tính giá trị trung bình. MP là trung bình cộng giá trị


10

của các biến ngôn ngữ Phishing được tính theo công thức (4.4), ML là trung bình
cộng của các biến ngôn ngữ Legitimate được tính theo công thức (4.5).
N

Pi
MP

i 1

(4.4)

N
N


Li
ML

i 1

(4.5)

N

 Giai đoạn 5: So sánh MP và ML để xác định trang web phishing theo thuật toán
trình bày trong hình 4.7.
If MP > ML then
“Trang web phishing ”
else
“Trang web thật”
End if

Hình 4.7 - Thuật toán xác định kết quả của phương pháp tự động nhận dạng phishing
với bộ điều khiển sử dụng lý thuyết mờ.
4.3.2 Thực nghiệm
4.3.2.1 Dữ liệu thực nghiệm

Giống phần 4.2.2.1
4.3.2.2 Kết quả thực nghiệm
 Kết quả thực nghiệm được đánh giá theo sai số RMSE
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính
xác là 98,17%.
 Kết quả thực nghiệm được đánh giá theo ROC
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.2.

Bảng 4.2 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng
phishing với bộ điều khiển sử dụng lý thuyết mờ.
Tập dữ liệu
kiểm tra

Tỷ lệ
“True
Positive”

Tỷ lệ
“False
Positive”

Tỷ lệ
Tỷ lệ
“True
“False
Negative” Negative”

1

98,29%

2,19%

97,81%

1,71%

98,05%


2

99,19%

1,59%

98,41%

0,81%

98,80%

3

97,64%

0,91%

99,09%

2,36%

98,35%

4

98,09%

1,51%


98,49%

1,91%

98,29%

5

97,92%

1,31%

98,69%

2,08%

98,30%

Tỷ lệ trung
bình


11

 So sánh kết quả thực nghiệm với phương pháp [12, 13]
Dựa theo đánh giá của ROC trong hình 4.3, đồ thị ROC so sánh giữa phương
pháp sử dụng lý thuyết mờ và phương pháp [12, 13] được trình bày trong hình 4.8 và
hình 4.9 cho thấy phương pháp [12, 13] kém hiệu quả hơn phương pháp sử dụng lý
thuyết mờ khá nhiều.


Hình 4.8- Đồ thị ROC so sánh tỷ lệ nhận dạng trang web phishing giữa phương pháp tự
động nhận dạng với bộ điều khiển sử dụng lý thuyết mờ và phương pháp [12, 13].

Hình 4.9 - Đồ thị ROC so sánh tỷ lệ nhận dạng trang web thật giữa phương pháp tự
động nhận dạng với bộ điều khiển sử dụng lý thuyết mờ và phương pháp [12, 13].
4.3.3 Thảo luận
Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết
mờ đã ứng dụng được ý nghĩa của hàm liên thuộc trong lý thuyết mờ nhằm tối ưu hóa
tri thức cho từng đặc trưng. Mỗi đặc trưng có 2 biến ngôn ngữ là Phishing và
Legitimate, hàm liên thuộc của từng biến ngôn ngữ tính mức độ thuộc của đặc trưng
đối với biến ngôn ngữ Phishing và Legitimate, bước tính này chính là đưa tri thức vào
cho từng đặc trưng. Đồng thời bước tính này cũng chính là bước tính mức độ thuộc
của từng đặc trưng vào tập kết quả KQ bao gồm Phishing và Legitimate mà không cần
dùng tập luật suy diễn If-Then. Phương pháp này tính toán đơn giản, tốc độ tính toán
nhanh, thuật toán dễ cài đặt với độ phức tạp thuật toán O(n) nhưng hiệu quả khá tốt với
tỷ lệ nhận dạng đúng trên 98% và tỷ lệ nhận dạng sai dưới 2%. Hơn nữa, khi thực


12

nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố như tốc độ đường truyền
Internet, thời gian truy xuất của các API, v.v nhưng thời gian nhận dạng chưa đến một
giây. Tuy nhiên, phương pháp này vẫn còn khuyết điểm trong giai đoạn tổng hợp mức
độ thuộc của các đặc trưng sử dụng phương pháp tính trung bình cộng của MP và ML
chưa phải là phương pháp tốt vì đánh đồng các đặc trưng có mức độ quan trọng là như
nhau. Hơn nữa, việc xác định giá trị hai tham số a, b của các hàm liên thuộc s-shaped
và z-shaped dựa vào kinh nghiệm của chuyên gia hoặc tập mẫu, điều này mang tính
chủ quan. Các khuyết điểm trên sẽ được khắc phục dần ở các phương pháp sau.
4.4 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng

nơron đơn lớp
Phương pháp này nhằm khắc phục khuyết điểm về vấn đề xác định trọng số của
phương pháp sử dụng đặc trưng heuristic. Trọng số của các đặc trưng heuristic trong
phương pháp này được tính từ quá trình luyện mạng nơron, do đó các trọng số này sẽ
tối ưu hơn. Phương pháp này sử dụng hàm tác động (Activation Function) là hàm sigmoid
vì trong quá trình thực nghiệm nghiên cứu sinh sử dụng 2 hàm tác động phổ biến là
sigmoid và hyperbolic tangent và nhận thấy hàm tác động sigmoid hiệu quả hơn. Phương
pháp này được trình bày trong các công trình của nghiên cứu sinh [CT6, CT10, CT11].
4.4.1 Mô hình hệ thống
Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.10.
 Giai đoạn 1: Chọn các đặc trưng sử dụng cho hệ thống như là PrimaryDomain,
SubDomain, PathDomain, PageRank, AlexaRank, AlexaReputation.
 Giai đoạn 2: Tiền xử lý tính giá trị cho các đặc trưng.
 Giai đoạn 3: Sử dụng mô hình nơron đơn lớp để tính toán giá trị cho hệ thống.
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào giá trị xuất của nút xuất so
sánh với ngưỡng nhận dạng.

Hình 4.10 - Mô hình hệ thống của phương pháp tự động nhận dạng phishing với bộ điều
khiển sử dụng mạng nơron đơn lớp.


13

4.4.2 Thực nghiệm
4.4.2.1 Dữ liệu thực nghiệm

Giống phần 4.2.2.1
4.4.2.2 Kết quả thực nghiệm
 Kết quả thực nghiệm được đánh giá theo sai số RMSE
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính

xác là 98,43%.
 Kết quả thực nghiệm được đánh giá theo ROC
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.3.
Bảng 4.3 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp sử dụng mạng nơron
đơn lớp.
Tỷ lệ
“True

Tỷ lệ
“False

Tỷ lệ
“True

Tỷ lệ
“False

Positive”

Positive”

Negative”

Negative”

1

98,12%

1,11%


98,89%

1,88%

98,50%

2

98,21%

1,41%

98,59%

1,79%

98,40%

3

97,72%

1,51%

98,49%

2,28%

98,10%


4

99,09%

1,69%

98,31%

0,91%

98,70%

5

98,60%

1,60%

98,40%

1,40%

98,50%

Tập dữ liệu
kiểm tra

Tỷ lệ trung
bình


 So sánh kết quả thực nghiệm với phương pháp [105]
Đồ thị so sánh kết quả thực nghiệm giữa phương pháp [105] và phương pháp sử
dụng mạng nơron đơn lớp được trình bày trong hình 4.11.

Hình 4.11 - So sánh kết quả thực nghiệm giữa phương pháp [105] và phương pháp sử
dụng mạng nơron đơn lớp.
4.4.4 Thảo luận
Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mạng nơron
đơn lớp đã ứng dụng được khả năng học của mạng nơron để xác định các trọng số tối


14

ưu cho từng đặc trưng. Giá trị từng đặc trưng được chuẩn hóa về đoạn [0,1] làm cho
quá trình luyện mạng nhanh hội tụ và hiệu quả hơn. Quá trình luyện mạng của phương
pháp này được thực hiện off-line, còn quá trình nhận dạng được thực hiện online với
tính toán đơn giản, tốc độ tính toán nhanh với độ phức tạp thuật toán O(n), hiệu quả
khá tốt với tỷ lệ nhận dạng đúng khoảng 98,4% và tỷ lệ nhận dạng sai khoảng 1,16%.
Hơn nữa, khi thực nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố như
tốc độ đường truyền Internet, thời gian truy xuất của các API, v.v nhưng thời gian
nhận dạng chưa đến một giây. Tuy nhiên, phương pháp này chưa khắc phục được
nhược điểm của mạng nơron truyền thống là tốc độ học chậm và quá trình luyện mạng
dễ xảy ra vấn đề tối ưu cục bộ. Do vậy, cần phải xây dựng mạng nơron ứng dụng được
những tính năng ưu việt của lý thuyết mờ để đưa tri thức vào cho các nơron làm tăng
tốc độ học và làm tăng hiệu quả quá trình luyện mạng, tránh xảy ra vấn đề tối ưu cục bộ
và thời gian hội tụ nhanh hơn.
4.5 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình
nơron mờ 4 lớp
Mạng nơron có thể tối ưu hóa các tham số và trọng số thông qua khả năng học

của chúng. Tuy nhiên, việc xác định số lớp ẩn và số nút ẩn cho cấu trúc mạng nơron là
công việc phức tạp. Hiện nay, chưa có phương pháp tổng quan và tối ưu nào để xác
định số lớp ẩn và số nút ẩn cho cấu trúc mạng nơron mà chỉ dựa vào quá trình thực
nghiệm để xác định. Mặt khác, giá trị các nút ngõ vào của mạng nơron thường là các
giá trị thô của các đặc trưng sẽ làm quá trình luyện mạng bị tối ưu cục bộ dẫn đến khó
hội tụ và hiệu quả luyện mạng không cao. Trang web phishing tiến hóa rất nhanh làm
phát sinh thêm các đặc trưng mới cũng như một số các đặc trưng cũ không còn ý nghĩa
nữa. Với sự thay đổi tăng hoặc giảm số lượng đặc trưng như vậy, một mạng nơron
truyền thống sẽ phải thay đổi lại cấu trúc khi có sự thay đổi về đặc trưng, điều này làm
tăng chi phí và gây ảnh hưởng đến cấu trúc hệ thống. Từ ý tưởng của tác giả Robert
Fullér [38] kết hợp lý thuyết mờ và mạng nơron thành mô hình nơron mờ lai nhằm
khắc phục khuyết điểm của từng phương pháp riêng biệt, nghiên cứu sinh kết hợp
phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng lý thuyết mờ
không dựa vào tập luật (trình bày mục 4.3) với phương pháp sử dụng mạng nơron
thành phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình
nơron mờ 4 lớp. Mô hình nơron mờ 4 lớp này sử dụng lý thuyết mờ để đưa tri thức vào
ngõ vào của nơron nhằm biến các “nơron” đầu vào thành “nơron mờ” trước khi đưa
vào mạng nơron. Nhờ vậy, làm tăng tốc độ học và quá trình luyện mạng của mạng
nơron. Đồng thời, vì mô hình nơron mờ 4 lớp kế thừa các ưu điểm của bộ điều khiển
sử dụng lý thuyết mờ không dựa vào tập luật nên khi có sự thay đổi các đặc trưng ngõ
vào thì vẫn giữ nguyên cấu trúc mô hình nơron mờ. Hơn nữa, trong mô hình này các


15

hàm liên thuộc được cải tiến bằng cách sử dụng hàm liên thuộc left sigmoid và hàm
liên thuộc right sigmoid có một tham số, làm giảm tính chủ quan khi xác định giá trị
tham số cho các hàm liên thuộc. Phương pháp này được trình bày trong các công trình
của nghiên cứu sinh [CT3, CT4].
4.5.1 Mô hình hệ thống

Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.12.
Trích lọc các đặc trưng

Tính giá trị cho các đặc
trưng

Bộ điều khiển sử dụng
mô hình nơron mờ 4 lớp

Xác định kết quả nhận
dạng

Hình 4.12 - Mô hình hệ thống phương pháp tự động nhận dạng phishing sử dụng mô
hình nơron mờ 4 lớp.
 Giai đoạn 1: Trích lọc các đặc trưng như là PrimaryDomain, SubDomain,
PathDomain, PageRank, AlexaRank, AlexaReputation.
 Giai đoạn 2: Tiền xử lý tính giá trị các đặc trưng.
 Giai đoạn 3: Sử dụng mô hình nơron mờ 4 lớp để tính toán các giá trị xuất của
hệ thống (xem chi tiết mục 4.5.2 và 4.5.3).
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào giá trị xuất của hệ thống và
ngưỡng.
4.5.2. Bộ điều khiển sử dụng mô hình nơron mờ 4 lớp
Cấu trúc mô hình nơron mờ 4 lớp bao gồm hai khối, khối đầu là hệ thống mờ và
khối sau là mạng nơron 3 lớp. Trong đó, khối đầu gồm có hai lớp là lớp thứ nhất và
lớp thứ hai; khối sau là mạng nơron 3 lớp bao gồm lớp thứ hai, lớp thứ ba và lớp thứ
tư. Mô hình nơron mờ này được mô tả trong hình 4.13.


16


Hình 4.13 - Mô hình nơron mờ 4 lớp.
Lớp thứ nhất bao gồm N nút cũng chính là N đặc trưng. Mỗi nút có 2 biến ngôn
ngữ là Phishing (trang web phishing) và Legitimate (trang web thật).
Lớp thứ hai bao gồm 2*N nút, trong đó N nút thuộc biến ngôn ngữ Phishing (Pi ,
i=1..n) được tính theo công thức của hàm liên thuộc left sigmoid (4.6) và N nút thuộc
biến ngôn ngữ Legitimate (Li, i=1..n) được tính theo công thức của hàm liên thuộc
right sigmoid (4.7).

P( x, b)
L( x, b)

e

( x b)

1 e

( x b)

1
1 e

( x b)

(4.6)
(4.7)

Hình 4.14 biểu diễn đồ thị của hàm liên thuộc right sigmoid L(x) và hình 4.15
biểu diễn đồ thị hàm liên thuộc left sigmoid P(x).



17

Hình 4.14 - Đồ thị hàm liên thuộc right
sigmoid L(x).

Hình 4.15 - Đồ thị hàm liên thuộc left
sigmoid P(x).

Lớp thứ ba bao gồm 2 nút ML và MP, nút MP được tổng hợp từ các nút Pi và
nút ML được tổng hợp từ các nút Li.
Lớp thứ tư còn gọi là lớp xuất bao gồm một nút. Giá trị xuất của nút này dùng
để nhận dạng trang web là phishing hay là trang web thật. Hàm tác động của nút xuất
trong mô hình này sử dụng hàm sigmoid vì trong quá trình thực nghiệm chúng tôi sử
dụng 2 hàm tác động phổ biến là sigmoid và hyperbolic tangent và nhận thấy hàm tác
động sigmoid hiệu quả hơn.
4.5.3 Thuật toán luyện mạng của nơron mờ 4 lớp
Trong mô hình nơron mờ 4 lớp sử dụng thuật toán luyện mạng lan truyền ngược
sai số [44] được mô tả trong hình 4.16.
4.5.2 Thực nghiệm
4.5.2.1 Dữ liệu thực nghiệm

Giống phần 4.2.2.1
4.5.2.2 Kết quả thực nghiệm
 Kết quả thực nghiệm được đánh giá theo sai số RMSE
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính
xác là 99,10%.
 Kết quả thực nghiệm được đánh giá theo ROC
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.4.



18

Khởi tạo trọng số

Tính giá trị các nút trong lớp thứ 2

Tính giá trị nhập và xuất cho từng nút của lớp thứ 3

Tính giá trị nhập cho nút xuất

Tính giá trị xuất cho nút xuất

Tính lỗi cho nút xuất
Tính lỗi cho từng nút trong lớp thứ 3

Tính lỗi tổng hợp cho lớp thứ 3
Tính lỗi hệ thống

Chưa

Lỗi hệ thống <=
Ngưỡng hoặc vòng
lặp kết thúc

Cập nhật trọng
số


Kết thúc luyện mạng


Hình 4.16 - Thuật toán luyện mạng của phương pháp tự động nhận dạng phishing sử
dụng mô hình nơron mờ 4 lớp.
Bảng 4.4 - Kết quả tỷ lệ nhận dạng theo ROC của phương pháp tự động nhận dạng
phishing với bộ điều khiển sử dụng mô hình nơron mờ 4 lớp.
Tập dữ liệu
kiểm tra

Tỷ lệ
“True
Positive”

Tỷ lệ
“False
Positive”

Tỷ lệ
Tỷ lệ
“True
“False
Negative” Negative”

1

98,90%

0,70%

99,30%


1,10%

99,10%

2

99,40%

0,90%

99,10%

0,60%

99,25%

Tỷ lệ trung
bình


19

Tập dữ liệu
kiểm tra

Tỷ lệ
“True
Positive”

Tỷ lệ

“False
Positive”

Tỷ lệ
Tỷ lệ
“True
“False
Negative” Negative”

3

98,61%

0,80%

99,20%

1,39%

98,90%

4

99,60%

1,29%

98,71%

0,40%


99,15%

5

99,00%

0,80%

99,20%

1,00%

99,10%

Tỷ lệ trung
bình

 So sánh kết quả thực nghiệm với các phương pháp khác
Kết quả thực nghiệm của các phương pháp được so sánh với nhau và được mô tả
trong hình 4.17.

Hình 4.17 - So sánh kết quả thực nghiệm giữa phương pháp tự động nhận dạng phishing
với bộ điều khiển sử dụng mô hình nơron mờ 4 lớp với các phương pháp khác.
4.5.5 Thảo luận
Phương pháp này xây dựng mô hình nơron mờ 4 lớp nhằm ứng dụng ưu điểm
của lý thuyết mờ đưa tri thức vào các nơron nhằm làm tăng hiệu quả của mạng nơron
trong quá trình luyện mạng cũng như trong quá trình nhận dạng. Quá trình luyện mạng
của phương pháp này được thực hiện off-line, còn quá trình nhận dạng thực hiện
online với tính toán đơn giản, tốc độ tính toán nhanh với độ phức tạp thuật toán O(n),

hiệu quả khá tốt với tỷ lệ nhận dạng đúng khoảng 99% và tỷ lệ nhận dạng sai khoảng
1%. Hơn nữa, khi thực nghiệm nhận dạng online mặc dù ảnh hưởng bởi nhiều yếu tố
như tốc độ đường truyền Internet, thời gian truy xuất của các API, v.v nhưng thời gian
nhận dạng khoảng hơn giây. Tuy nhiên, phương pháp này còn một số khuyết điểm như
hàm liên thuộc vẫn còn tham số b nên vẫn còn mang tính chủ quan, v.v. Do vậy, cần
phát triển hoàn thiện hơn mô hình nơron mờ 4 lớp để làm tăng hiệu quả nhận dạng:
- Sử dụng các phép toán mờ trong khối tổng hợp các mức độ thuộc của các giá trị
mờ nhằm tận dụng những ưu điểm của lý thuyết mờ vào việc tính toán cho
hiệu quả hơn.


20

- Hàm liên thuộc nên loại bỏ hết các tham số làm tăng thêm tính khách quan cho
việc xử lý cũng như kết quả đạt được.
4.6 Phương pháp tự động nhận dạng phishing với bộ điều khiển sử dụng mô hình
nơron mờ 5 lớp
Mô hình nơron mờ trong phương pháp này bao gồm 5 lớp được phát triển từ mô
hình nơron mờ 4 lớp, kế thừa được tất cả các ưu điểm của mô hình nơron mờ 4 lớp và
khắc phục các khuyết điểm của mô hình nơron mờ 4 lớp bằng cách sử dụng các phép
tính mờ để tổng hợp các giá trị mờ trên cùng một biến ngôn ngữ trong giai đoạn tổng
hợp mức độ thuộc của các đặc trưng vào tập kết quả KQ nhằm làm tăng hiệu quả tính
toán, đồng thời loại bỏ tất cả các tham số của hàm liên thuộc làm tăng tính khách quan
khi tính các giá trị mờ cho các biến ngôn ngữ. Trong mô hình nơron mờ 5 lớp này, sử
dụng khối hệ thống mờ để chuẩn hóa dữ liệu ngõ vào cho mạng nơron trước khi luyện
mạng nơron nhằm làm tăng hiệu quả luyện mạng, tránh tối ưu cục bộ và làm tăng tính
hội tụ khi luyện mạng. Tỷ lệ học trong quá trình luyện mạng được sử dụng là tỷ lệ học
thích nghi. Phương pháp này được trình bày trong các công trình của nghiên cứu sinh
[CT1, CT2, CT5].
4.6 1 Mô hình hệ thống

Mô hình hệ thống bao gồm 4 giai đoạn được thể hiện trong hình 4.18.

Hình 4.18 - Mô hình hệ thống phương pháp tự động nhận dạng phishing với bộ điều
khiển sử dụng mô hình nơron mờ 5 lớp.
 Giai đoạn 1: Trích lọc các đặc trưng như là PrimaryDomain, SubDomain,
PathDomain, PageRank, GoogleIndex, BackLink.
 Giai đoạn 2: Tiền xử lý tính giá trị các đặc trưng. Giá trị các đặc trưng được
tính trong đoạn [0, 1].


21

 Giai đoạn 3: Sử dụng mô hình nơron mờ 5 lớp để tính các giá trị của hệ thống
(xem chi tiết mục 4.6.2 và 4.6.3) .
 Giai đoạn 4: Xác định kết quả nhận dạng dựa vào kết quả xuất mạng nơron mờ
và ngưỡng.
4.6.2 Bộ điều khiển sử dụng mô hình nơron mờ 4 lớp
Mô hình nơron mờ 5 lớp bao gồm hai phần, phần đầu là phần mờ và phần sau là
mạng nơron đơn lớp. Trong đó, phần đầu bao gồm lớp thứ nhất, lớp thứ hai và lớp thứ
ba; phần sau là mạng nơron đơn lớp bao gồm lớp thứ tư và lớp thứ năm. Mô hình
nơron mờ này được mô tả trong hình 4.19.

Hình 4.19 - Mô hình nơron mờ 5 lớp.
Lớp thứ nhất bao gồm N nút cũng chính là N đặc trưng. Mỗi nút có 2 biến ngôn
ngữ là Phishing (trang web phishing) và Legitimate (trang web thật). Giá trị của N đặc
trưng trong đoạn từ 0-1 được tính trong quá trình tiền xử lý. Hình 4.20 mô tả ý nghĩa
giá trị đặc trưng của lớp thứ nhất.
Lớp thứ hai bao gồm 2*N nút, trong đó N nút thuộc biến ngôn ngữ Phishing
được tính theo công thức của hàm liên thuộc left sigmoid (4.8) và N nút thuộc biến
ngôn ngữ Legitimate được tính theo công thức của hàm liên thuộc right sigmoid (4.9).

Giá trị từng nút trong lớp thứ nhất trong đoạn từ 0-1 được ánh xạ sang đoạn từ Min-


22

Max theo công thức (4.10) trước khi đưa vào các hàm liên thuộc tính toán vì các tính
chất đặc trưng của hàm liên thuộc này.

P( x)
L( x )

e

x

1 e
1
1 e

(4.8)

x

(4.9)

x

Valuenew Valueold *(Max Min)

Min


(4.10)

Ở đây, Valueold là giá trị của các đặc trưng trong đoạn từ 0-1, Min và Max là giá trị do
người thiết kế mô hình xác định cho phù hợp.

Hình 4.20 - Biểu thị ý nghĩa giá trị của từng nút trong lớp thứ nhất
Hình 4.21 biểu diễn đồ thị của hàm liên thuộc right sigmoid L(x) và hình 4.22
biểu diễn đồ thị hàm liên thuộc left sigmoid P(x).

Hình 4.21 - Đồ thị hàm liên thuộc right sigmoid L(x) cho mô hình nơron mờ 5 lớp.

Hình 4.22 - Đồ thị hàm liên thuộc left sigmoid P(x) cho mô hình nơron mờ 5 lớp.
Lớp thứ ba bao gồm 2 nút πp và πL , nút πp là tổng hợp các nút Pi ở lớp thứ hai
và nút πL là tổng hợp các nút Li ở lớp thứ hai theo phép toán AND. Giá trị 2 nút trong
lớp này được tính theo công thức (4.11) và (4.12) [23].


23
N
P

Pi

(4.11)

Li

(4.12)


i 1
N
L
i 1

Lớp thứ tư bao gồm 2 nút, nút NP và NL được chuẩn hóa giá trị theo công thức
(4.13) và (4.14). Lớp này và lớp thứ 5 kết hợp lại thành mạng nơron đơn lớp (SingleLayer) và lớp này chính là lớp nhập của mạng nơron, khi giá trị các nút này được
chuẩn hóa sẽ làm tăng hiệu quả và tính hội tụ của mạng nơron.
P

NP

(4.13)

P

L
L

NL

(4.14)

P

L

Lớp thứ năm bao gồm một nút, đây là nút xuất và kết quả nút này chính là kết
quả của mô hình. Mạng nơron trong mô hình này sử dụng hàm tác động là hàm
sigmoid theo công thức (4.15).


O

1
1 e

x

(4.15)

4.6.3 Thuật toán luyện mạng cho mô hình nơron mờ 5 lớp
Thuật toán luyện mạng là thuật toán lan truyền ngược sai số [44], thuật toán này
thực hiện 2 giai đoạn lan truyền tiến và lan truyền ngược được thể hiện trong hình
4.24.
4.6.4 Thực nghiệm
4.6.4.1 Dữ liệu thực nghiệm

Giống phần 4.2.2.1
4.6.4.2 Kết quả thực nghiệm
 Kết quả thực nghiệm được đánh giá theo sai số RMSE
Kết quả thực nghiệm được đánh giá theo sai số RMSE đạt tỷ lệ nhận dạng chính
xác là 99,30%.
 Kết quả thực nghiệm được đánh giá theo ROC
Kết quả thực nghiệm trên 5 tập dữ liệu kiểm tra được trình bày trong bảng 4.5.


×