Tải bản đầy đủ (.pdf) (50 trang)

Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các hệ thống thông tin tại viettel​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.89 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----oo0oo-----

NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT
THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI
THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội – 09/2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----oo0oo-----

NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT
THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI
THÁC CÁC HỆ THỐNG THƠNG TIN TẠI VIETTEL

Ngành: Hệ thống thơng tin
Chun ngành: Hệ thống thông tin
Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
HƯỚNG DẪN KHOA HỌC: PGS. TS. PHẠM NGỌC HÙNG



Hà Nội – 09/2020


i

Mục lục
LỜI CẢM ƠN ............................................................................................................ ii
LỜI CAM ĐOAN ..................................................................................................... iv
DANH MỤC HÌNH VẼ ............................................................................................. v
Giới thiệu.................................................................................................................... 1
Chương 1. Kiến thức cơ bản ...................................................................................... 5
1.1

Bất thường và các phương pháp phát hiện bất thường phổ biến ................ 5

1.1.1 Bất thường................................................................................................... 5
1.1.2 Các phương pháp phát hiện bất thường phổ biến ....................................... 9
1.1.3 Các thách thức trong phát hiện bất thường ............................................... 11
1.2

Các phương pháp đánh giá một hệ thống phân lớp dữ liệu ...................... 12

1.2.1 True/False Positive/Negative .................................................................... 12
1.2.2 Độ chính xác và độ hồi tưởng ................................................................... 13
1.2.3 Tóm tắt ...................................................................................................... 15
Chương 2: Mơ hình phát hiện hành vi đăng nhập hệ thống bất thường .................. 16
2.1
2.2
2.3

2.3.1
2.3.2

Giới thiệu đề tài phát hiện bất thường trên hệ thống ................................ 16
Mô tả bài tốn bất thường đăng nhập ....................................................... 16
Giới thiệu mơ hình hệ thống phát hiện bất thường ................................... 17
Cách thức phân tích dữ liệu ...................................................................... 21
Xây dựng mơ hình phân tích dữ liệu ........................................................ 26

Chương 3: Thực nghiệm .......................................................................................... 28
3.1
3.2
3.2.1
3.2.2
3.2.3
3.3
3.3.1
3.3.2
3.4

Kiến trúc công cụ ...................................................................................... 28
Cài đặt công cụ .......................................................................................... 28
Phân hệ lưu trữ dữ liệu lớn ....................................................................... 29
Phân hệ xử lý ............................................................................................ 30
Phân hệ phân tích ca sử dụng phát hiện bất thường đăng nhập ................ 31
Thực nghiệm ............................................................................................. 33
Thu thập dữ liệu và kịch bản .................................................................... 33
Chọn ngưỡng cảnh báo bất thường ........................................................... 37
Áp dụng thực nghiệm ............................................................................... 39


Kết luận .................................................................................................................... 41
TÀI LIỆU THAM KHẢO........................................................................................ 43


ii

LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS.
TS. Phạm Ngọc Hùng, người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi
những điều kiện tốt nhất từ khi bắt đầu thực hiện luận văn cho tới khi hoàn thành
cơng việc của mình.
Tơi xin dành lời cảm ơn chân thành tới các thầy cô giáo Khoa Công nghệ
thông tin, Trường Đại học Cơng nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho
tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt
quá trình học tập, nghiên cứu tại Trường.
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tơi cùng
tồn thể bạn bè những người đã ln giúp đỡ, động viên tơi trong q trình học tập
và nghiên cứu.
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp đã giúp đỡ, tạo điều
kiện thuận lợi cho tơi học tập và nghiên cứu chương trình Thạc sĩ tại Trường Đại học
Công nghệ, ĐHQGHN.


iii
DANH MỤC TỪ VIẾT TẮT/THUẬT NGỮ
Từ viết tắt Từ đầy đủ
AD
Active Directory

ASN


Autonomous System Number

ATTT
AV
CNTT
DNS
GSM

An tồn thơng tin
Antivirus
Cơng nghệ thơng tin
Domain Name System
Gateway Security
Managerment
Hadoop Distributed File
System
Internet Protocol
Internet Service Provider
JavaScript Object Notation

HDFS
IP
ISP
JSON

NIST

NSM


Ý nghĩa
Một sản phẩm của Microsoft gồm
một số dịch vụ chạy trên Windows
Server nhằm mục đích quản lý quyền
và truy cập vào các tài nguyên mạng
Số hiệu mạng thường được dùng
trong các thủ tục định tuyến động
trên mạng Internet
Phần mềm diệt virus máy tính

Hệ thống quản lý tên miền
Hệ thống quản lý an tồn thơng tin
lớp Gateway
Hệ thống lưu trữ file được dùng bởi
Hadoop
Giao thức Internet
Nhà cung cấp dich vụ Internet
Một dạng dữ liệu tuân theo một quy
luật nhất định mà hầu hết các ngơn
ngữ lập trình hiện nay đều có thể đọc
được. Có thể sử dụng lưu nó vào một
tệp, một bản ghi trong có sở dữ liệu
dễ dàng
National Institute of Standards Viện tiêu chuẩn và Công nghệ Quốc
and Technology
gia Mỹ
Hệ thống quản lý bảo mật lớp mạng

PCA


Network Security
Management
Principal component analysis

SDM

Security Data Mining

SIEM

VPN

Security Information and
Event Management
Single Sign-on
User & Entity Behavior
Analytics
Virtual Private Network

Phương pháp phân tích thành phần
chính
Hệ thống khai phá dữ liệu an tồn
thơng tin
Hệ thống quản lý và phân tích sự
kiện an tồn thơng tin
Hệ thống quản lý đăng nhập một lần
Phân tích bất thường về hành vi
người dùng và thực thể
Mạng riêng ảo


VTNet

Viettel Networks

Tổng Công ty Mạng lưới Viettel

SSO
UEBA


iv

LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ chuyên ngành hệ thống thông tin “Giải
pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các
hệ thống thông tin tại Viettel” là cơng trình nghiên cứu của riêng tơi dưới sự hướng
dẫn của PGS. TS. Phạm Ngọc Hùng, không sao chép lại của người khác. Trong toàn
bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân
tơi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo
đều có xuất xứ rõ ràng, hợp pháp và được trích dẫn trung thực.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan này.
Hà Nội, ngày 01 tháng 9 năm 2020
Học viên

Nguyễn Đăng Tiệp


v


DANH MỤC HÌNH VẼ
Hình 1.1. Một ví dụ về bất thường điểm trong một tập dữ liệu trong không gian
hai chiều. ........................................................................................................... 6
Hình 1.2. Ví dụ về bất thường bối cảnh............................................................ 7
Hình 1.3. Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống. ................ 8
Hình 1.4. Ví dụ bài toán phân lớp phát hiện thư rác. ....................................... 9
Bảng 1.1. Ma trận nhầm lẫn............................................................................ 12
Bảng 1.2. Ma trận nhầm lẫn chuẩn hóa .......................................................... 13
Hình 1.4. Cách tính độ chính xác và độ hồi tưởng. ........................................ 14
Hình 2.1. Mơ hình tổng thể hệ thống giám sát an tồn thơng tin. .................. 19
Hình 2.2: Mơ hình luồng dữ liệu cho hệ thống phát hiện bất thường. ........... 20
Hình 2.3. Mơ hình hệ thống phát hiện bất thường.......................................... 21
Hình 2.4. Các thuộc tính liên quan đến địa chỉ IP. ......................................... 22
Hình 2.5. Cấu trúc dữ liệu hành vi phát hiện bất thường. .............................. 23
Bảng 2.1. Các thuộc tính sử dụng để phát hiện bất thường đăng nhập. ......... 24
Hình 2.6: Mơ hình phân bố của một thuộc tính. ............................................. 26
Hình 3.1: Mơ hình luồng dữ liệu cho hệ thống phát hiện bất thường. ........... 28
Hình 3.2: Hệ thống lưu trữ dữ liệu. ................................................................ 29
Hình 3.3: Hệ thống lưu trữ dữ liệu (tiếp). ....................................................... 29
Hình 3.5: Hệ thống quản lý việc xử lý song song. ......................................... 31
Hình 3.6. Lập lịch và cấu hình chạy định kì phân tích dữ liệu. ...................... 32
Hình 3.7. Các job chạy định kì phân tích dữ liệu. .......................................... 32
Hình 3.8. Job chạy định kì phân tích dữ liệu hành vi bất thường. .................. 33
Bảng 3.1. Kết quả chạy với tập dữ liệu........................................................... 34
Bảng 3.2. Kết quả chạy với tập dữ liệu........................................................... 38
Hình 3.8. Biểu đồ tại ngưỡng 63..................................................................... 38
Hình 3.9: Kết quả đầu ra của việc xác định ngưỡng cảnh bảo. ...................... 39
Hình 3.10. Cảnh báo trên hệ thống. ................................................................ 40



1

Giới thiệu
Trong những năm gần đây, sự phát triển mạnh các hệ thống và ứng dụng công nghệ
thông tin (CNTT) đã đem lại những lợi ích khơng nhỏ cho con người bao gồm cả đời
sống, công nghệ, kinh tế, xã hội, v.v. Bên cạnh đó, vấn đề an ninh và bảo mật về đảm
bảo an tồn thơng tin cho các hệ thống công nghệ thông tin cũng là một thách thức
không nhỏ. Các hành vi xâm nhập trái phép, tấn cơng vào những hệ thống máy tính
của các cá nhân hay tổ chức cũng ngày càng gia tăng và gây ra những thiệt hại nghiêm
trọng. Theo trang thông tin của VTV (Đài truyền hình Việt Nam), một báo cáo năm
2020 mới đây được công ty bảo mật Bkav công bố cho thấy, tại Việt Nam, nếu như
vào năm 2018, tổng thiệt hại do tấn công mạng là gần 15.000 tỷ đồng thì đến hết năm
2019, con số này đã là gần 21.000 tỷ đồng. Mức thiệt hại đã tăng thêm hơn 6.000 tỷ
đồng, tương đương với khoảng 40%. Theo thống kê của Bkav, số lượng máy tính bị
mất dữ liệu trong năm 2019 lên tới 1.8 triệu lượt, tăng 12% so với năm 20181. Và
theo báo cáo từ hãng bảo mật Kaspersky, so với năm 2018, số lượng các mối đe dọa
được phát hiện bởi phần mềm diệt vi-rút trên web đã tăng gấp hơn năm lần (523%),
tổng cộng là 2.660.000 vào năm 20192.
Tháng 4/2019, dữ liệu cá nhân của hơn 100 triệu người dùng của dịch vụ tìm kiếm
Ấn Độ có tên JustDial bị lộ khi một cơ sở dữ liệu trực tuyến không được bảo vệ. Dữ
liệu bị rò rỉ được thu thập trong thời gian thực từ mọi khách hàng truy cập dịch vụ
qua trang Web, ứng dụng di động hoặc thậm chí các cuộc gọi và bao gồm tên người
dùng, địa chỉ email, số điện thoại di động, địa chỉ, nghề nghiệp và thậm chí cả ảnh cá
nhân, v.v.3.
Tháng 6/2019, cơ quan thu thập y tế Mỹ (AMCA) bị khai thác dữ liệu làm lộ thông
tin cá nhân và thơng tin thanh tốn của gần 20 triệu bệnh nhân sau khi bị tấn công
xâm nhập vào cổng thanh tốn của họ. Thơng tin bị truy cập trái phép bao gồm tên,
ngày sinh, địa chỉ, điện thoại, ngày dịch vụ, nhà cung cấp, thông tin số dư và thẻ tín
dụng hoặc tài khoản ngân hàng, v.v. Chỉ vài tuần sau khi các vi phạm này được công
bố, AMCA đã nộp đơn xin phá sản với lý do tài chính và pháp lý4. Tháng 8/2019,

Capital One, một trong những ngân hàng thương mại lớn nhất ở Mỹ, đã bị đánh cắp
dữ liệu, làm lộ thông tin cá nhân của hơn 106 triệu thẻ tín dụng từ năm 2005 đến năm
1

/>2

/>“Over100MillionJustDialUsers’PersonalDataFoundExposedOntheInternet,”byMohitKumar,TheHa
ckerNews,April17,2019
3

“Data Breach Forces Medical Debt Collector AMCA to File for Bankruptcy Protection,” by Charlie
Osborne, ZDNet, June 19, 2019
4


2
2019. Tin tặc đã khai thác một cấu hình sai của thiết bị tường lửa trên một trong
những máy chủ cung cấp dịch vụ ảo hoá (Cloud) của Capital One và lấy cắp hơn 700
thư mục dữ liệu5.
Tháng 10/2019, dữ liệu y tế cá nhân của gần một triệu người ở New Zealand đã bị lộ
trong một cuộc tấn công xâm nhập vào hệ thống của tổ chức Tu Ora Compass Health.
Một tin tặc với cái tên “Vanda The God” đã đe dọa bán những thông tin này. Các
cuộc điều tra cho thấy hệ thống đã bị tấn công vào bốn lần khác nhau5. Tháng 11/2019,
UniCredit, một ngân hàng của Italia, bị xâm phạm dữ liệu dẫn đến rò rỉ thông tin cá
nhân của ba triệu khách hàng, sau khi một kẻ tấn công không xác định xâm phạm một
tệp cũ từ năm 2015 chứa hồ sơ của khách hàng, bao gồm tên, số điện thoại và địa chỉ
email5.
Trong số các hành động và biện pháp để đảm bảo an tồn thơng tin theo tiêu chuẩn
của Viện tiêu chuẩn và Công nghệ Quốc gia Mỹ (National Institute of Standards and
Technology - NIST), hiện nay, các đơn vị đang tập trung và làm tốt việc định nghĩa,

nhận dạng các tài sản, các nguy cơ về an tồn thơng tin và từ đó thực hiện các biện
pháp bảo vệ cũng như khắc phục và nâng cấp hệ thống. Tuy nhiên, còn hai biện pháp
quan trọng khác chưa được thực hiện tốt đó là phát triển và thực hiện các hoạt động
thích hợp để xác định sự xuất hiện của một sự kiện về an ninh mạng và tổ chức triển
khai các hoạt động xử lý liên quan đến việc phát hiện cảnh báo liên quan đến an tồn
thơng tin. Cụ thể, các kế hoạch ứng phó, truyền thơng, phân tích, giảm nhẹ thiệt hại
và cải tiến. Để thực hiện hai nhiệm vụ này, việc phân tích bất thường và các sự kiện
trên hệ thống là một trong những biện pháp quan trọng để hỗ trợ phát hiện kịp thời
các sự kiện về an ninh mạng để từ đó đơn vị có những biện pháp ứng phó kịp thời để
đảm bảo an tồn thơng tin. Việc phân tích bất thường về hành vi người dùng và thực
thể (User & Entity Behavior Analytics – UEBA) cũng là một chủ đề rất được quan
tâm tại nhiều đơn vị và trên thế giới cũng có nhiều hãng công nghệ về bảo mật cũng
rất quan tâm đến vấn đề như LogRhythm hay Exabeam, Securonix và xây dựng
những công cụ cho việc để phát hiện và cảnh báo các nguy cơ mất an tồn thơng tin
trên hệ thống.
Hiện tại, Tổng Công ty Mạng lưới Viettel (VTNet) đang vận hành hệ thống cơng nghệ
thơng tin lớn với hàng nghìn máy chủ và thiết bị mạng, thiết bị bảo mật và hệ thống
cơ sở dữ liệu lớn lưu trữ nhiều thông tin quan trọng liên quan đến hạ tầng mạng lưới
cung cấp dịch, thông tin cá nhân, tài khoản, giao dịch của khách hàng, v.v. Hệ thống
đang cung cấp dịch vụ cho hàng triệu khách hàng với hơn 60 triệu thuê bao di động
cùng hơn 5 triệu thuê bao cố định băng rộng tính đến đầu năm 2020. Và để đảm bảo
việc cung cấp dịch vụ của hệ thống, các hoạt động vận hành khai thác hệ thống công

5

/>

3
nghệ thông tin này với việc truy cập vào các máy chủ, cơ sở dữ liệu, thiết bị mạng để
kiểm tra tình trạng hoạt động, khai thác, cập nhật dữ liệu, xử lý các lỗi dịch vụ phát

sinh, v.v. diễn ra thường xun và liên tục. Chính vì vậy, hệ thống CNTT lớn và quan
trọng này có nguy cơ và rủi ro cao về việc mất an tồn thơng tin (ATTT). Một số
nguy cơ mất ATTT trên hệ thống như việc xâm nhập, tác động trái phép vào hệ thống
nhằm lấy cắp, sửa đổi thông tin, đặc biệt các thông tin thông tin dữ liệu về khách
hàng, phá hoạt gây thiệt hại về kinh tế (như thay đổi thông tin, giá trị tài khoản của
khách hàng) và ảnh hưởng lớn đến uy tín đến cơng ty. Các hoạt động kiểm sốt cũng
như triển khai các cơng cụ, giải pháp bảo mật nhằm tăng cường giám sát, bảo vệ cho
hệ thống CNTT này đã được triển khai và áp dụng chặt chẽ. Tuy nhiên, các hoạt động
kiểm tra, đánh giá bất thường trong các hoạt động vận hành khai thác hệ thống CNTT
này vẫn chưa có cơng cụ để quản lý tồn diện để phân tích và đưa ra cảnh báo trên hệ
thống giám sát ATTT của VTNet. Một số nội dung đang phải thực hiện thủ công bằng
cách thực hiện định kỳ kiểm tra lại log tác động trên hệ thống để phát hiện và xử lý
các trường hợp sai phạm về truy cập, tác động hệ thống sai quy định. Do đó, yêu cầu
thực tế đặt ra cần xây dựng cơng cụ phân tích nhằm phân tích các sự kiện, các dấu
hiệu bất thường trong việc truy cập, tác động vào các hệ thống quan trọng nhằm hỗ
trợ cho việc phát hiện, cảnh báo để tổ chức hành động xử lý kịp thời để đảm bảo an
tồn thơng tin tại đơn vị.
Mục đích nghiên cứu của luận văn này là hướng đến giải quyết bài toán phát hiện bất
thường trong hoạt động vận hành khai thác các hệ thống CNTT tại VTNet. Các bất
thường cần được phát hiện như đăng nhập trái phép vào hệ thống, tiến trình lạ thực
hiện dò quét trên hệ thống mạng nội bộ, thực hiện kết nối ra ngồi bất thường, tiến
trình mở cổng bất thường trên hệ thống từ việc phân tích các log kết nối, đăng nhập
(thời điểm đăng nhập vào hệ thống, thời gian tác động, địa chỉ IP client sử dụng, địa
chỉ IP hệ thống bị tác động, thông tin yêu cầu về dữ liệu được truy xuất, nội dung
thay đổi, v.v.). Vì các hệ thống tại VTNet khá lớn nên đề tài tập trung thực hiện trên
các hệ thống CNTT quan trọng nhằm xây dựng mơ hình và cơng cụ thu thập, phân
tích log và phát hiện bất thường về đăng nhập trên hệ thống. Và kết quả từ đề tài này
giúp đơn vị giám sát được các vấn đề bất thường trong việc kết nối đăng nhập vào hệ
thống. Từ đó, đề tài góp phần vào việc đảm bảo an tồn thơng tin tại đơn vị, giúp
giảm thiểu rủi ro trong việc lấy cắp, sửa đổi hoặc phá hoại thông tin quan trọng của

VTNet, của khách hàng cũng như hạn chế việc gây thiệt hại kinh tế, uy tín của đơn
vị. Ngồi ra, cơng cụ phát hiện bất thường này có thể được tiếp tục được mở rộng với
nhiều bài tốn phân tích và phát hiện bất thường khác trong hoạt động vận hành khai
thác các hệ thống thông tin tại đơn vị như bất thường về lưu lượng kết nối, bất thường
về các giao dịch tài chính, bất thường trong vệc tác động các lệnh vào hệ thống, v.v.
cũng như các tình huống phân tích phức tạp với nhiều sự kiện kết hợp lại với nhau.


4
Nội dung của luận văn được trình bày trong ba chương, phần giới thiệu và phần kết
luận. Mở đầu là phần giới thiệu về đề tài, trình bày ngữ cảnh bài toán, những lý do
chọn đề tài, mục tiêu của đề tài và cấu trúc của luận văn. Các khái niệm về bất thường,
các kiến thức cơ bản, các phương pháp phát hiện bất thường và các thách thức đối
với việc phát hiện bất thường được trình bày tiếp trong Chương 1. Chương 2 sẽ giới
thiệu bài toán, đề xuất giải pháp, thiết kế hệ thống phát hiện bất thường và áp dụng
cụ thể với hành vi đăng nhập bất thường vào hệ thống. Kết quả thực nghiệm, đánh
giá thuật tốn, kiểm tra mơ hình và điều chỉnh tham số của hệ thống của giải pháp
được bày trong Chương 3. Cuối cùng là phần kết luận, định hướng mở rộng và tài
liệu tham khảo.


5

Chương 1. Kiến thức cơ bản
Để mô tả rõ hơn về bài toàn phát hiện bất thường, trong Chương 1, luận văn sẽ giới
thiệu các khái niệm cơ bản về bất thường và các phương pháp phát hiện bất thường
phổ biến cũng như các phương pháp đánh giá một hệ thống phân lớp dữ liệu. Các
khái niệm và phương pháp được trình bày trong chương này là những kiến thức nền
tảng cho mơ hình đề xuất trong Chương 2.


1.1 Bất thường và các phương pháp phát hiện bất thường phổ biến
1.1.1 Bất thường
Bất thường là những đối tượng, sự kiện hay dấu hiệu không phù hợp hoặc không tuân
theo với hầu hết những đối tượng, sự kiện hay dấu hiệu cịn lại trong tập dữ liệu được
xác định là bình thường [10]. Hoặc nó có thể được định nghĩa là bất kỳ hành vi nào
“khác” với hành vi “bình thường” [4]. Bất thường thường có tính chất tạm thời, xuất
hiện hay biến mất không tuân theo quy luật. Việc phát hiện bất thường đề cập đến các
vấn đề của việc tìm kiếm các mẫu trong tập dữ liệu mà khơng phù hợp với hành vi
mong đợi [1] hay tìm kiếm các các cá thể khác với phần lớn dữ liệu trong tập dữ liệu
[6]. Những mẫu không phù hợp này thường được gọi là bất thường, dị thường, ngoại
lai, quan sát trái ngược, sự bất ngờ, sự đặc thù hoặc chất gây ô nhiễm trong các lĩnh
vực ứng dụng khác nhau [1]. Trong số này, bất thường và ngoại lai là hai thuật ngữ
được dùng phổ biến nhất là trong bối cảnh phát hiện bất thường, đôi khi thay thế cho
nhau.
Phát hiện bất thường phát hiện sử dụng rộng rãi trong một loạt các ứng dụng như phát
hiện phát hiện xâm nhập cho an ninh mạng, gian lận giao dich tài chính ngân hàng,
bất thường trong q trình kiểm tra ý tế, phát hiện lỗi trong quy trình sản xuất hoặc
trên các hệ thống quan trọng. Ví dụ, bất thường trong dữ liệu giao dịch thẻ tín dụng
có thể chỉ ra hành vi trộm cắp thẻ tín dụng hoặc đánh cắp nhận dạng, bất thường về
việc đăng nhập vào hệ thống có thể là dấu hiệu của việc xâm nhập trái phép vào hệ
thống hoặc sự biến đổi bất thường của lưu lượng dữ liệu trong mạng nội bộ có thể là
dấu hiệu của dữ liệu “nhạy cảm” đang bị sao chép hoặc gửi bởi kẻ tấn công.
Việc phát hiện bất thường là quan trọng vì chúng thường chứa đựng những thơng tin
hữu ích, có ý nghĩa trong nhiều ứng dụng thực tế. Trong thực tế, bất thường tồn tại ở
nhiều dạng khác nhau, do vậy tùy thuộc vào từng ứng dụng cụ thể mà ta có những
phương pháp phát hiện bất thường khác nhau. Bất thường có thể được chia làm ba
loại gồm bất thường điểm (point anomalies), bất thường bối cảnh (contextual


6

anomalies) và bất thường tập hợp (collective anomalies) [1]. Dưới đây là mô tả chi
tiết các loại bất thường này.
Bất thường điểm:
Nếu một dữ liệu riêng biệt được coi là dị thường với phần còn lại của tập dữ liệu thì
đó được coi là một bất thường điểm. Ví dụ, một điểm có khoảng cách đến trung tâm
của một tập dữ liệu lớn hơn so với tất cả các khoảng cách từ những điểm trong tập
hợp đó tới trung tâm này thì những điểm này được coi là bất thường. Đây là loại bất
thường đơn giản nhất và là trọng tâm của phần lớn các nghiên cứu về phát hiện bất
thường.

Hình 1.1. Một ví dụ về bất thường điểm trong một tập dữ liệu trong khơng gian
hai chiều.

Ví dụ trong Hình 1.1 mơ tả các điểm O1, O2 cũng như các điểm thuộc khu vực O3
nằm ngoài phạm vi của khu vực bình thường (N1, N2). Do đó chúng là bất thường
điểm vì chúng khác so với các điểm dữ liệu bình thường (nằm trong các cụm N1 hoặc
N2). Như một ví dụ trong thực tế, xem xét việc phát hiện thời gian đăng nhập hệ
thống bất thường. Lấy tập dữ liệu về việc đăng nhập vào hệ thống máy tính tại cơng
ty của một cá nhân. Để đơn giản, chúng ta hãy giả sử rằng dữ liệu được xác định chỉ
bằng một thuộc tính là thời gian đăng nhập. Một đăng nhập vào hệ thống tại một thời
điểm khác với thời gian đăng nhập bình thường hàng ngày của người đó sẽ là một sự
bất thường điểm.


7

Bất thường bối cảnh:
Bất thường bối cảnh được xác định dựa trên một bối cảnh cụ thể (còn gọi là bất thường
có điều kiện). Khái niệm bối cảnh ở đây được xác định từ cấu trúc, hình thái của dữ
liệu đang xem xét. Cần lưu ý rằng, một điểm là bất thường trong bối cảnh này nhưng

có thể hồn tồn là bình thường trong bối cảnh khác. Bất thường bối cảnh thường
được nghiên cứu, khám phá trong các ứng dụng liên tới các dữ liệu biến đổi theo thời
gian. Các khái niệm về một bối cảnh được tạo ra bởi các cấu trúc trong tập dữ liệu và
phải được quy định như một phần của việc xây dựng vấn đề. Mỗi trường hợp dữ liệu
được xác định bằng cách sử dụng bởi hai bộ thuộc tính:
- Thuộc tính ngữ cảnh: Các thuộc tính theo ngữ cảnh được sử dụng để xác định
bối cảnh (hoặc vùng lân cận) của một thể hiện. Ví dụ, trong bộ dữ liệu khơng
gian(kinh độ và vĩ độ) của một vị trí là các thuộc tính ngữ cảnh. Trong dữ liệu
chuỗi thời gian, thời gian là một thuộc tính ngữ cảnh mà xác định vị trí của một
thể hiện trên tồn bộ chuỗi.
- Thuộc tính hành vi: Các thuộc tính hành vi xác định các đặc điểm phi ngữ cảnh
của một thể hiện. Ví dụ, trong một tập dữ liệu không gian mô tả lượng mưa
trung bình của tồn thế giới, thì lượng mưa ở bất kỳ vị trí nào sẽ là một thuộc
tính hành vi.

Nhiệt độ

Các hành vi bất thường được xác định bằng cách sử dụng các giá trị cho các thuộc
tính của các hành vi trong một bối cảnh cụ thể. Một thể hiện dữ liệu có thể là một sự
bất thường theo ngữ cảnh trong một bối cảnh nhất định, nhưng một thể hiện dữ liệu
giống hệt nhau (về mặt thuộc tính hành vi) có thể được xem là bình thường trong một
bối cảnh khác. Tính chất này là chìa khóa trong việc xác định các thuộc tính ngữ cảnh
và hành vi trong kỹ thuật phát hiện bất thường theo ngữ cảnh.

t1
3

6

9


12

t2
3

6

9

12

3

6

Thời gian (tháng)

Hình 1.2. Ví dụ về bất thường bối cảnh.

9

12


8
Hình 1.2 mơ tả biểu đồ nhiệt độ của các tháng trong ba năm liên tiếp. Ta nhận thấy
rằng, thời điểm t2 được coi là một bất thường bối cảnh trong một chuỗi về nhiệt độ
theo thời gian, trong khi đó nhiệt độ lúc t1 giống như lúc t2 nhưng xảy ra trong một
bối cảnh khác nhưng lại không được coi là một sự bất thường.

Một ví dụ cụ thể trong thực tế có thể được tìm thấy trong việc phát hiện gian lận thẻ
tín dụng. Một thuộc tính ngữ cảnh trong việc sử dụng của thẻ tín dụng có thể là thời
điểm mua. Giả sử một cá nhân thường có một hóa đơn mua sắm hàng tuần là một
triệu đồng trừ thời điểm trong tuần trước tết Âm lịch, có khi nó đạt đến 10 triệu đồng.
Nhưng một lần mua mới 10 triệu đồng trong một tuần vào tháng Bảy sẽ được coi là
một sự bất thường theo ngữ cảnh, vì nó khơng phù hợp với các hành vi bình thường
của cá nhân trong bối cảnh thời gian (mặc dù cùng một lượng chi tiêu trong tuần trước
tết Âm lịch sẽ được xem là bình thường). Việc lựa chọn của việc áp dụng một kỹ
thuật phát hiện bất thường theo ngữ cảnh được xác định bởi ý nghĩa của các bất
thường theo ngữ cảnh trong lĩnh vực ứng dụng đích.

Bất thường tập hợp:
Loại bất thường thứ ba là bất thường tập hợp. Nếu một tập dữ liệu có những đặc trưng
khác so với các tập hợp dữ liệu còn lại thì tập hợp ấy được coi là bất thường. Hình
1.3 mơ tả dữ liệu lưu lượng dữ liệu trên một hệ thống.
Ta có thể thấy, lưu lượng trên hệ thống trong khoảng thời gian từ mẫu thứ 250 đến
300 khác với các thời điểm còn lại, mặc dù những mẫu dữ liệu là khá
tương đồng nhau trong khoảng thời gian này, những thời điểm này được coi là
bất thường tập hợp.

Hình 1.3. Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống.


9

1.1.2 Các phương pháp phát hiện bất thường phổ biến
Có nhiều phương pháp phát hiện bất thường đã được đề xuất. Ta có thể phân thành
các nhóm chính như sau: nhóm phương pháp dựa trên kỹ thuật phân lớp [11, 8], nhóm
phương pháp dựa trên kỹ thuật phân cụm [12], nhóm phương pháp dựa trên kỹ thuật
phân tích phổ, phương pháp dựa trên kỹ thuật thống kê và một số nhóm phương pháp

khác [1].
Nhóm phương pháp phân lớp lấy ý tưởng từ thực tế rằng ta có thể phân tách tập dữ
liệu thành hai lớp “bình thường” và “bất thường” thơng qua việc xây dựng một mơ
hình phân loại trên phần dữ liệu được huấn luyện trước. Bài toán phân lớp này là quá
trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mơ
hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu được xây dựng
trước đó có gán nhãn (hay cịn gọi là tập huấn luyện). Quá trình phân lớp là quá trình
gán nhãn cho đối tượng dữ liệu. Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm
một mơ hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc
vào phân lớp nào. Có nhiều bài toán phân lớp dữ liệu như phân lớp nhị phân, phân
lớp đa lớp, phân lớp đa trị. Bài toán phân lớp nhị phân là bài toán gắn nhãn dữ liệu
cho đối tượng vào một trong hai lớp khác nhau dựa vào việc dữ liệu đó có hay khơng
có các đặc trưng của bộ phân lớp. Bài toán phân lớp đa lớp là quá trình phân lớp dữ
liệu với số lượng lớp lớn hơn hai. Như vậy với từng dữ liệu chúng ta phải xem xét và
phân lớp chúng vào những lớp khác nhau chứ không phải là hai lớp như bài toán phân
lớp nhị phân. Và thực chất bài toán phân lớp nhị phân là một bài toán đặt biệt của
phân lớp đa lớp. Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong
thực tế ví dụ như bài tốn nhận dạng khn mặt, nhận diện giọng nói, phát hiện thư
rác như Hình 1.4. Như trong Hình 1.4, một Email khi đi qua hệ thống phân loại, nó
sẽ được xác định là thư rác hay khơng.

Classifier

Spam

Hình 1.4. Ví dụ bài tốn phân lớp phát hiện thư rác.

Và đối với các bài toán phân lớp dữ liệu có thể sử dụng các thuật tốn học máy có
giám sát (Supervised Learning) để xây dựng mơ hình cho bài toán này như SVM [11],
Mạng nơ-ron nhân tạo (Neural Network) [9], Cây quyết định (Decision Tree) [2]. Ưu

điểm của nhóm phương pháp này là các thuật tốn có thể xử lý được những dữ liệu
đa lớp với khả năng chính xác cao, cũng như thời gian phát hiện bất thường nhanh.
Tuy nhiên, nhóm phương pháp này vẫn cịn đối mặt với một số hạn chế sau như các


10
thuật toán thường ràng buộc dữ liệu phải cho biết trước nhãn cho những mẫu “bình
thường” trong quá trình huấn luyện mơ hình.
Tiếp theo đến nhóm phương pháp phát hiện bất thường thứ hai là dựa trên các kỹ
thuật phân cụm. Tượng tự như nhóm phương pháp đầu, nhóm phương pháp này dựa
trên giả thiết rằng (i) những dữ liệu “bình thường” thuộc vào một cụm dữ liệu, trong
khi những dữ liệu “bất thường” không thuộc hoặc thuộc một cụm dữ liệu khác (ii)
hay như những dữ liệu bình thường thuộc về những cụm dữ liệu lớn, dày, đồng thời
các điểm bất thường sẽ thuộc về các cụm thưa. Nhóm phương pháp này có những ưu
điểm sau đây: (i) thường được áp dụng trong những bài tốn học khơng giám sát khi
mà dữ liệu chưa có thơng tin gán nhãn, (ii) có thể xử lý được những dữ liệu phức tạp.
Tuy vậy, các phương pháp này phụ thuộc nhiều vào sự hiệu quả của loại thuật toán
phân cụm, đồng thời độ phức tạp thuật toán tương đối cao. Thuật toán được sử dụng
có thể kể đến như K-Means Clustering [5], phân cụm theo thứ bậc Hierarchical
Clustering [7], phân cụm theo xác suất Probabilistic Clustering [3].
Nhóm thứ ba liên quan tới việc phân tích phổ của dữ liệu. Các phương pháp trong
nhóm này lấy ý tưởng từ thực tế rằng khi dữ liệu được nhúng trên một khơng gian
con có số chiều nhỏ hơn so với không gian dữ liệu gốc, thì những mẫu dữ liệu “bình
thường” và bất thường có thể phát hiện dễ dàng dựa trên sự khác nhau của chúng. Lợi
thế của nhóm phương pháp này là có khả năng phát hiện được bất thường trong các
loại dữ liệu có số chiều lớn và tương tự như nhóm thứ hai, các phương pháp trong
nhóm này thường được áp dụng trong các bài tốn học khơng giám sát. Mặc dù vậy,
độ phức tạp tính tốn của nhóm phương này tương đối cao.
Nhóm phương pháp phát hiện bất thường tiếp theo là dựa trên kỹ thuật thống kê.
Phương pháp này dựa trên giả định chính rằng các trường hợp dữ liệu bình thường

xảy ra ở các vùng có xác suất cao của mơ hình ngẫu nhiên, trong khi các trường hợp
bất thường xảy ra ở các vùng có xác suất thấp của mơ hình ngẫu nhiên [1]. Các hệ
thống dựa trên kỹ thuật này hoạt động trên nguyên tắc giám sát các hoạt động của đối
tượng và từ đó sinh ra các hồ sơ biểu diễn hành vi của chúng. Đối với mỗi đối tượng,
hệ thống ln duy trì hai loại hồ sơ hành vi hoạt động hiện tại và hồ sơ lưu trữ. Và
như vậy, cứ mỗi hành vi diễn ra, hệ thống cập nhật hồ sơ hiện tại và thực hiện tính
tốn điểm bất thường của hành vi đó. Sau đó đánh giá bằng cách so sánh hồ sơ hiện
tại và hồ sơ được lưu trữ. Nếu điểm số bất thường vượt một ngưỡng nhất định thì hệ
thống sẽ đưa ra cảnh báo. Ưu điểm của phương pháp dựa trên kỹ thuật thống kê là
tính tốn nhanh, khơng phức tạp về thuật toán, tuy nhiên nhược điểm của phương
pháp này là khó xác định ngưỡng cảnh báo. Bên cạnh đó việc xác định phân bố thống
kê phù hợp với các hành vi cũng là một thách thức vì khơng thể sử dụng phương pháp
thống kê để mơ hình hóa mọi hành vi. Với bài tốn thực tế về phát hiện đăng nhập


11
bất thường đặt ra, luận văn này tập trung sử dụng phương pháp dựa trên kỹ thuật
thống kê để phát hiện bất thường.

1.1.3 Các thách thức trong phát hiện bất thường
Ở mức độ tóm lược, sự bất thường được định nghĩa là một mẫu khơng phù hợp với
hành vi bình thường như dự kiến (kì vọng). Do đó, một cách tiếp cận phát hiện bất
thường đơn giản là xác định vùng biểu thị hành vi bình thường và chỉ ra bất kì mẫu
dữ liệu khơng thuộc vùng bình thường này là bất thường. Nhưng một số yếu tố làm
cho cách tiếp cận rõ ràng đơn giản này rất khó khăn.
Yếu tố đầu tiên như định nghĩa một khu vực bình thường trong đó bao gồm tất cả các
hành vi bình thường có thể là rất khó khăn. Bên cạnh đó, ranh giới giữa hành vi bình
thường và bất thường thường là khơng chính xác. Như vậy một quan sát bất thường
nằm gần ranh giới thực sự có thể là bình thường, và ngược lại.
Yếu tố thứ hai là khi bất thường là kết quả của các hành động nguy hiểm (có hại), các

đối tượng tác động nguy hiểm thường thích ứng bản thân để làm cho các quan sát
bất thường xuất hiện như bình thường, do đó làm cho cơng việc xác định hành vi bình
thường khó khăn hơn. Ba là trong nhiều lĩnh vực, hành vi bình thường tiếp tục phát
triển và một quan niệm hiện tại về hành vi bình thường có thể khơng đủ đại diện trong
tương lai.
Tiếp theo yếu tố thứ tư là khái niệm chính xác về sự bất thường là khác nhau đối với
các miền ứng dụng khác nhau. Ví dụ, trong lĩnh vực y tế, độ lệch nhỏ so với bình
thường (ví dụ: biến động nhiệt độ cơ thể) có thể là một sự bất thường, trong khi độ
lệch tương tự trong miền thị trường chứng khốn (ví dụ: biến động giá trị của cổ
phiếu) có thể được coi là bình thường. Do đó, việc áp dụng một kỹ thuật được phát
triển trong một lĩnh vực này sang một lĩnh vực khác không đơn giản. Yếu tố thứ năm
là sự sẵn có của dữ liệu được dán nhãn để đào tạo/xác nhận các mơ hình được sử dụng
bởi các kỹ thuật phát hiện bất thường thường là một vấn đề lớn. Và yếu tố thứ sáu là
thơng thường dữ liệu chứa nhiễu có xu hướng tương tự như bất thường trong thực tế
và do đó rất khó phân biệt và loại bỏ.
Do những thách thức trên, vấn đề phát hiện bất thường, ở dạng chung nhất của nó,
khơng dễ giải quyết. Trong thực tế, hầu hết các kỹ thuật phát hiện bất thường hiện có
giải quyết một cơng thức cụ thể của vấn đề. Công thức được xây dựng ra bởi các yếu
tố khác nhau như bản chất của dữ liệu, tính khả dụng của dữ liệu được dán nhãn, loại
dị thường được phát hiện, v.v. Thông thường, các yếu tố này được xác định bởi miền
ứng dụng cần phát hiện dị thường. Các nhà nghiên cứu đã áp dụng các khái niệm từ
các ngành khác nhau như thống kê, học máy, khai thác dữ liệu, lý thuyết thông tin, lý
thuyết quang phổ và đã áp dụng chúng vào các công thức vấn đề cụ thể.


12
Như vậy, có nhiều cách (giải pháp, phương pháp) để chúng ta xử lý và phân tích dữ
liệu để phát hiện bất thường, xây dựng một hệ thống phân lớn. chúng ta cần một phép
đánh giá để xem mơ hình sử dụng có hiệu quả khơng và để so sánh khả năng của các
mơ hình. Tuy nhiên, để chúng ta có thể đánh giá được sự khác nhau giữa các giải

pháp chúng ta cần đo lường để so sánh và giúp tối ưu các giải pháp. Nội dung tiếp
theo, tôi sẽ giới thiệu các phương pháp đánh giá các mô hình phân lớp. Hiệu năng
của một mơ hình thường được đánh giá dựa trên tập dữ liệu kiểm thử.

1.2 Các phương pháp đánh giá một hệ thống phân lớp dữ liệu
Để hỗ trợ đánh giá một hệ thống phân lớp, có các khái niệm chung thường được áp
dụng cho bài tốn phân lớp có hai lớp dữ liệu mà chúng ta đang quan tâm (bất
thường/bình thường) như sau.

1.2.1 True/False Positive/Negative
Cách đánh giá này thường được áp dụng cho các bài tốn phân lớp có hai lớp dữ liệu.
Cụ thể hơn, trong hai lớp dữ liệu này có một lớp nghiêm trọng hơn lớp kia và cần
được dự đốn chính xác. Ví dụ, trong bài tốn xác định có bệnh ung thư hay khơng
thì việc khơng bị sót quan trọng hơn là việc chẩn đốn nhầm âm tính thành dương
tính. Trong bài tốn xác định có mìn dưới lịng đất hay khơng thì việc bỏ sót nghiêm
trọng hơn việc báo động nhầm rất nhiều. Hay trong bài toán lọc email rác thì việc cho
nhầm email quan trọng vào thùng rác nghiêm trọng hơn việc xác định một email rác
là email thường.
Trong những bài toán này thường định nghĩa lớp dữ liệu quan trọng hơn cần được
xác định đúng là lớp Positive (P-dương tính), lớp cịn lại được gọi là Negative (N-âm
tính). Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN),
False Negative (FN) dựa trong Ma trận nhầm lẫn như Bảng 1.1. Trong Bảng 1.1 mô
tả cụ thể các trường hợp dựa trên kết quả dự đoán với thực tế.
Bảng 1.1. Ma trận nhầm lẫn

Dự đoán: Positive

Dự đoán: Negative

Thực tế: Positive


True Positive (TP)

False Negative (FN)

Thực tế: Negative

False Positive (FP)

True Negative (TN)


13
Và người ta thường quan tâm đến False Positive Rate (TPR), False Negative Rate
(FNR), False Positive Rate (FPR) và True Negative Rate (TNR) dựa trên Ma trận
nhầm lẫn chuẩn hóa (normalized confusion matrix) như Bảng 1.2. Trong Bảng 1.2
đưa ra cơng thức tính các tỉ lệ TPR, FNR, FPR, TNR.
Bảng 1.2. Ma trận nhầm lẫn chuẩn hóa

Dự đốn: Positive

Dự đốn: Negative

Thực tế: Positive

TPR = TP/(TP + FN)

FNR = FN/(FN+ TP)

Thực tế: Negative


FPR = FP/(FP + TN)

TNR = TN/(FP + TN)

False Positive Rate (FPR) còn được gọi là False Alarm Rate (tỉ lệ báo động
nhầm), False Negative Rate (FNR) còn được gọi là Miss Detection Rate (tỉ lệ bỏ sót).
Trong bài tốn dị mìn, thà báo nhầm cịn hơn bỏ sót, tức là ta có thể chấp nhận False
Alarm Rate cao để đạt được Miss Detection Rate thấp.
Căn cứ mục đích xây dưng bài tốn phân lớp dữ liệu, ta có các chú ý như sau:
- Với các bài tốn có nhiều lớp dữ liệu, ta có thể xây dựng bảng True/False
Positive/Negative cho mỗi lớp nếu coi lớp đó là lớp Positive, các lớp còn lại gộp
chung thành lớp Negative
- Trong một số bài toán, việc tăng hay giảm FNR, FPR có thể được thực hiện
bằng việc thay đổi một ngưỡng (Threshold) nào đó. Trong phần tiếp theo, ta đi
tiếp các khái niệm.

1.2.2 Độ chính xác và độ hồi tưởng
Với bài toán phân loại mà tập dữ liệu của các lớp chênh lệch nhau rất nhiều, có một
phép đó hiệu quả thường được sử dụng là độ chính xác (Precision) và độ hồi tưởng
(Recall). Để làm rõ hơn, trước hết xét bài toán phân loại nhị phân và coi một trong
hai lớp là Positive, lớp cịn lại là Negative. Trong Hình 1.4 mô tả trực quan hơn về
các khái niệm cũng như các cơng thức tính độ chính xác và độ hồi tưởng.


14

Hình 1.4. Cách tính độ chính xác và độ hồi tưởng.

Với một cách xác định một lớp là Positive, Precision được định nghĩa là tỉ lệ số

điểm True Positive trong số những điểm được phân loại là Positive (TP + FP).
Recall được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm thực sự
là Positive (TP + FN). Độ chính xác và hồi tưởng được định nghĩa theo các Công
thức 2.1, 2.2 tương ứng.
𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧 =

𝐑𝐞𝐜𝐚𝐥𝐥 =

𝐓𝐏
(2.1)
𝐓𝐏 + 𝐅𝐏

𝐓𝐏
(2.2)
𝐓𝐏 + 𝐅𝐍

Có thể nhận thấy rằng TPR và Recall là hai đại lượng bằng nhau. Ngoài ra, cả
Precision và Recall đều là các số không âm nhỏ hơn hoặc bằng một. Precision cao
đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. Recall cao đồng nghĩa
với việc True Positive Rate (TPR) cao, tức tỉ lệ bỏ sót các điểm thực sự positive là
thấp.
Khi Precision = 1, mọi điểm tìm được đều thực sự là Positive, tức khơng có
điểm Negative nào lẫn vào kết quả. Tuy nhiên, Precision = 1 khơng đảm bảo mơ hình
là tốt, vì câu hỏi đặt ra là liệu mơ hình đã tìm được tất cả các điểm Positive hay chưa.


15
Nếu một mơ hình chỉ tìm được đúng một điểm Positive mà nó chắc chắn nhất thì ta
khơng thể gọi nó là một mơ hình tốt.
Khi Recall = 1, mọi điểm Positive đều được tìm thấy. Tuy nhiên, đại lượng này lại

khơng đo liệu có bao nhiêu điểm Pegative bị lẫn trong đó. Nếu mơ hình phân loại mọi
điểm là Positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây là một mơ hình
cực tồi. Một mơ hình phân lớp tốt là mơ hình có cả Precision và Recall đều cao, tức
càng gần một càng tốt.

1.2.3 Tóm tắt
-

-

-

-

-

True Positive (TP): số lượng điểm của lớp Positive được phân loại đúng
là Positive
True Negative (TN): số lượng điểm của lớp Negative được phân loại đúng
là Negative
False Positive (FP): số lượng điểm của lớp Negative bị phân loại nhầm
thành Positive
False Negative (FN): số lượng điểm của lớp Positive bị phân loại nhầm
thành Negative
True Positive Rate (TPR), False Negative Rate (FNR), False Positive Rate
(FPR), True Negative Rate (TNR).

Nội dung tiếp theo luận văn sẽ giới thiệu về việc phát hiện bất thường về hành vi của
người dùng dựa trên các dữ liệu ghi nhận hệ thống thông tin nhằm phát hiện, cảnh
báo liên quan đến việc đảm bảo an tồn thơng tin.



16

Chương 2: Mơ hình phát hiện hành vi đăng nhập hệ
thống bất thường
Chương 1 đã giới thiệu các khái niệm và phương pháp xác định bất thường cũng như
phương pháp đánh giá hệ thống phân lớp. Trong chương này, luận văn sẽ giới thiệu
mơ hình và bài tốn cụ thể áp dụng thực tế về phát hiện hành vi đăng nhập bất thường
trên hệ thống.

2.1 Giới thiệu đề tài phát hiện bất thường trên hệ thống
Xuất phát từ yêu cầu thực tế về việc cần giám sát và phát hiện những hành vi đăng
nhập bất thường trên hệ thống thông tin, luận văn đề xuất xây dựng một giải pháp với
mơ hình phân tích các dữ liệu về hành vi người dùng trên hệ thống. Các hành vi tương
tác của người dùng trên hệ thống được phân tích dựa trên các thông tin log các sự
kiện như thời điểm đăng nhập, số lần đăng nhập thành công, thất bại vào hệ thống,
địa chỉ IP client sử dụng, địa chỉ IP hệ thống, thông tin yêu cầu về tác động, dữ liệu
được truy xuất, nội dung thay đổi.v.v.từ đó thực hiện phân tích, đánh giá nhằm phát
hiện các hành vi bất thường. Giải pháp giúp cảnh báo kịp thời cho bộ máy giám sát
an tồn thơng tin những bất thường về việc đăng nhập vào hệ thống nhằm hỗ trợ công
tác đảm bảo an tồn thơng tin, đặc biệt kiểm sốt tốt với việc đăng nhập vào những
hệ thống chứa dữ liệu quan trọng của đơn vị. Với mục tiêu đề ra, luận văn hướng tới
việc mơ tả bài tốn, cơ sở lý thuyết, xây dựng mơ hình, cơng cụ thu thập và phân tích
các mẫu thu thập được từ hành vi người dùng nhằm phát hiện, cảnh báo các hành vi
bất thường trong việc đăng nhập hệ thống.
Trong phần tiếp theo, luận văn sẽ giới thiệu tiếp về việc xây dựng hệ thống phân tích
và phát hiện bất thường trên hệ thống và tập trung vào phân tích các bất thường đăng
nhập.


2.2 Mơ tả bài tốn bất thường đăng nhập
Trong phần 2.1 đã giới thiệu tổng quan về việc phát hiện bất thường trên hệ thống.
Trong phần này, luận văn sẽ mơ tả chi tiết về bài tốn bất thường đăng nhập hệ thống,
một trong những bài toàn mà tại đơn vị rất quan tâm. Việc đăng nhập vào hệ thống là
hành vi của cả người dùng thông thường cũng như cuộc kẻ tấn công để truy xuất vào
hệ thống. Một kẻ tấn công lấy được tài khoản người dùng thuộc tổ chức thơng qua
nhiều hình thức và một trong những hình thức phổ biến như tấn cơng dị qt mật
khẩu vào các tài khoản public như Email, VPN hoặc thực hiện khai thác lỗ hổng, xâm
nhập được vào hệ thống và lấy được cơ sở dữ liệu về tài khoản người dùng. Sau khi
có được tài khoản người dùng, kẻ tấn công thực hiện các hành vi đăng nhập trái phép
vào hệ thống và có thể thực hiện các tác động trái phép như truy xuất thông tin mật,
để đánh cắp dữ liệu, làm tê liệt hệ thống thông tin. Tuy nhiên do không nắm được


17
thói quen người dùng nên hành vi đăng nhập của kẻ tấn cơng có các thuộc tính khác
với hồ sơ đăng nhập (profile) của người dùng. Với bài toán nghiệp vụ tại VTNet, các
hành vi đăng nhập hệ thống được đánh giá là bất thường khi phát hiện địa chỉ IP, dải
địa chỉ IP thực hiện đăng nhập, thời điểm đăng nhập, địa điểm đăng nhập vào hệ
thống khác với hành vi thường thấy đã được ghi nhận trên hệ thống trong thời gian
nhất định, thường được xét trong vòng 60 ngày. Các thông tin thu thập được trên hệ
thống giúp nhận diện và phát hiện các bất thường này để cảnh báo cho lực lượng phụ
trách đảm bảo an tồn thơng tin. Các thơng tin để phân tích bao gồm:
-

-

-

-


Địa chỉ IP, dải địa chỉ IP của người dùng khi thực hiện đăng nhập hệ thống.
Sẽ phát hiện bất thường nếu thực hiện đăng nhập từ máy tính khơng phải máy
tính làm việc thường xuyên của người dùng.
Quốc gia, số hiệu mạng (ASN), nhà cung cấp dịch vụ Internet (ISP) của người
dùng khi đăng nhập hệ thống. Từ địa chỉ IP thực hiện đăng nhập, thông tin sẽ
được làm giầu để củng cố thêm cho việc phân tích dữ liệu như thông tin quốc
gia, số hiệu mạng và tên nhà cung cấp dịch vụ Internet nhằm xác định vị trí
truy cập để đánh giá một hành vi bất thường như khi kẻ tấn công váo hệ thống
thực hiện đăng nhập từ xa khơng phải từ vị trí làm việc hàng ngày của người
dùng.
Loại đăng nhập, môi trường đăng nhập: sự khác nhau về môi trường đăng nhập
hệ thống, người dùng thường dùng giao diện đăng nhập, kẻ tấn công thường
đăng nhập qua cửa sổ lệnh hoặc qua truy cập từ xa.
Thời điểm đăng nhập: xác định thời điểm của của hành vi đăng nhập, từ đó
đánh giá được giờ có hành vi đăng nhập trong ngày và các ngày trong tuần.

Từ các thông tin thu thập trên hệ thống, xây dựng cơng cụ thực hiện tính tốn, phân
tích, cảnh báo các bất thường về đăng nhập vào hệ thống. Ví dụ như xác định bất
thường đăng nhập từ địa chỉ IP khác lại không phải địa chỉ IP của máy tính người
dùng hàng ngày. Từ đó, hệ thống sẽ cảnh báo để bộ phận phụ trách an tồn thơng tin
sẽ thực hiện tiến hành kiểm tra và xử lý, hỗ trợ cho cơng tác đảm bảo an tồn thơng
tin tại đơn vị. Trong nội dung tiếp theo, luận văn sẽ giới thiệu cách tiếp cập và đề xuất
việc xây dựng hệ thống phát hiện bất thường.

2.3

Giới thiệu mơ hình hệ thống phát hiện bất thường

Hệ thống phát hiện bất thường thực hiện phân tích các dữ liệu liệu log về các sự kiện

xảy ra trên hệ thống công nghệ và phân tích chúng để tìm ra các dấu hiệu bất thường
dựa trên việc phân tích các hành vi của đối tượng và đưa ra cảnh báo. Hệ thống này
được gọi là khai phá dữ liệu an tồn thơng tin (Security Data Mining). Và nó là một
thành phần trong hệ thống giám sát an tồn thơng tin của VTNet đã được xây dựng.
Hình 2.1 mơ tả mơ hình tổng quan hệ thống quản lý, giám sát an tồn thơng tin tại


18
VTNet. Như trong Hình 2.1, tổng quan hệ thống giám sát an tồn thơng tin có nhiều
các thành phần hệ thống liên kết với nhau tạo thành một hệ sinh thái phục vụ cho
công tác giám sát, đảm bảo an tồn thơng tin tại đơn vị. Hệ thống tổng thể này có ba
lớp được mơ tả cụ thể dưới đây.
Lớp dưới cùng là lớp thu thập và cung cấp các thơng tin dữ liệu đầu vào cho tồn bộ
hệ thống, nó bao gồm các thành phần như sau:
-

-

-

-

Endpoint cài đặt trên các máy chủ, máy trạm nhằm thu thập đầy đủ các thông
tin hồ sơ của chúng. Và thành phần này cũng hỗ trợ khả năng điều tra sâu, cách
ly và khôi phục các máy chủ, máy trạm này khi cần thiết.
Network Security Monitoring (NSM) hỗ trợ thu thập lấy log truy cập, giám sát
các kết nối giữa các node mạng.
Gateway Security Monitoring (GSM) hỗ trợ thu thập log và kiểm soát kết nối
của ngõ (Gateway) vào vùng cần bảo vệ.
Các sản phẩm, giải pháp của hãng thứ 3 như hệ thống quản lý máy tính tập

trung (AD), hệ thống quản lý tên miền (DNS), hệ thống phòng chống virus
máy tính (AV), hệ thống tường lửa (Firewall) v.v. có kết nối và cung cấp thông
tin log lên các hệ thống tập trung ATTT phía trên.

Lớp tiếp theo, ở giữa, đó là các thành phần xử lý tập trung dữ liệu từ lớp phía dưới
cung cấp lên. Lớp này có các thành phần như sau:
-

-

SIEM (Security Information and Event Management) là hệ thống quản lý và
phân tích sự kiện an tồn thơng tin. Và nó là thành phần quan trọng trong các
hệ thống giám sát ATTT chung. Nó thu thập đầy đủ log của toàn bộ hệ thống,
lưu trữ và xử lý dữ liệu ATTT tập trung. Dữ liệu thu thập về sẽ được hệ thống
sắp xếp, chuẩn hoá và phân loại lại theo một định dạng chung, tối ưu hoá cho
việc phân tích và điều tra xử lý sự cố. Đồng thời dữ liệu cũng được lọc bớt các
thành phần dư thừa. Hệ thống SIEM cho phép phân tích tập trung và báo cáo
về các sự kiện an ninh mạng của tổ chức, phát hiện thông qua các bộ luật tương
quan (correlation rule), giúp phát hiện các cuộc tấn công mà không thể phát
hiện được bởi các giải pháp thông thường, đảm bảo cho người vận hành có thể
điều tra và nhận diện nhanh chóng các vi phạm, tấn cơng đang xảy ra trong hệ
thống, từ đó đưa ra các quyết định hiệu quả và kịp thời.
Advanced Malware Analysis (AMA) là hệ thống phân tích mã độc tự động, đa
lớp, hỗ trợ phân tích hầu hết các loại tệp nhằm phát hiện mã độc, mã khai thác
đặc biệt là các loại mã độc trong các cuộc tấn cơng có chủ đích APT. Hệ thống
nhận yêu cầu quét tệp từ các hệ thống khác, phân tích, đưa ra kết quả là độc
hay sạch. Hệ thống AMA sử dụng nhiều phương pháp phân tích với các tính
năng và cơng nghệ vượt trội: Hypervisor, Static Analysis, Dynamic Analysis,



×