Tải bản đầy đủ (.docx) (53 trang)

Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai thác các hệ thống thông tin tại viettel​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----oo0oo-----

NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT
THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI
THÁC CÁC HỆ THỐNG THÔNG TIN TẠI VIETTEL

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội – 09/2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----oo0oo-----

NGUYỄN ĐĂNG TIỆP

GIẢI PHÁP VÀ CÔNG CỤ HỖ TRỢ PHÁT HIỆN BẤT
THƯỜNG TRONG HOẠT ĐỘNG VẬN HÀNH KHAI
THÁC CÁC HỆ THỐNG THƠNG TIN TẠI VIETTEL

Ngành: Hệ thống thơng tin
Chun ngành: Hệ thống thông tin
Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
HƯỚNG DẪN KHOA HỌC: PGS. TS. PHẠM NGỌC HÙNG



Hà Nội – 09/2020


i

Mục lục
LỜI CẢM ƠN ............................................................................................................
LỜI CAM ĐOAN .....................................................................................................
DANH MỤC HÌNH VẼ .............................................................................................
Giới thiệu ....................................................................................................................
Chương 1. Kiến thức cơ bản ......................................................................................
1.1

Bất thường và các phương pháp

1.1.1

Bất thường..................................

1.1.2

Các phương pháp phát hiện bất t

1.1.3

Các thách thức trong phát hiện b

1.2


Các phương pháp đánh giá một

1.2.1

True/False Positive/Negative ....

1.2.2

Độ chính xác và độ hồi tưởng ..

1.2.3

Tóm tắt ......................................

Chương 2: Mơ hình phát hiện hành vi đăng nhập hệ thống bất thường ..................
2.1
2.2
2.3
2.3.1
2.3.2

Giới thiệu đề tài phát hiện bất th
Mơ tả bài tốn bất thường đăng
Giới thiệu mơ hình hệ thống phá
Cách thức phân tích dữ liệu ......
Xây dựng mơ hình phân tích dữ

Chương 3: Thực nghiệm ..........................................................................................
3.1
3.2

3.2.1
3.2.2
3.2.3
3.3
3.3.1
3.3.2
3.4

Kiến trúc công cụ ......................
Cài đặt công cụ ..................................
Phân hệ lưu trữ dữ liệu lớn .......
Phân hệ xử lý ............................
Phân hệ phân tích ca sử dụng ph
Thực nghiệm .............................
Thu thập dữ liệu và kịch bản ....
Chọn ngưỡng cảnh báo bất thườ
Áp dụng thực nghiệm ...............

Kết luận

....................................................

TÀI LIỆU THAM KHẢO ........................................................................................


ii

LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS.
TS. Phạm Ngọc Hùng, người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi

những điều kiện tốt nhất từ khi bắt đầu thực hiện luận văn cho tới khi hoàn thành
cơng việc của mình.
Tơi xin dành lời cảm ơn chân thành tới các thầy cô giáo Khoa Công nghệ
thông tin, Trường Đại học Cơng nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho
tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt
quá trình học tập, nghiên cứu tại Trường.
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tơi cùng
tồn thể bạn bè những người đã ln giúp đỡ, động viên tơi trong q trình học tập
và nghiên cứu.
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp đã giúp đỡ, tạo điều
kiện thuận lợi cho tơi học tập và nghiên cứu chương trình Thạc sĩ tại Trường Đại
học Công nghệ, ĐHQGHN.


Từ viết tắt
AD

ASN
ATTT
AV
CNTT
DNS
GSM
HDFS
IP
ISP
JSON

NIST


NSM
PCA
SDM
SIEM
SSO
UEBA
VPN
VTNet


iv

LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ chuyên ngành hệ thống thông tin
“Giải pháp và công cụ hỗ trợ phát hiện bất thường trong hoạt động vận hành khai
thác các hệ thống thông tin tại Viettel” là cơng trình nghiên cứu của riêng tơi dưới
sự hướng dẫn của PGS. TS. Phạm Ngọc Hùng, không sao chép lại của người khác.
Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của
chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn
tài liệu tham khảo đều có xuất xứ rõ ràng, hợp pháp và được trích dẫn trung thực.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan này.
Hà Nội, ngày 01 tháng 9 năm
2020
Học viên

Nguyễn Đăng Tiệp


v


DANH MỤC HÌNH VẼ
Hình 1.1. Một ví dụ về bất thường điểm trong một tập dữ liệu trong không gian
hai chiều............................................................................................................6

Hình 1.2. Ví dụ về bất thường bối cảnh........................................................... 7
Hình 1.3. Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống..................8
Hình 1.4. Ví dụ bài tốn phân lớp phát hiện thư rác........................................ 9
Bảng 1.1. Ma trận nhầm lẫn........................................................................... 12
Bảng 1.2. Ma trận nhầm lẫn chuẩn hóa..........................................................13
Hình 1.4. Cách tính độ chính xác và độ hồi tưởng.........................................14
Hình 2.1. Mơ hình tổng thể hệ thống giám sát an tồn thơng tin...................19
Hình 2.2: Mơ hình luồng dữ liệu cho hệ thống phát hiện bất thường............20
Hình 2.3. Mơ hình hệ thống phát hiện bất thường......................................... 21
Hình 2.4. Các thuộc tính liên quan đến địa chỉ IP.......................................... 22
Hình 2.5. Cấu trúc dữ liệu hành vi phát hiện bất thường............................... 23
Bảng 2.1. Các thuộc tính sử dụng để phát hiện bất thường đăng nhập..........24
Hình 2.6: Mơ hình phân bố của một thuộc tính..............................................26
Hình 3.1: Mơ hình luồng dữ liệu cho hệ thống phát hiện bất thường............28
Hình 3.2: Hệ thống lưu trữ dữ liệu................................................................. 29
Hình 3.3: Hệ thống lưu trữ dữ liệu (tiếp)....................................................... 29
Hình 3.5: Hệ thống quản lý việc xử lý song song..........................................31
Hình 3.6. Lập lịch và cấu hình chạy định kì phân tích dữ liệu.......................32
Hình 3.7. Các job chạy định kì phân tích dữ liệu...........................................32
Hình 3.8. Job chạy định kì phân tích dữ liệu hành vi bất thường...................33
Bảng 3.1. Kết quả chạy với tập dữ liệu.......................................................... 34
Bảng 3.2. Kết quả chạy với tập dữ liệu.......................................................... 38
Hình 3.8. Biểu đồ tại ngưỡng 63.................................................................... 38
Hình 3.9: Kết quả đầu ra của việc xác định ngưỡng cảnh bảo.......................39
Hình 3.10. Cảnh báo trên hệ thống.................................................................40



1

Giới thiệu
Trong những năm gần đây, sự phát triển mạnh các hệ thống và ứng dụng công nghệ
thông tin (CNTT) đã đem lại những lợi ích khơng nhỏ cho con người bao gồm cả
đời sống, công nghệ, kinh tế, xã hội, v.v. Bên cạnh đó, vấn đề an ninh và bảo mật về
đảm bảo an tồn thơng tin cho các hệ thống công nghệ thông tin cũng là một thách
thức không nhỏ. Các hành vi xâm nhập trái phép, tấn cơng vào những hệ thống máy
tính của các cá nhân hay tổ chức cũng ngày càng gia tăng và gây ra những thiệt hại
nghiêm trọng. Theo trang thông tin của VTV (Đài truyền hình Việt Nam), một báo
cáo năm 2020 mới đây được công ty bảo mật Bkav công bố cho thấy, tại Việt Nam,
nếu như vào năm 2018, tổng thiệt hại do tấn công mạng là gần 15.000 tỷ đồng thì
đến hết năm 2019, con số này đã là gần 21.000 tỷ đồng. Mức thiệt hại đã tăng thêm
hơn 6.000 tỷ đồng, tương đương với khoảng 40%. Theo thống kê của Bkav, số
lượng máy tính bị mất dữ liệu trong năm 2019 lên tới 1.8 triệu lượt, tăng 12% so với
1

năm 2018 . Và theo báo cáo từ hãng bảo mật Kaspersky, so với năm 2018, số lượng
các mối đe dọa được phát hiện bởi phần mềm diệt vi-rút trên web đã tăng gấp hơn
2

năm lần (523%), tổng cộng là 2.660.000 vào năm 2019 .
Tháng 4/2019, dữ liệu cá nhân của hơn 100 triệu người dùng của dịch vụ tìm kiếm
Ấn Độ có tên JustDial bị lộ khi một cơ sở dữ liệu trực tuyến không được bảo vệ. Dữ
liệu bị rò rỉ được thu thập trong thời gian thực từ mọi khách hàng truy cập dịch vụ
qua trang Web, ứng dụng di động hoặc thậm chí các cuộc gọi và bao gồm tên người
dùng, địa chỉ email, số điện thoại di động, địa chỉ, nghề nghiệp và thậm chí cả ảnh
3


cá nhân, v.v. .
Tháng 6/2019, cơ quan thu thập y tế Mỹ (AMCA) bị khai thác dữ liệu làm lộ thơng tin
cá nhân và thơng tin thanh tốn của gần 20 triệu bệnh nhân sau khi bị tấn cơng xâm
nhập vào cổng thanh tốn của họ. Thơng tin bị truy cập trái phép bao gồm tên, ngày
sinh, địa chỉ, điện thoại, ngày dịch vụ, nhà cung cấp, thông tin số dư và thẻ tín dụng
hoặc tài khoản ngân hàng, v.v. Chỉ vài tuần sau khi các vi phạm này được công bố,
4

AMCA đã nộp đơn xin phá sản với lý do tài chính và pháp lý . Tháng 8/2019, Capital
One, một trong những ngân hàng thương mại lớn nhất ở Mỹ, đã bị đánh cắp dữ liệu,
làm lộ thơng tin cá nhân của hơn 106 triệu thẻ tín dụng từ năm 2005 đến năm
1

/>2

/>3

“Over100MillionJustDialUsers’PersonalDataFoundExposedOntheInternet,”byMohitKumar,TheHa
ckerNews,April17,2019
4

“Data Breach Forces Medical Debt Collector AMCA to File for Bankruptcy Protection,” by
Charlie Osborne, ZDNet, June 19, 2019


2
2019. Tin tặc đã khai thác một cấu hình sai của thiết bị tường lửa trên một trong
những máy chủ cung cấp dịch vụ ảo hoá (Cloud) của Capital One và lấy cắp hơn
5


700 thư mục dữ liệu .
Tháng 10/2019, dữ liệu y tế cá nhân của gần một triệu người ở New Zealand đã bị
lộ trong một cuộc tấn công xâm nhập vào hệ thống của tổ chức Tu Ora Compass
Health. Một tin tặc với cái tên “Vanda The God” đã đe dọa bán những thông tin này.
5

Các cuộc điều tra cho thấy hệ thống đã bị tấn công vào bốn lần khác nhau . Tháng
11/2019, UniCredit, một ngân hàng của Italia, bị xâm phạm dữ liệu dẫn đến rị rỉ
thơng tin cá nhân của ba triệu khách hàng, sau khi một kẻ tấn công không xác định
xâm phạm một tệp cũ từ năm 2015 chứa hồ sơ của khách hàng, bao gồm tên, số điện
5

thoại và địa chỉ email .
Trong số các hành động và biện pháp để đảm bảo an tồn thơng tin theo tiêu chuẩn
của Viện tiêu chuẩn và Công nghệ Quốc gia Mỹ (National Institute of Standards and
Technology - NIST), hiện nay, các đơn vị đang tập trung và làm tốt việc định nghĩa,
nhận dạng các tài sản, các nguy cơ về an tồn thơng tin và từ đó thực hiện các biện
pháp bảo vệ cũng như khắc phục và nâng cấp hệ thống. Tuy nhiên, còn hai biện
pháp quan trọng khác chưa được thực hiện tốt đó là phát triển và thực hiện các hoạt
động thích hợp để xác định sự xuất hiện của một sự kiện về an ninh mạng và tổ
chức triển khai các hoạt động xử lý liên quan đến việc phát hiện cảnh báo liên quan
đến an tồn thơng tin. Cụ thể, các kế hoạch ứng phó, truyền thơng, phân tích, giảm
nhẹ thiệt hại và cải tiến. Để thực hiện hai nhiệm vụ này, việc phân tích bất thường
và các sự kiện trên hệ thống là một trong những biện pháp quan trọng để hỗ trợ phát
hiện kịp thời các sự kiện về an ninh mạng để từ đó đơn vị có những biện pháp ứng
phó kịp thời để đảm bảo an tồn thơng tin. Việc phân tích bất thường về hành vi
người dùng và thực thể (User & Entity Behavior Analytics – UEBA) cũng là một
chủ đề rất được quan tâm tại nhiều đơn vị và trên thế giới cũng có nhiều hãng cơng
nghệ về bảo mật cũng rất quan tâm đến vấn đề như LogRhythm hay Exabeam,

Securonix và xây dựng những công cụ cho việc để phát hiện và cảnh báo các nguy
cơ mất an tồn thơng tin trên hệ thống.
Hiện tại, Tổng Công ty Mạng lưới Viettel (VTNet) đang vận hành hệ thống công nghệ
thông tin lớn với hàng nghìn máy chủ và thiết bị mạng, thiết bị bảo mật và hệ thống cơ
sở dữ liệu lớn lưu trữ nhiều thông tin quan trọng liên quan đến hạ tầng mạng lưới cung
cấp dịch, thông tin cá nhân, tài khoản, giao dịch của khách hàng, v.v. Hệ thống đang
cung cấp dịch vụ cho hàng triệu khách hàng với hơn 60 triệu thuê bao di động cùng
hơn 5 triệu thuê bao cố định băng rộng tính đến đầu năm 2020. Và để đảm bảo việc
cung cấp dịch vụ của hệ thống, các hoạt động vận hành khai thác hệ thống công
5

/>

3
nghệ thông tin này với việc truy cập vào các máy chủ, cơ sở dữ liệu, thiết bị mạng
để kiểm tra tình trạng hoạt động, khai thác, cập nhật dữ liệu, xử lý các lỗi dịch vụ
phát sinh, v.v. diễn ra thường xun và liên tục. Chính vì vậy, hệ thống CNTT lớn
và quan trọng này có nguy cơ và rủi ro cao về việc mất an tồn thơng tin (ATTT).
Một số nguy cơ mất ATTT trên hệ thống như việc xâm nhập, tác động trái phép vào
hệ thống nhằm lấy cắp, sửa đổi thông tin, đặc biệt các thông tin thông tin dữ liệu về
khách hàng, phá hoạt gây thiệt hại về kinh tế (như thay đổi thông tin, giá trị tài
khoản của khách hàng) và ảnh hưởng lớn đến uy tín đến cơng ty. Các hoạt động
kiểm sốt cũng như triển khai các công cụ, giải pháp bảo mật nhằm tăng cường
giám sát, bảo vệ cho hệ thống CNTT này đã được triển khai và áp dụng chặt chẽ.
Tuy nhiên, các hoạt động kiểm tra, đánh giá bất thường trong các hoạt động vận
hành khai thác hệ thống CNTT này vẫn chưa có cơng cụ để quản lý tồn diện để
phân tích và đưa ra cảnh báo trên hệ thống giám sát ATTT của VTNet. Một số nội
dung đang phải thực hiện thủ công bằng cách thực hiện định kỳ kiểm tra lại log tác
động trên hệ thống để phát hiện và xử lý các trường hợp sai phạm về truy cập, tác
động hệ thống sai quy định. Do đó, yêu cầu thực tế đặt ra cần xây dựng cơng cụ

phân tích nhằm phân tích các sự kiện, các dấu hiệu bất thường trong việc truy cập,
tác động vào các hệ thống quan trọng nhằm hỗ trợ cho việc phát hiện, cảnh báo để
tổ chức hành động xử lý kịp thời để đảm bảo an tồn thơng tin tại đơn vị.
Mục đích nghiên cứu của luận văn này là hướng đến giải quyết bài toán phát hiện bất
thường trong hoạt động vận hành khai thác các hệ thống CNTT tại VTNet. Các bất
thường cần được phát hiện như đăng nhập trái phép vào hệ thống, tiến trình lạ thực hiện
dò quét trên hệ thống mạng nội bộ, thực hiện kết nối ra ngồi bất thường, tiến trình mở
cổng bất thường trên hệ thống từ việc phân tích các log kết nối, đăng nhập (thời điểm
đăng nhập vào hệ thống, thời gian tác động, địa chỉ IP client sử dụng, địa chỉ IP hệ
thống bị tác động, thông tin yêu cầu về dữ liệu được truy xuất, nội dung thay đổi, v.v.).
Vì các hệ thống tại VTNet khá lớn nên đề tài tập trung thực hiện trên các hệ thống
CNTT quan trọng nhằm xây dựng mơ hình và cơng cụ thu thập, phân tích log và phát
hiện bất thường về đăng nhập trên hệ thống. Và kết quả từ đề tài này giúp đơn vị giám
sát được các vấn đề bất thường trong việc kết nối đăng nhập vào hệ thống. Từ đó, đề tài
góp phần vào việc đảm bảo an tồn thơng tin tại đơn vị, giúp giảm thiểu rủi ro trong
việc lấy cắp, sửa đổi hoặc phá hoại thông tin quan trọng của VTNet, của khách hàng
cũng như hạn chế việc gây thiệt hại kinh tế, uy tín của đơn vị. Ngồi ra, cơng cụ phát
hiện bất thường này có thể được tiếp tục được mở rộng với nhiều bài tốn phân tích và
phát hiện bất thường khác trong hoạt động vận hành khai thác các hệ thống thông tin tại
đơn vị như bất thường về lưu lượng kết nối, bất thường về các giao dịch tài chính, bất
thường trong vệc tác động các lệnh vào hệ thống, v.v. cũng như các tình huống phân
tích phức tạp với nhiều sự kiện kết hợp lại với nhau.


4
Nội dung của luận văn được trình bày trong ba chương, phần giới thiệu và phần kết
luận. Mở đầu là phần giới thiệu về đề tài, trình bày ngữ cảnh bài toán, những lý do
chọn đề tài, mục tiêu của đề tài và cấu trúc của luận văn. Các khái niệm về bất
thường, các kiến thức cơ bản, các phương pháp phát hiện bất thường và các thách
thức đối với việc phát hiện bất thường được trình bày tiếp trong Chương 1. Chương

2 sẽ giới thiệu bài toán, đề xuất giải pháp, thiết kế hệ thống phát hiện bất thường và
áp dụng cụ thể với hành vi đăng nhập bất thường vào hệ thống. Kết quả thực
nghiệm, đánh giá thuật tốn, kiểm tra mơ hình và điều chỉnh tham số của hệ thống
của giải pháp được bày trong Chương 3. Cuối cùng là phần kết luận, định hướng mở
rộng và tài liệu tham khảo.


5

Chương 1. Kiến thức cơ bản
Để mô tả rõ hơn về bài toàn phát hiện bất thường, trong Chương 1, luận văn sẽ giới
thiệu các khái niệm cơ bản về bất thường và các phương pháp phát hiện bất thường
phổ biến cũng như các phương pháp đánh giá một hệ thống phân lớp dữ liệu. Các
khái niệm và phương pháp được trình bày trong chương này là những kiến thức nền
tảng cho mơ hình đề xuất trong Chương 2.

1.1 Bất thường và các phương pháp phát hiện bất thường phổ biến
1.1.1 Bất thường
Bất thường là những đối tượng, sự kiện hay dấu hiệu không phù hợp hoặc không tuân
theo với hầu hết những đối tượng, sự kiện hay dấu hiệu cịn lại trong tập dữ liệu được
xác định là bình thường [10]. Hoặc nó có thể được định nghĩa là bất kỳ hành vi nào
“khác” với hành vi “bình thường” [4]. Bất thường thường có tính chất tạm thời, xuất
hiện hay biến mất không tuân theo quy luật. Việc phát hiện bất thường đề cập đến các
vấn đề của việc tìm kiếm các mẫu trong tập dữ liệu mà khơng phù hợp với hành vi
mong đợi [1] hay tìm kiếm các các cá thể khác với phần lớn dữ liệu trong tập dữ liệu
[6]. Những mẫu không phù hợp này thường được gọi là bất thường, dị thường,
ngoại lai, quan sát trái ngược, sự bất ngờ, sự đặc thù hoặc chất gây ô nhiễm trong
các lĩnh vực ứng dụng khác nhau [1]. Trong số này, bất thường và ngoại lai là hai
thuật ngữ được dùng phổ biến nhất là trong bối cảnh phát hiện bất thường, đôi khi
thay thế cho nhau.

Phát hiện bất thường phát hiện sử dụng rộng rãi trong một loạt các ứng dụng như phát
hiện phát hiện xâm nhập cho an ninh mạng, gian lận giao dich tài chính ngân hàng, bất
thường trong q trình kiểm tra ý tế, phát hiện lỗi trong quy trình sản xuất hoặc trên các
hệ thống quan trọng. Ví dụ, bất thường trong dữ liệu giao dịch thẻ tín dụng có thể chỉ ra
hành vi trộm cắp thẻ tín dụng hoặc đánh cắp nhận dạng, bất thường về việc đăng nhập
vào hệ thống có thể là dấu hiệu của việc xâm nhập trái phép vào hệ thống hoặc sự biến
đổi bất thường của lưu lượng dữ liệu trong mạng nội bộ có thể là dấu hiệu của dữ liệu
“nhạy cảm” đang bị sao chép hoặc gửi bởi kẻ tấn công.

Việc phát hiện bất thường là quan trọng vì chúng thường chứa đựng những thơng tin
hữu ích, có ý nghĩa trong nhiều ứng dụng thực tế. Trong thực tế, bất thường tồn tại ở
nhiều dạng khác nhau, do vậy tùy thuộc vào từng ứng dụng cụ thể mà ta có những
phương pháp phát hiện bất thường khác nhau. Bất thường có thể được chia làm ba
loại gồm bất thường điểm (point anomalies), bất thường bối cảnh (contextual


6
anomalies) và bất thường tập hợp (collective anomalies) [1]. Dưới đây là mô tả chi
tiết các loại bất thường này.
Bất thường điểm:
Nếu một dữ liệu riêng biệt được coi là dị thường với phần còn lại của tập dữ liệu thì
đó được coi là một bất thường điểm. Ví dụ, một điểm có khoảng cách đến trung tâm
của một tập dữ liệu lớn hơn so với tất cả các khoảng cách từ những điểm trong tập
hợp đó tới trung tâm này thì những điểm này được coi là bất thường. Đây là loại bất
thường đơn giản nhất và là trọng tâm của phần lớn các nghiên cứu về phát hiện bất
thường.

Hình 1.1. Một ví dụ về bất thường điểm trong một tập dữ liệu
trong khơng gian hai chiều.


Ví dụ trong Hình 1.1 mơ tả các điểm O 1, O2 cũng như các điểm thuộc khu vực O 3
nằm ngoài phạm vi của khu vực bình thường (N1, N2). Do đó chúng là bất thường
điểm vì chúng khác so với các điểm dữ liệu bình thường (nằm trong các cụm N1
hoặc N2). Như một ví dụ trong thực tế, xem xét việc phát hiện thời gian đăng nhập
hệ thống bất thường. Lấy tập dữ liệu về việc đăng nhập vào hệ thống máy tính tại
cơng ty của một cá nhân. Để đơn giản, chúng ta hãy giả sử rằng dữ liệu được xác
định chỉ bằng một thuộc tính là thời gian đăng nhập. Một đăng nhập vào hệ thống
tại một thời điểm khác với thời gian đăng nhập bình thường hàng ngày của người đó
sẽ là một sự bất thường điểm.


7

Bất thường bối cảnh:
Bất thường bối cảnh được xác định dựa trên một bối cảnh cụ thể (còn gọi là bất
thường có điều kiện). Khái niệm bối cảnh ở đây được xác định từ cấu trúc, hình thái
của dữ liệu đang xem xét. Cần lưu ý rằng, một điểm là bất thường trong bối cảnh
này nhưng có thể hồn tồn là bình thường trong bối cảnh khác. Bất thường bối
cảnh thường được nghiên cứu, khám phá trong các ứng dụng liên tới các dữ liệu
biến đổi theo thời gian. Các khái niệm về một bối cảnh được tạo ra bởi các cấu trúc
trong tập dữ liệu và phải được quy định như một phần của việc xây dựng vấn đề.
Mỗi trường hợp dữ liệu được xác định bằng cách sử dụng bởi hai bộ thuộc tính:
- Thuộc tính ngữ cảnh: Các thuộc tính theo ngữ cảnh được sử dụng để xác
định bối cảnh (hoặc vùng lân cận) của một thể hiện. Ví dụ, trong bộ dữ liệu
khơng gian(kinh độ và vĩ độ) của một vị trí là các thuộc tính ngữ cảnh. Trong
dữ liệu chuỗi thời gian, thời gian là một thuộc tính ngữ cảnh mà xác định vị trí
của một thể hiện trên tồn bộ chuỗi.
- Thuộc tính hành vi: Các thuộc tính hành vi xác định các đặc điểm phi ngữ
cảnh của một thể hiện. Ví dụ, trong một tập dữ liệu không gian mô tả lượng
mưa trung bình của tồn thế giới, thì lượng mưa ở bất kỳ vị trí nào sẽ là một

thuộc tính hành vi.

Nhiệt độ

Các hành vi bất thường được xác định bằng cách sử dụng các giá trị cho các thuộc
tính của các hành vi trong một bối cảnh cụ thể. Một thể hiện dữ liệu có thể là một
sự bất thường theo ngữ cảnh trong một bối cảnh nhất định, nhưng một thể hiện dữ
liệu giống hệt nhau (về mặt thuộc tính hành vi) có thể được xem là bình thường
trong một bối cảnh khác. Tính chất này là chìa khóa trong việc xác định các thuộc
tính ngữ cảnh và hành vi trong kỹ thuật phát hiện bất thường theo ngữ cảnh.

3

Thời gian (tháng)

Hình 1.2. Ví dụ về bất thường bối cảnh.

6


8
Hình 1.2 mơ tả biểu đồ nhiệt độ của các tháng trong ba năm liên tiếp. Ta nhận thấy
rằng, thời điểm t2 được coi là một bất thường bối cảnh trong một chuỗi về nhiệt độ
theo thời gian, trong khi đó nhiệt độ lúc t1 giống như lúc t2 nhưng xảy ra trong một
bối cảnh khác nhưng lại không được coi là một sự bất thường.
Một ví dụ cụ thể trong thực tế có thể được tìm thấy trong việc phát hiện gian lận thẻ
tín dụng. Một thuộc tính ngữ cảnh trong việc sử dụng của thẻ tín dụng có thể là thời
điểm mua. Giả sử một cá nhân thường có một hóa đơn mua sắm hàng tuần là một
triệu đồng trừ thời điểm trong tuần trước tết Âm lịch, có khi nó đạt đến 10 triệu
đồng. Nhưng một lần mua mới 10 triệu đồng trong một tuần vào tháng Bảy sẽ được

coi là một sự bất thường theo ngữ cảnh, vì nó khơng phù hợp với các hành vi bình
thường của cá nhân trong bối cảnh thời gian (mặc dù cùng một lượng chi tiêu trong
tuần trước tết Âm lịch sẽ được xem là bình thường). Việc lựa chọn của việc áp dụng
một kỹ thuật phát hiện bất thường theo ngữ cảnh được xác định bởi ý nghĩa của các
bất thường theo ngữ cảnh trong lĩnh vực ứng dụng đích.

Bất thường tập hợp:
Loại bất thường thứ ba là bất thường tập hợp. Nếu một tập dữ liệu có những đặc
trưng khác so với các tập hợp dữ liệu còn lại thì tập hợp ấy được coi là bất thường.
Hình 1.3 mô tả dữ liệu lưu lượng dữ liệu trên một hệ thống.
Ta có thể thấy, lưu lượng trên hệ thống trong khoảng thời gian từ mẫu thứ 250 đến
300 khác với các thời điểm còn lại, mặc dù những mẫu dữ liệu là khá tương đồng
nhau trong khoảng thời gian này, những thời điểm này được coi là bất thường tập
hợp.

Hình 1.3. Ví dụ về bất thường tập hợp về lưu lượng trên hệ thống.


9

1.1.2 Các phương pháp phát hiện bất thường phổ biến
Có nhiều phương pháp phát hiện bất thường đã được đề xuất. Ta có thể phân thành
các nhóm chính như sau: nhóm phương pháp dựa trên kỹ thuật phân lớp [11, 8],
nhóm phương pháp dựa trên kỹ thuật phân cụm [12], nhóm phương pháp dựa trên
kỹ thuật phân tích phổ, phương pháp dựa trên kỹ thuật thống kê và một số nhóm
phương pháp khác [1].
Nhóm phương pháp phân lớp lấy ý tưởng từ thực tế rằng ta có thể phân tách tập dữ
liệu thành hai lớp “bình thường” và “bất thường” thơng qua việc xây dựng một mơ
hình phân loại trên phần dữ liệu được huấn luyện trước. Bài toán phân lớp này là
quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ

một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu được
xây dựng trước đó có gán nhãn (hay cịn gọi là tập huấn luyện). Quá trình phân lớp
là quá trình gán nhãn cho đối tượng dữ liệu. Như vậy, nhiệm vụ của bài toán phân
lớp là cần tìm một mơ hình phân lớp để khi có dữ liệu mới thì có thể xác định được
dữ liệu đó thuộc vào phân lớp nào. Có nhiều bài toán phân lớp dữ liệu như phân lớp
nhị phân, phân lớp đa lớp, phân lớp đa trị. Bài toán phân lớp nhị phân là bài toán
gắn nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa vào việc dữ
liệu đó có hay khơng có các đặc trưng của bộ phân lớp. Bài toán phân lớp đa lớp là
quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai. Như vậy với từng dữ liệu
chúng ta phải xem xét và phân lớp chúng vào những lớp khác nhau chứ không phải
là hai lớp như bài toán phân lớp nhị phân. Và thực chất bài toán phân lớp nhị phân
là một bài toán đặt biệt của phân lớp đa lớp. Ứng dụng của bài toán này được sử
dụng rất nhiều và rộng rãi trong thực tế ví dụ như bài tốn nhận dạng khn mặt,
nhận diện giọng nói, phát hiện thư rác như Hình 1.4. Như trong Hình 1.4, một Email
khi đi qua hệ thống phân loại, nó sẽ được xác định là thư rác hay khơng.

Classifier

Spam

Hình 1.4. Ví dụ bài tốn phân lớp phát hiện thư rác.

Và đối với các bài toán phân lớp dữ liệu có thể sử dụng các thuật tốn học máy có giám
sát (Supervised Learning) để xây dựng mơ hình cho bài toán này như SVM [11], Mạng
nơ-ron nhân tạo (Neural Network) [9], Cây quyết định (Decision Tree) [2]. Ưu điểm
của nhóm phương pháp này là các thuật tốn có thể xử lý được những dữ liệu đa lớp
với khả năng chính xác cao, cũng như thời gian phát hiện bất thường nhanh. Tuy nhiên,
nhóm phương pháp này vẫn cịn đối mặt với một số hạn chế sau như các



10
thuật toán thường ràng buộc dữ liệu phải cho biết trước nhãn cho những mẫu “bình
thường” trong quá trình huấn luyện mơ hình.
Tiếp theo đến nhóm phương pháp phát hiện bất thường thứ hai là dựa trên các kỹ
thuật phân cụm. Tượng tự như nhóm phương pháp đầu, nhóm phương pháp này dựa
trên giả thiết rằng (i) những dữ liệu “bình thường” thuộc vào một cụm dữ liệu, trong
khi những dữ liệu “bất thường” không thuộc hoặc thuộc một cụm dữ liệu khác (ii)
hay như những dữ liệu bình thường thuộc về những cụm dữ liệu lớn, dày, đồng thời
các điểm bất thường sẽ thuộc về các cụm thưa. Nhóm phương pháp này có những
ưu điểm sau đây: (i) thường được áp dụng trong những bài tốn học khơng giám sát
khi mà dữ liệu chưa có thơng tin gán nhãn, (ii) có thể xử lý được những dữ liệu
phức tạp. Tuy vậy, các phương pháp này phụ thuộc nhiều vào sự hiệu quả của loại
thuật toán phân cụm, đồng thời độ phức tạp thuật toán tương đối cao. Thuật toán
được sử dụng có thể kể đến như K-Means Clustering [5], phân cụm theo thứ bậc
Hierarchical Clustering [7], phân cụm theo xác suất Probabilistic Clustering [3].
Nhóm thứ ba liên quan tới việc phân tích phổ của dữ liệu. Các phương pháp trong
nhóm này lấy ý tưởng từ thực tế rằng khi dữ liệu được nhúng trên một khơng gian
con có số chiều nhỏ hơn so với không gian dữ liệu gốc, thì những mẫu dữ liệu “bình
thường” và bất thường có thể phát hiện dễ dàng dựa trên sự khác nhau của chúng.
Lợi thế của nhóm phương pháp này là có khả năng phát hiện được bất thường trong
các loại dữ liệu có số chiều lớn và tương tự như nhóm thứ hai, các phương pháp
trong nhóm này thường được áp dụng trong các bài tốn học khơng giám sát. Mặc
dù vậy, độ phức tạp tính tốn của nhóm phương này tương đối cao.
Nhóm phương pháp phát hiện bất thường tiếp theo là dựa trên kỹ thuật thống kê.
Phương pháp này dựa trên giả định chính rằng các trường hợp dữ liệu bình thường xảy
ra ở các vùng có xác suất cao của mơ hình ngẫu nhiên, trong khi các trường hợp bất
thường xảy ra ở các vùng có xác suất thấp của mơ hình ngẫu nhiên [1]. Các hệ thống
dựa trên kỹ thuật này hoạt động trên nguyên tắc giám sát các hoạt động của đối tượng
và từ đó sinh ra các hồ sơ biểu diễn hành vi của chúng. Đối với mỗi đối tượng, hệ thống
ln duy trì hai loại hồ sơ hành vi hoạt động hiện tại và hồ sơ lưu trữ. Và như vậy, cứ

mỗi hành vi diễn ra, hệ thống cập nhật hồ sơ hiện tại và thực hiện tính tốn điểm bất
thường của hành vi đó. Sau đó đánh giá bằng cách so sánh hồ sơ hiện tại và hồ sơ được
lưu trữ. Nếu điểm số bất thường vượt một ngưỡng nhất định thì hệ thống sẽ đưa ra cảnh
báo. Ưu điểm của phương pháp dựa trên kỹ thuật thống kê là tính tốn nhanh, khơng
phức tạp về thuật tốn, tuy nhiên nhược điểm của phương pháp này là khó xác định
ngưỡng cảnh báo. Bên cạnh đó việc xác định phân bố thống kê phù hợp với các hành vi
cũng là một thách thức vì không thể sử dụng phương pháp thống kê để mô hình hóa
mọi hành vi. Với bài tốn thực tế về phát hiện đăng nhập


11
bất thường đặt ra, luận văn này tập trung sử dụng phương pháp dựa trên kỹ thuật
thống kê để phát hiện bất thường.

1.1.3 Các thách thức trong phát hiện bất thường
Ở mức độ tóm lược, sự bất thường được định nghĩa là một mẫu khơng phù hợp với
hành vi bình thường như dự kiến (kì vọng). Do đó, một cách tiếp cận phát hiện bất
thường đơn giản là xác định vùng biểu thị hành vi bình thường và chỉ ra bất kì mẫu
dữ liệu khơng thuộc vùng bình thường này là bất thường. Nhưng một số yếu tố làm
cho cách tiếp cận rõ ràng đơn giản này rất khó khăn.
Yếu tố đầu tiên như định nghĩa một khu vực bình thường trong đó bao gồm tất cả
các hành vi bình thường có thể là rất khó khăn. Bên cạnh đó, ranh giới giữa hành vi
bình thường và bất thường thường là khơng chính xác. Như vậy một quan sát bất
thường nằm gần ranh giới thực sự có thể là bình thường, và ngược lại.
Yếu tố thứ hai là khi bất thường là kết quả của các hành động nguy hiểm (có hại),
các đối tượng tác động nguy hiểm thường thích ứng bản thân để làm cho các quan
sát bất thường xuất hiện như bình thường, do đó làm cho cơng việc xác định hành vi
bình thường khó khăn hơn. Ba là trong nhiều lĩnh vực, hành vi bình thường tiếp tục
phát triển và một quan niệm hiện tại về hành vi bình thường có thể khơng đủ đại
diện trong tương lai.

Tiếp theo yếu tố thứ tư là khái niệm chính xác về sự bất thường là khác nhau đối với
các miền ứng dụng khác nhau. Ví dụ, trong lĩnh vực y tế, độ lệch nhỏ so với bình
thường (ví dụ: biến động nhiệt độ cơ thể) có thể là một sự bất thường, trong khi độ
lệch tương tự trong miền thị trường chứng khốn (ví dụ: biến động giá trị của cổ
phiếu) có thể được coi là bình thường. Do đó, việc áp dụng một kỹ thuật được phát
triển trong một lĩnh vực này sang một lĩnh vực khác không đơn giản. Yếu tố thứ
năm là sự sẵn có của dữ liệu được dán nhãn để đào tạo/xác nhận các mơ hình được
sử dụng bởi các kỹ thuật phát hiện bất thường thường là một vấn đề lớn. Và yếu tố
thứ sáu là thơng thường dữ liệu chứa nhiễu có xu hướng tương tự như bất thường
trong thực tế và do đó rất khó phân biệt và loại bỏ.
Do những thách thức trên, vấn đề phát hiện bất thường, ở dạng chung nhất của nó,
khơng dễ giải quyết. Trong thực tế, hầu hết các kỹ thuật phát hiện bất thường hiện có
giải quyết một cơng thức cụ thể của vấn đề. Công thức được xây dựng ra bởi các yếu tố
khác nhau như bản chất của dữ liệu, tính khả dụng của dữ liệu được dán nhãn, loại dị
thường được phát hiện, v.v. Thông thường, các yếu tố này được xác định bởi miền ứng
dụng cần phát hiện dị thường. Các nhà nghiên cứu đã áp dụng các khái niệm từ các
ngành khác nhau như thống kê, học máy, khai thác dữ liệu, lý thuyết thông tin, lý
thuyết quang phổ và đã áp dụng chúng vào các công thức vấn đề cụ thể.


12
Như vậy, có nhiều cách (giải pháp, phương pháp) để chúng ta xử lý và phân tích dữ
liệu để phát hiện bất thường, xây dựng một hệ thống phân lớn. chúng ta cần một
phép đánh giá để xem mơ hình sử dụng có hiệu quả khơng và để so sánh khả năng
của các mơ hình. Tuy nhiên, để chúng ta có thể đánh giá được sự khác nhau giữa
các giải pháp chúng ta cần đo lường để so sánh và giúp tối ưu các giải pháp. Nội
dung tiếp theo, tôi sẽ giới thiệu các phương pháp đánh giá các mô hình phân lớp.
Hiệu năng của một mơ hình thường được đánh giá dựa trên tập dữ liệu kiểm thử.

1.2 Các phương pháp đánh giá một hệ thống phân lớp dữ liệu

Để hỗ trợ đánh giá một hệ thống phân lớp, có các khái niệm chung thường được áp
dụng cho bài tốn phân lớp có hai lớp dữ liệu mà chúng ta đang quan tâm (bất
thường/bình thường) như sau.

1.2.1 True/False Positive/Negative
Cách đánh giá này thường được áp dụng cho các bài tốn phân lớp có hai lớp dữ
liệu. Cụ thể hơn, trong hai lớp dữ liệu này có một lớp nghiêm trọng hơn lớp kia và
cần được dự đốn chính xác. Ví dụ, trong bài tốn xác định có bệnh ung thư hay
khơng thì việc khơng bị sót quan trọng hơn là việc chẩn đốn nhầm âm tính thành
dương tính. Trong bài tốn xác định có mìn dưới lịng đất hay khơng thì việc bỏ sót
nghiêm trọng hơn việc báo động nhầm rất nhiều. Hay trong bài tốn lọc email rác
thì việc cho nhầm email quan trọng vào thùng rác nghiêm trọng hơn việc xác định
một email rác là email thường.
Trong những bài toán này thường định nghĩa lớp dữ liệu quan trọng hơn cần được
xác định đúng là lớp Positive (P-dương tính), lớp cịn lại được gọi là Negative (Nâm tính). Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN),
False Negative (FN) dựa trong Ma trận nhầm lẫn như Bảng 1.1. Trong Bảng 1.1 mô
tả cụ thể các trường hợp dựa trên kết quả dự đoán với thực tế.
Bảng 1.1. Ma trận nhầm lẫn

Thực tế: Positive
Thực tế: Negative


13
Và người ta thường quan tâm đến False Positive Rate (TPR), False Negative Rate
(FNR), False Positive Rate (FPR) và True Negative Rate (TNR) dựa trên Ma trận
nhầm lẫn chuẩn hóa (normalized confusion matrix) như Bảng 1.2. Trong Bảng 1.2
đưa ra cơng thức tính các tỉ lệ TPR, FNR, FPR, TNR.
Bảng 1.2. Ma trận nhầm lẫn chuẩn hóa


Thực tế: Positive
Thực tế: Negative
False Positive Rate (FPR) còn được gọi là False Alarm Rate (tỉ lệ báo động nhầm),
False Negative Rate (FNR) còn được gọi là Miss Detection Rate (tỉ lệ bỏ sót). Trong
bài tốn dị mìn, thà báo nhầm cịn hơn bỏ sót, tức là ta có thể chấp nhận False
Alarm Rate cao để đạt được Miss Detection Rate thấp.
Căn cứ mục đích xây dưng bài tốn phân lớp dữ liệu, ta có các chú ý như sau:
- Với các bài tốn có nhiều lớp dữ liệu, ta có thể xây dựng bảng True/False
Positive/Negative cho mỗi lớp nếu coi lớp đó là lớp Positive, các lớp còn lại
gộp chung thành lớp Negative
- Trong một số bài toán, việc tăng hay giảm FNR, FPR có thể được thực hiện
bằng việc thay đổi một ngưỡng (Threshold) nào đó. Trong phần tiếp theo, ta đi
tiếp các khái niệm.

1.2.2 Độ chính xác và độ hồi tưởng
Với bài toán phân loại mà tập dữ liệu của các lớp chênh lệch nhau rất nhiều, có một
phép đó hiệu quả thường được sử dụng là độ chính xác (Precision) và độ hồi tưởng
(Recall). Để làm rõ hơn, trước hết xét bài toán phân loại nhị phân và coi một trong
hai lớp là Positive, lớp còn lại là Negative. Trong Hình 1.4 mơ tả trực quan hơn về
các khái niệm cũng như các cơng thức tính độ chính xác và độ hồi tưởng.


14

Hình 1.4. Cách tính độ chính xác và độ hồi tưởng.

Với một cách xác định một lớp là Positive, Precision được định nghĩa là tỉ lệ số
điểm True Positive trong số những điểm được phân loại là Positive (TP + FP).
Recall được định nghĩa là tỉ lệ số điểm True Positive trong số những điểm thực sự là
Positive (TP + FN). Độ chính xác và hồi tưởng được định nghĩa theo các Cơng thức

2.1, 2.2 tương ứng.
=
=

+
+

(2.1)
(2.2)

Có thể nhận thấy rằng TPR và Recall là hai đại lượng bằng nhau. Ngồi ra, cả
Precision và Recall đều là các số khơng âm nhỏ hơn hoặc bằng một. Precision cao
đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. Recall cao đồng
nghĩa với việc True Positive Rate (TPR) cao, tức tỉ lệ bỏ sót các điểm thực sự
positive là thấp.
Khi Precision = 1, mọi điểm tìm được đều thực sự là Positive, tức khơng có điểm
Negative nào lẫn vào kết quả. Tuy nhiên, Precision = 1 không đảm bảo mơ hình là
tốt, vì câu hỏi đặt ra là liệu mơ hình đã tìm được tất cả các điểm Positive hay chưa.


15
Nếu một mơ hình chỉ tìm được đúng một điểm Positive mà nó chắc chắn nhất thì ta
khơng thể gọi nó là một mơ hình tốt.
Khi Recall = 1, mọi điểm Positive đều được tìm thấy. Tuy nhiên, đại lượng này lại
khơng đo liệu có bao nhiêu điểm Pegative bị lẫn trong đó. Nếu mơ hình phân loại
mọi điểm là Positive thì chắc chắn Recall = 1, tuy nhiên dễ nhận ra đây là một mơ
hình cực tồi. Một mơ hình phân lớp tốt là mơ hình có cả Precision và Recall đều
cao, tức càng gần một càng tốt.

1.2.3 Tóm tắt

-

-

-

-

-

True Positive (TP): số lượng điểm của lớp Positive được phân loại đúng là
Positive
True Negative (TN): số lượng điểm của lớp Negative được phân loại đúng là
Negative
False Positive (FP): số lượng điểm của lớp Negative bị phân loại nhầm thành
Positive
False Negative (FN): số lượng điểm của lớp Positive bị phân loại nhầm thành
Negative
True Positive Rate (TPR), False Negative Rate (FNR), False Positive Rate
(FPR), True Negative Rate (TNR).

Nội dung tiếp theo luận văn sẽ giới thiệu về việc phát hiện bất thường về hành vi
của người dùng dựa trên các dữ liệu ghi nhận hệ thống thông tin nhằm phát hiện,
cảnh báo liên quan đến việc đảm bảo an tồn thơng tin.


16

Chương 2: Mơ hình phát hiện hành vi đăng nhập
hệ thống bất thường

Chương 1 đã giới thiệu các khái niệm và phương pháp xác định bất thường cũng
như phương pháp đánh giá hệ thống phân lớp. Trong chương này, luận văn sẽ giới
thiệu mơ hình và bài tốn cụ thể áp dụng thực tế về phát hiện hành vi đăng nhập bất
thường trên hệ thống.

2.1 Giới thiệu đề tài phát hiện bất thường trên hệ thống
Xuất phát từ yêu cầu thực tế về việc cần giám sát và phát hiện những hành vi đăng
nhập bất thường trên hệ thống thông tin, luận văn đề xuất xây dựng một giải pháp
với mơ hình phân tích các dữ liệu về hành vi người dùng trên hệ thống. Các hành vi
tương tác của người dùng trên hệ thống được phân tích dựa trên các thông tin log
các sự kiện như thời điểm đăng nhập, số lần đăng nhập thành công, thất bại vào hệ
thống, địa chỉ IP client sử dụng, địa chỉ IP hệ thống, thông tin yêu cầu về tác động,
dữ liệu được truy xuất, nội dung thay đổi.v.v.từ đó thực hiện phân tích, đánh giá
nhằm phát hiện các hành vi bất thường. Giải pháp giúp cảnh báo kịp thời cho bộ
máy giám sát an tồn thơng tin những bất thường về việc đăng nhập vào hệ thống
nhằm hỗ trợ công tác đảm bảo an tồn thơng tin, đặc biệt kiểm sốt tốt với việc
đăng nhập vào những hệ thống chứa dữ liệu quan trọng của đơn vị. Với mục tiêu đề
ra, luận văn hướng tới việc mơ tả bài tốn, cơ sở lý thuyết, xây dựng mơ hình, cơng
cụ thu thập và phân tích các mẫu thu thập được từ hành vi người dùng nhằm phát
hiện, cảnh báo các hành vi bất thường trong việc đăng nhập hệ thống.
Trong phần tiếp theo, luận văn sẽ giới thiệu tiếp về việc xây dựng hệ thống phân
tích và phát hiện bất thường trên hệ thống và tập trung vào phân tích các bất thường
đăng nhập.

2.2 Mơ tả bài tốn bất thường đăng nhập
Trong phần 2.1 đã giới thiệu tổng quan về việc phát hiện bất thường trên hệ thống.
Trong phần này, luận văn sẽ mơ tả chi tiết về bài tốn bất thường đăng nhập hệ thống,
một trong những bài toàn mà tại đơn vị rất quan tâm. Việc đăng nhập vào hệ thống là
hành vi của cả người dùng thông thường cũng như cuộc kẻ tấn công để truy xuất vào hệ
thống. Một kẻ tấn công lấy được tài khoản người dùng thuộc tổ chức thơng qua nhiều

hình thức và một trong những hình thức phổ biến như tấn cơng dị qt mật khẩu vào
các tài khoản public như Email, VPN hoặc thực hiện khai thác lỗ hổng, xâm nhập được
vào hệ thống và lấy được cơ sở dữ liệu về tài khoản người dùng. Sau khi có được tài
khoản người dùng, kẻ tấn công thực hiện các hành vi đăng nhập trái phép vào hệ thống
và có thể thực hiện các tác động trái phép như truy xuất thông tin mật, để đánh cắp dữ
liệu, làm tê liệt hệ thống thông tin. Tuy nhiên do không nắm được


17
thói quen người dùng nên hành vi đăng nhập của kẻ tấn cơng có các thuộc tính khác
với hồ sơ đăng nhập (profile) của người dùng. Với bài toán nghiệp vụ tại VTNet,
các hành vi đăng nhập hệ thống được đánh giá là bất thường khi phát hiện địa chỉ IP,
dải địa chỉ IP thực hiện đăng nhập, thời điểm đăng nhập, địa điểm đăng nhập vào hệ
thống khác với hành vi thường thấy đã được ghi nhận trên hệ thống trong thời gian
nhất định, thường được xét trong vòng 60 ngày. Các thông tin thu thập được trên hệ
thống giúp nhận diện và phát hiện các bất thường này để cảnh báo cho lực lượng
phụ trách đảm bảo an tồn thơng tin. Các thơng tin để phân tích bao gồm:
Địa chỉ IP, dải địa chỉ IP của người dùng khi thực hiện đăng nhập hệ thống.
Sẽ phát hiện bất thường nếu thực hiện đăng nhập từ máy tính khơng phải
máy tính làm việc thường xuyên của người dùng.
-

-

-

-

Quốc gia, số hiệu mạng (ASN), nhà cung cấp dịch vụ Internet (ISP) của
người dùng khi đăng nhập hệ thống. Từ địa chỉ IP thực hiện đăng nhập, thông

tin sẽ được làm giầu để củng cố thêm cho việc phân tích dữ liệu như thông
tin quốc gia, số hiệu mạng và tên nhà cung cấp dịch vụ Internet nhằm xác
định vị trí truy cập để đánh giá một hành vi bất thường như khi kẻ tấn công
váo hệ thống thực hiện đăng nhập từ xa khơng phải từ vị trí làm việc hàng
ngày của người dùng.
Loại đăng nhập, môi trường đăng nhập: sự khác nhau về môi trường đăng
nhập hệ thống, người dùng thường dùng giao diện đăng nhập, kẻ tấn công
thường đăng nhập qua cửa sổ lệnh hoặc qua truy cập từ xa.
Thời điểm đăng nhập: xác định thời điểm của của hành vi đăng nhập, từ đó
đánh giá được giờ có hành vi đăng nhập trong ngày và các ngày trong tuần.

Từ các thông tin thu thập trên hệ thống, xây dựng cơng cụ thực hiện tính tốn, phân
tích, cảnh báo các bất thường về đăng nhập vào hệ thống. Ví dụ như xác định bất
thường đăng nhập từ địa chỉ IP khác lại không phải địa chỉ IP của máy tính người
dùng hàng ngày. Từ đó, hệ thống sẽ cảnh báo để bộ phận phụ trách an tồn thơng tin
sẽ thực hiện tiến hành kiểm tra và xử lý, hỗ trợ cho cơng tác đảm bảo an tồn thơng
tin tại đơn vị. Trong nội dung tiếp theo, luận văn sẽ giới thiệu cách tiếp cập và đề
xuất việc xây dựng hệ thống phát hiện bất thường.

2.3

Giới thiệu mơ hình hệ thống phát hiện bất thường

Hệ thống phát hiện bất thường thực hiện phân tích các dữ liệu liệu log về các sự kiện
xảy ra trên hệ thống công nghệ và phân tích chúng để tìm ra các dấu hiệu bất thường
dựa trên việc phân tích các hành vi của đối tượng và đưa ra cảnh báo. Hệ thống này
được gọi là khai phá dữ liệu an tồn thơng tin (Security Data Mining). Và nó là một
thành phần trong hệ thống giám sát an tồn thơng tin của VTNet đã được xây dựng.
Hình 2.1 mơ tả mơ hình tổng quan hệ thống quản lý, giám sát an tồn thơng tin tại



18
VTNet. Như trong Hình 2.1, tổng quan hệ thống giám sát an tồn thơng tin có nhiều
các thành phần hệ thống liên kết với nhau tạo thành một hệ sinh thái phục vụ cho
công tác giám sát, đảm bảo an tồn thơng tin tại đơn vị. Hệ thống tổng thể này có ba
lớp được mơ tả cụ thể dưới đây.
Lớp dưới cùng là lớp thu thập và cung cấp các thơng tin dữ liệu đầu vào cho tồn bộ
hệ thống, nó bao gồm các thành phần như sau:
Endpoint cài đặt trên các máy chủ, máy trạm nhằm thu thập đầy đủ các
thông tin hồ sơ của chúng. Và thành phần này cũng hỗ trợ khả năng điều tra
sâu, cách ly và khôi phục các máy chủ, máy trạm này khi cần thiết.
-

Network Security Monitoring (NSM) hỗ trợ thu thập lấy log truy cập, giám
sát các kết nối giữa các node mạng.
-

-

-

Gateway Security Monitoring (GSM) hỗ trợ thu thập log và kiểm soát kết nối
của ngõ (Gateway) vào vùng cần bảo vệ.
Các sản phẩm, giải pháp của hãng thứ 3 như hệ thống quản lý máy tính tập
trung (AD), hệ thống quản lý tên miền (DNS), hệ thống phòng chống virus
máy tính (AV), hệ thống tường lửa (Firewall) v.v. có kết nối và cung cấp
thông tin log lên các hệ thống tập trung ATTT phía trên.

Lớp tiếp theo, ở giữa, đó là các thành phần xử lý tập trung dữ liệu từ lớp phía dưới
cung cấp lên. Lớp này có các thành phần như sau:

SIEM (Security Information and Event Management) là hệ thống quản lý và
phân tích sự kiện an tồn thơng tin. Và nó là thành phần quan trọng trong các hệ
thống giám sát ATTT chung. Nó thu thập đầy đủ log của toàn bộ hệ thống, lưu
trữ và xử lý dữ liệu ATTT tập trung. Dữ liệu thu thập về sẽ được hệ thống sắp
xếp, chuẩn hoá và phân loại lại theo một định dạng chung, tối ưu hoá cho việc
phân tích và điều tra xử lý sự cố. Đồng thời dữ liệu cũng được lọc bớt các thành
phần dư thừa. Hệ thống SIEM cho phép phân tích tập trung và báo cáo về các sự
kiện an ninh mạng của tổ chức, phát hiện thông qua các bộ luật tương quan
(correlation rule), giúp phát hiện các cuộc tấn công mà không thể phát hiện
được bởi các giải pháp thông thường, đảm bảo cho người vận hành có thể điều
tra và nhận diện nhanh chóng các vi phạm, tấn cơng đang xảy ra trong hệ thống,
từ đó đưa ra các quyết định hiệu quả và kịp thời.
-

Advanced Malware Analysis (AMA) là hệ thống phân tích mã độc tự động, đa
lớp, hỗ trợ phân tích hầu hết các loại tệp nhằm phát hiện mã độc, mã khai thác
đặc biệt là các loại mã độc trong các cuộc tấn cơng có chủ đích APT. Hệ thống
nhận yêu cầu quét tệp từ các hệ thống khác, phân tích, đưa ra kết quả là độc hay
sạch. Hệ thống AMA sử dụng nhiều phương pháp phân tích với các tính năng và
cơng nghệ vượt trội: Hypervisor, Static Analysis, Dynamic Analysis,
-


×