Tải bản đầy đủ (.pptx) (15 trang)

Nghiên cứu thuật toán máy học ứng dụng trong phát hiện bất thường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.29 MB, 15 trang )

HUFI
ĐẠI HỌC CÔNG NGHIỆP
THỰC PHẨM

KHOA CÔNG
NGHỆ THÔNG
TIN


ĐỒ ÁN: Nghiên cứu các thuật
toán máy học ứng dụng trong
phát hiện bất thường

GVDH:TRẦẦ
N Đ ẮẮ
C TỐẮT
SVTH:Nguyễễ
n ThịThu Hà

m ssv:2033180113

Đ inh Trương Thanh TuyễẦ
n m ssv2033180137

Jens M artensson

2


Insert or D rag and D rop your Im age


I. TỔNG QUAN
II. PHÁT HIỆN VÀ CHUẨN ĐOÁN BẤT THƯỜNG TỪ NHẬT KÝ HỆ
THỐNG(DEEPLOG)
III. THỰC NGHIỆM VÀ KẾT QUẢ

Jens M artensson

3


TỔNG QUAN


PHÁT HIỆN BẤT THƯỜNG

• HỆ THỐNG NHẬT KÝ
• MACHINE LEARNING
• DEEP LEARNING
• MỘT SỐ VÍ DỤ

Jens M artensson

4


Insert or D rag and D rop your Im age

PHÁT HIỆN BẤT THƯỜNG
• ĐỊNH NGHĨA:
• Phát hiện bất thường là hoạt động theo dõi, phân tích và giám

sát qt tồn bộ hệ thống để phát hiện các mối đe dọa như: sự
gia tăng đột ngột lượng truy cập hơn mức bình thường hoặc so
với phạm vi dữ liệu trong quá khứ.

• CHỨC NĂNG
• Theo dõi các nguồn dữ liệu như thiết bị, nhật kí, máy chủ,
mạng
• Dự đốn và xác định các mối đe dọa
• Theo dõi và báo cáo các hành vi bất thường trên các nguồn
khơng thuộc radar
• Khai thác người dùng lừa đảo
• Phân tích thơng tin máy chủ, người dung…

Jens M artensson

5


HỆ THỐNG NHẬT KÝ
• ĐỊNH NGHĨA
• Hệ thống nhật ký (logs) là nơi ghi lại tất cả các hoạt động,
trạng thái và các sự kiện của hệ thống.

• CHỨC NĂNG
• Hệ thống nhật kí giải quyết vấn đề về lỗi của hiệu suất, những
mối đe dọa đến an toàn hệ thống, phân tích nguyên nhân gốc
rễ và cảnh báo đến người quản trị hệ thống

• PHÁT HIỆN BẤT THƯỜNG VỚI HỆ THỐNG NHẬT KÝ
• Việc sử dụng hệ thống nhật ký trong phát hiện bất thường

đang rất được quan tâm…
• Các phương pháp có thể được chia thành 3 loại:


dựa trên PCA tiếp cận qua bộ đếm thông báo nhật ký.



dựa trên khai thác bất biến các phương pháp để nắm bắt các mẫu
đồng xuất hiện giữa các nhật ký khác nhau các khóa.



các phương pháp dựa trên quy trình làm việc để xác định các dị
thường thực thi trong các luồng logic chương trình

Jens M artensson

6


MACHINE LEARNING

• ĐỊNH NGHĨA
• Máy học là 1 nhánh của trí tuệ nhân tạo và khoa học máy tính
sử dụng dữ liệu và thuật toán để bắt chước cách con người học,
dần dần cải thiện độ chính xác của nó.

• CHỨC NĂNG
• Học máy là một thành phần quan trọng của lĩnh vực khoa học

dữ liệu đang phát triển. Thông qua việc sử dụng các phương
pháp thống kê, các thuật toán được đào tạo để đưa ra phân
loại hoặc dự đoán, khám phá những hiểu biết quan trọng trong
các dự án khai thác dữ liệu. Những thông tin chi tiết này sau đó
thúc đẩy việc đưa ra quyết định trong các ứng dụng và doanh
nghiệp, tác động lý tưởng đến các chỉ số tăng trưởng chính.

• PHÂN LOẠI
• Phương pháp có giám sát
• Phương pháp khơng giám sát

Jens M artensson

7


D EEP LEARN IN G

• ĐỊNH NGHĨA
• Là một nhánh của máy học, liên quan đến cấu trúc và chức
năng của não bộ. Sự kết nối của nhiều tế bào thần kinh tạo nên
Deep Learning.

• ỨNG DỤNG
• Nhận diện giọng nói, hình ảnh, âm thanh, phân tích hình ảnh y
tế,….

Jens M artensson

8



MỘT SỐ VÍ DỤ
• K-Means Clustering
• Là phương pháp gom cụm nổi tiếng

• K-Nearest-Neighbors (K-NN)
• Lưu mỗi mẫu dữ liệu của tập huấn luyện như là một điểm trong
không gian đặc tính
• Phân lớp một mẫu mới bằng cách đưa vào phân lớp có các
phần tử láng giềng gần nhất (nearest neighbor) trong khơng
gian đặc tính

• Support Vector Machines (SVM)


SVM được dùng cho bài tốn nhị phân.

• Xét trên quy mô SVM đã giải quyết được nhiều vấn đề lớn như
hiển thị quảng cáo, phát hiện ra giới tính bằng hình ảnh, phân
loại hình ảnh có phạm vi rộng (cần sửa đổi SVM cho phù hợp).

Jens M artensson

9


PHÁT HIỆN VÀ CHUẨN ĐOÁN BẤT
THƯỜNG TỪ NHẬT KÝ HỆ THỐNG
(DEEPLOG)

• Khái quát

• Logparser
• Kiến trúc deeplog

1

2

3

4

5

6

• Theat model
• Phát hiện bất thường (Anomaly detection)


Execution path anomaly



Giá trị tham số và sự bất thường về hiệu suất



Cập nhật trực tuyến các mơ hình phát hiện bất thường


• Workflow Construction from Multi-task Execution
• Tách mục nhật ký khỏi nhiều tác vụ
• Sử dụng mơ hình phát hiện bất thường của deeplog
• Sử dụng phương pháp phân nhóm dựa trên mật độ
• Sử dụng mơ hình quy trình làm việc

Jens M artensson

10


KHÁI QT
• logparser

• Phân tích cú pháp các mục nhập nhật ký văn bản tự do, khơng
có cấu trúc thành dạng có cấu trúc =>mơ hình tuần tự trên dữ
liệu có cấu trúc.
• Phân tích nhật ký đã loại bỏ số lần xáo trộn hoặc giá trị tham
số trong mục nhập nhật ký và chỉ sử dụng các khóa nhật ký để
phát hiện những điểm bất thườngTheat model.

1

2

3

4


5

6

• Kiến trúc deeplog
• ba thành phần chính: mơ hình phát hiện bất thường khóa log,
mơ hình phát hiện bất thường giá trị tham số và mơ hình quy
trình làm việc để chẩn đốn các bất thường được phát hiện.

• Theat model
• Các lỗi dẫn đến hành vi thực thi sai của hệ thống và do đó các

Jens M artensson

11


PHÁT HIỆN BẤT THƯỜNG(Anomaly dectetion)
• Execution path anomaly


Mơ tả cách phát hiện sự bất thường của đường dẫn thực thi bằng cách
sử dụng chuỗi khóa nhật ký
1

2

3

4


5

6

• Giá trị tham số và sự bất thường về hiệu xuất


Các vectơ giá trị tham số này (đối với cùng một khóa nhật ký) tạo
thành một chuỗi vectơ giá trị tham số và các chuỗi này từ các khóa
nhật ký khác nhau tạo thành một không gian đặc trưng đa chiều rất
quan trọng để giám sát hiệu suất và phát hiện bất thường.

• Cập nhật trực tuyến các mơ hình phát hiện bất thường


Dữ liệu train có thể khơng bao gồm tất cả các chức năng thực thi bình
thường có thể có. Hành vi của hệ thống có thể thay đổi theo thời gian.
Nên DeepLog cần cập nhật từng bước trọng số trong các mơ hình LSTM
của mình để kết hợp và thích ứng với các mẫu nhật ký mới. Sử dụng mơ
hình phát hiện bất thường của deeplog



DeepLog cung cấp một cơ chế để người dùng cung cấp phản hồi.

Jens M artensson

12



Workflow Construction from Multi-task
Execution
• Tách mục nhật ký khỏi nhiều tác vụ


Tách các mục nhật ký cho các tác vụ khác nhau trong một tệp nhật ký



xây dựng mơ hình dịng cơng việc cho từng tác vụ dựa trên chuỗi khóa
nhật ký của nó



đầu vào của vấn đề là tồn bộ chuỗi khóa nhật ký được phân tích cú
pháp từ tệp nhật ký thô và đầu ra là một tập hợp các mơ hình quy trình
làm việc

1

2

3

4

5

6


• Sử dụng mơ hình phát hiện bất thường của deeplog


Tách khóa nhật ký
• Input: chuỗi các khóa nhật ký




Output: xác suất của tất cả các giá trị khóa nhật ký có thể có

Xây dựng mơ hình về quy trình làm việc


có thể phân biệt các điểm diver gence gây ra bởi sự đồng thời (nhiều
luồng) trong cùng một nhiệm vụ và các tác vụ mới, chúng ta có thể
dễ dàng xây dựng các mơ hình dịng cơng việc

• Sử dụng phương pháp phân nhóm dựa trên mật độ



Phân cụm các khóa nhật ký dựa trên các mẫu đồng xuất hiện và tách
các khóa thành các tác vụ khác nhau khi tỷ lệ đồng xuất hiện thấp.
Xây dựng ma trận

• Sử dụng mơ hình quy trình làm việc
Jens M artensson


13


Q uy trình & dem o
Q uy trình:
chuẩẩ
n bị:-cơng cụ:python,keras,tensorfl
ow ,…
-Bộ dữ liệu dataset:HDFS
thực hiện:
-logparser:càiđặtpy2.7,pip,git,docker,anaconda,…

Large Image
slide

-deeplog:càiđặtpy3.,pytorch,…

Jens M artensson

14


Thank
You



×