Tải bản đầy đủ (.docx) (39 trang)

Nhóm 5 thu thập và phân tích tệp tin nhật ký

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.62 MB, 39 trang )

HỌC VIỆN KỸ THUẬT MẬT MÃ
KHOA AN TỒN THƠNG TIN

BÁO CÁO ĐỀ TÀI
Tìm hiểu một số kỹ thuật thu thập và phân tích tệp tin
nhật ký ứng dụng trong phát hiện sự cố an ninh mạng

Sinh viên thực hiện:
Trần Thế Long – AT150335
Nguyễn Đức Anh – AT150603
Nguyễn Văn Lĩnh – AT150631
Nguyễn Lâm Tùng – AT150362
Nhóm: 5
Giảng viên hướng dẫn:

GV: TS. Trần Thị Lượng
Khoa An tồn thơng tin – Học viện Kỹ thuật mật mã

Hà Nội, 2022


LỜI MỞ ĐẦU
Nhiều tổ chức có đội ngũ nhân viên giỏi và được đào tạo bài bản để điều
hành các mạng, các mạng được thiết kế tốt với các thủ tục có cấu trúc chặt chẽ và
các chính sách bảo mật. Tuy nhiên, họ vẫn thường xuyên gặp phải các tình huống
đe dọa, do lỗi của người triển khai hoặc hồn cảnh bất lợi và những người có ý định
xấu.
Tin tặc liên tục tạo ra cách thức phức tạp mới để xâm phạm hệ thống thơng
tin của cơng ty vì vậy các tổ chức cần bảo vệ dữ liệu, mạng và hệ thống của họ theo
những cách đáng tin cậy và hiệu quả hơn, các cơng cụ chính xác, mạnh mẽ và hiệu
quả nhất trong danh mục bảo mật tốt bao gồm nhật ký kiểm tra và sự cố được tạo


bởi các thiết bị kết nối mạng. Tuy nhiên, tổ chức đó cần hiểu rõ loại thiết bị nào cần
sàng lọc và giám sát, dữ liệu nào cần thu thập hoặc cách đánh giá dữ liệu một cách
thích hợp. Ngồi ra, đối tượng cần có tài sản và nguồn lực cần thiết để duy trì ổn
định trong cơng việc.
Bài báo cáo này sẽ giới thiệu những kiến thức cơ bản của phân tích nhật ký tại sao nó lại quan trọng, nó có thể cho bạn biết điều gì và cách thực hiện. Nhóm
em sẽ nói về năm yếu tố thiết yếu của một quy trình phân tích nhật ký thành cơng,
ứng dụng của nó để giám sát hiệu suất, trong giám sát quy trình liên tục và bảo mật
(tìm kiếm và phát hiện mối đe dọa) với các giải pháp có sẵn trên thị trường và mở
ra với rất nhiều quy tắc với Giải pháp nguồn và tuân thủ luật.
Vì những hạn chế về kiến thức và thời gian nên trong quá trình tìm hiểu và
thực hiện đề tài chúng em khơng thể tránh được những sai sót, nhóm rất mong nhận
được sự đóng góp của cơ và các bạn để đề tài của nhóm được hồn thiện hơn.
Chúng em xin chân thành cảm ơn!


MỤC LỤC
LỜI MỞ ĐẦU..........................................................................................................2
Chương 1: Tổng quan về tệp tin nhật ký và kỹ thuật thu thập và phân tích tệp tin
nhật ký................................................................................................................4
1.1 Tệp nhật ký....................................................................................................4
1.1.1 Khái niệm................................................................................................4
1.1.2 Tại sao chúng ta nên thu thập nhật ký để phân tích?...............................4
1.1.3 Quy định và Quy tắc về Thu thập và Phân tích Nhật ký.........................5
1.2 Kỹ thuật thu thập và phân tích tệp tin nhật ký...............................................5
1.2.1 Kỹ thuật thu thập nhật ký........................................................................5
1.2.2 Phân tích tệp tin nhật ký..........................................................................5
Chương 2: Nền tảng kỹ thuật phân tích tệp tin nhật ký, các định dạng và vị trí trích
xuất tệp tin nhật ký.............................................................................................7
2.1 Nền tảng kỹ thuật phân tích tệp tin nhật ký...................................................7
2.2 Định dạng và vị trí trích xuất tệp tin nhật ký.................................................8

2.2.1 Định dạng tệp tin nhật ký........................................................................8
Chương 3: Phân tích tệp tin nhật ký trong phát hiện/ứng phó tấn cơng mạng.......20
3.1 Săn lùng mối đe dọa và Giám sát liên tục...................................................20
3.2 Phương pháp thu thập dữ liệu săn tìm mối đe dọa......................................22
TÀI LIỆU THAM KHẢO......................................................................................25


Chương 1: Tổng quan về tệp tin nhật ký và kỹ thuật thu thập
và phân tích tệp tin nhật ký
1.1 Tệp nhật ký
1.1.1 Khái niệm
 Phân tích nhật ký là gì?
Phân tích nhật ký, là việc phân tích bản ghi do máy tính tạo ra từ máy tính để bàn, thiết bị
mạng và các hệ thống công nghệ thông tin khác để ghi nhật ký hoạt động của hệ thống tài liệu.
Việc đánh giá các dữ liệu này được gọi là Phân Tích Nhật ký, thường được các tổ chức sử dụng
để giảm các loại rủi ro và đáp ứng các điều khoản tuân thủ. Điều tra pháp lý, tuân thủ chính sách
bảo mật, kiểm tốn và tn thủ quy định khơng thể được thực hiện mà khơng có phân tích nhật
ký, nó cũng đóng một vai trị quan trọng trong q trình giám sát và cảnh báo. Thơng qua q
trình phân tích nhật ký, các tổ chức có thể dễ dàng xác định các mối đe dọa tiềm ẩn, xác định
nguyên nhân gốc rễ và các vấn đề khác mà cơng ty đưa ra các phản ứng nhanh thích hợp để giảm
thiểu những rủi ro.
1.1.2 Tại sao chúng ta nên thu thập nhật ký để phân tích?
Nhật ký được tạo bởi các thiết bị mạng, ứng dụng phần mềm, hệ điều hành, thiết bị internet
vạn vật và nhiều phần cứng hệ thống khác. Chúng chứa nhiều thông tin được lưu trữ tuần tự trên
đĩa, tệp hoặc ứng dụng như Trình thu thập nhật ký. Nhật ký rất quan trọng đối với bất kỳ hệ
thống nào vì chúng cho Chúng ta biết điều gì đang xảy ra và hệ thống của Chúng ta đang làm gì.
Hầu hết các quy trình đang chạy trên hệ thống của Chúng ta đều tạo ra nhật ký. Vấn đề là các tệp
này thường xuất hiện trong các hệ thống khác nhau và ở các định dạng khác nhau, và dữ liệu
nhật ký phải được xây dựng theo cách tập trung và có ý nghĩa để chúng dễ hiểu đối với con
người và có thể dễ dàng giải mã bằng hệ thống học máy. Dữ liệu nhật ký được thu thập từ các

nguồn khác nhau có thể liên quan dễ dàng hơn đến các xu hướng và mẫu có liên quan. Các nhà
phân tích nên đảm bảo rằng dữ liệu nhật ký chứa tất cả thơng tin cần thiết và thơng tin này được
giải thích theo ngữ cảnh, ví dụ, một hệ thống có thể sử dụng "cảnh báo", hệ thống kia sử dụng
"quan trọng". Phân tích được đơn giản hóa và khơng có lỗi bằng cách đảm bảo rằng các định
dạng từ và dữ liệu được đồng bộ hóa. Các phần tử nhật ký cần được khái quát hóa, sử dụng
tương tự từ ngữ hoặc thuật ngữ để tránh nhầm lẫn và cung cấp sự hài hòa, trong khi nhà phân


tích khái qt hóa cần đảm bảo rằng các báo cáo dữ liệu thống kê từ các nguồn khác nhau là
chính xác và có ý nghĩa đối với người đọc.
Nhật ký cũng nên được truy cập từ một vị trí trung tâm và Thu thập nhật ký là một cách tốt
để lấy tất cả các nhật ký này ở một nơi. Ví dụ: nếu Chúng ta có các loại máy chủ khác nhau,
Chúng ta có thể lưu trữ các loại máy chủ khác nhau ở những nơi khác nhau. Kết thúc với nhật
ký. Nếu Chúng ta gặp lỗi và cần chỉ vào nhật ký của mình, Chúng ta nên tìm kiếm hàng chục
hoặc hàng trăm tệp để xem điều gì đã xảy ra. Ngay cả với những công cụ tốt, Chúng ta có thể
mất rất nhiều thời gian để làm việc này và điều này có thể làm nản lịng ngay cả những quản trị
viên hệ thống khó tính nhất. Ngay sau khi nhật ký được Thu thập, làm sạch và chuẩn hóa, các
điểm bất thường, chẳng hạn như các mẫu vi phạm mạng có thể được xác định thơng qua phân
tích.
1.1.3 Quy định và Quy tắc về Thu thập và Phân tích Nhật ký
Phân tích nhật ký kiểm tra và sự kiện không chỉ là một cách tiếp cận tốt để bảo mật cơ sở hạ
tầng CNTT - nó là một phần không thể thiếu của nhiều tiêu chuẩn tuân thủ bảo mật CNTT.
Nhiều quy định áp dụng cho nhiều tổ chức, chẳng hạn như tổ chức bán hàng, ngân hàng, kinh
doanh nói chung và tổ chức sản xuất. Một cái nhìn sâu sắc về nhiều yêu cầu quy định này, dựa
trên hệ thống quản lý nhật ký hiệu quả và nó bị ràng buộc về tổ chức tuân theo quy định cho đến
sau này.

1.2 Kỹ thuật thu thập và phân tích tệp tin nhật ký
1.2.1 Kỹ thuật thu thập nhật ký
Thu thập nhật ký là quá trình thu thập các mục nhập nhật ký từ nhiều nguồn khác nhau và ở

các định dạng khác nhau trong một tổ chức và đưa tất cả chúng về một nơi duy nhất. Nhật ký có
mặt ở khắp nơi trong một tổ chức cơng nghệ vì nhiều loại quy trình khác nhau tạo ra chúng. Có
rất nhiều thách thức liên quan đến việc thực hiện thu thập nhật ký, đặc biệt là khi Chúng ta tính
đến các thực tế của kịch bản công nghệ ngày nay, chẳng hạn như đám mây và các dịch vụ vi mơ.
Do đó, nhật ký của chúng ta chứa dữ liệu về toàn bộ hệ thống của chúng ta. Thơng qua thu thập
nhật ký, chúng ta có thể tận dụng tất cả dữ liệu đó, khám phá ra các mẫu hữu ích trong đó mà
chúng ta có thể biến thành kiến thức có giá trị.
1.2.2 Phân tích tệp tin nhật ký
Phân tích nhật ký là q trình xem xét nhật ký sự kiện do máy tính tạo ra để chủ động xác
định lỗi, các mối đe dọa bảo mật các yếu tố ảnh hưởng đến hiệu suất của hệ thống hoặc ứng


dụng hoặc các rủi ro khác. Phân tích nhật ký cũng có thể được sử dụng rộng rãi hơn để đảm bảo
tuân thủ các quy định hoặc xem xét hành vi của người dùng

 Tại sao Phân tích Nhật ký lại quan trọng?
Trong một số trường hợp, phân tích nhật ký là rất quan trọng để tuân thủ vì các tổ chức phải
tuân thủ các quy định cụ thể quy định cách dữ liệu được lưu trữ và phân tích. Nó cũng có thể
giúp dự đốn tuổi thọ hữu ích của phần cứng và phần mềm. Ngồi ra, phân tích nhật ký có thể
giúp các nhóm CNTT khuếch đại bốn yếu tố chính giúp mang lại giá trị kinh doanh lớn hơn và
các giải pháp lấy khách hàng làm trung tâm: sự nhanh nhẹn, hiệu quả, khả năng phục hồi và giá
trị khách hàng. Phân tích nhật ký có thể mở ra nhiều lợi ích bổ sung cho doanh nghiệp. Bao gồm
các yếu tố chính:
 Cải thiện khắc phục sự cố
 Tăng cường an ninh mạng
 Cải thiện trải nghiệm khách hàng
 Nhanh nhẹn


Chương 2: Nền tảng kỹ thuật phân tích tệp tin nhật ký, các định dạng

và vị trí trích xuất tệp tin nhật ký
2.1 Nền tảng kỹ thuật phân tích tệp tin nhật ký
Nền tảng kỹ thuật phân tích tệp nhật ký cho phép nhóm CNTT và các chuyên gia bảo mật
thiết lập một điểm duy nhất để từ đó truy cập vào tất cả các điểm cuối, mạng và dữ liệu ứng dụng
có liên quan. Thơng thường, nhật ký có thể tìm kiếm được, có nghĩa là trình phân tích nhật ký có
thể dễ dàng truy cập vào dữ liệu họ cần để đưa ra quyết định về tình trạng mạng, phân bổ tài
nguyên hoặc bảo mật. Quản lý nhật ký truyền thống sử dụng lập chỉ mục, có thể làm chậm q
trình tìm kiếm và phân tích. Quản lý nhật ký hiện đại sử dụng tìm kiếm khơng có chỉ mục ; nó ít
tốn kém hơn, nhanh hơn và có thể tăng 50-100 lần dung lượng đĩa cần thiết.

 Phân tích nhật ký thường bao gồm:
Nhập: Cài đặt bộ thu thập nhật ký để thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm hệ
điều hành, ứng dụng, máy chủ, máy chủ lưu trữ và mỗi điểm cuối, trên cơ sở hạ tầng mạng.
Tập trung: Thu thập tất cả dữ liệu nhật ký ở một vị trí duy nhất cũng như định dạng chuẩn
hóa bất kể nguồn nhật ký là gì. Điều này giúp đơn giản hóa q trình phân tích và tăng tốc độ dữ
liệu có thể được áp dụng trong tồn bộ hoạt động kinh doanh.
Tìm kiếm và phân tích: Tận dụng sự kết hợp của phân tích nhật ký hỗ trợ AI / ML và nguồn
nhân lực để xem xét và phân tích các lỗi đã biết, hoạt động đáng ngờ hoặc các bất thường khác
trong hệ thống. Với lượng lớn dữ liệu có sẵn trong nhật ký, điều quan trọng là phải tự động hóa
càng nhiều quy trình phân tích nhật ký càng tốt. Cũng nên tạo biểu diễn dữ liệu bằng đồ thị,
thông qua lập biểu đồ tri thức hoặc các kỹ thuật khác, để giúp nhóm CNTT hình dung từng mục
nhập nhật ký, thời gian và các mối tương quan của chúng.
Giám sát và cảnh báo: Hệ thống quản lý nhật ký phải tận dụng phân tích nhật ký nâng cao để
liên tục theo dõi nhật ký cho bất kỳ sự kiện nhật ký nào cần sự chú ý hoặc sự can thiệp của con
người. Hệ thống có thể được lập trình để tự động đưa ra cảnh báo khi một số sự kiện diễn ra
hoặc một số điều kiện nhất định được hoặc không được đáp ứng.


Báo cáo: Cuối cùng, LMS phải cung cấp một báo cáo được sắp xếp hợp lý về tất cả các sự kiện
cũng như giao diện trực quan mà trình phân tích nhật ký có thể tận dụng để lấy thêm thơng tin từ

nhật ký.

2.2 Định dạng và vị trí trích xuất tệp tin nhật ký
2.2.1 Định dạng tệp tin nhật ký
Vấn đề chính với tệp nhật ký và nhu cầu về định dạng có cấu trúc là chúng thường là dữ
liệu văn bản khơng có cấu trúc, gây khó khăn cho việc truy vấn nhật ký để tìm bất kỳ thơng tin
hữu ích nào. Định dạng nhật ký là một định dạng có cấu trúc cho phép các nhật ký có thể đọc
được bằng máy và dễ dàng phân tích cú pháp. Đây là sức mạnh của việc sử dụng nhật ký có cấu
trúc và hệ thống quản lý nhật ký hỗ trợ chúng. Khả năng dịch dữ liệu thô thành một thứ gì đó dễ
hiểu và dễ đọc ngay lập tức là một trong những tính năng cần có của phần mềm quản lý nhật ký.
 SỬ DỤNG MÁY CHỦ SYSLOG
Syslog cung cấp một cơ chế để các thiết bị mạng gửi thông báo sự kiện đến một máy chủ ghi
nhật ký được gọi là máy chủ Syslog. Chúng ta có thể sử dụng giao thức Syslog, được nhiều thiết
bị hỗ trợ, để ghi nhật ký các sự kiện khác nhau. Một ví dụ về cách Syslog có thể được sử dụng
là, tường lửa có thể gửi thơng báo về các hệ thống đang cố gắng kết nối với một cổng bị chặn,
trong khi máy chủ web có thể ghi nhật ký các sự kiện bị từ chối truy cập. Hầu hết các thiết bị
mạng, chẳng hạn như bộ định tuyến, thiết bị chuyển mạch và tường lửa có thể gửi thơng báo
Syslog. Ngồi ra, một số máy in và máy chủ web như Apache có khả năng gửi tin nhắn
Syslog. Tuy nhiên, các máy chủ dựa trên Windows khơng hỗ trợ Syslog, nhưng có một số lượng
lớn các công cụ của bên thứ ba giúp dễ dàng thu thập Nhật ký sự kiện Windows và chuyển tiếp
chúng đến máy chủ Syslog.
Máy chủ nhật ký cung cấp một cách để hợp nhất nhật ký từ nhiều nguồn vào một vị trí duy
nhất. Thơng thường, hầu hết các máy chủ Syslog đều có các thành phần sau:
 A Syslog Listener: Một cơ chế để nhận các thông báo Syslog.
 Cơ sở dữ liệu: Thông thường, các thiết bị mạng tạo ra một lượng lớn dữ liệu
Syslog. Thông thường, các máy chủ Syslog sẽ sử dụng một số loại cơ sở dữ liệu để lưu trữ
dữ liệu Syslog nhằm truy xuất nhanh chóng.
 Phần mềm quản lý và lọc: Do có khả năng lượng lớn dữ liệu được gửi đến máy chủ
Syslog, có thể khó khăn trong việc tìm các mục nhật ký cụ thể. Giải pháp là sử dụng máy
chủ Syslog giúp dễ dàng lọc và xem nhật ký quan trọng tin nhắn Máy chủ Syslog thường



có khả năng tạo cảnh báo, thơng báo và báo động để phản hồi lại các tin nhắn được
chọn. Các quản trị viên nhận được thông báo ngay khi sự cố xảy ra, giúp dễ dàng hành
động nhanh chóng.
Tuy nhiên, có một số nhược điểm đối với Syslog. Đầu tiên, giao thức Syslog không xác định
định dạng chuẩn cho nội dung thư và có vơ số cách để định dạng thư. Syslog chỉ cung cấp một
cơ chế vận chuyển cho thơng báo. Ngồi ra, cách Syslog vận chuyển thơng điệp, kết nối mạng
khơng được đảm bảo nên có khả năng bị mất một số thông báo nhật ký. Cuối cùng, có những
thách thức về bảo mật. Vấn đề chính là khơng có xác thực cho các thơng báo Syslog có nghĩa là
có khả năng các thơng báo đến từ các nguồn không xác định hoặc trái phép.
 ĐỊNH DẠNG ĐĂNG NHẬP JSON
JSON (JavaScript Object Notation) là một định dạng trao đổi dữ liệu có thể đọc được cao, nó
đã tự thiết lập là định dạng tiêu chuẩn cho ghi nhật ký có cấu trúc. Nó nhỏ gọn và nhẹ, đọc và
viết đơn giản cho con người và máy móc. Nó có thể được phân tích cú pháp bởi gần như tất cả
các ngơn ngữ lập trình, ngay cả những ngơn ngữ khơng có chức năng JSON tích hợp sẵn. JSON
là một định dạng phổ biến do mã hóa Unicode của nó, vì vậy khơng quan trọng Chúng ta đang
sử dụng PC hay Mac hay máy chủ mà Chúng ta đang chạy.
Đăng nhập vào JSON là một yếu tố quan trọng để quản lý và giám sát nhật ký. Định dạng này
thường được ưu tiên hơn so với văn bản thuần túy vì nó mang lại sự linh hoạt trong việc tạo cơ
sở dữ liệu nhiều trường cho các tìm kiếm sau này. Nhật ký JSON phong phú hơn hầu hết các
định dạng nhật ký khác và chúng được sử dụng rộng rãi để ghi nhật ký có cấu trúc vì chúng có
thể dễ dàng được bổ sung thêm ngữ cảnh và siêu dữ liệu. Trường hợp sử dụng phổ biến của lọc
dựa trên JSON là bao gồm một cấp nhật ký chẳng hạn như “LỖI” trong dữ liệu để các nhật ký
chứa thơng tin này có thể được phân tích cú pháp nhanh chóng cho các mục đích khắc phục sự
cố.
Chúng ta có thể tạo một sự kiện nhật ký đơn lẻ bằng cách gói nhiều dịng nhật ký vào một
trường. Mặc dù thuận tiện, điều này có thể làm cho kích thước của các tệp nhật ký phát triển theo
cấp số nhân vì vậy việc lưu trữ đầy đủ hoặc xoay vòng nhật ký là rất quan trọng. Nếu Chúng ta
đang đăng nhập JSON, hãy đảm bảo sử dụng đầy đủ tính năng Lưu trữ của Graylog để tiết kiệm

dung lượng quý giá của Chúng ta. Nếu Chúng ta muốn biết thêm thông tin về cách gửi nhật ký
JSON của mình tới Graylog và phân tích cú pháp chúng ở định dạng rõ ràng và dễ hiểu.


 NHẬT KÝ SỰ KIỆN WINDOWS
Nhật ký sự kiện Windows cung cấp bản ghi chi tiết về hệ điều hành, ứng dụng, bảo mật và
các thông báo sự kiện được hệ điều hành Windows nắm bắt và lưu trữ. Các sự kiện này thường
được quản trị viên hệ thống sử dụng để chẩn đoán sự cố tiềm ẩn và để ngăn chặn các sự cố trong
tương lai. Hệ điều hành và Ứng dụng sử dụng các bản ghi sự kiện này để ghi lại các hành động
phần cứng và phần mềm quan trọng có thể được sử dụng để khắc phục sự cố tiềm ẩn với hệ điều
hành và các ứng dụng đã cài đặt. Hệ điều hành Windows tạo các tệp nhật ký để theo dõi các sự
kiện như cài đặt ứng dụng, hoạt động thiết lập hệ thống, lỗi và các vấn đề bảo mật.
Các phần tử của nhật ký sự kiện Windows bao gồm:








Ngày xảy ra sự kiện.
Thời gian sự kiện xảy ra.
Tên người dùng của người dùng đã đăng nhập vào máy khi sự kiện xảy ra.
Tên của máy tính.
ID sự kiện là số nhận dạng Windows chỉ định loại sự kiện.
Nguồn là chương trình hoặc thành phần gây ra sự kiện.
Loại sự kiện, bao gồm thông tin, cảnh báo, lỗi, đánh giá thành công bảo mật hoặc đánh
giá lỗi bảo mật.


Nhật ký sự kiện Windows ghi lại hệ điều hành, thiết lập, bảo mật, ứng dụng và các sự kiện
được chuyển tiếp.
 Sự kiện hệ thống là sự cố trên hệ điều hành Windows và những sự cố này có thể bao gồm
các mục như trình điều khiển thiết bị hoặc các lỗi thành phần hệ điều hành khác.
 Sự kiện thiết lập bao gồm các sự kiện liên quan đến cài đặt cấu hình của hệ điều hành.
 Các sự kiện bảo mật sử dụng các chính sách kiểm tra của hệ thống Windows và các sự
kiện này bao gồm các nỗ lực đăng nhập của người dùng và truy cập tài nguyên hệ thống.
 Sự kiện ứng dụng là sự cố xảy ra với phần mềm được cài đặt trên hệ điều hành cục
bộ. Nếu một ứng dụng đã cài đặt gặp sự cố, một mục nhật ký về sự cố sẽ được tạo bởi nhật
ký sự kiện của Windows và sẽ bao gồm tên ứng dụng cũng như nguyên nhân khiến nó gặp
sự cố.
 Các sự kiện được chuyển tiếp được gửi từ các hệ thống khác trên cùng một mạng khi quản
trị viên muốn sử dụng một máy tính tập hợp nhiều nhật ký.
Microsoft cũng cung cấp tiện ích dịng lệnh truy xuất nhật ký sự kiện, chạy truy vấn, xuất
nhật ký, lưu trữ nhật ký và xóa nhật ký. Graylog và các tiện ích bên thứ ba khác cũng có thể hoạt


động với nhật ký sự kiện của Windows để cung cấp thêm chi tiết sự kiện, tìm kiếm nhật ký và
tương quan.
 ĐỊNH DẠNG CEF
Định dạng Sự kiện Chung (CEF) là một định dạng ghi nhật ký và kiểm tra mở từ
ArcSight. Nó là một định dạng dựa trên văn bản, có thể mở rộng, chứa thơng tin sự kiện ở định
dạng dễ đọc. CEF đã được tạo ra như một tiêu chuẩn nhật ký sự kiện chung để Chúng ta có thể
dễ dàng chia sẻ thơng tin bảo mật đến từ các thiết bị mạng, ứng dụng và công cụ khác
nhau. Chúng ta cũng có thể sử dụng nó để cải thiện khả năng tương tác của thông tin nhạy cảm
và đơn giản hóa việc tích hợp giữa các thiết bị bảo mật và không bảo mật bằng cách hoạt động
như một cơ chế vận chuyển.
Chúng ta có thể sử dụng CEF với cả các thiết bị tại chỗ và các nhà cung cấp dịch vụ dựa trên
đám mây bằng cách triển khai ArcSight Syslog SmartConnector. CEF sử dụng phương pháp mã
hóa UTF-8 Unicode, vì vậy tồn bộ thư phải được mã hóa UTF-8. Trình chuyển tiếp Syslog CEF

biên dịch từng sự kiện trong CEF theo một cú pháp cụ thể, giảm thiểu hoạt động với chuẩn hóa
ESM. Định dạng CEF cơ sở bao gồm một tiêu đề chuẩn và một phần mở rộng có thể thay đổi
được tạo thành bởi một số trường được ghi lại dưới dạng các cặp khóa-giá trị. Tiêu đề là một tiền
tố chung được áp dụng cho mỗi thư có chứa ngày tháng và tên máy chủ, như trong ví dụ dưới
đây:
Feb 23 12:54:06 host message
Nó cũng bao gồm một số trường được định dạng bằng cách sử dụng tiền tố chung bao gồm
các trường được phân tách bằng các ký tự thanh:
CEF:Version|Device Vendor|Device Product|Device Version|Signature ID|Name|Severity|
Extension
Phần mở rộng của thông báo CEF là phần giữ chỗ cho các trường bổ sung. Các chuỗi này
được sử dụng để xác định duy nhất thông tin như phiên bản của định dạng CEF, loại thiết bị gửi,
loại sự kiện được báo cáo, v.v. Ví dụ: ID Chữ ký xác định một sự kiện cụ thể để nó có thể dễ
dàng được xác định bởi một công cụ tương quan ngay cả khi hoạt động này được phát hiện từ
các thiết bị khác nhau.
 ĐỊNH DẠNG NHẬT KÝ MỞ RỘNG GRAYLOG - GELF


GELF viết tắt của Graylog Extended Log Format, là định dạng tệp nhật ký riêng của
Graylog. GELF được phát triển với mục đích rõ ràng là sửa chữa những thiếu sót của Syslog cổ
điển và tận dụng tối đa nhiều tính năng và khả năng của cơng cụ Graylog.
Bản thân nó, Syslog được giới hạn ở độ dài 1024 byte và các biểu đồ dữ liệu UDP (User
Datagram Protocol) không được vượt quá 8192 byte. Đó là lý do tại sao GELF hỗ trợ phân
khúc. Chúng ta có thể phân đoạn các tin nhắn của mình bằng cách thêm một tiêu đề byte vào một
tin nhắn GELF và sau đó vận chuyển các bản ghi này qua UDP, TCP (Giao thức điều khiển
truyền) và đơi khi qua HTTP.
Ngồi ra cịn có tùy chọn để tiết kiệm băng thơng mạng bằng cách tăng phần nào mức sử
dụng CPU của Chúng ta - chọn nếu Chúng ta muốn gửi tin nhắn ở định dạng không nén, GZIP'd
hoặc ZLIB'd và Graylog sẽ thực hiện phần cịn lại.
Mọi thơng báo nhật ký GELF chứa các trường sau:






Người dẫn chương trình (người tạo ra tin nhắn)
Dấu thời gian
Phiên bản
Các phiên bản dài và ngắn của thông điệp

Một số trường tùy chỉnh khác mà Chúng ta có thể tự do định cấu hình theo sở thích của riêng
mình
Một tệp GELF mẫu:
{
"version": "1.1",
"host": "example.org",
"short_message": "A short message that helps you identify what is going on",
"full_message": "Backtrace here\n\nmore stuff",
"timestamp": 1385053862.3072,
"level": 1,
"_user_id": 9001,
"_some_info": "foo",


"_some_env_var": "bar"
}

 ĐỊNH DẠNG ĐĂNG NHẬP THÔNG DỤNG - NCSA
Định dạng nhật ký chung NCSA - còn được gọi là Định dạng nhật ký chung - là định dạng
nhật ký cố định (không thể tùy chỉnh) được các máy chủ web sử dụng khi chúng tạo tệp nhật ký

máy chủ. Nó được đặt tên theo NCSA_HTTPd, một phần mềm máy chủ web ban đầu, hiện đã
ngừng hoạt động, làm nền tảng cho phần mềm máy chủ web đa nền tảng mã nguồn mở phổ biến
hơn nhiều - Apache HTTP Server Project .
Mọi dòng trong định dạng nhật ký này được lưu trữ bằng cú pháp chuẩn hóa sau:
host ident authuser date request status bytes
Để minh họa thêm, đây là ví dụ về NCSA điển hình:
127.0.0.1 user-identifier john [20/Jan/2020:21:32:14 -0700] "GET /apache_pb.gif
HTTP/1.0" 200 4782
Dưới đây là giải thích về ý nghĩa của mọi phần của mã này:
 127.0.0.1 - đề cập đến địa chỉ IP của máy khách (máy chủ từ xa) đã thực hiện yêu cầu tới
máy chủ.
 định danh người dùng là Giao thức nhận dạng (còn được gọi là Giao thức nhận dạng, hoặc
Danh tính) của máy khách.
 john là userid (nhận dạng người dùng) của người yêu cầu tài liệu.
 [20 / Jan / 2020: 21: 32: 14 -0700] - là ngày, giờ và múi giờ ghi lại khi yêu cầu được thực
hiện. Theo mặc định, nó có định dạng strftime là% d /% b /% Y:% H:% M:% S% z.
 "GET /apache_pb.gif HTTP / 1.0" là dòng yêu cầu của khách hàng. GET đề cập đến
phương thức, apache_pb.gif là tài nguyên được yêu cầu và HTTP / 1.0 là giao thức HTTP.
 200 là mã trạng thái HTTP đã được trả lại cho máy khách sau khi yêu cầu. 2xx là phản hồi
thành công, 3xx là chuyển hướng, 4xx là lỗi máy khách và 5xx là lỗi máy chủ.
 4782 là kích thước của đối tượng - được đo bằng byte - đã được trả lại cho khách hàng
được đề cập.
 CÁC ĐỊNH DẠNG NHẬT KÝ PHỔ BIẾN NHẤT - ELF


/>auto=compress&cs=tinysrgb&dpr=2&h=750&w=1260
ELF là viết tắt của Định dạng Nhật ký Mở rộng. Nó rất giống với Định dạng nhật ký chung
(NCSA), nhưng các tệp ELF linh hoạt hơn một chút và chúng chứa nhiều thơng tin hơn.
Đây là một ví dụ về tệp ELF:
#Version: 1.0

#Date: 12-Jan-1996 00:00:00
#Fields: time cs-method cs-uri
00:34:23 GET /foo/bar.html
12:21:16 GET /foo/bar.html
12:45:52 GET /foo/bar.html
12:57:34 GET /foo/bar.html
Dấu (#) cho biết sự bắt đầu của một chỉ thị. Các lệnh sau được định nghĩa:







Phiên bản - phiên bản của định dạng tệp Nhật ký mở rộng được sử dụng.
Trường - trường nào được ghi trong nhật ký.
Phần mềm - phần mềm tạo ra nhật ký.
Ngày bắt đầu - ngày và giờ chính xác khi bắt đầu ghi nhật ký.
Ngày kết thúc - ngày và giờ chính xác khi hồn thành nhật ký.
Ngày - ngày và giờ chính xác khi nhật ký được thêm vào.

Nhận xét: Chúng bị bỏ qua bởi các công cụ quản lý nhật ký và phần mềm phân tích tệp nhật
ký tương tự.
 CÁC ĐỊNH DẠNG NHẬT KÝ PHỔ BIẾN NHẤT - W3C
Định dạng nhật ký mở rộng W3C là định dạng có thể tùy chỉnh được sử dụng bởi Microsoft
Internet Information Server (IIS) phiên bản 4.0 và 5.0.
Vì nó có thể tùy chỉnh, Chúng ta có thể thêm hoặc bỏ các trường khác nhau theo nhu cầu và
sở thích của mình, tăng hoặc giảm kích thước của tệp. Lưu trữ nhật ký dữ liệu đúng cách là một
phần không thể thiếu trong quản lý nhật ký và là điều cần thiết đối với các quản trị viên hệ
thống, chuyên gia an ninh mạng, chưa kể - các thủ tục kiểm toán và các tiêu chuẩn tuân thủ.



 TRƯỜNG GHI NHẬT KÝ MỞ RỘNG W3C:



 VÍ DỤ VỀ TỆP NHẬT KÝ W3C:
#Software: Microsoft Internet Information Services 4.0 #Version: 1.0 #Date: 2002-12-12
19:12:42
#Fields: time c-ip cs-method cs-uri-stem sc-status cs-version
19:12:42 172.16.255.255 GET /default.htm 500 HTTP/1.0





#Software - phần mềm liên quan đến việc tạo ra nhật ký.
#Version - cho biết rằng định dạng ghi nhật ký W3C 1.0 đã được sử dụng ở đây.
#Date - ngày và giờ chính xác khi mục nhập được thêm vào.
#Fields - Thời gian, Địa chỉ IP của Máy khách, Phương pháp, URI Stem, Trạng thái HTTP

và Phiên bản HTTP.
 19:12:42 172.16.255.255 GET /default.htm 200 HTTP / 1.0 - lúc 19:12:42 UTC (Giờ
trung bình Greenwich), người dùng có địa chỉ IP 172.16.255.255 và HTTP phiên bản 1.0
đã đưa ra lệnh HTTP GET cho tệp Default.htm, nhưng yêu cầu đã bị từ chối với cảnh báo
Lỗi máy chủ nội bộ 500.
 TỆP NHẬT KÝ PHỔ BIẾN NHẤT - IIS
Microsoft IIS (Máy chủ thông tin Internet) là một định dạng tệp nhật ký cố định khác. Nó bao
gồm nhiều thơng tin hơn so với định dạng nhật ký chung NCSA. Trong khi nó ghi lại dữ liệu
thông thường như tên người dùng, địa chỉ IP, ngày và giờ khi yêu cầu diễn ra, nó cũng có thơng

tin bổ sung - như thời gian xử lý yêu cầu (tính bằng mili giây) là bao lâu.
Đây là cách tệp nhật ký Microsoft IIS trông như thế nào khi Chúng ta mở nó trong một
chương trình xử lý văn bản:
192.168.114.201, -, 03/20/01, 7:55:20, W3SVC2, SALES1, 172.21.13.45, 4502, 163, 3223,
200, 0, GET, /DeptLogo.gif, -,
172.16.255.255, anonymous, 03/20/01, 23:58:11, MSFTPSVC, SALES1, 172.16.255.255, 60,
275, 0, 0, 0, PASS, /Intro.htm, -,
 192.168.114.201 - địa chỉ IP của người dùng
- chỉ ra rằng người dùng là ẩn danh
 20/03/01 - ngày
 7:55:20 - thời gian
 W3SVC2 - Dịch vụ và Phiên bản
 SALES1 - tên của máy tính











172.21.13.45 - địa chỉ IP của máy chủ
4502 - Thời gian tính bằng mili giây
163 - bao nhiêu byte đã được nhận
3223 - có bao nhiêu byte được gửi lại
200 - Mã trạng thái dịch vụ
0 - Mã trạng thái Windows NT / 2000

GET - loại yêu cầu
/DeptLogo.gif - mục tiêu của hoạt động

Lưu ý rằng dấu phẩy (,) phân tách các trường và dấu gạch ngang (-) được sử dụng bất cứ khi
nào một trường khơng có sẵn giá trị hợp lệ cho nó.
 TỆP NHẬT KÝ PHỔ BIẾN NHẤT - ODBC
ODBC là định dạng ghi nhật ký của một tập hợp trường dữ liệu cố định tuân theo cơ sở dữ
liệu Kết nối Cơ sở dữ liệu Mở (ODBC), như Microsoft Access hoặc Microsoft SQL Server.
Ghi nhật ký ODBC phức tạp hơn một chút so với hầu hết các loại ghi nhật ký và đòi hỏi
Chúng ta phải mày mò. Chúng ta phải chỉ định cơ sở dữ liệu Chúng ta muốn đăng nhập và
Chúng ta phải thiết lập bảng cơ sở dữ liệu theo cách thủ công để nhận dữ liệu nhật ký.
Tệp mẫu SQL được bao gồm trong IIS (Máy chủ thông tin Internet) mà Chúng ta phải chạy
trong cơ sở dữ liệu SQL. Tệp này, có tên “Logtemp.sql”, theo mặc định, được tìm thấy ở vị trí
này:
C: \ winnt \ system32 \ inetsrv \ logtemp.sql
Sau đó, tệp này được sử dụng trong bảng sau:


Sau khi lập bảng này, Chúng ta cũng phải tạo một DSN (Tên nguồn dữ liệu) mà ODBC sẽ
sử dụng để định vị cơ sở dữ liệu.
Bước cuối cùng là cung cấp cho IIS tên của cơ sở dữ liệu và bảng này. Nếu Chúng ta bảo
vệ cơ sở dữ liệu bằng tên người dùng và mật khẩu, Chúng ta cũng sẽ phải chỉ định tên người
dùng và mật khẩu của IIS.

 Vị trí trích xuất tệp tin nhật ký
Theo mặc định, các tệp nhật ký được lưu trong thư mục dữ liệu EFT trong thư mục Nhật ký (ví
dụ: ...\ Documents and Settings \ All Users \ Application Data \ Globalscape \ EFT


Enterprise \ Logs). Trên Windows 2008, các tệp Dữ liệu Ứng dụng cho tất cả người dùng nằm

trong một thư mục ẩn có tên % systemroot% \ ProgramData \ Globalscape \ EFT Server
Enterprise \ Logs .
Thông tin kết nối đi được kiểm tra trong cùng thư mục đó trong nhật ký có tên cl <ngày> .log .


Chương 3: Phân tích tệp tin nhật ký trong phát hiện/ứng phó tấn cơng
mạng
3.1

Săn lùng mối đe dọa và Giám sát liên tục

Rõ ràng dữ liệu và bảo mật thông tin là thách thức lớn nhất mà nhiều tổ chức gặp phải hàng
ngày. Mặc dù tập trung nhiều sự chú ý vào các cuộc tấn công độc hại và các chiến lược bảo mật,
chẳng hạn như lừa đảo và hack, nhưng số lượng lỗi bảo mật đáng kinh ngạc là hậu quả của hành
động "được phép". Nói chung, các vấn đề bảo mật được phân loại thành bốn loại chính sau:
Lỗi do con người: Không phải tất cả các hoạt động bắt nạt đều có hại và đơi khi mọi người
mắc sai lầm hoặc hành động thiếu khôn ngoan như nhấp vào liên kết trong email lừa đảo.
Tấn công độc hại: Các cá nhân đáng tin cậy, đối tác kinh doanh và nhà cung cấp dịch vụ bên
thứ ba được bọn tội phạm cho phép có quyền truy cập trái phép vào hệ thống của Chúng ta.
Tấn công proxy : Một vũ khí chiến tranh mạng phổ biến và được ưa chuộng bởi những kẻ
tấn cơng trên tồn thế giới, nó được sử dụng để tấn cơng hệ thống thơng qua một máy tính khác
(proxy), khi cuộc tấn cơng được thực hiện từ nhiều máy tính, nó được gọi là tấn công proxy phân
tán, hầu hết thời gian một số người sử dụng máy tính là một phần của cuộc tấn cơng khơng biết
rằng hệ thống máy tính của họ là một phần của cuộc tấn cơng đó.
Vi phạm Tn thủ: Nhiều cơng ty có trách nhiệm pháp lý và ủy thác để bảo vệ dữ liệu được
bảo vệ. Không phải chỉ cố ý vi phạm mới gây ra hậu quả, đơi khi việc tn thủ khơng cố ý cũng
có thể gây ra hậu quả nghiêm trọng.
Các nạn nhân của cuộc tấn công cần phải liên tục xem xét mạng và tìm ra hệ thống dễ bị tấn
cơng có thể bị kẻ tấn công xâm phạm. Tốc độ và hiệu quả của q trình thu thập và phân tích dữ
liệu nhật ký có thể bị ảnh hưởng do số lượng lớn dữ liệu cần được xử lý sẽ tiêu tốn thời gian và

tài nguyên. Tuy nhiên, nó có thể được cải thiện rất nhiều bằng cách sử dụng các kỹ thuật thu thập
và phân tích dữ liệu thích hợp. Dữ liệu tiết lộ một cuộc tấn công thường bao gồm Thu thập dữ
liệu nhật ký từ nhật ký kiểm tra hệ thống đến, nhật ký dữ liệu mạng và nhật ký dữ liệu bảo mật
điểm cuối và tất cả những điều này được giải thích bên dưới.
Nhật ký dữ liệu điểm cuối: các nhật ký này bắt nguồn từ các thiết bị trên mạng. Ví dụ: các
thiết bị này có thể là thiết bị tường lửa, điện thoại di động của người dùng, máy tính xách tay và


máy trạm, và trong nhiều trường hợp, máy chủ trung tâm dữ liệu của tổ chức lưu trữ các ứng
dụng với dữ liệu có thể sử dụng từ điểm cuối.
Siêu dữ liệu thực thi quy trình: Nó thường chứa dữ liệu về các quy trình đang chạy khác
nhau trên máy chủ ứng dụng và chủ yếu ở dạng siêu dữ liệu bao gồm cú pháp lệnh, đối số, tên
tệp quy trình và số cú pháp nhận dạng.
Dữ liệu truy cập sổ đăng ký: Đây là dữ liệu đối tượng đăng ký, có thể là giá trị siêu dữ
liệu, khóa đăng ký hoặc cả hai trong các hệ thống dựa trên Windows.
Dữ liệu tệp: Đây là dữ liệu cấu trúc tệp làm nổi bật cách tệp được cấu trúc trong máy chủ
lưu trữ, Ví dụ: ngày tệp được tạo hoặc sửa đổi trên máy chủ lưu trữ, kích thước, loại tệp và vị trí
trên đĩa.
Nhật ký dữ liệu mạng: Điều này bắt nguồn từ các thiết bị dựa trên mạng như bộ định
tuyến, bộ cân bằng tải, máy chủ proxy, tường lửa, DNS và thiết bị chuyển mạch. thiết bị mạng là
nguồn dữ liệu nhật ký tốt để phân tích và điều tra.
Dữ liệu phiên: đây là dữ liệu kết nối mạng giữa các host trên mạng. Ví dụ: thơng tin này
bao gồm địa chỉ IP nguồn và đích, khoảng thời gian kết nối (thời gian bắt đầu và kết thúc),
Netflow, IPFIX và các nguồn dữ liệu tương tự khác.
Nhật ký công cụ giám sát: siêu dữ liệu ứng dụng và dữ liệu luồng dựa trên kết nối được
thu thập bằng công cụ giám sát dưới dạng nhật ký, siêu dữ liệu ứng dụng như HTTP, DNS và
SMTP là dữ liệu cần thiết cần được thu thập để phân tích.
Nhật ký tường lửa : Đây là dữ liệu quan trọng nhất và cần được thu thập và phân tích
thường xun, vì nó tiết lộ những gì được phép và những gì khơng được phép trong mạng, vi
phạm mạng có thể dễ dàng bị bắt thơng qua phân tích nhật ký tường lửa.

Nhật ký proxy: Tại đây Chúng ta thu thập dữ liệu HTTP chứa thông tin về dữ liệu Internet,
chẳng hạn như các yêu cầu web gửi đi được truy cập trong nội bộ mạng.
Cảnh báo: dữ liệu này là thông báo từ các giải pháp IPS, IDS và SIEM biểu thị rằng đã vi
phạm bộ quy tắc hoặc một sự cố bất thường đã xảy ra đã xảy ra.
Nhật ký DNS: Điều này cung cấp dữ liệu phân giải tên liên quan đến máy chủ tên miền.
Chúng chứa ánh xạ tên miền tới địa chỉ IP và nhận dạng của khách hàng nội bộ về các yêu cầu
giải quyết.


Nhật ký Dữ liệu Bảo mật: Dữ liệu này bắt nguồn từ các thiết bị và giải pháp bảo mật như
các giải pháp IPS, SIEM và IDS. Dữ liệu này cần được thu thập và phân tích thường xun.
Thơng minh thân thiện: Dữ liệu này chứa các quy trình kinh doanh của tổ chức, thông tin
về nhân viên và các tài sản được tổ chức chấp nhận. Dữ liệu này giúp nhà phân tích hiểu được
mơi trường mà họ hoạt động và cũng giúp họ giảm thiểu một cuộc tấn cơng.
Dữ liệu tình báo về mối đe dọa: Đây là dữ liệu tiết lộ các phương pháp, thủ tục, chiến
thuật và hoạt động mà kẻ tấn công đang thực hiện trên mạng.

3.2

Phương pháp thu thập dữ liệu săn tìm mối đe dọa

Cũng giống như mọi lĩnh vực hoạt động, việc tìm kiếm chun gia giỏi nhất và có kinh
nghiệm là phần quan trọng nhất của quy trình săn lùng mối đe dọa, chun gia có thể thu thập và
phân tích dữ liệu hiệu quả bằng nhiều phương pháp khác nhau. Có bốn loại phương pháp được
sử dụng bởi những kẻ săn lùng mối đe dọa để thu thập dữ liệu và chúng được giải thích dưới
đây:
 Phân cụm
Phương pháp này được sử dụng bằng cách thiết lập điểm dữ liệu nhất định được gọi là cụm
trên các nhóm tập dữ liệu lớn. khi cần chia sẻ các tính năng hành vi của điểm dữ liệu làm việc,
nên sử dụng phương pháp này, vì nó hỗ trợ cho việc tìm kiếm hành vi tích lũy chính xác. Ví dụ,

nó có thể được sử dụng để phát hiện một số trường hợp bất thường của một ứng dụng sự kiện
phổ biến.
 Đang tìm kiếm
Đây là một cơng nghệ mà thợ săn tìm kiếm dữ liệu cho một số hiện vật nhất định được sử
dụng trong hầu hết các công nghệ. Tuy nhiên, điều này là vơ ích vì những người thợ săn chỉ nhận
được kết quả mà họ tìm kiếm, điều này khiến cho việc tìm kiếm các ngoại lệ từ kết quả đầu ra trở
nên khó khăn hơn. Vì sự q tải của các kết quả tìm kiếm thường xuyên, các thợ săn buộc phải
khám phá cụ thể. Hãy cẩn thận khi tìm kiếm, vì tìm kiếm q hẹp có thể mang lại kết quả khơng
có kết quả.
 Phân nhóm
Phương pháp này được sử dụng khi săn tìm các hiện vật có tính năng tương tự. Nó sử dụng
một đặc tính cụ thể được ghi trước để xác định các hiện vật tương tự khác. Những đặc điểm độc


đáo này là dữ liệu nhóm được áp dụng để xác định các hiện vật khác trong nhóm. Ví dụ, đối với
các sự kiện đã xác định xảy ra tại một thời điểm cụ thể, các điểm dữ liệu quan tâm nhất định
cũng được lấy và sử dụng làm đầu vào.
 Đếm chồng
Phương pháp này được sử dụng trong quá trình điều tra giả thuyết, số lượng các sự kiện cho
một giá trị nhất định được tính khi phân tích các giá trị ngoại lai của kết quả. Hiệu lực của
phương pháp này phụ thuộc vào việc thợ săn lọc kỹ lưỡng và hiểu đúng đầu vào được sử dụng,
và điều này có thể dẫn đến dự đốn chính xác về khối lượng đầu ra. Điều quan trọng là phải đếm
số lần thực hiện tạo tác lệnh trong quá trình sử dụng phương pháp xếp chồng.

 Các kỹ thuật phân tích và minh họa dữ liệu săn tìm mối đe dọa phổ biến
Sau khi dữ liệu đã được thu thập, thợ săn cần phân tích và diễn giải dữ liệu để xác định các
mẫu hiện vật trong dữ liệu. Có rất nhiều phương pháp luận có sẵn cho các thợ săn vào thời điểm
này, nhưng sẽ giải thích ba trong số những cách tiếp cận này dưới đây:
 Âm mưu cái hộp
Phương pháp này được sử dụng khi thợ săn quan tâm đến việc tìm kiếm sự bất thường và

phân biệt sự phân bố của tập dữ liệu. Bằng cách sử dụng các ơ hộp, thợ săn có thể nhận ra sự
phân tán của dữ liệu bằng cách vẽ các chất lượng cực đoan của bộ dữ liệu. Thợ săn có thể Thu
thập các yếu tố theo loại hoặc chức năng để phát hiện bất kỳ điểm mâu thuẫn nào.

Hình 3.1: Biểu đồ Ô hộp


 Bản đồ nhiệt
Các thợ săn đã sử dụng phương pháp này để trình bày dữ liệu ở định dạng màu. Biểu diễn các
dữ liệu khác nhau với các màu sắc khác nhau, giúp hiển thị và giải thích các nhóm dữ liệu khác
nhau và mối quan hệ của chúng. Phương pháp biểu diễn dữ liệu này cho phép biểu diễn dữ liệu
duy nhất được quan tâm như những điểm bất thường có thể xuất hiện trong tập dữ liệu. Dưới đây
là một ví dụ về bản đồ nhiệt.

Hình3.2: biểu diễn dữ liệu bản đồ nhiệt
 Đường gấp khúc
Phương pháp này được sử dụng để mô tả mối quan hệ dữ liệu trong biểu đồ, có thể được vẽ
mà khơng có trục trong biểu đồ. Trong khi các giá trị liên tục dao động, những người thợ săn có
thể sử dụng chúng khi hiển thị xu hướng. Những dao động này có thể thay đổi tia lửa, khiến thợ
săn có thể hình dung các thay đổi, giúp dễ hiểu dữ liệu hơn.


×