TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
—&–
BÀI THU HOẠCH MÔN HỌC
CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG
Đề tài:
Khai mỏ dữ liệu trong bảo mật hệ thống
Data mining in system security
GVHD: GS.TSKH. Hoàng Văn Kiếm
HVTH: Hà Minh Ái – CH1101001
Lớp: Cao học CNTT khóa 6
TP.HCM, 06-2012
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 1
MỤC LỤC
Danh sách hình vẽ 2
Tài liệu tham khảo 3
Thuật ngữ viết tắt 4
A. ĐẶT VẤN ĐỀ 5
B. NỘI DUNG 6
I. Khai mỏ dữ liệu (Data mining) 6
1. Giới thiệu 6
2. Các bài toán điển hình 8
II. Bảo mật hệ thống 10
III. Khai mỏ dử liệu trong bảo mật hệ thống 12
1. Phát hiện đối tượng ẩn danh 13
2. Gom nhóm cảnh báo phát hiện xâm nhập 17
C. KẾT LUẬN 20
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 2
DANH SÁCH HÌNH VẼ
Hình 1 – Quá trình khám phá tri thức 8
Hình 2 – Mô hình hệ thống mạng bảo mật 11
Hình 3 – Chu kỳ bảo mật 12
Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng 13
Hình 5 – Phân cấp bộ tạo 18
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 3
TÀI LIỆU THAM KHẢO
[1] Hoàng Kiếm (chủ biên), Bài giảng cao học môn học Cơ sở tri thức và ứng dụng,
Đại học Khoa học tự nhiên TP.HCM
[2] Marcus A.Maloof, Machine Learning and Data Mining for Computer Security,
Nhà xuất bản Springer, 2006
[3] Anoop Singhal, Data warehousing and Data mining techniques for cyber
security, Nhà xuất bản Springer, 2007
[4] S.Prabhu, Data mining and Warehousing, Nhà xuất bản New Age International
Limited, 2007
[5] Thông tin từ Internet
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 4
THUẬT NGỮ VIẾT TẮT
Viết tắt Tiếng Anh Tiếng Việt
CLARA
Clustering Alarms for Root cause
Analysis
Gom nhóm cảnh báo cho việc
phân tích nguyên nhân ban đầu
CRM Customer Relationship Management
Quản lý quan hệ khách hàng
CSDL Cơ sở dữ liệu
DNS Domain Name System Hệ thống phân giải tên miền
DoS Denial of Service Từ chối dịch vụ
FTP File Transfer Protocol Giao thức truyền tập tin
HR Human Resources Nguồn nhân lực
HTTP HyperText Transfer Protocol Giao thức truyền siêu văn bản
IDS Intrusion Detection System Hệ thống phát hiện xâm nhập
LAN Local Area Network Mạng cục bộ
MIB Management Information Base Phần chứa thông tin quản lý
NAT Network Address Translation Biên dịch địa chỉ mạng
NFR Network Flight Recorder Bộ ghi sự đào tẩu khỏi mạng
OLAP On-Line Analytical Processing Quá trình phân tích trực tuyến
SYN Synchronous Đồng bộ
TCP/IP
Transmission Control Protocol /
Internet Protocol
Giao thức điều khuyển truyền
dẫn và Internet
WAN Wide Area Network Mạng diện rộng
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 5
A. ĐẶT VẤN ĐỀ
Ngày nay, cùng với sự phát triển mạnh mẽ của Internet, nhân loại chìm ngập,
sở hữu nguồn tri thức, thông tin dữ liệu khổng lồ được lưu trữ ở khắp nơi trên
thế giới. Việc tận dụng, khai thác tối đa nguồn dữ liệu đó để phục vụ hoạt động
kinh doanh, cuộc sống con người trở thành bài toán, thách thức cho ngành công
nghệ thông tin. Các ứng dụng thành công bậc điển hình như kết quả tìm kiếm
của Google khi đăng nhập và không đăng nhập, tính năng suggestion friends và
news stream của Facebook, website bán sách trực tuyến amazon.com, ….
Công nghệ thông tin phát triển với những thành tựu vượt bậc. Thế giới xuất
hiện các trào lưu mạng xã hội, mạng không biên giới, ảo hóa, điện toán đám mây,
truyền thông hợp nhất, thương mại điện tử, …. Đây là môi trường hoạt động
thuận lợi của các tin tặc (hacker). Chúng tấn công mạng, cài mã độc, liên tục
thích ứng với các biện pháp bảo vệ và đưa ra chiến thuật mới để phá vỡ các quy
định về quyền riêng tư và an ninh mạng. Nhu cầu bảo mật hệ thống được đặt ra.
Dựa vào việc phân tích hành vi, số giao dịch bất thường để nhận diện, dự đoán,
phòng thủ hữu hiệu.
Bài thu hoạch này ngoài việc tìm hiểu chung về Khai mỏ dữ liệu, Bảo mật hệ
thống, còn đi sâu vào tìm hiểu, khám phá và Phân tích ứng dụng của khai mỏ dữ
liệu trong bảo mật hệ thống. Qua đó thấy được tầm quan trọng, hiệu quả của
công nghệ khai mỏ dữ liệu và ứng dụng chúng trong việc phát hiện xâm nhập,
bất thường, lạm dụng, khai thác tính năng trong lĩnh vực bảo mật hệ thống.
Xin gửi lời cảm ơn chân thành đến GS.TSKH. Hoàng Kiếm đã hướng dẫn tận
tình các phương pháp nghiên cứu, tiếp cận công nghệ tri thức nói chung và khai
mỏ dữ liệu nói riêng. Đồng thời, Thầy cũng chia sẻ những kinh nghiệm, gợi mở,
tiếp cận vấn đề đang được quan tâm trong lĩnh vực công nghệ tri thức và ứng
dụng của nó trong thực tế.
Do bài thu hoạch làm với tư cách cá nhân nên chỉ dừng ở mức nghiên cứu
công nghệ và ứng dụng. Nghiên cứu chuyên sâu, làm rõ vấn đề, sản phẩm ứng
dụng sẽ được thực hiện tiếp trong chuyên đề “Khai mỏ dữ liệu”. Trong quá trình
nghiên cứu đề tài này không tránh khỏi thiếu sót, mong Thầy và các bạn góp ý
để bài thu hoạch hoàn thiện hơn. Chân thành cảm ơn Thầy và các bạn !
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 6
B.
NỘI DUNG
I.
Khai mỏ dữ liệu (Data mining)
1.
Giới thiệu
Khai mỏ dữ liệu (
data mining
) là quá trình tìm kiếm, khai thác, phát hiện các
mối tương quan, quy tắc, mô hình, các mẫu có giá trị tiềm ẩn bên trong khối dữ
liệu lớn, kho cơ sở dữ liệu (CSDL) của các đơn vị, doanh nghiệp, tổ chức ở
những lĩnh vực quan hệ. Ngoài thuật ngữ khai mỏ dữ liệu, người ta còn dùng
một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL
(
knowlegde mining from databases
), trích lọc dữ liệu (
knowlegde extraction
),
phân tích dữ liệu hay mẫu (
data/pattern analysis
), khảo cổ dữ liệu (
data
archaeology
), nạo vét dữ liệu (
data dredging
). Khai mỏ dữ liệu liên quan đến
xác suất thống kê, máy học, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song
song, thu nhận tri thức từ hệ chuyên gia và dữ liệu trừu tượng. Hiện nay, các hệ
quản trị CSDL như SQL server, Oracle đã tích hợp tiện ích khai mỏ dữ liệu chạy
trên hệ thống hiệu năng cao (
high performance
), sẵn sàng cao (
high available
),
máy khách/máy chủ (
client/server
), xử lý song song (
parallel programming
).
Khai mỏ dữ liệu bắt đầu từ các tập hợp dữ liệu để xây dựng một giả thuyết.
Khai mỏ dữ liệu thực hiện phân tích dữ liệu từ nhiều kích thước, góc độ, phân
loại, thăm dò (
exploratory
), quan điểm khác nhau; định vị lại việc truyền tải; rồi
đưa ra những thông tin hữu ích hỗ trợ người tìm kiếm, truy xuất dữ liệu theo thời
gian thực, đưa ra quyết định đầu tư, dự báo xu hướng phát triển, hành vi tương
lai, phân tích thử nghiệm. Khai mỏ dữ liệu được ứng dụng nhiều trong tài chính,
bán hàng, công nghiệp sản xuất, marketing, y học, viễn thông, thông tin khoa
học (thời tiết, bão lụt, động đất), …. Các vấn đề quan tâm nổi bật như giá thành,
mẫu, cách thức quảng cáo, kỹ năng nhân viên, chính sách kinh tế, nhu cầu thị
trường, khuyến mãi, giảm giá, độ hài lòng của khách hàng, lợi nhuận, ….
Ngành công nghiệp / Lĩnh vực ứng dụng Phân tích / Khai mỏ dữ liệu năm 2011
(Nguồn
[228 người bình bầu] (%) 2011 (trên) (%) 2010 (dưới)
CRM/ Phân tích người tiêu dùng (57)
25.0%
26.8%
Ngân hàng (43)
18.9%
19.2%
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 7
Chăm sóc sức khỏe/ HR (38)
16.7%
13.1%
Giáo dục (37)
16.2%
9.9%
Phát hiện gian lận (32)
14.0%
12.7%
Khoa học (31)
13.6%
10.3%
Mạng xã hội (30)
13.2%
6.6%
Chấm điểm tín dụng (29)
12.7%
8.0%
Tiếp thị trực tiếp/ Gây quỹ (28)
12.3%
11.3%
Bảo hiểm (28)
12.3%
10.3%
Tài chính (26)
11.4%
11.3%
Viễn thông/ Cáp (25)
11.0%
10.8%
Bán lẻ (24)
10.5%
8.0%
Y tế/ Thuốc (22)
9.6%
8.0%
Công nghệ sinh học/ Nghiên cứu cấu trúc gen (21)
9.2%
5.6%
Chính phủ/ Quân đội (17)
7.5%
6.1%
Du lịch/ Bệnh viện (17)
7.5%
1.4%
Quảng cáo (16)
7.0%
9.9%
Khai phá sử dụng web (16)
7.0%
8.9%
Phần mềm (16)
7.0%
0.0%
Thương mại điện tử (12)
5.3%
7.0%
Sản xuất (12)
5.3%
8.0%
Tìm kiếm/ Khai phá nội dung web (12)
5.3%
6.6%
Đầu tư/ Chứng khoán (10)
4.4%
5.6%
Giải trí/ Ca nhạc/ Tivi/ Điện ảnh (8)
3.5%
3.3%
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 8
An ninh/ Chống khủng bố (4)
1.8%
1.9%
Chính sách xã hội/ Phân tích khảo sát (4)
1.8%
0.9%
Thư rác/ Chống thư rác (3)
1.3%
0.9%
Khác (17)
11.7%
7.5%
Khai mỏ dữ liệu là một phần của khám phá tri thức trong CSDL (
knowledge
discovery in database
). Quá trình khám phá tri thức được cụ thể bằng mô hình
sau:
Hình 1 – Quá trình khám phá tri thức
ü
(1): Trích chọn dữ liệu cần khai mỏ từ tập dữ liệu lớn theo quy tắc định trước
do người dùng chỉ ra hoặc truy vấn nhận được
ü
(2): Bước đầu xử lý dữ liệu: Nhất quán, lọc nhiễu, rút gọn, rời rạc hóa dữ liệu
ü
(3): Biến đổi dữ liệu bằng cách chuẩn hóa, làm mịn dữ liệu
ü
(4): Khai mỏ dữ liệu bằng kỹ thuật phân tích nhằm tìm kiếm, phát hiện, trích
chọn các mẫu thông tin, mối quan hệ tìm ẩn trong tập dữ liệu
ü
(5): Biến đổi, biển diễn dữ liệu trên dạng đồ thị, cây, bảng, … và đánh giá tri
thức vừa khai mỏ được theo quan điểm người dùng
2.
Các bài toán điển hình
Khai mỏ dữ liệu được ứng dụng rộng rãi vì có thể làm việc với nhiều kiểu dữ
liệu khác nhau như dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu chuỗi thời gian, dữ
liệu văn bản, …. OLAP (
On-Line Analytical Processing
) là phương pháp phân
tích dữ liệu đa chiều phổ biến. Một số bài toán điển hình về khai mỏ dữ liệu:
-
Phát hiện luật kết hợp (Association rules): Việc tìm ra các mối liên hệ giữa các
thuộc tính, trường mô tả đối tượng trong tập dữ liệu nhờ tần suất xuất hiện cùng
nhau của chúng và xây dựng thành các luật cụ thể. Nếu thuật toán xét qua tất cả
các liên kết giá trị thuộc tính và thời gian càng dài thì thông tin có độ tương quan
càng nhiều và chính xác trong tập các mẫu. Đây là dạng biểu diễn tri thức đơn
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 9
giản. Luật kết hợp bao gồm những giá trị thuộc tính, mức hỗ trợ (%), sự tin cậy
(%) theo thuật toán Apriori.
Luật kết hợp có dạng: A => B
Cặp thuộc tính giá trị: (X
i
,Y
j
) với i, j = 0, 1, 2, …, n
Luật này thường ứng dụng trong lĩnh vực kinh doanh, y sinh học, tài chính,
chứng khoán, bảo mật.
Ví dụ, khi kẻ đột nhập có hành vi tấn công phần vật lý (physical) hệ thống thì
cũng tấn công phần mạng (network); hoặc người phụ nữ đi siêu thị thì thường
mua nước hoa, son phấn.
- Mô tả và phân lớp (classification) dữ liệu: Đánh dấu những đối tượng dữ liệu có
đặc trưng, mô hình, chức năng riêng; rồi xếp vào một trong những lớp đã biết
trước nhằm đặc trưng hóa và phân biệt dữ liệu. Hướng tiếp cận này gọi là học có
giám sát, thường sử dụng các kỹ thuật của máy học như cây quyết định, mạng
nơron nhân tạo, …. Mô tả tập trung vào tìm kiếm các mẫu mà con người có thể
hiểu được để mô tả dữ liệu. Biểu diễn, ngôn ngữ giả thuyết, ngôn ngữ mô tả khái
niệm dùng để xây dựng các mô hình. Ví dụ, khi phát hiện sự kiện hoặc quan sát
bất thường khi khai mỏ dữ liệu trong bảo mật hệ thống thì phân chúng vào một
trong các lớp của mô hình; trong dữ liệu loại tin tặc tấn công, các lớp bị tấn công
bao gồm lớp vật lý (physical), lớp liên kết dữ liệu (data link), lớp mạng
(network), lớp vận chuyển (transport), lớp phiên (session), lớp trình bày
(presentation), và lớp ứng dụng (application); hoặc trong siêu thị có nhiều mặt
hàng hóa như thực phẩm thức ăn, đồ uống, mỹ phẩm, quần áo, thiết bị, …
Mô hình dựa trên sự phân tích một tập các dữ liệu như nguyên tắc suy diễn
(if-then) từ các tập dữ liệu thống kê; cây quyết định: một tập các quyết định biểu
diễn dưới dạng cây; phương pháp hàng xóm gần nhất (nearest neighbor): phân
loại từng bản ghi, thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có
độ giống nhau nhất trong tập dữ liệu quá khứ, Phương pháp trung bình thông
tin lẫn nhau:
Tính hữu ích của thông tin (j) =
!("
#
, $)
%&{'
(
})
*
&{+,,}
/
0(1
2
,3)
4(5
6
)7(8)
Trong đó:
C: Lớp
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 10
v
j
: Giá trị của thuộc tính thứ j
P(v
j
,C): Tỷ lệ mà thuộc tính thứ j có giá trị v
j
trong lớp C
i
P(v
j
): Tỷ lệ mà n-gram thứ j nhận giá trị v
j
trong dữ liệu mẫu
P(C): Tỷ lệ dữ liệu mẫu thuộc lớp C
- Gom nhóm (Clustering): Gom các đối tượng dữ liệu vào một nhóm. Các đối
tượng này có thể tương tự với một đối tượng khác trong cùng nhóm, hoặc không
tương tự với các đối tượng trong các nhóm khác.
Gom nhóm được xem như một công cụ độc lập để xem xét phân bố dữ liệu,
và bước xử lý tiền đề cho các thuật toán khác. Ví dụ: Trong quy hoạch đô thị,
nhận dạng các nhóm nhà cửa theo hướng (Bắc, Nam, Đông, Tây, Đông Nam,
…), vị trí, giá, loại nhà (cấp 4, 1 tầng, 2 tầng, biệt thự, …). Trong tiếp thị thì
khái phá nhóm khách hàng từ cơ sở dữ liệu mua hàng trước đó (hóa đơn).
- Dự báo: Dùng một số biến hoặc trường trong CSDL để dự đoán ra các giá trị
chưa biết hoặc sẽ có của các biến quan trọng khác. Hệ thống có thể tự học thông
qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ tập dữ
liệu mà nó khai khác. Đó là mục tiêu chính trong mạng nơron, ứng dụng máy
học, nhận dạng mẫu. Khi dự đoán các giá trị dữ liệu kiểu số, người ta thường dự
đoán các giá trị khuyết.
- Phân cụm: Khám phá cấu trúc của mẫu dữ liệu, phân tích các đối tượng dữ liệu
khi chưa biết nhãn của lớp, nhóm các đối tượng dữ liệu sao cho các đối tượng
trong cùng một nhóm thì giống nhau hơn các đối tượng khác nhóm. Cụm có cấu
trúc phân cấp của các lớp, mỗi lớp là một nhóm các sự kiện tương tự nhau. Độ
tương tự được xác định dựa vào giá trị thuộc tính mô tả đối tượng hay khoảng
cách. Số cụm dữ liệu có thể xác định theo kinh nghiệm hoặc tự động theo
phương pháp phân cụm.
II. Bảo mật hệ thống
Nỗ lực bảo vệ kết nối máy tính, người dùng, đối tác, máy chủ web, mail, …
với hệ thống mạng ngày càng trở nên quan trọng hơn. Bảo mật hệ thống là một
lĩnh vực rộng bao gồm nhiều khía cạnh cả về lý thuyết và thực tiễn. Nó đóng vai
trò quan trọng trong lĩnh vực tài chính, ngân hàng, tình báo, …. Phạm vi bảo vệ
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 11
gồm mạng, hệ điều hành, ứng dụng, điểm nhạy cảm. Bảo mật hệ thống thường
kết các yếu tố như bảo mật, tính toàn vẹn và xác thực.
Hình 2 – Mô hình hệ thống mạng bảo mật
Kẻ xâm nhập, thăm dò thường hướng đến hệ thống kết nối Internet. Các tổ
chức đang triển khai hàng loạt các biện pháp để ngăn chăn các cuộc tấn công này.
Các vấn đề quan tâm của bảo mật hệ thống bao gồm việc phát hiện, đáp ứng,
ngăn chặn truy cập trái phép hoặc các cuộc tấn công vào hệ thống mạng của tổ
chức, doanh nghiệp từ mạng nội hoặc bên ngoài. Hệ thống không bao giờ hoàn
hảo, hướng đến sự tự tin cao đối với hệ thống đã xây dựng. Thiết kế hệ thống
không chỉ sử dụng cơ chế bảo vệ nội dung, di chuyển người dùng (bằng khóa)
khi có hành vi vi phạm chính sách an ninh mà còn phải phát hiện khi vi phạm
xảy ra (IDS dựa trên các chữ ký tĩnh của các cuộc tấn công để tách ra khỏi lưu
lượng mạng) và đáp ứng (giảm nhẹ, phân tích, phục hồi, cải thiện) hành vi vi
phạm này. Phản ứng này thường bao gồm phân tích lý do tại sao các cơ chế bảo
vệ không thành công và cải thiện chúng để ngăn chặn lỗi trong tương lai.
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 12
Hình 3 – Chu kỳ bảo mật
Mô hình hệ thống thông thường được xây dựng trên cơ sở phân tán, cho phép
lưu trữ và tính toán song song, khả năng chịu lỗi cao. Chính sách an ninh không
tốt thường để lộ những lỗ hổng bảo mật phổ biến từ mạng nội bộ, mạng không
dây, CSDL, thỏa hiệp xác thực (giả mạo). Để đảm bảo thông tin, các thuộc tính
bảo mật như thông tin giữ bí mật (nhận thực, mã hóa), toàn vẹn (so sánh với dữ
liệu trước), sẵn sàng (chống từ chối dịch vụ DoS, tải hệ thống, bổ sung dung
lượng) ở những thời điểm di chuyển (bảo vệ, khóa vật lý), lưu trữ (mã hóa, phân
bố riêng), xử lý (không gian bộ nhớ); đào tạo người dùng đầu cuối (gửi, nhận,
đính kèm với mail; mạng xã hội).
Kẻ tấn công tìm mọi cách thỏa hiệp với hệ thống để thực hiện những hành vi
gây tổn hại đến hệ thống, lợi ích doanh nghiệp, tổ chức. Để xâm nhập vào hệ
thống, kẻ tấn công có thể lợi dụng công nhân xây dựng nơi đặt hệ thống (vật lý),
chủ quan của người dùng (không dùng chính sách bảo mật), tác nhân trung gian
(virus, trojan, worm), …. Họ có thể có quyền truy cập tài liệu mã hóa hay đặt
mật khẩu, lưu lượng mạng. Trường hợp này có thể “đánh hơi” những mật khẩu
không được mã hóa và rời khỏi mạng. Một dạng tấn công khác, xâm nhập vật lý
để đặt thiết bị để đoạt khóa mã hóa
III.
Khai mỏ dữ liệu trong bảo mật hệ thống
Nhiều vấn đề khai mỏ dữ liệu cổ điển áp dụng trong lĩnh vực bảo mật hệ thống
ở giai đoạn phát hiện của chu kỳ bảo mật hệ thống như lựa chọn, xây dựng, học
tập gia tăng hoặc học qua mạng, nhiễu trong tập dữ liệu, phân phối dữ liệu sai
lệch, khai thác phân phối. Kỹ thuật khai mỏ dữ liệu hữu ích trong việc xác định
mô hình hoạt động, hành vi đề nghị bạn hay thù. Phiên phát hiện sử dụng sai
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 13
mục đích, thống kê các mã độc hại, mẫu thử nghiệm để tương tác nhận thức an
ninh mạng của toàn bộ lưu lượng mạng. Việc xem xét mối tương quan giữa tập
hợp các thuộc tính để đạt được những hiểu biết nhất định vào dữ liệu nguồn.
Hình 4 – Mô hình khai mỏ dữ liệu trong hệ thống mạng
Khi áp dụng các thuật toán, cần thu thập đủ dữ liệu, xử lý trực tuyến (cùng lúc
theo thời gian). Đối với tập dữ liệu lớn và thường xuyên thay đổi, cần sử dụng
thuật toán gia tăng dùng cho các mẫu mới để sửa đổi mô hình hiện tại. Thuật
toán dựa vào khoảng cách (hàng xóm, gần nhất) tính toán khoảng cách giữa vị trí
quan sát và mẫu lưu trữ. Các thuộc tính có giá trị lớn sẽ mất ưu thế trong tính
toán khoảng cách nên nó chỉ áp dụng cho việc lựa chọn tính năng. Cách tiếp cận
phân loại (cây quyết định, nguyên tắc quyết định) và gom nhóm (thuật toán k-
means) trong khối dữ liệu lớn để cải thiện hệ thống phòng thủ (lọc với Heuristic,
giảm cảnh báo sai, phát hiện hoạt động bất thường, tổng hợp, xếp hạng theo mức
độ nghiêm trọng).
Các vấn đề cần giải quyết như mô tả lựa chọn tính năng ban đầu, tổng hợp,
phát hiện cả bất thường và loại tấn công đã biết, ghi nhãn dữ liệu phân loại giám
sát, nhiều cảnh báo chìm trong lớp nhỏ, xác định hành vi đối với mức độ cảnh
báo, tiếp cận cây quyết định, gom nhóm, ….
1.
Phát hiện đối tượng ẩn danh
Theo truyền thống, việc phát hiện xâm nhập nguy hiểm sẽ do các chuyên gia
an ninh thực hiện phân tích hàng ngày, không có sự hỗ trợ tự động. Khi các cuộc
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 14
tấn công, thăm dò hệ thống tràn ngập, liên tục, số lượng cảnh báo lớn trong một
ngày sẽ gây nhiều khó khăn, tạo ra gánh nặng cho đội ngũ này. Hai đối tượng
quan tâm như chương trình độc hai đang chạy, kẻ xâm nhập trái phép. Hầu hết,
quá trình học tập trung vào việc phát hiện các cuộc tấn công kỹ thuật có xuất
phát từ bên ngoài hệ thống mạng của một tổ chức. Khai mỏ dữ liệu đóng vai trò
quan trọng trong việc phát hiện xâm nhập để cải thiện hệ thống phòng thủ mạng.
Kẻ tấn công thường công khai trên mạng Internet sau khi thực hiện hành vi
xâm nhập của mình. Cách tiếp cận truy vấn dữ liệu trên công cụ tìm kiếm
(Google, Yahoo, Baidu, …) để truy tìm dấu tích.
Hệ thống sinh trắc bị tấn công, làm nhận dạng sai đối tượng. Thật dễ dàng
phát hiện cuộc tấn công bằng cách quan sát hành vi con người. Khai mỏ dữ liệu
tự động quan sát hệ thống sinh trắc để phát hiện các cuộc tấn công.
Kẻ tấn công nằm trong mạng nội bộ gây nguy hiểm nhất. Sử dụng tương quan
thời gian để phát hiện và xác định kẻ giấu mặt trong nội bộ. Một người dùng
nhàn rỗi trước thời gian hệ thống hoạt động bình thường có thể thực hiện những
hành vi bẻ khóa hệ thống.
Doanh nghiệp, tổ chức dùng hệ thống xác thực theo vị trí người dùng. Sử dụng
dữ liệu của hệ thống này có thể nhận dạng kẻ tấn công bên trong theo sự di
chuyển và truy nhập những thành phần.
Chính sách an ninh thường giới hạn quyền truy nhập của người dùng vào các
thành phần thông tin, dữ liệu quan trọng để làm việc. Mỗi thành phần đại diện
cho một tập con dữ liệu. Việc phát hiện kẻ tấn công nội bộ dựa trên sự so sánh
dữ liệu truy cập thành phần với người dùng có quyền tương tự.
Kẻ tấn công bên ngoài khai thác sự tin tưởng, giúp đỡ của người dùng trong tổ
chức để thu thập thông tin cá nhân của máy tính bất hợp pháp (social
engineering attacks). Có thể phát hiện bằng cách theo dõi dữ liệu các cuộc gọi
điện thoại đi và đến của tổ chức. Dữ liệu này chắc chắn sẽ có trong hồ sơ điện
thoại của tổ chức. Ví dụ, máy chủ dựa trên hệ thống phát hiện xâm nhập IDS
(Intrusion Detection System) giám sát truy cập vào Windows Registry của
Microsoft sử dụng thuật toán phát hiện bất thường dựa vào xác suất. Hệ thống
phát hiện hành vi đăng ký bất thường bằng cách đào tạo trên một tập dữ liệu truy
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 15
cập đăng ký bình thường. Sau đó sử dụng mô hình này để phát hiện các giá trị
ngoại lai được tạo ra từ cùng hệ thống trong dữ liệu mới (không được phân loại).
Sự gia đột ngột trong hệ thống mạng hiện tại được xem như loại tấn công DoS,
hay liên kết web đột nhiên bất thường. Loại tác động xấu đến hệ thống này khó
có thể phân loại là vô tình hay cố ý. Tính chất phức tạp của chúng diễn ra từ từ
hay nhanh chóng tùy thuộc vào thời gian, quy mô tác động trực tiếp. Có thể phân
biệt chúng bằng cách kiểm tra lưu lượng mạng hiện tại.
Các tác nhân trung gian như virus, worm, trojan thực hiện thăm dò, thực thi
những hành động ẩn nguy hiểm gây tác hại không nhỏ đến hệ thống tổ chức. Có
thể phát hiện dựa trên các mẫu (đã dán nhãn, gắn thẻ) của lưu lượng mạng bên
ngoài, học có giám sát. Loại virus, kiểu tấn công mới liên tục phát triển, nên cần
cập nhật dữ liệu mẫu, chữ ký (IDS) hàng ngày hàng giờ.
Trong lĩnh vực an ninh mạng, mô tả sự cố từ các mẫu cảnh báo trở nên phức
tạp. Tất cả những dữ liệu mẫu của cảm biến này được đẩy về máy chủ trung tâm
liên tục để xử lý, nạp vào CSDL quan hệ. Chuyên gia, người sử dụng xem lại các
dữ liệu sự cố, cảnh báo riêng thông qua giao diện phân tích (truy vấn SQL).
Trong bảng (table) dữ liệu này, một bản ghi (record) chứa một cảnh báo duy
nhất chứa các thuộc tính như địa chỉ nguồn (source IP address), địa chỉ đích
(destination IP address), thời gian. Mỗi cảnh báo trong tập ánh xạ (nghi vấn) sẽ
hướng đến tập địa chỉ đích. Nếu một sự kiện hướng trực tiếp đến tập con của địa
chỉ đích thì những lỗ hổng được phát hiện và sắp có một cuộc tấn công ồ ạt đến
một máy chủ nào đó trong mạng. Vùng phủ được tính như sau:
9 =99:(1:;:
<=>
?
(@
ABCDE
)
F
GHIJK
)
Trong đó:
E: Tập hợp các sự kiện duy nhất trong tình huống
n
dstip
: Tổng số địa chỉ đích duy nhất trong tình huống
min
E
(n
dstip
): Số địa chỉ đích riêng biệt tối thiểu cho bất kỳ sự kiện nào
trong tình huống
Tính phổ biến được tính như sau:
L =
M
5N:;:1::::::(O: < :20)
99:::::::::(PQRSV:WXZ)
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 16
Trong đó:
[ =
\]^
_
(`
a
)
¬b
c
D: Tập hợp các địa chỉ riêng biệt trong tình huống
max
D
(n
r
): Số bản ghi liên quan với vài địa chỉ đích trong tình huống
¬n
d
: Số bản ghi trung bình mỗi địa chỉ đích trong tình huống
Dữ liệu mẫu này có thể chưa chắc chắn, có khi sai ở mức độ nhỏ. Để đảm bảo
hơn cần học mức độ tấn công xảy ra bất ngờ, bất thường (bộ sưu tập cảnh báo),
phân loại tấn công trước khi đưa vào bộ sưu tập cảnh báo, bổ sung thêm thuộc
tính (số bản ghi cùng địa chỉ nguồn và đích trong ngày cuối cùng, số bản ghi
cùng địa chỉ nguồn và cổng đích ngày cuối cùng, …), ngữ cảnh xuất hiện.
Như hình 4, phát hiện xâm nhập dựa vào việc phân tích lưu lượng truy cập
mạng của hàng loạt cảm biến dựa trên chữ ký có sẵn. Phân loại được áp dụng
nhiều lần trong phát hiện xâm nhập nhằm phân các sự kiện thành loại tấn công
riêng biệt, dịch vụ mạng bình thường. Phân loại cảnh báo giả hơn hẳn bộ phân
loại kiểu tấn công và sử dụng dữ liệu kết nối mạng hiệu quả hơn so với dữ liệu
kết nối thô. Thuật toán phân loại Ripper cập nhật các quy tắc được sử dụng bằng
NFR (Network Flight Recorder), công cụ giám sát thời gian thực thương mại.
Các máy chủ bên ngoài gửi hàng loạt yêu cầu đến những máy (IP address) trong
mạng. Mục đích của hành động này nhằm xác định loại dịch vụ đang chạy, làm
tắt nghẽn hàng đợi, ngăn cản truy nhập dữ liệu mẫu để phân tích.
Vấn đề phát sinh như giảm số lượng cảnh báo sai cũng phải được quan tâm
đến, cân bằng tham chiếu trong dữ liệu. Để làm được điều này cần xây dựng bộ
phân loại mà có thể học từ mẫu lớn. Mẫu này chứa đầy đủ những quy tắc lọc
cảnh báo sai, hỗ trợ cập nhật tăng tưởng loại tấn công mới, cảnh báo sai được
làm rõ theo thời gian.
Thuật toán phân loại tăng trưởng dựa vào những quy tắc tri thức miền, ngoại
trừ những mẫu đã dán nhãn. Các chuyên gia sẽ cung cấp những quy tắc tri thức
miền này. Quy tắc này sửa đổi quá trình lựa chọn thuộc tính khi xây dựng cây để
những thuộc tính có giá trị thấp có thể được chọn. Nếu chỉ có những quy tắc thì
học phân loại xảy ra trước đó. Khi dữ liệu duy nhất, chỉ cần xem xét tính phù
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 17
hợp của phân loại được thiết lập ở hiện tại, không quan tâm trước đó. Khi có cả
quy tắc và dữ liệu thì phân loại phải thống nhất trong việc chọn một thuộc tính
khác với thuộc tính có giá trị lớn nhất, không dùng trung bình. Nếu sử dụng tri
thức miền lặp đi lặp lại thì có thể sử dụng một ngưỡng và phương pháp tham
chiếu theo xếp hạng, phần trăm. Quy tắc không khuyến khích lựa chọn thuộc
tính bằng cây quyết định. Thủ tục cây quyết định gốc:
Tập các vectơ E miêu tả thuộc tính A
Tìm thuộc tính a tốt nhất trong tập mẫu E
Áp dụng quy tắc tri thức miền để điều chỉnh yêu cầu thuộc tính
Phân chia tập mẫu E thành những tập con E
i
có a = v
i
với i = 1, 2, …, n)
Kiểm tra mỗi E
i
:
+ Nếu tất cả các mẫu thuộc cùng lớp thì xây dựng nhánh và dừng
+ Nếu khác thì quay lai tìm thuộc tính a với những mẫu trong E
i
2. Gom nhóm cảnh báo phát hiện xâm nhập
Trong thực tế, hệ thống IDS thường kích hoạt để cảnh báo hàng ngàn cuộc tấn
công biết trước. Các vấn đề gốc rễ nguyên nhân của các cuộc tấn công cũ vẫn
còn đó. Ví dụ, các nguyên nhân có thể gây ra đối với hệ thống:
- Có vấn đề đối với ngăn xếp TCP/IP gây phân mảnh lưu lượng đầu ra thì
kích hoạt cảnh báo “IP bị phân mảnh” (fragmented IP)
- Một virus lây lan trong hệ thống các máy chủ chuyên dụng
- Không cấu hình máy chủ DNS phụ (secondary DNS)
- Tấn công chiếm quyền điều khiển TCP,
- Gói SYN của các dịch vụ trên đường cấu hình NAT (Network Address
Translation)
- Cân bằng tải trên hệ thống ủy quyền Proxy
- Các phần mềm giám sát truy vấn thông tin quản lý MIB (Management
Information Base)
- Tấn công từ chối dịch vụ DoS gây “SYN flooding”
Vấn đề thống nhất thuật ngữ gây khó khăn trong việc định nghĩa nguồn gốc
tấn công. Do vậy, cần có những bước tích cực hơn như gom nhóm, phân tích
nguồn gốc các cuộc tấn công, và cuối cùng sẽ hành động. Người ta phân ra loại
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 18
kích thước báo động (lớn, nhỏ), không gian báo động có thể tìm kiếm. G
i
là phân
cấp tạo riêng biệt đối với mỗi thuộc tính A
i
.
Hình 5 – Phân cấp bộ tạo
Dùng thuật toán CLARA (
Clustering Alarms for Root cause Analysis
) để gom
nhóm và tổng hợp những cảnh báo cho việc chia sẻ cùng nguồn gốc tấn công. Có
thể thay đổi thuật toán này để phù hợp với mô hình tổng quát. Nội dung thuật
toán:
Đầu vào: Gom nhóm cảnh báo (log cảnh báo L , kích thước nhỏ nhất min zie,
G
i
)
Đầu ra: Phương pháp phân cấp (log cảnh báo L , kích thước nhỏ nhất min
size, G
i
)
Thuật toán:
1: T:= L ;
// Lưu log trong bảng T
2: for all_alarms_in_T do a[count] := 1;
// khởi tạo đếm
3: while
∀
a
∈
T : a[count] < min size do {
4: Sử dụng tính thích ứng để lựa một thuộc tính A
i
với i = 1, 2, …, n
5: for all_alarms_in_T do // tạo thuộc tính A
i
6: a[A
i
]:= cha của a[A
i
] trong G
i
;
7: while những cảnh báo a giống nhau, a’exist do
// gộp cảnh báo giống nhau
8: Set a[count] := a[count] + a’[count] và xóa a’ trong T ;
9: }
10: Đầu ra là những cảnh báo được tạo a
∈
T với a[count] ≥ min size;
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 19
Thuật toán CLARA hỗ trợ phân tích nguyên nhân gốc rễ trong thực tế, thể
hiện sự tồn tại của cụm. Tất cả các kết quả gom nhóm phải được ưu tiên, xác
nhận. Cần phân tích nhân rộng để xác nhận cụm báo động đươc xác định bởi
CLARA
Bài thu hoạch Khai mỏ dữ liệu trong bảo mật hệ thống
Hà Minh Ái – CH1101001 20
C. KẾT LUẬN
Ứng dụng khai mỏ dữ liệu trong bảo mật hệ thống nhằm tìm kiếm, phát hiện,
phân tích, tổng hợp, báo cáo, hỗ trợ ra quyết định để tăng cường an ninh hệ
thống. Việc phát hiện xâm nhập linh hoạt hơn khi có mô hình và cập nhật dữ liệu
thường xuyên, học toàn bộ không gian miền giá trị. Cách tiếp cận phân loại (cây
quyết định, nguyên tắc quyết định) và gom nhóm (thuật toán k-means) trong
khối dữ liệu lớn để cải thiện an ninh mạng, hệ thống phòng thủ.
Các ý tưởng tương tác với một số khía cạnh bảo mật đang gặp khó khăn vì dữ
liệu thích hợp có sẵn không được kiểm tra chặt chẽ, liên kết. Việc cải thiện hiệu
suất phòng thủ hiện có góp phần giảm tải cách tiếp cận khai mỏ dữ liệu.
Ứng dụng khai mỏ dữ liệu trong các lĩnh vực như tài chính, bảo hiểm, viễn
thông, khoa học công nghệ, y học, … để phân tích, hỗ trợ ra quyết định và thúc
đẩy sự phát triển xã hội.
Trong chuyên đề “Khai mỏ dữ liệu” được học sắp tới, đề tài này sẽ được
nghiên cứu chuyên sâu, làm rõ các vấn đề hơn và thực hiện demo thử nghiệm
cho ứng dụng thực tế.
o0o