Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.2 MB, 26 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Luận văn được hoàn thành tại:</small>
Người hướng dẫn khoa học: TS. Vũ Tất Thắng
<small>Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học</small>
viện Cơng nghệ Bưu chính Viễn thơng
<small>Có thê tìm hiéu luận văn tại:</small>
Mặc dù ra đời chưa lâu nhưng mạng Internet đã phát triển mạnh mẽ và ngày
nay nó có ảnh hưởng sâu rộng trong hầu hết tất cả các lĩnh vực của đời sống con người. Bên cạnh những lợi ích to lớn thì nó cũng mang lại nguy cơ bị tấn công không nhỏ cho các tô chức và người dùng kết nối vào Internet. Các cuộc tấn cơng mạng trên tồn thế giới khơng ngừng tăng về số lượng cũng như mức độ nguy hiểm của chúng. Những cuộc tan cơng mạng có thé gây ra những hậu quả nghiêm trọng về kinh tế, xã hội thậm chí ảnh hưởng tới an ninh chính trị của một quốc gia. Tại Việt Nam, trong những năm gần đây chúng ta khơng ít lần chứng kiến các hệ thống website nổi tiếng bị tin tặc tan công như: dantri.com.vn, vietnamnet.vn, vff.org.vn... Việc phát hiện và xử lý thủ phạm gây ra các cuộc tấn công là cực kì khó khăn. Giải
pháp kỹ thuật phổ biến cho van dé này là tìm cách phát hiện sớm các cuộc tấn cơng mạng dé từ đó có giải pháp thích hợp xử lý đối phó với chúng.
Một số hệ thống phát hiện xâm nhập ra đời (IDS — Intrusion Detection System) nhằm phát hiện và ngăn chặn sớm các cuộc tan công mạng. Hai hướng tiếp cận phổ biến dé xây dựng hệ thống IDS là: xây dựng Hệ chuyên gia (rule-based) và hướng ứng dụng Học máy (SVM, mạng no-ron...). Mỗi phương pháp đều mang lại những hiệu quả nhất định, nhưng bên cạnh đó chúng cịn ton tại những hạn chế <small>riêng:</small>
- Hệ chuyên gia (rule-based): Phương pháp này sử dụng các luật tan công đã biết trước, dựa vào các luật được định nghĩa trong hệ thống mà khi có cuộc tan cơng mới thì hệ thống sẽ so sánh các đặc trưng, dấu hiệu của gói tin với tập luật đã có. Ưu điểm là khi đã được định nghĩa luật cho cuộc tan cơng thì khả năng phát hiện nhằm rất thấp, có thé thêm các luật mới rất linh động, cơ chế hoạt động không quá phức tạp. Nhược điểm là khi
khơng có luật cho kiểu tấn cơng mới thì hệ thống khơng phát hiện được. Số lượng luật nhiều hệ thống sẽ hoạt động chậm hơn. IDS dạng này phụ
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">thuộc rất nhiều vào khả năng cập nhật luật mới cũng như trình độ am hiểu về bảo mật của người quản trị.
- Ung dụng học máy: Phương pháp này ra đời với mục đích khắc phục
việc phải cập nhật các luật mới có thể tạo ra xung đột trong tập luật đã có, vốn chỉ phù hợp với các mơ hình qui mơ vừa. Thay vào đó hệ thống IDS
sẽ được học mơ hình phát hiện bất thường dựa trên một số lượng nhất
<small>định các mẫu dữ liệu được thu thập. Hiệu quả của phương pháp này</small>
thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong
thay đổi huấn luyện. Với cách tiếp cận này, người ta có thé dé dang hơn trong việc xây dựng các hệ thông IDS phức tạp, việc phát hiện xâm nhập không đơn thuần chỉ là phát hiện nhằm cảnh báo có tan cơng hay khơng tấn cơng mà cịn có thể đưa ra loại hình, tính năng chi tiết của cuộc tấn <small>công tương ứng. Mạng nơ-ron là một phương pháp học máy được chọn</small> trong luận văn dé ứng dụng cho bài toán phát hiện xâm nhập theo phương <small>pháp học máy.</small>
Trên thực tế, hướng tiếp cận ứng dụng học máy cũng không đảm bảo cho kết
quả tốt trong mọi tình huống. Ví dụ, các hình thức tan cơng như DoS, DDoS, Probe
nhiều. Các cuộc tan công DoS rat phổ biến nhưng các cuộc tấn cơng U2R lại rất ít dé lay mẫu. Điều này dẫn đến tình trạng dữ liệu thu thập được khi áp dụng cho học máy cũng có tỉ lệ chênh lệch rat lớn giữa các kiêu tan công, dẫn đến việc dự báo bị
thiên vị cho các lớp dữ liệu nhiều và ít hiệu quả với các lớp dữ liệu ít, đôi khi làm
giảm cả chất lượng dự báo chung của cả hệ thống.
<small>Mục đích nghiên cứu</small>
Mục đích của đề tài là tìm hiểu mạng nơ-ron để áp dụng cho bài tốn phát
hiện xâm nhập. Bên cạnh đó đề tài còn quan tâm đến việc cải tiến chất lượng hệ thống IDS, nhằm mục dich phát hiện chính xác hon và không thiên vị giữa các kiểu cảnh báo tan công trong điều kiện dữ liệu huấn luyện chênh lệch nhau.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Nghiên cứu kỹ thuật học máy mạng nơ-ron, sau đó ứng dụng đề làm công cụ phân loại các kết nối mạng trên bộ dữ liệu KDD cup 99.
Tìm hiểu, phân tích bộ dữ liệu KDD cup 99 được cung cấp bởi Cơ quan Quản lý Nghiên cứu Dự Án Bộ quốc phịng Mỹ (DARPA) cho bài tốn phát hiện
<small>xâm nhập sử dụng mạng nơ-ron.</small>
Nghiên cứu các hệ thống IDS sử dụng mơ hình hệ chun gia (rule-based) như Snort dé nắm được ưu nhược điểm dé cái tiễn hệ thống IDS sử dụng học máy.
<small>Phương pháp nghiên cứu</small>
Nghiên cứu và cài đặt kỹ thuật học máy mạng nơ-ron. Thu thập và tiền xử lý
bộ dữ liệu mẫu hiện có về tan công mạng. Áp dụng giải pháp cải tiến trên dữ liệu đã xử lý, đánh giá kết quả sau khi thực hiện với các kết quả nghiên cứu đã cơng bố
<small>trước đó.</small>
Đó là ly do tác giả chọn dé tài “Nghién cứu ứng dụng mạng noron trong <small>bài toán phát hiện xâm nhập”.</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Theo Sandeep Gutta thì tan cơng mang (cyber attack hay intrusion) có thé được hiểu là một loạt các hoạt động máy tính nguy hiểm de dọa và làm tốn hai tới
sự bảo mật và tính tồn vẹn của một máy tính hay hệ thống mạng. Tấn cơng mạng phá vỡ hoạt động bình thường của hệ thống máy tính và có thê truy nhập trái phép hoặc phá hủy thơng tin trong các hệ thống máy tính.
Có nhiều cách thức tan cơng mạng nhưng chúng ta có thé phân thành bốn loại hình tan cơng chính như sau:
DoS - Denial of Service attack: Là những tấn công làm cho tài nguyên máy tính (ví dụ Web server) khơng phục vụ được theo yêu cầu của người dùng thực sự.
R2L - Remote to Local attack: Tin tặc có gắng đạt được quyền truy cập vào khu vực hệ thống máy tính bằng việc gửi các gói tin tới hệ thống thơng qua mạng.
Một vài cách phổ biến mà loại này thực hiện là đốn mật khâu thơng qua phương
pháp từ điển brute-force, FTP Write,...
U2R - User to Root attack: Tin tặc với quyền của một người dùng bình thường cố gắng dé đạt được quyền truy nhập cao nhất vào hệ thống một cách bat <small>hợp pháp.</small>
Probe - Surveillance: Tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễ tan cơng mà thơng qua đó tin tặc có thé khai thác hệ thống. Một cách phổ biến của loại tan công này là thực hiện thông qua việc quét các cơng của hệ thống máy tính.
<small>1.2 Bài tốn phát hiện xâm nhập mạng</small>
Khi một máy tính hay một hệ thống máy tính hoạt động trên mơi trường mạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác. Có thé trong những kết nỗi đó có những kết nối đang tìm cách tấn cơng hệ thống dé đạt
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">được mục đích nào đó. Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệ nhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn công mới với mức độ ngày càng tinh vi hơn. Bên cạnh đó các máy tinh hay hệ thống cũng phải chịu các nguy cơ đến từ việc vi phạm chính sách an tồn thơng tin một cách vơ tình hay cơ ý. Bài tốn được đặt ra là cần có cơ chế phát hiện sớm các cuộc
tan cơng dé từ đó có những biện pháp ngăn chặn hoặc giảm thiéu tối đa những thiệt <small>hại, tác động do các cuộc tân công gây ra.</small>
<small>1.2.1 Phát hiện xâm nhập mạng</small>
<small>Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một</small>
hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự có có thé xảy ra, đó là các hành vi hoặc các mối de dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trên bảo mật tiêu chuẩn.
<small>1.2.2 Phân loại phương pháp phát hiện xâm nhập mang</small>
Các IDS có thê giám sát các sự kiện ở 3 cấp độ khác nhau: mạng (network), máy trạm (host), ứng dụng (application). Chúng có thé phân tích các sự kiện bằng việc sử dụng một trong các phương pháp: dựa trên dấu hiệu (signature-based), dựa <small>trên di thường (anomaly-based) và phân tích trạng thái giao thức (statefull protocol</small> analysic). Có hai cách dé phân loại IDS đó là:
<small>Dựa trên phương pháp giảm satDựa trên phương pháp phán tích</small>
Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) là hệ thống
phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên <small>quan đên an ninh, bao mật và đưa ra cảnh báo cho nhà quản tri.</small>
Trung tâm điều khiển (The Command Console)
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Bộ cảm biến (Network Sensor)
<small>Bộ phân tích gói tin (Network Trap)</small>
Thành phần cảnh báo (Alert Notification)
<small>1.3.2.1 Network-based Intrusion Detection System (NIDS)</small>
NIDS (hệ thống phát hiện xâm nhập cho mang) là một giải pháp độc lập dé <small>cảnh báo các xâm nhập trái phép thơng qua việc phân tích các gói tin trên mạng và</small>
giám sát hoạt động của nhiều máy trạm nội bộ, NIDS kiểm sốt các luồng thơng tin
bằng cách kết nối vào các Hub, Switch được cấu hình Port mirroring hoặc Network
tap dé có thé bắt các gói tin, phân tích nội dung nhận được va từ đó sinh ra các cảnh
<small>1.3.2.2 Host-based Intrusion Detection System (HIDS)</small>
Trong hé thong HIDS (hé thong phát hiện truy nhập dựa trên máy trạm), các sensor thông thường là một phần mềm trên máy trạm (software agent), nó giám sát <small>tât cả các hoạt động của máy trạm mà nó năm trên đó.</small>
<small>1.3.2.3 Hybrid Intrusion Detection System</small>
La một hệ thống lai giữa hệ thống Network- based IDS va hệ thống Host-based IDS. Nó kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thống lại với nhau. Các thông tin thu thập được trên máy trạm (host agent data) kết hợp
với thơng tin thu thập được ở trên mang dé có sự phân tích một cách chỉ tiết về hiện
trạng hệ thống mạng.
Sự bất thường trong mạng thường dùng để chỉ những tình huống khi hoạt
động của mạng đi chệch so với các trạng thái được quy định là bình thường. Bất thường trong mạng có thê được chia làm hai lớp chính:
- _ Lớp bất thường thứ nhất: liên quan đến những sự cố và những lỗi về hiệu năng của mạng như sự cố liên quan đến File Server, sự cô phân trang bộ nhớ qua mạng (paging across the network), tắc nghẽn đường truyền (transient congestion)... Trong một vài trường hợp những lỗi phần mềm cũng có thé gây ra các bất thường như những lỗi khi xây dựng giao thức mạng khiến cho một máy liên tục gửi các gói tin gây tắc nghẽn mạng...
- Lớp bat thường thứ 2: là những van đề liên quan đến an ninh mạng. Ví dụ
về những bat thường dạng này là tan công từ chối dịch vu (DoS).
Thu thập các loại dữ liệu liên quan đến hiệu năng của mạng là công việc cơ bản cho việc phát hiện bất thường. Các loại bất thường có thể phát hiện được phụ thuộc vào bản chất của dữ liệu mạng. Phương pháp phát hiện bất thường là xây dựng tập các hồ sơ trạng thái bình thường của mạng để so sánh do đó dữ liệu thu <small>thập càng chính xác khả năng phát hiện càng cao, thuật toán càng hiệu quả. Dưới</small> đây là các nguồn dữ liệu cho phát hiện bat thường:
<small>2.2.1 Network Probes</small>
<small>Network Probes là các công cụ đặc biệt như lệnh ping, traceroute...được sử</small>
dụng dé thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mat gói tin.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Trong phương thức lọc gói tin, các luồng gói tin sẽ được thống kê, lấy mẫu bằng cách ghi lại các thông tin IP header của các gói tin ở các thời điểm khác nhau và ở các vị trí khác nhau. Các thơng tin thu được từ IP header có thể cung cấp chỉ tiết về hoạt động của mạng, chúng có thể được sử dụng trong việc phát hiện các bất thường về luồng. Một luồng thông tin được xác định bởi địa chỉ nguồn, địa chỉ đích
<small>và sơ hiệu cơng.</small>
Thông tin về các sự kiện mạng có thê được thu thập thơng qua các giao thức định tuyến. Dữ liệu thu được có thé xây dựng topology (cách bố trí phan tử của mạng cũng như cách nối giữa chúng với nhau) của mạng và cung cấp trạng thái cập nhật của đường truyền như về băng thông, độ trễ, mức độ tắc nghẽn mạng...
<small>2.2.4 Dữ liệu từ các giao thức quản trị mạng</small>
Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông
<small>trên mạng. Những giao thức này hỗ trợ rất nhiều thơng số có thé giám sát chính xác</small>
hoạt động thiết bị mạng. Những thơng tin thu thập được có thể khơng cung cấp trực
tiếp các thông số đo lường về giao thông mạng nhưng có thé dùng dé nhận dạng các
hành vi trên mạng do đó có thê được sử dụng trong phát hiện bất thường mạng.
<small>2.3.1 Phương pháp hệ chuyên gia (rule-based)</small>
<small>Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các</small>
hành vi bất thường được dùng để so sánh với các luồng dữ liệu đi đến hệ thống
mạng. Nếu một luồng dit liệu đi đến hệ thống với mục đích tấn cơng mà khơng được định nghĩa trong tập luật thì hệ thong IDS khéng thé phát hiện được.
Hệ thống phát hiện bất thường dựa trên rule-based có đặc điểm dễ cấu hình, dễ thêm luật mới và dễ sử dụng. Mỗi khi hệ thống mạng đứng trước những nguy cơ <small>tần công mới, người quản tri chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">liệu. Phương pháp này có tỉ lệ phát hiện nhằm rất thấp vì nó dùng cách phân tích gói
<small>tin và so sánh với mẫu đã có.</small>
<small>Tuy nhiên hệ thống phát hiện xâm nhập dựa trên rule-based sẽ trở nên chậm</small>
chap dan khi tập luật phình to lên. Phương pháp này cịn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi hệ thống có sự thay đồi thi cần có sự bổ sung về tập luật.
<small>2.3.2 Phương pháp mạng no-ron (Artificial Neural Network)</small>
Phương pháp này ra đời với mục đích khắc phục việc phải cập nhật các luật mới có thê tạo ra xung đột trong tập luật đã có của hệ thống IDS rule-based, vốn chỉ phù hợp với các mơ hình quy mơ vừa, nhỏ. Thay vào đó hệ thống IDS sẽ được học
mơ hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu. Hiệu quả của phương pháp này thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong thay đồi huấn luyện. Ưu điểm của mạng nơ-ron là thích ứng được với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao và không cần cập nhật tri thức thường xun do nó có q trình tự học.
<small>2.3.4 Mang Bayes (Bayesian network based)2.3.5 May trang thai hitu han</small>
<small>3.1 Mơ hình mạng nơ-ron trong bài tốn phát hiện xâm nhập</small>
Ứng dụng một mơ hình mạng nơ-ron cụ thé thường được chia lam hai giai đoạn là: huấn luyện và kiểm tra mẫu mới. Tỷ lệ phát hiện xâm nhập thành công của mạng nơ-ron phụ thuộc rất nhiều vào tập mẫu. Nếu tập mẫu này được phân tích và
thống kê với đầy đủ các đặc trưng của xâm nhập thì khả năng phát hiện sẽ tốt hơn.
Một tập mẫu tốt phải là một tập mẫu đủ lớn, chứa tất cả các loại tấn cơng điển hình, với các đặc trưng của xâm nhập được thống kê và phân tích rõ ràng.
Với những phân tích nêu trên, việc áp dụng mạng nơ-ron để giải quyết bài toán phát hiện xâm nhập là hoàn toàn khả thi. Nhiệm vụ chính của bài tốn là thiết kế một mạng nơ-ron dé huấn luyện trên một tập mẫu thu thập từ thực tế. Như vậy dé
giải quyết bài toán chúng ta cần thực hiện qua 4 giai đoạn như sau:
- - Giai đoạn 1: Thu thập dữ liệu va tiền xử lý dữ liệu phục vụ quá trình học của
<small>mạng nơ-ron.</small>
- _ Giai đoạn 2: Thiết kế mạng nơ-ron dựa trên cơ sở phân tích dữ liệu xác định các đặc điểm của xâm nhập (đầu vào của mạng nơ-ron).
- Giai đoạn 3: Huấn luyện cho mơ hình mạng nơ-ron đã thiết kế
<small>— Mang Neural với</small>
<small>Mang Neural voi các tham số đã</small>
<small>các tham so khởi hiệu chỉnh, có khả</small>
<small>tạo ban đâu năng khái qt hóa</small>
<small>Dữ liệuhuan luyện</small>
<small>Hình 3.1: Các bước huấn luyện mạng nơ-ron</small>
<small>- _ Giai đoạn4: Kiêm tra huân luyện trên mâu mới (mau test)</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>tham sơ đã hiệu chỉnh, cókhả năng khái qt hóa</small>
<small>Hình 3.2: Các bước kiểm tra dữ liệu với mơ hình mạng no-ron đã huấn luyện</small>
Do bài tốn phát hiện xâm nhập có đầu vào và đầu ra rõ ràng, số lượng đầu ra được xác định nên ta chon mạng nơ-ron truyền thăng nhiều lớp (Multi Layer
perceptron — MLP) cho hệ thống IDS.
Mơ hình mạng nơ-ron được sử dụng rộng rãi nhất là mơ hình mạng nhiều lớp truyền thắng (MLP- Multi Layer Perceptron). Một mạng MLP tơng qt là mạng có n (n>2) tầng (thơng thường tang đầu vào khơng được tính đến): trong đó gồm một
<small>Input layer Hidden layer#l Hiddenlayer #2 Output layer</small>
Kiến trúc của một mang MLP tổng qt có thé mơ tả như sau:
$ Đầu vào là các vector (x1, x2, ..., xp) trong không gian p chiều, đầu ra là
các vector (yl, y2, ..., yq) trong không gian q chiều. Đối với các bài tốn phân loại, p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại.
</div>