Tải bản đầy đủ (.docx) (16 trang)

BÀI BÁO CÁO THỰC TẬP TÌM HIỂU VỀ Thiết kế và cái đặt hệ thống phát hiện đột nhập

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (530.21 KB, 16 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA CÔNG NGHÊ THÔNG TIN I
BÁO CÁO THỰC TẬP
Giảng viên hướng dẫn : TS. Hoàng Xuân Dậu
Sinh viên : Đào Thanh Tùng
Lớp : D08CNPM1
HÀ NỘI, 7/2012
I.Giới thiệu
Thiết kế và cái đặt hệ thống phát hiện đột nhập là một vấn đề nghiên cứu quan trọng
trong an toàn mạng. Các hệ thống phát hiện đột nhâp được học và đề xuất gặp phải các thách
thức trong môi trường internet. Không phải là sự thổi phòng trạng thái mà một hệ thống phát
hiện đột nhập phải là một hệ thống hiện đại. Kĩ thuật phát hiện đột nhập có thể chia thành 2
nhóm : phát hiện sai và phát hiện dị thường.
Phát hiện sai nhận ra các các hành động đột nhập dựa trên các hành vi đã biết từ quá
trình phát triển. Phát hiện sai tương tự các phần mềm diệt vi rút. Chúng so sánh dữ liệu với
cơ sở dữ liệu virus có sẵn. Phát hiện sai là tập hợp các hành vi tấn công từ cơ sở dữ liệu thuộc
tính. Do đó chúng có hạn chế không thể phát hiện đột nhập mới xảy ra ví dụ các sự kiện chưa
xảy ra bao giờ. Phát hiện di thường khác biệt so với phát hiện sai.
Phát hiện dị thường dựa trên phân tích dữ liệu các sự kiện và nhận ra các mẫu của các
hành động xuất hiện một cách bình thường. Nếu một sự kiện xảy ra ngoài mẫu, chúng được
báo cáo như một xâm nhập. Có thể xem phương pháp này là phương pháp tiếp cận nửa học
máy.
Có nhiều kĩ thuật học máy được sử dụng phát hiện đột nhập dị thường. Qiao giới thiệu
một phương pháp phát hiện đột nhập dựa vào mô hình ẩn của Markov để phân tích tập dữ liệu
UNM. Lee thiết lập mô hình phất hiện đột nhập kết hợp luật kết hợp và logic mờ điều chế
mãu cho phất hiện dột nhâp. Mohajeran phát triển hệ thống phát hiện đôt nhập kết hợp mạng
nơron và logic mờ phân tích tập dữ liệu KDD, Wang áp dụng thuật toán di truyền dánh giá
hàm thành viên cho khai phái mờ luật kết hợp.
SVM (SVM) là một kĩ thuật phổ biến cho phát hiện đột nhâp dị thường. SVM huấn
luyện vector vào không gian đặc trưng có số chiều lớn hơn, gán nhãn mỗi vector vào các lớp.
SVM phân loại dữ liệu bởi giới hạn một tập vector hỗ trợ chúng là thành viên của tập dữ liệu


huấn luyện nằm trên lề siêu phẳng của không gian đặc trưng.
SVM cung cấp một cơ chế chung để phù hợp với bề mặt siêu phẳng dữ liệu thông qua hàm
nhân. Có nhiều hàm (tuyến tính, đa giác, xích ma) cho SVM trong quá trình huấn luyện, lựa
chọn vector hỗ trợ theo bề mặt của hạt nhân.
Lý do SVM cho phát hiện đột nhâp. Thứ nhát là tốc độ : hiệu suất thời gian thực là
yếu tố quan trọng hàng đầu cho hệ thống phát hiện đột nhập, Thứ hai là khả năng mở rộng :
SVM là tương đối không nhảy cảm với số lượng các điểm dữ liệu và phân loại phưc tạp
không phụ thuộc vào chiều của không gian vì vậy có khă năng học tập lớn các mẫu.
II.Nội dung
SVM được giới thiệu bởi V.Vapnik và các đồng nghiệp của ông vào những năm 1970 ở Nga
và sau đó đã phổ biến vào những năm 1990. SVM có những đặc điểm làm cho nó trở thành
một trong những thuật toán phổ biến nhất. Không chỉ có nền tảng lý thuyết chắc mà còn thực
hiện phân loại chính xác so với hầu hết các thuật toán khác trong nhiều ứng dụng đặc biết các
ứng dụng liên quan đến dữ liệu nhiều chiều.
Ý tưởng của phương pháp : cho trước một tập huấn luyện được biểu diễn trong không gian
vector. Phương pháp tìm ra một siêu phẳng f quyết định tốt nhất có thể chia các điểm trên
không gian thành hai lớp tương ứng là lớp + và lớp Chất lượng của siêu phẳng này được
quyết đỉnh bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt
phẳng này. Khi đó, khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt, đồng thời
việc phân loại càng chính xác.
Cho tập hợp các ví dụ huấn luyện D
Với là một vector đầu vào r chiều trong không gian giá trị thực , là nhãn lớp (giá trị đầu ra)
và {1, -1}. 1 biểu thị lớp dương và -1 biểu thị lớp âm.
Để xây dựng một phân loại, SVM tìm một hàm tuyến tính có dạng sau :
(1)
vì vậy vector đầu vào xi được gán vào các lớp dương nếu f(xi) 0, và lớp âm nếu ngược lại,
tức là,
(2)
F(x) là một hàm giá trị thực được gọi là
vector trọng số. b được gọi là độ dịch chuyển <w.x> là dot product của w and x. Phương

trình (1) được viết như sau:
(3)
Với là biến biểu diễn tọa độ thứ i của vector x.
Bản chất SVM tìm các siêu phẳng:
(4)
để chia các mẫu huấn luyện thành dương và âm. Siêu phẳng này được gọi là đường biên quyết
định hoặc bề mặt quyết định.
Về mặt hình học, siêu phẳng <w.x> + b=0 phân chia không gian đầu và othành hai nửa
không gian: một nửa cho các mẫu dương và một nửa khác cho các mẫu âm. Nhớ lại rằng siêu
phẳng thường được gọi là một đường trong một không gian 2-chiều và một plane trong một
không gian 3 chiều.
Hình 1 cho thấy một ví dụ trong một không gian 2 chiều. Mẫu dương được biểu diễn bởi hình
chữ nhật đặc nhỏ, và mẫu âm được biểu diễn bởi hình tròn rỗng nhỏ. Đường dày ở giữa là các
siêu phẳng biên quyết định (một đường trong trường hợp này), nó chia các điểm dữ liệu
dương (phía trên đường) và âm (phía dưới đường). Phương trình (1), gọi là quy tắc quyết định
của phân lớp SVM, được sử dụng để tạo quyết định phân lớp trên các trường hợp thử
nghiệm.
Hình 1 (A) A là một đường thẳng chia tập dữ liệu và (B) các biên quyết dịnh có thể
1.SVM tuyến tính : trường hợp có thể chia
Phần này nghiên cứu trường hợp đơn giản của SVM tuyến tính. Nó giả thiết rằng các dữ liệu
dương và âm là có thể chia tuyến tính.
Theo đại số tuyến tính, chúng ta biết rằng trong <w.x> + b = 0, w định nghĩa một đường pháp
tuyến với siêu phẳng (xem hình 2). Không thay đổi vector chuẩn w, biến b di chuyển siêu
phẳng song song với chính nó. Cũng lưu ý rằng <w.x> + b = 0 có một mức độ tự do vốn có.
Chúng ta có thể thay đổi tỉ lệ các siêu phẳng thành
mà không thay đổi hàm/ siêu phẳng.
Hình 2 Siêu phẳng phân chia và lề của của SVM : Vector hỗ trợ khoanh tròn
Khi SVM đạt cực đại lề giữa các điểm dữ liệu dương và âm, hãy tìm lề đó. Gọi d+ là khoảng
cách ngắn nhất từ siêu phẳng để chia tới các điểm dữ liệu dương gần nhất, d- là khoảng cách
ngắn nhất từ siêu phẳng để chia tới các điểm dữ liệu âm gần nhất. Khi đó lề của siêu phẳng

để chia là (d+)+(d-). SVM tìm siêu phẳng để chia với lề lớn nhất, còn gọi là lề siêu phẳng cực
đại, làm đường biên quyết định.
Hãy chú ý đến các điểm dữ liệu dương () và âm () mà gần siêu phẳng nhất . Chúng ta định
nghĩa hai siêu phẳng, và , mà đi qua và . và cũng là song song với <w.x> +b=0. Chúng ta
có thể thay đổi tỉ lệ w và b để thu được:
(5)
(6)
Cái mà cho biết rằng không có dữ liệu huấn luyện nào rơi vào giữa các siêu phẳng và .
Bây giờ ta cùng tính toán khoảng cách giữa hai lề siêu phẳng và . Khoảng cách là lề ((d+)+
(d-)). Theo không gian vector trong đại số tuyến tính thì khoảng cách Euclidena từ điểm xi
tới một siêu phẳng <w.x>+b=0 là:
(7)
Với là chuẩn của véc tơ w,
(8)
Để tính d+ , thay vì tính khoảng cách từ tới siêu phẳng chia <w.x> +b=0, chúng ta lấy một
điểm trên <w.x> +b=0 và tính khoảng cách từ trên <w.x> +b=0 và tính khoảng cách từ tới
<w.> +b=1 bằng cách áp dụng phương trình (40) và chú ý rằng <w.> +b=0,
(9)
Tương tự , ta có thể tính khoảng cách từ tới <w.> +b=-1 để thu được . Do đó,
đường quyết định (<w.x> +b=0 ) nằm giữa hai đường và , khi đó :
(10)
SVM tìm siêu phẳng để chia mà lề đạt được cực đại, điều này đưa ra một vấn đề đánh giá.
Giá trị lề cực đại tương tự như cực tiểu giá trị . Mô tả SVM có thể chia tuyến
tính như sau:
Định nghĩa (Linear SVM: Separable Case): Với một tập các mẫu huấn luyện có thể chia
tuyến tính , quá trình học là giải quyết cực tiểu hóa
ràng buộc sau:
(11)
Ràng buộc được tổng quát hóa như sau:
Giải quyết vấn đề (11) sẽ tạo ra các giải pháp cho w và b. Kể từ khi hàm mục tiêu là bậc hai

và lồi và các ràng buộc là tuyến tính trong các thông số w và b, chúng ta có thể sử dụng
phương pháp hệ số nhân Lagrange chuẩn để giải quyết nó.
Thay vì đánh giá hàm mục tiêu, ta cần đánh giá Lagrangian của vấn đề,nó xem xét các ràng
buộc cùng một lúc. Cần quan tâm đến các ràng buộc là rõ ràng bởi vì chúng giảm bớt các giải
pháp khả thi. Khi ràng buộc bất đẳng thức được biểu diễn sử dụng “ ”, các Lagrange được
xây dựng bằng cách các ràng buộc được nhân với các hệ số nhân dương và được trừ vào hàm
mục tiêu, cụ thể là:
(12)
trong đó 0 là các hệ số nhân lagrange.
Lí thuyết đánh giá nói rằng một giải pháp đánh giá cho biểu thức phải thỏa mãn các điều kiện
nhất định, được gọi là các điều kiện Kunhn- Tucker, nó giữ vai trò quan trọng trong đánh giá
ràng buộc. Ở đây, ta giới thiệu tóm tắt các điều kiện này. Các vấn để tổng quá hóa là :
(13)
Trong đó f là hàm mục tiêu và la hàm ràng buộc. Lagrangian của (13) là,
(14)
Một giải pháp đánh giá vấn đề trong (13) phải thỏa mãn các điều kiện cần thiết (nhưng chưa
đủ) sau :


(15)
(16)

(17)
(18)
Các điều kiện này được gọi là các điều kiện Kuhn-Tucker, chú ý rằng (16) là tập các ràng
buộc bản đầu có trong (13). Điều kiện (18) được gọi là điều kiện bổ sung, nó ngụ ý rằng tại
điểm giải quyết :
Để cực tiểu vấn đề (11), các
điều kiện Kuhn-Tucker là :


(19)
(20)

(21)
(22)
(23)
Bất đẳng thức (21) là tập các ràng buộc ban đầu. lưu ý rằng mặc dù có một hệ số nhân
Lagrange αi cho mỗi điểm dữ liệu huấn luyện, điều kiện bổ sung (23) cho thấy rằng chỉ
những điểm dữ liệu nằm trên mép siêu phẳng (tức là, H + và H-) có thể có αi> 0 mà làm cho
yi (〈 w ⋅ xi 〉 + b)- 1 = 0. Những điểm dữ liệu được gọi là vectơ hỗ trợ. Tất cả các điểm dữ liệu
khác có αi = 0.
Bất đẳng dối ngẫu của phương trình căn bản (11) là:
(24)
Sau khi giải quyết vấn đề (24) ta thu được các giá trị của , chúng được dùng để tính các
vector trọng số w độ lệch b sử dụng các đẳng thức (19) và (23). Thay vì phụ thuộc vào một
vector hỗ trợ (α i> 0) để tính b, trong thực tế tất cả các vector hỗ trợ được sử dụng để tính b,
sau đó đưa ra giá trị trung bình của chúng làm giá trị cuối cùng của b. Đường biên quyết định
cuối cùng là :
(25)
Trong đó sv là tập các chỉ số của không gian vector trong dữ liệu hấn luyện.
Testing : chúng ta áp dụng (25) để phân lớp. với một tập các thể hiện z, chúng phân loại nó
sử dụng cái sau :
(26)
Nếu (26) trả về 1, z được phân vào lớp dương ngược lại thì z được chia vào lớp âm.
2.SVM tuyến tính: Trường hợp không thể chia
Trường hợp chia tuyến tính là tình huống lý tưởng. Tuy nhiên trong thực tế, dữ liệu huấn
luyện hầu như luôn bị nhiễu , tức là chứa các lỗi vì nhiều lí do khác nhau. Chẳng hạn, một số
mẫu có thể được gán nhãn không chính xác. Hơn nữa các vấn đề thực tế có thể có một số mức
độ ngẫu nhiên. Ngay cả đối với hai vector đầu vào giống hệt nhau, nhãn của chúng có thể
khác nhau.

Để SVM là hữu dụng, nó phải cho phép nhiễu trong các dữ liệu huấn luyện. Tuy nhiên, với dữ
liệu nhiễu thì SVM chia tuyến tính sẽ không tìm ra một hướng giải pháp nào bởi vì các ràng
buộc không thể đạt được. Chẳng hạn, trong hình 3, có một điểm âm trong miền dương, và có
một điểm dương trong miền âm. Một cách rõ ràng hơn, không có giải pháp có thể được tìm
thấy cho vấn đề này.
Nhớ lại rằng nền tảng cho trường hợp chia tuyến tính là:
(27)
Để cho phép lỗi trong dữ liệu, chúng ta có thể nới lỏng các rằng buộc lề dc bẳng cách đưa ra
các biến slack, () như sau:
Do đó chúng ta có các rằng buộc mới :
Biểu diễn hình học được minh họa trong hình 3, ở đây có hai điểm dữ liệu lỗi , (được khoanh
tròn) trong miền không chính xác.
Hình 3 Trường hợp không phân chia đúng
Chúng ta cũng cần để ý các lỗi trong hàm mục tiêu. Một cách thông thường là gán một giá trị
mở rộng cho các lỗi để thay đổi hàm mục tiêu để:
(28)
Với C là một tham số được quy định bởi người dùng. K=1 được sử dụng phổ biến, nó có tiến
bộ là không phải mà cũng không phải hệ số nhân Lagrangian của nó xuất hiện trong biểu
thức đối ngẫu. Ta chỉ quan tâm thảo luận trường hợp k=1 ở phía dưới đây.
Vấn đề đánh giá mới trở thành:
(29)
Công thức này được gọi là lề mềm SVM. Lagrangian cơ bản (biểu diễn bởi ) của biểu thức
này như sau:
(30)
Trong đó, , là các hệ số nhân Lagrange. Điều kiện Kuhn-Tucker tốt nhất là những điều kiện
sau :
(31)
(32)
(33)
(34)

(35)
(36)
(37)

(38)
(39)
Trong trường hợp chia tuyến tính, sau đó ta chuyển biểu thức ban đầu sang biểu thức đối
ngẫu bằng cách thiết lập về zero các dẫn xuất một phần của Largangian (30) đối với các biến
ban đầu (tức là w,b và ), và thay thế các kết quả liên quan trở lại Lagrangian. Đó là, chúng ta
thay thế phương trình (31), (32), và (33) vào Lagrangian ban đầu (30). Từ đẳng thức (33), C -
- = 0, chúng ta có thể suy ra rằng C bởi vì 0. Do đó, biểu thức đối ngẫu của (29) là :

(40)
Vấn đề đối ngẫu (40) cũng có thể được giải quyết về số lượng, và các giá trị kết quả sau đó
được sử dụng để tính w và b. W được tính sử dụng phương trình (31) và b được tính sử dụng
điều kiện bổ sung Kuhn-Tucker (38) và (39), nếu 0 < <C thì cả =0 và () – 1 + = 0. Do đó có
thể sử dụng vài điểm dữ liệu huấn luyện mà 0 < <C và phương trình (38) (với = 0.) để tính
toán b :
(41)
Nhắc lại, do lỗi con số, ta có thể tính tất cả các khả năng của b và sau đó lấy giá trị trung bình
của chúng làm giá trị b cuối cùng.
Chú ý rằng phương trình (33), (38) và (39) trong thực tế cho ta biết :
(42)
Tương tự với các support vector cho trường hợp có thể chia, (42) đưa ra một trong các đặc
tính quan trọng nhất của SVM : giải pháp là rời rạc . Đa số các điểm dữ liệu huấn luyện là
nằm ngoài vùng mép và của chúng trong hướng giải pháp bằng 0. Chỉ những điểm dữ liệu đó
là nằm trên mép (cụ thể (<w.>+b)=1, là các support vector trong trường hợp có thể chia),
hoặc các lỗi là khác zero. Nếu không có thuộc tính rời rạc này , SVM sẽ không thực hiện cho
bộ dữ liệu lớn.
Đường quyết định cuối cùng là :

(43)
Luật quyết định cho phân lớp (testing) giống như trường hợp có thể chia, cụ thể là
sign(<w.x> +b). Lưu ý rằng cả phương trình (43) và (41) thì không cần được tính toán cụ
thể. Chủ yếu dành cho sử dụng các hàm nhân để xử lí các đường biên quyết định không
tuyến tính.
Cuối cùng, ta vẫn có một vấn đề là xác định tham số C. Giá trị của C thường chọn bởi thử một
dãy các giá trị trên bộ dữ liệu huấn luyện để xây dựng bộ phân loại đa lớp và sau đó test
chúng trên bộ dữ liệu xem xét, trước khi chọn một cái mà đưa ra kết quả phân loại tốt nhất
trên bộ dữ liệu xem xét. Xem xét chéo là được sử dụng phổ biến như vậy.
3.SVM phi tuyến tính : hàm nhân
Ở hai trường hợp các mẫu dương và âm có thể được tách tuyến tính, tức là đường biên quyết
định phải là một siêu phẳng. Tuy nhiên đối với nhiều bộ dữ liệu thực tế, các đường biên
quyết định là không tuyến tính. Để giải quyết với dữ liệu chia không tuyến tính công thức
tương tự và các kĩ thuật giải quyết như đối với trường hợp tuyến tính vẫn được sử dụng. Ta
chỉ chuyển dữ liệu đầu vào từ không gian ban đầu của nó sang không gian khác (thường là
không gian có số chiều nhiều hơn) do đó một đường biên quyết định tuyến tính có thể chia
các mẫu dữ liệu dương và âm trong không gian sau khi chuyển đổi, cái mà được gọi là
không gian đặc trưng. Ý tưởng cơ bản là ánh xạ dữ liệu từ không gian X đầu vào sang không
gian đặc trưng F thông qua một phép ánh xạ không tuyến tính ,
(44)
Sau khi ánh xạ bộ dữ liệu huấn luyện ban đầu {(,), (,), …,(,)} trở thành:
(45)
Phương pháp giải quyết SVM tuyến tính như vậy sau đó được áp dụng vào không gian F.
Hình 4 mô tả xử lí như vậy. Trong không gian đầu vào (hình bên trái), các mẫu dữ liệu huấn
luyện không thể chia tuyến tính. Trong không gian đặc trưng đã thay đổi (hình bên phai),
chúng có thể được chia tuyến tính.
Hình 4 Chuyển đổi từ không gian đầu vào X sang không gian đặc trưng F
Với sự chuyển đổi này, vấn đề đánh giá trong (11) trở thành:
(46)
Biểu thức đối ngẫu tương ứng của nó là:

(47)
Luật quyết định cuối cùng cho phân lớp (testing) là:
(48)
Ví dụ: giả sử không gian đầu vào của ta là 2 chiều, và ta cần chọn phép chuyển đổi sau:
(49)
Mẫu huấn luyện ((2,3),-1) trong không gian đầu vào được chuyển đổi sang mẫu huấn luyện
trong không gian đặc trưng như sau: ((4,9,8,5),-1)
Vấn đề tiềm ẩn với cách tiếp cận chuyển dổi dữ liệu đầu vào này sang không gian đặc trưng
và sau đó áp dụng SVM tuyến tính là có thể bị thiếu chiều. Số lượng chiều trong trong không
gian đặc trưng có thể rất lớn với các phép chuyển đổi hữu ích ngay cả với số lượng thuộc tính
trong không gian đầu vào hợp lí. Điều này làm cho nó tính toán không khả thi để xử lí.
Thay vì , biến đổi rõ ràng có thể được tránh nếu chúng ta chú ý rằng biểu diễn đối ngẫu cả
cách xây dựng siêu phẳng đánh giá (48 ) trong F và đánh giá hàm quyết định/phân lớp tương
ứng (84) chỉ yêu cầu đánh tích vô hướngs <> và không bao giờ được ánh xạ vector trong
dạng tường minh cảu nó.
Do vậy. nếu chúng ta có một cách tính toán tích vô hướng <> trong không gian đặc trưng F sử
dụng vector đầu vào hoặc ngay cả ánh xạ hàm chức năng của chính nó. Trong SVM, điều
này được thực hiện thông qua việc sử dụng hàm nhân, biểu diễn bởi K,
(50)
Đây là các hàm chức năng chính xác để tính toán các tích vô hướng trong không gian đặc
trưng đã chuyển đổi sử dụng vector x và z. một ví dụn của hàm nhân là nhân đa thức
(51)
Ví dụ 19: ta cùng tính nhân này với d=2 triong một không gian 2 chiều. x=(x1,x2) và z=(z1,
z2).
(52)
Với =(, , ), cho biết nhân là một tích vô hướng trong không gian đặc trưng đã
chuyển đổi. Số lượng chiều trong không gian đặc trưng là 3. Lưu ý rằng là hàm ánh xạ thực
sử dụng trong ví dụ . Một cách ngẫu nhiên, nói chung số lượng các chiều trong không gian
fature cho hàm nhân đa thức là , là một số lượng lớn ngay cả với
một số lượng hợp lý (r) của các thuộc tính trong không gian đầu vào. May mắn thay, bằng

cách sử dụng hàm nhân (51), số lượng các chiều trong không gian đặc trưng không quan
trọng.
Các dẫn xuất trong (52) là chỉ cho mục đích minh họa. Trong thực tế, ta không cần phải tìm
thấy các hàm ánh xạ. ta chỉ đơn giản là có thể áp dụng các hàm nhân trực tiếp. Đó là, chúng ta
thay thế tất cả các tích vô hướng φ 〈 (x) φ ⋅ (z) 〉 trong (47) và (48) với hàm nhân K (x, z) (ví
dụ, nhân đa thức trong (51). Chiến lược trực tiếp này cách sử dụng một hàm nhân để thay
thế tích vô hướng trong không gian đặc trưng được gọi là nhân trick. Chúng ta không bao
giờ biết rõ ràng φ là gì.Tuy nhiên, câu hỏi là, làm thế nào để chúng ta biết liệu có hay không
một hàm là một KerNel mà không thực hiện phép lấy đạo hàm như thế trong (52)? Đó là,
làm thế nào
chúng ta biết rằng một hàm nhân thực sự là một tích vô hướng trong một số không gian đặc
trưng? Câu hỏi này được trả lời bởi một định lý được gọi là lí thuyết Mercer
Rõ ràng rằng ý tưởng của nhân tổng quát hóa tích vô hướng trong một số không gian đầu
vào. Tích vô hướng cũng là một nhân với phép ánh xạ đặc trưng là xác định
(53)
Thông thường sử dụng các kernel bao gồm
(54)
(55)
4.Cải tiến SVM với trọng số đặc trưng
Các hàm nhân thường được sử dụng là hàm tuyến tính, hàm đa thức, hàm bán kính cơ bản,
hàm xích ma. Tuy nhiên các hàm đó không xem xét sự khác biệt giữa các đặc trưng của dữ
liệu. Từ hàm nhân tổng quát có thể thấy rằng dữ liệu huấn luận và test tương đương.
Xử lý các đặc trưng tương đương là không hiệu quả và làm giảm độ chính xác của SVM. Một
giải pháp được JingTao Yao, Songlun Zhao, and Lisa Fan đề xuất xem xét tầm quan trọng của
các đặc trưng bằng cách them trọng số của hàm nhân. Trọng số được sử dụng để đánh giá tầm
quan trọng của mỗi đặc trưng. Công thức của hàm nhân mới trong đó w là một vector gồm
cố trọng số của đặc trưng của tập dữ liệu. Khi đó hàm biệt thức phi tuyến tính với trọng số đặc
trưng
Nhân cải tiến này là độc lập với hàm nhân đặc biệt. Với các ứng dụng khác nhau, có thể chọn
hàm nhân thích hợp áp dụng trọng số đặc trưng. Chúng ta sử dụng lý thuyết tập thô ddeeer

tính toán và khởi tao trọng số từ dữ liệu huấn luyện. Nguyên lý cơ bản để tính toán trọng
lượng là :
1. Nếu một đặc trưng không có trong reducts nào thì trọng lượng của đặc trưng bằng 0;
2. Một đặc trưng càng xuất hiện trong nhiều trong reduct thì đặc trưng đó càng quan
trongj
3. Một reduct có càng ít số đặc trưng thì tâm quan trọng của đặc trưng trong reduct này
càng cao. Nếu một reduct chỉ có duy nhất một đặc trưng thì đặc trưng trong reduct
này là quan trọng nhất.
Dựa trên nguyên lý trên , JingTao Yao, Songlun Zhao, and Lisa Fan đề xuất một thuật
toán dung lý thuyết tập thô để xếp hạng đặc trưng và tính toán trọng số đặc trưng. Sau quá
trình xếp hạng đặc trưng, xem xét những đặc trưng với trọng số là 0 là đặc trưng ít quan
trọng nhất và xóa chúng. Trong thuật toán, xếp hạng và lựa chọn đặc trưng điều khiển
trong cùng 1 quá trình.
4. Các tiêu chí đánh giá
Trong 1 số trường hợp chỉ quan tâm đến một lớp như trong phân loại văn bản và ứng dụng
Web. Ví dụ quan tâm đến tài liệu hoặc các trang web của một chủ đề cụ thể. Ngoài ra trong
phân loại dữ liệu có sai lệch hoặc mất cân bằng cao, ví dụ phát hiện đột nhập mang và gian
lận tài chính chúng ta lại quan tâm đến các lớp chiếm số lượng ít. Các lớp người ta thường
quan tâm gọi là lớp dương và phần còn lại là lớp âm. Độ chính xác không thích hợp để đánh
gái trong một số trường hợp bởi có thể đạt được độ chính xác cao nhưng không thể xác định
xâm nhập đơn lẻ. Ví dụ, 99% các trường hợp là bình thường trong thiết lập một dữ liệu phát
hiện xâm nhập. Sau đó, một phân loại có thể đạt được độ chính xác 99% (mà không làm bất
cứ điều gì) bằng cách đơn giản phân loại tất cả các trường hợp thử nghiệm là "không xâm
nhập". Điều này, tuy nhiên, không cần thiết.
Độ chính xác và độ hồi nhớ là thích hợp trong vài ứng dung vì chúng đánh giá phân loại như
thế nào chính xác và hoàn thành trên lớp dương. Đó là thuận lợi để giới thiệu các biện pháp
này bằng cách sử dụng một ma trận nhầm lẫn (confusion matrix).Một ma trận nhầm lẫn có
chứa thông tin về kết quả thực tế và dự đoán được đưa ra bởi phân loại.
Hình 5 Ma trận nhầm lẫn của một phân loại
Trong đó

TP : số lượng phân loại chính xác của những mẫu dương (true positive)
FN: số lượng phân loại không chính xác của những mẫu dương (false negative)
FP: số lượng phân loại không chính xác của những mẫu âm (flase positve)
TN: số lượng phân loại chính xác của những mẫu âm (true negative)
Dựa trên ma trận nhầm lẫn, độ chính xác(p) và độ hồi nhớ (r) của lớp dương được định
nghĩa:
Nói cách, đô chính xác p là số phân loại chính xác mẫu dương chia cho tổng số các mẫu được
phân loại là dương. Độ hồi nhớ r là số phân loại chính xác mẫu dương chia cho tổng số các
mẫu thực tế dương trong các thiết lập thử nghiệm. Các ý nghĩa trực quan của hai biện pháp
này là khá rõ ràng.
Tỉ lệ dương tính thật (TPR) được định nghĩa là một phần trong các trường hợp dương tính
thực được phân loại chính xác :
Tỷ lệ dương tính giả (FPR) được định nghĩa là một phần trong số các trường hợp âm tính thực
tế được phân loại vào lớp tích cực,
TPR cơ bản của nhớ lại của lớp dương tính và cũng được gọi là nhạy cảm trong thống
kê.Ngoài ra còn có một biện pháp khác trong thống kê được gọi là đặc trưng, đó là tỷ lệ đúng
âm tính (TNR), hoặc nhớ lại của lớp tiêu cực. TNR được định nghĩa như sau:
III.Kết luận
SVM là một hệ thống học tuyến tính nhằm tìm đường quyết định mức lền lớn nhất để chia
điểm dương và âm. SVM tương đương với việc giải quyết bài toán tối ưu bậc hai. Ranh giới
quyết định phi tuyến tính được tìm qua việc chuyển đổi dữ liệu ban đầu sang không sang đặc
đặc trưng có số chiều nhiều hơn. Tuy nhiên việc chuyển đổi này không chính xác hoàn toàn.
Do đó hàm nhân được sử dụng để tính toán tích vô hướng cần trong học máy mà không cần
hàm chuyển đổi. Tuy nhiên SVM cũng có một số hạn chế :
- SVM chỉ làm việc với không gian đầu vào là các số thực
→Đối với các thuộc tính định danh (nominal), cần chuyển các giá trị định danh thành
các giá trị số.
- SVM chỉlàm việc (thực hiện phân lớp) với 2 lớp
Đối với các bài toán phân lớp gồm nhiều lớp, cần chuyển thành một tập các bài toán
phân lớp gồm 2 lớp, và sau đó giải quyết riêng rẽ từng bài toán 2 lớp này.

- Siêu phẳng phân tách (ranh giới quyết định phân lớp) xác định được bởi SVM thường
khó hiểu đối với người dùng.
Vấn đề (khó giải thích quyết định phân lớp) này càng nghiêm trọng, nếu các hàm nhân (kernel
functions) được sử dụng.
SVM thường được dùng trong các bài toán ứng dụng mà trong đó việc giải thích hoạt động
(quyết định) của hệ thống cho người dùng không phải là một yêu cầu quan trọng.
IV.Tài liệu tham khảo
[1]. Srinivas Mukkamala, Guadalupe Janoski, Andrew Sung :Intrusion Detection: Support
Vector Machines and Neural Networks
[2]. B. Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data.Springer,
2006.
[3]. JingTao Yao, Songlun Zhao, and Lisa Fan: An Enhanced Support Vector Machine
Model for Intrusion Detection

×