Tải bản đầy đủ (.pdf) (45 trang)

Nghiên cứu phương pháp lựa chọn các thuộc tính đặc trưng nhằm tăng cường khả năng chuẩn đoán của hệ thống chuẩn đoán bệnh ung thư = Feature Selecton approach fo151552

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (19.44 MB, 45 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
NGHIÊN CỬU PHƯƠNG PHÁP LỤA CHỌN CÁC THUỘC TÍNH
ĐẶC TRƯNG NHẰM TÃNG CƯỜNG KHA n ă n g c h u ẩ n đ o á n
CỦA HỆ THỐNG CHUẮN ĐOÁN BỆNH UNG THƯ
Mã số: QC. 07.27
Chủ nhiệm đề tài: Nguyễn Hà Nam.
ẠI HỌC QUOC GIA HA NỌl
^U N G TẨM THÒ NG TIN THỰ VIEN
J ) r / m .
Hà Nội-2008
Muc luc
■ ■

i
1 Giải thích chữ viết tắ t

ii
2 Danh sách cán bô tham gia thưc hiên đề tà i
iii
3 Danh muc hỉnh v ẽ

iv
4 Danh muc các bảng số liêu


V
5 Tóm tắt các kết quả chính của đề tà i

vi
5.1 Kết quả về khoa h o c


vi
5.2 Kết quà phuc vu thưc tế
vi
5.3 Ket quà đào tao

vi
5.4 Kết quả nâng cao tiềm lưc khoa hoc


vi
Abstract

1
6 Báo cáo tổng k ết
2
6.1 Đăt vấn đ ề
1
6.2 Tổng quan các vấn đề nghiên c ứ u

i
6.2.1 Giới thiêu về trích chon nôi dung

■>
6.2.2 Thuât Toán di truyền

5
6.2.3 Thuât toán K PC A


6

6.2.4 Thuât toán R F


7
6.3 Muc tiêu và Nòi dung nghiên c ứ u
8
6.3.1 Phưcmg pháp đề nghi 8
6.3.2 Ket quả và thảo luân

10
6.4 Ket quả nghiên cú n

11
6.4.1 Các công bổ liên quan đến kết quả của đề tài


11
6.4.2 Ket quả đào tao của đề tài

11
6.5 Kết luân và kiến nghi


12
6.6 Tài liêu tham kh ảo

13
7 Phụ lụ c ]4
i
1 Giải thích chữ viết tắt

CSDL Cơ sở dữ liệu
PCA Principle Component Analysis (kỹ thuật phân tích các thành phần cơ ban)
RF Random Forest (Thuật toán phân lóp dựa trên CART)
KPCA Kernel PCA (Phương pháp nhân PCA)
OOB Out of bag (một kỹ thuật dùng để giảin thiểu lỗi trong quá trinh học)
ANN Mạng neuron
IDS Intrusions Detection System (Hệ thống phát hiện xâm nhập trái phép)
KNN Thuật toán K láng giênq gần nhất
2 Danh sách cán bộ tham gia thực hiện đề tài
STT H o và tên
H ọc hàm học vị
C ơ quan công tác
1
N guyên H à N am
(chủ nhiệm đề tài)
TS K hoa C ông nghệ thỏne tin, ĐH
C ông nghệ Đ H Q G H N
2 Trịnh N h ật Tiên PG S.T S K hoa Công ng hệ thông tin, ĐH
C ông nghệ Đ H Q G H N
3
N guyên C âm Tú
(Thư ký đề tài)
CN
K hoa C ông nghệ thông tin. ĐH
C ôn s nghệ Đ H Ọ G H N
4 Lê H ồng Hải ThS K hoa C ông nghệ thông tin, ĐH
C ô ne nghệ Đ H Q G H N "
5
D ư P hư ơn g H ạnh
ThS

K hoa C ông nghẹ thô ne tin, Đ H
C ông nghệ Đ H Q G H N
6 H à Huy Giáp
s v K48 Khoa C ông nghệ th ô n s tin. ĐH
C ô na n ehệ Đ H Q Ò H N "
3 Danh mục hình vẽ
e
H ình 1: H ướng tiếp cận filter (các thuộc tính được chọn độc lập với thuật
toán khai phá dữ liệu) [1] 3
H ình 2: H ư ớng tiếp cận w rapper (các thuộc tính được chọn phụ thuộc theo
một nehĩa nào đó với thuật toán khai phá dữ iiệu) [ 1 ]
3
H ình 3: Ba cách tiếp cận cơ bản của trích chọn nội dung. Phần tô màu xám
cho biết các thành phần m à hướng tiếp cận đó sử dụng để đưa ra kết
quả cuối cù n g
.
4
H ìn h 4: Kiến trúc tổng thể của phương pháp đề nehị (K PC A -RF ) vói mỏ
hình học đê tìm ra hàm nhân tôt nhất 8
H ình 5: So sánh kết quả đoán nhận giữa khi chỉ sử đụng RF với thuật toán đã
được cải tiến K PC A -RF thông qua 50 lần thực nghiệm. Đ ường đậm
thể hiện kết quả của thuật toán của chúng tôi. còn đưò'ng mảnh thê
hiện kết quà của thuật toán R F
10
4 Danh mục các òảna số liệu
■ W ■
B ảng 1: So sánh kết quả phân lớp vói một số nghiên cửu trước đâv với
phương pháp đề nghị trên cùng bộ dữ liệu

V

5 Tóm tắt các kết quả chính của đề tàỉ
5.1 Kết quà về khoa học
• Đã hoàn thành 01 báo cáo khoa học tại hội thảo quốc 2Ìa về công nshệ thông tin
tại Nha Trang, 07/2007
5.2 Kết quả phục vụ thực tế
Chủng tôi đã hoàn thành chương trình m ô phòng thuật toán phân lớp dựa írên
tìm đặc trưng tối ưu của dữ liệu đầu vào thône qua tối ưu hàm nhân. Các kết quả
nghiên cứu của đề tài cho thấy, phương pháp do chúng tôi đề nghị và cài đặt có
khả năng phân lớp tốt hon so với thuật toán ban đầu. Phương pháp này có kha
năng m ở rộng khả năng học bằng cách thêm các các tham số hoặc ứng dụng cho
việc phân lớp các bộ đừ Hệu khác một cách dễ dàng.
5.3 Kết quả đào tạo
• Đã hướng dẫn tốt nghiệp 01 sinh viên đại học bảo vệ tháng 6/2007 về đề tài trích
chọn nội dung (xem bìa luận văn kèm theo)
• Đang hướng dẫn 01 sinh viên đại học về đề tài trích chọn nội duna, dự kiến bâo
vệ tháng 6/2008
5.4 Kết quả nâng cao tiềm lực khoa học
Nghiên cứu về các thuật toán trích chọn nội dung úng dụng trong việc khai phá dũ' liệu
lớn. Đã hướng dẫn sinh viên và tổ chức seminar khoa học về các kỹ thuật trích chọn nội
dung trong khai phá dữ liệu từ năm 2007. Năm hoặc 2008-2009 sẽ nghiên cứu áp dụng và
đưa vào giảng dạy về các phưons pháp trích chọn nội dung trong khuôn khổ chương trình
cao học ngành các hệ thống thông tin.
VI
Abstract
This paper proposed a com bination o f kernel functions Kernel PrincÌDỈe
C om ponent A nalysis and its learning m ethod which is help to not only transform
the input space to a lower dim ension feature soace but also increase the
classification perform ance. W e defined the combined kernel function as the
weighted sum o f a set of difference types o f basis kernel function consisting, of
polynomial, gausian and neural kernels, w hich is trained bv a novel learning

m ethod based on genetic algorithm . The weights of basis kernel functions in the
com bined kernel are determined in learning phase and used as the param eters in
the decision m odel in the classification phase. The unified kernel and the learning
m ethod were applied to obtain the optimal decision model for the classification of
a public data set for diagnosis o f cancer diseases. The experiment showed fast
convergence in learning phase and resulted in the optimal decision model with the
better perform ance than other kernels. Therefore, the proposed kernel function has
the greater flexibility in representing a problem space than other kernel functions.
1
6 Báo cáo tổng kết
6.1 Đặt vấn đề
Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chune cũns như trons
nghiên cứu về các thuật toán phân lóp nói riêng, vấn đề xử lý dữ liệu lớn nsàỵ
càng trở thành van đề cấp thiết và đóng vai trò chủ đạo trong việc siải quyết các
bài toán thực tế. Phần lớn các thuật toán phân lóp đã phát triển chi cỏ thể eiải
quyết được với m ột lượng sổ liệu giới hạn cũng như với m ột độ phức tạp dữ liệu
biết trước. T rong khi đó lượng dữ liệu mà chủng ta thu thập được naày càna trờ
nên phong phú và đa dạng nhờ các sự phát triển m ạnh mẽ của khoa học kỹ thuật.
M ặc dù rất nhiều thuật toán phân lớp dựa trên nhiều nền tảng lý thuyết khác nhau
đã được phát triển và úng dụng từ rất lâu, nhưng thực tế cho thấy kết qua phụ
thuộc rất nhiều vào đặc tính dữ liệu cũng như khả năng xử ỉý dữ liệu thô của từng
nhóm nghiên cún. M ột điều hiển nhiên là với mỗi phương pháp chỉ có thê đáp ứ ns
và xử lý tốt trên một vài dữ liệu và ứng dụne cụ thể nào đó. N gày nay với sự trợ
giúp của các hệ thống tự động hóa và các hệ thống trợ eiúp càng neày càng tinh vi
hơn, khối lượng dữ liệu cần phải xừ lý tăng với một tốc độ chóng mặt. Người ta
ước đoán rằng lượng thông tin trên toàn cầu tăng eẩp đôi sau khoảng hai năm và
theo đó sổ lượng cũng như kíclì cỡ của các cơ sở dữ liệu (C SDL) cũna tăng lên
một cách nhanh chóng.
Trong khai phá dữ liệu thì phưong pháp trích chọn đóng m ột vai trò quan
trọng để trích chọn và chuẩn bị dữ liệu. H ướng tiêp cận này làm lăng hiệu năng

thu nhận tri thức trong các ngành như tin sinh, xử lý dữ liệu w eb, xử lý tiêng nói.
hình ảnh với đặc tính là có rất nhiều thuộc tích (vài trăm cho đến vài trăm ngàn
thuộc tính) nhưng thường chỉ có một số lượng tương đối nhỏ các m ẫu dùng để
huấn luyện (thường là vài trăm). Phương pháp trích chọn sẽ giúp giảm kích cỡ của
không gian dữ liệu, loại bỏ nhũng thuộc tính không liên quan và những thuộc tính
nhiễu. Phương pháp này có ảnh hường ngay lập tức đên các ứng dụng như tăng lôc
độ của thuật toán khai p há dữ liệu, cải thiện chất lượng dữ liệu và vì vậy tăng hiệu
suất khai phá dữ liệu, kiểm soát được kết quả cùa thuật toán. Phương pháp này
được giới thiệu từ những năm 1970 trong các tài liệu vê xác suât thông kê. học
m áy và khai phá dữ liệu [1-7].
Principal C om ponent Analysis (PC A) [4] là m ột phương pháp khá nôi tiếng và
hiêu quả trong quá trình làm giảm số thuộc tính của tập dừ liệu đâu vào. Gân đây
phương pháp hàm nhân đã được áp dụng để có thể ứng dụng P C A vào giải quyết
các bài toán phi tuyến tính. Phương pháp này đã được Scholkhof và đông nghiệp
của ông đưa ra với tên gọi là K PC A [9]. Trong đê tài này chúng tỏi sẽ trình bàv
một tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tót nhất đẻ
tăng khả năng phân lóp cùa thuật toán R andom Forest (RF). Trong phương pháp
đề nghị chúng tôi sử dụng giải thuật di truyền để tìm ra hàm nhân tối ưu cho việc
tìm ra cách chuyển đổi phi tuyến tốt nhất nhàm làm tăng khả năng phân lóp của
RJF.
2
6.2 Tổng quan các vấn đề nghiên cứu
6.2.1 Gi ới íhiệu về trích chọn nội dung
Vê cơ bản việc bóc tách các thuộc tính đặc trưng bao sồm hai phân ỉà xây
dựng các thuộc tính và lựa chọn các thuộc tính đặc trưng. Xây dựne bộ các thuộc
tính là m ột công việc rất quan trọng trong việc xử lý số liệu. Khi xâv dựna dữ liệu
chúng ta cần phải đảm bảo không đê mất nhiều thông tin quá cũng như khôn 2 quá
tốn kém về m ặt chi phí. Phần thứ hai, là chủ đề chính của đề tài này. có mục tiêu
tìm ra những thuộc tính đại diện cho đối tượnạ. loại bò nhừna, thuộc tính thừa và
gây nhiễu nhằm tăng hiệu suất của các thuật toán khai phá dữ liệu. Có rất nhiều

phương pháp cũng như hướng tiếp cận khác nhau bao gồm các phương pháp kinh
điển [1-3] với bộ dữ liệu tương đối nhỏ và các hướng tiếp cận hiện đại [5-7], Tuy
vậy chúng đều có m ột số các yêu cầu chung như sau:
1. G iảm dữ liệu cần lưu trữ và tăng tốc độ cùa thuật toán (tính toán trên dữ
liệu đó)
2. G iảm bộ thuộc tính nhầm tiết kiệm không sian lưu trữ
3. Tăng cường hiệu quả thuật toán: nhằm thu đưọ'c tỷ lộ dự đoán đủng cao hơn
4. Có kiến thức về dừ liệu: thu được các tri thức vê dữ liệu thôna qua các
phương pháp bóc tách dữ liệu để có thể tạo ra hay biêu diễn dừ liệu dễ dàng
hơn.
v ề cơ bản chúng ta có thể phân loại các phương pháp trích chọn theo 2 cách
tiếp cận khác nhau là filter/wrapper, đưọ’c trình bày kỹ trong các tài liệu [1, 2],
Lược đồ thực hiện của hai cách tiếp cận này được giản lược hóa trong hình vẽ 1 và
2 dưới đây.
Input
Feature
Induction
features
subset selection Algorithm
Hình 1: Hướng tiếp cận filter (các thuộc tính đưọc chọn độc lập với thuật toán khai phá
dữ liệu) [1]
E s l im a le d
Acnir.ìcy
Hình 2: Hướng tiếp cận wrapper (các thuộc tính được chọn phụ thuộc theo một nghĩa
nào đó với thuật toán khai phá dữ liệu) [1]
] lY iitiin ẹ '•et
Feature selection search
11.'iiums 'êĩ
J -
r tM iU K ‘íỂl

peil'oniKUKV
eslini.iliou
Feature evaluation
ie.mueser !,. Hypothesis
induction Algo 111Inn31
FlmIih e '•i-1
liuluctior
A lg orithi
Tfsi -el
3
Để hoàn thành được các thuật toán trích chọn nội dung chúng ta cần phai thực
hiện một sô công việc sau:
1. Phương pháp để sinh ra tập thuộc tính đặc trưng (có thê hiểu tưona ứna
với các chiến lược tìm kiếm )
2. Định nghĩa cách/ hàm đánh giá (đưa ra các tiêu chí để có thể xác định
3.
Đ ịnh nghĩa cách/ hàm đánh giá (đưa ra các tiêu chí để có thể xác định
m ột thuộc tính hay nhóm thuộc tính là tốt hav không tốt)
Ư ớc lượng hàm đánh giá đó (kiểm chứng lại xem hàm đánh siá có thực
sự phù họp và hiệu quả với bộ dữ liệu khôna).
/
â
/ L
/ Statistic ill
<<7 / tests
c I c*s
Vítlidiiliori
tvrforn.vrx*
bounds
Single C-

ítciniit
idfcvjnci Q
R*levjMCê 0^.
ill context
F*a!ure subset “à,
relevance
%
Peitxm.mcé*
teaming *6
machine
, HeuristK.or
siochasiic seaiclì
Exhaustive seat CỈI
N ested subset,
tow ard »*iteii&n.
U atkw rnl elimination
Single fe jtu i-i I.ml
Kill, r-
,c p-rf+xmante
bound*.
/


•y . StotisíiC ÙỈ
Rệ-levstnce- \V.
Ill context ^
Ffcnmr* 9-
- .r,
%
Peif-jiiruviC tf

It.lmmj -ỘỊ.
nijf.hm* ^
Nested subset.
Heuristic or fo:v*<iicf
s K 'C hJ s iK s ^ d ic h bn ck f to rd e linm ia n w i
E Is?I V€* SvDKll
Sm0!e fcMiurt- lonkiny
Feat ure s u b s e t g e n e ra tio n , sea rch
Feature subset generation, search
I I., A. 'II'
/
/
Cross
VO 11 d Citron
■ \
.

; \
Single >
í-?viĩiif4 ỵ?
leleViVK? o
Relevance ^
in context %
Fe-tfure sublet %.
lelev.HKe
c>
<rk-
' Performance -5>.
^ Statistical . ' -••x la m i n g q.
Heuristic PI forward selection.

*!*xlM$ĩic SKiKh backward eliminauon
Exuausiivte MOicn
Single feature lanknvj
F e atu re s u b s e t g e n e ra tio n , sea rch
L imIm ,i
•11, I,
Hình 3: Ba cách tiếp cận cơ bản của trích chọn nội dun° Phân tô màu xám cho biết các
thành phần mà hướng tiếp cận đó sừ dụng đẻ đưa ra kết quà cuối cùnẹ
H ình vẽ 3 thể hiện sự khác nhau giừa các cách tièp cận Filter. W rapper và
Em bedded [8]. Hai phư ơng pháp (a) và (b) đã được m ô tả kỹ trong các tài liệu [ỉ.
2]. Phương pháp (c) tư ơ ne đối giống cách tiêp cận (b) chỉ có điẽm khác biệt là nó
ơhép phần sinh tập thuộc tính vào phần đánh giá trong khi huấn luyện.
4
6.2.2 Thu ật toán di truyền
Có m ột lớp các bài toán hay m à người ta chưa tìm thuật loán tươna đối nhanh
để giải quyết chủng. N hiều bài toán trong lớp này là các bài toán quy hoạch mà
thường nảy sinh trong các úng dụn£. Đối với một bài toán quv hoạch thuộc loại
khó này, ta thường có thể tìm ra một thuật toán chạy nhanh và cho kết quà gần tổi
ưu. Đối với một số bài toán quy hoạch khó, ta cũng cỏ thề dùng các thuật toán xác
suất, nhừng thuật toán này không đảm bảo cho ra kết quả tối ưu. nhưns bàne. cách
chọn ngẫu nhiên đủ nhiều “bằng chứng", ta có thể aiảm tùy thích xác suất sai của
kết quả.
Nói một cách trừu tượns, việc giải một bài toán có thê xem như việc tìm kiếm
trong m ột không gian các lời giải có thể. Vì cái đích của chúnơ ta là "lời giải tốt
nhất”, ta có thể coi cô n s việc này là một quá trình tối ưu hóa. Đối với khônơ gian
nhỏ, phương pháp “vét cạn'’ cồ điển là đủ dùns; còn nhữne không gian lớn hơn
đòi hỏi các phương pháp trí tuệ nhân tạo đặc biệt. Các thuật toán đi truyền nam
trong số các p hươ ne pháp đặc biệt đó.
Thuật toán di truyền dùng nhiều íhuật ngữ cùa ngành di truyền học. Chúng ta
sẽ nói về các “cá thể” trong m ột quần thể: thường thì các cá thể này còn được eọi

!à xâu hoặc nhiễm sắc thể. M ỗi tế bào trong cơ thể của một loạị nào đó chứa một
số nhất định nhiễm sắc thể (ví dụ trong cơ thể naười có 46 nhiễm sắc thể); tuy
nhiên, trong bài này thì ta chỉ nói về các cá thể chỉ chứa đúng một nhiễm sác thể.
M ỗi nhiễm sắc thể bao gồm các đon vị - gen - xếp liên tiếp; mỗi gen điều khiển sự
thừa kế của m ột hoặc vài tính trạng. Gen của tính trạng nhất định có vị trí xác định
trên nhiễm sác thể, vị trí đó được gọi là loci (vị trí trên xâu). M ột tính trạng bất kỳ
(thí dụ m àu m ắt) có thể được thể hiện với nhiều m ức độ khác nhau; ta nói gen đó
có nhiều trạng thái (gọi là allete).
Mỗi nhiễm sắc thể (cá thể) sẽ biểu thị m ột ỉời giải có thể của một bài toán (ý
nơhĩa của mỗi nhiễm sắc thề, nghĩa là kiểu gen của nó, được quy ước bơi người
lập trình)- m ột quá trình tiến hóa được thực hiện trên một quần thể nhiễm sắc thể
là tương đương với sự tìm kiếm trong một không gian các lời giải có thể. Sự tìm
kiếm này đòi hỏi sự cân bàng giữa hai mục đích: khai thác lời giải tốt nhất và
khám ph á không gian tìm kiếm . P hương pháp "leo núi" là m ột ví dụ về chiến lược
5
khai thác lời giải tốt nhất theo các hướng cải tiến. Tìm kiếm ngẫu nhiên là một ví
dụ điên hình của sự khám phá không gian tìm kiêm, không chú trọna khai thác các
miên hứa hẹn trong không gian tìm kiêm. Thuật toán di truyên là lớp các phươna
pháp tìm kiếm tổng quái (không phụ thuộc vào miền xác định) với sự cân bàna
đáng kể giữa khai thác và khám phá không gian tìm kiếm.
Thuật toán di truyền, cũng như các thuật toán tiến hóa nói chune. hình thành
dựa trên quan niệm cho rằng, quá trình tiến hóa tự nhiên là hoàn hảo nhất, 'nạp lý
nhất và tự nó đã m ang tính tối ưu. Quan niệm này có thể đưọ-c xem như là một tiên
đề đủng, không chứng m inh được, nhưng phù họp với thực tể khách quan. Quá
trình tiến hóa thể hiện tính tối ưu ở chồ, thế hệ sau bao siờ cũng tốt hơn. phát triển
hơn, hoàn thiện hơn thế hệ trước, Tiến hóa tự nhiên được duy trì nhờ hai quá trình
cơ bản: sinh sản và chọn lọc tự nhiên. Xuyên suốt quá trình tiến hóa tự nhiên, các
thế hệ m ới luôn được sinh ra để bổ sung và thay thế thế hệ cũ. Cá thể nào phát
triển hơn, thích ứng hơn vói môi trường sẽ tồn tại, cá thể nào không thích úng với
môi trường sẽ bị đào thải. Sự thay đổi môi trường là động lực thúc đẩy quá trình

tiến hóa. N gược lại, tiến hóa cũng tác động trờ lại eóp phần làm thay đổi môi
trường.
Trong thuật giải di truyền, các cá thể mới liên tục được sinh ra trone; quá trình
tiến hóa nhò' sự lai ghép ở thế hệ cha mẹ. M ột cá thể m ới có thê m ang nhũng tính
trạng của cha m ẹ (di truyền), cũng có thể m ang những tính trạng hoàn toàn mới
(đột biển). Di truvền và đột biến là hai cơ chế có vai trò quan trọng; như nhau trone
tiến hóa, dù ràng đột biến xảy ra với xắc suất nhỏ hơn nhiêu so với hiện tượna di
truyền. Các thuật toán tiến hóa, tuy có những đặc điêm khác biết, nhưng đề mô
phỏng bốn quá trì nil cơ bản: Lai ghép, đột biến, sinh sản và chọn lọc tự nhiên.
N hư vậy quá trình tiến hóa càng lâu thì càng có điêu kiện cho các cá thể tốt
được sinh ra, và chất lượng của các cá thể càng được nâng lên.
6.2.3 Thu ật toán KPCA
Phương pháp PC A [4. 9, 13] là một phưong pháp được sừ dụng khá phổ biến
và tương đối hiệu quả đê biên đôi từ dữ liệu với sô lượng thuộc tính lớn. có nhiêu
nhưn° có độ tương quan với nhau thành m ột bộ dữ liệu có sô chiêu nhò hơn dựa
trên các phép biến đồi tuyển tính [10]. Tuy nhiên trong nhiều ứng dụng thực tế.
hiệu quả của phươ ng pháp này rất hạn chế vì nền tảng xây dựng thuật toán dựa
trên đữ liệu tuyến tính [11].
6
Đ ê có thê áp dụng thuật toán này vào uữ liệu phi tuyến, đã có nhiều nshièn cứu
ứng dụng các kỳ thuật khác nhau để có thể biến đồi dữ liệu đã cho thành dữ liệu
được cho là tuyến tính. N ghiên cứu của Kramer [12] vào năm 1991 đà tim cách
phát triên thuật toán PC A phi tuyến dựa trên mạnơ nơ ron. Tuy nhiên m ạng này
tương đôi phức tạp và rất khó tìm được giá trị tối ưu do có 5 lớp. Nghiên cứu cua
Dong và M cA vo y [11] cũng sử dụng m ạng nơ ron với giả thiết rằng sự phi tuyến
của dữ liệu đầu vào có thể tương ứng với tổ hợp tuyến tính cùa cùa một số đại
lượng ngẫu nhiên và vì vậy có thể tách thành tổng các hàm cua các đại lượng đó.
Cách thức chuyển đổi đó chỉ có thể thực hiện được với một số rất hạn chế các bài
toán phi tuyến.
Trong khoảng những năm cuối của thể kỳ này, m ột phương pháp PCA phi

tuyến mới đã được xây dựng và phát triển, có tên là K PCA (PC A dựa trên hàm
nhân) bởi Scho lk o pf và đồng nghiệp của ông [9. 13]. p hư ong pháp này thực hiện
biến đồi phi tuyến trên hệ tọa độ bane cách tìm các phần từ cơ bản có liên hệ phi
tuyến với các giá trị đầu vào. Giả sử giả trị đầu vào là xk nam trons không ai an R m
với k = l, , n, chúng ta có thề tính được ma trận tương quan (covariance matrix)
của các giá trị đầu vào
o, -/0(*y -M,) n
^ / V _ ! . } = 0 1 * )
Co\ịxă , x ) = —

-

-

n- 1
Sau đó giải hệ phương trình để tìm £Ĩá trị đặc trung /. và véc tơ đặc trưng AV = Cv
Ý tưởng cơ bản của phư ơ ng pháp hàm nhân [14] là các tính toán tương tự cũng
có thể được thực hiện trong không sian tích vô hướng F có liên quan tới không
gian giá trị đầu vào thông qua m ột biến đồi phi tuyến <I>: R m -> F và x->X . Ta có
thể biểu diễn m a trận tương quan trong không gian F như sau, với già sử là dữ liệu
đã được chuyển về tâm của trục tọa độ
Ẽ (<&(*,)<&(*/)
Cov(0(x, ), <D(*,)) - —



/7-1
và tương tự chúng ta co thể tính được các giá trị đặc trưng tương tự như với PCA
truyền thống với hàm nhân có dạng như sau
Kltj=(0(Xj)O(Xjf) (3)

6.2.4 Thu ật toán RF
R andom forest [15] là m ột thuật toán đặc biệt dựa trên kỹ thuật lắp ghép
(ensem ble techniques [4]). về mặt bản chất thuật toán RF được xây dựng dựa trên
nền tảng thuật toán phản lóp C A R T sử dụng kỹ thuật có tên gọi là bagging [4], Kỹ
7
thuật này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mồi nút của cây để
phân chia cho m ức tiêp theo của cảy phân lớp. B ằn2 cách chia nhò k h ôns cian tim
kiêm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một
cách rât nhanh chóng cho dù không gian thuộc tính rất lớn. Các tham số đầu vào
của thuật toán khá đơn giản bao gồm số các thuộc tính được chọn trons mỗi lần
phân chia (mtry). Giá trị mặc định của tham số này là căn bậc hai của p với p là số
lượng các thuộc tính, Tương tự như thuật toán CAR T. RF vẫn sử dụng cỏna thức
Gini [4J là công thức tính toán việc phân chia câv. s ố lượng cây được được tạo ra
là không hạn chế và cũng không sự dụng bất kỳ kỹ thuật đề hạn chế m ờ rộng cây.
Chúng ta phải lựa chọn tham sô cho biết sổ lượng cây (,n tree ) sẽ được sinh ra sao
cho đảm bảo rang sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần. Thuật toán
sử dụng kỹ thuật O O B (o ut-of-b ag) [15] để xây dựne tập huấn luyện và phươno
pháp kiêm tra trên nó.
6.3 Mục tiêu và Nội dung nghiên cứu
6.3.1 Phương pháp đề nghị
6.3.1.1 Tổng quan v ề mô hình học
Performance
validation
Validation based on
Classifier
Converted_data
Train_data
Optimization kernel
param eters
{param s} Kernel PCA

{train_dat>

— '
{params}
0
Test_data
Kernel PCA
Classification
A
Hình 4: Kiến trúc tổng thể của phương pháp đề nghị (KPCA-RF) với mô hình học đề
tìm ra hàm nhân tốt nhất.
Trong phần này chủng tôi sẽ trình bày phương pháp đề nghị cùa chúng tôi.
Kiến trúc cơ bản của hệ thống bao gồm ba phần chính: tiền sử lý số liệu, quá trình
học để tìm ra tập các tham số tối ưu và cuối cùng là m ô đun phân lớp số liệu chưa
được sử dụng trong các quá trình trước đó.
Trong mô đun tiền xừ lý, chúng tôi đã sừ dụng kỳ thuật t-test [3. 4] nhằm làm
giảm số lượng các thuộc tính để làm giảm bót chi phí tính toán cũn® như aiảm độ
nhiễu của dữ liệu. Sau đó dữ liệu được phân chia thành các tập dữ liệu huấn luyện
và tập dữ liệu kiểm tra bao gồm một số mẫu là cùa bệnh nhân ung thư còn một số
khác bình thường.
8
Tiêp theo, chúng tôi sử dụng thuật toán di truvền để tìm hệ số tốt nhất để xây
dựng hàm nhân theo công thức (4) trình bày ờ dưới. Hàm nhân này được sừ dụng
trong K P C A như m ột cách để biến đổi khôr.g gian ban đầu thành khôna aian mói
với hy vọng có thể phân lóp dễ dàng và hiệu quả hon dựa trên mô đun phàn lóp
RF. ơ đây thuật toán di truyền được sử dụng để tạo ra một bộ các giá trị thực ị3
năm trong khoảng (0, 1). Bộ giá trị này được sừ dụ ns để xây dựiia côns thức của
hàm nhân nhằm biến đổi từ không gian sổ liệu ban đâu vào m ột k h ôns sian mói
thông qua m ô đun KJPCA. Phép biến đổi này được đánh giá thône qua tỷ lệ lồi
phân lớp được tạo ra bởi mô đun RF. Quá trình tìm bộ hệ sổ Ị3 được thực hiện dựa

trên quá trình thực hiện các thú tục của thuật toán di truyền với hàm định aiá dựa
trên RF. Q uá trình này được lặp lại một số lần cho tới khi đạt được kết qua tối ưu.
Sau khi két thúc quá trình tìm tập các hệ số dựa trên thuật toán di truyền, các
kêt quả này sẽ được chuyển đầy đủ sang mô đun phân lớp YÓ'i các dừ liệu chưa
được phân loại trước đó.
6.3.1.2 Xây dựng hàm nhân và phirong pháp học
N hư đã trình bày ở các phần trên, viêc chuyền đôi không gian phi tuyến ban
đầu thành không gian tuyến tính để cỏ thể dễ dàng thực hiện thuật toán PC A được
thực hiện m ột cách dễ dàng và hiệu quả thông qua hàm nhản. Đã có rất nhiêu hàm
nhân được xây dụng và công bổ cho các ứng dụng cụ thể khác nhau, tuy nhiên
việc chọn ra m ột hàm nhân đù tốt cho một ứ n° dụng hay m ột loại sô liệu cụ thẻ
luôn luôn là m ột thách thức không nhỏ đổi với các nhà nghiên cứu, [13]
Ở đây chúng tôi dựa vào m ột số kết quả trình bày trong các tài liệu [13, 14] để
giới thiệu m ột cách thức xây dụng hàm nhân phù hợp cho việc xử lý số liệu tin
sinh học củ a chúng tôi. H àm nhân do chúng tôi xây dựng được biểu diễn như sau
Trong đó Ki là những hàm nhân đã được xây dựng trước đó. hệ số (3, thề hiện ảnh
hường của hàm nhân thứ i vào hàm nil ân chính. Đê chứng minh hàm nhân vừa
được xây dựng thỏa m ãn các điều kiện của một hàm nhàn chúng ta có thê sử đụng
bổ đề 3.12 và nội dung của định lý M ercer [14]
Hệ số ị3 đóng m ột vai trò rất quan trọng trong việc tạo ra hàm nhân phù hợp với
dữ liệu đầu vào. Trong quá trình học, câu trúc của tập dữ liệu huân luyện sẽ được
học và làm cho phù họp m ột cách tự động thông qua hệ sổ này. N hư đã trình bày ờ
phần trướ c chúng tôi sử dụng thuật toán di truyền đê tìm ra hệ số |3 phù hợp nhất
sao cho tối thiểu hóa được lỗi phát sinh trong quá trình học.
(4)
Thỏa m ãn /? e [c ụ ] ,^ / ? =1
9
6.3.2 K ết quả và thảo luận
6.3.2.1 Môi trường thực nghiệm
Tât cả các thực nghiệm được thực hiện trên m áv tính Pentium IV 1.8GHz.

Phương pháp đê nghị được thực hiện trên nsôn ngữ R. đây là ngôn n sữ chuvên
dùng trong xãc suất thống kê (có thể tải về tại địa chỉ http://w w w .r-proiect.org).
các mô đun K PC A và RF cũng được tài về từ địa chi trên.
Đâu tiên chúng tôi thực hiện việc thu gọn dữ liệu sử dụng t-test. tiếp theo siải
thuật di truyên được sử dụng đê tìm ra cách đưa ra cách tạo ra hàm nhân phù hợp
cho K P C A đê tìm cách chuyên đôi không gian tối ưu nhất cho việc áp dụng phân
lớp R K Thực nghiệm được thực hiện 50 lần để kiềm tra sự ồn định cùa phương
pháp đề nghị.
6.3.2.2 Bộ dữ liệu ung thư ruột kết (Colon Tumor cancer)
_ Bộ dữ liệu ung thư ruột kết [16] bao gồm thông tin về sen được trích ra từ hệ
thông D N A m icroarray. Bộ dữ liệu này bao gôm 62 m ẫu với 22 mẫu cùa người
bình thường và 40 m âu của người có bệnh và có tông số 2000 thuộc tính. Dựa trên
các thực nghiệm trước đây, chúne tôi chọn ngẫu nhiên 42 m ẫu làm tập huấn luyện
và 20 m âu còn lại được sử dụng làm tập kiểm tra.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 15 17 18 19 20 21 22 2 3 24 25 26 27 28 29 30 31 32 23 34 25 36 37 3 8 39 40 41 A2 43 <4 4 $ 45 <7 *8 4S 50
RF Pred. Kpca Pred.
Hình 5: So sánh kết quả đoán nhận giữa khi chỉ sử dụng RF với thuật toán đã được cải
tiến KPCA-RF thông qua 50 lần thực nghiệm. Đường đậm thể hiện kết quả cùa
thuật toán cùa chúng tôi, còn đưòng mảnh thê hiện kêt quả của thuật toán RF.
Đầu tiên chủng tôi sử dụng kỹ thuật thong kê t-test dể giảm bớt số lượng thuộc
tính. C húng tôi lựa chọn k ho ản e 1000 thuộc tính tốt nhất để đưa vào hệ thổne của
chúng tôi. H ình vẽ 5 trên so sánh kêt quả giữa thuật toán RF nguyên gốc và thuật
toán học của chúng tôi thông qua 50 lân thực nghiệm. Trung bình thuật toán RF
cho kết quả là 77.64% với độ lệch chuân là 9.62%. còn thuật toán K PCA -R F cho
kết quả đoán nhận là 81.09% với độ lệch chuẩn là 9.82%. Kết quả trên cho thấy
10
thuật toán đề nghị của chúng tôi đã trả ra kết quả tốt hơn hẳn so với thuật toán RF
là thuật toán đư ợc sử dụng làm cơ sờ kiểm tra.
Bảng 1: So sánh kết quả phân lớp với một số nghiên cứu trưcvc đây vói phưonơ
pháp đề nghị trên cùng bộ dữ liệu.

Các phương pháp
Tỷ lệ dự đoán đúne (%)
Bootstrapped G A \S V M [17]
80.0
C om bined kernel for SV M [18]
75.33+7.0
K P C A -R F
81.09+ 9.82
Bảng 1 cho biết kết quả dự đoán của cùa một số nghiên cứu có cùng hướna tiếp
cận trích chọn nội dung đã công bố. So sánh với những kết au ả này tỷ lệ dự đoán
của hệ thống đề nghị đã đạt được kết quả tương đối khả quan.
6.4 Kết quả nghiên cứu
6.4.1 Các công bố liên quan đến kểt quả của đề tài
Chúng tôi đã trình bày báo cáo về hệ thống trích lọc thuộc tính tốt nhất dựa
trên PCA. B áo cáo có tiêu đề “Tối ưu hóa hệ thống phát hiện xâm nhập trái phép
dựa trên PCA và A N N :’đưọ'c trình bày ờ hội thảo khoa học quốc aia lần thử III,
được tổ chức tại N h a Trang, từ ngày 9-13/8/2007.
Hầu hết các hệ IDS dựa trên m ạng nơ ron hiện nay đều gặp phải hai vẩn đề:
m ột là vấn đề xác định số tầng ẩn và điều chỉnh các giá trị trọne số cho cấu trúc
mạng; hai là vấn đề xử ỉý lượng dữ liệu tính toán lớn. Trong bài báo này chúng tỏi
trình bày m ột hệ thống phát hiện xâm nhập trái phép dựa trên việc kết họp PCA và
A N N nhằm m ục đích xác định những thuộc tính quan trọng của bộ dữ liệu và sau
đó tim m ột cẩu trúc m ạng tối ưu cho bộ dữ liệu đó. N hàm tăng ti lệ đoán nhận và
giảm thời gian cũng n hư tài nguyên tính toán, chúng tôi đã áp dụng giải thuật di
truyền nhằm tìm ra được bộ tham số tối ưu cho m ạng A N N tương ứng với bộ dữ
liệu cần xử lý.
6.4.2 K ết quả đào tạo của đề tài
01 luận văn đại h ọ c đã bảo vệ tháng 6 năm 2007
Tên đề tài: Tìm hiểu và cải tiến thuật toán K N N
Tóm tắt nội dụng: Đ ề tài nRhiên cứu tìm hiểu một số khía cạnh trong khai phá và

sử lý số liệu lớn, đặc biệt quan tâm tới ứng dụng trích lọc các thuộc tính tôt nhât
để tăng hiệu quả của các thuật toán phân lớp. Luận văn đã trình bày một phương
pháp ưng dụng kỹ thuật trích lọc các thuộc tính bàng cách đánh giá độ tốt của từng
thuọc tính dựa trên kết quả phân lcrp của thuật toán K N N . B ang cách áp dụng lặp
lai cách tính toán đó, chúng ta có thê nhận được một tập các thuộc tính tôi ưu cho
bài toán phân lớp. K ết quả thự c nghiệm trên m ột sô dữ liệu ung thư cho thây
11
phương pháp này tăng hiệu quả phân lớp so với khi chỉ sử dụne thuật toán KNN.
tuy nhiên thời gian xử lý của phương pháp này cao hơn hẳn so với thuật toán sốc.
6.5 Kết luân và kiến nahi
■ *-»■ ■
Trong đề tài nghiên cứu này chúng tôi giới thiệu m ột p hư on s pháp mới nhàm
mục tiêu giảm số lượng thuộc tính của dữ liệu đầu vào trước khi áp dụng một
phương pháp phân lóp đã biết, v ề cơ bản thì RF là một phương pháp tươna đối tốt
trong việc xừ lý sổ liệu với số chiều tương đổi ỉ ớn và với số lượng mẫu huấn luyện
tưưng đối nhỏ. Phương pháp đề nghị cùa chúng tôi nhàm siảm thời eian tính toán
cũng như giảm độ nhiễu của dử liệu đầu vào bànơ cách áp dụnẹ sự cải tiến cùa
PCA bàng cách ứng dụng hàm nhân. Chúng tỏi đã xây dựng hàm nhân và phưons
pháp học để tỉm ra hàm nhân tối ưu thông qua việc sử dụng giải thuật di truvên.
Cách tiếp cận của chúng tôi về cơ bản đã tăng khả năng phân lớp của giải thuật RF
được thể hiện thông qua hình 4. Không chi tăng được khả năng phân lóp cho thuật
toán RF, phương pháp đề nghị còn cho thấy khả năng phân lóp tốt hơn một sổ
phương pháp trích chọn đã được côna bổ (Bảng I ).
12
6.6 Tài liệu tham khảo
1. Kohavi, R. and John, G.H.: Wrappers for Feature Subset Selection. Artificial
Intelligence (1997) pases: 273-324
2. Blum, A. and Langley, p.: Selection of Relevant Features and Examples in
Machine Learning, Artificial Intelligence, (1997) paees: 245-271
3. Pang-Ning Tan, Michael Steinbach, and Vipin Kumar: Introduction to Data Minina.

Addison Wesley; 1st edition, May 2, 2005.
4. Duda, R. o ., Hart, p. E., Stork, D. G.: Pattern Classification (2nd Edition). John
Wiley & Sons Inc. (2001)
5. Luis Carlos Molina, Lluis Belanche, Angela Nebot: Feature Selection Algorithms: A
Survey and Experimental Evaluation, Technical report, Universitat Poĩitècnica đe
Catalunya Departainent de Llenguataes i Sistemes Informatics. 2002
6. H. Liu and L. Yu: Feature Selection for Data Mining, Technical report. Department
of Computer Science and Engineering Arizona State University, 2002
7. Guyon I. and Elisseeff A.: An introduction to variable and feature selection JMI R
3:1157-1182, March 2003
8. Guyon I., Weston J., Barnhill s., Vapnik V.: Gene Selection for Cancer Classification
using Support Vector Machines, Machine Learning, 2002
9. Scholkopf, B., Smola, A.J., Muller, K„ 1998. Nonlinear component analysis as a
kerne] eigenvalue problem. Neural Computation 10 (5). 1299-1399
10. Wise, B.M., Gallagher, N.B., 1996. The process chemometrics approach to process
monitoring and fault detection. Journal of Process Control 6 (Ố), 329-348.
11. Dong, D., McAvoy, T.J., 1996. Nonlinear principal component analysis based on
principal curves and neural networks. Computers and Chemical Engineering 20(1)
65-78.
12. Kramer, M.A., 1991. Nonlinear principal component analysis using autoassociateive
neural networks. A.I.Ch.E. Journal 37 (2). 233-243.
13. Bernhard Schokopf , Alexander J. Smola.: Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond (Adaptive Computation and
Machine Learning), MIT press, 2002
14. N. Cristianini and J. Shawe-Taylor.: An introduction to Support Vector Machines and
other kernel-based learning methods, Cambridge, 2000.
15. Breiman, L.: Random forest, Machine Learning, vol. 45 (2001) pages: 5-32.
16. u . Alon, N. Barkai, D. Notterman, K. Gish, s. Ybarra. D. Mack, and A. Levine.:
Broad Patterns of Gene Expression Revealed bv Clustering Analysis of Tumor and
Normal Colon Tissues Probed by Oligonucleotide Arrays. Proceedings of National

Academy of Sciences of the United States of American, vo] 96, pp. 6745-6750. 1999.
17. Chen, Xue-wen: Gene Selection for Cancer Classification Using Bootstrapped
Genetic Algorithms and Support Vector Machines. IEEE Computer Society
Bioinformatics Conference (2003) pages: 504.
18. Nguyen, H N, Ohn. S Y, Park, J., and Park. K S.: Combined Kernel Function
Approach in SVM for Diagnosis of Cancer, Proceedings of the First International
Conference on Natural Computation (2005)
13
7 Phu ỉuc
■ ■
- 01 bài báo đã báo cáo trong hội nghị FAIR 2007 ờ Nha Trang
01 bìa luận văn tốt nghiệp đại học
- Đề cương đề tài nghiên cứu đã được phê duyệt
Hợp đồng thực hiện đề tài nghiên cứu khoa học
Tóm tắt kết quả nghiên cứu của đề tài bàng tiếng Anh (biểu mẫu
16/KHCN/Đ HQG HN)
phiếu đăng ký kết quả nghiên cứu KHCN (biểu mẫu 14/K HCN /ĐHQ GH N )
14
Chương trình Hội Thảo
Sáng Thứ năm ngày 09/08/2007
Địa điểm : Hội trường A
8h00-9h00 : Đãng ký đại biểu
9h00-9h30 : Khai mạc và phát biểu của các đại biểu
Giới thiệu đại biểu - TS. Lẻ Văn Hào
Phút m ặc niệm GS. Nguyễn Văn Đạo
Nguyên Chủ tịch Hội đong Khoa học Tự nhiên Việt Nam
Phát biểu khai mạc Hội thảo
Phó Hiệu trưởng trường ĐH Nha Trang: TS. Hoàng Hoa Hồng
Phát biểu chào mừng của lãnh đạo Tinh Khánh Hòa
Phó Chủ tich UBND Tinh: Bà Ngiỉyễn Thị Thu Hằng

Phát biểu của Hội đồng Khoa học ngành Tin học
GS. TSKH Bạch Hung Khang, Chủ tịch Hội đòng
9h30-9h35 : Kết thúc khai mạc
Tiểu ban 5: CÔNG NGHỆ ĐA PHƯƠNG TIỆN
Địa điểm : Phòng 201
Thòi gian : Sáng thứ sáu, ngày 10/08/2007
Người điều khiển : PGS. TS NGÔ QUỐC TẠO - TS. Đ ỏ TRUNG TUẤN
08h 00 ,0 8 h 2 0
MỘT THUẬT TÓAN GIÁU TIN BÈN
VỮNG VÀ DUNG LƯỢNG CAO
Nguyễn Xuân Huy, Nguyễn Ngọc
Hả, Trịnh Thanh Lâm
08 h 20,0 8h 4 0
MỘT THUẬT TOÁN PHÀN CỤM MỞ VÀ
MỘT THỬ NGHIỆM PHÂN CỤM ẢNH
Bùi Công Cường, Lê Vãn Hùng
08 h 40,09h 0 0
THUẠT GIAI DI TRU YEN TRONG BAI
TOÁN ĐỔI SÁNH ÁNH
VÂN TAY
Lê Hoài Băc, Lê Hoàng Thái
09 h 0 0,09h 20
TÓNG QUAN CÁC PHƯƠNG PHÁP XÁC
ĐỊNH KHUÔN MẶTNGƯÒI
Phạm Thê Bảo
0 9 h 2(k 0 9 h 4 0
TÓI ƯU HÓA HỆ THÕNG PHÁT HIỆN
XÂM NHẬP TRÁI PHÉP DựA TRÊN PCA
VÀ ANN
Nguyễn Hà Nam, Nguyễn Câm

Tú, Nguyễn Việt CưÒTìg
0 9 h 40 ,10 g 0 0
N g h ỉ g i ả i l a o
N gư ờ i điều khiển: T S. Đ ỏ N Ã N G TO ÀN - TS. NG Ư Y Ẻ N H O ÀNG MINH
10h 00,10 h20
MỘT Sơ ĐÒ PHÂN PHÔI DỬ LIỆU ĐA
PHƯƠNG TIỆN AN TOÀN
Nguyễn Linh Giang
10h2 0,10h 40
NGHIÊN CỨU ẢNH 3D VÀ ỨNG DỰNG
TRONG XỬ LÝ ẢNH
Y KHOA
Đào Văn Tuyết, Trần Quác
Tuấn,
Trần Đình Trung
1 0 h 4 0 ,llh 0 0
SỪ DỤNG Đ ộ ĐO MỜ TRONG NÉN ÀNH
FRACTAL
Vũ Thanh Hiền
I lh 0 0 ,ll h 2 0
SỬ DỤNG MỔ HÌNH SVM CHO VIỆC
NÂNG CAO HIỆU QUẢ NHẬN DẠNG
CHỮ VIẾT TÀY HẠN CHẾ
Phạm Anh Phương, Ngô Quốc
Tạo, Lương Chi Mai
Tối ưu hóa Hệ thống Phát hiện xâm nhập trái
phép dựa trên PCA và ANN
Nguyễn Hà Nam, Nguyễn cẩm Tú, Nguyễn Việt Cường
(namnh, ncam tu, mrcuor.gnv} @vrrj . edu . vn
Khoa Công Nghệ Thônơ Tin,

Trường ĐH Công Nghệ, ĐHQGHN
Tóm tắt: Bài báo để xuất một phưomg pháp phát hiện xám nhập trải phép (IDS) dưa
trên các lã thuật phản lích thành phần CO' bàn (PCA) và mạng thắn kinh nhân lạo lan
tòa ngược (Back-propagation Artificial Nơ von Network - ANN). Hầu hét các hệ IDS
dựa trên mạng nơ von hiện nav đêu gập phải hai ván để: một ỉà xác định so tầng án
và điều chinh giá trị trọng sổ cho cấu trúc cua mạng ANN; liai là xu lý lượng dữ liệu
tinh toán IÓ71. Nhăm tăng ti ỉệ phát hiện và giàm thời gian tinh toán, chúng lói đã sử
dụng giài thuật di truyẻn (GA) nhăm xác định các tham só tôi uv cùa mạng A.Y.Y với
bộ dữ liệu tương ứng. Nhờ các toán tử GA, hệ IDS (dựa trên PCA và B \X j không
những tăng được tóc độ phát hiện mà còn giảiĩì được các tinh toán phụ trội. Két qua
thực nghiệm trên tập dữ liệu phát hiện xám nhập cùa KDD năm ì 999 cho két qua
bước đâu hét sức khả quan.
1 Giới thiệu
Bài báo đề xuất một hệ thống phát hiện xâm nhập trái phép dựa trên PCA và inạne Nơ
ron lan truyền ngược. Hầu hết các hệ IDS dựa trên mạn^ nơ ron hiện nay đêu tỉặp phai
hai vấn đề: một là vấn đề xác định so tan? ân và điêu chình các giá trị trọng sô cho câu
trúc mạng; hai !à vấn đề xử lý lượng dữ liệu tính toán lớn. Nhầm tãng ti lệ đoán nhận và
giám thời gian cũng như tài nguyên tính toán, chúng tôi đã áp dụng giải thuật di truyên
nhằm tìm ra được bộ tham số tối ưu cho mạng ANN tương ứng với bộ dữ liệu cần xử lý.
Trong bài báo này chúng tôi trình bày một hệ thông phát hiện xâm nhập trái phép dựa
trên việc kết hợp PCA và ANN nhằm mục đích xác định những thuộc tính quan trọng của
bộ dữ liệu và sau đó tìm một cấu trúc mạng tối ưu cho bộ dữ liệu đó. ơ đây, sự xâm nhập
trái phép được hiếu là vi phạm tính tin cậy, tính tích hợp và tính săn sàng của máy tính
hoặc hệ thống mạng máy tính (theo Anderson [5]). Một hệ IDS có khả năng phát hiện
xâm nhâp trái phép một cách tư động, từ đó bảo vệ sự an toan cua cac maỵ tinh va mạng
máy tính khỏi các cuộc tấn công hoặc những mưu đỏ khai thác khác [6], \ ân đê phát hiện
xâm nhập trái phép cũng có the đưcrc xem như một bài toán phân lớp. Đẽ giai quỵểt bài
toán phân lớp mạng nơ ron là một trong những phương pháp đưcrc áp dụng khá rông rãi
trong những trường họp khó tìm ra đặc trưng của bộ dữ liệu. Mạng nơron đã chứng minh
đươc tinh hiệu quả với các bài toán phân lớp, chính vì lý đo đó đã có rất nhiều nghiên cứu

tìm cách ứng dụng mạng nơ ron cho lớp bài toán phát hiện sự xâm nhập. Mặc đù vậy,
ngươi ta van thầy việc xác định được cau trúc cua mạng nơ ron. hay nói cách khác xác
định so cac tang ẩn cua mạng, số các nơ ron trong một tầng ân hay, định hàm ngưỡng
(threshold) ờ tầng ra vẫn hết sức khó khăn. Thêm vào đó, IDS cùng cản phái kiêm soát
dư liẹu đe xac định một sự kiện có phải là một xâm nhập trái phép hay không. Dữhệu về
hẹ thong mạng có rất nhiểu đặc trưng và khi sổ lượng dữ liệu nảy tăng, chúng ta cân phai
phát hiện ra những bộ thuộc tính đặc trưng. Suns và các đồnơ sự đã sử dụns mô hình loại
trừ các thuộc tính (feature deletion method) để giải quyết vấn đề này. Tuy vậy, cách tiếp
cận này vẫn rất mất thời gian và không đem lại hiệu quả tốt [4], Trong bai báo này. chúns
tôi áp dụng PCA, một phương pháp đà được áp dụng thành công trong việc làm giám số
chiêu của thuộc tích và xác định được tập thuộc tính đặc trung cua bộ dữ liệu [7], Các
thao tác PCA có thê được thực hiện nhanh và hẻt sức đơn siàn. tuy vậy. PCA có một
nhược điêm là việc khó khăn trong xác định so chiều của đầu ra, hav số các thuộc tính
đặc trưng của bộ dữ liệu. Do vậy, hai bài toán này có thẻ qui vê bài toán tỏi ưu. Vì vậy
chúng tôi đã sử dụng giải thuật di truyền (GA) để không những xác định các tham sổ về
câu trúc của mạng nơ ron mà còn nham xác định số chiều ra cho PCA. GA uã đuợc áp
dụng thành công cho nhiêu bài toán tôi ưu như tỏi ưu hóa các câu trúc của mạne nơ ron
[9], Tối ưu hóa câu trúc của mạng nơ ron không phải là bai toán mới nhưng phương pháp
của chúng tôi là sự kết hợp giữa PCA và BNN, Bèn cạnh đó. bãns cách sử dụn2 dãi
thuật di truyền, chúng tôi có thê chi ra mô hình phát hiện xâm nhập trái phép tỏi ưu tronP
số những mô liìnli kết hợp đó với tốc độ hội tụ rất nhanh khi so với các hướna tiếp cận
trước đày.
Phần còn lại cùa bài báo được tô chức như sau: Nhũng công trình liên quan được mô
tà trong phần 2. Hướng tiếp cận được đề xuất trong phần 3. Phẩn 4 trình bày thực nghiệm
và m ột số kết quả. Pliân CUÔ1 là một sô kêt luận đáns lưu ý. Những kêt quá của chúng tôi
trẽn tập dữ liệu phát hiện xâm nhập trái phép cho thây tính khá quan cua hướng tièp cận
2 Một số kiến thức CO’ bản và các công trình liên quan
Có nhiều cách phân loại các hệ thống phát hiện xâm nhập. Dựa trên các đặc trưng cua mõ
hình, ta có thể phân loại các hệ thống phái hiện xâm nhập thánh hai loại: phát hiện việc
sử dụnơ sai (misuse) và phát hiện sự bất bình thường của việc truy nhập. Dựa trên nguỏn

dữ liệu kiểm soát mạng ta có thể phân thành hai loại: hệ thống phát hiện xàm nhập dựa
trên mạnơ và hệ thống phát hiện xâm nhập dựa trên máy chu (host). Vân đẻ phát hiện
xâm nhập trái phép có thể xem là bài toán phân lóp. Ờ đây, chúng tôi sử dụng mạng nơ
ron lan truyền ngược (Back-probagation ANN) đê phân lớp. Nhò' tính năng đơn gian và
hiêu quả mạng nơ ron lan truyền ngưcỵc là một trong sô các càu trúc mạng I1Ơ ron phô
biển nhất được ứng dụng rộng rãi trong các ứng dụng máy học như nhận dạng kí tự.
BNN bắt đầu như một mạng cua các nút được sắp xếp thành 3 tầng - tầng vào (input),
tầng ẩn (hidden) và tâng ra (output). Tàng vào và tang ra được dung như cac nut đe lựu
lan lượt bộ đệm vào và ra cho mô hình, tầng ẩn cung cấp một phương thức dê phát hiện
những mói quan hệ giữa dữ liệu đâu vào và xuat nhưng moi quan hẹ nay ra Ianẵ ra
Tnroc kiíi cung cấp dữ liệu cho mạng nơ ron, trọng số các nút được khơi tao ngẫu nhiên.
Phan tích cac thành phần ca bản (PCA) là kĩ thuật trong phàn tích dữ liệu thông kê. trích
chon đặc trưng và nén dữ liệu [7]. Với một tập các độ đọ đa biên cho trươc, mục đích la
tim ra tâp nho nhắt các biến với mức độ dư thừa ít nhảt. Trong PCA, mức độ du thừa
đươc đo băng sự tương quan giữa các thành phần dữ liệu, ơ đây. chúng tô. đã áp dụng
PCA cho việc lựa chọn tập đặc trưng và giảm số lượng tham sô mô ta các mâu xâm nhập
trai phep. Tuy nhiên, xác định cấu trúc của mạng nơ ron và sỏ chiêu cua đâu ra cua PCA
tương đoi khó khan. Đẻ giải quyết bài toán này, chúng tỏi sư dụng giai thuật di truyền,
phương pháp được áp dụng thành công trong nhiều bài toán hoc và các bai toan tỏi ưu
/-AI HOC WUOG G ia ha N (^)'
RUNG TÂM THÔNG TIN THƯ VIỀN

×