I H C QU C GIA HÀ N I
TR
NG
I H C CỌNG NGH
Ngô Th
S
ng Huy n
PHÂN L P TH
I NT
D NG MÁY VECTOR H TR
LU N V N TH C S
HÀ N I – 2007
I H C QU C GIA HÀ N I
TR
NG
I H C CỌNG NGH
Ngô Th
ng Huy n
M CL C
S
PHÂN L P TH
I NT
D NG MÁY VECTOR H TR
NgƠnh: Công ngh thông tin
Mƣ s : 1.01.10
LU NăV NăTH CăS
Ng
ih
ng d n khoa h c: PGS. TS HƠ Quang Th y
HÀ N I – 2007
Lêi c¶m ¬n
Trongăquáătrìnhăth căhi năđ ătài,ătôiăđãăg păr tănhi uăkhóăkh năphátăsinhă
màăn uăkhôngăcóăs ăgiúpăđ ,ăđ ngăviênăc aăgiaăđình,ăcácăth yăcôăgiáoăcùngă
cácăb năbè,ăđ ngănghi păthìăcóăl ătôiăkhóăcóăth ăhoànăthànhăđ
căkhóaălu nă
này.
L iăđ uătiên,ătôiăxinăchânăthànhăc mă năcácăth yăcôăgiáoăgi ng d y t i
Tr
ngă
iăh căCôngăngh ă-
iăh căQu căgiaăHàăN iăđãătr căti păch ăb o,ă
truy năth ăchoătôiănh ngăki năth căquýăbáu.ă
giáoăPGS. TS Hà Quang Th y,ăng
căbi tătrânătr ngăc mă năth yă
iăth yăđãăt nătìnhătr căti păh
ngăd n,ă
giúpăđ ăvàăđ ngăviênătôiăr tănhi uătrongăsu tăquáătrìnhăhoànăthànhălu năv n.
Vàăcu iăcùng,ăm iăl iăyêuăth
đ ngănghi p,ănh ngăng
ngănh tăxinăg iăđ năgiaăđình,ăb năbèăvàă
iăluônă ăbênăc nhătôi,ămangăl iăchoătôiăngu năđ ngă
viênătinhăth năl nălaoăvàăt oăm iăđi uăki năthu năl iăchoătôiăhoànăthànhălu nă
v n nàyătrongăkh ăn ngăt tănh tăcóăth .
Doă s ă h nă ch ă v ă th iă gian,ă trìnhă đ ă vàă kinhă nghi mă nênă đ ă tàiă s ă
khôngătránhăkh iănh ngăthi uăsót.ăTôiăr tămongănh năđ
căýăki năđóngăgópă
quýăbáuăc aăcácăth yăcôăgiáoăvàăcácăb n, đ ng nghi p đ ălu n v n đ
căngàyă
càngăhoànăthi năh n.
Trânătr ngăc mă n!ă
HàăN i,ăngàyăăăăăăthángă12ăn mă2007
H căviên
NgôăTh
i
ngăHuy n
M CL C
L iăc mă n ..................................................................................................... i
Danhăm căhìnhăv ....................................... Error! Bookmark not defined.
Danhăm căb ngăbi u.................................... Error! Bookmark not defined.
M ă
Ch
U ....................................................................................................... 1
ng 1. KHÁI QUÁT V ăKHAIăPHÁăD ăLI U V N B N ................ 3
1.1. M t s ki n th c v khaiăpháăd ăli u ................................................. 3
1.1.1 Khái ni m khai pháăd ăli u .......................................................... 3
1.1.2ă Cácă h
ngă ti pă c nă vàă cácă d ngă d ă li uă trongă khaiă pháă d ă li u
............................................................. Error! Bookmark not defined.
1.2. Cácăbàiătoánătrongăkhaiăpháăd ăli uăv năb nError!
Bookmark
not
defined.
1.2.1ăTìmăki măv năb n....................... Error! Bookmark not defined.
1.2.2ăPhânăl păv năb n ........................ Error! Bookmark not defined.
1.2.3ăM tăs ăbàiătoánăkhác .................. Error! Bookmark not defined.
1.3.ăKhaiăpháăd ăli uăWeb ...................... Error! Bookmark not defined.
1.3.1ăNhuăc u ...................................... Error! Bookmark not defined.
1.3.2ă
căđi m .................................... Error! Bookmark not defined.
1.3.3ăCácăh
Ch
ngăti păc n ..................... Error! Bookmark not defined.
ng 2.ăPHÂNăL PăV NăB N ............ Error! Bookmark not defined.
2.1.ăBàiătoánăphânăl p ............................. Error! Bookmark not defined.
2.1.1ăNhuăc u,ăýăt
ng ........................ Error! Bookmark not defined.
2.1.2ăQuáătrìnhăphânăl p...................... Error! Bookmark not defined.
2.2.ăCácăgi iăphápăphânăl păđi năhình ..... Error! Bookmark not defined.
2.2.1ăThu tătoánăphânăl păBayes ......... Error! Bookmark not defined.
2.2.2ăThu tătoánăk-ng
iălángăgi ngăg nănh t.Error!
defined.
ii
Bookmark
not
2.2.3ăPhânăl păd aăvàoăcâyăquy tăđ nhError! Bookmark not defined.
2.2.4ăChi tăl căthôngătinătheoămôăhìnhăMarkovă nError! Bookmark not
defined.
Ch
ngă3.ăB ăPHÂNăL PăS ăD NGăMÁYăVECTORăH ăTR ... Error!
Bookmark not defined.
3.1.ăBi uădi năv năb năd aătrênămôăhìnhăkhôngăquanăvector .......... Error!
Bookmark not defined.
3.1.1ăGi iăthi u.................................... Error! Bookmark not defined.
3.1.2ăMôăhìnhăBoolean ........................ Error! Bookmark not defined.
3.1.3ăMôăhìnhăt năs ............................ Error! Bookmark not defined.
3.2.ăB ăphânăl păs ăd ngăvectorăh ătr ... Error! Bookmark not defined.
3.2.1ăVectorăh ătr .............................. Error! Bookmark not defined.
3.2.2ăThu tătoánăt oăsiêuăph ngăphânăcáchError!
Bookmark
not
Bookmark
not
defined.
Ch
ng 4.ă NGăD NGăVĨăTH CăNGHI MError!
defined.
4.1.ăGi iăthi uăbàiătoánăth cănghi m....... Error! Bookmark not defined.
4.2.ăD ăli uăvàăch
4.3.ăMôiătr
ngătrình ................... Error! Bookmark not defined.
ngăth cănghi m .................. Error! Bookmark not defined.
4.4.ăK tăqu ăth cănghi măvàăđánhăgiá..... Error! Bookmark not defined.
4.4.1ă
ă chínhă xácă c aă b ă phână l pă khiă th ă nghi mă v iă t pă ki mă tra
............................................................. Error! Bookmark not defined.
4.4.2ă
ăchínhăxácăc aăb ăphânăl păkhiăt ngăd năt păd ăli uăh cError!
Bookmark not defined.
K TăLU N ................................................. Error! Bookmark not defined.
TĨIăLI UăTHAMăKH O ............................................................................. 5
iii
M
U
Ngàyă nayă v iă s ă phátă tri nă nh ă v ă bãoă c aă cácă ngànhă khoaă h că k ă
thu t,ăđ căbi tălàăs ăphátătri nănhanhăchóngăc aăm ngămáyătínhătoànăc u,ăm tă
kh iă l
ngă d ă li uă kh ngă l ă v nă hàngă ngàyă đ
că c pă nh tă liênă t c,ă th
xuyên,ănh măđápă ngăm tătrongănh ngănhuăc uăkhôngăth ăthi uăđ
ng
i,ăđóălàăthôngătin.ăVàăvìăth ăchúngătaăđangăđ
ngă
căc aăconă
căs ngătrongăm tăxãăh iă
bùngăn ăthôngătin,ăkhiăcácă ngăd ngăcôngăngh ăthôngătinăđãăđiăvàoăt iăt ngă
l nhăv căc aăđ iăs ngăxãăh i.ăTrongăđóăInternetăngàyăcàngăkh ngăđ nhăm tăs că
m nhăv
tătr iăvàăđóngăm tăvaiătròăquanătr ngătrongăđ iăs ngăxãăh i,ăkinhăt ,ă
chínhătr ,ăv năhoá,ăgiáoăd cầăc aăconăng
i.ăCùngăv iăs ăphátătri năkhôngă
ng ngăđó,ăInternetăđãăvàăđangătr ăthànhăm tăkhoăthôngătinăkh ngăl ăv ăc ăs ă
l
ngăc ngănh ăs ăbi năđ iănhanhăchóngăc aănó,ătheoă
n măl
căđoánăthìăc ăsauăhaiă
ngăthôngătinăl iăt ngăthêmăg păđôi.ă
Th ăđi năt ălàăm tăd chăv ăph ăbi nănh tătrênăInternet,ănóăgiúpăchoăm iă
ng
iă s ă d ngă máyă tínhă k tă n iă Internetă đ uă cóă th ă traoă đ iă thôngă tină v iă
iv
nhau.ăNgàyănay,ăkhiămàăInternetăđãăcóăm tă ăkh păm iăn iăthìăvi căs ăd ngă
d chăv ăth ăđi năt ălàă vi căhàngăngàyăđ iăv iăr tănhi uăng
gi i.ăTaăbi tăr ngăkhiăm ngăInternetăraăđ i,ănh ngăng
iătrênăkh păth ă
iăs ăd ngăđ uătiênălàă
cácăchuyênăgiaămáyătính,ăh ăcùngăg iănhi uăemailăđ năcácănhómăng
khácănhau,ăsauăđóăm iăcóătìnhătr ngăkhôngăth ăki măsoátăđ
đ n.ă Vìă v yă c nă ph iă cóă cácă ch
ng
căcácăemailăg iă
ngătrìnhă phânăl pă cácă emailă theoăth ă m că
iădùngăho căl căhayăng năch nănh ngăemailămàăng
nh nănh măt ngăch tăl
iădùngă
iădùngăkhôngămu nă
ngăs ăd ng.
Trongăl nhăv căth ăđi năt ăcáănhân,ăcácăk ăthu tăphânăl păv năb năc ngă
đ
căápăd ngăr tăr ngărãiăvàoăbàiătoánăl căth ărác.ăM tăs ăv năđ ăkhácăliênă
quanăđ năth ăđi năt ănh ăl căcácălu ngăth ăđi năt ,ăt ăđ ngăt oăcácăth ăm că
m iăc ngăđ
cănghiênăc uăvàăgi iăquy t.ăHi nănay,ăbàiătoánăphânăl păth ăđi nă
t ăvàoăcácăth ăm căc ngăđangăđ
cănhi uănhàănghiênăc uăquanătâm.ă
Trongălu năv nănày,ăchúngătôiă ngăd ngăphânăl păv năb năvàoăl nhăv că
th ăđi năt ănh măgi iăquy tăbàiătoánăphânăl păt ăđ ngăth ăđi năt ăvàoăcácăl pă
doăng
iădùngăđ nhăngh a.ăL aăch năthu tătoánămáyăvectorăh ătr ă(SVMs)ăv iă
nh ngă uăđi măvàăhi uăqu ăđãăđ
căch ngăminhăquaănhi uăth cănghi măv ă
phânăl păv năb n,ăchúngătôiăhyăv ngăSVMsăcóăth ăgi iăquy tăcácă khóăkh nă
c aăbàiătoánăphânăl păemailăvàăđemăl iăk tăqu ăkh ăquan.ă
Lu n v n đ
Ch
h
c t ch c thành 4 ch
ng nh sau:
ngă 1ă trìnhă bàyă kháiă quátă v ă khaiă pháă d ă li u,ă cácă k ă thu tă vàă
ngăti păc năchínhătrongăkhaiăpháăd ăli uăvàăphânălo iăcácăh ăth ngăkhai
pháătheoănhi uătiêuăchíăkhácănhau.ăCh
ngănàyăc ngăgi iăthi uăv ăcácăbàiătoánă
trongăkhaiăpháăd ăli uăv năb năvàăkhaiăpháăd ăli uăWeb.
Ch
ngă2ătrìnhăbàyăbàiătoánăvàăquáătrìnhăphânăl păv năb n,ăđ ngăth iă
gi iăthi uăm tăs ăgi iăphápăphânăl păđi năhình.
2
Ch
ngă3ăgi iăthi uăph
ngăphápăbi uădi năv năb năd aătrênămôăhìnhă
khôngăquanăvectorăvàăt pătrungănghiênăc u,ăkh oăsátăph
ngăphápămáyăvectoră
h ătr ,ăđâyălàăti năđ ăđ ăth căhi năvi căth cănghi măchoălu năv nănày.
Ch
ngă4ătrìnhăbàyăv ămôăhìnhăphânăl păth ăđi năt ăvàăápăd ngăđ iăv iă
m tăb ăd ăli uăđãăđ
căcôngăb .ăT ăcácăk tăqu ăth cănghi m,ăđ aăraăđánhăgiáă
h ăth ngăphânăl pănóiătrên.
CH
NG 1. KHÁI QUÁT V KHAI PHÁ D
LI U V N B N
1.1. M t s ki n th c v khai phá d li u
1.1.1 Khái ni m khai phá d li u
Trongă nh ngă th pă k ă g nă đây,ă l
ngă thôngă tină đ
că l uă tr ă trênă cácă
thi tăb ăđi năt ă(đ aăc ng,ăCD-ROM,ăb ngăt ,ă...v.v.)ăkhôngăng ngăt ngălên.ă
S ă tíchă l yă d ă li uă nàyă x yă raă v iă m tă t că đ ă bùngă n .ă Ng
iă taă
că đoánă
r ng,ăl
ngăthôngătinătrênătoànăc uăt ngăg păđôiăsauăkho ngăhaiăn măvàătheoă
đóăs ăl
ngăc ngănh ăkíchăc ăc aăcácăc ăs ăd ăli uăc ngăt ngălênăm tăcáchă
nhanhăchóngă[5].
Hình 1 - L
ng d li u đ
c tích l y t ng m nh theo th i gian
3
Chúngătaăqu ăth căđangăs ăh uăm tăkh iăl
ngăd ăli uăkh ngăl ,ănh ngă
l iăluônăc măth yăthi uănh ngăthôngătinăh uăích.ăL
ngăd ăli uăkh ngăl ănàyă
th căs ălàăm tăngu nă“tàiănguyên”ăr tăgiáătr ăb iăthôngătinălàăy uăt ăthenăch tă
trongă m iă ho tă đ ngă tr
că khiă raă quy tă đ nh.ă Khaiă pháă d ă li uă ậ khaiă thácă
nh ngăthôngătinăti mă năcóătínhăd ăđoánăt ănh ngăc ăs ăd ăli uăl năậ làăm tă
h
ngăti păc năm iăv iăkh ăn ngăgiúpăcácăcôngătyăchúătr ngăvàoănh ngăthôngă
tină cóă nhi uă ýă ngh aă t ă nh ngă t pă d ă li uă l nă (databases,ă dataă warehouses,ă
data repositories)ămangătínhăl chăs .ăNh ngăcôngăc ăkhaiăpháăd ăli uăcóăth ă
d ăđoánănh ngăxuăh
ngătrongăt
nh ngăquy tăđ nhăk păth iăđ
ngălaiăvàădoăđóăchoăphépădoanhănghi păraă
căđ nhăh
ngăb iătriăth cămàăkhaiăpháăd ăli uă
đemăl i.ăS ăphânătíchăd ăli uăm tăcáchăt ăđ ngăvàămangătínhăd ăbáoăc aăkhaiă
pháă d ă li uă cóă uă th ă h nă h nă soă v iă s ă phână tíchă thôngă th
ngă d aă trênă
nh ngă s ă ki nă trongă quáă kh ă c aă cácă h ă h ă tr ă raă quy tă đ nhă (Decisionă
Support Systems - DSSs)ătruy năth ngătr
că đây.ăCôngăc ăkhaiăpháăd ăli uă
c ng cóă th ă tr ă l iă nh ngă câuă h iă trongă l nhă v că kinhă doanhă màă tr
đ
că đâyă
căxemălàăt nănhi uăth iăgianăđ ăx ălý.ăV iăt tăc ănh ngă uăth ătrên,ăkhaiă
pháă d ă li uă đãă ch ngă t ă đ
că tínhă h uă d ngă c aă nóă trongă môiă tr
ngă kinhă
doanhăđ yătínhăc nhătranhăngàyănay.ăGi ăđây,ăkhaiăpháăd ăli uăđãăvàăđangătr ă
thànhăm tătrongănh ngăh
ngănghiênăc uăchínhăc aăl nhăv căkhoaăh cămáyă
tínhăvàăcôngăngh ătriăth c.
a)
nh ngh a Khai phá d li u
Cóă th ă hi uă m tă cáchă s ă l
că r ngă khaiă pháă d ă li u làă quáă trìnhă tìmă
ki mănh ngăthôngătină(triăth c)ăh uăích,ăti mă năvàămangătínhăd ăbáoătrongă
cácăt păd ăli uăl n.ăNh ăv y,ăcácănhàăkhoaăh căchoăr ngănênăg iăquáătrìnhănàyă
làăkhám phá tri th c (Knowledge Discovery in Databases ậ KDD)ăthayăvìălàă
khaiăpháăd ăli u.ăTuyănhiênăcácănhàăkhoaăh cătrongăl nhăv cănàyăđ ngăýăv iă
nhauăr ngăhaiăthu tăng ătrênălàăt
ngăđ
4
ngăvàăcóăth ăthayăth ăchoănhau.ăH ă
lýăgi iăr ng,ăm căđíchăchínhăc aăquáătrìnhăkhámăpháătriăth călàăthôngătinăvàătriă
th căcóăích,ănh ngăđ iăt
ngămàăc năph iăx ălýăr tănhi uătrongăsu tăquáătrìnhă
đóăl iăchínhălàăd ăli u.
M tăkhác,ăkhiăchiaăcácăb
cătrongăquáătrìnhăkhámăpháătriăth c,ăm tăs ă
nhàănghiênăc uăl iăchoăr ng,ăkhaiăpháăd ăli u ch ălàăm tăb
cătrongăquáătrìnhă
khám phá tri th c [21].
Nh ăv y,ăkhiăxétă ăm căt ngăquanăthìăhaiăthu tăng ănàyălàăt
nhau,ănh ngăkhiăxétăc ăth ăthìăkhaiăpháăd ăli u đ
căxemălàăm tăb
ngăđ
ngă
cătrongă
quáătrìnhăkhám phá tri th c.
TÀI LI U THAM KH O
Ti ng Vi t
[1].ă oànăS nă(2002),ăM t s gi i pháp cho bài toán tìm ki m trong c s d
li u Hypertext. Lu năv năth că s ăCôngăngh ă thôngătină2002ăKhoaă Côngă
Ngh ă-
iăH căQu căGiaăHàăN i.ă
[2].ă Nguy nă Th ă Thùyă Linh,ă Nguy nă Thuă Trang,ă Nguy nă Th ă H
ngă Th o,
HàăQuangăTh yă(2007),ăM t gi i pháp h c bán giám sát SVM phân l p
trang web ti ng Vi t. Báoăcáoăt iăH iăth oăFAIR'07,ăNhaăTrang,ă8-2007.
[3].ăPhanăXuânăHi uă(2003),ăKhai phá song song lu t k t h p m . Lu năv nă
th căs ăCôngăngh ăthôngătină2003ă- KhoaăCôngăNgh ă-
iăH căQu căGiaă
HàăN i.ă
[4]. HàăQuangăThu ,ă
ng Thanh H i, Nguy n C măTú,ăNguy n Vi tăC
Nguy n Thu Trang, Nguy n Th Thùyă Linh,ă Nguy n Th H
ng,
ngă Th o,
Tr n Th Oanh (2007). Nghiên c u, phân tích và đánh giá các thu t toán
l c v n b n theo n i dung.ă Báoă cáoă chuyênă đ
KC.01.02/06-10, 10-2007.
5
tàiă c pă Nhàă n
c
Ti ng Anh
[5].
Alan
Rea
(1996).
Data
Mining
–
An
Introduction.
/>[6]. C.C. Chang and C.J. Lin (2007). LIBSVM: a library for support vector
machines. />[7]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the
Internet and the Web: Probabilistic Methods and Algorithms. Wiley,
2003, ISBN: 0-470-84906-1.
[8]. Enron dataset: />[9]. Greg Kochanski (2005), Markov Models, Hidden and Otherwise.
2005/02/28.
[10]. Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and
Techniques. University of Illinois, Morgan Kaufmann Publishers 2001.
[11]. J.D.Brutlag, C.Meek (2000). Challenges of the Email Domain for Text
Classification ICML 2000 : 103-110
[12]. Manoel Mendonca (2000), Mining Software Engineering Data: A
Survey. University of Maryland, Department of Computer Science, A. V.
Williams Building #3225 College Park, MD 20742. 2000.
[13]. Nancy R. Zhang (2001), Hidden Markov Models for Information
Extraction. June, 2001.
[14] P.S.Keila, D.B.Skillicorn (2005). Structure in the enron email dataset
Proceeding of SIAM international conference on data mining, 2005.
[15]. R. Agrawal, M. Mehta, J. Shafer, R. Srikant, A. Arning, T. Bollinger
(1996). The Quest Data Mining System. Proceedings of 1996
International Conference on Data Mining and Knowledge Discovery
(KDD’96),ăPortland,ăOregon,ăAugustă1996.ă
58
[16]. Ron Bekkerman, Andrew McCallum, Gary Huang (2004). Automatic
Categorization of Email into Folders : Benchmark Experiments on enron
and SRI corpora Technical report IR-418 2004.
[17]. Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge
from Hypertext Data. Morgan Kaufmann Publishers, 2003.
[18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph
(2005). Analyzing behaviorial features for email classification Second
conference on email and antispam (CEAS 2005).
[19] Svetlana Kiritchenko, Stan Matwin (2001). Email classification with cotraining
Proceedings of the 2001 conference of the centre of advanced
studies on collaborative research.
[20]. U. M. Fayyad, G. Piatetsky-Shapio, P. Smyth, and R. Uthurusamy (eds.)
(1996), Advances in Knowledge Discovery and Data Mining. AAAI/MIT
Press, 1996.
[21]. Sen Slattery (2002). Hypertext Classification. Doctoral dissertation
(CMU-CS-02-142). School of Computer Science. Carnegie Mellon
University, 2002.
[22]. Y. Yang and J.O. Pedersen (1997), A Comparative Study on Feature
Selection in Text Categorization. Proceeding of the 14th International
ConferenceăonăMachineăLearningă(ICML’97).
[23]. />
59