Tải bản đầy đủ (.pdf) (12 trang)

Phân lớp thư điện tử sử dụng máy vector hỗ trợ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (312.16 KB, 12 trang )

I H C QU C GIA HÀ N I
TR
NG
I H C CỌNG NGH

Ngô Th

S

ng Huy n

PHÂN L P TH
I NT
D NG MÁY VECTOR H TR

LU N V N TH C S

HÀ N I – 2007


I H C QU C GIA HÀ N I
TR
NG
I H C CỌNG NGH

Ngô Th

ng Huy n

M CL C


S

PHÂN L P TH
I NT
D NG MÁY VECTOR H TR

NgƠnh: Công ngh thông tin
Mƣ s : 1.01.10

LU NăV NăTH CăS
Ng

ih

ng d n khoa h c: PGS. TS HƠ Quang Th y

HÀ N I – 2007


Lêi c¶m ¬n
Trongăquáătrìnhăth căhi năđ ătài,ătôiăđãăg păr tănhi uăkhóăkh năphátăsinhă
màăn uăkhôngăcóăs ăgiúpăđ ,ăđ ngăviênăc aăgiaăđình,ăcácăth yăcôăgiáoăcùngă
cácăb năbè,ăđ ngănghi păthìăcóăl ătôiăkhóăcóăth ăhoànăthànhăđ

căkhóaălu nă

này.
L iăđ uătiên,ătôiăxinăchânăthànhăc mă năcácăth yăcôăgiáoăgi ng d y t i
Tr


ngă

iăh căCôngăngh ă-

iăh căQu căgiaăHàăN iăđãătr căti păch ăb o,ă

truy năth ăchoătôiănh ngăki năth căquýăbáu.ă
giáoăPGS. TS Hà Quang Th y,ăng

căbi tătrânătr ngăc mă năth yă

iăth yăđãăt nătìnhătr căti păh

ngăd n,ă

giúpăđ ăvàăđ ngăviênătôiăr tănhi uătrongăsu tăquáătrìnhăhoànăthànhălu năv n.
Vàăcu iăcùng,ăm iăl iăyêuăth
đ ngănghi p,ănh ngăng

ngănh tăxinăg iăđ năgiaăđình,ăb năbèăvàă

iăluônă ăbênăc nhătôi,ămangăl iăchoătôiăngu năđ ngă

viênătinhăth năl nălaoăvàăt oăm iăđi uăki năthu năl iăchoătôiăhoànăthànhălu nă
v n nàyătrongăkh ăn ngăt tănh tăcóăth .
Doă s ă h nă ch ă v ă th iă gian,ă trìnhă đ ă vàă kinhă nghi mă nênă đ ă tàiă s ă
khôngătránhăkh iănh ngăthi uăsót.ăTôiăr tămongănh năđ

căýăki năđóngăgópă


quýăbáuăc aăcácăth yăcôăgiáoăvàăcácăb n, đ ng nghi p đ ălu n v n đ

căngàyă

càngăhoànăthi năh n.
Trânătr ngăc mă n!ă
HàăN i,ăngàyăăăăăăthángă12ăn mă2007
H căviên

NgôăTh

i

ngăHuy n


M CL C
L iăc mă n ..................................................................................................... i
Danhăm căhìnhăv ....................................... Error! Bookmark not defined.
Danhăm căb ngăbi u.................................... Error! Bookmark not defined.
M ă
Ch

U ....................................................................................................... 1
ng 1. KHÁI QUÁT V ăKHAIăPHÁăD ăLI U V N B N ................ 3

1.1. M t s ki n th c v khaiăpháăd ăli u ................................................. 3
1.1.1 Khái ni m khai pháăd ăli u .......................................................... 3
1.1.2ă Cácă h


ngă ti pă c nă vàă cácă d ngă d ă li uă trongă khaiă pháă d ă li u

............................................................. Error! Bookmark not defined.
1.2. Cácăbàiătoánătrongăkhaiăpháăd ăli uăv năb nError!

Bookmark

not

defined.
1.2.1ăTìmăki măv năb n....................... Error! Bookmark not defined.
1.2.2ăPhânăl păv năb n ........................ Error! Bookmark not defined.
1.2.3ăM tăs ăbàiătoánăkhác .................. Error! Bookmark not defined.
1.3.ăKhaiăpháăd ăli uăWeb ...................... Error! Bookmark not defined.
1.3.1ăNhuăc u ...................................... Error! Bookmark not defined.
1.3.2ă

căđi m .................................... Error! Bookmark not defined.

1.3.3ăCácăh
Ch

ngăti păc n ..................... Error! Bookmark not defined.

ng 2.ăPHÂNăL PăV NăB N ............ Error! Bookmark not defined.

2.1.ăBàiătoánăphânăl p ............................. Error! Bookmark not defined.
2.1.1ăNhuăc u,ăýăt

ng ........................ Error! Bookmark not defined.


2.1.2ăQuáătrìnhăphânăl p...................... Error! Bookmark not defined.
2.2.ăCácăgi iăphápăphânăl păđi năhình ..... Error! Bookmark not defined.
2.2.1ăThu tătoánăphânăl păBayes ......... Error! Bookmark not defined.
2.2.2ăThu tătoánăk-ng

iălángăgi ngăg nănh t.Error!

defined.
ii

Bookmark

not


2.2.3ăPhânăl păd aăvàoăcâyăquy tăđ nhError! Bookmark not defined.
2.2.4ăChi tăl căthôngătinătheoămôăhìnhăMarkovă nError! Bookmark not
defined.
Ch

ngă3.ăB ăPHÂNăL PăS ăD NGăMÁYăVECTORăH ăTR ... Error!

Bookmark not defined.
3.1.ăBi uădi năv năb năd aătrênămôăhìnhăkhôngăquanăvector .......... Error!
Bookmark not defined.
3.1.1ăGi iăthi u.................................... Error! Bookmark not defined.
3.1.2ăMôăhìnhăBoolean ........................ Error! Bookmark not defined.
3.1.3ăMôăhìnhăt năs ............................ Error! Bookmark not defined.
3.2.ăB ăphânăl păs ăd ngăvectorăh ătr ... Error! Bookmark not defined.

3.2.1ăVectorăh ătr .............................. Error! Bookmark not defined.
3.2.2ăThu tătoánăt oăsiêuăph ngăphânăcáchError!

Bookmark

not

Bookmark

not

defined.
Ch

ng 4.ă NGăD NGăVĨăTH CăNGHI MError!

defined.
4.1.ăGi iăthi uăbàiătoánăth cănghi m....... Error! Bookmark not defined.
4.2.ăD ăli uăvàăch
4.3.ăMôiătr

ngătrình ................... Error! Bookmark not defined.

ngăth cănghi m .................. Error! Bookmark not defined.

4.4.ăK tăqu ăth cănghi măvàăđánhăgiá..... Error! Bookmark not defined.
4.4.1ă

ă chínhă xácă c aă b ă phână l pă khiă th ă nghi mă v iă t pă ki mă tra


............................................................. Error! Bookmark not defined.
4.4.2ă

ăchínhăxácăc aăb ăphânăl păkhiăt ngăd năt păd ăli uăh cError!

Bookmark not defined.
K TăLU N ................................................. Error! Bookmark not defined.
TĨIăLI UăTHAMăKH O ............................................................................. 5

iii


M

U

Ngàyă nayă v iă s ă phátă tri nă nh ă v ă bãoă c aă cácă ngànhă khoaă h că k ă
thu t,ăđ căbi tălàăs ăphátătri nănhanhăchóngăc aăm ngămáyătínhătoànăc u,ăm tă
kh iă l

ngă d ă li uă kh ngă l ă v nă hàngă ngàyă đ

că c pă nh tă liênă t c,ă th

xuyên,ănh măđápă ngăm tătrongănh ngănhuăc uăkhôngăth ăthi uăđ
ng

i,ăđóălàăthôngătin.ăVàăvìăth ăchúngătaăđangăđ

ngă


căc aăconă

căs ngătrongăm tăxãăh iă

bùngăn ăthôngătin,ăkhiăcácă ngăd ngăcôngăngh ăthôngătinăđãăđiăvàoăt iăt ngă
l nhăv căc aăđ iăs ngăxãăh i.ăTrongăđóăInternetăngàyăcàngăkh ngăđ nhăm tăs că
m nhăv

tătr iăvàăđóngăm tăvaiătròăquanătr ngătrongăđ iăs ngăxãăh i,ăkinhăt ,ă

chínhătr ,ăv năhoá,ăgiáoăd cầăc aăconăng

i.ăCùngăv iăs ăphátătri năkhôngă

ng ngăđó,ăInternetăđãăvàăđangătr ăthànhăm tăkhoăthôngătinăkh ngăl ăv ăc ăs ă
l

ngăc ngănh ăs ăbi năđ iănhanhăchóngăc aănó,ătheoă

n măl

căđoánăthìăc ăsauăhaiă

ngăthôngătinăl iăt ngăthêmăg păđôi.ă
Th ăđi năt ălàăm tăd chăv ăph ăbi nănh tătrênăInternet,ănóăgiúpăchoăm iă

ng

iă s ă d ngă máyă tínhă k tă n iă Internetă đ uă cóă th ă traoă đ iă thôngă tină v iă


iv


nhau.ăNgàyănay,ăkhiămàăInternetăđãăcóăm tă ăkh păm iăn iăthìăvi căs ăd ngă
d chăv ăth ăđi năt ălàă vi căhàngăngàyăđ iăv iăr tănhi uăng
gi i.ăTaăbi tăr ngăkhiăm ngăInternetăraăđ i,ănh ngăng

iătrênăkh păth ă

iăs ăd ngăđ uătiênălàă

cácăchuyênăgiaămáyătính,ăh ăcùngăg iănhi uăemailăđ năcácănhómăng
khácănhau,ăsauăđóăm iăcóătìnhătr ngăkhôngăth ăki măsoátăđ
đ n.ă Vìă v yă c nă ph iă cóă cácă ch
ng

căcácăemailăg iă

ngătrìnhă phânăl pă cácă emailă theoăth ă m că

iădùngăho căl căhayăng năch nănh ngăemailămàăng

nh nănh măt ngăch tăl

iădùngă

iădùngăkhôngămu nă

ngăs ăd ng.


Trongăl nhăv căth ăđi năt ăcáănhân,ăcácăk ăthu tăphânăl păv năb năc ngă
đ

căápăd ngăr tăr ngărãiăvàoăbàiătoánăl căth ărác.ăM tăs ăv năđ ăkhácăliênă

quanăđ năth ăđi năt ănh ăl căcácălu ngăth ăđi năt ,ăt ăđ ngăt oăcácăth ăm că
m iăc ngăđ

cănghiênăc uăvàăgi iăquy t.ăHi nănay,ăbàiătoánăphânăl păth ăđi nă

t ăvàoăcácăth ăm căc ngăđangăđ

cănhi uănhàănghiênăc uăquanătâm.ă

Trongălu năv nănày,ăchúngătôiă ngăd ngăphânăl păv năb năvàoăl nhăv că
th ăđi năt ănh măgi iăquy tăbàiătoánăphânăl păt ăđ ngăth ăđi năt ăvàoăcácăl pă
doăng

iădùngăđ nhăngh a.ăL aăch năthu tătoánămáyăvectorăh ătr ă(SVMs)ăv iă

nh ngă uăđi măvàăhi uăqu ăđãăđ

căch ngăminhăquaănhi uăth cănghi măv ă

phânăl păv năb n,ăchúngătôiăhyăv ngăSVMsăcóăth ăgi iăquy tăcácă khóăkh nă
c aăbàiătoánăphânăl păemailăvàăđemăl iăk tăqu ăkh ăquan.ă
Lu n v n đ
Ch
h


c t ch c thành 4 ch

ng nh sau:

ngă 1ă trìnhă bàyă kháiă quátă v ă khaiă pháă d ă li u,ă cácă k ă thu tă vàă

ngăti păc năchínhătrongăkhaiăpháăd ăli uăvàăphânălo iăcácăh ăth ngăkhai

pháătheoănhi uătiêuăchíăkhácănhau.ăCh

ngănàyăc ngăgi iăthi uăv ăcácăbàiătoánă

trongăkhaiăpháăd ăli uăv năb năvàăkhaiăpháăd ăli uăWeb.
Ch

ngă2ătrìnhăbàyăbàiătoánăvàăquáătrìnhăphânăl păv năb n,ăđ ngăth iă

gi iăthi uăm tăs ăgi iăphápăphânăl păđi năhình.

2


Ch

ngă3ăgi iăthi uăph

ngăphápăbi uădi năv năb năd aătrênămôăhìnhă

khôngăquanăvectorăvàăt pătrungănghiênăc u,ăkh oăsátăph


ngăphápămáyăvectoră

h ătr ,ăđâyălàăti năđ ăđ ăth căhi năvi căth cănghi măchoălu năv nănày.
Ch

ngă4ătrìnhăbàyăv ămôăhìnhăphânăl păth ăđi năt ăvàăápăd ngăđ iăv iă

m tăb ăd ăli uăđãăđ

căcôngăb .ăT ăcácăk tăqu ăth cănghi m,ăđ aăraăđánhăgiáă

h ăth ngăphânăl pănóiătrên.

CH

NG 1. KHÁI QUÁT V KHAI PHÁ D

LI U V N B N

1.1. M t s ki n th c v khai phá d li u
1.1.1 Khái ni m khai phá d li u
Trongă nh ngă th pă k ă g nă đây,ă l

ngă thôngă tină đ

că l uă tr ă trênă cácă

thi tăb ăđi năt ă(đ aăc ng,ăCD-ROM,ăb ngăt ,ă...v.v.)ăkhôngăng ngăt ngălên.ă
S ă tíchă l yă d ă li uă nàyă x yă raă v iă m tă t că đ ă bùngă n .ă Ng


iă taă

că đoánă

r ng,ăl

ngăthôngătinătrênătoànăc uăt ngăg păđôiăsauăkho ngăhaiăn măvàătheoă

đóăs ăl

ngăc ngănh ăkíchăc ăc aăcácăc ăs ăd ăli uăc ngăt ngălênăm tăcáchă

nhanhăchóngă[5].

Hình 1 - L

ng d li u đ

c tích l y t ng m nh theo th i gian
3


Chúngătaăqu ăth căđangăs ăh uăm tăkh iăl

ngăd ăli uăkh ngăl ,ănh ngă

l iăluônăc măth yăthi uănh ngăthôngătinăh uăích.ăL

ngăd ăli uăkh ngăl ănàyă


th căs ălàăm tăngu nă“tàiănguyên”ăr tăgiáătr ăb iăthôngătinălàăy uăt ăthenăch tă
trongă m iă ho tă đ ngă tr

că khiă raă quy tă đ nh.ă Khaiă pháă d ă li uă ậ khaiă thácă

nh ngăthôngătinăti mă năcóătínhăd ăđoánăt ănh ngăc ăs ăd ăli uăl năậ làăm tă
h

ngăti păc năm iăv iăkh ăn ngăgiúpăcácăcôngătyăchúătr ngăvàoănh ngăthôngă

tină cóă nhi uă ýă ngh aă t ă nh ngă t pă d ă li uă l nă (databases,ă dataă warehouses,ă
data repositories)ămangătínhăl chăs .ăNh ngăcôngăc ăkhaiăpháăd ăli uăcóăth ă
d ăđoánănh ngăxuăh

ngătrongăt

nh ngăquy tăđ nhăk păth iăđ

ngălaiăvàădoăđóăchoăphépădoanhănghi păraă

căđ nhăh

ngăb iătriăth cămàăkhaiăpháăd ăli uă

đemăl i.ăS ăphânătíchăd ăli uăm tăcáchăt ăđ ngăvàămangătínhăd ăbáoăc aăkhaiă
pháă d ă li uă cóă uă th ă h nă h nă soă v iă s ă phână tíchă thôngă th

ngă d aă trênă


nh ngă s ă ki nă trongă quáă kh ă c aă cácă h ă h ă tr ă raă quy tă đ nhă (Decisionă
Support Systems - DSSs)ătruy năth ngătr

că đây.ăCôngăc ăkhaiăpháăd ăli uă

c ng cóă th ă tr ă l iă nh ngă câuă h iă trongă l nhă v că kinhă doanhă màă tr
đ

că đâyă

căxemălàăt nănhi uăth iăgianăđ ăx ălý.ăV iăt tăc ănh ngă uăth ătrên,ăkhaiă

pháă d ă li uă đãă ch ngă t ă đ

că tínhă h uă d ngă c aă nóă trongă môiă tr

ngă kinhă

doanhăđ yătínhăc nhătranhăngàyănay.ăGi ăđây,ăkhaiăpháăd ăli uăđãăvàăđangătr ă
thànhăm tătrongănh ngăh

ngănghiênăc uăchínhăc aăl nhăv căkhoaăh cămáyă

tínhăvàăcôngăngh ătriăth c.
a)

nh ngh a Khai phá d li u
Cóă th ă hi uă m tă cáchă s ă l

că r ngă khaiă pháă d ă li u làă quáă trìnhă tìmă


ki mănh ngăthôngătină(triăth c)ăh uăích,ăti mă năvàămangătínhăd ăbáoătrongă
cácăt păd ăli uăl n.ăNh ăv y,ăcácănhàăkhoaăh căchoăr ngănênăg iăquáătrìnhănàyă
làăkhám phá tri th c (Knowledge Discovery in Databases ậ KDD)ăthayăvìălàă
khaiăpháăd ăli u.ăTuyănhiênăcácănhàăkhoaăh cătrongăl nhăv cănàyăđ ngăýăv iă
nhauăr ngăhaiăthu tăng ătrênălàăt

ngăđ

4

ngăvàăcóăth ăthayăth ăchoănhau.ăH ă


lýăgi iăr ng,ăm căđíchăchínhăc aăquáătrìnhăkhámăpháătriăth călàăthôngătinăvàătriă
th căcóăích,ănh ngăđ iăt

ngămàăc năph iăx ălýăr tănhi uătrongăsu tăquáătrìnhă

đóăl iăchínhălàăd ăli u.
M tăkhác,ăkhiăchiaăcácăb

cătrongăquáătrìnhăkhámăpháătriăth c,ăm tăs ă

nhàănghiênăc uăl iăchoăr ng,ăkhaiăpháăd ăli u ch ălàăm tăb

cătrongăquáătrìnhă

khám phá tri th c [21].
Nh ăv y,ăkhiăxétă ăm căt ngăquanăthìăhaiăthu tăng ănàyălàăt

nhau,ănh ngăkhiăxétăc ăth ăthìăkhaiăpháăd ăli u đ

căxemălàăm tăb

ngăđ

ngă

cătrongă

quáătrìnhăkhám phá tri th c.

TÀI LI U THAM KH O
Ti ng Vi t
[1].ă oànăS nă(2002),ăM t s gi i pháp cho bài toán tìm ki m trong c s d
li u Hypertext. Lu năv năth că s ăCôngăngh ă thôngătină2002ăKhoaă Côngă
Ngh ă-

iăH căQu căGiaăHàăN i.ă

[2].ă Nguy nă Th ă Thùyă Linh,ă Nguy nă Thuă Trang,ă Nguy nă Th ă H

ngă Th o,

HàăQuangăTh yă(2007),ăM t gi i pháp h c bán giám sát SVM phân l p
trang web ti ng Vi t. Báoăcáoăt iăH iăth oăFAIR'07,ăNhaăTrang,ă8-2007.
[3].ăPhanăXuânăHi uă(2003),ăKhai phá song song lu t k t h p m . Lu năv nă
th căs ăCôngăngh ăthôngătină2003ă- KhoaăCôngăNgh ă-

iăH căQu căGiaă


HàăN i.ă
[4]. HàăQuangăThu ,ă

ng Thanh H i, Nguy n C măTú,ăNguy n Vi tăC

Nguy n Thu Trang, Nguy n Th Thùyă Linh,ă Nguy n Th H

ng,

ngă Th o,

Tr n Th Oanh (2007). Nghiên c u, phân tích và đánh giá các thu t toán
l c v n b n theo n i dung.ă Báoă cáoă chuyênă đ
KC.01.02/06-10, 10-2007.

5

tàiă c pă Nhàă n

c


Ti ng Anh
[5].

Alan

Rea


(1996).

Data

Mining



An

Introduction.

/>[6]. C.C. Chang and C.J. Lin (2007). LIBSVM: a library for support vector
machines. />[7]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the
Internet and the Web: Probabilistic Methods and Algorithms. Wiley,
2003, ISBN: 0-470-84906-1.
[8]. Enron dataset: />[9]. Greg Kochanski (2005), Markov Models, Hidden and Otherwise.
2005/02/28.
[10]. Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and
Techniques. University of Illinois, Morgan Kaufmann Publishers 2001.
[11]. J.D.Brutlag, C.Meek (2000). Challenges of the Email Domain for Text
Classification ICML 2000 : 103-110
[12]. Manoel Mendonca (2000), Mining Software Engineering Data: A
Survey. University of Maryland, Department of Computer Science, A. V.
Williams Building #3225 College Park, MD 20742. 2000.
[13]. Nancy R. Zhang (2001), Hidden Markov Models for Information
Extraction. June, 2001.
[14] P.S.Keila, D.B.Skillicorn (2005). Structure in the enron email dataset
Proceeding of SIAM international conference on data mining, 2005.
[15]. R. Agrawal, M. Mehta, J. Shafer, R. Srikant, A. Arning, T. Bollinger

(1996). The Quest Data Mining System. Proceedings of 1996
International Conference on Data Mining and Knowledge Discovery
(KDD’96),ăPortland,ăOregon,ăAugustă1996.ă

58


[16]. Ron Bekkerman, Andrew McCallum, Gary Huang (2004). Automatic
Categorization of Email into Folders : Benchmark Experiments on enron
and SRI corpora Technical report IR-418 2004.
[17]. Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge
from Hypertext Data. Morgan Kaufmann Publishers, 2003.
[18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph
(2005). Analyzing behaviorial features for email classification Second
conference on email and antispam (CEAS 2005).
[19] Svetlana Kiritchenko, Stan Matwin (2001). Email classification with cotraining

Proceedings of the 2001 conference of the centre of advanced

studies on collaborative research.
[20]. U. M. Fayyad, G. Piatetsky-Shapio, P. Smyth, and R. Uthurusamy (eds.)
(1996), Advances in Knowledge Discovery and Data Mining. AAAI/MIT
Press, 1996.
[21]. Sen Slattery (2002). Hypertext Classification. Doctoral dissertation
(CMU-CS-02-142). School of Computer Science. Carnegie Mellon
University, 2002.
[22]. Y. Yang and J.O. Pedersen (1997), A Comparative Study on Feature
Selection in Text Categorization. Proceeding of the 14th International
ConferenceăonăMachineăLearningă(ICML’97).
[23]. />

59



×