73
Chng 7 : THC HIN VÀ KIM TH
PHÂN LOI EMAIL DA TRÊN PHNG
PHÁP ADABOOST
74
7.1 Cài t b phân loi email da trên phng pháp
AdaBoost:
Chúng tôi tin hành cài t b phân loi email da trên thut toán AdaBoost
vi ba cách
Ø Cách 1 : cài t theo thut toán AdaBoost MH With Discrete Value
Prediction
Ø Cách 2: cài t theo thut toán AdaBoost MH With Real Value
Prediction
Sau khi thc hin, chúng tôi lu li T lut ã c chn phân loi cho các
mu mi
Chúng tôi xây dng mt cu trúc d liu lut nh sau :
Struct rule
{
Token :chui //lu token
0
c
:s thc //giá tr ca lut khi token không có trong
//email c xét
1
c
:s thc // giá tr ca lut khi token có trong email
//c xét
}
7.1.1 Tp hun luyn mu và tp nhãn :
Tp hun luyn mu chính là các email spam và email non-spam c
dung hun luyn, tp nhãn là Y={-1,+1}, ây chúng tôi qui nh -1 là spam
và +1 là non-spam
75
7.1.2 Xây dng tp lut yu ban u :
Vi mi token
8
w , nh ngha w
∈
x tng ng vi w có trong email
x.nh ngha lut yu h nh sau:
()
hx
=
0
c
nu
w x
∉
và
1
()
hxc
=
nu
w x
∈
Chúng tôi tin hành cài t th nghim thut toán AdaBoost vi hai cách
khác nhau, do ó tng ng vi mi cách, cách ly giá tr
0
c
và
1
c
khác nhau,
các giá tr
0
c
,
1
c
mà h(x) có th nhn c tính nhã nói các mc 6.3.2.1 và
mc 6.3.2.2.
S lng ca tp lut yu c dùng hun luyn theo nguyên tc là
không hn ch, nh vy chúng ta có th ly tt c các token trong tp hc. Tuy
nhiên, chúng tôi nhn thy ly ht tt c các token thì rt mt thi gian và tc
hun luyn cng chm i, vì th chúng tôi ch chn ra mt s các token tho
mãn mt tiêu chí nào ó xây dng lut yu. Mi lut yu c chn nh sau
:chúng tôi duyt qua tt c các mu hc, tính s ln xut hin ca mi token,
nhng token có s ln xut hin ln hn mt giá tr ngng nào ó (c qui
nh ) sc la chn, vic la chn ngng quyt nh lut có c chn
hay không tu thuc vào kho ng liu hc. Chúng tôi chia thành hai tp riêng,
mt tp gm các token xut hin trong các email spam, tp kia gm các token
xut hin trong email non-spam.Cách xây dng tp lut yu nh vy làm gim
áng k s lut cn xét Khi hun luyn, chúng tôi s quyt nh s lng các
lut yu cn chn, khi ó chúng tôi s chn tp lut yu bng cách ln lt chn
mt token cha có trong tp c chn t tp các token spam, ri li chn mt
token cha có trong tp c chn t tp các token non-spam cho n khi s
ng yêu cu
thc hin vic duyt các token và tìm kim mt token vi tc
nhanh, tng t nh thc hin thut toán hun luyn Naïve Bayesian chúng tôi
8
Xem nh ngha token mc 5.1.1
76
cng xây dng bng bm tng t nh bng bm ã c s dng cách thc
hin theo phng pháp Naïve Bayesian.
7.1.3 Th tc WeakLearner chn lut yu:
Th tc WeakLearner c xây dng nhm tìm lut yu
t
h
nh sau :
chn lut yu
t
h
bc chy t sao cho
t
Z
nh nht, cách chn
t
Z
và
t
α
ã
c cp các mc 6.3.2.1 và 6.3.2.2
7.1.4 Phân loi email :
Khi nhn c mt email x, chúng tôi s tin hành so khp các lut t
kho ng liu các lut c chn sau quá trình hun luyn , tó tính giá tr f(x),
nu f(x) >0 (cùng du vi +1 ) chúng tôi cho email ó là non-spam, ngc li
(cùng du vi -1 ) chúng tôi cho email ó là spam.
7.2 Th nghim hiu qu phân loi :
7.2.1 Th nghim vi kho ng liu pu:
7.2.1.1 Kch bn kim th:
Vói mi phiên bn AdaBoost ã cài t, chúng tôi chn tp lut yu
vi s lng là 2500 lut, nhng lut c xem là ng c viên nu s ln
xut hin ca token ln hn hay bng 10 ln. Nu s lut yu ban u
không 2500, chúng tôi s ly tt c s sn có.Chúng tôi th nghim vi
T ln lt là 5, 10, 50, 100, 200 và 500.
Chúng tôi ln lt kim th vi các pu, vi mi pu, chúng tôi cho hc
t part 1-n part 9.i vi vic kim th chúng tôi kim th trên kho
ng liu cha c hun luyn là part 10 ca mi pu
7.2.1.2 Kt qu kim th:
Chúng tôi trình bày kt qu kim th vi T=500, v chi tit kt qu
kim th, xem phn ph lc
77
v Kt qu thc hin kim th vi thut toán ADaBoost with real value
predictions
Ng
liu
email hc S
email kim th
S->SS->NN->NN-
>S
SR SP
Spam
Non-
spam
Spam Non-spam
PU1
432 549 48
61
48 0
58
3100.00% 94.12%
432 549
432 0
549
0100.00%100.00%
PU2
126 513 14
57
12 25
6
1 85.71% 92.31%
126 513
126 0
513
0100.00%100.00%
PU3
1638 2079 182 231
176 6
216
15 96.70% 92.15%
1638
20791638 0
2079
0100.00%100.00%
PUA
513 513 57
57
56 1
38
19 98.25% 74.67%
513 513
513 0
513
0100.00%100.00%
ng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost
with real -value predictions
v Kt qu thc hin kim th vi thut toán ADaBoost with discrete
predictions
Ng
liu
email hc S email ki
m th
S->SS->NN->NN-
>S
SR SP
Spam
Non-
spam
Spam Non-spam
PU1
432 549 48
61
46 2
57
4 95.83% 92.00%
432 549
432 0
549
0100.00%100.00%
PU2
126 513 14
57
13 1
57
0 92.86%100.00%
126 513
126 0
513
0100.00%100.00%
PUA
513 513 57
57
53 4
45
12 92.98% 81.54%
513 513 513 513
513 0
513
0100.00%100.00%
PU3
1638 2079 182 231
173 9
216
15 95.05% 92.02%
1638
20791624
14 2074
5 99.15% 99.69%
ng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost
with discrete predictions
Nhn xét : theo Schapire & Singer [14], hiu qu phân loi ca thut
toán AdaBoost with real value predictions cao hn ca thut toán AdaBoost
with discrete predictions, tuy nhiên ây ta thy u ó không rõ rt.
Hiu qu phân loi ca c hai thut toán trên các kho ng liu là khá cao.
Vi thut toán AdaBoost, li phân loi sai trên các kho ng liu ã hun
luyn s ngày càng gim khi T ngày càng tng, tng ng vói các ch s
78
spam recall và spam precision ngày càng tng, di ây là biu th hin
iu ó
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481
T
%
SR
SP
Hình 7-1 th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T
(thut tóan AdaBoost.MH with discrete predictions)
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
T
%
SR
SP
Hình 7-2 th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T
(thut tóan AdaBoost MH with real value predictions )
79
7.2.2 Th nghim vi kho ng liu email ch:
7.2.2.1 Kch bn kim th:
Chúng tôi th nghim hai thut toán AdaBoost ã cài t vi T c chn
ln lt là 5, 10, 50, 100, 200, và 500.
7.2.2.2 Kt qu kim th:
Ng liu email vn bn trn, s email kim th : Spam =98, non-
spam=100
Ng liu email html, s email kim th :Spam =50, non-spam=50
v Kt qu thc hin kim th vi thut toán ADaBoost with real value
predictions
Ng liu T=5
T=10 T=50 T=100 T=200 T=500
HTML SàS 48 48 49 49 49 49
SàN 2 2 1 1 1 1
NàN 49 49 49 49 49 49
NàS 1 1 1 1 1 1
SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00%
SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00%
TEXT SàS 84 93 98 98 98 98
SàN 14 5 0 0 0 0
NàN 98 97 98 99 99 99
NàS 2 3 2 1 1 1
SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00%
SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99%
ng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán
AdaBoost with real-value predictions
v Kt qu thc hin kim th vi thut toán ADaBoost with discrete
predictions
Ng liu T=5
T=10 T=50 T=100 T=200 T=500
HTML SàS 48 49 50 50 50 50
SàN 2 1 0 0 0 0
NàN 49 49 49 49 49 49
NàS 1 1 1 1 1 1
SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00%
SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04%
80
TEXT SàS 91 91 95 97 96 97
SàN 7 7 3 1 2 1
NàN 98 98 98 98 99 99
NàS 2 2 2 2 1 1
SR 92.86% 92.86% 96.94% 98.98% 97.96% 98.98%
SP 97.85% 97.85% 97.94% 97.98% 98.97% 98.98%
ng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán
AdaBoost with discrete predictions
Nhn xét : hiu qu phân loi trên ng liu email là ch ca thut
toán AdaBoost khá tt, so vi phng pháp phân loi Naïve Bayesian thì
ADaBoost phân loi email html tt hn, hiu qu phân loi trên email là
n bn trn cng tng ng vi Naïve Bayesian.
7.3 u nhc m ca phng pháp phân loi AdaBoost:
7.3.1 u m :
• Mt u im ca AdaBoost ging vi phng pháp phân loi Naïve
Bayes là nó cho phép hc cp nht, ngha là khi mt email spam vt qua
c b lc thì ngòi dung có thánh du email ó là spam và hun
luyn li b lc
• Hiu qu phân loi là khá cao
• Vic lu tr tp lut ã qua hun luyn khá gn nh, trong khi ó vi
phng pháp phân loi Naïve Bayes thì d liu sau khi hc là khá ln n.
Vi phng pháp phân loi Naïve Bayesian, d liu hun luyn s phình
to sau mi ln hun luyn cp nht thêm, iu này vi cách thc hin theo
phng pháp AdaBoost là không áng k.
7.3.2 Khuyt m :
• Cng ging nh các phng pháp máy hc ca phng pháp phân loi
da trên thut toán AdaBoost chính là vic phi hun luyn cho nó, vic
hun luyn hiu qu hay không còn phi ph thuc vào kho ng liu
hun luyn ban u
81
• Khuyt m th hai là thi gian hun luyn, so vi Naïve Bayesian,
hun luyn cùng mt kho ng liu thì phng pháp AdaBoost cn thi
gian lâu hn rt nhiu, theo chúng tôi nhn thy thì s chênh lch y khá
ln.
82
Chng 8 : XÂY DNG CHNG TRÌNH
MAIL CLIENT TING VIT H TR PHÂN
LOI EMAIL
83
8.1 Chc nng:
Chúng tôi xây dng phn mm Mail Client vi các chc nng chính nh sau:
Ø Chc nng gi nhn email
Ø Lu tr email tng ng vi tng mc
Ø Son email
Ø Xây dng sa ch
Ø Lc email spam
Ø Qun lý email nh sao chép, chuyn, xóa … email
Ø Và mt s công c h tr khác khác : …
h tr cho vic kim th Mail Client chúng tôi xây dng chng trình Flood
Mail gi mail hàng lot n mt a ch nhn nào ó.
8.2 Xây dng b lc email spam :
Chúng tôi s dng b lc da trên thut toán hc Naïve Bayes và AdaBoost,
vi Naivê Bayes chúng tôi s dng cách cài t theo cách tính xác sut spam cho
mi token da trên s ln xut hin trong tp hun luyn ban u, chn s token
duyt mt email là 15, chn
9
λ=
do ó ngõng phân loi email spam là t=0.9. Vi
b lc da trên AdaBoost chúng tôi chn cách cài t theo AdaBoost.MH with real
value predictions. Chúng tôi xây dng thành các component tích hp vào chng
trình di dng các dll.
Chúng tôi cng xây dng chc nng lc email theo phng pháp BlackList
và lu do ngi dùng tnh ngha, phng pháp này s h tr cho b lc email
ngn chn email spam.
84
8.3 T chc d liu cho chng trình :
D liu chng trình :gm ni dung các email, các lut do ngi dùng thit
lp.
u tr ni dung các email gi và nhn : c lu di dng các tp tin vn
bn, vi mi th mc tng ng nh hp thn, hp thi, s có mt tp tin lu
ni dung các email trong các thu mc này, lu tr di dng xml, cu trúc tp tin
nh sau :
<?xml version=1.0?”
<MessageList NumberUnReadMail="1">
<Message MessageID=” ”>
<From>…</From>
<To>…</To>
<Cc> …</Cc>
<BCC>…</BCC>
<Subject>… </Subject>
<Body>…</Body>
<Date>…</Date>
<Attach>…</Attach>
<Priority>…</Priority>
<Read>…</Read>
</Message>
……
</MessageList>
Các thông tin liên quan n mt email mà chúng tôi lu tr gm có : thuc
tính nh danh email (trng MessageID ), tiêu email (Subject ), a ch ngi
gi ( trng from ),a chng gi ( trng Cc), a chng gi n ( trng Bcc
), ni dung email ( trng body),có ính kèm tp tin ( trng Attach ), mc quan
trng ( Prority), ngày tháng ( Date)
Các lut do ngi dùng thit lp cng c lu tr dui dng xml
85
• im ca cách t chc d liu xml:
Xml là cách lu tr d liu c t chc vi cu trúc cây, xml c các
ngôn ng lp trình hin i h tr khá tt, nh vy vic thao tác vi d liu chng
trình rt thun li.
Xml là chun giao tip gia các h thng vi các cách lu tr d liu khác
nhau, s dng xml tin li cho vic giao tip vi h thng bên ngoài nh chuyn
i hay thu nhn thông tin.
• Khuyt m :D liu c lu di dng vn bn, không bo mt
8.4 Giao din ngi dùng :
8.4.1 S màn hình :
Hình 8-1:S màn hình ca chng trình
8.4.2 Mt s màn hình chính :
86
Hình 8-2 Màn hình chính ca chng trình Mail Client
Bng chú thích cho màn hình chính:
Din gii
1
i hin th danh sách các email gi cho ngi dùng. Các s kin
i kèm:
§ Nhp n chut trên dòng: c email nhanh.
§ Nhp ôi chuôt trên dòng: c email chi tit.
§
ánh du chn trên dòng: ánh du email cn xóa.
§
: Thông báo th có ính kèm.
§
: Thông báo email cha c.
2
Khung hin th cây th mc lu tr các hp th ca ngi dùng:
1
2
3
4
5
87
§ Hp th nhn: Lu th gi n cho ngi dùng.
§
Hp th cha gi: Lu thã son nhng cha gi
§
Hp thã gi: Lu thã c gi i.
§
Hp th spam: Lu th spam (tng)
§
Hp th xóa: Lu th b xóa bi ngi dùng.
3
Khung hin th nhanh ni dung email khi ngi dùng click chn
mt email trên li hin th danh sách email.
4
Thanh công c.
§ Nhn th: Nhn th t email server.
§ Son th: Son th mi.
§ Sa ch: Tra cu sa ch liên lc.
§ Tr li th: Son th tr li.
§ Xóa th: Xóa các thc ánh du chn.
§ Xem: Hin th danh sách email trên li theo tiêu chí xem.
§ Tìm kim: Tìm kim email theo tiêu /ni dung /ngi
gi.
5
Thcn chính.
Tp tin:
§ To mi th: Son th mi.
§ To mi th mc: To th mc mi (hp th mi) trên cây
th mc.
§ i tên th mc: i tên th mc (hp th) trên cây th
mc.
§ Xóa th mc: Xóa th mc (hp th) trên cây th mc (Xóa
luôn ni dung bên trong t mc).
§ M thã lu: M thã lu dng tp tin (.eml)
Hiu chnh:
§ Chn tt c: Chn tt c th trên li hin th th gi cho
88
ngi dùng.
§ Tìm kim: Tìm kim email theo tiêu /ni dung /ngi
gi.
§ Chuyn n th mc: Chuyn thn th mc c chn
§ Sao chép n th mc: To bn sao thn th mc c
chn.
§ Xóa th: Xoá thc chn.
§ Xóa th trong th mc xóa: Xóa tt c th có trong hp th
xoá.
Công c:
§ Sa ch: Tra cu danh sách a ch liên lc.
§ Thêm liên lc: Thêm liên lc mi(tên liên lc, a ch
email…)
§ Qui nh (Rules): Qui nh lc th ti vào th mc nh
trc (hoc xóa).
Th:
§ Son th mi: Son th gi i.
§ Tr li th: Tr li thn ngi gi th ti.
§ Thêm qui nh: Thêm qui nh nhn th gi ti.
§ Chn ngi gi: Không nhn th ca ngi gi có trong
danh sách.
Tr giúp:
§ Gii thiu: Ngi thc hin.
§ ng dn: Hng dn s dng chng trình.
89
Hình 8-3 Màn hình "c email"
v Bng chú thích cho màn hình “c email”:
Mã Din gii
1
Hin th thông tin v email.
2 Khung hin th ni dung email.
3
Thanh công c.
§ Nhn th: Nhn th t email server.
§ Son th: Son th mi.
§ Sa ch: Tra cu sa ch liên lc.
§ Tr li th: Son th tr li.
§ Xóa th: Xóa các thc ánh du chn.
§ u th: Lu th xung cng dng tp tin(.eml).
2
1
3
4
90
§ Th trc: c th lin trc.
§ Th kc th lin sau.
§ Spam: ánh du spam vt qua b lc (Yêu cu hc
spam).
4
Thc n chính.
Tp tin:
§ To mi th:
§ To mi liên lc:
§ M thã lu:
§ u th:
Hiu chnh:
§ Tìm kim th:
§ Chuyn n th mc:
§ Sao chép n th mc:
§ Xóa th: Xóa thc chn.
Công c:
§ Sa ch:
§ Thêm liên lc:
§ Qui nh (Rules):
Th:
§ Son th mi
§ Tr li th:
§ Th trc:
§ Th k:
§ u tp tin ính kèm: Lu tp tin ính kèm trong th
xung a cng.
§ Xóa tp tin ính kèm: Xóa tp tin ính kèm c chn
trong danh sách ính kèm.
91
Hình 8-4 Màn hình gi email
v Bng chú gii cho màn hình “Gi email”:
Mã Din gii
1
Khung nhp thông tin v email: gi tâu, gi n âu, gi cho
nhiu ngi (CC), gi nhiu ngi nhng n a ch gi (BCC).
Chc nng i kèm:
§ Chn a ch gi n t danh sách.
§ Chn danh sách a ch gi cùng lúc.
§ Chn danh sách a ch gi cùng lúc (n a ch ngi
gi).
2
Khung son tho email.
2
1
5
3
4
92
3
Thanh công c.
§ Gi th: Thc hin gi thn ngi nhn.
§ Sa ch: Tra cu sa ch liên lc.
§ u th: Lu th xung cng dng tp tin(.eml).
§ ính kèm: M và thêm tp tin ính kèm.
4
Thc n chính.
Tp tin:
§ To th mi:
§ M thã lu:
§ u th:
§ u mi th: Lu li th xung a cng vi tên mi.
Hiu chnh:
§ Chn tt c: Chn tt c ni dung vn bn (text).
§ Tìm kim th:
§ Chuyn n th mc:
§ Sao chép n th mc:
§ Kiu ch: Chn kiu ch cho vn bn son.
Xem:
§ Hin th thanh công c: Chn hin th hay n thanh công
c.
Công c:
§ Sa ch:
§ Thêm liên lc:
Th:
§ Son th mi:
§ u th:
§ Gi th: Gi thn ngi nhn.
§ Thêm tp tin ính kèm: Thêm tp tin inh kèm vào trong
th gi i.
93
§ Xóa tp tin ính kèm:
Tr giúp:
§ Gii thiu:
§ ng dn:
5
Danh sách tp tin ính kèm s gi.
94
Chng 9 : TNG KT VÀ HNG PHÁT
TRIN
95
9.1 Các vic ã thc hin c :
Trong khoá lun này chúng tôi ã trình bày các hng nghiên cu, tip cn
trong phân loi email và chng spam. Chúng tôi cng ã tp trung i sâu vào
óng tip cn phân loi email d trên ni dung.ây chúng tôi trình bày hai
phng pháp phân loi email khá mi và hiu qu là phân loi email da trên thut
toán hun luyn Naïve Bayes và da trên thut toán AdaBoost.Kt qu th nghim
vi d liu s và d liu vn bn trn là khá hiu qu, tuy nhiên i vi email html
thì vn cha c nh mong mun, u này là do kho ng liu email html cha
ln, mt khác email html có nhng c m ca riêng nó mà chúng tôi cha khc
phc c nh ni dung ch yu là các hình nh.
Chúng tôi cng ã xây dng th nghim phn mm Mail Client h tr lc
email. B lc email c tính hp vào chng trình c xây dng theo nhng
ng ã tip cn.Chng trình h tr mt s chc nng chính ca mt phn mm
Mail Client thông thng nh gi, nhn email, tìm kim, qun lý email
9.2 Hng ci tin, m rng :
Vì thi gian có hn, do ó vn còn nhng u chúng tôi mun thc hin
nhng cha th thc hin c.Da trên nhng kt quã tc, chúng tôi
xut nhng hng ci tin, m rng cho chng trình
9.2.1 V phân loi và lc email spam:
a) V cách rút trích các token :
Có th ci tin cách ly token, thay vì cách chn token n, có th
chn token nh là mt ng ( gm nhiu t) – token gm hai hay nhiu token
n to thành,iu này giúp vic nhn bit chính xác hn.
96
b) M rng vi email là ting Vit thay vì ch thc hin vi email ting
Anh , tuy nhiên vn phân loi email ting Vit có mt s m khó khn
là không có sn mt kho ng liu email ting Vit phc v cho vic hc
Thêm na ting Vit là mt tng i ngôn ng phc tp và a dng, do ó
vic phân loi email ting Vit li liên quan n vn tách t (tách token ),
ây là bài toán phc tp.
c) Có th xây dng b lc thành các phn mm riêng r và tích hp
(plug in ) vào các phn mm email Client hin có nh Outlook Express,
Mozzila ThunderBird.
d) Áp dng b lc email ti mc Server, ngn chn email spam ngay ti
các Server email.
e) Có th s dng kt hp hai b lc theo hai phng pháp Naïve
Bayesian và AdaBoost, khi ó vic xây dng tp lut yu dùng chn lc
ban u có th da vào nhng token có xác sut spam cao và xác sut non-
spam thp t d liu hun luyn ca Naïve Bayesian.
9.2.2 V chng trình Mail Client:
Chng trình hin ch mi c xây dng vi mt vài chc nng
chính, vn còn nhiu hn ch. Vi mong mun xây dng hoàn thin mt
phn mm Mail Client h tr ting Vit thì bên cnh vic hoàn thin nhng
cái ã có , chúng tôi dnh xây dng thêm mt s chc nng:
Ø H tr bo mt : d liu ca chng trình c lu dng tp tin
n bn,iu ó không bo mt. Có th cài tin u này bng
cách mã hoá tp tin, lu di dng nh phân
Ø H tr nhiu tài khon (Account) trên MailClient, hin ti
chng trình ch h tr mt tài khon .
97
TÀI LIU THAM KHO
Ting Vit :
[4] Hoàng Hoài Sn, Th rác ni kh chung, báo TH thao Vn hoá, s 28 6-4-
2004, Tr 34.
[8] ng Hn (1992), “Xác sut thng kê ”, Nhà xut bn Giáo Dc
Ting Anh :
[1] Monty Python’s Flying Circus. Just the words, volume 2, chapter 25, pages 27–
28.Methuen, London, 1989.
[2] B. Leiba and N. Borenstein. A Multi-Faceted Approach to Spam Prevention,
Proceedings of the First Conference on E-mail and Anti-Spam, 2004.
[3] Ion Androutsopoulos, John Koutsias, Konstantinos V. Chandrinos, George
Paliouras
and Constantine D. Spyropoulos, An Evaluation Bayes Antispam Filtering,
Proceedings of the workshop on Machine Learning in the New Information Age
[5] P.Graham, Stopping Spam, August
2003
[6] Flavio D. Garcia.Spam Filter Analysis Arxiv. preprint cs.CR/0402046, 2004 -
arxiv.org
[7] P. Graham, A Plan for Spam, August 2002
[9] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz. A Bayesian Approach to
Filtering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text
Categorization, 1998.
[10]A short Introduction to Boosting Journal of Japanese Society for Artificial
Intelligence, 14(5):771-780, September, 1999