Tải bản đầy đủ (.pdf) (34 trang)

Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 3 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (624.33 KB, 34 trang )


73
Chng 7 : THC HIN VÀ KIM TH
PHÂN LOI EMAIL DA TRÊN PHNG
PHÁP ADABOOST

74
7.1 Cài t b phân loi email da trên phng pháp
AdaBoost:
Chúng tôi tin hành cài t b phân loi email da trên thut toán AdaBoost
vi ba cách
Ø Cách 1 : cài t theo thut toán AdaBoost MH With Discrete Value
Prediction
Ø Cách 2: cài t theo thut toán AdaBoost MH With Real Value
Prediction
Sau khi thc hin, chúng tôi lu li T lut ã c chn  phân loi cho các
mu mi
Chúng tôi xây dng mt cu trúc d liu lut nh sau :
Struct rule
{
Token :chui //lu token
0
c
:s thc //giá tr ca lut khi token không có trong
//email c xét
1
c
:s thc // giá tr ca lut khi token có trong email
//c xét
}
7.1.1 Tp hun luyn mu và tp nhãn :


Tp hun luyn mu chính là các email spam và email non-spam c
dung  hun luyn, tp nhãn là Y={-1,+1}, ây chúng tôi qui nh -1 là spam
và +1 là non-spam

75
7.1.2 Xây dng tp lut yu ban u :
Vi mi token
8
w , nh ngha w

x tng ng vi w có trong email
x.nh ngha lut yu h nh sau:
()
hx
=
0
c
nu
w x


1
()
hxc
=
nu
w x

Chúng tôi tin hành cài t th nghim thut toán AdaBoost vi hai cách
khác nhau, do ó tng ng vi mi cách, cách ly giá tr

0
c

1
c
khác nhau,
các giá tr
0
c
,
1
c
mà h(x) có th nhn c tính nhã nói  các mc 6.3.2.1 và
mc 6.3.2.2.
S lng ca tp lut yu c dùng  hun luyn theo nguyên tc là
không hn ch, nh vy chúng ta có th ly tt c các token trong tp hc. Tuy
nhiên, chúng tôi nhn thy  ly ht tt c các token thì rt mt thi gian và tc
 hun luyn cng chm i, vì th chúng tôi ch chn ra mt s các token tho
mãn mt tiêu chí nào ó  xây dng lut yu. Mi lut yu c chn nh sau
:chúng tôi duyt qua tt c các mu hc, tính s ln xut hin ca mi token,
nhng token có s ln xut hin ln hn mt giá tr ngng nào ó (c qui
nh ) sc la chn, vic la chn ngng  quyt nh lut có c chn
hay không tu thuc vào kho ng liu hc. Chúng tôi chia thành hai tp riêng,
mt tp gm các token xut hin trong các email spam, tp kia gm các token
xut hin trong email non-spam.Cách xây dng tp lut yu nh vy làm gim
áng k s lut cn xét Khi hun luyn, chúng tôi s quyt nh s lng các
lut yu cn chn, khi ó chúng tôi s chn tp lut yu bng cách ln lt chn
mt token cha có trong tp c chn t tp các token spam, ri li chn mt
token cha có trong tp c chn t tp các token non-spam cho n khi  s
ng yêu cu

 thc hin vic duyt các token và tìm kim mt token vi tc 
nhanh, tng t nh thc hin thut toán hun luyn Naïve Bayesian chúng tôi
8
Xem nh ngha token  mc 5.1.1

76
cng xây dng bng bm tng t nh bng bm ã c s dng  cách thc
hin theo phng pháp Naïve Bayesian.
7.1.3 Th tc WeakLearner chn lut yu:
Th tc WeakLearner c xây dng nhm tìm lut yu
t
h
nh sau :
chn lut yu
t
h
 bc chy t sao cho
t
Z
nh nht, cách chn
t
Z

t
α
ã
c  cp  các mc 6.3.2.1 và 6.3.2.2
7.1.4 Phân loi email :
Khi nhn c mt email x, chúng tôi s tin hành so khp các lut t
kho ng liu các lut c chn sau quá trình hun luyn , tó tính giá tr f(x),

nu f(x) >0 (cùng du vi +1 ) chúng tôi cho email ó là non-spam, ngc li
(cùng du vi -1 ) chúng tôi cho email ó là spam.
7.2 Th nghim hiu qu phân loi :
7.2.1 Th nghim vi kho ng liu pu:
7.2.1.1 Kch bn kim th:
Vói mi phiên bn AdaBoost ã cài t, chúng tôi chn tp lut yu
vi s lng là 2500 lut, nhng lut c xem là ng c viên nu s ln
xut hin ca token ln hn hay bng 10 ln. Nu s lut yu ban u
không  2500, chúng tôi s ly tt c s sn có.Chúng tôi th nghim vi
T ln lt là 5, 10, 50, 100, 200 và 500.
Chúng tôi ln lt kim th vi các pu, vi mi pu, chúng tôi cho hc
t part 1-n part 9.i vi vic kim th chúng tôi kim th trên kho
ng liu cha c hun luyn là part 10 ca mi pu
7.2.1.2 Kt qu kim th:
Chúng tôi trình bày kt qu kim th vi T=500, v chi tit kt qu
kim th, xem phn ph lc

77
v Kt qu thc hin kim th vi thut toán ADaBoost with real value
predictions
Ng
 liu
 email hc S
 email kim th
S->SS->NN->NN-
>S
SR SP
Spam
Non-
spam

Spam Non-spam
PU1
432 549 48
61
48 0
58
3100.00% 94.12%
432 549
432 0
549
0100.00%100.00%
PU2
126 513 14
57
12 25
6
1 85.71% 92.31%
126 513
126 0
513
0100.00%100.00%
PU3
1638 2079 182 231
176 6
216
15 96.70% 92.15%
1638
20791638 0
2079
0100.00%100.00%

PUA
513 513 57
57
56 1
38
19 98.25% 74.67%
513 513
513 0
513
0100.00%100.00%
ng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost
with real -value predictions
v Kt qu thc hin kim th vi thut toán ADaBoost with discrete
predictions
Ng
 liu
 email hc S email ki
m th
S->SS->NN->NN-
>S
SR SP
Spam
Non-
spam
Spam Non-spam
PU1
432 549 48
61
46 2
57

4 95.83% 92.00%
432 549
432 0
549
0100.00%100.00%
PU2
126 513 14
57
13 1
57
0 92.86%100.00%
126 513
126 0
513
0100.00%100.00%
PUA
513 513 57
57
53 4
45
12 92.98% 81.54%
513 513 513 513
513 0
513
0100.00%100.00%
PU3
1638 2079 182 231
173 9
216
15 95.05% 92.02%

1638
20791624
14 2074
5 99.15% 99.69%
ng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost
with discrete predictions
Nhn xét : theo Schapire & Singer [14], hiu qu phân loi ca thut
toán AdaBoost with real value predictions cao hn ca thut toán AdaBoost
with discrete predictions, tuy nhiên ây ta thy u ó không rõ rt.
Hiu qu phân loi ca c hai thut toán trên các kho ng liu là khá cao.
Vi thut toán AdaBoost, li phân loi sai trên các kho ng liu ã hun
luyn s ngày càng gim khi T ngày càng tng, tng ng vói các ch s

78
spam recall và spam precision ngày càng tng, di ây là biu  th hin
iu ó
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 33 65 97 129 161 193 225 257 289 321 353 385 417 449 481
T
%
SR
SP
Hình 7-1  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T
(thut tóan AdaBoost.MH with discrete predictions)

0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
1 31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
T
%
SR
SP
Hình 7-2  th biu din s bin thiên ca spam recall (SR) và spam precision (SP) theo T
(thut tóan AdaBoost MH with real value predictions )

79
7.2.2 Th nghim vi kho ng liu email ch:
7.2.2.1 Kch bn kim th:
Chúng tôi th nghim hai thut toán AdaBoost ã cài t vi T c chn
ln lt là 5, 10, 50, 100, 200, và 500.
7.2.2.2 Kt qu kim th:
Ng liu email vn bn trn, s email kim th : Spam =98, non-
spam=100
Ng liu email html, s email kim th :Spam =50, non-spam=50
v Kt qu thc hin kim th vi thut toán ADaBoost with real value
predictions
Ng liu T=5
T=10 T=50 T=100 T=200 T=500
HTML SàS 48 48 49 49 49 49
SàN 2 2 1 1 1 1

NàN 49 49 49 49 49 49
NàS 1 1 1 1 1 1
SR 96.00% 96.00% 98.00% 98.00% 98.00% 98.00%
SP 97.96% 97.96% 98.00% 98.00% 98.00% 98.00%
TEXT SàS 84 93 98 98 98 98
SàN 14 5 0 0 0 0
NàN 98 97 98 99 99 99
NàS 2 3 2 1 1 1
SR 85.71% 94.90% 100.00% 100.00% 100.00% 100.00%
SP 97.67% 96.88% 98.00% 98.99% 98.99% 98.99%
ng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán
AdaBoost with real-value predictions
v Kt qu thc hin kim th vi thut toán ADaBoost with discrete
predictions
Ng liu T=5
T=10 T=50 T=100 T=200 T=500
HTML SàS 48 49 50 50 50 50
SàN 2 1 0 0 0 0
NàN 49 49 49 49 49 49
NàS 1 1 1 1 1 1
SR 96.00% 98.00% 100.00% 100.00% 100.00% 100.00%
SP 97.96% 98.00% 98.04% 98.04% 98.04% 98.04%

80
TEXT SàS 91 91 95 97 96 97
SàN 7 7 3 1 2 1
NàN 98 98 98 98 99 99
NàS 2 2 2 2 1 1
SR 92.86% 92.86% 96.94% 98.98% 97.96% 98.98%
SP 97.85% 97.85% 97.94% 97.98% 98.97% 98.98%

ng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán
AdaBoost with discrete predictions
Nhn xét : hiu qu phân loi trên ng liu email là ch ca thut
toán AdaBoost khá tt, so vi phng pháp phân loi Naïve Bayesian thì
ADaBoost phân loi email html tt hn, hiu qu phân loi trên email là
n bn trn cng tng ng vi Naïve Bayesian.
7.3 u  nhc m ca phng pháp phân loi AdaBoost:
7.3.1 u m :
• Mt u im ca AdaBoost ging vi phng pháp phân loi Naïve
Bayes là nó cho phép hc cp nht, ngha là khi mt email spam vt qua
c b lc thì ngòi dung có thánh du email ó là spam và hun
luyn li b lc
• Hiu qu phân loi là khá cao
• Vic lu tr tp lut ã qua hun luyn khá gn nh, trong khi ó vi
phng pháp phân loi Naïve Bayes thì d liu sau khi hc là khá ln n.
Vi phng pháp phân loi Naïve Bayesian, d liu hun luyn s phình
to sau mi ln hun luyn cp nht thêm, iu này vi cách thc hin theo
phng pháp AdaBoost là không áng k.
7.3.2 Khuyt m :
• Cng ging nh các phng pháp máy hc ca phng pháp phân loi
da trên thut toán AdaBoost chính là vic phi hun luyn cho nó, vic
hun luyn hiu qu hay không còn phi ph thuc vào kho ng liu
hun luyn ban u

81
• Khuyt m th hai là thi gian hun luyn, so vi Naïve Bayesian,
hun luyn cùng mt kho ng liu thì phng pháp AdaBoost cn thi
gian lâu hn rt nhiu, theo chúng tôi nhn thy thì s chênh lch y khá
ln.


82
Chng 8 : XÂY DNG CHNG TRÌNH
MAIL CLIENT TING VIT H TR PHÂN
LOI EMAIL

83
8.1 Chc nng:
Chúng tôi xây dng phn mm Mail Client vi các chc nng chính nh sau:
Ø Chc nng gi nhn email
Ø Lu tr email tng ng vi tng mc
Ø Son email
Ø Xây dng sa ch
Ø Lc email spam
Ø Qun lý email nh sao chép, chuyn, xóa … email
Ø Và mt s công c h tr khác khác : …
 h tr cho vic kim th Mail Client chúng tôi xây dng chng trình Flood
Mail gi mail hàng lot n mt a ch nhn nào ó.
8.2 Xây dng b lc email spam :
Chúng tôi s dng b lc da trên thut toán hc Naïve Bayes và AdaBoost,
vi Naivê Bayes chúng tôi s dng cách cài t theo cách tính xác sut spam cho
mi token da trên s ln xut hin trong tp hun luyn ban u, chn s token 
duyt mt email là 15, chn
9
λ=
do ó ngõng phân loi email spam là t=0.9. Vi
b lc da trên AdaBoost chúng tôi chn cách cài t theo AdaBoost.MH with real
value predictions. Chúng tôi xây dng thành các component tích hp vào chng
trình di dng các dll.
Chúng tôi cng xây dng chc nng lc email theo phng pháp BlackList
và lu do ngi dùng tnh ngha, phng pháp này s h tr cho b lc email

ngn chn email spam.

84
8.3 T chc d liu cho chng trình :
D liu chng trình :gm ni dung các email, các lut do ngi dùng thit
lp.
u tr ni dung các email gi và nhn : c lu di dng các tp tin vn
bn, vi mi th mc tng ng nh hp thn, hp thi, s có mt tp tin lu
ni dung các email trong các thu mc này, lu tr di dng xml, cu trúc tp tin
nh sau :
<?xml version=1.0?”
<MessageList NumberUnReadMail="1">
<Message MessageID=” ”>
<From>…</From>
<To>…</To>
<Cc> …</Cc>
<BCC>…</BCC>
<Subject>… </Subject>
<Body>…</Body>
<Date>…</Date>
<Attach>…</Attach>
<Priority>…</Priority>
<Read>…</Read>
</Message>
……
</MessageList>
Các thông tin liên quan n mt email mà chúng tôi lu tr gm có : thuc
tính nh danh email (trng MessageID ), tiêu  email (Subject ), a ch ngi
gi ( trng from ),a chng gi ( trng Cc), a chng gi n ( trng Bcc
), ni dung email ( trng body),có ính kèm tp tin ( trng Attach ), mc  quan

trng ( Prority), ngày tháng ( Date)
Các lut do ngi dùng thit lp cng c lu tr dui dng xml

85
• im ca cách t chc d liu xml:
Xml là cách lu tr d liu c t chc vi cu trúc cây, xml c các
ngôn ng lp trình hin i h tr khá tt, nh vy vic thao tác vi d liu chng
trình rt thun li.
Xml là chun giao tip gia các h thng vi các cách lu tr d liu khác
nhau, s dng xml tin li cho vic giao tip vi h thng bên ngoài nh chuyn
i hay thu nhn thông tin.
• Khuyt m :D liu c lu di dng vn bn, không bo mt
8.4 Giao din ngi dùng :
8.4.1 S màn hình :
Hình 8-1:S màn hình ca chng trình
8.4.2 Mt s màn hình chính :

86
Hình 8-2 Màn hình chính ca chng trình Mail Client
Bng chú thích cho màn hình chính:
Din gii
1
i hin th danh sách các email gi cho ngi dùng. Các s kin
i kèm:
§ Nhp n chut trên dòng: c email nhanh.
§ Nhp ôi chuôt trên dòng: c email chi tit.
§
ánh du chn trên dòng: ánh du email cn xóa.
§
: Thông báo th có ính kèm.

§
: Thông báo email cha c.
2
Khung hin th cây th mc lu tr các hp th ca ngi dùng:
1
2
3
4
5

87
§ Hp th nhn: Lu th gi n cho ngi dùng.
§
Hp th cha gi: Lu thã son nhng cha gi
§
Hp thã gi: Lu thã c gi i.
§
Hp th spam: Lu th spam (tng)
§
Hp th xóa: Lu th b xóa bi ngi dùng.
3
Khung hin th nhanh ni dung email khi ngi dùng click chn
mt email trên li hin th danh sách email.
4
Thanh công c.
§ Nhn th: Nhn th t email server.
§ Son th: Son th mi.
§ Sa ch: Tra cu sa ch liên lc.
§ Tr li th: Son th tr li.
§ Xóa th: Xóa các thc ánh du chn.

§ Xem: Hin th danh sách email trên li theo tiêu chí xem.
§ Tìm kim: Tìm kim email theo tiêu  /ni dung /ngi
gi.
5
Thcn chính.
Tp tin:
§ To mi th: Son th mi.
§ To mi th mc: To th mc mi (hp th mi) trên cây
th mc.
§ i tên th mc: i tên th mc (hp th) trên cây th
mc.
§ Xóa th mc: Xóa th mc (hp th) trên cây th mc (Xóa
luôn ni dung bên trong t mc).
§ M thã lu: M thã lu dng tp tin (.eml)
Hiu chnh:
§ Chn tt c: Chn tt c th trên li hin th th gi cho

88
ngi dùng.
§ Tìm kim: Tìm kim email theo tiêu  /ni dung /ngi
gi.
§ Chuyn n th mc: Chuyn thn th mc c chn
§ Sao chép n th mc: To bn sao thn th mc c
chn.
§ Xóa th: Xoá thc chn.
§ Xóa th trong th mc xóa: Xóa tt c th có trong hp th
xoá.
Công c:
§ Sa ch: Tra cu danh sách a ch liên lc.
§ Thêm liên lc: Thêm liên lc mi(tên liên lc, a ch

email…)
§ Qui nh (Rules): Qui nh lc th ti vào th mc nh
trc (hoc xóa).
Th:
§ Son th mi: Son th gi i.
§ Tr li th: Tr li thn ngi gi th ti.
§ Thêm qui nh: Thêm qui nh nhn th gi ti.
§ Chn ngi gi: Không nhn th ca ngi gi có trong
danh sách.
Tr giúp:
§ Gii thiu: Ngi thc hin.
§ ng dn: Hng dn s dng chng trình.

89
Hình 8-3 Màn hình "c email"
v Bng chú thích cho màn hình “c email”:
Mã Din gii
1
Hin th thông tin v email.
2 Khung hin th ni dung email.
3
Thanh công c.
§ Nhn th: Nhn th t email server.
§ Son th: Son th mi.
§ Sa ch: Tra cu sa ch liên lc.
§ Tr li th: Son th tr li.
§ Xóa th: Xóa các thc ánh du chn.
§ u th: Lu th xung  cng dng tp tin(.eml).
2
1

3
4

90
§ Th trc: c th lin trc.
§ Th kc th lin sau.
§ Spam: ánh du spam vt qua b lc (Yêu cu hc
spam).
4
Thc n chính.
Tp tin:
§ To mi th:
§ To mi liên lc:
§ M thã lu:
§ u th:
Hiu chnh:
§ Tìm kim th:
§ Chuyn n th mc:
§ Sao chép n th mc:
§ Xóa th: Xóa thc chn.
Công c:
§ Sa ch:
§ Thêm liên lc:
§ Qui nh (Rules):
Th:
§ Son th mi
§ Tr li th:
§ Th trc:
§ Th k:
§ u tp tin ính kèm: Lu tp tin ính kèm trong th

xung a cng.
§ Xóa tp tin ính kèm: Xóa tp tin ính kèm c chn
trong danh sách ính kèm.

91
Hình 8-4 Màn hình gi email
v Bng chú gii cho màn hình “Gi email”:
Mã Din gii
1
Khung nhp thông tin v email: gi tâu, gi n âu, gi cho
nhiu ngi (CC), gi nhiu ngi nhng n a ch gi (BCC).
Chc nng i kèm:
§ Chn a ch gi n t danh sách.
§ Chn danh sách a ch gi cùng lúc.
§ Chn danh sách a ch gi cùng lúc (n a ch ngi
gi).
2
Khung son tho email.
2
1
5
3
4

92
3
Thanh công c.
§ Gi th: Thc hin gi thn ngi nhn.
§ Sa ch: Tra cu sa ch liên lc.
§ u th: Lu th xung  cng dng tp tin(.eml).

§ ính kèm: M và thêm tp tin ính kèm.
4
Thc n chính.
Tp tin:
§ To th mi:
§ M thã lu:
§ u th:
§ u mi th: Lu li th xung a cng vi tên mi.
Hiu chnh:
§ Chn tt c: Chn tt c ni dung vn bn (text).
§ Tìm kim th:
§ Chuyn n th mc:
§ Sao chép n th mc:
§ Kiu ch: Chn kiu ch cho vn bn son.
Xem:
§ Hin th thanh công c: Chn hin th hay n thanh công
c.
Công c:
§ Sa ch:
§ Thêm liên lc:
Th:
§ Son th mi:
§ u th:
§ Gi th: Gi thn ngi nhn.
§ Thêm tp tin ính kèm: Thêm tp tin inh kèm vào trong
th gi i.

93
§ Xóa tp tin ính kèm:
Tr giúp:

§ Gii thiu:
§ ng dn:
5
Danh sách tp tin ính kèm s gi.

94
Chng 9 : TNG KT VÀ HNG PHÁT
TRIN

95
9.1 Các vic ã thc hin c :
Trong khoá lun này chúng tôi ã trình bày các hng nghiên cu, tip cn
trong phân loi email và chng spam. Chúng tôi cng ã tp trung i sâu vào
óng tip cn phân loi email d trên ni dung.ây chúng tôi trình bày hai
phng pháp phân loi email khá mi và hiu qu là phân loi email da trên thut
toán hun luyn Naïve Bayes và da trên thut toán AdaBoost.Kt qu th nghim
vi d liu s và d liu vn bn trn là khá hiu qu, tuy nhiên i vi email html
thì vn cha c nh mong mun, u này là do kho ng liu email html cha 
ln, mt khác email html có nhng c m ca riêng nó mà chúng tôi cha khc
phc c nh ni dung ch yu là các hình nh.
Chúng tôi cng ã xây dng th nghim phn mm Mail Client h tr lc
email. B lc email c tính hp vào chng trình c xây dng theo nhng
ng ã tip cn.Chng trình h tr mt s chc nng chính ca mt phn mm
Mail Client thông thng nh gi, nhn email, tìm kim, qun lý email
9.2 Hng ci tin, m rng :
Vì thi gian có hn, do ó vn còn nhng u chúng tôi mun thc hin
nhng cha th thc hin c.Da trên nhng kt quã tc, chúng tôi 
xut nhng hng ci tin, m rng cho chng trình
9.2.1 V phân loi và lc email spam:
a) V cách rút trích các token :

Có th ci tin cách ly token, thay vì cách chn token n, có th
chn token nh là mt ng ( gm nhiu t) – token gm hai hay nhiu token
n to thành,iu này giúp vic nhn bit chính xác hn.

96
b) M rng vi email là ting Vit thay vì ch thc hin vi email ting
Anh , tuy nhiên vn  phân loi email ting Vit có mt s m khó khn
là không có sn mt kho ng liu email ting Vit phc v cho vic hc
Thêm na ting Vit là mt tng i ngôn ng phc tp và a dng, do ó
vic phân loi email ting Vit li liên quan n vn  tách t (tách token ),
ây là bài toán phc tp.
c) Có th xây dng b lc thành các phn mm riêng r và tích hp
(plug in ) vào các phn mm email Client hin có nh Outlook Express,
Mozzila ThunderBird.
d) Áp dng b lc email ti mc Server, ngn chn email spam ngay ti
các Server email.
e) Có th s dng kt hp hai b lc theo hai phng pháp Naïve
Bayesian và AdaBoost, khi ó vic xây dng tp lut yu dùng  chn lc
ban u có th da vào nhng token có xác sut spam cao và xác sut non-
spam thp t d liu hun luyn ca Naïve Bayesian.
9.2.2 V chng trình Mail Client:
Chng trình hin ch mi c xây dng vi mt vài chc nng
chính, vn còn nhiu hn ch. Vi mong mun xây dng hoàn thin mt
phn mm Mail Client h tr ting Vit thì bên cnh vic hoàn thin nhng
cái ã có , chúng tôi dnh xây dng thêm mt s chc nng:
Ø H tr bo mt : d liu ca chng trình c lu dng tp tin
n bn,iu ó không bo mt. Có th cài tin u này bng
cách mã hoá tp tin, lu di dng nh phân
Ø H tr nhiu tài khon (Account) trên MailClient, hin ti
chng trình ch h tr mt tài khon .


97
TÀI LIU THAM KHO
Ting Vit :
[4] Hoàng Hoài Sn, Th rác ni kh chung, báo TH thao Vn hoá, s 28 6-4-
2004, Tr 34.
[8] ng Hn (1992), “Xác sut thng kê ”, Nhà xut bn Giáo Dc
Ting Anh :
[1] Monty Python’s Flying Circus. Just the words, volume 2, chapter 25, pages 27–
28.Methuen, London, 1989.
[2] B. Leiba and N. Borenstein. A Multi-Faceted Approach to Spam Prevention,
Proceedings of the First Conference on E-mail and Anti-Spam, 2004.
[3] Ion Androutsopoulos, John Koutsias, Konstantinos V. Chandrinos, George
Paliouras
and Constantine D. Spyropoulos, An Evaluation Bayes Antispam Filtering,
Proceedings of the workshop on Machine Learning in the New Information Age
[5] P.Graham, Stopping Spam, August
2003
[6] Flavio D. Garcia.Spam Filter Analysis Arxiv. preprint cs.CR/0402046, 2004 -
arxiv.org
[7] P. Graham, A Plan for Spam, August 2002
[9] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz. A Bayesian Approach to
Filtering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text
Categorization, 1998.
[10]A short Introduction to Boosting Journal of Japanese Society for Artificial
Intelligence, 14(5):771-780, September, 1999

×