37
Bng cách qui, vit tha s th hai trong tích trên nh sau :
(
)
22
|
nn
PXx XxCc
=∧∧ = ==
(
)
(
)
2233 33
| , |
nn nn
PXxXx XxCcPXx XxCc
= =∧∧= = =∧∧= =
và c tip tc
nh vy. Phng pháp phân loi Naïve Bayesian gi thit rng vi mi
i
X
kt qu
tác ng ca nó là c lp vi các
j
X
khác, nh vy chúng ta tha nhn rng:
(
)
(
)
112 2 11
| ,|
nn
PXxXx XxCcPXxCc
= =∧∧=== ==
và tng t nh vy i
vi
2
X
, ,
n
X
.
Nh vy xác sut
(
)
11 22
|
nn
PX x X x X xCc
=∧=∧∧==
=
( )( )( )( )
11 22
| | | |
n
nn ii
i
PX x C cPX x C c PX x C c PX x C c
== == === ==
∏
Mi mt tha s trong tích trên có thc tính d dàng t tp hun luyn
ban u, nh vy phng pháp Naïve Bayesian gim s phc tp ca vic tính toán
giá tr xác sut
(
)
11 22
|
nn
PX x X x X xCc
=∧=∧∧==
4.3 Phân loi email bng phng pháp Naïve Bayesian :
ây mi mu mà ta xét chính là mi mt email, tp các lp mà mi
email có th thuc v là C ={spam, non-spam}
Khi ta nhn c mt email, nu ta không bit mt thông tin gì v nó,
do ó khó có th quyt nh chính xác email này là spam hay không .
Nu nh ta có thêm c m hay thuc tính nào ó ca email thì ta
có th nâng cao hiu qu nhn c email là spam Mt email có nhiu c
im nh : tiêu , ni dung, có ính kèm tp tin hay không,…Ta có th da
vào các thông tin này nâng cao hiu qu phân lai email spam. Mt ví d
n gin : nu ta bit c rng 95 % email html là email spam, và ta li
nhn c mt email html, nh vy có th da vào xác sut bit trc 95%
email html là email spam tính c xác sut email mà ta nhn c là
spam, nu xác sut này ln hn xác sut email ó là non-spam, có th kt
38
lun rng email ó là spam, tuy nhiên kt lun này không chính xác lm
Nhng nu ta cóc nhiu xác sut bit trc nh vy, thì kt lun s tr
nên áng tin cy hn. có c các xác sut bit trc này, s dng
phng pháp Naïve Bayesian hun luyn tp mu (email) ban u, sau ó s
s dng các xác sut này ng dng vào phân lai mt mu (email) mi.
4.3.1 Phân loi email da trên thut toán Naïve Bayesian
Gi thit mi mt email c i din bi mt vector thuc tính
c trng
12
( , , , )
n
xxxx
=
r
vi
12
, , ,
n
xxx
, là giá tr ca các thuc tính
1
X ,
2
X , ,
n
X tng ng trong không gian vector c trng
X
r
. Theo M
Sahami et al [9] ta s dng các giá tr nh phân,
i
X =1 nu các c m
ca
i
X có trong email, ngc li
i
X =0.
Ta tính giá tr tng h MI (X,C) (Mutual Information) mà mi
mt i din ca
X
thuc v loi C nh sau:
{ }
0,1
(,)
( , ) ( , ).log
( )()
x
PXxCc
MIXC PX xCc
PX xPCc
∈
==
= ==
==
∑
{ }
,
c spam non spam
∈−
Công thc 4-5 :công thc tính tng h MI
Sau ó ta chn các thuc tính có giá tr MI cao nht.Các xác sut
P(X), P(C), P(X,C)c tính da trên d liu hc
Da vào công thc xác sut Bayes và công thc xác sut y ta
có c xác sut mt email vi vector c trng x
r
x
r
thuc v loi c là:
{ }
,
().( |)
(|)
().(|)
k spam non spam
PCcPX xCc
PCcXx
PCkPXxCk
∈−
= ==
= ==
= ==
∑
uurr
uurr
uurr
Vi C là e email c xét,
{ }
,
c spam nonspam
∈
Công thc 4-6
39
Thc t thì rt khó tính c xác sut
(|)
PXC
u ur
bi vì giá tr s
ng ca các vector rt nhiu và nhiu vector him khi hay thm chí
không xut hin trong tp d liu hun luyn.Nhã nói, phng pháp
Naïve Bayesian gi thit rng
1
X
,
2
X , ,
n
X là nhng bin cc lp, do
ó chúng ta có th tính c xác sut trên nh sau:
{ }
i1
,
1
().( |)
(|)
().( |)
n
ii
n
ii
k spam non spam
i
PCc PX xCc
PCcXx
PCk PX xCk
=
∈−
=
= ==
= ==
= ==
∏
∑
∏
Công thc 4-7
Vi
( |)
i
PXC
và
()
PC
c tính da trên d liu hc, vic tính này
da vào tp hun luyn ban u.
T xác sut này, ta so sánh vi mt giá tr ngng t (trình bày
mc ) mà ta cho là ngng phân loi email spam hay không, nu xác
suât này ln hn t, ta cho là email ó là spam, ngc li ta xem email ó
là non-spam.
4.3.2 Chn ngng phân loi email :
Trong phân loi email, có hai loi sai lm : sai lm nhn mt email
là spam mc dù thc t nó là non-spam (false positive) và sai lm th hai
là nhn mt email là non-spam mc dù nó là spam (false negative). Rõ
ràng là sai lm th nht là nghiêm trng hn bi vì ngi s dng có th
chp nhn mt email spam vt qua b lc nhng không chp nhn mt
email hp l quan trng li b b lc chn li.
Gi s N
→
S và S
→
N tng ng vi hai li sai trên ây S dng
lut quyt nh Bayes da trên chi phí [9], ta gi s rng li N
→
S có chi
phí gp
λ
ln li S
→
N, chúng ta phân loi mt email là spam da vào
tiêu chun sau:
40
( )|)
( |)
P C spam X x
P C non spam X x
λ
==
>
=−=
uurr
uurr
Công thc 4-8
Mà
( |)1( |)
P C spam X x P C non spam X x
===−=−=
uurr uurr
Nên ta có:
( |)
P C spam X x t
= =>
uurr
vi
1
t
λ
λ
=
+
và
1
t
t
λ=
−
Nh vy ngng phân loi c chn là t tùy thuc vào giá tr
λ
41
Chng 5 :THC HIN VÀ KIM TH
PHÂN LOI EMAIL DA TRÊN PHNG
PHÁP PHÂN LOI NAÏVE BAYESIAN
42
5.1 Cài t chng trình phân loi email da trên phng
pháp phân loi Naïve Bayesian:
5.1.1 Khái nim Token :
xem xét ni dung email chúng tôi dùng khái nim “token”
Các “token” có th xem nh là các t cn xem xét mà ta tách ra t ni
dung ca email. Vi các kí t ch, kí t s, kí t ‘$', kí t gch ngang ‘-’, kí
t gch di ‘_’, kí t nháy n ‘’’ là nhng kí t cu to thành token. Còn
nhng kí t còn li nh khong trng, kí t ‘*’, kí t ‘:’, … c xem là kí t
tách t hay phân cách các t. Vi nhng t tách c mà gm toàn kí s
thì không c xem là token (ví d: “12345”).
Ví d ta có các token sau:
“qvp0045”, “ indira”, “mx-05”, “$7500”, “3d0725”, “ platinum”.
Nu ta có mt chui sau: “ />” thì ta s có
các token tng ng là: “http”, “www”, “27meg”, “com”, “foo”.
5.1.2 Vector thuc tính :
Nhã nói mc 4.3.1, ta chuyn mi mt email sang mt
vector x
r
=(
1
x ,
2
x , ,
n
x ) vi
1
x ,
2
x , ,
n
x là giá tr các thuc tính
1
X ,
2
X
, ,
n
X
trong không gian vector c trng
X
r
. Các thuc tính có th
là mt token , nhóm các token …Trong trng hp n gin nht, mi
mt thuc tính c th hin bi mt token n và tt c các thuc tính
có giá tr lun lý (Boolean), nh vy
i
X =1 nu email chá token, trng
hp ngc li
i
X =0.
Chúng tôi chn thuc tính là token n, nhng thay vì giá tr
ca các thuc tính là giá tr lun lý (boolean), chúng tôi chn là xác sut
spam ca mi token. Xác sut spam ca mi token s có giá tr trong an
[0, 1].Xác sut cho ta nhiu thông tin hn so vi giá tr lun lý.Ví d : xét
43
token “$” xut hin trong email, nu ta s dng giá tr lun lý, ta không
c s nghi ng email này là email spam, và nu email này khá dài
thì càng khó kt lun rng nó là spam. Tuy nhiên s dng xác sut, ta có
th bit c kh nng email ó là spam là bao nhiêu,iu này hp lý
n là ch s dng hai giá tr 0 và 1.Vi không gian vector c trng
X
r
,
chúng tôi chn n là s các thuc tính ca
X
r
th nghim ln lt là 10,
15 và 20. Chn n sao cho không ln quá, nu n ln có kh nng nhng
thuc tính không phi là c trng, nh vy s làm “nhiu “ kh nng
phân loi úng.Ngc li nu chn n quá nh, ta s không có c s
cn thit các thuc tính.
5.1.3 Chn ngng phân loi :
Chúng tôi tin hành th nghim vi giá tr
λ
ln lt là 1, 9 và 999,
nh vy ngng phân loi t xác nh mt email là spam ln lt là 0.5, 0.9,
0.999.
5.1.4 Cách thc hin :
Chúng ta s bt u vi hai kho ng liu email : kho ng liu email
spam và kho ng liu email non-spam. S lng email trong mi kho ng
liu ban u không hn ch. Nu kho ng liu càng ln thì hiu qu lc
email s càng cao. T hai kho ng liu này, chúng tôi phân tích và duyt
qua tt c các token bao gm c phn tiêu ca email.i vi nhng
email html, chúng tôi thc hin bóc tách các th html ly ni dung gia
các th.
Sau ó ta tính xác sut spam ca mi token ã c phân tích, xác
sut này chính là xác sut mt email ch cha token ó và là email spam.
Nh vy mu cht ây là ta phi tính ra c xác sut spam ca
mi token. Theo Paulgraham [7], xác sut spam ca mi token c tính
da trên s ln xut hin ca mi token trong mi kho ng liu hc ban
u. Ví d mt token w có s ln xut hin trong kho ng liu spam là s,
44
trong kho ng liu non-spam là n, s email tng cng ca hai kho ng liu
spam và non-spam ln lt là
S
N và
N
N , th thì xác sut spam ca token
w c tính nh sau:
(,)
S
SN
s
N
P X w C spam
sn
NN
===
+
Công thc 5-1
Tuy nhiên, vì s ln xut hin ca mt token trong mi kho ng
liu hc có kh nng vt quá kích thc ca kho ng liu hc ó (tng
s email) do ó, trong công thc trên, thay
S
N
s
bng Min(1,
S
N
s
) và
N
N
n
bng Min(1,
N
N
n
)
Do ó Công thc 5-1vit li nh sau:
(1, )
(,)
(1, ) (1, )
S
S
S
SN
Min
N
P X w C spam
n
Min Min
NN
===
+
công thc 5-2
Theo cách trên thì chúng ta ánh giá kh nng spam ca mt token
xut hin trong mt kho ng liu hc 100 ln 100 email khác nhau là bng
vi kh nng spam ca mt token xut hin trong mt kho ng liu hc 100
ln nhng ch trong mt email
Chúng tôi xut mt cách tính xác sut spam ca token khác nh
sau: thay vì da vào s ln xut hin ca token trong tng kho ng liu hc,
chúng tôi da vào s email cha token trong tng kho ng liu hc. Công
thc tính nh sau :
45
(,)
S
S
SN
SN
n
N
P X w C spam
nn
NN
===
+
công thc 5-3
Vi :
ü
S
n là s email có cha token trong kho ng liu email spam
ü
N
n là s email có cha token trong kho ng liu email non-
spam
ü
S
N
là tng s email ca kho ng liu hc spam
ü
N
N là tng s email ca kho ng liu hc non-spam
Tuy nhiên, ta nhn thy rng công thc trên ã ánh giá kh nng
spam ca mi token là nh nhau vi token xut hin 1 ln trong 1 email và
token xut hin 100 ln trong 1 email, bi vì c hai trng hp, ta u ch
tính thêm vào s email cha token là 1 mà thôi
Chúng ta có th kt hp hai cách tính trên, có th s dng c
nhiu thông tin v token hn. Chúng tôi xut thêm mt công thc na -
c xem là s kt hp gia hai công thc trên
*
(,)
**
S
S
SN
SN
n
b
N
P X w C spam
nn
bg
NN
===
+
công thc 5-4
Vi
ü
S
n là s email có cha token trong kho ng liu email spam
ü
N
n là s email có cha token trong kho ng liu email non-
spam
ü
S
N là tng s email ca kho ng liu hc spam
ü
N
N là tng s email ca kho ng liu hc non-spam
46
ü b là s ln xut hin ca token trong kho ng liu email
spam
ü g là s ln xut hin ca token trong kho ng liu email non-
spam
Còn i vi các token ch xut hin kho ng liu này mà không
xut hin kho ng liu kia thì ta không th kt lun rng mt token ch
xut hin kho ng liu spam thì không bao gi xut hin trong mt
email non-spam, và ngc li. Cách thích hp ây là ta s gán cho
chúng mt giá tr phù hp [7] Nh vy, vi nhng token ch xut hin
trong kho ng liu email spam thì ta s gán kh nng xác sut spam cho
nó là giá tr N gn vi 1 (chng hn 0.9999 )và ngc li thì gán xác sut
spam là giá tr M gn vi 0 (chng hn 0.0001).
Nh vy ta ã xác nh c xác sut spam ca mt email có chá
mt token nào ó hay xác sut spam ca mt token nh sau:
Tính theo công thc 5-2, ta có :
(1, )
,,
(1, ) (1, )
S
S
S
SN
Min
N
P Max M Min N
n
Min Min
NN
=
+
Công thc 5-5 :công thc tính xác sut spam ca token da trên s ln xut hin
Tính theo công thc 5-3, ta có :
,,
S
S
SN
SN
n
N
P Max M Min N
nn
NN
=
+
Công thc 5-6 :công thc tính xác sut spam ca token da trên s email cha token
Tính theo công thc 5-4
47
*
,,
**
S
S
SN
SN
n
s
N
P Max M Min N
nn
sn
NN
=
+
Công thc 5-7 :ctính xác sut spam ca token da trên s ln xut hin và s email cha nó
Vi :
ü s là s ln xut hin ca token trong kho ng liu hc spam
ü n là s ln xut hin ca token trong kho ng liu hc non-
spam
ü
S
n là s email cha token trong kho ng liu hc spam
ü
N
n
là s email cha token trong kho ng liu hc non-spam
ü
S
N là tng s email cha trong kho ng liu hc spam
ü
N
N là tng s email cha trong kho ng liu hc non-spam
Mt vn phc tp mà chúng tôi gp phi trong quá trình thc
hin phân loi email da trên thut toán Naïve Bayesian là vic tách
token và tính xác sut spam ca token, bi vì s token là khá ln, ây
chúng tôi s dng cu trúc d liu là bng bm.ng vi mi kho ng liu
email spam và non-spam chúng tôi xây dng mt bng bm tng
ng.Bng bm này s bao gm token và s email cha token hoc s ln
xut hin ca token trong tng kho ng liu tng ng, hoc có thng
thi cha ba thông tin này – tùy theo chúng ta áp dng cách tính xác sut
spam nào cho mi token. Nh vy mi token s có mt giá tr bm (xác
nh bng hàm bm tnh ngha ) tng ng vi v trí trên bng bm
ta có th truy xut nhanh n phn t token trên bng. Mc ích xây dng
bng bm là ti u hóa tc truy xut các token trích t email cng nh
ti u thi gian xác nh mt email là spam hay không. Mi phn t ca
bng bm lu tr token, s ln xut hin (hoc s email có cha token ó ),
hoc xác sut spam ca nó, tùy theo mc ích x lý c th mà mi phn t
48
ca bng bm s mang nhng thông tin khác nhau. Bng bm c mô t
nh sau:
Hình 5-1Mô t cu trúc bng bm
Sau khi có 2 bng bm tng ng vi hai kho ng liu email, ta s
xây dng bng bm th ba. Mi phn t trong bng bm này s lu nhng
thông tin gm: token và kh nng (xác sut) spam ca token.Tuy nhiên
vic thc hin tin li và không phi xét quá nhiu token, chúng tôi ch
xem xét nhng token mà s ln xut hin ca nó hoc s email cha nó
trong c s d hc ban u ln hn mt ngng nào ó, vi nhng token
mà tng s ln xut hin hoc tng s email cha nó nh hn ngng này,
chúng tôi không tính xác sut cho token ó. u này là hp lý bi vì
nhng token có tng s ln xut hin ( hoc tng s email cha nó quá ít
thì cng không áng xem xét n, do ó s giúp gim bt s token cn
tính xác sut cng nh dung lng lu tr cho d liu bng bm th ba
này.ây chúng tôi th nghim ln lt hai ngng 3 và 5, kt qu thc
hin hai ngng này gn nh là tng ng nhau, cui cùng chúng tôi
chn giá tr 3.
Theo Paulgraham [7] thì chúng ta cn hn ch loi li false positive
(nhn email non-spam thành email spam ), do ó s ln xut hin ca
các token hoc s email cha token trong kho ng liu non-spam sc
49
nhân vi mt trng s W,iu này giúp phân bit c gia nhng token
thnh thong xut hin trong các email hp l vi nhng token hu nh
không xut hin, chúng tôi th nghim ln lt vi hai giá tr 1 và 2.
Ví d thông tin bng bm th 3:
Token: Kh nng spam :
madam 0.99
promotion 0.99
republic 0.99
shortest 0.047225013
mandatory 0.047225013
standardization 0.07347802
Cách tính xác sut spam cho mi token c thc hin theo các
công thc nhã nói trên.
Cui cùng xác nh mt email mi n có phi là spam không
thì chúng tôi trích ra n token trong email ó.Cách chn mu tp thuc
tính xét thông thng là chn ra n token mt cách ngu nhiên, tuy
nhiên nhn thy rng nhng token trung tính ( kh nng spam là 0.4-0.6
thì không có tác dng lm trong vic nhn dng email spam ) nên ta chn
n token này vi nh hng là chn nhng token c trng cho mt email
spam và email non-spam, chúng tôi chn nhng token có kh nng spam
cao nht và thp nht. Nh vy chúng tôi chn n token có khong cách
gia xác sut spam ca chúng vi giá tr trung tính 0.5 là cao nht Chúng
ta gi giá tr này là giá tr “c trng”. Nh vy ta s chn c nhng
token hoc là có kh nng spam cao nht (xác sut spam cao nht ) hoc là
nhng token có kh nng non-spam cao nht ( xác sut spam thp nht ).
Nu có k (k
≥
2) token có cùng giá tr “c trng “, bi vì kh nng xut
hin ca k token này ngang nhau, do ó hoàn toàn không mt tính tng
quát, chúng tôi chn token u tiên trong k token có cùng giá tr “ c
trng “này. Sau khi chn c n token này chúng tôi s tra trong bng
50
m th 3 ( lu token và kh nng spam ca nó) ly ra kh nng spam
riêng ca mi token. Nu không tìm thy kh nng spam riêng cho token
trong bng bm,có ngha là token này là mi – cha có trong c s d liu
token ca ta.Mt token cha tng xut hin trong kho ng liu hc thì kh
ng spam ca nó tng i thp [7], chúng tôi ly giá tr trung tính 0.4.
Tó chúng tôi tính kh nng tng hp mt email cha n token này là
spam.
Cách tính kh nng tng hp :chúng tôi da vào Công thc 4-7
{ }
i1
,
1
().( |)
(|)
().( |)
n
ii
n
ii
k spam non spam
i
PCc PX xCc
PCcXx
PCk PX xCk
=
∈−
=
= ==
= ==
= ==
∏
∑
∏
uurr
Th thì xác sut spam tng hp ca mt email Cc xét là :
}
{
1
,1
( )( |)
( |)
().( |)
n
ii
i
n
ii
k spam non spam i
P C spam P X x C c
P C spam X x
PCk PX xCk
=
∈−=
= ==
= ==
= ==
∏
∑
∏
uurr
Ví d
Token
: Xác sut (Probability):
madam 0.99
promotion 0.99
shorstest 0.047225013
Xác sut mt email là Spam là :0.6
à Kh nng kt hp
0.99*0.99*0.047225013*0.6
0.6*0.99*0.99*0.047225013 (1-0.6)*(1-0.
99)(1-0.99)(1-0.047225013)
=
+
Sau khi có kh nng tng hp, chúng tôi so sánh vi các giá tr
ngng ( ã nói mc 4.3.1) phân loi email spam hay non-spam, nu
xác sut spam tng hp ca email ln hn ngng t chúng tôi kt luân
email ó là spam, ngc li email ó là non-spam.
51
5.2 Th nghim hiu qu phân loi
5.2.1 Th nghim vi kho ng liu pu:
Bi vì kho ng liu hc và kim th là s, do ó chúng tôi thay i v
cách ly token, ây chúng tôi xem token là các con s, và du hiu tách
token là các khong trng.
5.2.1.1 Kch bn kim th :
Chúng tôi th nghim nhân trng s non-spam W vi 1 và 2
Vi mi W, chúng tôi th nghim vi
λ
ln lt vi các giá tr 1, 9,
và 999
ng ng vi mi giá tr
λ
và W chúng tôi thc hin tính xác sut
spam theo các công thc :Công thc 5-5, Công thc 5-6 và Công thc 5-7
S token c ly ln lt là 10, 15, 20
Chúng tôi kim tra vi các kho ng liu pu1, pu2, pu3 và puA
ng ng vi mi kho ng liu trên chúng tôi cho hc t part1
n part 9, sau ó chúng tôi th nghim phân loi trên part10, cha
nhng email cha c hc.
5.2.1.2 Kt qu th nghim vi kho ng liu pu :
Kt qu thc hin: chúng tôi trình bày kt qu thc hin vi trng
hp nhân trng s non-spam W=2, kt qu chi tit vi W=1 xin xem
phn ph lc.
52
v Kt qu kim th trên PU1:
Công thc 5-5 Công thc 5-6 Công thc 5-7
λ
10 15 20 10 15 20 10 15 20
1 S 44 45 45 45 45 44 46 46 47
N 4 3 3 3 3 4 2 2 1
N 61 61 61 61 61 61 61 61 61
S 0 0 0 0 0 0 0 0 0
SR 91.67% 93.75% 93.75% 93.75% 93.75% 91.67% 95.83% 95.83% 97.92%
SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
TCR 12 16 16 16 16 12 24 24 48
9 S 44 45 45 44 44 44 45 46 47
N 4 3 3 4 4 4 3 2 1
N 61 61 61 61 61 61 61 61 61
S 0 0 0 0 0 0 0 0 0
SR 91.67% 93.75% 93.75% 91.67% 91.67% 91.67% 93.75% 95.83% 97.92%
SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
TCR 12 16 16 12 12 12 16 24 48
999 S 43 43 43 43 43 43 45 45 47
N 5 5 5 5 5 5 3 3 1
N 61 61 61 61 61 61 61 61 61
S 0 0 0 0 0 0 0 0 0
SR 89.58% 89.58% 89.58% 89.58% 89.58% 89.58% 93.75% 93.75% 97.92%
SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
TCR 9.6 9.6 9.6 9.6 9.6 9.6 16 16 48
ng 5-1 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên
kho ng liu PU1
53
Hình 5-2 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th
nghim trên kho ng liu PU1 vi công thc 5-7 (
9
λ=
)
Hình 5-3 Lc ch s TCR theo s token th nghim trên kho ng liu PU1 vi công thc 5-7
(
9
λ=
)
54
v Kt qu kim th trên PU2:
Công thc 5-5 Công thc 5-6 Công thc 5-7
λ
10
15 20
10 15
20
10 15 20
1SS
7
8 9
7
888
9
5
N
7
6 5
7
666
5
9
N
57
57 57
57 57
57
57 57 57
S
0
0 0
0
000
0
0
SR
50.00%
57.14% 64.29%
50.00% 57.14%
57.14% 57.14%
64.29%
35.71%
SP
100.00%
100.00% 100.00%
100.00% 100.00%
100.00%
100.00% 100.00% 100.00%
TCR
2
2.333333 2.8
2
2.3333332.3333332.333333
2.8
1.555556
9SS
7
8 8
7
888
8
5
N
7
6 6
7
566
6
9
N
57
57 57
57 57
57
57 57 57
S
0
0 0
0
000
0
0
SR
50.00%
57.14% 57.14%
50.00% 61.54%
57.14% 57.14%
57.14%
35.71%
SP
100.00%
100.00% 100.00%
100.00% 100.00%
100.00%
100.00% 100.00% 100.00%
TCR
2
2.3333332.333333
2 2.6
2.3333332.333333
2.333333
1.555556
999SS
7
8 8
7
678
5
5
N
7
6 6
7
876
9
9
N
57
57 57
57 57
57
57 57 57
S
0
0 0
0
000
0
0
SR
50.00%
57.14% 57.14%
50.00% 42.86%
50.00% 57.14%
35.71%
35.71%
SP
100.00%
100.00% 100.00%
100.00% 100.00%
100.00%
100.00% 100.00% 100.00%
TCR
2
2.3333332.333333
2 1.75
22.333333
1.555556
1.555556
ng 5-2 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho
ng liu PU2
55
Hình 5-4 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th
nghim trên kho ng liu PU2 vi công thc 5-5 (
9
λ=
)
Hình 5-5 Lc ch s TCR theo s token th nghim trên kho ng liu PU2 vi công thc 5-5
(
9
λ=
)
56
v Kt qu kim th trên PU3:
Công thc 5-5 Công thc 5-6 Công thc 5-7
λ
10
15 20
101520101520
1SS 169 168 168 167
169
165
165
172 170
N
13
14 14
151317171012
N 228 228 227 228
228
229
226
222 224
S 3343
3
2
5
9
7
SR 92.86% 92.31% 92.31%
91.76% 92.86%
90.66%
90.66%
94.51%
93.41%
SP 98.26% 98.25% 97.67%
98.24% 98.26%
98.80%
97.06%
95.03%
96.05%
TCR 11.37510.7058810.1111110.11111
11.375
9.578947
8.272727
9.578947
9.578947
9SS 167 168 168 164
166
163
165
171 170
N
15
14 14
181619171112
N 229 228 227 228
229
229
227
222 225
S 2343
2
2
4
9
6
SR 91.76% 92.31% 92.31%
90.11% 91.21%
89.56%
90.66%
93.96%
93.41%
SP 98.82% 98.25% 97.67%
98.20% 98.81%
98.79%
97.63%
95.00%
96.59%
TCR 5.5151524.439024 3.644.044444
5.352941
4.918919
3.433962
1.978261
2.757576
999SS 163 163 165 160
156
156
163
168 169
N
19
19 17
222626191413
N 229 229 229 229
229
229
227
225 225
S 2222
2
2
4
6
6
SR 89.56% 89.56% 90.66%
87.91% 85.71%
85.71%
89.56%
92.31%
92.86%
SP 98.79% 98.79% 98.80%
98.77% 98.73%
98.73% 97
.60%
96.55%
96.57%
TCR 0.0902330.0902330.0903230.090099
0.089921
0.089921 0.045330.030293
0.030298
ng 5-3 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên
kho ng liu PU3
57
Hình 5-6 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th
nghim trên kho ng liu PU3 vi công thc 5-6 (
9
λ=
)
Hình 5-7 Lc ch s TCR theo s token th nghim trên kho ng liu PU3 vi công thc 5-6
(
9
λ=
)
58
v t qu kim th trên PUA:
Công thc 5-5 Công thc 5-6 Công thc 5-7
λ
10 15 20 10 15 20 10 15 20
1 S 46 46 46 43 42 41 50 48 46
N 11 11 11 14 15 16 7 9 11
N 57 56 57 57 57 57 56 56 57
S 0 1 0 0 0 0 1 1 0
SR 80.70% 80.70% 80.70% 75.44% 73.68% 71.93% 87.72% 84.21% 80.70%
SP 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.04% 97.96% 100.00%
TCR 5.181818 4.75 5.181818 4.071429 3.8 3.5625 7.125 5.7 5.181818
9 S 46 46 45 42 41 38 49 46 45
N 11 11 12 15 16 19 8 11 12
N 57 56 57 57 57 57 56 55 57
S 0 1 0 0 0 0 1 2 0
SR 80.70% 80.70% 78.95% 73.68% 71.93% 66.67% 85.96% 80.70% 78.95%
SP 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.00% 95.83% 100.00%
TCR 5.181818 2.85 4.75 3.8 3.5625 3 3.352941 1.965517 4.75
999 S 43 43 42 41 37 35 47 45 44
N 14 14 15 16 20 2 10 12 13
N 57 57 57 57 57 57 56 57 57
S 0 0 0 0 0 0 1 0 0
SR 75.44% 75.44% 73.68% 71.93% 64.91% 94.59% 82.46% 78.95% 77.19%
SP 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 97.92% 100.00% 100.00%
TCR 4.071429 4.071429 3.8 3.5625 2.85 18.5 0.056492 4.75 4.384615
ng 5-4 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên
kho ng liu PUA
59
Hình 5-8 Lc so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th
nghim trên kho ng liu PUA vi công thc 5-5 (
9
λ=
)
Hình 5-9 Lc ch s TCR theo s token th nghim trên kho ng liu PUA vi công thc 5-5
(
9
λ=
)
60
Nhn xét :kt qu kim th trên các kho ng liu PU là khá tt, hiu
qu phân loi gia các công thc là không quá khác bit, vi cách chn
9
λ=
và
1
λ=
hiu qu hn vi
999
λ=
, theo chúng tôi thì kho ng liu
không ln lm nên s dng
999
λ=
thì không hiu qu bng. V cách chn
s token, hiu qu phân loi khi chn s token là 10, 15 hay 20 cng không
khác bit lm.
5.2.2 Th nghim vi kho ng liu email ch :
5.2.2.1 Kch bn kim th :
Sau khi ã th nghim vi kho ng liu s, chúng tôi chn mt b
(
λ
, n, W) kim th vi kho ng liu email ch.
Chúng tôi th nghim vi b d liu
λ
= 9, s token là 15, trng s
non-spam là 2.
Ng liu hc và kim thây gm ng liu email là email vn bn
trn (text/plain), và ng liu email html. Ng liu email vn bn trn có s
email dùng hun luyn là :517 email non-spam, 528 email spam. Ng
liu dung kim th gm 98 email spam, 100 email non-spam. Ng liu
email html có s email dùng hun luyn là 141 email non-spam, 155
email spam, s email dung kim th là 50 email spam, 50 email non-
spam.
5.2.2.2 Kt qu kim th :
Ng liu email vn bn trn:
• Ng liu hc :s email spam :517, s email non-
spam:528
• Ng liu kim th :s email spam :98, s email non-
spam :100
Ng liu email html, s email kim th :Spam =50, non-spam=50
61
ng 5-5 Kt qu kim th phân lai email bng phng pháp phân lai Bayesian trên kho
ng liu email ch
Kt qu thc hin vi ng liu email vn bn (text/plain) khá tt, các ch
s spam recall, spam precision khá cao, tuy nhiên thc hin vi kho ng
liu email html thì ch s spam recall không c cao trong khi ch s
spam precision vn tt. Kt qu này mt phn vì kho ng liu email html
ca chúng tôi không c ln lm, s lng email html dùng hun
luyn ng i ít. Email html có c m là ni dung ca nó hu ht là
các th html, nhng th html này không cung cp c nhiu thông tin
trong vic phân lai, ni dung ch tht s tng i ít, u này cng nh
ng n kt qu thc hin ca thut tóan Naïve Bayesian
5.3 u nhc m ca phng pháp phân loi Naïve
Bayesian:
5.3.1 u m :
• Mt u im ca b lc Bayes là nó cho phép hc spam. Ngha là, khi có
mt email spam vt qua c b lc thì ngi dùng có thánh du
spam cho email ó và b lc s t phân tích email spam ó và cp nht
thêm vào kho ng liu spam.
• Hiu qu phân loi là khá cao
Công thc 5-5 Công thc 5-6 Công thc 5-7
TEXT S 96 94 96
N 2 4 2
N 99 99 99
S 1 1 1
SR 97.96% 95.92% 97.96%
SP 98.97% 98.95% 98.97%
TCR 32.66667 19.6 32.66667
HTML SS 32 24 23
N 18 26 27
N 50 50 50
S 0 0 0
SR 64.00% 48.00% 46.00%
SP 100.00% 100.00% 100.00%
TCR 2.777778 1.923077 1.851852