Mục lục
Chương 1 : Mở đầu
!"#$%"&'()!
$$)*+,-)./)-,0/
'12$%*3456$78*9$*9#$
)0/0:$$8*97;$<$'
=>$$$"8/$?)$'=*9>$
)03)$@AB3)$C$9),*9*5/)8'
?)$.>$*9)::$:A/;
$DAE*8#3"*9#F3A5$FGHIJJ
>$0:A*94$-DE*8F3A5
A$$$FGKIJJ
=7*ALM23)$$/7$#*N-
&/,:<C./OP$QRST'UALE*5D!:
7$:.@- :8$.P$$!:-$
FV3A)J3)$D*W!:$:-$G3
<X $3A:*9:$8'?-:,):)O
Y7$Z&.-:56E)$YO)
.$8>*-*9*A$53:$M8@
3)$3#$/&/,-[535\B@$E>**9&$
&/
]]]F]A5B]5]J$!#!7*,0
E-7*)0A!#$:.^*9!)&L
7#-A)_)8)!>5Y6$*#<
*9)_)'KWA`aBbP$L;!3N3"*34
56/$:-O<>M8PZ3)$
*#<`.9)'?)$*A3>0:A*+$
_A_A:F>$0:A*+$*9$-DJ
'?)$<:!*3456"*7
'U#*3456$3)$<A@0$:N$/7
&-L@- Y$/>$@WX&-D$"
$&*+3"EFHAJ^Y3)$A8$
X3"*93)$*9 $N#'A"Ecd=
$P$aeef$%-A0fg$3)$*9)::
feh*9$$3)$D<A3"Teh'KA5*985,
iEjF)$JV3)$$9
8'A3"Qeeeee$3)$)::WD$$-)0j-
k)).D*
l PZ3)$7A@:;::<;
): >M8)<A@$:3)$$C>
*A3)$)::L^X$$@:*9:@'K
!>:3)$$>*"3)$m`!)5n5*
*-j!'N!A/D-$)*+):)6"
3)$>,/D!'
Chương 2 : Tổng quan
2.1 Các cách thức con người xử lý với spam
!#-7;): 7:;:
0!/73)$'K-7,"*9&<5N3o$[53:\
FH3J;:$7$O-3)$*9A)::5M:
$!O:$7AAY-FAAJ'p3",P;A
5E$F>**+FqA$J7F3rJsJAt>
$-YW&/):O>3)$$F*)::3)$J'U,":
X$!$A5E$>5/!A/-3NjE3)$
u$-:75/3">:*9!A7$:/X
*s
:3)$$X!:M85 "3)$
^)0*90!.>0!L:3)$$
$+sv!0*,:$3)$D*"#$
$*'$3)$-$7A0
/E-'H0/-.$60:A30)w$5Y6'=-+3
A)*+):)@$5N5FA35xJ'A-L
"k):,:>0:AF33B)JXLy!:
W3"E$u*-AD&/,>[e&&&z\s{
p7@D)0<k!@3)$::)00@
3'=!$@O"8D!:$4!AZ:5/$$8
3N@A-3)$X7-`,+0,8/0$3)$*9
4!'=*9!-:7$3)$*9*9@X|@A
,0:);*9DE*3456'
2.2 Các phương pháp tiếp cận
2.2.1 Complaining to Spammers' ISPs :
Ý tưởng:
X$:$P).43)$E:3)$$2>)7
)0:!:+/)5Y}6$F?~A5B?~J'vL
!.&:>$3)$N3N*94!O5Y6?~A3•)0
:#5Y6-5Y63•O"/)5Y6A:3)$$5
43)$'
Đặc điểm :
l<^0):)"3)$D'=>)7^-:
56E-'=>+43)$3•Y,--:3)$$)0Py
$A0$##/)5Y6?~ - !)6):::$3)$
E$X'dD5D, +/)5Y63•$:3)$$"7).
L):,3#$X).E:3)$$P7
K:^Z))0>-P- !.&:>
$3)$N3N!O<5A:3)$$_A_A/)D5
E$ wj"'dA-D)0 !75E$ |
$3)$83N!<'
2 2.2.Mail Blacklists /Whitelists
Ý tưởng :
p53:FH3J:YW$:$:E$F$3J
5E:3)$$3•*9!8)5NA-- PZ$
3)$*9)<:O>+'
U,!8)53::YW$$:E4$3•5A$
-$X,&:8'p3"/)5Y6$?~3•553:
NO"8$O>$:E$A53:-'
=*8>$3)$3•*9)<AZ$:E8$'
Đặc điểm :
~*+):)*#DA*9A0Teh$3)$
v! $E)*+):)L *+D#+$4
3"3$3)$3456,'U!&:853:,5
-jM#,t$*9#$9),'
~*+):)- Y$Z!*:3)$$4$
$$:E?p~F?$)$3q~AAAJ-j"9)):)
A53:[H3\'
=A53:WO"8$O:YW~F
~AAAJO>+543)$$-`O"0>$$
-$72$A53:[H3\'
K:*9:)56$;/)5Y6$F?~J8>56
#*5!@3456$?~:8'
=*9#,!8)$53:[H3\`- !8)
$53:[]3\'U#>YW4$FAZ$75A$3J2$
A53:3•*9:?~N/)8$4O-'pZY/0
>$:3•YO"'
=!:3)$$4$3)$#)D[35\E$-$7
*9/)8A[]3\X$3)$m- !*9*8'
2.2.3.Mail volume
Ý tưởng :
H@3•;568A: $3*9$8*9O$$:E
FA3J6 A:D!"3F:*9@?)$35Ev
3456=!3"*9$8*9#+$*€A-X:$-3•
*9)<A3)$J
Đặc điểm :
H@t,0A,)<AL/0:$9),A7
,#$*€)<AEA'=!@*93456A:<q-A
/,0'K- &$<$* $E@X#$:<X
>i4$0:A)0!8)7!"+ 4$3"*9$
"'l7$A:$0:A-5n5Y):,5N,
)<.3"*9$'
pZ!E@W,/)8)<A3•‚ƒFq3)
JE-`:A'
•‚ƒ„
…?"$3)$$@8AB3)$e
…?"$3)$N3N!@
2.2.4.Genetic Algorithms
Ý tưởng :
H@5N8A:57F†‚A$3J3456:8
5Z*Fq5A3J $A$%$'N!>q
5A3$8):8*9&<5N5N:,$-
F$)3J:)56A$%$ 7$:Y3"
8A:57*9 5n><F3J*9!9)#
$8)/,#$$.9)x33qA'
K+!!-FIAA$3$JE8A:…8A:N,
A:+0)_)A33A!$A'p6.!X
X$*9$:Y3At/5N$x33qA'†:Y3A3-3•
*93456 )<A$3)$AB3)$
Đặc điểm :
l<*#!)8)<A$5N5'1*#!)8,
0/A@$;?~*9::5N8A:57†
‚A$3
l $89E8A:57`t0P&4y)0#
1*#!)8*9;56AX@3)$?)$3333'=-A
5/,0$;?~*97*::$A>@
A,0/$;?~
l $!EX@?)$3333A#,0*A$;
*5:<'
2.2.5.Rule-Based (hay là Heuristic)
Ý tưởng :
dNA8X$!$:$m-5/,3)$*:O>&:Y
A:>A5//$)D5E$3Y5
A$*+AZ:;'l-:D!)D#:X@3)$
AP$aeea
Đặc điểm
1,3/EX@5N8FB35x3J:/7'K:
+0/At:$$-;>O&/A-'=*<^
$! :3)$$- 956 $Z:@ 2:"
k:3456>O&/2>O"C*934567A
$AB3)$'A-:$AB3)$XYAt!X;$
O&/5'l75m!0P@3`A
p7/9::857M'v:3)$$X$
*9$)*+):)$# *9X>*!X@)0!>
8$# @:3)$'=>3)$$,)X- $*9>
$:,@5N8*#4L
=!@*9&<5N5N8);)Xm)::56@
3)$,0'U.56*X@?)$3333@!ReBRTh3)$
p789@5N8MX5nZ'
2.2.6. Machine Learning (Máy học )
Ý tưởng :
‡)56:)*+):)$:@A:A:)<AZ,)<
AP0AA:)<A$:8A:$:@*=H3
‚5HA33?))AUAps*93456AMN)<AP0
85s#,0A'ˆ*X$:&<5N$)<A2$
)<AA$$m$#2:/,>$m-3o
Đặc điểm
~*+):)- :)56$;?K'
1!D)0-$A>,FA)3J/,D A$:@,
/,$/7'p!>,0)<A)6AA
>,5 /,'
Chương 3 : Phương pháp phân loại
Naïve Bayesian và ứng dụng phân loại
email
3.1. Một số khái niệm sác xuất có liên quan
†A$j7$$Z)u…-$)_)4
v!0- &0Aj7…\‰/,$Z3/)\AZ[&<,$Z4\
[‰/,$Z3/)\Cl-$!"
[‰/$Z4\Bl-$!"
3.1.1.Đinh nghĩa xác suất
d …
‰:3/E!"‚$3"<$y,~F‚J Y0P&0
!"‚*9&:Y*3
~F‚J„„?"*9)89A‚Š?"*9)- -)_)4N
,
F=>0PAZ:!"3+/)C!L&0X3‚&0C
@>*9)89A‚J
lYM&:3/A)*+):)"…
($$$)_)4A-D$-$D!"‚&/,XW3"
$Š@D3/E!"‚
vD3<$Š^*-5A$3""
YA-'?""Y/*9@&:3/E!"‚AM'
N!E#&/)&W~F‚J$Š
3.1.2.Xác suât có điều kiện , công thức xác suất đầy đủ -
công thức xác suất Bayes
b'Q'a'Q'‰:3/-7,
‰:3/-7,E!"‚#7,!"H&0$A3"
<$*9y,)F‚ŠHJ- Y0P&0!"‚A."
!"H&0
~F‚ŠHJ„
?…~F‚ŠHJ&~FHJ„~FHŠ‚J&~F‚J„~F‚HJ
b'Q'a'a'K;&:3<DE
†034s$-$DE:!"'‰_!"‚3AA‚&0W
$A:!"s&0
v-…
~F‚J„
K;*9@;&:3/DE
b'Q'a'b'K;&:3/H3
O:;-…
~FŠ‚J„„
3.2.Phương pháp phân loại Naïve Bayesian
~<AH3)*+):))<A3456;:3:&/
/,'~*+):).9)#>#)A:`t)05NA:
.&:#)E$mD $5N>O8)/,D
AK3IAs:.#::Y*95
5NA:$#),KA$8)$m8):#)$$m- 7K
„‹sŒ'KA$$m/,#:Y:.*+;&Qs&5NA:
$m7#)•K&:3/~FK„Š‰Q„&QŽ‰a„&aŽsŽ‰„&J-:Y#/'
?456;&:3/H3-…
~FK„Š‰Q„&QŽ‰a„&aŽsŽ‰„&J„~FK„J
‰:3/~FK„J*9.5n5O8)5>,/,'‰:3/~F‰Q„&QŽ‰a„&aŽs
Ž ‰„&J.9) 5A,!Y#)KX:Y*
"#$%#)'=*8P; 5NA:#)EK5NA&:3/
~F‰Q„&QŽ‰a„&aŽsŽ‰„&ŠK„J',.A:&:3//);)'p
)*+):)+0*9*3#$/)*+):))<A=
H3A-0!2$%‰8)#:‰rF•rJ*83•-…
~F‰Q„&QŽ‰a„&aŽsŽ‰„&ŠK„J„
3.3. Phân loại email bằng phương pháp Naive Bayesian
•<$%$m$&_.$%$$8):#)$$"$-
7K„‹3)$AB3)$Œ
v8*9$$!!$X7-5A---
!Y.&:$3)$
=*-$Z $.A-E$X- <
A,08*9$3)$'p$-7Z $*…7
5-.‘$8)s- 5NA: <A
,0)<A$3)$'p.56+0…!!*92RTh$
$$3)$8*9$$$*8- 5NA&:3/
!*#RTh$$$3)$ .*9&:3/$$8*9
3)$!&:3/#+&:3/$-AB3)$- 82$
-3)$8.&:k$'=*!-*97&:
3/!*#*8X!83•:8+'l -*9:&:3/
!*#3456)*+):)=H3/,8)$mF$J
D3-3•3456:&:3/;56A)<A$$mF$J$#'
3.3.1 Phân loại email dựa trên thuật toán Naive
Bayesian
†0!$%$$*95,$A.Z*„F&Q&a
s&J#&Q&as&:YE:.‰Q‰as‰*+;A
AZ*'Ap?$3456::YY)<‰„Q!:Z
$E‰-A$*9‰„e
.:Y*+%pF‰KJFpqA$AJ$$%$5,E‰
7AK*3…
pF‰KJ„'A
?-@:.-:YpA/'K:&:3/~F‰J~FKJ~F‰KJ*9
.5N5>,@
dNA;&:3/H3;&:3/DE-*9&:3/$
$#AZ*7A…
~FK„’J„
U#K$*9&_
N!/-.*9&:3/~FJX:Y3"*9A/7
7A!$8$.&/,A8)5>,/,'=*
-)*+):)=H30!2‰Q‰as‰>!"8)5A
-L- .*9&:3/*3…
~FK„’‰„&J„
U#~F‰’KJ~FKJ*9.5N5>,@,.5NA8)/r
D
O&:3/3A3:#$:Y*€$A*€ )<
A$3)$!&:3/++A$-3)$*9
&$$-AB3)$'
3.3.2. Chọn ngưỡng phân loại email
A)<A$-A3D$…3D$8$$3)$$Z5
N!-AB3)$Fq3)A3J3D$;8$$AB3)$
$Z5-3)$Fq3J'ƒ|3D$;/$@+
X*3456- /)8$$3)$*9@*/)
8$$9),@Y@Z'
†034=B“??B“=*+;#%3<'?4568!Y
H35N).0342%=B“?-)./)D%?B“=L)<
A$$3)$5NA<3…
p~FK„3)$’J„QB~FK„AB3)$’J
=-…
~FK„3)$’J“#„
=*8*€)<A*9@A:Y'
Chương 4 : Cài đặt chương trình phân
loại email dựa trên phương pháp
phân loại Naive Bayesian
4.1. Khái niệm Token
l &$&_56$$5:,$A
K:A- &$*:OD&$&_$:O5E$
'U#:.N>.N3".N”•{.N”B{.N5*#”–{.N:
+”{>.N/AA'K`>.N`*A0k.
N—.N…s*9&$.N :)<::O'U#>O:*9$
j$A.N3"X*9&$AF.56…QabfTJ
U.56-:A3…
˜)eefT5$&BeT•STeeb5eSaT)$'
=!-$%3…)…ŠŠVVV'aS$'A$ŠqAAX3•-:A*+;…
)VVVaS$A$qAA
4.2. Vector thuộc tính
$%$$3$A„F&Q&as&J#&Q&as&:Y:
.‰Q‰as‰AAZ*'K:.- $
A-$:AsA*9)+0/$%$.*9
,$A+/0:.-Y<.FAAJ*8‰„Q
!$;A*9)*9‰„e
I$@.A+*X:YE:.:Y
<.FAAJ$@&:3/3)$E$%A'‰:3/3)$E$%A
3•-:YAA™eQš'‰:3/A7+3A#:Y<y'U.
56…&_A•&/,A$!3456:Y8yE+3
$$3)$!$:5X-!82-
3)$'3456&:3/- !*90P$-3)$
A79)y+W3456:YeQ'U#AZ
*@3":.E 4,$D*9QeQTae'K@3A
A:#!#-0P>.)0Z**
83•$n0P)<AL'=*9!@:t3•-
*93"D!:.
4.3. Chọn ngưỡng phân loại
!4,$#:YD*9QRRRR*8*€)<
A&:Y$$3)$D*9e'Te'Re'RRR
†A5,*+X
K:;P.E*+X…
(N@xA*$6…*9N/A
HAV3
v $x3)$…*9N,/
AK
‰-$X…*9N,/AK
Tài liệu tham khảo
vA5>,*9/O:j…
!""
#$ %%"&%'%
( )*
" "
"*+,"
*--*."*
/0"1/234565