!
"#$%&'()
Đ ti: Phân loi văn bn: Lc thư rc
*+,)'(-.
!"# $$
%&'( )
*+, $
/01)2345.
*/01012#3
3.456,7
MỤC LỤC
6789:
89+.#:.89+;(< 5=>>9?@2A>
4B.C DEBF7GAH#B.I?412:+A#=>>9?@
2J<;E5B.>7#::.74J2:2:+KJLMJ5#KB.
ANM2=>>13O.7G8PQRS>7#:9TU9V
74:V:F>7#:52C JNMN6>7#:7.#U9V9T
# 7.#A#W71>7#:7.#C 7HU:.>7#:
PJ#71V:+5>7#:C JNPJ#7!:.-XPJ#7Y>7#:VJ:
9V8R(MJUZ1
>7#:PJ#7WN@ B[#8PQRS5W-!
N76;\;45H8#B.T;+9DIK#]5 9 C!KD7M
>7#:A#!B^;&IK#7_11
`MJ6a\+9K5K7]>79?!9T.;$1<=
>?@ A-'20- BF7S9L^7D5Q76JJ6JEJU
-;.-6JW:-+>7#:5a9K\JW:-+>7#:]J,b>7#:
PJ#7AN1
]>7IW.N7P\FRc[# 2#3N
BT27 d9&F-A6^]>7\9T.1^
CEe+fJ 2;6-6-[#K7C D6CgEPK1
]>7M7-9VP\KJh[# 9D;6-6-[#]>79
1
B:/
I. Lý thuyết học máy.
1.1 Giới thiệu v học máy.
1.1.1 Các định nghĩa v học máy (Machine learning).
KMT69&"#BT!76i
X >-'>::X))$i “Hc my là qu trình mà một chương trình my
tính ci thiện hiệu suất của nó trong một công việc thông qua kinh
nghiệm”.
X >-j:J#RX“Hc my là việc lập trình cc my tính để tối ưu
hóa một tiêu chí hiệu suất dựa trên cc dữ liệu ví dụ hoặc kinh nghiệm
trong qu khứ”.
X >-kCJ>R#i “Hc my, có tài liệu gi là My hc, (tiếng Anh là:
machine learning) là một lĩnh vực của trí tuệ nhân to liên quan đến việc
pht triển cc kĩ thuật cho phép cc my tính có thể "hc". Cụ thể hơn,
hc my là một phương php để to ra cc chương trình my tính bằng
việc phân tích cc tập dữ liệu. Hc my có liên quan lớn đến thống kê, vì
c hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khc với
thống kê, hc my tập trung vào sự phức tp của cc gii thuật trong việc
thực thi tính ton. Nhiều bài ton suy luận được xếp vào loi bài ton NP-
khó, vì thế một phần của hc my là nghiên cứu sự pht triển cc gii
thuật suy luận xấp xỉ mà có thể xử lí được.
Hc my có tính ứng dụng rất cao bao gồm my truy tìm dữ liệu, chẩn
đon y khoa, pht hiện thẻ tín dụng gi, phân tích thị trường chứng khon,
phân loi cc chuỗi DNA, nhận dng tiếng nói và chữ viết, dịch tự động, chơi
trò chơi và cử động rô-bốt (robot locomotion)”.
Biểu diễn một bi toán học máy.
>-'>::X))$i3!76:.NAN[#74 B A#
C7i
X '4 BY7BSZ1
X HBF62L966PM*1
X A#YPQRSZC7l1
Quá trình học máy.
#KD;DR%>-P9mP#i
II. Thuật toán Naive Bayesian v ứng dụng trong phân loại email.
2.1 Một vi khái niệm xác suất có liên quan
2.1.1 Định nghĩa biến cố, xác suất:
II.1.1.1. Định nghĩa phép thử v biến cố:
/>-749mI27bJni9K:.JoJQ1pEANKDIN#
C>-9mTiq`M7bPMJr-bq`M7bQ#r1.#
9&"#qIM7bPMJr#qIM7bQ#r:.74;EH1
II.1.1.2. Định nghĩa xác suất:
+<9DiXc suất của biến cố A là một số không âm, ký hiệu P(A),
biểu thị kh năng xy ra biến cố A và được xc định như sau:
*YjZss0H8VJIN#j#-PH8VJKDIN#
C\JoJQ1
Định nghĩa xác suất theo phương pháp thống kê:
.79:.7:+74JoJQ 9K:7.K7:;EHjIM
^tPH7u!:.PM[#;EHj. p#9<5PM7ud
#9<K: R#-94A#74PHH9&9K10HH9&M9V
!:.I6PM[#;EHj>-"#HC212\EC9[:F#
IMJIv*YjZ;g7u1
X .6JJ6J!JW:FJK67P6B.R\#2I6PM
2.2 Xác suất có điu kiện,công thức xác suất đầy đủ,công thức xác suất Bayes
2.2.1 Xc suất có điều kiện
`6PMK9TC[#;EHjBF9TC;EGw9?IN#:.74
-PHC W75 9VCh*YjxwZK;D&CN,IN#;EHj
-^H;EHw9?IN#
0#i
*YjxwZI*YwZs*YwxjZI*YjZs*YjwZ
2.2.2 Công thức xác suất đầy đủ
/v#PQw5w5__5w
:.74K799[6;EH1`o;EHjP#-
-jIN#vC74-6;EHw
5w
5_15w
IN#1
p9Ki
2.2.3 Công thức Bayes
2.3 Phương pháp phân loại Naïve Bayesian:
*W:-+w#>P#:.JJ6JJW:-+PQRS6I6PM9?
A#M:1*J6J.LVJBF:FJ;.-69egJNR\
9-6LI6:FJ[#7cCD7#R\#2 aUJM
:;#91
>-#:>Pl:C#5-`
5_15`
:.64LBF66&8+9V
R(9DR\9-674:FJ2;-747c5UJ6:FJ7.7cKD
4BT:.sy
5
5_15
7
z1-747cM:BF6&64L
:.x
1
5__5x
n
5R\9-67c4BT:FJ{CI6PM
K6&:FM10QRS I6PMw#>P#Ki
`6PM*YsZ9VLR%R.aUJR:M:1`6PM__1
p LVJ9DR(-BAE9&:FJ[#;@B^6&.#
9HBF7G:FJ1BU,9DR\9-6:FJ[#:.R\#B I6PM
2BL-6I6PM.MJ+J1'4JJ6J9NB.
9V9##PF7M:.JJ6JJW:-+#|B>w#>P#5>-9KNE
O7G`
94:UJBF6`
}
(i # j ), BU#P~Ki
UBU5PQRS I6PMw#>P#Ki
;O69ABEa#PH-L2P#i
.EJSBU1*J6JJW:-+#|B>w#>P#NEOBF
7G`
CEAN694[#K94:UJBF6`
}
C61BU5]#a#
UO
B.\BU9HBF`
_11`
'Ga#PH-L2KD9VLR%R.aUJM:;#91
BUJJ6J#|B>w#>P#N7P\J+J[#BL-66&
I6PM
2.4 Phân loại email bằng phương pháp Naïve Bayesian
•9W7G7c7.#IoL:.74>7#:5UJ6:FJ7.7G>7#:KD
4BT:.syPJ#75-XPJ#7z
p#U9V74>7#:5E#C ;E74PH ^BTK^CK
KDAE9&LI6>7#:.:.PJ#7#C 1
E#K279b9D7#4L 9K:.>7#:^#KDW
#-ANU9V>7#::.PJ#71'4>7#:KT9b9D7i2
9T54R5KUJ9LC€7#C _1#KDR\#B 6 .9D
W#-ANJW:-+>7#:PJ#71
2.4.1 Phân loại email dựa trên thuật toán Naïve Bayesian
/v#E7G74>7#:9V9+R;@74B>-4L9b
:.6&[#64L`
5`
5_15`
]-C #B>-9b
`1#PQRS6&&JW`
sE69b9D7[#`
K-
>7#:5V:+`
s1
#L6&G'=Y`5ZY'#:=•-7#-Z7.7G749+R[#`
4BT:-+P#i
0# 9K # ! 6 4 L K 6 & '= #- M1 6 I6 PM
*Y`Z5*YZ5*Y`5Z9VLR\#2R:!
\#B I6PMw#>PB. I6PM99[#K9V
I6PM74>7#:BFB>-9bx 4BT:-+:.i
\E^MCKL9VI6PM*Y`xZ;@B^6&PH:V[#6
B>-MTB.TB>-E7C#U7LC IM-UJ
R:M:19?KJJ6J#|B>w#>P#NEO`
5`
5
_15`
:.;EH94:UJ5 R-9K]#KDL9VI6PM@2
P#i
F*Y`
xZB.*YZ9VLR\#2R:!5BL.R\#B UJ
M:;#91
aI6PM.#P-P6BF746&‚7.#-:.‚9D
JW:-+74>7#::.PJ#7#C 5EI6PM.:F^>7#:9K:.
PJ#75V:+^#I>7>7#:9K:.-XPJ#71
2.4.2 Chọn ngưỡng phân loại email.
-JW:-+>7#:K#:-+P#:7i
X '4>7#:9VU:.PJ#77bR(\EK:.-XPJ#7Y•#:P>J-PB>Z
X '4>7#:9VU:.-XPJ#77bR(K:.PJ#7Y•#:P>>#B>Z
ƒ„#P#:7M:.27!;@B^8PQRSKDMJ
U74>7#:PJ#7BVA#;4:!C MJU74>7#:A#
!:+;&b;@;4:!1
/v#PQ0B.0BF#:G21#NPQO:G0K
JLMJ…::G05]#JW:-+74>7#::.PJ#7R\#B 2†
P#i
III. Các chỉ tiêu đánh giá phân loại email
3.1 . Tỉ lệ Recall v tỉ lệ Precision.
X 0J#7ƒ>#:::.v:J,7#PH>7#:X9V;4:!-:.PJ#7;&b
:+B.<PH>7#:PJ#7Y\P\Z9E;4:!1
X 0J#7*>P-:.v:J,7#PH>7#:;&b\P\:.PJ#7BF
PH>7#:;&bX9V;4:!-:.PJ#75J>P-966794#
[#;4:!1
X -9Ki
0‡0
i.PH>7#::.PJ#77.;4:!U:.PJ#71
0‡
i.PH>7#::.PJ#77.;4:!U:.#71
‡0
i.PH>7#::.#77.;4:!U:.PJ#71
‡
i.PH>7#::.#77.;4:!U:.#71
3.2 Tỉ lệ lỗi Err(Error) v tỉ lệ chính xác Acc(Accuracy).
X -BJW:-+>7#:5ANJW:-+R\#B v:LI6YjZ
-bv::GYlZ1 Lv:LI6B.v::GP#i
Lv::G
Lv:LI6
X -9Ki
B.
0
:.PH>7#:#7B.PH>7#:PJ#7JU:-+1
0‡0
i.PH>7#::.PJ#77.;4:!U:.PJ#71
0‡
i.PH>7#::.PJ#77.;4:!U:.#71
‡0
i.PH>7#::.#77.;4:!U:.PJ#71
‡
i.PH>7#::.#77.;4:!U:.#71
3.3 ơTỉ lệ lỗi gia trọng WErr(Weighted Error) v tỉ lệ chính xác gia
trọng(Weighted Accuracy).
-JW:-+>7#:K#:Gi:GUPJ#7##7Y•#:P>>#B>ZB.:G
U#7#PJ#7Y•#:P>J-PB>Z1G•#:P>J-PB>:.:G27!5;@
8R(KDMJU74>7#:PJ#7BVA#;4:!CKKD
MJU74>7#:VJ::+;&;4:!b:+1D;D&694[##:-+
:G.9HBFv:LI6B.v::G5#P~I>77H74>7#:VJ::.…
>7#:VJ:1-9KC74>7#:VJ:;&JW:-+P#5#B^#I>7K
74:G5#I>7…:G5B.CJW:-+9]#I>7:.…:. 1#
K#v:iv:LI6#!ˆjYˆ>>Rj#ƒ#>ZB.v::G
#!ˆlYˆ>>Rl-ƒ#>ZYˆlsXˆjZ1
X -9Ki
Lv:LI6#!
v::G#!
X -9Ki
B.
0
:.PH>7#:#7B.PH>7#:PJ#7JU:-+1
0‡0
i.PH>7#::.PJ#77.;4:!U:.PJ#71
0‡
i.PH>7#::.PJ#77.;4:!U:.#71
‡0
i.PH>7#::.#77.;4:!U:.PJ#71
‡
i.PH>7#::.#77.;4:!U:.#71
3.4 Tỉ số chi phí tổng hợp TCR(Total Cost Ratio).
/6&[#v:LI6B.v::G8KP\P#:#-1DM„9V
AN[#6JW:-+58#8P-P6v:LI6-bv::G
#;4JW:-+BF8VJ9NM9VI>7:.8VJ#F
Y;#P>:>Z1qw#P>:>r9V!:.8VJC PQRS;4:! 56
>7#:VJ:C ;#-8;&b:+B.6>7#::.PJ#7^: : 9A#1
BUv:LI6B.v::G#![#8VJqw#P>:>r:.i
-9Ki
X vPHJL ;4ƒY-#:-P#-Z-JoJ#P-P69VAN
[#8VJPQRS;4:!P-BF8VJqw#P>:>ri
LvPHJL<VJ
X /6&[#ƒ.:F^ANJW:-+.#-5BFƒg
^„.C PQRS;4:!eH1
IV. Kho ngữ liệu email chữ
X UJM:i
o PH>7#:PJ#7i)
o PH>7#:-XPJ#7i)
X UJCD7Qi
o PH>7#:PJ#7i$
o PH>7#:-XPJ#7i$‰
V. Ci đăt chương trình phân loại email dựa trên phương pháp phân loại
Naïve Bayesian:
5.1 Khái niệm “Token”
DI>7Io4R>7#:] R(C67q-C>r
6q-C>rKDI>7:.6aI>7Io7.#6#a4R
[#>7#:1F6CL\5CL\PH5CL\Š5CL\+#‹XŒ5CL\+RF
‹•Œ5CL\69‹‹Œ:.CL\M+-.-C>1eCL\e:+
C-NŽ5CL\‹•Œ5CL\‹iŒ_19VI>7:.CL\9D6a#JW6
6a1Fa69V7.m7 CLPH^C 9VI>7:.-C>YBL
RS‹‰ŒZ
5.2 Vector thuộc tính
#D7G74>7#:P#74B>-x=(x
1
,x
2
,….,x
n
)với x
1
, x
2
,… ,x
n
:.66
&4L`
5_115`
-C #B>-9b`164LKD
:.74-C>5K76-C>_1-8VJ9NM57G744
L9VD;@74-C>9B.MN64LK6&:U:h
Yw :>#Z5BU`
sE>7#:#-C>58VJV:+`
s1
] !4L:.-C>95#B^6&[#64L:.
6&:U:hYw :>#Z5] !:.I6IMPJ#7[#7G-C>1`6PM
PJ#7[#7G-C>P~K6&-9-+•5‘1`6PM-#T
6&:U:h1
5.3 Chọn ngưỡng phân loại
E.Q7BF6&…:.‚JW:-+I69&74>7#::.
PJ#7:.1
5.4 Cách thực hiện
]#P~;Ž9BF#C-:>7#:iC-:>7#:PJ#7B.C-
:>7#:-XPJ#71PH:V>7#:-7GC-:;#9C
+E1EC-:.:F^AN:!>7#:.#-1a#C-R
:.#JWLB.RA#MN6-C>1
0#9K#LI6PMPJ#7[#7G-C>9?9VJWL5I6PM.L
:.I6PM74>7#:v#-C>9KB.:.>7#:PJ#71
BU7MH:.#JNL#9VI6PMPJ#7[#7G-C>1`6PM
PJ#7[#7G-C>9VLR\#2PH:IM[#7G-C>-7G
C-:!;#91BLRS74-C>kKPH:IM-C-:
PJ#7:.P5-C-:-XPJ#7:.5PH>7#:<4[##C-
:PJ#7B.-XPJ#7::V:.
0
B.
5E^I6PMPJ#7[#-C>k
9VLP#i
25B^PH:IM[#74-C>KCN,BVA6PH-C>JW
;2
p-C>vIM@74C-i
5.5 Kết quả thử nghiệm
X E#!‚JW:-+>7#:1:.�s‚JW:-+
X ’6^Q7
• 0J#7i-#>7#:-#:.PJ#7e>7#::.-XPJ#71
• -XPJ#7i-#$>7#:-XPJ#7B.>7#:PJ#71
X L66&>#::B.J>P-
o ƒ>ss)1$“
o *s)$1“
o v::GB.v:LI6
• jss)$1“
• lss1“
o v::G#!B.v:LI6#!
• ˆ#s)$1“
• ˆls1“
X JL<VJƒ
• ƒss1$
VI. ”==•–3j'p3—˜
X w.N`Q:h \2X*/0102#3
X '10##75017#P513>C>7##Rl13-BP1jw#>P#jJJ-#
-™:>šClX'#:*->>RP-•jjj=X)ˆ-CP-J->#•-
>I#>-›#-5))1
X jP-=-R--w Pš-#:-•š#J#>P>0->•-j•#:
=>::>>5YZi$$X$50>J>7;>5)))1