Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ
Sinh viên :
◦
Bùi Văn Hi uế
◦
Lê Quang Huy
◦
Ma Đình hành
◦
Đ Tùng Linhỗ
◦
Đ ng Hoàng Anhặ
Phân lo i thư rácạ
Khái ni m v spamệ ề
Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ
M t s khái ni m xác su tộ ố ệ ấ
Phương pháp phân lo i Naïve Bayesianạ
Ch n ngư ng phân lo i emailọ ỡ ạ
N i dung báo cáoộ
Spam là nh ng email đư c phát tán m t cách ữ ợ ộ
r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ
c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ
bulk email(UBE)), hay nh ng email qu ng cáo ữ ả
đư c g i mà không có yêu c u c a ngư i ợ ử ầ ủ ờ
nh n (unsolicited commercial email (UCE))ậ
Khái ni m v spamệ ề
Complaining to Spammers' ISPs
Mail Blacklists /Whitelists
Mail volume
Genetic Algorithms
Rule-Based
Machine Learning
Các hư ng ti p c n x lý v i ớ ế ậ ử ớ
spam
Xác su t có đi u ki n :ấ ề ệ
P(A/B) = P(AB)/P(B)
Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB)
Xác su t đ y đ :ấ ầ ủ
Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi n c . Xét ả ử ộ ầ ủ ế ố
bi n c A sao cho A x y ra ch khi m t trong các bi n c ế ố ả ỉ ộ ế ố
B1,B2,…,Bn x y raả
P(A) = ∑P(Bi) P(A/Bi)
M t s khái ni m xác su tộ ố ệ ấ
Theo Charles Elkan cho X1,X2,…,Xn là các
thu c tính v i các giá tr r i r c đư c dùng ộ ớ ị ờ ạ ợ
đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ
m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề
C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ
v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ
xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ
su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ
giá tr l n nh t ị ớ ấ
Phương pháp phân loai Naïve
Bayesian
V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ
Phương pháp phân lo i Naïve ạ
Bayesian
T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề
C = {spam, non-spam}
Phân lo i email d a trên thu t ạ ự ậ
toán Naïve Bayesian
Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ
sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự
t nó là non-spam (false positive) và sai l m ế ầ
th hai là nh n m t email là non-spam m c ứ ậ ộ ặ
dù nó là spam (false negative) . Rõ ràng là sai
l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở
ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ
spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ
nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ
l c ch n l i.ọ ặ ạ
Ch n ngư ng phân lo i emailọ ỡ ạ
Gi s N ->S và S -> N tương ng v i hai l i ả ử ứ ớ ỗ
sai trên đây . S d ng lu t quy t đ nh Bayes ử ụ ậ ế ị
d a trên chi phí , ta gi s r ng l i N->S có ự ả ử ằ ỗ
chi phí g p l n l i S->N , chúng ta phân lo i ấ ầ ỗ ạ
m t email là spam d a vào tiêu chuân sauO:ộ ự
Ch n ngư ng phân lo i emailọ ỡ ạ
Chương trình s d ng t p m u t ngu n :ử ụ ậ ẫ ừ ồ
http://
www.aueb.gr/users/ion/data/enron-spam/
Chương trình có s d ng 1500 thư m u là ử ụ ẫ
spam và 3672 thư m u là non-spamẫ
Ch y th nghi m v i 15 mail là spam và 15 ạ ử ệ ớ
mail là non-spam cho k t qu ế ả
Đánh giá hi u năng chương ệ
trình
Hi u năngệ
N->S 26,67%
N->N 73,33%
S->S 86,67%
S->N 13,33%
Đánh giá hi u năng chương trìnhệ
Demo
C m ơn vì đã l ng nghe !ả ắ