Tải bản đầy đủ (.pptx) (14 trang)

slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (95.3 KB, 14 trang )


Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ

Sinh viên :

Bùi Văn Hi uế

Lê Quang Huy

Ma Đình hành

Đ Tùng Linhỗ

Đ ng Hoàng Anhặ
Phân lo i thư rácạ

Khái ni m v spamệ ề

Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ

M t s khái ni m xác su tộ ố ệ ấ

Phương pháp phân lo i Naïve Bayesianạ

Ch n ngư ng phân lo i emailọ ỡ ạ
N i dung báo cáoộ

Spam là nh ng email đư c phát tán m t cách ữ ợ ộ
r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ
c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ
bulk email(UBE)), hay nh ng email qu ng cáo ữ ả


đư c g i mà không có yêu c u c a ngư i ợ ử ầ ủ ờ
nh n (unsolicited commercial email (UCE))ậ
Khái ni m v spamệ ề

Complaining to Spammers' ISPs

Mail Blacklists /Whitelists

Mail volume

Genetic Algorithms

Rule-Based

Machine Learning
Các hư ng ti p c n x lý v i ớ ế ậ ử ớ
spam

Xác su t có đi u ki n :ấ ề ệ
P(A/B) = P(AB)/P(B)
Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB)
Xác su t đ y đ :ấ ầ ủ
Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi n c . Xét ả ử ộ ầ ủ ế ố
bi n c A sao cho A x y ra ch khi m t trong các bi n c ế ố ả ỉ ộ ế ố
B1,B2,…,Bn x y raả
P(A) = ∑P(Bi) P(A/Bi)
M t s khái ni m xác su tộ ố ệ ấ

Theo Charles Elkan cho X1,X2,…,Xn là các
thu c tính v i các giá tr r i r c đư c dùng ộ ớ ị ờ ạ ợ

đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ
m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề
C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ
v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ
xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ
su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ
giá tr l n nh t ị ớ ấ
Phương pháp phân loai Naïve
Bayesian

V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ
Phương pháp phân lo i Naïve ạ
Bayesian

T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề
C = {spam, non-spam}
Phân lo i email d a trên thu t ạ ự ậ
toán Naïve Bayesian

Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ
sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự
t nó là non-spam (false positive) và sai l m ế ầ
th hai là nh n m t email là non-spam m c ứ ậ ộ ặ
dù nó là spam (false negative) . Rõ ràng là sai
l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở
ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ
spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ
nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ
l c ch n l i.ọ ặ ạ
Ch n ngư ng phân lo i emailọ ỡ ạ


Gi s N ->S và S -> N tương ng v i hai l i ả ử ứ ớ ỗ
sai trên đây . S d ng lu t quy t đ nh Bayes ử ụ ậ ế ị
d a trên chi phí , ta gi s r ng l i N->S có ự ả ử ằ ỗ
chi phí g p l n l i S->N , chúng ta phân lo i ấ ầ ỗ ạ
m t email là spam d a vào tiêu chuân sauO:ộ ự
Ch n ngư ng phân lo i emailọ ỡ ạ

Chương trình s d ng t p m u t ngu n :ử ụ ậ ẫ ừ ồ

http://
www.aueb.gr/users/ion/data/enron-spam/

Chương trình có s d ng 1500 thư m u là ử ụ ẫ
spam và 3672 thư m u là non-spamẫ

Ch y th nghi m v i 15 mail là spam và 15 ạ ử ệ ớ
mail là non-spam cho k t qu ế ả
Đánh giá hi u năng chương ệ
trình
Hi u năngệ
N->S 26,67%
N->N 73,33%
S->S 86,67%
S->N 13,33%
Đánh giá hi u năng chương trìnhệ
Demo
C m ơn vì đã l ng nghe !ả ắ

×