slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (170.68 KB, 14 trang )


Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ

Sinh viên :
◦
Bùi Văn Hi uế
◦
Lê Quang Huy
◦
Ma Đình hành
◦
Đ Tùng Linhỗ
◦
Đ ng Hoàng Anhặ
Phân lo i thư rácạ

Khái ni m v spamệ ề

Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ

M t s khái ni m xác su tộ ố ệ ấ

Phương pháp phân lo i Naïve Bayesianạ

Ch n ngư ng phân lo i emailọ ỡ ạ
N i dung báo cáoộ

Spam là nh ng email đư c phát tán m t cách ữ ợ ộ
r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ
c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ
bulk email(UBE)), hay nh ng email qu ng cáo ữ ả

đư c g i mà không có yêu c u c a ngư i ợ ử ầ ủ ờ
nh n (unsolicited commercial email (UCE))ậ
Khái ni m v spamệ ề

Complaining to Spammers' ISPs

Mail Blacklists /Whitelists

Mail volume

Genetic Algorithms

Rule-Based

Machine Learning
Các hư ng ti p c n x lý v i ớ ế ậ ử ớ
spam

Xác su t có đi u ki n :ấ ề ệ
P(A/B) = P(AB)/P(B)
Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB)
Xác su t đ y đ :ấ ầ ủ
Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi n c . Xét ả ử ộ ầ ủ ế ố
bi n c A sao cho A x y ra ch khi m t trong các bi n c ế ố ả ỉ ộ ế ố
B1,B2,…,Bn x y raả
P(A) = ∑P(Bi) P(A/Bi)
M t s khái ni m xác su tộ ố ệ ấ

Theo Charles Elkan cho X1,X2,…,Xn là các
thu c tính v i các giá tr r i r c đư c dùng ộ ớ ị ờ ạ ợ

đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ
m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề
C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ
v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ
xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ
su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ
giá tr l n nh t ị ớ ấ
Phương pháp phân loai Naïve
Bayesian

V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ
Phương pháp phân lo i Naïve ạ
Bayesian

T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề
C = {spam, non-spam}
Phân lo i email d a trên thu t ạ ự ậ
toán Naïve Bayesian

Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ
sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự
t nó là non-spam (false positive) và sai l m ế ầ
th hai là nh n m t email là non-spam m c ứ ậ ộ ặ
dù nó là spam (false negative) . Rõ ràng là sai
l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở
ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ
spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ
nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ
l c ch n l i.ọ ặ ạ
Ch n ngư ng phân lo i emailọ ỡ ạ


Gi s N ->S và S -> N tương ng v i hai l i ả ử ứ ớ ỗ
sai trên đây . S d ng lu t quy t đ nh Bayes ử ụ ậ ế ị
d a trên chi phí , ta gi s r ng l i N->S có ự ả ử ằ ỗ
chi phí g p l n l i S->N , chúng ta phân lo i ấ ầ ỗ ạ
m t email là spam d a vào tiêu chuân sauO:ộ ự
Ch n ngư ng phân lo i emailọ ỡ ạ

Chương trình s d ng t p m u t ngu n :ử ụ ậ ẫ ừ ồ

http://
www.aueb.gr/users/ion/data/enron-spam/

Chương trình có s d ng 1500 thư m u là ử ụ ẫ
spam và 3672 thư m u là non-spamẫ

Ch y th nghi m v i 15 mail là spam và 15 ạ ử ệ ớ
mail là non-spam cho k t qu ế ả
Đánh giá hi u năng chương ệ
trình
Hi u năngệ
N->S 26,67%
N->N 73,33%
S->S 86,67%
S->N 13,33%
Đánh giá hi u năng chương trìnhệ
Demo
C m ơn vì đã l ng nghe !ả ắ

slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về