X l ngôn ng tư nhiên
Đ ti: Phân loi văn bn: Lc thư rc
GVHD: PGS.TS Lê Thanh Hương
Nhóm sinh viên thực hiện:
1.
Trần Việt Đức – 20086084
2.
Dương Nữ Nguyệt Linh – 20081516
3.
Trương Công Trng Nghĩa – 20081877
4.
Nguyễn Thị Minh Thùy – 20082598
5.
Phn Văn Ton – 20082711
10/23/14 1
School of Infomation & Communication Technology - Ha Noi University Of Technology
I. Giới thiệu
•
1.1. Vấn đ Spam Email.
•
1.2. Hc my.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 2
Tập d liệu
(Data set)
Tập th nghiệm
(Test set)
Tập học
(Training set)
Tập tối ưu
(Validation set)
Huấn luyện
hệ thống
Thử nghiệm
hệ thống đã học
Tối ưu hóa
các tham số
của hệ thống
I. Giới thiệu
•
1.3. Định lý Bayes.
•
P(h): Xc suất trước rằng gi thiết (phân lớp) h l đúng.
•
P(D): Xc suất trước rằng tập dữ liệu D được quan st(thu được).
•
P(D|h): Xc suất của việc quan st được(thu được) tập dữ liệu D, với điu kiện
gi thiết h l đúng.
•
P(h|D): Xc suất của gi thiết h l đúng, với điu kiện tập dữ liệu D được quan
st.
•
1.4. Khi niệm “Token”:
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 3
( | ). ( )
( | )
( )
P D h P h
P h D
P D
=
II. Phân loại Naïve Bayes
•
4.1. Tính xc suất spam của mỗi token phân tch.
o
Theo Paulgraham.
o
Số token tỉ lệ với số email.
o
Vậy ta có:
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
4
( , )
S
S N
s
N
p X w C spam
s n
N N
= = =
+
( , )
S
S N
s
T
p X w C spam
s n
T T
= = =
+
II. Phân loại Naïve Bayes
•
Khi số lần 1 token xuất hiện lớn hơn số token phân biệt?
•
Khi token chỉ xuất hiện ở một kho?
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
5
min(1, )
( , )
min(1, ) min(1, )
S
S N
s
T
p X w C spam
s n
T T
= = =
+
min(1, )
( , ) ax , ,
min(1, ) min(1, )
S
S N
s
T
p X w C spam m M min N
s n
T T
÷
÷
÷
÷
= = =
÷
÷
+
÷
÷
II. Phân loại Naïve Bayes
•
Cuối cùng p dụng công thức naïve bayes.
•
Vậy xc suất một từ spam tính theo công thức.
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
6
1
{ , }
1
( ). ( | )
( | )
( ). ( | )
n
i i
i
n
i i
k spam ham
i
P C spam P X x C c
P C spam X x
P C k P X x C k
=
∈
=
= = =
= = =
= = =
∏
∑
∏
r
r
1
{ , }
1
( ). ( | )
( | )
( ) ( | )
n
i i
i
n
i i
k spam non spam
i
P C c P X x C c
P C c X x
P C k P X x C c
=
∈ −
=
= = =
= = =
= = =
∏
∑
∏
uur r
III. Các chỉ sô đánh giá hiệu quả phân loại mail.
•
3.1. Spam Recall v Spam Precision.
•
3.2. Tỉ lệ lỗi Error v Tỉ lệ chính xc Accuary.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 7
Re
S S
S S S N
n
n n
→
→ →
=
+
Pr
S S
S S N S
n
n n
→
→ →
=
+
N S S N
N S
n n
Err
N N
→ →
+
=
+
N N S S
N S
n n
Acc
N N
→ →
+
=
+
III. Các chỉ sô đánh giá hiệu quả phân loại mail.
•
3.3. Tỉ lệ lỗi gia trng Weighted Error v tỉ lệ chính xc gia trng Weighted Accurary.
•
Chn � ngưỡng phân loi email:
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 8
N N N N
N S
n n
WAcc
N N
λ
λ
→ →
+
=
+
N S S N
N S
n n
WErr
N N
λ
λ
→ →
+
=
+
III. Các chỉ sô đánh giá hiệu quả phân loại mail.
•
3.4.1. Tỉ số chi phí tổng hợp.
•
Tỉ lệ chính xc gia trng
trường hợp “ranh giới”.
•
Tỉ lệ lỗi gia trng trường
hợp “ranh giới”.
•
Tỉ số chí phí tổng hợp.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 9
b
N
N S
N
WAcc
N N
λ
λ
=
+
b
S
N S
N
WErr
N N
λ
=
+
b
S
N S S N
N
WErr
TCR
WErr n n
λ
→ →
= =
+
IV. Th nghiệm
•
5.1. Tập dữ liệu.
o
Nhóm em dùng kho dữ liệu email chữ.
o
Tập huấn luyện:
•
922 email non-spam v 594 email spam.
o
Tỉ lệ: ≈ 0.64425.
o
Tập kiểm thử:
•
73 smail non-spam v 47 email spam.
o
Tỉ lệ: ≈ 0.64384.
•
5.2. Kết qu thực nghiệm.
o
Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi �
o
Qu trình thử nghiệm
•
Spam: cho ra 45 email cho ra l spam còn 2 email l non-spam.
•
Non-spam: cho ra 71 email non-spam v 1 email spam.
•
(
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
10
IV. Th nghiệm
o
Tính cc gi trị recall v precision
o
Re = = 95.7%
o
Pr = 97.8%
o
Tỉ lệ lỗi v tỉ lệ chính xc
•
Acc = = 97.5%
•
Err = = 2.5%
o
Tỉ lệ lỗi gia trng v tỉ lệ chính xc gia trng
•
Wacc = 97.5%
•
WErr = 2.5%
•
(
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
11
IV. Th nghiệm
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
12
V. Nhận xét
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
13
•
Ưu điểm.
•
Nhược điểm.
•
Question/Answer.
Cám ơn vì đã lắng nghe
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 14