Tải bản đầy đủ (.pptx) (14 trang)

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (960.54 KB, 14 trang )

X l ngôn ng tư nhiên
Đ ti: Phân loi văn bn: Lc thư rc
GVHD: PGS.TS Lê Thanh Hương
Nhóm sinh viên thực hiện:
1.
Trần Việt Đức – 20086084
2.
Dương Nữ Nguyệt Linh – 20081516
3.
Trương Công Trng Nghĩa – 20081877
4.
Nguyễn Thị Minh Thùy – 20082598
5.
Phn Văn Ton – 20082711
10/23/14 1
School of Infomation & Communication Technology - Ha Noi University Of Technology
I. Giới thiệu

1.1. Vấn đ Spam Email.

1.2. Hc my.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 2
Tập d liệu
(Data set)
Tập th nghiệm
(Test set)
Tập học
(Training set)
Tập tối ưu
(Validation set)
Huấn luyện


hệ thống
Thử nghiệm
hệ thống đã học
Tối ưu hóa
các tham số
của hệ thống
I. Giới thiệu

1.3. Định lý Bayes.

P(h): Xc suất trước rằng gi thiết (phân lớp) h l đúng.

P(D): Xc suất trước rằng tập dữ liệu D được quan st(thu được).

P(D|h): Xc suất của việc quan st được(thu được) tập dữ liệu D, với điu kiện
gi thiết h l đúng.

P(h|D): Xc suất của gi thiết h l đúng, với điu kiện tập dữ liệu D được quan
st.

1.4. Khi niệm “Token”:
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 3
( | ). ( )
( | )
( )
P D h P h
P h D
P D
=
II. Phân loại Naïve Bayes


4.1. Tính xc suất spam của mỗi token phân tch.
o
Theo Paulgraham.
o
Số token tỉ lệ với số email.
o
Vậy ta có:
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
4
( , )
S
S N
s
N
p X w C spam
s n
N N
= = =
+
( , )
S
S N
s
T
p X w C spam
s n
T T
= = =

+
II. Phân loại Naïve Bayes

Khi số lần 1 token xuất hiện lớn hơn số token phân biệt?

Khi token chỉ xuất hiện ở một kho?
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
5
min(1, )
( , )
min(1, ) min(1, )
S
S N
s
T
p X w C spam
s n
T T
= = =
+
min(1, )
( , ) ax , ,
min(1, ) min(1, )
S
S N
s
T
p X w C spam m M min N
s n

T T
 
 
 ÷
 ÷
 ÷
 ÷
= = =
 ÷
 ÷
+
 ÷
 ÷
 
 
II. Phân loại Naïve Bayes

Cuối cùng p dụng công thức naïve bayes.

Vậy xc suất một từ spam tính theo công thức.
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
6
1
{ , }
1
( ). ( | )
( | )
( ). ( | )
n

i i
i
n
i i
k spam ham
i
P C spam P X x C c
P C spam X x
P C k P X x C k
=

=
= = =
= = =
= = =



r
r
1
{ , }
1
( ). ( | )
( | )
( ) ( | )
n
i i
i
n

i i
k spam non spam
i
P C c P X x C c
P C c X x
P C k P X x C c
=
∈ −
=
= = =
= = =
= = =



uur r
III. Các chỉ sô đánh giá hiệu quả phân loại mail.

3.1. Spam Recall v Spam Precision.

3.2. Tỉ lệ lỗi Error v Tỉ lệ chính xc Accuary.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 7
Re
S S
S S S N
n
n n

→ →
=

+
Pr
S S
S S N S
n
n n

→ →
=
+
N S S N
N S
n n
Err
N N
→ →
+
=
+
N N S S
N S
n n
Acc
N N
→ →
+
=
+
III. Các chỉ sô đánh giá hiệu quả phân loại mail.


3.3. Tỉ lệ lỗi gia trng Weighted Error v tỉ lệ chính xc gia trng Weighted Accurary.

Chn � ngưỡng phân loi email:
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 8
N N N N
N S
n n
WAcc
N N
λ
λ
→ →
+
=
+
N S S N
N S
n n
WErr
N N
λ
λ
→ →
+
=
+
III. Các chỉ sô đánh giá hiệu quả phân loại mail.

3.4.1. Tỉ số chi phí tổng hợp.


Tỉ lệ chính xc gia trng
trường hợp “ranh giới”.

Tỉ lệ lỗi gia trng trường
hợp “ranh giới”.

Tỉ số chí phí tổng hợp.
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 9
b
N
N S
N
WAcc
N N
λ
λ
=
+
b
S
N S
N
WErr
N N
λ
=
+
b
S
N S S N

N
WErr
TCR
WErr n n
λ
→ →
= =
+
IV. Th nghiệm

5.1. Tập dữ liệu.
o
Nhóm em dùng kho dữ liệu email chữ.
o
Tập huấn luyện:

922 email non-spam v 594 email spam.
o
Tỉ lệ: ≈ 0.64425.
o
Tập kiểm thử:

73 smail non-spam v 47 email spam.
o
Tỉ lệ: ≈ 0.64384.

5.2. Kết qu thực nghiệm.
o
Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi �
o

Qu trình thử nghiệm

Spam: cho ra 45 email cho ra l spam còn 2 email l non-spam.

Non-spam: cho ra 71 email non-spam v 1 email spam.

(
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
10
IV. Th nghiệm
o
Tính cc gi trị recall v precision
o
Re = = 95.7%
o
Pr = 97.8%
o
Tỉ lệ lỗi v tỉ lệ chính xc

Acc = = 97.5%

Err = = 2.5%
o
Tỉ lệ lỗi gia trng v tỉ lệ chính xc gia trng

Wacc = 97.5%

WErr = 2.5%


(
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
11
IV. Th nghiệm
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
12
V. Nhận xét
10/23/14
School of Infomation & Communication Technology - Ha Noi University Of Technology
13

Ưu điểm.

Nhược điểm.

Question/Answer.
Cám ơn vì đã lắng nghe
10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 14

×