Tải bản đầy đủ (.ppt) (16 trang)

slike thuyết trình báo cáo đề tài xây dựng chương trình lọc thư rác sử dụng phương pháp naïve bayes

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (127.66 KB, 16 trang )

Bài tập lớn môn Xử lý ngôn ngữ tự nhiên
Đề tài 2 : Phân loại thư rác
Nhóm : Đặng Văn Hùng
Nguyễn Bích Ngọc
Trịnh Thị Lan Phượng
Voin Sophat
Mục lục
I. Đặt vấn đề
II. Cách tiếp cận giải quyết vấn đề
III. Cài đặt
IV. Thử nghiệm và đánh giá hệ thống
I. Đặt vấn đề

Là bước xử lý quan trọng đối với các hệ
thống XLNNTN,đặc biệt là đối với việc
nhận thư .

Phần lớn thư rác là những thư không đạt
yêu cầu,không mong muốn và được gửi
hàng loạt tới nhiều người nhận.

Mục đích: Lọc thư để phân loại và loại bỏ
các thư rác cho người nhận.
II. Cách tiếp cận giải quyết vấn đề

Bài toán phân loại thư rác có các biện pháp chính như sau :
· Sử dụng DNS Blacklistb
· Sử dụng SURBL List
· Chặn IP.
. Kiểm tra địa chỉ
. Sử dụng bộ lọc Bayesian


. Sử dụng danh sách Black/White list
. Sử dụng Challenge/Response
. Kiểm tra header
. Report Spam Email.

Các phương pháp được sử dụng trong bài toán phân loại thư
·Giải thuật Naïve Bayes phân loại thư rác.
. Loại bỏ các từ StopWord.
Các bước thực hiện

Xây dựng bộ từ vựng

Quá trình tiền xử lý loại bỏ
stopword,khoảng trắng,tiêu đề…

Quá trình học.

Quá trình test.

Kết quả và đánh giá.
III. Cài đặt

Dữ liệu : các file dữ liệu ở định dạng .eml

Ngôn ngữ : C#
Quá trình tiền xử lý
o
Với mỗi email đầu vào có định dạng .eml sẽ trải qua bước tiền xử lý
để loại bỏ các từ Stopword ,khoảng trắng,tiêu đề lấy nội dung
email làm đầu vào cho hệ thống học và test.

o
Việc loại bỏ stopword bằng cách so khớp hai xâu đầu vào với xâu
mẫu trong bộ từ điển.lấy ra các từ có nghĩa trong nội dung thư.
Giải thuật Naïve Bayes

Định lý bayes và giải thuật Naïve Bayes

P(h/D)=P(D/h).P(h)/P(D)

Trong đó:

P(h) : Xác xuất trước rằng giả thiết h là đúng

P(D) : Xác suất trước rằng tập dữ liệu D được
quan sát.

P(D|h) : Xác suất việc quan sát được tập dữ liệu
D, với điều kiện giả thiết h đúng
Giải thuật Naïve Bayes

Một bài toán phân loại có thể biểu diễn gồm có:

Một tập học D_train trong đó mỗi ví dụ học x
được biểu diễn bằng 1 vector n chiều: (x
1,
. ,x
n
)

Một tập nhãn xác định các lớp : C = {c

0
,c
1
}

Một ví dụ mới z sẽ được phân loại vào lớp nào.

Để xác định được phân lớp có thể phù hợp nhất
đối với ví dụ z, ta xác định bởi

ArgmaxP(z1,z2,…zn|ci).P(ci).
Quá trình phân loại thư

Sau khi mail được đưa qua quá trình tiền xử lý.Các
email sẽ được biểu diễn là tập các từ gốc.

Tính xác suất : Xác suất của thư rác và thư thường

So sánh 2 giá trị này ta có được kết luận:

Nếu P0>P1 thì đây là thư rác và ngược lại
IV. Thử nghiệm và đánh giá hệ thống

Qua thử nghiệm việc phân loại từng email,kết quả
chương trình là chính xác với dữ liệu mà ta sử dụng.

Đánh giá hiệu suất nhận dạng và phân loại thư
Thử nghiệm
Đánh giá


Kết quả thu được của chương trình là khá
chính xác.

Độ chính xác của hệ thống phụ thuộc
nhiều vào số lượng thư và giải thuật học.
Đề xuất

Cải tiến bộ dữ liệu mẫu và cách thức thu
thập tốt hơn.

Giải quyết một số nhập nhằng trong việc
loại bỏ stopword.
Tài liệu tham khảo

Slide bài giảng môn xử lý ngôn ngữ tự
nhiên ( cô Lê Thanh Hương ).

(
Trang web của Lê Hồng Phương).

Các khái niệm tham khảo :
www.wikipedia.org

Và một số tài liệu khác từ internet.
Thank you

×