slike thuyết trình báo cáo đề tài phân loại thư, lọc thư rác áp dụng giải thuật naive bayes.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.3 MB, 18 trang )

Bài tập lớn môn học:Xử lý ngôn ngữ tự nhiên
Đề tài: Phân loại thư, lọc thư rác áp dụng
giải thuật Naïve Bayes
Giảng viên hướng dẫn: PGS TS Lê Thanh Hương
Sinh viên thực hiện:
Đặng Văn Oai 20081948
Đào Văn Long 20081576
Đinh Văn Đức 20080723
Đào Quang Đức 20080720
Lã Hữu Thành 20082375
Lớp: Hệ thống thông tin K53
Nội dung

Bài toán phân loại văn bản, phân loại thư rác.

Phương pháp phân loại văn bản Naïve Bayes.

Cài đặt chương trình.
Bài toán phân loại văn bản

Cho một tập các lớp đã định nghĩa : C = {c1, c2, …, cn}

Tập văn bản đã được phân lớp: D = {d1, d2, …, dm}

Cho một văn bản mới, phải chỉ ra văn bản này thuộc
lớp nào ?
Bài toán phân loại thư rác

Là bài toán phân loại văn bản, trong đó có 2 lớp : Thư
hợp lệ và thư rác.


Tập tài liệu mẫu ban đầu là các thư đã được phân
thành thư hợp lệ và thư rác.

Văn bản cần phân lớp là email mới nhận được.
Một số phương pháp phân loại

Phương pháp SVM.

Phương pháp k-NN.

Phương pháp Naïve Bayes.
Phương pháp Naïve Bayes

Cơ sở lý thuyết.

Thuật toán phân loại Naïve Bayes.

Áp dụng vào phân loại thư điện tử.
Cơ sở lý thuyết

Dựa trên định lý Bayes về xác suất có điều kiện:

Hay
Thuật toán phân loại Naïve Bayes

Coi các từ xuất hiện trong một văn bản là độc lập thống
kê.

Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp
văn bản ci.

Thuật toán phân loại Naïve Bayes

Tài liệu d sẽ được gán cho lớp văn bản nào có xác suất
hậu nghiệm cao nhất.

C* là lớp của văn bản d :
Thuật toán phân loại Naïve Bayes

Vì xác suất của mỗi từ trong tài liệu là độc lập với ngữ cảnh
xuất hiện của từ và độc lập với vị trí của từ trong tài liệu
nên :

Trong đó : P(wj | ci) là xác suất xuất hiện của từ wj
trong lớp ci.
Phân loại thư điện tử

Nội dung của thư gửi đến là content.

Lớp thư rác ký hiệu là spam.

Lớp thư hợp lệ ký hiệu là ham.

Ta cần tính P(spam | content) là xác suất thư điện tử
là thư rác.

w1, w2,…, wn là các từ đặc trưng xuất hiện trong nội
dung thư.
Phân loại thư điện tử

Xác suất thư này là thư rác được tính như sau:

•
P(spam) = (tổng số thư rác)/(tổng số thư)
•
P(ham) = (tổng số thư hợp lệ)/(tổng số thư)
•
P(content|spam)=P(w1|spam)*P(w2|spam)*…*P(wn|
spam)
•
P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn|ham)
Phân loại thư điện tử

Nếu P(spam | content) lớn hơn ngưỡng t nào đó thì
kết luận thư này là thư rác.

Ngược lại, là thư hợp lệ.
Cài đặt chương trình

Tất cả thư hợp lệ được lưu trong file HamMail.txt.

Tất cả thư rác được lưu trong file SpamMail.txt.

File learn.txt lưu danh sách các từ và số lần xuất hiện
từ đó trong lớp thư hợp lệ và thư rác,phục vụ cho
việc phân loại.
Cài đặt chương trình
Cài đặt chương trình
Cài đặt chương trình
Kết luận

Kết quả đạt được:


Cài đặt được hương trình gửi và nhận thư điện tử.

Thực hiện được chức năng lọc thư rác tự động.

Hạn chế:

Chỉ xử lý được những email định dạng text thông thường.

Việc lọc thư rác mới chỉ dựa trên nội dung của thư, chưa kết hợp
được lọc thư qua địa chỉ người gửi và tiêu đề thư.

slike thuyết trình báo cáo đề tài phân loại thư, lọc thư rác áp dụng giải thuật naive bayes.

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về