Tải bản đầy đủ (.pptx) (18 trang)

slike thuyết trình báo cáo đề tài phân loại thư, lọc thư rác áp dụng giải thuật naive bayes.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.3 MB, 18 trang )

Bài tập lớn môn học:Xử lý ngôn ngữ tự nhiên
Đề tài: Phân loại thư, lọc thư rác áp dụng
giải thuật Naïve Bayes
Giảng viên hướng dẫn: PGS TS Lê Thanh Hương
Sinh viên thực hiện:
Đặng Văn Oai 20081948
Đào Văn Long 20081576
Đinh Văn Đức 20080723
Đào Quang Đức 20080720
Lã Hữu Thành 20082375
Lớp: Hệ thống thông tin K53
Nội dung

Bài toán phân loại văn bản, phân loại thư rác.

Phương pháp phân loại văn bản Naïve Bayes.

Cài đặt chương trình.
Bài toán phân loại văn bản

Cho một tập các lớp đã định nghĩa : C = {c1, c2, …, cn}

Tập văn bản đã được phân lớp: D = {d1, d2, …, dm}

Cho một văn bản mới, phải chỉ ra văn bản này thuộc
lớp nào ?
Bài toán phân loại thư rác

Là bài toán phân loại văn bản, trong đó có 2 lớp : Thư
hợp lệ và thư rác.


Tập tài liệu mẫu ban đầu là các thư đã được phân
thành thư hợp lệ và thư rác.

Văn bản cần phân lớp là email mới nhận được.
Một số phương pháp phân loại

Phương pháp SVM.

Phương pháp k-NN.

Phương pháp Naïve Bayes.
Phương pháp Naïve Bayes

Cơ sở lý thuyết.

Thuật toán phân loại Naïve Bayes.

Áp dụng vào phân loại thư điện tử.
Cơ sở lý thuyết

Dựa trên định lý Bayes về xác suất có điều kiện:

Hay
Thuật toán phân loại Naïve Bayes

Coi các từ xuất hiện trong một văn bản là độc lập thống
kê.

Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp
văn bản ci.

Thuật toán phân loại Naïve Bayes

Tài liệu d sẽ được gán cho lớp văn bản nào có xác suất
hậu nghiệm cao nhất.

C* là lớp của văn bản d :
Thuật toán phân loại Naïve Bayes

Vì xác suất của mỗi từ trong tài liệu là độc lập với ngữ cảnh
xuất hiện của từ và độc lập với vị trí của từ trong tài liệu
nên :

Trong đó : P(wj | ci) là xác suất xuất hiện của từ wj
trong lớp ci.
Phân loại thư điện tử

Nội dung của thư gửi đến là content.

Lớp thư rác ký hiệu là spam.

Lớp thư hợp lệ ký hiệu là ham.

Ta cần tính P(spam | content) là xác suất thư điện tử
là thư rác.

w1, w2,…, wn là các từ đặc trưng xuất hiện trong nội
dung thư.
Phân loại thư điện tử

Xác suất thư này là thư rác được tính như sau:


P(spam) = (tổng số thư rác)/(tổng số thư)

P(ham) = (tổng số thư hợp lệ)/(tổng số thư)

P(content|spam)=P(w1|spam)*P(w2|spam)*…*P(wn|
spam)

P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn|ham)
Phân loại thư điện tử

Nếu P(spam | content) lớn hơn ngưỡng t nào đó thì
kết luận thư này là thư rác.

Ngược lại, là thư hợp lệ.
Cài đặt chương trình

Tất cả thư hợp lệ được lưu trong file HamMail.txt.

Tất cả thư rác được lưu trong file SpamMail.txt.

File learn.txt lưu danh sách các từ và số lần xuất hiện
từ đó trong lớp thư hợp lệ và thư rác,phục vụ cho
việc phân loại.
Cài đặt chương trình
Cài đặt chương trình
Cài đặt chương trình
Kết luận

Kết quả đạt được:


Cài đặt được hương trình gửi và nhận thư điện tử.

Thực hiện được chức năng lọc thư rác tự động.

Hạn chế:

Chỉ xử lý được những email định dạng text thông thường.

Việc lọc thư rác mới chỉ dựa trên nội dung của thư, chưa kết hợp
được lọc thư qua địa chỉ người gửi và tiêu đề thư.

×