Tải bản đầy đủ (.pptx) (9 trang)

Thống kê số lần xuất hiện của từ khóa trong văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (315.52 KB, 9 trang )

Thống kê số lần
xuất hiện của từ
khóa trong văn
bản
GV: PGS.TS Trịnh Nhật Tiến
HV: Lê Xuân Thành
Mã HV: 13025180
Mật mã và An toàn dữ liệu - 5/2014
Đại học Công Nghệ - ĐH QGHN
Nội dung
1. Lọc và thống kê thông tin và hệ thống lọc và
thống kê thông tin
2. Lọc và thống kê thông tin theo từ khóa
3. Thuật toán Bayesian và ứng dụng trong lọc spam
mail
4. Chương trình

Trước khi Internet ra đời, đã có một số phương
pháp lọc thông tin

Với sự ra đời của Internet, bất kể ai cũng có
thể cung cấp thông tin nhanh với chi phí thấp.

Với sự ra đời và tăng nhanh của thông tin dạng
điện tử, thì vấn đề về lọc thông tin một cách tự
động trở nên quan trọng

Lọc thông tin là lĩnh vực nghiên cứu các quá
trình cung cấp thông tin thích hợp, ngăn ngừa
và loại bỏ thông tin không thích hợp cho người
sử dụng


Lọc và thống kê thông tin và hệ thống
lọc thông tin
Lọc và thống kê thông tin theo từ khóa

Từ khóa là một chuỗi các ký tự (như một từ,
một cụm từ hoặc từ viết tắt). Lọc thông tin theo
từ khóa cho phép bạn ngăn chặn những trang
web, những email, … có nội dung không phù
hợp

Nhược điểm: chỉ kiểm tra nội dung dạng văn
bản, không thực hiện kiểm tra đối với các hình
ảnh
Thuật toán Bayes và ứng dụng
lọc spam mail

Bộ lọc Bayesian hoạt động dựa trên định lý
Bayes để tính toán xác suất xảy ra một sự kiện
dựa vào những sự kiện xảy ra trước đó

Trước khi có thể lọc email bằng bộ lọc
Bayesian, người dùng cần tạo ra cơ sở dữ liệu
từ khóa và dấu hiệu .

Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá
trị xác suất xuất hiện, giá trị này dựa trên việc
tính toán có bao nhiêu từ thường hay sử dụng
trong spam, mà trong các email hợp lệ thường
không sử dụng
Công thức tính xác suất của giải

thuật Bayes

Xác suất để một tài liệu di thuộc vào lớp văn
bản ck
)(
)|(*)(
)|(
i
kik
ik
dP
cdPcP
dcP
=
Công thức tính xác suất của giải
thuật Bayes

Ý tưởng dựa trên xác suất xuất hiện của một
từ hay cụm từ trên một lớp mail.

Xác suất một email là thư rác:
Trong đó :

- c1 là lớp thư rác, c2 là lớp thư hợp lệ

- x là một email bất kì
)(*)|()(*)|(
)(*)|(
)|(
2211

11
1
cPcxPcPcxP
cPcxP
xcP
+
=
Biểu diễn từ khóa(đặc trưng)
sender
subject
content
content
Đếm và loại
spamword
Loại
stopword
Tách từ
đơn
Tập từ khóa
(đặc trưng)
Tập spamword
DEMO

×