Phân loại thư rác bằng phương pháp học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 67 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------o0o-------

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƢ RÁC
BẰNG PHƢƠNG PHÁP HỌC MÁY

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, 2015

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------o0o-------

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƢ RÁC
BẰNG PHƢƠNG PHÁP HỌC MÁY
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS. TS ĐỖ TRUNG TUẤN

Thái nguyên, 2015

ii
MỤC LỤC
MỤC LỤC ....................................................................................................................... ii
LỜI CAM KẾT .............................................................................................................. iv
LỜI CẢM ƠN ................................................................................................................. v
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... vi
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU .................................................................. vii
MỞ ĐẦU ....................................................................................................................... vii
CHƢƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƢ RÁC ........................................ 3
1.1. Tổng qu n về họ m y ......................................................................................... 3
1.1.1 Tr tuệ nh n tạo .............................................................................................. 3
1.1.2. Học máy ........................................................................................................ 4
1.1.3. C

kĩ thuật học máy ..................................................................................... 5

1.1.4. Một số ứng dụng của học máy ...................................................................... 7
1.1.5. Học có giám sát ............................................................................................. 7
1.2. Tổng quan về thƣ r .......................................................................................... 12
1.2.1. Định nghĩ về thƣ r

và

đặ trƣng ủ thƣ r .................................... 12

1.2.2. Phân loại thƣ r .......................................................................................... 15
1.2.3. Đặ điểm thƣ r
1.2.4. Tác hại củ thƣ r

......................................................................................... 15
...................................................................................... 16

1.2.5. Quy trình và thủ đoạn gửi thƣ r
1.3. Biểu diễn phân loại thƣ r

............................................................ 17

dựa trên học máy có giám sát ................................ 20

1.3.1. Nhu cầu phân loại thƣ r

........................................................................... 20

1.3.2. Cách biểu diễn nội dung thƣ r

................................................................. 23

1.4. Kết luận hƣơng ................................................................................................. 27
CHƢƠNG 2. PHÂN LOẠI THƢ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC
MÁY CÓ GIÁM SÁT ................................................................................................... 28
2.1. Thuật toán Naïve Bayes ..................................................................................... 28
2.1.1.Giới thiệu Thuật toán Naïve Bayes .............................................................. 28
2.1.2. Mô tả thuật toán .......................................................................................... 28
2.1.3. Áp dụng trong phân loại thƣ r

................................................................. 33

iii
2.2. Họ m y theo phƣơng ph p m y ve tơ tựa SVM ............................................. 36
2.2.1. Giới thiệu SVM ........................................................................................... 36
2.2.2. Mô tả thuật toán .......................................................................................... 37
2.2.2. Huấn luyện SVM......................................................................................... 40
2.2.3. Ứng dụng trong phân loại thƣ rác ............................................................... 40
2.3. Xây dựng mô hình lọ thƣ r

dựa trên học máy có giám sát ........................... 41

2.3.1. Lựa chọn mô hình và thuật toán .................................................................. 41
2.3.2. Xây dựng hệ thống ...................................................................................... 41
2.4. Kết luận hƣơng ................................................................................................. 46
CHƢƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƢ RÁC..................... 47
3.1. Bài toán phân loại thƣ r

.................................................................................. 47

3.2. Cài đặt thử nghiệm và kết quả............................................................................ 50
3.2.1. Bộ dữ liệu thử nghiệm................................................................................. 50
3.2.2. Môi trƣờng ài đặt ....................................................................................... 52
3.2.3. Giao diện củ

hƣơng trình thử nghiệm...................................................... 52

3.2.4. Kết quả thử nghiệm ..................................................................................... 54
3.3. Đ nh gi thử nghiệm .......................................................................................... 55
3.4. Kết luận hƣơng ................................................................................................. 56
KẾT LUẬN ................................................................................................................... 57
Các kết quả đạt đƣợc ............................................................................................. 57

Hƣớng phát triển luận văn ..................................................................................... 57
DANH MỤC TÀI LIỆU THAM KHẢO ...................................................................... 58

iv

LỜI CAM KẾT

Dƣới sự giúp đỡ nhiệt tình và chỉ bảo chi tiết củ gi o viên hƣớng dẫn, tôi đã
hoàn thành luận văn ủa mình. Tôi xin cam kết luận văn này là ủa bản thân tôi làm
và nghiên cứu, không hề trùng hay sao chép của bất kỳ ai.
Tài liệu đƣợc sử dụng trong luận văn đƣợc thu thập từ các nguồn kiến
thức hợp pháp.
Tác giả luận văn

Phạm Thị Kim Dung

v
LỜI CẢM ƠN
Để hoàn thành hƣơng trình

o học và viết luận văn này, em đã nhận đƣợc

sự giúp đỡ và đóng góp nhiệt tình của các thầy ô trƣờng Đại học Công nghệ thông
tin và Truyền thông, Đại học Thái Nguyên.
Trƣớc hết, em xin chân thành cảm ơn

thầy ô trong kho Đào tạo s u đại

họ , đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong suốt
những năm học qua.
Xin chân thành cảm ơn gi đình, bạn bè đã nhiệt tình ủng hộ, giúp đỡ, động
viên cả về vật chất lẫn tinh thần trong thời gian học tập và nghiên cứu.
Trong quá trình thực hiện luận văn, mặ dù đã rất cố gắng nhƣng ũng không
tránh khỏi những thiếu sót. Kính mong nhận đƣợc sự cảm thông và tận tình chỉ bảo
của các thầy cô và các bạn.

vi
DANH MỤC CÁC TỪ VIẾT TẮT
AI

Trí tuệ nhân tạo

Clustering

Phân cụm

Computer Vision

Nhìn máy

ESP

Email Service Provider

HAM

Thƣ điện tử không là thứ rác

ISP

Internet Service Provider, nhà cung cấp dịch vụ Internet

KNN

K ngƣời láng giềng gần nhất

MI

Mutual inform tion, thông tin tƣơng hỗ

NB

Phƣơng ph p Naïve Bayes

Regression

Hồi qui

Search Engine

Máy tìm kiếm

Server

Máy chủ, phía máy chủ

SMO

Sequential Minimal Optimization

SMS

Short Message Service

Spam Email

Thƣ r

SQL

Structured Query Language

Stemming

Gốc (của từ)

SVM

Support Ve tor M hine, m y ve tơ tựa

TTNT

Trí tuệ nhân tạo

UBE

Unsolicited Bulk Em il, thƣ không lành mạnh

UCE

Unsoli ited Commer i l Em il, thƣ không yêu ầu đến

VC

K h thƣớc Vapnik- Chervonenkis

XML

eXtensible Markup Language

vii
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
HÌNH
Hình 1.1:

Cấu trúc một hệ thống học máy tiêu biểu ho trƣờng hợp phân loại ...... 6

Hình 1.2.

Mô hình thuật toán học có giám sát......................................................... 8

Hình 1.3.

Ví dụ về trang web lấy cắp địa chỉ thƣ ủ ngƣời dùng ........................ 17

Hình 1.4.

Một số website của các công ty gửi thƣ r

Hình 1.5.

Minh họa cách gửi thƣ r

Hình 1.6.

Số lƣợng thƣ r

Hình 1.7.

Danh sách các quố

......................................... 18

qu m y hủ thƣ (open rel y) ..................... 19

từ th ng 4 đến th ng 9 năm 2014 .............................. 21
gi

ph t t n thƣ r

trong qu 3/2014

ủa

Kaspersky Lab ....................................................................................... 23
Hình 2.1.

Ánh xạ dữ liệu từ không gian gố s ng không gi n đặ trƣng ho phép
phân chia dữ liệu bởi siêu phẳng ........................................................... 38

Hình 2.2.

Siêu phẳng với lề cự đại cho phép phân chia các hình vuông khỏi các
hình tròn trong không gi n đặ trƣng .................................................... 38

Hình 2.3.

Tiền xử lý dữ liệu .................................................................................. 42

Hình 2.4.

Huấn luyện dữ liệu ................................................................................ 46

Hình 3.1:

Mô hình phân loại thƣ r

Hình 3.2.

Tập các File trong HAM........................................................................ 51

Hình 3.3.

Tập các File trong SPAM ...................................................................... 51

Hình 3.4.

Giao diện hƣơng trình h nh ph n loại thƣ r

Hình 3.5.

Giao diện xử lý dữ liệu bƣớc huấn luyện .............................................. 53

Hình 3.6.

Giao diện kết quả của thử nghiệm ......................................................... 53

Hình 3.7.

Độ chính xác phân loại của NB và SVM .............................................. 54

bằng 2 thuật toán Bayse và SVM ............... 48

bằng Bayes và SVM .. 52

BẢNG
Bảng 1.1. Ví dụ nội dung của bốn thƣ ...................................................................... 24
Bảng 1.2. Biểu diễn ve tơ ho dữ liệu trong bảng 1.1 ............................................ 24
Bảng 2.1: Bộ dữ liệu huấn luyện cho bài toán phân loại “Chơi Tennis” ................. 31
Bảng 3.1: Độ chính xác phân loại h i phƣơng ph p ph n loại khác nhau ............... 54

1

MỞ ĐẦU
Ngày nay, Internet mở ra nhiều kênh liên lạc, nhiều dịch vụ mới ho ngƣời

sử dụng, một trong những dịch vụ mà Internet mang lại là dịch vụ thƣ điện tử
(Em il), đó là phƣơng tiện giao tiếp rất đơn giản, tiện lợi và hiệu quả đối với cộng
đồng ngƣời sử dụng dịch vụ này. Chính vì những lợi ích do thƣ mang lại nên số
lƣợng thƣ tr o đổi trên Internet ngày àng tăng, và một số không nhỏ trong đó là thƣ
rác (Spam).
Trong những năm gần đ y, sp m h y
một vấn nạn và đe dọa khả năng gi o tiếp củ

thƣ không mong muốn đã trở thành
on ngƣời trên kênh liên lạ này, đó

là một trong những thách thức lớn mà khách hàng và các nhà cung cấp dịch vụ phải
đối phó. Sp m đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus,
ăn ắp thông tin với nhiều thủ đoạn và mánh khóe cực kỳ tinh vi. Ngƣời dùng sẽ
phải mất khá nhiều thời gi n để xóa những thƣ “không mời mà đến”, nếu vô ý còn
có thể bị nhiễm virus và nặng nề hơn là mất thông tin nhƣ thẻ tín dụng, tài khoản
ngân hàng qua các thƣ dạng phishing....
Theo b o

o tình hình thƣ r

do K spersky L b vừa công bố, tỷ lệ thƣ r

trong lƣu lƣợng truy cập thƣ củ qu 3/2014 tăng 1,7
bình 66,9%. Ba nguồn phát t n thƣ r

so với qu trƣớ , đạt trung

hàng đầu gồm có Mỹ (14 ) và Ng (6,1 )

và Việt N m đứng vị trí thứ 3 với 6%.
Để ngăn hặn spam, nhiều tổ chứ ,

nh n đã nghiên ứu và phát triển

những kỹ thuật phân loại thƣ thành các nhóm; từ đó x

định, nhận biết giữ thƣ r

và thƣ ó giá trị. Tuy nhiên, những ngƣời tạo nên thƣ r

luôn tìm mọi

h vƣợt

qua các bộ phân loại này và phát tán chúng. Vì vậy, cần có một hệ thống phân loại
đ u là sp m m il và đ u là m il tốt. Xuất phát từ thực trạng đó, tôi họn hƣớng
nghiên cứu “Phân loại thƣ rác bằng phƣơng pháp học máy” với mụ đ h tìm
hiểu, thử nghiệm một số phƣơng ph p tiếp cận cho bài toán phân loại thƣ, từ đó
ngăn hặn thƣ spam hiệu quả hơn.
Nội dung của luận văn đƣợ trình bày theo 3 hƣơng. Tổ chức cấu trú nhƣ s u:

2
1. Chƣơng 1 Tổng quan về họ m y và thƣ r : Chƣơng này giới thiệu
tổng quát về họ m y và thƣ r

b o gồm khái niệm, ứng dụng và

phần trình bày chi tiết về học máy có giám sát, các kỹ thuật của học

máy có giám sát dùng cho phân loại nhƣ N ïve B yes, SVM,
quyết định,… Chƣơng ũng giới thiệu khái quát về thƣ r ,
trƣng ủ thƣ r

và biểu diễn thƣ r

2. Chƣơng 2 Ph n loại thƣ r

y
đặc

dựa trên học máy có giám sát;

bằng một số thuật toán có giám sát: Nội

dung h nh trong hƣơng này là đi s u nghiên ứu hai thuật toán học
m y ó gi m s t là N ïve B yes và phƣơng ph p SVM (Support
Vector Machine).
3. Chƣơng 3 Cài đặt, thử nghiệm và đ nh gi thuật toán: Phần đầu
hƣơng giới thiệu toán phân loại thƣ r , bộ dữ liệu thử nghiệm và cài
đặt chi tiết hai thuật to n đề cập ở hƣơng 2. Phần cuối củ

hƣơng

trình bày kết quả thu đƣợ và đƣ r đ nh gi về hai thuật to n đƣợc
sử dụng trong bài toán lọ thƣ r .
Cuối luận văn là phần kết luận và danh sách các tài liệu tham khảo. Phần
thực nghiệm về phân loại thƣ r

đƣợc trình bày thêm trong phần phụ lục luận văn.

3
CHƢƠNG 1
TỔNG QUAN VỀ HỌC MÁY VÀ THƢ RÁC
n qu n v
r tu n

m

nt o

Trƣớ đ y, mỗi khi nói đến Trí tuệ nhân tạo (TTNT) ngƣời t thƣờng quan
t m đến việc tạo lập các máy tính có khả năng “suy nghĩ”, thậm chí trong một số
phạm vi hẹp nào đó, ó thể cạnh tranh hoặ vƣợt quá khả năng ủa bộ não con
ngƣời. Những hy vọng này trong một thời gi n dài đã ảnh hƣởng rất nhiều đến các
nghiên cứu trong phòng thí nghiệm. Mặc dù những mô hình tƣơng tự các máy tính
thông minh đã đƣợ đƣ r hàng nhiều năm trƣớ , nhƣng hỉ từ khi Alan Turing
công bố những kết quả nghiên cứu quan trọng đầu tiên, ngƣời ta mới bắt đầu thực
sự nghiên cứu đến các vấn đề TTNT một cách nghiêm túc. Phát hiện của Turing cho
rằng hƣơng trình ó thể đƣợ lƣu trữ trong bộ nhớ để s u đó đƣợc thực hiện trên ơ
sở

phép to n ơ bản thao tác với

bit 0, 1. Điều này đã tạo nên nền tảng của

những máy tính hiện đại. Việ lƣu trữ hƣơng trình trong m y ho phép th y đổi
chứ năng ủa nó một cách nhanh chóng và dễ dàng thông qua việc nạp một hƣơng
trình mới vào bộ nhớ. Theo một nghĩ nào đó, khả năng này làm ho m y t nh ó

khả năng họ và suy nghĩ. Đó ũng h nh là một trong những biểu hiện quan trọng
đầu tiên của những m y t nh đƣợc trang bị TTNT.
Trí tuệ nhân tạo (AI) là lĩnh vực khoa học chuyên nghiên cứu

phƣơng

pháp chế tạo trí tuệ máy sao cho giống nhƣ tr tuệ on ngƣời. [4]
Vài định nghĩ

ủa trí tuệ nhân tạo điển hình là:

 Hệ thống mà biết suy nghĩ nhƣ on ngƣời
 Hệ thống mà biết hành động nhƣ on ngƣời
Để hệ thống mà biết suy nghĩ và hành động nhƣ on ngƣời thì hệ thống đó
phải đƣợc trang bị các công cụ nhƣ th nh gi , tri thức, lý giải tự động, việc học, thị
giác và di chuyển giống nhƣ on ngƣời. Thông thƣờng, cách giải quyết vấn đề của
con ngƣời đƣợc thể hiện qua bốn th o t

ơ bản đó là:

4
1. X

định tập hợp củ

đ h

2. Thu thập các sự kiện và luật suy diễn
3. Cơ hế tập trung

4. Bộ máy suy diễn
Nhƣ vậy, trí tuệ máy là các khả năng giải quyết vấn đề của máy, cần thỏa mãn:
1. Hành động giống nhƣ on ngƣời.
2. Suy nghĩ giống nhƣ on ngƣời.
3. Học giống nhƣ on ngƣời.
4. Xử lý thông tin giống nhƣ on ngƣời.
5. Hành động và suy nghĩ trên ơ sở logic và chính xác.
Ứng dụng của trí tuệ nhân tạo có trong nhiều ngành kinh tế :
1. Điều khiển học, Robotic, giao diện ngƣời máy thông minh
2. Trò hơi m y t nh
3. Thiết bị điện tử thông minh nhờ sử dụng lôgic mờ
4. Hệ chuyên gia trong: giáo dụ , y kho , địa chất, quản lý, ...
5. Xử lý ngôn ngữ tự nhiên
6. Nhận dạng hình ảnh, âm thanh
7. Các hệ thống xử lý tri thức và dữ liệu tích hợp: cho phép xử l đồng
thời tri thức và dữ liệu ( ơ sở dữ liệu suy diễn, biểu diễn luật đối
tƣợng, hệ hỗ trợ quyết định)
8. Mô hình hóa các giải pháp bài toán
1.1 2 H

m

Con ngƣời ó nhiều
qu n s t và thăm dò, họ
ủ hệ thần kinh sinh họ

h họ nhƣ họ k ứ , họ

sự kiện,.. thông qu sự

ải thiện kỹ xảo thông qu thự tiễn, họ qu sự ph t triển
on ngƣời, hoặ họ qu gen di truyền từ

thế hệ trƣớ .

5
Dù với

h họ nào đi nữ , mụ tiêu ủ việ họ

h nh là thu thập tri thứ mới, s u

đó xử l tri thứ này s o ho th h nghi đƣợ với

tình huống, sự kiện mới. Giống

h họ

với

ủ đó, on ngƣời ũng muốn x y dựng

hƣơng trình họ

ho m y

t nh s o ho m y ó khả năng thu thập tri thứ mới, từ đó xử l tri thứ để th h nghi
đƣợ với

tình huống ụ thể. Đó là l do tại s o kỹ thuật họ m y đ ng àng ngày

àng trở thành mối qu n t m lớn ủ ngành kho họ m y t nh hiện nay.
Họ m y là một lĩnh vực củ tr tuệ nh n tạo liên qu n đến việc phát triển
kĩ thuật cho phép các máy tính có thể "họ . Họ m y đƣợ xem là phƣơng
ph p tạo r

hƣơng trình m y t nh sử dụng kinh nghiệm, qu n s t hoặ dữ liệu

trong qu khứ để ải thiện ông việ
ó thể họ

ủ mình trong tƣơng l i. Chẳng hạn, m y t nh

h dự đo n dựa trên các mẫu, các ví dụ, hay học cách tạo ra các hành

vi phù hợp dựa trên quan sát trong quá khứ. Xét một ví dụ là họ
Chƣơng trình ó thể qu n s t

h đ nh ờ.

v n ờ nhằm ải thiện khả năng hơi ờ với mụ

đ h tăng số v n thắng trong tƣơng l i. Trong trƣờng hợp này, kinh nghiệm đƣợ sử
dụng để “họ ”

h làm tốt hơn trong ông việ

hơi ờ với tiêu h đ nh gi là số

v n thắng.
3 C

kĩ t uật

m

Việ sử dụng những dạng kinh nghiệm và dạng biểu diễn kh
tới những kĩ thuật họ m y kh

nh u sẽ dẫn

nh u. Tuy nhiên hủ yếu, họ m y đƣợ ph n

thành 3 loại h nh:
s t
Với

h họ này, kinh nghiệm đƣợ

đầu vào và đầu r

ho một

ủ hàm đ h, v dụ ho trƣớ tập

h tƣờng minh dƣới dạng
mẫu ùng nhãn ph n loại

tƣơng ứng.

Họ
họ

ó gi m s t b o gồm ph n loại và hồi quy; trong đó ph n loại là dạng

ó gi m s t với hàm đ h nhận gi trị rời rạ và hồi quy là họ

ó gi m s t với

hàm đ h nhận gi trị liên tụ . Sơ đồ một hệ thống họ m y điển hình trong trƣờng
hợp họ

ó gi m s t (ph n loại) đƣợ thể hiện nhƣ trên hình sau.

6
Thí dụ mới
(chưa gán
nhãn)

Các thí dụ
huấn luyện
(có nhãn)

Hàm đích

Các thu t
toán học máy

Nhãn phân

loại

Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trƣờng hợp phân loại
s t

1.1.3.2.
Ngƣợ với họ
hỉ gồm

ó gi m s t, họ không gi m s t là

h họ mà kinh nghiệm

mẫu và không ó nhãn hoặ gi trị hàm đ h đi kèm. V dụ hỉ bằng

qu n s t thông thƣờng về

n nặng ủ mọi ngƣời, dần dần t họ đƣợ kh i niệm

“ngƣời béo”, “ngƣời bình thƣờng” và “ngƣời gầy”.
H i dạng họ không gi m s t phổ biến nhất là ph n ụm và họ luật kết hợp.
Trong trƣờng hợp ph n ụm,

đối tƣợng đƣợ ph n hi thành một số nhóm s o

ho mỗi nhóm gồm những đối tƣợng giống nh u và kh
Họ luật kết hợp là

đối tƣợng ở nhóm kh .

h ph t hiện những đối tƣợng hoặ gi trị thuộ t nh thƣờng

xuất hiện ùng nh u, v dụ những mặt hàng thƣờng xuyên đƣợ mu

ùng nh u

(b nh mì và sữ ).
1.1.3.3. H c nửa giám sát
Học nửa giám sát là việc học có kết hợp các ví dụ có gắn nhãn và không gắn
nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
t

1.1.3.4

Đối với dạng họ này, kinh nghiệm không đƣợ

ho trự tiếp dƣới dạng đầu

vào/ đầu r . Th y vào đó, hệ thống nhận đƣợ một gi trị tăng ƣờng là kết quả ho
một huỗi hành động nào đó. Thuật to n ần họ

h hành động để ự đại hó gi

trị tăng ƣờng. V dụ ủ họ tăng ƣờng là họ đ nh ờ, trong đó hệ thống không
đƣợ

hỉ dẫn nƣớ đi nào là hợp l

ờ. Nhƣ vậy,

ho từng tình huống mà hỉ biết kết quả toàn v n

hỉ dẫn về nƣớ đi đƣợ họ một

dạng gi trị thƣởng.

h gi n tiếp và ó độ trễ dƣới

7
1.1 4 Một số ứn dụn

ủ

m

Học máy có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt
những ngành cần phân tích khối lƣợng dữ liệu khổng lồ. Cụ thể một số ứng dụng
thƣờng thấy nhƣ:
1. Xử lý ngôn ngữ tự nhiên: xử l văn bản, giao tiếp ngƣời – m y, …
2. Nhận dạng : nhận dạng tiếng nói, chữ viết tay, vân tay, thị gi

m y () …

3. Tìm kiếm
4. Chẩn đo n trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn
đo n tự động.
5. Lọ thƣ r , ph n loại văn bản: Là dự trên nội dung thƣ điện tử, hi
thƣ thành loại “thƣ r

(thƣ không ó gi trị)” h y “thƣ bình thƣờng

(thƣ ó gi trị)”; hoặ ph n hi tin tứ thành

thể loại kh

nh u

nhƣ “xã hội”, “kinh tế”, “thể th o”,…
6. Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein
7. Vật lý: phân tích ảnh thiên văn, t

động giữa các hạt …

8. Phát hiện gian lận tài chính : gian lận thẻ tỉn dụng
9. Dự đo n hỉ số thị trƣờng: Là ăn ứ gi trị một vài th m số hiện thời
hoặ trong qu khứ để đƣ r dự đo n, hẳng hạn dự đo n gi

hứng

kho n, gi vàng,…
Ngoài những ứng dụng ó dạng ph n loại hoặ hồi quy một

h tƣờng minh

ở trên, họ m y ó thể dùng trong rất nhiều ứng dụng đòi hỏi r quyết định hoặ
hành động một
1.1 5 H

h thông minh.

ó i ms t

1.1.5.1. Việc h c
Học có giám sát là một kỹ thuật của ngành họ m y để xây dựng một hàm từ
dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối tƣợng đầu vào (thƣờng
dạng ve tơ) và đầu ra thực sự. Đầu ra của một hàm có thể là một giá trị liên tục

8
(gọi là hồi quy), hay có thể là dự đo n một nhãn phân lớp cho một đối tƣợng đầu
vào (gọi là phân lớp). Nhiệm vụ củ

hƣơng trình học có giám sát là dự đo n gi trị

của hàm cho một đối tƣợng bất kỳ là đầu vào hợp lệ, s u khi đã xem xét một số ví
dụ huấn luyện (nghĩ là,

ặp đầu vào và đầu r tƣơng ứng). Để đạt đƣợ điều

này, hƣơng trình học phải tổng quát hoá từ các dữ liệu sẵn ó để dự đo n những
tình huống hƣ gặp phải theo một cách hợp lý. Các ví dụ thƣờng gặp của học có
giám sát gồm việc phân loại các e-m il là thƣ r , ghi nhãn

tr ng Web theo thể

loại của chúng và nhận dạng chữ viết tay.
Tóm lại mụ đ h h nh ủa bài toán họ

ó gi m s t là để học một ánh xạ từ

x tới y. Khi ho trƣớc một tập huấn luyện gồm các cặp ( xi, yi ), trong đó yi  Y gọi
là các nhãn của các mẫu xi. Nếu nhãn là các số, y  ( yi )T i[n] biểu diễn ve tơ cột của
nhãn. Hơn nữa, một thủ tục chuẩn là các cặp ( xi, yi ) đƣợc thử theo giả thiết
phân bố ngẫu nhiên độc lập trên khắp X × Y.
Mô hình chung của họ

ó gi m s t đƣợ kh i qu t nhƣ hình sau.

Hình 1.2. Mô hình thuật toán học có giám sát
Để giải quyết một bài to n nào đó ủa họ

ó gi m s t, ngƣời ta phải xem xét

nhiều bƣớc khác nhau:
1. X

định loại của các ví dụ huấn luyện. Trƣớc khi làm bất cứ điều gì,

ngƣời làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào sẽ đƣợc
sử dụng làm ví dụ. Chẳng hạn đó ó thể là một kí tự viết t y đơn lẻ,
toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay.

9
2. Thu thập tập huấn luyện. Tập huấn luyện cần đặ trƣng ho thực tế sử
dụng của hàm chứ năng. Vì thế, một tập

đối tƣợng đầu vào đƣợc

thu thập và đầu r tƣơng ứng đƣợc thu thập, hoặc từ các chuyên gia
hoặc từ việ đo dạc tính toán.
định việc biểu diễn

3. X

đặ trƣng đầu vào cho hàm chứ năng ần

tìm. Sự chính xác của hàm chứ năng phụ thuộc lớn vào

h

đối

tƣợng đầu vào đƣợc biểu diễn. Thông thƣờng, đối tƣợng đầu vào đƣợc
chuyển đổi thành một ve tơ đặ trƣng, hứa một số các đặ trƣng
nhằm mô tả ho đối tƣợng đó. Số lƣợng

đặ trƣng không nên qu

lớn.
4. X

định cấu trúc của hàm chứ năng ần tìm và giải thuật họ tƣơng

ứng. Ví dụ ngƣời thực hiện quá trình phân lớp có thể lựa chọn việc sử
dụng mạng nơ-ron nhân tạo hay cây quyết định….
5. Hoàn thiện thiết kế. Ngƣời thiết kế sẽ chạy giải thuật học từ một tập
huấn luyện thu thập đƣợc. Các tham số của giải thuật học có thể đƣợc
điều chỉnh bằng cách tối ƣu ho hiệu năng trên một tập con (gọi là tập

kiểm chứng – validation set) của tập huấn luyện, hay thông qua kiểm
chứng chéo (cross-validation). Sau khi họ và điều chỉnh tham số,
hiệu năng ủa giải thuật có thể đƣợ đo đạc trên một tập kiểm tr độc
lập với tập huấn luyện.
Hiện n y đã ó rất nhiều thuật to n đƣợc sử dụng để tạo những trình học có
giám sát, phổ biến nhất là:
 Thuật toán K láng giềng gần nhất (KNN)
 Mô hình xác suất đơn giản, Naïve Bayes
 Phƣơng ph p dùng m y ve tơ tựa SVM.
 Phƣơng ph p

y quyết định

 Phƣơng ph p mạng nơ ron nh n tạo.

10
1.1.5.2. Thuật toán K láng giềng gần nhất
KNN là phƣơng ph p truyền thống khá nổi tiếng và đƣợ đ nh gi là một
trong những phƣơng ph p tố, theo tập dữ liệu Reuters phiên bản 21450, đƣợc sử
dụng từ những thời kỳ đầu của việc phân loại văn bản.
Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng
cách Ơ lit… của tất cả

văn bản trong tập huấn luyện đến văn bản này đề tìm ra

k văn bản gần nhất (gọi là k “láng giềng", hay "hàng xóm”), s u đó dựa trên khoảng
cách này tính trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất
cả khoảng cách ở trên củ

văn bản trong k hàng xóm có cùng chủ đề, chủ đề nào

không xuất hiện trong k hàng xóm sẽ có trọng số bằng 0. S u đó

hủ đề sẽ đƣợc

sắp xếp theo mứ độ trọng số giảm dần và các chủ đề có trọng số cao sẽ đƣợc chọn
là chủ đề củ văn bản cần phân loại.
Công thức tính trọng số cho các cụm:
W(x, cj) =



di {KNN }

sim( x, di ). y(di , c j )  b j

(1.1)

Trong đó:
 y(di , cj) = 1 nếu câu hỏi di thuộc cụm cj; ngƣợc lại y(di , cj) = 0.
 sim (x, di) là độ tƣơng đồng giữa câu hỏi phân loại x và câu hỏi di.

 sim (x, di) = cos (x, di) =

x.d i
x di

(1.2)
 bj là ngƣỡng phân loại của nhãn cj.

1.1.5.3. Mô hình xác suất Naïve Bayes
Kĩ thuật phân hoạch của Naive Bayes dự trên ơ sở định l B yes và đặc
biệt phù hợp ho

trƣờng hợp phân loại ó k h thƣớ đầu vào là lớn. Mặc dù

N ive B yes kh đơn giản nhƣng nó ó khả năng ph n loại tốt hơn rất nhiều phƣơng
pháp phân hoạch phức tạp khác. Với mỗi loại văn bản, thuật toán Naive Bayes tính

11
cho mỗi lớp văn bản một xác suất mà tài liệu cần phân hoạch có thể thuộc loại đó.
Tài liệu đó sẽ đƣợc gán cho lớp văn bản nào có xác suất cao nhất. Chi tiết về thuật
toán Naive Bayes sẽ đƣợ trình bày kĩ ở hƣơng 2.
1.1.5.4. P

ơ

p p ây quyết định

Cây quyết định là một trong những kĩ thuật họ m y đƣợc nhiều ngƣời biết
đến. Chúng đƣợc áp dụng rộng rãi và đ dạng củ

lĩnh vự đặc biệt là các ứng

dụng trong trí tuệ nhân tạo. Thành công củ phƣơng ph p này đƣợc chứng minh
bằng khả năng xử lí các vấn đề phức tạp theo cách trình bày một khả năng ó thể
chấp nhận đƣợc dễ dàng cho việc diễn dịch và thậm chí còn có khả năng đƣ r
kết luận từ các luật logic.
Một số phƣơng ph p đã đƣợ đề xuất để xây dựng các cây quyết định.

Những thuật to n này ó đầu vào là một tập các tài liệu mẫu đƣợ đƣ vào làm v
dụ. Ở đó mỗi tài liệu đựơ mô tả bởi việc thiết lập các giá trị thuộ t nh và đƣợc gán
cho các lớp. Đầu ra là một cây quyết định bảo đảm sự phân hoạch cho các ví dụ đƣ
vào. Vấn đề h nh đƣợc nói rõ trong các thuật toán chuẩn của cây quyết định là kết
quả có thể th y đổi bất chợt tùy thuộc vào dữ liệu. Sự không chắc chắn đó ó thể
xuất hiện trong các cấu tử hoặc có thể xuất hiện trong
Cây quyết định đƣợc sử dụng để phân hoạ h

gi i đoạn phân hoạch.

đối tƣợng mới. Thuật giải trong

cây quyết định đƣợc bắt đầu từ gốc của cây quyết định.
Ngƣời t đ nh gi thử những thuộc tính có liên quan và chọn một nhánh
tƣơng ứng với sự lựa chọn đó. Qui trình này sẽ đƣợc lặp đi lặp lại đến khi gặp phải
một l . Nhƣ vậy đối tƣợng mà t đ ng xét sẽ thuộc vào loại của lá mà ta vừa gặp
phải. Điều đó ũng ó nghĩ là thuật toán cây quyết định kết thúc khi mà quá trình
phân tích gặp đƣợc một nút lá.
1.1.5.5. P

ơ

p p ạng ơ ro

Phân loại văn bản bằng mô hình mạng nơ ron là một cách thức phân loại mới
đƣợ đề xuất. Cấu trúc và hoạt động của mạng nơ ron ơ bản dựa trên bộ não con
ngƣời. Mạng nơ ron đƣợc áp dụng trong khá nhiều lĩnh vực khác nhau và có khả

12

năng giải quyết các vấn đề phức tạp, phạm vi rộng. Trong phân loại tài liệu có thể
dùng mạng nơ ron để phân chia gần đúng

tài liệu trong tập tài liệu thô đầu vào.

Cấu trúc mạng nơ ron khá phức tạp, hầu hết các phần tử cấu thành mạng nơ
ron là các nơ ron. Chúng đƣợc phân chia thành các lớp khác nhau và có mối liên hệ
với các nơ ron trong cùng lớp hoặc khác lớp. Mối quan hệ giữa các nơ ron đƣợc
ung tròn ó đầu ra từ một nơ ron này và đầu vào từ một nơ ron

biểu diễn bằng

khác, mối quan hệ giữa hai nơ ron lân cận nh u đặ trƣng bằng trọng số w.
2
2

n qu n v t ư r
Địn n
2

ĩ v t ưr
Đị

và

ĩa về t

đặ trưn

ủ t ưr

r

Từ l u, thƣ điện tử đã trở thành một ứng dụng không thể thiếu khi Internet và
công nghệ mạng phát triển. Thƣ điện tử, h y òn gọi là thƣ, là một hệ thống huyển
nhận thƣ từ qu
hữu

mạng m y t nh. Thƣ điện tử là một phƣơng tiện truyền thông rất

h. Nó ó thể huyển mẫu thông tin từ một m y nguồn tới một h y nhiều m y

nhận trong ùng một lú .
Tuy nhiên, trong những năm gần đ y, một hình thức mới củ thƣ điện tử đã
xuất hiện với số lƣợng lớn gây phiền hà ho ngƣời nhận và thiệt hại không nhỏ cho
nền kinh tế mà ta gọi là thƣ r
Hiện n y hƣ
điểm chỉ oi thƣ r
điểm ó thƣ r

h y sp m em ils.

ó một định nghĩ hoàn hỉnh và chặt chẽ về thƣ r . Có qu n
là những thƣ quảng

o không đƣợc yêu cầu UCE, có quan

với nghĩ rộng hơn, b o gồm cả thƣ quảng

o, thƣ nhũng lạm

(quấy rối), và những thƣ ó nội dung không lành mạnh UBE. Dƣới đ y sẽ đƣ r
một định nghĩ thông dụng nhất về thƣ r
phân biệt thƣ r
Thƣ r

và giải th h

đặ điểm củ nó để

với thƣ thông thƣờng.
(sp m) là những bứ thƣ điện tử không yêu cầu, không mong muốn

và đƣợc gửi hàng loạt tới nhiều ngƣời nhận. “Thƣ không yêu ầu” ở đ y nghĩ là
ngƣời nhận thƣ không yêu ầu ngƣời gửi gửi bứ thƣ đó. “Thƣ đƣợc gửi hàng loạt”

13
nghĩ là bứ thƣ mà ngƣời nhận nhận đƣợc nằm trong một loạt

thƣ đƣợc gửi đi

cho nhiều ngƣời khác và các bứ thƣ này ó nội dung tƣơng tự nhau.
Một bứ thƣ đƣợc gọi là thƣ r
hàng loạt. Nếu thƣ r

hỉ khi nó là thƣ không yêu ầu và đƣợc gửi

hỉ là thƣ không mong muốn thì nó có thể là những bứ thƣ

làm quen, đƣợc gửi lần đầu tiên, còn nến thƣ r

hỉ là thƣ đƣợc gửi hàng loạt thì nó

có thể là những bứ thƣ gửi cho khách hành của các công ty, các nhà cung cấp dịch
vụ.
Nhƣ định nghĩ ở trên, thƣ r

là thƣ không yêu ầu và đƣợc gửi hàng loạt.

Nhƣng yếu tố quan trọng nhất để phân biệt thƣ r

với thƣ thông thƣờng phải là ở

nội dung bứ thƣ. Khi một ngƣời nhận đƣợ thƣ r , ngƣời đó không thể x
đƣợ thƣ ó đƣợc gửi hàng loạt h y không nhƣng ó thể nói h nh x

định

đó là thƣ r

sau khi xem nội dung thƣ. Đặ điểm này h nh là ơ sở cho giải pháp phân loại thƣ
rác bằng cách phân tích nội dung thƣ.
1.2.1.2. C

đặ tr

Các loại thƣ r
1. Thƣ r
thƣ r

của t

r

hiện này có một số đặ điểm sau:
đƣợc gửi đi một cách tự động: Mụ đ h ủa những kẻ gửi
là ó thể ph t t n lƣợng thƣ r

tới ngƣời dùng càng nhiều

càng tốt. Do vậy, húng thƣờng viết ra những phần mềm tự động gửi
một lƣợng lớn thƣ r
2. Thƣ r

trong một khoảng thời gian ngắn.

đƣợc gửi đến những địa chỉ ngẫu nhiên trên một diện rộng:

Địa chỉ thƣ điện tử củ ngƣời bị nhận thƣ r

rất ngẫu nhiên và hầu

nhƣ không ó sự ràng buộc với nhau. Có nhiều phƣơng ph p và thủ
thuật khác nhau mà những kẻ gửi thƣ r

p dụng trong việc dò tìm

địa chỉ thƣ củ ngƣời dùng nhƣ:
3. Dùng hƣơng trình tự động dò tìm địa chỉ thƣ trên mạng Internet, các

trang chủ, Ch t room,…
4. Mu địa chỉ thƣ từ những ông ty đã x y dựng danh sách khách hàng
của họ nhƣng vì l do nào đó phải b n đi hoặ đối tác của công ty

14
đƣợc phép truy cập dánh sách khách hàng củ

ông ty này để gửi

thông tin về dịch vụ hay sản phẩm.
5. Thƣ chuỗi từ bạn bè và ngƣời thân, yêu cầu gửi thƣ ho àng nhiều
ngƣời càng tốt vì lý do giúp đỡ ngƣời bị bệnh, ủng hộ một hƣơng
trình nào đó, hoặc mời hào ngƣời dùng nếu không muốn nhận xui
xẻo hoặc muốn nhận đƣợc nhiều tiền hơn….
6. Dùng hƣơng trình đo n tên tự động: Những kẻ gửi thƣ r

dùng

hƣơng trình này gửi thƣ liên tục vào một nơi để đo n địa chỉ thƣ qua
những phƣơng ph p nhƣ E – pending, Alph bet,…
7. Bên cạnh đó, những kẻ gửi thƣ r

òn ó thể ó đƣợ địa chỉ thƣ của

ngƣời dùng do các nhà cung cấp dịch vụ ISP không có chính sách và
công nghệ bảo mật, dẫn đến các tin tặc, ăn ắp địa chỉ của khách hàng
để buôn bán và quấy nhiễu. Hoặc có thể do chính nhà cung cấp ISP
buôn b n địa chỉ thƣ củ kh h hàng để kiếm lợi nhuận. Nhân viên
củ

tranh củ

ISP đã tiết lộ thông tin về kh h hàng ho

đối thủ cạnh

h nh ISP đó hoặc cho những công ty muốn quảng cáo cho

những khách hàng riêng biệt.
Nội dung củ thƣ r

thƣờng là những nội dung bất hợp pháp, gây phiền hà

ho ngƣời dùng: Phần lớn nội dung củ thƣ r

là những thông tin mời chào về

thƣơng mại, quảng cáo sản phẩm. Bên cạnh đó, phải kể đến những thƣ r

ó nội

dung xấu (nhƣ hống phá chính trị,…) g y t m l lo ngại ho ngƣòi sử dụng. Lƣợng
thƣ r

ph t t n virus ũng không nhỏ. Trong những thƣ này thƣờng kèm những con

virus nguy hiểm có thể làm tê liệt hoàn toàn máy tính củ ngƣời dùng, ăn cắp những
thông tin cá nhân hoặc làm hỏng dữ liệu lƣu trên m y. Hiện nay, những thƣ r

với

nội dung hứa hẹn m ng đến may mắn, hoặc một khoản tiền lớn ho ngƣời đọ thƣ
r

ũng r tăng đ ng kể. Những ngƣời dùng kém hiểu biết, cả tin thƣờng bị lừa với

hình thức này.
Địa chỉ củ ngƣời gửi thƣ r

thƣờng là những địa chỉ tr hình: Để tránh sự

nghi ngờ củ ngƣời nhận, một số kẻ gửi thƣ r

thƣờng giả dạng địa chỉ của một

15
ngƣời dùng bình thƣờng trong một máy chỉ thƣ nào đó một cách bất hợp pháp hoặc
dùng một địa chỉ ảo nào đó để gửi thƣ r .
22 P

n lo i t ư r

Việc phân loại thƣ r
lọ thƣ r

rất quan trọng không chỉ trong lĩnh vực tạo những bộ

phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật

chống thƣ r

th h hợp. Có rất nhiều cách phân loại thƣ r . Dƣới đ y là một số

loại điển hình nhất.
1. Dựa trên kiểu ph t t n thƣ r : T nh tới thời điểm hiện tại, thƣ r
thể đƣợc gửi thông qua hình thứ

ó

thƣ điện tử, nhóm thảo luận

(newsgroups), điện thoại di động SMS, và các dịch vụ gửi tin nhắn
trên mạng (nhƣ Y hoo Messenger, Windows Messenger…).
2. Dựa vào quan hệ với ngƣời gửi thƣ r : Các mối quan hệ với ngƣời
gửi thƣ r

b o gồm ngƣời lạ mặt, bạn bè, ngƣời quen và các dịch vụ

quyên góp giúp đỡ…
3. Dựa vào nội dung củ thƣ r : C

kiểu nội dung phổ biến nhƣ thƣ về

thƣơng mại, thƣ về chính trị, thƣ về công nghệ, chuỗi thƣ ( h in
email) và các loại kh

(nhƣ thƣ ph t t n virus...).

4. Dự trên động lực củ ngƣời gửi: Thông thƣờng, thƣ r

đƣợc gửi đi

cho những mụ đ h quảng bá thông tin. Ngoài ra, còn có một số loại
thƣ r

đƣợc gửi tới một ngƣời nhận x

định nào đó nhằm mụ đ h

phá vỡ và gây cản trở công việc củ ngƣời nhận hay mạng của nhà
cung cấp dịch vụ thƣ điện tử ESP, đƣợc gọi là “bom thƣ”. Thƣ r

òn

đƣợc cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo trộn công việc
và cuộc sống củ ngƣời nhận.
2 3 Đặ điểm t ư rác
Đặc tính chung củathƣ r
thƣ r

là không ràng buộc về mặt nội dung. Phần lớn các

tuân theo các mẫu chung và có thể đƣợc nhận diện một cách rõ ràng. Ngoài

16
ra, các thƣ rác ó

đặ điểm về ngôn ngữ, thời gian.... Hầu hết cácthƣ r

đều đƣợc viết bằng tiếng Anh với tỉ lệ rất
Đặ điểm chính củathƣ r

này

o hơn 80 .

khác biệt với thƣ thông thƣờng đó là

 Không ai yêu cầu.
 Ngƣời nhận không qu n t m đến thông tin trong thƣ mình nhận
đƣợc.
 Không rõ ngƣời gửi. Ngƣời nhận không biết, không có bất cứ
liên hệ nào với ngƣời gửi.
 Thƣ này đƣợc gửi đến một số lƣợng lớn
thƣ r

địa chỉ. Thể loại

rất đ dạng phần lớn tập trung vào quảng cáo, lừ đảo,

phần mềm giá rẻ, nội dung không lành mạnh....
24

i ủ t ưr
Thƣ r

hiện chiếm một tỷ lệ rất lớn trong tổng số thƣ điện tử đƣợc gửi qua

Internet. Theo các thống kê kh

nh u, thƣ r

gửi qua các máy chủ thƣ điện tử. Lƣợng thƣ r

hiếm từ 71

đến 87

lƣợng thƣ

qu lớn gây ra nhiều tác hại đối với

sự phát triển Internet nói hung và ngƣời sử dụng thƣ điện tử nói riêng. Có thể kể ra
một số tác hại củ thƣ r :
 Thƣ r

g y thiệt hại về kinh tế ho ngƣời nhận thƣ trong trƣờng

hợp ngƣời nhận thƣ phải trả tiền ho lƣợng thông tin truyền qua
mạng.
 Thƣ r

ó thể làm đầy hộp thƣ ngƣời nhận và do vậy làm thất lạc

những thƣ bình thƣờng đến sau.
 Thƣ r

làm tốn thời gi n do ngƣời nhận phải mở thƣ và xo thƣ

khỏi hộp thƣ ủa mình.
 Thƣ r

g y t m l xấu đối với ngƣời sử dụng thƣ điện tử. Theo

thống kê tại , 25
điện tử oi thƣ r

ngƣời sử dụng thƣ

là trở ngại lớn khi sử dụng dịch vụ Internet này.

17
 Thƣ r

hiếm một phần đƣờng truyền Internet và làm tốn thời

gian xử lý của máy chủ.
1.2.5. Quy trình và thủ đoạn gửi thƣ rác
Để ph t t n thƣ r , những ngƣời gửi thƣ r

phải ó đƣợc những điều kiện

sau: một là ó d nh s h địa chỉ thƣ nhận thƣ, h i là ó

server ho phép gửi thƣ,

ba là phải soạn đƣợc nội dung thƣ theo yêu ầu quảng cáo và qua mặt đƣợc các bộ

lọc nội dung, cuối cùng cần có những hƣơng trình để gửi thƣ đi.
1.2.5.1. Thu thập địa chỉ t
Để gửi thƣ r

đi, ngƣời gửi thƣ r

ần phải có một d nh s h

địa chỉ

thƣ cần gửi. D nh s h địa chỉ thƣ này có thể thu thập đƣợc từ nhiều nguồn khác
nhau, họ có thể mua từ

tr ng web thƣơng mại có nhiều thành viên đăng k hoặc

sử dụng các kỹ thuật nhƣ trong v dụ 1.3 để ó đƣợ địa chỉ thƣ củ đối tƣợng cần
gửi thƣ.
Ngƣời gửi thƣ r

(hoặ đối tác của họ) thƣờng tung ra các trang web giả để

bẫy ngƣời dùng gửi địa chỉ thƣ cho họ. Kỹ thuật này đƣợc gọi là Phishing email.

Hình 1.3. Ví dụ về trang web lấy cắp địa chỉ thƣ của ngƣời dùng

Phân loại thư rác bằng phương pháp học máy

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về