Tải bản đầy đủ (.pdf) (81 trang)

Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.34 MB, 81 trang )




Số hóa bởi Trung tâm Học liệu

ĐẠI HỌC THÁI NGUN
TRƢỜNG

ĐINH QUANG THÁI

NGHIÊN CỨU PHƢƠNG PHÁP LỌC SPAM VÀ ỨNG
DỤNG TRONG BẢO MẬT HỆ THỐNG THƢ ĐIỆN TỬ TẠI
SỞ THƠNG TIN VÀ TRUYỀN THƠNG TỈNH NAM ĐỊNH

nh
Mã số: 60 48 01





TS. Nguyễn Ngọc Cƣơng




Thái Ngun - 2013
i


Số hóa bởi Trung tâm Học liệu



LỜI CAM ĐOAN
Tơi xin cam đoan rằng, đây là cơng trình nghiên cứu của tơi trong đó có sự
giúp đỡ tận tình của thầy hƣớng dẫn và các thầy cơ tại Học viện An ninh nhân dân,
sự hỗ trợ của các đồng nghiệp tại Sở Thơng tin và Truyền thơng Nam Định. Các nội
dung nghiên cứu và kết quả trong đề tài này là hồn tồn trung thực.
Trong luận văn, tơi có tham khảo đến một số tài liệu của một số tác giả đã
đƣợc liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.

Thái Ngun, ngày 15 tháng 7 năm 2013
Tác giả


ĐINH QUANG THÁI
ii


Số hóa bởi Trung tâm Học liệu

LỜI CẢM ƠN
Để hồn thành chƣơng trình Cao học và viết luận văn này, tơi đã nhận đƣợc
sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của q thầy cơ trƣờng Đại học Cơng
nghệ Thơng tin và Truyền thơng Thái Ngun.
Trƣớc hết, tơi xin chân thành cảm ơn đến q thầy cơ trƣờng Đại học Cơng
nghệ Thơng tin và Truyền thơng - Đại học Thái Ngun, các thầy cơ Học viện An
ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tơi trong suốt thời
gian học tập tại trƣờng.
Tơi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cƣơng - Học viện
An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hƣớng dẫn nghiên cứu
và giúp tơi hồn thành luận văn tốt nghiệp.

Nhân đây, tơi xin chân thành cảm ơn Ban giám hiệu trƣờng Đại học Cơng
nghệ Thơng tin và Truyền thơng đã tạo rất nhiều điều kiện để tơi học tập và hồn
thành tốt khóa học.
Mặc dù tơi đã có nhiều cố gắng hồn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên khơng thể tránh khỏi những thiếu sót, tơi rất mong
nhận đƣợc những đóng góp q báu của q thầy cơ và các bạn.
Lời cảm ơn sau cùng tơi xin dành cho gia đình và những ngƣời bạn đã hết
lòng quan tâm và tạo điều kiện tốt nhất để tơi hồn thành luận văn tốt nghiệp này!
Tơi xin chân thành cảm ơn!


Thái Ngun, ngày 15 tháng 7 năm 2013
Học viên thực hiện
Đinh Quang Thái - Lớp CK10A
Trƣờng Đại học CNTT&TT – Đại học Thái Ngun.


iii


Số hóa bởi Trung tâm Học liệu

MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC HÌNH v
DANH MỤC CÁC BẢNG vii
DANH MỤC TỪ VIẾT TẮT viii
MỞ ĐẦU 1
Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM 3

1.1 Các khái niệm cơ bản 3
1.1.1. Thƣ điện tử là gì? 3
1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử 3
1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính 3
1.1.4. Thƣ rác là gì? 4
1.1.5. Các loại thƣ rác 5
1.1.6. Tác hại của thƣ rác 6
1.2. Phƣơng thức trao đổi thơng tin qua dịch vụ Email 7
1.2.1. Mơ hình trao đổi thơng tin dựa trên email 7
1.2.2. Giao thức và ngơn ngữ sử dụng 9
1.3. Các phần mềm lọc nội dung mail ở trong và ngồi nƣớc. 11
Chƣơng 2: CÁC PHƢƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM 15
2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail 15
2.1.1. Thu thập địa chỉ email 15
2.1.2. Tìm kiếm các máy tính trên Internet cho phép gửi thƣ 18
2.1.3. Boml Mail 20
2.2. Mơ hình và ngun lý hoạt động của hệ thống lọc nội dung Mail 22
2.2.1. Mơ hình hệ thống lọc mail 22
2.2.2. Kiến trúc tổng quan của hệ thống lọc mail 24
2.2.3. Các kỹ thuật lọc nội dung thơng tin qua mail 26
2.2.4. Kỹ thuật lọc Spam 30
Chƣơng 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC
GIẢI PHÁP PHỊNG CHỐNG SPAM 44
3.1. Xây dựng chƣơng trình lọc spam cho các ứng dụng thƣ điện tử 44
3.1.1. Nhiệm vụ của chƣơng trình 44
3.1.2. Các cơng nghệ sử dụng 44
iv


Số hóa bởi Trung tâm Học liệu


3.1.3. Các chức năng chính của chƣơng trình 45
3.2. Thử nghiệm hệ thống thƣ điện tử tại Sở Thơng tin và Truyền thơng tỉnh Nam
Định 46
3.2.1. Khảo sát việc sử dụng mail tại Sở Thơng tin và Truyền thơng tỉnh Nam
Định 46
3.2.2. Dữ liệu thử nghiệm 47
3.2.3. Phƣơng pháp thử nghiệm 48
3.2.4. Thử nghiệm chƣơng trình 49
3.2.4. So sánh phƣơng pháp phân loại 55
3.2.5. Lựa chọn độ dài và số lƣợng đặc trƣng 56
3.2.6. Phân biệt theo ngơn ngữ trƣớc khi lọc 58
3.2.7. Nhận xét kết quả thử nghiệm 58
3.3. Đề xuất các giải pháp phòng chống spam 59
3.3.1. Giải pháp phòng chống tại mail server 59
3.3.2. Giải pháp phòng chống tại mail client 65
3.3.3. Giải pháp phía ngƣời sử dụng mail 67
KẾT LUẬN CHUNG 70
TÀI LIỆU THAM KHẢO 71



v


Số hóa bởi Trung tâm Học liệu

DANH MỤC CÁC HÌNH

Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet 7

Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP 10
Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP 11
Hình 1.4: Phần mềm lọc nội dung mail 12
Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng 16
Hình 2.2: Một số website của các cơng ty gửi thư rác 18
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay) 19
Hình 2.4: Các phương án bộ trí hệ thống lọc thư 23
Hình 2.5: Kiến trúc chung của hệ thống lọc thư 25
Hình 2.6: Mơ hình tổng qt lọc thư rác Tiếng Việt 29
Hình 2.7: Lưu lượng thư trong một mơi trường SPF 34
Hình 2.8: Cách thức làm việc của SPF 34
Hình 2.9: Lọc thư rác bằng phương pháp chặn IP 35
Hình 2.10: Thơng tin header của email 42
Hình 3.1: Nhiệm vụ của chương trình lọc thư rác 44
Hình 3.2: Chức năng của phần mềm lọc thư rác 46
Hình 3.3: Giao diện form thiết lập thơng số huấn luyện hệ thống 49
Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện 50
Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường 51
Hình 3.6: Giao diện thiết lập danh sách hòm thư cần chặn lọc 51
Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hòm thư cần chặn lọc 52
Hình 3.8: Giao diện thiết lập từ khóa cần chặn lọc 52
Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khóa cần chặn lọc 52
Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình 53
Hình 3.11: Hòm thư khi chưa chạy chương trình lọc thư rác 53
Hình 3.12: Thống kê kết quả lọc thư rác của chương trình 54
Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook 54
vi


Số hóa bởi Trung tâm Học liệu


Hình 3.14: Giao diện tab giới thiệu chương trình 55
Hình 3.15: Xác nhận việc thốt khỏi chương trình 55
Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau 57
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau 59
Hình 3.18: Phương thức hoạt động của SPF 60
Hình 3.19: Phương thức hoạt động của SPF động 62
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian 64
Hình 3.21: Hiệu quả phương pháp SPF động 64






vii


Số hóa bởi Trung tâm Học liệu


DANH MỤC CÁC BẢNG

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống 4
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ 6
Bảng 3.1. Bộ dữ liệu thử nghiệm 48
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau 56
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau 57
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động 63





viii


Số hóa bởi Trung tâm Học liệu

DANH MỤC TỪ VIẾT TẮT

SPAM: Thư rác
EMAIL: Thư điện tử
SMTP: Simple Mail Transfer Protocol
IMAP: Internet Message Access Protocol
POP: Post Office Protocol
1


Số hóa bởi Trung tâm Học liệu

MỞ ĐẦU
Thư rác (spam) là thƣ điện tử đƣợc gửi hàng loạt với nội dung mà ngƣời nhận
khơng mong đợi, khơng muốn xem, hay chứa những nội dung khơng liên quan đến
ngƣời nhận và thƣờng đƣợc sử dụng để gửi thơng tin quảng cáo. Do có giá thành
tƣơng đối thấp so với các phƣơng pháp quảng cáo khác, thƣ rác hiện chiếm một tỷ
lệ lớn và ngày càng tăng trong tổng số thƣ điện tử đƣợc gửi qua Internet. Sự xuất
hiện và gia tăng thƣ rác khơng những gây khó chịu và làm mất thời gian của ngƣời
nhận mà còn ảnh hƣởng tới đƣờng truyền Internet và làm chậm tốc độ xử lý của
máy chủ thƣ điện tử, gây thiệt hại lớn về kinh tế.
Để loại bỏ hoặc giảm thiểu ảnh hƣởng của thƣ rác, nhiều cách tiếp cận khác

nhau đã đƣợc nghiên cứu và sử dụng. Giải pháp đấu tranh với thƣ rác rất đa dạng,
bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thƣ
rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thƣ rác trong
những giai đoạn khác nhau của q trình tạo và phát tán thƣ. Trong số giải pháp
đƣợc sử dụng, lọc thư theo nội dung đang là một trong những giải pháp đƣợc sử
dụng rộng rãi và có triển vọng nhất. Lọc thƣ theo nội dung là phƣơng pháp phân
tích nội dung thƣ để phân biệt thƣ rác với thƣ bình thƣờng, kết quả phân tích sau đó
đƣợc sử dụng để quyết định chuyển tiếp thƣ đến ngƣời nhận hay khơng (trong phạm
vi nghiên cứu này, nội dung thƣ đƣợc giới hạn là những nội dung trình bày dƣới
dạng văn bản).
Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề
hay nội dung thƣ, thuật tốn lọc nội dung cần đƣợc xây dựng phù hợp với ngơn ngữ
mà thƣ sử dụng. Hiện nay, nhiều thuật tốn lọc nội dung hiệu quả đã đƣợc nghiên
cứu và sử dụng cho thƣ viết bằng tiếng Anh.
Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thƣ điện tử
nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát
triển này là ngày càng có nhiều thƣ rác gửi tới các tài khoản thƣ điện tử tại Việt nam
(tài khoản có đi .vn). Những thƣ rác này bao gồm cả thƣ viết bằng tiếng Anh và
thƣ viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thƣ rác tiếng Việt đặt ra
u cầu cấp thiết phải có những phƣơng pháp lọc thƣ có thể xử lý đƣợc thƣ rác loại
này.
2


Số hóa bởi Trung tâm Học liệu

Do các thuật tốn lọc thƣ thơng dụng mới chỉ đƣợc nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thƣ tiếng Việt
cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thƣ viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ

phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết
những vấn đề vừa nêu, trong phạm vi đề tài này, tơi tiến hành nghiên cứu một số
giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh. Nội dung nghiên cứu
bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so
sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so
sánh, giải pháp lọc thƣ có hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ có khả
năng tích hợp vào máy chủ thƣ điện tử
Luận văn hồn thành gồm 68 trang và đƣợc bố cục thành 3 chƣơng với lời
mở đầu và phần kết luận chung:
Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên
mục tiêu đề tài, xác định các bài tốn nghiên cứu và giới thiệu tóm tắt các chƣơng
trong luận văn.
Chƣơng 1. Tổng quan về thƣ điện tử và spam. Trong chƣơng này trình
bày các khái niệm về thƣ tín truyền thống, thƣ điện tử, spam và mơ hình, ngơn ngữ
và giao thức sử dụng của thƣ điện tử, các phần mềm lọc nội dung thƣ hiện nay.
Chƣơng 2. Các phƣơng pháp gửi và kỹ thuật lọc Email – Spam. Trình
bày kỹ thuật gửi mail nặc danh, mơ hình và ngun lý hoạt động của hệ thống lọc
nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail.
Chƣơng 3. Xây dựng chƣơng trình thử nghiệm và đề xuất các giải pháp
phòng chống spam. Trình bày các nội dung cài đặt thử nghiệm, cơng nghệ áp dụng
và kết quả chƣơng trình lọc spam cho các ứng dụng thƣ điện tử tại Sở Thơng tin và
Truyền thơng tỉnh Nam Định. Đề xuất các giải pháp phòng chống spam.
Phần kết luận chung nêu tóm tắt các kết quả đạt đƣợc của luận văn.
3


Số hóa bởi Trung tâm Học liệu


Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM

Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện
tử, spam và mơ hình, ngơn ngữ và giao thức sử dụng của thư điện tử, các phần mềm
lọc nội dung thư hiện nay.
1.1 Các khái niệm cơ bản
1.1.1. Thƣ điện tử là gì?
Thƣ điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thƣ qua
các mạng máy tính. Thƣ điện tử (Email) là một trong những phƣơng thức trao đổi
thơng tin phổ biến trong suốt q trình phát triển Internet. Ban đầu email chỉ là
những văn bản text đơn giản, mức độ bảo mật cũng đƣợc nâng cao dần lên, khi đó
email đƣợc mã hóa dƣới nhiều dạng. Email là phƣơng tiện thơng tin tốc độ cao.
Mẫu thƣ có thể đƣợc gửi đi dƣới nhiều dạng, có thể ở dạng văn bản text thơng
thƣờng, hoặc có thể ở dạng mã hóa, và nó đƣợc chuyển qua các mạng máy tính, đặc
biệt là mạng Internet
1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử
Một địa chỉ thƣ điện tử bao gồm : tên[email]@tên_miền. Trong đó:
- Tên_email : là định danh của hòm thƣ điện tử, thành phần này do ngƣời sử
dụng tự đặt ra khi khởi tạo hòm thƣ cho mình.
- Tên_miền : là tên miền cung cấp dịch vụ thƣ điện tử, ví dụ nhƣ yahoo.com,
gmail.com,…
1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính
Giữa thƣ điện tử và thƣ bƣu chính (thƣ tín truyền thống) có những điểm
tƣơng đồng, song có những điểm khác biệt đƣợc thể hiện qua bảng so sánh:
Đặc điểm
Thƣ bƣu chính
Thƣ điện tử
Khoảng cách vật lý

Khơng
4



Số hóa bởi Trung tâm Học liệu

Thời gian vận chuyển
Lâu
Nhanh
Mức độ bảo mật
Thấp
Cao
Chi phí
Cao
Thấp
Khả năng soạn thảo
Chậm (viết giấy)
Nhanh (viết bằng trình
soạn thảo đƣợc hỗ trợ)
Mức độ thất lạc thƣ
Cao
Thấp (do đƣờng truyền
lỗi)
Thƣ tấn cơng
Gửi kèm vũ khí sinh
học. (Ít xảy ra)
Gửi kèm mã độc : Worm,
Virus, … (Thƣờng
xun)
Thiệt hại do bị tấn cơng
Nặng
Tùy vào mức độ tấn cơng
Khả năng chuyển tiếp thƣ



Kết nối Internet
Khơng

Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống
1.1.4. Thƣ rác là gì?
Hiện nay chƣa có một định nghĩa hồn chỉnh và chặt chẽ về thƣ rác. Có quan
điểm chỉ coi thƣ rác là những thƣ quảng cáo khơng đƣợc u cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thƣ rác với nghĩa rộng hơn, bao gồm
cả thƣ quảng cáo, thƣ nhũng lạm (quấy rối), và những thƣ có nội dung khơng lành
mạnh (Unsolicited Bulk Email – UBE). Dƣới đây sẽ đƣa ra một định nghĩa thơng
dụng nhất về thƣ rác và giải thích các đặc điểm của nó để phân biệt thƣ rác với thƣ
thơng thƣờng.
Thư rác (spam) là những bức thư điện tử khơng u cầu, khơng mong muốn
và được gửi hàng loạt tới nhiều người nhận. “Thư khơng u cầu” ở đây nghĩa là
người nhận thư khơng u cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt”
nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi
cho nhiều người khác và các bức thư này có nội dung tương tự nhau.
5


Số hóa bởi Trung tâm Học liệu

Một bức thƣ đƣợc gọi là thƣ rác chỉ khi nó là thƣ khơng u cầu và đƣợc gửi
hàng loạt. Nếu thƣ rác chỉ là thƣ khơng mong muốn thì nó có thể là những bức thƣ
làm quen, đƣợc gửi lần đầu tiên, còn nến thƣ rác chỉ là thƣ đƣợc gửi hàng loạt thì nó
có thể là những bức thƣ gửi cho khách hành của các cơng ty, các nhà cung cấp dịch
vụ.
Nhƣ định nghĩa ở trên, thƣ rác là thƣ khơng u cầu và đƣợc gửi hàng loạt.

Nhƣng yếu tố quan trọng nhất để phân biệt thƣ rác với thƣ thơng thƣờng phải là ở
nội dung bức thƣ. Khi một ngƣời nhận đƣợc thƣ rác, ngƣời đó khơng thể xác định
đƣợc thƣ có đƣợc gửi hàng loạt hay khơng nhƣng có thể nói chính xác đó là thƣ rác
sau khi xem nội dung thƣ. Đặc điểm này chính là cơ sở cho giải pháp phân loại thƣ
rác bằng cách phân tích nội dung thƣ
1.1.5. Các loại thƣ rác
Đa số thƣ rác là thư quảng cáo cho hàng hố hoặc dịch vụ. Tuy nhiên cũng
tồn tại một lƣợng lớn thƣ rác mang những nội dung khác. Các thƣ rác khơng mang
nội dung quảng cáo hàng hố hay dịch vụ có thể phân chia thành:
Thư có nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị
gửi trực tiếp tới ngƣời dùng thƣ điện tử để phục vụ mục đích quảng bá, tun truyền
hay tạo quan hệ trực tiếp. Hiện nay tại Việt nam, thƣ rác có nội dung chính trị hầu
hết là của các tổ chức phản động ngồi nƣớc gửi về và cần đặc biệt ngăn chặn.
Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung
u cầu qun góp hay trợ giúp. Ngƣời gửi thƣ dạng này có thể khơng nhận thức
đƣợc họ đang gửi thƣ rác do có sự biện hộ từ mục đích gửi thƣ.
Thư có nội dung tơn giáo: dùng để tun truyền quảng bá cho các tổ chức
hoặc hoạt động tơn giáo.
Trong số thƣ những thƣ quảng cáo, một số dạng hàng hố và dịch vụ chiếm
tỷ trọng đặc biệt lớn. Dƣới đây là kết quả phân tích thống kê các thƣ rác gửi qua
máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten -
trends].
6


Số hóa bởi Trung tâm Học liệu


Bảng 1.2: Thống kê các dạng thư rác tại máy chủ
Sản phẩm quảng cáo

Năm 2003
Năm 2004
Quảng cáo liên quan đến tình dục (khơng đồ hoạ)
17%
34%
Tranh ảnh khiêu dâm
13%
7%
Bảo hiểm
1%
4%
Quảng cáo thuốc
8%
10%
Tài chính
12%
13%
Du lịch, sòng bạc
2%
3%
Bản tin
9%
6%
Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.)
20%
10%
Scam
8%
6%
Các dạng quảng cáo khác

13%
8%

1.1.6. Tác hại của thƣ rác
Thƣ rác hiện chiếm một tỷ lệ rất lớn trong tổng số thƣ điện tử đƣợc gửi qua
Internet. Theo các thống kê khác nhau, thƣ rác chiếm từ 71% đến 87% lƣợng thƣ
gửi qua các máy chủ thƣ điện tử. Lƣợng thƣ rác q lớn gây ra nhiều tác hại đối với
sự phát triển Internet nói chung và ngƣời sử dụng thƣ điện tử nói riêng. Có thể kể ra
một số tác hại của thƣ rác:
- Thƣ rác gây thiệt hại về kinh tế cho ngƣời nhận thƣ trong trƣờng hợp
ngƣời nhận thƣ phải trả tiền cho lƣợng thơng tin truyền qua mạng.
- Thƣ rác có thể làm đầy hộp thƣ ngƣời nhận và do vậy làm thất lạc
những thƣ bình thƣờng đến sau.
7


Số hóa bởi Trung tâm Học liệu

- Thƣ rác làm tốn thời gian do ngƣời nhận phải mở thƣ và xố thƣ khỏi
hộp thƣ của mình.
- Thƣ rác gây tâm lý xấu đối với ngƣời sử dụng thƣ điện tử. Theo thống
kê tại , 25% ngƣời sử dụng thƣ điện tử coi
thƣ rác là trở ngại lớn khi sử dụng dịch vụ Internet này.
- Thƣ rác chiếm một phần đƣờng truyền Internet và làm tốn thời gian
xử lý của máy chủ.
1.2. Phƣơng thức trao đổi thơng tin qua dịch vụ Email
1.2.1. Mơ hình trao đổi thơng tin dựa trên email
Dịch vụ thƣ điện tử sử dụng giao thức SMTP (Simple Mail Transfer
Protocol) trong họ giao thức TCP/IP.


Hình 1.1: Mơ hình lưu chuyển thư điện tử qua Internet
8


Số hóa bởi Trung tâm Học liệu

Hoạt động của hệ thống email hiện nay có thể dƣợc minh họa qua phân tích
một thí dụ nhƣ sau:
1. Nguyễn dùng MUA của mình để soạn một lá thƣ có địa chỉ ngƣời nhận là
Trần với địa chỉ là Nguyễn nhấn nút Send và phần mềm thƣ điện tử
của Nguyễn áp dụng SMTP để gửi mẫu thơng tin (lá thƣ) đến MTA, hay máy chủ
thƣ điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org đƣợc cung cấp
từ dịch vụ Internet của Nguyễn.
2. MTA này sẽ đọc địa chỉ chỗ nhận () và dựa vào phần tên miền
nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền.
3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thƣ
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
4. smtp.a.org gửi mẫu thơng tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thƣ đến hộp thƣ của Trần.
5. Khi đọc Trần ra lệnh nhận thƣ trên máy (MUA) của Trần, điều này tạo ra
việc lấy về mẫu thơng tin bằng cách áp dụng giao thức POP3.
Trong trƣờng hợp Nguyễn khơng có MUA mà chỉ dùng Webmail chẳng hạn
thì bƣớc 1 sẽ khơng xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tƣong tự
cho trƣờng hợp Trần khơng có MUA riêng.
Trƣớc đây, nếu một MTA khơng thể gửi tới đích thì nó có thể ít nhất ngừng
lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về
các mẫu thơng tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu
thơng tin từ ngƣời gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những

MTA nhƣ vậy gọi là những ngƣng đọng thƣ mở (open mail relays). Điều này khá
cần thiết vì sự chất lƣợng liên lạc của hệ thống Internet lúc đó còn yếu. Ngày nay,
do việc lợi dụng trên cơ chế hoạt động của hệ thống thƣ điện tử nhiều ngƣời đã gửi
ra các loại thƣ vơ bổ. Nhƣ là hậu quả, rất ít MTA ngày nay còn chấp nhận các
9


Số hóa bởi Trung tâm Học liệu

ngƣng đọng thƣ mở. Bởi vì các thƣ nhƣ vậy rất có thể là các loại thƣ nhũng lạm(thƣ
rác).
Dịch vụ thƣ điện tử hoạt động offline. Các u cầu gửi thƣ đi khơng đòi hỏi
phải xử lý ngay lập tức. Khi ngƣời A muốn chuyển một bức thƣ tới cho ngƣời B, hệ
thống sẽ chuyển thƣ vào vùng Spool, cùng với các thơng tin về ngƣời gửi, ngƣời
nhận (đƣợc đính vào phần Header của thƣ) sẽ đƣợc chứa trong vùng này. Hệ thống
gửi thƣ tự động bằng một chƣơng trình phần mềm thƣ điện tử nhƣ Outlook Express,
Mozila Thunderbird, hay các chƣơng trình Webmail nhƣ Yahoo!, Gmail,… Đây là
những chƣơng trình gửi thƣ khơng đồng bộ. Chƣơng trình này sẽ xác định đƣợc địa
chỉ IP của máy cần gửi qua việc phân tích Header của thƣ, và tạo lập một kết nối tới
máy đó. Nếu nhƣ tạo kết nối thành cơng, chƣơng trình sẽ chuyển thƣ tới vùng Spool
của máy nhận. Nếu kết nối tới máy nhận khơng thành cơng, chƣơng trình sẽ lƣu trữ
lại những thƣ chƣa đƣợc chuyển đi đó và sẽ gửi lại đến khi tạo dựng đƣợc kết nối.
Nếu bức thƣ tồn tại q lâu (khoảng 2-3 ngày), chƣơng trình sẽ gửi trả bức thƣ này
cho ngƣời gửi.
Thƣ điện tử ban đầu chỉ nhằm mục đích trao đổi thơng tin giữa những ngƣời
sử dụng với nhau. Thƣ điện tử hiện đại đƣợc phát triển các dịch vụ kèm theo, đó là
các dịch vụ thƣ điện tử nhƣ NameServer (tra cứu các địa chỉ trên mạng),
ArchiveServer (cho phép ngƣời dùng tìm kiếm và tải về những tập tin dùng chung).
Các thƣ này đƣợc gửi tới các Server, Server phân tích nội dung thƣ, thực hiện các
u cầu rồi gửi trả lại kết quả cho ngƣời gửi u cầu cũng bằng hình thức gửi thƣ

điện tử.
1.2.2. Giao thức và ngơn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thƣ đơn giản.
SMTP là phƣơng thức vận chuyển các thƣ điện tử từ máy chủ này sang máy chủ
khác cho đến địa chỉ ngƣời nhận. Các máy chủ sử dụng giao thức này để chuyển
tiếp thƣ tới máy khách, và máy khách cũng sử dụng giao thức này gửi thƣ trung
10


Số hóa bởi Trung tâm Học liệu

chuyển qua các máy chủ. Các thƣ điện tử đƣợc gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thơng điệp này.

Hình 1.2: Mơ hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thơng điệp từ
Internet của các máy khách. Ngƣời dùng có thể truy xuất và quản lý thƣ từ máy chủ.
Giao thức cho phép ngƣời sử dụng đọc, xóa, sửa, tìm kiếm thƣ trong hòm thƣ mà
khơng cần phải tải thƣ về. Phiên bản mới nhất là IMAP4.
11


Số hóa bởi Trung tâm Học liệu


Hình 1.3: Mơ hình gửi và nhận thư điện tử dùng giao thức IMAP và POP
- POP (Post Office Protocol) : giao thức đƣợc dùng trên các máy trạm
(MUA) tìm kiếm các thƣ điện tử từ một máy MTA (máy chủ mail). Giao thức này
cho phép ngƣời dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải
thƣ từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3.

- Giao thức HTTP khơng phải là một giao thức dành cho thơng tin liên lạc
email, nhƣng nó có thể đƣợc sử dụng để truy cập hộp thƣ của bạn. Nó cũng còn
đƣợc gọi là thƣ điện tử dựa trên web, giao thức này có thể đƣợc sử dụng để soạn
hoặc truy lục email từ một tài khoản của bạn. Hotmail là một ví dụ của việc sử dụng
HTTP nhƣ là một giao thức thƣ điện tử.
1.3. Các phần mềm lọc nội dung mail ở trong và ngồi nƣớc.
Hiện nay, một trong những khó khăn của ngƣời sử dụng thƣ điện tử là khơng
thể mở email của họ vì vơ số các thƣ rác chất đầy trong hộp thƣ đến của họ. Ngƣời
sử dụng có thể dễ dàng nhận ra và phân biệt các thƣ rác,tuy nhiên để loại bỏ hết các
thƣ rác bằng cách xóa thủ cơng họ sẽ rất mất thời gian và cơng sức. Hệ thống lọc
thƣ rác ra đời giúp làm giảm tối thiểu cơng việc này đối với ngƣời sử dụng. Phần
mềm, tiện ích lọc thƣ rác có thể làm giảm đáng kể số lƣợng thƣ rác gửi đến hộp thƣ
của ngƣời dùng.
12


Số hóa bởi Trung tâm Học liệu


Hình 1.4: Phần mềm lọc nội dung mail
Hiện tại có rất nhiều phần mềm lọc mail đƣợc cung cấp miễn phí, tuy nhiên
tính năng còn hạn chế và chủ yếu là lọc nội dung thƣ tiếng Anh. Một số phần mềm
lọc mail miễn phí:
- POPFile - Free Spam Filter
- Spamfence - Free Spam Filter
- Spamihilator - Free Spam Filter
- Spamato - Free Spam Filter
- SpamBayes - Free Spam Filter
- SpamExperts Desktop - Free Spam Filter
- K9 - Free Spam Filter

- Cactus Spam Filter - Free Spam Filter
- SpamRIP - Free Spam Filter
- BullGuard Spamfilter - Free Spam Filter
- …
Những tiêu chí để đánh giá một phần mềm lọc thư rác tốt:
Phần mềm lọc thƣ rác tốt nhất là cho phép dễ dàng tùy chỉnh bởi ngƣời dùng
máy tính của tất cả các cấp. Các tính năng quan trọng nhất của bất kỳ phần mềm bộ
13


Số hóa bởi Trung tâm Học liệu

lọc thƣ rác là khả năng đáng tin cậy ngăn chặn và ngăn chặn thƣ rác. Những tiêu chí
sử dụng để đánh giá phần mềm lọc thƣ rác:
Chặn, lọc:
Đây là tiêu chí đầu tiên và quan trọng để đánh giá phần mềm lọc thƣ rác.
Phần mềm lọc thƣ rác nên đƣợc trang bị với nhiều khả năng ngăn chặn thƣ rác lây
nhiễm vào hộp thƣ đến của ngƣời dùng. Tốt nhất phần mềm lọc có cả hai danh sách
đen và trắng, thiết lập nhạy cảm, dựa vào cộng đồng lọc, kỹ thuật thách thức và
phản ứng, và cách ly thiết lập. Các tính năng bổ sung để đánh giá địa chỉ IP đang
chặn, máy chủ, địa chỉ email, và mã quốc gia.
Bảo vệ:
Ứng dụng chặn thƣ rác nên có khả năng bảo vệ nhiều tài khoản ngƣời dùng
với một cài đặt duy nhất. Hơn nữa, chặn thƣ rác phải bảo vệ ngƣời dùng từ email có
chứa sâu, vi-rút, Trojans, phần đính kèm với nhúng keylogger và phần mềm độc hại
khác. Ngồi ra, phần mềm lọc thƣ rác mạnh mẽ có thể xác định email HTML có
chứa cuộc tấn cơng lừa đảo trực tuyến nhằm mục đích thu thập thơng tin cá nhân
nhạy cảm của ngƣời sử dụng.
Quy tắc:
Phần mềm bộ lọc thƣ rác nên cung cấp cho ngƣời dùng khả năng để chỉnh

sửa cài đặt đƣợc xác định trƣớc các quy tắc cũng nhƣ tạo ra các quy định mới. Phần
mềm lọc thƣ rác tốt phải có khảu năng thích ứng với nhu cầu của ngƣời sử dụng.
Khả năng tƣơng thích:
Khi lựa chọn một phần mềm chặn thƣ rác, cần phải đánh giá nếu phần mềm
lọc thƣ rác đó có tƣơng thích với của chƣơng trình đọc thƣ của ngƣời sử dụng hiện
tại hay khơng. Ngƣời sửcác chƣơng trình duyệt email phổ biến bao gồm
Thunderbird, Outlook, Outlook Express và các ứng dụng khác của POP3/SMPT.
Phần mềm lọc thƣ rác cũng nên hỗ trợ một số các nhà cung cấp dịch vụ webmail
nhƣ Gmail, Yahoo, Hotmail và những nhà cung cấp dịch vụ khác.
Do các thuật tốn lọc thƣ thơng dụng mới chỉ đƣợc nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thƣ tiếng Việt
14


Số hóa bởi Trung tâm Học liệu

cần nghiên cứu làm rõ hiệu quả của thuật tốn khi phân tích nội dung thƣ viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ
phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết
những vấn đề vừa nêu, trong phạm vi đề tài này, chúng tơi tiến hành nghiên cứu
một số giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh. Nội dung nghiên
cứu bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so
sánh các cải tiến với thuật tốn, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so
sánh, giải pháp lọc thƣ có hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ có khả
năng tích hợp vào máy chủ thƣ điện tử.

15


Số hóa bởi Trung tâm Học liệu



Chƣơng 2: CÁC PHƢƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM

Trình bày kỹ thuật gửi mail nặc danh, mơ hình và ngun lý hoạt động của
hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thơng tin qua mail.
2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail
Để phát tán thƣ rác, những ngƣời gửi thƣ rác phải có đƣợc những điều kiện
sau: một là có danh sách địa chỉ email nhận thƣ, hai là có các server cho phép gửi
thƣ, ba là phải soạn đƣợc nội dung thƣ theo u cầu quảng cáo và qua mặt đƣợc các
bộ lọc nội dung, cuối cùng cần có những chƣơng trình để gửi thƣ đi.
2.1.1. Thu thập địa chỉ email
Để gửi thƣ rác đi, ngƣời gửi thƣ rác cần phải có một danh sách các địa chỉ
email cần gửi. Danh sách địa chỉ email này có thể thu thập đƣợc từ nhiều nguồn
khác nhau, họ có thể mua từ các trang web thƣơng mại có nhiều thành viên đăng ký
hoặc sử dụng các kỹ thuật dƣới đây để có đƣợc địa chỉ email của đối tƣợng cần gửi
thƣ.
Ngƣời gửi thƣ rác (hoặc đối tác của họ) thƣờng tung ra các trang web giả để
bẫy ngƣời dùng gửi địa chỉ email cho họ. Kỹ thuật này đƣợc gọi là Phishing email.
16


Số hóa bởi Trung tâm Học liệu


Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng
Ngƣời gửi thƣ rác còn sử dụng các máy tìm kiếm chỉ để tìm kiếm địa chỉ
email trên các trang web. Các máy tìm kiếm này sẽ tìm kiếm những trang có kí hiệu
“@” và sẽ tách địa chỉ email từ đó ra. Những chƣơng trình tìm kiếm email theo kiểu
nhƣ vậy còn đƣợc gọi là spambots.

Danh sách các địa chỉ cũng có thể đƣợc sinh tự động theo một cơ chế nào đó
để xác suất tồn tại của địa chỉ sinh tự động có thể chấp nhận đƣợc. Địa chỉ email
thƣờng đƣợc tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain nhiều
ngƣời dùng và các con số có nghĩa. Ví dụ nhƣ địa chỉ email đƣợc sinh nhƣ sau:
Từ địa chỉ gốc là: nguyenvannam + @ + fpt.com.vn
Có thể sinh ra các địa chỉ sau:
, ,
, ,
Để xác định một địa chỉ email có tồn tại hay khơng, những ngƣời gửi thƣ rác
sẽ gửi một bức thƣ tới tất cả các hòm thƣ trong danh sách sinh tự động. Nếu hòm
thƣ đó tồn tại và chủ nhân của nó mở bức thƣ đó ra thì sẽ có một chƣơng trình đƣợc

×