Tải bản đầy đủ (.pdf) (108 trang)

Nghiên cứu công nghệ chống thư rác và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.42 MB, 108 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Nguyễn Đức Tuân

NGHIÊN CỨU CÔNG NGHỆ CHỐNG THƯ RÁC
VÀ ỨNG DỤNG

Chuyên ngành: Kỹ thuật điện tử

LUẬN VĂN THẠC SĨ KHOA HỌC
Kỹ thuật điện tử

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. NGUYỄN THỊ VIỆT HƯƠNG
.
Hà Nội – Năm 2012


Nghiên cứu công nghệ chống thư rác và ứng dụng

LỜI CAM ĐOAN

Tôi tên là Nguyễn Đức Tuân, mã số học viên: 005312C810, học viên cao học lớp Kỹ
thuật Điện tử khóa 2008. Người hướng dẫn là PGS.TS.Nguyễn Thị Việt Hương.
Tơi xin cam đoan tồn bộ nội dung được trình bày trong bản luận văn: “Nghiên cứu
công nghệ chống thư rác và ứng dụng” là kết quả của quá trình tìm hiểu và nghiên
cứu của tôi. Các dữ liệu được viết trong luận văn đều là trung thực. Tơi xin hồn toàn
chịu trách nhiệm với những nội dung được viết trong luận văn này.


Hà Nội, ngày 28 tháng 03 năm 2012
Học viên

Nguyễn Đức Tuân

1


Nghiên cứu công nghệ chống thư rác và ứng dụng

MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT .............................................................................. 4
DANH MỤC HÌNH VẼ................................................................................................. 6
LỜI MỞ ĐẦU ................................................................................................................ 8
CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC ............................................................ 10
1.1 Thư điện tử ........................................................................................................... 10
1.1.1 Khái niệm thư điện tử và đặc điểm ............................................................ 10
1.1.2 Cấu trúc thư điện tử ................................................................................... 10
1.1.3 Trao đổi thư điện tử .................................................................................... 14
1.1.4 Một số thống kê về thư điện tử .................................................................. 20
1.2 Thư điện tử rác ...................................................................................................... 21
1.2.1 Khái niệm thư điện tử rác .......................................................................... 21
1.2.2 Các đặc điểm nhận dạng thư điện tử rác .................................................... 21
1.2.3 Các cách thức giả mạo thông tin định danh trong thư điện tử ................... 25
1.2.4 Phương pháp và hệ thống phát tán thư rác................................................. 26
1.2.5 Một số thống kê về thư điện tử rác ............................................................ 32
1.3. Kết luận ................................................................................................................ 34
CHƯƠNG 2: CÔNG NGHỆ NGĂN CHẶN THƯ RÁC ......................................... 35
2.1 Tổng quan về công nghệ ngăn chặn thư rác ....................................................... 35
2.2 Kỹ thuật Challenge-Response .............................................................................. 35

2.3 Kỹ thuật chứng thực thư điện tử ......................................................................... 39
2.3.1 Sender Policy Framework(SPF) .................................................................. 40
2.3.2 Sender ID Framework.................................................................................. 49
2.3.3 DomainKeys Identified Mail (DKIM) ......................................................... 52
2.4 Danh sách đen ........................................................................................................ 61
2.5 Danh sách trắng ..................................................................................................... 69
2.6 Kỹ thuật lọc thống kê Bayesian ............................................................................ 71
2.7 Kỹ thuật lọc heuristic ............................................................................................ 80
2.8. Kết luận ................................................................................................................ 82
CHƯƠNG 3: MỘT SỐ GIẢI PHÁP CHỐNG THƯ RÁC ..................................... 83
2


Nghiên cứu công nghệ chống thư rác và ứng dụng

3.1 Hệ thống chống thư rác của Trend Micro........................................................... 83
3.2 Hệ thống chống thư rác Symantec ....................................................................... 85
3.3 Hệ thống chống thư rác IronPort......................................................................... 85
3.4 Hệ thống chống thư rác Sophos ........................................................................... 86
3.5 Giải pháp chống thư rác của Microsoft ............................................................... 86
3.6 Giải pháp chống thư rác của Websense .............................................................. 87
3.7 Giải pháp chống thư rác của Barracuda ............................................................. 88
3.8 Giải pháp chống thư rác của McAfee .................................................................. 88
3.9 Giải pháp chống thư rác của GFI ........................................................................ 88
3.10 Giải pháp chống spam SPAMfighter ................................................................. 90
3.11. Kết luận .............................................................................................................. 93
CHƯƠNG 4: XÂY DỰNG HỆ THỐNG THỐNG KÊ THƯ RÁC TIẾNG VIỆT 94
4.1 Giới thiệu 94
4.2 Mơ hình hoạt động chống thư rác của SPAMfighter ......................................... 94
4.3 Mơ hình hoạt động và quản trị hệ thống ............................................................. 95

4.3.1 Mơ hình hoạt động ..................................................................................... 95
4.3.2 Quản trị hệ thống ....................................................................................... 96
4.4 Thiết kế dữ liệu ...................................................................................................... 96
4.4.1 Mơ hình dữ liệu........................................................................................... 96
4.4.2 Cập nhật dữ liệu thư điện tử ....................................................................... 97
4.4.3. Mơ hình cập nhật và lưu trữ dữ liệu .......................................................... 99
4.5. Một số kết quả .................................................................................................... 100
4.6. Kết luận .............................................................................................................. 103
KẾT LUẬN ............................................................................................................. 104
TÀI LIỆU THAM KHẢO......................................................................................... 106

3


Nghiên cứu công nghệ chống thư rác và ứng dụng

DANH MỤC CÁC TỪ VIẾT TẮT
STT TỪ VIẾT TẮT

TỪ ĐẦY ĐỦ TIẾNG ANH

NGHĨA TIẾNG VIỆT

1

DNSBL

DNS-based Blackhole List

Danh sách đen


2

DNSWL

DNS-based whitelist

Danh sách trắng

DKIM

DomainKeys Identified Mail

Giao thức chứng thực thư
điện tử dựa trên sự kết hợp
giữa IIM và DomainKeys

IIM

Identified Internet Mail

Giao thức chứng thực thư
điện tử do Cisco đề xuất

SIDF

Sender ID Framework

Giao thức chứng thực thư
điện tử do Microsoft đề xuất


SPF

Sender Policy Framework

Giao thức chứng thực thư
điện tử

CAPTCHA

Completely Automated Public
Turing test to tell Computers
and Humans Apart

Dạng kiểm định hỏi đáp giữa
máy tính và người dùng

C/R

Challenge/response

Giao thức chống thư rác dựa
trên cơ chế hỏi đáp

ESMTP

Extended SMTP

SMTP mở rộng


MT

Mail Agent

Phần mềm gửi thư tại máy
người dùng cuối

RFC

Request for comment

Tài liệu đề xuất tiêu chuẩn
Internet

12

SMTP

Simple Mail Tranfer Protocol

Giao thức truyền thư điện tử

13

POP3

Post Office Protocol version 3

Giao thức nhận thư điện tử


IMAP

Internet Message Access
Protocol

Giao thức truy cập thư điện
tử

15

HTTP

HyperText Transfer Protocol

Giao thức truy nhập Web

16

VPN

Virtual Private Network

Mạng riêng ảo

17

IP

Internet Protocol


Giao thức liên mạng

3
4
5
6

7
8
9
10
11

14

4


Nghiên cứu công nghệ chống thư rác và ứng dụng

IRC

Internet Relay Chat

Một dạng liên lạc cấp tốc
qua mạng Internet

FTP

File Tranfer Protocol


Giao thức truyền tập tin

ISP

Internet Service Provider

Nhà cung cấp dịch vụ
Internet

21

DNS

Domain Name System

Hệ thống tên miền

22

LAN

Local Area Network

Mạng cục bộ

23

DoS


Denial-of-service

Tấn cơng từ chối dịch vụ

24

Port

Cổng

Botnet

Tập hợp máy tính đã bị tấn
công và bị điều khiển

26

Spammer

Người gửi thư rác

27

Client

Máy trạm

28

Server


Máy chủ

29

Black list

Danh sách đen

30

White list

Danh sách trắng

31

Antispam

Ngăn chặn thư rác

32

Header

Tiêu đề

18
19
20


25

5


Nghiên cứu công nghệ chống thư rác và ứng dụng

DANH MỤC HÌNH VẼ
Hình 1-1: Cấu trúc thư điện tử.......................................................................................10
Hình 1-2: Định dạng tuyến đường đi cơ bản của thư điện tử ........................................12
Hình 1-3: Cấu trúc đầy đủ trường Received..................................................................12
Hình 1-4: Ví dụ về tuyến đường đi của một thư điện tử ...............................................13
Hình 1-5: Mơ hình trao đổi thư điện tử .........................................................................14
Hình 1-6: Đặc điểm nhận dạng thư rác qua header, lời chào hỏi, qua URL .................22
Hình 1-7: Giả mạo thư rác qua kết nối máy chủ ...........................................................24
Hình 1-8: Giả mạo thư rác thơng qua trường Received ................................................24
Hình 1-9: Gửi thư rác qua open relay ............................................................................28
Hình 1-10: Mơ hình open proxy ....................................................................................29
Hình 1-11: Mạng botnet ................................................................................................30
Hình 1-12: Hoạt động gửi thư rác qua mạng botnet ......................................................31
Hình 1-13: Thống kê thư rác của SpamCop từ tháng 7/2009 đến 7/2010.....................33
Hình 2-1: Tóm tắt cơng nghệ chống thư rác..................................................................35
Hình 2-2: Mơ hình làm việc của hệ thống C/R .............................................................36
Hình 2-3: Giả mạo trên hệ thống C/R ...........................................................................37
Hình 2-4: Mẫu thư điện tử yêu cầu xác nhận ................................................................38
Hình 2-5: Sử dụng mã CAPCHA ..................................................................................38
Hình 2-6: Thư mục chứa thư chưa xác nhận .................................................................38
Hình 2-7: Hệ thống SPF ................................................................................................39
Hình 2-8: Hệ thống DKIM ............................................................................................40

Hình 2-9: Thống kê SPF ................................................................................................40
Hình 2-10: Thống kê của Nokia về triển khai SPF .......................................................41
Hình 2-11: Mơ hình làm việc của SPF ..........................................................................41
Hình 2-12: Tạo bản ghi SPF ..........................................................................................43
Hình 2-13: Cơng cụ tạo bản ghi SPF của Microsoft .....................................................49
Hình 2-14: Mơ hình làm việc của SIDF ........................................................................51
Hình 2-15: Thống kê việc triển khai DKIM của Cisco .................................................53
Hình 2-16: Thống kê việc triển khai DKIM của Nokia ................................................53
Hình 2-17: Mơ hình làm việc của IIM...........................................................................54
Hình 2-18: Thơng tin về IIM trong tiêu đề thư điện tử .................................................55
Hình 2-19: Hoạt động của DomainKeys .......................................................................55
Hình 2-20: Thông tin DomainKeys trong tiêu đề thư điện tử .......................................56
Hình 2-21: Mơ hình của DKIM .....................................................................................57
Hình 2-22: Hoạt động của Blacklist ..............................................................................63
6


Nghiên cứu cơng nghệ chống thư rác và ứng dụng

Hình 2-23: Quy trình làm việc của DNSBL ..................................................................64
Hình 2-24: Hoạt động của Spamhaus ............................................................................68
Hình 2-25: Chu trình xử lý tin của SBL ........................................................................68
Hình 2-26: Hoạt động của bộ lọc thư rác Bayesian.......................................................72
Hình 2-27: Áp dụng lý thuyết xác suất và hệ thống lọc Bayesian ................................73
Hình 2-28: Phân loại thư rác và thư sạch ......................................................................76
Hình 2-29: Bộ lọc Bogofilter .........................................................................................78
Hình 2-30:Thống kê trong bộ lọc DSPAM ...................................................................79
Hình 2-31: Bộ lọc SpamAssassin ..................................................................................79
Hình 3-1 Giải pháp chống thư rác của Trend Micro trên máy chủ thư điện tử .............83
Hình 3-2: Giải pháp chống thư rác của Trend Micro theo mơ hình riêng .....................83

Hình 3-3: Hệ thống chống thư rác của Symantec..........................................................85
Hình 3-4: Hệ thống chống thư rác của Spam Sophos ...................................................86
Hình 3-5: Giải pháp chống thư rác của Microsoft .........................................................87
Hình 3-6: Giải pháp chống thư rác của Barracuda ........................................................88
Hình 3-7:Giải pháp chống Spam của GFI .....................................................................88
Hình 3-8: Giải pháp chống thư rác của Spamfighter .....................................................90
Hình 4-1: Mơ hình chống thư rác của Spamfighter .......................................................95
Hình 4-2: Sơ đồ hoạt động của hệ thống thống kê thư rác tiếng Việt ...........................95
Hình 4-3: Quy trình cập nhật dữ liệu.............................................................................97
Hình 4-4: Mơ hình cập nhật và lưu trữ dữ liệu ..............................................................99
Hình 4-5: Mơ hình truy xuất dữ liệu thống kê...............................................................99
Hình 4-6: Giao diện trang chính phần thống kê ..........................................................100
Hình 4-7: Giao diện thống kê địa chỉ gửi thư rác nhiều nhất ......................................100
Hình 4-8: Giao diện thống kê trong 30 ngày qua ........................................................101
Hình 4-9: Giao diện thống kê theo từng tháng trong năm...........................................101
Hình 4-10: Giao diện thống kê thư rác theo ISP trong một năm.................................101
Hình 4-11: Giao diện thống kê của ISP theo từng tháng.............................................102
Hình 4-12: Giao diện thống kê AS qua các năm .........................................................102
Hình 4-13: Giao diện thống kê tên miền qua các năm ................................................102
Hình 4-14: Giao diện thống kê địa chỉ IP qua các năm ...............................................103
Hình 4-15: Giao diện thống kê theo quốc gia qua các năm ........................................103

7


Nghiên cứu công nghệ chống thư rác và ứng dụng

LỜI MỞ ĐẦU
Thư rác là một trong những vấn nạn lớn trên Internet. Lượng thư rác trên thế giới
vẫn chiếm một tỉ lệ rất lớn, có những lúc chiếm khoảng 90% lượng thư điện tử gửi đi

và gây thiệt hại hàng tỉ đô la trên thế giới hàng năm. Nhiều tổ chức trên thế giới đã
hình thành và kêu gọi mọi đối tượng sử dụng, khai thác Internet cần chú trọng vào các
hoạt động nhằm ngăn chặn thư rác như: Stop Spam Alliance, OECD, liên minh LAP,
ITU,…Ngay tại các quốc gia trên thế giới cũng đã hình thành các đơn vị chuyên biệt
chống thư rác như Korea Antispam của Hàn Quốc, trung tâm Antispam của Trung
Quốc, bộ phận chống thư rác của JPCERT,…
Đặc tính của thư rác là ln biến đổi với nhiều hình thức, thủ đoạn khác nhau. Vì
vậy cuộc chiến chống thư rác là cuộc chiến lâu dài và cần áp dụng nhiều biện pháp
khác nhau như pháp lý, kỹ thuật, phối hợp quốc tế, nâng cao nhận thức,.. trong đó kỹ
thuật là một trong những giải pháp quan trọng và cần thiết nhất. Nhiều công nghệ ngăn
chặn thư rác đã nghiên cứu và triển khai tuy nhiên chưa có kỹ thuật nào có khả năng
giải quyết triệt để vấn nạn thư rác. Vì vậy các bộ lọc thư rác thường kết hợp nhiều
công nghệ khác nhau để đảm bảo hiệu quả ngăn chặn cao.
Tại Việt Nam, theo thống kê sơ bộ trong năm 2007, lượng thư rác chiếm khoảng
72% trong đó lượng thư rác tiếng Việt chiếm khoảng 20%, và có xu hướng ngày càng
tăng mạnh. Trong khi đó rất nhiều hệ thống thư điện tử tại Việt Nam không triển khai
các công nghệ ngăn chặn thư rác cần thiết.
Trên cơ sở phân tích và trong phạm vi của đề tài, dưới sự hướng dẫn của PGS.
TS Nguyễn Việt Hương, học viên đã tập trung nghiên cứu vào hiện trạng thư điện tử,
thư điện tử rác và các công nghệ chống thư điện tử rác phổ biến hiện nay. Học viên
cũng đã nghiên cứu và chủ trì triển khai xây dựng một hệ thống thống kê thư rác bằng
tiếng Việt và đưa vào thử nghiệm. Cụ thể nội dung của đề tài được chia làm 4 chương:
Chương 1: Tổng quan về thư rác
Phần này tập trung tìm hiểu các vấn đề chính liên quan thư điện tử, thư điện tử
rác như: khái niệm,đặc điểm và cấu trúc thư điện tử; mơ hình trao đổi thư điện tử và
các giao thức được sử dụng; một số thống kê về thư điện tử, thư điện tử rác; thư điện
tử rác và các phương thức phát tán; các công nghệ chống thư điện tử rác.
8



Nghiên cứu công nghệ chống thư rác và ứng dụng

Chương 2. Công nghệ chống thư rác
Phần này giới thiệu tổng quan về các công nghệ ngăn chặn thư rác và tập trung
nghiên cứu về các công nghệ chống thư rác qua đó thấy được nhược điểm của từng
cơng nghệ.
Chương 3. Một số giải pháp chống thư rác
Mô tả về một số giải pháp chống thư rác lớn trên thế giới.
Chương 4. Xây dựng hệ thống thống kê thư rác tiếng Việt
Phân tích, thiết kế và xây dựng về hệ thống thống kê thư rác tiếng Việt trên cơ sở
hệ thống VinaCis Antispam.

9


Chương 1: Tổng quan về thư rác

CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC
1.1 Thư điện tử
1.1.1 Khái niệm thư điện tử và đặc điểm
Thư điện tử là một hình thức trao đổi thông tin phổ biến trên mạng Internet.
Dịch vụ thư điện tử khơng địi hỏi hai máy tính gởi và nhận thư phải kết nối trực
tuyến với nhau trên mạng.
Thư điện tử có thể được gửi đi ở dạng mã hố hay dạng thơng thường và được
chuyển qua các mạng máy tính, mạng Internet. Thư điện tử cũng có thể chuyển
thông tin đồng thời từ một người gửi tới nhiều người nhận. Ngày nay, thư điện tử
khơng chỉ có thể trao đổi dữ liệu dạng chữ, mà cịn có thể truyền được các dạng dữ
liệu khác như hình ảnh, âm thanh, phim,…
Việc trao đổi thư điện tử được thực hiện thơng qua địa chỉ thư điện tử. Mỗi
người có thể có một hay nhiều địa chỉ thư điện tử và mỗi địa chỉ thư điện tử sẽ là

duy nhất trên mạng Internet.
1.1.2 Cấu trúc thư điện tử
Một thông điệp điện tử đầy đủ bao gồm hai phần: phần tiêu đề và phần nội
dung. Thông thường phần lớn nội dung trong phần tiêu đề không được hiển thị
nhưng người đọc hồn tồn có thể xem thơng tin phần tiêu đề thông qua chức năng
của các phần mềm đọc thư điện tử.

Hình 1-1: Cấu trúc thư điện tử

10


Chương 1: Tổng quan về thư rác

Hình trên minh họa cấu trúc một bức thư điện tử theo định dạng được mô tả
trong chuẩn RFC 2822. Giữa phần tiêu đề và phần nội dung được phân tách bởi một
dòng trống.
Trong khi phần nội dung chứa nội dung của thư điện tử thì phần tiêu đề chứa
thơng tin nhằm định danh thư điện tử như nơi gửi, nơi nhận, tuyến đường đi,....
Phần tiêu đề cho phép xác định thông tin về trạng thái thông điệp thư điện tử từ khi
bắt đầu gửi đi tới khi đến đích. Thơng tin trong phần tiêu đề được thêm vào và đọc
bởi các phần mềm thư điện tử (mail transfer software) trong quá trình truyền thư
điện tử.
Phần tiêu đề có thể có rất nhiều trường thông tin nhưng cơ bản gồm các
trường: From, Return-Path, Received, Message-ID, To, Subject, Date, MIMEVersion, X-Mailer, Content-Type. Các hệ thống thư điện tử khác nhau cũng có thể
chèn thêm các trường thông tin khác vào để hỗ trợ cho chức năng của các hệ thống
đó.

− Trường Return-Path :
Đây là một trường tùy chọn, nếu trường này xuất hiện trong một phần tiêu đề

tin cậy thì trường này thể hiện một cách chính xác địa chỉ gửi của thư điện tử.
Trường này khá tin cậy bởi lẽ nó được chèn vào bởi MT (mail agent) đầu tiên (gốc)
trong tiến trình truyền thư. Tuy nhiên về mặt kỹ thuật trường này vẫn có thể bị thay
đổi.

− Trường Received:
Trường này chứa các thơng tin về tuyến đường đi của thư điện tử. Trong một
thơng điệp thư điện tử có thể có nhiều trường Received. Mỗi một trường Received
tương ứng với một tuyến đường mà thư điện tử đã đi qua. Khi một thiết bị mạng
(host) nhận được thư điện tử, thiết bị đó sẽ thêm vào thông điệp thư điện tử thông
tin về tuyến đường của nó lên trên cùng, được thể hiện qua trường Received.
Trường Received càng ở phía trên thơng điệp điện tử thì càng gần đích đến của thư
điện tử.

11


Chương 1: Tổng quan về thư rác

Một cách đơn giản, tuyến đường đi của thư điện tử được mô tả như hình vẽ
dưới đây.

Hình 1-2: Định dạng tuyến đường đi cơ bản của thư điện tử

Trong thực tế có thể thư điện tử đi qua nhiều tuyến hơn, khi đó số lượng trường
Received cũng sẽ tăng lên. Vì vậy, cấu trúc đầy đủ của trường Received có dạng:

Hình 1-3: Cấu trúc đầy đủ trường Received

[sending-host's-name][sending-host's-address]: tên máy gửi thư và địa chỉ IP tương

ứng
[receiving-host's-name]: tên máy nhận thư
[software-used]: phần mềm được sử dụng để gửi thư
[protocol] : Giao thức được sử dụng để gửi thư
[message-ID]: ID của thư điện tử
[recipient's-address]: trường này là một lựa chọn, thường xuất hiện trong
trường Received đầu tiên, cung cấp địa chỉ thư điện tử của người nhận. Đây là một
trường khá tin cậy.
[date][time][time-zone-offset]: Ngày giờ và múi thời gian tương ứng nhận thư:
Xét ví dụ:

12


Chương 1: Tổng quan về thư rác

Hình 1-4: Ví dụ về tuyến đường đi của một thư điện tử

Ở đây có 3 trường Received:
Trường Received đầu tiên (ở dưới cùng) cho biết thư điện tử xử lý bởi một
máy tính trong cơng ty có tên tương ứng là exanpcn2.arinc.com (5.5.2653.19). Đây
chính là địa chỉ của máy tính gửi thư.
Trường Received ở giữa cho biết thư điện tử được gửi từ địa chỉ
exanpcn2.arinc.com tới địa chỉ exanpcn4.arinc.com thông qua mạng nội bộ vì hai
máy tính này cùng trong một cơng ty. Địa chỉ exanpcn4.arinc.com là địa chỉ máy
chủ thư điện tử của công ty.
Trường Received trên cùng cho biết thư điện tử đã được gửi từ máy chủ thư
điện tử exanpcn4.arinc.com tới mta009.verizon.net thông qua mạng Internet. Địa
chỉ mta009.verizon.net là địa chỉ máy chủ nhận thư.


− Trường From, To:
Cho phép người gửi chỉ định người gửi và nhận thư điện tử. Tuy nhiên, hai
trườngnày hồn tồn khơng tin cậy bởi vì không thực sự được xử lý bởi phần mềm
thư điện tử, người gửi hồn tồn có thể thay đổi nội dung trường này một cách dễ
dàng. Hai trường này không được mô tả trong RFC-821 (SMTP), nhưng được mô tả
trong RFC-822. Với những đối tượng gửi thư rác, hai trường này thường là khơng
chính xác.
13


Chương 1: Tổng quan về thư rác

− Trường MIME-Version: Chỉ định phiên bản của giao thức MIME được
sử dụng trong thư điện tử

− Trường X-Mailer: Phần mềm gửi thư điện tử
− Trường Content-Type: Chỉ định loại dữ liệu được sử dụng trong thư điện
tử.
Để xem nội dung phần tiêu đề trong Outlook Express: chọn thư điện tử muốn
xem, ấn chuột phải, chọn Properties, chọn tab Detail
Để xem nội dung phần tiêu đề trong Thunderbird: chọn thư điện tử muốn
xem, chọn menu View, chọn Header, chọn All.
Phần nội dung chứa nội dung chính của thơng điệp thư điện tử. Dữ liệu trong
phần nội dung rất đa dạng, có thể là văn bản, hình ảnh, âm thanh, mã HTML, mã
Javascript,....
1.1.3 Trao đổi thư điện tử
a. Mơ hình trao đổi thư điện tử
Q trình trao đổi thư điện tử sử dụng hai loại giao thức: giao thức gửi thư và
giao thức nhận thư. Giao thức gửi thư là SMTP (Simple Mail Transfer Protocol),
giao thức nhận thư là POP3 (Post Office Protocol) hoặc IMAP (Internet Mail

Access Protocol).

Hình 1-5: Mơ hình trao đổi thư điện tử

14


Chương 1: Tổng quan về thư rác

- Giao thức gửi thư SMTP
SMTP là một trong những giao thức cơ bản của Internet, được sử dụng để gửi
thư điện tử. SMTP gửi thông điệp dựa trên giao thức tin cậy TCP, sử dụng cổng
mặc định là 25. Cũng như đa phần các giao thức ở lớp ứng dụng, SMTP gồm hai
thành phần: thành phần máy chủ SMTP (server) và thành phần máy khách SMTP
(client). Cả hai thành phần này đều được tích hợp trên các máy chủ thư điện tử
(mail server). Khi máy chủ gửi thư, nó đóng vai trị là client, khi máy chủ nhận thư
nó đóng vai trị là server.
SMTP được định nghĩa trong RFC 821. SMTP là một giao thức dùng nền văn
bản và tương đối đơn giản. Vì vậy, những tiêu chuẩn như MIME đã được xây dựng
để mã hóa những tập tin nhị phân, cho phép chúng được truyền tải dùng giao thức
SMTP. Hiện nay, phần lớn các trình chủ SMTP hỗ trở phần mở rộng 8BITMIME
của SMTP, cho phép các tập tin ở dạng thức nhị phân được truyền thông qua đường
dây, dễ như việc truyền tải văn bản thường vậy.
Giả sử A muốn gửi cho B một thơng điệp thư điện tử, q trình làm việc của
SMTP diễn ra như sau.
A sử dụng phần mềm gửi thư điện tử để soạn thư và gửi đi.
Thư điện tử được gửi tới máy chủ thư điện tử của A.
Máy chủ thư điện tử của A sẽ thực hiện chức năng thành phần máy khách
SMTP, mở kết TCP nối tới máy chủ thư điện tử SMTP của B.
Sau khi kết nối, máy chủ thư điện tử của A sẽ gửi thư tới máy chủ thư điện tử

của B.
Máy chủ thư điện tử của B nhận thư và đưa thư điện tử đó vào hịm thư của B.
B sẻ dụng phần mềm đọc thư để lấy thư về.
Ví dụ về trao đổi thư SMTP
Sau khi kết nối giữa người gửi (trình khách) và người nhận (trình chủ) đã được
thiết lập, máy chủ gửi thư và máy chủ nhận thư sẽ trao đổi với nhau để thực hiện
quá trình gửi, nhận thư điện tử. Trong cuộc trao đổi dưới đây, những gì máy khách
gửi được đánh dấu bằng chữ C: đứng trước, cịn những gì máy chủ gửi được đánh
15


Chương 1: Tổng quan về thư rác

dấu bằng S:. Các hệ thống máy tính đều có thể thiết lập một kết nối, bằng cách dùng
những dòng lệnh của phần mềm telnet, trên một máy khách. Chẳng hạn:
telnet www.example.com 25
khởi động một kết nối SMTP từ máy gửi thông điệp đến máy chủ
www.example.com.
S: 220 www.example.com ESMTP Postfix
C: HELO mydomain.com
S: 250 Hello mydomain.com
C: MAIL FROM:<>
S: 250 Ok
C: RCPT TO:<>
S: 250 Ok
C: DATA
S: 354 End data with <CR><LF>.<CR><LF>
C: Subject: test message
C: From:
C: To:

C:
C: Hello,
C: This is a test.
C: Goodbye.
C: .
S: 250 Ok: queued as 12345
C: QUIT
S: 221 Bye
Tuy không bắt buộc và không được liệt kê trên đây, hầu hết các trình khách sẽ
hỏi trình chủ xem tính năng mở rộng SMTP nào là tính năng trình chủ hỗ trợ, bằng
cách gửi thơng điệp chào hỏi "EHLO" cho trình chủ, và khởi động tính năng
ESMTP (Extended SMTP - SMTP mở rộng) của trình chủ.
16


Chương 1: Tổng quan về thư rác

Những trình khách hiện đại thường dùng câu lệnh "SIZE" (cỡ) - một trong
những từ chìa khóa (keyword) - trong SMTP mở rộng để điều tra cỡ lớn tối đa của
thơng điệp mà trình chủ có thể chấp nhận.
Khi có dự định hiệu chỉnh những tập tin khổng lồ, hoặc dự định gửi tập tin
bằng những trình khách cũ, người dùng có thể xác định được độ lớn tối đa của
thơng điệp mà trình chủ ESMTP cho phép và chấp nhận, trước khi gửi thơng điệp.
Người dùng có thể sử dụng phần mềm "telnet" như đã nói ở trên, thay thế dịng lệnh
"HELO mydomain.com" với dòng lệnh "EHLO mydomain.com", như được liệt kê
dưới đây:
S: 220-serverdomain.com ESMTP {postfix version and date}
S: 220-NO UCE. {etc., terms of service}
C: EHLO mydomain.com
S: 250-serverdomain.com Hello mydomain.com [127.0.0.1]

S: 250-SIZE 14680064
S: 250-PIPELINING
S: 250 HELP
Trình chủ tại serverdomain.com trên đây báo cáo với người dùng rằng nó sẽ
nhận một thơng điệp với cỡ tối đa là 14.680.064 byte (một byte bằng 8-bit). Tuy
báo vậy, song thực tế còn tùy thuộc vào thực trạng và tình hình sử dụng tài nguyên
ở máy chủ lúc đó, trình chủ có thể khơng có khả năng chấp nhận được thơng điệp có
độ lớn như đã báo.
Có trường hợp trình chủ ESMTP chỉ thơng báo cỡ SIZE tối đa, khi trình khách
dùng EHLO trong khi tương giao với trình chủ, mà thơi. Khi dùng, nếu chúng ta
phát hiện thấy khơng có con số nào hiện ra sau câu lệnh "SIZE", trong khi giới hạn
về độ lớn của thông điệp nhất định phải được xác định một cách chính xác, thì
người dùng có thể tương giao tiếp tục với trình chủ bằng cách giả vờ tạo một mẫu
tin đầu ESMTP trong một thơng điệp, trong đó đã gắn một con số ước chừng nào
đấy về cỡ lớn của thơng điệp và gửi thơng điệp này cho trình chủ.
-Giao thức POP3
17


Chương 1: Tổng quan về thư rác

Giao thức nhận thư POP3 được định nghĩa trong RFC 1939. Giao thức này
cũng rất đơn giản nên chức năng có một nhiều hạn chế. POP3 sử dụng cổng TCP
110.
POP3 có thể thực hiện các chức năng như:
− Nhận và xóa thư điện tử trên máy chủ thư điện tử
− Nhận nhưng khơng xóa thư điện tử trên máy chủ thư điện tử
− Lựa chọn có nhận thư điện tử mới về khơng
− Chỉ xem một phần nội dung thư để biết có nên nhận thư hay khơng
Khi q trình kết nối TCP được thiết lập, POP sẽ thực thi ba tiến trình: chứng

thực, tương tác và cập nhật. Quá trình chứng thực máy khách sẽ gửi thông tin về tài
khoản (username/password) để chứng thực việc nhận thư. Quá trình thứ hai là quá
trình máy khách tải thư điện tử vể. Ở quá trình này, máy khách có thể thực hiện
như đánh dấu thư cần xóa, loại bỏ đánh dấu,…. Q trình thứ ba xảy ra sau khi máy
khách thực hiện lệnh thoát (quit), khi đó máy chủ thư điện tử sẽ thực thi các cập
nhật mà máy khách đã yêu cầu.
Trong quá trình tương tác giữa máy chủ và máy khách, máy khách sẽ gửi các
câu lệnh và máy chủ sẽ phản hồi lại từng câu lệnh bằng +OK hoặc –ERR. Quá trình
chứng thực được thực hiện qua hai câu lệnh là: user <user name> và pass
.
Ví dụ khi Telnet tới một máy chủ POP3, sử dụng cổng 110. Giả sử máy chủ
mail tên là mailServer. Quá trình sẽ như sau:
telnet mailServer 110
+OK POP3 server ready
user alice
+OK
pass hungry
+OK user successfully logged on
Nếu lệnh sau, POP3 sẽ trả về thông điệp -ERR.

18


Chương 1: Tổng quan về thư rác

Ví dụ dưới đây mơ tả q trình tương tác với máy chủ POP3. Trong trường hợp này
C: là máy khách, S: là máy chủ
C: list
S: 1 498
S: 2 912

S: .
C: retr 1
S: (blah blah ...
S: .................
S: ..........blah)
S: .
C: dele 1
C: retr 2
S: (blah blah ...
S: .................
S: ..........blah)
S: .
C: dele 2
C: quit
S: +OK POP3 server signing off
- Giao thức IMAP
Người sử dụng thường có nhu cầu tổ chức, phân loại, tìm kiếm thư điện tử và
người sử dụng chỉ có thể làm việc đó sau khi đã tải thư điện tử về máy. Vì POP3
khơng hỗ trợ các tính năng như vậy nên người sử dụng khơng thể thực hiện đó trên
máy chủ thư điện tử.
IMAP khắc phục những hạn chế của POP. IMAP được mô tả trong RFC 2060.
Cũng giống như POP3, IMAP là một giao thức nhận thư điện tử, tuy nhiên nó phức
tạp và có nhiều tính năng hơn POP3.

19


Chương 1: Tổng quan về thư rác

IMAP được thiết kế để cho phép người sử dụng có thể thực hiện các thao tác

trực tiếp trên hòm thư điện tử của mình. Người sử dụng có thể tạo, xóa các thư mục
để phân loại thư, có thể chuyển thư điện tử từ thư mục này sang thư mục khác.
Một đặc điểm khác biệt nữa của IMAP so với POP3 là nó cho phép người sử
dụng chỉ lấy về một phần thông tin của thư điện tử. Ví dụ như chỉ cần lấy tiêu đề,
chỉ cần lấy các tệp tin đính kèm,…
b. Phần mềm trao đổi thư điện tử
Thơng thường có hai loại mail thông dụng là web mail và POP mail.
Webmail là loại mail mà hình thức giao dịch mail giữa client và server dựa trên
giao thức web (http), thông thường web Mail là miễn phí. Cịn POP Mail là loại
mail mà các mail client tương tác với mail server bằng giao thức POP3. Mail loại
này tiện lợi và an toàn hơn nên thông thường là phải đăng ký thuê bao với nhà cung
cấp dịch vụ.
Sử dụng WebMail
Người dùng muốn có một địa chỉ mail Internet để giao dịch với người dùng
bè trên thế giới, người dùng có thể đến nhà cung cấp dịch vụ Internet để đăng ký
hoặc tự tạo cho mình một địa chỉ mail miễn phí trên các Web site nổi tiếng như
Yahoo, Hotmail, gmail … Với địa chỉ thư điện tử này người dùng có thể gửi và
nhận mail đến bất kỳ ai, đến bất kỳ nơi đâu trên Internet một cách hồn tồn miễn
phí, nhưng mức độ an tồn dành cho loại mail thường khơng được đánh giá cao.
Sử dụng phần mềm
Hiện nay, có rất nhiều loại phần mềm để trao đổi thư điện tử được cài đặt trên
các máy client để gửi và nhận mail (ví dụ: Outlook Express, Thunderbird, Microsoft
Office Outlook, Eudora, Netscape…).
1.1.4 Một số thống kê về thư điện tử
Trong năm 2009 có 90.000.000.000.000 số lượng các thư điện tử được gửi
trên Internet, 247.000.000.000 số tin nhắn thư điện tử trung bình mỗi ngày,
1.400.000.000 số lượng người sử dụng thư điện tử trên toàn thế giới.

20



Chương 1: Tổng quan về thư rác

Theo eMarketer, khoảng 94 % số lượng người sử dụng Internet có thư điện tử.
Năm 1999, các nhà hoạt động quảng cáo đã đầu tư 97 triệu đô la cho các chiến dịch
quảng cáo qua thư điện tử. Theo nghiên cứu của Forrester, chi phí quảng cáo qua
thư điện tử năm 2004 lên tới 4.8 tỷ đô la.
Theo thống kê của công ty dịch vụ PLC (Anh), trung bình một nhân viên văn
phịng gửi đi 3.840 thư điện tử/năm - tương đương với 158.064 thư điện tử trong
suốt cuộc đời làm việc của người này. Kết quả thăm dò này cũng cho thấy một nhân
viên văn phòng cần mẫn cũng sử dụng tới 27 phút/ngày để gửi thư điện tử cho
người dùng bè và gia đình, tương đương khoảng 288 thư điện tử/năm; và có tới 37%
tổng số thư điện tử được gửi đi từ các văn phòng là trao đổi cá nhân.
Tại Việt Nam hiện tại với 24,3 triệu người sử dụng Internet trong số 89,6 triệu
dân, là quốc gia đứng thứ 20 trên thế giới có số người sử dụng Internet cao nhất.
Như vậy, số lượng thư điện tử cũng đi liền với số lượng người dùng Internet sử
dụng trong công việc hàng ngày.
Với các số liệu thống kê như trên chúng ta có thể ước tính được tầm quan
trọng và ảnh hưởng của thư điện tử đối với sự phát triển kinh tế - xã hội là rất lớn.
Do đó, vấn đề sử dụng hợp lý và bảo vệ nguồn tài nguyên thư điện tử phải được cả
cộng đồng người dùng Internet quan tâm, tránh việc sử dụng bừa bãi gây hao tổn
nguồn tài nguyên Internet.
1.2 Thư điện tử rác
1.2.1 Khái niệm thư điện tử rác
Thư điện tử rác là thư gửi đến người nhận mà người nhận đó khơng mong
muốn hoặc khơng có trách nhiệm phải tiếp nhận theo quy định của pháp luật (theo
Nghị định 90/2008/NĐ-CP)
1.2.2 Các đặc điểm nhận dạng thư điện tử rác
- Dựa vào nội dung thư điện tử
- Để ý trường To trong tiêu đề (header) của thư điện tử, nếu khơng thấy tên

của mình hoặc địa chỉ thư điện tử, thì đây chính là thư điện tử giả mạo.

21


Chương 1: Tổng quan về thư rác

- Để ý lời chào hỏi, khơng thấy câu chào hỏi nào thì đây cũng là một nghi
vấn để xem nó là một thư điện tử giả mạo.Bởi vì những kẻ giả mạo thư điện tư
thường khơng biết chính xác tên của người nhận. Tuy nhiên, khơng phải thư điện tử
nào khơng có lời chào hỏi đều là giả mạo, đây là một cách mang tính sơ bộ để đánh
giá.
- Xem các URL xuất hiện trong thư điện tử và so với thanh trạng thái của
trình duyệt, khi di chuột trên URL khơng cần kích vào chúng, sau đó quan sát thanh
trạng thái bên dưới và so sánh hai liên kết. Để ý giao thức an tồn hiển thị trong
URL là https:// thay vì http://. Nếu phát hiện thấy URL chỉ hiện thị http:// thì có thể
là một thư điện tử giả mạo.

Hình 1-6: Đặc điểm nhận dạng thư rác qua header, lời chào hỏi, qua URL

- Lưu ý đến những lời chào hỏi mang tính chung chung. Khi khơng thấy lời
chào hoặc thấy một lời chào mang tính chung chung thì đây cũng là một nghi vấn.
Không phải tất cả các thư điện tử như vậy là giả mạo, nhưng đây cũng là một dấu
hiệu khá quan trọng để chúng ta nhận biết thư điện tử giả mạo.

22


Chương 1: Tổng quan về thư rác


- Để ý đến ngữ pháp của ngôn ngữ: Kẻ giả mạo thường đến từ các nước
khơng nói tiếng Anh, nên họ thường mắc một số lỗi chấm câu và ngữ pháp nhỏ
trong lúc copy.
- Không tin vào địa chỉ liên kết xuất hiện trong thanh trạng thái của trình
duyệt. So sánh địa chỉ URL trong thư điện tử và trong thanh trạng thái hồn tồn
giống nhau, thì vẫn có thể liên kết thực lại trỏ đến một địa chỉ nào đó. Để kiểm tra
chúng ta nên chọn URL và copy nó sau đó paste nó vào trình duyệt khác để xem
xét. Khơng sử dụng lệnh copy Link Location từ menu chuột phải
- Kiểm tra tên miền của liên kết bằng cách so sánh tên miền trong thư điện tử
và tên miền trong thanh trạng thái
Giả mạo thông tin định danh trong thư điện tử là thay đổi các thông tin trong
phần tiêu đề thư điện tử.
Bản thân SMTP, đã không được thiết kế với tính năng bảo mật. Chính vì vậy
thư điện tử có thể giả mạo rất dễ dàng. Mặc dù khơng phải tất cả trường trong tiêu
đề thư điện tử đều có thể giả mạo và về mặt kỹ thuật vẫn có thể tìm ra được nguồn
gốc của thư điện tử nhưng việc này đơi khi rất khó khăn và mất thời gian. Hơn nữa
trong trường hợp thư điện tử không được gửi trực tiếp từ nhà của kẻ phát tán thư rác
(spammer) thì việc truy tìm thủ phạm phát tán thư rác là không thể.
Các trường thông tin trong phần tiêu đề có thể bị thay đổi: Subject, Date,
Message-ID, From, To, CC, X-Mailer and X-Message-Info, trường Received khởi
tạo.
Các trường thông tin trong phần tiêu đề không thể bị thay đổi: trường
Received cuối cùng, trường thể hiện máy chủ thư điện tử gốc (địa chỉ IP).
Các spammer thay đổi thông tin trong phần tiêu đề theo hai cách:

- Cung cấp thông tin sai trong q trình khởi tạo thơng điệp, q trình kết nối
với máy chủ thư điện tử.
Nhìn vào ví dụ ta thấy thư điện tử được gửi đi từ tài khoản yahoo.com,
nhưng thư điện tử đó khơng được chuyển qua máy chủ thư điện tửcủa yahoo.com
mà được gửi đi từ máy chủ thư điện tử gmx.net thông qua các trường Received.

Chứng tỏ đây là một hình thức giả mạo. Các Spammer có thể dễ dàng dùng phần
mềm để thêm vào tên của máy gửi qua câu lệnh HELO (fw.muan.chonman.kr)
nhưng máy chủ thư điện tử có thể ghi lại địa chỉ IP cung cấp kết nối giữa máy gửi
và máy nhận (211.34.18.231).
23


Chương 1: Tổng quan về thư rác

Hình 1-7: Giả mạo thư rác qua kết nối máy chủ

- Thêm các thông tin sai lệnh vào phần thông tin định tuyến (trường
Received)
Cách 2 thường u cầu máy tính gửi thư thơng qua máy tính trung gian gọi là
open relay hoặc open proxy.
Spammer cũng có thể thay đổi nội dung tuyến đường đi của thư điện tử bằng
cách thêm vào các trường Received giả mạo trước khi gửi thư đi. Các trường
Received giả mạo này sẽ khiến người nhận không thể lần ra được q trình đi thực
sự của thư điện tử.

Spammer có thể thêm một hoặc một số trường Received đầu tiên vào thư điện tử.
Hình 1-8: Giả mạo thư rác thơng qua trường Received

24


×