Tải bản đầy đủ (.pdf) (73 trang)

Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 73 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÂM TĂNG DOAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC
TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ
ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT

Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã Số: 8480205.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam

Hà nội – 11/2020


i

Mục lục
LỜI CẢM ƠN ................................................................................................ iii
LỜI CAM ĐOAN ........................................................................................... iv
DANH MỤC HÌNH VẼ .................................................................................. v
Chương 1: Giới thiệu ...................................................................................... 1
1.1.
1.2.
1.3.
1.4.


Mục tiêu của nghiên cứu .............................................................. 1
Phương pháp nghiên cứu ............................................................. 2
Cấu trúc luận văn ......................................................................... 2
Tổng quan về thư rác ................................................................... 2
1.4.1. Định nghĩa ......................................................................... 2
1.4.2. Thống kê và tác hại của thư rác ...................................... 3
1.4.3. Phương pháp phân loại thư rác ...................................... 6
1.4.4. Các loại thư rác................................................................. 7
1.4.5. Mô hình lọc thư rác ........................................................ 10
1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13
1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14
1.4.8. Mơ hình lọc thư rác của Zimbra ................................... 14

Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19
2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19
2.1.1. Lọc IP ............................................................................... 19
2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20
2.1.3. Cải thiện xác thực thư để phòng chống thư rác .......... 20
2.1.4. Bảo vệ địa chỉ .................................................................. 22
2.2. Các kỹ thuật lọc thư rác ............................................................. 22
2.2.1. Phương thức trích xuất thư điện tử .............................. 23
2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32
2.2.3. Các kỹ thuật lọc thư rác thông minh ............................ 35
2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40
2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42


ii

Chương 3. Đề xuất và Thực nghiệm ........................................................... 44

3.1. Đề xuất giải pháp lọc thư rác .................................................... 44
3.1.1. Mơ hình thực nghiệm vật lý........................................... 45
3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes................... 46
3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48
3.2. Thực nghiệm ............................................................................... 55
3.2.1. Dữ liệu huấn luyện ......................................................... 55
3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes .............. 55
3.2.3. Kiểm thử hệ thống chỉ có Nạve Bayes ......................... 56
3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59
3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61
KẾT LUẬN .................................................................................................... 64
TÀI LIỆU THAM KHẢO ............................................................................ 65


iii

LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,
PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và
tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hồn thành cơng
việc của mình.
Tơi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Cơng nghệ, ĐHQGHN đã tận tình huấn luyện, cung
cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho
tơi trong suốt q trình học tập, nghiên cứu tại trường.
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tơi
cùng tồn thể bạn bè những người đã ln giúp đỡ, động viên tơi những khi
vấp phải những khó khăn, bế tắc.
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường
Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận

lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Cơng nghệ,
Đại học Quốc Gia Hà Nội.


iv

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu
các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất
phương án lọc thư rác tiếng Việt” là cơng trình nghiên cứu của riêng tơi, khơng
sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều
đã được trình bày hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều
nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và
hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày 20 tháng 12 năm 2020.

Lâm Tăng Doan


v

DANH MỤC HÌNH VẼ
Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] ................................................................. 3
Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5] .............................................. 7
Hình 1.3. Mơ hình khái qt về gửi, nhận thư điện tử .................................................................... 10
Hình 1.4. Mơ hình lọc thư rác [9] .................................................................................................... 12
Hình 1.8. Quy trình lọc nội dung thư rác [9] ................................................................................... 13

Hình 1.9. Quy trình lọc nội dung thư điện tử [9] ............................................................................. 14
Hình 1.5. Mơ hình xử lý thư của Zimbra ......................................................................................... 15
Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ........................... 17
Hình 1.7. Thành phần chính của mơ đun lọc của Spamassassin [11] .............................................. 17
Hình 3.1. Kiến trúc mơ hình lọc thư rác .......................................................................................... 45
Hình 3.2. Tỉ lệ xuất hiện của các cụm từ ......................................................................................... 51
Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện ............. 51
Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc ...................................................................... 54
Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes ............................................................ 55
Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes ................... 56
Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Naïve Bayes ................................. 56
Hình 3.8. Kết quả kiểm tra mass-check ........................................................................................... 57
Hình 3.9. Phân bổ điểm của tập thư rác ........................................................................................... 57
Hình 3.10. Điểm của 1 thư rác đã có lọc Nạve Bayes .................................................................... 58
Hình 3.11. Thống kê khả năng lọc thư của hệ thống ....................................................................... 59
Hình 3.12. Tỉ lệ nhận định thư rác đúng .......................................................................................... 59
Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................ 60
Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ............................................................................... 62
Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo .................................................. 62


1

Chương 1: Giới thiệu
Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép
liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử
dụng nhiều nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện
tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong
vịng vài giây và hầu như miễn phí. Do đó, số lượng người sử dụng thư điện tử
cho công việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận

nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng
cho mục đích xấu. Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở
thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân.
Một số thư rác có mục đích thương mại, một số khác để để bày tỏ ý kiến chính
trị hoặc tôn giáo, hoặc lừa đảo khán giả hoặc phát tán virus.
Thư rác đã trở thành một công cụ phổ biến phục vụ cho mục đích xấu
do thư rác dễ triển khai, có khả năng gửi hàng loạt, chi phí thấp và khả năng
tiếp cận người dùng cao. Hơn nữa do trở ngại về công nghệ với cơ sở hạ tầng
thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhóm gửi thư rác rất khó và
tốn thời gian. Ngoài ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo
địa chỉ của thông điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung
của Internet gây khó khăn cho việc thực hiện các biện pháp bảo vệ pháp lý.
Tại các trường đại học, các cán bộ công nhân viên cũng như sinh viên
đều đang sử dụng thư điện tử để trao đổi công việc, học tập. Do đó, việc ngăn
chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu
trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên
truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vô cùng
cần thiết.
Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy có rất
nhiều thư rác Tiếng Anh ở hịm thư người dùng Việt, thậm chí nhiều hơn thư
rác tiếng Việt. Do đó, ta cần triển khai một bộ lọc thư rác có thể lọc cả thư rác
Tiếng Việt và Tiếng Anh.

1.1. Mục tiêu của nghiên cứu
Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển
khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện
nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối
với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư



2

điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh.
Do đó, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng
Việt.

1.2. Phương pháp nghiên cứu
Phương pháp luận được sử dụng trong đề tài này bao gồm phương pháp
nghiên cứu và tổng hợp lý thuyết và phương pháp thực nghiệm. Mục lý thuyết
được nghiên cứu và thu thập từ các sách, bài báo tạp chí chuyên ngành.
Sau khi có được nền tảng lý thuyết và mơ hình thực nghiệm sẽ tiến hành.
Mơ hình thực nghiệm được xây dựng, hỗ trợ bởi một số nền tảng lý thuyết. Các
kết quả thực nghiệm thu được sẽ được đánh giá và kiểm chứng lại trên nền lý
thuyết.

1.3. Cấu trúc luận văn
Đề tài bao gồm 3 chương chính. Đề tài được nghiên cứu và xây dựng đi
lên từ những nghiên cứu tổng quan về thư rác, thảo luận tổng quan về thư rác,
mơ hình tổng quan về gửi và nhận thư điện tử cũng như các phương thức xác
thực để phòng chống thư rác (Chương 1).
Chương 2 sẽ trình bày các phương pháp trích xuất thơng tin thư điện tử,
kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận
dạng và các kỹ thuật lọc rác cơ bản và thông minh. Tiếp theo, luận văn so sánh,
nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đó
đưa ra đề xuất phù hợp.
Cuối cùng, Chương 3 mô tả thực nghiệm bao gồm đề xuất mô tả kiến
trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá
kết quả thực nghiệm.

1.4. Tổng quan về thư rác

1.4.1. Định nghĩa
Có rất nhiều định nghĩa khác nhau cho thư rác. Theo [1], thư rác (spam)
là hoạt động gửi thư điện tử không được yêu cầu, với số lượng lớn và trong
một số trường hợp liên tục gửi đến những cá nhân mà khơng có liên hệ trước
đó và địa chỉ e-mail của họ được thu thập không hợp pháp, hoặc spam thường
được hiểu là việc gửi đi hàng loạt các thư thương mại không được yêu cầu bởi
một người gửi ngụy trang hoặc giả mạo danh tính, hay được định nghĩa là tin


3

nhắn điện tử không được yêu cầu, bất kể nội dung [1] [2]. Định nghĩa này có
tính đến các đặc điểm của thư điện tử hàng loạt [2].
Các định nghĩa về thư rác đều có những đặc điểm chung như sau:












Gửi bằng thư điện tử
Sử dụng các địa chỉ được thu thập mà khơng có sự đồng ý
Gửi hàng loạt
Khơng mong muốn nhận

Lặp đi lặp lại
Nhầm mục đích thương mại hoặc tài chính
Khơng có mục tiêu và bừa bãi
Khơng thể ngăn cản
Ẩn danh và / hoặc ngụy trang
Nội dung bất hợp pháp hoặc xúc phạm
Nội dung lừa đảo hoặc gian lận

1.4.2. Thống kê và tác hại của thư rác
Thư rác chiếm một phần rất lớn của băng thông mạng, theo thống kê của
Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luôn nhiều hơn so
với số lượng thư hợp lệ (ham). Mặc dù số lượng thư rác có giảm xuống so với
những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, có thể thấy thư rác
vẫn chiếm một lượng băng thơng mạng lớn.

Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3]

Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm
lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thời gian gần đây


4

nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư
rác toàn cầu. Bất chấp sự phổ biến của nó, tỷ lệ thư rác e-mail toàn cầu thực sự
đang giảm: tỷ lệ thư rác hàng năm toàn cầu trong năm 2018 là 55%, giảm so
với 69% vào năm 2012 [5].
Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6].
Phần lớn trong số đó là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi
ngày. Trong khi nhiều người sử dụng cho rằng nội dung đó nằm trong thư mục

thư rác của họ, e-mail tiếp thị nói chung là vơ hại, tuy gây khó chịu cho người
dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư
đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6]. Tuy nhiên, mọi
thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư
rác của các e-mail tiếp thị thương mại đã giảm xuống còn 9%, giảm từ 14%
vào năm 2017 [6]. Tuy nhiên, không phải tất cả các thư rác đều là những email quảng cáo lành tính. Một phần đáng kể các thư rác có tính chất độc hại
hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6].
Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác,
9,64% khối lượng thư rác toàn cầu bắt nguồn từ các IP có trụ sở tại Hoa Kỳ
tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư
rác toàn cầu [6].
Thư rác là thư điện tử được gửi không mong muốn, gây ra nhiều ảnh
hưởng đến nhiều mặt khác nhau:
• Quá tải băng thông: Thư rác chặn các kênh liên lạc và tạo ra lưu
lượng băng thơng lớn (chi phí băng thơng này cơng ty/doanh
nghiệp phải trả tiền). Ngồi ra, có những máy chủ thư phải xử lý
thư rác và những máy chủ này phải được bảo trì bởi các chuyên
gia được trả lương cao. Do đó, chi phí vận hành cơ sở hạ tầng tăng
đáng kể.
• Tốn thời gian. Nếu thư rác đến hộp thư đến của người dùng, người
nhận phải xóa nó theo cách thủ cơng. Một người đọc 10-20 thư
điện tử mỗi ngày có thể nhận được khoảng 160-180 tin nhắn rác
cùng với thư từ công việc của họ. Điều đó có nghĩa là họ sẽ dành
5-6 giờ mỗi tháng chỉ để xóa thư rác, gây phương hại đến thời
gian làm việc hiệu quả của họ.
• Khó chịu và phiền tối. Bằng cách xóa thủ cơng thư rác, người
dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’. Việc
buộc phải thực hiện các biện pháp như vậy khơng thể khơng gây
khó chịu cho người dùng, dẫn đến những cảm xúc tiêu cực không



5

mong muốn. Cũng có thể trong q trình xóa, người dùng cũng
có thể vơ tình xóa mất một thư điện tử quan trọng cùng với vô số
thư rác. Tất cả những ai đã đối mặt với tình huống như vậy đều
cảm thấy khó chịu và phiền tối.
• Ảnh hưởng của thư rác đối với cá nhân:
Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nói chung.
Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời
gian để phân loại thư điện tử và xóa các thư khơng mong muốn và do đó phải
chịu chi phí cơ hội về thời gian. Thư rác cũng gia tăng chi phí của các nhà cung
cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thông. Cuối cùng, thư rác
được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các
chi phí gián tiếp tiềm ẩn có liên quan đến nó.
Theo ước tính [1] rằng các cơng ty và người tiêu dùng Mỹ phải chịu chi
phí gần 20 tỷ đơ la mỗi năm do thư rác. Con số của người tiêu dùng phải gánh
chịu chi phí gần 20 tỷ đơ la hàng năm do thư rác. Ước tính rằng những người
gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên
toàn thế giới theo đơn đặt hàng là 200 triệu đô la mỗi năm. Do đó, "tỷ lệ" của
chi phí bên ngồi cho lợi ích bên trong cho thư rác là khoảng 100:1 [1].
• Ảnh hưởng của thư rác đối với doanh nghiệp
Trong môi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo
mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do
mất thời gian xóa các thư điện tử khơng mong muốn (hoặc tìm kiếm những cái
đã xóa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] của về
chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đơ la Mỹ mỗi năm.
Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đơ la Mỹ mỗi năm.
Ngồi ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác,
chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP. Ở cấp độ nhà cung

cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật.
Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá
nhân [6]. Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt
với các khoản đầu tư có thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm
thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp
làm sáng tỏ những chi phí tiềm ẩn này.


6

1.4.3. Phương pháp phân loại thư rác
Các phương pháp khác nhau đang được sử dụng để đo lường và phân
tích thư rác. Ba phương pháp tiếp cận chính đang được sử dụng cho việc này:
khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương
pháp tiếp cận dựa trên công cụ kỹ thuật.

1.4.3.1. Phương pháp khảo sát
Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của
những người tham gia khảo sát. Trong phương pháp, điều quan trọng là những
người được chọn trong khảo sát có thể trở thành đại diện mẫu được không. So
với các công cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và có thể được thiết
lập và thực hiện trong thời gian tương đối ngắn. Một ví dụ về nghiên cứu dựa
trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp
tiếp thị qua thư điện tử. Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo
sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL
hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2].

1.4.3.2. Phương pháp dựa trên báo cáo
Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những
người nhận thư rác, sau đó được phân tích. Mục đích chính của phương pháp

này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư
rác, người gửi thư rác và các đặc điểm của việc gửi thư rác. Phương pháp này
dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính tốn khối
lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cận này,
dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đó, định nghĩa
về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người
nhận. Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu
thập và phân tích các báo cáo tự nguyện của người dùng [2]. Trên Google thư
điện tử hay các phần mềm thư điện tử đều có mục ‘Report spam’ để gửi báo
cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác.
Điều này sẽ giúp các nhà cung cấp dịch vụ có những mẫu thu thập về thư rác
đa dạng và tổng quan hơn.

1.4.3.3. Phương pháp kỹ thuật
Phương pháp dựa trên công cụ kỹ thuật khơng cần sự tham gia tích cực
của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn
do nó khơng địi hỏi chủ quan diễn giải của người dùng so với hai cách tiếp


7

cận còn lại. Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ không
thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư
rác, hay xóa bỏ thư rác. Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các
thuật tốn và kỹ thuật được sử dụng, địi hỏi cập nhật liên tục để nhận ra các
dạng thư rác mới. Các cơng cụ kỹ thuật khơng đảm bảo độ chính xác hồn tồn,
do đó dẫn đến nhiều kết quả dương tính giả (thư hợp lệ bị phân loại nhầm thành
spam) và âm tính giả (thư rác bị nhầm lẫn khơng được phân loại) [2].

1.4.4. Các loại thư rác

Thư rác có thể được phân loại theo mục tiêu của người gửi thư rác. Nhiều
người gửi thư rác gửi e-mail hàng loạt vì lý do quảng cáo như gửi quảng cáo
thương mại hoặc mời tham gia vào các chiến dịch chính trị, hoặc nhằm mục
đích lừa đảo hay phân phối phần mềm độc hại như virus hay trojan. Phần này
trình bày các loại thư rác phổ biến và đưa ra số liệu thống kê, nếu có.
Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận
hàng ngày. Điều này bao gồm hàng tỷ thư quảng cáo được gửi bởi các nhà tiếp
thị mỗi ngày. Trong khi nhiều người dùng e-mail tin rằng nội dung như sẽ nằm
trong mục thư rác (Spam), hay thư tiếp thị nói chung là vơ hại, hoặc chỉ là gây
khó chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp
thị nằm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị bộ lọc thư rác
bắt được. Tuy nhiên, mọi thứ đang được cải thiện vào năm 2018, tỷ lệ đặt thư
rác thương mại đã giảm xuống cịn 9%, giảm từ 14% vào năm 2017.

Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5]


8

Theo thống kê [4], các danh mục nội dung thư rác năm 2019, đứng đầu
là nội dung về sức khỏe (39%), sau đó là quảng cáo các sản phẩm (12%), và
các nội dung khác (người lớn, độc hại, lừa đảo, hẹn hị,…) chiếm từ 2% đến
10%.
Nhìn chung, các thư rác được phân thành các loại phổ biến như sau:

1.4.4.1. Thư rác quảng cáo
Thư rác quảng cáo hay còn được gọi là thư rác mục đích thương mại
(viết tắt là UCE). Hầu hết, các thư rác quảng cáo được coi là một loại hình tiếp
thị trực tiếp và được các cơng ty coi là một công cụ quan trọng để tiếp cận
khách hàng (tiềm năng), vì thư điện tử chi phí rẻ (hầu như miễn phí) và dễ dàng

để liên hệ với một nhóm lớn khách hàng. Tuy nhiên, hầu hết thư rác khơng
được gửi bởi chính các cơng ty quảng cáo, mà bởi những người gửi thư rác
(spammer), là những người nhận hoa hồng từ các công ty này [1] một nghiên
cứu ước tính rằng chi phí gửi một thư điện tử là từ 0,01 đô la Mỹ đến 0,05 đơ
la Mỹ [1]. Vì chi phí gửi thư rác rất thấp nên những người gửi thư rác có thể
kiếm được lợi nhuận mặc dù tỷ lệ phản hồi cực kỳ thấp. Theo [1] chỉ ra mặc
dù chi phí thấp, tỷ lệ phản hồi thấp, tuy nhiên khoảng 8% người trả lời thừa
nhận họ đã thực sự mua một sản phẩm quảng cáo qua thư rác. Miễn là những
kẻ gửi thư rác có thể kiếm được nhiều tiền hơn hơn chi phí của họ, họ có thể
sẽ tiếp tục gửi thư rác. Đây là hành vi “hợp lý” theo nghĩa kinh tế.
Ngồi các thư rác nhằm mục đích quảng cáo trực tiếp cịn có các thư rác
gián tiếp sẽ khuyến nghị mua một cổ phiếu cụ thể, nhằm tác động đến giá cổ
phiếu nào đó. Một nghiên cứu thực nghiệm [8] cho thấy trong ngắn hạn, cổ
phiếu thư rác có tác động đáng kể đến cả khối lượng giao dịch và định giá thị
trường. Theo thống kê của Symantec, 80% thư rác về lĩnh vực tài chính, sức
khỏe, Internet và các sản phẩm dành cho người lớn. Theo một thống kê khác
thì thư rác về quảng cáo các loại thuốc chức năng chiếm ưu thế. Hai số liệu
thống kê có sự khác biệt rõ ràng, điều này phụ thuộc vào dữ liệu mẫu của hai
thống kê thu thập được. Tuy nhiên, không thể phủ nhận rằng thư rác quảng cáo
chiếm một thị phần rất lớn của thư rác.

1.4.4.2. Thư rác tuyên truyền, vận động
Các thư quảng cáo không cần thiết phải có mục đích thương mại. Họ
cũng có thể tun truyền các ý tưởng và/hoặc tổ chức chính trị, văn hóa hoặc
tơn giáo. Ví dụ, vào năm 2003, các thành viên của Quốc hội Hoa Kỳ đã gửi
hàng trăm nghìn thư không được yêu cầu cho thành viên nhằm vận động các


9


chiến dịch. Các loại thư điện tử này thường nhằm mục đích kêu gọi sự ủng hộ,
đồng thuận của những người nhận thư.

1.4.4.3. Thư rác lừa đảo
Lừa đảo qua thư điện tử là các tin nhắn lừa đảo cung cấp số tiền lớn và
yêu cầu chi tiết tài khoản ngân hàng hoặc lừa đảo giả mạo các dịch vụ phổ biến
và lừa người nhận cung cấp chi tiết thẻ tín dụng /tài khoản của họ [2]. Một
trong những trò lừa đảo rửa tiền phổ biến là người dùng nhận được thư điện tử
từ một người tự xưng là quan chức chính phủ, thành viên gia đình của một
quan chức đã qua đời hoặc luật sư đại diện cho một khách hàng giàu có đã qua
đời. Thư điện tử hỏi chi tiết ngân hàng hoặc yêu cầu người nhận thanh toán
trước như một cử chỉ thiện chí, với lời hứa sẽ hoàn lại tiền trong tương lai. Nếu
người nhận cung cấp thơng tin chi tiết, thì tài khoản của khách hàng sẽ bị tấn
công và trừ tiền. Ở mỗi quốc gia khác nhau lại có nhiều phiên bản lừa đảo khác
nhau tồn tại.
Một dạng lừa đảo qua thư rác nữa là một doanh nghiệp hợp pháp được
thành lập, nhằm lừa người dùng cung cấp thông tin cá nhân, thông tin này sẽ
được sử dụng để đánh cắp danh tính. Thư gửi đến sẽ hướng dẫn người dùng
truy cập một trang web nơi họ được yêu cầu cập nhật thông tin cá nhân, chẳng
hạn như mật khẩu và thẻ tín dụng, số an sinh xã hội và số tài khoản ngân hàng
mà tổ chức hợp pháp đã có. Tuy nhiên, trang web này là giả mạo và được thiết
lập chỉ để lấy cắp thông tin của người dùng. Sự nguy hiểm của các trò gian lận
lừa đảo là trang web mà nạn nhân hướng đến thường giống thật, vì đó là trang
web giả mạo nhằm sao chép trang web của doanh nghiệp hợp pháp. Lừa đảo
qua thư điện tử này được gọi là phishing, là một biến thể của "câu cá", ý tưởng
là mồi được ném ra với hy vọng rằng trong khi hầu hết sẽ bỏ qua mồi, một số
sẽ bị dụ cắn [2].

1.4.4.4. Thư rác chứa mã độc
Tuy nhiên, không phải tất cả các thư rác đều là thư quảng cáo lành tính.

Một phần đáng kể các tin nhắn rác có tính chất độc hại hơn, nhằm mục đích
phá hoại hoặc chiếm đoạt hệ thống của người dùng. Các biến thể phổ biến nhất
của thư rác độc hại trên toàn thế giới bao gồm vi rút, trojan, phần mềm gián
điệp và phần mềm tống tiền [2]. Vi rút là một chương trình, giống như vi rút
sinh học, có thể sao chép và đơi khi làm hỏng máy tính bị nhiễm. Bằng phương
thức này, vi rút là một chương trình hoặc tài liệu được đính kèm với một thư
điện tử mà khi mở ra, nó sẽ lây lan bằng cách tự chuyển tiếp hàng loạt người
nhận trong danh bạ của người gửi hoặc người dùng sẽ tải xuống và cài đặt giúp


10

kẻ tấn công chiếm quyền điều khiển hệ thống. Đối với thư điện tử từ người lạ,
không nên mở bất kỳ tệp đính kèm nào nếu khơng chắc chắn là nó khơng gây
hại. Thư rác phát tán phần mềm độc hại để lây nhiễm sang máy chủ nhằm
chiếm quyền điều khiển từ xa và được sử dụng để gửi nhiều thư rác hơn. Các
máy chủ bị nhiễm được gọi là "zombie". Nhiều người tin rằng hầu hết thư rác
được gửi qua mạng botnet, là một mạng lưới các máy tính cá nhân bị lây nhiễm
mã độc, tuy nhiên giả thuyết này cũng khó được chứng minh.

1.4.4.5. Thư rác bơi nhọ
Thư rác bôi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả
mạo, nhìn có vẻ đúng là địa chỉ thư của ai đó, nhưng thực sự đó là địa chỉ thư
được giả mạo bởi một người khác, với ý định tạo ra các phiền tối, bơi nhọ
hoặc làm tổn hại đến danh tiếng của nạn nhân vơ tội. Ví dụ, kẻ xấu có thể gửi
một thư rác chứa nội dung khiêu dâm trẻ em cho hàng nghìn người sử dụng địa
chỉ trả lại giả mạo để khiến người nhận phẫn nộ và kích động. Tên "joe job"
lần đầu tiên được sử dụng để mô tả một kế hoạch hướng đến Joe Doll, người
đã cung cấp dịch vụ lưu trữ cho các trang web miễn phí. Một người dùng có
tài khoản bị xóa vì quảng cáo thơng qua thư rác; để trả đũa, anh ta đã gửi một

thư rác khác cho vài triệu nạn nhân vô tội, nhưng với tiêu đề "trả lời" được giả
mạo Joe Doll.

1.4.5. Mơ hình lọc thư rác
1.4.5.1. Mơ hình gửi nhận thư điện tử
Để hiểu về phương thức lọc thư rác, cần tìm hiểu mơ hình gửi nhận thư
điện tử. Mơ hình sau biểu diễn khái quát về cách thức gửi nhận thư:

Hình 1.3: Mơ hình khái qt về gửi, nhận thư điện tử


11

- SMTP: là viết tắt của phương thức Send Mail Tranfer Protocol, là
phương thức gửi thư. Để nhận tải thư điện tử xuống chương trình
của người dùng có 2 protocol sau:
- POP: quản lý thư trên máy tính của người dùng.
- IMAP: quản lý thư trên máy chủ.
• MUA (Mail User Agent)
Ứng dụng của người dùng cho phép nhận và gửi email. Nó có thể là một
ứng dụng như Microsoft Outlook/Thunderbird /… hoặc dựa trên trình duyệt
web như Gmail / Hotmail /… (sau này cịn được gọi là Webmail).
• MSA (Mail Subssmions Agent)
Ứng dụng máy chủ nhận thư từ MUA, kiểm lỗi và chuyển tiếp (qua
SMTP) đến MTA được lưu trữ trên cùng server.
• MTA (Máy chủ chuyển thư)
Ứng dụng máy chủ nhận thư từ MSA hoặc từ MTA khác. Nó sẽ tìm bản
ghi MX từ bản ghi DNS của tên miền của người nhận để biết cách chuyển thư.
Sau đó, nó sẽ chuyển thư (thơng qua phương thức SMTP) đến một MTA khác
(được gọi là SMTP relay) hoặc nếu đã đến máy chủ của người nhận thì sẽ

chuyển tiếp đến MDA.
Ví dụ về MTA là Postfix, Exim, Sendmail, qmail, ...
• MDA (Mail Delivery Agent)
Một chương trình máy chủ nhận thư từ MTA và lưu trữ nó vào hộp thư.
MDA cịn được gọi là LDA (Local Delivery Agent).
Một ví dụ là Dovecot, chủ yếu là máy chủ POP3 và IMAP cho phép
MUA truy xuất thư, nhưng cũng bao gồm MDA lấy thư từ MTA và gửi đến
hộp thư của server.
• Hộp thư: maildir / mbox
Bộ lưu trữ thư của máy chủ. Maildir là một phương thức lưu trữ được
ưu tiên hơn mbox.
• SMTP
Đây là giao thức được MUA sử dụng để gửi email đến MSA. Cổng
SMTP được khuyến nghị để gửi thư (từ MUA đến MSA) là cổng 587, sử dụng
mã hóa TLS.
• IMAP / POP3
Đây là các giao thức được MUA sử dụng để lấy email từ hộp thư máy
chủ. POP3 xóa các email khỏi máy chủ sau khi chúng được tải xuống. Trong


12

khi đó, IMAP duy trì tất cả các thư email trên máy chủ, cho phép quản lý một
hộp thư bởi nhiều ứng dụng máy khách.
• Bản ghi MX (Mail Exchanger)
Bản ghi Mail Exchanger (MX) trong DNS chỉ định máy chủ nào là máy
chủ thư cho một miền. Tên máy chủ từ bản ghi MX phải ánh xạ tới một hoặc
nhiều bản ghi địa chỉ (A hoặc AAAA) trong DNS và không được trỏ đến bất
kỳ bản ghi CNAME nào.


1.4.5.2. Mô hình lọc thư rác tổng quan
Email được chấp thuận

Lọc thư rác doanh
nghiệp

WEB

LAN

MTA
Máy chủ chuyển thư

MUA

MUA

MTA

MUA

Tải Email

Ứng dụng nhận thư (MUA)

Máy chủ chuyển thư

Lọc thư rác cá nhân

Gửi Email


MUA

Hình 1.4: Mơ hình lọc thư rác [9]

Một thư điện tử được gửi và nhận thường thông qua một nhà cung cấp
dịch vụ. Lọc thư rác có thể triển khai ở các cấp sau:
- Lọc thư rác cá nhân: Lọc thư rác ở cấp độ người dùng cung cấp một số
ứng dụng để người dùng cá nhân có thể gửi nhận thư an tồn [9]. Khách
hàng có thể dễ dàng lọc thư rác thông qua các nền tảng dựng sẵn
(framework), một số các nền tảng này sẵn có và có thể cài đặt trên máy
tính dễ dàng. Các nền tảng này có thể tương tác với phần mềm nhận thư
và lọc hộp thư đến của khách hàng và quản lý các tin nhắn.
- Lọc thư rác doanh nghiệp: Đối với lọc thư rác cấp doanh nghiệp, các
nền tảng được cài đặt trên máy chủ thư (thư điện tử server) để tương tác
với máy chủ gửi thư nhằm phân loại tin nhắn hoặc lọc thư rác [9]. Hầu
hết các nền tảng lọc thư rác hiện hành sử dụng phương pháp tính điểm
dựa trên các luật xây dựng sẵn. Khi một chuỗi ký tự trong thư đáp ứng
1 quy tắc thì sẽ được tính điểm, và các điểm cho các chuỗi ký tự trong
một thư sẽ được cộng dồn. Nếu tổng số điểm của 1 thư vượt quá giá trị


13

ngưỡng, thư đó sẽ coi như tin nhắn rác. Vì những kẻ gửi thư rác sử dụng
nhiều chiến lược và biện pháp khác nhau và ln thay đổi, vì vậy tất cả
các chức năng phải được thiết kế lại thường xuyên để tự động chặn thư
rác một cách hiệu quả.

1.4.6. Quy trình hoạt động của lọc thư rác

Mơ hình sau thể hiện quá trình lọc thư rác tiêu chuẩn, bao gồm các bước sau:
Lọc nội dung
(content)

Lọc tiêu đề
(header)

Lọc theo danh
sách chặn

Lọc theo quy tắc
(rule-base)

(blacklist-

Lọc theo cơ chế thách thức-phản
hồi (Challenge- response)

Lọc theo phân quyền
(Permission)

Hình 1.5: Quy trình lọc nội dung thư rác [9]

Đầu tiên là “Bộ lọc nội dung” được sử dụng để xác định thư rác bằng
cách áp dụng một số Kỹ thuật học máy [9]. Thứ hai, tiêu đề sẽ được lọc thông
qua “Bộ lọc tiêu đề” bằng cách trích xuất thơng tin từ tiêu đề thư. Sau đó, bộ
lọc danh sách đen sẽ được chạy để loại bộ những thư điện tử hoặc những IP
trong danh sách chặn. Tiếp theo, "Bộ lọc dựa trên luật” lọc các nội dung theo
các luật do người dùng tạo hoặc cài đặt. Sau đó, "Bộ lọc quyền" cho phép gửi
thư đối với người gửi đã được chấp thuận trước. Cuối cùng, “Bộ lọc theo cơ

chế thách thức- phản hồi” áp dụng một thuật tốn để có được sự cho phép để
gửi thư [9].


14

1.4.7. Quy trình lọc thư điện tử sử dụng học máy
Tự học
Tập mẫu
luyện

Email

Tiền xử lý

huấn

Vectơ hóa

Mơ Hình

Tập mẫu kiểm thử

Trích xuất
đặc trưng

Bộ phân loại

Đưa ra
quyết định


Hình 1.6: Quy trình lọc nội dung thư điện tử [9]

Hình trên mơ tả mơ hình kiến trúc của bộ lọc thư áp dụng kỹ thuật học
máy [9]. Bước đầu tiên, ta sẽ thu thập các thư điện tử của người dùng bao gồm
cả thư rác và thư hợp lệ.
Tiếp theo, quá trình tiền xử lý (pre-proccessor) diễn ra, trích xuất lấy
từ/cụm từ chính (tokenization), loại bỏ các ký tag HTML, header MIME hoặc
các từ nối như “rằng”, “thì”,…
Sau đó, bộ lọc sẽ trích xuất đặc tính (feature extraction) và bằng cách sử
dụng biểu thức vectơ phân loại dữ liệu thành hai tập hợp.
Cuối cùng, kỹ thuật học máy (machine learning) được áp dụng để huấn
luyện bộ thư mẫu để xác định thư điện tử cho dù đó là thư rác hay hợp pháp.
Quyết định cuối cùng thực hiện qua hai bước; thông qua việc tự học và kết quả
của bộ lọc để quyết định thư điện tử là thư rác hay thư hợp lệ.

1.4.8. Mơ hình lọc thư rác của Zimbra
1.4.8.1. Thành phần của Zimbra
Zimbra là một ứng dụng máy chủ thư điện tử mã nguồn mở nổi tiếng,
trong đó có tích hợp ứng dụng lọc thư rác mã nguồn mở SpamAssassin. Zimbra
nhận thư qua SMTP và định tuyến từng thư, sử dụng Giao thức truyền thư cục
bộ (LMTP), đến máy chủ hộp thư Zimbra thích hợp. Máy chủ gửi thư Zimbra
MTA bao gồm các chương trình sau:
• Postfix MTA: để định tuyến thư, chuyển tiếp thư và chặn tệp đính kèm


15

• Clam AntiVirus: một cơng cụ chống vi-rút được sử dụng để quét các
thư và tệp đính kèm trong thư để tìm vi-rút

• SpamAssassin và DSPAM: bộ lọc thư rác
• Amavisd-New: một bộ lọc nội dung Postfix được sử dụng làm giao
diện giữa Postfix và ClamAV/SpamAssassin
Trong bộ Zimbra, chuyển và gửi thư là các chức năng riêng biệt. Postfix chủ
yếu hoạt động như một tác nhân chuyển thư (MTA) và máy chủ thư Zimbra
hoạt động như một tác nhân chuyển thư (MDA). Cấu hình MTA được lưu trữ
trong LDAP và tập lệnh cấu hình tự động thăm dị thư mục LDAP hai phút một
lần để sửa đổi và cập nhật tệp cấu hình Postfix.

1.4.8.2. Gửi và nhận thư trên Zimbra
Máy chủ gửi thư Zimbra (Zimbra MTA) cung cấp cả cho thư đến và thư đi.
Đối với thư đi, Zimbra MTA xác định điểm đến của địa chỉ người nhận. Nếu
máy chủ đích là cục bộ, thơng báo sẽ được chuyển đến máy chủ Zimbra để gửi.
Nếu máy chủ đích là máy chủ thư từ xa, Zimbra MTA phải thiết lập phương
thức giao tiếp để chuyển thư đến máy chủ từ xa.
Đối với các thư đến, MTA có thể phải chấp nhận các yêu cầu kết nối từ các
máy chủ thư từ xa và nhận thư cho người dùng cục bộ. Để gửi và nhận email,
Zimbra MTA phải được định cấu hình bản ghi A và MX trong DNS. Để gửi
thư, MTA phải sử dụng DNS để phân giải tên máy chủ và thông tin định tuyến
email. Để nhận thư, bản ghi MX phải được định cấu hình chính xác để định
tuyến thư đến máy chủ thư. Bạn phải định cấu hình một máy chủ chuyển tiếp
nếu máy chủ khơng chạy DNS. Ngay cả khi máy chủ chuyển tiếp được cấu
hình, bản ghi MX vẫn được yêu cầu nếu máy chủ sẽ nhận thư từ internet.

Hình 1.7: Mơ hình xử lý thư của Zimbra [10]


16

Hình 1.5 mơ tả phương thức xử lý khi nhận được thư. Khi Zimbra MTA nhận

được thư, nó định tuyến thư qua một loạt các hàng đợi để quản lý việc gửi.
Zimbra MTA duy trì bốn hàng đợi nơi thư tạm thời được đặt trong khi được
xử lý: incoming (mới đến), active (đang hoạt động), deferred (hỗn) và hold
(giữ).
• Mới đến: Hàng đợi thư đến chứa thư vừa mới nhận được. Mỗi thư
được xác định bằng một tên tệp duy nhất. Thư trong hàng đợi mới đến
được chuyển đến hàng đợi active khi còn chỗ trong hàng đợi hiện hoạt.
Nếu khơng có vấn đề gì, tin nhắn sẽ di chuyển qua hàng đợi này rất
nhanh.
• Đang hoạt động: Hàng đợi tin nhắn đang hoạt động chứa các tin nhắn
đã sẵn sàng được gửi đi. MTA đặt giới hạn cho số lượng thư có thể có
trong hàng đợi đang hoạt động. Từ đây, thư được chuyển đến và đi từ
bộ lọc chống vi-rút (Amavisd-N, clamAV) và chống thư rác
(Spamassassin) trước khi được gửi hoặc chuyển sang hàng đợi khác.
• Hỗn lại. Tin nhắn khơng thể gửi được vì một lý do nào đó được đưa
vào hàng đợi hỗn lại. Lý do phân phối không thành công được ghi lại
trong một tệp trong hàng đợi hoãn lại. Hàng đợi này được quét thường
xuyên để gửi lại tin nhắn. Nếu tin nhắn không thể được gửi sau số lần
gửi lại đã đặt, thì tin nhắn sẽ không thành công. Thư được gửi trả lại
cho người gửi ban đầu.

1.4.8.3. Mô đun lọc thư rác Spamassassin
Mơ đun Mail:: SpamAssassin là một mơ-đun được tích hợp trong Zimbra để
xác định thư rác bằng một số phương pháp bao gồm phân tích văn bản, danh
sách đen thời gian thực dựa trên internet, phân tích thống kê và thuật toán hàm
băm. Bằng cách sử dụng các tập luật của mình, Spamassassin kiểm tra tiêu đề
thư và nội dung thư để xác định "thư rác", Sau khi được xác định là thư rác,
thư sau đó có thể được gắn thẻ là thư rác để lọc sau bằng ứng dụng gửi nhận
thư (MUA) của người dùng hoặc máy chủ chuyển thư (MTA) của người dùng
[10].

SpamAssassin được viết bằng ngôn ngữ Perl linh hoạt nhưng vì
SpamAssassin khơng có chức năng nhận hoặc gửi E-mail, nó phải tích hợp với
MTA chẳng hạn như Postfix.
SpamAssassin có các tính năng sau:
• Kiểm tra tiêu đề thư
• Kiểm tra cụm từ trong nội dung thư


17








Lọc Nạve Bayes
Kiểm tra địa chỉ trong danh sách đen/danh sách trắng tự động
Kiểm tra địa chỉ trong danh sách đen/danh sách trắng thủ công
Kiểm tra bằng cách sử dụng cơ sở dữ liệu nhận dạng thư rác cộng tác
Kiểm tra bằng cách sử dụng danh sách chặn DNS
Kiểm tra bộ ký tự và ngôn ngữ

Khi bất kỳ một trong các phương pháp kiểm tra này có thể khơng xác định
được thư rác hay thư hợp lệ một cách chính xác, thì có thể đưa ra phán đốn
chính xác chỉ tổng hợp điểm của các biện pháp trên [10] [11]. Ví dụ, hình 1.6
thể hiện chi tiết điểm số được ở hiển thị tiêu đề của email được đánh giá là thư
rác thơng qua SpamAssassin.


Hình 1.8: Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin

Trong đó, tổng số điểm được tính từ nhiều phương thức khác nhau như
Bayes_95, kiểm tra xác thực DKIM, kiểm tra tiêu đề thư, kiểm tra bộ ký tự
ASCII và các điểm từ các cách kiểm tra khác.
SpamAssassin lọc thư thông qua các bộ luật của nó. Cơ chế luật sẽ quyết
định bộ luật nào được sử dụng, bao gồm bộ luật lọc Naïve Bayes, kiểm tra
mạng và danh sách trắng và đen tự động [11]. Sơ đồ cấu tạo về mơ đun lọc
SpamAssassin được hiển thị ở hình sau đây:

Hình 1.9: Thành phần chính của mơ đun lọc của Spamassassin [11]


18

SpamAssassin sử dụng nhiều cơ sở dữ liệu khác nhau để thực hiện cơng việc
của mình [11]. Cơ sở dữ liệu thống kê được tạo nên từ việc huấn luyện dữ liệu
mẫu dùng thuật tốn Nạve Bayes, trong khi đó cơ sở các tập luật đa dạng hơn,
có thể có tự động từ bản phân phối Spamassassin, hoặc cập nhật thủ công hay
do người dùng tự xây dựng hoặc sưu tầm. Danh sách đen hoặc trắng có thể
được tạo thủ công hoặc cập nhật từ các máy chủ cung cấp danh sách đen/trắng
thời gian thực. Trong khi kiểm tra mạng (network test) thì lấy thơng tin từ các
nguồn cơ sở dữ liệu khác được chia sẻ.
SpamAssassin hỗ trợ một số thành phần tùy chọn để tăng độ chính xác. Cùng
với huấn luyện Naïve Bayes, bộ 'kiểm tra mạng' làm giảm một nửa tỷ lệ âm
tính giả [11]. Theo mặc định, hầu hết các bản cài đặt SpamAssassin không bật
kiểm tra mạng, vì nó sẽ tạo ra độ trễ nhỏ khi thư đi qua bộ lọc, làm tăng tải bộ
nhớ hệ thống. Một số nội dung kiểm tra mạng như sau:
• Danh sách chặn DNS (DnsBlocklists): Đây là một dịch vụ trong đó
máy chủ thư truy vấn tên miền có thể kiểm tra xem địa chỉ IP đang gửi

có nằm trong danh sách đen hay không. Hầu hết phần mềm máy chủ
thư có thể được cấu hình để kiểm tra một hoặc nhiều danh sách như
vậy - thường từ chối hoặc gắn cờ thư nếu nó đến từ một trang được
liệt kê. Có rất nhiều danh sách DNSBL đang tồn tại, liệt kê địa chỉ của
các máy tính zombie hoặc các máy khác đang được sử dụng để gửi
thư rác, các nhà cung cấp dịch vụ Internet (ISP) cung cấp dịch vụ gửi
thư rác hoặc những người đã gửi thư rác đến hệ thống honeypot.
• Cơ sở dữ liệu nhận dạng thư rác cộng tác (HashSharingSystem)
SpamAssassin bao gồm kỹ thuật hỗ trợ cho kiểm tra mạng dựa trên
các phương pháp tính hàm băm khác nhau, so sánh chữ ký (signature)
của các thư đã nhận với danh sách chia sẻ của các thư rác.
• Một số cơ sở dữ liệu chia sẻ trên mạng miễn phí cho việc kiểm tra thư
rác nổi tiếng như cơ sở dữ liệu Razor, cơ sở dữ liệu Pyzor hay DCC…


19

Chương 2. Các kỹ thuật lọc thư rác thư rác
2.1. Các kỹ thuật giảm thiểu thư rác
2.1.1. Lọc IP
Khi máy khách khởi tạo kết nối SMTP để gửi thư, một kết nối TCP/IP
với máy chủ gửi thư được thiết lập trên mạng. Địa chỉ IP của người gửi có thể
dễ dàng xác định và là thông tin đầu tiên máy chủ có thể nhận diện được. Trên
cơ sở địa chỉ IP, máy chủ có thể quyết định chấp nhận hoặc từ chối kết nối.
Nếu địa chỉ IP được liên kết với một khách hàng đã gửi thư rác trong
quá khứ, kết nối có thể bị từ chối. Quy trình này được biểu thị là "danh sách
đen" (blacklisting). Những địa chỉ IP đáng ngờ được lưu trữ trên danh sách
đen. Đôi khi, thậm chí tồn bộ dải mạng là các phần tử của danh sách đen, ví
dụ: dải IP được chỉ định cho các miền cụ thể.
Tương tự, địa chỉ IP có thể thuộc về một ứng dụng gửi thư đáng tin cậy,

máy chủ sẽ chấp nhận kết nối, phương pháp này được gọi là “danh sách trắng”
(white-listing). Giống như danh sách đen, danh sách trắng có thể được duy trì
cục bộ hoặc được cung cấp công khai. Khi chúng được cung cấp qua máy chủ
tên miền được gọi là DNSWL - danh sách trắng của hệ thống tên miền [2].
Không giống như danh sách đen, tính cập nhật của họ ít quan trọng hơn. Sử
dụng duy nhất phương thức danh sách trắng khơng thể đạt hiệu quả trong việc
đối phó với thư rác vì tỷ lệ dương tính giả q cao (e-mail từ những người gửi
không xác định sẽ bị chặn); âm tính giả thì rất hiếm gặp vì người gửi có thể dễ
dàng xác định được [2]. Do đó, phương pháp này nên được sử dụng như là biện
pháp bổ sung và các e-mail từ các máy chủ được đưa vào danh sách trắng
không nhất thiết phải kiểm tra.
Lọc IP rất dễ thực hiện và không tiêu tốn nhiều tài nguyên, vì quyết định
chấp nhận/từ chối kết nối được thực hiện ở giai đoạn đầu khởi tạo kết nối. Điều
này có nghĩa là ứng dụng chuyển thư khơng tiêu tốn nhiều thời gian và CPU
không phải lưu trữ thư mà sau này được xác định là thư rác.
Hạn chế của việc lọc IP bao gồm các vấn đề sau:
Phương pháp sẽ không thành công nếu địa chỉ IP của khách hàng bị giả
mạo. Giả mạo IP là một vấn đề tồn đọng của bộ giao thức TCP/IP. Tuy nhiên,
vì những lý do sau, giả mạo IP dường như không là một vấn đề thực sự: (1)


×