TRƯỜNG ĐẠI HỌC LẠC HỒNG
TRUNG TÂM THÔNG TIN TƯ LIỆU
----- -----
BÁO CÁO
NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG BỘ LỌC
SPAM THƠNG MINH, TỰ ĐỘNG
PHAN HỮU TIẾP
BIÊN HỊA, THÁNG 6/2011
TRƯỜNG ĐẠI HỌC LẠC HỒNG
TRUNG TÂM THÔNG TIN TƯ LIỆU
----- -----
BÁO CÁO
NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG BỘ LỌC
SPAM THÔNG MINH, TỰ ĐỘNG
Người thực hiện: PHAN HỮU TIẾP
CAO NGUYỄN THỦY TIÊN
Chủ nhiệm đề tài: Ths. Lâm Thành Hiển
BIÊN HÒA, THÁNG 6/2011
LỜI CẢM ƠN
Lời đầu tiên chúng tôi xin chân thành gửi lời cám ơn sâu sắc đến các thầy cô
Trung Tâm Thông Tin Tư Liệu, trường Đại Học Lạc Hồng, nơi chúng tôi công
tác và nghiên cứu đã tạo điều kiện và hỗ trợ chúng tôi trong suốt thời gian qua.
Chúng tôi cũng xin chân thành cám ơn đến những người thân, bạn bè và đồng
nghiệp đã giúp đỡ và động viên chúng tôi trong suốt thời gian học tập cũng như
trong thời gian thực nghiên cứu này
Chân thành cám ơn !
Biên Hòa, ngày 15 tháng 06 năm 2011
Phan Hữu Tiếp, Cao Nguyễn Thủy Tiên
MỤC LỤC
Trang
Lời cám ơn .......................................................................................................... i
Mục lục .............................................................................................................. ii
Danh mục các bảng biểu, hình vẽ ..................................................................... iii
Mở đầu ............................................................................................................... 1
1. Tóm lược đề tài .............................................................................................. 1
2. Mục tiêu đề tài ................................................................................................ 1
3. Nội dung thực hiện đề tài ................................................................................ 1
4. Phạm vi ứng dụng ........................................................................................... 2
Chương 1- Tổng quan thư spam ....................................................................... 3
1.1. Khảo sát thư spam ........................................................................................ 3
1.1.1. Định nghĩa thư spam.............................................................................. 3
1.1.2. Phân loại thư spam ................................................................................ 3
1.1.2.1. Thư spam tiếng Anh ....................................................................... 3
1.1.2.2. Thư spam tiếng Việt ....................................................................... 4
1.1.3. Đặc điểm thư spam ................................................................................ 4
1.1.4. Tác hại của thư spam ............................................................................. 5
1.1.5. Phương thức hoạt động của thư spam .................................................... 7
1.1.5.1. Quy trình chung phát tán thư spam ................................................. 7
1.1.5.2. Thu thập địa chỉ email .................................................................... 7
1.1.5.3. Tìm kiếm máy tính trên Internet cho phép gửi thư .......................... 9
1.1.6. Tình hình thư spam tại Việt Nam ......................................................... 10
1.2. Phương pháp chống thư spam ..................................................................... 11
1.2.1. Lọc thư qua địa chỉ IP .......................................................................... 11
1.2.1.1. Sử dụng danh sách đen (Black List) và danh sách địa chỉ tin cậy
(White List)............................................................................................... 11
1.2.1.2. Sử dụng danh sách xám (Grey List) .............................................. 12
1.2.1.3. Chặn IP ........................................................................................ 13
1.2.1.4. Kiểm tra địa chỉ IP........................................................................ 12
1.2.2. Lọc thư dựa vào đặc tính của thư spam ................................................ 13
1.2.2.1. Kỹ thuật giấu địa chỉ email ........................................................... 13
1.2.2.2. Kỹ thuật nhân viên giả mạo (Fake worker) ................................... 14
1.2.2.3. Kiểm tra Header ........................................................................... 14
1.2.3. Lọc thư spam dựa vào nội dung ........................................................... 14
1.2.3.1. Sử dụng các từ khóa chuẩn ........................................................... 14
1.2.3.2. Xác thực tự động .......................................................................... 15
1.2.3.3. Yêu cầu xác thực thư .................................................................... 15
1.2.3.4. Lọc thư theo nội dung................................................................... 16
1.2.4. Lọc thư spam dựa vào các thuật toán ................................................... 16
1.2.4.1. Lọc thư sử dụng phương pháp heuristic ........................................ 16
1.2.4.2. Lọc thư theo nội dung sử dụng phương pháp xác suất thống kê
và học máy. .............................................................................................. 17
Chương 2- Phân tích bộ lọc thống kê.............................................................. 19
2.1. Giới thiệu................................................................................................... 19
2.2. Bài toán phân loại văn bản ......................................................................... 19
2.2.1. Định nghĩa .......................................................................................... 19
2.2.2. Tiến trình phân loại văn bản ............................................................... 20
2.3. Những nguyên tắc bộ lọc thống kê............................................................. 22
2.3.1. Xây dựng tập huấn luyện .................................................................... 22
2.3.2. Sửa lỗi, huấn luyện lại ........................................................................ 23
2.4. Các bộ lọc thống kê ................................................................................... 23
2.4.1. Bộ phân tích các token và tính giá trị .................................................. 23
2.4.2. Phân lớp k Nearest Neighbors (k-NN) ................................................ 25
2.4.3. Phân lớp theo kỹ thuật Support Vector Machine (SVM) ..................... 26
2.5. Các thuật giải áp dụng cho quá trình lọc thư spam ..................................... 27
2.5.1. Giải thuật xác định kích thước ............................................................ 27
2.5.2. Giải thuật giảm nhiễu Bayesian (Bayesian Noise Reduction) ............... 29
2.5.3. Thuật toán dựa trên luật RIPPER ........................................................ 29
Chương 3- Xây dựng bộ lọc spma dựa trên phương pháp thống kê và kỹ thuật
Naïve Bayes ..................................................................................................... 31
3.1. Tổng quan mạng Bayes.............................................................................. 31
3.1.1. Giới thiệu mạng Bayes ....................................................................... 31
3.1.2. Mơ hình chi tiết Naive Bayes.............................................................. 31
3.1.3. Ưu điểm của bộ lọc thư rác Bayes ...................................................... 32
3.2. Quy trình phân tích tổng quát..................................................................... 33
3.2.1. Phân tích đặc điểm chung của thư spam .............................................. 33
3.2.1.1. Phần Header của thư spam.......................................................... 33
3.2.1.2. Phần thân của thư spam ............................................................... 33
3.2.2. Phân loại thư rác tiếng Việt và thư rác tiếng Anh ................................ 34
3.2.3. Phân tích từ vựng và câu.................................................................... 35
3.2.3.1. Phân tích từ vựng ........................................................................ 35
3.2.3.2. Phân tích câu ............................................................................... 36
3.2.4. Biểu diễn nội dung thư ....................................................................... 37
3.2.4.1. Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”) ................ 37
3.2.4.2. Sử dụng cụm từ có ngữ nghĩa để biểu diễn văn bản ..................... 38
3.2.4.3. Sử dụng phân cụm từ để biểu diễn văn bản .................................. 39
3.2.5. Các bước tiến hành lọc trên mạng Bayes ............................................ 40
3.3. Tổng quan lọc thư rác tiếng Việt ................................................................ 42
3.3.1. Khó khăn trong q trình lọc thư spam tiếng Việt ............................... 42
3.3.2. Tình hình nghiên cứu .......................................................................... 42
3.3.3. Phương pháp tiếp cận ......................................................................... 43
3.3.3.1. Mục tiêu chính............................................................................. 44
3.3.3.2. Tiền xử lý và tách câu tiếng Việt ................................................. 45
3.3.3.3. Phân tích từ đơn ......................................................................... 46
3.3.3.4. Phân tích từ ghép ........................................................................ 48
3.3.3.5. Xây dựng bộ từ điển tiếng Việt .................................................... 51
3.3.3.6. Quy trình cập nhật từ vựng tiếng Việt .......................................... 52
3.4. Quy trình lọc thư rác tiếng Việt ................................................................. 52
3.4.1. Áp dụng thuật tốn Nạve Bayes trong q trình lọc thư ..................... 52
3.4.2. Quy trình lọc thư rác tiếng Việt .......................................................... 53
Chương 4- Xây dựng chương trình lọc thư spam ......................................... 55
4.1. Kiến trúc hệ thống chương trình ................................................................ 55
4.1.1. Chương trình 1 ................................................................................... 55
4.1.2. Chương trình 2 ................................................................................... 56
4.2. Các bước cơ bản xây dựng hệ thống .......................................................... 56
4.2.1. Xây dựng một số chức năng cơ bản .................................................... 56
4.2.1.1. Chức năng chuẩn hóa dữ liệu....................................................... 56
4.2.1.2. Chức năng tách câu ..................................................................... 56
4.2.1.3 Chức năng tạo thư ........................................................................ 57
4.2.2. Đối với thư tiếng Anh ......................................................................... 57
4.2.2.1. Các bước thực hiện quá trình lọc ................................................. 57
4.2.2.2. Xây dựng tập hợp các token cho thư spam và thư ham ................ 57
4.2.2.3. Tính xác suất của các token và phân loại thư ............................... 58
4.2.2.4. Cập nhật lại tri thức cho bộ lọc .................................................... 58
4.2.3. Đối với thư tiếng Việt ......................................................................... 58
4.2.3.1. Xây dựng bộ từ điển tiếng Việt .................................................... 58
4.2.3.2. Phân tích văn bản tiếng Việt ........................................................ 59
4.2.3.3. Các bước thực hiện quá trình lọc thư tiếng Việt ........................... 59
4.2.3.4. Xây dựng tập hợp token cho thư spam và thư ham tiếng Việt ...... 59
4.2.3.5. Tính xác suất của các token và phân loại thư tiếng Việt ............... 59
4.2.3.6. Cập nhật lại tri thức cho bộ lọc tiếng Việt ..................................... 59
4.3. Chức năng chương trình ............................................................................ 61
4.3.1. Các chức năng chính của chương trình ............................................... 61
4.3.2. Quá trình lọc thư spam tiếng Anh ....................................................... 62
4.3.2.1. Xây dựng tập huấn luyện token cho quá trình lọc thư .................. 62
4.3.2.2. Chuẩn hóa tập token đã huấn luyện ............................................. 63
4.3.2.3. Phân tích thư tiếng Anh ............................................................... 64
4.3.2.4. Phân lớp hàng loạt thư tiếng Anh................................................. 65
4.3.3. Quy trình lọc thư spam tiếng Việt ....................................................... 66
4.3.3.1. Xây dựng bộ từ điển từ đơn và từ ghép ........................................ 66
4.3.3.2. Chuẩn hóa bộ từ điển tiếng Việt .................................................. 66
4.3.3.3. Thể hiện nội dung thư tiếng Việt ................................................. 67
4.3.3.4. Xây dựng tập huấn luyện cho q trình lọc thư ............................ 68
4.3.3.5. Phân tích thư tiếng Việt ............................................................... 69
4.3.4. Các hàm cơ bản phục vụ chương trình ................................................ 70
4.3.4.1. Chức năng tách câu đơn cho nội dung thư tiếng Việt ................... 70
4.3.4.2. Chức năng tạo thư chứa nội dung ................................................ 71
4.3.5. Các chức năng tổng quát liên quan đến hệ thống ................................ 72
4.3.5.1. Quản lý các thơng số chung của hệ thống .................................... 72
4.3.5.2. Mơ hình hóa các chức năng của chương trình .............................. 71
4.3.6. Bộ lọc spam trên môi trường Internet ................................................. 73
4.3.6.1. Chức năng gửi email.................................................................... 73
4.3.6.2. Bộ lọc spam trên chương trình ..................................................... 73
4.4. Kết quả thực nghiệm và đánh giá kết quả đạt được .................................... 74
4.4.1. Đối với thư spam tiếng Anh ................................................................ 74
4.4.2. Đối với thư spam tiếng Việt ................................................................ 75
4.4.2.1.Xây dựng bộ từ điển tiếng Việt .................................................... 75
4.4.2.2. Kết quả phân lớp thư tiếng Việt ................................................... 75
Kết luận và hướng phát triển ............................................................................. 77
Phụ lục
Tài liệu tham khảo
DANH MỤC HÌNH VẼ
Hình 1.1 - Nội dung thư spam theo báo cáo tháng 12-2010................................. 5
Hình 1.2 - Lưu lượng spam theo báo cáo tháng 12-2010 ..................................... 6
Hình 1.3 - Virus trong email theo báo cáo tháng 12-2010 ................................... 7
Hình 1.4 - Ví dụ về trang web lấy cắp địa chỉ email của người dùng .................. 8
Hình 1.5 - Một số website của các công ty gửi thư rác ....................................... 9
Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay) ..................... 9
Hình 1.7 - Tình hình thư rác tại một số nước .................................................... 10
Hình 1.8 - Nguyên lý phương pháp xác thực thư .............................................. 15
Hình 1.9 - Ví dụ về Capcha .............................................................................. 16
Hình 2.1 - Tiến trình phân loại văn bản ............................................................ 20
Hình 2.2 - Tiến trình phân loại văn bản nâng cao .............................................. 22
Hình 2.3 - Phân loại văn bản theo kỹ thuật Vector Machine (SVM).................. 26
Hình 3.1 - Mơ hình tổng qt lọc thư spam tiếng Việt ...................................... 45
Hình 3.2 - Mơ hình tách câu tiếng Việt ............................................................. 46
Hình 3.3 - Mơ hình tách từ đơn tiếng Việt ........................................................ 48
Hình 3.4 - Mơ hình tách từ ghép tiếng Việt....................................................... 51
Hình 4.1 - Sơ đồ khối chương trình ................................................................. 55
Hình 4.2 - Giao diện chính của chương trình ................................................... 61
Hình 4.3 - Quy trình huấn luyện các token tiếng Anh ....................................... 62
Hình 4.4 - Quy trình chuẩn hóa tập token tiếng Anh ......................................... 63
Hình 4.5 - Quy trình phân tích một bức thư tiếng Anh ...................................... 64
Hình 4.6 - Quy trình phân lớp hàng loạt thư tiếng Anh ..................................... 65
Hình 4.7 - Xây dựng bộ từ điển từ tiếng Việt .................................................... 66
Hình 4.8 - Chuẩn hóa từ điển tiếng Việt ........................................................... 67
Hình 4.9 - Quy trình phân tích một bức thư tiếng Việt ...................................... 68
Hình 4.10 - Quy trình huấn luyện các token tiếng Việt ..................................... 68
Hình 4.11 -Phân tích thư tiếng Việt .................................................................. 69
Hình 4.12 -Kết quả phân tích thư tiếng Việt ..................................................... 70
Hình 4.13 -Tách câu đơn cho nội dung thư tiếng Việt ....................................... 70
Hình 4.14 -Tạo thư chứa nội dung từ Internet ................................................... 71
Hình 4.15 -Quản lý thơng số chung của hệ thống.............................................. 72
Hình 4.16- Chức năng gửi mail......................................................................... 73
Hình 4.17. Bộ lọc spam của hệ thống ............................................................... 73
DANH MỤC BẢNG BIỂU
Bảng 3.1. Ví dụ nội dung của 4 thư. ................................................................. 38
Bảng 3.2. Biểu diễn véctơ cho dữ liệu trong bảng 3.1 ....................................... 38
Bảng 3.3. Thống kê độ dài của từ trong từ điển ............................................... 48
Bảng 3.4. Ví dụ minh họa phân tích từ đơn....................................................... 54
Bảng 4.1. Kết quả phân loại thư tiếng Anh ....................................................... 74
Bảng 4.2. Thống kê bộ từ điển từ tiếng Việt ..................................................... 75
Bảng 4.3. Kết quả phân loại thư tiếng Việt ....................................................... 76
1
MỞ ĐẦU
1. Tóm lược đề tài
Trong đời sống cơng nghệ hiện nay, thư điện tử (email) là một trong những ứng
dụng phổ biến và nổi bật nhất mà nhiều người sử dụng. Ứng dụng email đã mang
đến lợi ích cho người sử dụng : đơn giản, hiệu quả và dễ sử dụng. Tuy nhiên, spam
hay các email không mong muốn hiện nay đã trở thành vấn đề nghiêm trọng đối với
các công ty và những người sử dụng cá nhân và chính nó là ngun nhân chính làm
lãng phí tài nguyên mạng và thời gian của người dùng.
Đặc biệt tại Việt Nam, bên cạnh những email spam thông thường bằng tiếng
Anh, cịn có những spam tiếng Việt, mang tính chất riêng khác với các loại mail
spam khác.
Bài toán giải quyết lọc thư spam là một bài toán lớn và đã có nhiều phương
pháp giải quyết được hiệu quả. Tuy nhiên các phương pháp này đều tập trung vào
thư tiếng Anh, trong khi thư spam tiếng Việt có những đặc điểm riêng nhưng chưa
có một nghiên cứu cụ thể nào về vấn đề này.
Đề tài tập trung nghiên cứu các bộ lọc thống kê hiện tại được sử dụng rộng rãi,
từ đó đưa ra giải pháp ngăn chặn các loại thư rác đặc biệt phát tán tại Việt Nam.
2. Mục tiêu đề tài
Nghiên cứu tổng quan các hệ thống lọc thư rác thơng dụng hiện nay, từ đó đề
xuất mơ hình lọc thư rác có thể tự động phát hiện khơng những các thư rác quen
thuộc được các hệ thống cảnh báo trên thế giới cung cấp mà cịn có thể phát hiện
các thể loại thư rác mới được phát tán ở Việt Nam.
Bên cạnh đó, cũng nghiên cứu kỹ thuật tách câu, tách từ đơn, từ ghép trong
tiếng Việt mà chỉ xét về mặt tồn tại của từ, không xét về mặt ý nghĩa của từ.
3. Nội dung thực hiện đề tài
Tìm hiểu về thư spam: các loại thư spam, đặc điểm thư spam…Đặc biệt, tìm
hiểu về thư spam đang phát triển và đặc trưng của thư spam tại Việt Nam
Nghiên cứu các kỹ thuật đang sử dụng hiện nay để lọc thư spam (spam tiếng
Anh và tiếng Việt).
2
Nghiên cứu các thuật toán, đặc biệt là thuật toán Naïve Bayes để lọc thư spam .
Nghiên cứu các bộ lọc spam truyền thống hiện được sử dụng.
Áp dụng thuật toán cho việc lọc thư spam Việt Nam.
Nghiên cứu xây dựng các phương pháp tách câu, tách từ đơn, từ ghép trong
tiếng Việt mà không xét về mặt ý nghĩa của từ.
Xây dựng chương trình huấn luyện thư spam tiếng Anh và tiếng Việt, tách câu,
tách từ đơn, từ ghép trong tiếng Việt.
Nghiên cứu xây dựng bộ lọc spam cải tiến từ các bộ lọc đã có hoặc bộ lọc spam
mới phù hợp với các thư spam tại Việt Nam.
Triển khai bộ lọc spam vào web mail thử nghiệm.
4. Phạm vi ứng dụng
Đề tài “ NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THƠNG MINH, TỰ
ĐỘNG” có thể được ứng dụng trong các trình duyệt mail, và giúp cho người sử
dụng loại bỏ được thư có nội dung spam, đặc biệt là spam tiếng Việt giảm thiểu thời
gian lãng phí của người sử dụng khi phải “vất vả” kiểm tra “bằng tay” nội dung
từng bức thư.
3
CHƯƠNG 1: TỔNG QUAN THƯ SPAM
1.1. Khảo sát thư spam
1.1.1. Định nghĩa thư spam
Hiện nay, chưa có bất cứ một định nghĩa chính thức nào về thư spam. Một định
nghĩa thơng dụng nhất về spam có thể hiểu thư spam như sau ([15]) : “Thư rác
(spam) là những bức thư điện tử không yêu cầu, không mong muốn và được gửi
hàng loạt tới nhiều người nhận khác nhau”. “Thư không yêu cầu” là người nhận thư
không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt” là bức thư có
nội dung gửi giống nhau, người nhận đã nhận được nằm trong một loạt các thư
được gửi đi cho nhiều người khác. Tuy nhiên, không phải tất cả các thư không
mong muốn đều là thư spam và ngược lại không phải tất cả các thư spam đều là thư
quảng cáo.
Theo một số quan điểm hiểu theo nghĩa hẹp, thư spam là những thư quảng cáo
không được yêu cầu (Unsolicited Commercial Email – UCE). Một số quan điểm
hiểu theo nghĩa rộng thư spam là bao gồm tất cả thư quảng cáo, quấy rối, những thư
có nội dung khơng lành mạnh (Unsolicited Bulk Email – UBE).
Tóm lại, thư spam có thể xem là thư không được yêu cầu và được gửi đi hàng
loạt. Nội dung bức thư là yếu tố quyết định dùng để phân biệt thư spam và thư
thông thường, và đó cũng chính là cơ sở chính cho giải pháp phân loại thư spam
bằng cách phân tích nội dung thư.
1.1.2. Phân loại thư spam
1.1.2.1. Thư spam tiếng Anh
+ Thư spam quảng cáo thuốc: thư spam quảng cáo bán thuốc Viagra, Cialis,
thuốc giảm đau trực tuyến...
+ Thư spam Penny Stock: Thư spam khuyến khích mua chứng khốn, thư loại
này khuyến khích nhà đầu tư mua chứng khốn giá rẻ...
+ Thư spam tài chính: Trong khi spam quảng cáo có xác suất nhỏ để người
nhận đáp ứng như mua hàng, gửi tiền .v.v, thì spam tài chính chỉ thực hiện với
những người khờ dại và nhận được tiền của họ vì một lý do nào đó.
4
+ Thư spam hẹn sex hay khiêu dâm: Các site khiêu dâm và các site hẹn sex
thường được mua bán thông qua sex (hiện nay tỷ lệ này so với các loại spam khác
ngày càng ít đi).
1.1.2.2. Thư spam tiếng Việt
Hiện tại, chưa có một thống kê chính xác nào, xác định những đặc điểm chung
của thư rác tiếng Việt. Theo khảo sát, đa phần thư rác tiếng Việt tập trung vào
+ Thư spam mời tham gia các diễn đàn trực tuyến: hoclamgiau.vn, hi5.com,
diễn đàn học tiếng Anh miễn phí.
+ Thư spam quảng cáo, rao vặt: mua bán bất động sản, sim số đẹp, ...
+ Thư spam giới thiệu các chương trình khuyến mãi mua sắm: mời mua hàng
trên các website giảm giá, tạo tài khoản mua hàng,…
+ Mời tham gia các mạng xã hội.
1.1.3. Đặc điểm thư spam
Đặc tính chung của thư spam là không ràng buộc về mặt nội dung. Phần lớn các
spam tuân theo các mẫu chung và có thể được nhận diện một cách rõ ràng. Ngồi
ra, các thư spam có các đặc điểm về ngơn ngữ, thời gian.... Hầu hết các thư spam
này đều được viết bằng tiếng Anh với tỉ lệ rất cao hơn 80%.
Đặc điểm chính của thư spam khác biệt với thư thơng thường đó là
+ Khơng được u cầu.
+ Người nhận khơng quan tâm đến thơng tin trong thư mình nhận được.
+ Không rõ người gửi. Người nhận không biết, không có bất cứ liên hệ nào với
người gửi.
+ Email này được gửi đến một số lượng lớn các địa chỉ. Thể loại thư rác rất đa
dạng phần lớn tập trung vào quảng cáo, lừa đảo, phần mềm giá rẻ, nội dung không
lành mạnh....
5
Hình 1.1- Nội dung thư spam theo báo cáo tháng 12-2010 [12]
1.1.4. Tác hại của thư spam
Thư spam hiện tại chiếm một tỷ lệ vô cùng lớn trong tổng số thư điện tử được
gửi qua Internet. Lượng thư spam quá lớn này gây ra nhiều tác hại đối với sự phát
triển Internet nói chung và người sử dụng thư điện tử nói riêng. Theo nhiều thống
kê từ nhiều nguồn khác nhau, thư rác chiếm khoảng 71% đến hơn 85% lượng thư
gửi qua các máy chủ thư điện tử.
6
Hình 1.2- Lưu lượng spam theo báo cáo tháng 12-2010 [12]
Dưới đây, mô tả một số tác hại cụ thể rõ ràng nhất của thư rác.
+ Gây thiệt hại về kinh tế tài chính cho người nhận thư trong trường hợp người
nhận thư phải trả tiền cho lượng thông tin truyền qua mạng.
+ Lãng phí thời gian cực lớn cho việc mở thư và xóa thư khỏi hộp thư và có thể
làm đầy hộp thư của người nhận, dẫn đến việc thất lạc những thư đến sau, gây cản
trở diễn tiến công việc của những người sử dụng thư điện tử.
+ Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử. Theo số liệu thống
kê từ [13] , 25% người sử dụng thư điện tử xem thư rác là một trở ngại lớn khi sử
dụng dịch vụ thư điện tử trên Internet.
+ Thư rác chiếm một phần lớn đường truyền Internet và làm tiêu tốn thời gian
xử lý của máy chủ.
+ Thư rác còn gây ra các vấn đề kỹ thuật, phần lớn các thư rác có thể rất nguy
hiểm, chứa virus, trojan hay các loại phần mềm gây hại khác, tạo ra các lỗ hổng bảo
mật trong máy tính và mạng. Ngồi ra, thư rác cịn được xem là phương tiện chính
để thực hiện tấn công ”phishing” người dùng.
7
Hình 1.3- Virus trong email theo báo cáo tháng 12-2010 [12]
1.1.5. Phương thức hoạt động của thư spam
1.1.5.1. Quy trình chung phát tán thư spam
Để phát tán thư rác, những người gửi thư rác phải có những điều kiện
+ Có danh sách địa chỉ email nhận thư.
+ Có các server cho phép gửi thư.
+ Soạn được nội dung thư theo yêu cầu quảng cáo qua mặt bộ lọc
+ Có những chương trình để gửi thư đi.
1.1.5.2. Thu thập địa chỉ email
Để gửi thư rác, spammer cần phải có một danh sách địa chỉ email cần gửi. Danh
sách này được thu thập được từ nhiều nguồn khác nhau như mua từ website thương
mại có nhiều thành viên đăng ký hoặc sử dụng các kỹ thuật khác như
+ Phishing email: Spammer thường tung ra các website giả để bẫy người dùng
gửi địa chỉ email cho họ.
8
Hình 1.4- Ví dụ về trang web lấy cắp địa chỉ email của người dùng [6]
+ Spambots: dùng các máy tìm kiếm chỉ để tìm kiếm địa chỉ email trên các
website. Các máy này sẽ tìm kiếm những trang có kí hiệu “@” và sẽ tách địa chỉ
email từ đó ra.
+ Sinh địa chỉ email theo kiểu từ điển: Danh sách các địa chỉ cũng có thể được
sinh tự động để xác suất tồn tại của địa chỉ mới sinh đó có thể chấp nhận được. Địa
chỉ email thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain
nhiều người dùng và các con số có nghĩa. Ví dụ như địa chỉ email được sinh như
sau:
Từ địa chỉ gốc là: phanhuutiep + @ + yahoo.com
Có thể sinh ra các địa chỉ sau:
phanhuutiep
phanhuutiep
+ Để xác định một địa chỉ email có tồn tại hay không, spammer sẽ gửi một bức
thư tới tất cả các hộp thư trong danh sách sinh tự động. Nếu hộp thư đó tồn tại và
người dùng của nó mở bức thư đó ra thì sẽ có một chương trình được kích hoạt
thơng báo về sự tồn tại của địa chỉ cho người gửi thư rác.
9
1.1.5.3. Tìm kiếm máy tính trên Internet cho phép gửi thư
Muốn gửi được thư rác, spammer cần một danh sách các server để gửi thư đi.
Các server này có thể là những server chuyên để gửi thư rác do người gửi thư rác sở
hữu hoặc thuê, hoặc là những server bị người gửi thư rác lợi dụng.
Dưới đây là hình ảnh quảng cáo của một số công ty chuyên tung thư rác được
Google liệt kê khi tìm kiếm hai từ “bulk mail”.
Hình 1.5 -Một số website của các cơng ty gửi thư rác [12]
Người gửi thư rác thường khai thác lỗ hổng của những server cho phép chuyển
tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy).
Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay)
Trên mạng Internet, có rất nhiều mail server cho phép chuyển tiếp thư.
Spammer sử dụng các server này để chuyển tiếp thư rác vì khi đó họ sẽ khó bị phát
hiện hơn và chuyển được các gánh nặng về đường truyền sang cho các server đó.
Tuy nhiên, server dạng này thường sớm bị đưa vào danh sách đen của các bộ lọc
thư rác.
Một loại server khác là các proxy cho phép gửi thư mà các spammer thường sử
dụng. Mục đích chính của proxy là giúp các trang web vượt qua được tường lửa
(firewall). Một số proxy cho phép gửi thư và bất cứ ai cũng có thể truy cập được.
Spmmer lợi dụng điểm này để phát tán thư rác.
10
Ngồi ra, spammer cịn th các máy tính “ma” để gửi thư rác. Đây là các máy
tính khơng được quản lý nên khó có thể pháp hiện ra tác giả của các bức thư rác và
giá thuê lại rẻ, nên có tới 40%-60% spammer bắt đầu từ cách này.
Nghiêm trọng hơn, các spammer (và cũng là những hacker) còn chiếm quyền
kiểm sốt các máy tính hợp pháp để gửi thư rác.
1.1.6. Tình hình thư spam tại Việt Nam
Hãng bảo mật Sophos (Anh) vừa chính thức cơng bố báo cáo về tình trạng thư
spam tồn cầu trong đó có danh sách 12 quốc gia là nguồn xuất phát lớn nhất của
thư spam tính đến hết tháng 12 – 2010, Việt Nam đứng thứ 10 trong danh sách kể
trên. Hơn 56% tổng số thư rác tồn cầu xuất phát từ chính 12 quốc gia này.
Hình 1.7 – Tình hình thư rác tại một số nước [12]
Theo kết quả điều tra ban đầu của VNCERT - Bộ Bưu chính viễn thơng hơn 1/3
Số người được hỏi khẳng định mỗi ngày nhận được từ 20 - 50% số thư rác mang nội
dung tiếng Việt trên tổng số thư rác phải nhận mỗi ngày, khoảng 40 % khẳng định
trong số thư rác từng nhận có chứa các nội dung xuyên tạc , vi phạm thuần phong
mỹ tục, gây hại, lừa đảo, 48,36 % người dùng khơng có ấn tượng gì đặc biệt và
33,45 % cho rằng các công ty được quảng cáo thông qua thư rác là khơng có uy tín
thương hiệu và tiềm lực hạn chế.