XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN SPAM EMAIL BẰNG BỘ PHÂN LỚP SVM_2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 70 trang )

luan van thac si - luan van thac si kinh te - luan an tien - luan van 1 of 95.

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

NGÔ DUY CHINH

XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN SPAM
EMAIL BẰNG BỘ PHÂN LỚP SVM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

HẢI PHÒNG, 2016

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -

luan van thac si - luan van thac si kinh te - luan an tien - luan van 2 of 95.

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

NGÔ DUY CHINH

XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN SPAM

EMAIL BẰNG BỘ PHÂN LỚP SVM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 60480201

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS. Nguyễn Hữu Tuân

HẢI PHÒNG, 2016

Footer Page - Footer Page - kho luan van - tai lieu - 123doc- tieu luan - khoa luan-tai chinh ngan hang - thuong mai -

luan van thac si - luan van thac si kinh te - luan an tien - luan van 3 of 95.

LỜI CAM ĐOAN
Tôi xin cam đoan đây bản luận văn của riêng tôi. Các kết quả nêu trong luận
văn là chính xác và trung thực chưa từng được ai công bố trong bất kỳ đề tài, công
trình nghiên cứu nào khác.
Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã được chỉ
rõ nguồn gốc.
Ngày 15 tháng 3 năm 2016

Ngô Duy Chinh

i

Footer Page - Footer Page - kho luan van - tai lieu - 123doctieu luan - khoa luan-tai chinh ngan hang - thuong mai -

luan van thac si - luan van thac si kinh te - luan an tien - luan van 4 of 95.

LỜI CẢM ƠN
Luận văn tốt nghiệp thạc sĩ chuyên ngành công nghệ thông tin được hoàn
thành tại Trường Đại học Hàng Hải Việt Nam. Để có được bản luận văn tốt nghiệp
này, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến Trường Đại học Hàng
Hải Việt Nam, Viện Đào tạo sau Đại học, đặc biệt là Tiến sỹ Nguyễn Hữu Tuân đã
trực tiếp hướng dẫn, dìu dắt, giúp đỡ tôi với những chỉ dẫn khoa học quý giá trong
suốt quá trình triển khai, nghiên cứu và hoàn thành đề tài nghiên cứu của mình.
Tôi xin chân thành cảm ơn các thầy, cô giáo đã trực tiếp giảng dạy, truyền đạt
những kiến thức khoa học chuyên ngành công nghệ thông tin cho bản thân tôi
trong toàn bộ thời gian của khóa học.
Cuối cùng, tôi muốn gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn kịp
thời động viên, giúp đỡ tôi vượt qua những khó khăn để hoàn thành được luận văn
này.
Mặc dù có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất. Song do
mới làm quen với công tác nghiên cứu khoa học, tiếp cận với công nghệ mới cũng
như hạn chế về kiến thức và kinh nghiệm nên không thể tránh khỏi những thiếu sót
nhất định mà bản thân tôi chưa nhận thức được. Tôi rất mong được sự góp ý của Quý
thầy, cô và các bạn để đề tài được hoàn chỉnh hơn.
Xin chân thành cảm ơn!

ii tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 5 of 95.

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU .............................................. vi
DANH MỤC CÁC BẢNG ...................................................................................... vii
DANH MỤC CÁC HÌNH ...................................................................................... viii
MỞ ĐẦU ................................................................................................................... 1
Chương 1. TỔNG QUAN VỀ SPAM EMAIL VÀ CÁC PHƯƠNG PHÁP LỌC
SPAM EMAIL .......................................................................................................... 3
1.1. Định nghĩa spam email:................................................................................. 3
1.2. Các loại spam email ...................................................................................... 3
1.2.1. Spam email tiếng Anh ......................................................................... 3
1.2.2. Spam email tiếng Việt ......................................................................... 4
1.3. Đặc trưng của spam email: ............................................................................. 5
1.4. Tác hại của spam email .................................................................................. 6
1.5. Phương thức hoạt động của spam email ........................................................ 7
1.5.1. Quy trình chung................................................................................... 7
1.5.2. Thu thập địa chỉ email ......................................................................... 7
1.5.3. Tìm kiếm máy chủ trên internet cho phép phát tán spam email ......... 8
1.6. Phương pháp phân loại spam email ............................................................. 10
1.6.1. Lọc thư dựa vào địa chỉ IP ................................................................ 10
1.6.2. Lọc thư dựa vào đặc tính của thư spam ............................................ 12
1.6.3. Lọc thư spam dựa vào nội dung ........................................................ 13
1.6.4. Lọc thư sử dụng phương pháp xác thực ............................................ 14
1.6.5. Lọc thư spam dựa vào cài đặt các thuật toán .................................... 15
1.7. Tổng kết chương 1........................................................................................ 17

iii tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 6 of 95.

Chương 2. KỸ THUẬT PHÂN TÍCH NỘI DUNG THÀNH TỪ KHÓA ............. 18
2.1. Từ khóa và phương pháp trích chọn từ khóa ............................................... 18
2.1.1. Tổng quan về trích chọn từ khóa. ..................................................... 18
2.1.2. Một số phương pháp trích chọn từ khóa cơ bản ............................... 18
2.2. Phân loại từ khóa .......................................................................................... 19
2.3. Các vấn đề gặp phải ..................................................................................... 23
2.4. Tổng kết chương 2........................................................................................ 25
CHƯƠNG 3. SUPPORT VECTOR MACHINE VÀ HÀM NHÂN ...................... 26
3.1. Tổng quan về phân lớp dữ liệu..................................................................... 26
3.1.1. Xây dựng mô hình:............................................................................ 26
3.1.2. Sử dụng mô hình ............................................................................... 27
3.2. Support vector machine (SVM) ................................................................... 27
3.2.1. Tổng quan về SVM ........................................................................... 27
3.2.2. Cơ sở lý thuyết .................................................................................. 29
3.2.3. Bài toán phân lớp nhị phân với SVM ............................................... 30
3.2.4. Bài toán nhiều phân lớp với SVM .................................................... 31
3.2.5. Các bước chính của phương pháp SVM ........................................... 31
3.2.6. So sánh và một số cải tiến ................................................................. 32
3.2.7. Một số ứng dụng của SVM ............................................................... 32
3.3. Hàm nhân ( Kernel Function)....................................................................... 33
3.3.1. Khái niệm .......................................................................................... 33
3.3.2. Hàm nhân trong máy học tuyến tính ................................................. 34
3.3.4. Hàm nhân Kernel trong mô hình SVM ............................................. 35
3.3.5. Hàm nhân fisher ................................................................................ 37
3.3.6. Hàm nhân RBF ( Gaussian Kernel) .................................................. 39
3.4. Tổng kết chương 3........................................................................................ 42
CHƯƠNG 4. XÂY DỰNG HỆ THỐNG PHÁT HIỆN SPAM EMAIL SỬ DỤNG

SVM ........................................................................................................................ 43

iv tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 7 of 95.

4.1. Phân loại email sử dụng SVM...................................................................... 43
4.1.1. Bộ từ khóa và tần suất xuất hiện ....................................................... 43
4.1.2. Mô hình huấn luyện .......................................................................... 45
4.1.3. Huấn luyện mẫu dữ liệu sẵn có ......................................................... 45
4.1.4. Kiểm thử mức độ tốt đối với bộ phân lớp thu được.......................... 46
4.2. Ứng dụng phát hiện spam............................................................................. 47
4.2.1. Tâ ̣p hơ ̣p dữ liêụ huấ n luyê ̣n............................................................... 47
4.2.2. Tổ chức và xây dựng cơ sở dữ liêụ ................................................... 48
4.2.3. Mô hin
̀ h huấ n luyê ̣n SVM ................................................................. 51
4.2.3. Phát hiêṇ spam trên mô hiǹ h email thực tế với bô ̣ phân lớp thu đươ ̣c.54
4.3. Đánh giá ....................................................................................................... 55
4.4. Tổng kết chương 4........................................................................................ 57
KẾT LUẬN ............................................................................................................. 58
KIẾN NGHỊ ............................................................................................................ 59
TÀI LIỆU THAM KHẢO ....................................................................................... 60

v tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 8 of 95.

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU

Chữ viết tắt

Giải thích

SVM

Support Vector Machine

vi tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 9 of 95.

DANH MỤC CÁC BẢNG
Số
bảng
3.1
4.1

Tên bảng
Một số hàm nhân thông dụng
Kết quả phân lớp thu được

Trang
37
55

vii tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 10 of 95.

DANH MỤC CÁC HÌNH
Số hình
Tên hình
1.1
Minh họa spam email Tiếng Anh
1.2
Minh họa spam email Tiếng Việt
Thống kê các quốc gia có tỉ lên spam email cao và số lượng
1.3
spam email trong năm 2015
1.4
Minh họa gửi mail qua SMTP Relay Server
1.5
Minh họa cách gửi spam email qua open relay mail server
3.1
Bài toán phân lớp nhị phân bằng phương pháp SVM
3.2
4.1
4.2
4.3
4.4
4.5
4.6
4.7

Ứng dụng SVM bài toán nhận dạng và phân lớp
Minh họa mẫu dữ liệu training cho email spam
Xây dựng từ khóa dựa trên từ điển và tần suất xuất hiện

Tham số cho mô hình SVM
Mô hình hóa dữ liệu trên mặt phẳng không gian
Kiểm thử với một nội dung email khuyến mãi
Ứng dụng get email từ email server và phát hiện mẫu spam
Minh họa cho việc phát hiên spam sai của Gmail

Trang
4
5
6
8
9
31
33
48
51
52
53
54
55
56

viii tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 11 of 95.

MỞ ĐẦU
Phân loại spam email không còn là vấn đề quá mới mẻ trong những năm gần
đây. Bắt nguồn từ những yêu cầu thực tế cũng như các ý tưởng xung quanh bài

toán phân loại spam email, nhiều giải thuật đã được nghiên cứu và phát triển nhằm
giải quyết các vấn đề được đưa ra. Ý tưởng chính nhằm giải quyết các bài toán
phân lớp nói chung và phân loại spam email nói riêng không khác nhau quá nhiều,
tuy nhiên việc nghiên cứu, phát triển và triển khai ứng dụng đối với một vài yêu
cầu mang tính đặc thù không phải là một vấn đề đơn giản. Đặc biệt với các bài toán
phân loại spam email, việc xây dựng một hệ thống lý luận chung nhằm giải quyết
triệt để các vấn đề là vô cùng phức tạp.
Phát hiện spam email – một trong những bài toán thuộc không gian các vấn
đề phân loại đối tượng – đã được nghiên cứu và phát triển khá nhiều trong thời
gian trở lại đây. Không quá khó để liệt kê ra một vài giải thuật được nghiên cứu và
phát triển nhằm giải quyết bài toán trên, tuy nhiên kết quả hầu hết đều chỉ dừng lại
ở mức độ chấp nhận được về mặt học thuật, chứ chưa thực sự xây dựng một hệ
thống có khả năng triển khai thực tế. Trong khi đó, yêu cầu thực tế từ việc nhận
phân loại spam là khá lớn. Nói vậy để thấy rằng, việc xây dựng được một giải
thuật phù hợp giải quyết bài toán trên đã là một vấn đề khó, chưa kể đến việc phát
triển và xây dựng mô hình cụ thể còn cần thêm một khoảng thời gian dài nghiên
cứu và phát triển mới có thể đáp ứng được yêu cầu đề ra từ thực tế.
Vấn đề khó đầu tiên được đặt ra đối với các bài toán phân loại nội dung nói
chung cũng như phát hiện spam nói riêng nằm ở cách xây dựng tập đặc trưng phù
hợp cho nội dung cần phân tích. Kế đó là các phương pháp phân lớp cụ thể đối với
tập đặc trưng thu được. Xung quanh vấn đề này, có nhiều phương pháp được đặt
ra. Trong đó, bản luận văn tập trung nghiên cứu và phát triển các giải thuật SVM
trong phân lớp dữ liệu, cụ thể trong trường hợp này là nội dung văn bản, nhằm
nghiên cứu và đưa ra hướng phát triển hợp lí nhất cho vấn đề nêu trên.

1 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 12 of 95.

Mục tiêu của đề tài: xây dựng một chương trình có khả năng phát hiện
spam email một cách tự động dựa trên việc phân tích nội dung của email thành các
từ khóa, đặc điểm và áp dụng bộ phân lớp nhị phân SVM.
Ý nghĩa thực tiễn của đề tài: Xây dựng một hướng tiếp cận mới cho vấn đề
phân lớp dữ liệu nói chung, cũng như giải quyết bài toán phát hiện spam nói riêng.
Kết quả của đề tài nhằm góp phần đề xuất một góc nhìn mới về vấn đề phân lớp
văn bản, và đáp ứng các yêu cầu xuất phát từ thực tế về vấn đề phát hiện spam.
Nội dung nghiên cứu của đề tài:
- Spam email và các đặc điểm đặc trưng của một spam email.
- Kỹ thuật phân tích nội dung email thành các từ khóa, đặc điểm.
- Hàm nhân sử dụng với SVM.
- Phương pháp phân lớp SVM cho bài toán phát hiện spam email.
- Xây dựng chương trình mail client để lấy mail từ mail server và thử
nghiệm hệ thống.
Luận văn gồm các chương:
Chương I: Tổng quan về spam email và các phương pháp phân loại spam
email.
Chương II: Kỹ thuật phân tích nội dung thành từ khóa
Chương III: SVM và hàm nhân.
Chương IV: Xây dựng hệ thống phát hiện spam email sử dụng SVM.

2 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 13 of 95.

Chương 1. TỔNG QUAN VỀ SPAM EMAIL VÀ CÁC PHƯƠNG PHÁP
LỌC SPAM EMAIL
1.1. Định nghĩa spam email:
Ngày nay chưa có một định nghĩa chính thức cho một spam email, tuy nhiên

có thể hiểu đó là những email không được sự cho phép của người nhận hoặc người
nhận không mong muốn, là những email quảng cáo, khuyến mại hoặc những email
được gửi hàng loạt cho nhiều người cùng lúc. Tuy vậy, không phải tất cả các email
không mong muốn đều là spam email và ngược lại không phải tất cả các spam
email đều là thư quảng cáo.
Hiểu theo nghĩa hẹp, spam email là những thư quảng cáo không được yêu
cầu (Unsolicited Commercial Email - UCE). Theo nghĩa rộng hơn spam email là
bao gồm tất cả thư quảng cáo, quấy rối, có nội dung không lành mạnh (Unsolicited
Bulk Email - UBE).
Tóm lại, spam email có thể xem là thư không được yêu cầu và được gửi đi
hàng loạt. Trong đó phần nội dung bức thư là yếu tố quyết định dùng để phân biệt
spam email và thư thông thường, và đó cũng chính là cơ sở chính cho giải pháp
phân loại spam email bằng cách phân tích nội dung thư.
1.2. Các loại spam email
1.2.1. Spam email tiếng Anh
- Các spam email quảng cáo thuốc : Thuốc viagra, thuốc giảm đau, thực phẩm
chức năng,…
- Các spam email kêu gọi đầu tư chứng khoán, ngoại hối. Các spam email này
kêu gọi nhà đầu tư chứng khoán, ngoại hối với giá rẻ.
- Các spam email về tài chính : Là những spam email kêu gọi gửi tiền vào tài
khoản, đặc biệt hơn là các email lừa đảo gửi tiền để nhận quà hoặc những email
cung cấp thông tin để được nhận tiền chuyển khoản.
- Các thư có nội dung khiêu dâm và không lành mạnh.

3 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 14 of 95.

Hình 1.1. Minh họa spam email Tiếng Anh.

1.2.2. Spam email tiếng Việt
Hiện nay chưa có một đặc điểm chung để có thể thống kê được spam email
tiếng Việt, tuy nhiên các spam email tiếng việt thường tập trung vào các hình thức
sau:
- Spam email kêu gọi tham gia vào các diễn đàn trực tuyến như học làm giàu,
học tiếng anh, quản trị mạng.
- Spam email quảng cáo, rao vặt : Mua bán sim số đẹp, các dự án bất động
sản.
- Spam email tuyển dụng nhân sự.
- Spam email giới thiệu các chương trình khuyến mãi mua sắm trực tuyến, các
chương trình giảm giá.
- Spam email mời mọi người tham gia mạng xã hội.

4 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 15 of 95.

Hình 1.2. Minh họa spam email Tiếng Việt.
1.3. Đặc trưng của spam email:
Đặc trưng chung của spam email là không ràng buộc về mặt nội dung, spam
email có nội dung về bất kì lĩnh vực nào : quảng cáo, rao vặt, tuyển dụng, khiêu
dâm… Hầu hết các spam email đều có một mẫu chung và có thể nhận diện dễ
dàng. Ngoài ra, các thư spam có các đặc điểm về ngôn ngữ, thời gian.... Hầu hết
các spam email này đều được viết bằng tiếng Anh với tỉ lệ rất cao hơn 80%.
Đặc điểm chính của thư spam khác biệt với thư thông thường đó là :
- Không được yêu cầu, không mong muốn được nhận.
- Người nhận không quan tâm đến thông tin trong thư mình nhận được.
- Không rõ người gửi. Người nhận không biết, không có bất cứ liên hệ nào với
người gửi.

- Email này được gửi hàng loạt đến các địa chỉ khác nhau. Thể loại spam
email rất đa dạng phần lớn tập trung vào quảng cáo, lừa đảo, phần mềm giá rẻ, nội
dung không lành mạnh....

5 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 16 of 95.

Hình 1.3. Thống kê các quốc gia có tỉ lên spam email cao và số lượng spam
email trong năm 2015 (Nguồn : Trendmicro spam map)
1.4. Tác hại của spam email
Spam email đang chiếm một tỷ lệ vô cùng lớn trong tổng số lượng thư điện
tử được gửi qua Internet. Lượng thư spam quá lớn này gây ra nhiều tác hại đối với
sự phát triển Internet nói chung và người sử dụng thư điện tử nói riêng. Thống kê
báo cáo trong Quý III 2015, spam email chiếm 54,2% trong lưu lượng email, giảm
0,8% so với quý trước. Top 3 nguồn thư rác được nhắc đến là Hoa Kỳ (15,3%),
Việt Nam (8,4%) và Trung Quốc (7,2%) ( Nguồn Kaspersky Labs tháng 12/2015)
Dưới đây, mô tả một số tác hại cụ thể rõ ràng nhất của spam email :
- Gây thiệt hại về kinh tế tài chính cho người nhận thư, người nhận trả tiền
cho băng thông, dịch vụ.
- Lãng phí thời gian cho việc mở thư và xóa thư khỏi hộp thư và có thể làm
quá tải hộp thư của người nhận, dẫn đến việc thất lạc những thư đến sau, gây cản
trở diễn tiến công việc của những người sử dụng thư điện tử.

6 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 17 of 95.

- Spam email gây tâm lý xấu đối với người sử dụng thư điện tử. Theo số thống
kê, 25% người sử dụng thư điện tử xem spam email là một trở ngại lớn khi sử dụng
dịch vụ thư điện tử trên Internet.
- Spam chiếm một phần lớn đường truyền Internet và làm tiêu tốn thời gian xử
lý của máy chủ.
- Spam còn gây ra các vấn đề kỹ thuật, phần lớn các spam email có thể rất
nguy hiểm, chứa virus, trojan hay các loại phần mềm gây hại khác, tạo ra các lỗ
hổng bảo mật trong máy tính và mạng. Ngoài ra, spam email còn được xem là
phương tiện chính để thực hiện tấn công “phishing” ( mạo danh) người dùng.
1.5. Phương thức hoạt động của spam email
1.5.1. Quy trình chung
Để phát tán spam email, đối tượng gửi spam email phải có những điều kiện
- Có danh sách địa chỉ email nhận thư.
- Có các server cho phép gửi thư.
- Soạn được nội dung thư theo yêu cầu quảng cáo qua mặt bộ lọc
- Có những chương trình để gửi thư đi.
1.5.2. Thu thập địa chỉ email
Để gửi spam email, spammer cần phải có một danh sách địa chỉ email cần
gửi. Danh sách này được thu thập được từ nhiều nguồn khác nhau như mua từ
website thương mại có nhiều thành viên đăng ký hoặc sử dụng các kỹ thuật khác
như
- Phishing email: Spammer thường tung ra các website giả để bẫy người
dùng gửi địa chỉ email cho họ.
- Spambots: dùng các máy tìm kiếm chỉ để tìm kiếm địa chỉ email trên các
website. Các máy này sẽ tìm kiếm những trang có kí hiệu “@” và sẽ tách địa chỉ
email từ đó ra.
- Sinh địa chỉ email theo kiểu từ điển: Danh sách các địa chỉ cũng có thể
được sinh tự động để xác suất tồn tại của địa chỉ mới sinh đó có thể chấp nhận

7 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 18 of 95.

được. Địa chỉ email thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với
các domain nhiều người dùng và các con số có nghĩa. Ví dụ như địa chỉ email được
sinh như sau: từ địa chỉ gốc là: có thể sinh ra các địa chỉ
sau: , , ,

- Để xác định một địa chỉ email có tồn tại hay không, spammer sẽ gửi một
bức thư tới tất cả các hộp thư trong danh sách sinh tự động. Nếu hộp thư đó tồn tại
và người dùng mở bức thư đó ra thì sẽ có một chương trình được kích hoạt thông
báo về sự tồn tại của địa chỉ cho người gửi spam email.
1.5.3. Tìm kiếm máy chủ trên internet cho phép phát tán spam email
Muốn gửi được spam email, spammer cần một danh sách các server để gửi
thư đi. Các server này có thể là những server chuyên để gửi spam email do người
gửi spam email sở hữu hoặc thuê, hoặc là những server bị người gửi spam email
lợi dụng. Với từ khóa “Bulk mail” khi tìm kiếm trên google sẽ có danh sách rất
nhiều server cho phép gửi spam email.

Hình 1.4. Minh họa gửi mail qua SMTP Relay Server
Người gửi spam email thường khai thác lỗ hổng của những server cho phép
chuyển tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy).

8 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 19 of 95.

Hình 1.5. Minh họa cách gửi spam email qua open relay mail server

Trên mạng Internet, có rất nhiều mail server cho phép chuyển tiếp thư.
Spammer sử dụng các server này để chuyển tiếp spam email vì khi đó họ sẽ khó bị
phát hiện hơn và chuyển được các gánh nặng về đường truyền sang cho các server
đó. Tuy nhiên, server dạng này thường sớm bị đưa vào danh sách đen của các bộ
lọc spam email.
Một loại server khác là các proxy cho phép gửi thư mà các spammer thường
sử dụng. Mục đích chính của proxy là giúp các trang web vượt qua được tường lửa
(firewall). Một số proxy cho phép gửi thư và bất cứ ai cũng có thể truy cập được.
Spmmer lợi dụng điểm này để phát tán spam email.
Ngoài ra, spammer còn thuê các máy tính “ma” để gửi spam email. Đây là
các máy tính không được quản lý nên khó có thể pháp hiện ra tác giả của các bức
spam email và giá thuê lại rẻ, nên có tới 40%-60% spammer bắt đầu từ cách này.
Nghiêm trọng hơn, các spammer (và cũng là những hacker) còn chiếm
quyền kiểm soát các máy tính hợp pháp để gửi spam email.
1.5.

Tình hình spam email tại Việt Nam
Việt Nam đứng thứ hai trên toàn thế giới về nguồn thư rác với 8.42% trong

Quý III 2015, trong khi đó Quý II là 3,38% (Nguồn Kaspersky Lab)
Các thông tin về kỳ nghỉ hè, thông báo dịch vụ booking, thông báo của hãng
hàng không được sử dụng nhiều để phát tán các chương trình độc hại. Điển hình là
Trojan-Downloader.JS.Agent.hhy chuyên giả mạo vé máy bay điện tử hoặc đặt
phòng ở khách sạn. Bên cạnh đó, một loại spam email khác có nội dung là danh
sách các cô dâu được tuyển chọn (chủ yếu ở Nga và Ukraine) được gửi đến những

9 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 20 of 95.

chú rể ngoại quốc. Sau khi hồi âm, nạn nhân sẽ nhận thêm nhiều spam email và
một vài cô dâu phải trả tiền để được gặp vị hôn phu của mình.
1.6. Phương pháp phân loại spam email
1.6.1. Lọc thư dựa vào địa chỉ IP
1.6.1.1. Sử dụng danh sách đen (Black List) và danh sách trắng (White List)
Danh sách trắng và danh sách đen là hai phương pháp rất phổ biến để lọc
spam email. Ở danh sách đen sẽ chứa các địa chỉ server thường xuyên gửi spam
email, ngược lại, nằm trong danh sách trắng thường là an toàn. Địa chỉ này có thể
là email cá nhân, tên các domain hay địa chỉ IP và nó sẽ lọc ra cá nhân hay nhóm
gửi. Kỹ thuật này thường được sử dụng ở phía máy chủ hay là máy client và nó
được xem là một một sự bổ sung cho phương pháp khác hiệu quả hơn. Những
email được gửi từ địa chỉ thuộc danh sách đen sẽ bị nhà cung cấp dịch vụ thư điện
tử hoặc dịch vụ internet (ISP) từ chối. Ngược lại, các địa chỉ trong danh sách trắng
đáng tin cậy, ở phía server, người quản trị có thể kiểm soát các địa chỉ này trước
khi cho vào danh sách trắng, danh sách này cũng có thể do một bên thứ ba chuyên
tổng hợp và phân tích đưa ra.
Mỗi danh sách đều có ưu điểm riêng của nó. Đối với danh sách đen, danh
sách này luôn luôn được cập nhật đồng thời chia sẻ giữa các nhà cung cấp với
nhau. Ưu điểm của danh sách đen này là các nhà cung cấp sẽ lọc được khá nhiều
email spam từ các server. Ưu điểm của danh sách trắng so với danh sách đen là số
lượng địa chỉ trong danh sách trắng sẽ ít hơn rất nhiều và sẽ giải quyết tình trặng
chặn nhầm.
Bên cạnh ưu điểm vừa nêu trên, cả hai danh sách đều có khuyết điểm riêng
của nó. Đối với danh sách đen, do số lượng các spam email được gửi đi vẫn tăng
theo thời gian vì các spammer lại chuyển sang server khác, giả mạo địa chỉ email
hay chiếm quyền một server hợp pháp để gửi spam email. Do vậy, danh sách đen
thường chỉ chặn một nửa số spam email được gửi đi, và sẽ làm mất rất nhiều thư
hợp lệ nếu cho nhầm một địa chỉ vào danh sách đen. Khuyết điểm lớn nhất của

10 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 21 of 95.

danh sách đen là khó cập nhật danh sách và dễ chặn nhầm địa chỉ IP. Đối với danh
sách trắng sẽ gây phiền phức trong việc cập nhật, nhất là khi thay đổi địa chỉ IP
đồng nghĩa địa chỉ đó sẽ phải được cập nhật lại vào danh sách trắng. Ngoài ra, các
spammer cũng có thể lợi dụng chiếm quyền những server có trong danh sách trắng
để gửi spam email, khi đó tình trạng trở nên khó kiểm soát.
6.1.1.2. Sử dụng danh sách xám (Grey List)
Danh sách xám như là một sự bổ sung cho hai danh sách trắng và đen vừa
nêu ở trên. Cốt lõi của phương pháp này là luôn giả định rằng email luôn được gửi
bằng các phần mềm gửi mail hàng loạt, đây là phần mềm được thực hiện cụ thể để
gửi hàng ngàn email trong một thời gian ngắn. Phần mềm này khác với các máy
chủ thư điện tử truyền thống và không tôn trọng các tiêu chuẩn RFC email. Khi hệ
thống nhận được email từ một người gửi mà không rõ không nằm trong danh sách
trắng, nó tạo ra một người gửi tupla.
Lần đầu tiên tupla xảy ra trong hệ thống, email bị từ chối vì vậy nó trả lại
cho người gửi. Một máy chủ thật sự sẽ gửi email đó lại một lần nữa để lần thứ hai
hệ thống tìm tupla, email được gắn cờ là an toàn và giao cho người nhận.
Phương pháp này có một rất nhiều hạn chế, đối với email hợp pháp sẽ rất tốn
thời gian chờ đợi email gửi 2 lần và làm lãng phí băng thông trong quá trình gửi từ chối - gửi lại. Hạn chế thứ hai là các phần mềm gửi thư spam tự động chỉ cần
thêm chức năng mới vào sẽ dễ dàng gửi lại email bị trả lại.
6.1.1.3. Chặn IP
Phương pháp này sẽ chặn các email được gửi từ các địa chỉ IP theo một danh
sách từ trước. Khi một email được gửi đến, bộ lọc sẽ phân tích địa chỉ máy chủ
người gửi và so sánh với IP có trong danh sách địa chỉ bị chặn. Nếu trùng IP thì sẽ
lập tức được đánh dấu là spam và ngược lại.
6.1.1.4. Kiểm tra địa chỉ IP

Bằng cách kiểm tra IP của người gửi và người nhận, phần lớn spam email sẽ

11 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 22 of 95.

được phát hiện và chặn lại. Thực hiện quá trình kiểm tra này trước khi tải email
xuống sẽ giảm tải băng thông cũng như có bước lọc cơ bản đầu tiên trước khi sử
dụng các phương pháp khác.
Kỹ thuật hay dùng nhất đó là Sender Policy Framework. Kỹ thuật này cho có
bản chất là chủ sở hữu tên miền trên internet sử dụng một loại bản ghi DNS đặc
biệt, gọi là bản ghi SPF, chỉ rõ các địa chỉ bản ghi được phép gửi mail trong miền
của họ. Khi một email được gửi tới, bộ lọc SPF sẽ phân tích các thông tin trong
trường From (Người gửi) để kiểm tra địa chỉ. Sau đó SPF sẽ so sánh địa chỉ đó với
các bản ghi SPF của miền đó xem máy gửi email có được phép gửi email hay
không. Nếu email đến từ một server không có trong danh sách bản ghi SPF mà
miền đó đã công bố thì email đó có khả năng cao là spam.
1.6.2. Lọc thư dựa vào đặc tính của thư spam
1.6.2.1. Kỹ thuật giấu địa chỉ email
Cách đơn giản nhất để loại bỏ thư spam là không cho các spammer biết địa
chỉ email sử dụng. Địa chỉ email này chỉ cho những cá nhân hay tổ chức tin cậy
biết. Trong liên lạc hàng ngày có thể sử dụng một tài khoản email tạm thời cho các
cá nhân hay tổ chức kém tin cậy hơn.
Nếu địa chỉ email được công bố trên một trang web thì nó có thể được che
đậy bằng cách chèn một thẻ vào và thẻ này sẽ được gỡ bỏ trước khi địa chỉ email
được sử dụng. Các robot sẽ thu thập địa chỉ email có thẻ đó, và thẻ đó đã bị gỡ bỏ
để có được một địa chỉ email chính xác.
Với hầu hết người sử dụng, phương pháp này không khả thi. Đầu tiên là tốn
nhiều thời gian để thực hiện các kỹ thuật lưu giữ an toàn địa chỉ email, và thứ hai

là địa chỉ che dấu không những có thể làm các robot lạc lối mà còn khiến người
dùng khó sử dụng.
1.6.2.2. Kỹ thuật nhân viên giả mạo (Fake worker)
Ý tưởng chính của giải pháp này là tạo ra một địa chỉ email giả mạo hoạt

12 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 23 of 95.

động như một cái bẫy. Việc làm này có thể được sử dụng một cách đặc biệt tại các
công ty (ví dụ: ). Sau khi tạo ra một địa chỉ email giả mạo như
vậy, một người có thể chắc chắn rằng không có người gửi thực sự nào liên hệ với
địa chỉ này. Trong trường hợp này, mỗi email mà nhân viên giả mạo này nhận hầu
như chắc chắn là spam. Sử dụng thông tin này có thể giúp lọc nội dung của các hộp
thư từ những nhân viên khác.
1.6.2.3. Kiểm tra Header
Phương pháp kiểm tra header thường hay dùng để lọc email với nguyên tắc
kiểm tra Header của email nhận được, khi đó, các email spam thường có đặc điểm
sau :
- Bỏ trắng trường Form: hay To:
- Trường From (Sender) chứa các email không đạt chuẩn RFC.
- Các URL trong phần Header và phần nội dung của email có chứa địa chỉ IP
được mã hóa để che giấu thông tin gốc.
- Phần tiêu đề của email có thể chứa địa chỉ email người nhận để gây chú ý
cho người nhận. Khi sử dụng tính năng này với các địa chỉ email dùng chung có
dạng như : Ví dụ khi một khách hàng phản hồi bằng cách
sử dụng tính năng trả lời tự động với tiêu đề “your email to contact” có thể bị đánh
dấu là spam
- Gửi hàng loạt tới người nhận khác nhau.

- Chứa nhiều file ảnh thay vì văn bản.
- Nội dung có ngôn ngữ khác với người nhận.
1.6.3. Lọc thư spam dựa vào nội dung
1.6.3.1. Sử dụng các từ khóa chuẩn
Một trong các giải pháp đầu tiên là tìm kiếm các từ khóa trong subject của
thư, có nghĩa là chúng ta quét subject để lấy ra các từ có liên quan đến thư spam.

13 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 24 of 95.

Việc phân tích ngôn ngữ chỉ đơn giản là so sánh các từ hay cụm từ đặc biệt.
Phương pháp này gặp phải nhiều vấn đề do chủ đề của các thư spam thay đổi theo
thời gian. Điều này có thể được xử lý bằng một danh sách từ khóa thường xuyên
được cập nhật, nhưng chỉ cần một sự thay đổi nhỏ trong các từ của subject cũng
dẫn đến lỗi so sánh (ví dụ: viết “softw@re” thay vì viết “software”). Việc lọc trên
cơ sở một ký tự đơn có tỷ lệ thành công khoảng 80%.
Kỹ thuật tìm kiếm từ khóa đều dựa trên cơ sở danh sách các từ hay các cụm
từ chắc chắn là có trong thư spam. Sự đơn giản trong các bộ lọc spam kiểu này dẫn
đến tỷ lệ lỗi false-positive cao và tốn công cập nhật danh sách từ khóa.
1.6.3.1. Sử dụng phần mềm quét nội dung trực tiếp
Một chương trình sẽ kiểm tra quét thông tin nằm trong phần nội dung của
email để giúp cho các kĩ sư quản trị hệ thống phát hiện và tách email spam ra khỏi
hệ thống server. Phần mềm sẽ sẽ quét tổng thể toàn bộ email với các danh sách các
từ khóa cho trước thường được sử dụng trong spam hoặc quét các email mới đánh
dấu là spam để tìm kiếm thêm từ khóa.
Các cơ chế lọc thư phức tạp hơn có thể lọc nguyên cả một đoạn mã lệnh đầu
của thông điệp, những đoạn mã này bám theo suốt quá trình luân chuyển của email
và cung cấp thông tin về chuyến đi đó. Nếu một site spam có tên trong lịch trình

đó, phần mềm sẽ tự động chặn bức thông điệp lại.
1.6.4. Lọc thư sử dụng phương pháp xác thực
1.6.4.1. Xác thực tự động
Để tránh cho người gửi không phải tự mình xác thực yêu cầu như ở phương
pháp trên, yêu cầu xác thực có thể được thực hiện tự động. Trong phương pháp
này, chương trình email của người nhận sẽ gửi yêu cầu chương trình email của bên
gửi thực hiện một công việc tính toán nào đó và gửi lại kết quả để xác thực. Việc
tính toán kết quả và xác thực đòi hỏi một số lượng nhất định tài nguyên tính toán
của chương trình gửi email. Do chương trình phát tán spam email gửi thư hàng loạt

14 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

luan van thac si - luan van thac si kinh te - luan an tien - luan van 25 of 95.

với số lượng lớn nên sẽ không thể thực hiện được việc tính toán và xác thực như
vậy với mọi thư được gửi đi.
Ưu điểm cơ bản nhất của phương pháp này là có thể tự động hoàn toàn bộ
khâu kiểm tra và xác thực. Nếu độ phức tạp khi tính toán đạt mức độ cao nhất thì
phương pháp này sẽ đạt độ chính xác tuyệt đối.
1.6.4.1. Xác thực theo yêu cầu
Nguyên lý hoạt động của phương pháp này là khi có một bức thư được gửi
từ một địa chỉ lạ, bộ lọc sẽ gửi trả lại bức thư và yêu cầu người gửi điền các thông
tin cần thiết vào một form để xác thực bức thư mới đó.
Phương pháp này tỏ ra rất hiệu quả nếu được người dùng chấp nhận vì người
gửi spam email sẽ không thể nào phản hồi hết được spam email mà họ đã gửi. Tuy
nhiên việc làm cầu kỳ này rất khó được người dùng chấp nhận vì để gửi một bức
thư giới thiệu họ phải chờ đợi phản hồi từ phía bộ lọc rồi bức thư đó mới chính
thức đến đích.
Bên cạnh việc yêu cầu điền thông tin xác thực vào những form thông

thường, phương pháp này có thể sử dụng những kỹ thuật phức tạp hơn để tránh
trường hợp chương trình gửi spam email có thể điền thông tin vào form tự động.
Kỹ thuật thường được sử dụng Turing test, tức là yêu cầu thực hiện một công việc
rất dễ với con người nhưng rất khó với máy tính. Ví dụ, chương trình email của
người nhận sẽ gửi lại một ảnh nhỏ có chữ như trên hình dưới.
Người nhận cần xác thực bằng cách gõ và gửi lại các chữ trên hình vẽ. Đây
là việc rất dễ đối với con người nhưng lại vô cùng khó với máy tính.
1.6.5. Lọc thư spam dựa vào cài đặt các thuật toán
1.6.5.1. Phương pháp heuristic
Phương pháp heuristic được phát hiện vào cuối thập niên 1990, phương
pháp này dùng tập hợp luật “cảm tính” để xác định những đặc trưng của thư spam.

15 tieu luan - khoa luan-tai chinh ngan hang - thuong mai Footer Page - Footer Page - kho luan van - tai lieu - 123doc-

XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN SPAM EMAIL BẰNG BỘ PHÂN LỚP SVM_2

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về