Tải bản đầy đủ (.pdf) (75 trang)

Phương pháp lọc spam trên mạng xã hội (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.43 MB, 75 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Cao Ngọc Tú

PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI- 2018


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Cao Ngọc Tú

PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI
CHUYÊN NGÀNH :

HỆ THỐNG THÔNG TIN

MÃ SỐ:

8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

PGS.TS. TRẦN QUANG ANH



HÀ NỘI - 2018


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dƣới sự hƣớng
dẫn của PGS.TS.Trần Quang Anh, kết quả đạt đƣợc trong luận văn là sản
phẩm của riêng cá nhân, không sao chép lại của ngƣời khác. Trong toàn bộ nội
dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là đƣợc
tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ
ràng và đƣợc trích dẫn hợp pháp. Các số liệu, kết quả nêu trong luận văn là trung
thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác
Tác giả luận văn

Cao Ngọc Tú

LỜI CẢM ƠN


ii

Để hoàn thiện luận văn này, lời đầu tiên tôi xin gửi lời cảm ơn chân thành
đến PGS.TS Trần Quang Anh, ngƣời đã trực tiếp hƣớng dẫn tôi, giúp tôi vƣợt
qua những khó khăn trong quá trình tìm kiếm tài liệu, cũng nhƣ trình bày luận
văn. Từ khi lên ý tƣởng đến khi triển khai đề tài, tôi đã nhận đƣợc nhiều sự góp ý
của thầy để bổ sung, sửa chữa và hoàn thiện luận văn.
Tôi xin chân thành cảm ơn, Ban giám đốc, Ban chủ nhiệm Khoa Quốc tế
và sau đại học, Khoa Công nghệ thông tin cùng các thầy, cô tại Học viện Công

nghệ và Bƣu chính Viễn thông đã tận tình giảng dạy, quản lý đào tạo, giúp đỡ tôi
trong suốt quá trình học tập tại Học viện.
Tôi xin chân thành cám ơn, Hội đồng chấm đề cƣơng đã góp ý cho đề cƣơng
của luận văn.
Tôi xin gửi lời cảm ơn và biết ơn đến gia đình, các anh, chị và bạn bè đã
động viên, giúp đỡ tôi trong suốt quá trình thực hiện luận văn này.
Xin trân trọng cảm ơn!
Tác giả luận văn
Cao Ngọc Tú

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................. i
MỤC LỤC .................................................................................................................. ii


iii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .............................................. iv
DANH SÁCH HÌNH VẼ ............................................................................................v
DANH SÁCH CÁC BẢNG ...................................................................................... vi
MỞ ĐẦU .....................................................................................................................1
CHƢƠNG 1: TỔNG QUAN ......................................................................................4
1.1 Khái quát về mạng xã hội......................................................................................4
1.1.1 Lịch sử hình thành và phát triển các mạng xã hội .........................................4
1.1.2 Mạng xã hội Facebook và Twitter .................................................................5
1.2 Các vấn đề và các nguy cơ trên mạng xã hội ........................................................6
1.2.1 Đặc điểm và kiến trúc cơ bản của một mạng xã hội ......................................6
1.2.2 Một số công nghệ cơ bản trong các mạng xã hội hiện nay ...........................8
1.2.3 Các nguy cơ trên mạng xã hội .......................................................................9

1.3 Khái quát về Spam và Spam trên OSN ...............................................................10
1.4 Các đối tƣợng và phƣơng pháp gửi Spam trên OSN ..........................................12
1.4.1 Đối tƣợng Spam trên OSN...........................................................................12
1.4.2 Phƣơng pháp gửi Spam trên OSN ...............................................................12
1.5 Kết chƣơng ..........................................................................................................14
CHƢƠNG 2: CÁC PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI ..........15
2.1 Các đặc điểm phát hiện Spam trên mạng xã hội .................................................15
2.1.1 Các đặc điểm phát hiện Spam thông thƣờng ...............................................15
2.1.2 Đặc điểm phát hiện Spam trên OSN ............................................................16
2.1.3 Các đặc điểm chung để phát hiện Spam ......................................................17
2.2 Phƣơng pháp COMPA ........................................................................................18
2.2.1 Mục tiêu của phƣơng pháp COMPA ...........................................................18
2.2.2 Xây dựng hồ sơ hành vi của phƣơng pháp COMPA ...................................21
2.2.3 Phát hiện các thông báo bất thƣờng .............................................................25
2.2.4 Nhóm các Thông điệp tƣơng tự ...................................................................28
2.2.5 Phát hiện tài khoản bị từ chối ......................................................................29
2.3 Phần mềm MyPageKeeper ..................................................................................31


iv

2.3.1 Mục tiêu của phần mềm MyPageKeeper .....................................................31
2.3.2 Socware ........................................................................................................31
2.3.2 Kiến trúc MyPageKeeper ............................................................................34
2.3.4 Mô tả hoạt động xác định Socwave của MyPageKeeper ............................35
2.4 Phƣơng pháp lọc Spam trực tuyến ......................................................................37
2.4.1 Mục tiêu của hệ thống..................................................................................37
2.4.2 Thiết kế hệ thống .........................................................................................39
2.5 Phƣơng pháp phát hiện chiến dịch Spam ............................................................43
2.5.1 Mục tiêu trọng tâm của dự án ......................................................................44

2.5.2 Thiết kế hệ thống .........................................................................................44
2.5.3 Phƣơng pháp Xác nhận ................................................................................49
2.6 Kết chƣơng ..........................................................................................................50
CHƢƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ HỆ THỐNG .....................................52
3.1 Giới thiệu tập dự liệu ..........................................................................................52
3.2 Cài đặt thông số hệ thống và mô tả thuật toán ....................................................53
3.2.1 Hệ thống và các tham số ..............................................................................53
3.2.2 Giá trị ngƣỡng tƣơng tự trong phân cụm gia tăng .......................................54
3.2.3 Mô tả thuật toán phân cụm bằng cây quyết định .........................................55
3.3 Đánh giá kết quả thực nghiệm ............................................................................59
3.3.2 Độ chính xác ................................................................................................59
3.2.3 Khả năng chống lại cuộc tấn công triệt để...................................................62
3.3.4 Hiệu suất thời gian chạy ..............................................................................64
3.4 Kết chƣơng ..........................................................................................................64
KẾT LUẬN ...............................................................................................................66
DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................67

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Từ viết tắt
API

Nghĩa tiếng anh
Application Programming Interface

Nghĩa tiếng việt
giao diện lập trình ứng dụng


v


AJAX

Asynchronous JavaScript and XML

JavaScript và XML không
đồng bộ

CNTT

Công nghệ thông tin
Cumulative Density Function

Hàm phân phối tích lũy

False alarm

Tỷ lệ báo động giả

SN

Social Networks

Mạng xã hội

OSN

Online Social Networks

Mạng xã hội trực tuyến


ISP

Internet Service Provider

Nhà cung cấp dịch vụ Internet

OAUTH

Open Authorization

Một phƣơng thức chứng thực

CDF

PHISHING
SMV

Tấn công giả mạo
Support vector machine

Máy vector hỗ trợ

SPAM

Rác

SPAMMER

Ngƣời gửi thƣ rác


RSS

Spam recall

Tỷ lệ triệu hồi

Really Simple Syndication

Tiêu chuẩn định dạng tài liệu
dựa trên XML

URL

Uniform Resource Locator

URL tạo nên khả năng siêu
liên kết cho các website

DANH SÁCH HÌNH VẼ
Hình 2.1:Mô tả mô hình mạng xã hội sử dụng và không sử dụng mô hình lọc Spam
Online

38

Hình 2.2 : Sơ đồ tổng quan về hệ thống lọc trực tuyến

40

Hình 3.1: Mô tả cấu trúc tập dữ liệu


53


vi

DANH SÁCH CÁC BẢNG
Bảng 3.1: Độ chính xác tổng thể khi điều chỉnh các tham số

60

Bảng 3.2: Tỷ lệ phát hiện chính xác bằng cách sử dụng mỗi bộ đặc điểm với bộ dữ
liệu Facebook

61

Bảng 3.3: Độ phát hiện chính xác trên bộ dữ liệu Facebook theo thời gian

62

Bảng 3.4: Tỷ lệ phát hiện chính xác của hệ thống dƣới cuộc tấn công tàng hình 63


1

MỞ ĐẦU
Trong những năm gần đây, khoa học và công nghệ đang phát triển mạnh mẽ,
đặc biệt là sự phát triển của công nghệ thông tin đã ảnh hƣởng không nhỏ đến đời
sống của con ngƣời. Trong đó, có thể kể đến sự ảnh hƣởng của internet trong tất cả
các mặt của đời sống xã hội, kinh tế, văn hóa, chính trị. Internet đã và đang kết nối
mọi ngƣời trên thế giới với nhau, nó phá vỡ mọi khoảng cách về biên giới, không

gian, thời gian, tạo điều kiện và môi trƣờng thuận lợi cho việc giao tiếp xã hội. Từ
khi có internet thì cũng xuất hiện các loại hình tìm kiếm thông tin, giải trí, kết nối
xã hội, trong đó không thể thiếu đƣợc các mạng xã hội đang đƣợc rất nhiều ngƣời
sử dụng nhƣ: Google+, Facebook, Twitter, Yahoo, Skye, Myspace… Mạng xã hội ở
đây đƣợc hiểu là một loại hình dịch vụ trên internet mới phát triển trong kỷ nguyên
số, ứng dụng những thành tựu của công nghệ thông tin. Mạng xã hội là dịch vụ kết
nối các thành viên cùng sở thích trên internet lại với nhau với nhiều mục đích khác
nhau không phân biệt không gian và thời gian, đồng thời nó đƣợc tạo nên thông
qua các tƣơng tác giữa các thành viên trong cộng đồng mạng.
Facebook và Twitter là hai mạng xã hội lớn đƣợc rất nhiều ngƣời sử dụng
trên thế giới. Có thể nói, trong những năm gần đây mạng xã hội Facebook đã trở
thành một hiện tƣợng xã hội điển hình, thể hiện nhu cầu giao tiếp xã hội và giải
trí. Nó tạo ra cho mỗi ngƣời một cộng đồng xã hội bao gồm những ngƣời quen
biết và không quen biết, sự đa dạng về môi trƣờng xã hội trên Facebook, sự tự do
trong việc trao đổi thông tin, tâm tƣ tình cảm…hoặc ngay cả các yếu tố công việc,
kinh tế cũng đƣợc đƣa vào Facebook để trao đổi. Nhìn chung, Facebook dần trở
thành một công cụ xã hội không thể thiếu đối với nhiều ngƣời.
Thật không may, nhiều bằng chứng cho thấy rằng mạng xã hội đang là một
môi trƣờng hiệu quả để truyền bá Spam. Một số nghiên cứu gần đây đã xác nhận sự
tồn tại của các chiến dịch Spam quy mô lớn trên Twitter và Facebook. Hơn nữa, tỷ
lệ nhấp chuột vào Spam trên mạng xã hội có mức độ lớn hơn so với Spam email,
cho thấy rằng ngƣời dùng có xu hƣớng tin cậy bạn bè của họ trong mạng xã hội hơn


2

là từ email Spam. Vấn đề Spam trong mạng xã hội đã nhận đƣợc sự nhiều chú ý của
các nhà nghiên cứu. Tƣởng nhƣ, tƣơng tự Spam email chúng cùng là một vấn đề,
bản chất chúng rất giống nhau và đã đƣợc nghiên cứu rộng rãi trong nhiều năm.
Nhƣng phần lớn các giải pháp hiện tại không thể áp dụng trực tiếp cho nó.

Vì thế nhiều nghiên cứu gần đây tập trung vào việc nghiên cứu các đặc điểm,
phƣơng pháp và xây dựng các hệ thống lọc Spam trên mạng xã hội nhƣ:
- “Towards Online Spam Filtering in Social Networks”[4]: Tác giả trình bày
một hệ thống lọc thƣ rác trực tuyến đƣợc thiết kế đặc biệt cho các mạng xã hội và
có thể đƣợc triển khai nhƣ một thành phần của nền tảng của mạng xã hội.
-“COMPA: Detecting Compromised Accounts on Social Networks”[1] có
một cách tiếp cận mới để phát hiện các tài khoản đƣợc cam kết trên các mạng xã
hội. Bằng cách xác định các tài khoản bị xâm nhập, các nhà cung cấp mạng xã hội
có thể tập trung nỗ lực giảm thiểu của họ vào ngƣời dùng thực.
- “Detecting and Characterizing Social Spam Campaigns”[3]: Tác giả trình
bày một nghiên cứu đầu tiên để đo lƣờng và phân tích các nỗ lực để lan truyền nội
dung độc hại trên các mạng xã hội. Họ sử dụng nhiều kỹ thuật để phát hiện mối
tƣơng quan giữa các thông báo trên tƣờng và để xác định sự lây lan của nội dung
độc hại tiềm ẩn và là nỗ lực đầu tiên để định lƣợng số lƣợng các tài khoản độc hại
và lây lan nội dung độc hại trên mạng xã hội.
-“Efficient and Scalable Socware Detection in Online Social Networks”[2]:
Trong nghiên cứu này này tác giả thiết kế ứng dụng MyPageKeeper cho mục đích
bảo vệ ngƣời dùng Facebook khỏi socware. Đối với bất kỳ ngƣời dùng đăng ký
MyPageKeeper khi nào socware xuất hiện trên tƣờng của ngƣời dùng hoặc nguồn
cấp dữ liệu tin tức phần mềm sẽ phát hiện ngay sau đó và cảnh báo ngƣời dùng.
Trong phạm vi luận văn này, tôi trình một số đặc điểm của mạng xã hội,
Spam, các nguy cơ từ Spam và đó trình bày một phƣơng pháp, thiết kế một hệ thống
lọc Spam trực tuyến trên mạng xã hội để kiểm tra các thông điệp đƣợc gửi đến bởi
ngƣời dùng. Theo đó, hệ thống thông qua một số các đặc điểm để thể phân biệt hiệu
quả Spam và có thể loại bỏ các tin nhắn đƣợc phân loại là "Spam" do đó bảo vệ


3

chúng khỏi các nguy cơ khác nhau.

Nội dung của luận văn gồm ba chƣơng nhƣ sau:
Chƣơng 1: Tổng quan về mạng xã hội và các nguy cơ từ Spam
Chƣơng 2: Các phƣơng pháp lọc Spam trên mạng xã hội
Chƣơng 3: Thực nghiệm đánh giá hệ thống lọc Spam trực tuyến
Cuối cùng là phần đánh giá, kết luận và phƣơng hƣớng của luận văn.


4

CHƢƠNG 1: TỔNG QUAN VỀ MẠNG XÃ HỘI VÀ CÁC
NGUY CƠ TỪ SPAM
1.1 Khái quát về mạng xã hội
Mạng xã hội (SN – Social network) là tập hợp các cá nhân với các mối quan
hệ một hoặc nhiều mặt nào đó gắn kết với nhau. Về mặt toán học mạng xã hội có
thể xem nhƣ một hệ thống có cấu trúc gồm các đỉnh (node) gắn với nhau thành một
mạng bới các liên kết (hoặc các cung).
Dịch vụ mạng xã hội trực tuyến (OSN – Online Social networking) là một
nền tảng cho phép ngƣời dùng có thể tạo lập các cộng đồng trực tuyến và chia sẻ
các nội dung do ngƣời dùng tạo ra trên mạng Internet. Ngƣời dùng ở đây có thể là
ngƣời sử dụng internet hoặc có thể thuộc về một tổ chức cụ thể (công ty, trƣờng đại
học, tổ chức nghề nghiệp v.v…) các cộng đồng có thể là một mạng các bạn bè ngoại
tuyến (có tình bạn ngoài trực tuyến), ngƣời quen trực tuyến, hoặc một hay nhiều
nhóm có cùng sở thích, mối quan tâm (học cùng trƣờng, có cùng sở thích, mối quan
tâm, mục đích, nghề nghiệp, sắc tộc, giới tính, nhóm tuổi, v.v…) các nội dung do
ngƣời dùng tạo ra có thể là hình ảnh, video, đánh dấu các trang Web (book
marking), hồ sơ ngƣời dùng, thông tin cập nhập hoạt động ngƣời dùng, văn bản
(blog, microblog, và ý kiến bình luận v.v…) chia sẻ các nội dung do ngƣời dùng tạo
ra bao gồm: đăng thông tin, xem và bình luận về các nội dung do ngƣời dùng tạo ra,
và cũng có thể bao gồm các bầu chọn, lƣu, và phân phối quảng bá các nội dung đó.


1.1.1 Lịch sử hình thành và phát triển các mạng xã hội
Trong lịch sử, các trang web mạng xã hội ra đời trƣớc các trang web truyền
thông xã hội. Classmates.com (1995) và SixDegrees.com (1997) là các trang web
mạng xã hội đầu tiên. Friendster (2002), MySpace, Bebo và Facebook (2004) là
hàng loạt các trang web mạng xã hội tiếp theo. Trang mạng truyền thông xã hội
Flickr (2004), Youtube (2005) và Twitter (2006) xuất hiện tiếp theo.
Tại Việt Nam, các trang mạng xã hội ra đời khoảng năm 2006 và 2007 nhƣ


5

Yobanbe, Vietspace, Zoomban. Zing me đƣợc ra đời năm 2009 chỉ sau thời gian
ngắn ra mắt, Zing me đã trở thành một trong những trang mạng xã hội đƣợc truy
cập và ƣa thích nhiều nhất tại Việt Nam.

1.1.2 Mạng xã hội Facebook và Twitter
Facebook là một website truy cập miễn phí do công ty Facebook, Inc điều
hành. Ngƣời dùng có thể tham gia các mạng lƣới đƣợc tổ chức theo thành phố, nơi
làm việc, trƣờng học và khu vực để liên kết và giao tiếp với ngƣời khác. Mọi ngƣời
cũng có thể kết bạn và gửi tin nhắn cho họ, và cập nhật trang hồ sơ cá nhân của
mình để thông báo cho bạn bè biết về chúng. Mark Zuckerberg thành lập Facebook
cùng với bạn bè của ông là các sinh viên khoa khoa học máy tính và bạn cùng
phòng Eduardo Saverin, Dustin Moskovitz và Chris Hughes khi Mark còn là sinh
viên tại Đại học Harvard. Việc đăng ký thành viên website ban đầu chỉ giới hạn cho
những sinh viên Harvard, nhƣng đã đƣợc mở rộng sang các trƣờng đại học khác tại
khu vực Boston, Ivy League, và Đại học Stanford. Sau đó nó đƣợc mở rộng hơn nữa
cho sinh viên thuộc bất kỳ trƣờng đại học nào, rồi đến học sinh phổ thông và cuối
cùng là bất cứ ai trên 13 tuổi. Tính đến tháng 12 năm 2017, Facebook hiện có hơn
hai tỷ thành viên tích cực trên khắp thế giới. Với con số ấy, Facebook là mạng xã
hội phổ biến nhất, tiếp theo sau là MySpace và Twitter. Hiện tại, Facebook có số

lƣợt truy cập đứng đầu thế giới. Facebook đã gặp phải một số tranh cãi trong những
năm qua. Nó đã bị cấm một thời gian tại một số quốc gia, trong đó có Syria, Trung
Quốc, Việt Nam và Iran. Facebook cũng đã bị cấm tại nhiều công sở để hạn chế
nhân viên tốn thời gian sử dụng dịch vụ. Quyền riêng tƣ trên Facebook cũng là một
vấn đề gây nhiều tranh cãi. Trang này cũng đang đối mặt với một số vụ kiện từ một
số bạn cùng lớp của Zuckerberg, những ngƣời cho rằng Facebook đã ăn cắp mã
nguồn và các tài sản trí tuệ khác của họ.
Twitter là một dịch vụ mạng xã hội trực tuyến miễn phí cho phép ngƣời sử
dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweets, một dạng tiểu blog.
Những mẩu tweet đƣợc giới hạn tối đa 140 ký tự đƣợc lan truyền nhanh chóng
trong phạm vi nhóm bạn của ngƣời nhắn hoặc có thể đƣợc trƣng rộng rãi cho mọi


6

ngƣời. Thành lập từ năm 2006, Twitter đã trở thành một hiện tƣợng phố biến toàn
cầu. Những tweet có thể chỉ là dòng tin vặt cá nhân cho đến những cập nhật thời sự
tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thống. Twitter Inc. đƣợc
đặt ở San Francisco và có hơn 35 công ty khắp thế giới. Giới hạn về độ dài của tin
nhắn, 140 ký tự, có tính tƣơng thích với tin SMS (Short Message Service), mang
đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã đƣợc sử dụng rộng rãi
đối với SMS. Giới hạn về ký tự cũng giúp thúc đẩy các dịch vụ thu gọn địa chỉ
website nhƣ tinyurl, bit.ly và tr.im, hoặc các dịch vụ nội dung tên miền nhƣ là
Twitpic và NotePub nhằm thu thập các thông tin đa phƣơng tiện và những đoạn dài
hơn 140 ký tự. Hiện nay Twitter đã hỗ trợ ngƣời dùng đăng ảnh, video, ảnh động,
và đặc điểm cập nhật khoảnh khắc.

1.2 Các vấn đề và các nguy cơ trên mạng xã hội
1.2.1 Đặc điểm và kiến trúc cơ bản của một mạng xã hội
Các đặc điểm chính của một mạng xã hội:

- Hồ sơ cá nhân
- Kết bạn trực tuyến
- Tham gia nhóm trực tuyến
- Chia sẻ với bạn bè trực tuyến
- Chia sẻ nội dung do ngƣời dùng tạo ra
- Bày tỏ ý kiến
- Tìm kiếm thông tin
- Giữ ngƣời dùng
Các khái niệm chính nhƣ:
- Post (Đăng): Bài viết đại diện cho đơn vị cơ bản của thông tin đƣợc chia sẻ
trên mạng xã hội. Các bài đăng tiêu biểu hoặc chỉ chứa văn bản (cập nhật trạng
thái), URL có văn bản mô tả liên quan hoặc ảnh / album đƣợc chia sẻ bởi ngƣời
dùng.
- Wall (Tƣờng): Một bức tƣờng của ngƣời sử dụng mạng xã hội là một trang


7

mà bạn bè của ngƣời sử dụng có thể đăng tin nhắn cho ngƣời dùng. Các thông điệp
nhƣ vậy đƣợc gọi là bài viết trên tƣờng. Ngoài ngƣời dùng, bài đăng trên tƣờng của
ngƣời dùng sẽ hiển thị cho ngƣời dùng khác trên mạng xã hội đƣợc xác định bởi cài
đặt bảo mật của ngƣời dùng.
- News feed (Tin tức): Trang nguồn tin tức của ngƣời dùng mạng xã hội là một
bản tóm tắt về hoạt động xã hội của bạn bè trên mạng xã hội. Ví dụ: nguồn cấp dữ
liệu của ngƣời dùng có chứa các bài đăng mà một trong những ngƣời bạn của ngƣời
dùng có thể đã chia sẻ với tất cả bạn bè của cô ấy.
- Like (Thích): Like nhƣ một widget mạng xã hội đƣợc kết hợp với một đối
tƣợng chẳng hạn nhƣ bài đăng, trang hoặc ứng dụng. Nếu ngƣời dùng nhấp chuột
vào tiện ích Like gắn liền với một đối tƣợng, đối tƣợng sẽ xuất hiện trong nguồn tin
tức của những ngƣời bạn của ngƣời dùng và do đó cho phép thông tin về đối tƣợng

lây lan trên mạng xã hội. Hơn nữa, số like (tức là số lƣợng ngƣời dùng đã nhấp vào
tiện ích like) nhận đƣợc bởi một đối tƣợng cũng tƣợng trƣng cho danh tiếng hoặc
tính phổ biến của đối tƣợng.
- Application (Ứng dụng): Mạng xã hội cho phép các nhà phát triển bên thứ
ba tạo ra các ứng dụng của riêng họ mà ngƣời dùng mạng xã hội có thể thêm vào.
Mỗi khi một ngƣời dùng thăm trang của một ứng dụng trên mạng xã hội, mạng xã
hội sẽ tự động tải nội dung của ứng dụng từ một URL, gọi là URL canvas, trỏ đến
máy chủ ứng dụng do nhà phát triển ứng dụng cung cấp. Vì nội dung của một ứng
dụng đƣợc nạp động mỗi khi ngƣời dùng truy cập trang của ứng dụng trên mạng xã
hội, nhà phát triển ứng dụng có quyền kiểm soát tuyệt vời đối với nội dung đƣợc
hiển thị trong trang ứng dụng.
Dựa trên việc phân tích đặc điểm và đặc điểm của các trang mạng xã hội hiện
nay, chúng ta có thể phân chia mạng xã hội theo đối tƣợng thành ba dạng cơ bản
nhất nhƣ sau:
- Lấy cá nhân làm trung tâm
- Lấy mối quan hệ giữa các cá nhân làm trung tâm. Với loại hình này có có
thể chia nhỏ ra thành:


8

+ Mạng cộng đồng
+ Mạng tìm kiếm cơ hội
+ Mạng những thành viên có cùng sở thích, đam mê
- Lấy nội dung làm trung tâm
Kiến trúc cơ bản của một mạng xã hội ta có thể xem xét ở ba khía cạnh đó là:
kiến trúc truyền thông, kiến trúc phần mềm ứng dụng, và kiến trúc hạ tâng công
nghệ thông tin (CNTT) của nhà cung cấp dịch vụ.
Đối với kiến trúc truyền thông thi mạng xã hội đƣợc xem nhƣ là một mạng
liên kết các cá nhân và các cộng đồng với nhau. Kiến trúc mạng xã hội sẽ là một đồ

thị với các đỉnh là các thành viên và các cạnh thể hiện mối liên kết giữa các thành
viên đó với nhau. Nghiên cứu về cấu trúc này sẽ cho ta biết mối liên kết giữa các
thành viên với nhau tuân thủ theo quy luật nào, hiểu đƣợc xu thế giãn nở và kích
thƣớc của mạng. Từ đó có thể xây dựng đƣợc các thuật toán cho việc tìm kiếm
những ngƣời quen biết nhau trong một cộng đồng, tìm kiếm các nguồn tài nguyên
phát sinh trên mạng, xãc định giá trị các mối liên hệ theo thời gian và theo các mối
liên hệ khác. Với kiến trúc mạng xã hội là các mô đun phần mềm liên kết với nhau,
ta sẽ xác định đƣợc đâu là các thành phần chính tạo nên mạng xã hội và chúng liên
kết với nhau nhƣ thế nào. Kiến trúc này sẽ giúp cho chúng ta thiết kế xây dựng
đƣợc một trang mạng xã hội đáp ứng đƣợc mục tiêu đƣa ra. Kiến trúc hạ tầng
CNTT của nhà cung cấp dịch vụ sẽ cho ta một cái nhìn tổng thể về việc triển khai
hệ thống, đƣa dịch vụ mạng xã hội vào khai thác sử dụng.

1.2.2 Một số công nghệ cơ bản trong các mạng xã hội hiện nay
Mạng xã hội ra đời nhờ sự phát triển của mạng Internet và công nghệ web
2.0 trong những năm cuối thế kỷ 20. Chính sự phát triển của mạng Internet với công
nghệ IP đã kết nối hơn 2 tỷ ngƣời trên khắp thế giới lại với nhau. Mạng Internet
ngày nay trở thành công cụ hỗ trợ không thể thiếu đối với nhiều ngƣời trong tất cả
các lĩnh vực nhu trao đổi thông tin, nghiên cứu, học tập, sản xuất, giải trí v.v… Sự
ra đời của công nghệ web và đặc biện là sự phát triển của thế hệ web 2.0 cho phép
ngƣời dùng trực tiếp tƣơng tác, tham ra và phát triển nội dung cũng nhƣ các ứng


9

dụng trên nền web. Các trang mạng xã hội đƣợc xây dựng và phát triển dựa trên
hàng ngàn công nghệ liên quan đến Internet và web. Một số công nghệ quan trọng
tác động đến sự ra đời và phát triển của các trang mạng xã hội nhƣ công nghệ API,
RSS, AJAX, đây là những công nghệ đã đƣợc ứng dụng cho việc tạo lập và phát
triển các trang mạng xã hội ngày nay. Các công nghê này giúp cho việc xây dựng

trang mạng xã hội có thể kết nối với các nguồn dữ liệu khổng lồ của các trang mang
xã hội lớn hiện nay, quảng bá, phân phối thông tin trên các trang mạng, xây dựng
các tiện ích, đặc điểm phục vụ nhu cầu ngƣời dùng.

1.2.3 Các nguy cơ trên mạng xã hội
Với một tốc độ truyền tải nhƣ vũ bão, Internet nói chung, mạng xã hội nói
riêng hàm chứa nhiều thông tin không đƣợc kiểm chứng, sai sự thật, thậm chí độc
hại. Vì thế, nó cực kì nguy hiểm, có thể gây ảnh hƣởng xấu đến chính trị, kinh tế,
đạo đức,… và nhiều mặt của đời sống, có thể gây nguy hại cho quốc gia, tập thể hay
các cá nhân. Do đƣợc sáng tạo trong một môi trƣờng ảo, thậm chí nặc danh nên
nhiều “ngôn ngữ mạng” trở nên vô trách nhiệm, vô lƣơng tâm và vô văn hoá. Có
những kẻ đã lợi dụng mạng xã hội để bôi xấu chế độ, lãnh tụ, bôi nhọ, xúc phạm
ngƣời khác. Có những kẻ đƣa lên đó những nội dung không lành mạnh, không phù
hợp với đạo đức, thuần phong mĩ tục của ngƣời Việt.
Mạng xã hội cũng là một hoạt động giao tiếp. Việc tiếp nhận thông tin cần
gắn với ngữ cảnh. Nếu không hiểu ngữ cảnh cụ thể có thể hiểu sai lạc thông tin, và
nếu sự sai lạc ấy lại đƣợc lan truyền mạnh mẽ thì nhiều khi gây ra hậu quả khó
lƣờng.
Mạng xã hội có thể liên quan đến những hành vi bạo lực, lừa gạt tình dục,
lừa gạt tài sản, bắt cóc,… chẳng khác nào những hậu quả nhƣ ở Game online, “Cứu
Net”,… Nhiều kẻ đã lợi dụng mạng xã hội để moi tiền những ngƣời tốt bụng, cả tin
khi nhân danh kẻ đáng thƣơng hay hội, đoàn hoạt động từ thiện,… mạng xã hội có
thể làm tan nát một cơ đồ, phá huỷ cả cơ nghiệp. Không ít ngƣời trở thành nạn nhân
của trộm cắp vì chia sẻ nhiều, lộ ra những bí mật cá nhân, thời gian vắng nhà,…


10

Mạng xã hội cũng là kẻ phá hoại khi làm tan vỡ hạnh phúc gia đình, chồng li
dị vợ vì vợ nghiện mạng xã hội mà không quan tâm đến gia đình.

Mạng xã hội là nơi số lƣợng like có thể sản xuất đƣợc và đầy rẫy cạm bẫy,
lừa lọc. Nhiều thành viên ngây thơ, trong sáng, ham hiểu biết, muốn khẳng định
nhƣng chƣa đủ kinh nghiệm, tri thức để phân biệt đúng, sai, có khi chỉ hùa theo
“tâm lí đám đông”.

1.3 Khái quát về Spam và Spam trên OSN
Spam là một trong những thách thức lớn nhất hiện nay mà khách hàng và các
nhà cung cấp dịch vụ phải đối phó. Spam đã trở thành một hình thức quảng cáo
chuyên nghiệp, phát tán virus, ăn cắp thông tin... với nhiều thủ đoạn và mánh khóe
cực kỳ tinh vi. Ngƣời dùng sẽ phải mất khá nhiều thời gian để xóa những email, tin
nhăn, bài đăng “không mời mà đến”, nếu vô ý còn có thể bị nhiễm virus, trojan,
spyware ... và nặng nề hơn là mất thông tin nhƣ thẻ tín dụng, tài khoản ngân hàng
qua các dạng Spam phishing (tấn công giả mạo).
Cho đến nay thì chƣa có một định nghĩa chính thức cho Spam. Spam đƣợc
hiểu là rác. Một dạng văn bản, bài viết, email hay ý kiến vô nghĩa hoặc mang tính
chất quảng cáo mà không đƣợc sự cho phép của ngƣời dùng, ngƣời dùng không hề
mong muốn nhận hay đọc đƣợc những thông tin nhƣ vậy vì đó là những thông tỉn
không bổ ích, không mang lại giá trị đối với ngƣời dùng mà ngƣợc lại làm cho
ngƣời dùng cảm thấy khó chịu và phiền toái.
Spam đƣợc cho rằng xuất hiện lần đầu tiên vào năm 1978 khi một ngƣời đàn
ông gửi một thông điệp quảng cảo về mẫu sản phẩm mới tới 393 ngƣời cùng lúc,
thay vì gửi cho từng ngƣời một nhƣ thƣờng lệ.
Có rất nhiều sự giải nghĩa cho từ Spam, một trong những lý giải đƣợc nhiều
ngƣời chấp nhận nhất là Spam đƣợc viết tắt của cụm từ “Stupid Pointless Annoying
Message” trong Tiếng anh có nghĩa là những bức thƣ ngu ngốc – vô nghĩa – phiền
toái. Ngoài ra thì cũng Có một số cuộc tranh luận về nguồn gốc của Spam, nhƣng
phiên bản cũng đƣợc chấp nhận rộng rãi là từ bài hát Monty Python, " Spam Spam


11


Spam, Spam Spam Spam, Spam đáng yêu, Spam tuyệt vời ". Giống nhƣ bài hát,
Spam là một sự lặp đi lặp lại vô tận của văn bản vô giá trị. Một trƣờng phái tƣ duy
khác duy trì ý kiến nó đến từ nhóm phòng thí nghiệm máy tính tại Đại học Nam
California đã đặt tên cho nó vì nó có nhiều đặc điểm giống nhƣ thịt ăn trƣa Spam:
- Không ai muốn nó hoặc yêu cầu nó.
- Không ai ăn nó; nó là mục đầu tiên đƣợc đẩy sang một bên khi ăn.
- Đôi khi nó thực sự tốt, nhƣ 1% Spam thực sự hữu ích cho một số ngƣời.
Hiện nay, Spam đã có nhiều sự biến đổi để thích nghi với sự tra đời của các
nền tảng giáo tiếp kết nối mới chứ không còn đơn thuần là Spam email truyền thống
nữa. Ví dụ: Spam chat, Spam tin tức, Spam tin nhắn, Spam trong các forum, Spam
trên các mạng xã hội, Spam like hay Spam chia sẻ dƣới nhiều hình thức và cách
thức khác nhau: nhƣ dƣới dạng văn bản, hình ảnh, video, link v.v…
Hầu hết Spam đều nhằm mục đích quảng cáo cho những sản phẩm không
đáng tin cậy hoặc những dịch vụ có vẻ nhƣ hợp pháp. Tuy nhiên, không phải mọi
vụ gửi Spam đều là nhằm mục đích quảng cáo thƣơng mại. Một số vụ gửi Spam lại
nhằm mục đích bất chính hoặc cũng có những kẻ gửi Spam chỉ để bày tỏ quan điểm
chính trị hoặc tôn giáo. Hình thức gửi Spam nguy hiểm nhất là hình thức gửi đi
những thông điệp đề lừa ngƣời dùng tiết thông tin tài khoản ngân hàng trực tuyến,
số thẻ tín dụng v.v…đấy chính là một dạng phổ biến của lừa đảo trực tuyến.
Mạng xã hội trực tuyến là công cụ cộng tác và truyền thông phổ biến cho
hàng triệu ngƣời dùng Internet. Những bằng chứng gần đây cho thấy rằng những
cộng đồng này đã trở thành môi trƣờng mới, hiệu quả để truyền bá Spam và phát
động các cuộc tấn công, phát tán các phần mềm độc hại và lừa đảo. Các OSN phổ
biến đang ngày càng trở thành mục tiêu của các cuộc tấn công lừa đảo đƣợc kích
hoạt từ các botnet lớn. Spammer sử dụng các tài khoản bị xâm nhập hoặc giả mạo,
để tấn công bằng cách Spam tin nhắn giả mạo và đến bạn bè và thành viên trong gia
đình họ.
Vấn đề Spam OSN đã nhận đƣợc sự chú ý của các nhà nghiên cứu. Tƣởng
giống nhƣ Spam email, một vấn đề đã đƣợc nghiên cứu rộng rãi trong nhiều năm.



12

Nhƣng phần lớn các giải pháp hiện tại không thể áp dụng trực tiếp, vì một loạt các
đặc điểm riêng biệt liên quan đến Spam trên mạng xã hội.

1.4 Các đối tƣợng và phƣơng pháp gửi Spam trên OSN
1.4.1 Đối tượng Spam trên OSN
Các đối tƣợng sử dụng Spam đƣợc chia làm hai:
- Cá nhân: Không làm việc với bất kỳ ai có thể đăng ký một hoặc nhiều trang
web, mạng xã hội rồi Spam nhằm đạt đƣợc một mục đích nào. Có thế một ngƣời
hay nhiều ngƣời sử dụng ID đó để thực hiện hành vi Spam.
- Nhóm, tổ chức: Một nhóm làm việc và hợp tác với nhau có tổ chức để thúc
đẩy một hoặc nhiều nhóm đối tƣợng mục tiêu nào đó hoặc làm tổn hại đến danh
tiếng của một hay nhiều nhóm đối tƣợng theo một yêu cầu đƣợc nhóm đặt ra hay
đƣợc thuê mƣớn thực hiện công việc đó. Nhƣ làm tăng độ nổi tiếng của cá nhân tổ
chức nào đó, hay hạ uy tín của đối tƣợng, hay phát tán một thông tin Spam sai sự
thật về một sự việc chính trị xã hội hoặc phát tán các đoạn mã độc. Nhƣ vậy ta có
thể dễ dàng nhận ra nếu một nhóm có tổ chức đủ lớn họ có thể chi phối đƣợc sự chú
ý của ngƣời dùng vào một vấn đề, thậm chí là tác động biến sai thành đúng và biến
đúng thành sai.

1.4.2 Phương pháp gửi Spam trên OSN
Để gửi một Spam thì các Spammer thông qua một số bƣớc, tạo lập các tài
khoản giả mạo đóng vai trò quan trọng trong spam mạng xã hội: để giành đƣợc lòng
tin, chúng sẽ kết bạn hoặc theo dõi tài khoản đã xác thực, chẳng hạn các ngôi sao,
nhân vật của công chúng với hi vọng đƣợc phản hồi lại. Làm xong bƣớc này, nó có
thể thực hiện hành vi spam.
Một thủ đoạn khác của spammer là tấn công và chiếm đoạt tài khoản của

ngƣời dùng khác, gửi đi tin nhắn giả mạo tới ngƣời theo dõi của ngƣời đó.
Hoặc thỏa thỏa hiệp với ngƣời dùng thông qua các ứng dụng mạng xã hội. Ví
dụ các Spammer sẽ xây dựng các ứng dụng giải trí hoặc bói toán v.v… khi ngƣời
dùng muốn sử dụng đƣợc ứng dụng thì phải cho phép phần mềm truy cập vào các


13

hồ sơ cá nhân, hồ sơ ảnh, danh sách bạn bè v.v… và cho phép ứng dụng đƣợc
quyền đăng bài lên tƣờng ngƣời dùng. Trƣớc tiên chỉ đơn thuận là mở rộng ngƣời
dùng biết đến các ứng dụng đó thông qua các hình thức like, share trên tƣờng và
bạn bè. Nhƣ vậy thông qua các ứng dụng này Spammer đã có đƣợc quyền truy cập
và kiểm soát lƣợng lớn các tài khoản.
Sau khi đạt đƣợc mục tiêu có đƣợc quyền truy cập các tài khoản giả mạo,
chiếm đoạt đƣợc hay tài khoản thỏa hiệp các Spammer sẽ tiến hành Spam dƣới
nhiều hình thức và mục đích khác nhau. Một số mục dích chính và phƣơng pháp các
Spammer hay sử dụng nhƣ:
- Ào ạt nhắn tin với số lƣợng lớn: Tin nhắn với cùng nội dung có thể gửi đến
một nhóm ngƣời trong thời gian ngắn. Một vài tài khoản Spam gửi đồng thời nhiều
tin nhắn giống nhau. Sử dụng tin nhắn số lƣợng lớn có thể trở thành chủ đề “hot”
nếu đƣợc nhiều ngƣời quan tâm. Năm 2009, một website cung cấp việc làm cho
Google đã lừa ngƣời dùng tin rằng đây là website thật. Tƣơng tự, nó còn có thể
đƣợc dùng để phát tán mã độc hay quảng cáo trực tiếp đến ngƣời dùng.
- Phát tán link nhiễm độc: Link nhiễm độc là các link đƣợc tạo ra với mục
đích gây hại, gây hiểu nhầm, làm tổn hại đến một ngƣời dùng hay thiết bị của họ.
Khi click vào link này, nạn nhân có thể tải về mã độc, bị đánh cắp thông tin cá nhân
mà họ không hề biết. Các link này có thể dễ dàng đƣợc phát tán trong mục bình
luận, chẳng hạn dƣới các video YouTube. Với tài khoản giả mạo trên mạng xã hội,
link còn đƣợc chia sẻ qua bài đăng, tin nhắn từ tài khoản đó.
- Đánh giá gian lận: Các bài đánh giá gian lận là các bài đánh giá của những

ngƣời chƣa từng sử dụng sản phẩm. Nhiều sản phẩm, dịch vụ thƣờng xuyên trả tiền
cho vài ngƣời dùng để họ viết đánh giá tích cực nhằm quảng bá và nâng uy tín cho
mình. Với tài khoản giả mạo, dễ dàng đăng tải một hoặc nhiều đánh giá gian lận.
- Chia sẻ nội dung thái quá: Các tài khoản giả mạo còn liên lạc và chia sẻ nội
dung không mong muốn nhƣ xúc phạm, đe dọa, quảng cáo đến ngƣời dùng. Có thể
tạo ra bot (đoạn mã đƣợc lập trình) để tự động theo đuôi ngƣời dùng mới hay tự
động nhắn tin cho ngƣời dùng đăng nội dung trên trang.


14

- Click baiting và like jacking: Ngƣời dùng có thể bị lừa thực hiện hành vi
không mong muốn
+ Click baiting (link bẫy) là “giật tít” nhạy cảm để khuyến khích ngƣời dùng
click vào nội dung với mục đích thu quảng cáo. Khi click vào trang, nội dung không
thực sự tồn tại hoặc khác hoàn toàn so với những gì có trong tiêu đề.
+ Like jacking là phƣơng pháp lừa ngƣời dùng đăng cập nhật trạng thái
Facebook lên trang nào đó mà họ không hề hay biết hoặc không có ý định làm vậy.
Ngƣời dùng có thể nghĩ rằng họ chỉ ghé thăm một trang web bình thƣờng nhƣng cú
click này kích hoạt một đoạn mã trong background để chia sẻ link lên Facebook. Nó
lặp lại thành một vòng bất tận khi bạn bè của nạn nhân click vào link và chia sẻ nó
cho những ngƣời trong mạng lƣới của mình.

1.5 Kết chƣơng
Trong chƣơng này, luận văn đã tập trung nghiên cứu khái quát về mạng xã
hội thông qua một số định nghĩa, lịch sử phát triển của mạng xã hội nói chung và
hai mạng xã hội Facebook và Twitter. Đồng thời cũng tìm hiểu về các đặc điểm
cũng nhƣ cấu trúc cơ bản của mạng xã hội và các nguy cơ từ mạng xã hội. Chƣơng
này cũng đã tìm hiểu sơ lƣợc về Spam và đối tƣợng cũng nhƣ cách phát tán Spam
trên OSN.

Phần tiếp theo của đề tài sẽ tập trung vào các đặc điểm và các phƣơng pháp
lọc Spam trên mạng xã hội.


15

CHƢƠNG 2: CÁC PHƢƠNG PHÁP LỌC SPAM TRÊN
MẠNG XÃ HỘI
2.1 Các đặc điểm phát hiện Spam trên mạng xã hội
Trƣớc tiên, tôi sẽ xem xét một số đặc điểm đƣợc sử dụng trong công tác phát
hiện Spam hiện tại nhƣng không thích hợp với môi trƣờng OSN. Sau đó, luận văn
sẽ giới thiệu các đặc điểm khác nhau có khả năng phân biệt giữa Spam và cụm
Spam một cách chính xác.
Tôi chia các đặc điểm thành hai loại. Các đặc điểm cụ thể của OSN là những
đặc điểm cần thiết để tính toán thông tin mạng xã hội. Các đặc điểm chung là những
đặc điểm cũng có thể đƣợc sử dụng để phát hiện Spam bên ngoài OSN. Không có
đặc điểm duy nhất là hoàn toàn phân biệt giữa Spam và cụm Spam chính xác. Mỗi
một đặc điểm có thể sẽ thất bại trong một số trƣờng hợp. Thay vào đó, các đặc điểm
này đƣợc sử dụng kết hợp để đào tạo phân loại tốt nhất.

2.1.1 Các đặc điểm phát hiện Spam thông thường
Học máy đã là một công cụ phổ biến để phát hiện Spam. Nhiều đặc điểm đã
đƣợc đề xuất và hoạt động tốt. Tuy nhiên, OSN là một ngữ cảnh khác, nơi tính hiệu
quả của các đặc điểm cần đƣợc đánh giá lại.
Tôi đề cập đến hai đặc điểm đƣợc sử dụng trong phát hiện Spam ở email và
diễn đàn, những đặc điểm này đƣợc đánh giá là những đặc điểm hiệu quả nhất để
phát hiện Spam.
Kích thƣớc thƣ là đặc điểm đƣợc sử dụng phổ biến, bởi vì các email hợp
pháp có kích thƣớc thay đổi trong khi Spam có xu hƣớng nhỏ. Nhƣng các thông
điệp, tin nhắn, bài đăng trong OSN cho thấy rõ ràng là chúng đều có kích thƣớc

nhỏ. Sự phân bố của chúng chồng chéo rất nhiều trong khoảng dƣới 200 byte. Do
đó, đối với OSN kích thƣớc không phải là một đặc điểm phân biệt. Đặc điểm tƣơng
tự là số từ và độ dài từ trung bình trong mỗi tin nhắn cũng không có hiệu quả trong
OSNs.


16

Một loạt các đặc điểm dựa trên mạng, đó là mật độ vùng lân cận IP của
ngƣời gửi, số ngƣời gửi và trạng thái của các cổng dịch vụ của ngƣời gửi, cũng đã
đƣợc đề xuất. Mặc dù không thể đo lƣờng chúng một cách thẳng thắn do thiếu
thông tin nhƣng tôi vẫn thấy vấn đề khi sử dụng chúng để phát hiện Spam OSN, bởi
vì giả định cơ bản bị vi phạm. Giả định rằng các email Spam đƣợc gửi đi bằng cách
sử dụng các máy chủ SMTP chạy trên một số lƣợng lớn các máy chủ kết nối đầu
cuối bị lây nhiễm thông thƣờng, trong khi các email hợp pháp bắt nguồn từ một
nhóm các máy chủ SMTP chuyên dụng. Kết quả là khu vực IP của ngƣời gửi Spam
sẽ đông đúc do nhiễm botnet, nhƣng địa chỉ IP của các máy chủ SMTP hợp pháp thì
xa nhau. Nhƣng trong OSNs cả Spam và thông điệp hợp pháp đều đƣợc gửi từ các
máy chủ kết đầu cuối bình thƣờng. Với số lƣợng lớn ngƣời dùng OSN, khu vực IP
của ngƣời gửi dự kiến sẽ dày đặc cho cả thƣ rác và các thƣ hợp pháp. Ngoài ra, sẽ
không có sự khác biệt về tình trạng của các cổng dịch vụ của ngƣời gửi đối với hai
trƣờng hợp.

2.1.2 Đặc điểm phát hiện Spam trên OSN
Ngƣời dùng OSN tạo thành một biểu đồ xã hội khổng lồ, nơi mỗi nút đại
diện cho một ngƣời dùng cá nhân. Trong OSN giống nhƣ Facebook, một liên kết xã
hội sẽ kết nối hai nút nếu hai ngƣời dùng tƣơng ứng đã đồng ý thành lập một kết nối
xã hội. Hai ngƣời dùng không có liên kết xã hội giữa họ không thể trực tiếp tƣơng
tác với nhau. Các OSN giống Twitter đặt ra những hạn chế rƣờm rà hơn, nơi mà
một ngƣời dùng có thể "theo dõi" bất cứ ai để thiết lập một liên kết xã hội đƣợc chỉ

dẫn để có thể nhận đƣợc tất cả các cập nhật. Tƣơng tự nhƣ vậy, lịch sử tƣơng tác
giữa ngƣời sử dụng tạo ra một biểu đồ tƣơng tác.
Mức độ xã hội của ngƣời gửi: Bằng các cách nghiên cứu gần đây cho thấy
phần lớn các tài khoản spam trong OSN bị xâm nhập. Trong khi đó, nghiên cứu về
mô hình hóa các lấy lan Spam trong các mạng xã hội cho thấy càng có nhiều cạnh
của một nút, thì xác suất cao hơn và nó sẽ lây lan nhanh chóng hơn. Mặt khác, các
tài khoản do những ngƣời gửi Spam tạo ra cũng có thể làm cho số lƣợng lớn danh
sách bạn bè và mở ra các kênh truyền thông trƣớc khi thực hiện Spam. Do đó, tôi


17

giả thiết rằng các tài khoản Spam có mức độ cao hơn trong biểu đồ xã hội so với tài
khoản của Spam thông thƣờng là các tài khoản hợp pháp. Nhƣ vậy, việc sử dụng
mức độ xã hội của ngƣời gửi thƣ là một đặc điểm. Nhƣng các tài khoản Spam bị
xâm nhập sẽ gửi một hỗn hợp Spam và các thƣ hợp pháp. Do đó, trong nhiều trƣờng
hợp Spam và tin nhắn hợp pháp chia sẻ cùng một ngƣời gửi và đƣơng nhiên sẽ có
cùng giá trị về mức độ xã hội của ngƣời gửi. Tuy nhiên, sau khi đƣợc tổ chức thành
cụm, mức độ xã hội của ngƣời gửi trung bình của các cụm sẽ trở thành một đặc
điểm hiệu quả. Lý do chính là tất cả ngƣời gửi trong các nhóm Spam đều là các tài
khoản Spam, trong khi điều này rất khó xảy ra đối với các nhóm hợp pháp. Kết quả
là các cụm Spam dự kiến sẽ mang lại mức độ xã hội cao hơn của ngƣời gửi.
Lịch sử tƣơng tác: Mặc dù một tài khoản có thể thiết lập một số lƣợng lớn
các liên kết xã hội trong biểu đồ xã hội, nhƣng nó chỉ tƣơng tác với một tập con nhỏ
bạn bè. Tuy nhiên, hành vi của nó đƣợc dự kiến sẽ đi chệch khỏi mô hình này một
khi tài khoản bị xâm nhập và dƣới sự kiểm soát của ngƣời gửi thƣ rác, vì những kẻ
gửi Spam mong muốn đẩy tin nhắn Spam tới càng nhiều ngƣời nhận càng tốt. Do
đó, một vụ bùng nổ đột ngột mà các tài khoản bắt đầu tƣơng tác với bạn bè mà họ
không hoặc ít khi tƣơng tác trƣớc đây trở thành một dấu hiệu mạnh mẽ cho thấy các
hoạt động Spam.


2.1.3 Các đặc điểm chung để phát hiện Spam
Tôi tìm thấy bốn đặc điểm bổ sung có hiệu quả để phân biệt giữa Spam và
cụm hợp pháp. Các đặc điểm này không cần biểu đồ xã hội hoặc biểu đồ tƣơng tác
để tính toán và cũng có thể áp dụng cho các vấn đề phát hiện Spam bên ngoài OSN.
Chúng đƣợc biểu hiện nhƣ các đặc điểm chung.
Quy mô nhóm: Mặc dù mỗi tài khoản gửi thƣ rác có thể không tạo ra một số
lƣợng lớn các thƣ rác, nhƣng toàn bộ phần mềm Spam phải chứa nhiều thƣ rác để
phát tán. Mặt khác, các cụm Spam lớn thể hiện sự khác biệt lớn về quy mô so với
các nhóm hợp pháp. Lý do là các nhóm Spam nhỏ chỉ có tác động nhỏ đến hiệu suất
phát hiện của hệ thống. Thay vào đó, các cụm lớn là những vấn đề quan trọng.
Khoảng thời gian trung bình: Đƣợc biết đến nhƣ là sự "bùng phát" , hầu hết


×