Phương pháp lọc spam trên mạng xã hội (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (606.29 KB, 25 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Cao Ngọc Tú

PHƢƠNG PHÁP LỌC SPAM TRÊN MẠNG XÃ HỘI

Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2018

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS. TS Trần Quang Anh

Phản biện 1: ......................................................................

Phản biện 2: ......................................................................

Luận văn được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: ……..giờ…….ngày ……..tháng……..năm …….

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1

MỞ ĐẦU
Trong những năm gần đây, khoa học và công nghệ đang phát triển mạnh
mẽ, đặc biệt là sự phát triển của công nghệ thông tin đã ảnh hưởng không nhỏ
đến đời sống của con người. Trong đó, có thể kể đến sự ảnh hưởng của internet
trong tất cả các mặt của đời sống xã hội, kinh tế, văn hóa, chính trị. Internet đã
và đang kết nối mọi người trên thế giới với nhau, nó phá vỡ mọi khoảng cách
về biên giới, không gian, thời gian, tạo điều kiện và môi trường thuận lợi cho
việc giao tiếp xã hội. Từ khi có internet thì cũng xuất hiện các loại hình tìm
kiếm thông tin, giải trí, kết nối xã hội, trong đó không thể thiếu được các mạng
xã hội đang được rất nhiều người sử dụng như: Google+, Facebook, Twitter,
Yahoo, Skye, Myspace… Mạng xã hội ở đây được hiểu là một loại hình dịch vụ
trên internet mới phát triển trong kỷ nguyên số, ứng dụng những thành tựu của
công nghệ thông tin. Mạng xã hội là dịch vụ kết nối các thành viên cùng sở thích
trên internet lại với nhau với nhiều mục đích khác nhau không phân biệt không
gian và thời gian, đồng thời nó được tạo nên thông qua các tương tác giữa các
thành viên trong cộng đồng mạng.
Facebook và Twitter là hai mạng xã hội lớn được rất nhiều người sử dụng
trên thế giới. Có thể nói, trong những năm gần đây mạng xã hội Facebook đã trở
thành một hiện tượng xã hội điển hình, thể hiện nhu cầu giao tiếp xã hội và giải
trí. Nó tạo ra cho mỗi người một cộng đồng xã hội bao gồm những người quen
biết và không quen biết, sự đa dạng về môi trường xã hội trên Facebook, sự tự
do trong việc trao đổi thông tin, tâm tư tình cảm…hoặc ngay cả các yếu tố công
việc, kinh tế cũng được đưa vào Facebook để trao đổi. Nhìn chung, Facebook
dần trở thành một công cụ xã hội không thể thiếu đối với nhiều người.
Thật không may, nhiều bằng chứng cho thấy rằng mạng xã hội cũng là
một môi trường hiệu quả để truyền bá các cuộc tấn công. Các mạng xã hội phổ
biến ngày càng trở thành mục tiêu của các cuộc tấn công lừa đảo được kích hoạt

từ các botnet lớn. một số nghiên cứu gần đây đã xác nhận sự tồn tại của các chiến
dịch Spam quy mô lớn trên Twitter và Facebook. Hơn nữa, tỷ lệ nhấp chuột vào

2

Spam trên mạng xã hội có mức độ lớn hơn so với Spam email, cho thấy rằng
người dùng có xu hướng tin cậy bạn bè của họ trong mạng xã hội hơn là từ email
Spam. Vấn đề Spam trong mạng xã hội đã nhận được sự nhiều chú ý của các nhà
nghiên cứu. Tưởng như, tương tự Spam email chúng cùng là một vấn đề, bản
chất chúng rất giống nhau và đã được nghiên cứu rộng rãi trong nhiều năm.
Nhưng thật không may, phần lớn các giải pháp hiện tại không thể áp dụng trực
tiếp cho nó.
Vì thế nhiều nghiên cứu gần đây tập trung vào việc nghiên cứu các đặc
điểm, phương pháp và xây dựng các hệ thống lọc Spam trực tuyến trên mạng xã
hội như:
- “Towards Online Spam Filtering in Social Networks”[4]:
-“COMPA: Detecting Compromised Accounts on Social Networks”[1]
- “Detecting and Characterizing Social Spam Campaigns”[3]:
-“Efficient

and

Scalable

Socware

Detection

in

Online

Social

Networks”[2]:
Vì vậy trong luận văn này, tôi trình một số phương pháp và hệ thống lọc
Spam trực tuyến trên mạng xã hội có thể triển khai trên tài khoản cá nhân để
kiểm tra các thông điệp được gửi đến bởi người dùng. Theo đó, hệ thống thông
qua một số các đặc điểm có thể phân biệt hiệu quả Spam và có thể loại bỏ các tin
nhắn được phân loại là "Spam" do đó bảo vệ chúng khỏi các nguy cơ khác nhau.
Nội dung của luận văn gồm ba chương như sau:
Chương 1: Tổng quan về mạng xã hội và các nguy cơ từ Spam
Chương 2: Các phương pháp lọc Spam trên mạng xã hội
Chương 3: Thực nghiệm đánh giá hệ thống lọc Spam trực tuyến
Cuối cùng là phần đánh giá, kết luận và phương hướng của luận văn.

3

CHƢƠNG 1: TỔNG QUAN VỀ MẠNG XÃ HỘI VÀ CÁC
NGUY CƠ TỪ SPAM
1.1 Khái quát về mạng xã hội
Mạng xã hội (SN – Social network) là tập hợp các cá nhân với các mối
quan hệ một hoặc nhiều mặt nào đó gắn kết với nhau. Về mặt toán học mạng xã
hội có thể xem như một hệ thống có cấu trúc gồm các đỉnh (node) gắn với nhau
thành một mạng bới các liên kết (hoặc các cung).
1.1.1 Lịch sử hình thành và phát triển các mạng xã hội
Trong lịch sử, các trang web mạng xã hội ra đời trước các trang web
truyền thông xã hội. Classmates.com (1995) và SixDegrees.com (1997) là các

trang web mạng xã hội đầu tiên. Friendster (2002), MySpace, Bebo và Facebook
(2004) là hàng loạt các trang web mạng xã hội tiếp theo. Trang mạng truyền
thông xã hội Flickr (2004), Youtube (2005) và Twitter (2006) xuất hiện tiếp theo.
1.1.2 Mạng xã hội Facebook và Twitter
Facebook là một website truy cập miễn phí do công ty Facebook, Inc điều
hành. Người dùng có thể tham gia các mạng lưới được tổ chức theo thành phố,
nơi làm việc, trường học và khu vực để liên kết và giao tiếp với người khác.
Mark Zuckerberg thành lập Facebook cùng với bạn bè của ông là các sinh viên
khoa khoa học máy tính và bạn cùng phòng Eduardo Saverin, Dustin Moskovitz
và Chris Hughes khi Mark còn là sinh viên tại Đại học Harvard.
Twitter là một dịch vụ mạng xã hội trực tuyến miễn phí cho phép người sử
dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweets, một dạng tiểu blog.

1.2 Các vấn đề và các nguy cơ trên mạng xã hội
1.2.1 Đặc điểm và kiến trúc cơ bản của một mạng xã hội
Các đặc điểm chính của một mạng xã hội:
- Hồ sơ cá nhân
- Kết bạn trực tuyến

4

- Tham gia nhóm trực tuyến
- Chia sẻ với bạn bè trực tuyến
- Chia sẻ nội dung do người dùng tạo ra
- Bày tỏ ý kiến
- Tìm kiếm thông tin
- Giữ người dùng
Các khái niệm chính như:
- Post (Đăng): Bài viết đại diện cho đơn vị cơ bản của thông tin được chia

sẻ trên mạng xã hội.
- Wall (Tường): Một bức tường của người sử dụng mạng xã hội là một
trang mà bạn bè của người sử dụng có thể đăng tin nhắn cho người dùng.
- News feed (Tin tức): Trang nguồn tin tức của người dùng mạng xã hội là
một bản tóm tắt về hoạt động xã hội của bạn bè trên mạng xã hội.
- Like (Thích): Like như một widget mạng xã hội được kết hợp với một
đối tượng chẳng hạn như bài đăng, trang hoặc ứng dụng. Nếu người dùng nhấp
chuột vào tiện ích Like gắn liền với một đối tượng, đối tượng sẽ xuất hiện trong
nguồn tin tức của những người bạn của người dùng.
- Application (Ứng dụng): Mạng xã hội cho phép các nhà phát triển bên
thứ ba tạo ra các ứng dụng của riêng họ mà người dùng mạng xã hội có thể thêm
vào. Mỗi khi một người dùng thăm trang của một ứng dụng trên mạng xã hội,
mạng xã hội sẽ tự động tải nội dung của ứng dụng từ một URL.
Dựa trên việc phân tích đặc điểm và đặc điểm của các trang mạng xã hội
hiện nay, chúng ta có thể phân chia mạng xã hội theo đối tượng thành ba dạng cơ
bản nhất như sau:
- Lấy cá nhân làm trung tâm
- Lấy mối quan hệ giữa các cá nhân làm trung tâm. Với loại hình này có
có thể chia nhỏ ra thành:
+ Mạng cộng đồng
+ Mạng tìm kiếm cơ hội
+ Mạng những thành viên có cùng sở thích, đam mê

5

- Lấy nội dung làm trung tâm
Kiến trúc cơ bản của một mạng xã hội ta có thể xem xét ở ba khía cạnh đó
là: kiến trúc truyền thông, kiến trúc phần mềm ứng dụng, và kiến trúc hạ tâng
công nghệ thông tin (CNTT) của nhà cung cấp dịch vụ.

1.2.2 Một số công nghệ cơ bản trong các mạng xã hội hiện nay
1.2.3 Các nguy cơ trên mạng xã hội
Với một tốc độ truyền tải như vũ bão, Internet nói chung, mạng xã hội nói
riêng hàm chứa nhiều thông tin không được kiểm chứng, sai sự thật, thậm chí
độc hại. Vì thế, nó cực kì nguy hiểm, có thể gây ảnh hưởng xấu đến chính trị,
kinh tế, đạo đức,… và nhiều mặt của đời sống, có thể gây nguy hại cho quốc gia,
tập thể hay các cá nhân.
Mạng xã hội cũng là một hoạt động giao tiếp. Việc tiếp nhận thông tin cần
gắn với ngữ cảnh. Nếu không hiểu ngữ cảnh cụ thể có thể hiểu sai lạc thông tin,
và nếu sự sai lạc ấy lại được lan truyền mạnh mẽ thì nhiều khi gây ra hậu quả khó
lường.

1.3 Khái quát về Spam và Spam trên OSN
Spam được cho rằng xuất hiện lần đầu tiên vào năm 1978 khi một người
đàn ông gửi một thông điệp quảng cảo về mẫu sản phẩm mới tới 393 người cùng
lúc, thay vì gửi cho từng người một như thường lệ.
Có rất nhiều sự giải nghĩa cho từ Spam, một trong những lý giải được
nhiều người chấp nhận nhất là Spam được viết tắt của cụm từ “Stupid Pointless
Annoying Message” trong Tiếng anh có nghĩa là những bức thư ngu ngốc – vô
nghĩa – phiền toái.
Hiện nay, Spam đã có nhiều sự biến đổi để thích nghi với sự tra đời của
các nền tảng giáo tiếp kết nối mới chứ không còn đơn thuần là Spam email
truyền thống nữa.
Hầu hết Spam đều nhằm mục đích quảng cáo cho những sản phẩm không
đáng tin cậy hoặc những dịch vụ có vẻ như hợp pháp. Tuy nhiên, không phải mọi

6

vụ gửi Spam đều là nhằm mục đích quảng cáo thương mại. Một số vụ gửi Spam

lại nhằm mục đích bất chính hoặc cũng có những kẻ gửi Spam chỉ để bày tỏ quan
điểm chính trị hoặc tôn giáo. Hình thức gửi Spam nguy hiểm nhất là hình thức
gửi đi những thông điệp đề lừa người dùng tiết thông tin tài khoản ngân hàng
trực tuyến, số thẻ tín dụng v.v…đấy chính là một dạng phổ biến của lừa đảo trực
tuyến.
Mạng xã hội trực tuyến là công cụ cộng tác và truyền thông phổ biến cho
hàng triệu người dùng Internet. Những bằng chứng gần đây cho thấy rằng những
cộng đồng này đã trở thành môi trường mới, hiệu quả để truyền bá Spam và phát
động các cuộc tấn công, phát tán các phần mềm độc hại và lừa đảo.

1.4 Các đối tƣợng và phƣơng pháp gửi Spam trên OSN
1.4.1 Đối tượng Spam trên OSN
Các đối tượng sử dụng Spam được chia làm hai:
- Cá nhân:
- Nhóm, tổ chức:
1.4.2 Phương pháp gửi Spam trên OSN
Một thủ đoạn khác của spammer là tấn công và chiếm đoạt tài khoản của
người dùng khác, gửi đi tin nhắn giả mạo tới người theo dõi của người đó.
Hoặc thỏa thỏa hiệp với người dùng thông qua các ứng dụng mạng xã hội.
Sau khi đạt được mục tiêu có được quyền truy cập các tài khoản giả mạo, chiếm
đoạt được hay tài khoản thỏa hiệp các Spammer sẽ tiến hành Spam dưới nhiều
hình thức và mục đích khác nhau. Một số mục dích chính và phương pháp các
Spammer hay sử dụng như:
- Ào ạt nhắn tin với số lượng lớn:
- Phát tán link nhiễm độc:
- Đánh giá gian lận:
- Chia sẻ nội dung thái quá:
- Click baiting và like jacking:

7

1.5 Kết chƣơng
Trong chương này, luận văn đã tập trung nghiên cứu khái quát về mạng xã
hội thông qua một số định nghĩa, lịch sử phát triển của mạng xã hội nói chung và
hai mạng xã hội Facebook và Twitter. Đồng thời cũng tìm hiểu về các đặc điểm
cũng như cấu trúc cơ bản của mạng xã hội và các nguy cơ từ mạng xã hội.
Chương này cũng đã tìm hiểu sơ lược về Spam và đối tượng cũng như cách phát
tán Spam trên OSN.
Phần tiếp theo của đề tài sẽ tập trung vào các đặc điểm và phương pháp
lọc Spam trên mạng xã hội.

CHƢƠNG 2: CÁC PHƢƠNG PHÁP LỌC SPAM TRÊN
MẠNG XÃ HỘI
2.1 Các đặc điểm phát hiện Spam trên mạng xã hội
2.1.1 Các đặc điểm phát hiện Spam thông thường
- Học máy
- Kích thước, số từ của tin bài
2.1.2 Đặc điểm phát hiện Spam trên OSN
- Mức độ xã hội của người gửi:
- Lịch sử tương tác:
2.1.3 Các đặc điểm chung để phát hiện Spam
Chúng ta tìm thấy bốn đặc điểm bổ sung có hiệu quả để phân biệt giữa
Spam và cụm hợp pháp. Các đặc điểm này không cần biểu đồ xã hội hoặc biểu
đồ tương tác để tính toán và cũng có thể áp dụng cho các vấn đề phát hiện Spam
bên ngoài OSN. Chúng được biểu hiện như các đặc điểm chung.
- Quy mô nhóm:
- Khoảng thời gian trung bình:
- Số URL trung bình trên mỗi tin nhắn:
- Số lượng URL duy nhất:

8

2.2 Phƣơng pháp COMPA
“COMPA: Detecting Compromised Accounts on Social Networks”
(Phát hiện tài khoản bị ảnh hưởng trên mạng xã hội)
2.2.1 Mục tiêu của phương pháp COMPA
Phương pháp COMPA là một biện pháp phát hiện tài khoản người dùng bị
xâm nhập trong các mạng xã hội, và áp dụng cho hai trang mạng xã hội, Twitter
và Facebook. COMPA sử dụng thành phần của mô hình thống kê và phát hiện
bất thường để xác định các tài khoản có thay đổi đột ngột trong hành vi.
Cách tiếp cận của phương pháp này cung cấp một sự kết hợp của ba đặc
điểm nổi bật. Thứ nhất, nó không phụ thuộc vào sự hiện diện của các URL trong
tin nhắn. Thứ hai, hệ thống đưa ra các kết quả là chính xác và cho thấy các tài
khoản bị xâm nhập với các kết quả sai lệch rất thấp. Thứ ba, COPMA tập trung
vào việc tìm kiếm các tài khoản bị đánh cắp
2.2.2 Xây dựng hồ sơ hành vi của phương pháp COMPA
Đặc điểm mô hình hóa dựa vào bảy đặc điểm để xây dựng hồ sơ hành vi là:
- Thời gian (giờ trong ngày):
- Thông báo nguồn:
- Thông báo văn bản (Ngôn ngữ):
- Thông báo chủ đề:
- Liên kết (URL) trong Tin nhắn:
- Tương tác trực tiếp của người dùng:
- Tương tác gần:
2.2.3 Phát hiện các thông báo bất thường
2.2.3.1 Đào tạo và đánh giá các mô hình
2.2.3.2 Độ bền của các mô hình
2.2.4 Nhóm các Thông điệp tương tự

Một tin nhắn vi phạm hồ sơ hành vi của người dùng không nhất thiết cho

9

thấy người dùng này bị xâm nhập và là thông điệp độc hại. Thông điệp này có
thể chỉ phản ánh một sự thay đổi hành vi bình thường.
- Tương tự nội dung: Thư có chứa văn bản tương tự có thể được coi là liên
quan và được nhóm lại với nhau.
- URL giống nhau: Phương pháp tương tự này xem xét hai thông báo là
tương tự nếu cả hai chúng có ít nhất một liên kết đến một URL tương tự.
2.2.5 Phát hiện tài khoản bị từ chối
Cách tiếp cận của hệ thống là nhóm các thông điệp tương tự nhau được
tạo ra trong một khoảng thời gian nhất định. Được gọi là khoảng thời gian quan
sát.
- Các nhóm đáng ngờ:
- Ứng dụng hàng loạt:

2.3 Phần mềm MyPageKeeper
“Efficient and Scalable Socware Detection in Online Social Networks”
(Phát hiện Socware hiệu quả và có thể mở rộng trong mạng xã hội trực tuyến)
2.3.1 Mục tiêu của phần mềm MyPageKeeper
MyPageKeeper, một ứng dụng cài đặt trên Facebook nhằm mục đích để
bảo vệ người dùng Facebook khỏi socware (phần mềm xã hội). Phần mềm gồm
ba mục tiêu chính:
- Tính chính xác: Mục tiêu hàng đầu của phần mềm là đảm bảo nhận dạng
socware một cách chính xác.
- Khả năng mở rộng: MyPageKeeper cung cấp sự bảo vệ từ socware cho
tất cả người dùng trên Facebook. Vì vậy, hệ thống phải được mở rộng để dễ dàng
xử lý sự gia tăng số lượng người dùng mới.

- Hiệu quả: Khoảng thời gian kiểm tra một bài đăng mới đến khi hiển thị
nó cho người dùng luôn được đáp ứng với thơi gian tối ưu.
Đối tượng mà mà phần mềm MyPageKeeper hướng đến là Socware là một
loại phần mềm độc hại mới.

10

2.3.2 Socware
Socware là thuật ngữ socialware để bao gồm tất cả hành vi tội phạm và ký
sinh trong OSN, bao gồm bất cứ điều gì gây phiền nhiễu, gây tổn thương, hoặc
làm cho thiệt hại kinh tế của người dùng. Chúng ta coi bài đăng trên Facebook là
độc hại, nếu nó đáp ứng một trong các điều sau:
- Bài viết lây lan phần mềm độc hại và xâm nhập thiết bị của người dùng.
- Trang web được link ra bởi bài đăng yêu cầu người dùng cung cấp thông
tin cá nhân.
- Bài đăng hứa hẹn phần thưởng giả (ví dụ: sản phẩm miễn phí).
- Bài đăng được thực hiện trên danh nghĩa của người dùng mà không có
sự hiểu biết của người dùng (thông thường trước đây đã thu hút người dùng cung
cấp cho phép một ứng dụng Facebook rogue).
- Trang web được link bởi bài đăng yêu cầu người sử dụng để thực hiện
nhiệm vụ (ví dụ, điền vào các cuộc điều tra) giúp chủ sở hữu của trang web đó
thu lợi nhuận hoặc thông tin.
- Bài viết sử dụng để làm giả danh tiếng giả của trang (ví dụ bằng cách
buộc người dùng phải 'Thích' trang)
Cũng giống như Spam, Không có định nghĩa rõ ràng cho socware: Một bài
đăng được coi là gây phiền nhiễu bởi một người dùng có thể được coi là hữu ích
bởi người dùng khác. Trong thực tế, phần mềm thống kê tối đa ý kiến của người
sử dụng MyPageKeeper: Nếu hầu hết trong số họ báo cáo một bài viết là gây
phiền nhiễu, phần mềm sẽ đánh dấu nó như vậy.

Các hoạt động của hầu hết các dịch xã hội có thể được liên kết với hai cơ
chế riêng biệt.
- Cơ chế tuyên truyền:
- Cơ chế khai thác:
Socware có thể được chia thành hai loại dựa trên cơ sở hạ tầng chứa chúng.
- Socware lưu trữ bên ngoài Facebook:
- Socware được lưu trữ trên Facebook
+ Các ứng dụng độc hại của Facebook:

11

+ Sự kiện độc hại trên Facebook:
+ Các trang Facebook độc hại:
2.3.2 Kiến trúc MyPageKeeper
MyPageKeeper là một ứng dụng Facebook liên tục kiểm tra các bức
tường, tin tức, bài xã luận xác định có hợp pháp và cảnh báo người dung đăng ký,
cài đặt ứng dụng khi phát hiện có bất thường.
Thành phần MyPageKeeper bao gồm sáu mô đun chức năng.
- Mô đun uỷ nhiệm người dùng:
- Mô đun thu thập dữ liệu:
- Mô đun khai thác đặc điểm:
- Mô đun phân loại
- Mô đun thông báo:
- Môđun phản hồi của người dùng:
2.3.4 Mô tả hoạt động xác định Socwave của MyPageKeeper
Đặc tính chính của MyPageKeeper nằm trong mô đun phân loại. Như đã
mô tả ở trên, đầu vào cho mô-đun phân loại là một URL và các đặc điểm ngữ
cảnh xã hội có liên quan được trích xuất từ các bài viết có chứa URL. Thuật toán
phân loại hoạt động theo hai giai đoạn.

- Sử dụng danh sách trắng và danh sách đen.
- Sử dụng máy học với các đặc điểm ngữ cảnh xã hội.
Trình phân loại SVM sử dụng các đặc điểm sau:
+ Xếp hạng từ khoá Spam:
+ Tin nhắn giống nhau
+ Đếm News feed post and wall post (Tin mới và bài tường):

2.4 Phƣơng pháp lọc Spam trực tuyến
“Towards Online Spam Filtering in Social Networks”
(Hướng tới Lọc spam trực tuyến trong Mạng xã hội)
Hệ thống lọc thư rác trực tuyến được thiết kế đặc biệt cho các OSN và có

12

thể được triển khai như một thành phần của nền tảng OSN. Sau giai đoạn đào tạo
ban đầu, nó kiểm tra hiệu quả luồng thông điệp do người dùng tạo ra, ngay lập
tức loại bỏ những người được phân loại là Spam trước khi họ đến được người
nhận mong muốn. Hệ thống này sở hữu bốn tính chất mong muốn của một công
cụ lọc trực tuyến, đó là:
- Độ chính xác cao.
- Không cần phải có tất cả các chiến dịch có mặt trong bộ đào tạo.
- Không cần phải đào tạo thường xuyên.
- Độ trễ thấp .
2.4.1 Mục tiêu của hệ thống
Mục tiêu là thiết kế một hệ thống lọc Spam trực tuyến được triển khai ở
phía nhà cung cấp dịch vụ OSN. Sau khi triển khai, nó kiểm tra tất cả các tin
nhắn trước khi gửi thông điệp đến người nhận khi phát hiện tin nhắn gửi đến là
Spam. Hệ thống có thể phát hiện Spam có nguồn gốc từ cả hai tài khoản bị xâm
nhập và tải khoản Spam.

2.4.2 Thiết kế hệ thống
Các chiến dịch spam được tạo ra bằng cách sử dụng các mẫu và các thông
điệp tương đồng trong cùng một chiến dịch. Hệ thống sẽ giữ lại sự giống nhau
giữa chúng. Sau quá trình phân cụm, Spam trong cùng một chiến dịch sẽ nằm
trong cùng một cụm hoặc chỉ một số lượng nhỏ các cụm. Do đó, chúng có thể
được phân biệt bằng cách sử dụng máy học có giám sát.
Hai thành phần chính trong hệ thống là mô dun phân cụm tăng dần và mô
dun học máy có giám sát. Mô đun đầu tiên duy trì một tập hợp các cụm không
liên kết sao cho mỗi tin nhắn đã được xử lý trong quá khứ đều có mặt. Mô đun
thứ hai về bản chất là mô dun phân loại được đào tạo đưa ra các quyết định nhị
phân.

13

Hình 2.2 : Sơ đồ tổng quan về hệ thống lọc trực tuyến

2.4.2.1 Phân cụm gia tăng
2.4.2.2 Học máy có giám sát
Mô đun học máy được giám sát về bản chất là một phân loại được đào tạo
để đưa ra quyết định nhị phân.
Hai ứng cử viên phân loại này là, máy vector hỗ trợ (SVM) và cây quyết
định được sử dụng rộng rãi trong nhiều tài liệu. Cây quyết định[7] có lợi thế là
phân loại nhị phân đã được đào tạo rất nhanh và đơn giản để hiểu. Sự phức tạp về
thời gian để dự đoán điểm kiểm tra mới là O (log (N)), Do đó, Hệ thống sử dụng
cây quyết định là nền tảng phân loại trong hệ thống.
2.4.2.3 Thiết kế song song
Hệ thống cần đạt được tốc độ cao như một công cụ lọc spam trực tuyến.
Thiết kế cơ bản được thể hiện trong phần lớn thời gian chạy trên phân cụm gia
tăng. Do đó, đẩy nhanh quá trình phân cụm có thể làm tăng đáng kể tốc độ.

2.5 Phƣơng pháp phát hiện chiến dịch Spam
“Detecting and Characterizing Social Spam Campaigns”
(Phát hiện và mô tả chiến dịch Spam trên mạng xã hội)
Phương pháp này là một nghiên cứu đầu tiên của để đo lường và phân tích

14

các nỗ lực để lan truyền nội dung độc hại trên OSNs. Công việc dựa trên một tập
hợp các thông điệp "tường" lớn của Facebook. Bài đăng trên tường là hình thức
truyền thông chủ yếu trên Facebook, nơi người dùng có thể để lại tin nhắn trong
hồ sơ công khai của một người bạn.
Nghiên cứu về bài đăng trên tường của Facebook bao gồm hai giai đoạn
chính. Và kết quả cho thấy rằng lừa đảo là cuộc tấn công phổ biến nhất trên
Facebook. Bằng cách nghiên cứu thời gian của các thông điệp độc hại và thời
gian người dùng gửi chúng, có thể kết luận rằng phần lớn các thư rác được gửi
qua các tài khoản bị xâm nhập, chứ không phải là các tài khoản giả mạo được tạo
ra để gửi thư rác.
2.5.1 Mục tiêu trọng tâm của dự án
Trọng tâm của hệ thống là phát hiện và đo lường các chiến dịch Spam quy
mô lớn truyền qua các tin nhắn trên tường của người dùng Facebook. Hệ thống
xác định và đo lường nhiều loại tấn công được thực hiện qua các bài đăng trên
tường bao gồm nhưng không giới hạn ở:
- Quảng cáo sản phẩm.
- Các cuộc tấn công lừa đảo.
- Các cuộc tấn công theo từng lần tải.
2.5.2 Thiết kế hệ thống
2.5.2.1 Mô tả hệ thống
Để thực hiện chiến dịch Spam hiệu quả, người gửi Spam có khả năng:

- Tùy chỉnh các thông báo riêng lẻ đối với người dùng mục tiêu.
- Cố gắng tránh phát hiện bằng cách giấu URL đích thông qua sự xáo trộn.
Sau khi xây dựng một biểu đồ cột các thông điệp trên tường, sử dụng hai
giả định bổ sung về các chiến dịch Spam để tách các nhóm Spam độc hại khỏi
các bài viết trên tường lành mạnh. Các giả định này là:
- Bất kỳ tài khoản nào bị hạn chế về số lượng bài đăng trên tường mà có
thể đăng, do đó người gửi Spam phải tận dụng một số lượng đáng kể tài khoản

15

người dùng cho các chiến dịch lớn.
- Các chiến dịch Spam phải tối đa hóa hiệu quả về thời gian của các tài
khoản bị xâm nhập hoặc giả mạo trước Phát hiện, do đó các thông điệp trong một
chiến dịch đơn lẻ tương đối khắt khe. Hệ thống áp dụng các bộ lọc ngưỡng dựa
trên số lượng tài khoản người dùng gửi các bài viết trên tường và tương quan thời
gian trong mỗi phân lớp con để phân biệt các nhóm có khả năng độc hại khỏi
những nhóm người lành tính.
2.5.2.2 Mô hình hoá và Phân cụm bài đăng trên tường
Xác định các chiến dịch Spam làm giảm đến một vấn đề xác định được kết
nối bên trong biểu đồ tương tự. Mỗi bản đồ con được kết nối tương đương với
một thành phần của một chiến dịch Spam tiềm ẩn. Xác định các đồ thị con được
kết nối dễ dàng được giải quyết bằng cách lặp lại các nút tùy ý và xác định các
đóng cửa của chúng. Được thực hiện theo thuật toán sau.
Algorithm 1 PostSimilarityGraphClustering(G < V, E >)

traversed ← ∅ clusters ← ∅ Foreach v ∈ V
If v ∈ traversed
continue

EndIf
one_cluster ← BFS(v)
traversed ← traversed ∪ one_cluster clusters ← clusters ∪ {one_cluster}

EndForeach
return clusters

2.5.2.3 Xác định các cụm thư rác
Để phát hiện các nhóm Spam ta sử dụng hai đặc tính phân biệt được thừa
nhận rộng rãi của các chiến dịch spam: phạm vi "phân tán" và bản chất "bùng
nổ".
2.5.3 Phương pháp Xác nhận
Phương pháp xác nhận hợp lệ của bao gồm một loạt các bước, mỗi bước
được sử dụng để mô tả công cụ và phương pháp khám phá khác nhau nhằm mục
đích xác minh một cách chắc chắn phần nào đó của bài tường là đáng nghi ngờ.
Bước 1: Gỡ bỏ URL.
Bước 2: Phân tích chuyển hướng.

16

Bước 3: Các công cụ của bên thứ ba.
Bước 4: Tìm kiếm Từ khoá trên Wall Post.
Bước 5: Nhóm URL.
Bước 6: Phân tích thủ công.

2.6 Kết chƣơng
Trong chương này phần đầu đã trình bày về các đặc điểm phát hiện Spam
thông thường và các đặc điểm phát hiện Spam trên OSN và bộ đặc điểm phát
hiện Spam chung. Phần tiếp theo là giới thiệu lần lượt mục đích, đối tượng Spam

được hướng tới và thiết kế cơ bản của các phương pháp lọc Spam cụ thể như:
Phương Pháp COMPA nhằm mục đích phát hiện các tài khoản mạng xã hội bị
xâm nhập, phần mềm MyPageKeeper một ứng dụng trên Facebook nhằm mục
đích xác định chính xác và hiệu quả các phần mềm độc hại trên mạng xã hội
(Socwave), Phương pháp lọc Spam trực tuyến cho mạng xã hội và Phương pháp
phát hiện chiến dịch Spam tập trung vào các bài đăng trên tường độc hại có chứa
các liên kết độc hại đối với người dung. Trong phần 3 của luận văn tôi xin giới
thiệu bộ dữ liệu đã được thu thập và sử dung trong thực nghiệm và thiết kế demo
hệ thống, đánh giá kết quả đạt được của hệ thống.

CHƢƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ HỆ THỐNG
LỌC SPAM TRỰC TUYẾN
3.1 Giới thiệu tập dự liệu
Tập dữ liệu được thu thập từ cả hai mạng xã hội Facebook và Twitter. Tập
dữ liệu Facebook chứa 187 triệu bài viết trên tường được tạo ra bởi khoảng 3,5
triệu người dùng, từ tháng 1 năm 2008 đến tháng 6 năm 2009. Bộ dữ liệu Twitter
chứa hơn 17 triệu bài viết liên quan đến các chủ đề thịnh hành đã được tạo ra từ
ngày 1 tháng 6 năm 2011 đến ngày 21 tháng 7 năm 2011. Hình thức giao tiếp
chính trong Facebook và Twitter được gọi là "bài đăng trên tường" và "tweet".
Sau đây được gọi là “tin nhắn” để dễ dàng mô tả cho cả hai.
Các dữ liệu thu thập này được lưu dưới định dạng Javascript Object

17

Notation (.json). Được biểu diễn dưới dạng mảng, thành phần trong dữ liệu gồm
có các trường:
- GroundTruth có 2 giá trị: Spam, ham
- Reporters (Người báo cáo): Gồm các mảng ID ẩn danh người báo cáo tin bài
- Contents(Nội dung): Túi từ của thông điệp; mỗi từ được gán một ID ẩn danh

- Author: ID ẩn danh của tác giả thông điệp (ID này khác với ID của người báo
cáo)

3.2 Cài đặt thông số hệ thống và mô tả thuật toán phân cụm
3.2.1 Hệ thống và các tham số
Hệ thống được chạy thử nghiệm trên một máy chủ có 8 lõi (Xeon E5520
2.2Ghz) với bộ nhớ Hyper-Threading và 16GB. Tất cả các tin nhắn được xắp xếp
theo mốc thời gian và chia chúng vào tập huấn luyện và bộ thử nghiệm. Tập huấn
luyện bao gồm 25% thư rác và tất cả thư hợp pháp trong cùng một khoảng thời
gian. Bộ thử nghiệm chứa các tin nhắn còn lại.
3.2.2 Giá trị ngưỡng tương tự trong phân cụm gia tăng
Đối với thư Spam, nhiều chiến dịch tồn tại trong tập dữ liệu và các cặp
thông báo trên các chiến dịch khác nhau cũng rất khác nhau. Tuy nhiên, các cặp
bài Spam xuất hiện một sự gia tăng đột ngột, cho thấy một số cặp thông điệp rất
giống nhau, đó là những thông tin thuộc cùng một chiến dịch Spam. Các cặp
thông điệp hợp pháp không biểu lộ khuôn mẫu như vậy do bản chất tự nhiên. Do
đó, hệ thống không nhạy cảm với giá trị ngưỡng miễn là giá trị không phải là quá
nhỏ hoặc quá lớn, vì việc thay đổi ngưỡng sẽ không ảnh hưởng đáng kể đến kết
quả phân nhóm. Cuối cùng chúng ta chọn 0,5 là ngưỡng được sử dụng trong tất
cả các thí nghiệm.

18

3.2.3 Mô tả thuật toán phân cụm bằng cây quyết định
3.2.3.1 Thuật toán ID3
Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = (x1, x2, x3…, xk, y)
Biến phụ thuộc (Dependant Variable) y là biến mà chúng ta cần tìm hiểu,
phân loại hay tổng quát hóa. x1, x2, x3 … là các biến sẽ giúp ta thực hiện công

việc.
Input: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.
Output: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong
tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp
trong tương lai.
Giải thuật ID3 xây dựng cây quyết định được trình bày như sau:
Lặp:
1. Chọn A <= thuộc tính quyết định “tốt nhất” cho nút kế tiếp
2. Gán A là thuộc tính quyết định cho nút
3. Với mỗi giá trị của A, tạo nhánh con mới của nút
4. Phân loại các mẫu huấn luyện cho các nút lá
5. Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGƯNG,
Ngược lại, lặp với các nút lá mới.
Thuộc tính tốt nhất ở đây là thuộc tính có entropy trung bình thấp nhất theo thuộc
tính kết quả với Entropy được tính như sau:
Gọi S là tập các mẫu huấn luyện
Gọi p là tỷ lệ các mẫu dương trong S
Ta có H ≡ – p.log2p – (1 – p).log2(1 – p)
Entropy trung bình của một thuộc tính bằng trung bình theo tỉ lệ của
entropy các nhánh:
∑

19

3.2.3.2 Thuật toán C4.5 [6]
Là sự phát triển từ CLS và ID3. Với những đặc điểm C4.5 là thuật toán
phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng
dụng khai phá cơ sở dữ liệu có kích thước nhỏ. Chiến lược phát triển theo độ sâu

(depth-first strategy) được áp dụng cho C4.5.
Mã giả của thuật toán C4.5:
Pseudocode:

(1)ComputerClassFrequency(T);

·Kiểm tra case cơ bản

(2) if OneClass or FewCases
return a leaf;

·Với mỗi thuộc tính A tìm thông tin

Create a decision node N;

nhờ việc tách thuộc tính A

(3) ForEach Attribute A
ComputeGain(A);

·Chọn a_best là thuộc tính mà độ đo (4)N.test=AttributeWithBestGain;
lựa chọn thuộc tính “tốt nhất”

(5)if (N.test is continuous)
find Threshold;

·Dùng a_best làm thuộc tính cho node

(6) ForEach T’ in the splitting of T

chia cắt cây.

(7) If ( T’ is Empty )
Child of N is a leaf

·Đệ quy trên các danh sách phụ được

else

tạo ra bởi việc phân chia theo a_best,

(8)

và thêm các node này như là con của

(9)

node

return N

Child

of

N=FormTree(T’);

ComputeErrors

of

N;

C4.5 dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất”. Hai độ
đo được sử dụng trong C4.5 là information gain và gain ratio. RF(Cj,S) biểu diễn
tần xuất (Relative Frequency) các case trong S thuộc về lớp Cj.
⁄
Với

là kích thước tập các case có giá trị phân lớp là Cj.

là kích thước tập dữ liệu đào tạo.

20

Chỉ số thông tin cần thiết cho sự phân lớp: I(S) với S là tập cần xét sự
phân phối lớp được tính bằng:
∑
Sau khi S được phân chia thành các tập con S1, S2,…, St bởi test B
thì information gain được tính bằng:
∑
Test B sẽ được chọn nếu có G(S,B) đạt giá trị lớn nhất.
Tuy nhiên có một vấn đề khi sử dụng G(S,B) ưu tiên test có số lượng lớn
kết quả, ví dụ G(S,B) đạt cực đại với test mà từng Si chỉ chứa một case đơn. Tiêu
chuẩn gain ratio giải quyết được vấn đề này bằng việc đưa vào thông tin tiềm
năng (potential information) của bản thân mỗi phân hoạch.
∑
Test B sẽ được chọn nếu có tỉ số giá trị gain ratio

⁄

lớn nhất.

3.3 Đánh giá kết quả thực nghiệm
3.3.2 Độ chính xác
Độ phát hiện chính xác của hệ thống được đặc trưng bởi hai số liệu, Tỷ lệ
triệu hồi (Spam recall) và tỷ lệ báo độ giả (False alarm). Tỷ lệ triệu hồi cho thấy
sự phát hiện chính xác các thông điệp đó là Spam. Nó được định nghĩa là số
lượng các trường hợp được phân loại chính xác là Spam chia cho tổng số trường
hợp Spam. tỷ lệ báo độ giả phản ánh lỗi phát hiện trên các thông điệp hợp pháp.
Nó được định nghĩa là số lượng các trường hợp các thông điệp hợp pháp được
phân loại là Spam chia cho tổng số trường hợp hợp pháp

21

3.2.2.1 Độ chính xác tổng thể
Bảng 3.1: Độ chính xác tổng thể khi điều chỉnh các tham số
Data

Facebook

Twitter

Tỷ lệ

Tỷ lệ triệu hồi

Tỷ lệ báo động giả

Hợp Pháp/Spam

(%)

(%)

10:1

87

0.56

4:1

80.9

0.19

1:1

76

0.22

1:4

66

0.36

1:10

61

0.34

10:1

73

0.9

4:1

70

0.81

1:1

69.8

0.7

1:4

57

0.41

1:10

57

0.41

3.2.2.2 Độ chính xác của các bộ đặc điểm khác nhau
Bảng 3.2: Tỷ lệ phát hiện chính xác bằng cách sử dụng mỗi bộ đặc điểm
với bộ dữ liệu Facebook
Bộ đặc điểm

Các đặc điểm

Đặc điểm phát hiện

- Mức độ xã hội

OSN

- Lịch sử tương tác

Tỷ lệ triệu

Tỷ lệ báo

hồi

động giả

(%)

(%)

38.3%

0.30%

80.8%

0.32%

- Quy mô nhóm
Các đặc điểm chung

- Khoảng thời gian trung bình
- Số URL trung bình
- Số URL duy nhất

3.2.2.3 Độ chính xác theo thời gian
Bảng 3.3: Độ phát hiện chính xác trên bộ dữ liệu Facebook theo thời gian

22

Data

Facebook

Thời gian

Tỷ lệ triệu hồi

Tỷ lệ báo động giả

(Tháng)

(%)

(%)

0–3

70 %

0.03%

3–6

83%

0.04

6–9

603%

0.035%

3.2.3 Khả năng chống lại cuộc tấn công triệt để

Bảng 3.4: Tỷ lệ phát hiện chính xác của hệ thống dƣới cuộc tấn công tàng hình
Data

Tỷ lệ

Tỷ lệ triệu hồi

Tỷ lệ báo động giả

xóa Spam

(%)

(%)

20%

81

0.22

40%

79

0.2

60%

74

0.1

80%

49

0.44

20%

60

0.62

40%

59

0.61

60%

58

0.6

80%

70

0.6

Facebook

Twitter

3.3.4 Hiệu suất thời gian chạy
- Độ trễ (Latency):
- Thông lượng (Throughput):

3.4 Kết chƣơng
Trong phần đầu chương này tôi đã giới thiệu bộ dữ liệu được sử dụng để
thực nghiệm đánh giá hệ thống. Phần tiếp theo là xây dựng hệ thống và các tham
số của hệ thống. cuối cùng là đánh giá kết quả thực nghiệm của hệ thống. Qua
thực nghiệm hệ thống lọc Spam trực tuyến cho thấy đây là hệ thống tốt có thể
triển khai thành hệ thống lọc trực tuyến cho các mạng xã hội, với kết quả cho
thấy rất khả quan như: Độ chính xác cao, không cần phải có tất cả các chiến dịch
có mặt trong bộ đào tạo, không cần phải đào tạo thường xuyên, độ trễ thấp.

23

KẾT LUẬN
Các kết quả đạt đƣợc của luận văn:
Mạng xã hội ngày nay đã thành một môi trường không thể thiếu đối với
đại đa số cộng đồng mọi người nói chung, cộng đồng mạng nói riêng. Nhưng với
sự phát triển nhanh của công nghệ thông tin, các vấn nạn về Spam ngày ngày
càng thể hiện rõ các nguy cơ tiềm ẩn và tin tặc ngày càng thích ứng với các thay
đổi bằng cách thiết kế các loại phần mềm độc hại mới phù hợp với nền tảng này.

Nhưng các biện pháp phòng vệ hiện tại không còn thích hơp. Luận văn đi sâu vào
nghiên cứu về các Phương pháp lọc Spam trên mạng xã hội và đạt được một số
kết quả sau:
- Nghiên cứu tổng quan về mạng xã hội, Spam và các nguy cơ từ Spam
trên mạng xã hội.
- Đi sâu vào nghiên cứu các đặc điểm để phát hiện Spam và các phương
pháp, hệ thống lọc Spam cụ thể cho các đối tượng, hành vi Spam cụ thể.
- Mô phỏng triển khai thực nghiệm một hệ thống lọc Spam trực tuyến và
đánh giá kết quả kết quả triển khai hệ thống.
Nhận xét, đề xuất, khuyến nghị:
Tin tặc, spammer liên tục thay đổi và thích nghi với các các giải pháp
chống Spam. Vì vậy khi các nhà phát triển phải luôn có những biện pháp tích cực
và phán ứng nhanh nhất đối với những nguy cơ có thể gấy ra cho người dùng. Có
những thông báo, khuyến cáo, cảnh báo cho người dùng để người dùng không vô
tình trở thành các trợ thủ cho các đối tượng lợi dụng.
Hƣớng nghiên cứu tiếp theo:
Các phương pháp lọc Spam nói trên có thể triển khai và thích nghi vào các
mô hình mạng xã hội hiện tại. Mỗi phương pháp đều có đặc điểm thế mạnh nổi
bật khác nhau nhưng chúng lại chưa thực sự hỗ trợ và kết hợp được với nhau.
Vì vậy hướng nghiên cứu tiếp theo của đề tài là dựa trên các kết quả đã
đạt được của các phương pháp trên, xây dựng một bộ đặc điểm hoàn chỉnh tích
hợp các ưu điểm của các hệ thống và xây dựng hệ thống lọc Spam có thể phát
hiện ra các đối tượng Spam khác nhau.

Phương pháp lọc spam trên mạng xã hội (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về