Tải bản đầy đủ (.pdf) (54 trang)

Xây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.33 MB, 54 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN TRỌNG THANH

XÂY DỰNG ỨNG DỤNG NGĂN CHẶN TIN NHẮN RÁC
TRÊN THIẾT BỊ DI ĐỘNG

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2016


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN TRỌNG THANH

XÂY DỰNG ỨNG DỤNG NGĂN CHẶN TIN NHẮN RÁC
TRÊN THIẾT BỊ DI ĐỘNG
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ:

0

60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN TRỌNG ĐƯỜNG

HÀ NỘI - 2016


i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.
TÁC GIẢ

Nguyễn Trọng Thanh


ii

LỜI CÁM ƠN
Trong suốt khóa học cao học tại Học viện Công nghệ Bưu chính Viễn thông,
với sự nỗ lực của bản thân và sự giúp đỡ tận tình của các thầy cô giáo trong trường
đặc biệt là các thầy cô giáo trong khoa CNTT đã giúp tôi có một vốn tri thức vững
vàng để hoàn thành luận văn.
Xin cảm ơn các thầy cô giáo trong khoa Quốc tế và Đào tạo Sau Đại học đã
giảng dạy cho tôi những kiến thức chuyên môn làm cơ sở để thực hiện tốt luận văn
và tạo điều kiện cho tôi hoàn thành tốt khóa học.
Tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Trọng Đường, ThS
Nguyễn Đức Tuân là những người hướng dẫn luôn theo sát chỉ bảo hướng đi và cho
tôi những lời khuyên quý báu cũng như cung cấp các thông tin và căn cứ khoa học
để tôi hoàn thành luận văn.

Xin cảm ơn gia đình, bạn bè đã động viên và giúp đỡ tôi trong quá trình làm
luận văn.
Do thời gian thực hiện luận văn và vốn kiến thức có hạn nên không tránh
khỏi những thiếu xót, rất mong nhận được những ý kiến đóng góp của các thầy cô
và bạn bè để luận văn được hoàn thiện hơn.
Trân trọng cám ơn.
Tác giả.

Nguyễn Trọng Thanh


iii

MC LC
LI CAM OAN........................................................................................................i
LI CM N.............................................................................................................ii
DANH MC T VIT TT......................................................................................v
DANH MC CC BNG BIU..............................................................................vi
DANH MC CC HèNH V..................................................................................vii
M U.....................................................................................................................1
Tớnh cp thit ca ti ..........................................................................................1
Tng quan v vn nghiờn cu ............................................................................2
Mc ớch, i tng, phm vi v phng phỏp nghiờn cu ...................................2
Cu trỳc lun vn ....................................................................................................3
CHNG 1 - CC GII PHP NGN CHN TIN NHN RC .......................5
1.1 Tng quan v tin nhn rỏc ..............................................................................5
Tin nhn SMS ..........................................................................................5
Tin nhn SMS rỏc ....................................................................................6
1.2


Thc trng tin nhn rỏc ti Vit Nam ............................................................8
Thc trng tin nhn rỏc ti Vit Nam ......................................................8
Cỏc loi tin nhn rỏc chớnh xut hin ti Vit Nam ..............................11

1.3

Cỏc gii phỏp ngn chn tin nhn rỏc ..........................................................12
Gii phỏp v mt phỏp lý .......................................................................12
Gii phỏp v mt k thut......................................................................14

1.4

Cỏc phng phỏp phõn loi vn bn ............................................................15
Phõn loi vn bn...................................................................................15
Tin trỡnh phõn loi vn bn ..................................................................16
Cỏc phng phỏp phõn loi vn bn .....................................................18

1.5

Kt lun chng 1 ........................................................................................21

CHNG 2 - P DNG THUT TON NAẽVE BAYES XY DNG B
LC TIN NHN RC .............................................................................................23
2.1 C s lý thuyt .............................................................................................23
Cụng thc xỏc sut cú iu kin ............................................................23
Cụng thc xỏc sut y .....................................................................23
Phỏt biu thut toỏn Naùve Bayes ..........................................................23
2.2

Bi toỏn phõn loi vn bn vi Naùve Bayes ...............................................24



iv

2.3

Các ưu điểm của bộ lọc tin nhắn rác Naïve Bayes ......................................28

2.4

Các bước xây dựng bộ lọc Naïve Bayes ......................................................30
Lựa chọn các đặc trưng .........................................................................30
Biểu diễn các tin nhắn ...........................................................................32
Xác định ngưỡng ...................................................................................32
Thử nghiệm hệ thống lọc tin nhắn rác hiệu quả trong thực tế...............32

2.5

Kết luận chương 2 ........................................................................................33

CHƯƠNG 3 - XÂY DỰNG ỨNG DỤNG NGĂN CHẶN TIN NHẮN RÁC
TRÊN THIẾT BỊ DI ĐỘNG .....................................................................................34
3.1

Giới thiệu bài toán ........................................................................................34

3.2

Phân tích và xây dựng ứng dụng ..................................................................35


3.3

Giao diện ứng dụng ......................................................................................37
Giao diện danh sách tin nhắn ................................................................37
Giao diện chi tiết hội thoại ....................................................................38
Giao diện danh sách Blacklist ...............................................................39
Màn hình danh sách từ xấu ....................................................................40

3.4

Thực nghiệm và đánh giá thuật toán ............................................................41

3.5

Kết luận chương 3 ........................................................................................42

KẾT LUẬN
43
TÀI LIỆU THAM KHẢO .........................................................................................45


v

DANH MỤC TỪ VIẾT TẮT
STT
1
2
3
4
5

6
7

Từ viết tắt
CDMA
GPRS
GSM
PC
PDA
SMS
SVM

Ý nghĩa
Code Division Multiple Access
General Packet Radio Service
Global System for Mobile Communications
Personal Computer
Personal Digital Assistant
Short Message Services
Support Vectors Machines


vi

DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1. Ví dụ minh họa thuật toán Naïve Bayes ...................................................27
Bảng 2.2. Tính giá trị xác suất của các thuộc tính ....................................................28


vii


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Thống kê các loại hình tin nhắn rác ..........................................................10
Hình 1.2. Tin nhắn có tính chất lừa đảo ....................................................................11
Hình 1.3. Tin nhắn giả mạo .......................................................................................12
Hình 1.4. Lựa chọn một đặc trưng ............................................................................16
Hình 1.5. Lựa chọn nhiều đặc trưng .........................................................................17
Hình 1.6. Phương pháp SVM ....................................................................................20
Hình 3.1. Tạo cơ sở dữ liệu cho tin nhắn hợp lệ và tin nhắn rác ..............................35
Hình 3.2. Kiểm tra nội dung tin nhắn đến .................................................................36
Hình 3.3. Giao diện danh sách tin nhắn ....................................................................37
Hình 3.4. Giao diện tùy chọn của một cuộc hội thoại ...............................................38
Hình 3.5. Giao diện chi tiết hội thoại và các tùy chọn tin nhắn ................................39
Hình 3.6. Giao diện danh sách Blacklist ...................................................................40
Hình 3.7. Giao diện danh sách các từ xấu .................................................................41


1

MỞ ĐẦU
Tính cấp thiết của đề tài
Sự phát triển của khoa học, kỹ thuật đã tạo ra nhiều công nghệ mới phục vụ
hoạt động liên lạc, trao đổi thông tin, trong đó có SMS. Hiện nay, SMS được đánh
giá là một trong những phương tiện liên lạc phổ biến, đơn giản và hiệu quả nhất.
SMS cũng được coi là công cụ phục vụ đắc lực trong hoạt động kinh doanh, đặc
biệt là quảng cáo.
Cũng như thư điện tử rác, tin nhắn rác là một trong những vấn nạn phát sinh
bên cạnh những đặc điểm tích cực mà tin nhắn mang lại. Tại Việt Nam, tin nhắn rác
đã và đang trở thành một vấn nạn lớn đối với thuê bao di động và diễn biến ngày
một tinh vi và phức tạp. Chưa bao giờ việc phát tán những tin nhắn rác dễ dàng như

hiện nay. Tin nhắn rác không chỉ có nội dung về mua bán, quảng cáo mà còn xuất
hiện rất nhiều tin nhắn rác lừa đảo qua tin nhắn, dụ dỗ người dùng, thậm chí mang
tính chất phản động, bôi nhọ danh dự người khác… Mỗi năm có hàng trăm triệu tin
nhắn rác được phát tán đi. Chúng gây khó chịu cả về nội dung lẫn số lượng cho
những người sử dụng điện thoại.
Theo định nghĩa về tin nhắn rác tại Luật Công nghệ Thông tin thì tin nhắn
rác là tin nhắn được gửi đến người nhận mà người nhận đó không mong muốn hoặc
không có trách nhiệm phải tiếp nhận theo quy định của pháp luật. Điều này chứng
tỏ vai trò rất quan trọng của các ứng dụng, phần mềm ngăn chặn tin nhắn rác dành
cho người dùng. Vì vậy, bên cạnh các giải pháp ngăn chặn tin nhắn rác là từ phía
doanh nghiệp di động, thì các phần mềm, ứng dụng cho phép người dùng chủ động
ngăn chặn tin nhắn rác là rất quan trọng. Nếu như doanh nghiệp di động có thể ngăn
chặn những tin nhắn với nội dung, tiêu chí nhất định, thì với các phần mềm, ứng
dụng cài đặt trên điện thoại, người dùng có thể chủ động lựa chọn những nội dung
tin nhắn mà họ không mong muốn, coi là rác và lựa chọn những nội dung mà họ
muốn nhận được.
Hiện nay, điện thoại thông minh ngày càng phổ biến và trở thành một vật
dụng không thể thiếu đối với nhiều người. Vì vậy, trong phạm vi luận văn thạc sỹ,


2

chủ trì mong muốn xây dựng một phần mềm ngăn chặn tin nhắn rác trên điện thoại
thông minh, đặc biệt là đối với tin nhắn rác tại Việt Nam theo cả hai hướng tự động
và chủ động, giúp người dùng loại bỏ tin nhắn rác.
Xuất phát từ thực tế và mục tiêu như vậy, tác giả thực hiện đề tài luận văn có
tên “Xây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động” để giải
quyết vấn đề nêu trên.

Tổng quan về vấn đề nghiên cứu

Tin nhắn rác là những tin nhắn có nội dung quảng cáo, rao vặt, lừa đảo… mà
người nhận không mong muốn nhận được những tin nhắn như vậy. Việc phát tán tin
nhắn rác hiện nay rất đơn giản. Mỗi ngày có đến hàng triệu tin nhắn rác được phát
tán, trung bình mỗi người dân Việt Nam nhận hàng chục tin nhắn rác trong ngày.
Đây là một vấn đề gây nhức nhối đối với cả người dùng và cả các cơ quan quản lý.
Điều người dùng mong muốn đó là không bị làm phiền bởi các tin nhắn với nội
dung không mong muốn nhận.
Các ứng dụng chặn tin nhắn rác trên các thiết bị di động tại Việt Nam có khá
nhiều. Nhưng đa phần các ứng dụng này chỉ có thể chặn thủ công bằng cách đưa các
số phát tán tin nhắn rác vào Blacklist (danh sách đen, danh sách các số phát tán tin
nhắn) hoặc tự động chặn nhưng sẽ chặn cả những nội dung mà có thể người dùng
muốn nhận được. Việc kết hợp chặn tin nhắn rác bằng cả hai cách chủ động và bị
động là một giải phát hữu ích giúp người dùng có thể quyết định được những tin
nhắn nào mà họ muốn nhận được.
Tuy nhiên, hiện nay vẫn chưa có ứng dụng nào trên thiết bị di động tại Việt
Nam giải quyết bài toán thực tế mà đề tài luận văn nhắn đến ở trên. Do đó, tác giả
tiến hành thực hiện đề tài luận văn xây dựng ứng ngăn chặn tin nhắn rác trên thiết bị
di động theo cả hai hướng chủ động và bị động.

Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu
Luận văn tập trung nghiên cứu, tìm hiểu các vấn đề cơ bản về tin nhắn rác tại
Việt Nam và trên thế giới, các thuật toán học máy. Từ đó ứng dụng vào việc xây
dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động, cụ thể là trên hệ điều


3

hành Android tại Việt Nam. Kết quả đạt được của luận văn là có những nghiên cứu
lý thuyết, số liệu, tình hình về tin nhắn rác, các thuật toán học máy; xây dựng được
ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động tại Việt Nam.

Luận văn nghiên cứu về các loại hình tin nhắn rác tại Việt Nam, từ đó, xây
dựng nên ứng dụng ngăn chặn tin nhắn rác trên thiết bị di động, cụ thể là thiết bị di
động sử dụng hệ điều hành Android.
Luận văn kết hợp 2 phương pháp nghiên cứu. Phương pháp nghiên cứu lý
thuyết: tổng hợp, thu thập, nghiên cứu tài liệu, ngôn ngữ lập trình, các công nghệ,
giải pháp có liên quan đến ngăn chặn tin nhắn rác. Phương pháp nghiên cứu thực
nghiệm: Phân tích được các yêu cầu của công việc, vận dụng các kết quả lý thuyết
vào bộ dữ liệu cụ thể (dữ liệu tin nhắn rác) thu thập được để đánh giá và phân tích
kết quả. Tập hợp, xây dựng được bộ dữ liệu mẫu để kiểm tra thử nghiệm, nhận xét,
đánh giá được kết quả đạt được.

Cấu trúc luận văn
Nội dung của luận văn được trình bày trong ba phần chính như sau:
1. Phần mở đầu
2. Phần nội dung: bao gồm ba chương
Chương 1: Các giải pháp ngăn chặn tin nhắn rác
Chương này đi sâu vào các giải pháp ngăn chặn tin nhắn rác theo các hướng,
các giải pháp khác nhau. Giải pháp về mặt pháp lý: đánh giá các giải pháp hiện nay
về mặt pháp lý ngăn chặn tin nhắn rác đến từ các cơ quan chức năng, các nhà mạng.
Giải pháp về mặt kỹ thuật: các mô hình, các thuật toán ngăn chặn tin nhắn rác áp
dụng vào bài toán phân loại và xử lý tin nhắn rác.
Chương 2: Áp dụng thuật toán Naïve Bayes xây dựng bộ lọc tin nhắn rác
Chương này trình bày cách tạo bộ lọc tin nhắn rác sử dụng thuật toán Naïve
Bayes. Trong chương 2, luận văn sẽ trình bày mô hình thuật toán Naïve Bayes, các
ưu nhược điểm của thuật toán, các bước xây dựng bộ lọc tin nhắn rác sử dụng thuật
toán Naïve Bayes như lấy dữ liệu mẫu, huấn luyện bộ lọc.


4


Chương 3: Xây dựng ứng dụng ngăn chặn tin nhắn rác trên thiết bị di
động
Trong chương 3, luận văn sẽ đánh giá các tập dữ liệu, các kỹ thuật được
dùng trong trong chương trình, xây dựng ứng dụng ngăn chặn tin nhắn rác trên hệ
điều hành Android bằng thuật toán Naïve Bayes đã đưa ra ở chương 2, demo thực
nghiệm và đánh giá thuật toán.
3. Phần kết luận


5

CHƯƠNG 1 - CÁC GIẢI PHÁP NGĂN CHẶN TIN NHẮN
RÁC
1.1 Tổng quan về tin nhắn rác
Tin nhắn SMS
Tin nhắn SMS (Short Messaging Service hay Simple Message Service) là
dịch vụ nhắn tin ngắn SMS cho phép gửi và nhận bản tin ngắn (tin nhắn) giữa các
máy điện thoại di động cũng như giữa điện thoại di động và các thiết bị cung cấp
thông tin khác (PC, PDA,...) [10]. Bản tin nhắn SMS có thể bao gồm các ký tự chữ
và số. Mỗi tin nhắn có thể có độ dài tới 160 ký tự nếu sử dụng bảng chữ cái Latin
(mã 7 bit), hoặc 70 ký tự, nếu sử dụng bảng chữ cái phi Latin (mã 16 bit). Tin nhắn
văn bản SMS hỗ trợ đa ngôn ngữ toàn cầu, làm việc tốt với mọi ngôn ngữ được hỗ
trợ bởi Unicode, bao gồm tiếng Ả rập, tiếng Trung Hoa, tiếng Nhật và tiếng Triều
Tiên.
Tin nhắn SMS có rất nhiều các ưu điểm.
Tin nhắn SMS có thể đọc và gửi bất cứ lúc nào. Ngày nay hầu hết mỗi
người đều có một điện thoại di động và luôn mang theo chúng. Vì vậy chúng ta có
thể gửi và nhận tin nhắn mọi lúc mọi nơi, bất kể là ở nhà, văn phòng hay trên xe
buýt...
Tin nhắn SMS có thể được gửi đến một máy điện thoại di động đang tắt.

Không giống như một cuộc điện thoại, một tin nhắn SMS có thể gửi đến cho người
khác ngay cả khi người đó không mở điện thoại hay đang ở trong vùng không phủ
sóng. Hệ thống SMS của nhà cung cấp dịch vụ sẽ lưu giữ tin nhắn SMS đó lại và
sau đó gửi nó cho người nhận khi điện thoại di động của người đó được mở hoặc có
sóng trở lại.
Tin nhắn SMS ít ồn ào hơn trong khi bạn vẫn tiếp xúc với điện thoại.
Không giống như một cuộc điện thoại, người dùng không cần đọc hay trả lời một
tin nhắn SMS ngay lập tức. Hơn nữa, viết và đọc tin nhắn SMS không gây bất kỳ
tiếng ồn nào.


6

Tin nhắn SMS hỗ trợ 100% điện thoại GSM và có thể trao đổi với
những mạng không dây khác. Tin nhắn SMS là một công nghệ rất phổ biến. Mọi
điện thoại di động GSM đều hỗ trợ nó. Người dùng không chỉ có thể trao đổi SMS
với những người sử dụng di động cùng mạng mà còn có thể trao đổi SMS với
những người sử dụng di động của các nhà cung cấp dịch vụ khác trên toàn thế giới.
Tin nhắn SMS là một công nghệ thích hợp cho việc xây dựng những ứng
dụng không dây. Tin nhắn SMS được hỗ trợ bởi 100% điện thoại di động GSM.
Nên việc xây dựng những ứng dụng không dây dựa công nghệ SMS sẽ khiến cho số
lượng người sử dụng tăng lên ngày càng cao. Tin nhắn SMS có khả năng chứa dữ
liệu nhị phân bên cạnh dữ liệu văn bản nên người dùng có thể chuyển nhạc chuông,
hình ảnh, danh bạ điện thoại… đến máy khác.
Tin nhắn SMS cũng cho phép thanh toán thương mại một cách tiện lợi.
Đây chính là các dịch vụ gia tăng dựa trên tin nhắn SMS. Người sử dụng sẽ trả phí
cho các tin nhắn với nội dung là những hình ảnh, nhạc chuông mà nhà cung cấp thu
phí thông qua các mã số được gửi trong tin nhắn. Các mã số này được qui định bởi
nhà cung cấp và quảng cáo đến với người sử dụng dịch vụ.


Tin nhắn SMS rác
Theo Nghị định 90/2008/NĐ-CP Về chống thư rác của chính phủ, thư rác
(spam) là thư điện tử, tin nhắn được gửi đến người nhận mà người nhận đó không
mong muốn hoặc không có trách nhiệm phải tiếp nhận theo quy định của pháp luật.
Thư rác trong Nghị định này bao gồm thư điện tử rác và tin nhắn [1].
Tin nhắn rác có thể đơn thuần là các tin nhắn có tính chất quảng cáo cho một
sản phẩm, dịch vụ được gửi tới người nhận mà chưa có sự đồng ý trước, hoặc các
tin nhắn có chủ đích quấy rối, giả mạo, hoặc lừa đảo.
Dựa vào tính chất, mức độ gây hại có thể phân loại tin nhắn rác thành: tin
nhắn quảng cáo, tin nhắn lừa đảo, tin nhắn gian lận, tin nhắn có sự tham gia của mã
độc, tin nhắn vi phạm chính sách người dùng.


7

Tin nhắn quảng cáo: dùng cho mục đích quảng cáo sản phẩm thương hiệu.
Thường chỉ gây khó chịu mà không gây hại cho thuê bao. Tin nhắn loại này thường
dùng cho các chiến dịch quảng cáo, tiếp thị của các doanh nghiệp.
Tin nhắn gian lận: gồm các tin nhắn có nội dung nhằm mục đích dụ dỗ, lừa
người dùng nhắn tin, gọi điện tới số nào đó hoặc sử dụng một dịch vụ mất phí cao.
Ví dụ một số trường hợp ở Anh, Pháp tin nhắn gian lận có nội dung: “(1) You have
been chosen at random at 9.56 AM and won the check n°409248 ! Call the
0899XXXXXX to know

the exact amount and to cash! Thank you ! (cts

1.35€+0,34mn). (2)“Hi, it’s me !I’m still waiting for your call. I hate when you
don’t call back. Gimme a call at 0899XXXX

XX.”


Tin nhắn lừa đảo: gồm các tin nhắn đề nghị các thuê bao gọi tới một số điện
thoại nào đó để lấy các thông tin nhạy cảm của thuê bao sau đó sử dụng các thông
tin này cho ý đồ xấu nào đó. Ví dụ “BANK OF THE CASCADES: urgent account
notification, verify unusual activity, call 1800-####”. Khi thuê bao gọi tới số đó, hệ
thống sẽ tự động lấy các thông tin từ cuộc gọi. Số lượng các cuộc tấn công dạng này
là nhỏ, số lượng tin nhắn sử dụng ít, vì vậy chỉ có thể phát hiện các cuộc tấn công
thông qua việc kiểm tra nội dung.
Tin nhắn rác có sự tham gia của mã độc: Theo phân tích của Juniper
Rearch vào tháng 5/2011 cho thấy SMS trojan đang gửi tin nhắn từ các thuê bao tới
số Premium rate, chiếm 17% các báo cáo về các cuộc tấn công di động [5]. Mã độc
hại được thiết kế để xâm nhập vào thiết bị di động mà không được phép của chủ sử
hữu. Kiểu tin nhắn này chứa các liên kết và yêu cầu người dùng tải chương trình
độc hại. 3 kiểu mã độc phổ biết trên điện thoại di động gồm: virus, worm, Trojan.
Ví dụ khách hàng của ngân hàng Santander đã từng bị tấn công bởi mạng PC botnet
sử dụng, các con bot trong mạng botnet này thu thập thông tin chi tiết của dịch vụ
Mobile banking, thông tin chi tiết về thiết bị, và gửi virus tới máy điện thoại di
động. Khi 1 điện thoại bị ảnh nhiễm, kẻ tấn công có sử dụng các thông tin thu thập
được thể xác thực với internet payment-cổng thanh toán và di chuyển hàng nghìn
đôla khỏi tài khoản của khách hàng.


8

Tin nhắn vi phạm chính sách người dùng, vi phạm pháp luật: là các tin
nhắn gửi không đúng đối tượng. Ví dụ tin có nội dung khiêu dâm gửi tới trẻ em
chưa vị thành niên.

1.2 Thực trạng tin nhắn rác tại Việt Nam
Thực trạng tin nhắn rác tại Việt Nam

Với sự bùng nổ của viễn thông công nghệ thông tin, con người có thể kết nối
với nhau qua tích tắc dù cách xa nhau ngàn vạn cây số cũng như nắm bắt thông tin
nhanh nhất để trở thành người tiêu dùng thông minh, dễ dàng tiếp cận với sản phẩm,
dịch vụ của mình mong muốn. Nắm bắt được xu thế này, những năm gần đây, nhiều
người đã sử dụng mạng viễn thông như một phương thức quảng cáo rẻ và hiệu quả
trong việc đưa sản phẩm tới người tiêu dùng. Và trong bối cảnh ấy, tin rác ra đời tạo
nên những bức xúc cho người dùng viễn thông di động. Ở lúc cao điểm, mỗi một
sim di động trong 24 giờ có thể nhận tới cả chục tin nhắn rác quảng cáo dịch vụ bất
động sản, sim số đẹp, chăn ga gối đệm, du lịch…với nguồn phát tán đa phần là các
sim rác, sim 11 số và người gọi sẽ không liên lạc được với số điện thoại nguồn phát
tán gửi tin nhắn tới điện thoại của mình. Ngoài việc trở thành một phương thức
quảng cáo giá rẻ ra, thì các tin nhắn rác còn có dấu hiệu lừa đảo như nội dung tin
nhắn thông báo trúng thưởng, tặng nhạc chuông, hình ảnh, cài đặt GPRS nhưng khi
chủ thuê bao di động nhắn tin đến đầu số theo hướng dẫn thì lập tức bị trừ tiền.
Hiện tại, có rất nhiều công ty doanh nghiệp cung cấp dịch vụ nội dung tham
gia phát triển và kinh doanh các dịch vụ tin nhắn giải trí qua mạng điện thoại di
động. Các sản phẩm, dịch vụ chính trong lĩnh vực này là:
- Cung cấp nhạc chuông, logo, hình nền cho điện thoại di động.
- Cung cấp trò chơi trên điện thoại di động, cài đặt GPRS.
- Cung cấp thông tin tổng hợp về kinh tế, chính trị, xã hội.
- Các hình thức trắc nghiệm, tư vấn tình cảm, kết bạn.
- Cung cấp kết quả xổ số, bóng đá, chứng khoán, v.v…


9

Về mặt kỹ thuật, người gửi tin nhắn rác thường sử dụng Modem
GSM/CDMA có lắp SIM điện thoại và được kết nối với máy tính có cài đặt phần
mềm gửi/nhận tin nhắn, thiết bị được bán rộng rãi trên thị trường và mỗi giờ có thể
tự động phát tán tin nhắn hàng loạt với tốc độ 1000 tin nhắn mỗi giờ. Các tin nhắn

quảng cáo rác thường đều được gửi đi từ số điện thoại di động trả trước không có họ
tên địa chỉ rõ ràng hoặc nếu có thì thông tin cũng không chính xác và khi gọi đến số
thuê bao này đều không có tín hiệu trả lời. Việc xác minh chính xác đối tượng gửi
tin nhắn rác là rất khó khăn, ngay bản thân các doanh nghiệp nội dung được quảng
cáo trong tin rác khi kiểm tra thì cho rằng các tin nhắn này được gửi đi từ thuê bao
trả trước không phải do họ là chủ sở hữu, việc nội dung tin nhắn rác quảng cáo gửi
tin về đầu số của một doanh nghiệp nội dung cụ thể (ví dụ 8716, 8671, 6369, …) để
được tặng nhạc chuông, bộ sưu tập hình hot hay đánh lô đề là do một số đối tác có
hành vi cạnh tranh không lành mạnh, bôi xấu hoặc làm ảnh hưởng đến uy tín của
nhau.
Mặc dù trong thời gian gần đây, lượng tin nhắn rác mặc dù đã giảm đáng kể
nhưng vẫn tồn tại và thường gia tăng vào các dịp lễ tết, các đợt khuyễn mại lớn của
doanh nghiệp viễn thông di động. Một số thống kê về tin nhắn rác tại Việt Nam cho
thấy:
- Hầu hết các tin nhắn rác quảng cáo liên quan tới các dịch vụ của doanh
nghiệp cung cấp nội dung qua tin nhắn (8xxx, 6xxx, 7xxx)
- Khoảng gần 90% các tin nhắn rác liên quan tới dịch vụ xổ số, soi cầu, 10%
là về bóng đá, nhạc chuông, hình nền, tặng quà.
- Khoảng 75% (~150/203) doanh nghiệp cung cấp dịch vụ nội dung qua SMS
có liên quan tới việc phát tán tin nhắn rác.
- Nhiều doanh nghiệp mặc dù đã được cấp mã số quản lý cho hoạt động gửi
tin nhắn quảng cáo hợp pháp nhưng vẫn phát tán tin nhắn rác
- Một số doanh nghiệp viễn thông di động vẫn phát tán tin nhắn rác.
- Bắt đầu xuất hiện nhiều tin nhắn rác quảng cáo cho các dịch vụ khác ngoài
dịch vụ đầu số.


10

Nguyên nhân của tình trạng này là chi phí thực hiện việc gửi tin nhắn thấp

nhưng lợi nhuận thu được lại lớn nên nhiều người vẫn cố tình sử dụng; việc đăng ký
thông tin thuê bao trả trước hiện vẫn còn lỏng lẻo nên đây vẫn là một trong những
nguồn chính để phát tán tin nhắn rác.

Hình 1.1. Thống kê các loại hình tin nhắn rác

Thực tế, trong số những tin nhắn rác, có những tin đã tìm được đến đúng với
người cần sản phẩm, dịch vụ và coi đó như một kênh tiếp nhận. Tuy nhiên, phần lớn
cảm thấy phiền toái bởi có thể ngay cả trong giấc ngủ, cuộc họp, điện thoại của
mình bị làm phiền bởi tin nhắn rác không mong muốn.
Theo thống kê của Tập đoàn Bkav [9], trong 6 tháng cuối năm 2015, mỗi
ngày có tới 13,9 triệu tin nhắn rác được phát tán, tăng hơn 0,4 triệu tin so với cùng
kỳ năm 2014. Đặc biệt vào những kỳ nghỉ Lễ, Tết, số lượng tin nhắn rác tăng đột
biến do nhu cầu sử dụng di động tăng cao. Năm 2015, các doanh nghiệp viễn thông
đã chặn được gần một triệu thuê bao phát tán tin nhắn rác, tạm ngừng cung cấp dịch
vụ đối với 361 đầu số, cắt dịch vụ đối với 52 đầu số.


11

Các loại tin nhắn rác chính xuất hiện tại Việt Nam
Ở Việt Nam tin nhắn rác có thể phân chia thành một số loại như sau:
Tin nhắn quảng cáo không hợp pháp: Các tin nhắn có nội dung nhằm mục
đích quảng cáo sản phẩm, thương hiệu, thông báo chương trình khuyến mại được
gửi đi một cách vô tội vạ, không tuân theo pháp luật về thư rác. Ví dụ “Thiet ke
Website TMDT tron goi gia 130$. Bao dam len Top 3 Google theo nganh nghe KD
cho DNghiep. Chi tiet: www.webdesign.ect.vn. Tel: 08.38955226- 0969797999”
Tin nhắn có tính chất dụ dỗ khách hàng:
Các tin nhắn này nhằm mục đích dụ dỗ thuê bao nhắn tin tới một đầu số nào
đó, nếu thuê bao nhắn tin thì sẽ bị trừ một khoản tiền gấp nhiều lần so với tin nhắn

thông thường. Ví dụ “*Thong Bao SDT: 01684206048 Nam trong Danh Sach Duoc
Nhan KetQua TruongQuay 6/8 *CamKet 100% trung voi KetQua TruongQuay
XoSo *Nhan ngay: >>Soan: BL gui 6747”
Tin nhắn có tính chất lừa đảo:
Các tin nhắn này nhằm lừa đảo các thuê bao sử dụng một dịch vụ, một
chương trình nào đó không tồn tại, gây thiệt hại cho người dùng về tài chính.

Hình 1.2. Tin nhắn có tính chất lừa đảo

Tin nhắn giả mạo:
Đây là các tin nhắn giả mạo một số điện thoại của cá nhân hoặc tổ chức
nhằm lừa đảo người dùng.


12

Hình 1.3. Tin nhắn giả mạo

Với sự bùng phát của tin nhắn rác cả về số lượng lẫn loại hình tin nhắn rác,
nhu cầu ngăn chặn tin nhắn rác và các giải pháp ngăn chặn tin nhắn rác ra đời như
một sự tất yếu nhằm giảm tải tình trạng trên.

1.3 Các giải pháp ngăn chặn tin nhắn rác
Giải pháp về mặt pháp lý
Để giải quyết thực trạng tin nhắn rác hiện nay, các cơ quan chức năng cùng
các nhà mạng đều có những giải pháp của riêng mình. Tại Việt Nam, chính phủ đã
ban hành Luật chống tin nhắn, thư rác theo Nghị định về chống thư rác
(90/2008/NĐ-CP) [2].
Cục An toàn thông tin (Bộ Thông tin và Truyền thông) đề xuất, một thuê bao
sẽ được gửi tối đa 5 tin trong 5 phút, 20 tin trong một giờ và 50 tin trong một ngày.

Hạn mức này có thể điều chỉnh theo từng thời kỳ và tình hình thực tế. Trường hợp
thuê bao có nhu cầu nhắn tin vượt hạn mức như trên phải đăng ký nhắn tin vượt hạn
mức với nhà mạng. Việc đăng ký thực hiện tại điểm đăng ký thông tin thuê bao
hoặc theo hướng dẫn cụ thể của doanh nghiệp. Nếu thuê bao thực hiện tin nhắn vượt
hạn mức, nhưng chưa đăng ký dịch vụ tin nhắn vượt hạn mức sẽ bị nhà mạng chặn
chiều gửi đi.


13

Theo Bộ Thông tin và Truyền thông, việc áp dụng hạn mức tin nhắn của thuê
bao là giải pháp ngăn chặn tình trạng tin nhắn rác nhức nhối hiện nay cùng các biện
pháp khác như giá cước, tuyên truyền, kỹ thuật. Thế nhưng, lo ngại giảm sút doanh
thu, giải pháp này không nhận được sự đồng thuận từ các nhà mạng. Hơn nữa, việc
quản lý thuê bao di động trả trước còn nhiều khó khăn, nhất là do quản lý thuê bao
trả trước hiện vô cùng lỏng lẻo. Sim rác đã kích hoạt đang trôi nổi rất nhiều trên thị
trường, nhà mạng không kiểm soát được
Theo quy định tại Điều 60 Nghị định 174/2013/NĐ-CP của Chính phủ quy
định về xử phạt vi phạm hành chính trong lĩnh vực viễn thông, các hình vi như
quảng cáo sản phẩm sai sự thật, gửi hoặc phát tán tin nhắn rác … đều bị xử lý
nghiêm minh theo từng tội trạng. Mức phạt cao nhất cho hành vi phát tán tin nhắn
rác có thể lên đến 40.000.000 đồng [2]. Tuy nhiên, lợi nhuận sinh ra từ việc phát tán
tin nhắn rác còn cao hơn rất nhiều so với mức phạt nên chưa đủ tính răn đe cho
hành vi phạm tội trên.
Bên cạnh các nghị định của chính phủ, các nhà mạng hiện nay cũng rất quan
tâm về vấn đề tin nhắn rác. Một loạt các cơ chế quản lý sim được đưa ra như đăng
ký sim chính chủ, giới hạn thời gian gửi tin nhắn liên tiếp. Các quy định trên chủ
yếu thắt chặt về vấn đề quản lý thuê bao cũng như giới hạn số tin nhắn gửi đi của
mỗi thuê bao trong 1 khoảng thời gian ngắn. Viettel là một doanh nghiệp viễn thông
đi đầu trong việc ngăn chặn tin nhắn rác khi cho ra mắt hệ thống ngăn chặn tin nhắn

rác của mình. Theo số liệu từ nhà mạng này, hệ thống ngăn chặn tin nhắn rác này đã
chặn đến 90% lượng tin nhắn rác phát tán ra. Tuy nhiên nhiều người dùng cũng
phản ánh rằng, chính các tin nhắn quảng cáo dịch vụ từ các nhà mạng đang làm
phiền họ.
Giải pháp đào tạo, nâng cao nhận thức của người sử dụng. Đây là giải pháp
quan trọng nhưng để hiệu quả cần nhiều thời gian. Giáo dục, nâng cao nhận thức
người dùng sẽ giúp các thuê bao có thể tự bảo vệ mình trước các nguy cơ lừa đảo
gian lận liên quan đến tin nhắn rác.


14

Cùng với cơ quan quản lý nhà nước, các cơ quan báo chí cũng đã vào cuộc
rất tích cực trong các hoạt động triển khai Nghị định 90/2008/NĐ-CP. Ngoài việc
phản ánh, theo dõi đầy đủ các hoạt động chống tin nhắn rác từ cơ quan quản lý nhà
nước, các nhà mạng,… báo chí còn là cơ quan tuyên truyền nhận thức cho người
dùng, là cầu nối để đưa các khiếu nại về tin nhắn rác tới đơn vị có chức năng để có
các biện pháp xử lý kịp thời. Có thể kể đến một số tờ báo như báo điện tử
Vietnamnet, Ictnew, Tuoitre,… hoặc các đài truyền hình như Đài Truyền hình Việt
Nam, đài truyền hình VTC, đài truyền hình Hà Nội,…
Giải pháp về mặt pháp lý là giải pháp mang tính bị động cho người sử dụng.
Và khi người dùng muốn chủ động ngăn chặn các tin nhắn rác, họ sẽ sử dụng các
giải pháp về mặt kỹ thuật.

Giải pháp về mặt kỹ thuật
Những giải pháp về mặt pháp lý đến từ các cơ quan quản lý và các nhà mạng
đã giúp cho người sử dụng phần nào yên tâm hơn khi giảm thiểu số tin nhắn rác
nhận được. Tuy nhiên, vẫn có những kẽ hở khiến chúng ta nhận được các tin nhắn
rác mỗi ngày. Khi đó, người sử dụng điện thoại phải tự trang bị cho mình các giải
pháp để ngăn chặn tin nhắn rác.

Cách đơn giản nhất đó là đưa các số điện thoại gửi tin nhắn rác đến vào
Blacklist (danh sách đen). Đây là một tính năng rất hay nhưng ít người sử dụng đến.
Điện thoại sẽ kiểm tra nếu số điện thoại gửi tin nhắn đến nằm trong Blacklist, nội
dung tin nhắn sẽ được đánh dấu là spam. Tuy nhiên, hạn chế của phương pháp này
là khá nhiều. Phương pháp này chỉ hoạt động khi người sử dụng đã có được số điện
thoại của kẻ spam SMS, và khá mất công khi phải thêm từng số điện thoại vào
Blacklist của máy.
Tương tự như Blacklist, Graylist (danh sách xám) là một cách để phân loại
tin nhắn rác. Đây là danh sách các số điện thoại nghi ngờ phát tán tin nhắn rác (chưa
chắc chắn là tin nhắn rác). Graylist thường là các số điện thoại không nằm trong
danh bạ của người sử dụng. Về mặt hạn chế của phương pháp sử dụng Graylist
cũng giống như Blacklist.


15

Phương pháp sử dụng Keyword (các từ khóa thường xuất hiện) cũng có thể
mang lại hiệu quả khá cao. Nếu nội dung tin nhắn có sử dụng các từ khóa thường
gặp trong tin nhắn rác, thì tin nhắn đó sẽ được coi là tin nhắn rác. Ví dụ như các từ
khóa “soi cau”, “lien he”, “mua sim”, “ban sim”,…
Và có một phương pháp tiên tiến hơn, đó là sử dụng các thuật toán học máy,
phân loại các tin nhắn ra đâu là tin nhắn rác, đâu là tin nhắn thường. Phương pháp
này được đánh giá là hiệu quả cao hơn rất nhiều so với các phương pháp nêu trên.
Từ các tập dữ liệu huấn luyện, tin nhắn đến sẽ được kiểm tra dựa vào những yếu tố
đặc trưng của nội dung để phân loại tin nhắn. Bài toán phân loại tin nhắn rác là bài
toán cụ thể của bài toán phân loại văn bản.

1.4 Các phương pháp phân loại văn bản
Phân loại văn bản
Phân loại văn bản là sự phân loại không cấu trúc các tài liệu văn bản dựa trên

một tập hợp của một hay nhiều loại văn bản đã được định nghĩa trước. Quá trình
này thường được thực thi bằng một hệ thống tự động gán cho các tài liệu văn bản
một loại nào đó.
Trong thực tế ứng dụng quan trọng nhất của phân loại văn bản là giới hạn
phạm vi tìm kiếm thông tin (bởi thay cho việc phải lục soát tất cả các tài liệu họ chỉ
tập trung vào một số loại văn bản có liên quan đến thông tin mà họ cần tìm kiếm).
Phân loại văn bản góp phần quan trọng trong việc tổ chức thông tin và quản lí tài
liệu. Ứng dụng phổ biến nhất của phân loại văn bản là trợ giúp cho việc tìm kiếm và
lọc văn bản do đó tăng tốc độ truy cập thông tin. Phân loại văn bản cũng đóng vai
trò quan trọng trong việc đa dạng hóa và chuyên nghiệp hóa các công việc quản lí
thông tin như là: việc sắp xếp các loại tin nhắn hoặc các file trong các hệ thống, xác
minh chủ đề để trợ giúp cho các tiến trình hoạt động xử lí, tìm kiếm hay duyệt các
cấu trúc, hoặc để tìm kiếm các loại tài liệu mà người dùng quan tâm. Như vậy làm
thế nào để phân loại văn bản? Câu trả lời sẽ được làm rõ khi ta đi sâu vào tìm hiểu
tiến trình phân loại văn bản.


16

Tiến trình phân loại văn bản
Vấn đề đặt ra cho các bài toán phân loại văn bản có thể bắt đầu như sau:
Đưa ra một tập tài liệu mẫu D, cần được phân bổ thành một số loại tài liệu
nhất định - mỗi tài liệu đó cần được gán cho một loại văn bản nào đó. Nhiệm vụ của
chúng ta là tìm một hệ thống phân hoạch, mà nó sẽ cung cấp cho ta một nhãn y phù
hợp cho một số tài liệu trong D vừa được đưa vào từ nguồn tài nguyên giống nhau
như các văn bản mẫu. Tổng quát hơn với một hệ thống phân loại điển hình như mô
tả ở sơ đồ sau gồm có các tiến trình.

Tập dữ


liệu mẫu

Tiền
xử lí

Chọn
đặc
trưng

Học một bộ
phân loại

Phân
loại

Kết
quả

Hình 1.4. Lựa chọn một đặc trưng

Trong thực tế khâu tiền xử lí cũng chính là khâu lựa chọn đặc trưng cho các
văn bản (đặc trưng ở đây là các dấu hiệu quan trọng để nhận biết văn bản). Có thể
coi khâu này là tiền đề cần thiết cho việc học một bộ phân loại. Vì thế hiệu quả của
các bộ phân loại văn bản phụ thuộc rất cao vào tập các đặc trưng mà chúng ta sử
dụng. Trong các mô hình phân loại điển hình và phức tạp thường có một số các
phương pháp có sẵn để lựa chọn đặc trưng. Với những phương pháp này, tập hợp
các dữ liệu thô được miêu tả bằng một số các tập hợp đặc trưng. Chúng đặt ra một
vấn đề là làm thế nào để sử dụng những đặc trưng ấy cho phân hoạch tài liệu. Hiện
nay có hai cơ cấu tổ chức để giải quyết các vấn đề đó.
Phương pháp thứ nhất (Hình 1.4): sử dụng các phương pháp lựa chọn đặc

trưng để chọn ra một đặc trưng tối ưu. Nếu chọn ra được một đặc trưng tối ưu từ bộ
dữ liệu thô ở đầu vào, chúng ta có thể chỉ đơn thuần sử dụng nó để học một bộ phân
loại như hình vẽ. Tuy nhiên, quá trình tối ưu đó không phải đơn giản. Trong trường
hợp này khi sử dụng các đặc trưng khác nhau vẫn có thể sẽ dẫn đến các kết quả


×