Tải bản đầy đủ (.pdf) (12 trang)

Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.82 MB, 12 trang )

Vietnam J. Agri. Sci. 2022, Vol. 20, No. 12: 1672-1683

Tạp chí Khoa học Nơng nghiệp Việt Nam 2022, 20(12): 1672-1683
www.vnua.edu.vn

Hồng Thị Hà1*, Đào Xuân Dương2, Lê Thị Nhung1
1

Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
2
Công ty Cổ phần Tin học Viễn thông Bưu điện
*

Tác giả liên hệ:

Ngày nhận bài: 24.02.2022

Ngày chấp nhận đăng: 20.12.2022
TÓM TẮT

Ngày nay, hầu hết những người dùng các thiết bị di động thường xuyên bị làm phiền bởi một lượng lớn tin nhắn
lừa đảo, tin nhắn quảng cáo ở các lĩnh vực khác nhau như: giải trí, mua sắm, tài chính, bất động sản... Trong đó, mỗi
tin nhắn SMS có thể thuộc về một hoặc nhiều loại tin nhắn khác nhau cùng lúc. Chính vì vậy, việc sử dụng các
phương pháp phân lớp đơn nhãn để phân loại tin nhắn sẽ là không phù hợp. Trong nghiên cứu này, chúng tôi đã
xem xét các kỹ thuật phân lớp đa nhãn, thu thập tập dữ liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải
thiện độ chính xác của các phương pháp phân lớp đa nhãn trên tập dữ liệu SMS tiếng Việt bằng cách sử dụng kỹ
thuật tiền xử lý để chuẩn hóa và làm sạch dữ liệu. Ngồi ra, chúng tơi cũng đã áp dụng các thuật tốn phân lớp đa
nhãn để thử nghiệm trên tập dữ liệu này. Kết quả cho thấy, sau khi áp dụng các phương pháp tiền xử lý dữ liệu, hầu
hết các kỹ thuật phân lớp đa nhãn cho độ chính xác cao hơn và tỉ lệ nhãn bị phân lớp sai thấp hơn và kỹ thuật
Classifier Chains với mơ hình Nạve Bayes (GNB) là phù hợp cho bài toán phân lớp dữ liệu SMS tiếng Việt.
Từ khóa: Phân lớp đa nhãn, phân loại tin nhắn SMS, tin nhắn rác, các phương pháp thích nghi thuật toán, các


phương pháp chuyển đổi bài toán.

Multi-label Classification and its Application for Vietnamese SMS classification
ABSTRACT
Today, most of the users of mobile devices are regularly bothered by a large number of scam messages,
advertising messages in different fields such as entertainment, shopping, finance, and real estate. Among these,
each SMS message can belong to one or more different message types at the same time. Therefore, using singlelabel classification methods to classify messages would be inappropriate. In this study, we have summarized multilabel classification techniques, collected a dataset of 2,000 Vietnamese SMS messages (SMSVN), and improved the
accuracy of the methods for multi-label classification by using the preprocessing techniques to normalize and clean
data. Moreover, we have also applied the well-known multiple classifiers to test classification on this dataset. The
results show that, after applying the preprocessing techniques, most of the multi-label classification techniques had
higher accuracy and lower classification error. The Classifier Chains technique using Naïve Bayes model was
suitable for the Vietnamese SMS data classification issues.
Keywords: Multi-label classification, SMS classification, spam messages, algorithm adaptation methods,
problem transformation methods.

1672


Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung

ï

1673


Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

×









1674

ï


Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung

y1

y2

y3

y4

x1

0

1

1

0


x2

1

0

0

0

x3

0

1

0

0

y1







y3


y4

x1

0

x1

1

x1

1

x1

0

x2

1

x2

0

x2

0


x2

0

x3

0

x3

1

x3

0

x3

0

Classifier 1



y2

Classifier 2

Classifier 3


Classifier 4



1675


Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

 








y1







y1

y2




y1

y2

y3

y1

y2

y3

y4

x1

0

x1

0

1

x1

0


1

1

x1

0

1

1

0

x2

1

x2

1

0

x2

1

0


0

x2

1

0

0

0

x3

0

x3

0

1

x3

0

1

0


x3

0

1

0

0

Classifier 1

Classifier 2



Classifier 3

Classifier 4

  




1676


Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung


Mua sắm/Giải trí

NonSpam

Ứng dụng/Dịch vụ

Spam

Bất động sản

Quảng cáo

Dịch vụ Tài chính

Khuyến mại/Ưu đãi

Harm
Lừa đảo
Virus

Lớp

Nhãn

Tin nhắn chính

NonSpam

Tin nhắn rác


Spam

Quảng cáo

Ads

Mua sắm/Giải trí

Entertainment

Ứng dụng/Dịch vụ

App

Bất động sản

RealEstate

Dịch vụ Tài chính

Financial

Khuyến mại

Promotion

Harm

Harm


Lừa đảo

Scam

Virus

Virus

1677


Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

Chuẩn hóa từ
- Chuẩn hóa từ
- Loại bỏ ký tự số
...

Làm sạch
- Chuyển thành
chữ thường
- Loại bỏ dấu câu
- Loại bỏ nhiễu

Loại bỏ
StopWords

Tách từ
- Phân tích

cú pháp
- Tách từ
- ...

Vector hóa

Keywords

References

vms|vnm|tb|qc-vtl2|qc vms2|qc vma2|q.c|qc|q_c|q-c|q&c|qua?ng cáo|quang cao|quảng.cáo|quang.cao

quảng cáo

tcqc|tc qc|tc.qc|tc_qc|tu choi quang cao

từ chối quảng cáo

tu choi|tu.choi|tu_choi|tu choj

từ chối

nhan tin|nhan tjn|nhan.tin|nhan_tin

nhận tin

cc|c.c|c.cu|cccc|chung cu|chung.cu|chung.cư|chung_cu

chung cư


can ho|can_ho|can.ho|căn_hộ

căn hộ

nha|nhäpho'

nhà

so@n|soan|so?n|s0an

soạn

gui|g?i|guj

gửi

b/thu|biệt thự|biet thu|biet.thu|bjet thu

biệt thự

dc|đ.c|đc|đ.c|đ/c|d.c

địa chỉ

l.h|lh|lien he|liên hệ|ljen he|Ijen he|l.he

liên hệ

ls|l.s|lai suat|l.suat|laj suat|I/ suat|lãi suất


lãi suất

qk|quy.khach|quy khach

quý khách

sđt|so dt|so dien thoai|số ĐT|điện thoại

số điện thoại

uu dai|Uu+Dai|uu.dai|uu daj

ưu đãi

mien phi|mien.phi|miễn phí|miễn.phí|mien_phi|mjen phj|mien phj|mien fi

miễn phí

0tr.|0tr |0.tr |0.tr.

0 triệu đồng

1PN|2PN|3PN| PN |phong ngu|phong_ngu|phong.ngu

phịng ngủ

...

1678



Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung

-

-































1679


Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

ï

ï

STT

Tên thuật toán

I. Tiếp cận chuyển đổi bài toán
1

- Binary Relevance (BR)
- Gaussian Naïve Bayes (GNB)
- SVM
- Logistic Regression(LOGR)

2

- Classifier Chains (CC)

- Gaussian Nạve Bayes
- SVM
- Logistic Regression

II. Tiếp cận thích nghi thuật toán
1

K - Nearest Neighbours (ML-KNN)

2

DecisionTree (ML-DT)

Tên tập dữ liệu
SMSVN

Lĩnh vực
Tin nhắn tiếng Việt

Nhãn

1680

Số tin nhắn

Số nhãn

2.000

11


Tần suất

Nonspam

1000

Spam

1000

Ads

962

Entertainment

231

App

534

RealEstate

80

Financial

56


Promotion

656

Harm

353

Scam

428

Virus

15


Hồng Thị Hà, Đào Xn Dương, Lê Thị Nhung

Tiêu chí đánh giá

Mơ hình
GNB

SVM

LOGR

Hamming-Loss


0,037

0,037

0,053

Accuracy

0,844

0,857

0,830

90

22,7

24,1

Time (sec)

Tiêu chí đánh giá

Mơ hình
GNB

SVM


LOGR

Hamming-Loss

0,027

0,034

0,046

Accuracy

0,868

0,807

0,854

54

61

72

Time (sec)

ï

ï


1681


Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

Mơ hình

Tiêu chí đánh giá

ML-KNN

ML-DT

Hamming-Loss

0,028

0,037

Accuracy

0,856

0,846

Time (sec)

2290

56


Tiếp cận chuyển đổi bài toán Binary Relevance (BR)

Tiêu chí đánh giá
Hamming-Loss
Accuracy
Time (sec)

GNB

SVM

LOGR

GNB

SVM

LOGR

ML-KNN

ML-DT

0,037

0,037

0,053


0,027

0,034

0,046

0,028

0,037

0,807

0,854

0,856

0,846

61

72

2290

56

0,844

0,857


0,830

0,868

90

22,7

24,2

54

Trước khi tiền xử lý
Tiêu chí
đánh giá

Tiếp cận
thích nghi thuật tốn

Tiếp cận chuyển đổi bài tốn Classifier Chains (CC)

Binary Relevance
(BR)

Sau khi tiền xử lý

Classifier Chains
(CC)

Tiếp cận

thích nghi thuật tốn

Binary Relevance
(BR)

Classifier Chains
(CC)

Tiếp cận thích
nghi thuật tốn

GNB

SVM

LOGR

GNB

SVM

LOGR

ML-KNN

ML-DT

GNB

SVM


LOGR

GNB

SVM

LOGR

ML-KNN

ML-DT

Hamming-Loss

0,039

0,039

0,055

0,031

0,048

0,049

0,039

0,039


0,037

0,037

0,053

0,027

0,034

0.046

0,028

0,037

Accuracy

0,8273

0,828

0,834

0,843

0,859

0,835


0,835

0,712

0,844

0,857

0,850

0,868

0.887

0,854

0,856

0,846

40.7

10,6

11

54

24


68

935

21,8

90

22,7

24,2

54

61

72

2290

56

Time (sec)

1682


Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung


ï

năm 2015. Truy cập từ />tin-tuc-noi-bat/-/view-content/141094/tong-kettinh -hinh-an-ninh-mang-nua-au-nam-2015 ngày
20/11/2021
Chính Phủ (2020). Chống tin nhắn rác, thư điện tử rác,
cuộc gọi rác. Truy cập t nhphu.
vn/default.aspx?pageid=27160&docid=200773
ngy 20/11/2021.
Cheng W. & Hăullermeier E. (2009). Combining
instance-based learning and logistic regression for
multilabel classification. Machine Learning.
76(2-3): 211-225.
Dembczy´nski K., ChengW. & Hăullermeier E.(2010):
Bayes optimal multilabel classification via
probabilistic classifier chains. In: ICML 2010
Fabian Pedregosa, Gael Varoquaux, Alexandre
Gramfort, Vincent Michel & Bertrand Thirion
(2011). Scikit-learn: Machine Learning in Python.
Machine Learning Research. 12: 2825-2830.
Grigorios Tsoumakas I.K. & Ioannis Vlahavas (2009).
Mining Multi-label Data. In: Maimon O., Rokach
L. (eds) Data Mining and Knowledge Discovery
Handbook. />823-4_34. Springer.
Hoàng Xuân Huấn (2015). Giáo trình học máy. Nhà
xuất Đại học Quốc gia, Hà Nội.
Huu‑Thanh Duong T.A.N.T. (2021). A review:
preprocessing techniques and data augmentation
for sentiment analysis. Computational Social
Networks. 8: 1.
Jadon Mayurisingh Nareshpalsingh P. H. N. M. (2017).

Multi-label
Classification
Methods:
A
Comparative Study. International Research Journal
of Engineering and Technology (IRJET). 4: 8.
Phạm Thị Thài, Huynh Chi Nghia, Pham Thuy Huynh
& Pham Thị Huyen Trang. (2013). Thực trạng
ngôn ngữ nhắn tin (SMS language) của sinh viên
trường Đại học Cần Thơ và học sinh THPT Trần
Đại Nghĩa. Tạp chí Khoa học Trường Đại học Cần
Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo
dục. 26: 55-63.
Tsoumakas G., Katakis I. & Vlahavas I.(2010). Mining
multi-label data. In: Maimon, O., Rokach, L. (eds.)
Data Mining and Knowledge Discovery
Handbook. Springer, Heidelberg.

Bkav (2015). Tổng kết tình hình an ninh mạng nửa đầu

Zhang M.L. & Zhou Z.H. (2007). ML-KNN: A Lazy
Learning Approach to Multi-Label Learning.
Pattern Recogn. 40: 2038-2048.

1683



×