Vietnam J. Agri. Sci. 2022, Vol. 20, No. 12: 1672-1683
Tạp chí Khoa học Nơng nghiệp Việt Nam 2022, 20(12): 1672-1683
www.vnua.edu.vn
Hồng Thị Hà1*, Đào Xuân Dương2, Lê Thị Nhung1
1
Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
2
Công ty Cổ phần Tin học Viễn thông Bưu điện
*
Tác giả liên hệ:
Ngày nhận bài: 24.02.2022
Ngày chấp nhận đăng: 20.12.2022
TÓM TẮT
Ngày nay, hầu hết những người dùng các thiết bị di động thường xuyên bị làm phiền bởi một lượng lớn tin nhắn
lừa đảo, tin nhắn quảng cáo ở các lĩnh vực khác nhau như: giải trí, mua sắm, tài chính, bất động sản... Trong đó, mỗi
tin nhắn SMS có thể thuộc về một hoặc nhiều loại tin nhắn khác nhau cùng lúc. Chính vì vậy, việc sử dụng các
phương pháp phân lớp đơn nhãn để phân loại tin nhắn sẽ là không phù hợp. Trong nghiên cứu này, chúng tôi đã
xem xét các kỹ thuật phân lớp đa nhãn, thu thập tập dữ liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải
thiện độ chính xác của các phương pháp phân lớp đa nhãn trên tập dữ liệu SMS tiếng Việt bằng cách sử dụng kỹ
thuật tiền xử lý để chuẩn hóa và làm sạch dữ liệu. Ngồi ra, chúng tơi cũng đã áp dụng các thuật tốn phân lớp đa
nhãn để thử nghiệm trên tập dữ liệu này. Kết quả cho thấy, sau khi áp dụng các phương pháp tiền xử lý dữ liệu, hầu
hết các kỹ thuật phân lớp đa nhãn cho độ chính xác cao hơn và tỉ lệ nhãn bị phân lớp sai thấp hơn và kỹ thuật
Classifier Chains với mơ hình Nạve Bayes (GNB) là phù hợp cho bài toán phân lớp dữ liệu SMS tiếng Việt.
Từ khóa: Phân lớp đa nhãn, phân loại tin nhắn SMS, tin nhắn rác, các phương pháp thích nghi thuật toán, các
phương pháp chuyển đổi bài toán.
Multi-label Classification and its Application for Vietnamese SMS classification
ABSTRACT
Today, most of the users of mobile devices are regularly bothered by a large number of scam messages,
advertising messages in different fields such as entertainment, shopping, finance, and real estate. Among these,
each SMS message can belong to one or more different message types at the same time. Therefore, using singlelabel classification methods to classify messages would be inappropriate. In this study, we have summarized multilabel classification techniques, collected a dataset of 2,000 Vietnamese SMS messages (SMSVN), and improved the
accuracy of the methods for multi-label classification by using the preprocessing techniques to normalize and clean
data. Moreover, we have also applied the well-known multiple classifiers to test classification on this dataset. The
results show that, after applying the preprocessing techniques, most of the multi-label classification techniques had
higher accuracy and lower classification error. The Classifier Chains technique using Naïve Bayes model was
suitable for the Vietnamese SMS data classification issues.
Keywords: Multi-label classification, SMS classification, spam messages, algorithm adaptation methods,
problem transformation methods.
1672
Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung
ï
1673
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt
×
∣
∣
1674
ï
Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung
y1
y2
y3
y4
x1
0
1
1
0
x2
1
0
0
0
x3
0
1
0
0
y1
y3
y4
x1
0
x1
1
x1
1
x1
0
x2
1
x2
0
x2
0
x2
0
x3
0
x3
1
x3
0
x3
0
Classifier 1
y2
Classifier 2
Classifier 3
Classifier 4
1675
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt
y1
y1
y2
y1
y2
y3
y1
y2
y3
y4
x1
0
x1
0
1
x1
0
1
1
x1
0
1
1
0
x2
1
x2
1
0
x2
1
0
0
x2
1
0
0
0
x3
0
x3
0
1
x3
0
1
0
x3
0
1
0
0
Classifier 1
Classifier 2
Classifier 3
Classifier 4
1676
Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung
Mua sắm/Giải trí
NonSpam
Ứng dụng/Dịch vụ
Spam
Bất động sản
Quảng cáo
Dịch vụ Tài chính
Khuyến mại/Ưu đãi
Harm
Lừa đảo
Virus
Lớp
Nhãn
Tin nhắn chính
NonSpam
Tin nhắn rác
Spam
Quảng cáo
Ads
Mua sắm/Giải trí
Entertainment
Ứng dụng/Dịch vụ
App
Bất động sản
RealEstate
Dịch vụ Tài chính
Financial
Khuyến mại
Promotion
Harm
Harm
Lừa đảo
Scam
Virus
Virus
1677
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt
Chuẩn hóa từ
- Chuẩn hóa từ
- Loại bỏ ký tự số
...
Làm sạch
- Chuyển thành
chữ thường
- Loại bỏ dấu câu
- Loại bỏ nhiễu
Loại bỏ
StopWords
Tách từ
- Phân tích
cú pháp
- Tách từ
- ...
Vector hóa
Keywords
References
vms|vnm|tb|qc-vtl2|qc vms2|qc vma2|q.c|qc|q_c|q-c|q&c|qua?ng cáo|quang cao|quảng.cáo|quang.cao
quảng cáo
tcqc|tc qc|tc.qc|tc_qc|tu choi quang cao
từ chối quảng cáo
tu choi|tu.choi|tu_choi|tu choj
từ chối
nhan tin|nhan tjn|nhan.tin|nhan_tin
nhận tin
cc|c.c|c.cu|cccc|chung cu|chung.cu|chung.cư|chung_cu
chung cư
can ho|can_ho|can.ho|căn_hộ
căn hộ
nha|nhäpho'
nhà
so@n|soan|so?n|s0an
soạn
gui|g?i|guj
gửi
b/thu|biệt thự|biet thu|biet.thu|bjet thu
biệt thự
dc|đ.c|đc|đ.c|đ/c|d.c
địa chỉ
l.h|lh|lien he|liên hệ|ljen he|Ijen he|l.he
liên hệ
ls|l.s|lai suat|l.suat|laj suat|I/ suat|lãi suất
lãi suất
qk|quy.khach|quy khach
quý khách
sđt|so dt|so dien thoai|số ĐT|điện thoại
số điện thoại
uu dai|Uu+Dai|uu.dai|uu daj
ưu đãi
mien phi|mien.phi|miễn phí|miễn.phí|mien_phi|mjen phj|mien phj|mien fi
miễn phí
0tr.|0tr |0.tr |0.tr.
0 triệu đồng
1PN|2PN|3PN| PN |phong ngu|phong_ngu|phong.ngu
phịng ngủ
...
1678
Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung
-
-
–
1679
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt
ï
ï
STT
Tên thuật toán
I. Tiếp cận chuyển đổi bài toán
1
- Binary Relevance (BR)
- Gaussian Naïve Bayes (GNB)
- SVM
- Logistic Regression(LOGR)
2
- Classifier Chains (CC)
- Gaussian Nạve Bayes
- SVM
- Logistic Regression
II. Tiếp cận thích nghi thuật toán
1
K - Nearest Neighbours (ML-KNN)
2
DecisionTree (ML-DT)
Tên tập dữ liệu
SMSVN
Lĩnh vực
Tin nhắn tiếng Việt
Nhãn
1680
Số tin nhắn
Số nhãn
2.000
11
Tần suất
Nonspam
1000
Spam
1000
Ads
962
Entertainment
231
App
534
RealEstate
80
Financial
56
Promotion
656
Harm
353
Scam
428
Virus
15
Hồng Thị Hà, Đào Xn Dương, Lê Thị Nhung
Tiêu chí đánh giá
Mơ hình
GNB
SVM
LOGR
Hamming-Loss
0,037
0,037
0,053
Accuracy
0,844
0,857
0,830
90
22,7
24,1
Time (sec)
Tiêu chí đánh giá
Mơ hình
GNB
SVM
LOGR
Hamming-Loss
0,027
0,034
0,046
Accuracy
0,868
0,807
0,854
54
61
72
Time (sec)
ï
ï
1681
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt
Mơ hình
Tiêu chí đánh giá
ML-KNN
ML-DT
Hamming-Loss
0,028
0,037
Accuracy
0,856
0,846
Time (sec)
2290
56
Tiếp cận chuyển đổi bài toán Binary Relevance (BR)
Tiêu chí đánh giá
Hamming-Loss
Accuracy
Time (sec)
GNB
SVM
LOGR
GNB
SVM
LOGR
ML-KNN
ML-DT
0,037
0,037
0,053
0,027
0,034
0,046
0,028
0,037
0,807
0,854
0,856
0,846
61
72
2290
56
0,844
0,857
0,830
0,868
90
22,7
24,2
54
Trước khi tiền xử lý
Tiêu chí
đánh giá
Tiếp cận
thích nghi thuật tốn
Tiếp cận chuyển đổi bài tốn Classifier Chains (CC)
Binary Relevance
(BR)
Sau khi tiền xử lý
Classifier Chains
(CC)
Tiếp cận
thích nghi thuật tốn
Binary Relevance
(BR)
Classifier Chains
(CC)
Tiếp cận thích
nghi thuật tốn
GNB
SVM
LOGR
GNB
SVM
LOGR
ML-KNN
ML-DT
GNB
SVM
LOGR
GNB
SVM
LOGR
ML-KNN
ML-DT
Hamming-Loss
0,039
0,039
0,055
0,031
0,048
0,049
0,039
0,039
0,037
0,037
0,053
0,027
0,034
0.046
0,028
0,037
Accuracy
0,8273
0,828
0,834
0,843
0,859
0,835
0,835
0,712
0,844
0,857
0,850
0,868
0.887
0,854
0,856
0,846
40.7
10,6
11
54
24
68
935
21,8
90
22,7
24,2
54
61
72
2290
56
Time (sec)
1682
Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung
ï
năm 2015. Truy cập từ />tin-tuc-noi-bat/-/view-content/141094/tong-kettinh -hinh-an-ninh-mang-nua-au-nam-2015 ngày
20/11/2021
Chính Phủ (2020). Chống tin nhắn rác, thư điện tử rác,
cuộc gọi rác. Truy cập t nhphu.
vn/default.aspx?pageid=27160&docid=200773
ngy 20/11/2021.
Cheng W. & Hăullermeier E. (2009). Combining
instance-based learning and logistic regression for
multilabel classification. Machine Learning.
76(2-3): 211-225.
Dembczy´nski K., ChengW. & Hăullermeier E.(2010):
Bayes optimal multilabel classification via
probabilistic classifier chains. In: ICML 2010
Fabian Pedregosa, Gael Varoquaux, Alexandre
Gramfort, Vincent Michel & Bertrand Thirion
(2011). Scikit-learn: Machine Learning in Python.
Machine Learning Research. 12: 2825-2830.
Grigorios Tsoumakas I.K. & Ioannis Vlahavas (2009).
Mining Multi-label Data. In: Maimon O., Rokach
L. (eds) Data Mining and Knowledge Discovery
Handbook. />823-4_34. Springer.
Hoàng Xuân Huấn (2015). Giáo trình học máy. Nhà
xuất Đại học Quốc gia, Hà Nội.
Huu‑Thanh Duong T.A.N.T. (2021). A review:
preprocessing techniques and data augmentation
for sentiment analysis. Computational Social
Networks. 8: 1.
Jadon Mayurisingh Nareshpalsingh P. H. N. M. (2017).
Multi-label
Classification
Methods:
A
Comparative Study. International Research Journal
of Engineering and Technology (IRJET). 4: 8.
Phạm Thị Thài, Huynh Chi Nghia, Pham Thuy Huynh
& Pham Thị Huyen Trang. (2013). Thực trạng
ngôn ngữ nhắn tin (SMS language) của sinh viên
trường Đại học Cần Thơ và học sinh THPT Trần
Đại Nghĩa. Tạp chí Khoa học Trường Đại học Cần
Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo
dục. 26: 55-63.
Tsoumakas G., Katakis I. & Vlahavas I.(2010). Mining
multi-label data. In: Maimon, O., Rokach, L. (eds.)
Data Mining and Knowledge Discovery
Handbook. Springer, Heidelberg.
Bkav (2015). Tổng kết tình hình an ninh mạng nửa đầu
Zhang M.L. & Zhou Z.H. (2007). ML-KNN: A Lazy
Learning Approach to Multi-Label Learning.
Pattern Recogn. 40: 2038-2048.
1683