Tải bản đầy đủ (.pdf) (81 trang)

Phân lớp đa nhãn và ứng dụng cho bài toán phân loại tin nhắn văn bản SMS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.19 MB, 81 trang )

ở lý thuyết và các mơ hình về phân lớp đơn nhãn và phân

lớp đa nhãn văn bản tiếng Việt.



Thử nghiệm và đánh giá các mơ hình áp dụng cho bài toán phân loại tin

nhắn văn bản tiếng Việt. Lựa chọn được mơ hình tối ưu nhất cho bài tốn đặt ra.



Xây dựng một ứng dụng giải quyết bài toán đã nêu. Hướng tới một ứng dụng

phân loại tin nhắn văn bản tiếng Việt hoàn toàn tự động.

2. Hạn chế của luận văn
Trong q trình triển khai các mơ hình, do thời gian có hạn nên luận văn vẫn cịn
tồn tại một số hạn chế như sau:



Chưa nghiên cứu bài tốn khi số nhãn vơ cùng lớn, khi đó có một số hướng

nghiên cứu để giảm số chiều bài toán như LDA. Tuy nhiên, đối với bài toán gán nhãn
văn bản tiếng Việt đa nhãn, nhu cầu về số nhãn khơng phải là q lớn, do đó chưa phải
q cần thiết.



Chưa nghiên cứu vấn đề tách từ với dữ liệu tin nhắn văn bản tiếng Việt đặc



thù để giải quyết bài toán thực tế hiện nay (tin nhắn bao gồm cả tin nhắn tiếng Việt
khơng dấu, có dấu và tiếng Anh).



Chưa thử nghiệm mơ hình cross-validating để nghiên cứu các trường hợp

overfiting khi dữ liệu mẫu quá nhỏ.

Trang 71


3. Hướng nghiên cứu tiếp theo
Trong thời gian tiếp theo, tác giả sẽ tiếp tục nghiên cứu các hướng giải quyết
cho các hạn chế còn tồn tại của luận văn và tiếp tục triển khai các nội dung sau:



Thu thập bổ sung kho dữ liệu tin nhắn văn bản và từ điển các từ viết tắt cho

các mục đích học thuật.



Nghiên cứu hướng giải quyết cho bài toán tách từ với dữ liệu tin nhắn đặc

thù (tin nhắn tiếng Việt khơng dấu và có dấu).




Nghiên cứu, áp dụng phương pháp cross-validating để giải quyết bài toán

khi dữ liệu mẫu quá nhỏ và imbalancing, tránh trường hợp overfiting .

Trang 72


TÀI LIỆU THAM KHẢO
TIẾNG ANH
[1] Cortes, C. & Vapnik, V. Mach Learn (1995), “Support-Vector Networks”, Kluwer
Academic Publishers, 20(3), pp. 273-279.
[2] Cramer, J. S. (2002). “The origins of logistic regression”, Tinbergen Institute
Discussion Paper, Faculty of Economics and Econometrics, University of
Amsterdam, and Tinbergen Institute, 119(4), pp. 2–7.
[3] J. Read (2010), Scalable Multi-label Classification (Thesis, Doctor of Philosophy
(PhD)), University of Waikato, Hamilton, New Zealand.
[4] Krishni Hewa, An introduction to Grid Search,
/>[5] L. Breiman, J. Friedman, R. Olshen, and C. Stone. (1984), Classification and
Regression Trees, Wadsworth, Belmont, CA.
[6] M.-L. Zhang, J. M. Pe˜na, V. Robles. (2009), Feature selection for multi-label
Naăve bayes classification, Information Sciences, 179(19), pp. 3218-3229.
[7] M. L. Zhang, Z. H. Zhou. (2014), “A Review on Multi-Label Learning
Algorithms”, IEEE transactions on knowledge and data engineering, 26(8), pp.
1819-1837.
[8] M. L. Zhang, Z. H. Zhou. (2007), “ML-KNN: A Lazy Learning Approach to
Multi-Label Learning”, Pattern Recogn, 40, pp. 2038–2048.
[9] M. R. Boutell, J. Luo, X. Shen, C.M. Brown (2004). “Learning multi-label scene
classification”, Pattern Recognition, 37 (9), pp. 1757–1771.
TIẾNG VIỆT

[10] Nguyễn Chí Dũng, Chặn tin nhắn rác (Spam) với Bayes ngây thơ,
/>[11] Phạm Thị Thài, Phạm Thị Quyền Trang, Phạm Thúy Huỳnh và Huỳnh Chí Nghĩa
(2013), “Thực trạng ngôn ngữ nhắn tin (SMS language) của sinh viên trường Đại
học Cần Thơ và học sinh THPT Trần Đại Nghĩa”, Tạp chí khoa học trường Đại
học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn và Giáo dục, 26, tr. 55-63.
Trang 73



×