Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.19 MB, 81 trang )
ở lý thuyết và các mơ hình về phân lớp đơn nhãn và phân
lớp đa nhãn văn bản tiếng Việt.
Thử nghiệm và đánh giá các mơ hình áp dụng cho bài toán phân loại tin
nhắn văn bản tiếng Việt. Lựa chọn được mơ hình tối ưu nhất cho bài tốn đặt ra.
Xây dựng một ứng dụng giải quyết bài toán đã nêu. Hướng tới một ứng dụng
phân loại tin nhắn văn bản tiếng Việt hoàn toàn tự động.
2. Hạn chế của luận văn
Trong q trình triển khai các mơ hình, do thời gian có hạn nên luận văn vẫn cịn
tồn tại một số hạn chế như sau:
Chưa nghiên cứu bài tốn khi số nhãn vơ cùng lớn, khi đó có một số hướng
nghiên cứu để giảm số chiều bài toán như LDA. Tuy nhiên, đối với bài toán gán nhãn
văn bản tiếng Việt đa nhãn, nhu cầu về số nhãn khơng phải là q lớn, do đó chưa phải
q cần thiết.
Chưa nghiên cứu vấn đề tách từ với dữ liệu tin nhắn văn bản tiếng Việt đặc