XÂY DỰNG HỆ THỐNG
PHÂN LOẠI VĂN BẢN
DỰA TRÊN THUẬT
TOÁN SUPPORT
VECTOR MACHINE
NHÓM 4
I. Lý do chọn đề tài
II. Khảo sát hệ thống
NỘI DUNG
III. Phân tích hệ thống
IV. Tổng kết đề tài
2
I. Lý do chọn đề tài
- Trong thời đại số hóa hiện nay, lượng thơng tin và dữ liệu
được tạo ra trên các nền tảng số tăng đáng kể.
Thông tin khơng đáng tin cậy hoặc có nội dung xấu
Phân loại thông tin một
cách tự động.
3
II. Khảo sát hệ thống
Địa điểm khảo sát: Thư viện số đại học Công nghiệp Hà Nội
Ban quản lý
Bộ phận quản lý
tài liệu
Bộ phận quản trị
(CNTT)
Cơ cấu tổ chức thư viện trực tuyến
II. Khảo sát hệ thống
HOẠT ĐỘNG HỆ THỐNG
Quản lý,
cung
cấp tài
liệu trực
tuyến
Cập
nhật tài
liệu trực
tuyến
Tìm
kiếm,
tra cứu
thơng
tin
Quản lý,
tài
khoản
người
dùng
Mượn
trả sách
trực
tuyến
Hỗ trợ
người
dùng
Bảo
mật
quản lý
dữ liệu
Hạn chế
Hoạt động cập
nhất tài liệu cịn
thực hiện thủ
cơng
Hiệu quả phân
loại tài liệu chưa
cao, tiềm ẩn sai
sót
Tốn cơng sức,
nhân lực
ĐỀ XUẤT GIẢI PHÁP
XÂY DỰNG HỆ THỐNG PHÂN
LOẠI VĂN BẢN DỰA TRÊN
THUẬT TOÁN SUPPORT VECTOR
MACHINE
7
III. Phân tích hệ thống
Tham khảo sơ bộ một số hệ thống nổi bật:
Phân loại tin nhắn rác của IOS
Phân loại email spam của Google Mail
III. Phân tích hệ thống
Mơ hình dự định của hệ thống:
Hệ thống phân loại
Thu thập dữ
liệu
Xử lý dữ liệu
Tạo bộ từ điển
Áp dụng phân
loại
III. Phân tích hệ thống
Thu thập dữ liệu
• Xác định nguồn dữ liệu: Trang
web, sách, báo chí …..
• Thiết kế quy trình thu thập dữ
liệu: Web scraping, API
III. Phân tích hệ thống
Xử lý dữ liệu
Loại bỏ thơng tin
không cần thiết
Xử lý sơ bộ văn bản
11
III. Phân tích hệ thống
Xác định các từ
khóa
Tạo bộ từ điển
Lưu trữ thông tin
12
III. Phân tích hệ thống
Áp dụng phân loại
Chọn đặc trưng
Phân loại nội dung văn bản
Đánh giá độ chính xác
Đưa ra kết quả phân loại
IV. Tổng kết đề tài
Kết quả
đạt được
Đưa ra được một giải pháp phần mềm cho việc
phân loại văn bản trong quy trình cập nhật tài
liệu cho thư viện trực tuyến
Kiến thức cũng như chun mơn cịn hạn chế
để có thể hồn thiện đề tài
Cịn gặp nhiều bất cập trong cơng việc hoạt
động nhóm, hoạt động nhóm chưa hiệu quả
Hạn chế
IV. Tổng kết đề tài
Hướng phát triển
Mở rộng quy mô
Nâng cao hiệu
quả phân loại
Tích hợp thêm
nhiều nghiệp vụ
Thank you