Tải bản đầy đủ (.pptx) (16 trang)

XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN DỰA TRÊN THUẬT TOÁN SUPPORT VECTOR MACHINE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 16 trang )

XÂY DỰNG HỆ THỐNG
PHÂN LOẠI VĂN BẢN
DỰA TRÊN THUẬT
TOÁN SUPPORT
VECTOR MACHINE
NHÓM 4


I. Lý do chọn đề tài
II. Khảo sát hệ thống

NỘI DUNG

III. Phân tích hệ thống
IV. Tổng kết đề tài

2


I. Lý do chọn đề tài
- Trong thời đại số hóa hiện nay, lượng thơng tin và dữ liệu
được tạo ra trên các nền tảng số tăng đáng kể.
Thông tin khơng đáng tin cậy hoặc có nội dung xấu

Phân loại thông tin một
cách tự động.

3


II. Khảo sát hệ thống


Địa điểm khảo sát: Thư viện số đại học Công nghiệp Hà Nội

Ban quản lý

Bộ phận quản lý
tài liệu

Bộ phận quản trị
(CNTT)

Cơ cấu tổ chức thư viện trực tuyến


II. Khảo sát hệ thống
HOẠT ĐỘNG HỆ THỐNG

Quản lý,
cung
cấp tài
liệu trực
tuyến

Cập
nhật tài
liệu trực
tuyến

Tìm
kiếm,
tra cứu

thơng
tin

Quản lý,
tài
khoản
người
dùng

Mượn
trả sách
trực
tuyến

Hỗ trợ
người
dùng

Bảo
mật
quản lý
dữ liệu


Hạn chế

Hoạt động cập
nhất tài liệu cịn
thực hiện thủ
cơng


Hiệu quả phân
loại tài liệu chưa
cao, tiềm ẩn sai
sót

Tốn cơng sức,
nhân lực


ĐỀ XUẤT GIẢI PHÁP

XÂY DỰNG HỆ THỐNG PHÂN
LOẠI VĂN BẢN DỰA TRÊN
THUẬT TOÁN SUPPORT VECTOR
MACHINE

7


III. Phân tích hệ thống
Tham khảo sơ bộ một số hệ thống nổi bật:

Phân loại tin nhắn rác của IOS

Phân loại email spam của Google Mail


III. Phân tích hệ thống
Mơ hình dự định của hệ thống:


Hệ thống phân loại

Thu thập dữ
liệu

Xử lý dữ liệu

Tạo bộ từ điển

Áp dụng phân
loại


III. Phân tích hệ thống
Thu thập dữ liệu
• Xác định nguồn dữ liệu: Trang
web, sách, báo chí …..

• Thiết kế quy trình thu thập dữ
liệu: Web scraping, API


III. Phân tích hệ thống
Xử lý dữ liệu

Loại bỏ thơng tin
không cần thiết

Xử lý sơ bộ văn bản


11


III. Phân tích hệ thống
Xác định các từ
khóa

Tạo bộ từ điển
Lưu trữ thông tin

12


III. Phân tích hệ thống
Áp dụng phân loại
Chọn đặc trưng

Phân loại nội dung văn bản

Đánh giá độ chính xác

Đưa ra kết quả phân loại


IV. Tổng kết đề tài
Kết quả
đạt được

Đưa ra được một giải pháp phần mềm cho việc

phân loại văn bản trong quy trình cập nhật tài
liệu cho thư viện trực tuyến

Kiến thức cũng như chun mơn cịn hạn chế
để có thể hồn thiện đề tài
Cịn gặp nhiều bất cập trong cơng việc hoạt
động nhóm, hoạt động nhóm chưa hiệu quả

Hạn chế


IV. Tổng kết đề tài
Hướng phát triển

Mở rộng quy mô

Nâng cao hiệu
quả phân loại
Tích hợp thêm
nhiều nghiệp vụ


Thank you



×