Tải bản đầy đủ (.pdf) (2 trang)

042_Phân loại văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (151.61 KB, 2 trang )


- 16 -
PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
Họ tên SV: Trần Mai Hạnh
MSSV: SV0220102
Email:

Giáo viên hướng dẫn:
T.S Nguyễn Việt Hà

Tóm tắt nội dung của khóa luận “Phân loại văn bản Tiếng Việt”.

1. Đặt vấn đề
Cùng với sự gia tăng về số lượng
văn bản, nhu cầu tìm kiếm văn bản cũng
tăng theo. Với số lượng văn bản đồ sộ thì
việc phân loại văn bản một cách tự động là
một nhu cầu bức thiết.
Việc phân loại văn bản sẽ giúp
chúng ta tìm kiếm thông tin dễ dàng và
nhanh chóng hơn rất nhiều so với việc phải
bới tung mọi thứ trong ổ đĩa lưu trữ để tìm
kiếm thông tin. Mặc khác, lượng thông tin
ngày một tăng lên đáng kể, việc phân loại
văn bản tự động sẽ giúp con người tiết kiệm
được nhiề
u thời gian và công sức.
2. Các phương pháp phân loại
văn bản Tiếng Anh
Trong những năm gần đây việc
phân loại văn bản là một lĩnh vực được chú


ý nhất. Để phân loại người ta sử dụng nhiều
cách tiếp cận khác nhau như dựa trên từ
khóa, dựa trên ngữ nghĩa các từ có số lần
xuất hiện cao, mô hình Maximum Entropy,
tập thô… Một số lượng lớn các văn bả
n đã
được áp dụng thành công trên ngôn ngữ này:
mô hình hồi quy, phân loại dựa trên láng
giềng gần nhất (k-nearest neighbours),
phương pháp dựa trên xác xuất Naïve Bayes,
cây quyết định, học luật quy nạp, mạng
nơron (neural network), học trực tuyến, và
máy vector hỗ trợ (SVM – support vector
machine). Khi áp dụng với Tiếng Anh chúng
cho những hiệu quả rất khác nhau. Việc
đánh giá gặp rất nhiều khó khăn do việc
thiếu các tập ngữ liệu huấn luyện chuẩn.
Ngay cả với tập dữ liệu được sử dụng rộng
rãi nhất, Rerter cũng có nhiều phiên bản
khác nhau. Hơn nữa, đã có rất nhiều độ đo
được sử dụng như recall, precision, accuracy
hoặc error, break-even point, F-
measure…Phần này giứoi thiệu các thuật
toán phân loại được sử dụng rộng rãi nhất
đồng thời so sánh giữa các phương pháp sử
dụng kết quả của.
Trong phần này em đưa ra chi tiết
của các phương pháp phân loại văn bản
Tiếng Anh bao gồm
So sánh văn bản theo phương pháp

TF/IDF

- 17 -
Máy hỗ trợ vector (Support vector
Machine – SVM)
K – Nearest Neighbor (kNN)
Naïve Bayes (NB)
Neural Network (Nnet)
Linear Least Square Fit (LLSF)
Centroid – based vector
3. Các phương pháp tách từ
Tiếng Việt hiện nay
Trong phần này em đưa ra chi tiết
cho các phương pháp tách từ Tiếng Việt
hiện nay.
- Phương pháp Maximum matching:
forwarrd/ backward.
- Phương pháp quy hoạch động (dynamic
programming).
- Phương pháp tách từ Tiếng Việt dựa trên
thống kê từ Internet và thuật toán di truyền.
- Mô hình tách từ bằng WFST và mạng
Neural
- Phương pháp giải thuật học cải tiến
(Transformation based Learning – TBL)
4. Bài toán phân loại văn bản
Tiếng Việt
Xét bài toán phân loại văn bản
Tiếng Việt, cho một văn bản bất kỹ hãy xác
định chủ đề của văn bản đó dựa trên một tập

gồm 200 văn bản.
5. Thực Nghiệm
Phần này thể hiện những kết quả
những đánh giá và so sánh của những cái đạt
được tỉ lệ phần trăm đúng.
6. Tổng Kết
Sau khi kết thúc khóa luận em đã
có những kiến thức về các vấn đề liên quan
đến phân loại văn bản như: các phương pháp
phân loại văn bản Tiếng Anh, các phương
pháp tách từ Tiếng Việt, và cách tiến hành đi
vào làm công cụ phân loại văn bản.
Trong luận văn có sử dụng một số
tài liệu quan trọng liên quan đến vấn đề
phân loại văn bản. Rút ra những kinh
nghiệm của bản thân

[1] Nguyễn Phương Thái, Kiểm lỗi Chính tả
Cảm Ngữ cảnh Tiếng Việt, Luận văn thạc sĩ,
Khoa Công nghệ, 2003.
[12] Le An Ha, 2003. A method for word
segmentation Vietnamese. Proceddings of
Corpus Linguistics 2003, Lancaster, UK.

×