Đề tài:
Tách từ và xác định từ khóa trong văn
bản tiếng Việt
Thành viên:
-
Đoàn Trung Kiên - 20086096
-
Phạm Trí Dũng - 20086081
-
Phạm Văn Chí - 20086077
-
Phạm Tiến Dũng – 20086080
Nội dung trình bày
1. Yêu cầu thực tế
2. Giới thiệu về chương trình
3. Các bước tiến hành
4. Sử dụng chương trình
5. Demo chương trình
1. Yêu cầu thực tế
Tách từ và xác định từ khóa là một phần
rất quan trọng trong quá trình xử lí văn
bản.
Kết quả của việc tách từ có thể sử dụng để
thực hiện một số công việc xử lí văn bản
cao hơn như phân loại văn bản, tóm tắt
văn bản, xác định ngữ nghĩa của văn bản.
2. Giới thiệu về chương trình
Chương trình KeywordDetermining
được sử dụng để xác định từ khóa và
tính trọng số từ các văn bản tiếng
Việt (mã hóa bằng bảng mã Unicode
UTF-8)
Chương trình có sử dụng công cụ tách
từ của Lê Hồng Phương (vnTokenizer)
3. Các bước tiến hành
1. Tìm hiểu công cụ tách từ của Lê Hồng
Phương để tách từ (vnTokenizer)
2. Loại bỏ các từ tầm thường (stop word)
trong tập các từ đã được tách (từ tầm thường
là các từ xuất hiện nhiều nhưng không mang
ngữ nghĩa của văn bản)
3. Loại bỏ các từ trùng lặp sau khi tách từ.
3. Các bước tiến hành (2)
4. Tính trọng số TF*IPF của tất cả các từ trên
theo công thức sau:
Trong đó tf là số lần xuất hiện từ i trong đoạn,
N là tổng số đoạn trong văn bản, ni là số đoạn
chứa từ i
3. Các bước tiến hành (3)
5. Sắp xếp các từ theo chiều giảm dần của
điểm IF*IPF đã tính ở bước trước. Một số
phần trăm nhất định của các từ có điểm
IF*IPF cao nhất sẽ được chọn làm từ khóa.
(Sử dụng thuật toán Quick sort)
4. Sử dụng chương trình
•
Dữ liệu cần cung cấp cho chương
trình gồm 1 tệp văn bản tiếng Việt
•
Kết quả: Một tệp văn bản kết quả
được ghi dưới định dạng XML. Tệp
kết quả chứa tất cả các từ trong
văn bản và được sắp xếp theo
chiều giảm dần của chỉ số TF*IPF
4. Sử dụng chương trình (2)
•
java -jar KeywordDetermining.jar -i
<tệp-input> -o <tệp-output>
•
Hai tùy chọn -i và -o là bắt buộc
•
Ví dụ: java -jar
KeywordDetermining.jar -i
samples/5.txt -o samples/5.xml
•
Tìm từ khóa tệp samples/5.txt và
ghi kết quả vào tệp samples/5.xml
5. DEMO
java -jar KeywordDetermining.jar -i
samples/3.txt -o samples/3.xml