Tải bản đầy đủ (.pptx) (10 trang)

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên tách từ và xác định từ khóa trong văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (116.38 KB, 10 trang )

Đề tài:
Tách từ và xác định từ khóa trong văn
bản tiếng Việt

Thành viên:
-
Đoàn Trung Kiên - 20086096
-
Phạm Trí Dũng - 20086081
-
Phạm Văn Chí - 20086077
-
Phạm Tiến Dũng – 20086080
Nội dung trình bày
1. Yêu cầu thực tế
2. Giới thiệu về chương trình
3. Các bước tiến hành
4. Sử dụng chương trình
5. Demo chương trình
1. Yêu cầu thực tế

Tách từ và xác định từ khóa là một phần
rất quan trọng trong quá trình xử lí văn
bản.

Kết quả của việc tách từ có thể sử dụng để
thực hiện một số công việc xử lí văn bản
cao hơn như phân loại văn bản, tóm tắt
văn bản, xác định ngữ nghĩa của văn bản.
2. Giới thiệu về chương trình


Chương trình KeywordDetermining
được sử dụng để xác định từ khóa và
tính trọng số từ các văn bản tiếng
Việt (mã hóa bằng bảng mã Unicode
UTF-8)

Chương trình có sử dụng công cụ tách
từ của Lê Hồng Phương (vnTokenizer)
3. Các bước tiến hành

1. Tìm hiểu công cụ tách từ của Lê Hồng
Phương để tách từ (vnTokenizer)

2. Loại bỏ các từ tầm thường (stop word)
trong tập các từ đã được tách (từ tầm thường
là các từ xuất hiện nhiều nhưng không mang
ngữ nghĩa của văn bản)

3. Loại bỏ các từ trùng lặp sau khi tách từ.
3. Các bước tiến hành (2)

4. Tính trọng số TF*IPF của tất cả các từ trên
theo công thức sau:

Trong đó tf là số lần xuất hiện từ i trong đoạn,
N là tổng số đoạn trong văn bản, ni là số đoạn
chứa từ i
3. Các bước tiến hành (3)
5. Sắp xếp các từ theo chiều giảm dần của
điểm IF*IPF đã tính ở bước trước. Một số

phần trăm nhất định của các từ có điểm
IF*IPF cao nhất sẽ được chọn làm từ khóa.
(Sử dụng thuật toán Quick sort)
4. Sử dụng chương trình

Dữ liệu cần cung cấp cho chương
trình gồm 1 tệp văn bản tiếng Việt

Kết quả: Một tệp văn bản kết quả
được ghi dưới định dạng XML. Tệp
kết quả chứa tất cả các từ trong
văn bản và được sắp xếp theo
chiều giảm dần của chỉ số TF*IPF
4. Sử dụng chương trình (2)

java -jar KeywordDetermining.jar -i
<tệp-input> -o <tệp-output>

Hai tùy chọn -i và -o là bắt buộc

Ví dụ: java -jar
KeywordDetermining.jar -i
samples/5.txt -o samples/5.xml

Tìm từ khóa tệp samples/5.txt và
ghi kết quả vào tệp samples/5.xml
5. DEMO

java -jar KeywordDetermining.jar -i
samples/3.txt -o samples/3.xml

×