Tải bản đầy đủ (.ppt) (14 trang)

MỘT SỐ CÔNG CỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (70.62 KB, 14 trang )

MỘT SỐ CÔNG CỤ
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đào Thủy Ngân


Nội dung








Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:


JvnTextPro, VnToolkit



Bộ sản phẩm VLSP

Một số bộ công cụ khác


Nội dung









Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, Neko,...
Một số công cụ xử lý ngôn ngữ tiếng Việt:


JvnTextPro, VnToolkit



Bộ sản phẩm VLSP

Một số bộ công cụ khác


Crawler4j


Là công cụ nguồn mở, viết bằng ngôn ngữ Java



Cung cấp API đơn giản giúp thực hiện việc lấy dữ liệu Web




Download: />


Code mẫu: />


Hướng dẫn sử dụng: />


Thông báo lỗi: />


Mã nguồn:


/>


/>

Crawler4j: Một số thuộc tính cài đặt


Số luồng: int numberOfCrawlers




Độ sâu: setMaxDepthOfCrawling(int depth);









Mật độ yêu cầu lấy tin trong 1 giây:
setPolitenessDelay(int politenessDelay);
Số trang dữ liệu cần lấy:
setMaxPagesToFetch(maxPagesToFetch);
Tính năng tự động chạy tiếp sau khi bị ngắt:
crawlConfig.setResumableCrawling(true);
Proxy


Nội dung








Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,

Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:


JvnTextPro, VnToolkit



Bộ sản phẩm VLSP

Một số bộ công cụ khác


JSoup Parser




Là thư viện nguồn mở cho Java
Cung cấp API đơn giản giúp thực hiện việc trích xuất
và thao tác trên dữ liệu, sử dụng cấu trúc DOM,
CSS,...



Download: />


Địa chỉ tra cứu API: />



Hướng dẫn sử dụng: />


Kho mã nguồn: />

JSoup Parser: Một số tính năng







Lấy và phân tích cú pháp HTML từ một địa chỉ URL,
file hoặc string
Tìm kiếm và trích xuất dữ liệu, sử dụng cấu trúc DOM
và bộ lọc CSS
Thao tác trên các thành phần HTML, các thuộc tính và
text


Nội dung









Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:


JvnTextPro, VnToolkit



Bộ sản phẩm VLSP

Một số bộ công cụ khác


JVnTextPro


Tác giả: chị Nguyễn Cẩm Tú



Là công cụ xử lý ngơn ngữ tiếng Việt viết bằng Java



Download: />



Các tính năng chính:


Tách từ



Tách câu



Gán nhãn từ loại (POS-tagging)


Sản phẩm VLSP






Một số sản phẩm thuộc nhánh đề tài "Xử lí văn bản" là
một phần của đề tài KC01.01/06-10 "Nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lí tiếng nói và
văn bản tiếng Việt" (VLSP)
Các cơng cụ:


Hệ tách từ tiếng Việt vnTokenizer




Hệ gán nhãn từ loại tiếng Việt VietTagger



Hệ phân tích cụm từ tiếng Việt VietChunker



Hệ phân tích cú pháp tiếng Việt

Download:
:8080/demo/?page=resources


Nội dung








Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:



JvnTextPro, VnToolkit



Bộ sản phẩm VLSP

Một số bộ công cụ khác


Một số bộ công cụ khác


Các ứng dụng xử lý ngôn ngữ tự nhiên của Stanford:
/>
Word segmentation, part-of-speech tagging, named
entity recognition, chunking, parsing, classification and
coreference resolution


Mallet - bộ công cụ ứng dụng phương pháp học máy:
/>
Statistic, document classification, clustering, topic
modeling, information extraction


Một số bộ công cụ khác


NLTK: />

Open source Python modules, linguistic data and
documentation for research and development in
natural language processing and text analytics.


OpenNLP: />
Tokenization, sentence segmentation, part-of-speech
tagging, named entity extraction, chunking, parsing,
and coreference resolution


/>


×