MỘT SỐ CÔNG CỤ
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đào Thủy Ngân
Nội dung
Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:
−
JvnTextPro, VnToolkit
−
Bộ sản phẩm VLSP
Một số bộ công cụ khác
Nội dung
Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, Neko,...
Một số công cụ xử lý ngôn ngữ tiếng Việt:
−
JvnTextPro, VnToolkit
−
Bộ sản phẩm VLSP
Một số bộ công cụ khác
Crawler4j
Là công cụ nguồn mở, viết bằng ngôn ngữ Java
Cung cấp API đơn giản giúp thực hiện việc lấy dữ liệu Web
Download: />
Code mẫu: />
Hướng dẫn sử dụng: />
Thông báo lỗi: />
Mã nguồn:
−
/>
−
/>
Crawler4j: Một số thuộc tính cài đặt
Số luồng: int numberOfCrawlers
Độ sâu: setMaxDepthOfCrawling(int depth);
Mật độ yêu cầu lấy tin trong 1 giây:
setPolitenessDelay(int politenessDelay);
Số trang dữ liệu cần lấy:
setMaxPagesToFetch(maxPagesToFetch);
Tính năng tự động chạy tiếp sau khi bị ngắt:
crawlConfig.setResumableCrawling(true);
Proxy
Nội dung
Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:
−
JvnTextPro, VnToolkit
−
Bộ sản phẩm VLSP
Một số bộ công cụ khác
JSoup Parser
Là thư viện nguồn mở cho Java
Cung cấp API đơn giản giúp thực hiện việc trích xuất
và thao tác trên dữ liệu, sử dụng cấu trúc DOM,
CSS,...
Download: />
Địa chỉ tra cứu API: />
Hướng dẫn sử dụng: />
Kho mã nguồn: />
JSoup Parser: Một số tính năng
Lấy và phân tích cú pháp HTML từ một địa chỉ URL,
file hoặc string
Tìm kiếm và trích xuất dữ liệu, sử dụng cấu trúc DOM
và bộ lọc CSS
Thao tác trên các thành phần HTML, các thuộc tính và
text
Nội dung
Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:
−
JvnTextPro, VnToolkit
−
Bộ sản phẩm VLSP
Một số bộ công cụ khác
JVnTextPro
Tác giả: chị Nguyễn Cẩm Tú
Là công cụ xử lý ngơn ngữ tiếng Việt viết bằng Java
Download: />
Các tính năng chính:
−
Tách từ
−
Tách câu
−
Gán nhãn từ loại (POS-tagging)
Sản phẩm VLSP
Một số sản phẩm thuộc nhánh đề tài "Xử lí văn bản" là
một phần của đề tài KC01.01/06-10 "Nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lí tiếng nói và
văn bản tiếng Việt" (VLSP)
Các cơng cụ:
−
Hệ tách từ tiếng Việt vnTokenizer
−
Hệ gán nhãn từ loại tiếng Việt VietTagger
−
Hệ phân tích cụm từ tiếng Việt VietChunker
−
Hệ phân tích cú pháp tiếng Việt
Download:
:8080/demo/?page=resources
Nội dung
Một số công cụ lấy dữ liệu: Crawler4j, httpClient,...
Một số cơng cụ phân tích ngữ pháp: htmlParser,
Jsoup, CyberNeko, JTidy...
Một số công cụ xử lý ngôn ngữ tiếng Việt:
−
JvnTextPro, VnToolkit
−
Bộ sản phẩm VLSP
Một số bộ công cụ khác
Một số bộ công cụ khác
Các ứng dụng xử lý ngôn ngữ tự nhiên của Stanford:
/>
Word segmentation, part-of-speech tagging, named
entity recognition, chunking, parsing, classification and
coreference resolution
Mallet - bộ công cụ ứng dụng phương pháp học máy:
/>
Statistic, document classification, clustering, topic
modeling, information extraction
Một số bộ công cụ khác
NLTK: />
Open source Python modules, linguistic data and
documentation for research and development in
natural language processing and text analytics.
OpenNLP: />
Tokenization, sentence segmentation, part-of-speech
tagging, named entity extraction, chunking, parsing,
and coreference resolution
/>