Tải bản đầy đủ (.pdf) (33 trang)

NGHIÊN CỨU HỆ TỐNG SEARCH ENGINE VÀ XÂY DỰNG ỨNG DỤNG TÌM KIẾM NỘI DUNG TÀI LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.6 MB, 33 trang )

Luận Văn Tốt Nghiệp Kỹ Sư
Đại học Bách Khoa
Khoa Công Nghệ Thông Tin
1
 Mở đầu
 Mô hình hệ thống Search Engine
 Phân tích và thiết kế
 Demo
 Kết luận & Hướng phát triển
2
3
Số lượng
thông tin
tăng
Nhu cầu
tìm kiếm
tăng
4
Web
Mở đầu
Hỗ trợ tốt
5
 Sử dụng tài nguyên CPU
 Hỗ trợ nhiều định dạng
 Thời gian tìm kiếm
 Bảo mật dữ liệu
 Mã nguồn bí mật
 Hỗ trợ ngôn ngữ
 Khả năng phát triển
 Cài thêm các ứng dụng hỗ trợ file
Các vấn đề gặp phải


 Mở đầu
 Mô hình hệ thống Search Engine
 Phân tích và thiết kế
 Demo
 Kết luận & Hướng phát triển
6
7
Bộ
Thu
thập
thông
tin
Bộ
lập
chỉ
mục
Bộ
tìm
kiếm
 Mở đầu
 Mô hình hệ thống Search Engine
 Phân tích và thiết kế
 Demo
 Kết luận & Hướng phát triển
8
9
Mô hình hệ thống
API Lucence
Phát
triển

10
Thuật toán :
11
Extractor pdf
Extractor html
Extractor docx
Extractor xml
Extractor rtd
12
Xử Lí Text (Lucene)
Phương pháp :
13
• WhitespaceTokenizer
• StandardTokenizer
• Chuyển font VNI sang unicode
• Streaming
book, books →book
• Stop-word
“á”,”vâng”..




×