Tải bản đầy đủ (.docx) (4 trang)

THIẾT KẾ VÀ CÀI ĐẶT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (88.74 KB, 4 trang )

THIẾT KẾ VÀ CÀI ĐẶT
 Ngôn ngữ lập trình : Java, HTML
 Công cụ lập trình : JBuilder X, Microsoft Fontpage
 Web Server : Resin
 Hệ quản trị CSDL : Mircrosoft SQL Server 2000
Chương 1: THIẾT KẾ DỮ LIỆU
Khi thiết kế hệ thống tìm kiếm thông tin vấn đề khó khăn nhất phải đối mặt là tổ
chức cấu trúc dữ liệu . Vì khối lượng dữ liệu phải lưu trữ của hệ thống tìm kiếm thông tin
là rất lớn, và khối lượng yêu cầu tìm kiếm phải xử lý cũng rất lớn (trên môi trường Web)
nên cấu trúc dữ liệu phải được tổ chức tối ưu cho việc đáp ứng (về thời gian) đối với yêu
cầu tìm kiếm của người sử dụng.
Dữ liệu của hệ thống được xây dựng dựa trên mô hình vector, sử dụng phương
pháp tập tin nghịch đảo
1. Cơ sở dữ liệu trong SQL
CSDL trong SQL server phục vụ cho toàn bộ hệ thống gồm bảng Url : chứa các
thông tin cần thiết cho ứng dụng về 1 URL.
Bảng
UrlSTT
Tên thuộc
tính
Ý nghĩa Kiểu dữ liệu Miền giá trị Ghi chú
1 Depth Độ sâu
của
Integer 0 : đây là
FromURL StartURL
2 LastModified Ngày cập
nhật nội
dung URL
gần nhất
Bigint
3 ContentLength Kích


thước
trang web
mà URL
chỉ tới
Bigint
4 Status Trạng thái
của URL
Integer UNDOWNLOAD URL
chưa
được
download
GOOD URL đã
được
download
về
BROKEN URL bị
hỏng
trong khi
kết nối
với server
GOOD-
INDEXING
URL đã
download
về và
đang
được lập
chỉ mục
BROKEN-
INDEXING

URL
đang
được lập
chỉ mục
nhưng bị
hỏng liên
kết
5 Title Tiêu đề
của trang
web mà
URL chỉ
tới
Varchar(255)
6 ContentType Cho biết
nội dung
của URL
thuộc
dạng nào
Varchar(50)
7 UrlId Định
danh của
URL
Bigint Khóa
chính
8 UrlName Địa chỉ Varchar(255) Duy nhất
của 1
URL
9 OutputPath Tên file
download
về

Varchar(255)
10 RootId Định danh
của
StartURL
Bigint
Bảng 6. : Bảng URL
2. Hệ thống tập tin
Do hệ thống dùng Webserver là Resin nên toàn bộ cơ sở dữ liệu được lưu trong thư
mục làm việc của Resin “\doc\se\working”. Ngoài dữ liệu được lưu trữ trong Hệ quản trị
Cơ sở dữ liệu SQL Server 2000, ứng dụng còn có hệ thống file như sau:
“Index.txt”: chính là từ điển chỉ mục, chứa thông tin về một mục từ như trọng số,
số tài liệu có chứa mục từ này, là từ tiếng Anh hay tiếng Việt, trang
bắt đầu và trang kết thúc trong tập tin nghịch đảo, và sẽ được trình
bày cụ thể ở phần dưới.
“Inverse.dat”: tập tin nghịch đảo, chứa các thông tin về các tài liệu và trọng số
của các mục từ trong tài liệu đó, xem cụ thể trong phần tập tin
nghịch đảo ở phần dưới.
“UnicodetoUTF8.txt”: font chữ Unicode.

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×