Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (104.83 KB, 5 trang )
Tránh các lỗi vi phạm cơ
chế tìm kiếm của Search
Engine
Những điều sau đây sẽ làm cho các spider mơ hồ về website
của bạn:
• URL với 2 tham số động. VD:
/category.php?id 4rr&User=%Tom%, tất nhiên với những
URL như điều đầu tiên sẽ làm rối người dùng và khó nhớ đến
thứ 2 đó là làm cho các spider miễn cưỡng hoặc không crawl.
• Page có hơn 100 link duy nhất đến các trang # trên site
(điều này rất ít gặp).
• Page được click 3 lần mới đến được từ trang chủ(trang bị
chôn quá sâu) sẽ thường bị các spider từ
chối trừ khi có khá nhiều external link(link ngoại) liên kết
đến site.
• Page cần các “session id” hoặc cookies để được điều hướng
mới đến được (spider không phải các
browser nên có không thể giữ lại các trang kiểu như vậy).
• Page bị chia cắt bới các “frame” sẽ cản trở việc crawling và
làm lộn xộn đối với việc xếp rank.
Những điều sau đây sẽ giết chết các spider:
• Pages được điều hướng đến bởi các submit button (coder rất
rõ về điều này).
• Pages hiển thị khi được xổ xuống từ các drop menu (spider
không thể bypass được các javascript).
• Các tài liệu được tìm thấy trong search box