Báo cáo - Tìm hiểu về
Search Engine và xây
dựng ứng dụng minh
hoạ cho Search
Engine tiếng việt
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
L I C M NỜ Ả Ơ
Đ u tiên, chúng em xin g i l i c m n đ n Th y, Cô khoa Công ngh Thôngầ ở ờ ả ơ ế ầ ệ
tin tr ng Đ i h c Khoa h c T nhiên đã t n tình d y d , dìu d t chúng em su t b nườ ạ ọ ọ ự ậ ạ ỗ ắ ố ố
năm đ i h c.ạ ọ
Chúng em c m n Cô Nguy n Th Di m Tiên, ng i t n tình h ng d n, giúpả ơ ễ ị ễ ườ ậ ướ ẫ
đ , đ ng viên chúng em hoàn thành lu n văn này.ỡ ộ ậ
Chúng tôi c m n các anh Tr n Nguy n Hoàng Ph ng, Bùi Ng c Tu n Anh,ả ơ ầ ễ ươ ọ ấ
Đoàn H u Quang Vinh và các b n Nguy n Huy Hoàng, Phan Anh Đ c đã giúp đ ,ữ ạ ễ ứ ỡ
đóng góp ý ki n cho chúng tôi trong quá trình cài đ t, th nghi m ch ng trình.ế ặ ử ệ ươ
Cu i cùng, chúng con c m n Ba, M và nh ng ng i thân đã khích l , đ ngố ả ơ ẹ ữ ườ ệ ộ
viên chúng con trong th i gian h c t p, nghiên c u đ có đ c thành qu nh ngàyờ ọ ậ ứ ể ượ ả ư
nay.
Tháng 7 năm 2004
Sinh viên
Lê Thuý Ng c – Đ M Nhungọ ỗ ỹ
Lê Thuý Ng c - 0012745 ọ 1 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
NH N XÉT C A GIÁO VIÊN H NG D NẬ Ủ ƯỚ Ẫ
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……năm 2004
Ký tên
Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
NH N XÉT C A GIÁO VIÊN PH N BI NẬ Ủ Ả Ệ
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……năm 2004
Ký tên
Lê Thuý Ng c - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
M C L CỤ Ụ
Ph n 1 : TÌM HI U V N Đầ Ể Ấ Ề 2
Ch ng 1: T NG QUAN V H TH NG SEARCH ENGINEươ Ổ Ề Ệ Ố 2
1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố 2
1.1 B thu th p thông tin – Robotộ ậ 2
1.2 B l p ch m c – Indexộ ậ ỉ ụ 2
1.3 B tìm ki m thông tin – Search Engineộ ế 3
2. Nguyên lý ho t đ ngạ ộ 3
Ch ng 2: B THU TH P THÔNG TIN – ROBOTươ Ộ Ậ 5
1. ng d ng c a Robot Ứ ụ ủ 5
1.1 Phân tích, th ng kê – Statistical Analysisố 5
1.2 Duy trì siêu liên k - Maintenanceế 5
1.3 Ánh x đ a ch web - Mirroringạ ị ỉ 5
1.4 Phát hi n tài nguyên – Resource Discoveryệ 6
1.5 K t h p các công d ng trên- Combined usesế ợ ụ 6
2. Robot ch m c – Robot Indexingỉ ụ 6
3. Các chi n thu t thu th p d li u [II.1] ế ậ ậ ữ ệ 8
3.1 Chi n thu t tìm ki m theo chi u sâuế ậ ế ề 8
3.2 Chi n thu t tìm ki m theo chi u r ngế ậ ế ề ộ 9
3.3 Chi n thu t tìm ki m theo ng u nhiênế ậ ế ẫ 9
4. Nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ 10
4.1 Chi phí và hi m hoể ạ 10
4.1.1 Qúa t i m ng và server – Network resource and server loadả ạ 10
4.1.2 S c p nh t quá m c- Updating overheadự ậ ậ ứ 11
4.1.3 Nh ng tình hu ng không mong đ i – Bad implementationsữ ố ợ 12
4.2 Tiêu chu n lo i tr robotẩ ạ ừ 13
4.2.1 File robot.txt 13
4.2.2 Th META dành cho robot – Robot META tagẻ 14
4.2.3 Nh c đi m c a file robot.txtượ ể ủ 15
Ch ng 3: B L P CH M C – INDEXươ Ộ Ậ Ỉ Ụ 18
1. Khái quát v h th ng l p ch m c ề ệ ố ậ ỉ ụ 18
2. T ng quan v ph ng pháp l p ch m c ([I.1], [I.2], [II.1])ổ ề ươ ậ ỉ ụ 21
2.1 Xác đ nh m c t quan tr ng c n l p ch m c ([I.1])ị ụ ừ ọ ầ ậ ỉ ụ 21
2.2 M t s hàm tính tr ng s m c t . ([I.1])ộ ố ọ ố ụ ừ 23
2.2.1 Ngh ch đ o tr ng s t n s tài li u (The Inverse Document Frequencyị ả ọ ố ầ ố ệ
Weight) 24
Lê Thuý Ng c - 0012745 ọ 4 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
2.2.2 Đ nhi u tín hi u (Signal Noise): ộ ễ ệ 25
2.2.3 Giá tr đ phân bi t c a m c t : ị ộ ệ ủ ụ ừ 25
2.2.4 K t h p t n s xu t hi n m c t và ngh ch đ o t n s tài li uế ợ ầ ố ấ ệ ụ ừ ị ả ầ ố ệ 27
2.3 L p ch m c t đ ng cho tài li uậ ỉ ụ ự ộ ệ 28
3. L p ch m c cho tài li u ti ng Vi t ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],ậ ỉ ụ ệ ế ệ
[IV.12]) 30
3.1 Khó khăn cho vi c l p ch m c ti ng Vi tệ ậ ỉ ụ ế ệ 30
3.2 Đ c đi m v t trong ti ng Vi t và vi c tách tặ ể ề ừ ế ệ ệ ừ 31
3.2.1 . Đ c đi m v t trong ti ng Vi t:ặ ể ề ừ ế ệ 31
3.2.2 Tách từ 32
3.3 Gi i quy t các v n đ hi n th c a ti ng Vi t (v n đ chính t )ả ế ấ ề ể ị ủ ế ệ ấ ề ả 34
3.3.1 V n đ b ng mãấ ề ả 34
3.3.2 V n đ d u thanhấ ề ấ 35
3.3.3 V n đ d u t h p nguyên âmấ ề ấ ổ ợ 36
3.4 Gi i quy t các v n đ v t c a ti ng Vi tả ế ấ ề ề ừ ủ ế ệ 37
3.4.1 Lu t xác đ nh các t láyậ ị ừ 37
3.4.2 Lu t xác đ nh các liên tậ ị ừ 37
3.5 Xây d ng t đi n ti ng Vi tự ừ ể ế ệ 38
Ch ng 4: B TÌM KI M THÔNG TIN – SEARCH ENGINEươ Ộ Ế 40
1. Vì sao ta c n m t công c tìm ki m (SE) ?ầ ộ ụ ế 40
2. Các ph ng th c tìm ki mươ ứ ế 40
2.1 Tìm theo t khoá – Keyword searchingừ 40
2.2 Nh ng khó khăn khi tìm theo t khoá ữ ừ 41
2.3 Tìm theo ng nghĩa – Concept-based searchingữ 41
3. Các chi n l c tìm ki mế ượ ế 42
3.1 Tìm thông tin v i các th m c ch đớ ư ụ ủ ề 42
3.2 Tìm thông tin v i các công c tìm ki mớ ụ ế 43
3.3 T i u câu truy v n ố ư ấ 43
3.4 Truy v n b ng ví dấ ằ ụ 44
Ch ng 5: M T S SEARCH ENGINE THÔNG D NG TRÊN TH GI Iươ Ộ Ố Ụ Ế Ớ
VÀ VI T NAM Ệ 45
1.1 Th m c c a Yahoo, Google ư ụ ủ 53
1.2 Alltheweb 54
1.3 AltaVista 54
1.4 Lycos 55
1.5 HotBot 55
2. M t s search engine thông d ng Vi t Namộ ố ụ ở ệ 55
2.1 Netnam [IV.12] 55
2.1.1 Ph ng pháp Netnam SE l p ch m c d li uươ ậ ỉ ụ ữ ệ 58
Lê Thuý Ng c - 0012745 ọ 5 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
2.1.2 Cú pháp tìm ki m ế 60
2.1.3 S d ng t khoá đ l c các tìm ki mử ụ ừ ể ọ ế 62
2.2 Vinaseek ([IV.11]) 65
Ph n 2 : THI T K VÀ CÀI Đ Tầ Ế Ế Ặ 67
Ch ng 1: THI T K D LI Uươ Ế Ế Ữ Ệ 67
1. C s d li u trong SQL ơ ở ữ ệ 67
2. H th ng t p tinệ ố ậ 70
Ch ng 2: THU TH P THÔNG TINươ Ậ 72
1. C u trúc d li uấ ữ ệ 72
1.1 C u trúc UrlInfoấ 73
1.2 C u trúc StartUrlInfoấ 74
1.3 C u trúc FileRetrievalấ 75
1.4 C u trúc ProjectInfoấ 75
2. X lý c a web robotử ủ 77
3. Gi i quy t các v n đ c a web robotả ế ấ ề ủ 82
3.1 Tránh s l p l iự ặ ạ 82
3.2 Tránh làm qúa t i serverả 82
3.3 Tránh truy xu t đ n các d ng tài nguyên không thích h pấ ế ạ ợ 83
3.4 Tránh các l đen(black holes)ỗ 83
3.5 Tránh nh ng n i c m robot ữ ơ ấ 83
4. Các thu t toán phân tích c u trúc file HTMLậ ấ 83
4.1 Thu t toán l y liên k tậ ấ ế 83
4.1.1 Thu t toán ng d ng cũ đã cài đ tậ ứ ụ ặ 84
4.1.2 Ch n l a c a ng d ng m iọ ự ủ ứ ụ ớ 88
4.2 Thu t toán l y tiêu đ ậ ấ ề 88
4.3 Thu t toán l y n i dungậ ấ ộ 89
5. Duy trì thông tin cho CSDL 90
6. Resume project 90
6.1 Nguyên t c resume c a ng d ng cũắ ủ ứ ụ 1 91
6.2 C i ti n c a ng d ng m iả ế ủ ứ ụ ớ 93
Ch ng 3: L P CH M Cươ Ậ Ỉ Ụ 96
1. Tính tr ng s c a t :ọ ố ủ ừ 96
2. T p tin ngh ch đ o :ậ ị ả 97
3. T đi n ch m c ừ ể ỉ ụ 103
4. Quá trình stemming 109
Ch ng 4: TÌM KI M THÔNG TINươ Ế 112
Lê Thuý Ng c - 0012745 ọ 6 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ch ng 5: CÁC MODULE ,PACKAGE, L P CHÍNH C A CH NGươ Ớ Ủ ƯƠ
TRÌNH 114
1. Các module, package c a ch ng trìnhủ ươ 114
2. Các l p đ i t ng chính trong t ng moduleớ ố ượ ừ 115
2.1 Module DBController 115
2.2 Module ProcessDoc 115
2.3 Module Query 117
2.4 Module SE 117
2.5 Module Webcopy 118
2.6 Module WebcopyGUI 119
Ph n 3 : K T QU , ĐÁNH GIÁ VÀ H NG PHÁT TRI Nầ Ế Ả ƯỚ Ể 120
1. K t qu th nghi mế ả ử ệ 120
2. Ho t đ ng c a ch ng trìnhạ ộ ủ ươ 122
2.1 Giao di n qu n trệ ả ị 122
2.1.1 Giao di n chính c a qu n tr ệ ủ ả ị 122
2.1.2 T o m i projectạ ớ 123
2.1.3 T o m i m t StartUrl : ạ ớ ộ 126
2.1.4 Xem t đi n ch m cừ ể ỉ ụ 129
2.1.5 Qu n lý m c tả ụ ừ 130
2.2 Giao di n tìm ki mệ ế 132
3. Đánh giá 134
3.1 u đi mƯ ể 134
3.2 Khuy t đi mế ể 135
4. H ng phát tri nướ ể 136
4.1 Đ i v i t ng module :ố ớ ừ 136
4.2 Đ i v i toàn lu n văn:ố ớ ậ 137
DANH SÁCH CÁC B NGẢ 138
DANH SÁCH CÁC HÌNH VẼ 140
TÀI LI U THAM KH OỆ Ả 142
I. Sách, ebook: 142
II. Lu n văn, lu n ánậ ậ 142
III. Bài báo 143
IV. Website 143
Lê Thuý Ng c - 0012745 ọ 7 Đ M Nhung - 0012624ỗ ỹ
M Đ UỞ Ầ
Trong th i đ i ngày nay, thông tin là nhu c u thi t y u đ i v i m i ng i trênờ ạ ầ ế ế ố ớ ọ ườ
m i lĩnh v c. M i phút trôi qua hàng tri u tri u trang web đ c đ y lên nh m làmọ ự ỗ ệ ệ ượ ẩ ằ
giàu ngu n tài nguyên vô t n này. Tuy nhiên t n t i m t ngh ch lý là dù đ c ví nhồ ậ ồ ạ ộ ị ượ ư
th vi n toàn c u, internet v n không tho mãn nhu c u thông tin c a con ng i.ư ệ ầ ẫ ả ầ ủ ườ
Xung quanh v n đ này có nhi u nguyên nhân nh ng quan tr ng nh t là s thông hi uấ ề ề ư ọ ấ ự ể
gi a con ng i và công c tìm ki m trên m ng – search engine – ch a đ t đ n m cữ ườ ụ ế ạ ư ạ ế ứ
có th giao ti p t t v i nhau. ể ế ố ớ
H n n a, m i search engine s mang đ c thù c a ngôn ng mà nó hi n th nhơ ữ ỗ ẽ ặ ủ ữ ể ị ư
search engine Ti ng Vi t ph i gi i quy t nh ng v n đ đ c tr ng c a Ti ng Vi t,ế ệ ả ả ế ữ ấ ề ặ ư ủ ế ệ
c th là v n đ b ng mã, ng pháp trong Ti ng Vi t.ụ ể ấ ề ả ữ ế ệ
N u ta hi u cách th c search engine t ch c thông tin, th c thi m t câu truyế ể ứ ổ ứ ự ộ
v n và đ c tr ng c a ngôn ng mà search engine s ti p c n thì ta có th t i u hoáấ ặ ư ủ ữ ẽ ế ậ ể ố ư
c h i nh n đ c các thông tin h u ích. Đây là m c tiêu chính c a lu n văn. ơ ộ ậ ượ ữ ụ ủ ậ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ph n 1 : ầ TÌM HI U V N ĐỂ Ấ Ề
Ch ng 1: ươ T NG QUAN V H TH NG SEARCH ENGINEỔ Ề Ệ Ố
1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố
1.1 B thu th p thông tin – Robotộ ậ
Robot là m t ch ng trình t đ ng duy t qua các c u trúc siêu liên k t đ thuộ ươ ự ộ ệ ấ ế ể
th p tài li u & m t cách đ quy nó nh n v t t c tài li u có liên k t v i tài li u này.ậ ệ ộ ệ ậ ề ấ ả ệ ế ớ ệ
Robot đ c bi t đ n d i nhi u tên g i khác nhau : spider, web wanderer ho cượ ế ế ướ ề ọ ặ
web worm,… Nh ng tên g i này đôi khi gây nh m l n, nh t ‘spider’, ‘wanderer’ữ ọ ầ ẫ ư ừ
làm ng i ta nghĩ r ng robot t nó di chuy n và t ‘worm’ làm ng i ta liên t ngườ ằ ự ể ừ ườ ưở
đ n virus. V b n ch t robot ch là m t ch ng trình duy t và thu th p thông tin tế ề ả ấ ỉ ộ ươ ệ ậ ừ
các site theo đúng giao th c web. Nh ng trình duy t thông th ng không đ c xem làứ ữ ệ ườ ượ
robot do thi u tính ch đ ng, chúng ch duy t web khi có s tác đ ng c a con ng i.ế ủ ộ ỉ ệ ự ộ ủ ườ
1.2 B l p ch m c – Indexộ ậ ỉ ụ
H th ng l p ch m c hay còn g i là h th ng phân tích và x ệ ố ậ ỉ ụ ọ ệ ố ử lý d li uữ ệ , th cự
hi n vi c phân tích, ệ ệ trích ch n nh ng thông tin c n thi tọ ữ ầ ế (th ng là các t đ n , tườ ừ ơ ừ
ghép , c m t quan tr ng)ụ ừ ọ t nh ng d li u mà robot thu th p đ c và t ch c thànhừ ữ ữ ệ ậ ượ ổ ứ
c s d li u riêng đ có th tìm ki m trên đó m t cách nhanh chóng, hi u qu . Hơ ở ữ ệ ể ể ế ộ ệ ả ệ
th ng ch m c là danh sách các t khoá, ch rõ các t khoá nào xu t hi n trang nào,ố ỉ ụ ừ ỉ ừ ấ ệ ở
đ a ch nào.ị ỉ
Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
1.3 B tìm ki m thông tin – Search Engineộ ế
Search engine là c m t dùng ch toàn b h th ng bao g m b thu th p thôngụ ừ ỉ ộ ệ ố ồ ộ ậ
tin, b l p ch m c & b tìm ki m thông tin. Các b này ho t đ ng liên t c t lúcộ ậ ỉ ụ ộ ế ộ ạ ộ ụ ừ
kh i đ ng h th ng, chúng ph thu c l n nhau v m t d li u nh ng đ c l p v iở ộ ệ ố ụ ộ ẫ ề ặ ữ ệ ư ộ ậ ớ
nhau v m t ho t đ ng. ề ặ ạ ộ
Search engine t ng tác v i user thông qua giao di n web, có nhi m v ti pươ ớ ệ ệ ụ ế
nh n & tr v nh ng tài li u tho yêu c u c a user.ậ ả ề ữ ệ ả ầ ủ
Nói nôm na, tìm ki m t là tìm ki m các trang mà nh ng t trong câu truy v nế ừ ế ữ ừ ấ
(query) xu t hi n nhi u nh t, ngo i tr stopword (các t quá thông d ng nh m o tấ ệ ề ấ ạ ừ ừ ụ ư ạ ừ
a, an, the,…). M t t càng xu t hi n nhi u trong m t trang thì trang đó càng đ cộ ừ ấ ệ ề ộ ượ
ch n đ tr v cho ng i dùng. Và m t trang ch a t t c các t trong câu truy v nọ ể ả ề ườ ộ ứ ấ ả ừ ấ
thì t t h n là m t trang không ch a m t ho c m t s t . Ngày nay, h u h t các searchố ơ ộ ứ ộ ặ ộ ố ừ ầ ế
engine đ u h tr ch c năng tìm c b n và nâng cao, tìm t đ n, t ghép, c m t ,ề ỗ ợ ứ ơ ả ừ ơ ừ ụ ừ
danh t riêng, hay gi i h n ph m vi tìm ki m nh trên đ m c, tiêu đ , đo n văn b nừ ớ ạ ạ ế ư ề ụ ề ạ ả
gi i thi u v trang web,… ớ ệ ề
Ngoài chi n l c tìm chính xác theo t khoá, các search engine còn c g ng ‘ế ượ ừ ố ắ
hi u ‘ ý nghĩa th c s c a câu h i thông qua nh ng câu ch do ng i dùng cung c p.ể ự ự ủ ỏ ữ ữ ườ ấ
Đi u này đ c th hi n qua ch c năng s a l i chính t , tìm c nh ng hình th c bi nề ượ ể ệ ứ ử ỗ ả ả ữ ứ ế
đ i khác nhau c a m t t . Ví d : search engine s tìm nh ng t nh speaker,ổ ủ ộ ừ ụ ẽ ữ ừ ư
speaking, spoke khi ng i dùng nh p vào t speak.ườ ậ ừ
2. Nguyên lý ho t đ ngạ ộ
Search engine đi u khi n robot đi thu th p thông tin trên m ng thông qua cácề ể ậ ạ
siêu liên k t ( hyperlink ). Khi robot phát hi n ra m t site m i, nó g i tài li u (webế ệ ộ ớ ở ệ
Lê Thuý Ng c - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
page) v cho server chính đ t o c s d li u ch m c ph c v cho nhu c u tìmề ể ạ ơ ở ữ ệ ỉ ụ ụ ụ ầ
ki m thông tin.ế
B i vì thông tin trên m ng luôn thay đ i nên robot ph i liên t c c p nh t cácở ạ ổ ả ụ ậ ậ
site cũ. M t đ c p nh t ph thu c vào t ng h th ng search engine. Khi searchậ ộ ậ ậ ụ ộ ừ ệ ố
engine nh n câu truy v n t user, nó s ti n hành phân tích, tìm trong c s d li uậ ấ ừ ẽ ế ơ ở ữ ệ
ch m c & tr v nh ng tài li u tho yêu c u.ỉ ụ ả ề ữ ệ ả ầ
Lê Thuý Ng c - 0012745 ọ 4 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ch ng 2: ươ B THU TH P THÔNG TIN – ROBOTỘ Ậ
1. ng d ng c a Robot Ứ ụ ủ
Robot th ng đ c s d ng cho nh ng m c đích sau :ườ ượ ử ụ ữ ụ
1.1 Phân tích, th ng kê – Statistical Analysisố
Robot đ u tiên đ c dùng đ đ m s l ng web server, s tài li u trung bìnhầ ượ ể ế ố ượ ố ệ
c a m t server, t l các d ng file khác nhau, kích th c trung bình c a m t trangủ ộ ỉ ệ ạ ướ ủ ộ
web, đ k t dính, …ộ ế
1.2 Duy trì siêu liên k - Maintenanceế
M t trong nh ng khó khăn c a vi c duy trì m t siêu liên k t là nó liên k t v iộ ữ ủ ệ ộ ế ế ớ
nh ng trang b h ng (dead links) khi nh ng trang này b thay đ i ho c th m chí b xóa.ữ ị ỏ ữ ị ổ ặ ậ ị
Th t không may v n ch a có c ch nào c nh báo các b duy trì v s thay đ i này.ậ ẫ ư ơ ế ả ộ ề ự ổ
Trên th c t khi các tác gi nh n ra tài li u c a mình ch a nh ng liên k t h ng, hự ế ả ậ ệ ủ ứ ữ ế ỏ ọ
s thông báo cho nhau, ho c th nh tho ng đ c gi thông báo cho h b ng email.ẽ ặ ỉ ả ộ ả ọ ằ
M t s robot, ch ng h n MOMspider có th tr giúp tác gi phát hi n các liênộ ố ẳ ạ ể ợ ả ệ
k t h ng cũng nh duy trì các c u trúc siêu liên k t cùng n i dung c a m t trang web.ế ỏ ư ấ ế ộ ủ ộ
Ch c năng này l p l i liên t c m i khi m t tài li u đ c c p nh t, nh đó m i v nứ ặ ạ ụ ỗ ộ ệ ượ ậ ậ ờ ọ ấ
đ x y ra s đ c gi i quy t nhanh chóng. ề ả ẽ ượ ả ế
1.3 Ánh x đ a ch web - Mirroringạ ị ỉ
Mirroring là m t k thu t ph bi n trong vi c duy trì các kho d li u c a FPT.ộ ỹ ậ ổ ế ệ ữ ệ ủ
M t ánh x (mirror) s sao chép toàn b c u trúc cây th m c và th ng xuyên c pộ ạ ẽ ộ ấ ư ụ ườ ậ
Lê Thuý Ng c - 0012745 ọ 5 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
nh t nh ng file b thay đ i. Đi u này cho phép nhi u ng i cùng truy xu t m t ngu nậ ữ ị ổ ề ề ườ ấ ộ ồ
d li u, gi m s liên k t b th t b i, nhanh h n và ít chi phí h n so v i truy c p tr cữ ệ ả ố ế ị ấ ạ ơ ơ ớ ậ ự
ti p vào site th c s ch a các d li u này. ế ự ự ứ ữ ệ
1.4 Phát hi n tài nguyên – Resource Discoveryệ
Có l ng d ng thú v nh t c a robot là dùng nó đ phát hi n tài nguyên. Conẽ ứ ụ ị ấ ủ ể ệ
ng i không th ki m soát n i m t kh i l ng thông tin kh ng l trong môi tr ngườ ể ể ổ ộ ố ượ ổ ồ ườ
m ng. Robot s giúp thu th p tài li u, t o và duy trì c s d li u, phát hi n và xoáạ ẽ ậ ệ ạ ơ ở ữ ệ ệ
b các liên k t h ng n u có, k t h p v i công c tìm ki m cung c p thông tin c nỏ ế ỏ ế ế ợ ớ ụ ế ấ ầ
thi t cho con ng i.ế ườ
1.5 K t h p các công d ng trên- Combined usesế ợ ụ
M t robot có th đ m nh n nhi u ch c năng. Ví d RBSE Spider [4] v aộ ể ả ậ ề ứ ụ ừ
th ng kê s l ng tài li u thu đ c v a t o c s d li u. Tuy nhiên nh ng ngố ố ượ ệ ượ ừ ạ ơ ở ữ ệ ữ ứ
d ng nh th còn khá ít i. ụ ư ế ỏ
2. Robot ch m c – Robot Indexingỉ ụ
Trong quá trình thu th p thông tin ph c v cho b l p ch m c, ta c n gi iậ ụ ụ ộ ậ ỉ ụ ầ ả
quy t nh ng v n đ sau :ế ữ ấ ề
M t là : Trong môi tr ng m ng, robot l y thông tin t các site. V y robot sộ ườ ạ ấ ừ ậ ẽ
b t đ u t site nào ? Đi u này hoàn toàn ph thu c vào robot. M i robot khác nhau sắ ầ ừ ề ụ ộ ỗ ẽ
có nh ng chi n l c khác nhau. Th ng thì robot s vi ng thăm các site ph bi nữ ế ượ ườ ẽ ế ổ ế
ho c nh ng site có nhi u liên k t d n đ n nó.ặ ữ ề ế ẫ ế
Hai là : Ai s cung c p đ a ch c a các site này cho robot ? ẽ ấ ị ỉ ủ
Lê Thuý Ng c - 0012745 ọ 6 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Có 2 ngu n :ồ
Robot nh n các URL ban đ u t user. ậ ầ ừ
Robot phân tích các trang web đ l y các URL m i, đ n l t các URL này trể ấ ớ ế ượ ở
thành đ a ch đ u vào cho robot. Quá trình này đ c l p l i liên t c.ị ỉ ầ ượ ặ ạ ụ
Ba là : Ch n d li u nào trong tài li u đ l p ch m c ?ọ ữ ệ ệ ể ậ ỉ ụ
Quy t đ nh ch n d li u nào trong tài li u cũng hoàn toàn ph thu c vào robot,ế ị ọ ữ ệ ệ ụ ộ
th ng thì nh ng t đ c li t kê nh sau đ c xem là quan tr ng :ườ ữ ừ ượ ệ ư ượ ọ
góc cao c a tài li u.Ở ủ ệ
Trong các đ m cề ụ
Đ c in đ m (inktomi)ượ ậ
Trong URL.
Trong tiêu đ (quan tr ng)ề ọ
Trong ph n miêu t trang web (description) .ầ ả
Trong các th dành cho hình nh (ALT graphisc).ẻ ả
Trong các th ch a t khóa.ẻ ứ ừ
Trong các text liên k t.ế
M t s robot l p ch m c trên tiêu đ , ho c m t s đo n văn b n đ u tiênộ ố ậ ỉ ụ ề ặ ộ ố ạ ả ầ
ho c toàn b tài li u (full text). M t s khác l i l p ch m c trên các thặ ộ ệ ộ ố ạ ậ ỉ ụ ẻ
META(META tags) ho c các th n, nh v y tác gi c a trang web đ c quy n nặ ẻ ẩ ờ ậ ả ủ ượ ề ấ
đ nh t khoá cho tài li u c a mình. Tuy nhiên ch c năng này b l m d ng quá nhi uị ừ ệ ủ ứ ị ạ ụ ề
do đó các th META không còn gi đ c giá tr ban đ u c a chúng n a.ẻ ữ ượ ị ầ ủ ữ
Lê Thuý Ng c - 0012745 ọ 7 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
3. Các chi n thu t thu th p d li u ế ậ ậ ữ ệ [II.1]
Tr c khi các trang web đ c đánh ch m c, t t c các trang web ph i đ cướ ượ ỉ ụ ấ ả ả ượ
l y v máy c a robot. Đ l y đ c t t c các trang web, robot ph i có chi n thu t.ấ ề ủ ể ấ ượ ấ ả ả ế ậ
T m t s trang web có s n, robot l c ra danh sách các liên k t, r i t đó dò tìm cácừ ộ ố ẵ ọ ế ồ ừ
trang khác.
Có 3 chi n thu t tìm ki m Heuristic sau : tìm ki m theo chi u sâu, tìm ki mế ậ ế ế ề ế
theo chi u r ng và tìm ki m ng u nhiên. ề ộ ế ẫ
3.1 Chi n thu t tìm ki m theo chi u sâuế ậ ế ề
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y trang đ u tiên trong danh sách.ấ ầ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế
không?
(4a) N u có, thêm liên k t này vào đ u danh sách. Quay l i (4) ế ế ầ ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
Lê Thuý Ng c - 0012745 ọ 8 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
3.2 Chi n thu t tìm ki m theo chi u r ngế ậ ế ề ộ
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y trang đ u tiên trong danh sách.ấ ầ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế
không?
(4a) N u có, thêm liên k t này vào cu i danh sách. Quay l i (4) ế ế ố ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
3.3 Chi n thu t tìm ki m theo ng u nhiênế ậ ế ẫ
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y ng u nhiên m t trang trong danh sách.ấ ẫ ộ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
Lê Thuý Ng c - 0012745 ọ 9 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế
không?
(4a) N u có, thêm liên k t này vào cu i danh sách. Quay l i (4) ế ế ố ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
4. Nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ
4.1 Chi phí và hi m hoể ạ
Vi c s d ng các Robot t n khá nhi u chi phí, đ c bi t là khi chúng đ c đi uệ ử ụ ố ề ặ ệ ượ ề
khi n t xa trên internet. Ph n này chúng ta s cùng th o lu n v nh ng hi m ho doể ừ ầ ẽ ả ậ ề ữ ể ạ
robot gây ra.
4.1.1 Qúa t i m ng và server – Network resource and server loadả ạ
Sau m t kho ng th i gian dài, th ng là m t tháng, robot s b t đ u ho tộ ả ờ ườ ộ ẽ ắ ầ ạ
đ ng m t cách liên t c. Đ tăng t c nhi u robot đ c phóng ra đ ng th i do đó c nộ ộ ụ ể ố ề ượ ồ ờ ầ
có băng thông l n. Tài nguyên m ng b khai thác quá m c khi robot yêu c u m tớ ạ ị ứ ầ ộ
l ng l n thông tin trong kho ng th i gian quá ng n (rapid fire). K t qu là thi uượ ớ ả ờ ắ ế ả ế
băng thông cho nh ng ng d ng khác. Server v a ph i ph c v yêu c u c a robotữ ứ ụ ừ ả ụ ụ ầ ủ
v a cung c p d ch v cho user, do đó yêu c u c a robot tăng lên bao nhiêu thì d ch vừ ấ ị ụ ầ ủ ị ụ
s gi m xu ng b y nhiêu. Tác gi c a m t con robot đã th nghi m b ng cách choẽ ả ố ấ ả ủ ộ ử ệ ằ
thi hành 20 l t truy c p đ ng th i vào server c a anh ta. Nh ng lúc robot thu th pượ ậ ồ ờ ủ ữ ậ
thông tin, server b ch m l i. Trong vòng m t tu n robot đã vi ng thăm site này v iị ậ ạ ộ ầ ế ớ
Lê Thuý Ng c - 0012745 ọ 10 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
m t yêu c u kinh kh ng. Ch sau 170 l t truy xu t liên t c, th nghi m th t b i doộ ầ ủ ỉ ượ ấ ụ ử ệ ấ ạ
server b quá t i.ị ả
Rapid fire th c s là th m ho . Hi u qu truy n t i thông tin d ng này b ngự ự ả ạ ệ ả ề ả ạ ằ
giao th c web hay HTTP s t gi m th y rõ. Nh ng giao th c m i đang đ c xem xétứ ụ ả ấ ữ ứ ớ ượ
nh m c u vãn tình th . ằ ứ ế
4.1.2 S c p nh t quá m c- Updating overheadự ậ ậ ứ
Ng i ta cho r ng các c s d li u do web robot t o ra có th đ c c p nh tườ ằ ơ ở ữ ệ ạ ể ượ ậ ậ
t đ ng nh ng cho đ n th i đi m này v n ch a có c ch ki m soát s thay đ i trênự ộ ư ế ờ ể ẫ ư ơ ế ể ự ổ
web m t cách hi u qu . C p nh t thông tin r t quan tr ng nh ng qúa th ng xuyên làộ ệ ả ậ ậ ấ ọ ư ườ
đi u không c n thi t.ề ầ ế
Xu t phát t th c t đó HTTP đ a ra k thu t ‘if – Modified – Since’ giúp cácấ ừ ự ế ư ỹ ậ
user – agent xác đ nh đ c th i đi m tài li u thay đ i. Robot phát hi n đi u này chị ượ ờ ể ệ ổ ệ ề ỉ
khi nó l u l i các thông tin cũ nh ng s t n nhi u b nh & c n d li u ph c t p. ư ạ ư ẽ ố ề ộ ớ ầ ữ ệ ứ ạ
M t trong nh ng đ c tính ph bi n c a robot là kh năng ti p nh n các t c nộ ữ ặ ổ ế ủ ả ế ậ ừ ầ
tìm trong khi v n thu th p d li u. Tuy nhiên m t s ng i cho r ng đ c tính nàyẫ ậ ữ ệ ộ ố ườ ằ ặ
không đáng hoan nghênh b i hai lý do : ở
Đ u tiên, các tác v tìm ki m c a ng i s d ng cu i (end - user) góp ph nầ ụ ế ủ ườ ử ụ ố ầ
đ y server vào ch quá t i.ẩ ỗ ả
Th hai, không có c s đ m b o có m i quan h gi a các t c n tìm, đúngứ ơ ở ả ả ố ệ ữ ừ ầ
chính t và t i u đ i v i c s d li u. Ví d , n u b tìm ki m không hả ố ư ố ớ ơ ở ữ ệ ụ ế ộ ế ỗ
tr các toán t boolean, m t user c n d li u v xe máy mu n có đ cợ ử ộ ầ ữ ệ ề ố ượ
thông tin đúng thay vì nh p vào c m t ‘Ford and garage’ ph i nh p vào tậ ụ ừ ả ậ ừ
‘car’. Nh ng ng i đó không h ý th c đ c đi u này. ư ườ ề ứ ượ ề
Lê Thuý Ng c - 0012745 ọ 11 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
M t khía c nh nguy hi m n a b t ngu n t s đ nh h ng sai l m c a end –ộ ạ ể ữ ắ ồ ừ ự ị ướ ầ ủ
user. M t s ng i s d ng công c c a mình r t t t nh d đoán đ c l ng tàiộ ố ườ ử ụ ụ ủ ấ ố ư ự ượ ượ
li u l n nh t có th có, bi t chính xác n i c n tìm d li u, gi i h n th i gian sệ ớ ấ ể ế ơ ầ ữ ệ ớ ạ ờ ử
d ng robot, trong khi đó m t s khác l i l m d ng kh năng c a robot m t cách vôụ ộ ố ạ ạ ụ ả ủ ộ
tình ho c c ý. Vì v y các tác gi vi t robot đ ngh ch nên phân phát s n ph m c aặ ố ậ ả ế ề ị ỉ ả ẩ ủ
mình cho nh ng end-user ‘hi u‘ đ c web robot và nh ng khó khăn trong môi tr ngữ ể ượ ữ ườ
m ng. ạ
4.1.3 Nh ng tình hu ng không mong đ i – Bad implementationsữ ố ợ
Thay vì ki m tra trên máy c c b tr c, m t s tác gi l n đ u tiên vi t robotể ụ ộ ướ ộ ố ả ầ ầ ế
cho th ngay trên các server th c s , đi u này làm đau đ u không ít nhà qu n tr webử ự ự ề ầ ả ị
(web master).
Truy xu t trùng l p có th x y ra khi robot không l u l i d u v t nh ng n i nóấ ặ ể ả ư ạ ấ ế ữ ơ
đã đi qua ho c nó không nh n di n đ c các URL m c dù khác nhau v tên nh ng l iặ ậ ệ ượ ặ ề ư ạ
cùng d n đ n m t đ a ch , ví d đ a ch DSN & IP.ẫ ế ộ ị ỉ ụ ị ỉ
Đôi khi, robot lãng phí th i gian và tài nguyên ch đ thu v nh ng tài li u màờ ỉ ể ề ữ ệ
sau đó ph i v t đi. Ví d h th ng ch quan tâm đ n file văn b n (text file) nh ngả ứ ụ ệ ố ỉ ế ả ư
robot l i nh n c nh ng lo i file khác nh file hình nh, file th c thi, … ạ ậ ả ữ ạ ư ả ự
Trong môi tr ng m ng có nh ng vùng g n nh vô t n. Ví d , c m i l nườ ạ ữ ầ ư ậ ụ ứ ỗ ầ
phân tích m t trang robot nh n v cùng m t URL nh ng xa h n m t c p, ‘/cgi-ộ ậ ề ộ ư ơ ộ ấ
bin/pit/’, và ti p t c ‘/cgi-bin/pit/a/’, ‘/cgi-bin/pit/a/a’, …. . S l p l i không có đi mế ụ ự ặ ạ ể
d ng này đ c g i là các l đen (black holes)ừ ượ ọ ỗ
Lê Thuý Ng c - 0012745 ọ 12 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
4.2 Tiêu chu n lo i tr robotẩ ạ ừ
Trong quá trình x lý robot không th t quy t đ nh tài li u nào đ c l p chử ể ự ế ị ệ ượ ậ ỉ
m c, tài li u nào không do đó nó l y t t c nh ng gì có th . Th m chí dù xác đ nhụ ệ ấ ấ ả ữ ể ậ ị
đ c tài li u vô ích thì nó cũng đã b ra m t chi phí đáng k cho ho t đ ng thu th p.ượ ệ ỏ ộ ể ạ ộ ậ
Tiêu chu n lo i tr robot ra đ i. Các chu n này ch ng nh ng ch ra URL nào c nẩ ạ ừ ờ ẩ ẳ ữ ỉ ầ
tránh mà còn c nh báo robot v các l đen. ả ề ỗ
4.2.1 File robot.txt
Robot.txt là m t file c u trúc đ c đ t t i th m c g c c a server, g m 2ộ ấ ượ ặ ạ ư ụ ố ủ ồ
tr ng User-agent và Disallow.ườ
User-agent : cho bi t robot nào s b ki m soát.ế ẽ ị ể
Disallow : cho bi t robot có đ c phép k t n i vào URL này hay không.ế ượ ế ố
Xét các ví d sau :ụ
Ví dụ Ý nghĩa
# / robots.txt file for
/>Ký t # b t đ u m t chú thíchự ắ ầ ộ
User-agent: webcrawler
Disallow:
Robot có tên là webcrawler có th đi đ n b t c trang nàoể ế ấ ứ
c a siteủ
User-agent: lycra
Disallow: /
Robot có tên là lycra b c m trên t t c các trang c a siteị ấ ấ ả ủ
Lê Thuý Ng c - 0012745 ọ 13 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
User-agent: *
Disallow: /tmp
Disallow: /logs
M i robot đ u không đ c truy xu t vào 2 th m c tmp vàọ ề ượ ấ ư ụ
logs
B ng ả 2.1 :Ví d v chu n lo i tr robot dùng file robot.txtụ ề ẩ ạ ừ
4.2.2 Th META dành cho robot – Robot META tagẻ
META tag là s m r ng c a chu n lo i tr robot, h tr cho tác gi c aự ở ộ ủ ẩ ạ ừ ỗ ợ ả ủ
nh ng ữ trang web không có quy n admin.ề
V tríị N m trong ph n HEAD c a file HTMLằ ầ ủ
Cú pháp <meta name = ‘robots’ content = ‘index, follow’>
Tên tr ngườ Ý nghĩa
Meta Th báo hi u b t đ uẻ ệ ắ ầ
Name Tên robot s b ki m soátẽ ị ể
Content C đ nh h ng cho robot, các c này có th k tờ ị ướ ờ ể ế
h p v i nhau & đ c phân cách b ng d u ph y. ợ ớ ượ ằ ấ ẩ
B ng ả 2.2 : B ng thông tin v META tag trong chu n lo i tr robotả ề ẩ ạ ừ
Các c c a thu c tính Contentờ ủ ộ Ý nghĩa
Lê Thuý Ng c - 0012745 ọ 14 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
[NO]INDEX Robot không nên l p ch m c cho trangậ ỉ ụ
này.
[NO]FOLLOW Robot không nên l y các liên k t trangấ ế ở
này
ALL = INDEX, FOLLOW
NONE= NOINDEX, NOFOLLOW
B ng ả 2.3 : B ng giá tr các c c a thu c tính Content trong META tagả ị ờ ủ ộ
4.2.3 Nh c đi m c a file robot.txtượ ể ủ
Ng i ta cho r ng vi c li t kê các trang ho c các th m c trong file robot.txtườ ằ ệ ệ ặ ư ụ
s là nguyên nhân thu hút s chú ý t các ‘v khách không m i‘. Th c ra chu n lo iẽ ự ừ ị ờ ự ẩ ạ
tr robot ch là d u hi u c nh báo, không là bi n pháp c m robot cho nên vi c tuânừ ỉ ấ ệ ả ệ ấ ệ
theo hay không hoàn toàn là v n đ t nguy n. Tuy nhiên ta v n có cách kh c ph c :ấ ề ự ệ ẫ ắ ụ
M t là : ộ
T o m t th m c ch a t t c các file quan tr ng.ạ ộ ư ụ ứ ấ ả ọ
Tr ng Disallow ch li t kê tên th m c v a t o.ườ ỉ ệ ư ụ ừ ạ
C u hình server sao cho các trang không ch a đ ng d n đ n th m c này.ấ ứ ườ ẫ ế ư ụ
Đáng bu n trên th c t cách này không đ t đ c k t qu mong đ i do m tồ ự ế ạ ượ ế ả ợ ộ
trong các nguyên nhân sau :
Các server có robot không b c m có th d n đ ng các robot b c m khácị ấ ể ẫ ườ ị ấ
đ n nh ng file này.ế ữ
Lê Thuý Ng c - 0012745 ọ 15 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Các file quan tr ng có th n m trong log file (file đ c t do truy xu t)ọ ể ằ ượ ự ấ
Khi c u hình l i server, admin có th ‘quên‘ các th m c này ph i c mấ ạ ể ư ụ ả ấ
robot!
…………………………………………
Hai là: ch ng th c (athorization). Đây là bi n pháp h u hi u, đ c s d ngứ ự ệ ữ ệ ượ ử ụ
trong nhi u lĩnh v c, đ c bi t trong nh ng môi tr ng mà s an toàn d li u tr nênề ự ặ ệ ữ ườ ự ữ ệ ở
r t c n thi t. ấ ầ ế
Tóm t t : ắ
Có th nói web robot là con dao 2 l i, s d ng đúng s gi i quy t đ cể ưỡ ử ụ ẽ ả ế ượ
nhi u v n đ , s d ng sai s đ l i nh ng h u qu khó đoán. Sau đây là tóm t t choề ấ ề ử ụ ẽ ể ạ ữ ậ ả ắ
nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ
Tránh lãng phí tài nguyên
Ch t i v nh ng tài li u c n thi t.ỉ ả ề ữ ệ ầ ế
N u h th ng ch quan tâm đ n các file text (.html, .htm, .xml, …),ế ệ ố ỉ ế
web robot nên b qua các liên k t d n đ n nh ng file th c thi (.exe,ỏ ế ẫ ế ữ ự
…), file nh (.gif, .bmp, …).ả
B qua các tr ng d li u h th ng không dùng đ n. ỏ ườ ữ ệ ệ ố ế
Đ ng l y v các trang gi ng nhau nhi u h n m t l n.ừ ấ ề ố ề ơ ộ ầ
Tránh c p nh t l i các site cũ quá th ng xuyên b ng cách :ậ ậ ạ ườ ằ
Ghi nh nh ng đ a ch web robot đã duy t qua. ớ ữ ị ỉ ệ
Lê Thuý Ng c - 0012745 ọ 16 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
D a vào tr ng LastModified, tr ng head. N u các tr ng này khácự ườ ườ ế ườ
v i d li u ta đã có thì đó là nh ng thông tin c n ghi nh n.ớ ữ ệ ữ ầ ậ
Không nên duy t h t m t site, ch c n duy t đ n m t đ sâu (deepệ ế ộ ỉ ầ ệ ế ộ ộ
link) c n thi t.ầ ế
Tránh làm quá t i ả server
Duy trì m t kho ng th i gian đ i gi a các l n truy xu t liên ti p.ộ ả ờ ợ ữ ầ ấ ế
K t n i v i server vào nh ng th i đi m thích h p. Tham kh o ý ki nế ố ớ ữ ờ ể ợ ả ế
c a admin đ bi t thông tin này.ủ ể ế
Ki m tra web robot trên máy c c b , s a l i tr c khi ch y trênể ụ ộ ử ỗ ươ ạ
server th c s . ự ự
Tuân theo các lu t lo i tr robot.ậ ạ ừ
Lê Thuý Ng c - 0012745 ọ 17 Đ M Nhung - 0012624ỗ ỹ