Tải bản đầy đủ (.pdf) (151 trang)

Báo cáo - Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng việt ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 151 trang )






Báo cáo - Tìm hiểu về
Search Engine và xây
dựng ứng dụng minh
hoạ cho Search
Engine tiếng việt
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
L I C M NỜ Ả Ơ
Đ u tiên, chúng em xin g i l i c m n đ n Th y, Cô khoa Công ngh Thôngầ ở ờ ả ơ ế ầ ệ
tin tr ng Đ i h c Khoa h c T nhiên đã t n tình d y d , dìu d t chúng em su t b nườ ạ ọ ọ ự ậ ạ ỗ ắ ố ố
năm đ i h c.ạ ọ
Chúng em c m n Cô Nguy n Th Di m Tiên, ng i t n tình h ng d n, giúpả ơ ễ ị ễ ườ ậ ướ ẫ
đ , đ ng viên chúng em hoàn thành lu n văn này.ỡ ộ ậ
Chúng tôi c m n các anh Tr n Nguy n Hoàng Ph ng, Bùi Ng c Tu n Anh,ả ơ ầ ễ ươ ọ ấ
Đoàn H u Quang Vinh và các b n Nguy n Huy Hoàng, Phan Anh Đ c đã giúp đ ,ữ ạ ễ ứ ỡ
đóng góp ý ki n cho chúng tôi trong quá trình cài đ t, th nghi m ch ng trình.ế ặ ử ệ ươ
Cu i cùng, chúng con c m n Ba, M và nh ng ng i thân đã khích l , đ ngố ả ơ ẹ ữ ườ ệ ộ
viên chúng con trong th i gian h c t p, nghiên c u đ có đ c thành qu nh ngàyờ ọ ậ ứ ể ượ ả ư
nay.
Tháng 7 năm 2004
Sinh viên
Lê Thuý Ng c – Đ M Nhungọ ỗ ỹ
Lê Thuý Ng c - 0012745 ọ 1 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
NH N XÉT C A GIÁO VIÊN H NG D NẬ Ủ ƯỚ Ẫ
……………………………………………………………………………………
……………………………………………………………………………………


……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……năm 2004
Ký tên
Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
NH N XÉT C A GIÁO VIÊN PH N BI NẬ Ủ Ả Ệ
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………

……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……năm 2004
Ký tên
Lê Thuý Ng c - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
M C L CỤ Ụ
Ph n 1 : TÌM HI U V N Đầ Ể Ấ Ề 2
Ch ng 1: T NG QUAN V H TH NG SEARCH ENGINEươ Ổ Ề Ệ Ố 2
1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố 2
1.1 B thu th p thông tin – Robotộ ậ 2
1.2 B l p ch m c – Indexộ ậ ỉ ụ 2
1.3 B tìm ki m thông tin – Search Engineộ ế 3
2. Nguyên lý ho t đ ngạ ộ 3
Ch ng 2: B THU TH P THÔNG TIN – ROBOTươ Ộ Ậ 5
1. ng d ng c a Robot Ứ ụ ủ 5
1.1 Phân tích, th ng kê – Statistical Analysisố 5
1.2 Duy trì siêu liên k - Maintenanceế 5
1.3 Ánh x đ a ch web - Mirroringạ ị ỉ 5
1.4 Phát hi n tài nguyên – Resource Discoveryệ 6
1.5 K t h p các công d ng trên- Combined usesế ợ ụ 6
2. Robot ch m c – Robot Indexingỉ ụ 6
3. Các chi n thu t thu th p d li u [II.1] ế ậ ậ ữ ệ 8
3.1 Chi n thu t tìm ki m theo chi u sâuế ậ ế ề 8
3.2 Chi n thu t tìm ki m theo chi u r ngế ậ ế ề ộ 9
3.3 Chi n thu t tìm ki m theo ng u nhiênế ậ ế ẫ 9
4. Nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ 10

4.1 Chi phí và hi m hoể ạ 10
4.1.1 Qúa t i m ng và server – Network resource and server loadả ạ 10
4.1.2 S c p nh t quá m c- Updating overheadự ậ ậ ứ 11
4.1.3 Nh ng tình hu ng không mong đ i – Bad implementationsữ ố ợ 12
4.2 Tiêu chu n lo i tr robotẩ ạ ừ 13
4.2.1 File robot.txt 13
4.2.2 Th META dành cho robot – Robot META tagẻ 14
4.2.3 Nh c đi m c a file robot.txtượ ể ủ 15
Ch ng 3: B L P CH M C – INDEXươ Ộ Ậ Ỉ Ụ 18
1. Khái quát v h th ng l p ch m c ề ệ ố ậ ỉ ụ 18
2. T ng quan v ph ng pháp l p ch m c ([I.1], [I.2], [II.1])ổ ề ươ ậ ỉ ụ 21
2.1 Xác đ nh m c t quan tr ng c n l p ch m c ([I.1])ị ụ ừ ọ ầ ậ ỉ ụ 21
2.2 M t s hàm tính tr ng s m c t . ([I.1])ộ ố ọ ố ụ ừ 23
2.2.1 Ngh ch đ o tr ng s t n s tài li u (The Inverse Document Frequencyị ả ọ ố ầ ố ệ
Weight) 24
Lê Thuý Ng c - 0012745 ọ 4 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
2.2.2 Đ nhi u tín hi u (Signal Noise): ộ ễ ệ 25
2.2.3 Giá tr đ phân bi t c a m c t : ị ộ ệ ủ ụ ừ 25
2.2.4 K t h p t n s xu t hi n m c t và ngh ch đ o t n s tài li uế ợ ầ ố ấ ệ ụ ừ ị ả ầ ố ệ 27
2.3 L p ch m c t đ ng cho tài li uậ ỉ ụ ự ộ ệ 28
3. L p ch m c cho tài li u ti ng Vi t ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11],ậ ỉ ụ ệ ế ệ
[IV.12]) 30
3.1 Khó khăn cho vi c l p ch m c ti ng Vi tệ ậ ỉ ụ ế ệ 30
3.2 Đ c đi m v t trong ti ng Vi t và vi c tách tặ ể ề ừ ế ệ ệ ừ 31
3.2.1 . Đ c đi m v t trong ti ng Vi t:ặ ể ề ừ ế ệ 31
3.2.2 Tách từ 32
3.3 Gi i quy t các v n đ hi n th c a ti ng Vi t (v n đ chính t )ả ế ấ ề ể ị ủ ế ệ ấ ề ả 34
3.3.1 V n đ b ng mãấ ề ả 34
3.3.2 V n đ d u thanhấ ề ấ 35

3.3.3 V n đ d u t h p nguyên âmấ ề ấ ổ ợ 36
3.4 Gi i quy t các v n đ v t c a ti ng Vi tả ế ấ ề ề ừ ủ ế ệ 37
3.4.1 Lu t xác đ nh các t láyậ ị ừ 37
3.4.2 Lu t xác đ nh các liên tậ ị ừ 37
3.5 Xây d ng t đi n ti ng Vi tự ừ ể ế ệ 38
Ch ng 4: B TÌM KI M THÔNG TIN – SEARCH ENGINEươ Ộ Ế 40
1. Vì sao ta c n m t công c tìm ki m (SE) ?ầ ộ ụ ế 40
2. Các ph ng th c tìm ki mươ ứ ế 40
2.1 Tìm theo t khoá – Keyword searchingừ 40
2.2 Nh ng khó khăn khi tìm theo t khoá ữ ừ 41
2.3 Tìm theo ng nghĩa – Concept-based searchingữ 41
3. Các chi n l c tìm ki mế ượ ế 42
3.1 Tìm thông tin v i các th m c ch đớ ư ụ ủ ề 42
3.2 Tìm thông tin v i các công c tìm ki mớ ụ ế 43
3.3 T i u câu truy v n ố ư ấ 43
3.4 Truy v n b ng ví dấ ằ ụ 44
Ch ng 5: M T S SEARCH ENGINE THÔNG D NG TRÊN TH GI Iươ Ộ Ố Ụ Ế Ớ
VÀ VI T NAM Ệ 45
1.1 Th m c c a Yahoo, Google ư ụ ủ 53
1.2 Alltheweb 54
1.3 AltaVista 54
1.4 Lycos 55
1.5 HotBot 55
2. M t s search engine thông d ng Vi t Namộ ố ụ ở ệ 55
2.1 Netnam [IV.12] 55
2.1.1 Ph ng pháp Netnam SE l p ch m c d li uươ ậ ỉ ụ ữ ệ 58
Lê Thuý Ng c - 0012745 ọ 5 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
2.1.2 Cú pháp tìm ki m ế 60
2.1.3 S d ng t khoá đ l c các tìm ki mử ụ ừ ể ọ ế 62

2.2 Vinaseek ([IV.11]) 65
Ph n 2 : THI T K VÀ CÀI Đ Tầ Ế Ế Ặ 67
Ch ng 1: THI T K D LI Uươ Ế Ế Ữ Ệ 67
1. C s d li u trong SQL ơ ở ữ ệ 67
2. H th ng t p tinệ ố ậ 70
Ch ng 2: THU TH P THÔNG TINươ Ậ 72
1. C u trúc d li uấ ữ ệ 72
1.1 C u trúc UrlInfoấ 73
1.2 C u trúc StartUrlInfoấ 74
1.3 C u trúc FileRetrievalấ 75
1.4 C u trúc ProjectInfoấ 75
2. X lý c a web robotử ủ 77
3. Gi i quy t các v n đ c a web robotả ế ấ ề ủ 82
3.1 Tránh s l p l iự ặ ạ 82
3.2 Tránh làm qúa t i serverả 82
3.3 Tránh truy xu t đ n các d ng tài nguyên không thích h pấ ế ạ ợ 83
3.4 Tránh các l đen(black holes)ỗ 83
3.5 Tránh nh ng n i c m robot ữ ơ ấ 83
4. Các thu t toán phân tích c u trúc file HTMLậ ấ 83
4.1 Thu t toán l y liên k tậ ấ ế 83
4.1.1 Thu t toán ng d ng cũ đã cài đ tậ ứ ụ ặ 84
4.1.2 Ch n l a c a ng d ng m iọ ự ủ ứ ụ ớ 88
4.2 Thu t toán l y tiêu đ ậ ấ ề 88
4.3 Thu t toán l y n i dungậ ấ ộ 89
5. Duy trì thông tin cho CSDL 90
6. Resume project 90
6.1 Nguyên t c resume c a ng d ng cũắ ủ ứ ụ 1 91
6.2 C i ti n c a ng d ng m iả ế ủ ứ ụ ớ 93
Ch ng 3: L P CH M Cươ Ậ Ỉ Ụ 96
1. Tính tr ng s c a t :ọ ố ủ ừ 96

2. T p tin ngh ch đ o :ậ ị ả 97
3. T đi n ch m c ừ ể ỉ ụ 103
4. Quá trình stemming 109
Ch ng 4: TÌM KI M THÔNG TINươ Ế 112
Lê Thuý Ng c - 0012745 ọ 6 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ch ng 5: CÁC MODULE ,PACKAGE, L P CHÍNH C A CH NGươ Ớ Ủ ƯƠ
TRÌNH 114
1. Các module, package c a ch ng trìnhủ ươ 114
2. Các l p đ i t ng chính trong t ng moduleớ ố ượ ừ 115
2.1 Module DBController 115
2.2 Module ProcessDoc 115
2.3 Module Query 117
2.4 Module SE 117
2.5 Module Webcopy 118
2.6 Module WebcopyGUI 119
Ph n 3 : K T QU , ĐÁNH GIÁ VÀ H NG PHÁT TRI Nầ Ế Ả ƯỚ Ể 120
1. K t qu th nghi mế ả ử ệ 120
2. Ho t đ ng c a ch ng trìnhạ ộ ủ ươ 122
2.1 Giao di n qu n trệ ả ị 122
2.1.1 Giao di n chính c a qu n tr ệ ủ ả ị 122
2.1.2 T o m i projectạ ớ 123
2.1.3 T o m i m t StartUrl : ạ ớ ộ 126
2.1.4 Xem t đi n ch m cừ ể ỉ ụ 129
2.1.5 Qu n lý m c tả ụ ừ 130
2.2 Giao di n tìm ki mệ ế 132
3. Đánh giá 134
3.1 u đi mƯ ể 134
3.2 Khuy t đi mế ể 135
4. H ng phát tri nướ ể 136

4.1 Đ i v i t ng module :ố ớ ừ 136
4.2 Đ i v i toàn lu n văn:ố ớ ậ 137
DANH SÁCH CÁC B NGẢ 138
DANH SÁCH CÁC HÌNH VẼ 140
TÀI LI U THAM KH OỆ Ả 142
I. Sách, ebook: 142
II. Lu n văn, lu n ánậ ậ 142
III. Bài báo 143
IV. Website 143
Lê Thuý Ng c - 0012745 ọ 7 Đ M Nhung - 0012624ỗ ỹ
M Đ UỞ Ầ
Trong th i đ i ngày nay, thông tin là nhu c u thi t y u đ i v i m i ng i trênờ ạ ầ ế ế ố ớ ọ ườ
m i lĩnh v c. M i phút trôi qua hàng tri u tri u trang web đ c đ y lên nh m làmọ ự ỗ ệ ệ ượ ẩ ằ
giàu ngu n tài nguyên vô t n này. Tuy nhiên t n t i m t ngh ch lý là dù đ c ví nhồ ậ ồ ạ ộ ị ượ ư
th vi n toàn c u, internet v n không tho mãn nhu c u thông tin c a con ng i.ư ệ ầ ẫ ả ầ ủ ườ
Xung quanh v n đ này có nhi u nguyên nhân nh ng quan tr ng nh t là s thông hi uấ ề ề ư ọ ấ ự ể
gi a con ng i và công c tìm ki m trên m ng – search engine – ch a đ t đ n m cữ ườ ụ ế ạ ư ạ ế ứ
có th giao ti p t t v i nhau. ể ế ố ớ
H n n a, m i search engine s mang đ c thù c a ngôn ng mà nó hi n th nhơ ữ ỗ ẽ ặ ủ ữ ể ị ư
search engine Ti ng Vi t ph i gi i quy t nh ng v n đ đ c tr ng c a Ti ng Vi t,ế ệ ả ả ế ữ ấ ề ặ ư ủ ế ệ
c th là v n đ b ng mã, ng pháp trong Ti ng Vi t.ụ ể ấ ề ả ữ ế ệ
N u ta hi u cách th c search engine t ch c thông tin, th c thi m t câu truyế ể ứ ổ ứ ự ộ
v n và đ c tr ng c a ngôn ng mà search engine s ti p c n thì ta có th t i u hoáấ ặ ư ủ ữ ẽ ế ậ ể ố ư
c h i nh n đ c các thông tin h u ích. Đây là m c tiêu chính c a lu n văn. ơ ộ ậ ượ ữ ụ ủ ậ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ph n 1 : ầ TÌM HI U V N ĐỂ Ấ Ề
Ch ng 1: ươ T NG QUAN V H TH NG SEARCH ENGINEỔ Ề Ệ Ố
1. Các b ph n c u thành h th ng search engine ộ ậ ấ ệ ố
1.1 B thu th p thông tin – Robotộ ậ
Robot là m t ch ng trình t đ ng duy t qua các c u trúc siêu liên k t đ thuộ ươ ự ộ ệ ấ ế ể

th p tài li u & m t cách đ quy nó nh n v t t c tài li u có liên k t v i tài li u này.ậ ệ ộ ệ ậ ề ấ ả ệ ế ớ ệ
Robot đ c bi t đ n d i nhi u tên g i khác nhau : spider, web wanderer ho cượ ế ế ướ ề ọ ặ
web worm,… Nh ng tên g i này đôi khi gây nh m l n, nh t ‘spider’, ‘wanderer’ữ ọ ầ ẫ ư ừ
làm ng i ta nghĩ r ng robot t nó di chuy n và t ‘worm’ làm ng i ta liên t ngườ ằ ự ể ừ ườ ưở
đ n virus. V b n ch t robot ch là m t ch ng trình duy t và thu th p thông tin tế ề ả ấ ỉ ộ ươ ệ ậ ừ
các site theo đúng giao th c web. Nh ng trình duy t thông th ng không đ c xem làứ ữ ệ ườ ượ
robot do thi u tính ch đ ng, chúng ch duy t web khi có s tác đ ng c a con ng i.ế ủ ộ ỉ ệ ự ộ ủ ườ
1.2 B l p ch m c – Indexộ ậ ỉ ụ
H th ng l p ch m c hay còn g i là h th ng phân tích và x ệ ố ậ ỉ ụ ọ ệ ố ử lý d li uữ ệ , th cự
hi n vi c phân tích, ệ ệ trích ch n nh ng thông tin c n thi tọ ữ ầ ế (th ng là các t đ n , tườ ừ ơ ừ
ghép , c m t quan tr ng)ụ ừ ọ t nh ng d li u mà robot thu th p đ c và t ch c thànhừ ữ ữ ệ ậ ượ ổ ứ
c s d li u riêng đ có th tìm ki m trên đó m t cách nhanh chóng, hi u qu . Hơ ở ữ ệ ể ể ế ộ ệ ả ệ
th ng ch m c là danh sách các t khoá, ch rõ các t khoá nào xu t hi n trang nào,ố ỉ ụ ừ ỉ ừ ấ ệ ở
đ a ch nào.ị ỉ
Lê Thuý Ng c - 0012745 ọ 2 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
1.3 B tìm ki m thông tin – Search Engineộ ế
Search engine là c m t dùng ch toàn b h th ng bao g m b thu th p thôngụ ừ ỉ ộ ệ ố ồ ộ ậ
tin, b l p ch m c & b tìm ki m thông tin. Các b này ho t đ ng liên t c t lúcộ ậ ỉ ụ ộ ế ộ ạ ộ ụ ừ
kh i đ ng h th ng, chúng ph thu c l n nhau v m t d li u nh ng đ c l p v iở ộ ệ ố ụ ộ ẫ ề ặ ữ ệ ư ộ ậ ớ
nhau v m t ho t đ ng. ề ặ ạ ộ
Search engine t ng tác v i user thông qua giao di n web, có nhi m v ti pươ ớ ệ ệ ụ ế
nh n & tr v nh ng tài li u tho yêu c u c a user.ậ ả ề ữ ệ ả ầ ủ
Nói nôm na, tìm ki m t là tìm ki m các trang mà nh ng t trong câu truy v nế ừ ế ữ ừ ấ
(query) xu t hi n nhi u nh t, ngo i tr stopword (các t quá thông d ng nh m o tấ ệ ề ấ ạ ừ ừ ụ ư ạ ừ
a, an, the,…). M t t càng xu t hi n nhi u trong m t trang thì trang đó càng đ cộ ừ ấ ệ ề ộ ượ
ch n đ tr v cho ng i dùng. Và m t trang ch a t t c các t trong câu truy v nọ ể ả ề ườ ộ ứ ấ ả ừ ấ
thì t t h n là m t trang không ch a m t ho c m t s t . Ngày nay, h u h t các searchố ơ ộ ứ ộ ặ ộ ố ừ ầ ế
engine đ u h tr ch c năng tìm c b n và nâng cao, tìm t đ n, t ghép, c m t ,ề ỗ ợ ứ ơ ả ừ ơ ừ ụ ừ
danh t riêng, hay gi i h n ph m vi tìm ki m nh trên đ m c, tiêu đ , đo n văn b nừ ớ ạ ạ ế ư ề ụ ề ạ ả

gi i thi u v trang web,… ớ ệ ề
Ngoài chi n l c tìm chính xác theo t khoá, các search engine còn c g ng ‘ế ượ ừ ố ắ
hi u ‘ ý nghĩa th c s c a câu h i thông qua nh ng câu ch do ng i dùng cung c p.ể ự ự ủ ỏ ữ ữ ườ ấ
Đi u này đ c th hi n qua ch c năng s a l i chính t , tìm c nh ng hình th c bi nề ượ ể ệ ứ ử ỗ ả ả ữ ứ ế
đ i khác nhau c a m t t . Ví d : search engine s tìm nh ng t nh speaker,ổ ủ ộ ừ ụ ẽ ữ ừ ư
speaking, spoke khi ng i dùng nh p vào t speak.ườ ậ ừ
2. Nguyên lý ho t đ ngạ ộ
Search engine đi u khi n robot đi thu th p thông tin trên m ng thông qua cácề ể ậ ạ
siêu liên k t ( hyperlink ). Khi robot phát hi n ra m t site m i, nó g i tài li u (webế ệ ộ ớ ở ệ
Lê Thuý Ng c - 0012745 ọ 3 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
page) v cho server chính đ t o c s d li u ch m c ph c v cho nhu c u tìmề ể ạ ơ ở ữ ệ ỉ ụ ụ ụ ầ
ki m thông tin.ế
B i vì thông tin trên m ng luôn thay đ i nên robot ph i liên t c c p nh t cácở ạ ổ ả ụ ậ ậ
site cũ. M t đ c p nh t ph thu c vào t ng h th ng search engine. Khi searchậ ộ ậ ậ ụ ộ ừ ệ ố
engine nh n câu truy v n t user, nó s ti n hành phân tích, tìm trong c s d li uậ ấ ừ ẽ ế ơ ở ữ ệ
ch m c & tr v nh ng tài li u tho yêu c u.ỉ ụ ả ề ữ ệ ả ầ
Lê Thuý Ng c - 0012745 ọ 4 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Ch ng 2: ươ B THU TH P THÔNG TIN – ROBOTỘ Ậ
1. ng d ng c a Robot Ứ ụ ủ
Robot th ng đ c s d ng cho nh ng m c đích sau :ườ ượ ử ụ ữ ụ
1.1 Phân tích, th ng kê – Statistical Analysisố
Robot đ u tiên đ c dùng đ đ m s l ng web server, s tài li u trung bìnhầ ượ ể ế ố ượ ố ệ
c a m t server, t l các d ng file khác nhau, kích th c trung bình c a m t trangủ ộ ỉ ệ ạ ướ ủ ộ
web, đ k t dính, …ộ ế
1.2 Duy trì siêu liên k - Maintenanceế
M t trong nh ng khó khăn c a vi c duy trì m t siêu liên k t là nó liên k t v iộ ữ ủ ệ ộ ế ế ớ
nh ng trang b h ng (dead links) khi nh ng trang này b thay đ i ho c th m chí b xóa.ữ ị ỏ ữ ị ổ ặ ậ ị
Th t không may v n ch a có c ch nào c nh báo các b duy trì v s thay đ i này.ậ ẫ ư ơ ế ả ộ ề ự ổ

Trên th c t khi các tác gi nh n ra tài li u c a mình ch a nh ng liên k t h ng, hự ế ả ậ ệ ủ ứ ữ ế ỏ ọ
s thông báo cho nhau, ho c th nh tho ng đ c gi thông báo cho h b ng email.ẽ ặ ỉ ả ộ ả ọ ằ
M t s robot, ch ng h n MOMspider có th tr giúp tác gi phát hi n các liênộ ố ẳ ạ ể ợ ả ệ
k t h ng cũng nh duy trì các c u trúc siêu liên k t cùng n i dung c a m t trang web.ế ỏ ư ấ ế ộ ủ ộ
Ch c năng này l p l i liên t c m i khi m t tài li u đ c c p nh t, nh đó m i v nứ ặ ạ ụ ỗ ộ ệ ượ ậ ậ ờ ọ ấ
đ x y ra s đ c gi i quy t nhanh chóng. ề ả ẽ ượ ả ế
1.3 Ánh x đ a ch web - Mirroringạ ị ỉ
Mirroring là m t k thu t ph bi n trong vi c duy trì các kho d li u c a FPT.ộ ỹ ậ ổ ế ệ ữ ệ ủ
M t ánh x (mirror) s sao chép toàn b c u trúc cây th m c và th ng xuyên c pộ ạ ẽ ộ ấ ư ụ ườ ậ
Lê Thuý Ng c - 0012745 ọ 5 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
nh t nh ng file b thay đ i. Đi u này cho phép nhi u ng i cùng truy xu t m t ngu nậ ữ ị ổ ề ề ườ ấ ộ ồ
d li u, gi m s liên k t b th t b i, nhanh h n và ít chi phí h n so v i truy c p tr cữ ệ ả ố ế ị ấ ạ ơ ơ ớ ậ ự
ti p vào site th c s ch a các d li u này. ế ự ự ứ ữ ệ
1.4 Phát hi n tài nguyên – Resource Discoveryệ
Có l ng d ng thú v nh t c a robot là dùng nó đ phát hi n tài nguyên. Conẽ ứ ụ ị ấ ủ ể ệ
ng i không th ki m soát n i m t kh i l ng thông tin kh ng l trong môi tr ngườ ể ể ổ ộ ố ượ ổ ồ ườ
m ng. Robot s giúp thu th p tài li u, t o và duy trì c s d li u, phát hi n và xoáạ ẽ ậ ệ ạ ơ ở ữ ệ ệ
b các liên k t h ng n u có, k t h p v i công c tìm ki m cung c p thông tin c nỏ ế ỏ ế ế ợ ớ ụ ế ấ ầ
thi t cho con ng i.ế ườ
1.5 K t h p các công d ng trên- Combined usesế ợ ụ
M t robot có th đ m nh n nhi u ch c năng. Ví d RBSE Spider [4] v aộ ể ả ậ ề ứ ụ ừ
th ng kê s l ng tài li u thu đ c v a t o c s d li u. Tuy nhiên nh ng ngố ố ượ ệ ượ ừ ạ ơ ở ữ ệ ữ ứ
d ng nh th còn khá ít i. ụ ư ế ỏ
2. Robot ch m c – Robot Indexingỉ ụ
Trong quá trình thu th p thông tin ph c v cho b l p ch m c, ta c n gi iậ ụ ụ ộ ậ ỉ ụ ầ ả
quy t nh ng v n đ sau :ế ữ ấ ề
M t là : Trong môi tr ng m ng, robot l y thông tin t các site. V y robot sộ ườ ạ ấ ừ ậ ẽ
b t đ u t site nào ? Đi u này hoàn toàn ph thu c vào robot. M i robot khác nhau sắ ầ ừ ề ụ ộ ỗ ẽ
có nh ng chi n l c khác nhau. Th ng thì robot s vi ng thăm các site ph bi nữ ế ượ ườ ẽ ế ổ ế

ho c nh ng site có nhi u liên k t d n đ n nó.ặ ữ ề ế ẫ ế
Hai là : Ai s cung c p đ a ch c a các site này cho robot ? ẽ ấ ị ỉ ủ
Lê Thuý Ng c - 0012745 ọ 6 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
Có 2 ngu n :ồ
Robot nh n các URL ban đ u t user. ậ ầ ừ
Robot phân tích các trang web đ l y các URL m i, đ n l t các URL này trể ấ ớ ế ượ ở
thành đ a ch đ u vào cho robot. Quá trình này đ c l p l i liên t c.ị ỉ ầ ượ ặ ạ ụ
Ba là : Ch n d li u nào trong tài li u đ l p ch m c ?ọ ữ ệ ệ ể ậ ỉ ụ
Quy t đ nh ch n d li u nào trong tài li u cũng hoàn toàn ph thu c vào robot,ế ị ọ ữ ệ ệ ụ ộ
th ng thì nh ng t đ c li t kê nh sau đ c xem là quan tr ng :ườ ữ ừ ượ ệ ư ượ ọ
 góc cao c a tài li u.Ở ủ ệ
 Trong các đ m cề ụ
 Đ c in đ m (inktomi)ượ ậ
 Trong URL.
 Trong tiêu đ (quan tr ng)ề ọ
 Trong ph n miêu t trang web (description) .ầ ả
 Trong các th dành cho hình nh (ALT graphisc).ẻ ả
 Trong các th ch a t khóa.ẻ ứ ừ
 Trong các text liên k t.ế
M t s robot l p ch m c trên tiêu đ , ho c m t s đo n văn b n đ u tiênộ ố ậ ỉ ụ ề ặ ộ ố ạ ả ầ
ho c toàn b tài li u (full text). M t s khác l i l p ch m c trên các thặ ộ ệ ộ ố ạ ậ ỉ ụ ẻ
META(META tags) ho c các th n, nh v y tác gi c a trang web đ c quy n nặ ẻ ẩ ờ ậ ả ủ ượ ề ấ
đ nh t khoá cho tài li u c a mình. Tuy nhiên ch c năng này b l m d ng quá nhi uị ừ ệ ủ ứ ị ạ ụ ề
do đó các th META không còn gi đ c giá tr ban đ u c a chúng n a.ẻ ữ ượ ị ầ ủ ữ
Lê Thuý Ng c - 0012745 ọ 7 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
3. Các chi n thu t thu th p d li u ế ậ ậ ữ ệ [II.1]
Tr c khi các trang web đ c đánh ch m c, t t c các trang web ph i đ cướ ượ ỉ ụ ấ ả ả ượ
l y v máy c a robot. Đ l y đ c t t c các trang web, robot ph i có chi n thu t.ấ ề ủ ể ấ ượ ấ ả ả ế ậ

T m t s trang web có s n, robot l c ra danh sách các liên k t, r i t đó dò tìm cácừ ộ ố ẵ ọ ế ồ ừ
trang khác.
Có 3 chi n thu t tìm ki m Heuristic sau : tìm ki m theo chi u sâu, tìm ki mế ậ ế ế ề ế
theo chi u r ng và tìm ki m ng u nhiên. ề ộ ế ẫ
3.1 Chi n thu t tìm ki m theo chi u sâuế ậ ế ề
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y trang đ u tiên trong danh sách.ấ ầ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế
không?
(4a) N u có, thêm liên k t này vào đ u danh sách. Quay l i (4) ế ế ầ ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
Lê Thuý Ng c - 0012745 ọ 8 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
3.2 Chi n thu t tìm ki m theo chi u r ngế ậ ế ề ộ
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y trang đ u tiên trong danh sách.ấ ầ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế

không?
(4a) N u có, thêm liên k t này vào cu i danh sách. Quay l i (4) ế ế ố ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
3.3 Chi n thu t tìm ki m theo ng u nhiênế ậ ế ẫ
T m t danh sách ch a các liên k t c n duy t, th c hi n các b c sau :ừ ộ ứ ế ầ ệ ự ệ ướ
(1) Cho danh sách = {trang đ u tiên} ầ
(2) L y ng u nhiên m t trang trong danh sách.ấ ẫ ộ
N u có qua (3)ế
N u không qua (5)ế
(3) Trang này đã xét t i ch a ?ớ ư
Lê Thuý Ng c - 0012745 ọ 9 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
N u r i, quay l i (2)ế ồ ạ
N u ch a, qua (4)ế ư
(4) Đánh d u đã t i r i. Phân tích và tìm xem liên k t có trong trang đóấ ớ ồ ế
không?
(4a) N u có, thêm liên k t này vào cu i danh sách. Quay l i (4) ế ế ố ạ
(4b) N u không, quay l i (2).ế ạ
(5) K t thúc.ế
4. Nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ
4.1 Chi phí và hi m hoể ạ
Vi c s d ng các Robot t n khá nhi u chi phí, đ c bi t là khi chúng đ c đi uệ ử ụ ố ề ặ ệ ượ ề
khi n t xa trên internet. Ph n này chúng ta s cùng th o lu n v nh ng hi m ho doể ừ ầ ẽ ả ậ ề ữ ể ạ
robot gây ra.
4.1.1 Qúa t i m ng và server – Network resource and server loadả ạ
Sau m t kho ng th i gian dài, th ng là m t tháng, robot s b t đ u ho tộ ả ờ ườ ộ ẽ ắ ầ ạ
đ ng m t cách liên t c. Đ tăng t c nhi u robot đ c phóng ra đ ng th i do đó c nộ ộ ụ ể ố ề ượ ồ ờ ầ
có băng thông l n. Tài nguyên m ng b khai thác quá m c khi robot yêu c u m tớ ạ ị ứ ầ ộ
l ng l n thông tin trong kho ng th i gian quá ng n (rapid fire). K t qu là thi uượ ớ ả ờ ắ ế ả ế

băng thông cho nh ng ng d ng khác. Server v a ph i ph c v yêu c u c a robotữ ứ ụ ừ ả ụ ụ ầ ủ
v a cung c p d ch v cho user, do đó yêu c u c a robot tăng lên bao nhiêu thì d ch vừ ấ ị ụ ầ ủ ị ụ
s gi m xu ng b y nhiêu. Tác gi c a m t con robot đã th nghi m b ng cách choẽ ả ố ấ ả ủ ộ ử ệ ằ
thi hành 20 l t truy c p đ ng th i vào server c a anh ta. Nh ng lúc robot thu th pượ ậ ồ ờ ủ ữ ậ
thông tin, server b ch m l i. Trong vòng m t tu n robot đã vi ng thăm site này v iị ậ ạ ộ ầ ế ớ
Lê Thuý Ng c - 0012745 ọ 10 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
m t yêu c u kinh kh ng. Ch sau 170 l t truy xu t liên t c, th nghi m th t b i doộ ầ ủ ỉ ượ ấ ụ ử ệ ấ ạ
server b quá t i.ị ả
Rapid fire th c s là th m ho . Hi u qu truy n t i thông tin d ng này b ngự ự ả ạ ệ ả ề ả ạ ằ
giao th c web hay HTTP s t gi m th y rõ. Nh ng giao th c m i đang đ c xem xétứ ụ ả ấ ữ ứ ớ ượ
nh m c u vãn tình th . ằ ứ ế
4.1.2 S c p nh t quá m c- Updating overheadự ậ ậ ứ
Ng i ta cho r ng các c s d li u do web robot t o ra có th đ c c p nh tườ ằ ơ ở ữ ệ ạ ể ượ ậ ậ
t đ ng nh ng cho đ n th i đi m này v n ch a có c ch ki m soát s thay đ i trênự ộ ư ế ờ ể ẫ ư ơ ế ể ự ổ
web m t cách hi u qu . C p nh t thông tin r t quan tr ng nh ng qúa th ng xuyên làộ ệ ả ậ ậ ấ ọ ư ườ
đi u không c n thi t.ề ầ ế
Xu t phát t th c t đó HTTP đ a ra k thu t ‘if – Modified – Since’ giúp cácấ ừ ự ế ư ỹ ậ
user – agent xác đ nh đ c th i đi m tài li u thay đ i. Robot phát hi n đi u này chị ượ ờ ể ệ ổ ệ ề ỉ
khi nó l u l i các thông tin cũ nh ng s t n nhi u b nh & c n d li u ph c t p. ư ạ ư ẽ ố ề ộ ớ ầ ữ ệ ứ ạ
M t trong nh ng đ c tính ph bi n c a robot là kh năng ti p nh n các t c nộ ữ ặ ổ ế ủ ả ế ậ ừ ầ
tìm trong khi v n thu th p d li u. Tuy nhiên m t s ng i cho r ng đ c tính nàyẫ ậ ữ ệ ộ ố ườ ằ ặ
không đáng hoan nghênh b i hai lý do : ở
 Đ u tiên, các tác v tìm ki m c a ng i s d ng cu i (end - user) góp ph nầ ụ ế ủ ườ ử ụ ố ầ
đ y server vào ch quá t i.ẩ ỗ ả
 Th hai, không có c s đ m b o có m i quan h gi a các t c n tìm, đúngứ ơ ở ả ả ố ệ ữ ừ ầ
chính t và t i u đ i v i c s d li u. Ví d , n u b tìm ki m không hả ố ư ố ớ ơ ở ữ ệ ụ ế ộ ế ỗ
tr các toán t boolean, m t user c n d li u v xe máy mu n có đ cợ ử ộ ầ ữ ệ ề ố ượ
thông tin đúng thay vì nh p vào c m t ‘Ford and garage’ ph i nh p vào tậ ụ ừ ả ậ ừ
‘car’. Nh ng ng i đó không h ý th c đ c đi u này. ư ườ ề ứ ượ ề

Lê Thuý Ng c - 0012745 ọ 11 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
M t khía c nh nguy hi m n a b t ngu n t s đ nh h ng sai l m c a end –ộ ạ ể ữ ắ ồ ừ ự ị ướ ầ ủ
user. M t s ng i s d ng công c c a mình r t t t nh d đoán đ c l ng tàiộ ố ườ ử ụ ụ ủ ấ ố ư ự ượ ượ
li u l n nh t có th có, bi t chính xác n i c n tìm d li u, gi i h n th i gian sệ ớ ấ ể ế ơ ầ ữ ệ ớ ạ ờ ử
d ng robot, trong khi đó m t s khác l i l m d ng kh năng c a robot m t cách vôụ ộ ố ạ ạ ụ ả ủ ộ
tình ho c c ý. Vì v y các tác gi vi t robot đ ngh ch nên phân phát s n ph m c aặ ố ậ ả ế ề ị ỉ ả ẩ ủ
mình cho nh ng end-user ‘hi u‘ đ c web robot và nh ng khó khăn trong môi tr ngữ ể ượ ữ ườ
m ng. ạ
4.1.3 Nh ng tình hu ng không mong đ i – Bad implementationsữ ố ợ
Thay vì ki m tra trên máy c c b tr c, m t s tác gi l n đ u tiên vi t robotể ụ ộ ướ ộ ố ả ầ ầ ế
cho th ngay trên các server th c s , đi u này làm đau đ u không ít nhà qu n tr webử ự ự ề ầ ả ị
(web master).
Truy xu t trùng l p có th x y ra khi robot không l u l i d u v t nh ng n i nóấ ặ ể ả ư ạ ấ ế ữ ơ
đã đi qua ho c nó không nh n di n đ c các URL m c dù khác nhau v tên nh ng l iặ ậ ệ ượ ặ ề ư ạ
cùng d n đ n m t đ a ch , ví d đ a ch DSN & IP.ẫ ế ộ ị ỉ ụ ị ỉ
Đôi khi, robot lãng phí th i gian và tài nguyên ch đ thu v nh ng tài li u màờ ỉ ể ề ữ ệ
sau đó ph i v t đi. Ví d h th ng ch quan tâm đ n file văn b n (text file) nh ngả ứ ụ ệ ố ỉ ế ả ư
robot l i nh n c nh ng lo i file khác nh file hình nh, file th c thi, … ạ ậ ả ữ ạ ư ả ự
Trong môi tr ng m ng có nh ng vùng g n nh vô t n. Ví d , c m i l nườ ạ ữ ầ ư ậ ụ ứ ỗ ầ
phân tích m t trang robot nh n v cùng m t URL nh ng xa h n m t c p, ‘/cgi-ộ ậ ề ộ ư ơ ộ ấ
bin/pit/’, và ti p t c ‘/cgi-bin/pit/a/’, ‘/cgi-bin/pit/a/a’, …. . S l p l i không có đi mế ụ ự ặ ạ ể
d ng này đ c g i là các l đen (black holes)ừ ượ ọ ỗ
Lê Thuý Ng c - 0012745 ọ 12 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
4.2 Tiêu chu n lo i tr robotẩ ạ ừ
Trong quá trình x lý robot không th t quy t đ nh tài li u nào đ c l p chử ể ự ế ị ệ ượ ậ ỉ
m c, tài li u nào không do đó nó l y t t c nh ng gì có th . Th m chí dù xác đ nhụ ệ ấ ấ ả ữ ể ậ ị
đ c tài li u vô ích thì nó cũng đã b ra m t chi phí đáng k cho ho t đ ng thu th p.ượ ệ ỏ ộ ể ạ ộ ậ
Tiêu chu n lo i tr robot ra đ i. Các chu n này ch ng nh ng ch ra URL nào c nẩ ạ ừ ờ ẩ ẳ ữ ỉ ầ

tránh mà còn c nh báo robot v các l đen. ả ề ỗ
4.2.1 File robot.txt
Robot.txt là m t file c u trúc đ c đ t t i th m c g c c a server, g m 2ộ ấ ượ ặ ạ ư ụ ố ủ ồ
tr ng User-agent và Disallow.ườ
 User-agent : cho bi t robot nào s b ki m soát.ế ẽ ị ể
 Disallow : cho bi t robot có đ c phép k t n i vào URL này hay không.ế ượ ế ố
 Xét các ví d sau :ụ
Ví dụ Ý nghĩa
# / robots.txt file for
/>Ký t # b t đ u m t chú thíchự ắ ầ ộ
User-agent: webcrawler
Disallow:
Robot có tên là webcrawler có th đi đ n b t c trang nàoể ế ấ ứ
c a siteủ
User-agent: lycra
Disallow: /
Robot có tên là lycra b c m trên t t c các trang c a siteị ấ ấ ả ủ
Lê Thuý Ng c - 0012745 ọ 13 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
User-agent: *
Disallow: /tmp
Disallow: /logs
M i robot đ u không đ c truy xu t vào 2 th m c tmp vàọ ề ượ ấ ư ụ
logs
B ng ả 2.1 :Ví d v chu n lo i tr robot dùng file robot.txtụ ề ẩ ạ ừ
4.2.2 Th META dành cho robot – Robot META tagẻ
META tag là s m r ng c a chu n lo i tr robot, h tr cho tác gi c aự ở ộ ủ ẩ ạ ừ ỗ ợ ả ủ
nh ng ữ trang web không có quy n admin.ề
V tríị N m trong ph n HEAD c a file HTMLằ ầ ủ
Cú pháp <meta name = ‘robots’ content = ‘index, follow’>

Tên tr ngườ Ý nghĩa
Meta Th báo hi u b t đ uẻ ệ ắ ầ
Name Tên robot s b ki m soátẽ ị ể
Content C đ nh h ng cho robot, các c này có th k tờ ị ướ ờ ể ế
h p v i nhau & đ c phân cách b ng d u ph y. ợ ớ ượ ằ ấ ẩ
B ng ả 2.2 : B ng thông tin v META tag trong chu n lo i tr robotả ề ẩ ạ ừ
Các c c a thu c tính Contentờ ủ ộ Ý nghĩa
Lê Thuý Ng c - 0012745 ọ 14 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
[NO]INDEX Robot không nên l p ch m c cho trangậ ỉ ụ
này.
[NO]FOLLOW Robot không nên l y các liên k t trangấ ế ở
này
ALL = INDEX, FOLLOW
NONE= NOINDEX, NOFOLLOW
B ng ả 2.3 : B ng giá tr các c c a thu c tính Content trong META tagả ị ờ ủ ộ
4.2.3 Nh c đi m c a file robot.txtượ ể ủ
Ng i ta cho r ng vi c li t kê các trang ho c các th m c trong file robot.txtườ ằ ệ ệ ặ ư ụ
s là nguyên nhân thu hút s chú ý t các ‘v khách không m i‘. Th c ra chu n lo iẽ ự ừ ị ờ ự ẩ ạ
tr robot ch là d u hi u c nh báo, không là bi n pháp c m robot cho nên vi c tuânừ ỉ ấ ệ ả ệ ấ ệ
theo hay không hoàn toàn là v n đ t nguy n. Tuy nhiên ta v n có cách kh c ph c :ấ ề ự ệ ẫ ắ ụ
M t là : ộ
 T o m t th m c ch a t t c các file quan tr ng.ạ ộ ư ụ ứ ấ ả ọ
 Tr ng Disallow ch li t kê tên th m c v a t o.ườ ỉ ệ ư ụ ừ ạ
 C u hình server sao cho các trang không ch a đ ng d n đ n th m c này.ấ ứ ườ ẫ ế ư ụ
Đáng bu n trên th c t cách này không đ t đ c k t qu mong đ i do m tồ ự ế ạ ượ ế ả ợ ộ
trong các nguyên nhân sau :
 Các server có robot không b c m có th d n đ ng các robot b c m khácị ấ ể ẫ ườ ị ấ
đ n nh ng file này.ế ữ
Lê Thuý Ng c - 0012745 ọ 15 Đ M Nhung - 0012624ỗ ỹ

Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
 Các file quan tr ng có th n m trong log file (file đ c t do truy xu t)ọ ể ằ ượ ự ấ
 Khi c u hình l i server, admin có th ‘quên‘ các th m c này ph i c mấ ạ ể ư ụ ả ấ
robot!
…………………………………………
Hai là: ch ng th c (athorization). Đây là bi n pháp h u hi u, đ c s d ngứ ự ệ ữ ệ ượ ử ụ
trong nhi u lĩnh v c, đ c bi t trong nh ng môi tr ng mà s an toàn d li u tr nênề ự ặ ệ ữ ườ ự ữ ệ ở
r t c n thi t. ấ ầ ế
Tóm t t : ắ
Có th nói web robot là con dao 2 l i, s d ng đúng s gi i quy t đ cể ưỡ ử ụ ẽ ả ế ượ
nhi u v n đ , s d ng sai s đ l i nh ng h u qu khó đoán. Sau đây là tóm t t choề ấ ề ử ụ ẽ ể ạ ữ ậ ả ắ
nh ng v n đ c n l u ý c a web robot ữ ấ ề ầ ư ủ
 Tránh lãng phí tài nguyên
 Ch t i v nh ng tài li u c n thi t.ỉ ả ề ữ ệ ầ ế
 N u h th ng ch quan tâm đ n các file text (.html, .htm, .xml, …),ế ệ ố ỉ ế
web robot nên b qua các liên k t d n đ n nh ng file th c thi (.exe,ỏ ế ẫ ế ữ ự
…), file nh (.gif, .bmp, …).ả
 B qua các tr ng d li u h th ng không dùng đ n. ỏ ườ ữ ệ ệ ố ế
 Đ ng l y v các trang gi ng nhau nhi u h n m t l n.ừ ấ ề ố ề ơ ộ ầ
 Tránh c p nh t l i các site cũ quá th ng xuyên b ng cách :ậ ậ ạ ườ ằ
 Ghi nh nh ng đ a ch web robot đã duy t qua. ớ ữ ị ỉ ệ
Lê Thuý Ng c - 0012745 ọ 16 Đ M Nhung - 0012624ỗ ỹ
Tìm hi u v Search Engine và xây d ng ng d ng minh ho cho Search Engine ti ng Vi tể ề ự ứ ụ ạ ế ệ
 D a vào tr ng LastModified, tr ng head. N u các tr ng này khácự ườ ườ ế ườ
v i d li u ta đã có thì đó là nh ng thông tin c n ghi nh n.ớ ữ ệ ữ ầ ậ
 Không nên duy t h t m t site, ch c n duy t đ n m t đ sâu (deepệ ế ộ ỉ ầ ệ ế ộ ộ
link) c n thi t.ầ ế
 Tránh làm quá t i ả server
 Duy trì m t kho ng th i gian đ i gi a các l n truy xu t liên ti p.ộ ả ờ ợ ữ ầ ấ ế
 K t n i v i server vào nh ng th i đi m thích h p. Tham kh o ý ki nế ố ớ ữ ờ ể ợ ả ế

c a admin đ bi t thông tin này.ủ ể ế
 Ki m tra web robot trên máy c c b , s a l i tr c khi ch y trênể ụ ộ ử ỗ ươ ạ
server th c s . ự ự
 Tuân theo các lu t lo i tr robot.ậ ạ ừ
Lê Thuý Ng c - 0012745 ọ 17 Đ M Nhung - 0012624ỗ ỹ

×