Tải bản đầy đủ (.doc) (18 trang)

TIM KIEM THONG TIN ENTENET

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1005.78 KB, 18 trang )

Phần I
TìM Kiếm THÔNG TIN TRÊN INTERNET
I.Tìm kiếm cơ sở
1. M¹ng Internet
Trang web tồn cầu được biết đến một cách phổ biến bằng thuật ngữ
WWW hoặc là Web, Web được bao gồm bởi một loạt sự tập hợp của những
trang dữ liệu HTLM được chứa trong tất cả các máy tính trên thế giới. Ngồi ra
các chun gia máy tính cịn gọi là HTTP, HTTP thì được liên kết với mọi hệ
thống thông tin trên thế giới – internet. Trong suốt quá trình nghiên cứu, bạn
định hướng cho chương trình đọc lướt trên máy vi tính của bạn tìm đến những
website – nơi mà có những dữ liệu thích hợp lưu trữ và sau đó tìm lại được
những thơng tin u cầu được hiển thị trên mà hình máy tính của bạn.


Internet là một kho thơng tin vơ tận, được cung cấp từ hàng triệu Web Site
trên khắp thế giới. Do có q nhiều thơng tin nên việc tìm kiếm được
đúng thông tin cần thiết cũng không phải là chuyện dễ dàng.



Tuy nhiên với sự xuất hiện của các Web Site các cơng cụ tìm kiếm đã giúp
cho người dùng Internet rất nhiều trong việc tìm kiếm thơng tin.



Sử dụng cơng cụ tìm kiếm bằng cách truy cập vào một trong các trang
Web sau: Google, Yahoo, xalo,panvietnam ….



Để tìm kiếm thơng tin, trước tiên cần phải xác định từ khóa (Key


Words) của thơng tin muốn tìm kiếm, đây là phần rất quan trọng, từ khóa
là từ đại diện cho thơng tin cần tìm. Nếu từ khóa khơng rõ ràng và chính
xác thì sẽ cho ra kết quả tìm kiếm rất nhiều, rất khó phân biệt và chọn
được thơng tin như mong muốn, cịn nếu từ khóa q dài kết quả tỡm kim
cú th khụng cú.
2. Công cụ tìm kiếm:
Định nghĩa: Một công cụ tìm kiếm là một dạng cơ sở dữ

liệu có thể tìm kiếm có trang bị các công cụ đợc lập trình
nh wanderer, crawler, robot, worm, spider. Đánh dÊu (Indexing)

1


các tập tin đợc đánh dấu thông qua tiêu đề (title), toàn bộ văn
bản (full text), qui mô (size), địa chỉ (URL)
Một công cụ tìm kiếm bao gồm 3 thành phần:
- Spider (Nhện): là chơng trình chạy dò tìm trên web từ
liên kết này đến liên kết khác để xác định và đọc nội dung
các trang.
- Index (đánh dấu): là dạng cơ sở dữ liệu có chứa bản sao
của các trang web do c¸c nhƯn thu thËp
- Search engine mechanism (Cơ chế công cụ tìm kiếm):
phần mềm giúp cho ngời sử dụng dò tìm thông tin, tìm ra các
trang trên mạng dựa vào các thông tin mà nó có. Dữ lợng thông
tin của search engine thực chất là một loại cơ sở dữ liệu
(database) cực lớn. Công cụ này tìm các thông tin dựa trên các
từ khoá (keyword) và trả vỊ mét danh mơc cđa c¸c trang cã
chøa tõ kho¸.
3. Một số trang web tìm kiếm của nớc ngoài:

a. Google! Google.com.vn Google là một công ty Internet tầm cỡ thế
giới có trụ sở tại Hoa Kỳ , được thành lập vào năm 1998 . Sản phẩm chính của
cơng ty này là cơng cụ tìm kiếm Google, được nhiều người đánh giá là cơng cụ
tìm kiếm hữu ích và mạnh mẽ nhất trên Internet . Trụ sở của Google tên là
"Googleplex" tại Mountain View, California . Google có trên 15.000
nhân viên, giám đốc là Tiến sĩ Eric Schmidt , trước đây là giám đốc công ty
Novell . Tên "Google" là một lối chơi chữ của từ googol , bằng
10100. Google chọn tên này để thể hiện sứ mệnh của công ty để sắp xếp số
lượng thông tin khổng lồ trên mạng. Googleplex, tên của trụ sở Google, có
nghĩa là 10googol

2


b. Yahoo! Inc Yahoo.com.vn Công nghệ Yahoo! Search (YST) hoạt
động ngày đêm tìm kiếm hàng tỉ tài liệu trên Internet để đem đến cho bạn một
kinh nghiệm tìm kiếm tồn diện, cập nhật, và hiệu quả.Yahoo! Search giúp truy
cập nhanh và trực giác các nguồn thông tin rất phong phú và đa dạng trên Web.
Mỗi lần bạn tìm kiếm, Cơng nghệ Yahoo! Search ngay lập tức quét qua cơ sở dữ
liệu các trang web tồn diện của mình, xác định những thơng tin liên quan tương
đối với u cầu tìm kiếm của bạn và cung cấp các trang web này dưới dạng các
kết quả tìm kiếm được xếp hạng.YST sắp xếp các trang web theo mức độ liên
quan của chúng với một yêu cầu tìm kiếm cụ thể bằng cách phân tích các đặc
tính của tài liệu, bao gồm nội dung văn bản, tiêu đề và tính chính xác mơ tả,
nguồn, các đường dẫn liên quan, và các đặc tính văn bản đặc trưng khác. Mỗi
lượt tìm kiếm sẽ cho bạn kết quả tức thì từ một cơ sở dữ liệu được cập nhật hàng
ngày để nắm bắt được các trang mới được tạo ra và các trang luôn thay đổi, bao
gồm các nội dung tin nóng và các sự kiện cập nhật.

3



c.

Alta

Vista

với

trang

web

/>
Altavista cho phép tìm kiếm trên16 triệu trang web. Website
này cho phép tìm kiếm trực tiếp theo từ khoá thông qua giao
diện đơn giản Simple Query hoặc Advanced Query để tìm
nhanh hơn

4


d. Lycos víi trang web http://www. lycos.com/ , cung cÊp cơ
sở dữ liệu toàn diện và dịch vụ. FPT (giao íc trun tƯp), dung
lỵng phơ thc theo søc chøa. Nã thờng cung cấp nhiều thông
tin về các tài liệu hoặc trang web hơn là Yahoo! Hay Alta Vista.
Hiện nay Lycos cung cấp tìm kiếm miễn phí đến
database hơn 25 triệu URL. Các chơng trình thu thập thông
tin của Lycos thờng xuyên quét trên internet để tìm những

website mới.

e. InfoSeek với trang web www.infoseek.com và cung cấp
một phạm vi lớn những th viện bao gồm mọi loại hồ sơ, tài liệu
và trang web trªn Internet. Nã cã mét sù chän läc có giới hạn mà
bạn có thể truy cập miễn phí, hoặc bạn có thể đăng nhập với
một khoản phí để tìm kiếm mọi mảng dữ liệu.

5


f. McKinley và trang web www.mckinley.com có một cơ sở
dữ liệu nhỏ hơn những trang web khác. Điểm khác biệt là nó
xem xét nội dung của dữ liệu một cách rất cẩn thận.
g. AskJeeves Nếu bạn nhận ra rằng những công cụ tìm
kiếm này mang về quá nhiều thông tin (hàng ngàn nhóm tài
liệu cho một sự tìm kiếm đơn giản), bạn có thể sử dụng công
cụ tìm kiếm hỗ trợ nh AskJeeves www.askjeeves.com. Gõ vào
câu hỏi bằng ngôn ngữ tiếng Anh bình dân và nó sẽ hiện ra
một danh sách ngắn những câu trả lời có khả năng - những
mẩu tin có giá trị hơn những thông tin quá tải.
vvv.
4. Một số trang tìm kiếm của Việt Nam:
a.xalocông cụ tìm kiếm do công ty Tinh Vân phát triển và
vận hành (www.xalo.com)

b. Cổng thơng mại điện tử quốc gia (www.ecvn.gov.vn)

6



Cho phép ta tìm kiếm các manh mối thơng mại cũng nh
các doanh nghiệp thuộc nhiều ngành nghề khác nhau hiện
đang tìm kiếm đối tác hay có nhu cầu phân phối sản phẩm
v.v

c.Trang tìm kiếm thông tin panvietnam.vn

II. Tìm kiếm n©ng cao:

7


Có lẽ mục đích duy nhất của bạn khi sử dụng công cụ tìm
kiếm là muốn thấy kết quả càng chính xác càng tốt, nhng đôi
khi những gì mà bạn có đợc không đúng nh mong muốn vì
kết quả chứa quá nhiều thông tin tạp, thậm chí không liên quan
gì tới chủ đề bạn cần tìm kiếm. Trong trờng hợp này, sử dụng
từ khoá tìm kiếm có thể giúp ích rÊt nhiỊu. Sư dơng tõ khãa
cã ý nghÜa chiÕn lỵc quan trọng đối với toàn bộ kế hoạch nâng
cao vị trí trên công cụ tìm kiếm. Từ khóa đợc sử dụng một
cách thích hợp sẽ đem lại khả năng nhìn thấy website của bạn
dễ dàng hơn trên các công cụ tìm kiếm.
Ngay cả khi bạn có công cụ tìm kiếm mạnh mẽ nh Google,
bạn vẫn sẽ phải lâm vào tình trạng đÃi cát tìm vàng giữa
hằng hà thông tin trên Internet nếu nh bạn không biết chọn từ
khóa đúng, cũng nh áp dụng các tùy chọn mà Google đặt ra
để hỗ trợ quá trình tìm kiếm.
- Xác định đúng từ khóa cần thiết: Để có đợc kết quả
chính xác hoặc gần mới những gì mình cần tìm, bạn phải

chọn từ khóa phù hợp và có liên quan với nội dung cần tìm, càng
chính xác càng tốt. Từ khóa có thể là từ mà có thể xuất hiện
trên website bạn cần tìm. VD muốn tìm thông tin về Picasso,
hÃy nhập vào "Picasso" (không có ngoặc kép) thay vì nhập
"painter" (họa sĩ); muốn tìm trang web có diễn đàn về máy
tính, hÃy nhËp "computer forum" thay v× nhËp "the place to
discuss about computer".
- Bạn có nhập chữ Unicode vào field tìm kiếm của Google
để tìm các thông tin theo ngôn ngữ của bạn đang dùng.
- Nhập từ ngắn gọn, ko cần các liên từ "and". Google tự
động tìm các trang web có tất cả các từ khoá bạn nhập vào,

8


bạn ko cần thêm từ "and" vào giữa các từ khóa. VD tìm các
thông tin liên quan đến "computer" và "forum", bạn chỉ cần
nhập "computer forum" thay vì là "computer and forum".
- Google tìm kiếm không phân biệt chữ hoa và thờng.
- Tìm theo các danh mục có sẵn: bạn có thể tìm thông tin
theo

các

danh

mục

Google


phân

định

sẵn

tại


Lệnh tìm kiếm đối với các cụm từ nhất định. Cấu trúc:
"+" search. Google có xu hớng bỏ qua một số từ hoặc kí tự
thông dụng trong c¸c tõ khãa, vd nh "where", "how", c¸c con số
đơn và chữ cái... để tăng tốc độ tìm kiếm. Do đó nếu bạn
muốn kết quả có các từ này, hÃy thêm khoảng trắng và dấu
cộng " +" trớc từ khóa đó.

Search :
Computer +how
Nếu bạn muốn tìm chính xác 1 chuỗi nào đó, hÃy thêm
ngoặc kép cho đoạn đó.
Search :
where are you”
LƯnh lo¹i trõ. CÊu tróc: "-" search Trong nhiỊu trờng hợp, từ
khoá của bạn có thể khiến công cụ tìm kiếm cho ra nhiều kết
quả không mong muốn, chính vì vậy bạn cần phải bổ xung
dấu "-" (loại trừ trớc những khái niệm bạn không muốn hiển thị).

9



VÝ dô: tõ "bass" trong tiÕng Anh cã 2 nghÜa, vừa chỉ tên
một loại cá, vừa có liên quan tới âm nhạc. Nếu bạn chỉ muốn
tìm kiếm nghĩa "cá" của từ này mà không quan tâm tới nghĩa
"âm nhạc", bạn cần phải cho thêm dấu "-" vào trớc từ "music".
Search :
bass music
Tìm từ đồng nghĩa. Cấu trúc: " ~" Searches Bạn không
chỉ muốn tìm kiếm một từ khoá đặc biệt mà còn muốn tìm
từ đồng nghĩa của nó? HÃy đặt dấu "~" vào trớc chúng:
Search :
~ computer
Toán tử OR. Google cho phÐp dïng tõ khãa OR (OR viÕt ch÷
in) gi÷a các từ khóa cần tìm và kết quả thu đợc là các trang
web có chứa ít nhất một từ trong tất cả các từ khóa đó. VD
tìm nội dung "computer OR forum", kết quả sẽ cho ra các trang
có ít nhất 1 từ khoá "computer" hoặc "forum" hoặc có cả hai.
Search :
Computer OR forum
Tìm một con số trong một khoảng xác định: google cho
phép bạn tìm kiếm một con số trong một khoảng xác
định.Bạn chỉ việc nhập vào 2 con số xác định khoảng giới hạn
và ở giữa là hai dấu chấm. Để việc tìm kiếm đợc chính xác ta
nên có đơn vị đi kèm hoặc một từ gì đó cho biÕt ý nghÜa
con sè.
Search :
DVD player $143..230

10



Willie mays 1940..1953

Toán tử filetype. Phần mở rộng của thông tin cần tìm cho
phép bạn tìm thông tin theo kiểu tập tin cụ thể. Ngoài các
file .txt, .html, hiện nay Google còn có thể tìm kiếm thông tin
bên trong nhiều loại file khác nhau từ .pdf, .doc cho đến
.flash, .swf. Rất nhiều ngời thờng sử dụng từ khóa này để tìm
tài liệu, sách điện tử ebook. Ví dụ nhập từ khóa wep security
filetype:pdf vào Google, bạn sẽ có đợc nhiều tài liệu rất hay về
bảo mật WEP trong mạng không dây (Xem hình 1).
Search :
wep security filetype:pdf
Toán tử define: Bạn muốn tìm định nghĩa của một từ nào
đó (bằng mọi thứ tiếng, thông thờng là tiếng Anh). Bạn có thể
đặt [define:] ở đầu chuổi tìm kiếm sau đó là từ mà bạn
muốn tìm (có thể có khoảng trắng).
Search :
define: computer

11


Toán tử Intitle. Dùng Intitle cho phép tìm kiếm thông tin
dùa theo titles cđa trang web. Lu ý: Title lu«n phản ánh nội dung
của trang web nên với cách tìm kiếm này sẽ có hiệu quả hơn
rất nhiều cách dùng từ khóa đơn giản. Muốn tìm một ít sách
có tiêu đề là delphi thì bạn chỉ cần nhập vào Google dòng
intitle: delphi ebook, sau đó bạn sẽ có một loạt các cuốn sách
thú vị về delphi (Xem hình 2).
Search :

intitle:delphi ebook

Intitle: Từ khóa 1_ từ khóa 2 ... Cách này sẽ tìm ra tất cả các
trang web có titles bắt buộc có chứa từ khóa 1 và tiêu đề
hoặc nội dung của các trang web kết quả có chứa từ khóa 2.
Trở lại ví dụ trên, bạn có thể dùng từ khóa intitle: Delphi
ebook+tab, có kết quả là những trang web có tiêu đề là
delphi và nội dung có chứa tab. Chú ý: ở đây bạn phải dùng dấu
ngoặc kép vì giữa delphi và ebook có khoảng trống, nếu

12


không dùng dấu ngoặc kép thì sẽ cho kết quả là các trang web
trả về có tựa đề delphi còn nội dung là ebook và tab (Xem
hình 3).
Search :
intitle: Delphi ebook+ tab

Cú pháp intitle: giúp Google giới hạn kết quả tìm kiếm về
những trang có chứa từ đó trong tiêu đề. Ví dụ, intitle: login
password (không có ngoặc kép) sẽ cho kết quả là những link
đến những trang có từ "login" trong tiêu đề, và từ "password"
nằm ở đâu đó trong trang.
Search :
intitle:login password
Toán tử allintitle. Tơng tự, nếu ta muốn truy vấn nhiều
hơn một từ trong tiêu đề của trang thì ta có thể dùng
allintitle: thay cho intitle để có kết quả là những trang có
chứa tất cả những từ đó trong tiêu đề. Ví dụ nh dùng

intitle: login intitle: password” còng gièng nh truy vÊn
“allintitle: login password”.
Search :
allintitle: login password

13


Toán tử intext: Cú pháp intext: tìm kiếm các từ trong
một website riêng biệt. Nó phớt lờ các liên kết hoặc URL và tiêu
đề của trang.
Ví dụ: intext:exploits (không có ngoặc kép) sẽ cho kết
quả là những liên kết đến những trang web có từ khóa tìm
kiếm là exploits trong các trang của nó.
Search :
intext:exploits

Toán tử site:tên miền. Toán tử này cho phép bạn hạn chế
kết quả tìm kiếm trong các vùng tên miền ở cấp cao nhất, đợc
dùng chủ yếu trong trờng hợp bạn muốn tìm một thông tin trong
một trang web hay một tên miền nào đó. Ví dụ bạn muốn tìm
các

bài

viết

về

chính


trị

trong

trang

web

, bạn chỉ cần nhập từ khóa Chính trị
site: (Xem hình 4). Ngoài ra, nếu muốn
tìm các bài viết về chính trị trong tất cả các trang web của
Việt Nam, bạn chỉ cần thay thế Chính trị site:vn. Không có
khoảng trống nào giữa site: và tên miền.
Search :
Chính trị site:
Tìm từ web trong mọi site có đuôi “.com”
Search :
Web site:com

14


Toán tử info:URL. Cho phép bạn tìm thấy tất cả các thông
tin về trang web mà bạn quan tâm. Ví dụ nh muốn biết tất cả
các thông tin có liên quan tới trang web www.microsoft.com nh
trang lu trữ, các trang web tơng tự, các trang có liên kết đến,
hay các trang có từ khóa này thì bạn nhập từ khóa
info:www.microsoft.com vào Google (Xem hình 5).
Search :

info:www.microsoft.com
Toán tử link:URL. Cú pháp link: sẽ liệt kê những trang web
mà có các liên kết đến đến những trang web chỉ định. Ví
dụ : chuỗi link:www.securityfocus.com sẽ liệt kê những trang
web có liên kết trỏ đến trang chủ SecurityFocus
Search :
Link:www.securityfocus.com
Chú ý không có khoảng trống giữa link: và URL của trang
Web.
Search :
web link:www.google.com.vn
Đều cho cùng kết quả là những trang web có chứa từ “web”
vµ cã link tíi google.

15


Toán tử related:URL.Cú pháp related: sẽ liệt kê các trang
Web

"tơng

tự"

với

trang

Web


chỉ

định.



dụ

:

related:www.securityfocus.com sẽ liệt kê các trang web tơng
tự với trang chủ Securityfocus. Nhớ rằng không có khoảng trống
giữa "related:" và URL của trang Web.
Search :
related:www.securityfocus.com
Toán tử inurl:URL. Cách này sẽ tìm các trang web có địa
chỉ URL bắt buộc chứa các từ khóa chỉ định. Đây là một
kiểu tìm kiếm nên dùng trong trờng hợp bạn không nhớ chính
xác tên một URL nào đó. Cũng giống trờng hợp toán tử intitle,
bạn cịng cã thĨ dïng inurl víi 2 hay nhiỊu tõ khãa nh sau
inurl:tõ khãa 1_ tõ khãa 2 ... sÏ tìm trang web có địa chỉ URL
bắt buộc chứa từ khóa 1 và nội dung trang web phải có chứa từ
khóa 2. Ví dụ: inurl: passwd (không có ngoặc kép) sẽ cho kết
quả là những link đến những trang có tõ "passwd" trong URL.
Search :
inurl: passwd
To¸n tư cache: Truy vÊn cache: sẽ cho kết quả là tất cả
các phiên bản của trang Web mà Google đà lu lại. Ví dụ:
cache:www.hackingspirits.com sẽ cho ra trang đà lu lại bởi
Googles. Nhớ rằng không có khoảng trống giữa "cache:" và URL

của trang web.
Search :
cache:www.hackingspirits.com

16


Nếu bạn bao gồm những từ khác trong truy vấn, Google sẽ
điểm sang những từ này trong văn bản đà đợc lu lại.
Ví dụ: cache:www.hackingspirits.com guest sẽ cho ra văn
bản đà đợc lu lại có từ "guest" đợc điểm sáng.
Search :
cache:www.hackingspirits.com guest
Sử dụng Google cache: Đôi khi các links trong phần kết quả
dẫn đến những trang web không còn tồn tại. Trờng hợp này bạn
có thể nhấn vào nút Cached (hay ĐÃ Lu trong bản Google
tiếng Việt) để xem trang web đó.
Toán tử index of: Chắc đà có nhiều lần bạn lớt web gặp
những trang mà cho chúng ta duyệt theo th mục .Gặp những
trang hay, chứa rất nhiều tài nguyên trong đó. Nếu chúng ta
quên ghi địa chỉ của nó lại thì khi chúng ta cần tìm lại chúng
ta phải làm sao. Google sẽ giúp bạn. Cú pháp: index
of/loai_tai_liêu_cân_tìm
Search:
index of/files
*Lu ý: nhớ có khoản trống giữa index và of
Toán tử phonebook: cú pháp phonebook tìm kiếm thông
tin về các địa chỉ đờng phố ở Mỹ và số điện thoại. Ví dụ:
phonebook:Lisa+CA sẽ liệt kê tất cả các tên ngời có từ Lisa
trong tên và ở California (CA). Cú pháp này có thể đợc sử

dụng nh là một công cụ tuyệt vời của tin tặc trong trờng hợp ai
đó muốn tìm kiếm thông tin cá nhân cho công việc xà héi.
Search :
phonebook:Lisa+CA

17


Dấu *: Nếu không nhớ ra cả cụm từ hoặc câu hoàn chỉnh
mà chỉ mang máng một vài chữ, bạn hÃy chèn dấu * vào vị trí
mơ hồ đó. Ví dụ: Khi gõ "Tốt gỗ * sơn" vào ô tìm kiếm, chọn
Pages from Vietnam > Search, bạn sẽ đợc Tốt gỗ hơn tốt nớc
sơn.

Hình A2.2.6

Search:
tốt gỗ * sơn
Nếu cảm thấy khoảng cách giữa các từ dài, hÃy cho thêm
vài dấu *, vÝ dơ:

Ngêi dïng cã thĨ tËn dơng dÊu * để tìm ra thông tin theo
một form nào đó. Ví dụ khi ghi thông tin quảng bá, các công ty
thờng viết Địa chỉ: ...; Tel:...; E-mail:... Bạn sẽ đặt dấu này thay
vào vị trí của dấu ... để thu thập d÷ liƯu.

18




Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×