Tải bản đầy đủ (.pdf) (16 trang)

Internet và Khai thác thông tin

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 16 trang )

Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
1
INTERNET VÀ KHAI THÁC THÔNG TIN
CLB Toán – Tin, Khoa Toán – C – Tin hc,
Trng H Khoa hc T nhiên Hà Ni.
1. Gii thiu
Trong hn hai thp k va qua, chúng ta đã chng kin s ra đi và phát trin mnh m ca
mng và internet
1
. Internet ra đi đc coi là mt phát minh ln trong th k 20 và nó đã làm thay
đi th gii. Nh có internet, khong cách đa lý b xoá nhoà, th gii hi nhp và m ra xu hng
phát trin mi. Không nhng th, internet là mt môi trng chia s và cung cp tài nguyên thông
tin rt ln. Nh đó, kho tàng tri thc ca nhân loi đc hoàn thin và khai thác hiu qu hn. Bài
vit này chúng tôi mun đ cp đn internet theo khía cnh khai thác thông tin phc v trao đi, hc
tp và nghiên cu.

2. C ch, cách thc tìm kim và s dng thông tin trên mng
2.1 Kt ni internet
Ngi s dng có th dùng các trình duyt web nh Internet Explorer, Nescape, Mozilla… đ
duyt (lt) web. Trong mi trình duyt có nhng thit lp riêng đ kt ni internet. Mun m trang
web khi đã bit đa ch, gõ đa ch vào ô đa ch ca trình duyt.

Hình 1. M trang web ca Trng HKHTN.
2.2 Tìm kim thông tin
 tìm kim đc thông tin qua mng, các nhà cung cp dch v cung cp các máy tìm
kim
2
. Máy tìm kim là c ch tìm kim trên mng thông qua các t khoá… Cn c vào các t
khoá đc cung cp, các máy tìm kim tìm trong c s d liu ca mình các trang web cha ni
dung t khoá đó. Các t khoá có th xut hin trong trang web, trong tiêu đ ca trang hay cha


trong bn thân tài liu ca trang web đó tu theo cách thc yêu cu máy tìm kim thc hin. Tiêu
chí đánh giá s khp ca mt t khoá xut hin trong mt trang web không nht thit là 100%. Kt
qu ca vic tìm kim s có đ chính xác gim dn cho các trang web tìm thy v sau. Vic tìm
kim trên mng thc hin thông qua c ch lan truyn. Mt máy tìm kim gi yêu cu đn mt máy
ch tìm kim, yêu cu đc phân rã và tìm trong c s d liu ca máy ch đó. Trong trng hp
thông tin cn tìm kim không xut hin trong c s d liu đó, nó tip tc gi yêu cu đn các máy
tìm kim khác có trên mng và các trang web đã đc đng kí.



1
Mng toàn cu
2
search engine
a ch trang web
Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
2
2.3 Các máy tìm kim
Google là mt máy tìm kim ph bin và rt hiu qu hin nay trên th gii. Trang web ca
công c này nm ti đa ch và đã h tr tìm kim bng nhiu ngôn ng trên
th gii. Google cho phép tìm kim theo các tiêu chí nh loi tài liu, thi gian, phm vi ni lu
tr… Sau khi tìm kim, ta có th tu chn cách hin th các tài liu đc hin, di dng liên kt
đn tài liu, hình nh hay phân nhóm. Thông tin cn đa vào là t khoá ca tài liu cn tìm kim và
phm vi s tìm kim.  dng thc tìm kim này, tt c các trang web cha ni dung ca t khoá 
tiêu đ trang, ni dung ca trang hay  phn t khoá do trang đó cung cp s đc lit kê ra (tìm
thy). Trong trng hp yêu cu trang web kt qu có mt s tiêu chí đng thi (các t khoá khác
nhau đng thi xut hin) hoc xut hin mt trong s các t khoá…, có th s dng phép ni các
(cm) t khoá bng các t đi din cho phép toán logic: AND (và), OR, du phy (hoc), NOT
(không). Chúng đc vit chung vi các cm t khoá. Thc cht đây là biu thc logic vi s tham

gia ca các t khoá. Máy ch tìm kim s có c ch riêng đ phân rã biu thc này phc v cho vic
tìm kim hiu qu; và vic so sánh vi t khoá không nht thit là so sánh khp chính xác. Ví d
khi cn tìm các tài liu v chính tr hoc kinh t, có th vit trong phn t khoá tìm kim là “chính
tr” OR “kinh t”. Các t khoá gm nhiu t ghép li cn đt trong cp du nháy kép. Trng hp
không đt trong cp du này, các trang web cha mt trong các t đó đu đc lit kê, kt qu là s
trang web tìm thy s nhiu hn, vic đc và tìm ra trang web cn thit cng mt thi gian hn, đôi
khi các trang web tìm thy không cha chút ni dung nào so vi yêu cu.
Vi các tìm kim có nhiu chi tit, ta có th chn thêm mt s tiêu chun khác nh cách
thc các t khoá tìm kim xut hin trong tài liu tìm đc, thi gian, dng lu tr, tên min lu tr
tài liu… Ta có th yêu cu tt c các t khoá, chính xác nhóm t khoá hoc mt trong s các t

Hình 2. Tìm kim nâng cao trong Google
Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
3
khoá xut hin trong mt phn nào đó ca tài liu, hoc không xut hin các t trong danh sách t
khoá... Hoc yêu cu tìm các tài liu có mt đnh dng lu tr nào đó, tính cp nht ca tài liu (thi
gian cp nht gn đây nht) hay trang web tìm đc phi thuc min nào (thng gn vi ngôn ng
và quc gia). Ta cng có th đa các t mô t tính cht, đc đim ca tài liu trong phn t khoá tìm
kim. Máy tìm kim s so sánh các tính cht này vi tính cht ca trang web tìm thy đ quyt đnh
nó có đc nm trong danh sách các trang web kt qu hay không. Nhng tin ích này nhm lc b
bt các thông tin không cn thit.  tìm chính xác mt tài liu, t khoá cung cp càng chi tit,
càng chính xác thì hiu qu ca vic tìm kim càng cao, tài liu tìm đc càng sát vi cái ta cn,
đng thi cng hn ch các loi tài liu không cn thit. Ngc li, nu t khoá tìm kim rng thì
lng tài liu tìm đc s nhiu và cn tn công sc đ đc và la chn tài liu phù hp. Nu mt
tìm kim mang li ít thông tin đ la chn, có th gim các yêu cu.

Mt máy tìm kim khác cng thng đc s dng, ca Yahoo  đa ch
. Máy tìm kim này đc Yahoo mua ca Google đ ci tin. Do vy, các
tính nng có phn tng t tuy cách b trí các tài liu tìm thy khác nhau. Yahoo phân nhánh các tài

liu tìm thy theo chiu sâu
trong khi Google thng đ
theo chiu rng. V nguyên tc,
các tiêu chí tìm kim ca các
máy tìm kim, đn mt mc đ
nào đó s là ging nhau. Tuy
nhiên, s khác nhau th hin 
phng pháp tìm kim, cách
lc ra tài liu và thông tin v
các trang web đc lu tr ti
máy ch lu tr ca máy tìm
kim.
Hình 4. Trang tìm kim msn
Hình 3. Tìm kim vi máy tìm kim ca Yahoo


 

Tên min
Dng file
T khoá và cách xut hin
Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
4
Microsoft cng có công c tìm kim riêng. a ch ca công c này nm  đa ch
. So sánh vi máy tìm kim ca Google và Yahoo, trang tìm kim ca
Microsoft thiên v tìm các tài liu có ngun gc và liên quan đn Microsoft. Mc dù đây là đánh giá
ch quan nhng có v là nh vy.

Hình 5 . Tìm kim nâng cao trong MSN

i vi tìm kim tài liu ting Vit, cn quan tâm thêm đn dng mã hoá ting Vit (b
gõ). Nu tài liu đc ch bn dùng font ch unicode, phm vi tìm kim là không b hn ch vi các
máy tìm kim hin có. Các tài liu, trang web s dng b gõ c khi ch bn và cha đc chuyn
mã, các ký t có th đc mã hoá di dng VIQR, TCVN, VNI, Vietware… iu này gây khó
khn cho các máy tìm kim bi c ch tìm kim là s so sánh mã ca t khoá tìm kim vi mã ca
thông tin cha trong trang web. S sai khác này dn đn b sót nhng thông tin có ích, cn thit.
Sau khi tìm kim, các mc tài liu tìm đc s đc lit kê theo tng trang, các trang xut hin v
sau thng có t l khp vi t khoá tìm kim thp hn.

3. Giao dch bng h thng email
S dng email đ trao đi thay h thng th tín thông thng càng ngày càng ph bin. Có
các tiêu chun v mt k thut nh chun http (dùng chung vi web), chun POP3, IMAP… đ ly
đc th v và đc đc ti máy mà không cn kt ni internet. Chúng tôi xin gii thiu hai chng
trình sau đc dùng ph bin, chy trên h điu hành Windows h tr vic đó. C hai chng trình
ging nhau v tính nng c bn, đc la chn dùng theo thói quen và nhu cu.
Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
5


Hình 6. Trang VinaSeek và cách thc b trí các trang đã tìm kim đc.
3.1 Outlook Express
Chng trình này có sn cùng Windows khi cài đt. Biu tng chng trình Outlook
Express thng có  Start\Programs. Thit lp thông tin cho Outkook đ t đng ly th t mt tài
khon đã có nh sau. Chn Tools\Accounts… Hình 8 s hin ra và sau khi nhp đy đ tên, đa ch
email, cn chn chun gi và nhn th phù hp. Thông thng, chun POP3 là ph bin cho các
Mail Server
3
. Nu h thng Mail Server dùng Microsoft Exchange Server thì chun là IMAP; hoc
chun http nh th ca hotmail. Vi h thng dùng Linux, POP3 cng hay đc chn. Tuy nhiên,

mc dù POP3 d dùng nhng có mt hn ch là không chng thc đc ngi gi, tc là th có th
b gi đi dng nc danh; tng t nh vic b mt lá th không đ ngi gi vào hòm th ca mt
ai đó hoc gi tên ca mt ai đó vit th. iu này có th kim soát đc trong h thng vi các tài
khon đc cp đng b, khi đó nhng thông tin quan trng trong h thng có th đc gi đi khi
dùng tài khon trong h thng và thông tin đó là đc chng thc ngun gc. Nhng thông tin phc
v kt ni đn Mail Server là do ngi qun tr h thng đó thit lp, nh Incoming mail (th đn),
Outgoing mail (th gi đi) tng ng vi chun ca Mail Server đã chn. Có th ly th t nhiu
tài khon th khác nhau v máy và các tài khon khác đc thit lp tng t. Ví d Mail Server
ca HQG có đa ch đng kí là mail.vnu.edu.vn dùng chung cho c Incoming mail (th đn) và
Outgoing mail (th gi đi). a ch th mc đnh s đc t đng chn đ gi th đi. Sau khi thit


3
Máy ch cung cp dch v th đin t
Internet và khai thác thông tin
Bùi V Anh - Trng HKH T nhiên Hà Ni
6
lp thông tin v Mail Server, cn đin thông tin v tài khon bao gm tên tài khon (mc đnh đã
xut hin không có phn đuôi), và mt khu.



Hình 8. Cài đt thêm đa ch email
Hình 7. Chng trình OutlookExpress

×