Tải bản đầy đủ (.pdf) (61 trang)

Công cụ tìm kiếm google và một số dịch vụ tìm kiếm tiêu biểu của google

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.39 MB, 61 trang )

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN, ĐHQGHN

KHOA THÔNG TIN – THƢ VIỆN
==================

ĐỖ THỊ MẾN

CÔNG CỤ TÌM KIẾM GOOGLE VÀ MỘT SỐ
DỊCH VỤ TÌM KIẾM TIÊU BIỂU CỦA GOOGLE

TÓM TẮT KHÓA LUẬN TỐT NGHIỆP

NGÀNH

: THÔNG TIN - THƢ VIỆN

HỆ ĐÀO TẠO : CHÍNH QUY
KHÓA HỌC : QH - 2006 – X

HÀ NỘI, 2010


MỤC LỤC
PHẦN I: MỞ ĐẦU .......................................................................................... 4
1 Tính cấp thiết của đề tài ................................................................................. 4
2 Mục đích nghiên cứu ...................................................................................... 4
3 Tình hình nghiên cứu theo hướng của đề tài .................................................. 5
4 Đối tượng nghiên cứu..................................................................................... 5
5 Phạm vi nghiên cứu ........................................................................................ 5
6 Phương pháp nghiên cứu................................................................................ 6
PHẦN II: NỘI DUNG ..................................................................................... 7


CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE ....... 7
1.1 Khái quát chung về công cụ tìm kiếm......................................................... 7
1.1.1 Khái niệm công cụ tìm kiếm ................................................................. 7
1.1.2 Phân loại công cụ tìm kiếm ................................................................... 7
1.1.2.1 Căn cứ theo phương thức hoạt động ........................................... 7
1.1.2.2 Căn cứ theo đối tượng tìm kiếm ................................................. 9
1.1.2.3 Căn cứ theo chức năng................................................................ 9
1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam ......... 9
1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới ......................... 9
1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam ....................... 10
1.2 Giới thiệu công cụ tìm kiếm Google ......................................................... 10
1.2.1 Lịch sử hình thành và phát triể n của Google ....................................... 10
1.2.1.1 Thời kỳ đầ u ................................................................................ 10
1.2.1.2 Thời kỳ phát triể n....................................................................... 11
1.2.1.3 Lượt truy cập .............................................................................. 15
1.2.1.4 Mục tiêu hướng tới .................................................................... 15
1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google ........................ 16
1.2.2.1 Nhện Web................................................................................... 16


1.2.2.2 Hệ thống chỉ mục ....................................................................... 16
1.2.2.3 Hệ thống chỉ mục chạy thực ...................................................... 17
1.2.3 Cách thức hoạt động của công cụ tìm kiếm ......................................... 17
1.2.4 Hê ̣ thố ng xế p ha ̣ng Pagerank ............................................................... 19
CHƢƠNG 2: TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM
KIẾM TIÊU BIẾU ......................................................................................... 21
2.1 Trang chủ tìm kiế m Google ....................................................................... 21
2.1.1 Giao diện tìm kiếm .............................................................................. 21
2.1.2 Nguyên tắc tìm kiếm ............................................................................ 21
2.1.3 Các tính năng tìm kiếm ........................................................................ 22

2.1.4 Các chức năng chính ............................................................................ 22
2.1.4.1 Chức năng gợi ý từ khóa .......................................................... 22
2.1.4.2 Chức năng tùy chọn hiển thị .................................................... 23
2.1.4.3 Chức năng lịch sử web ............................................................. 24
2.2 Mô ̣t số dich
̣ vu ̣ tim
̀ kiế m tiêu biểu .......................................................... 25
2.2.1 Dịch vụ Google Web Search ................................................................ 25
2.2.1.1 Tìm kiếm đơn giản ................................................................... 29
2.2.1.2 Tìm kiếm nâng cao ................................................................... 31
2.2.2 Dịch vụ Google Images ........................................................................ 35
2.2.2.1 Tìm kiếm đơn giản ................................................................... 35
2.2.2.2 Tìm kiếm nâng cao ................................................................... 37
2.2.3 Dịch vụ Google Videos ........................................................................ 38
2.2.3.1 Tìm kiếm đơn giản .................................................................... 38
2.2.3.2 Tìm kiếm nâng cao .................................................................... 41
2.2.4 Dịch vụ Google Maps ........................................................................... 41
2.2.4.1 Giao diê ̣n ................................................................................... 42
2.2.4.2 Chế đô ̣ hiể n thi ̣của bản đồ ........................................................ 43
2.2.4.3 Mô ̣t số tin
́ h năng khác của Google Maps.................................. 44
2.2.5 Dịch vụ Google Books ............................................................................ 44


2.2.5.1 Mục tiêu tìm kiếm sách của Google .......................................... 44
2.2.5.2 Cơ sở dữ liệu sách của Google .................................................. 44
2.2.5.3 Nguồn gốc sách .......................................................................... 45
2.2.5.4 Giao diện hiển thị ...................................................................... 46
2.2.5.5 Tìm kiếm đơn giản ..................................................................... 46
2.2.5.6 Tìm kiếm nâng cao .................................................................... 47

2.2.5.7 Tính năng chính ......................................................................... 47
2.2.6 Dịch vụ Google News ............................................................................. 50
2.2.6.1 Tìm kiếm đơn giản ...................................................................... 51
2.2.6.2 Tìm kiếm nâng cao ...................................................................... 51
CHƢƠNG 3: NHẬN XÉT, ĐÁNH GIÁ VÀ TRIỂN VỌNG CỦA
CÔNG CỤ TÌM KIẾM GOOGLE TRONG TƢƠNG LAI ....................... 53
3.1 Nhận xét, đánh giá...................................................................................... 53
3.1.1 Ưu điểm ............................................................................................ 53
3.1.2 Hạn chế............................................................................................. 53
3.2 Triển vọng của công cụ tìm kiếm Google trong tương lai ......................... 55
PHẦN III: KẾT LUẬN .................................................................................. 57
TÀI LIỆU THAM KHẢO ................................................................................ 58


PHẦN I: MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay các công cụ tìm kiếm đã trở thành nhu cầu tất yếu cho
những người muốn tìm kiếm thông tin trên Internet. Công cụ tìm kiếm là
các chương trình phần mềm hoạt động trên Internet giúp định vị những tài
nguyên thông tin chung. Phần lớn các công cụ tìm kiếm tìm các trang web
và nhiều công cụ tìm kiếm khác còn có thể dùng để tra cứu các phần mềm,
hình ảnh, tài liệu đa phương tiện và thông điệp nhóm thông tin. Những
thông tin liên quan trong kết quả tìm kiếm vẫn là yếu tố quan trọng hàng
đầu đối với người dùng tin.
Ngày càng có nhiều người dành thời gian trên các công cụ tìm kiếm
với một loạt các câu lệnh tìm kiếm phức tạp kết hợp nhiều từ khóa. Việc
sắp xếp thông tin hợp lý có thể giúp tăng gấp đôi hiệu quả tìm kiếm. Trên
thế giới hiện nay có rất nhiều công cụ tìm kiếm thông tin, trong đó Google
là một trong những công cụ tìm kiếm nổi tiếng, thông dụng và hiệu quả
nhất. Theo khảo sát, Google thâu tóm hơn 60% thị phần tìm kiếm. “Nếu

như thư viện Alecxandria trước đây được công nhận là nỗ lực đầu tiên
của loài người nhằm tập hợp toàn bộ tri thức của nhân loại vào một nơi,
thì nỗ lực của chúng ta trong thời đại? Đó chính là Google” (Brewster
Kahle - sáng lập viên kiêm chủ tịch tổ chức Internet Archive).
Vậy tại sao Google lại là công cụ tìm kiếm được sử dụng phổ biến
như vậy? Đề tài khóa luận hướng tới việc tìm hiểu cách thức Google tập
hợp, sắp xếp thông tin trên Internet và các dịch vụ chủ yếu của Google hiện
nay.
2 Mục đích nghiên cứu
Tìm hiểu về Google và các dịch vụ của công cụ tìm kiếm này. Từ đó
có cái nhìn sâu sắc hơn về Google, đồng thời đánh giá được những mặt tích


cực cũng như đưa ra một vài nhận xét về ưu điểm, hạn chế và triển vọng
phát triển của Google trong tương lai.
3 Tình hình nghiên cứu theo hƣớng của đề tài
Trong những năm gần đây, khi Internet bùng nổ và phát triển mạnh mẽ
đã có những đề tài nghiên cứu khoa học, khóa luận tốt nghiệp của sinh viên
nói chung và sinh viên ngành Thông tin – Thư viện nói riêng tìm hiểu về
công cụ tra cứu tìm tin, so sánh giữa các công cụ tìm kiếm trên mạng. Tuy
nhiên, vẫn chưa có đề tài nào tìm hiểu chuyên sâu về công cụ tìm kiếm rất
nổi tiếng và hiệu quả Google. Chính vì lý do đó, tác giả đã quyết định lựa
chọn đề tài “Công cụ tìm kiếm Google và các dịch vụ tìm kiếm tiêu biểu
của Google”. Nội dung đề tài vừa thể hiện được tính mới vừa có tính ứng
dụng cao để tìm kiếm thông tin ngày càng hiệu quả hơn đồng thời cũng
đóng góp một phần vào lý luận chung về công cụ tìm kiếm.
4 Đối tƣợng nghiên cứu
- Công cụ tìm kiếm Google.
- Một số dịch vụ tìm kiếm chủ yếu của Google bao gồm:
 Dịch vụ Google Web

 Dịch vụ Google Images
 Dịch vụ Google Videos
 Dịch vụ Google Maps
 Dịch vụ Google News
 Dịch vụ Google Books
5 Phạm vi nghiên cứu
- Phạm vi không gian:
+ Trang chủ tìm kiếm Google:


+ Trang chủ tìm kiếm Google tại Việt Nam:
- Phạm vi thời gian: Công cụ tìm kiếm Google từ khi thành lập đến
nay. (Năm 1996 – Tháng 04/2010).
6 Phƣơng pháp nghiên cứu
- Phương pháp nghiên cứu, phân tích, tổng hợp tài liệu.
- Phương pháp so sánh, đối chiếu.
- Phương pháp phỏng vấn sâu.


PHẦN II: NỘI DUNG
CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE
1.1 Khái quát chung về công cụ tìm kiếm
1.1.1 Khái niệm công cụ tìm kiếm
Máy truy tìm hay còn gọi là máy tìm tin, máy tìm kiếm (search
engine), nghĩa rộng hơn được gọi là công cụ tìm kiếm khởi đầu là một phần
mềm nhằm tìm ra các trang trên Internet có nội dung theo yêu cầu của
người dùng dựa vào các thông tin hiện có [7].
Như vậy, trữ lượng thông tin của công cụ tìm kiếm thực chất là một
cơ sở dữ liệu rất lớn. Để xây dựng được cơ sở dữ liệu, công cụ tìm kiếm sẽ
thu thập dữ liệu từ nhiều nguồn khác nhau, bằng nhiều phương pháp để đưa

vào cơ sở dữ liệu, mỗi khi người sử dụng đưa ra lệnh tìm kiếm được thể
hiện bằng từ khóa, công cụ tìm kiếm sẽ lục tìm trong cơ sở dữ liệu và hiển
thị kết quả đáp ứng yêu cầu của người sử dụng. Từ khóa được hiểu là một
tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với
nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Tập hợp
một từ khóa gồm nhiều hơn một chữ (hay một từ) có thể gọi tập hợp các
chữ đó là bộ từ khóa.
1.1.2 Phân loại công cụ tìm kiếm
1.1.2.1 Căn cứ theo phương thức hoạt động
- Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được
cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay
"Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những
trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang
và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này
cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để
cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau


khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng
nguyên tắc này là .
- Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có
thể tận dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy
tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá
đơn giản, nó không có cơ sở dữ liệu. Khi hoạt động, máy truy tìm ảo sẽ gửi
từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các
kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các
tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là tận
dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn
và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm
nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay

"ảo"). Điển hình loại này là MetaCrawler.
- Kiểu thư mục đối tượng (máy truy tìm theo phân lớp) (subject
directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search
engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và
người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang
Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là
nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự
phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này
là .
- Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web
(invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có
từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong
các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các
trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các
đại học hay học viện như , và
thuộc kiểu này.


Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác
nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà
thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng
khác nhau. Chẳng hạn như không còn đơn thuần là
một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng
cung cấp luôn cả kiểu máy nhện cho người dùng.
1.1.2.2 Căn cứ theo đối tượng tìm kiếm
- Tìm kiếm văn bản
- Tìm kiếm hình ảnh
- Tìm kiếm âm thanh
…..
1.1.2.3 Căn cứ theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm sẽ có:
- Tìm kiếm địa chỉ trang Web
- Tìm kiếm địa chỉ thư điện tử
- Tìm kiếm thông tin riêng về một người
- Tìm kiếm thông tin về một tổ chức
- Tìm kiếm việc làm
….
1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam
1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới
Hiện nay, trên thế giới các công cụ tìm kiếm xuất hiện ngày càng
nhiều, trong đó tiêu biểu là:
- Alta Vista:



- HotBot:



- Google:




- Lycos :



- MSN :




- Yahoo :



1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam
Bên cạnh các công cụ tìm kiếm mang tầm cỡ thế giới thì ở các quốc
gia, các máy tìm kiếm bản địa cũng ra đời vừa thể hiện được bản sắc văn
hóa của đất nước mình vừa có thể hướng tới phục vụ cộng đồng người sử
dụng xác định như công cụ tìm kiếm www.baidu.com (Trung Quốc),
www.narver.com (Hàn Quốc), www.yandex.com (Nga)… Các công cụ tìm
kiếm này trước mắt có thể giành lấy thị trường trong nước, ngoài ra, bằng
việc cập nhật công nghệ thông tin có thể mở rộng ra khu vực, châu lục, thế
giới. Nằm trong xu thế chung đó, ở Việt Nam cũng xuất hiện các công cụ
tìm kiếm khá hữu ích. Tiêu biểu là:
- Xalo:



- Bambo:



- Socbay:



- Timnhanh:




1.2 Giới thiệu công cụ tìm kiếm Google
1.2.1 Lịch sử hình thành và phát triển của Google
1.2.1.1 Thời kỳ đầ u
Google được biết đến với ban đầu là một công trình nghiên cứu của hai
nhà đồng sáng lập là Larry Page và Sergey Brin – hai nghiên cứu sinh của
trường đại học Stanford, Mỹ năm 1996. Larry Page và Sergey Brin đưa ra
giả thuyết cho rằng một công cụ tìm kiếm dựa vào cách phân tích các liên
hệ giữa các website sẽ đem lại kết quả tốt hơn. Đầu tiên giả thuyết này
được gọi bằng cái tên là Backrub (Gãi lưng) bởi vì hệ thống này dùng các


liên kết đến để ước tính tầm quan trọng của trang. Theo giả thuyết đó, họ
cho rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác
sẽ là những trang thích hợp nhất. Gỉa thuyết này đã được thử nghiệm trong
nghiên cứu của họ và đó cũng là cơ sở đặt nền móng cho công cụ tìm kiếm
Google hiện đại bây giờ.
1.2.1.2 Thời kỳ phát triể n
* Giai đoạn 1997 - 1999:
Ban đầu, Google sử dụng tên miền www.google.stanford.edu – tên
miền thuộc trang web của trường Đại học Stanford, Mỹ. Sau đó, tên miền
www.google.com được đăng ký vào ngày 15/9/1997.
Năm 1998, dấu hiệu Beta (thử nghiệm) đã xuất hiện trên giao diện
tìm kiếm đồng nghĩa với việc Google chính thức đưa công cụ này vào thử
nghiệm rộng rãi. Nhưng khi đó, tìm kiếm chủ yếu tập trung vào “stanford
search” – tức là tìm kiếm nội dung có liên quan đến trường đại học
Stanford.



Hình ảnh giao diện của Google năm 1997

* Giai đoạn từ 1999 đến nay:
Năm 1999 đánh dấu bước ngoặt quan trọng khi Google thay đổi
chiến lược phát triển. Đó là khi Google nhận ra rằng dịch vụ tìm kiếm web
của hãng có thể đứng độc lập, bởi vì tại thời điểm đó tìm kiếm vẫn là một
lĩnh vực chưa phát triển.

Hình ảnh giao diện của Google năm 1999

Giao diện tìm kiếm của Google vào năm 1999 là một giao diện đơn
giản nhất và có ít liên kết nhất trong tất cả các giao diện mà Google đã sử
dụng. Tuy nhiên, do chưa được biết đến rộng rãi nên Google vẫn phải đưa


ra lời giải thích “search the web using Google” (có thể dịch: “Google là
công cụ tìm kiếm nội dung trên web”).
Năm 2000, Google vượt qua Yahoo trở thành công cụ tìm kiếm tốt
nhất (best search engine) và dấu hiệu Beta cũng không còn xuất hiện.
Google cũng bắt đầu cung cấp cho người dùng dịch vụ tìm kiếm mang tính
địa phương hóa tức là cho phép tìm kiếm bằng nhiều ngôn ngữ khác nhau.
Năm 2001 Google phát triển thêm nhiều dịch vụ hơn nữa trong đó
tiêu biểu là dịch vụ Google Web Directory, Google Groups (hiện tại dịch
vụ Google Web Directory không còn tồn tại). Thêm vào đó, để quảng cáo,
trên hộp nhập từ khóa tìm kiếm, Google ghi rõ số lượng website mà công
cụ tìm kiếm này đã đánh chỉ mục. Vào thời gian này, ngày 4/9/2001,
Google nhận được bằng sáng chế cho kỹ thuật sắp xếp trang web Pagerank.

Hình ảnh giao diện của Google năm 2001


Năm 2002 là năm phát triển mạnh mẽ của Google khi trang công cụ
tìm kiếm này đã trở nên phổ biến hơn trong cộng đồng người dùng web. Và


cũng bắt đầu từ năm 2002 người dùng được chứng kiến một logo Google
đẹp và sinh động hơn rất nhiều. Logo được thay đổi tùy theo từng sự kiện
lớn trên thế giới hay một ngày lễ nào…
Năm 2007, Google đã thay đổi giao diện khi những liên kết trang
web trước đây nằm ngay trên hộp nhập từ khóa tìm kiếm thì đã được đẩy
lên góc trên cùng bên tay trái. Đồng thời, các dịch vụ mà Google cung cấp
cho người dùng cũng trở nên phong phú và đa dạng hơn như Google News,
Google Maps, đặc biệt là dịch vụ thư điện tử nổi tiếng Gmail (dịch vụ
email trên nền web)...

Hình ảnh giao diện của Google năm 2007

Năm 2008 Google đưa ra trình duyệt mã nguồn mở Google Chrome,
và Google Translate đã bổ sung thêm tiếng Việt trong dịch vụ dịch tự động
và tích hợp ngay trong công cụ tìm kiếm, giúp người dùng nhanh chóng
hiểu được cơ bản nội dung trang web trình bày bằng tiếng nước ngoài.
Hiện tại, Giao diện của Google có hơn 100 ngôn ngữ khác nhau. Số
lượng website được đánh chỉ mục chứa trong cơ sở dữ liệu của Google
cũng ngày càng gia tăng nhanh chóng. So với cơ sở dữ liệu ban đầu là 25


triệu trang web năm 1998 thì đến năm 2003, Google đánh chỉ mục cho hơn
3 tỉ website, năm 2004 là 4 tỉ website, năm 2005 là 8 tỉ website.
Google đặt địa chỉ tại 1600 Amphitheater Parkway, Mountain View,
California, Mỹ - nơi vẫn được gọi là trụ sở đại bản doanh Googleplex. Hiện
tại công ty có trên 20.200 nhân viên đến từ nhiều quốc gia khác nhau, giám

đốc là tiến sỹ Eric Schmidt.
1.2.1.3 Lƣợt truy cập
Ngay từ những ngày đầu thành lập, Google đã phát triển nhanh
chóng. Đầu tháng 8/1999, Google phục vụ 3.000 lượt người tìm kiếm một
ngày; đến tháng 9/1999, mỗi ngày Google phục vụ 3,5 triệu lượt truy cập,
khoảng 65 lượt truy cập mỗi giây. Đến giữa năm 2000, lượt truy cập mỗi
ngày tăng lên tới 13 triệu.
Tháng 6/2000, Google thay thế dịch vụ tìm kiếm cốt lõi Inktomic của
Yahoo. Đầu năm 2004, khi Google đã phát triển mạnh mẽ, công cụ tìm
kiếm này đã xử lý trên 80% số lượng tìm kiếm trên Internet qua website
www.google.com và các website của khách hàng như Yahoo, AOL, và
CNN. Tháng 12/2006, Google là công cụ tìm kiếm được sử dụng nhiều
nhất trên mạng với 50,8% thị phần, vượt xa so với Yahoo là 23,6% và
Window Live Search là 8,4%. Cũng theo bảng báo cáo thống kê gần đây
vào tháng 8 năm 2007 của ComScore Network, Google vượt lên đứng đầu
tiên với con số 37 tỷ lượt tìm kiếm, trong khi đó Yahoo đứng vị trí thứ 2
với con số 8,5 tỷ lượt tìm kiếm.
1.2.1.4 Mục tiêu hƣớng tới
Tên gọi “Google” là một lối chơi chữ của từ googol, bằng 10 100 .
Tên gọi này cũng thể hiện mu ̣c tiêu hướng tới của Google là “Tổ chức, sắ p
xế p thông tin trên thế giới và làm cho nó được dễ dàng tiếp cận ”. Do đó,
thông tin không chỉ được thu thập, lưu trữ mà còn được sắp xếp, phân loại


khoa học, logic. Điều này vô cùng quan trọng đối với nhu cầu tìm kiếm
thông tin chính xác nhất và phù hợp nhất cho người tìm tin. Bởi vì trong
khối lượng thông tin đồ sộ và không ngừng gia tăng đó, tìm kiếm đúng
thông tin không phải là cái mục đích cuối cùng. Quan điểm nhất quán của
Google là thông tin được đánh giá (thông qua hệ thống xếp hạng pagerank)
và người sử dụng có thể tìm kiếm, sử dụng, truy cập, tiếp cận nó theo cách

thức nhanh nhất, đơn giản nhất có thể.
1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google
Google là công cụ tìm kiếm theo kiểu máy nhện nên gồm 03 bộ phận
cấu thành và phương thức hoạt động như sau:
1.2.2.1 Nhện Web
Nhện web (còn gọi là rôbốt phần mềm chuyện biệt, tên khác là bọ
tìm kiếm). Đây là một chương trình phần mềm chuyên biệt, có thể nhảy từ
đường dẫn này sang đường dẫn khác trên hệ thống mạng toàn cầu World
Wide Web. Do đó, nhện web được thường coi như một rôbốt lướt khắp nơi
qua các khu vực trên không gian mạng. Nhưng thực tế là nhện web không
đi đâu cả, chúng hoạt động cố định trên một máy chủ riêng, từ đó gửi đi
một số lượng lớn các truy vấn đến các trang web lên mạng.
Nhện web có cấu trúc phức tạp nhưng nguyên tắc hoạt động khá đơn
giản: nhện web liên tục quay số tìm kiếm các đường dẫn URL, rồi báo cáo
kết quả tìm thấy.
Trong các bộ phận của một công cụ tìm kiếm, nhện web là bộ phận
giữ vai trò quan trọng nhất, bởi mức độ hoàn thiện của hệ thống chỉ mục
phụ thuộc vào số lượng trang web và tần suất duyệt web của nhện web. Các
trang kết quả tìm kiếm của mỗi một truy vấn sẽ có nội dung phù hợp hơn
khi hệ thống chỉ mục dần hoàn thiện.
1.2.2.2 Hệ thống chỉ mục


Hệ thống chỉ mục là một cơ sở dữ liệu nhưng có quy mô rất lớn.
Hệ thống chỉ mục thô giống như một danh mục được sắp xếp theo
tên miền: hệ thống chỉ mục liệt kê ra tất cả các trang trên một địa chỉ web,
cùng với mọi thông tin thích hợp về những trang này như: các từ, các kết
nối, các ký tự trong và xung quanh một kết nối. Hệ thống chỉ mục được
tách thành nhiều mảng nhỏ, phụ thuộc vào dữ liệu được xử lý hay chưa và
mức độ sẵn sàng của chúng để người tìm kiếm sử dụng.

1.2.2.3 Hệ thống chỉ mục chạy thực
Hệ thống chỉ mục chạy thực (hay còn gọi là bộ xử lý thông tin truy
vấn) là phần mềm giao diện và tương thích nhằm kết nối các thông tin truy
vấn của người sử dụng với hệ thống chỉ mục. Có thể hiểu một cách đơn
giản là phần liên kết hai bộ phận của một công cụ tìm kiếm với phần sau
bao gồm nhện web, hệ thống chỉ mục và phần trước gồm ứng dụng truy
vấn chỉ và giao diện cho người sử dụng.
Ba bộ phận này có ảnh hưởng quyết định đến chất lượng và tốc độ
của công cụ tìm kiếm, nhưng bên cạnh đó còn có rất nhiều nhân tố khác
chi phối đến chất lượng tổng thể của một công cụ tìm kiếm.
1.2.3 Cách thức hoạt động của công cụ tìm kiếm
Quy trình tìm kiếm được bắt đầu khi một truy vấn tìm kiếm được
đưa ra. Truy vấn ở đây có thể hiểu là các từ khóa, câu hỏi để tìm ra câu trả
lời, một trang web, hay về một kiến thức nào đó. Truy vấn này sẽ định
hướng đến quy trình tìm kiếm.
Quy trình tìm kiếm trang kết quả bắt đầu với nhện web. Dựa trên các
truy vấn, các trang web được tìm ra và nhện web đưa các trang này vào hệ
thống chỉ mục. Các kết nối trên trang web sẽ được ghi chú lại, sắp xếp và
đưa vào các tệp (file) để gửi đi truy vấn. Như vậy với một kết nối mới được
tìm ra sẽ có thêm các truy vấn mới, và cứ tiếp tục như vậy cho đến vô cùng.


Nhện web không chỉ tìm ra và lưu vào hệ thống chỉ mục tiêu đề của mỗi
trang web mà còn là nội dung của toàn bộ trang web và các loại tệp khác
như PDF, các văn bản trong Microsoft Office, âm thanh, hình ảnh và các
siêu dữ liệu – thông tin cấu trúc từng trang do chủ trang web cung cấp về
các trang và thông tin được duyệt. Nhện web sau khi gửi dữ liệu tìm thấy
về hệ thống chỉ mục, các thông tin này được sắp xếp để người tìm kiếm
biết đường dẫn URL, và có thể tìm thấy những từ có liên quan đến đường
dẫn đó.

Đây là một công đoạn rất quan trọng bởi vì bước tiếp theo trong việc
tạo ra một hệ thống chỉ mục thông minh là đảo ngược cơ sở dữ liệu – về
bản chất, nhằm tạo ra một danh sách các từ liên quan đến đường dẫn URL.
Google đã nhận sớm nhận ra cơ sở dữ liệu với khả năng ghi chú lại những
mẫu thống kê, và các kết quả của thuật toán là cách tốt nhất nhằm cung cấp
kết quả phù hợp với các truy vấn.
Qúa trình nhận dạng một hệ thống chỉ mục được coi như một sự
phân tích. Thuật toán Pagerank của Google cũng dựa vào cách phân tích
này: Pagerank phân tích các liên kết trên một trang web, từ neo xung quanh
các liên kết này, và số lượng liên kết ngoài của các trang web, tổng hợp các
yếu tố này lại và tìm ra mức độ phù hợp của một trang web với một truy
vấn. Và Google thường phân tích dựa trên hơn 100 yếu tố để tìm ra mức độ
phù hợp với nội dung trang web với mỗi truy vấn.
Trong suốt quá trình phân tích, chỉ mục sẽ tập hợp các thẻ - một loại
siêu dữ liệu khác (dữ liệu miêu tả về dữ liệu). Trang web có thể được thẻ
chỉ thị để hiển thị theo một ngôn ngữ nhất định hay được chỉ thị để được
liệt vào các nhóm trang web có nội dung như thông tin rác, khiêu dâm, hay
trang web ít được cập nhật. Và các siêu dữ liệu này là yếu tố then chốt giúp
các công cụ tìm được kết quả phù hợp nhất.


Sau khi được phân tích, lưu chỉ mục và đánh dấu bởi các thẻ, các dữ
liệu do nhện web đem lại được đổ vào hệ thống chỉ mục chay thực – cơ sở
dữ liệu có thể ngay lập tức cung cấp kết quả tìm kiếm cho người dùng . Và
đây cũng là hoạt động để kết thúc một quá trình tìm kiếm.
Tóm lại, hoạt động của công cụ tìm kiếm gồm ba phần chính. Ba
phần này biến đổi tùy theo độ lớn và sự phát triển không ngừng của trang
web, đó là nhện web tìm kiếm, lưu dữ liệu vào chỉ mục và đưa ra các trang
kết quả tìm kiếm. Đây là một nhiệm vụ không hề đơn giản bởi vì khối
lượng tài nguyên thông tin trên mạng là vô cùng lớn thêm vào đó là sự phát

triển không ngừng với sự ra đời của các trang web mới, cho nên theo tính
toán “Google đã sử dụng hơn 175.000 máy tính cho công việc này. Con số
này lớn hơn tổng số máy tính thế giới vào thập niên 1970”.[9]
1.2.4 Hệ thống xếp hạng Pagerank
Trước khi tìm hiểu về hệ thống xếp hạng Pagerank, chúng ta cần tìm
hiểu về phương pháp trích dẫn và chú giải, thứ ha ̣ng của ngành xuất bản ấn
phẩm. Bởi vì phương pháp này đã định hướng đến phương thức hoạt động
của Google. Mặt khác, việc sắp xếp thứ hạng các trang web là vô cùng
quan trọng đối với các công cụ tìm kiếm. Điều này sẽ sắp xếp các trang
web ở các vị trí khác nhau trên trang kết quả.
* Trích dẫn: “Là danh mục tài liệu tham khảo hay danh sách các
thông tin quan trọng về ấn phẩm đó, cho phép người ta xác định và định vị
nó”.
(Khái niệm của thư viện đại học Massachusets, Mỹ).
* Chú giải: Theo định nghĩa của ngành xuất bản ấn phẩm, chú giải là
hành vi bổ sung vào các trích dẫn ghi chú có tính chất mô tả. Vì vậy, chú
giải giống như sự đánh giá về tài liệu được trích dẫn.


* Thứ hạng: Có thể hiểu là sự đánh giá về một ấn phẩm vừa bởi ý
tưởng nguyên thủy, nội dung và độ sắc sảo của các trích dẫn trong đó, vừa
theo số lượng ấn phẩm mà nó trích dẫn, số lượng ấn phẩm khác trích dẫn
tới nó và tầm quan trọng của các trích dẫn đó.
Những khái niệm này là cơ sở cho hệ thống xếp hạng Pagerank của
Google. Nhưng trước khi Pagerank ra đời, Larry Page đã đưa ra giả thuyết
về hệ thống BackRub. Đây là hệ thống cho phép tìm kiếm các liên kết trên
web, lưu trữ để phân tích, rồi tái bản chúng trong một dạng mới cho phép
người tìm kiếm nhìn thấy tất cả các đối tượng được liên kết với nhau trên
web.
Dựa trên khái niệm thứ hạng trong ngành xuất bản ấn phẩm, ông đã

đưa ra lý thuyết rằng, kiến trúc các đồ thị web vừa cho biết những đối
tượng được liên kết với nhau vừa chỉ ra được tầm quan trọng của những đối
tượng được liên kết này dựa trên những thuộc tính khác nhau của chúng, ví
dụ như các ký tự neo xung quanh liên kết, là nhân tố quyết định thứ hạng
và mức độ phù hợp của một trang. Khi biết được tầm quan trọng của một
trang, Backrub sẽ đưa ra một thứ hạng tương đối cho trang đó. Với mỗi
một trang được xếp hạng sẽ cho thấy các liên kết tới trang đó, và cả thứ
hạng của những liên kết này. Thuật toán để đếm được số trang liên kết với
một trang cụ thể và cả số liên kết tới các trang liên kết đó được gọi là thuật
toán Pagerank.
Thuật toán Pagerank tương tự như phương pháp đếm các trích dẫn
trong ngành xuất bản ấn phẩm.
Ví dụ :
Để vào trang web www.tinhvan.com có rất nhiều đường liên kết tới
nó. Đường liên kết tới www.tinhvan.com có thể là một đối tác kinh doanh
của công ty trong lĩnh vực công nghệ như công ty IBM hoặc Intel, hoặc là
từ khách hàng là tapchiquehuongonline. Câu hỏi là làm thế nào để xác định


thứ hạng cho hai trích dẫn này? Đặt giả thuyết vì IBM hay Intel là những
trang web rất tiêu biểu trong lĩnh vực này, nên đối tác kinh doanh là IBM
với Intel là liên kết quan trọng hơn. Gỉa sử chỉ có vài trang được liên kết
với trang của tapchiquehuongonline và những trang này cũng không có
nhiều liên kết với nó. Ngược lại, có rất nhiều trang được liên kết với IBM
và Intel và những trang này trung bình cũng có khoảng hàng nghìn liên kết.
Như vậy, theo Pagerank, thứ hạng trang của tapchiquehuongonline
sẽ thấp hơn thứ hạng của trang IBM hay Intel.
CHƢƠNG 2:
TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU


2.1 Trang chủ tìm kiếm Google
Trang chủ Google được thiết kế với giao diện đơn giản, dễ nhìn, ít
chi tiết.
2.1.1 Giao diện tìm kiếm
Gồm một hộp để nhập từ khóa tìm kiếm với hai nút để người dùng sử
dụng gửi đi từ khóa.
- Google search: xử lý từ khóa và tạo một danh sách kết quả
- I’m feeling lucky (Xem trang đầu tiên tìm được): Nút này sẽ tự động
đưa người dùng đến trang web đầu tiên tìm thấy thay vì hiển thị danh
sách.
2.1.2 Nguyên tắc tìm kiếm
- Nhập từ khóa đúng chính tả, Google sẽ trả về kết quả tìm kiếm
càng ít. Do đó mức độ chính xác càng cao.
- Nếu nhập từ khóa dài và không để trong dấu trích dẫn tức là lượng
thông tin càng rõ ràng thì danh sách kết quả trả về cũng sẽ ngắn

. Tuy


nhiên, nếu người dùng nhập một đ oạn văn quá dài , sẽ gây ra tình trạng
thiếu chính xác về mục đích tìm kiếm và kế t quả tim
̀ đươ ̣c

trả về sẽ rất

lớn. Điề u này gây ra tin
̀ h tra ̣ng thừa thông tin.
- Google không phân biệt chữ hoa và chữ thường. Do đó, người dùng
không phải quan tâm đến vấn đề này. Kết quả trả về vẫn là giống nhau.
- Dấu trích dẫn là cần thiết khi muốn nhấn mạnh từ khóa cần tìm

kiếm. Tuy nhiên, không nên áp dụng cho một câu dài.
- Không sử dụng các dấu chấm câu giữa các từ khóa. Vì điều này là
không cần thiết, kết quả trả về với dấu chấm câu và không có dấu chấm
câu vẫn là bằ ng nhau.
VD : Để tìm hiểu về vấn đề : Phần mềm công nghệ thông tin
-) Nếu sử dụng từ khóa là :

công nghệ thông tin

Kết quả là 6.440.000 đầu mục
-) Nếu sử dụng từ khóa là : « phần mềm » AND « công nghệ thông
tin »
Kết quả sẽ ít hơn với 2.330.000 đầu mục.
2.1.3 Các tính năng tìm kiếm
- Tìm kiếm đơn giản.
- Tìm kiếm nâng cao.
- Tìm kiếm an toàn.
Với các tiêu chí tìm kiế m khác nhau như tìm kiế m web

, tìm kiếm

hình ảnh, tìm kiếm video , tìm kiếm sách , tìm kiếm tin tức… , Google đưa
ra các tính năng khác nhau để trả về các kế t quả chính xác
nhanh nhấ t đế n với người dùng.
2.1.4 Các chức năng chính

, phù hợp và


2.1.4.1 Chức năng gợi ý từ khóa

Chức năng gợi ý từ khóa được Google đưa vào sử dụng vào giữa năm
2008. Hiện tại, chức năng này được bổ sung cho Google Web, Google
Images, Google Videos, và Google News. Chức năng gợi ý sẽ hiển thị các
nội dung phổ biến nhất có chứa từ khóa đang tìm. Những gợi ý này nhằm
mục đích giúp người dùng có thể đưa ra những lựa chọn chính xác hơn cho
ý định tìm kiếm, từ đó có thể có những kết quả tốt nhất.

Hình minh hoạ
2.1.4.2 Chức năng tùy chọn hiển thị
Với chức năng này người dùng có thể thay đổi mặc định của trang
chủ Google theo nhu cầu sử dụng của bản thân, và các thay đổi này sẽ được
áp dụng cho tất cả các dịch vụ của Google như lựa chọn ngôn ngữ giao
diện, ngôn ngữ tìm kiếm, mở cửa sổ kết quả bằng một trình duyệt mới, hiển
thị số lượng kết quả trên mỗi trang…


Hình minh hoạ
2.1.4.3 Chức năng lịch sử Web
Lịch sử web cung cấp cho người dùng kết quả tìm kiếm và gợi ý phù
hợp khác dựa trên hoạt động web. Do đó, chức năng này thể hiện được rất
rõ tính cá nhân hóa trên Google. Bởi vì, mục đích của lịch sử Web nhằm :
◊ Xem và quản lý hoạt động của trang web :
Người dùng có thể xem và tìm kiếm toàn bộ nội dung những trang web
đã truy cập, bao gồm tìm kiếm Google, trang web, hình ảnh, videos và nội
dung câu chuyện.
◊ Nhận kết quả phù hợp nhất :
Lịch sử web cung cấp thêm kết quả tìm kiếm được cá nhân hóa dựa trên
những gì mà người dùng đã tìm kiếm trên Google và những trang web đã
truy cập.
◊ Theo dõi các xu hướng trong hoạt động web của người dùng :



×