Tải bản đầy đủ (.pdf) (62 trang)

Đề tài: Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2 MB, 62 trang )

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi. Những kết quả  và các số  liệu 
trong chuyên đề  chưa được ai công bố  dưới bất cứ  hình thức nào. Tôi hoàn toàn chịu  
trách nhiệm trước nhà trường về sự cam đoan này.

Huế, ngày 01 tháng 05 năm 2016
Sinh viên thực hiện

Nguyễn Tuấn Vũ


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa
MỤC LỤC

SVTH: Nguyễn Tuấn Vũ

2

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

DANH MỤC HÌNH

SVTH: Nguyễn Tuấn Vũ



3

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

CHƯƠNG 1. TỔNG QUAN
1.1. ĐẶT VẤN ĐỀ
Website  –  ngôi  nhà  của  Doanh  nghiệp  trên  Internet,  nếu  nói  tên  miền  là 
bảng  hiệu  của một  Công  ty  thì  website  chính  là  văn  phòng  của  Công  ty  đó,  là 
nơi  khách  hàng  tìm  kiếm  các thông tin về doanh nghiệp trước khi kí hợp đồng, 
là nơi  khách  hàng  và  các  đối  tác  liên  hệ  doanh  nghiệp,  là  bộ  mặt  của  doanh 
nghiệp… Ngoài ra website còn tạo ra không ít lợi thế khác như :
Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàn cầu.
Website  là  nơi  trưng  bày,  giới  thiệu  sản  phẩm,  hàng  hóa  dịch  vụ  của  Doanh 
nghiệp. Hoạt động lên tục 24x7, không giới hạn thời gian và không gian.
Website  là  kênh  thông  tin  giới  thiệu  sản  phẩm,  dịch  vụ  hoàn  hảo  nhất  và  hữu 
dụng nhất với hình ảnh, các giới thiệu, các media…
Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa.
Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất.
Thông  qua  website,  doanh  nghiệp  có  thể  tiếp  thị  hình  ảnh,  thương 
hiệu,  dịch  vụ,  sản phẩm  của  mình  ra  ngoài  phạm  vi,  khu  vực  của  quốc  gia. 
Chính  vì những  lợi ích  ấy, việc không có website đã là một thiệt thòi so với các 
đối thủ cạnh tranh.
Theo  Tổng  cục  Thống  kê,  tổng  số  người  sử  dụng  Internet  tại Việt  Nam 
tính đến 2013 là hơn39  triệu  người,  (  chiếm  hơn  43.9%  dân  số  Việt  Nam)  và 

hơn  8,5  triệu  người  dùng  Internet băng thông rộng (08/2014).
Trong  giai  đoạn  2000  ­  2010,  tỉ  lệ  tăng  trưởng  người  sử  dụng  Internet 
tại  Việt  Nam  đạt  mức  12%,  tốc  độ  tăng  trưởng  nhanh  nhất  trong  khu  vực. 
Như  vậy  sau  gần  14  năm  kể  từ  ngày Việt Nam gia nhập  cộng  đồng  Internet 
toàn  cầu  (1/12/1997),  lượng  người  sử  dụng  Internet  trong  nước  đã  tăng  nhanh 
một cách đáng kể.
SVTH: Nguyễn Tuấn Vũ

4

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Nhìn  chung,  Internet  là  một  món  ăn  không  thể  thiếu  với  cuộc  sống  của 
mọi  người,  với  thói  quen  sử  dụng  các  bộ  máy  tìm  kiếm  (Google,  Bing, 
Yahoo…)  để  tìm  kiếm  thông  tin  về  doanh nghiệp,  tài liệu học tập, mua sắm 
trực tuyến, nạp thẻ điện thoại, thanh toán hóa đơn…
Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến 
từ  các  Search  Engine  lớn  như  Google,  Yahoo,  MSN…  Mỗi  ngày  có hàng  triệu 
người dùng lướt web sử  dụng Search  Engine để  tìm những sản phẩm,  dịch vụ 
và thông tin họ đang cần.Nhưng liệu với hàng tỉ  website  hiện  đang  tồn  tại,  làm 
sao khách  hàng  có thể tìm thấy  website  của bạn  trước  mà không phải  của  các 
đối  thủ  cạnh  tranh?  Hầu  hết  người  sử  dụng  các  bộ  máy  tìm  kiếm  đều  không 
kiên  nhẫn,  họ  chỉ  tập  trung  vào  các  kết  quả  tìm  kiếm  ở  “Trang  nhất”  trong 
hàng trăm, hàng triệu kết quả trả về khi truy vấn tìm kiếm.
1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ

Webmaster  và  các  nhà  cung  cấp  dịch  vụ  SEO  đã  bắt  đầu  tối  ưu  hóa  các 
trang  web  cho  công  cụ  tìm  kiếm  vào  giữa  những  năm  1990.  Ban  đầu,  các 
webmaster  bắt  đầu  gửi  link  liên  kết hay url của trang web đến các công cụ tìm 
kiếm, các công cụ này sẽ gửi một spider đến trang website  đó, website  sẽ được 
thu  thập  dữ  liệu,  sau  đó  được  index  lên  máy  chủ  tìm kiếm,  nơi  đây các  thông 
tin  về  website  sẽ  được  lưu  trữ  lại,  các  từ  khóa  của  website,  các  link  liên 
kết  trong website  đó,  các  spider  này  sẽ  làm  việc  index  lên  máy  chủ  theo  lịch 
trình  mà  các  công  cụ  tìm kiếm  quy  ước.  Người  sở hữu  trang  web  bắt  đầu  để 
nhận  ra  những  giá  trị  của  việc  có  các  trang web  của  họ  và  có  thể  nhìn  thấy 
được xếp hạng cao trong kết quả công cụ tìm kiếm.  SEO chia ra làm hai dạng 
đó là : SEO truyền thống (White Hat SEO) và SEO gian lận (Black Hat SEO).
Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm” 
sử dụng rất nhiều trên mạng vào năm 1997.

SVTH: Nguyễn Tuấn Vũ

5

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Đầu  phiên  bản  của thuật  toán  tìm kiếm  dựa vào quản  trị  trang  web  cung 
cấp  thông  tin  như  các  thẻ  meta  từ  khoá,  hoặc  tập  tin  chỉ  mục  như  ALIWEB. 
Thẻ meta cung cấp một hướng dẫn đến nội dung của mỗi trang.

Sử  dụng  dữ  liệu  meta  vào  các  trang  chỉ  mục  được  tìm  thấy  sẽ  được  ít 

hơn  đáng  tin  cậy, tuy  nhiên,  vì  những  sự  lựa  chọn  của  webmastermà  các  thẻ 
meta  có  sự  chính  xác  trong  khả  năng  đưa  thông  tin website  lên  máy  chủ  tìm 
kiếm. Những dữ liệu không chính xác, không đầy đủ, và không  nhất  quán  trong 
thẻ  meta  có thể  gây  ra sự xếp  hạng  không  đúng  vị trí cho  các  tìm kiếm không 
liên quan. Việc cung cấp nội dung được tối  ưu hóa và một số thuộc tính trong 
mã  nguồn  HTML  đối  với  một  trang  web  cần  phải  chính  xác  để  có  được  kết 
quả tốt trên công cụ tìm kiếm.
Bằng  cách  dựa  quá  nhiều  vào  các  yếu  tố  như  mật  độ  từ  khóa  đó  được 
độc  quyền  trong vòng  kiểm  soát  của  một  webmaster,  công  cụ  tìm  kiếm  sớm 
bị  lạm  dụng  vào  thao  tác  xếp  hạng. Để  cung  cấp  kết  quả  tốt  hơn  cho  người 
dùng của họ, công cụ tìm kiếm đã phải thích  ứng để đảm bảo kết quả của các 
trang  đã  cho  thấy  các  kết quả  tìm kiếm  có liên  quan  nhất,  thay  vì các  trang 
không  liên  quan  nhồi  với  từ  khoá  nhiều  bởi  Black  Hat  SEO  –  nhóm 
Webmaster  không  bao  giờ tuân  theo  các qui định  của các  bộ máy  tìm kiếm,  họ 
luôn  lạm  dụng  quá  mức  các  thủ  thuật.  Các công cụ tìm kiếm đã phản  ứng lại 
bằng cách phát triển phức tạp hơn thuật toán xếp hạng, có tính đến các yếu tố 
bổ sung mà gây nhiều khó khăn cho quản trị web để thao tác.
SEO  tại Việt  Nam  bắt đầu  những  nền  móng  phát  triển  đầu  tiên  khoảng 
vào thời điểm giữa năm  2006.  Sau  5  năm,  đến  nay  SEO  đã  là  một  khái  niệm 
mà  hầu  như  bất  kì  một  nhà  quản  trị  website nào cũng biết đến và tìm hiểu nó 
dù ít hay nhiều. Thậm chí, SEO còn được đưa vào hoạt động  của  công  ty  như 
một  hướng  đi  chiến  lược  với  những  kế  hoạch  dài  hơi.  Điển  hình,  bạn  có thể 

SVTH: Nguyễn Tuấn Vũ

6

Lớp: K46 TMĐT



Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

dễ  dàng  nhận  ra  FPT  có  bộ  phận  SEO  riêng,  Zing  có  bộ  phận  SEO  riêng, 
VCCORP  cũng có bộ phận traffic riêng, Báo điện tử 24h…
Như đã trình bày  ở trên, hầu hết người làm SEO chỉ chú ý đến việc là sao 
để một website Thương  mại  được  lên  trang  nhất  của  bộ  máy  tìm  kiếm.  Vấn 
đề đặt  ra:  có  thể  áp dụng  SEO  cho một  website  phi  lợi nhuận,  mang  tính  giáo 
dục  và  Cộng  đồng  không  ?  Liệu  SEO  cho  một  trang  web  phi  thương  mại  có 
khả năng thành công không…
Chuyên đề  đề  tài  “TÌM HIỂU VÀ ỨNG DỤNG SEO VÀO TRANG WEB  
TOANCAUMOBILE.VN”  là  một  minh  chứng  cụ  thể  nhất  cho  việc  áp dụng 
phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tử 
điện thoại.
1.3. MỤC TIÊU CẦN ĐẠT ĐƯỢC
1.3.1. Về lý thuyết
Sau khi hoàn thành chuyên đề, sinh viên có các kĩ năng sau:
Tìm hiểu bộ máy tìm kiếm.
Hiểu thế nào là SEO, các biện pháp để tiến hành SEO một trang web.
1.3.2. Về ứng dụng
Sau khi áp dụng lý thuyết đạt được vào thực tiễn, sinh viên có được cách 
để:
Đưa website vào top 3 của bộ máy tìm kiếm với từ khóa “điện thoại toàn cầu”
Phương pháp duy trì top 10 khi seo đã thành công

SVTH: Nguyễn Tuấn Vũ

7


Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

CHƯƠNG 2. KHẢO SÁT HIỆN TRẠNG
2.1. Phương pháp nghiên cứu và giải quyết vấn đề 
Việc  đầu  tiên  trước  khi  SEO  một  website  đã  được  định  hướng  đúng 
đắn  bằng  những  ý  tưởng  độc  đáo  và  mã  nguồn  tốt  thì  chúng  ta  phải  biết 
được  SEO  là  gì?Và  các  phương  pháp  lựa  chọn những thành phần hỗ  trợ  cho 
website đó.Một website được SEO tốt khi và chỉ  khi w ebmaster  có  được  hiểu 
biết đúng đắn, tránh rơi vào tình trạng Black Hat SEO.
Nhìn  chung,  quá  trình  nghiên  cứu  được  phân  thành  04  giai  đoạn,  các  giai 
đoạn này được thực hiện liên tục cho đến khi SEO thành công.

Hình 2. : Tổng quan quá trình nghiên cứu và giải quyết vấn đề
Bước 1: Xây dựng ý tưởng,  lựa chọn mã nguồn,  xây dựng website  có nội dung 
riêng biệt, hỗ trợ người dùng tối đa.
Bước  2:  Bắt  đầu  phát  triển  website,  song  song  với  việc  phát  triển  cả  về  nội 
dung  lẫn  mã  nguồn,  tác  giả  bắt  đầu  áp  dụng  các  biện  pháp  để  tối  ưu  hóa 
website.
Bước 3: Thống kê, theo dõi các từ  khóa, lượng người truy cập.
SVTH: Nguyễn Tuấn Vũ

8

Lớp: K46 TMĐT



Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

 Bước 4: Theo dõi các báo cáo cụ thể, duy trì công việc hiện tại nếu SEO thành 
công hoặc sữa chữa khi SEO chưa thành công
2.1.2. Kế hoạch làm việc
Tuần

Công việc

1 ­ 2

Nghiên  cứu  về  Search  Engines,  cách  thức  hoạt  động,  cách  thức  thu 

3 ­ 4

Nghiên cứu về SEO, các cách giải quyết vấn đề về SEO.
thập thông tin.

5 ­ 7 Tối ưu hóa website.
8
Theo dõi, điều chỉnh từ khóa, các nội dung không phù hợp
9

Viết báo cáo.

10


Hoàn thành.

2.2. Bố cục
Chương 1: Tổng quan.
Tại  chương  này,  tác  giả  sẽ  đề  cập  đến  các  khái  niệm  cơ  bản  về  SEO, 
các  hiểu  biết  ban đầu về SEO.
Cũng trong chương  này, tác giả giới thiệu đề tài chuyên đề là: “Tìm hiểu 
và  ứng  dụng 

SEO   ­  Search 

Engine 

Optimization 

vào 

website 

ToanCauMobile.vn”  –  Một  website  bán  hàng  điện  tử:điện  thoại,phụ   kiện,âm 
thanh. Đây là một hướng đi mới khi làm SEO.
Qua  chương  1,  tác  giả  giới  thiệu  toàn  cảnh  về  đề  tài.Cách  thức  nghiên 
cứu, tiếp cận đề tài và các mục tiêu đạt được khi hoàn thành tốt chuyên đề.
Chương 2: Cơ sở lý thuyết.
Về  cơ  sở  lý  thuyết,  tác  giả  tìm  hiểu  cách  thức  làm  việc  chung  của  các 
bộ  máy  tìm  kiếm, các  cách  thức  thu  thập  thông  tin,  cách  thức  để  một  bộ  máy 
tìm kiếm có thể thấy được trang web.

SVTH: Nguyễn Tuấn Vũ


9

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Trong  chương  này,  tác  giả  cũng  giới  thiệu  về  hai  phương  thức  đánh 
giá  thứ  hạng  của website  là Alexa  và GoogleRank,  hai phương  thức  này  đã và 
đang là thước đo quan trọng trong việc phát triển trang web.
Cũng  trong  chương  này,  tác  giả  giới  thiệu  SEO,  giúp  cho  người  đọc  có 
cái nhìn rõ ràng hơn về SEO.
Chương 3: Ứng dụng.
Sau  khi  đã  tìm  hiểu  và  nắm  rõ  các  phương  thức  tìm  kiếm,  các  tiêu  chí 
đánh giá xếp hạng tại Chương 2, tác giả áp dụng những hiểu biết trên cơ sở lý 
thuyết đó để bắt đầu SEO trang web ToanCauMobile.vn.
Vì  vậy,  ở  chương  này,  chúng  ta  sẽ  nghiên  cứu  các  phương  pháp  cơ  bản 
nhất,  chính  qui nhất  để  có  thể  tối  ưu  hóa  một  website,  nhằm  đưa  website  lên 
các thứ hạng  cao khi người  dùng truy vấn.
Sau  khi  đã  áp  dụng  các  phương  pháp  cơ  bản  và  chính  qui,  tác  giả  sẽ 
thống kê các số liệu và so sánh lúc chưa áp dụng SEO và sau khi áp dụng SEO.
Một  số phương  pháp,  kĩ năng  mềm  mà  tác giả đã áp dụng  để SEO  thành 
công trang web
Chương 4: Kết luận – hướng phát triển.
Nội  dung  của  chương  4  sẽ  là  tổng  hợp  kết  quả  các  công  việc  đã  làm  ở 
các chương trước. Các kết quả đã đạt được sau khi hoàn thành luận văn.
Những nhược điểm của SEO.
Hướng  phát  triển,  đề  xuất  các  phương  pháp  đễ  giữ  các  vị  trí  cao  khi 

SEO  thành  công, cũng như cách thức quảng bá website để có thể thu lợi nhuận, 
tự nuôi sống website.

SVTH: Nguyễn Tuấn Vũ

10

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

CHƯƠNG 3. CỞ SỞ LÝ THUYẾT
3.1. TỔNG QUAN BỘ MÁY TÌM KIẾM 
3.1.1. Bộ máy tìm kiếm hoạt động như thế nào?
Search  Engine  hay  còn  gọi  là  công  cụ  tìm  kiếm,  bộ  máy  tìm  kiếm  giúp 
người  xem  tìm  thấy  những  thông  tin  một  cách  liên  quan  nhất.  Người  dùng 
có  thể  tìm  kiếm  thông  tin  theo  từ  khoá,  hình  ảnh,  địa   điểm…  trên  search 
engine.  Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine  sẽ  phân  tích 
yêu  cầu  đó,  đánh  giá,  xếp  hạng  và  trả  về  kết  quả  liên  quan  nhất.  Search 
engine hoạt động theo quy trình như sau :
Ban  đầu,  SE  sẽ  gửi  các  Spider  (hay  còn  gọi  là  con  bọ,  Crawler)  để  tiến 
hành  khảo  sát  một  website  khi  nó  được  upload  lên.  Các  Spider  này  được  lập 
trình  để có thể tự động  lần theo  liên  kết để  đi đến các website  khác nhau, sau 
khi dừng lại ở một website  nào đó, Spider  này sẽ  thu thập, đánh  giá  các  thông 
tin  trên  website  đó  trước  khi  tự  động  lần  theo  các  liên  kết  đến  các  website 
khác…
Sau  khi  nhận  được  các  thông  tin  từ  Spider,  SE  có nhiệm  vụ  lưu  trữ  lại 

trước khi phân tích chúng bằng các thuật toán riêng biệt để trả  về  các kết quả 
khi người dùng truy vấn đúng vào nội dung. Ta có thể tham khảo cách thức làm 
việc chung của SE tại hình dưới đây:

SVTH: Nguyễn Tuấn Vũ

11

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Hình 3. : Tổng quan cách thức là, việc của bộ máy tìm kiếm
Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham 
quan, thu thập thông  tin  trên  website  của  bạn.  Search  engine  có  những  con  bọ 
(spider  hay  crawler)  được  lập trình  để  có  thể  tự  động  theo  các  liên  kết  (link) 
để  mò  đến  các  website  khác  nhau,  thu  thập  và  đánh  giá  các  thông  tin  trên 
website đó.
Lưu  trữ  ­ Index:  là giai  đoạn  search  engine  lưu  lại  thông  tin  sau  khi  đã 
crawl.  Với  khối lượng  lưu  trữ  vô  hạn,  các  search  engine  có  thể  chứa  hàng  tỉ 
kết  quả  liên  quan.  Một  trang  web  có  thể  được  index  nhanhn  hoặc  chậm  tuỳ 
thuộc vào tốc độ crawl, độ trust của website và nhiều yếu tố 

khác.

Phân tích – Analysis:  giai đoạn này search engine sẽ làm việc trên các dữ 

liệu mà nó thu thập được. Sau đó tính toán độ  liên quan của dữ  liệu so với yêu 
cầu  của  người  dùng.  Các  search  engine  khác  nhau  có  những  thuật  toán  phân 
tích  khác  nhau  từ  đây  tạo  ra  sự  khác  biệt  giữa  các  search  engine.  Giai  đoạn 
phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả.
Kết quả ­ Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn 
này.  Những  kết quả  liên  quan  thường  được  sắp  ở  phía  trên,  cao  hơn  những 
SVTH: Nguyễn Tuấn Vũ

12

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

kết  quả  ít  liên  quan.Mặc  dù  không phải  lúc  nào  các  kết  quả  cũng  thoả  mãn 
được  yêu  cầu  của  người  tìm  kiếm.Nhưng  cho  đến  hiện nay, người  dùng  khá 
hài lòng với những gì mà search engine trả về.
Tuy  bức  tranh  hoạt  động  của  search  engine  bên  ngoài  nhìn  chung  khá 
đơn  giản  nhưng bên  trong  là  tập  hợp  rất  nhiều  thuật  toán  phức  tạp.  Search 
engine  nào  thoả  mãn  nhiều  nhất  nhu cầu tìm kiếm người sử dụng sẽ được sử 
dụng rộng rãi và phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường 
tìm kiếm trực tuyến đầy tiềm năng này?

SVTH: Nguyễn Tuấn Vũ

13


Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

3.1.2. Giới thiệu về các search engine thông dụng
Hiện  nay  trên  thế  giới  có  rất  nhiều  search  engine  đang  hoạt  động.  Trong 
đó,  phải  kể  đến  ba  chàng  khổng  lồ  đang  chi  phối  98%  thị  phần  tìm 
kiếmtheo  thông  kê  của  SEO  MOD  tháng 01/2014.

Hình 3. : Biểu đồ thị phần search engine từ seomoz.org
Google là search engine được nhiều người sử dụng nhất với 80% số người 
sử dụng. Tiếp theo là Yahoo 9.5% và Bing 8.5%, còn lại số phần trăm ít ỏi dành 
cho các search engine khác.
Hiện  nay,  ở  Việt  Nam  đa  số  mọi  người  cũng  sử  dụng  Google  để  tìm 
kiếm  thông  tin.Nên  việc  SEO  trên  Google  là  ưu  tiên  hàng  đầu  đối  với  các 
website.
3.2. CẤU TẠO CHUNG CÁC BỘ MÁY TÌM KIẾM
Bộ  máy  tìm  kiếm  thường  cấu  tạo  bởi  3  bộ  phận  đó  là:  Bộ  thu  thập 
thông  tin,  Bộ  lập  chỉ mục  và bộ tìm  kiếm  thông  tin, được  hoạt  động  theo  mô 
hình sau:

SVTH: Nguyễn Tuấn Vũ

14

Lớp: K46 TMĐT



Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Hình 3. : Cấu tạo Search Engine
Robot  –  bộ  thu  thập  thông  tin:  Robot  được  biết  đến  dưới  nhiều  tên 
gọi  khác  nhau: spider,  bot,  crawler,  hoặc  web  worm…Về  bản  chất  robot  chỉ 
là  một  chương  trình  duyệt  và  thu thập  thông  tin  từ  các  website  trên  mạng,  nó 
tự  động  duyệt  qua  các  cấu  trúc  siêu  liên  kết  và  trả  về  các danh  mục kết quả 
của  công  cụ  tìm kiếm.  Những  trình  duyệt  thông  thường  không  được  xem  là 
robot  do thiếu  tính chủ động,  chúng  chỉ duyệt  web khi có sự tác động  của con 
người.
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân 
tích, trích chọn những  thông  tin  cần  thiết  (thường  là các  từ đơn,  từ ghép,  cụm 
từ  quan  trọng)  để  lưu  trữ  trong  cơ  sở dữ liệu nhằm phục vụ cho nhu cầu tìm 
kiếm sau này.
Search  Engine  –  Bộ  tìm  kiếm  thông  tin:  Tưởng  tượng  ta  muốn  tìm 
vài  quyển  sách trong  một  thư  viện  rất  lớn.  Với  sức  lực  cá  nhân  ta  không  thể 
xem  qua  hết  tất  cả  sách,  vì  vậy  ta cần một danh  mục sách. Tương  tự, tồn tại 
hàng  triệu  trang  web  trên  thế giới  và mỗi  phút  trôi qua số  lượng được đẩy lên 
càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu 
cũng  không  thể  duyệt  hết.  Tuy  nhiên,  với  sự  trợ  giúp  của  SE,  ta  có  thể  thậm 
chí  xác  định được vị trí của những từ cần tìm trong các trang web khắp nơi trên 
thế giới.

SVTH: Nguyễn Tuấn Vũ

15


Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

3.2.1. Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ 
mục.
3.2.1.1. Robot thu thập thông tin có nhiệm vụ
Phân tích – thống kê ­ Statistical Analysis:  Robot đầu tiên được dùng để 
đếm số lượng web server,  số tài liệu  trung  bình  của một server,  tỉ lệ các dạng 
file khác nhau, kích thước trung bình của một trang web,độ kết dính…
Duy  trì  siêu  liên  kết  –  Maintenance:  Một  trong  những  khó  khăn  của 
việc  duy  trì  một  siêu  liên  kết  là  nó  liên  kết  với  những  trang  bị  hỏng  (dead 
links)  khi  những  trang  này  bị  thay  đổi hoặc  thậm  chí  bị xóa.  Thật  không  may 
vẫn chưa có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi  này.  Trên  thực 
tế  khi  các  tác  giả  nhận  ra  tài  liệu  của  mình  chứa  những  liên  kết  hỏng,  họ  sẽ 
thông  báo  cho  nhau,  hoặc  thỉnh  thoảng  độc  giả  thông  báo  cho  họ  bằng  email. 
Một số robot có thể trợ giúp  tác  giả phát  hiện  các liên  kết hỏng  cũng  như  duy 
trì các  cấu  trúc  siêu  liên  kết  cùng  nội dung  của một trang  web. Chức năng  này 
lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra 
sẽ được giải quyết nhanh chóng.
Ánh  xạ  địa  chỉ  web  – Mirroring:  Mirroring:  là  một  kỹ  thuật  phổ  biến 
trong việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu 
trúc  cây  thư  mục  và thường  xuyên cập  nhật  những  file  bị  thay  đổi.  Điều  này 
cho  phép  nhiều  người  cùng  truy  xuất  một  nguồn  dữ liệu,  giảm  số  liên  kết  bị 
thất  bại,  nhanh  hơn  và  ít  chi  phí  hơn  so  với  truy  cập  trực  tiếp  vào  site thực 
sự chứa các dữ liệu này.

Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để 
phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông 
tin khổng  lồ  trong  môi  trường  mạng.  Robot  sẽ  giúp  thu  thập  tài  liệu,  tạo  và 

SVTH: Nguyễn Tuấn Vũ

16

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

duy  trì  cơ  sở  dữ  liệu,  phát  hiện  và  xoá  bỏ  các  liên kết hỏng  nếu có, kết hợp 
với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết  hợp  các  công  dụng  trên  ­ Combined  uses:  Một  robot  có  thể  đảm 
nhận nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ 
sở dữ liệu…. Tuy nhiên những  ứng dụng như thế còn khá ít ỏi.
3.2.1.2. Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ  cho việc lập chỉ mục , ta cần  
giải quyết vấn đề sau:
Trong môi trường mạng,robot lấy thông tin từ  các site.Vậy robot sẽ  bắt  
đầu từ  site nào? Điều  này  hoàn  toàn  phụ   thuộc  vào  robot.Mỗi   robot  khác 
nhau   có  những   chiến   lược    khác nhau.Thường  thì  robot  sẽ  viếng  thăm  các 
site phổ biến hoặc những site có nhiều liên kết dẫn đến 

 
nó.


Ai  sẽ  cung  cấp  địa  chỉ  của  các  site  này  cho  robot  ?Có  2  nguồn;  Một  là 
Robot  nhận  các URL  ban  đầu  từ  user.Hai  là  Robot  phân  tích  các  trang  web  để 
lấy  các  URL  mới,  đến  lượt  các  URL  này  trở  thành  địa  chỉ  đầu  vào  cho 
robot.Quá trình này được lặp lại liên tục.
Chọn dữ  liệu nào trong tài liệu để  lập chỉ mục? Quyết định chọn dữ  liệu 
nào trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được 
liệt kê như sau được xem là quan trọng :
Ở góc cao của tài liệu.
Trong các đề mục.
Được in đậm.
Trong URLTrong tiêu đề (quan trọng).
Trong phần miêu tả trang web (Description) .
Trong các thẻ dành cho hình ảnh (ALT).
SVTH: Nguyễn Tuấn Vũ

17

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Trong các thẻ chứa từ khóa.
Trong các text liên kết.
Một  số  robot  lập  chỉ  mục  trên  tiêu  đề,  hoặc  một  số  đoạn  văn  bản  đầu 
tiên  hoặc   toàn  bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ 
META(META  tags)  hoặc  các  thẻ  ẩn,  nhờ  vậy  tác  giả  của  trang  web  được 

quyền ấn định từ  khoá cho tài liệu của mình. Tuy nhiên chức năng  này  bị  lạm 
dụng  quá  nhiều  do  đó các  thẻ  META  không  còn  giữ  được  giá  trị  ban  đầu  của 
chúng nữa (Black Hat SEO).

SVTH: Nguyễn Tuấn Vũ

18

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

3.2.2. Index – bộ lập chỉ mục
3.2.2.1. Mô hình xử lý tổng quát của một hệ thống lập chỉ mục

Hình 3. : Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập  chỉ  mục  là  quá  trình  phân  tích  và  xác  định  các  từ,  cụm  từ  thích  hợp 
cốt  lõi  có  khả  năng đại diện cho nội dung của tài liệu.Như vậy, vấn đề đặt ra 
là phải  rút  trích  ra những  thông  tin  chính,  có  khả  năng  đại  diện  cho  nội  dung 
của tài liệu.
Thông  tin này  phải “vừa  đủ”, nghĩa  là không  thiếu  để  trả  ra kết quả đầy 
đủ  so với nhu cầu tìm  kiếm,  nhưng  cũng  phải  không  dư  để  giảm  chi  phí  lưu 
trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp.
Việc  rút  trích  này  chính  là việc  lập  chỉ  mục  trên  tài liệu.  Trước  đây,  quá 
trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ 
công  “ nên  có  độ  chính  xác  cao. Nhưng  trong  môi  trường  hiện  đại  ngày  nay, 
với  lượng  thông  tin  khổng  lồ  thì  việc  lập  chỉ  mục  bằng  tay  không  còn  phù 

hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
SVTH: Nguyễn Tuấn Vũ

19

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Một thủ tục lập chỉ mục tự động cơ bản:
 Step  of  tokenization:  Tách  văn  bản  ra  thành  các  chuỗi  nhờ  vào  khoảng  trắng, 
mỗi chuỗi xem như là một từ.
 Step of removal  of stop words: bỏ những từ thường  xuyên xuất hiện trong hầu 
hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại 
từ.
Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.
Các từ thu được  sẽ được  lập chỉ mục. Tuy  nhiên  hai bước  đầu cũng  cần 
cho quá trình lập chỉ  mục  cho  các  tài  liệu  tiếng  Việt,  bước  thứ  ba  không  cần 
vì tiếng  Việt  thuộc  dòng  ngôn  ngữ đơn thể
3.2.2.2. Phương  pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định  các mục  từ, khái niệm mà có khả năng  đại diện cho 
văn  bản  sẽ  được  lưu  trữ  (bao  gồm  cả  việc  tách  từ,  loại  bỏ  stop­word,  xử  lý 
hậu tố…)
Thứ  hai  là  xác  định  trọng  số  cho  từng  mục  từ,  trọng  số  này  là  giá  trị 
phản ánh tầm quan trọng của mục từ đó trong văn bản.
3.2.2.2.1. Xác định mục từ quan trọng cần lập chỉ mục

Mục từ hay còn gọi là mục từ chỉ mục,  là đơn vị cơ sở cho quá trình lập 
chỉ  mục.  Mục  từ  có  thể  là  từ  đơn,  từ  phức  hay  một  tổ  hợp  từ  có  nghĩa  trong 
một  ngữ  cảnh  cụ  thể.  Ta  xác  định  mục  từ  của  1  văn  bản  dựa  vào  chính  nội 
dung của văn bản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản 
đó.
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất 
hiện  của  từng  loại  từ  riêng  rẽ  trong  văn  bản.  Nếu  tất  cả  các  từ  xuất  hiên 
trong  tập  tài  liêu  với  những  tần  số  băng  nhau,  thì  không  thể  phân  biệt  các 
SVTH: Nguyễn Tuấn Vũ

20

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

mục từ theo  tiêu chuẩn  định  lượng.Tuy nhiên trong văn bản ngôn ngữ tự nhiên, 
tần số xuất hiện của từ có tính thất thường,  do đó những  mục từ có thể được 
phân biệt bởi tần số xuất hiên của chúng.
3.2.2.2.2. Xác định trọng số cho mục từ
Trọng  số  của  mục  từ  là  sự  tần  xuất  xuất  hiện  của  mục  từ  trong  toàn 
bộ  tài  liệu.Phương pháp  thường  được sử dụng để đánh  giá trọng số của từ là 
dựa  vào  thống  kê,  với  ý tưởng  là những từ  thường  xuyên  xuất  hiện  trong  tất 
cả  các  tài  liệu  thì  “ít  có  ý  nghĩa  hơn”  là  những  từ  tập  trung trong  một  số  tài 
liệu.
Ví  dụ:  tại  trang  web  ToanCauMobile.vn  thì  những  mục  từ  có  trọng  số 
cao: toàn cầu,  điện thoại, luxury…

3.2.3.  Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng  tượng ta muốn tìm 
vài quyển sách trong  một  thư  viện  rất  lớn.  Với  sức  lực  cá  nhân  ta  không  thể 
xem  qua  hết  tất  cả  sách,  vì  vậy  ta cần một danh  mục sách. Tương  tự, tồn tại 
hàng  triệu  trang  web  trên  thế giới  và mỗi  phút  trôi  qua số  lượng được đẩy lên 
càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu 
cũng  không  thể  duyệt  hết.  Tuy  nhiên,  với  sự  trợ  giúp  của  SE,  ta  có  thể  thậm 
chí  xác  định được vị trí của những từ cần tìm trong các trang web khắp nơi trên 
thế giới.
3.2.3.1. Các phương thức tìm kiếm
3.2.3.1.1. Tìm kiếm theo từ khóa
Đây  là  phương  pháp  được  áp  dụng  với  hầu  hết  các  search  engine.  Trừ 
khi  tác  giả  của trang  web  xác  định  từ  khóa  cho  tài  liệu  của  mình,  ngược  lại 
điều  này  phụ  thuộc  vào  search engine. Như vậy các search engine sẽ tự mình 
chọn và đánh chỉ mục. Một số site lập chỉ mục cho tất cả các từ có trong  một 
trang web, một số khác chỉ chọn một số đoạn văn bản.
SVTH: Nguyễn Tuấn Vũ

21

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Các hệ  thống  đánh  chỉ  mục  trên  toàn  văn  bản  (full­text  indexing  systems) 
đếm số lần xuất hiện  của  mỗi  từ  trong  tài  liệu  ngoại  trừ  các  từ  stopword.Có 
những  công  cụ tìm kiếm  còn  phân biệt cả chữ hoa lẫn chữ thường.

Những  khó  khăn  khi  tìm  theo  từ  khóa:  Search  engine  thường  gặp  rắc  rối 
với  những  từ  đồng  âm  khác  nghĩa  hoặc  những  từ  có  các  biến  thể  khác  nhau 
do có tiền tố và hậu tố. Bên cạnh đó  search  engine  cũng  không  thể  trả  về  các 
tài liệu chứa  những  từ đồng  nghĩa  với các từ trong câu truy vấn.

SVTH: Nguyễn Tuấn Vũ

22

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

3.2.3.1.2.   Tìm kiếm theo ngữ nghĩa
Không  giống  các  hệ  thống  tìm  theo  từ  khoá,  hệ  thống  tìm  theo  ngữ 
nghĩa  sẽ  ‘đoán’  ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa 
hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn 
ngữ  học,  các  thuyết  về  trí  tuệ  nhân  tạo;  tiếp  cận  dựa  vào  phương  pháp  tính 
toán  bằng  cách  đếm  số  lần  xuất  hiện  của  các  từ  quan  trọng.  Khi  nhiều  từ 
hoặc  những  cụm  từ  có  nghĩa  đặt  gần  nhau  trong  tài  liệu  thì  cho  rằng  chúng 
đang ám chỉ một chủ đề nào đó.

Hình 3. : Hệ thống tự động đoán hành vi tìm kiếm
3.2.3.1.3. Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về 
bất  kỳ  chủ  đề  gì.  Nhưng  kết  quả  cuối  cùng  thường  là  lãng  phí  thời  gian  cho 
những URL vô ích.

Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ?
Hoặc ta đã hình dung được cụ thể những gì cần tìm ?
Hay ta muốn tìm địa chỉ của ai đó ?
SVTH: Nguyễn Tuấn Vũ

23

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

Nếu  phạm  vi quan  tâm  của  ta quá  rộng,  ta nên  xem  xét  các  thư  mục  web 
(web directory).
Nếu  sau  đó  ta  thu  hẹp  phạm  vi  cần  tìm,  hãy  xem  xét  việc  lựa  chọn  một 
công cụ tìm kiếm thích hợp.
Ví  dụ:  chỉ  với  từ  khóa  “điện   thoại”  ta  có  thể  có  “điện   thoại   nhật 
cường”, “điện thoại sky”, “điện thoại oppo”, “điện thoại sam sung”...
3.3. HỆ THỐNG RANK
3.3.1. Google PageRank
3.3.1.1. Google  PageRank là gì?
Google  PageRank  là   chỉ  số   đáng  tin   cậy  chỉ  giá  trị  của  một  trang 
web.Google  đánh giá và xếp  hạng  các  trang  web  bằng  cả  hai  phương  pháp  tự 
động  và  thủ  công  dựa  trên  hơn  100  chỉ  số  chính  với  những  thuật  toán  xuất 
sắc.
Một  vài  chỉ  số  quan  trọng  quyết  định  Google  PageRank  của  một  trang 
web:  độ  hữu  dụng  của  thông  tin  trên  trang  web,  độ  phổ  biến  của  trang  web, 

chất lượng kỹ thuật...
Google  PageRank  được  chia  làm  10  bậc  và  được  biểu  hiện  bằng  vạch 
màu  xanh  trên  nền  trắng: 

.  Giá  trị  của  mỗi  trang  web  theo  Google 

PageRank tăng dần từ 1 đến 10.
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do 
Larry Page và Sergey  Brin phát triển  tại trường  đại học Stanford  của Mỹ trong 
một dự án nghiên  cứu về công cụ tìm kiếm năm 1995.
3.3.1.2. Google  PageRank đem lại lợi ích gì ?
Google  PageRank  hiện  nay  được  coi  là chỉ  số đáng  tin  cậy  đánh  giá  mức 
độ  quan  trọng mỗi  trang  web.  Một  trang  web  có  chỉ  số  Google  PageRank  cao 
SVTH: Nguyễn Tuấn Vũ

24

Lớp: K46 TMĐT


Chuyên đề tốt nghiệp Đại học

GVHD: Th.S Lê Văn Hòa

sẽ  đem  lại  ấn  tượng  đáng  tin  cậy cho khách  truy  cập,  điều  này  đặc biệt  có ý 
nghĩa với các website kinh doanh thương mại điện tử.
Google  PageRank  ảnh  hưởng  trực  tiếp  tới  vị  trí  hiển  thị  của  mỗi  trang 
web  khi  cạnh  tranh  thứ  hạng  hiển  thị  trong  danh  sách  kết  quả  tìm  kiếm  của 
Google. Một  trang  web  có  PageRank  cao dễ  xuất  hiện  trên  đầu  danh  sách  kết 
quả tìm kiếm của Google hơn.

3.3.1.3. Tăng Google PageRank như thế nào?
Về  cơ  bản,  theo  các  chuyên  gia  của  Google:  "Không  được  sử  dụng  các 
phương  pháp  giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải 
cho các công cụ tìm kiếm".
Tăng   thứ    hạng   trong   danh   sách   kết  quả    tìm  kiếm   của  Google    là 
phương   pháp   tăng PageRank  rất hiệu  quả  vì vừa tăng  độ  phổ  biến  các trang 
web của bạn, vừa tăng lượng khách truy cập.
Cấu trúc website,  cấp bậc cần rõ ràng, nội dung thông tin cần phong phú, 
hữu ích. Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh.
Đăng  ký website  vào  các danh  bạ uy tín cũng  như các website  chất  lượng 
khác để tăng độ phổ biến.
3.3.2. Alexa Rank
3.3.2.1.  Alexa Rank là gì ?
Alexa  Rank  là  thước  đo  mức  độ  phổ  biến  của  các  website.  Chỉ  số  thứ 
hạng  của  mỗi website  được  Alexa  kết  hợp  đánh  giá  từ  2  yếu  tố  là:  số  trang 
web người dùng xem (Page Views) và số người truy cập website (Reach).
3.3.2.2. Alexa Rank mang lại lợi ích gì?
Chỉ  số  thứ  hạng  Alexa  của  một  website  cao  được  hiểu  là  website  đó  có 
đông  người  truy cập, phần nào đem lại cho website  ấn tượng sống động và uy 
tín.
SVTH: Nguyễn Tuấn Vũ

25

Lớp: K46 TMĐT


×