Tải bản đầy đủ (.pdf) (100 trang)

luận văn thạc sỹ xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.39 MB, 100 trang )


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
* * *

Dƣơng Đăng Vinh


XÂY DỰNG CÔNG CỤ HỖ TRỢ TỐI ƢU HÓA WEBSITE CHO CÁC
CÔNG CỤ TÌM KIẾM


Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60480201


Luận văn thạc sĩ Công nghệ thông tin

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN ĐỨC THÁI



Đồng Nai – Năm 2013



LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “xây dựng công cụ hỗ trợ
tối ƣu hóa website cho các công cụ tìm kiếm” là kết quả của quá trình học tập,


nghiên cứu khoa học độc lập, nghiêm túc.
Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, đƣợc trích dẫn và
có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã đƣợc
công bố, trên các website.
Các phƣơng pháp nghiên cứu trong luận văn đƣợc rút ra từ cơ sở lý luận và quá
trình nghiên cứu.

Đồng Nai, tháng 9 năm 2013
Dƣơng Đăng Vinh














LỜI CẢM ƠN

Lời đầu tiên tôi xin chân thành gửi lời cảm ơn sâu sắc đến thầy TS. Nguyễn Đức
Thái đã tận tình giúp đỡ tôi trong suốt thời gian học tập vừa qua, đặc biệt là đã hướng
dẫn, truyền đạt những kiến thức, kinh nghiệm để tôi có thể hoàn thành đề tài này.
Tôi chân thành cảm ơn đến các thầy cô trường Đại Học Lạc Hồng nói chung và
các thành cô khoa Công Nghệ Thông Tin nói riêng, nơi tôi công tác và nghiên cứu đã

tạo nhiều điều kiện và hỗ trợ tôi trong suốt thời gian qua.
Tôi cũng xin chân thành cảm ơn các thầy cô là các giảng viên giảng dạy lớp cao
học công nghệ thông tin đã tận tình truyền đạt, chỉ bảo và cung cấp cho tôi những kiến
thức hết sức cần thiết trong suốt thời gian học, và cũng xin gửi lời cảm ơn chân thành
đến những người thân, bạn bè và đồng nghiệp đã giúp đỡ và động viên tôi trong suốt
thời gian học tập cũng nhưng trong thời gian thực hiện luận văn.
Chân thành cảm ơn!

Đồng Nai, tháng 9 năm 2013
Dƣơng Đăng Vinh











MỤC LỤC

Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Danh mục chữ viết tắt iv
Danh mục hình v
Danh mục bảng biểu vi
Mở đầu 1

Tóm lƣợc đề tài 1
Nội dung thực hiện 2
Phạm vi ứng dụng 3
CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI 4
1.1. Giới thiệu 4
1.2. Mục tiêu đề tài 5
1.3 Phƣơng pháp thực hiện đề tài 5
1.4 Bố cục luận văn 7
CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN 8
2.1. Tình hình nghiên cứu trong và ngoài nƣớc 8
2.1.1 Tình hình ngoài nƣớc 8
2.1.2 Tình hình trong nƣớc 9
Chƣơng 3: CƠ SỞ LÝ THUYẾT 10
3.1. Khái niệm SEO - Search Engine 10
3.1.1 Khái niệm SEO – Search Engine Optimization 10
3.1.2 Sự cần thiết của SEO 10
3.1.3 Giới thiệu về Search Engine 10
3.1.4 Phân loại Search Engine 12
3.1.5 Search Engine làm việc nhƣ thế nào 14
3.1.6 Crawler, Spider, Robot 16
3.1.7 XML sitemap, tạo file sitemap 19
3.2. SEO plan 21
3.2.1 Xây dựng một kế hoạch SEO 21
3.2.2 Organic SEO 24
3.2.3 SEO mũ đen và cách phòng tránh 28
3.3. Những nhân tố đáng lƣu ý khi thiết kế website cho mục đích SEO 32
3.3.1 Hosting và domain name 32
3.3.2 Ngôn ngữ lập trình và SEO 35
3.4. Tối ƣu hóa các yếu tố trong trang 37
3.4.1 Keyword và chiến lƣợc keyword 37

3.4.2 Tối ƣu bố cục của trang web 41
3.4.3 Tối ƣu hóa các thành phần HTML 43
3.4.4 Cấu trúc URL 47
3.4.5 Xây dựng nội dung 49
3.5. Tối ƣu hóa ngoài trang 51
3.5.1 Google Pagerank 52
3.5.2 Các phƣơng pháp xây dựng backlink 54
3.5.3 Alexa Rank là gì? 55
3.5.4 Tìm hiểu về chuẩn W3C 56
3.6. Pay Per click – Google Adwords 57
3.6.1 PPC – Phân loại PPC 57
3.6.2 Google Adwords 58
3.7. Những công cụ SEO phổ biến 58
3.7.1 Google webmaster tools 58
3.7.2 Google Analytics 61
CHƢƠNG 4: XÂY DỰNG ỨNG DỤNG TỐI ƢU HÓA WEBSITE THEO TIÊU CHÍ
ĐÁNH GIÁ CỦA CÁC CÔNG CỤ TÌM KIẾM 65
4.1. Mục tiêu chung 65
4.2. Công cụ Thông tin chung 65
4.2.1 Đặt bài toán 65
4.2.2 Phƣơng pháp giải quyết 65
4.2.3 Kết quả 67
4.3. Công cụ SEO Onpage 67
4.3.1 Đặt bài toán 67
4.3.2 Phƣơng pháp giải quyết 68
4.3.3 Kết quả 71
4.4 Công cụ SEO Offpage 72
4.4.1 Đặt bài toán 72
4.4.2 Phƣơng pháp giải quyết 72
4.4.3Kết quả 75

4.5 Công cụ tạo sitemap 75
4.5.1 Đặt bài toán 75
4.5.2 Phƣơng pháp giải quyết 75
4.5.3 Kết quả 76
Kết quả 77
Tài liệu tham khảo
Phụ lục
















Danh mục từ viết tắt

AJAX
Asynchronous JavaScript and XML
ASP
Active Server Pages
CMS

Content Management Systems
CSS
Cascading Style Sheets
DOM
Document Object Model
PHP
Hypertext Preprocessor
HTML
HyperText Markup Language
HTTP
HyperText Transfer Protocol
MSN
Microsoft Network
PDA
Personal Digital Assistant
PPC
Pay Per Click
PR
PageRank
RSS
Really Simple Syndication
SE
Search Engine
SEM
Search Engine Marketing
SEO
Search Engine Optimization
SERPs
Search Engine Result Pages
URL

Uniform Resouce Locator
XML
eXtensible Markup Language
WWW
World Wide Web


Danh mục hình
Hình 1 - Giao diện nhập từ khóa để tìm kiếm 11
Hình 2 - Cơ chế hoạt động của Google Spider 15
Hình 3 - File robots.txt 18
Hình 4 - Robot meta tag 19
Hình 5 - File sitemap.xml 20
Hình 6 - Organic SEO 26
Hình 7 - Black-hat SEO 28
Hình 8 - Tên miền 34
Hình 9 - Từ khóa 37
Hình 10 - Thẻ header 45
Hình 11 - Google PageRank 52
Hình 12 - Hiện thị Google Adword trên website 58
Hình 13 - Thêm URL vào Google webmaster tools 59
Hình 14 - Xác nhận chủ quyền website 59
Hình 15 - Bảng điều khiển 60
Hình 16 - Đăng ký Google Analytics 62
Hình 17 - Chấp nhận điề khoản GA 62
Hình 18 - Mã Google cung cấp 63
Hình 19 - Tổng quan Google Analytics 63
Hình 20 - Sơ đồ thông tin chung 66
Hình 21 - Sơ đồ Onpage 68
Hình 22 - Sơ đồ Offpage 73


Danh mục bảng biểu

Bảng 1 - Giá trị đặc biệt trong sitemap.xml 20
Bảng 2 - Những trƣờng trong file sitemap.xml 21
Bảng 3 - Xác định độ cạnh tranh 39
1

Mở đầu

Tóm lƣợc đề tài
Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay
World Wide Web (www) nói riêng là một môi trường phổ biến để người dùng có thể
tìm kiếm, quảng cáo, xây dựng thương hiệu trên đó quả thật nó đem lại một lợi ích
không nhỏ cho con người. Với hàng tỷ webstie đang tồn tại, đi kèm với nó là một khối
lượng thông tin vô cùng to lớn. Chính vì sự khổng lồ của thông tin như vậy dẫn đến
việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được
một kết quả tìm kiếm như mong muốn.
Người dùng ngày nay có thói quen sử dụng những công cụ tìm kiếm hơn là phải
nhớ chính xác một website nào đó.
Với rất nhiều dữ liệu mà bộ máy tìm kiếm đang lưu trữ không những là nguồn tài
nguyên không giới hạn mà còn là một quyển bách khoa toàn thư cho người dùng nhưng
cũng là thách thức rất lớn đối với các công cụ tìm kiếm, khi đó sẽ nảy sinh một vấn đề:
làm thế nào để bộ máy tìm kiếm trả về kết quả tìm kiếm của người dùng một cách
nhanh chóng và chính xác.
Theo khảo sát mới của hãng nghiên cứu internetworldstats [20], có đến 90%
người sử dụng Internet dùng công cụ tìm kiếm để tra cứu thông tin. Và theo thống kê
có hơn (60%) số lượng website trên thế giới sử dụng không đúng những tiêu chí đánh
giá mà các công cụ tìm kiếm đưa ra, nên các website mang nội dung chính xác mà
người dùng cần tìm lại có tỉ lệ xuất hiện ở các công cụ tìm kiếm là rất thấp.

Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước
nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất
lượng và tăng hiệu quả đánh chỉ mục.
Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi
website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời
2

gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết
trong website và ngoài website.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế
và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu
cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công
cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề tài
tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều chỉnh
phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ nhằm
cải thiện vị trí xếp hạng trong công cụ tìm kiếm.
Mục tiêu của Luận văn này sẽ đưa ra những lời khuyên, lời tư vấn cho người
duyệt web, kể cả những người chủ website những kiến thức cơ bản và chuyên sâu về
SEO, làm thế nào để SEO một website hiệu quả. Phân biệt được những hình thức tối
ưu trong trang và tối ưu ngoài trang, một số cách phòng chống SEO mũ đen, cung cấp
công cụ tạo sitemap trực tuyến, đưa ra những chỉ dẫn nhằm tối ưu hóa các tiêu chí của
công cụ tìm kiếm, giới thiệu những công cụ hỗ trợ tốt nhất hiện nay để các webmaster
có được thông tin cần thiết để tối ưu hóa website.
Song song với kiến thức về SEO, chúng tôi sẽ tiến hành thực hiện một web
crawler để thu thập thông tin từ website người dùng để người dùng có được những
thông báo những tối ưu cụ thể. Công cụ được xây dựng trên nền tảng web thân thiện dễ
sử dụng.
Nội dung thực hiện đề tài
- Tìm hiểu các tiêu chí đánh giá của công cụ tìm kiếm cụ thể như:
+ SEO onpages

+ SEO offpages
- Thiết kế và xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh
giá của công cụ tìm kiếm.

3

Phạm vi ứng dụng
Công cụ được xây dựng nhằm mục đích hỗ trợ cho những nhà quản trị web để có
được những thông tin bổ ích từ đó họ sẽ có được những chiến lược phù hợp để SEO
website. Công cụ không tiến hành phân tích từ khóa bởi tiến hành khá phức tạp và tầm
chính xác không cao. Để xử lý từ khóa hiện Google có hỗ trợ một công cụ phân tích
khá tốt sẽ được nhắc đến ở phần sau.



















4

CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu
Vào đầu thập niên 90, sự xuất hiện của World Wide Web đã chính thức bắt đầu
cho cuộc cách mạng internet bởi nó giúp cho chúng ta có thể tìm kiếm thông tin một
cách nhanh chóng. Đến năm 1994, trình duyệt web đầu tiên ra đời được phát triển bởi
tập đoàn Nescape làm thay đổi cách giao tiếp của con người với internet. Số lượng
trang web gia tăng nhanh chóng, thế nên thông tin mà nó mang lại là vô cùng to lớn.
Sự phát triển thông tin trên internet làm cho nhu cầu trao đổi, tìm kiếm thông tin trên
mạng ngày càng nhiều khi đó nảy sinh một vấn đề: làm thế nào để tìm được dữ liệu
mong muốn một cách nhanh nhất và chính xác nhất?
Sự ra đời của các hệ thống tìm kiếm đã đáp ứng được nhu cầu trên, với những
công cụ như: Google, Yahoo!, Bing, Ask, Wolfram Alpha, …
Nhận thấy được tiền năng của Internet trong thời đại công nghệ thông tin, các
doanh nghiệp bắt đầu xây dựng các website, nhằm quảng bá thương hiệu của mình đưa
khách hàng đến gần với sản phẩm hơn. Thế nhưng sự cạnh tranh của các doanh nghiệp
là điều không thể tránh khỏi, thông tin sản phẩm có đến với khách hàng hay không
phụ rất nhiều vào một chiến lược marketing hợp lý.
Ngày nay, với sự bùng nổ của Internet và sự thay đổi thói quen mua sắm, tiếp cận
thông tin của người dùng internet thì một thương hiệu có nổi tiếng trên mạng hay
không phụ thuộc vào thứ hạng có xuất hiện đầu tiên trên công cụ tìm kiếm.
Theo nghiên cứu các hoạt động online tại Mỹ, của Pew Internet & American Life
Project (4/2013) thì có tới 80% người trưởng thành sử dụng công cụ tiềm kiếm. Trong
các công cụ tiềm kiếm Google vẫn giữ vị trí thống trị với 67,5% tiếp theo là Bing
16.7% và Yahoo! chiếm 11.6%, Ask là 2.6% (theo comscore tháng 3/2013 tại Mỹ).
Còn tại thị trường tiềm kiếm trên thế giới Google vẫn chiếm vị trí thống lĩnh với
83,22% (4/2013 – Net Market Share) và chiếm độc tôn trên thị trường di động.
5


Chúng ta có thể thấy rằng những chỉ số ở trên đã chứng tỏ một điều là hoạt động
tìm kiếm trên internet là một thị trường quảng cáo tiếp cận khách hàng tiềm năng vô
cùng dễ dàng và nhanh chóng. Bởi vì, khi sử dụng các công cụ tìm kiếm, người sử
dụng xác định được trước điều mình cần và sản phẩm mình muốn, thống kê trên thế
giới, khoảng 70% số lượng người tìm không tìm hết các kết quả tiềm kiếm ở trang đầu
tiên, 97% không xem kết quả tìm kiếm đến trang thứ 3. Ở Việt Nam khoảng 97.23% số
lượng người truy cập vào công cụ tìm kiếm Google (theo Net Market Share tháng
4/2013).
Bên cạnh việc sử dụng các dịch vụ quảng cáo của các công cụ tiềm kiếm như
Google, Yahoo!, Bing, Ask, … hoặc các dịch vụ Marketing Online, thì nhiều doanh
nghiệp hiện nay thực sự quan tâm đến việc làm thế nào để đưa thương hiệu của mình
đến gần hơn với người sử dụng mà chi phí thì giảm thấp nhất.
SEO (Search Engine Optimization) đã trở nên rất quen thuộc trên thế giới và đang
trên đà phát triển rộng rãi tại Việt Nam.
1.2 Mục tiêu đề tài
- Liệt kê những thông tin của website dựa trên nguồn HTML
- Xây dựng một quy trình chặt chẽ, nhằm đáp ứng tốt nhất các tiêu chí mà công cụ
tìm kiếm đánh giá là thân thiện.
- Phân tích và thống kê tất cả các tiêu chí đã thực hiện trên website và đưa ra kiến
nghị cần thiết phải bổ sung để tối ưu hóa về mặt cấu trúc của website.
- Xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh giá của
công cụ tìm kiếm nhằm cải thiện vị trí xếp hạng.
1.3 Phƣơng pháp thực hiện đề tài
Để tiếp cận những vấn đề trên cần phải có kiến thức tối thiểu về lập trình. Do đó
phương pháp nghiên cứu là:
 Khảo sát tổng quan về vấn đề nghiên cứu.
6

Tham khảo các tài liệu, báo chí đã phát hành về lĩnh vực đang nghiên cứu.

Tìm hiểu các cách thức tối ưu hóa để website phù hợp với công cụ tìm kiếm, đặc
trưng ở các tiêu chí đánh giá sau:
 Tối ưu hóa trong trang
o Thẻ title: miêu tả ngắn gọn và chính xác nội dung trang web
o Thẻ meta description: miêu tả tự nhiên nội dung trang web
o Thẻ meta keyword: là những từ khóa tối ưu hóa
o Thẻ heading h1, h2, h3, …., h6 của trang
o Thuộc tính ALT của hình ảnh
o Thuộc tính TITLE trong thẻ Anchor text (thẻ a)
 Tối ưu hóa ngoài trang
o Liên kết trong trang
 Liên kết với những link đã tồn tại ở website của mình
o Liên kết ngoài trang
 Liên kết với các website khác có cùng lĩnh vực
Phân tích từng phần trong toàn bộ cấu trúc HTML của website, các phương pháp là:
 Duyệt toàn bộ mã HTML của website.
 So sánh mã HTML của website với tính đầy đủ các tiêu chí mà công cụ
tìm kiếm đưa ra.
 Dựa trên các tiêu chí để chỉ ra những thiếu sót và dư thừa trong trang
web.
Nghiên cứu và đưa ra những giải pháp tối ưu hóa website nhằm đáp ứng tốt các
tiêu chí mà công cụ tìm kiếm đưa ra, cụ thể các phương pháp như:
 Phân tích các tiêu chí đã có trên website.
 Xây dựng các giải pháp cho từng trường hợp.
7

Rút ra kết luận, dùng phương pháp thống kê dựa vào kết quả dò tìm và đưa ra các
đề nghị chỉnh sửa.
Xây dựng công cụ dựa trên ngôn ngữ PHP và hệ quản trị CSDL MYSQL
Thử nghiệm công cụ với những website thực tế ở địa bàn Đồng Nai để đánh giá

tính hiệu quả như: cải thiện thứ hạng website ở kết quả tìm kiếm theo tiêu chí SEO.
1.4 Bố cục luận văn
Phần còn lại của luận văn gồm có bố cục như sau. Chương 2 sẽ nói về những công
trình liên quan, Chương này sẽ điểm qua một số công trình nghiên cứu trong và ngoài
nước, để đánh giá quy mô, tầm ảnh hưởng với nhu cầu thực tế để có hướng đi đúng
đắn. Chương 3 đi vào cơ sở lý thuyết, trong chương này sẽ tìm hiểu cách thức hoạt
động của các công cụ tìm kiếm, làm thế nào để lập một kế hoạch SEO hoàn hảo, cách
lựa chọn tên miền, hosting hiệu quả, ngôn ngữ lập trình web có ảnh hưởng đến SEO ra
sao, tối ưu hóa trong trang với những thẻ như title, a, h1, h2, h3, meta, img. Cách lựa
chọn từ khóa hiệu quả, nên đặt từ khóa ở đâu, mật độ như thế nào cho hiệu quả, ngoài
ra còn đề cập đến tối ưu hóa ngoài trang như xây dựng backlink, sử dụng dịch vụ pay
per click như thế nào hiệu quả. Chương 4 sẽ đi xây dựng ứng dụng tối ưu hóa website
theo tiêu chí đánh giá của các công cụ tìm kiếm. Đưa ra bài toán thực hiện, và hướng
giải quyết và kết quả đạt được cho mỗi công cụ trong chương trình.











8

CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN

2.1 Tình hình nghiên cứu trong và ngoài nƣớc

2.1.1 Tình hình ngoài nƣớc
Vấn đề tối ưu hóa website nhận được sự quan tâm của cộng đồng công nghệ
thông tin trên thế giới, các công trình nghiên cứu liên quan đến tối ưu hóa website như:
 Bài báo “A Study on SEO Monitoring System Based on Corporate Website
Development” tạm dịch Nghiên cứu hệ thống giám sát SEO dựa trên sự phát
triển website của doanh nghiệp, của 2 tác giả là phó Giáo Sư Rakesh Kumar
và học giả nghiên cứu Shiva Saini, Kurukshetra University, đăng trên tạp chí
International Journal of Computer Science, Engineering and Information
Technology (IJCSEIT) (2011).[11]
Bài báo này nói về hệ thống cung cấp hiệu suất trong việc theo dõi các kỹ
năng SEO của website, và cung cấp thông tin hỗ trợ phù hợp để tối ưu hóa
trên công cụ tìm kiếm.
 Bài báo: “Academic Search Engine Optimization (ASEO)” của 3 tác giả
Joeran Beel, Bela Gipp, and Erik Wilde, University of Toronto (tháng 1 –
2010).[9]
Bài báo này giới thiệu và thảo luận các khái niệm về tối ưu hóa công cụ tìm
kiếm (ASEO). Ngoài ra, còn thảo luận những rủi ro của việc tối ưu hóa bất
hợp pháp.
 Bài báo “Search Engine Optimization (SEO) as a dynamic online promotion
technique” của tác giả George S. Spais, Hy Lạp (năm 2010).[5]
Bài báo nêu ra khái niệm để tiếp cận công cụ tìm kiếm được sử dụng để hỗ
trợ cho việc thiết kế, phân tích, điều tra kỹ thuật SEO.
Các đề tài trên đều có ưu điểm cụ thể như đưa nội dung của website sát với những
tiêu chí mà các công cụ tìm kiếm đưa ra nhưng các đề tài này không tập trung vào tối
9

ưu hóa các website có nội dung là bảng mã UTF8. Để áp dụng cho những website ở
Việt Nam thì độ tối ưu không cao, vì các công cụ tìm kiếm hiểu từ khóa có dấu và từ
khóa không dấu là 2 từ khóa khác nhau.
2.1.2 Tình hình trong nƣớc

 Luận văn tốt nghiệp đại học “Xây dựng công cụ hỗ trợ tối ưu website với
SEO (Search Engine Optimization)”, là công trình nghiên cứu của hai sinh
viên Nguyễn An Huy và Nguyễn Tiến Nghĩa của Trường Đại Học Bách
Khoa Tp.Hồ Chí Minh, với nội dung cơ bản là cung cấp những kiến thức cơ
bản về SEO và làm thế nào để SEO một website hiệu quả.[1]
 Có các câu lạc bộ về SEO (search engine optimization) Việt Nam cũng có
những bài viết, báo cáo đăng trên các tạp chí.[2]
Các bài báo trên đều có những ưu điểm nhất định, tuy nhiên các báo cáo mang
tính chất giới thiệu, khái niệm cơ bản, chưa đi sâu vào những kỹ thuật đánh giá chuẩn.
Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước
nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất
lượng và tăng hiệu quả đánh chỉ mục.
Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi
website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời
gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết
trong website và ngoài website.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế
và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu
cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công
cụ hỗ trợ tối ƣu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề
tài tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều
chỉnh phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ
nhằm cải thiện vị trí xếp hạng trong công cụ tìm kiếm.
10

CHƢƠNG 3: CƠ SỞ LÝ THUYẾT

3.1 Khái niệm SEO - Search Engine
3.1.1 Khái niệm SEO – Search Engine Optimization
SEO được hiểu là tập hợp những phương pháp nhằm nâng cao thứ hạng Website

trên các công cụ tiềm kiếm. Mục tiêu của SEO là đưa trang web lên hàng đầu kết quả
tìm kiếm theo một từ khóa cụ thể. Nhưng chủ yếu là tinh chỉnh các thành phần thiết kế
và nội dung. Nó còn được hiểu là một phần của quá trình quảng bá web. SEO thường
gồm hai quá trình: Tối ưu hóa các yếu tố trên trang (SEO onpage) và tối ưu hóa của
yếu tố bên ngoài trang (SEO offpage).
Cần phân biệt rõ khái niệm SEM và SEO [10], SEM (Search Engine Marketing)
là tập hợp tất cả mọi thứ mà chúng ta cần làm để đảm bảo rằng trang web được sắp xếp
trang hàng cao nhất trong kết quả tìm kiếm. Điều này có nghĩa là không chỉ thực hiện
SEO trên trang web mà còn sử dụng những chiến thuật khác, như sử dụng dịch dụ
quảng cáo trả tiền PPC (Pay Per Click) hay đầu tư vào viết nội dung chuẩn SEO.
3.1.2 Sự cần thiết của SEO
Trên thế giới ảo, sự xuất hiện đầu tiên trên trang kết quả tìm kiếm sẽ có cơ hội thu
hút nhiều người tìm kiếm truy cập hơn. Vì vậy nếu làm SEO tốt sẽ làm tăng được
lượng người truy cập từ các trang web tìm kiếm. Thậm chí, một chuyên gia quảng cáo
mạng cho rằng “trên Internet, thương hiệu không là gì cả. Xuất hiện cao trên kết quả
tìm kiếm mới quan trọng”.
3.1.3 Giới thiệu về Search Engine
Search engine nguyên thủy là một phần mền nhằm tìm kiếm các trang web trên
mạng internet. Những thông tin thu nhập đó thường là từ khóa hay những cụm từ,
những thông tin này có thể là toàn bộ nội dung của trang web, URL, các mã (code) tạo
thành web, và các liên kết (link) trong và ngoài trang web. Các thông tin này được
đánh chỉ số index và lưu trong cơ sở dữ liệu.[18]
11

Search Engine là công cụ được xây dựng trên nền tảng web cho phép người sử
dụng tìm kiếm thông tin, chúng ta có thể tìm bất kỳ thông tin nào bằng cách gõ vào từ
khóa (keyword) cần tìm kiếm, bộ máy tìm kiếm sẻ trả về một danh sách kết quả các
trang web có nội dung liên quan đến từ khóa đến từ khóa mà chúng ta nhập vào.
Internet chứa hầu như tất cả những thông tin liên quan tới mọi lĩnh vực, mọi ngõ
ngách trong cuộc sống. Nhưng nó rất rộng, rộng đến mức gần như không ai có thể

kiểm soát được. Diện mạo của internet lại thay đổi quá nhanh chóng và mạnh mẽ. Với
số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu server đặt khắp nơi
trên toàn thế giới.
Có thể ví internet như một biển dữ liệu khổng lồ, với muôn vàn những viên ngọc
quí nằm giữa các hạt sạn. Trong đời sống hàng ngày, nhu cầu tìm kiếm thông tin đóng
vai trò vô cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện
nay là làm sao “đãi cát tìm vàng”, khai thác nguồn tài nguyên này một cách hợp lí, đem
lại lợi ích tốt nhất cho con người.
Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các
mục con này lại được chia nhỏ hơn. Tuy nhiên, những chủ đề được nêu trong Internet
đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện. Ngày nay,
hầu hết mọi người đều sử dụng Search Engine để tìm kiếm thông tin.

Hình 1 - Giao diện nhập từ khóa để tìm kiếm
(Nguồn: google.com.vn)
Đối với mỗi Search Engine (Google, Yahoo!, Bing, Ask v.v…), người dùng truy vấn
tìm kiếm hay nói đơn giản hơn là nhập vào một số từ khóa liên quan đến chủ đề cần
12

tìm và nhận được một danh sách các trang kết quả thông thường là những trang web
chứa các từ khóa cần tìm kiếm, được sắp xếp theo một tiêu chí nào đó. Những tiêu chí
này đều nhằm mục đích “đưa ra kết quả phù hợp nhất với yêu cầu tìm kiếm”.
3.1.4 Phân loại Search Engine
Thuật ngữ "Cỗ máy tìm kiếm - Search Engine" được dùng chung để chỉ 2 hệ
thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler-Based
Search Engines) và dạng thư mục internet do con người quản lý (Human-Powered
Directories).
Hai hệ thống tìm kiếm này tìm và lập danh mục website theo 2 cách khác nhau.
Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự động
Những cỗ máy tìm kiếm tự động như Google tạo ra những danh sách của họ tự

động. Chúng sử dụng các chương trình máy tính, được gọi là "robots", "spiders", hay
crawlers để lần tìm thông tin trên mạng. Khi có ai đó tìm kiếm một thông tin, các
Search engine lập tức hiển thị các thông tin lưu trữ tương ứng. Nếu bạn thay đổi những
trang web của các bạn, những cỗ máy tìm kiếm tự động dần dần tìm thấy những sự
thay đổi này, và điều đó có thể ảnh hưởng đến bạn được liệt kê như thế nào. Những
tiêu đề trang, nội dung văn bản và các phần tử khác đều giữ một vai trò nhất định.
Human-Powered Directories - Các thư mục do con người quản lý
Các thư mục internet - ví dụ như dự án thư mục mở - Open Directory Project
hoàn toàn phụ thuộc vào sự quản lý của con người. Bạn đăng ký website của bạn vào
thư mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thư mục viết giúp
phần mô tả cho bạn - chúng phù hợp với nội dung và chủ đề của từng danh mục.
Việc thay đổi những trang web của các bạn không có hiệu lực trên danh mục của
các bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm
không có gì để làm với việc cải thiện một vị trí trong một thư mục. Ngoại lệ duy nhất
là một website tốt, với nội dung tốt, có lẽ thích hợp hơn để được xem xét so với một
website nghèo nàn.
13

Hybrid Search Engines - Các hệ thống tìm kiếm tổng hợp
Ngày trước, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sự khác biệt. Đã
là hệ thống tìm kiếm tự động thì không kèm theo một thư mục internet và ngược lại.
Nhưng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm
tự động và một thư mục do con người quản lý. Ví dụ, Yahoo có Yahoo Directory,
Google có Google directory (dựa trên thư mục Dmoz), MSN và các hệ thống tìm kiếm
khác cũng vậy.
Các thành phần của một cỗ máy tìm kiếm tự động
Những cỗ máy tìm kiếm tự động có ba phần tử chính. Đầu tiên là spider, cũng
được gọi là crawlers. Spider đến thăm một trang web, đọc nó, và sau đó đi theo sau
những mối liên kết tới những trang khác bên trong website. Có nghĩa là, có ai đó tìm
kiếm đến một trang, các spiders sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu

kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì khả năng spiders
quay trở lại càng lớn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo.
Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, chỉ mục
(the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một
sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì
danh sách này được cập nhật với thông tin mới.
Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay
một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các
spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khoảng thời gian này, trang
web sẽ hoàn toàn không tồn tại trên cỗ máy tìm kiếm.
Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là
một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự
nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công
ty SEO khai thác để đưa một website nào đó lên vị trí đầu tiên khi được tìm kiếm với
một hay nhiều từ khóa chỉ định.

14

Major Search Engines: Các cỗ máy tìm kiếm chính
Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản được mô tả ở trên,
nhưng có những sự khác nhau trong những phần này trong việc nó được điều chỉnh tác
động như thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ
máy tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Một ví dụ cụ thể:
Nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều
cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau.
3.1.5 Search Engine làm việc nhƣ thế nào
Một sự thật cơ bản đầu tiên mà bạn cần biết đó là công cụ tìm kiếm không phải là
con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong
việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm
kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ

rất hiện đại tuy nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ đẹp của
một mẫu thiết kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video
nào đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các
văn bản cụ thể để cố gắng hiểu được trang web này đang muốn nói về vấn đề gì. Ở đây
xin đơn cử một công cụ tìm kiếm đó là Google.
Công cụ tìm kiếm có 3 bộ phận chính:
 Bộ phận thu thập dữ liệu
Bộ phận thu thập dữ liệu hay còn có tên gọi thân thiện là Google Spider, google
bot hoặc con nhện. Một cách đơn giản bạn có thể hiểu rằng đây là một quá trình mà
Google Spider sẽ đi từ trang này sang trang khác để khám phá nội dung và các liên kết
trong trang web của bạn. Đây là một quá trình mà Google Spider đang cố gắng tìm các
trang web mới và cập nhật thêm vào chỉ mục của Google. Chính vì thế, Google bot có
thể coi là một chương trình thu thập dữ liệu và phát hiện ra các trang web mới, thay đổi
các trang web hiện có và các truy tìm các liên kết không tồn tại, các dữ liệu này được
sử dụng để cập nhật cho các chỉ mục của Google.
 Bộ phận lập chỉ mục
15

Đây là quá trình xây dựng cơ sở dữ liệu của các từ khóa, cụm từ, các trang web
và các trang liên quan đến một lĩnh vực nào đó.
 Bộ phận xử lí – tính toán
Đây là quá trình tính toán của Google nhằm cung cấp các kết quả cho người tìm
kiếm. Các yếu tố này có tầm quan trọng khác nhau, tuy nhiên một trong những yếu tố
quan trọng nhất để xếp hạng đó là dựa trên chất lượng nội dung và chất lượng những
liên kết đến trang web của bạn.

Hình 2 - Cơ chế hoạt động của Google Spider
(Nguồn: )
Cơ chế hoạt động của Google Spider
- Đầu tiên Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến.

Sau đó nó sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên
trang và theo các liên kết tìm thấy bên trong trang web này.
- Khi Spider xem xét các trang web (định dạng HTML).
Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là
phần quan trọng có liên quan đến sự tìm kiếm của người dùng sau này.
16

Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ
mục, liệt kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố
gắng làm cho hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu
quả hơn.
- Kế đó Google sẽ xây dựng chỉ mục
Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh
chóng. Sau khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm
thông tin trên website là một quá trình không bao giờ kết thúc… bởi vì các quản trị
trang web luôn thay đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa
rằng Spider sẽ luôn phải thực hiện nhiệm vụ thu thập dữ liệu.
 Xử lý và tính toán:
Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ
trong cơ sở dữ liệu. Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả
có chứa nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng.
Việc hiểu rõ cơ chế tìm kiếm của Google sẽ giúp cho các Seoer thêm nhiều kỹ
năng để có thể tối ưu website thân thiện với Google nhằm mục đích đưa trang web có
thứ hạng cao hơn.
3.1.6 Crawler, Spider, Robot
Web Crawler, web spider [3] hay web robot là một chương trình tự động tìm
kiếm trên Internet. Nó được thiết kế để thu thập tài nguyên trên internet như trang web,
hình ảnh, video, tài liệu Word, PDF cho phép hệ thống tìm kiếm đánh chỉ số sau đó.
Quá trình thực hiện được gọi là web crawling hay spidering, rất nhiều công cụ tìm
kiếm trên thế giới sử dụng spidering để cập nhập kho dữ liệu website của mình. Chẳng

hạn Google để lấy các thông tin trên các website rồi cập vào cơ sở dữ liệu của nó giúp
người dùng tìm kiếm ra các trang theo ý muốn.
Web crawler là một loại mà thường gọi là bot. Hiểu như là, nó bắt đầu từ danh
sách của các địa chỉ gọi là URL được gọi là seeds. Nó sẽ vào các địa chỉ này lọc thông

×