Tải bản đầy đủ (.pdf) (58 trang)

Nghiên cứu và ứng dụng SEO website trường đại học sư phạm thái nguyên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.27 MB, 58 trang )

LỜI CẢM ƠN
Sau thời gian tìm hiểu và thực hiện đề tài " Nghiên cứu và ứng dụng SEO
website trường Đại học sư phạm Thái Nguyên" em cơ bản đã hoàn thành. Để đạt
được kết quả này, em đã nỗ lực hết sức, đồng thời nhận được rất nhiều sự giúp
đỡ, quan tâm đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô, bạn bè và gia
đình.
Em xin gửi lời cảm ơn chân thành đến cô Nguyễn Hiền Trinh, Bộ môn
Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ
thông tin và Truyền Thông, Đại học Thái Nguyên, cùng các anh bên trường Đại
học sư phạm Thái Nguyên đã tận tình hướng dẫn, chỉ bảo em trong suốt quá trình
làm đồ án.
Em cũng xin chân thành cảm ơn các thầy cô giáo Trường Đại Học Công
nghệ thông tin và Truyền Thông - Thái Nguyên đã tận tình giảng dạy, trang bị
cho em những kiến thức quý báu trong những năm học vừa qua.
Cuối cùng, em xin chân thành cảm ơn tới bạn bè, gia đình, đã luôn tạo
điều kiện, quan tâm, giúp đỡ em trong suốt quá trình học tập và làm đồ án.
Đề tài đã hoàn thành với một số kết quả nhất định, tuy nhiên vẫn không
tránh khỏi thiếu sót. Em rất mong nhận được sự thông cảm và đóng góp ý kiến
của các thầy cô và các bạn.
Thái Nguyên, tháng 06 năm 2016
Sinh viên thực hiện

Nguyễn Mạnh Hùng

1


LỜI CAM ĐOAN
Em xin cam đoan rằng số liệu và kết quả nghiên cứu trong đồ án này là
trung thực và không trùng lặp với các đề tài khác. Em cũng xin cam đoan rằng
mọi sự giúp đỡ cho việc thực hiện đồ án này đã được cảm ơn và các thông tin


trích dẫn trong đồ án đã được chỉ rõ nguồn gốc.
Sinh viên

Nguyễn Mạnh Hùng

2


LỜI NÓI ĐẦU
Tối ưu hóa SEO (Search Engine Optimization), là cách tối ưu hóa kết quả
tìm kiếm. Kết quả của việc thực hiện SEO là giúp website của bạn tăng thứ
hạnglên cao nhất trong các trang kết quả tìm kiếm của các bộ máy tìm kiếm
chính như Google,Yahoo,Bing,...Theo thống kê có đến 80% số người tìm đến
website lần đầu tiên qua Search Engine như Google hay Yahoo.
Tối ưu hóa kết quả tìm kiếm và hệ thống quản lý nội dung là hai công việc
cần thiết tạo nên sự phát triển nhanh chóng của một website. Điều này được minh
chứng bởi lẽ nếu hòa nhập vào bất kỳ một cộng đồng thiết kế web nào hiện nay,
bạn đều được nghe nói về chúng như là một thành phần không thể tách rời trong
suốt quá trình phát triển và vận hành hệ thống website.
Vậy làm thế nào để có thể thu được hiệu quả tốt và nhanh nhất cho việc
tối ưu hóa website? Thông thường quy trình tối ưu hóa đã được thực hiện thông
qua hệ thống quản trị nội dung. Tuy nhiên, trong thực tế, công việc này cần có
kinh nghiệm và một quy trình phân tích kỹ lưỡng về tính hiệu quả để có một
hướng tối ưu cho website của bạn.
Trong đề tài đồ án tốt nghiệp “Nghiên cứu và ứng dụng SEO website
trường Đại học sư phạm Thái Nguyên”, em đã trình bày một cách nhìn tổng
quan về các bộ máy tìm kiếm, các phương thức thu thập thông tin, và các cách để
tối ưu hóa website (SEO - Search Engine Optimisation) theo hướng phi thương
mại.
Trong quá trình thực hiện đề tài, em còn gặp nhiều khó khăn và không

tránh khỏi những sai sót. Song, nhờ sự hướng dẫn nhiệt tình của cán bộ hướng
dẫn, em đã giải quyết những vấn đề đã đặt ra. Nhân đây, em xin gửi lời cám ơn
sâu sắc đến cô Nguyễn Hiền Trinh đã giúp đỡ tận tình trong suốt thời gian qua.
Thái nguyên,ngày…tháng… năm 2016
Sinh viên
Nguyễn Mạnh Hùng

3


MỤC LỤC
LỜI NÓI ĐẦU ....................................................................................................1
MỤC LỤC ..........................................................................................................4
DANH MỤC HÌNH ẢNH ...................................................................................4
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT .....................................................................7
1.1 Tổng quan bộ máy tìm kiếm....................................................................7
1.1.1 Hoạt động của bộ máy tìm kiếm........................................................7
1.1.2 Giới thiệu về các search engine thông dụng.......................................8
1.2 Cấu tạo chung các bộ máy tìm kiếm ........................................................9
1.2.1 Robot ..............................................................................................10
1.2.2 Index – Bộ lập chỉ mục....................................................................12
1.2.3 Các phương thức tìm kiếm ..............................................................15
1.3 Hệ thống rank........................................................................................17
1.3.1 Google PageRank............................................................................17
1.3.2 Alexa Rank .....................................................................................18
1.4 Tìm hiểu về SEO...................................................................................19
1.4.1 SEO ?..............................................................................................20
1.4.2 Tại sao cần SEO? ............................................................................21
CHƯƠNG 2 KHẢO SÁT THỰC TẾ WEBSITE TRƯỜNG ĐẠI HỌC SƯ
PHẠM THÁI NGUYÊN ...................................................................................23

2.1.Giao diện và cấu trúc của website..........................................................23
2.1.1 Giao diện website............................................................................23
2.1.2 Cấu trúc...........................................................................................25
2.2.Nội dung của website ............................................................................27
2.3.Phương thức quản lý của website ..........................................................27
2.4.Thực trạng xếp hạng của website...........................................................28
2.5.Nhu cầu xếp hạng thực tế của Nhà trường .............................................28
CHƯƠNG 3 THỰC HIỆN SEO WEBSITE TRƯỜNG ĐẠI HỌC SƯ PHẠM
THÁI NGUYÊN ...............................................................................................29
3.1 Khảo sát thông tin người dùng...............................................................29

4


3.1.1 Thành phần người sử dụng ..............................................................29
3.1.2 Đội thủ canh tranh của website........................................................29
3.2 Kế hoạch và dự kiến công việc SEO......................................................29
3.3 Xây dựng website..................................................................................30
3.3.1 Chọn tên miền .................................................................................30
3.3.2 Chọn Hosting ..................................................................................31
3.3.3 Mã nguồn phát triển ........................................................................32
3.4 Các phương pháp tối ưu hóa Website ....................................................32
3.4.1 Tối ưu hóa từ khóa (keyword) .........................................................32
3.4.2 Tiêu đề : Chính xác và duy nhất ......................................................33
3.4.3 Meta Description.............................................................................36
3.4.4 Cải tiến cấu trúc URL......................................................................38
3.4.5 Điều hướng .....................................................................................40
3.4.6 Cung cấp nội dung và dịch vụ chất lượng........................................42
3.4.7 Chuỗi kí tự liên kết..........................................................................44
3.4.8 Tiêu đề cho nội dung.......................................................................45

3.4.9 Tối ưu hóa hình ảnh ........................................................................46
3.4.10 Robot ............................................................................................47
3.5 Chiến dịch quảng bá WEBSITE ............................................................48
3.5.1 Cập nhật nội dung ...........................................................................48
3.5.2 Quảng bá website – tạo backlink .....................................................48
3.6 Phương pháp giữ top 10 khi SEO thành công ........................................49
3.7 Các vấn đề về Rank...............................................................................50
3.8. Kết quả thực hiện .................................................................................51
KẾT LUẬN.......................................................................................................53
TÀI LIỆU THAM KHẢO .................................................................................57

5


DANH MỤC HÌNH ẢNH
Hình1: Tổng quan cách thức làm việc của bộ máy tìm kiếm. ...............................7
Hình2: Biểu đồ thị phần search engine từ seomoz.org .........................................9
Hình3: Cấu tạo Search Engine .............................................................................9
Hình 4: Mô hình xử lý tổng quát hệ thống lập chỉ mục ......................................13
Hình 5: Hệ thống tự động đoán hành vi tìm kiếm ..............................................16
Hình 6: Minh họa về chỉ số Reach của Alexa ....................................................19
Hình 7: Minh họa việc chọn Domain .................................................................30
Hình 8: Tiêu đề của website có thể liệt kê tên của website, một số thông tin quan
trọng, có thể một vài lĩnh vực hoạt động của site đó. .........................................34
Hình 9: Tiêu đề của trang xuất hiện vị trí trên cùng của trình duyệt ...................34
Hình 10: Truy vấn Google .................................................................................34
Hình 11: Giống như thẻ <title> thẻ <meta desciption> cũng đặt trong thẻ <head>.... 36
Hình 12: Truy vấn “lý lịch khoa học dhsp”........................................................37
Hình 13 : URL đơn giản ....................................................................................38
Hình14: Điều hướng cho một số mục quan trọng...............................................41

Hình 15: Sắp xếp các thư mục Category cực kì khoa học – giúp cho người dùng
dễ dàng tìm kiếm. ..............................................................................................43
Hình16: Robots.txt được đặt ở root....................................................................48
Hình 17: Thống kê backlink ..............................................................................49
Hình18: Sơ đồ duy trì và phát triển dhsptn.edu.vn .............................................55

6


CHƯƠNG 1
CƠ SỞ LÝ THUYẾT
1.1 Tổng quan bộ máy tìm kiếm
1.1.1 Hoạt động của bộ máy tìm kiếm
Search Engine hay còn gọi là công cụ tìm kiếm, bộ máy tìm kiếm giúp
người xem tìm thấy những thông tin một cách liên quan nhất. Người dùng có thể
tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm… trên search engine. Khi
nhận được câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích yêu cầu đó,
đánh giá, xếp hạng và trả về kết quả liên quan nhất. Search engine hoạt động theo
quy trình như sau :
Ban đầu, SE sẽ gửi các Spider (hay còn gọi là con bọ, Crawler) để tiến
hành khảo sát một website khi nó được upload lên. Các Spider này được lập trình
để có thể tự động lần theo liên kết để đi đến các website khác nhau, sau khi dừng
lại ở một website nào đó, Spider này sẽ thu thập, đánh giá các thông tin trên
website đó trước khi tự động lần theo các liên kết đến các website khác…
Sau khi nhận được các thông tin từ Spider, SE có nhiệm vụ lưu trữ lại
trước khi phân tích chúng bằng các thuật toán riêng biệt để trả về các kết quả khi
người dùng truy vấn đúng vào nội dung. Ta có thể tham khảo cách thức làm việc
chung của SE tại hình dưới đây:

Hình1: Tổng quan cách thức làm việc của bộ máy tìm kiếm.


7


Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn. Search engine có những con bọ
(spider hay crawler) được lập trình để có thể tự động theo các liên kết (link) để mò
đến các website khác nhau, thu thập và đánh giá các thông tin trên website đó.
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl. Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kết
quả liên quan. Một trang web có thể được index nhanh hoặc chậm tuỳ thuộc vào
tốc độ crawl, độ trust của website và nhiều yếu tố khác.
Phân tích – Analysis: giai đoạn này search engine sẽ làm việc trên các dữ
liệu mà nó thu thập được. Sau đó tính toán độ liên quan của dữ liệu so với yêu
cầu của người dùng. Các search engine khác nhau có những thuật toán phân tích
khác nhau từ đây tạo ra sự khác biệt giữa các search engine. Giai đoạn phân tích
sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả.
Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này. Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kết
quả ít liên quan. Mặc dù không phải lúc nào các kết quả cũng thoả mãn được yêu
cầu của người tìm kiếm. Nhưng cho đến hiện nay, người dùng khá hài lòng với
những gì mà search engine trả về.
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá đơn
giản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp. Search engine nào
thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộng rãi
và phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường tìm kiếm trực
tuyến đầy tiềm năng này?
1.1.2 Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động. Trong

đó, phải kể đến ba chàng khổng lồ đang chi phối 97% thị phần tìm kiếm.

8


Hình2: Biểu đồ thị phần search engine từ seomoz.org
Google là search engine được nhiều người sử dụng nhất với 78% số người
sử dụng. Tiếp theo là Yahoo 9% và Bing 7%, còn lại số phần trăm ít ỏi dành cho
các search engine khác.
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm kiếm
thông tin. Nên việc SEO trên Google là ưu tiên hàng đầu đối với các website.
1.2 Cấu tạo chung các bộ máy tìm kiếm
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thông
tin, Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:

Hình3: Cấu tạo Search Engine

9


Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên gọi
khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ là một
chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động
duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ
tìm kiếm. Những trình duyệt thông thường không được xem là robot do thiếu
tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người.
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ
quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm
sau này.

Search Engine – Bộ tìm kiếm thông tin: Muốn tìm vài quyển sách trong
một thư viện rất lớn. Với sức lực cá nhân ta không thể xem qua hết tất cả sách, vì
vậy ta cần một danh mục sách. Tương tự, tồn tại hàng triệu trang web trên thế
giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho dù ta có
trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt hết. Tuy
nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của những
từ cần tìm trong các trang web khắp nơi trên thế giới.
1.2.1 Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robotchỉ
mục.
1.2.1.1 Robot thu thập thông tin có nhiệm vụ
Phân tích – thống kê - Statistical Analysis:Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng file
khác nhau, kích thước trung bình của một trang web,độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của việc
duy trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead links) khi
những trang này bị thay đổi hoặc thậm chí bị xóa. Thật không may vẫn chưa có
cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này. Trên thực tế khi các tác
giả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo cho
nhau, hoặc thỉnh thoảng độc giả thông báo cho họ bằng email. Một số robot có

10


thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy trì các cấu trúc siêu
liên kết cùng nội dung của một trang web. Chức năng này lặp lại liên tục mỗi khi
một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được giải quyết nhanh
chóng.
Ánh xạ địa chỉ web – Mirroring: Mirroring: là một kỹ thuật phổ biến
trong việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu

trúc cây thư mục và thường xuyên cập nhật những file bị thay đổi. Điều này cho
phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất bại,
nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực sự chứa các dữ
liệu này.
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để
phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông
tin khổng lồ trong môi trường mạng. Robot sẽ giúp thu thập tài liệu, tạo và duy
trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp với công
cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết hợp các công dụng trên - Combined uses: Một robot có thể đảm
nhận nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở
dữ liệu…. Tuy nhiên những ứng dụng như thế còn khá ít ỏi.
1.2.1.2 Robotchỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục, ta cần
giải quyết vấn đề sau:
Trong môi trường mạng, robot lấy thông tin từ các site. Vậy robot sẽ bắt
đầu từ site nào ? Điều này hoàn toàn phụ thuộc vào robot. Mỗi robot khác nhau
có những chiến lược khác nhau. Thường thì robot sẽ viếng thăm các site phổ biến
hoặc những site có nhiều liên kết dẫn đến nó.
Có 2 nguồn sẽ cung cấp địa chỉ của các site này cho robot:
Một là Robot nhận các URL ban đầu từ user.
Hai là Robot phân tích các trang web để lấy các URL mới, đến lượt các
URL này trở thành địa chỉ đầu vào cho robot. Quá trình này được lặp lại liên tục.

11


Quyết định chọn dữ liệu nào trong tài liệu cũng hoàn toàn phụ thuộc vào
robot, thường thì những từ được liệt kê như sau được xem là quan trọng :
 Ở góc cao của tài liệu.

 Trong các đề mục.
 Được in đậm.
 Trong URL.
 Trong tiêu đề (quan trọng).
 Trong phần miêu tả trang web (Description).
 Trong các thẻ dành cho hình ảnh (ALT).
 Trong các thẻ chứa từ khóa.
 Trong các text liên kết.
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiên
hoặctoàn bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ
META(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được quyền
ấn định từ khoá cho tài liệu của mình. Tuy nhiên chức năng này bị lạm dụng quá
nhiều do đó các thẻ META không còn giữ được giá trị ban đầu của chúng nữa
(Black Hat SEO).
1.2.2 Index – Bộ lập chỉ mục
1.2.2.1 Mô hình xử lý tổng quát của một hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp
cốt lõi có khả năng đại diện cho nội dung của tài liệu. Như vậy, vấn đề đặt ra là
phải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài
liệu.
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ
so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và
chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp.
Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây, quá
trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ
công “ nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay, với

12



lượng thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp,
phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.

Hình 4: Mô hình xử lý tổng quát hệ thống lập chỉ mục
Một thủ tục lập chỉ mục tự động cơ bản:
 Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng
trắng, mỗi chuỗi xem như là một từ.
 Step of removal of stop words: bỏ những từ thường xuyên xuất hiện
trong hầu hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính
từ, đại từ.
 Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.

13


Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần
cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì
tiếng Việt thuộc dòng ngôn ngữ đơn thể.
1.2.2.2 Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho
văn bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word, xử lý hậu
tố…
Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị phản
ánh tầm quan trọng của mục từ đó trong văn bản.
 Xác định mục từ quan trọng cần lập chỉ mục
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập
chỉ mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một
ngữ cảnh cụ thể. Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của
văn bản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó.

Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất
hiện của từng loại từ riêng rẽ trong văn bản. Nếu tất cả các từ xuất hiên trong tập
tài liêu với những tần số băng nhau, thì không thể phân biệt các mục từ theo tiêu
chuẩn định lượng. Tuy nhiên, trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện
của từ có tính thất thường, do đó những mục từ có thể được phân biệt bởi tần số
xuất hiên của chúng.
 Xác định trọng số cho mục từ
Trọng số của mục từlà sự tần xuất xuất hiện của mục từ trong toàn bộ tài
liệu. Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vào
thống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tài liệu
thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài liệu.
Ví dụ: tại trang web dhsptn.edu.vn thì những mục từ có trọng số cao:
dhsptn, dai hoc su pham thai nguyen, trường đại học sư phạm thái nguyên…
 Search Engine – bộ tìm kiếm thông tin

14


1.2.3 Các phương thức tìm kiếm
1.2.3.1 Tìm kiếm theo từ khóa
Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi
tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này
phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và đánh
chỉ mục. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số
khác chỉ chọn một số đoạn văn bản.
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems)
đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có
những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối
với những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do có

tiền tố và hậu tố. Bên cạnh đó search engine cũng không thể trả về các tài liệu
chứa những từ đồng nghĩa với các từ trong câu truy vấn.
1.2.3.2 Tìm kiếm theo ngữ nghĩa
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa
sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt
động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ
học, các thuyết về trí tuệ nhân tạo; tiếp cận dựa vào phương pháp tính toán bằng
cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm
từ có nghĩa đặt gần nhau trong tài liệu thìcho rằng chúng đang ám chỉ một chủ đề
nào đó.

15


Hình5: Hệ thống tự động đoán hành vi tìm kiếm
1.2.3.3 Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về
bất kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho
những URL vô ích. Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ?
Hoặc ta đã hình dung được cụ thể những gì cần tìm ?
Hay ta muốn tìm địa chỉ của ai đó ?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web
(web directory). Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa
chọn một công cụ tìm kiếm thích hợp.

16


1.3 Hệ thống rank

1.3.1 Google PageRank
1.3.1.1 Google PageRank?
Google PageRank là chỉ số đáng tin cậy chỉ giá trị của một trang web.
Google đánh giá và xếp hạng các trang web bằng cả hai phương pháp tự động và
thủ công dựa trên hơn 100 chỉ số chính với những thuật toán xuất sắc.
Một vài chỉ số quan trọng quyết định Google PageRank của một trang
web: độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web, chất
lượng kỹ thuật...
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạch
màu xanh trên nền trắng. Giá trị của mỗi trang web theo Google PageRank tăng
dần từ 1 đến 10.
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do
Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trong
một dự án nghiên cứu về công cụ tìm kiếm năm 1995.
1.3.1.2 Lợi ích của Google PageRank
Google PageRank hiện nay được coi là chỉ số đáng tin cậy đánh giá mức
độ quan trọng mỗi trang web. Một trang web có chỉ số Google PageRank cao sẽ
đem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩa
với các website kinh doanh thương mại điện tử.
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang web
khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google.
Một trang web có PageRank cao dễ xuất hiện trên đầu danh sách kết quả tìm
kiếm của Google hơn.
1.3.1.3 Tăng Google PageRank như thế nào?
Về cơ bản, theo các chuyên gia của Google: "Không được sử dụng các
phương pháp giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải cho
các công cụ tìm kiếm".

17



Tăng thứ hạng trong danh sách kết quả tìm kiếm của Google là phương
pháp tăng PageRank rất hiệu quả vì vừa tăng độ phổ biến các trang web của bạn,
vừa tăng lượng khách truy cập.
Cấu trúc website, cấp bậc cần rõ ràng, nội dung thông tin cần phong phú,
hữu ích.
Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh.
Đăng ký website vào các danh bạ uy tín cũng như các website chất lượng
khác để tăng độ phổ biến.
1.3.2 Alexa Rank
1.3.2.1 Alexa Rank ?
Alexa Rank là thước đo mức độ phổ biến của các website. Chỉ số thứ hạng
của mỗi website được Alexa kết hợp đánh giá từ 2 yếu tố là: số trang web người
dùng xem (Page Views) và số người truy cập website (Reach).
1.3.2.2 Lợi ích của Alexa Rank?
Chỉ số thứ hạng Alexa của một website cao được hiểu là website đó có
đông người truy cập, phần nào đem lại cho website ấn tượng sống động và uy tín.
Trong thị trường quảng cáo trực tuyến, Alexa Rank có thể được sử dụng
để đánh giá giá trị quảng cáo.
Chỉ số Alexa Rank là thước đo ghi nhận thành quả lao động của các
webmaster với cộng đồng và là một công cụ rất hữu ích giúp các webmaster quản
trị website hiệu quả.
1.3.2.3 Tăng Alexa Rank như thế nào?
Tiến hành các chiến dịch quảng bá website định kỳ nhằm thường xuyên
thu hút khách truy cập website, tăng cao chỉ số Reach.

18


Hình6: Minh họa về chỉ số Reach của Alexa

Trong website, nên có các phần thông tin có giá trị cao, cập nhật để thu
hút khách hàng thường xuyên quay lại website, tăng Page views.
Bố trí nội dung, cấu trúc website sao cho thu nhận được thật nhiều cú
nhấp chuột của khách truy cập để tăng Page views nhưng vẫn mang lại cảm giác
thoải mái, tiện lợi.
1.4 Tìm hiểu về SEO
Theo thống kê của tổ chức Verisign, trong Q1 năm 2010 đã có thêm 1
triệu địa chỉ Internet, nâng tổng số địa chỉ Internet trên thế giới lên trên 193 triệu
và số lượng này sẽ không ngừng tăng lên đồng nghĩa với việc có bằng đó địa chỉ
website đã hoặc sẽ hoạt động trên mạng.
Việc thiết kế xong một website cũng giống như việc chọn và mua được
vật liệu để xây nhà từ những cữa hàng vật liệu uy tín mà thôi. Thiết kế một
website đẹp là do đội ngũ thiết kế và xây dựng; còn việc website đó có làm ra
tiền hay không thì phần lớn lại phụ thuộc vào cách mà webmaster quảng cáo và
khai thác website đó như thế nào ? Như vậy, câu hỏi được đặt ra là: làm thế nào
để quảng cáo website tới người dùng ?
Có rất nhiều cách để bạn đưa website của mình đến với người dùng như là
quảng cáo trên ti vi, báo chí, quảng cáo tờ rơi, làm hội thảo… Mỗi cá nhân và
doanh nghiệp chọn một cách quảng bá khác nhau. Nhưng một cách vô cùng hiệu
19


quả mà bất kỳ website nào cũng phải làm đó là tối ưu hóa công cụ tìm kiếm hay
còn gọi là SEO. Như vậy:
1.4.1 SEO ?
SEO là chữ viết tắt của Search Engine Optimization (tối ưu hóa công cụ
tìm kiếm). SEO là một tập hợp các phương pháp nhằm nâng cao thứ hạng của
một website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi
là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm.
Thuật ngữ SEO cũng có thể được dùng để chỉ những người làm công việc

tối ưu hóa công cụ tìm kiếm, là những nhà tư vấn đưa ra những dự án tối ưu hóa
cho các website của khách hàng.
Làm SEO là quá trình tối ưu hóa mã nguồn website, giúp website thân
thiện với các công cụ tìm kiếm để tăng lượng truy cập qua từ khóa tìm kiếm từ
đó tăng số lượng người truy cập tới. Một website được làm SEO tốt, đồng nghĩa
với việc website đó luôn xuất hiện ở thứ hạng cao khi người truy cập sử dụng
công cụ tìm kiếm để tìm nội dung mà họ cần. SEO cũng có thể bao gồm nhiều
loại mục tiêu khác nhau khi tìm kiếm như: tìm ảnh, tìm từ khóa, tìm theo quốc
gia và một số loại SEO khác.
Các công cụ tìm kiếm hiển thị một số dạng danh sách trong trang kết quả
tìm kiếm (SERP) bao gồm danh sách trả tiền, danh sách quảng cáo, dánh sách trả
tiền theo click và danh sách tìm kiếm miễn phí.
Mục tiêu của SEO chủ yếu hướng tới việc nâng cao thứ hạng của danh
sách tìm kiềm miễn phí theo một số từ khóa nhằm tăng lượng và chất của khách
viếng thăm đến trang. SEO đôi khi là một dịch vụ độc lập hay là một phần của dự
án tiếp thị và có thể rất hiệu quả ở giai đoạn phát triển ban đầu và giai đoạn thiết
kế website. Hiện nay, nhận thức của người quản trị website tại Việt Nam nói
riêng và thế giới nói chung nhận biết việc tối ưu hóa website để các máy tìm
kiếm trỏ tới rất ít. Người sử dụng không ý thức được tầm quan trọng của việc tối
ưu hóa website, hoặc làm các phương thức để các máy tìm kiếm trỏ đến. Hiện
trên mạng Internet có 3 công cụ tìm kiếm hữu hiệu nhất và phổ biến nhất:

20


 Google
 Yahoo
 Bing
Hiện nay, nhận thức của người quản trị website tại Việt Nam nói riêng và
thế giới nói chung nhận biết việc tối ưu hóa website để các máy tìm kiếm trỏ tới

rất ít. Người sử dụng không ý thức được tầm quan trọng của việc tối ưu hóa
website, hoặc làm các phương thức để các máy tìm kiếm trỏ đến. SEO có thể coi
như là một kỹ thuật, một bí quyết thực sự đối với mỗi người quản trị, xây dựng
website hay đơn thuần là người làm trong lĩnh vực truyền thông.
1.4.2 Tại sao cần SEO?
Đại đa số lưu lượng truy cập đến với các website hiện nay đều từ các bộ
máy tìm kiếm lớn như : Google, Yahoo, Bing… Nếu website không được tìm
thấy bởi các công cụ tìm kiếm hoặc nội dung không nằm trong cơ sơ dữ liệu của
các bộ máy tìm kiếm thì đó chính là một thảm họa nếu công ty bạn đang kinh
doanh online hoặc có giao dịch trực tuyến hoặc có đi chăng nữa nhưng kết quả
tìm kiếm luôn nằm ở trang 3, 4, 5… trở đi thì cũng coi như là 1 thất bại.
Một ví dụ nhỏ: website kinh doanh nội thất và…cứ mỗi “khách hàng tiềm
năng” lên Google, Bing gõ từ khóa tìm kiếm: “đồ nội thất giá rẻ” thì kết quả truy
vấn đầu tiên đập vào mắt họ là website của bạn. Sau đó, khả năng “khách hàng
tiềm năng” trở thành ”khách hàng thân thiết” sẽ cao hơn các đối thủ khác, và dĩ
nhiên doanh số tăng theo.
LàmSEO hiện tại với thị trường phát triển mạnh và liên tục như hiện nay
là điều mà các trang web nên làm và phải làm, hãy bắt đầu ngay vì không bao giờ
SEO là quá muộn. Một câu hỏi khác được đặt ra: “Tại sao các công cụ tìm kiếm
không thể tìm thấy website của tôi nếu không có sự trợ giúp của SEO?”
Nếu nói là “không thể tìm thấy” thì không hoàn toàn đúng.
Thực ra, sau 1 thời gian dài, website cũng được các cổng tìm kiếm đưa
vào index, nhưng chỉ là “cho có”chứ không thật sự như những gì mà chúng ta
muốn, vì khi các đối thủ cạnh tranh có sử dụng các biện pháp SEO thì website
bạn chẳng bao giờ được lọt vào các trang đầu trên bộ máy tìm kiếm.

21


Khi có SEO tham gia vào công việc này, nó sẽ giúp website bạn tăng thứ

hạng trên các công cụ tìm kiếm và hiển thị nội dung ở những nơi mà người dùng
dễ thấy và tìm kiếm nhất (kết quả hiển thị ngay trang 1). Thời đại toàn cầu hóa đã
biến bất kỳ môi trường làm việc nào cũng mang tính cạnh tranh, và thế giới ảo
cũng không ngoại lệ. Những website nào đã và đang quan tâm đến SEO thì đã có
1 lợi thế hơn so với đối thủ của mình trong việc giành lấy người dùng.

22


CHƯƠNG 2
KHẢO SÁT THỰC TẾ WEBSITE
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÁI NGUYÊN
2.1.Giao diện và cấu trúc của website
2.1.1 Giao diện website
a.Giao diện trang chủ

23


b.Giao diện trang Tin Tức

c.Giao diện Khoa học công nghệ

24


Và một số trang khác gồm : Đào tạo, Sinh viên, Pháp luật – Thanh tra,
Khảo thí, 3 công khai, Giới thiệu.
2.1.2 Cấu trúc
Cấu trúc website gồm 4 phần : Phần banner, phần nội dung, phần điều

hướng và phần thông tin liên hệ
 Phần banner

 Phần nội dung

25


×