Tải bản đầy đủ (.pdf) (113 trang)

Nghiên cứu một số thuật toán tìm kiếm google, thúc đẩy marketing online và nâng rank cho các website thương mại điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.39 MB, 113 trang )

LỜI CẢM ƠN
Em xin cảm ơn sự hướng dẫn của thầy cô giáo trong bộ môn Mạng máy tính và
truyền thông và dưới sự hướng dẫn trực tiếp, tận tình của Thầy Lê Hoàng Hiệp đã cung
cấp cho em những thông tin cần thiết cùng với việc phân tích các yêu cầu thực tế, em đã
xây dựng hoàn thành đề tài “Nghiên cứu một số thuật toán tìm kiếm google, thúc đẩy
Marketing online và nâng rank cho các website thương mại điện tử”.
Qua một thời gian khảo sát, thiết kế và xây dựng website, áp dụng các kĩ
thuật đến nay nội dung của đề tài cơ bản đã hoàn thành. Mặc dù đã có sự cố gắng
và được sự giúp đỡ tận tình của thầy cô, nhưng do thời gian và kinh nghiệm thực tế
còn nhiều hạn chế nên em không tránh khỏi những thiếu sót nên sản phẩm chưa
được thiết kế một cách khoa học, chưa mang tính chuyên nghiệp. Vì vậy em rất
mong có được sự đóng góp của thầy cô trong Khoa Công Nghệ Thông Tin, cũng
như ý kiến đóng góp của các bạn để chương trình của em được hoàn thiện hơn.
Một lần nữa em xin chân thành cảm ơn sự hướng dẫn tận tình của Thầy Lê Hoàng
Hiệp đã giúp đỡ nhiệt tình để em hoàn thành đồ án này.
Em xin chân thành cảm ơn !
Thái Nguyên, ngày 20 tháng 05 năm 2016
Sinh viên
Lê Thanh Tùng

1


LỜI CAM ĐOAN
Em xin cam đoan rằng đây là bài đồ án tốt nghiệp của em, được sự hướng
dẫn từ Giáo viên Th.S Thầy Lê Hoàng Hiệp – Giảng viên trường Đại học Công
nghệ Thông tin và Truyền thông Thái Nguyên, Đại học Thái Nguyên. Các nội
dung nghiên cứu và kết quả trong đồ án này là trung thực và em cũng có tham
khảo từ các báo cáo thực tập, đồ án khác trước đây. Nếu có bất kỳ sự gian lận nào
em xin hoàn toàn chịu trách nhiệm trước Hội đồng.
Em xin chân thành cảm ơn!


Thái Nguyên, ngày 20 tháng 05 năm 2016
Sinh viên
Lê Thanh Tùng

2


BẢNG CÁC TỪ VIẾT TẮT
STT

1

Từ viết
tắt
Black
Hat SEO

Từ gốc

Diễn giải

Black Hat Search

Tối ưu hóa công cụ tìm kiếm bằng

Engine

những thủ thuật không đáng tin cậy

Optimization


2

CSDL

Cơ sở dữ liệu

3

PR

Page Rank

Hệ thống xếp hạng

4

SE

Search Engine

Công cụ tìm kiếm

5

SEO

6

Upload


7

URL

8

Web

9

White
Hat SEO

Search Engine

Tối ưu hóa công cụ tìm kiếm.

Optimization
Upload

Tải lên

Uniform Resource

Tham chiếu tới tài nguyên trên Internet

Locator
Website


Trang web

White Hat Search

Tối ưu hóa công cụ tìm kiếm bằng

Engine

những thủ thuật tin cậy

Optimization

3


DANH MỤC HÌNH
Hình 1.1: Tổng quan cách thức làm việc của bộ máy tìm kiếm............................. 6
Hình 1.2: Biểu đồ thị phần search engine từ tháng 12 - 2015................................ 7
Hình 1.3: Cấu tạo Search Engine ........................................................................... 8
Hình 1.4: Mô hình xử lý tổng quát hệ thống lập chỉ mục .................................... 11
Hình 1.5: Hệ thống tự động đoán hành vi tìm kiếm............................................. 14
Hình 1.6: Minh họa về chỉ số Reach của Alexa................................................... 17
Hình 1.7: Alexa Rank........................................................................................... 17
Hình 1.8: Thuật toán penguin liên quan tới backlink........................................... 19
Hình 1.9: Thuật toán Zebra ( ngựa vằn ).............................................................. 22
Hình 1.10: Thuật toán payday loan ...................................................................... 23
Hình 1.11: Thuật toán hummingbird.................................................................... 24
Hình 1.12: Thẻ tiêu đề trang web......................................................................... 29
Hình 1.13: Thẻ mô tả trang web........................................................................... 30
Hình 1.14: URL chứa từ khóa của trang web ...................................................... 31

Hình 1.15: Khai báo website với Google............................................................. 32
Hình 1.16: Các mạng xã hội có lợi cho SEO ....................................................... 34
Hình 2.1: Cấu trúc Silo được sử dụng cho website.............................................. 37
Hình 2.2: Đặt tiêu đề có chứa từ khóa chính của website.................................... 39
Hình 2.3: Tiêu đề của trang xuất hiện vị trí trên cùng của trình duyệt ................ 39
Hình 2.4: Truy vấn Google .................................................................................. 40
Hình 2.5: Giống như thẻ <title> thẻ <meta description>..................................... 42
Hình 2.6: URL đơn giản....................................................................................... 44
Hình 2.7: Điều hướng các bài viết ở cuối mỗi bài ............................................... 46
Hình 2.9: Thống kê các bài viết mới nhất ............................................................ 48
Hình 2.10: Tiêu đề bài viết được in đậm và đặt ngay ở đầu bài viết ................... 51
Hình 2.11: Xây dựng liên kết nội bộ Internal Linking......................................... 53
4


Hình 2.12: Xây dựng Link theo mô hình kim tự tháp.......................................... 57
Hình 2.13: Xây dựng link theo mô hình Link Wheel........................................... 59
Hình 2.14: Sử dụng facebook Marketing nhắm đến người dùng tiềm năng ........ 62
Hình 2.15 Sử dụng Google Adwords để lôi kéo người dùng............................... 63
Hình 3.1: Biểu đồ xu hướng về từ khóa ship hàng .............................................. 66
Hình 3.2: Quốc gia quan tâm đến từ khóa ship hàng ........................................... 66
Hình 3.3: Lựa chọn nhà cung cấp Hosting- vps................................................... 68
Hình 3.4: Nghiên cứu từ khóa.............................................................................. 69
Hình 3.5: Phân tích từ khóa đối thủ ..................................................................... 70
Hình 3.6: Phân tích Link đối thủ.......................................................................... 71
Hình 3.7: Cấu trúc Silo......................................................................................... 71
Hình 3.8: Chèn từ khóa vào tiêu đề bài viết và URL........................................... 73
Hình 3.9: Đặt tiêu đề bài viết trong thẻ H1 và có chứa từ khóa........................... 73
Hình 3.10: Đặt từ khóa trong thẻ ALT................................................................. 74
Hình 3.11: Tạo cho người dùng có thể tương tác và chia sẻ bài viết dễ dàng ..... 76

Hình 3.12: Tìm kiếm các Blog liên quan để comment......................................... 78
Hình 3.13: Tìm kiếm các forum liên quan để post bài......................................... 78
Hình 3.14: Từ khóa nằm ở TOP 5 chỉ với SEO onpage ...................................... 81
Hình 3.15: Lượt truy cập từ lúc khởi tạo website đến hiện tại............................. 81
Hình 3.16: Biểu đồ so sánh traffic tháng 2 ......................................................... 82
Hình 3.17: Bản đồ thống kê lượt truy cập........................................................... 82
Hình 3.18: Top từ khóa tìm kiếm......................................................................... 83

5


MỤC LỤC
LỜI CẢM ƠN....................................................................................................................... 1
LỜI CAM ĐOAN................................................................................................................. 2
BẢNG CÁC TỪ VIẾT TẮT............................................................................................... 3
DANH MỤC HÌNH ............................................................................................................. 4
MỤC LỤC............................................................................................................................. 6
LỜI NÓI ĐẦU ...................................................................................................................... 1
CHƯƠNG 1: CƠ SỞ LÍ THUYẾT..................................................................................... 2
1.1. Đặt vấn đề.................................................................................................................. 2
1.2. Lịch sử giải quyết vấn đề ........................................................................... 4
1.3. Tổng quan bộ máy tìm kiếm....................................................................... 5
1.3.1 Bộ máy tìm kiếm hoạt động như thế nào?........................................... 5
1.3.2 Giới thiệu về các search engine thông dụng........................................ 7
1.4. Cấu tạo chung các bộ máy tìm kiếm .......................................................... 8
1.4.1. Robot .................................................................................................. 9
1.4.2 Index – bộ lập chỉ mục ...................................................................... 11
1.4.3. Search Engine – bộ tìm kiếm thông tin ............................................ 13
1.5. Hệ thống Rank ........................................................................................ 15
1.5.1. Google PageRank ............................................................................ 15

1.5.2. Alexa Rank...................................................................................... 16
1.6 Các thuật toán của Google ........................................................................ 17
1.6.1 Thuật toán Google Panda .................................................................. 17
1.6.2. Thuật toán Google Pengiun.............................................................. 19
1.6.3 Thuật toán Zebra ( Ngựa vằn ) .......................................................... 22
1.6.4 Thuật toán Payday loan ..................................................................... 23
1.6.5 Thuật toán Hummingbird ( Chim ruồi ) ............................................ 24
1.6.6 Thuật toán Pigeon ( Chim bồ câu ) ................................................... 25
1.7. Tìm hiểu về SEO ...................................................................................... 25
6


1.7.1. SEO là gì? ........................................................................................ 26
1.7.2. Tại sao cần SEO? ............................................................................. 27
1.7.3. Các kĩ thuật SEO cơ bản? ................................................................ 28
CHƯƠNG 2: MỘT SỐ GIẢI PHÁP TỐI ƯU TỪ KHÓA TÌM KIẾM .......................36
2.1. Các phương pháp tối ưu hóa website ....................................................... 36
2.1.1. Nghiên cứu và tối ưu hóa từ khóa (keyword)................................... 36
2.1.2. Thực hiện cấu trúc trang web........................................................... 37
2.1.3.OnPage SEO...................................................................................... 38
2.1.4. Offpage SEO .................................................................................... 55
CHƯƠNG 3: TRIỂN KHAI, THỬ NGHIỆM ÁP DỤNG XÂY DỰNG MỘT SỐ KỸ
THUẬT SEO THÚC ĐẨY MARKETING ONLINE VÀ NÂNG RANK CHO CÁC
WEBSITE THƯƠNG MẠI ĐIỆN TỬ.............................................................................65
3.1. Lý do chọn website/ blog ship hàng......................................................... 65
3.2. Phân tích, nghiên cứu thị trường .............................................................. 65
3.3. Triển khai xây dựng website .................................................................... 67
3.3.1. Chọn tên miền .................................................................................. 67
3.3.2. Chọn hosting- vps............................................................................. 67
3.3.3. Chọn nền tảng phát triển website ..................................................... 68

3.3.4. Nghiên cứu từ khóa .......................................................................... 68
3.3.5. Thực hiện cấu trúc Silo với website................................................. 71
3.3.6.Chuẩn bị nội dung, cung cấp nội dung chất lượng............................ 72
3.3.7.Thực hiện SEO Onpage..................................................................... 72
3.3.8. Thực hiện SEO Offpage................................................................... 76
3.3.9 Kết quả đạt được ............................................................................... 80
3.3.10. Phương pháp giữ top 10 khi SEO thành công................................ 83
KẾT LUẬN.........................................................................................................................85

7


LỜI NÓI ĐẦU
Ngày nay, cùng với sự phát triển của nhiều công nghệ tiên tiến, hiện đại
nhằm phục vụ nhu cầu sống và làm việc của con người trong đó có công nghệ
thông tin với tốc độ phát triển nhanh đến chóng mặt. Đặc biệt là trong việc kinh
doanh, chính mảng thông tin sẽ tạo ra nhiều lợi nhuận nhất cho các doanh nghiệp,
vì nó cung cấp một cổng vào ngay lập tức cho khách hàng hay cho các đối tác
tiềm năng. Và website của doanh nghiệp không chỉ đơn giản là giới thiệu về doanh
nghiệp mà còn cung cấp một lượng thông tin thích đáng cho người truy cập về sản
phẩm và giá cả.
Nhờ ineternet, các hoạt động thương mại được thực hiện nhanh hơn, hiệu
quả hơn, giúp tiết kiệm chi phí và mở rộng không gian kinh doanh.Vấn đề đặt ra
là "Làm sao đưa website của bạn đến với nhiều khách hàng hay các đối tác tiềm
năng nhất có thể?". Theo thống kê có đến 80% số người tìm đến website lần đầu
tiên qua Search Engine như Google hay Yahoo.Tối ưu hóa SEO (viết tắt của
Search Engine Optimization), là cách tối ưu hóa kết quả tìm kiếm. Kết quả của
việc thực hiện SEO là giúp website của bạn tăng thứ hạng lên cao nhất trong các
trang kết quả tìm kiếm của các bộ máy tìm kiếm chính như Google,Yahoo, Bing,...
Rõ ràng khi website của bạn đứng trong top đầu của kết quả tìm kiếm, người dùng

sẽ truy cập website của bạn nhiều hơn.
Nhận thức được tầm quan trọng của việc tối ưu hóa kết quả tìm kiếm (SEO), em đã
chọn đồ ánvới nội dung “Nghiên cứu một số thuật toán tìm kiếm của Google, áp
dụng xây dựng một số kỹ thuật SEO thúc đẩy Marketing Online và nâng rank cho
các website thương mại điện tử
”. Bài báo cáo này em sẽ tập trung trình bày một cách nhìn tổng quan về các
bộ máy tìm kiếm, các phương thức thu thập thông tin, và các cách để tối ưu hóa
website (SEO - Search Engine Optimization).
Trong quá trình thực hiện, em còn gặp nhiều khó khăn và không tránh khỏi
sai sót. Song, giáo viên hướng dẫn em đã giải quyết những vấn đề đã đặt ra. Em
xin gửi lời cám ơn sâu sắc đến thầy giáo Ths. Lê Hoàng Hiệp đã tận tình giúp đỡ
em trong suốt quá trình làm đề tài.
Thái Nguyên, tháng 6 năm 2016
Sinh viên

LÊ THANH TÙNG
CHƯƠNG 1: CƠ SỞ LÍ THUYẾT
1.1. Đặt vấn đề
Website – ngôi nhà của Doanh nghiệp trên Internet, nếu nói tên miền là
8


bảng hiệu của một Công ty thì website chính là văn phòng của Công ty đó, là nơi
khách hàng tìm kiếm các thông tin về doanh nghiệp trước khi kí hợp đồng, là nơi
khách hàng và các đối tác liên hệ doanh nghiệp, là bộ mặt của doanh nghiệp…
Ngoài ra website còn tạo ra không ít lợi thế khác như:
- Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàn cầu.
- Website là nơi trưng bày, giới thiệu sản phẩm, hàng hóa dịch vụ của
Doanh nghiệp. Hoạt động lên tục 24x7, không giới hạn thời gian và không gian.
- Website là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảo nhất và

hữu dụng nhất với hình ảnh, các giới thiệu, các media…
- Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa.
- Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất.
Thông qua website, doanh nghiệp có thể tiếp thị hình ảnh, thương hiệu, dịch
vụ, sản phẩm của mình ra ngoài phạm vi, khu vực của quốc gia. Chính vì những
lợi ích ấy, việc không có website đã là một thiệt thòi so với các đối thủ cạnh tranh.
Theo thống kê của trung tâm số liệu internet quốc tế, Việt Nam xếp hạng 18
trên 20 quốc gia có số người dùng Internet lớn nhất thế giới trong quý I/2015. Cụ
thể, tính tới thời điểm ngày 1/12/2015, Việt Nam có 30.858.742 người dùng
Internet, chiếm tỉ lệ 34,1% dân số Việt Nam và bằng 1,4% dân số thế giới.
Trong giai đoạn 2000 - 2015, tỉ lệ tăng trưởng người sử dụng Internet tại
Việt Nam đạt mức 12%, tốc độ tăng trưởng nhanh nhất trong khu vực. Như vậy
sau gần 14 năm kể từ ngày Việt Nam gia nhập cộng đồng Internet toàn cầu
(1/12/1997), lượng người sử dụng Internet trong nước đã tăng nhanh một cách
đáng kể.
Nhìn chung, Internet là một món ăn không thể thiếu với cuộc sống của mọi
người, với thói quen sử dụng các bộ máy tìm kiếm (Google, Bing, Yahoo…) để
tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm trực tuyến, nạp thẻ
điện thoại, thanh toán hóa đơn…
Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến từ
9


các Search Engine lớn như Google, Yahoo, MSN… Mỗi ngày có hàng triệu người
dùng lướt web sử dụng Search Engine để tìm những sản phẩm, dịch vụ và thông
tin họ đang cần. Nhưng liệu với hàng tỉ website hiện đang tồn tại, làm sao khách
hàng có thể tìm thấy website của bạn trước mà không phải của các đối thủ cạnh
tranh? Hầu hết người sử dụng các bộ máy tìm kiếm đều không kiên nhẫn, họ chỉ
tập trung vào các kết quả tìm kiếm ở “Trang nhất” trong hàng trăm, hàng triệu kết
quả trả về khi truy vấn tìm kiếm.

Như vậy, câu hỏi được đặt ra là: “làm sao giúp website có thể hiển thị được
ở trang đầu tiên khi người dùng truy vấn ?” SEO – Search Enginee Optimization:
tối ưu hóa công cụ tìm kiếm được đề xuất như là một phương pháp hữu hiệu giúp
website có vị trí cao tại trang kết quả truy vấn đầu tiên, giúp cho người dùng dễ
dàng tìm thấy kết quả nhất.
Chính vì đa phần người dùng đến 1 website đều thông qua công cụ tìm
kiếm nên nếu bỏ qua SEO đồng nghĩa với việc một doanh nghiệp hay cá nhân sẽ
mất tiền mỗi ngày cho website của đối thủ cạnh tranh. Không người dùng nào đủ
kiên nhẫn xem quá 3 trang kết quả sau khi thực hiện tìm kiếm trên SE.
Nếu website của bạn không nằm trong top 30 – top 10, khách hàng sẽ
không hề biết website của doanh nghiệp hay cá nhân nào đó tồn tại.
SEO là hoạt động không thể thiếu đối với bất kỳ trang web nào, nó là con
đường để trở thành một trang web được nhiều người biết đến. Các phương pháp
quảng cáo truyền thống càng bị bão hoà đối, chi phí cao nhưng hiệu quả lại giảm
sút. Nhất là trong giai đoạn khủng hoảng hiện nay, khi mà hiệu quả của việc quảng
cáo phải được đặt lên hàng đầu.
SEO có rất nhiều ưu điểm so với các phương pháp quảng bá truyền thống
như: người dùng không phải độc thoại, có thể tiếp cận trao đổi thông tin trực tiếp;
linh hoạt hơn trong phân loại người dùng và đặc biệt là Webmaster có thể quản lý
được thông tin khách hàng...Với rất nhiều ưu điểm mà truyền hình, báo giấy...
không có được, Internet sẽ luôn là lựa chọn hàng đầu.
10


1.2. Lịch sử giải quyết vấn đề
Webmaster và các nhà cung cấp dịch vụ SEO đã bắt đầu tối ưu hóa các
trang web cho công cụ tìm kiếm vào giữa những năm 1990. Ban đầu, các
webmaster bắt đầu gửi link liên kết hay url của trang web đến các công cụ tìm
kiếm, các công cụ này sẽ gửi một spider đến trang website đó, website sẽ được thu
thập dữ liệu, sau đó được index lên máy chủ tìm kiếm, nơi đây các thông tin về

website sẽ được lưu trữ lại, các từ khóa của website, các link liên kết trong website
đó, các spider này sẽ làm việc index lên máy chủ theo lịch trình mà các công cụ
tìm kiếm quy ước. Người sở hữu trang web bắt đầu để nhận ra những giá trị của
việc có các trang web của họ và có thể nhìn thấy được xếp hạng cao trong kết quả
công cụ tìm kiếm. SEO chia ra làm hai dạng đó là : SEO truyền thống (White Hat
SEO) và SEO gian lận (Black Hat SEO).
Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm”
sử dụng rất nhiều trên mạng vào năm 1997.
Đầu phiên bản của thuật toán tìm kiếm dựa vào quản trị trang web cung cấp
thông tin như các thẻ meta từ khoá, hoặc tập tin chỉ mục như ALIWEB. Thẻ meta
cung cấp một hướng dẫn đến nội dung của mỗi trang.
Sử dụng dữ liệu meta vào các trang chỉ mục được tìm thấy sẽ được ít hơn đáng
tin cậy, tuy nhiên, vì những sự lựa chọn của webmastermà các thẻ meta có sự chính
xác trong khả năng đưa thông tin website lên máy chủ tìm kiếm. Những dữ liệu không
chính xác, không đầy đủ, và không nhất quán trong thẻ meta có thể gây ra sự xếp hạng
không đúng vị trí cho các tìm kiếm không liên quan. Việc cung cấp nội dung đựoc tối
ưu hóa và một số thuộc tính trong mã nguồn HTML đối với một trang web cần phải
chính xác để có được kết quả tốt trên công cụ tìm kiếm.
Bằng cách dựa quá nhiều vào các yếu tố như mật độ từ khóa đó được độc
quyền trong vòng kiểm soát của một webmaster, công cụ tìm kiếm sớm bị lạm
dụng vào thao tác xếp hạng. Để cung cấp kết quả tốt hơn cho người dùng của họ,
công cụ tìm kiếm đã phải thích ứng để đảm bảo kết quả của các trang đã cho thấy
11


các kết quả tìm kiếm có liên quan nhất, thay vì các trang không liên quan nhồi với
từ khoá nhiều bởi Black Hat SEO – nhóm Webmaster không bao giờ tuân theo các
qui định của các bộ máy tìm kiếm, họ luôn lạm dụng quá mức các thủ thuật. Các
công cụ tìm kiếm đã phản ứng lại bằng cách phát triển phức tạp hơn thuật toán xếp
hạng, có tính đến các yếu tố bổ sung mà gây nhiều khó khăn cho quản trị web để

thao tác.
SEO tại Việt Nam bắt đầu những nền móng phát triển đầu tiên khoảng vào
thời điểm giữa năm 2006. Sau 5 năm, đến nay SEO đã là một khái niệm mà hầu
như bất kì một nhà quản trị website nào cũng biết đến và tìm hiểu nó dù ít hay
nhiều. Thậm chí, SEO còn được đưa vào hoạt động của công ty như một hướng đi
chiến lược với những kế hoạch dài hơi. Điển hình, có thể dễ dàng nhận ra FPT có
bộ phận SEO riêng, Zing có bộ phận SEO riêng, VCCORP cũng có bộ phận traffic
riêng…
Đồ án “Nghiên cứu và thử nghiệm một số giải pháp nâng cao thứ hạng tìm
kiếm trong quá trình xây dựng website về thông tin sức khỏe” là một minh chứng
cụ thể nhất cho việc áp dụng phương pháp SEO vào một website của một cá nhân,
chứng minh rằng việc SEO cho website cũng có thể thực hiện bởi những cá nhân
và có thể đạt được những hiệu quả nhất định.
1.3. Tổng quan bộ máy tìm kiếm
1.3.1 Bộ máy tìm kiếm hoạt động như thế nào?
Search Engine hay còn gọi là công cụ tìm kiếm, bộ máy tìm kiếm giúp
người xem tìm thấy những thông tin một cách liên quan nhất. Người dùng có thể
tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm… trên search engine. Khi nhận
được câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích yêu cầu đó, đánh giá,
xếp hạng và trả về kết quả liên quan nhất. Search engine hoạt động theo quy trình
như sau :
Ban đầu, SE (Search Engine) sẽ gửi các Spider (hay còn gọi là con bọ, Crawler)
để tiến hành khảo sát một website khi nó được upload lên. Các Spider này được lập
12


trình để có thể tự động lần theo liên kết để đi đến các website khác nhau, sau khi dừng
lại ở một website nào đó, Spider này sẽ thu thập, đánh giá các thông tin trên website đó
trước khi tự động lần theo các liên kết đến các website khác…
Sau khi nhận được các thông tin từ Spider, SE có nhiệm vụ lưu trữ lại trước

khi phân tích chúng bằng các thuật toán riêng biệt để trả về các kết quả khi người
dùng truy vấn đúng vào nội dung. Ta có thể tham khảo cách thức làm việc chung
của SE tại hình dưới đây:

Hình 1.1: Tổng quan cách thức làm việc của bộ máy tìm kiếm
Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn. Search engine có những con bọ (spider
hay crawler) được lập trình để có thể tự động theo các liên kết (link) để mò đến các
website khác nhau, thu thập và đánh giá các thông tin trên website đó.
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl. Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kết
quả liên quan. Một trang web có thể được index nhanh hoặc chậm tuỳ thuộc vào

13


tốc độ crawl, độ trust của website và nhiều yếu tố khác.
Phân tích – Analytics: giai đoạn này search engine sẽ làm việc trên các
dữ liệu mà nó thu thập được. Sau đó tính toán độ liên quan của dữ liệu so với
yêu cầu của người dùng. Các search engine khác nhau có những thuật toán
phân tích khác nhau từ đây tạo ra sự khác biệt giữa các search engine. Giai
đoạn phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả.
Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này. Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kết quả
ít liên quan. Mặc dù không phải lúc nào các kết quả cũng thoả mãn được yêu cầu
của người tìm kiếm. Nhưng cho đến hiện nay, người dùng khá hài lòng với những
gì mà search engine trả về.
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá đơn
giản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp. Search engine nào

thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộng rãi và
phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường tìm kiếm trực tuyến
đầy tiềm năng này?
1.3.2 Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động. Trong đó,
phải kể đến ba chàng khổng lồ đang chi phối 97% thị phần tìm kiếm.

14


Hình 1.2: Biểu đồ thị phần search engine từ tháng 12 - 2015
Google là search engine được nhiều người sử dụng nhất với 84% số người
sử dụng. Tiếp theo là Yahoo 6% và Bing 8%, còn lại số phần trăm ít ỏi dành cho
các search engine khác.
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm kiếm
thông tin. Nên việc SEO trên Google là ưu tiên hàng đầu đối với các website.
1.4. Cấu tạo chung các bộ máy tìm kiếm
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thông tin,
Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:

15


Hình 1.3: Cấu tạo Search Engine
Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên gọi
khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ là một
chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động
duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ tìm
kiếm. Những trình duyệt thông thường không được xem là robot do thiếu tính chủ
động, chúng chỉ duyệt web khi có sự tác động của con người.

Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ
quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau
này.
Search Engine – Bộ tìm kiếm thông tin: Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể xem qua
hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại hàng triệu trang
web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho

16


dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt
hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của
những từ cần tìm trong các trang web khắp nơi trên thế giới.
1.4.1. Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ mục.
1.4.1.1. Robot thu thập thông tin
Robot thu thập thông tin có nhiệm vụ:
Phân tích – thống kê - Statistical Analysis: Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng file
khác nhau, kích thước trung bình của một trang web, độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của việc duy
trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead links) khi những trang
này bị thay đổi hoặc thậm chí bị xóa. Thật không may vẫn chưa có cơ chế nào cảnh
báo các bộ duy trì về sự thay đổi này. Trên thực tế khi các tác giả nhận ra tài liệu của
mình chứa những liên kết hỏng, họ sẽ thông báo cho nhau, hoặc thỉnh thoảng độc giả
thông báo cho họ bằng email. Một số robot có thể trợ giúp tác giả phát hiện các liên kết
hỏng cũng như duy trì các cấu trúc siêu liên kết cùng nội dung của một trang web.
Chức năng này lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề

xảy ra sẽ được giải quyết nhanh chóng.
Ánh xạ địa chỉ web – Mirroring: Mirroring là một kỹ thuật phổ biến trong
việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu trúc cây thư
mục và thường xuyên cập nhật những file bị thay đổi. Điều này cho phép nhiều người
cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất bại, nhanh hơn và ít chi phí
hơn so với truy cập trực tiếp vào site thực sự chứa các dữ liệu này.
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó
để phát hiện tài nguyên.Con người không thể kiểm soát nổi một khối lượng
thông tin khổng lồ trong môi trường mạng. Robot sẽ giúp thu thập tài liệu, tạo
và duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp
17


với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết hợp các công dụng trên - Combined uses: Một robot có thể đảm nhận
nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở dữ
liệu…. Tuy nhiên những ứng dụng như thế còn khá ít ỏi.
1.4.1.2. Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục, ta cần giải
quyết vấn đề sau:
Trong môi trường mạng, robot lấy thông tin từ các site. Vậy robot sẽ bắt
đầu từ site nào? Điều này hoàn toàn phụ thuộc vào robot. Mỗi robot khác nhau có
những chiến lược khác nhau. Thường thì robot sẽ viếng thăm các site phổ biến
hoặc những site có nhiều liên kết dẫn đến nó.
Ai sẽ cung cấp địa chỉ của các site này cho robot? Có 2 nguồn: một là Robot
nhận các URL ban đầu từ user. Hai là Robot phân tích các trang web để lấy các
URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho robot. Quá trình
này được lặp lại liên tục.
Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu nào
trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được liệt kê

như sau được xem là quan trọng :
Trong các đề mục.
Được in đậm.
Trong URL.
Trong tiêu đề (quan trọng).
Trong phần miêu tả trang web (Description) .
Trong các thẻ dành cho hình ảnh (ALT).
Trong các thẻ chứa từ khóa.
Trong các text liên kết.
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiên
hoặc toàn bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ META
18


(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được quyền ấn định
từ khoá cho tài liệu của mình. Tuy nhiên chức năng này bị lạm dụng quá nhiều do
đó các thẻ META không còn giữ được giá trị ban đầu của chúng nữa (Black Hat
SEO).

19


1.4.2 Index – bộ lập chỉ mục
Mô hình xử lý tổng quát của một hệ thống lập chỉ mục

Hình 1.4: Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp cốt
lõi có khả năng đại diện cho nội dung của tài liệu. Như vậy, vấn đề đặt ra là phải rút
trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài liệu.
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ

so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chi
phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp.
20


Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây, quá
trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ
công “ nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay, với
lượng thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phương
pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
Một thủ tục lập chỉ mục tự động cơ bản:
Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng
trắng, mỗi chuỗi xem như là một từ.
Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong
hầu hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại
từ.
Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.
Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần cho
quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng
Việt thuộc dòng ngôn ngữ đơn thể.
Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho văn
bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word, xử lý hậu tố…)
Thứ hai là xác định trọng số cho từng mục từ , trọng số này là giá trị phản
ánh tầm quan trọng của mục từ đó trong văn bản.
Xác định mục từ quan trọng cần lập chỉ mục:
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉ
mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ
cảnh cụ thể. Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của văn bản

đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó.
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất hiện
của từng loại từ riêng rẽ trong văn bản. Nếu tất cả các từ xuất hiên trong tập tài
21


liêu với những tần số băng nhau, thì không thể phân biệt các mục từ theo tiêu
chuẩn định lượng. Tuy nhiên, trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện
của từ có tính thất thường, do đó những mục từ có thể được phân biệt bởi tần số
xuất hiên của chúng.
Xác định trọng số cho mục từ:
Trọng số của mục từ là sự tần xuất xuất hiện của mục từ trong toàn bộ tài
liệu. Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vào
thống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tài liệu
thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài liệu.
1.4.3. Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể xem qua
hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại hàng triệu trang
web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho
dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt
hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của
những từ cần tìm trong các trang web khắp nơi trên thế giới.
1.4.3.1. Các phương thức tìm kiếm
Tìm kiếm theo từ khóa:
Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi
tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này
phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và đánh
chỉ mục. Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số
khác chỉ chọn một số đoạn văn bản.

Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems)
đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword. Có những
công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối với
22


những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do có tiền
tố và hậu tố. Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa
những từ đồng nghĩa với các từ trong câu truy vấn.
Tìm kiếm theo ngữ nghĩa:
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ
‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt động
dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ học, các
thuyết về trí tuệ nhân tạo, tiếp cận dựa vào phương pháp tính toán bằng cách đếm
số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm từ có nghĩa
đặt gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ một chủ đề nào đó.

Hình 1.5: Hệ thống tự động đoán hành vi tìm kiếm
1.4.3.2 Các chiến lược tìm kiếm

23


Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất
kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những
URL vô ích.
Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng?
Hoặc ta đã hình dung được cụ thể những gì cần tìm?

Hay ta muốn tìm địa chỉ của ai đó?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web
(web directory). Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn
một công cụ tìm kiếm thích hợp.
Ví dụ: Chỉ với từ khóa “học” ta có thể có “học tiếng anh”, “học tài
chính”, “học ngân hàng”, “học guitar... nhưng với từ khóa rõ nghĩa hơn là học
tiếng anh online, học tiếng anh cơ bản...
1.5. Hệ thống Rank
1.5.1. Google PageRank
1.5.1.1. Google PageRank là gì?
Google PageRank là chỉ số đáng tin cậy chỉ giá trị của một trang web.
Google đánh giá và xếp hạng các trang web bằng cả hai phương pháp tự động và
thủ công dựa trên hơn 100 chỉ số chính với những thuật toán xuất sắc.
Một vài chỉ số quan trọng quyết định Google PageRank của một trang web:
độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web, chất lượng
kỹ thuật...
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạch màu
xanh trên nền trắng:

. Giá trị của mỗi trang web theo Google PageRank

tăng dần từ 1 đến 10.
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do
Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trong một
dự án nghiên cứu về công cụ tìm kiếm năm 1995.
24


1.5.1.2. Google PageRank đem lại lợi ích gì?
Google PageRank trước năm 2014 được coi là chỉ số đáng tin cậy đánh giá

mức độ quan trọng mỗi trang web. Một trang web có chỉ số Google PageRank cao
sẽ đem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩa
với các website kinh doanh thương mại điện tử. Tuy nhiên sau tháng 1 năm 2014
sau nhiều lần Google cập nhật thuật toán của mình giá trị Page Rank hầu như
không còn nhiều giá trị, nhưng Google vẫn sử dụng PageRank để đánh giá ngầm
một website, mặc dù giá trị đã giảm so với trước đó.
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang web
khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google. Một
trang web có PageRank cao dễ xuất hiện trên đầu danh sách kết quả tìm kiếm của
Google hơn.

25


×