Tải bản đầy đủ (.pdf) (7 trang)

Topic 2 giới thiệu về một vài thuật toán của google trong seo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (99.44 KB, 7 trang )

Nguyễn Văn Hoàng
MSSV: 1711400
Chi tiết từng giải thuật của Google:
1) Thuật toán Panda:
a) Khái niệm:
- Google Panda là thuật toán SEO của Google. Google Panda sẽ
loại bỏ những nội dung rác, nội dung copy, loại bỏ những website
có thương hiệu kém… Đây là bộ lọc quan trọng để cải tiến các
kết quả tìm kiếm mới của Google
- Thuật tốn Google Panda cũng chỉ là một ngơn ngữ máy móc và
hoạt động dựa trên những thiết lập cài đặt sẵn của con người tạo
ra, vì vậy nếu nói chính xác ra thì các bạn vẫn có thể biết một số
những quy tắc của nó trong phương thức làm việc nhằm tìm ra
giải pháp tối ưu hóa website của mình tốt nhất.
=> Google Panda ra đời cũng như thay đổi theo chu kỳ là để
phục vụ người dùng hiệu quả hơn, cung cấp những website uy
tín đáng tin cậy và có nội dung chất lượng hơn.
b) Mục đích:
- Xem xét chất lượng nội dung website. Qua đó nhằm loại bỏ phần
nội dung sai phạm, nội dung rác hoặc được copy từ những trang
khác
- Làm giảm sự hiện diện của các trang web chất lượng thấp trong
kết quả Organic Search của Google
Thưởng cho các trang web chất lượng cao
Nguyên nhân trang website dính án phạt Panda:
Nội dung mỏng, thơng tin ít (Thin content):
Thin content (hay còn gọi là nội dung mỏng) ở đây bạn có thể
hiểu theo cả nghĩa đen lẫn nghĩa bóng: content ngắn và chất
lượng content thấp.
- Về chất lượng content thấp có thể kể đến các lỗi như:
+ Nội dung copy từ web khác


+ Nội dung không cung cấp giá trị hữu ích cho người đọc
+ Topic ở mỗi bài viết khơng liên quan nhiều đến lĩnh vực
chính của website, không đồng nhất về chủ đề.
● Thời gian trùng lặp:
- Nội dung copy thường xuất hiện ở nhiều website trên Internet.
- Vì bạn khơng biết phải ghi gì, miêu tả như thế nào cho bài viết
của bạn. Từ đó bạn buộc phải sao chép nội dung bài viết của
người khác được lấy từ nhiều nguồn Internet ở nhiều nơi.
c)

-


-

-


-


-


-

-


-



-

Duplicate content cũng xảy ra ngay trên chính website của bạn
khi bạn có nhiều trang chứa cùng một nội dung. Hoặc có rất ít sự
biến đổi trong nội dung giữa các trang.
Google tính trùng lặp nội dung theo:
+ Nội dung từng trang
+ Thẻ meta description
+ Thẻ heading
+ Code HTML
+ Khung giao diện
+ Khung design mặc định của website (Vd bài viết chữ q ít
nhưng khung design lại lớn)
Nội dung có dung lượng thấp:
Các website cung cấp ít giá trị hoặc nội dung chất lượng thấp cho
người đọc vì thiếu thơng tin chuyên sâu.
Nội dung content thường:
+ Truyền tải vắn tắt, qua loa
+ Thiếu ý
+ Khơng phân tích chun sâu, ít có sự đào sâu nghiên cứu.
+ Ít tìm tịi, mở rộng chủ đề
Website thiếu Authority/ khơng có độ tin tưởng cao
Nội dung được tạo ra bởi các nguồn không được xác minh về
Entity. Thiếu thẩm quyền (authority), thiếu độ tin cậy (trust) cho
người dùng. Điều đó sẽ làm website của bạn bị Google Panda
loại bỏ ngay lập tức.
Content farming:
Content farming là thuật ngữ dùng để ám chỉ các website spam

nội dung, thu thập và copy content của các web khác, sau đó bị
nhồi nhét rất nhiều từ khóa và tối ưu SEO tốt hơn so với web
gốc.
Các web sử dụng content farming này đều hướng tới mục đích
tăng thứ hạng từ khóa trên cơng cụ tìm kiếm nhiều hơn là tập
trung cung cấp giá trị cho người đọc.
Website có quá nhiều nội dung quảng cáo
Website chủ yếu đặt nhiều banner quảng cáo với rất ít nội dung
thực sự cung cấp giá trị cho người đọc. Hầu hết các web này
được tạo ra để kiếm tiền từ việc đặt banner quảng cáo, ít nội
dung.
Lỗi Schema
Google đưa ra quy luật rõ ràng về vấn đề Schema như sau:


Nếu bạn khai gì trên schema thì người dùng phải thấy y
chang như vậy trên website của bạn.
- Ví dụ: bạn làm schema review và khai rằng website đang có 100
lượt review trên website, đồng thời website được đánh giá 5
sao,… thì lẽ dĩ nhiên, tất cả thơng số ấy phải hiển thị chính xác
trên trang web bạn đang quản lý. ​Nếu các thơng tin này sai lệch
hay nói cách khác là schema bạn làm sai với quy luật của
Google; đến lúc nào đó Google scan qua và thu thập đủ dữ liệu
về bạn, nó sẽ tiến hành phạt bạn ngay
● Trộn nội dung (Spin content):
- Spin content (trộn nội dung) lại với nhau để cho ra những bài viết
mới
- Bài viết mới có thể cùng ý nghĩa với bài viết gốc nhưng khác về
mặt câu chữ hoặc cũng có thể mang ý nghĩa khác hoàn toàn so
bài viết gốc. Tuy nhiên, hình thức Spin Content tạo ra những nội

dung này, đã được Google xem như là nội dung rác.Google liên
tục cập nhật nhiều thuật tốn nhằm xóa bỏ những nội dung rác
này. Đặc biệt nhất là dùng thuật toán Google Panda để xóa bỏ
nó.
● Keyword cannibalization
- Keyword Cannibalization là từ khóa cạnh tranh lẫn nhau, hiện
tượng khi bạn vơ tình hay có chủ ý tạo lập nên nhiều bài viết
cùng nói về một chủ đề hay cùng tối ưu một số từ khóa cụ thể.
=> Dẫn đến các URL này dù đều được hiển thị trên cơng cụ tìm
kiếm, nhưng kết quả cuối cùng là khơng có trang nào lên vị trí top
10.
- Google Panda khi vào xem xét website, nó sẽ ưu tiên quan sát
những trang được tối ưu duy nhất.
- Nếu nó vào scan một ngàn trang và thấy tất cả các trang đều tối
ưu theo:
+ Các chủ đề bài viết khác nhau
+ Bộ từ khóa riêng biệt
=> Thì Google sẽ dễ dàng nhận diện và cho bạn lên đúng URL
hơn.
d) Dấu hiệu cho thấy website đang bị Google Panda phạt:
● Organic traffic giảm dần theo thời gian
- Đây được xem là dấu hiệu phổ biến và dễ nhận diện nhất.
- Ở khoảng thời gian đầu giảm traffic, có thể bạn thấy nó khơng
ảnh hưởng gì nhiều.


-

Tuy nhiên, qua 1 hay 2 tháng, thậm chí chỉ vỏn vẹn vài tuần, bạn
sẽ nhận ra ngay độ giảm sút traffic ngày càng mạnh mẽ, trầm

trọng. Nó kéo theo hàng loạt ảnh hưởng tiêu cực khác mà
Google Panda mang đến cho website của bạn.
- Tips: Nếu website bạn gặp tình trạng trùng lặp nội dung với số
lượng ít thì Panda sẽ không phạt liền. Mà chờ đến khi mức trùng
lặp lên đến 20%-30% mới kéo hẳn traffic xuống.
● Traffic giảm một nửa
- Một dấu hiệu nhận biết Google Panda khác nữa là:
- Website đang hoạt động tốt bỗng dưng lại mất đi 1/2 traffic.
- Từ đó khiến website từ top đầu trang 1 lập tức bay vèo xuống
cuối trang 1 hay qua đến trang 2. Lúc này, số lượng organic
traffic vẫn có nhưng cịn rất ít và khơng đáng kể.
(nguồn: )
2) Thuật toán Pirate:
a) Khái niệm:
- Google pirate là một trong những thuật toán của google được
tung ra vào tháng 10/2014. GG Pirate giúp bảo vệ bản quyền nội
dung, quyền sở hữu trí tuệ trên internet. Từ đó loại bỏ các nội
dung không thuộc bản quyền hoặc nội dung sao chép.
- GG Pirate là một bộ lọc nội dung, nó sẽ lọc dữ liệu mà google
đang có và phát hiện những nội dung vi phạm bản quyền. Những
trường hợp lách bản quyền mình sẽ khơng đề cập đến ở đây.
Trường hợp nó bắt gặp nội dung vi phạm bản quyền nó sẽ giảm
thứ hạng trang đó xuống hoặc có thể cảnh báo thậm chí là xóa
nó nếu có người chứng minh đó là nội dung của họ.
b) Mục đích:
- Để giảm xếp hạng những trang web thường xuyên nhận được
khiếu nại về việc tải lên nội dung lậu (có bản quyền).
- Google Pirate được ra mắt để bảo vệ Sở hữu trí tuệ. Nó đã phạt
những trang web nhận được báo cáo Vi phạm bản quyền. Phần
lớn các trang web bị ảnh hưởng là nội dung vi phạm bản quyền

(âm nhạc, phim, v.v.).
- Nếu quyền sở hữu trí tuệ của bạn bị vi phạm, hãy gửi yêu cầu gỡ
xuống DMCA đối với trang web.
c) Công nghệ DCMA:
● DMCA là viết tắt của Digital Millennium Copyright Act. Đây chính
là đạo luật bảo vệ bản quyền kỹ thuật số thiên niên kỷ của



-

-



d)
-

-

Google. Nó được đưa ra nhằm bảo vệ bản quyền của tác giả trên
Internet với những sản phẩm kỹ thuật số của người dùng.
Phạm vi và trách nhiệm:
Hiện tại, DMCA có thể bảo vệ các nội dung khác nhau như hình
ảnh, video, nội dung bài viết… Các ứng dụng, chương trình do
người dùng tạo ra cũng nằm trong chương trình này.
DMCA có trách nhiệm bảo vệ tài nguyên. đồng thời thực hiện xử
phạt những hành vi ăn cắp bản quyền như ăn cắp, bẻ khóa, vi
phạm quyền tác giả. Điều này giúp ích rất nhiều cho việc sử
dụng, đăng tải tài liệu lên Internet.

Cách để báo cáo vi phạm với DMCA:
Báo cáo trực tiếp trên website của DMCA.
Báo cáo thông qua Google.
Án phạt của DMCA:
Mức nhẹ: Nội dung vi phạm sẽ bị xóa khỏi cơ sở dữ liệu của các
cơng cụ tìm kiếm (google, bing,yahoo…).
Mức nặng: Tồn bộ website của bạn sẽ hồn tồn bị xóa sổ khỏi
các thanh cơng cụ tìm kiếm.
Dấu hiệu nhận biết website bị dính DMCA:
Điều đầu tiên hãy lên website này của Google để kiểm tra xem
các website bị cáo buộc là dính DMCA, tất cả các trang bị report
đến Google sẽ được liệt kê tất cả đầy đủ trong danh sách này.
Có những mực khám phá dữ liệu được những thông tin sau:
+ Chủ sở hữu bản quyền DMCA là gì
+ Tổ chức báo cáo
+ Miền được chỉ định
+ URL được yêu cầu
Đây là một website rất lớn ở Việt Nam, trong khoảng những năm
2013–2014 trở về trước thì trang này xuất hiện rất nhiều trên kết
quả tìm kiếm cho các phần mềm, phim, game… Và như chúng ta
thấy, trong 2 năm này thì website này đã bị dính report DMCA với
số lượng rất lớn. Kết quả là những năm sau đó cho đến hiện nay,
trang web này đã khơng cịn được xếp hạng như trước. Khơng
chỉ trang này mà cịn rất rất nhiều trang web khác đã bị Google
áp dụng hình phạt do vi phạm bản quyền DMCA này. Khơng chỉ
có Google Tìm kiếm mà hầu hết các dịch vụ được cung cấp bởi
các công ty lớn tại Hoa Kỳ đều không chấp nhận nội dung vi
phạm bản quyền DMCA. Chẳng hạn như Google Adsense hay
chương trình tiếp thị liên kết Amazon Associates đều không chấp
nhận nội dung vi phạm bản quyền, nội dung sao chép của người



khác, thậm chí họ cịn khơng chấp nhận những website có nội
dung chất lượng thấp.
(nguồn:
/>-doanh-nghiep-1987fef2ba3b​ )
(nguồn: )

3) Thuật tốn Pigeon:
a) Khái niệm:
- Pigeon là một thuật toán của Google về việc cung cấp thông tin
địa phương một cách tối ưu hơn. Nó được Google áp dụng từ
ngày 28-3-2013 và đã tạo nên sự thay đổi lớn về kết quả tìm
kiếm địa phương.
- Google Pigeon được thiết kế gắn với thuật tốn tìm kiếm cục bộ
của Google, từ đó đưa ra các tham số xếp hạng địa điểm dựa
trên khoảng cách và vị trí.
- Thuật tốn Google Pigeon khơng thiên về xử phạt các hành vi
xấu. Nó có lẽ chỉ là việc Google cho rằng địa điểm này có phù
hợp hay khơng. Và như thế, doanh nghiệp sẽ ít hoặc khơng thể
kiểm sốt được các yếu tố này.
- Ví dụ: Một doanh nghiệp khơng thể kiểm sốt bán kính mà
Google vẽ xung quanh điểm của người tìm kiếm. Ngay cả khi một
nhà hàng ở phía tây của một thành phố cung cấp bữa ăn ngon
nhất, nó có thể khơng gặp may về mặt xếp hạng địa điểm nếu
người tìm kiếm ngẫu nhiên đang ở phía đơng của thị trấn.
b) Mục đích
- Cung cấp một kết quả tìm kiếm địa phương hữu ích hơn, có liên
quan và chính xác.
- Làm sạch SERPs dành nội dung chất lượng thấp. SERPs là thuật

ngữ viết tắt của cụm từ Search Engine Results Page dùng để chỉ
những trang kết quả được các bộ máy tìm kiếm (Google, Yahoo,
Bing ..) trả về khi một ai đó thực hiện một truy vấn tìm kiếm tới
các bộ máy tìm kiếm này.
- Cải thiện khả năng tính tốn khoảng cách và vị trí của các doanh
nghiệp địa phương. Bán kính tìm kiếm được thu hẹp về gần nhất
với các địa điểm tìm kiếm.
- Tối ưu hóa với doanh Google Business.
c) Chiến lược tối ưu website chinh phục thuật toán Google Pigeon:


Cố gắng địa phương hóa website của bạn. Bạn nên chèn địa chỉ
vào tên miền, chẳng hạn.
- Hướng dẫn và tích hợp địa chỉ của bạn. Điều này làm người
dùng dễ tìm tới doanh nghiệp của bạn hơn.
- Xác nhận rằng bạn là trang web hoạt động ở địa phương đó bằng
cách thêm thơng tin doanh nghiệp của mình trên trang.
- Sử dụng thông tin đồng bộ. Từ tên doanh nghiệp, địa chỉ hòm thư
hay số điện thoại bạn phải có sự thống nhất.
- Kích thích phản hồi từ người dùng. Đây là cách tốt không chỉ với
Google Pigeon mà cịn cho nhiều cơng cụ khác của Google.
- Báo cáo các doanh nghiệp vi phạm cho Google. Bạn nên tìm hiểu
các Nguyên tắc của Google và các chi tiết vi phạm của những
doanh nghiệp này trước khi gửi báo cáo. Google có thể sẽ khơng
giải quyết mọi báo cáo, nhưng họ sẽ cố gắng xác minh. Tuy vậy,
bạn cũng không nên lạm dụng nó để triệt hạ các đối thủ cạnh
tranh của mình.
d) Cơng nghệ Pigeon Rank:
- Thuật tốn Pigeon hoạt động dựa trên công nghệ của Google
PigeonRank.

- PigeonRank là tên gọi một công nghệ xử lý dữ liệu của Google từ
những năm 2012. Cơng nghệ này giúp Google có thể đưa ra
được các kết quả tìm kiếm cho người dùng một cách nhanh hơn,
chính xác hơn.
- Cơ chế hoạt động của Pigeon Rank: Khi một truy vấn tìm kiếm
được gửi tới Google, nó sẽ được chuyển tới một trường dữ liệu
chưa các kết quả liên quan. Và khi đó kết quả liên quan sẽ được
xử lý bởi một chú chim bồ câu, các chú chim bồ câu này sẽ sử
dụng mỏ để đánh dấu các trang web liên quan tới truy vấn tìm
kiếm của người dùng. Mỗi lần đánh dấu này ta tạm hiểu trang
web đó sẽ tăng một PigeonRank. Các trang web nhận được
nhiều đánh dấu (PigeonRank cao nhất) sẽ được trả về ở vị trí
trên cùng của trang kết quả tìm kiếm của người sử dụng.
-

(nguồn:
/>e-pigeon/​)



×