LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi. Những kết quả và các số liệu
trong chuyên đề chưa được ai công bố dưới bất cứ hình thức nào. Tôi hoàn toàn chịu
trách nhiệm trước nhà trường về sự cam đoan này.
Huế, ngày 01 tháng 05 năm 2016
Sinh viên thực hiện
Nguyễn Tuấn Vũ
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
MỤC LỤC
SVTH: Nguyễn Tuấn Vũ
2
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
DANH MỤC HÌNH
SVTH: Nguyễn Tuấn Vũ
3
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
CHƯƠNG 1. TỔNG QUAN
1.1. ĐẶT VẤN ĐỀ
Website – ngôi nhà của Doanh nghiệp trên Internet, nếu nói tên miền là
bảng hiệu của một Công ty thì website chính là văn phòng của Công ty đó, là
nơi khách hàng tìm kiếm các thông tin về doanh nghiệp trước khi kí hợp đồng,
là nơi khách hàng và các đối tác liên hệ doanh nghiệp, là bộ mặt của doanh
nghiệp… Ngoài ra website còn tạo ra không ít lợi thế khác như :
Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàn cầu.
Website là nơi trưng bày, giới thiệu sản phẩm, hàng hóa dịch vụ của Doanh
nghiệp. Hoạt động lên tục 24x7, không giới hạn thời gian và không gian.
Website là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảo nhất và hữu
dụng nhất với hình ảnh, các giới thiệu, các media…
Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa.
Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất.
Thông qua website, doanh nghiệp có thể tiếp thị hình ảnh, thương
hiệu, dịch vụ, sản phẩm của mình ra ngoài phạm vi, khu vực của quốc gia.
Chính vì những lợi ích ấy, việc không có website đã là một thiệt thòi so với các
đối thủ cạnh tranh.
Theo Tổng cục Thống kê, tổng số người sử dụng Internet tại Việt Nam
tính đến 2013 là hơn39 triệu người, ( chiếm hơn 43.9% dân số Việt Nam) và
hơn 8,5 triệu người dùng Internet băng thông rộng (08/2014).
Trong giai đoạn 2000 2010, tỉ lệ tăng trưởng người sử dụng Internet
tại Việt Nam đạt mức 12%, tốc độ tăng trưởng nhanh nhất trong khu vực.
Như vậy sau gần 14 năm kể từ ngày Việt Nam gia nhập cộng đồng Internet
toàn cầu (1/12/1997), lượng người sử dụng Internet trong nước đã tăng nhanh
một cách đáng kể.
SVTH: Nguyễn Tuấn Vũ
4
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Nhìn chung, Internet là một món ăn không thể thiếu với cuộc sống của
mọi người, với thói quen sử dụng các bộ máy tìm kiếm (Google, Bing,
Yahoo…) để tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm
trực tuyến, nạp thẻ điện thoại, thanh toán hóa đơn…
Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến
từ các Search Engine lớn như Google, Yahoo, MSN… Mỗi ngày có hàng triệu
người dùng lướt web sử dụng Search Engine để tìm những sản phẩm, dịch vụ
và thông tin họ đang cần.Nhưng liệu với hàng tỉ website hiện đang tồn tại, làm
sao khách hàng có thể tìm thấy website của bạn trước mà không phải của các
đối thủ cạnh tranh? Hầu hết người sử dụng các bộ máy tìm kiếm đều không
kiên nhẫn, họ chỉ tập trung vào các kết quả tìm kiếm ở “Trang nhất” trong
hàng trăm, hàng triệu kết quả trả về khi truy vấn tìm kiếm.
1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Webmaster và các nhà cung cấp dịch vụ SEO đã bắt đầu tối ưu hóa các
trang web cho công cụ tìm kiếm vào giữa những năm 1990. Ban đầu, các
webmaster bắt đầu gửi link liên kết hay url của trang web đến các công cụ tìm
kiếm, các công cụ này sẽ gửi một spider đến trang website đó, website sẽ được
thu thập dữ liệu, sau đó được index lên máy chủ tìm kiếm, nơi đây các thông
tin về website sẽ được lưu trữ lại, các từ khóa của website, các link liên
kết trong website đó, các spider này sẽ làm việc index lên máy chủ theo lịch
trình mà các công cụ tìm kiếm quy ước. Người sở hữu trang web bắt đầu để
nhận ra những giá trị của việc có các trang web của họ và có thể nhìn thấy
được xếp hạng cao trong kết quả công cụ tìm kiếm. SEO chia ra làm hai dạng
đó là : SEO truyền thống (White Hat SEO) và SEO gian lận (Black Hat SEO).
Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm”
sử dụng rất nhiều trên mạng vào năm 1997.
SVTH: Nguyễn Tuấn Vũ
5
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Đầu phiên bản của thuật toán tìm kiếm dựa vào quản trị trang web cung
cấp thông tin như các thẻ meta từ khoá, hoặc tập tin chỉ mục như ALIWEB.
Thẻ meta cung cấp một hướng dẫn đến nội dung của mỗi trang.
Sử dụng dữ liệu meta vào các trang chỉ mục được tìm thấy sẽ được ít
hơn đáng tin cậy, tuy nhiên, vì những sự lựa chọn của webmastermà các thẻ
meta có sự chính xác trong khả năng đưa thông tin website lên máy chủ tìm
kiếm. Những dữ liệu không chính xác, không đầy đủ, và không nhất quán trong
thẻ meta có thể gây ra sự xếp hạng không đúng vị trí cho các tìm kiếm không
liên quan. Việc cung cấp nội dung được tối ưu hóa và một số thuộc tính trong
mã nguồn HTML đối với một trang web cần phải chính xác để có được kết
quả tốt trên công cụ tìm kiếm.
Bằng cách dựa quá nhiều vào các yếu tố như mật độ từ khóa đó được
độc quyền trong vòng kiểm soát của một webmaster, công cụ tìm kiếm sớm
bị lạm dụng vào thao tác xếp hạng. Để cung cấp kết quả tốt hơn cho người
dùng của họ, công cụ tìm kiếm đã phải thích ứng để đảm bảo kết quả của các
trang đã cho thấy các kết quả tìm kiếm có liên quan nhất, thay vì các trang
không liên quan nhồi với từ khoá nhiều bởi Black Hat SEO – nhóm
Webmaster không bao giờ tuân theo các qui định của các bộ máy tìm kiếm, họ
luôn lạm dụng quá mức các thủ thuật. Các công cụ tìm kiếm đã phản ứng lại
bằng cách phát triển phức tạp hơn thuật toán xếp hạng, có tính đến các yếu tố
bổ sung mà gây nhiều khó khăn cho quản trị web để thao tác.
SEO tại Việt Nam bắt đầu những nền móng phát triển đầu tiên khoảng
vào thời điểm giữa năm 2006. Sau 5 năm, đến nay SEO đã là một khái niệm
mà hầu như bất kì một nhà quản trị website nào cũng biết đến và tìm hiểu nó
dù ít hay nhiều. Thậm chí, SEO còn được đưa vào hoạt động của công ty như
một hướng đi chiến lược với những kế hoạch dài hơi. Điển hình, bạn có thể
SVTH: Nguyễn Tuấn Vũ
6
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
dễ dàng nhận ra FPT có bộ phận SEO riêng, Zing có bộ phận SEO riêng,
VCCORP cũng có bộ phận traffic riêng, Báo điện tử 24h…
Như đã trình bày ở trên, hầu hết người làm SEO chỉ chú ý đến việc là sao
để một website Thương mại được lên trang nhất của bộ máy tìm kiếm. Vấn
đề đặt ra: có thể áp dụng SEO cho một website phi lợi nhuận, mang tính giáo
dục và Cộng đồng không ? Liệu SEO cho một trang web phi thương mại có
khả năng thành công không…
Chuyên đề đề tài “TÌM HIỂU VÀ ỨNG DỤNG SEO VÀO TRANG WEB
TOANCAUMOBILE.VN” là một minh chứng cụ thể nhất cho việc áp dụng
phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tử
điện thoại.
1.3. MỤC TIÊU CẦN ĐẠT ĐƯỢC
1.3.1. Về lý thuyết
Sau khi hoàn thành chuyên đề, sinh viên có các kĩ năng sau:
Tìm hiểu bộ máy tìm kiếm.
Hiểu thế nào là SEO, các biện pháp để tiến hành SEO một trang web.
1.3.2. Về ứng dụng
Sau khi áp dụng lý thuyết đạt được vào thực tiễn, sinh viên có được cách
để:
Đưa website vào top 3 của bộ máy tìm kiếm với từ khóa “điện thoại toàn cầu”
Phương pháp duy trì top 10 khi seo đã thành công
SVTH: Nguyễn Tuấn Vũ
7
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
CHƯƠNG 2. KHẢO SÁT HIỆN TRẠNG
2.1. Phương pháp nghiên cứu và giải quyết vấn đề
Việc đầu tiên trước khi SEO một website đã được định hướng đúng
đắn bằng những ý tưởng độc đáo và mã nguồn tốt thì chúng ta phải biết
được SEO là gì?Và các phương pháp lựa chọn những thành phần hỗ trợ cho
website đó.Một website được SEO tốt khi và chỉ khi w ebmaster có được hiểu
biết đúng đắn, tránh rơi vào tình trạng Black Hat SEO.
Nhìn chung, quá trình nghiên cứu được phân thành 04 giai đoạn, các giai
đoạn này được thực hiện liên tục cho đến khi SEO thành công.
Hình 2. : Tổng quan quá trình nghiên cứu và giải quyết vấn đề
Bước 1: Xây dựng ý tưởng, lựa chọn mã nguồn, xây dựng website có nội dung
riêng biệt, hỗ trợ người dùng tối đa.
Bước 2: Bắt đầu phát triển website, song song với việc phát triển cả về nội
dung lẫn mã nguồn, tác giả bắt đầu áp dụng các biện pháp để tối ưu hóa
website.
Bước 3: Thống kê, theo dõi các từ khóa, lượng người truy cập.
SVTH: Nguyễn Tuấn Vũ
8
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Bước 4: Theo dõi các báo cáo cụ thể, duy trì công việc hiện tại nếu SEO thành
công hoặc sữa chữa khi SEO chưa thành công
2.1.2. Kế hoạch làm việc
Tuần
Công việc
1 2
Nghiên cứu về Search Engines, cách thức hoạt động, cách thức thu
3 4
Nghiên cứu về SEO, các cách giải quyết vấn đề về SEO.
thập thông tin.
5 7 Tối ưu hóa website.
8
Theo dõi, điều chỉnh từ khóa, các nội dung không phù hợp
9
Viết báo cáo.
10
Hoàn thành.
2.2. Bố cục
Chương 1: Tổng quan.
Tại chương này, tác giả sẽ đề cập đến các khái niệm cơ bản về SEO,
các hiểu biết ban đầu về SEO.
Cũng trong chương này, tác giả giới thiệu đề tài chuyên đề là: “Tìm hiểu
và ứng dụng
SEO Search
Engine
Optimization
vào
website
ToanCauMobile.vn” – Một website bán hàng điện tử:điện thoại,phụ kiện,âm
thanh. Đây là một hướng đi mới khi làm SEO.
Qua chương 1, tác giả giới thiệu toàn cảnh về đề tài.Cách thức nghiên
cứu, tiếp cận đề tài và các mục tiêu đạt được khi hoàn thành tốt chuyên đề.
Chương 2: Cơ sở lý thuyết.
Về cơ sở lý thuyết, tác giả tìm hiểu cách thức làm việc chung của các
bộ máy tìm kiếm, các cách thức thu thập thông tin, cách thức để một bộ máy
tìm kiếm có thể thấy được trang web.
SVTH: Nguyễn Tuấn Vũ
9
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Trong chương này, tác giả cũng giới thiệu về hai phương thức đánh
giá thứ hạng của website là Alexa và GoogleRank, hai phương thức này đã và
đang là thước đo quan trọng trong việc phát triển trang web.
Cũng trong chương này, tác giả giới thiệu SEO, giúp cho người đọc có
cái nhìn rõ ràng hơn về SEO.
Chương 3: Ứng dụng.
Sau khi đã tìm hiểu và nắm rõ các phương thức tìm kiếm, các tiêu chí
đánh giá xếp hạng tại Chương 2, tác giả áp dụng những hiểu biết trên cơ sở lý
thuyết đó để bắt đầu SEO trang web ToanCauMobile.vn.
Vì vậy, ở chương này, chúng ta sẽ nghiên cứu các phương pháp cơ bản
nhất, chính qui nhất để có thể tối ưu hóa một website, nhằm đưa website lên
các thứ hạng cao khi người dùng truy vấn.
Sau khi đã áp dụng các phương pháp cơ bản và chính qui, tác giả sẽ
thống kê các số liệu và so sánh lúc chưa áp dụng SEO và sau khi áp dụng SEO.
Một số phương pháp, kĩ năng mềm mà tác giả đã áp dụng để SEO thành
công trang web
Chương 4: Kết luận – hướng phát triển.
Nội dung của chương 4 sẽ là tổng hợp kết quả các công việc đã làm ở
các chương trước. Các kết quả đã đạt được sau khi hoàn thành luận văn.
Những nhược điểm của SEO.
Hướng phát triển, đề xuất các phương pháp đễ giữ các vị trí cao khi
SEO thành công, cũng như cách thức quảng bá website để có thể thu lợi nhuận,
tự nuôi sống website.
SVTH: Nguyễn Tuấn Vũ
10
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
CHƯƠNG 3. CỞ SỞ LÝ THUYẾT
3.1. TỔNG QUAN BỘ MÁY TÌM KIẾM
3.1.1. Bộ máy tìm kiếm hoạt động như thế nào?
Search Engine hay còn gọi là công cụ tìm kiếm, bộ máy tìm kiếm giúp
người xem tìm thấy những thông tin một cách liên quan nhất. Người dùng
có thể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm… trên search
engine. Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích
yêu cầu đó, đánh giá, xếp hạng và trả về kết quả liên quan nhất. Search
engine hoạt động theo quy trình như sau :
Ban đầu, SE sẽ gửi các Spider (hay còn gọi là con bọ, Crawler) để tiến
hành khảo sát một website khi nó được upload lên. Các Spider này được lập
trình để có thể tự động lần theo liên kết để đi đến các website khác nhau, sau
khi dừng lại ở một website nào đó, Spider này sẽ thu thập, đánh giá các thông
tin trên website đó trước khi tự động lần theo các liên kết đến các website
khác…
Sau khi nhận được các thông tin từ Spider, SE có nhiệm vụ lưu trữ lại
trước khi phân tích chúng bằng các thuật toán riêng biệt để trả về các kết quả
khi người dùng truy vấn đúng vào nội dung. Ta có thể tham khảo cách thức làm
việc chung của SE tại hình dưới đây:
SVTH: Nguyễn Tuấn Vũ
11
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Hình 3. : Tổng quan cách thức là, việc của bộ máy tìm kiếm
Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn. Search engine có những con bọ
(spider hay crawler) được lập trình để có thể tự động theo các liên kết (link)
để mò đến các website khác nhau, thu thập và đánh giá các thông tin trên
website đó.
Lưu trữ Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl. Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ
kết quả liên quan. Một trang web có thể được index nhanhn hoặc chậm tuỳ
thuộc vào tốc độ crawl, độ trust của website và nhiều yếu tố
khác.
Phân tích – Analysis: giai đoạn này search engine sẽ làm việc trên các dữ
liệu mà nó thu thập được. Sau đó tính toán độ liên quan của dữ liệu so với yêu
cầu của người dùng. Các search engine khác nhau có những thuật toán phân
tích khác nhau từ đây tạo ra sự khác biệt giữa các search engine. Giai đoạn
phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả.
Kết quả Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này. Những kết quả liên quan thường được sắp ở phía trên, cao hơn những
SVTH: Nguyễn Tuấn Vũ
12
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
kết quả ít liên quan.Mặc dù không phải lúc nào các kết quả cũng thoả mãn
được yêu cầu của người tìm kiếm.Nhưng cho đến hiện nay, người dùng khá
hài lòng với những gì mà search engine trả về.
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá
đơn giản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp. Search
engine nào thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử
dụng rộng rãi và phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường
tìm kiếm trực tuyến đầy tiềm năng này?
SVTH: Nguyễn Tuấn Vũ
13
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
3.1.2. Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động. Trong
đó, phải kể đến ba chàng khổng lồ đang chi phối 98% thị phần tìm
kiếmtheo thông kê của SEO MOD tháng 01/2014.
Hình 3. : Biểu đồ thị phần search engine từ seomoz.org
Google là search engine được nhiều người sử dụng nhất với 80% số người
sử dụng. Tiếp theo là Yahoo 9.5% và Bing 8.5%, còn lại số phần trăm ít ỏi dành
cho các search engine khác.
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm
kiếm thông tin.Nên việc SEO trên Google là ưu tiên hàng đầu đối với các
website.
3.2. CẤU TẠO CHUNG CÁC BỘ MÁY TÌM KIẾM
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập
thông tin, Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô
hình sau:
SVTH: Nguyễn Tuấn Vũ
14
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Hình 3. : Cấu tạo Search Engine
Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên
gọi khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ
là một chương trình duyệt và thu thập thông tin từ các website trên mạng, nó
tự động duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả
của công cụ tìm kiếm. Những trình duyệt thông thường không được xem là
robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con
người.
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm
từ quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm
kiếm sau này.
Search Engine – Bộ tìm kiếm thông tin: Tưởng tượng ta muốn tìm
vài quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể
xem qua hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại
hàng triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên
càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu
cũng không thể duyệt hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm
chí xác định được vị trí của những từ cần tìm trong các trang web khắp nơi trên
thế giới.
SVTH: Nguyễn Tuấn Vũ
15
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
3.2.1. Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ
mục.
3.2.1.1. Robot thu thập thông tin có nhiệm vụ
Phân tích – thống kê Statistical Analysis: Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng
file khác nhau, kích thước trung bình của một trang web,độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của
việc duy trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead
links) khi những trang này bị thay đổi hoặc thậm chí bị xóa. Thật không may
vẫn chưa có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này. Trên thực
tế khi các tác giả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ
thông báo cho nhau, hoặc thỉnh thoảng độc giả thông báo cho họ bằng email.
Một số robot có thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy
trì các cấu trúc siêu liên kết cùng nội dung của một trang web. Chức năng này
lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra
sẽ được giải quyết nhanh chóng.
Ánh xạ địa chỉ web – Mirroring: Mirroring: là một kỹ thuật phổ biến
trong việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu
trúc cây thư mục và thường xuyên cập nhật những file bị thay đổi. Điều này
cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị
thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực
sự chứa các dữ liệu này.
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để
phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông
tin khổng lồ trong môi trường mạng. Robot sẽ giúp thu thập tài liệu, tạo và
SVTH: Nguyễn Tuấn Vũ
16
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp
với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết hợp các công dụng trên Combined uses: Một robot có thể đảm
nhận nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ
sở dữ liệu…. Tuy nhiên những ứng dụng như thế còn khá ít ỏi.
3.2.1.2. Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục , ta cần
giải quyết vấn đề sau:
Trong môi trường mạng,robot lấy thông tin từ các site.Vậy robot sẽ bắt
đầu từ site nào? Điều này hoàn toàn phụ thuộc vào robot.Mỗi robot khác
nhau có những chiến lược khác nhau.Thường thì robot sẽ viếng thăm các
site phổ biến hoặc những site có nhiều liên kết dẫn đến
nó.
Ai sẽ cung cấp địa chỉ của các site này cho robot ?Có 2 nguồn; Một là
Robot nhận các URL ban đầu từ user.Hai là Robot phân tích các trang web để
lấy các URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho
robot.Quá trình này được lặp lại liên tục.
Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu
nào trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được
liệt kê như sau được xem là quan trọng :
Ở góc cao của tài liệu.
Trong các đề mục.
Được in đậm.
Trong URLTrong tiêu đề (quan trọng).
Trong phần miêu tả trang web (Description) .
Trong các thẻ dành cho hình ảnh (ALT).
SVTH: Nguyễn Tuấn Vũ
17
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Trong các thẻ chứa từ khóa.
Trong các text liên kết.
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu
tiên hoặc toàn bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ
META(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được
quyền ấn định từ khoá cho tài liệu của mình. Tuy nhiên chức năng này bị lạm
dụng quá nhiều do đó các thẻ META không còn giữ được giá trị ban đầu của
chúng nữa (Black Hat SEO).
SVTH: Nguyễn Tuấn Vũ
18
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
3.2.2. Index – bộ lập chỉ mục
3.2.2.1. Mô hình xử lý tổng quát của một hệ thống lập chỉ mục
Hình 3. : Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp
cốt lõi có khả năng đại diện cho nội dung của tài liệu.Như vậy, vấn đề đặt ra
là phải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung
của tài liệu.
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy
đủ so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu
trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp.
Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây, quá
trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ
công “ nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay,
với lượng thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù
hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
SVTH: Nguyễn Tuấn Vũ
19
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Một thủ tục lập chỉ mục tự động cơ bản:
Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng trắng,
mỗi chuỗi xem như là một từ.
Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong hầu
hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại
từ.
Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.
Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần
cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần
vì tiếng Việt thuộc dòng ngôn ngữ đơn thể
3.2.2.2. Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho
văn bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stopword, xử lý
hậu tố…)
Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị
phản ánh tầm quan trọng của mục từ đó trong văn bản.
3.2.2.2.1. Xác định mục từ quan trọng cần lập chỉ mục
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập
chỉ mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong
một ngữ cảnh cụ thể. Ta xác định mục từ của 1 văn bản dựa vào chính nội
dung của văn bản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản
đó.
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất
hiện của từng loại từ riêng rẽ trong văn bản. Nếu tất cả các từ xuất hiên
trong tập tài liêu với những tần số băng nhau, thì không thể phân biệt các
SVTH: Nguyễn Tuấn Vũ
20
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
mục từ theo tiêu chuẩn định lượng.Tuy nhiên trong văn bản ngôn ngữ tự nhiên,
tần số xuất hiện của từ có tính thất thường, do đó những mục từ có thể được
phân biệt bởi tần số xuất hiên của chúng.
3.2.2.2.2. Xác định trọng số cho mục từ
Trọng số của mục từ là sự tần xuất xuất hiện của mục từ trong toàn
bộ tài liệu.Phương pháp thường được sử dụng để đánh giá trọng số của từ là
dựa vào thống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất
cả các tài liệu thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài
liệu.
Ví dụ: tại trang web ToanCauMobile.vn thì những mục từ có trọng số
cao: toàn cầu, điện thoại, luxury…
3.2.3. Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng tượng ta muốn tìm
vài quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể
xem qua hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại
hàng triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên
càng nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu
cũng không thể duyệt hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm
chí xác định được vị trí của những từ cần tìm trong các trang web khắp nơi trên
thế giới.
3.2.3.1. Các phương thức tìm kiếm
3.2.3.1.1. Tìm kiếm theo từ khóa
Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ
khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại
điều này phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình
chọn và đánh chỉ mục. Một số site lập chỉ mục cho tất cả các từ có trong một
trang web, một số khác chỉ chọn một số đoạn văn bản.
SVTH: Nguyễn Tuấn Vũ
21
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Các hệ thống đánh chỉ mục trên toàn văn bản (fulltext indexing systems)
đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword.Có
những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối
với những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau
do có tiền tố và hậu tố. Bên cạnh đó search engine cũng không thể trả về các
tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.
SVTH: Nguyễn Tuấn Vũ
22
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
3.2.3.1.2. Tìm kiếm theo ngữ nghĩa
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ
nghĩa sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa
hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn
ngữ học, các thuyết về trí tuệ nhân tạo; tiếp cận dựa vào phương pháp tính
toán bằng cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ
hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì cho rằng chúng
đang ám chỉ một chủ đề nào đó.
Hình 3. : Hệ thống tự động đoán hành vi tìm kiếm
3.2.3.1.3. Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về
bất kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho
những URL vô ích.
Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ?
Hoặc ta đã hình dung được cụ thể những gì cần tìm ?
Hay ta muốn tìm địa chỉ của ai đó ?
SVTH: Nguyễn Tuấn Vũ
23
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web
(web directory).
Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một
công cụ tìm kiếm thích hợp.
Ví dụ: chỉ với từ khóa “điện thoại” ta có thể có “điện thoại nhật
cường”, “điện thoại sky”, “điện thoại oppo”, “điện thoại sam sung”...
3.3. HỆ THỐNG RANK
3.3.1. Google PageRank
3.3.1.1. Google PageRank là gì?
Google PageRank là chỉ số đáng tin cậy chỉ giá trị của một trang
web.Google đánh giá và xếp hạng các trang web bằng cả hai phương pháp tự
động và thủ công dựa trên hơn 100 chỉ số chính với những thuật toán xuất
sắc.
Một vài chỉ số quan trọng quyết định Google PageRank của một trang
web: độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web,
chất lượng kỹ thuật...
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạch
màu xanh trên nền trắng:
. Giá trị của mỗi trang web theo Google
PageRank tăng dần từ 1 đến 10.
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do
Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trong
một dự án nghiên cứu về công cụ tìm kiếm năm 1995.
3.3.1.2. Google PageRank đem lại lợi ích gì ?
Google PageRank hiện nay được coi là chỉ số đáng tin cậy đánh giá mức
độ quan trọng mỗi trang web. Một trang web có chỉ số Google PageRank cao
SVTH: Nguyễn Tuấn Vũ
24
Lớp: K46 TMĐT
Chuyên đề tốt nghiệp Đại học
GVHD: Th.S Lê Văn Hòa
sẽ đem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý
nghĩa với các website kinh doanh thương mại điện tử.
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang
web khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của
Google. Một trang web có PageRank cao dễ xuất hiện trên đầu danh sách kết
quả tìm kiếm của Google hơn.
3.3.1.3. Tăng Google PageRank như thế nào?
Về cơ bản, theo các chuyên gia của Google: "Không được sử dụng các
phương pháp giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải
cho các công cụ tìm kiếm".
Tăng thứ hạng trong danh sách kết quả tìm kiếm của Google là
phương pháp tăng PageRank rất hiệu quả vì vừa tăng độ phổ biến các trang
web của bạn, vừa tăng lượng khách truy cập.
Cấu trúc website, cấp bậc cần rõ ràng, nội dung thông tin cần phong phú,
hữu ích. Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh.
Đăng ký website vào các danh bạ uy tín cũng như các website chất lượng
khác để tăng độ phổ biến.
3.3.2. Alexa Rank
3.3.2.1. Alexa Rank là gì ?
Alexa Rank là thước đo mức độ phổ biến của các website. Chỉ số thứ
hạng của mỗi website được Alexa kết hợp đánh giá từ 2 yếu tố là: số trang
web người dùng xem (Page Views) và số người truy cập website (Reach).
3.3.2.2. Alexa Rank mang lại lợi ích gì?
Chỉ số thứ hạng Alexa của một website cao được hiểu là website đó có
đông người truy cập, phần nào đem lại cho website ấn tượng sống động và uy
tín.
SVTH: Nguyễn Tuấn Vũ
25
Lớp: K46 TMĐT