Tải bản đầy đủ (.pptx) (20 trang)

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (312.97 KB, 20 trang )

Báo cáo bài tập lớn
Xử lý ngôn ngữ tự nhiên
Đề tài : Tìm hiểu cấu trúc hệ thống tìm kiếm thông tin Google hiện tại và các kỹ thuật xử lý trong tìm
kiếm thông tin của Google
Nhóm sinh viên thực hiện :
Trần Quốc Huy
Nguyễn Huy Triển
Lưu Mạnh Linh
Nguyễn Hữu Khánh
Trần Mạnh Đức
Mở đầu
Mở đầu

Google được thành lập vào năm 1998, có trụ sở tại Hoa Kỳ.

Sản phẩm chính của công ty là công cụ tìm kiếm Google – được đánh giá là
công cụ tìm kiếm hữu ích và được sử dụng nhiều nhất trên Internet.
Mở đầu

Các dịch vụ của Google gồm có Tìm kiếm từ khóa, Image Search, Google News,
Google Maps, Google Groups …
Google Search
Engine
Google Bot

Google Bot là những “ bọ tìm kiếm “ được phân rải trên các website.

Có chức năng xử lý thông tin trên các website : sàng lọc thông tin mới, thu
thập các thông tin này vào kho dữ liệu của Google.
Đánh chỉ mục


Google sử dụng hệ thống đánh chỉ mục có tên là GoogleCaWeine.

Nội dung các website phát triển chóng mặt với nhiều hình thức và nội dung
phong phú. Người dùng Google cũng đòi hỏi tìm thấy những nội dung mới
nhất và phù hợp nhất.

 GoogleCaWeine có thể đáp ứng tốt nhu cầu của người dùng.
Đánh chỉ mục

GoogleCaWeine cập nhật và phân tích website trên những phần nhỏ và cập
nhật chỉ mục tìm kiếm liên tục trên 1 diện rộng.

Người dùng sẽ dễ dàng tìm được các thông tin hữu ích mà ko gặp bất cứ rào
cản nào về thời gian và website mà nó được xuất bản.
Đánh chỉ mục

Để đem lại khả năng hoạt động khủng như vậy, GoogleCaWeine cũng sẽ phải
tiêu tốn của Google một lượng tài nguyên rất “khủng”.

Theo tính toán của Google, 1 giây hệ thống CaWeine có khả năng phân tích và
index 100 ngàn trang.

Hệ thống CaWeine chiếm gần 100 triệu Gigabyte lưu trữ và nó lớn lên theo tốc
độ hàng trăm ngàn Gb mỗi ngày.
Bộ tìm kiếm thông tin

Xử lý các truy vấn từ phía người sử dụng.

Tiếp nhận các yêu cầu tìm kiếm, phân tích từ ngữ, tìm kiếm trong Cơ sở dữ liệu
chỉ mục, so khớp các từ khóa, lấy về kết quả phù hợp và cuối cùng trả lại những

kết quả đó cho người sử dụng.
PageRank

PageRank được phát triển tại Đại học Stanford bởi Larry Page và sau đó được
phát triển bởi Sergey Brin.

Hệ thống xếp hạng trang web nhằm xếp thứ tự ưu tiên đường dẫn URL trong
trang kết quả tìm kiếm.
PageRank

Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng càng
tăng.

Đó là khái niệm sơ đẳng nhất mà người làm web biết đến, trên thực tế thuật
toán PageRank phức tạp hơn rất nhiều.
PageRank

PageRank của Google hiển thị trên Toolbar là 1 số
nguyên từ 0 đến 10.

Đơn vị đánh giá của nó dựa trên khối lượng link
trỏ đến cũng như chất lượng của những trang
web chứa đường link xuất phát này.

Nó giống như kết quả bầu chọn của tất cả các
trang web khác trên toàn thế giới về mức độ quan
trọng của website đó.
PageRank
PageRank


Công thức tính giá trị PageRank của 1 trang A
PR(A)=(1-d)+d*( +…+ )


Google Panda Algorithm

Tháng 11 – 2011, Google chính thức thay đổi thuật toán Ranking của mình lấy
tên là Panda.

Mục đích loại bỏ hoặc giảm chỉ số xếp hạng của các trang web có nội dung kém
chất lượng, chủ yếu sưu tập từ trang khác, tăng chỉ số các trang có nội dung
nguồn chất lượng.
Google Panda Algorithm
Tiêu chí :

“ Content is king “.

Tỉ lệ các bài viết có nội dung trùng lặp.

Thời gian khách truy cập trên website.

Tỉ lệ Bounce Rate.

Tỉ lệ khách hàng quay trở lại.

Mạng xã hội.

Lượng nội dung gốc.
Google Panda Algorithm
Tiêu chí :


Số lượng các link trỏ đến trang web.

Số lượng các từ không tự nhiên trên trang.

Tỉ lệ người dùng kích qua các trang kết quả của Google.

Tỉ lệ nội dung không trung thực.

Số lượng các quảng cáo trên trang web.
Kết luận

Hệ thống tìm kiếm của Google là một hệ thống tìm kiếm với quy mô rất lớn và
rất phức tạp.

Hệ thống phát triển và không ngừng được nâng cấp cải thiện, trở nên gần gũi
và hữu ích với người dùng.

Những điều chúng tôi đưa ra là cái nhìn tổng quan nhất về hệ thống tìm kiếm
Google trong thời điểm này.

×