Tải bản đầy đủ (.doc) (26 trang)

Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài (Bài tiểu luận chuyên đề về “Data Mining):

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (755.5 KB, 26 trang )

Học viện công nghệ bưu chính viễn thông
Bài tiểu luận chuyên đề về “Data Mining”:
Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google,
điên rồ hay thiên tài.
Giáo viên : Trần Đình Quế.
Sinh viên: Lê Công Linh.
Lớp: D07CNPM1.
Hãy quan tâm tới điều không thể, hãy thử làm những gì mà hầu hết
mọi người chưa nghĩ tới.
Đó là phương châm của những nhà sáng lập Google.
Mục Lục
Bài tiểu luận chuyên đề về “Data Mining”: 1
Sức mạnh bộ máy tìm kiếm và khả năng lưu trữ của Google, điên rồ hay thiên tài 1
Mục Lục 1
I.Google 3
1.1.Sơ lược về Google 3
1.2.Hoạt động 5
II.Data mining - Web mining 6
1.Data mining 6
1.1.Data mining là gì? 6
1.2.Data mining là một bước trong qúa trình khai phá dữ liệu 7
2.Web mining 9
2.1.Khai phá cấu trúc Web 9
2.2.Khai phá nội dung Web 10
2.3.Khai phá sử dụng Web 12
2.4.Tóm lược 13
III.Sự phát triển Search Engine của Google 13
1.1.Giới thiệu 13
1.2.So sánh Search Engine truyền thống (keyword - text Search Engine) và Semantic Search Engine 16
1.2.1.Search Engine truyền thống (keyword - text Search Engine) 16
1.2.2.Semantic Search Engine 16


IV.Thuật toán Page Rank 17
a.Tổng quan 17
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
b.Các khái niệm 17
2 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Lời mở đầu
Không phải bất kì ý tưởng nào quá mới lạ đều xem là điên rồ và cũng không phải
bất kì ý tưởng nào điên rồ cũng khó khả thi. Mới đây, Google đưa ra hàng loạt các
phát minh “điên rồ” như Trình duyệt Google Body : “Thay vì khám phá một thế
giới khác, tại sao chúng ta không dành chút thời gian cho chuyến hành trình tuyệt vời
bên trong chính bản thân con người? Google Body sẽ cung cấp hình ảnh 3D cụ thể về
cơ thể con người mà từ đó, bạn có thể dễ dàng quan sát theo từng lớp một. Đây sẽ là
một phương tiện tuyệt vời cho sinh viên ngành Y trong việc học tập cũng như cho bất
cứ ai muốn hiểu thêm bên trong thân thể mình”. Điều này thú vị đấy chứ? Rồi đến
Google Goggles là công cụ cho phép bạn tìm kiếm trên Google bằng hình ảnh thay vì
bằng từ hoặc chữ. Tải lên một bức ảnh bạn có về một thứ gì đó muốn tìm thêm thông
tin – chẳng hạn như địa điểm của bức ảnh đó – và Google sẽ tự động thực hiện phần
việc còn lại Nhưng nó sẽ là không bị coi là điên rồ nhiều nếu so sánh với thời
điểm và công nghệ hiện tại. Sẽ thực sự là bị coi là “điên rồ” nhất, khi mà quay trở lại
thời điểm công ty Google ra đời từ những ý tưởng có vẻ ngớ ngẩn và điên rồ: Tải
toàn bộ các trang web toàn cầu xuống máy tính của mình. Ý tưởng đó lại xuất phát
từ một ý tưởng khác điên khùng hơn: nếu thế giới đang đi theo một hướng thì phải có
con đường khác nhanh hơn.
Không hiểu tại sao google lại có tất cả các thông tin từ các trang web được mặc
dù khi đưa một tin gì lên không hề có một báo cáo nào gửi cho nó và nó làm thế nào
để có thể sắp xếp lượng thông tin khổng lồ này để khi tìm có thể cho một kết quả
trong tik tắc như thế?
Nghe nói google có hàng nghìn (có thông tin là hàng vạn) máy chủ đặt trên khắp
thế giới [sức mạnh sẽ rất kinh khủng với hàng loạt chiếc laptop mà ngày trước thầy

tđQuế đem ra so sánh

].Vậy thì làm thế nào để nó có thể quản lý được số máy chủ
này. Hơn nữa khi ta nhập một từ khoá vào với số máy chủ lớn như thế nó làm thế nào
để biết được là sẽ tìm kiếm ở máy chủ nào, chả nhẽ lại tìm tất cả các máy chủ trên thế
giới. Đến đây lại nảy sinh vấn đề mới, khi mình đánh một từ khoá vào thì kết quả
chắc không phải chỉ ở một máy chủ. Vậy làm thế nào để các thông tin ở các máy chủ
không bị chồng lắp nhau và biết thông tin đang ở máy chủ nào.
Chúng ta biết rằng Google luôn trả cho chúng ta kết quả tìm kiếm tốt nhất, thông
minh nhất Nó còn thông minh hơn nếu như chúng ta luôn tìm kiếm thông tin bằng
cách đăng nhập vào hệ thống của Google, chúng ta có thể thử bằng cách tìm một từ
khóa chuyên biệt khi không đăng nhập và khi đăng nhập, nói chung kết quả sẽ khác
1 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
nhau, và hầu hết là kết quả khi chúng ta đăng nhập sẽ có độ chính xác với mục đích
tìm kiếm của bạn cao hơn so với khi không đăng nhập. Bạn có biết tại sao không?
Với sự lớn mạnh của các tài liệu web và text, Web mining và text mining đang trở
nên quan trọng hơn và phổ biến hơn. Web mining, Search Engine sẽ là chủ đề
chính của tiểu luận này, nhằm làm rõ sức mạnh của cỗ máy tìm kiếm của Google.
Khai phá web nhằm mục đích khám phá thông tin và tri thức hữu ích từ cấu trúc
hyperlink Web, nội dung trang web, và cách sử dụng dữ liệu của trang web. Với bài
tiểu luận nhỏ này sẽ giúp được phần nào làm rõ các vấn đề trên.
Nội dung bài tiểu luận gồm các phần :
• Sơ qua về Google. Tham vọng và nguồn thu của họ.
• Nhắc lại Dataming. Google và các đại gia khác có gì tốt hơn khi sử dụng
datamining.
• Web mining và phân loại webmining. Google đã vận dụng như thế nào cho
cỗ máy tìm kiếm khổng lồ của mình.
• Khác biệt giữa Search Engien truyền thống và Semantic Search Engine.
Google sử dụng và từng bước phát triển cỗ máy tìm kiếm của mình như thế

nào?
• PageRank và giải thuật PageRank.
• Ví dụ minh họa cho giải thuật PageRank.
Dân ta phải biết sử ta. Nếu mà không biết thì tra Google.
2 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
I. Google.
Nội dung phần này giúp chúng ta có cái nhìn sơ qua về quá trình hình thành và
phát triển của công ty Google. Ở Google là tham vọng, điên rồ hay là thiên tài?
 Sơ lược.
 Hoạt động.
1.1. Sơ lược về Google.
Ra đời năm 1998 với số tiền đầu tư ít ỏi 100.000 USD và trên mặt bằng một gara
cũ, chỉ sau 6 năm, Google đã trở thành một doanh nghiệp toàn cầu trị giá hàng tỉ
USD. Trong lịch sử phát minh và tư bản dày cộp của nước Mỹ, chưa có ai thành công
nhanh chóng như Google.
Thomas Edison phải mất nửa thế kỷ để phát minh ra bóng đèn; Alexander
Graham Bell phải tốn rất nhiều năm để phát minh và cải tiến chiếc điện thoại; Henry
Ford phải sau hàng chục thập kỷ làm việc miệt mài mới tạo ra được dây chuyền lắp
ráp hiện đại và biến nó thành nền công nghiệp đại sản xuất và tiêu dùng ôtô; còn
Thomas Watson “con” đã phải làm việc rất vất vả nhiều năm cho tới khi IBM cho
xuất xưởng chiếc máy tính hiện đại. Thế nhưng Google chỉ cần vài năm. Google là
một công ty kỳ lạ, một thứ văn hóa kỳ lạ, cách kiếm tiền kỳ lạ, trở nên giàu có nhanh
chóng nhờ tư duy và trí tuệ của hai chàng trai trẻ cũng thật sự kỳ lạ: Larry Page và
Sergey Brin - những người sáng lập giàu tham vọng của Google. Chỉ với bàn tay và
khối óc của mình, trong vỏn vẹn có 6 năm, họ đã trở thành tỉ phú. Lúc đó Page và
Brin chỉ mới 31 tuổi.
Larry Page gặp Sergey Brin vào mùa xuân năm 1995. Dù trẻ hơn Page vài tháng
tuổi nhưng Brin đã học ở Trường đại học Stanford được hai năm. Brin tốt nghiệp đại
học ở tuổi 19, xuất sắc vượt qua mười bài thi bắt buộc để theo học bậc tiến sĩ tại

Trường đại học Stanford ngay lần thi đầu tiên, và dễ dàng tham gia nhóm nghiên cứu
cùng các giáo sư. Tháng 1-1996, Page và Brin cùng các sinh viên và cán bộ giảng
dạy khoa tin học Trường Stanford chuyển đến một nơi mới: một tòa nhà đẹp bốn tầng
ốp đá màu be có khắc dòng chữ Khoa tin học William Gates. Chủ tịch Hãng
Microsoft - Bill Gates - đã đóng góp 6 triệu USD để xây dựng tòa nhà, với số tiền đó
Bill Gates có quyền đặt tên cho tòa nhà. Page ở phòng Gates 360 cùng với bốn sinh
viên khác. Brin được phân sang một văn phòng khác, nhưng anh vẫn dành nhiều thời
gian làm việc với Page ở phòng Gates 360.
Phòng Gates 360 trông giống như một khu rừng nhỏ, với các cây thân leo vắt vẻo
trên trần nhà. Trong một góc phòng, dưới gầm bàn của Page, họ xếp mô hình một
3 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
chiếc máy tính từ các mảnh ghép Lego. Cả hai đều không bao giờ nghĩ rằng đến một
ngày họ sẽ cạnh tranh với người khổng lồ Bill Gates.
Một trong những chủ đề Page thích bàn luận lúc đó là phát minh các hệ thống khai
thác dữ liệu ưu việt hơn. Họ thành lập một đội nghiên cứu mới mang tên MIDAS,
viết tắt của cụm từ Mining Data at Stanford (khai thác dữ liệu Trường Stanford).
Trong truyền thuyết Hi Lạp, Midas là vị vua có khả năng kỳ diệu: chạm vào cái gì,
cái đó biến thành vàng.
Trong khi khai thác dữ liệu, họ làm thí nghiệm sắp xếp sao cho tiện lợi thông tin
trên mạng Internet đang phát triển mạnh mẽ nhưng tổ chức lộn xộn. Vào giữa những
năm 1990, hàng triệu người truy cập và bắt đầu giao tiếp qua thư điện tử, nhưng các
nhà nghiên cứu nghiêm túc bắt đầu bực mình giữa một “rừng” trang web. Trong khi
đó, các sinh viên bậc tiến sĩ Trường Stanford, Jerry Yang và David Filo, đã tìm kiếm
theo phương pháp khác. Không chỉ dựa vào mỗi công nghệ, họ thuê một đội ngũ biên
tập viên ngồi lựa chọn các trang web theo thứ tự bảng chữ cái. Họ đặt tên cho công ty
của mình là Yahoo!.
Mặc dù phương pháp của họ đã đơn giản hóa chỉ tìm kiếm những thông tin giá trị,
nhưng nó vẫn chưa toàn diện và không theo kịp được sự phát triển như vũ bão của
các trang web. Brin cũng đã từng thử các công cụ và danh bạ tìm kiếm khác nhưng

chẳng có trang web nào tối ưu cả. Brin ngày càng tin rằng phải có một cách khác tốt
hơn để tìm kiếm thông tin trên mạng. Cùng lúc đó, Page - một người đầy tham vọng
- muốn tải toàn bộ các trang web toàn cầu xuống máy tính của mình.
Ngày nay, không một thương hiệu nào được toàn thế giới biết đến nhanh hơn
Google. Tên của Google trở thành từ vựng thường dùng không chỉ bằng tiếng Anh
mà còn xuất hiện trong cả nhiều thứ tiếng khác. Sự xuất hiện của Google cùng các
công cụ tìm kiếm đã xóa bỏ được khoảng cách địa lý vốn là rào cản đối với vấn đề
giao tiếp và giao thương. Từ gia đình hay văn phòng, người ta có thể giao tiếp với
những người hoàn toàn xa lạ ở bên kia bán cầu và truy cập thông tin qua Google để
biết về đời tư, hình dáng của họ qua công cụ tìm kiếm hình ảnh của Google, tìm kiếm
số điện thoại và trang web của họ, xem ảnh của gia đình họ qua các hình ảnh vệ tinh.
4 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
1.2. Hoạt động
Hàng triệu người sử dụng công cụ tìm kiếm vẫn chưa thể hiểu nổi Google đã
kiếm tiền bằng cách nào trong khi họ đang sử dụng miễn phí những công cụ ấy.
Nhiều người không thể phân biệt được sự khác nhau giữa những kết quả tìm kiếm
miễn phí và các mục quảng cáo xuất hiện ngay cạnh những kết quả này. Ngay cả đối
với những người hiểu được điều này - những người rất ít khi nhấp chuột vào các mục
quảng cáo, họ cũng không thể hiểu Google đã có được thu nhập hàng tỉ USD bằng
cách nào, nhất là với giá trị của mỗi cái nhấp chuột ấy chỉ được tính bằng tiền xu chứ
không phải đồng USD. Trong phạm vi hoạt động của mình là cung cấp kết quả cho
hàng trăm triệu tìm kiếm mỗi ngày, tất cả những gì Google kiếm được chỉ là từ
những cái nhấp chuột vào mục quảng cáo. Mỗi lần bạn nhấp chuột, Google nhận
được trung bình 50 xu từ nhà quảng cáo. Google đã kiếm được hàng trăm triệu USD
mỗi năm, doanh thu tăng vọt ngoài sức tưởng tượng, không có bất cứ một khoản nợ
nào. Hấp dẫn hơn, đó là những lợi nhuận thu được từ việc quảng cáo trên Internet.
Vào đầu năm 2001, Google làm một điều gây kinh ngạc khác, đó là thực hiện
100 triệu phép tìm kiếm/ngày và 10.000 phép tìm kiếm/giây. Google cũng được đưa
vào từ điển của Mỹ như một động từ. Ngày 1/4/2004, Google lại tung ra một tin “nổ

bom tấn” làm mọi người tưởng là chuyện cá tháng tư nhưng hóa ra lại là sự thật: hệ
thống thư điện tử Gmail. Dung lượng lưu trữ của Gmail lớn hơn gấp 500 lần dung
lượng dự trữ miễn phí của Microsoft và gấp 250 lần dung lượng miễn phí của Yahoo.
Google thông báo cho người sử dụng dịch vụ Gmail biết rằng họ sẽ không bao giờ
phải xóa bỏ các thư điện tử cũ. “Bom tấn” với dịch vụ thư điện tử Gmail có dung
lượng cực lớn khiến các “ông lớn” về email như Yahoo và Microsoft sau đó phải
"chạy theo" cung cấp email dung lượng lớn miễn phí cho người dùng.
Sau đó, Google tiếp tục đưa ra “món” Tin tức Google và Google Alerts - dịch vụ
thông báo tin tức tự động cho người tìm kiếm các chủ đề quan tâm cụ thể thông qua
thư điện tử. Hàng triệu người đăng ký sử dụng dịch vụ thông báo và dịch vụ này đã
đem lại lợi ích cho những người quan tâm tới một công ty, tổ chức, cá nhân hay chủ
đề tin tức nào đó.
Ngày nay, hàng chục triệu người thường xuyên tìm kiếm thông tin trên Google
bằng ngôn ngữ bản xứ của họ. Họ có thể lựa chọn trong danh sách có tới gần 100
ngôn ngữ. Họ tìm kiếm trên Google mọi thứ từ các thành phần cần thiết cơ bản cho
một món ăn đến việc mua bán nhà cửa, giáo dục, giải trí và tất nhiên là cả tình dục.
Trên khắp thế giới, từ những nhà kinh doanh cho tới các nhà đầu tư và các luật sư
của họ đều sẽ nghĩ rằng họ thật khờ khạo nếu như làm ăn với một đối tác nào đó mà
không tìm hiểu về đối tác thông qua Google. Các tác giả viết sách đều tìm thông tin
5 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
và các nguồn tài liệu nhanh chóng bằng cách sử dụng Google. Các quan chức cấp cao
trong chính phủ sử dụng Google để tự mình tìm các tài liệu mà không cần đến người
phụ giúp.
II. Data mining - Web mining.
 Nội dung phần này chúng ta nhắc lại về khái niệm về data mining và cấu trúc của
web mining để từ đó làm sáng rõ cơ chế của cỗ máy “Search Engine” Google.
 Giới thiệu về data mining.
 Cấu trúc webmining.
1. Data mining.

1.1. Data mining là gì?
Data mining là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối
tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đoán các
xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà
bình thường không thể nhận diện được. Nhiều người xem khai phá dữ liệu như là một
từ đồng nghĩa với những thuật ngữ được sử dụng phổ biến, Knowledge Discovery
from Data (KDD). Những người khác lại xem khai phá dữ liệu đơn giản là một bước
cốt yếu trong quá trình khám phá dữ liệu.
Data mining đã thu hút rất nhiều sự quan tâm trong lĩnh vực công nghiệp thông
tin và toàn xã hội nói chung trong những năm gần đây, do sự sẵn có rộng rãi của một
lượng dữ liệu khổng lồ và nhu cầu trước mắt để chuyển dữ liệu đó thành thông tin
hữu ích và kiến thức. Thông tin và kiến thức đạt được có thể được sử dụng trong các
ứng dụng khác nhau: từ phân tích thị trường, phát hiện gian lận, việc giữ chân khách
hàng đến việc điều khiển sản xuất và khám phá khoa học.
Datamining có thể được xem như là kết quả của sự tiến hóa tự nhiên của lĩnh vực
công nghệ thông tin. Ngành công nghiệp hệ thống cơ sở dữ liệu đã chứng kiến một
con đường tiến hóa trong sự phát triển của các chức năng: thu thập dữ liệu và tạo ra
cơ sở dữ liệu, quản lý dữ liệu (bao gồm cả lưu trữ dữ liệu và phục hồi, và xử lý giao
tác cơ sở dữ liệu), và phân tích dữ liệu tiên tiến (liên quan đến lưu kho dữ liệu và
khai thác dữ liệu). Ví dụ, sự phát triển ban đầu của việc thu thập dữ liệu và kỹ thuật
tạo dữ liệu đóng vai trò như là một điều kiện tiên quyết cho phát triển sau này của
các cơ chế hiệu quả để lưu trữ dữ liệu và phục hồi, truy vấn và xử lý giao tác. Hệ
thống cơ sở dữ liệu cung cấp nhiều truy vấn và xử lý giao dịch là yêu cầu trong thực
6 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
tế, phân tích dữ liệu tiên tiến đã trở thành mục tiêu tiếp theo 1 cách tự nhiên và tất
yếu.
Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ
truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí
các cách truyền thống không thể giải được). Nó có thể tìm thấy được những thông tin

cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc không xem xét đến để có thể dự đoán những
xu thế/hành động xảy ra trong tương lai.
1.2. Data mining là một bước trong qúa trình khai phá dữ liệu.
Khám phá dữ liệu là một quá trình được mô tả trong Hình 1.2 (1) và bao gồm
một chuỗi lặp đi lặp lại theo các bước :
• Làm sạch dữ liệu (Data Cleaning): loại bỏ dữ liệu mâu thuẫn nhau.
• Tích hợp dữ liệu (Data Integration): Nhiều nguồn dữ liệu có thể được kết hợp lại¹.
• Chọn lọc dữ liệu (Data Selection): Những dữ liệu có liên quan đến nhiệm vụ phân
tích được lấy ra từ cơ sở dữ liệu.
• Biến đổi dữ liệu (Data Transformation): Dữ liệu được biến đổi hay hợp nhất thành
những dạng thích hợp cho việc khai phá bằng các hành động tổng hợp hay tập hợp
chúng).
• Khai phá dữ liệu (Data Mining): một quy trình mà tại đó các phương thức thông
minh được áp dụng để rút ra các mẫu dữ liệu.
• Đánh giá dữ liệu (Data Evaluation): để xác định các mẫu dữ liệu thật sự có giá trị
mô tả tri thức dựa trên các đơn vị đo(intestingness measure).
• Trình bày dữ liệu (Data presentation): Sự hình dung và các kỹ thuật mô tả tri thức
được sử dụng để trình bày những tri thức khai thác được cho người dùng.
Với trang Amazon, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán
kèm có tỷ lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển
hệ thống recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển
thuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử
dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập
thông tin có độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100
khách hàng mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách
DEF, vì thế với khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý
mua them quên DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để
tăng độ tương quan lên nữa. Và đây cũng là một quá trình mining dữ liệu.
7 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.

Hình 1.2 (1): Quá trình khai phá dữ liệu.
Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu
và định nghĩa lại theo các tiêu chí cần phân tích. Các kỹ thuật data mining có thể cài
đặt rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần
đòi hỏi quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một
khối lượng dữ liệu cực lớn nên cần ứng dụng các công nghệ high performance
client/server hoặc xử lý song song (parallel programming).
Facebook có tính năng rất hay và rất hữu dụng trong việc kết nối các mối quan
hệ, đó là tính năng suggestions friends, các mối quan hệ của chúng ta hầu hết đều
kết nối qua tính năng này, và điều thú vị là hầu hết các người bạn mà FB suggest đều
là những người chúng ta biết. Vậy tại sao FB nó lại thông minh đến mức như vậy?
Facebook lại có thể gợi ý cho chúng ta toàn những người mà chúng ta đã quen biết?
Để có thể đưa ra gợi ý này đòi hỏi Facebook kết hợp rất nhiều các tham số, cụ thể là
những tham số gì thì là bí mật công nghệ riêng của FB. Tuy nhiên có thể giải thích
tóm lược như sau: Khi bạn đăng ký tài khoản Facebook, thông thường bạn nhập thêm
8 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
các thông tin khác như: quá trình làm việc ở các công ty, công ty chúng ta đang làm,
trường/lớp chúng ta đã/đang học, các hội chúng ta tham gia, chúng ta
gái/trai/vợ/chồng của chúng ta v.v Đây chính là các thông tin mà Facebook có thể
dựa vào để xác định ai là bạn của bạn. Ở đây, Facebook đã mô hình hóa các tham số
có độ liên quan nhất định để đưa ra những gợi ý mà có xác xuất đúng rất cao, và bạn
thấy đó, thực sự là rất đúng. News stream của Facebook còn phức tạp và hay ho hơn
nữa. Tất các điều đó Facebook làm được là quá trình thu thập dữ liệu hoạt động của
người dùng trên site, sau đó sử dụng các công nghệ data mining để cung cấp nội
dung, tính năng phù hợp nhất cho người dùng.
2. Web mining.
Khai phá web nhằm mục đích khám phá thông tin và tri thức hữu ích từ cấu trúc
hyperlink Web,nội dung trang web, và cách sử dụng dữ liệu. Mặc dù khai phá Web
sử dụng nhiều kỹ thuật khai phá dữ liệu, như đã đề cập ở trên, nó không đơn thuần là

một ứng dụng khai phá dữ liệu truyền thống do tính chất không nhất quán và nửa cấu
trúc hoặc không có cấu trúc của dữ liệu Web. Nhiều tác vụ khai phá mới và các thuật
toán đã được khám phá trong thập kỷ qua. Căn cứ vào các kiểu dữ liệu chủ yếu được
dùng trong quá trình khai phá, các tác vụ khai phá Web có thể được phân loại thành 3
kiểu:
 Khai phá cấu trúc Web (Web structure mining).
 Khai phá nội dung Web (Web content mining).
 Khai phá sử dụng Web (Web usage mining).
2.1. Khai phá cấu trúc Web
Khám phá tri thức hữu dụng từ các hyperlink(liên kết ngoài), mà thể hiện cấu trúc
của Web, ví dụ, từ các link chúng ta có thể khám phá các trang Web quan trọng, đó là
một công nghệ chính được sử dụng trong các công cụ tìm kiếm không chỉ của riêng
Google. Chúng ta cũng có thể khám phá những vấn đề thường thu hút những người
sử dụng. Khai phá dữ liệu truyền thống không thể thực hiện những chức năng như
vậy bởi vì thông thường không có cấu trúc liên kết trong bảng quan hệ.
Sử dụng khai phá cấu trúc Web làm giảm thiểu 2 vấn đề chính của world wide
web do lượng thông tin quá lớn.
• Vấn đề thứ nhất là các kết quả tìm kiếm không liên quan.
• Vấn đề thứ hai là không có khả năng chỉ số lượng lớn nếu nếu thông tin được cung
cấp trên web.(the second of these problems is the inability to index the vast
amount if information provided on the web).
9 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Bất cứ các máy tìm kiếm nào cũng có cơ chế thu thập dữ liệu, gọi là crawler
hoặc spider hoặc web robot (gọi tắt là web bot). Máy này duyệt web theo các link,
và nhờ đó, sẽ có được toàn bộ những gì có thể xem được trên internet công cộng.
Ngoài ra những người quản trị web cũng có gửi cho google những link riêng để link
đó sớm được cập nhật: . Thường sau khi báo cho
google thì trong vòng 1 tuần máy thu thập thông tin của google sẽ ghé thăm, và trong
vòng 1 tuần sau nữa thì nội dung đó được xử lý xong và có thể tìm thấy được. Mỗi

khi có yêu cầu tìm kiếm, máy chủ có các cơ chế đánh chỉ mục (index), để truy cập
vào nội dung cần thiết để đưa ra kết quả trong thời gian ngắn nhất có thể, với kết quả
chính xác nhất có thể. Hiện nay Google trị giá nhiều tỷ USD là nhờ có 1 hệ thống
thuật toán rất cao siêu, không đối thủ nào như Microsoft hay Yahoo có thể đấu lại
được về độ chính xác. Để ví dụ về cơ chế đánh chỉ mục, bạn có thể tưởng tượng về
thuật toán tìm kiếm trên cây nhị phân, hoặc các thuật toán băm. Các dữ liệu đa số
nằm ở ổ cứng chứ không phải RAM, nhờ các thuật toán dành cho dữ liệu trên bộ nhớ
ngoài, google có thể làm nên phép màu đó.
2.2. Khai phá nội dung Web.
Tách hoặc khai phá thông tin và tri thức hữu dụng từ nội dung của trang Web. Ví
dụ, chúng ta có thể tự động phân loại và phân nhóm các trang Web dựa vào các
Topic của chúng. Những chức năng này tương tự như những chức năng trong khai
phái tri dữ liệu truyền thống. Tuy nhiên, chúng ta cũng có thể khám phá những
pattern trong các trang Web để tách dữ liệu hữu dụng như những miêu tả về các sản
phẩm, các bài post trên các forum…cho nhiều mục đích.
Hơn thế nữa, chúng ta có thể khám phá các xem xét của khách hàng và các bài
post trên forum để tìm ra được vấn đề quan tâm của khách hàng. Những điều mà
không có trong các tác vụ của khai phá dữ liệu truyền thống. Web content mining có
liên quan nhưng khác khai phá dữ liệu và khai phá văn bản. Khai phá nội dung web
liên quan khai phá dữ liệu bởi vì nó áp dụng nhiều kỹ thuật khai phá dữ liệu. Nhưng
nó khác bởi vì nội dung trên web thường là không có cấu trúc hoặc bán cấu trúc trong
khi khai phá dữ liệu chủ yếu thao tác với dữ liệu có cấu trúc. Khai phá nội dung web
khác với khai phá văn bản bởi tính chất bán cấu trúc của web, trong khi khai phá văn
bản tập trung vào các văn bản không có cấu trúc. Như vậy khai phá nội dung web
yêu cầu ứng dung các kỹ thuật của khai phá văn bản/ dữ liệu, xong nó cũng đòi hỏi
phương pháp tiếp cận độc đáo của riêng mình.
Không chỉ Google mà ngay cả Yahoo!, MSN hay tất cả các máy tìm kiếm khác
đều có các bước sau:
10 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.

 Crawler: Duyệt mạng các trang web để thu thập các trang web về, xử lý, lưu trữ và
đồng thời lập ra đồ thị web cục bộ. Phương pháp duyệt là duyệt theo chiều rộng, mỗi
tầng của cây duyệt được coi là 1 vòng. Cứ sau một thời gian định trước, các trang web
này sẽ được cập nhật lại tuỳ theo tốc độ thay đổi của trang.
Với ứng dụng GoMobile của TMS [dowload tại: ] các bạn
khi sử dụng sẽ thấy muôn vàn các ứng dụng khác nhau, từ Đọc báo, đến xem Thời
tiết, Bói toán - tử vi, xem ngày tốt xấu, xổ số Rồi thì như Socbay hay là
Imedia Lấy ví dụ về ứng dụng Đọc báo, ta sẽ thấy trong nó có rất nhiều các loại báo
khác nhau, từ Dân Trí, Vnexpress, Kênh 14, Hoa học trò Điều đáng nói ở đây là họ
sẽ phải bắt tay với tất cả các báo để được “ban phát cho một kênh” chọc vào
database của họ, truy vấn để có được nội dung thông tin từng ngày thì sẽ phải trả một
khoản tiền rất chi là lớn, và có thể, chưa chắc đã được các Báo đó hợp tác. Vậy thì cần
phải có 1 webbot, một ứng dụng tự động chuyên lấy nội dung của các trang, thu thập
về, xử lý bóc tách và lưu trữ các thông tin cần thiết.
/ *
* Ví dụ về 1 webbot có khả năng lấy nội dung thông tin trang web qua
phương pháp crawler.
*/
private static void crawlerDanTri() {
String url = " />HTMLParser parser = new HTMLParser();
parser.loadURL(url);
String html = parser.getHtml();
parser.filter("div","class:content");
parser.setHtml(parser.getNodeAt(0).getHtml());
parser.filter(new HTMLNodeFilter());
parser.exclude("form", null);
SimpleHtmlOption option = new SimpleHtmlOption();
option.setBaseUrl("");
option.setTdStartMark(" | ");
System.out.println(parser.getNodeAt(0).getSimpleHtml(option));

}
Nếu bạn đủ sức có thể huy động, triệu tập được hàng trăm, hàng ngàn máy tính
theo sự chỉ đạo của bạn làm việc đồng thời cùng lúc, vậy là bạn đã đủ sức tấn công
được Vnexpress rồi đó :D.
[ Nhớ rằng: “Từ thiên tài có thể trở thành tội phạm chỉ bởi một cái click chuột.” ]
11 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Lấy danh sách các tin từ trang chủ:
/*
* Lay danh sach cac tin
*/
private static void crawlerVnepress() {
String url = " />HTMLParser parser = new HTMLParser();
parser.loadURL(url);
parser.filter("a", "class:link-title");
for (int i = 0; i < parser.getNumberOfNodes(); ++i) {
HTMLNode node = parser.getNodeAt(i);
System.out.println(node.getInnerText();
}
}
 Indexing: Với mỗi trang web được tải về thì trang web đó sẽ được tách ra các thành
phần (tokenizing) mà điển hình là tách từ sau đó được đánh chỉ mục (Indexing) theo
mô hình chỉ số ngược (cái này là phổ biến nhất).
 Searching: Đây là quá trình tìm kiếm theo câu hỏi người dùng nhập vào. Và việc tìm
kiếm sẽ là trên bảng Index của bước Indexing. Các trang web được lưu chỉ phục vụ
vấn đề cache.
Các bước trên về cơ bản là các máy tìm kiếm đều giống nhau, tuy nhiên mỗi máy
tìm kiếm sẽ triển khai theo thuật toán cụ thể riêng. Chỉ có khi trả kết quả về thì mới
thể hiện sức mạnh của mỗi máy tìm kiếm, theo đó máy tìm kiếm tốt hơn nếu tốc độ
nhanh hơn và trả lời chính xác hơn (trang web trả về có độ liện hệ với câu hỏi người

dùng cao hơn). Điều này liên quan tới thuật toán PageRank tức là xếp hạng trang
web sẽ được nói ở phần cuối.
2.3. Khai phá sử dụng Web
Liên quan tới khám phá các mẫu truy cập của người dùng từ bản ghi sử dụng
Web, trong đó lưu lại mỗi lần thao tác click(click mouse) của mỗi người sử
dung.khai phá sử dụng Web áp dụng nhiều thuật toán khai phá dữ liệu. .một trong
các vấn đề chính của khai phá sử dụng web là tiền xử lý dữ liệu trong click chuột
trong viêc sử dụng các bản ghi để tạo ra các dữ liệu phù hợp để khai phá.
Câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng nhập và
khi không đăng nhập? Đến đây có lẽ chúng ta đã có thể hình dung được câu trả lời.
Câu trả lời ngắn gọn là: Khi bạn đăng nhập, thì Google sẽ biết bạn là ai, biết hành vi
12 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của
bạn trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả
trả về bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược
lại, khi không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không
có kèm theo tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá
khứ của bạn, Google phải sử dụng đến các công nghệ web mining.
2.4. Tóm lược
 Web structure mining: cố gắng khám phá tri thức hữu dụng từ cấu trúc của các
liên kết giữa các trang web (hyperlink).
 Web content mining: hướng tới tách và khai phá thông tin và tri thức hữu dụng
từ nội dung trang web.
 Web usage mining: tập trung khám phá các mẫu truy nhập của người sử dung
từ file nhật ký sử dụng web của người dùng.
III. Sự phát triển Search Engine của Google.
1.1. Giới thiệu.
Search Engine luôn là một ứng dụng quan trọng. Thực tế cho thấy có rất nhiều
Search Engine đã và đang được xây dụng, chúng đóng vài trò quan trọng không chỉ ở

Search Engine của Google mà cả ở các Search Engine của AOL, đại gia Yahoo,
MSN và vô số các Intranet Search Engine ở các trường học, công ty hay tổ chức
Ngoài ra còn có các Search Engine được tích hợp trong các phần mềm.
Vấn đề hiện nay là đa số các Search Engine hiện có đều thuộc loại keyword
Search Engine. Cơ chế của chúng là định kì duyệt web để phát hiện ra những sự thay
đổi, rồi lập chỉ mục những thay đổi này. Người sử dụng có thể tạo ra các câu truy vấn
gồm các từ khóa trên các chỉ mục đó để nhận xét về kết quả mong muốn. Tuy nhiên,
phương pháp này thường gặp hai vấn đề chính sau đây:
 Một từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh và Search
Engine không thể hiện mối quan hệ giữa các từ khóa với nhau.
 Các trang web có cùng ý nghĩa với câu truy vấn của người sử dụng sẽ không tồn
tại trong kết qủa trả về.
13 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Ví dụ: ta cần tìm thông tin về người trưởng bộ môn CNTT của MIT, ta gõ: “MIT
computer sciense chair” vào google, nhưng kết quả trả về lại không được chính xác
hoàn toàn. Nguyên nhân của việc tìm kiếm thất bại là do keyword : MIT, computer
sciene và chair. Nếu Search Engine được tích hợp tri thức để hiểu được ý nghĩa của
các từ, thì rất có thể nó sẽ cho ta kết quả chính xác hơn, lúc đó việc tìm kiếm sẽ dựa
trên khái niệm (concept) chứ không phải theo từ khóa (keyword).
14 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Ví dụ trên là một trong rất nhiều trường hợp người dùng thực hiện việc tìm kiếm
không phải để tìm thông tin chi tiết mà là để tìm các thông tin liên quan hay các
phạm trù, lĩnh vực liên quan. Đôi khi ngay cả suggestion của Google cũng đi lệch lạc
với ý tưởng của người tìm kiếm.
Tìm kiếm thông tin của các hang động mùa du lịch
15 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
1.2. So sánh Search Engine truyền thống (keyword - text Search

Engine) và Semantic Search Engine.
1.2.1. Search Engine truyền thống (keyword - text Search Engine).
Không thể tìm ra các tài nguyên hiệu quả và thích hợp vì:
 Những tài liệu người dùng muốn tìm có thể sử dụng những thuật ngữ khác (hay
những từ đồng nghĩa khác nhau).
 Những lỗi chính tả và các biến thể của từ ngữ được xem là những thuật ngữ khác
nhau đối với môi trường máy tính. Ví dụ, “psoriasis” (đúng chính tả) và
“psoriaissis” (lỗi in ấn) được cho là khác nhau, tương tự, “anaemia” (đúng chính
tả với tiếng Anh) và “anemia” (đúng chính tả với tiếng Mỹ) cũng được xem là
khác nhau.
 Search Engine không thể xử lý các trang HTML một cách thông minh. Ví dụ, việc
tìm kiếm các tài nguyên về “psoriasis” (bệnh vảy nến) sẽ lấy tất cả các tài liệu có
chứa từ này. Tuy nhiên, đa số các tài liệu đều không thích hợp/liên quan. Nghĩa là,
“psoriasis” trong các tài liệu này đề cập đến “psoriasis” ở những câu “see also:
psoriasis”. Hiểu rằng là tại đâu đó đáy trang (hay tại một phần nào đó của trang)
có đề cập đến những bệnh có triệu chứng tương tự.
1.2.2. Semantic Search Engine.
Semantic Search Engine sẽ đáp ứng hầu hết mọi mong đợi của người dùng, nó
mạng lại:
 Một viễn cảnh về lĩnh vực tri thức (knowledge domain) tốt hơn.
 Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu.
 Thông tin tìm kiếm được trả về chính xác và phù hợp (tìm ra những tài liệu mà ta
không thể tìm thấy nếy dùng các Search Engine truyền thống).
Semantic Search Engine có những ưu điểm như trên là do nó kế thừa những ưu
điểm của công nghệ Semantic web:
 Cách thức tổ chức dữ liệu theo hướng đối tượng (Các Knowledge Base: gồm các
Ontology và tập các instance tương ứng. Trong tương lai, nếu các Knowledge
Base được tổ chức tốt và được liên kết với nhau nhiều hơn, các Semantic Search
Engine sẽ có khả nẳg hỗ trợ tìm kiếm nhiều lĩnh vực, nhiều file format, đa ngôn
ngữ, với độ chính xác cao.

16 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
 Được sử hỗ trợ to lớn từ các Agent tự động. Các agent này hỗ trợ Semantic Search
Engine trong việc thi hành các dịch vụ tự động như duyệt thông tin, đánh giá
thông tin, tông hợp thông tin, lập các bảng dữ liệu (thống kê, đánh giá, báo cáo),
ghi nhận sở thích cả nhân, crawling và rất nhiều dịch vụ thông minh khác nhằm hỗ
trợ tối đa và tốt nhất đối với yêu cầu người dùng.
 Hiểu ngữ nghĩa của những từ mà người dùng muốn tìm (ngữ nghĩa của các từ sẽ
được mô tả trong bộ Ontology tương ứng trong từng lĩnh vực).
IV. Thuật toán Page Rank.
a. Tổng quan.
Page Rank được trình bày và xuất bản bởi Sergey Brin và Larry Page tại hội thảo
quốc tế lần thứ 7 về WWW tháng 4 năm 1998. Đây là thuật toán xếp hạng tìm kiếm
sử dụng hyperlink trên web. Dựa vào thuật toán, họ xây dựng search engine nổi
tiếng Google. PageRank dựa trên xếp hạng thống kê của trang web theo hướng giá trị
PageRank được tính offline và không phụ thuộc vào yêu cầu tìm kiếm. PageRank là
một giá trị quan trọng để đánh giá trang web (bên cạnh một số tiêu chí khác mà
Google không công bố).
b. Các khái niệm
Pagerank là một chỉ số quan trọng để so sánh tầm quan trọng giữa các website,
chính xác hơn là giữa các Page. Mỗi lần Googe Update Pagerank (thường là 3 tháng)
cho các site hay hạ bậc Pagerank của website nào đó. Với mục đích cùng hiểu rõ hơn
về pagerank, xin đưa ra những điều mình biết về Google Pagerank để mọi người
thảo luận.
 Pagerank là một trong những công cụ Google đưa ra để đánh giá tầm quan trọng
của một website.
 Google coi 1 link từ trang A tới trang B là một vote của trang A cho trang B. Tuy
nhiên Google coi mỗi một vote có trọng số khác nhau phụ thuộc vào rất nhiều rất
nhiều yếu tố khác nhau của trang A.
 PageRank được xây dựng dựa trên các liên kết tới trang đó (incoming links), và

được tổng hợp từ các yếu tố gồm số lượng liên kết, chất lượng và tính liên quan.
17 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
In-links của trang A (liên kết vào của trang A): Là các hyperLink trỏ tới trang A từ
một trang khác. Các liên kết trong cùng một site sẽ không được xem xét đến.
Out-links của trang A (liên kết ra của trang A): Là các hyperLink trỏ ra các trang
khác từ trang A. Thông thường các liên kết tới các trang trong cùng một site sẽ không
được xem xét.
Giá trị PageRank là cơ sở thước đo prestige cho mạng xã hội, từ quan điểm của uy
tín, chúng ta sử dụng 2 luận điểm sau để xây dựng giải thuật PageRank:
1) Một hyperlink từ một trang web trỏ tới một trang khác là một truyền đạt ngầm
định của việc ủy nhiểm đến trang mục tiêu. Vì thế mà các In-link mà một trang A
nhận được là các prestige mà trang A có.
2) Trang web trỏ tới trang A cũng sẽ có các điểm prestige của riêng họ. Một trang
mà có điểm prestige cao trỏ tới trang A sẽ là quan trọng hơn so với một trang mà
có điểm prestige thấp. Nói cách khác, một trang sẽ được coi là quan trọng nếu nó
được trỏ bởi các trang quan trọng khác.
18 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Công thức tính PageRank:
PR(A) = (1-d) + d{PR(T
1
)/C(T
1
) + … + PR(Tn)/C(Tn)}.
Trong đó:
 PR(A) là Pagerank của trang A.
 T1, T2 Tn là các trang liên kết tới trang A.
 C là số link ra bên ngoài (outbound / outgoing links) của trang nguồn T1, T2 Tn
đó.

 d là hệ số suy giảm (hệ số tắt dần của chuỗi), d được xem là hằng số. Thông
thường hằng số có giá trị là 0.85 (hằng số này có thể thay đổi bởi quy định của
Google).
Ví dụ:
• Page A của bạn có 3 trang: B, C, D.
• PageRank của B, C, D lần lượt là: page B (PR=6) , page C (PR=3) và page
D (PR = 4).
• Link tới Page B có 3 link dẫn ra ngoài. Page C có 6 link dẫn ra ngoài. Page
D có 12 link dẫn ra ngoài.
• Vậy PageRank của A được tính:
PR(A) = 0.15 + 0.85*( 6/3 + 3/6 + 4/12) =2 (xấp xỉ).
Chẳng hạn nếu bạn liên kết với một site PR =7,8 gì đó và site đó chỉ có 1 link
outbound dẫn đến bài viết trên website bạn. Quá tuyệt, có thể bạn sẽ được PR = 6,7.
Tuy nhiên nếu một site PR=8 mà bán text link cho hàng trăm link thì cũng đừng có
vội mừng mà lao vào mua Ads Text với giá cao.
Pagerank được xếp hạng cho từng trang cụ thể chứ không phải cho cả site. Mỗi
link liên kết đến đều đóng góp một phần nhất định trong tính toán ra Pagerank nói
chung, trừ các link hỏng hoặc từ các site đã bị down, bị banned. Mặc dù được quy
tròn theo các bậc chẵn từ 0-10 khi hiển thị, tuy nhiên PR thực sự là một số thực có
phần lẻ và bạn phải tích cóp dần từng điểm để nâng thứ hạng của mình. Đây là một
quá trình đòi hỏi nỗ lực lớn. Google thường update PR theo quí, vì vậy đừng quá nôn
nóng sốt ruột, hãy tập trung phát triển nội dung và quảng bá website một cách tốt
nhất có thể mới tăng PageRank lên được.
19 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Thuật toán:
Với N trang web {A1, A2, A3, , An}
PageRank – Iterate (G)
P
0

← e/N
K ← 1
Repeat
P
k
← (1-d)e + dA
T
P
K ← k+1
Until ||P
k
– P
k-1
|| < ε
Return P
k
Trong đó: e thường được chọn là 1, d được chọn là
0,85
và ε có giá trị rất nhỏ [0.03].
Minh họa cho thuật toán:
Ta có 4 site được phân bổ và liên kết với nhau như hình vẽ.
Bước 1: PR trung bình = 1/N =1/4= 0.25
Bước 2:Tính PR theo công thức:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)).
20 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Tính lần thứ 1:
PR(A)= 0.25. Lần lượt tính toán PageRank của các site B, C, D.
PR(D) = 0.15 + 0.85*(0) = 0.15 (không có site nào liên kết đến cả).
PR(B) = 0.15 + 0.85*(0.25/2) = 0.256 (có site A liên kết đến và site A có 2 link

outbound / outgoing links).
PR(C) = 0.15 + 0.85*(0.25/2+0.256/1+0.15/1) = 0.6013 (có 3 site A, B, D liên kết
đến).
Tính lần thứ 2:
PR(A)= 0.15 + 0.85*(0.6013/1) = 0.4055
PR(B) = 0.15 + 0.85*(0.4055/2) = 0.322
PR(C) = 0 15 + 0 85*(0.4055/2 + 0.322/1 + 0.15/1) = 0.7235
Tính lần thứ 3:
PR(A)= 0.15 + 0.85 *(0.7235/1) = 0.7649
PR(B) = 0.15 + 0.85*(0.7649/2) = 0.4751
PR(C) = 0.15+ 0.85*(0.7649/2 + 0.751/1 + 0.15) = 1.0075
Tính lần 4:
PR(A)= 0.15 + 0.85*(1.0075/1) = 1.0063
PR(B) = 0.15 + 0.85*(1.0063/2) = 0.5777
PR(C) = 0.15+ 0.85 *(1.0063/2+0.5777/1+0.15) = 1.1962
Tính lần 5:
PR(A)= 0.15 + 0.85*(1.1962/1) = 1.1668
PR(B) = 0.15 + 0.85*(1.1668/2) = 0.66458
PR(C) = 0 15+ 0 85 *(1 1668/0 6645/1+0 15) = 1 338
Tính lần 6:
PR(A)= 0.15 + 0.85*(1.338/1) = 1.2875
PR(B) = 0.15 + 0.85*(1.2875/2) = 0.6972
PR(C) = 0.15+ 0.85 * (1.2875/2+0.6972/1 + 0.15) = 1.490
21 | P a g e
Data mining – webmining – Search Engine. Lê Công Linh - CNPM1.
Tính lần 7:
PR(A)= 0.15 + 0.85*(1.490/1) = 1.4165
PR(B) = 0.15 + 0.85*(1.4165/2) = 0.752
PR(C) = 0.15+ 0.85 *(1.4165/2+0.752/1+0.15) = 1.5178
Tính lần 8:

PR(A)= 0.15 + 0.85*(1.5178/1) = 1.4409
PR(B) = 0.15 + 0.85*(1.4409/2) = 0.7623
PR(C) = 0 15+ 0 85 *(1.4409/2 + 0.7623/1+0.15) = 1.5378
Ta có ở lần thứ 8 này:
|| P
k + 1
-

P
k
|| được tính:
|| PR(A)
8
– PR(A)
7
|| = 1.4409 – 1.4165 = 0.0244.
|| PR(B)
8
– PR(B)
7
|| = 0.7623– 0.752 = 0.0103
|| PR(C)
8
– PR(C)
7
|| = 1.5378– 1.5178 = 0.02.
Như vậy giá trị || P
k + 1
-


P
k
|| tính được thỏa mãn || P
k + 1
-

P
k
|| < ε (= 0.03)
Bước 3: return P
8
(kết thúc quá trình tính PageRank).
* Hyperlink lúc được xem là liên kết ngoài (hay liên kết vượt ngoại còn nếu thích
Hán việt thì dùng ngoại liên kết, lúc được coi là siêu liên kết. Định nghĩa trong Anh
ngữ là: A link in a given document to information within another document. These
22 | P a g e

×