Tải bản đầy đủ (.pdf) (14 trang)

phân loại và đánh giá mối liên kết giữa các trang web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (857 KB, 14 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN
KHOA CÔNG NGHỆ THÔNG TIN

CÔNG TRÌNH DỰ THI
GIẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC”
NĂM 2014

ĐỀ TÀI: PHÂN LOẠI VÀ ĐÁNH GIÁ
MỐI LIÊN KẾT GIỮA CÁC TRANG WEB

Sinh viên thực hiện :

Giảng viên hướng dẫn :

Đỗ Văn Phong

PGS.TS. Nguyễn Việt Hà
Giảng viên đồng hướng dẫn:
ThS. Vũ Quang Dũng


Lời mở đầu
Ngày nay, khi mà dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu
tài chính, và các dữ liệu tiếp thị ngày càng trở nên nhiều và phức tạp. Con người
không có đủ thời gian để xem xét dữ liệu như vậy. Nhu cầu về việc tiết kiệm thời
gian cho thu thập thông tin có ích được đặt ra,cũng dẫn đến nhu cầu về một hệ
thống có khả năng phân tích trích xuất ra những thông tin hữu ích theo chủ đề đối
với từng người dùng riêng biệt.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó,
tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động
chỉ dẫn các dị thường.



2


Mục lục
Lời mở đầu ....................................................................................................................2
1.

Bài toán đặt ra................................................................................................ Error! B

2.

Giải quyết bài toán ........................................................................................6
2.1.

Mô hình tổng quát ................................................................................. 6

2.2.

Cơ sở lý thuyết ...................................................................................... 6
Thuật toán IEPAD.............................................................................. 7

2.2.1.

2.3.
Trích xuất phân tích mối liên kết giữa các trang web .................. Error!
Bookmark not defined.
2.3.1.

Xây dựng cây liên hệ ban đầu từ một trang web đầu vào .............. 8


2.3.2.

Xây dựng ma trận liên quan và tính trọng số ................................. 9

2.4.

Trích xuất luật cấu trúc trang web ....... Error! Bookmark not defined.

2.4.1.

Tạo bộ sinh luật ............................ Error! Bookmark not defined.

2.4.2.
defined.

Sử dụng bộ sinh luật để rút gọn cây liên hệ Error! Bookmark not

Kết luận .........................................................................................................Error! B

3.
3.1.

Kết quả đạt được và hạn chế ............................................................... 11

3.2.

Hướng phát triển.................................................................................. 12

Tài liệu tham khảo .........................................................................................................14


3


Danh sách hình vẽ
Hình 1: Mô hình tổng quan hệ thống .................................................................... 6
Hình 2 : Authorities và Hubs ................................................................................ 7
Hình 3 : Sơ đồ thuật toán IEPAD .......................................................................... 8
Hình 4 : Ví dụ về liên kết trang web ..................................................................... 9
Hình 5: Ví dụ về mối quan hệ các trang.............................................................. 10
Hình 6: Ví dụ về mối quan hệ các trang.............................................................. 10
Hình 7: Đồ thị quan hệ ban đầu .......................................................................... 11
Hình 8: Đồ thị quan hệ sau khi rút gọn ............................................................... 12

4


1. Đặt vấn đề
Hiện nay, các trang báo mạng trở lên phổ biến đa dạng và phong phú cả về nội
dung lẫn hình thức. Người dùng sẽ có nhu cầu thu thập thông tin một cách chọn lọc
vậy nên nhu cầu tiết kiệm thời gian, công sức cho việc thu thập những thông tin có
ích cũng được phát sinh. Vì vậy tôi muốn xây dựng một hệ thống có thể hỗ trợ
người dùng thu thập những bài báo liên quan tới chủ đề mà họ đang đọc.
Tuy nhiên các thông tin trên các trang web theo những cấu trúc rất khác nhau
nguồn dữ liệu được tổ chức rất phong phú và phức tạp. Vậy để đáp ứng được nhu
cầu thu thập và xử lý dữ liệu chúng ta sẽ tập trung vào trích xuất dữ liệu từ những
trang web có cấu trúc tương đồng và dùng nó để xây dựng đồ thị quan hệ giữa các
trang web. Kết quả cuối cùng là một cây quan hệ thể hiện mối quan hệ tương đồng
giữa các trang web khác nhau đối với trang web đầu vào.
Các nội dung chính của bài toán như sau:

- Phân tích liên kết giữa các bài viết trong các trang web dựa trên việc tìm
kiếm những link liên quan tới chính bài viết đó.
- Lọc và loại bỏ bớt những link ít liên quan hơn tới bài viết ban đầu.
- Trích xuất ra luật cấu trúc của bài báo ban đầu và so sánh nó với các bài báo
trong cây quan hệ để tìm ra điểm tương đồng và điểm đặc trưng cho mỗi
trang báo.

Trong đó:
- Cây quan hệ :
o Là mạng lưới thể hiện sự quan hệ giữa các bài báo, những bài báo có liên quan tới
nhau là những bài báo cùng có liên quan tới các keyword đặc trưng của phân lớp
mà bài báo đó thuộc vào. Một bài báo có thể thuộc nhiều phân lớp.
o Mạng lưới quan hệ có thể được rút gọn dần dần bằng việc loại bỏ dần đi các bài báo
không có mối quan hệ với nhau.
- Luật cấu trúc:
o Là các quy tắc của cấu trúc trang web mà từ bộ luật đó ta có thể biết được vị trí các
layout chứa nội dung chính nằm ở đâu cũng như các layout khác. Từ bộ luật ta có
thể dùng để so sánh các trang web vơi nhau để kiểm tra sự tương đồng về cấu trúc
tạo thuận lợi để trích xuất dữ liệu.

5


2. Giải quyết vấn đề
2.1.

Mô hình tổng quát

Sơ đồ tổng quan của hệ thống:


Hình 1: Mô hình tổng quan hệ thống

2.2.

Cơ sở lý thuyết

2.2.1. Thuật toán HITS
Đây là thuật toán được tôi sử dụng trong việc tìm ra mối liên hệ giữa các trang
web và dùng để xây dựng nên mạng lưới quan hệ ở mức ban đầu.
HITS [3] – Hypertext Include Topic Seclection, thuật toán HITS là một thuật
toán phân tích liên kết mà đánh giá ở mức các trang web, được phát triển bởi Jon
Kleingberg. Đây là một tiền thân của PageRank. Ý tưởng bắt nguồn từ một cái nhìn
tổng quan vào các trang web trên Internet ban đầu được hình thành, đó là tập hợp
các trang web nào đó, được gọi là hub, đáp ứng các chỉ mục lớn nhưng nó không có
những thông tin đó mà nó được sử dụng như tài liệu sưu tập của các danh mục lớn.
Để có được các thông tin người sử dụng trực tiếp truy cập vào các chỉ mục đó để
dấn tới các trang web có chứa thông tin. Nói cách khác, một hub tốt đại diện cho
một trang trỏ tới nhiều trang khác, và một authority tốt đại diện cho một trang mà
được liên kết bởi các hub khác nhau.

6


Thuật toán HITS là một trong những thuật toán trích xuất chủ đề nổi tiếng. Đưa
ra một tập các trang web về một chủ đề khoa học, thuật toán HITS tính toán số
điểm authority (đó là biểu thị cho nội dung liên quan) và số điểm hub (một biểu thị
cho liên kết liên quan) cho mỗi trang web. Việc tính toán được thực hiện như sau,
trong đó q → p ký hiệu trang q có một liên kết trỏ đến trang p.
𝑎 (𝑝 ) = ∑ ℎ (𝑞 )


ℎ (𝑞 ) = ∑ 𝑎 (𝑝 )

𝑞→𝑝

𝑞→𝑝

Ví dụ về cách tính a(p) và h(q) được biểu diễn trên Hình 3:

Hình 2 : Authorities và Hubs

2.2.2. Thuật toán IEPAD
Trọng tâm của việc giải quyết bài toán trích xuất luật chính là thuật toán
IEPAD. Thuật toán này cho phép nhận một trang web đầu vào và đưa ra bộ
luật của trang web đó chính là trật tự, cấu trúc sắp xếp của các layout trong
trang web đó.
Một hệ thống iepad bao gồm 3 thành phần:
-

extraction rule generator: Nhận đầu vào là một webpage và trích xuất ra
các luật trong webpage đó.
pattern viewer: giao diện đồ họa cho người sử dụng.
extractor module: trích xuất ra những thông tin mong muốn từ những
webpage tương tự khác.

7


Trọng tâm chính của công nghệ này chính là extraction rule generator

Hình 3 : Sơ đồ thuật toán IEPAD


Kết quả trả về của bộ extraction rule Generator này là một bộ luật được trích
xuất ra từ webpage đầu vào.
Khi người dùng submit một webpage html vào IEPAD bộ translator sẽ
chuyển mã của webpage này thành một file nhị phân. Từ file nhị phân này PART
Tree Contructor sẽ tạo lên một cây PAT.Bộ khai phá ra cấu trúc sẽ dựa vào cây
PAT này để tìm ra những cấu trúc lặp lại được gọi là maximal repeats. Maximal
repeats sẽ được chuyển cho bộ Validator để lọc bỏ những cấu trúc không cần
thiết. Cuối cùng Rule Composer sẽ lọc lại những luật đó và tổng hợp để đưa ra kết
quả cuối cùng.

2.3.

Chi tiết hệ thống

2.3.1. Xây dựng cây liên hệ ban đầu từ một trang web đầu vào
Để xây dựng được cây ban đầu tôi sẽ sử dụng kết quả đã được nêu ra trong [6],
đây chính là phương pháp trích xuất các mối liên hệ giữa các trang web dựa vào
các link có trong bài viết.
Phương pháp đó sẽ tìm và lấy tất cả các liên kết từ trang web đầu vào.

8


Ví dụ về link liên quan:

Hình 4 : Ví dụ về liên kết trang web

Như hình trên các bạn có thể thấy phần trong khung đen chính là các liên kết đến
các trang khác.

Các trang có quan hệ được định nghĩa là các trang có link liên kết tới nhau.
Từ mối liên hệ được tìm nhờ [6] đó ta sẽ tiến hành xây dựng nên một cây diễn tả
mối liên hệ giữa các trang web khác đối với trang web đầu vào.

2.3.2. Xây dựng ma trận liên quan và tính trọng số
Ở phần này tôi sẽ sử dụng thuật toán HITS để giải quyết vấn đề, ý tưởng chính
của phương pháp này là sử dụng chính các mối quan hệ giữa các trang web để nói
lên độ liên quan của từng trang web. Các trang web được trỏ tới càng nhiều thì có
độ tin cậy càng cao.

9


Ví dụ về các trang web có độ tin cậy cao đối với từ khóa là “CAR ranking”:

Hình 5: Ví dụ về mối quan hệ các trang

Tương tự như vậy từ đồ thị đã được xây dựng trong bước trước tôi sẽ tiến hành
đánh giá và kiểm tra các mức độ liên kết giữa các trang web trong đó. Để đơn giản
tôi dưa ra một ví dụ minh họa cho việc tính độ tin cậy của trang web trong một đồ
thị liên hệ hết sức đơn giản.
Ví dụ về đồ thị:

Hình 6: Ví dụ về mối quan hệ các trang

Đối với một đồ thị đơn giản như trên ta sẽ xây dựng được một ma trận thể hiện
mối quan hệ tương ứng như sau:

Với ma trận trên ta sẽ đi tìm những vector trọng số theo thuật toán HITS như
sau:

10


Trong ví dụ này thì vector v thể hiện trọng số của mỗi node chính là vector cho
biết mức độ liên quan của node đối với trang web đầu vào (điểm càng cao độ liên
quan càng lớn).
Sau đó sẽ tiến hành loại bỏ đi các node có điểm thấp để thu được một cây có các
node quan hệ với nhau ở mức độ chặt chẽ hơn.

2.4.

Kết quả đạt được và hạn chế

2.4.1. Kết quả đạt được
- Hệ thống đã bước đầu xây dựng được mô hình cây quan hệ. Từ trang
web đầu vào hệ thống tiến hành bóc tách ra các link liên quan và xây
dựng lên cây quan hệ. Mối quan hệ được diễn ta tới tầng thứ ba, tức là
tới node con của con trang web đầu vào.
Cây ban đầu xây dựng là mô phỏng lại các liên kết giữa các trang web
ở mức sơ lược. Trong cây này vẫn còn nhiều các trang web có mức độ
liên quan tới trang web đầu vào ở mức thấp. Mối liên quan ở đây mới
chỉ thể hiện ở việc một bài viết có link tới bài viết khác hay không.

Hình 7: Đồ thị quan hệ ban đầu

11


- Từ cây quan hệ đó, hệ thống đã sử dụng thuật toán HITS để xây dựng
lên ma trận quan hệ, sau đó dựa vào ma trận quan hệ để tính trọng số và

cuối cùng thu được một cây nhỏ hơn chính xác hơn.
Cây sau khi làm mịn đã được thu nhỏ hơn mức độ tương quan với nhau
đã được nâng cao nhờ thuật toán trích xuất chủ đề HITS.

Hình 8: Đồ thị quan hệ sau khi rút gọn

2.4.2. Hạn chế
- Các node trong cây còn chứa các trang index, chưa phân biệt được các
trang index và trang thường.
- Hệ thống chưa trích xuất được nội dung bài báo để phân tích mức độ
liên quan trực tiếp từ nội dung bài báo.

Hướng phát triển

2.5.
-

Hoàn thành việc cài đặt thuật toán IEPAD để trích xuất luật cấu trúc.

-

Từ thuật toán IEPAD tiến hành bóc tách nội dung và phân biệt trang
index cũng như phân biệt các loại báo điện tử khác nhau.

12


2.6.

Kết luận


Mặc dù hệ thống đang trong quá trình hoàn thiện nhưng ta có thể thấy ứng
dụng thiết thực của nó vào trong đời sống hàng ngày. Với cách cài đặt đơn giản thì
chúng ta sẽ có thể ứng dụng vào trong các ứng dụng nhỏ trên mobile như ứng dụng
đọc báo và xem tin tức. Hệ thống có thể mở rộng và phát triển để trở thành hệ
thống back-end trong các ứng dụng lớn hơn có ứng dụng cụ thể vào đời sống.

13


Tài liệu tham khảo
[1] Data-rich Section Extraction from HTML pages - Jiying Wang và Fred H.
Lochovsky
[2] B. T. Hiển, “Hệ thống phân loại và đánh chỉ mục dữ liệu web,” Khóa luận tốt
nghiệp đại học hệ chính quy, 2013.
[3] H. Q. Thụy, Giáo trình Khai phá dữ liệu Web, Giáo Dục Việt Nam.
[4] IEPAD: Information Extraction Based on Pattern Discovery - ChiaHui
Chang và ShaoChen Lui
[5] />[6] Trương Văn Hưng, “PHÂN TÍCH VÀ TRÍCH XUẤT WEB LAYOUT”
công trình dự thi giải thưởng “sinh viên nghiên cứu khoa học” 2014.

14



×