Tải bản đầy đủ (.pdf) (57 trang)

0 chương 8 du doan lien ket

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.52 MB, 57 trang )

Chương 7:
DỰ ĐOÁN LIÊN KẾT (LINK PREDICTION)

1


NỘI DUNG
I. Dự đoán liên kết dựa vào độ tương đồng
II. Dự đốn liên kết tích cực và ko tích cực trong
Mạng Xã Hội trực tuyến

2


Link Prediction

Will nodes 33 and
28 become friends
in the future?

What about
nodes 27 and 4?

Does network structure
contain enough
information to predict
what new links will
form in the future?


Who to follow




Strength of social ties (review)
• Strong ties
– surrounded by many mutual friends
– characterized by lots of shared time together
• Weak ties
– have few mutual friends
– Serve as bridges to diverse parts of the network
– Provide access to novel information


The Link-Prediction Problem for Social Networks
(Liben-Nowell & Kleinberg)
To what extent can the evolution of a social network be
modeled using features intrinsic to the network itself?
• Formalize the link prediction problem
– Given a snapshot of a network, infer which new
interactions between nodes are likely to occur in the
future
• Propose link prediction heuristics based on measures for
analyzing the “proximity” of nodes in a network.
• Evaluate link prediction heuristics on large coauthorship
networks. Future coauthorships can be extracted from
network topology.


The intuition
• In many networks, people who are “close” belong to the same
social circles and will inevitably encounter one another and

become linked themselves.
• Link prediction heuristics measure how “close” people are
x

x

y

y

Red nodes are close to each other

Red nodes are more distant


NỘI DUNG
I. Dự đoán liên kết dựa vào độ tương đồng

8


Link prediction heuristics
• Local
x







Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA) …

• Global
y

• Katz score
• Hitting time
• PageRank …


NỘI DUNG
v Dự đoán liên kết dựa vào độ tương đồng
Ø Các độ tương đồng cục bộ

10


Các độ tương đồng cục bộ
v Chỉ ra sự tương đồng giữa hai đỉnh của đồ
thị mạng dựa vào các tính chất chung của
hai đỉnh đó mà chưa có sự tương đồng của
các đỉnh liên kết với chúng.
v Có 10 thuật toán độ tương đồng cục bộ

11



Local link prediction heuristics
•Link prediction heuristics
– Common neighbors (CN)
x

y

CN  3

• Neighborhood overlap










Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên

(RA)


Ví dụ

Kết luận: Khả năng hình thành các mối quan hệ khi có bạn chung
13


Local link prediction heuristics
• Link prediction heuristics
x

– Common neighbors (CN)
– Jaccard (JC)
• Fraction of common neighbors

y

CN
JC 
dx  dy  CN



Trong đó: dx là bậc của đỉnh x
dy là bậc của đỉnh y

– Adamic-Adar (AA)
– Preferential attachment (PA)

– …


Link prediction heuristics
•Link prediction heuristics
x

y

AA 



zCN

1
log d z

Trong đó: dx/kx là bậc của đỉnh x
dy/ky là bậc của đỉnh y

– Common neighbors (CN)
– Jaccard (JC)
– Adamic-Adar (AA)
• Nmbr common neighbors,
with each neighbor z
attenuated by log of its
degree

– Preferential attachment (PA)

– …


Local link prediction heuristics
•Link prediction heuristics
x

y

PA  d x d y

Trong đó: dx/kx là bậc của đỉnh x
dy/ky là bậc của đỉnh y






Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
• Better connected nodes are
more likely to form more links



Local link prediction heuristics
•Link prediction heuristics

x

y

Trong đó: dx/kx là bậc của đỉnh x
dy/ky là bậc của đỉnh y











Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên
(RA)



Local link prediction heuristics
•Link prediction heuristics
x

y

Độ đo này được sử dụng chính trong
việc nghiên cứu các mạng cộng đồng
sinh học.











Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman

(LHN1)
– Độ đo phân phối tài nguyên
(RA)


Local link prediction heuristics
•Link prediction heuristics
x

y

Ø Xác định các hình thái trùng lặp
trong các cặp chất gốc trong mạng
trao đổi chất











Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton

Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên
(RA)


Local link prediction heuristics
•Link prediction heuristics
x

y

Ø Chúng ta có một độ đo ngược lại
với nó là độ đo HDI











Common neighbors (CN)
Jaccard (JC)

Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên
(RA)


Local link prediction heuristics
•Link prediction heuristics
x

y

Ø Độ đo này tính độ tương tự cao cho
cặp đỉnh bằng việc so sánh số bạn
chung so với kỳ vọng số bạn chung
có thể.












Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên
(RA)


Local link prediction heuristics
•Link prediction heuristics
x

y

Ø Độ đo này là đối xứng Sxy = Syx.
Mặc dù kết quả là khác nhau từ
những các cách tiếp cận khác nhau
nhưng hai độ đo RA và AA rất
giống nhau.












Common neighbors (CN)
Jaccard (JC)
Adamic-Adar (AA)
Preferential attachment (PA)
Salton
Sørensen
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman
(LHN1)
– Độ đo phân phối tài nguyên
(RA)


NỘI DUNG
v Dự đoán liên kết dựa vào độ tương đồng
Ø Các độ tương đồng cục bộ
Ø Các độ tương đồng toàn cục

23



Các độ tương đồng tồn cục
– Katz score
§ Measures number of paths between two nodes,
attenuated by their length

– Hitting time
§ Expected time for a random walk from x to reach y








Leicht-Holme-Newman (LHN2)
Độ đo thời gian trao đổi lẫn nhau trung bình (ACT)
Độ đo Cosine dựa vào L+
Độ đo Random Walk with Restart ( RWR)
Độ đo SimRank
Chỉ số Matrix Forest Index (MFI)
24


Global link prediction heuristics
•Link prediction heuristics
– Katz score
x


• Measures number of paths
between two nodes,
attenuated by their length

– Hitting time
y

• Expected time for a random
walk from x to reach y

ØĐộ đo này được tính tốn dựa vào tồn bộ số đường đi, nó là kết quả tổng trực tiếp
các đường đi và hàm mũ giảm dần theo chiều giảm của độ dài các đường đi.

là tập tất cả các đường đi với độ dài là l giữa đỉnh x và đỉnh y.
A là một tham số tự do (ví dụ là hệ số hãm) để điều khiển trọng số của
các đường đi.


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×