Tải bản đầy đủ (.pdf) (50 trang)

TỐI ƯU HÓA ẢNH HƯỞNG CỦA ĐỐI TƯỢNG TRÊN MẠNG XÃ HỘI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Sim

TỐI ƯU HÓA ẢNH HƯỞNG CỦA ĐỐI TƯỢNG
TRÊN MẠNG XÃ HỘI

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin

HÀ NỘI - 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Thị Sim

TỐI ƯU HÓA ẢNH HƯỞNG CỦA ĐỐI TƯỢNG
TRÊN MẠNG XÃ HỘI

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS.NCS Vũ Ngọc Trình

HÀ NỘI - 2013


HÀ NỘI - 2013


LỜI CẢM ƠN
Trước tiên, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tời Thầy giáo,
PGS-TS Hà Quang Thụy và ThS. Vũ Ngọc Trình đã tận tình hướng dẫn, động viên và
giúp đỡ tôi trong suốt quá trình thực hiện khóa luận này.
Tôi xin bày tỏ lời cảm ơn sâu sắc dến các thầy cô giáo đã giảng dạy tôi trong suốt
bốn năm học qua, đã cho tôi những kiến thức quý báu để tôi có thể vững bước trên con
đường đi của mình.
Tôi xin gửi lời cảm ơn đến các anh chị và các bạn trong phòng nghiên cứu
KTLab đã nhiệt tình chỉ bảo trong quá trình tham gia nghiên cứu khoa học và làm
khóa luận.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K54CD đã ủng hộ, khuyến khích
trong suốt quá trình học tập tại trường.
Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn vô hạn tới cha mẹ, và
các anh chị tôi, những người luôn bên cạnh tôi những lúc tôi khó khăn nhất, giúp tôi
vượt qua khó khăn trong học tập cũng như trong cuộc sống.

Hà Nội, ngày 15 tháng 05 năm 2013
Sinh viên

Trần Thị Sim

i


TÓM TẮT
Bài toán tối đa hiệu quả ảnh hưởng của đối tượng trên mạng xã hội là việc tìm
kiếm một tập con nhỏ các nút (các nút nhân) trong mạng xã hội để lan truyền thông tin

hiệu quả nhất. Khóa luận này nghiên cứu về phương pháp tối đa hiệu quả ảnh hưởng
của đối tượng trên mạng xã hội dựa trên phương pháp giảm bậc dựa trên kinh nghiệmDegreeDiscount được Wei Chen và cộng sự đề xuất vào năm 2009 [1] và được tiếp tục
phát triển như Manuel Gomez-Rodriguez và Bernhard Scholkopf, 2012 [2], Bo Liu và
cộng sự, 2012 [12].
Trên cơ sở tìm hiểu và phân tích một số hướng tiếp cận bài toán tối đa hiệu quả
ảnh hưởng của đối tượng trên mạng xã hội [1, 2, 12], khóa luận áp dụng phương pháp
tối đa hiệu quả ảnh hưởng dựa trên việc giảm bậc theo kinh nghiệm. Theo tiếp cận đó,
khóa luận đưa ra mô hình để tìm được các nút “nhân” với các thành phần mô hình
được trình bày tường minh. Khóa luận tiến hành thực nghiệm mô hình trên dữ liệu lấy
từ arXiv.org. Phân tích kết quả thực nghiệm, khóa luận chứng tỏ được mô hình là khả
quan và có thể tiếp tục phát triển tiếp.

ii


LỜI CAM ĐOAN
Em xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng em,
dưới sự hướng dẫn của PTS.TS Hà Quang Thụy và ThS. Vũ Ngọc Trình, không sao
chép từ các công trình nghiên cứu khác.
Em đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên
quan ở trong nước và quốc tế.Nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi
kỷ luật của ĐHQH Hà Nội và Nhà trường.

Hà Nội, ngày 15 tháng 5 năm 2013

Sinh viên

Trần Thị Sim

iii



MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................i
TÓM TẮT....................................................................................................................... ii
LỜI CAM ĐOAN .......................................................................................................... iii
MỤC LỤC ......................................................................................................................iv
Danh sách các bảng ........................................................................................................vi
Danh sách các hình vẽ .................................................................................................. vii
Danh sách các từ viết tắt .............................................................................................. viii
Mở đầu ............................................................................................................................. 1
Chương 1. Giới thiệu về bài toán tối ưu ảnh hưởng của đối tượng trên mạng xã hội.....3
1.1.

Phân tích mối quan hệ trên mạng xã hội. ........................................................... 3

1.2.

Tối ưu ảnh hưởng của đối tượng trong mạng xã hội. ........................................4

1.2.1.

Động lực và mục đích.

1.2.2.

Phát biểu bài toán tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội.
7

4


Chương 2.Một số hướng tiếp cận bài toán tối ưu hóa ảnh hưởng của đối tượng trong
mạng xã hội. ....................................................................................................................9
2.1.

Tối ưu hóa ảnh hưởng theo thời gian liên tục trên mạng khuếch tán. ...............9

2.2. Tối ưu ảnh hưởng của đối tượng dựa trên cải tiến các thuật toán tham ăn Greedy và giảm bậc - DeegreeDiscount. ...................................................................13
2.2.1.

Cải tiến thuật toán Greedy

14

2.2.2.

Thuật toán DegreeDiscountIC.

18

Chương 3. Phương pháp tối ưu hóa ảnh hưởng của đối tượng - DegreeDiscountIC. ...22
3.1.

Mô tả bài toán giảm bậc dựa trên kinh nghiệm DegreeDiscount. ...................22

3.2.

Mô hình đề xuất. .............................................................................................. 22

Chương 4.Thực nghiệm và đánh giá kết quả................................................................. 26


iv


4.1.

Mô tả thực nghiệm. .......................................................................................... 26

4.2.

Dữ liệu thực nghiệm. ....................................................................................... 26

4.2.1.

Đặc trưng của cơ sở dữ liệu trên trang arXiv.org

26

4.2.2.

Xây dựng tập dữ liệu.

28

4.3.

Thực nghiệm ....................................................................................................30

4.3.1.


Môi trường thực nghiệm

30

4.3.2.

Mô tả cài đặt chương trình

30

4.4.

Đánh giá kết quả .............................................................................................. 35

4.5.

Nhận xét ...........................................................................................................38

Kết luận.......................................................................................................................... 39

v


Danh sách các bảng
Bảng 2-1: Một số biến quan trọng khi sử dụng đồ thị G ......................................14
Bảng 2-2 : Thuật toán Greedy………………………………………………… 15
Bảng 2-3: Thuật toán NewGreedyIC ....................................................................16
Bảng 2-4: Thuật toán NewGreedyWC .................................................................18
Bảng 2-5: Thuật toán DegreeDiscountIC ............................................................. 20
Bảng 4-1 Cấu hình phần cứng ..............................................................................30

Bảng 4-2: Công cụ phần mềm ..............................................................................30
Bảng 4-3: Bản phân tách bản ghi trong file arXiv.html .......................................31
Bảng 4-4: Bảng ghi tên tác giả sau ghi gán ID ....................................................32

vi


Danh sách các hình vẽ
Hình 1: Một mô hình đồ thị mạng xã hội ............................................................... 3
Hình 2: Thông tin lan truyền trên mạng xã hội .....................................................6
Hình 3: Mô tả bài toán ............................................................................................ 7
Hình 4: Tập các nút ảnh hưởng, các nút vô ích, nút không tác dụng .....................9
Hình 5: Điều tra hàm ảnh hưởng 𝜎(𝐴; 𝑇) ............................................................. 11
Hình 6: Biểu diễn hàm ảnh hưởng 𝜎(𝐴; 𝑇) .......................................................... 12
Hình 7: Hàm ảnh hưởng 𝜎(𝐴; 𝑇) đối với các mạng lớn nhỏ ................................ 13
Hình 8: Thông tin trên trang arXiv.org .................................................................23
Hình 9 : Quá trình xây dựng tập dữ liệu ............................................................... 27
Hình 10: Cấu trúc một bản ghi arXiv.html ........................................................... 28
Hình 11:Mô hình đề xuất ...................................................................................... 29
Hình 12: Phân tích cú pháp arXiv.org ..................................................................32
Hình 13: Dữ liệu đầu vào của thuật toán .............................................................. 33
Hình 14:ID của tập nút “nhân” ảnh hưởng nhất và bậc của chúng ...................... 35
Hình 15: Lan truyền ảnh hưởng của các thuật toán khác nhau với mô hình IC...36
Hình 16 :Thời gian chạy của các thuật toán khác nhau ........................................37

vii


Danh sách các từ viết tắt
Viết tắt

IC
WC
CELF

Từ hoặc cụm từ
Independent Case
Weight Case
Cost Effective Lazy Forward

viii


Mở đầu
Sự phát triển mạnh mẽ của các mạng xã hội dẫn đến nguồn thông tin phong phú
về mối quan hệ giữa người hoặc các thực thể với nhau.Tuy nhiên, nhiều tri thức trong
đó lại thường được ẩn giấu bên trong, trong đó có thông tin về những đối tượng “có
ảnh hưởng lớn” trong mạng xã hội. Biết được các đối tượng có ảnh hưởng lớn trong
mạng xã hội sẽ giúp ích rất nhiều cho việc tiếp thị, quảng bá sản phẩm, cho phép thông
tin và ý tưởng có thể đến với một số lượng lớn người sử dụng trong một thời gian
ngắn. Tuy nhiên, bài toán tìm kiếm đối tượng có ảnh hưởng lớn một cách hiệu quả
đem tới nhiều thách thức cần được giải quyết.
Tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội là bài toán thời sự, có ý
nghĩa. Có nhiều dự án nghiên cứu được hình thành để duy trì và phát triển hướng
nghiên cứu này như thông tin lan truyền (Leskovec, 2007[6]), tối ưu hóa ảnh hưởng
rời rạc (Kempe, 2003 [5]), lan truyền trong tiếp thị (Richardson & Domingos[3,4]) và
lan truyền ảnh hưởng trong dịch tễ học (Wallinga & Teunis,2004[7]). Gần đây, Wei
Chen và các cộng sự (2009) [1] đề xuất thuật toán cải tiến dựa trên thuật toán Greedy
ban đầu – thuật toán DegreeDiscountIC, giảm bậc dựa trên kinh nghiệm và sau đó
Manuel Gomez-Rodriguez và Bernhard Scholkopf, 2012 [2], Bo Liu và cộng sự, 2012
[12] tiến hành các nghiên cứu phát triển giải pháp nói trên..

Khóa luận “Tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội” đề cập tới
các phương pháp giải bài toán tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội,
tập trung vào lớp giải pháp giảm bậc dựa trên kinh nghiệm.
Nội dung của khóa luận được bố cục gồm có 4 chương :
Chương 1: Giới thiệu khái quát về bài toán tối đa ảnh hưởng đối tượng trên
mạng xã hội.
Chương 2 : Giới thiệu về các hướng tiếp cận giải quyết bài toán tối ưu ảnh
hưởng của đối tượng trên mạng xã hội. Chương này tập trung vào việc giới thiệu các
thuật toán cơ sở ban đầu mà Wei Chen và các cộng sự (2009) đề xuất. Đây là cơ sở
phương pháp luận quan trọng để khóa luận đưa ra mô hình thực nghiệm một phần mô
hình hệ thống được các tác giả xây dựng.
Chương 3 : Khóa luận xây dựng mô hình thực nghiệm, tối ưu ảnh hưởng của đối
tượng trên mạng xã hội của Wei Chen và cộng sự (2009) [1], dùng thuật toán

1


DegreeDiscountIC để giải quyết bài toán này. Chúng tôi sẽ tiến hành xây dựng mô
hình thực nghiệm dựa trên phương pháp DegreeDiscountIC.
Chương 4: Tiến hành thực nghiệm với mô hình đề xuất, đánh giá kết quả của mô
hình.
Phần kết luận và định hướng phát triển khóa luận : Tóm tắt nội dung chính
đạt được của khóa luận, đồng thời chỉ ra những điểm cần khắc phục và đưa ra những
định hướng nghiên cứu trong thời gian sắp tới.

2


Chương 1. Giới thiệu về bài toán tối ưu ảnh
hưởng của đối tượng trên mạng xã hội.

1.1. Phân tích mối quan hệ trên mạng xã hội.
Nghiên cứu về mối quan hệ trên mạng xã hội là một trong những hướng nghiên
cứu thu hút được sự chú ý của cộng đồng khai phá mạng xã hội hiện nay [ 2]. Mạng xã
hội là mạng của một nhóm người hoạt động và các mối quan hệ gắn kết họ với nhau.
Những người hoạt động trên mạng có thể là những cá nhân hoặc tập thể. Những người
này trao đổi tài nguyên với nhau và chính điều này gắn kết với nhau trong một mạng
xã hội. Mỗi tài nguyên đem trao đổi được xem như là mỗi liên kết trong mạng xã hội
và những cá nhân duy trì mối quan hệ này tương ứng với việc duy trì một cung trong
đồ thị mô phỏng mạng xã hội. Sức bền của cung này phụ thuộc vào mức độ trao đổi
thường xuyên của các cá nhân trong mạng xã hội. Gần đây có rất nhiều mạng xã hội
được phát triển với quy mô lớn trên các trang web mạng, chẳng hạn như Facebook,
Friendster, Twitter,… chúng trở nên thành công vì chúng đạt được hiệu quả trong việc
kết nối mọi người với nhau, tạo nên các cộng đồng ảo cùng chia sẻ với nhau về những
sở thích chung.

Hình 1 : Một mô hình đồ thị mạng xã hội [8].

3


Thông tin tiềm ẩn từ các cộng đồng này rất đa dạng, tuy nhiên để khám phá được
nó không hề đơn giản, bởi mạng xã hội có sự phối hợp và góp sức của hàng ngàn,
thậm chí hàng triệu thành viên, vì thế có thể trích chọn được những thông tin cần thiết
từ một cộng đồng rất lớn là vấn đề rất khó khăn.
Vấn đề phát hiện các mối quan hệ trên mạng xã hội, từ đó đưa ra giải pháp tối ưu
ảnh hưởng của đối tượng trên mạng xã hội là việc tìm kiếm một tập hợp con nhỏ các
nút ( các nút nhân ) trong mạng xã hội có ảnh hưởng lớn nhất . Một phần của mạng xã
hội được mô hình hóa thành một đồ thị trong đó các nút mô hình hóa các cá nhân trong
mạng và các cạnh mô hình hóa các mối quan hệ giữa các cá nhân. Những nhà phân
tích trong lĩnh vực mạng dựa vào quan hệ giữa các thành viên của cộng đồng, các hàng

xóm, một nhóm hoặc một lớp để hiểu cách thức các mạng xác định tổng số người hay
các nhóm nhỏ bên trong một mạng lớn. Cách thức mà một người kết nối với một
người khác thể hiện cấu trúc nền tảng của mạng, các nhà nghiên cứu dựa vào những
mối quan hệ này để phân tích và đưa ra được những kết luận về mối quan hệ giữa
người này với người kia, giữa một người với cả cộng đồng hay ảnh hưởng của họ đối
với cả cộng đồng ra sao.
Sự nghiên cứu về mạng xã hội của các nhà khoa học đã thu nhận được nhiều phát
minh khoa học mới về mạng xã hội trong nhiều thập kỷ qua, được mô hình và phân
tích bằng các công cụ của lý thuyết đồ thị. Qua những nghiên cứu đó, người ta chứng
minh rằng đồ thị mạng của mạng xã hội đưa đến nhiều thông tin hữu ích tiềm ẩn, giúp
con người khai thác được thế mạnh mà mạng xã hội đem lại.

1.2. Tối ưu ảnh hưởng của đối tượng trong mạng xã hội.
1.2.1. Động lực và mục đích.
Ngày nay, với sự phát triển nhanh chóng của web mạng xã hội, các ứng dụng
online như Facebook, Youtube, Twitter,… mang lại nguồn thông tin phong phú, đồng
thời con người có thể dễ dàng kết nối với nhiều mối quan hệ khác. Những mạng này
có thể giúp cho việc tiếp thị trở nên dễ dàng, cho phép thông tin và ý tưởng có thể ảnh
hưởng đến một số lượng lớn trong một thời gian ngắn. Với sự hỗ trợ của các lý thuyết
đồ thị, con người có thể trích xuất được rất nhiều thông tin ngữ nghĩa quan trọng và
hữu ích từ các đồ thị mạng.
Khóa luận tập trung khai thác mối quan hệ giữa những cá nhân trong mạng xã
hội, từ đó tìm ra được cá nhân có ảnh hưởng lớn nhất trong mạng xã hội. Mạng xã hội

4


được mô hình thành đồ thị được tạo thành với các nút là những cá nhân tham gia
mạng, và các cạnh biểu diễn mối quan hệ giữa họ [1].
Xem xét một trường hợp để thấy được động lực thúc đẩy cho nghiên cứu này [1]:

Một công ty nhỏ muốn phát triển một ứng dụng trực tuyến rất triển vọng trong
một mạng xã hội trực tuyến và muốn tiếp thị thông qua chúng. Nhưng công ty đó lại
có một ngân sách hạn chế, vì vậy chỉ có thể lựa chọn số lượng nhỏ người sử dụng ban
đầu trong mạng để sử dụng nó ( bằng cách cho họ quà tặng hoặc các khoản thanh
toán). Công ty mong muốn rằng những người sử dụng ban đầu sẽ thích ứng dụng đó và
bắt đầu ảnh hưởng đến bạn bè của họ trong mạng xã hội để cùng sử dụng nó, và bạn bè
của họ cũng sẽ như vậy. Như vậy, nếu như trong xã hội thực ta có thể thực hiện điều
đó bằng cách lan truyền miệng, còn trong mạng xã hội thì cần thông qua các ứng dụng.
Vấn đề ở đây là chọn ai làm người sử dụng ban đầu để kết quả thu được có sự
ảnh hưởng đến số lượng người sử dụng lớn nhất trong mạng, tức là ta trở về vấn đề tìm
kiếm các cá nhân có ảnh hưởng nhất trong mạng xã hội.
Vấn đề này được gọi là tối ưu ảnh hưởng, sẽ là quan tâm của nhiều công ty cũng
như các cá nhân muốn quảng bá sản phẩm, dịch vụ của họ, và ý tưởng sáng tạo của họ
thông qua các cách thức tiếp thị lan truyền. Mạng xã hội trực tuyến cung cấp các giải
pháp để giải quyết vấn đề này, bởi vì chúng đang kết nối một số lượng lớn người với
nhau và chúng thu thập một lượng lớn thông tin về cấu trúc cũng như động lực truyền
thông trên mạng xã hội. Tuy nhiên, cũng có những thách thức đặt ra khi giải quyết vấn
đề này đó là : các mạng xã hội có quy mô lớn, có cấu trúc kết nối phức tạp và luôn
biến đổi theo thời gian, có nghĩa là giải pháp cho vấn đề này cần phải được rất hiệu
quả và có khả năng mở rộng.
Bài toán tối ưu ảnh hưởng của đối tượng trên mạng xã hội được Domingos và
Richardson [3, 4] là người đầu tiên nghiên cứu tối đa ảnh hưởng như là một vấn đề
thuật toán. Đây là bài toán thời sự có ý nghĩa, đặc biệt trong các mạng xã hội về lĩnh
vực khoa học. Có nhiều dự án và nghiên cứu đã được hình thành để duy trì và phát
triển hướng nghiên cứu này : Kempe, Kleinberg và Tardos [5] là người đầu tiên xây
dựng vấn đề tối ưu hóa ảnh hưởng theo cách tối ưu hóa rời rạc, Leskovec[6] trình bày
một giải pháp tối ưu hóa trong việc lựa chọn hạt nhân lan truyền mới, được gọi là
“Cost Effective Lazy Forward”, viết tắt là CELF, đề xuất thuật toán cải tiến dựa trên
thuật toán Greedy ban đầu – thuật toán DegreeDiscountIC, giảm bậc dựa trên kinh


5


nghiệm và sau đó Manuel Gomez-Rodriguez và Bernhard Scholkopf, 2012 [2], Bo Liu
và cộng sự, 2012 [12] tiếp tục phát triển nó,…

Hình 2 : Thông tin lan truyền trên mạng xã hội [11]
Tuy nhiên, các thuật toán trên cho thấy rằng chúng vẫn còn mất một vài giờ để có
thể hoàn thành việc duyệt một đồ thị với một vài chục ngàn nút [1] , vì vậy nó không
hiệu quả cho các mạng có quy mô lớn. Bởi vậy, cần nghiên cứu thuật toán có thể lựa
chọn được tập “ nhân” lan truyền đem lại hiệu quả nhất và có thể áp dụng trên quy mô
lớn , trong thời gian ngắn.
Bằng cách tiếp cận theo cách khai phá vào đồ thị mô phỏng mạng xã hội, với các
đăch trưng của nút và các cạnh đóng vai trò trung tâm. Chúng ta xem xét đến nút được
coi là đỉnh và các nút kề nó, gọi là các hàng xóm của nó.
Tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội có những đặc điểm khác
biệt so với những nghiên cứu mạng thông tin trước đó, và có nhiều thách thức :
 Mạng xã hội có quy mô lớn, có cấu trúc và kết nối phức tạp, và cũng liên
tục thay đổi, vì vậy cần cần có một giải pháp hiệu quả và có khả năng mở
rộng.
 Với một mạng xã hội lớn, thì khối lượng dữ liệu thu được cũng rất lớn và
yêu cầu cần đặt ra cần có một phương pháp tối ưu hóa ảnh hưởng vừa hiểu
quả và vừa đảm bảo về mặt thời gian chạy.

6


1.2.2.
Phát biểu bài toán tối ưu hóa ảnh hưởng của đối tượng trong
mạng xã hội.

Bài toán tối ưu hóa ảnh hưởng của đối tượng trong mạng xã hội được Wei Chen
và cộng sự (2009) [1] phát biểu như sau :
 Đầu vào : Một mạng xã hội được mô phỏng như một đồ thị vô hướng G
(V,E), với đỉnh V mô hình hóa các cá nhân trong mạng và cạnh E mô hình
hóa các mối quan hệ giữa các cá nhân, các cặp (đỉnh, hàng xóm của đỉnh)
= (ui,vi).
 Đầu ra : Tất cả các cặp quan hệ (đỉnh, hàng xóm của đỉnh) có điểm ảnh
hưởng lớn nhất.

Hình 3. Mô tả bài toán
Ví dụ : Trong một mạng có 4 người sử dụng A, B, C, D. A là bạn bè của B, B là bạn
của C, C là bạn của D, A là bạn của C, A là bạn của D, B là bạn của D. Từ đó ta có thể
xét ra các cặp là (đỉnh, hàng xóm của đỉnh là) là (A,B), (B,C), (C,D), (A,C), (A,D),
(B,D). Những cặp đó trở thành đầu vào của thuật toán mà chúng ta lựa chọn, sau khi
cài đặt thuật toán, ta thu được đầu ra là tập “nhân” có ảnh hưởng lớn nhất trong mạng.

7


Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát một số nội dung liên quan
và trình bày về động lực và mục đích của bài toán tối ưu hóa ảnh hưởng của đối tượng
trên mạng xã hội. Trong chương tiếp theo, khóa luận sẽ tập trung làm rõ một số hướng
nghiên cứu liên quan về bài toán tối ưu hiệu quả ảnh hưởng trên web.

8


Chương 2.Một số hướng tiếp cận bài toán tối
ưu hóa ảnh hưởng của đối tượng trong mạng xã

hội.
Tối ưu hóa ảnh hưởng của đối tượng là bài toán được quan tâm rất nhiều trên thế
giới. Có rất nhiều nghiên cứu tiếp cận vấn đề này, có những nghiên cứu đưa ra một
mạng lưới hoạt động, mô tả chuỗi thời gian liên tục Markov, từ đó tính toán số lượng
trung bình các nút đạt được bởi quá trình lan truyền từ nút nguồn [2], có những nghiên
cứu tập trung giải quyết vấn đề thời gian của các thuật toán tham ăn - Greedy, hay
giảm dựa trên kinh nghiệm DegreeDiscount [1,12],…
Trong chương này, chúng tôi giới thiệu một số hướng tiếp cận bài toán tối ưu ảnh
hưởng của đối tượng trong mạng xã hội.

2.1. Tối ưu hóa ảnh hưởng theo thời gian liên tục trên mạng khuếch
tán.
Nghiên cứu xây dựng mô hình khuếch tán liên tục theo thời gian được đề xuất
bởi Gomez và Rodriguez [2] . Xem xét quá trình xảy ra khuếch tán và lan truyền trên
các mạng tĩnh với kết nối được biết đến với tỉ lệ lan truyền. Một quá trình khuếch tán
bắt đầu khi một nút “nhân” lan truyền ảnh hưởng tại thời điểm t =0 bởi hành động của
một nguồn bên ngoài mạng. Sau đó nút nguồn cố gắng lan truyền cho hàng xóm của
chúng. Khi một hàng xóm i gây ảnh hưởng tại thời điểm ti, nó cố gắng gây ảnh hưởng
tiếp tục cho các hàng xóm của nó và cứ thế tiếp tục.
Quá trình lan truyền ảnh hưởng bắt đầu trong tập hợp các nút “nhân” A, Gomez
và Rodriguez [2] định nghĩa N(A;T) là số lượng các nút bị ảnh hưởng trong T thời
gian và sau đó xác định các hàm ảnh hưởng 𝜎(𝐴; 𝑇) là tổng trung bình các nút bị ảnh
hưởng trong thời gian T, nghĩa là 𝜎(𝐴; 𝑇) = EN(A;T).

Hình 4: Hình (a,b): tập các nút bị ảnh hưởng(I, màu đỏ), các nút vô ích(Un, màu da
cam) tại 2 thời điểm khác nhau cho một quá trình khuếch tán bắt đầu ở nút “nhân”
A{3,5} so với một nút đặc biệt – gọi là nút chìm (n, màu đen). Bất kì đường dẫn từ một
9



nút vô ích đến nút chìm bị chặn lại bởi nút bị ảnh hưởng. Tập hợp các nút không tác
dụng(Xn) là sự kết hợp của bộ nút bị ảnh hưởng và nút vô ích. Hình (c) : tập các nút
không tác dụng X∈ Q*n , giống như A⊆ X.Chúng đại diện cho những trạng thái mà
chúng ta cần mô tả cho sự tiến triển theo thời gian của một quá trình khuếch tán về
phí n nút chìm mà bắt đầu trong tập hợp các nút “nhân” A.
Mục tiêu của nghiên cứu là tìm ra tập hợp các nút “nhân” A trong mạng khuếch
tán G nhằm tối ưu hóa hàm ảnh hưởng 𝜎(𝐴; 𝑇). Nói cách khác, việc tìm tập hợp các
nút “nhân” như vậy là một quá trình khuếch tán trong G, đạt đến trung bình số lượng
lớn nhất các nút trước khi cắt cửa sổ T. Vì vậy, hướng giải quyết của nghiên cứu là :

A*  argmax  ( A; T )
| A| k

ở đây tập nguồn A là biến để tối ưu hóa, đường chân trời T và một tập k là hằng số.
Các tác giả sử dụng nghiên cứu của Kulkami (1986) [9] để đánh giá hàm ảnh
hưởng 𝜎(𝐴; 𝑇) cho tập nguồn A bất kì trong mạng G.
Hàm đánh giá ảnh hưởng :Các hàm ảnh hưởng phụ thuộc vào khả năng lan
truyền qua tất cả các nút mạng như sau :
N

 ( A; T )  EN ( A; T ) 

 P (tn T | A).
n 1

Trong đó tn là thời gian lan truyền của nút n, A là tập hợp các nút “nhân” và T là
đường chân trời hay cửa sổ cắt. Vì vậy, ta cần tính xác suất lan truyền P(tn≤T|A) cho
mỗi nút n trong mạng. Lưu ý rằng, bất cứ khi nào n n∈A thì xác suất lan truyền
P(tn≤T|A) là không đáng kể và bằng 1. Và những nút n như vậy được gọi là những nút
chìm. Với một mạng khuếch tán G = (V,E), một tập các nút B ⊂V, và một nút n ∈V,

[2] định nghĩa tập hợp các nút bị chặn hoặc bị chi phối bởi B như sau :
Sn(B) = { u ∈V : bất kỳ một đường dẫn nào từ u đến n trong G sẽ đi qua ít nhất
một nút trong B }.
Từ định nghĩa, B ⊆Sn và Sn(Sn(B))=Sn(B), [2] định nghĩa tập *n như sau :
*

 n  {X  V : X  S n ( X )}.
10


Trong đó, tất cả các nút trong X ∈ *n bị chặn duy nhất bởi các nút bị chìm n.
Phương pháp này có thể tìm thấy tất cả các tập trong *n bị ảnh hưởng.
Với một quá trình khuếch tán được bắt đầu từ tập nút “nhân” A, một nút chìm n
và bất kì một khoảng thời gian t  0 nào, chúng ta biểu thị tập hợp các nút bị ảnh
hưởng như I(t|A), tập hợp các nút vô ích là Un(t|A) và tập hợp các nút khiếm khuyết (
tức là các nút bị ảnh hưởng hoặc sử dụng ít ) là (t|A). Lưu ý rằng tập các nút khiếm
khuyết (Xn) là bao gồm các tập bị ảnh hưởng (I) và nút vô ích(Un). Theo định nghĩa Sn(.),Un(t|A) = Sn(I(t|A))\I(t|A) và Xn(t|A)=Sn(I(t|A)). Bây giờ bằng cách nghiên cứu thời
gian quá trình tiến triển của Xn(t|A), chúng ta có thể tính toán P(tn ≤T|A).
Đầu tiên, cho một quá trình khuếch tán bắt đầu trong tập hợp các nút “nhân” A,
nó có thể được hiển thị bằng các tập hợp của các nút khiếm khuyết Xn(t|A) tại bất kì
thời điểm t≥ 0 thuộc Ωn* .

Hình 5 : Điều tra hàm ảnh hưởng 𝜎(𝐴; 𝑇) , thuật toán INFLUMAX và các thuật toán
cơ sở khác đạt được trong một mạng ngoại vi nhỏ với 35 nút và 39 cạnh trong thời
gian khác nhau, đường chân trời T và tập số nút của tập “nhân” |A|. INFLUMAX luôn
đạt được ảnh hưởng tối ưu.
Định lý 1 (Kullkarni – 1986 ) : Cho một tập nút nguồn A, một nút ẩn n và tại bất
cứ khoảng thời gian t  0 , Xn (t|A)  *n
11



Hình 1(c) liệt kê tất cả tập hợp các nút khiếm khuyết Xn∈ Ωn* mà A ⊆X cho một
mạng nhỏ mô tả trong hình 1(a) và 1(b). Chúng đại diện cho các trạng thái mà chúng
ta cần để mô tả sự phát triển của một quá trình khuếch tán bắt đầu từ tập hợp các nút
“nhân” so với n nút chìm. Bây giờ, giả định khả năng truyền theo cặp theo cấp số nhân
trong mạng khuếch tán. Định lý sau đây được áp dụng:
Định lý 2 : Cho một tập các nút “nhân” A, một nút ẩn n và khả năng lan truyền
độc lập của các nút theo cấp số nhân f(tj|ti;𝛼ij),{Xn(t|A), t≥ 0} là một chuỗi Markov
liên tục theo thời gian(CTMC) với không gian trạng thái{X:X∈ Ωn*,A⊆X} và một ma
trận vô cùng Q=[q[D,B](D,B∈{X:X∈ Ωn*,A⊆X}) thì :
 (i, j )  Cv ( D)i , j v : B  Sn ( D {v}),


q( D, B)   (i, j )  C ( D) i , j B  D,
0


ở đó C(D) là tối thiểu đơn nhất giữa D và D=V/D và Cv(D)={(u,v)∈C(D)}.
Tối ưu ảnh hưởng : Gomez và Rodriguez [2] chỉ ra cách đánh giá hàm mục tiêu
𝜎(𝐴; 𝑇) cho các tập nguồn A bất kỳ. Tuy nhiên tối ưu 𝜎(𝐴; 𝑇) đối với tập nguồn A là
một nhiệm vụ khó khăn bởi việc tìm các tập k nút ngay trên các mạng nhỏ đã là rất
khó.

Hình 6: Biểu diễn hàm ảnh hưởng 𝜎(𝐴; 𝑇) khi T =1 và tốc độ lan truyền α∼U(0,5) so
với tập “nhân” (a): 1.014 nút trong mạng Forest Fire (b): 512 nút ngẫu nhiên trong
mạng Kronecker (c): 1.024 nút mạng Kronecker được phân bậc. Thuật toán được đề
xuất INFLUMAX nhanh hơn so với các phương pháp khá ít nhất là 20%.
Định lý 3: Cho một đồ thị mạng G=(V,E), 1 tập nguồn A⊆V và một giới hạn
thời gian T, tối ưu ảnh hưởng trong mạng khuếch tán liên tục được định nghĩa bởi
phương trình là NP-hard.


12


Định lý 4: Cho một đồ thị mạng G(V,E), một tập “nhân” A⊆V và một giới hạn
thời gian T, hàm ảnh hưởng 𝜎(𝐴; 𝑇) là một hàm mô đun con trong tập hợp các nút
“nhân” A.
Định lý 5: Cho một tập “nhân” A ⊆V với k nút “nhân” và một nút a ∈ 𝑉 \ A ,
cho 𝛿 a = 𝜎 ( A ∪ {a};T-𝜎 { A ;T) và a1,…,ak chuỗi k nít với 𝛿 a theo thứ tự giảm dần.
Khi đó max|a|Có thể tăng tốc độ của thuật toán bằng cách sử dụng thuật toán INFLUMAX :
-

Lazy evaluation [6] : Nó làm giảm đáng kể thời gian trong việc đánh giá ảnh

-

hưởng ở vùng cận biên.
Localized source nodes(LSN): tăng tốc bằng cách tính toán P(tn≤T|A).

Hình 7 : Hàm ảnh hưởng σ (A, T) được tăng tốc bằng thuật toán INFLUMAX so với
trên trang trực tuyến bị ràng buộc từ Định Lý 5 khi T = 1 (a) 35 nút mạng Kronecker
(b) 1.024 nút mạng phân cấp Kronecker (c) 1000 nút mạng khuếch tán thực phân phối
từ các siêu liên kết khác.

2.2. Tối ưu ảnh hưởng của đối tượng dựa trên cải tiến các thuật toán tham
ăn - Greedy và giảm bậc - DeegreeDiscount.
Vấn đề cần giải quyết đó chính là tìm ra một thuật toán mà từ mô hình đồ thị
mạng ban đầu có thể lựa chọn được tập các nút có ảnh hưởng nhất trong mạng đó.
Kempe, Kleinberg và Tardos [5] là người đầu tiên xây dựng các vấn đề tối ưu hóa rời

rạc, theo [5] ảnh hưởng của một người trong mạng được lan truyền theo 3 mô hình : IC
( Independedt Case ), WC ( Weight Case) và mô hình ngưỡng tuyến tính. Dựa vào các
mô hình đó, Wei Chen và các cộng sự [1] đã đề xuất những cải tiến mới cho thuật toán
Greedy và Discount theo hai mô hình IC và WC.

13


2.2.1.

Cải tiến thuật toán Greedy

a) Định nghĩa thuật toán Greedy
Một mạng xã hội được mô phỏng như một đồ thị vô hướng G (V,E), với nút V
trong đồ thị mô hình hóa các cá nhân trong mạng và cạnh E mô hình hóa mối quan hệ
giữa các cá nhân trong mạng đó. Ví dụ, trong một mạng về công bố và đăng tải các bài
báo khoa học, một nút là đại diện cho một tác giả, và giữa 2 nút có 1 cạnh nếu hai tác
giả đó là đồng tác giả cho một bài báo. Ta có bảng liệt kê các biến cần dùng trong bài
toán khi liên quan đến đồ thị G như sau :
Bảng 2-1 : Một số biến quan trọng khi sử dụng đồ thị G.
Biến

Mô tả

N

Số đỉnh của G

M


Số của các cạnh trong G

K

Số lượng nhân cần tìm cho tập S

R

Số vòng lặp của thuật toán

T

Số lần lặp trong thuật toán của Cohen trong thuật toán

P

Lan truyền xác suất trong mô hình IC

dv

Bậc của đỉnh v trong G

tv

số các láng giềng của đỉnh v được chọn là nhân

Cho S là tập hợp con của điểm được chọn để bắt đầu lan truyền ảnh hưởng, và
được gọi là các nút nhân. RanCas(S) biểu thị các hàm ngẫu nhiên ảnh hưởng từ bộ
nguồn S, đầu ra là một tập hợp ngẫu nhiên của các đỉnh ảnh hưởng bởi tập nhân S. Ta
chọn đồ thị G và một số k là đầu vào và tạo ra một tập S có k nút nhân, lan truyền ảnh

hưởng, càng lớn càng tốt.
Thuật toán được cài đặt như sau :

14


Bảng 2-2 : Thuật toán Greedy
Khởi tạo tập S =

∅ và R = 2000

For i = 1 to k do
For mỗi đỉnh v ∈ V \ S do
Sv = 0.
For i = 1 to R do
Sv += |RanCas(S ∪{ v } ) |
End for
S = S ∪ { arg maxvV \ S {Sv }}
End for
Đầu ra tập nguồn S.

Thuật toán với một hàm ngẫu nhiên RanCas(). Trong mỗi vòng lặp i, thuật toán
thêm 1 đỉnh S vào tập S nếu đỉnh đó làm tăng độ lan truyền để làm được điều này. Để
làm được điều này, với mỗi đỉnh v không thuộc tập S, độ lan truyền của S , S∪{v}
được ước lượng với R được mô phỏng nhắc lại của hàm RanCas(S∪{v}). Mỗi lần tính
toán hàm RanCas(S) thì độ phức tạp của thuật toán là O(m), vì vậy độ phức tạp của
thuật toán tham ăn là O(knRm), tương đối lớn.
b) Kết hợp thuật toán Greedy với thuật toán CELF.
Thuật toán Greedy là thuật toán đơn giản nhất, dễ thực hiện cài đặt. Hiệu suất tối
ưu của thuật toán là 1-1/e ( 63%) [10] tương đối tốt nhưng nó có một số hạn chế là độ

phức tạp lớn, mất nhiều thời gian chạy. Vì vậy, để giải quyết vấn đề này Leskovec và
các cộng sự [6] đã đề xuất cách tối ưu thuật toán này bằng cách kết hợp thuật toán này
với thuật toán CELF (Cost Effective Lazy Forward ).
Thuật toán CELF khi kết hợp với thuật toán tham ăn cần thông qua 2 bước [1] :
-

Tập S : sử dụng sự hỗ trợ của từ hiệu suất của thuật toán tham ăn

-

Tập S∪{v} : sử dụng đơn vị hiệu suất của thuật toán tham ăn.

Giải pháp cuối cùng đó là : argmax(RanCas (S), RanCas(S∪{v}))
Đơn giản nó được hiểu là khi thêm một đỉnh v vào trong tập S, kết quả sẽ làm
tăng độ lan truyền khi thêm đỉnh v lớn hơn nếu S nhỏ. CELF giúp chúng ta trong việc
15


×