Tải bản đầy đủ (.docx) (22 trang)

Tiểu luận môn cơ sở dữ liệu Phân tích mạng xã hội và KEYPLAYER

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (652.9 KB, 22 trang )

Phân tích mạng xã hội và vấn đề key player
Lời nói đầu
Với nhu cầu ngày càng lớn về lưu trữ và xử lý thông tin, dường như cơ sử dữ liệu quan
hệ tỏ ra khó đáp ứng được nhu cầu xử lý nhanh trong một kho dữ liệu khổng lồ. Chính vì
nhu cầu đó, cơ sở dữ liệu đồ thị ra đời. Dữ liệu được lưu trữ dạng đồ thì, làm tăng tính
mêm dẻo và linh hoạt trong việc truy xuất dữ liệu
Ứng dụng rõ rệt nhất của dữ liệu đồ thì là áp dụng trong các mạng xã hội, một kiểu mô
hình hóa xã hội thực vào một kiểu quan hệ ảo trên mạng internet. Trên đó, cũng có các
mối quan hệ cha-con, đồng nghiệp, bạn bè, người yêu……
Bài tiểu luận ngắn ngủi này trình bày khái quát về phân tích các đặc tính của một mạng
xã hội và nhấn mạnh đến vấn đề tìm Key player, nút đóng vai trò quan trọng trong mạng
xã hội
Bài báo cáo gồm hai phần chính.
Phần một: Phân tích các đặc tính của một mạng xã hội
Phần hai: Các vấn đề phát sinh trong việc tìm key player
Xin chân thành cảm ơn (thầy) PGS.TS Đỗ Phúc, GV trực tiếp hướng dẫn em hoàn
thành bài tiểu luận này, do thời gian ngắn ngủi, bài viết còn sơ xài và còn nhiều thiếu xót,
mong độc giả đóng góp để tác giả sửa chữa những thiếu xót đó. Mọi đóng góp xin gửi về
email:
Hồ Chí Minh ngày 18 tháng 08 năm 2012
Xin chân thành cảm ơn.
Vũ Công Tâm-CH1101129 1
Phân tích mạng xã hội và vấn đề key player
Mục lục
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN










Vũ Công Tâm-CH1101129 2
Phân tích mạng xã hội và vấn đề key player
KHÁI QUÁT PHÂN TÍCH MẠNG XÃ HỘI
(Social Network Analysis - SNA)
VÀ VẤN ĐỀ KEY PLAYER
Mở đầu
SNA có nguồn gốc là khoa học xã hội và liên quan đến cả hai lĩnh vực của phân ích
mạng và lý thuyết đồ thị. Mạng lưới phân tích liên quan đến việc xây dựng và đưa ra giải
pháp cho những vấn đề mà có một cấu trúc mạng, chẳng hạn cấu trúc thường được mô
hình hóa trong một đồ thị (xem cấu trúc vòng tròn bên dưới)
Vũ Công Tâm-CH1101129 3
Phân tích mạng xã hội và vấn đề key player
Lý thuyết đồ thị cung cấp một tập hợp các khái niệm trừu tượng và phương pháp phân
tích của đồ thị.Sự kết hợp những điều này với các công cụ phân tích khác và với phương
pháp phát triển đặc biệt để hiển thị và phân tích của các mạng xã hội (với những mạng xã
hội khác), Chúng ta gọi những hình thứ cơ sở đó là phương pháp SNA.
Nhưng SNA không chỉ là một phương pháp luận, nó là một quan điểm độc đáo và thú
vịđể giải thích chức năng xã hội là gì. Thay vì tập trung vào cá nhân và các thuộc tính của
họ, hoặc cấu trúc xã hội vĩ mô, trung tâm về quan hệ giữa các cá nhân, nhóm, hoặc tổ chức
xã hội.
Vũ Công Tâm-CH1101129 4
Phân tích mạng xã hội và vấn đề key player
I. KHÁI QUÁT PHÂN TÍCH MẠNG XÃ HỘI
1 Khoa học xã hội
Nghiên cứu xã hội từ góc độ mạng là nghiên cứu những cá nhân trong một mạng lưới các
quan hệ và tìm kiếm lời giải thích cho hành vi xã hội trong cấu trúc của các mạng này hơn
là trong các cá nhân một mình. ‘Quan điểm mạng’ này trở nên ngày càng có liên quan

trong một xã hội Manuel Castellshas gọi là các mạng xã hội. SNA có một lịch sử lâu dài
trong khoa học xã hội, mặc dù phần lớn các công việc của nó có cũng đến từ các nhà toán
học, vật lý, nhà sinh vật học và các nhà khoa học máy tính (bởi vì họ cũng ghiên cứu mạng
lưới các loại khác nhau)
Ý tưởng rằng về mối quan hệ giữa các mạng trong xã hội không còn mới lạ, Nhờ có SNA
mà viẹcphổ biến rộng rãi dữ liệu sẵn có và tiến bộ trong tính toán và phương pháp luận trở
nên dễ dàng hơn.
2 Phạm vi ứng dụng
Phân tích mạng còn được ứng dụng trong nhiều lĩnh vực vượt ra ngoài khoa học xã hội,
mặc dù những tiến bộ lớn nhất nói chung đã liên quan đến việc nghiên cứu cấu trúc được
tạo ra bởi con người Các nhà khoa học máy tính thực nghiệm đã sử dụng (và thậm chí phát
triển mới) phương pháp phân tích để nghiên cứu các trang web, lưu lượng truy cập
Internet, phổ biến thông tin, vv Một ví dụ trong cuộc sống là việc sử dụng mạng lưới phân
tích để nghiên cứu những chuỗi thức ăn các hệ sinh thái khác nhau.
Vũ Công Tâm-CH1101129 5
Phân tích mạng xã hội và vấn đề key player
Trong ví dụ này, các nhà nghiên cứu đã thu thập đượcmột lượng dữ liệu rất lớn bằng việc
liên kết giữa các trang web và họ đã phát hiện ra rằng Web bao gồm một lõi dày đặc liên
kết giữa các trang, trong khi hầu hết các trang web khác hoặc là được gắn liên kết hoặc là
đã được gắn liên kết tới nhân đó.
3 Ứng dụng thực tế
Các doanh nghiệp sử dụng SNA để phân tích và cải thiện luồng thông tin liên lạc trong tổ
chức của họ, hoặc với mạng lưới các đối tác và khách hang của họ.
Cơ quan thực thi pháp luật (và quân đội) sử dụng SNA để xác định các mạng lưới tội phạm
và khủng bố từ dấu vết của truyền thông mà họ thu thập được, và sau đó xác định các key
player trong các mạng này
Những mạng xã hội như Facebook sử dụng các yếu tố cơ bản của SNA để xác định và đề
nghị những người bạn tiềm năng dựa vào thông tin về bạn bè của bạn bè (friends of
friends).
Vũ Công Tâm-CH1101129 6

Phân tích mạng xã hội và vấn đề key player
Các tổ chức xã hội sử dụng SNA để khám pháxung đột lợi ích trong các kết nối tiềm ẩn
giữacơ quan chính phủ, người dân và các doanh nghiệp
Các nhà khai thác mạng (điện thoại, cáp, điện thoại di động) sử dụngSNA-giống như
phương pháp để tối ưu hóa cấu trúc vànăng lực của mạng lưới của họ.
4 Tại sao và khi nào dung SNA
Khi bạn muốn mô hình hóadữ liệu của bạn trong một dạng mẫu của sự tương tác hoặc các
mối liên hệ
Khi bạn muốn theo dõi một đường đi thông tin trong mạng xã hội
Khi bạn làm nghiên cứu định lượng, mặc dù nghiên cứu định tínhtrong mạng cũng có giá
trị
Thay vì dựa vào những giả định phổ biến dựa trên vai trò và chức năng của mình, nói là
cha, mẹ, giáo viên, công nhân, để xác định vị trí trong mạng xã hội, ta có thể xác định dựa
vào phạm vi những hành động và cơ hội dành cho cá nhân. Đôi khi phương pháp này lại
mang lại kết quả thú vị và đáng ngạc nhiên.
Phân tích định lượng của một mạng xã hội có thể giúp bạn xác định các tác nhân(actors)
khác nhau của mạng hay key player , người mà bạn có thể tập trung vào khai thác thông tin
SNA rõ ràng là cũng rất hữu ích trong việc phân tích SNS, OC và các phương tiện truyền
thông xã hội nói chung,để kiểm tra giả thuyết về hành vi trực tuyến và CMC, để xác định
nguyên nhânrối loạn các chức năng trong cộng đồng hoặc mạng lưới, và để thúc đẩy sự
gắn kết xã hội vàtăng trưởng trong một cộng đồng trực tuyến
5 Biểu diễn mạng xã hội bằng đồ thị
Giả sử chúng ta có mô hình như sau, một cuộc nói chuyện giữa 4 người (actors).
Vũ Công Tâm-CH1101129 7
Phân tích mạng xã hội và vấn đề key player
Hoặc, Mô hình trong đồ thị có hướng
Vũ Công Tâm-CH1101129 8
Phân tích mạng xã hội và vấn đề key player
II. KEY PLAYER VÀ VẤN ĐỀ KEY PLAYER
6 Các khái niệm liên quan

II.1.1 Degree centrality:
Bậc của một nút (bán bậc trong hoặc bán bậc ngoài) là số cạnh liên kết tới nút đó Trong
một đồ thị vô hướng không có khái niệm bậc vào và bậc ra
Hữu ích trong việc đánh giá mà các nút làtrung tâm để lây lanthông tin và ảnh hưởng đến
người khác ngaytrong khu phốcủa họ.
II.1.2 Đường đi và đường đi ngắn nhất
Vũ Công Tâm-CH1101129 9
Phân tích mạng xã hội và vấn đề key player
Một đường đi giữa hai nút là một sự liên tục không tuần hoàn để nối giữa 2 nút
Đường đi ngắn nhất(shortest path) giữa hai nút là con đường kết nối hai nút với số lượng
ngắn nhất của các cạnh (cũng được gọi là khoảng cách giữa các nút - distancebetween)
Trong hình trên, giữacác nút 1 và 4 có hai con đường ngắn nhấtcó chiều dài 2: {1,2,4} và
{1,3,4}. Các con đường còn lại là {1,2,3,4}, {1,3,2,4}, {1,2,5,3,4}và {1,3,5,2,4} (đường
dài nhất- longest path)
Con đường ngắn hơn (shorter path)được mong đợi khi tốc độgiao tiếp hoặc trao đổi mong
muốn
Vũ Công Tâm-CH1101129 10
Phân tích mạng xã hội và vấn đề key player
II.1.3 Betweenesscentrality
Số đường đi ngắn nhất đi qua một nút trên tất cả con đường ngắn nhất trong mạng
Đôi khi bình thường như vậy màgiá trị cao nhất là 1
Ý nghĩa: Hiển thị những nút có nhiều khả nănglà con đường thông tin liên lạcgiữa các nút
khác
Ngoài ra hữu ích trong việc xác định vị trí, nơi mà mạng của ta sẽ phá nếu cắt bỏ nút này.
(Nút nào sẽ bị cô lập nếu nút 3 và 5 không xuất hiện?)
II.1.4 Closeness centrality
Vũ Công Tâm-CH1101129 11
Phân tích mạng xã hội và vấn đề key player
Chiều dài trung bình của tất cả đường đi ngắn nhất từ một nút tới tất cả các nút khác trong
mạng (ví dụ như thế nào hoa bia nhiều trung bình phải mất đạt được tất cả các nút khác)

Điều này có nghĩa là, nó phải mất bao lâu để đi tới các nút khác từ nút bắt đầu
Hữu ích trong trường hợp mà điều ta quan tâm chính là tốc độ phổ biến thông tin
Tốc độ càng cao khi giá trị càng thấp.
II.1.5 Eigenvector centrality
Vũ Công Tâm-CH1101129 12
Phân tích mạng xã hội và vấn đề key player
Một vector đặc trưng của một nút nó tỷ lệ thuận với tổng của tất cả các vector đặc trưng
của tất cả các nút nối trực tiếp tới nó.
Nói cách khác, một nút với vector đặc trưng cao được kết nối vớicác nút khác với vector
đặc trưng cao
Google rank có cách sắp thế tương tự, những liên kết được đánh dấu thì được liên kết tới
những trang có số lượng truy cập cao hơn
Hữu ích trong việc xác định ai là ngườikết nối nhiều nhấttới các kết nối khác
Vũ Công Tâm-CH1101129 13
Phân tích mạng xã hội và vấn đề key player
Có bao nhiêu người biết người này trong một mạng xã hội
Trong mạng lưới gián điệp: những điệp viên là người mà
theo dõi hầu hếtcủa các thông tin bí mật có khả năng
chảy không?
Trong mạng lưới quan hệ sinh sản: làm thế nào để nhân
giống nhanh chóng từ cá thể này tới phần còn lại
Trong mạng lưới các bài báo trích dẫn: tác giả là
ngườitrích dẫn khác cũng được trích dẫn là tác giả?
II.2 Tìm tập hợp Key Player
I.1.1 Đ ị nh nghĩa
Vấn đề key player bao gồm 2 vấn để nhỏ:
1/ (KPP-1) Với một mạng xã hội, tìm thấy một tập hợp các nút k (gọi một tậpkptheo tập
thứ tự k), nếu loại bỏ tối đa sẽ làm gián đoạn thông tin liên lạc giữa các nút còn lại.
2/(KPP-2) Với một mạng xã hội, tìm một kp của tập thứ tự k để được số kết nốitối đa tới
tất cả các nút khác.

Một phần của quá trình giải quyết những vấn đề này là cung cấp các khái niệm để dẫn đến
các giải pháp khả thi và kết quả hữu ích. Tuy nhiên, ta có thể thấy rõ ràng rằng KPP-1 liên
quan đến việc phân mảnh một mạng lưới thành các thành phần, hoặc suy ngược lại, làm
cho khoảng cách giữa các nút quá lớn để mạng hầu như bị đứt quãng. Ngược lại, KPP-2
liên quan đến việc tìm kiếm các nút có thể đạt đến các nút còn lại càng nhiều càng tốt
thông qua các liên kết trực tiếp hoặc đường dẫn ngắn
Vấn đề đầu tiên, KPP-1, phát sinh trong một số ngữ cảnh.Một ví dụ điển hình trong bối
cảnh y tế công cộng là vấn đề tiêm chủng / kiểm dịch. Với một bệnh truyền nhiễm lây
truyền từ người sang người, và cho rằng nó là không khả thi để chủng ngừa và / hoặc kiểm
Vũ Công Tâm-CH1101129 14
Degree
Betweenness
Closeness
Eigenvector
Phân tích mạng xã hội và vấn đề key player
dịch toàn bộ dân số, tập hợp con của các thành viên nên được chủng ngừa / kiểm dịch để
tối đa cản trở sự lây lan của nhiễm trùng? Một ví dụ trong bối cảnh quân sự là lựa chọn
mục tiêu. Với một mạng lưới của những kẻ khủng bố phải phối hợp để gắn kết hiệu quả
tùy viên, và cho rằng chỉ có một số nhỏ có thể được can thiệp (ví dụ, bằng cách bắt giữ
hoặc mất uy tín), những người thân mà nên được lựa chọn để tối đa làm gián đoạn mạng?
Vấn đề thứ hai, KPP-2, phát sinh trong bối cảnh y tế công cộng khi một cơ quan y tế cần
phải chọn một tập hợp nhỏ của các thành viên dân số để sử dụng như là hạt giống cho sự
khuếch tán của các hoạt động hoặc thái độ thúc đẩy sức khỏe, chẳng hạn như sử dụng
thuốc tẩy để làm sạch kim tiêm. Trong bối cảnh quản lý tổ chức, vấn đề xảy ra khi quản lý
muốn thực hiện một sáng kiến thay đổi và cần có được một tập hợp nhỏ thông tin từ nhà
lãnh trước, có thể thực hiện bằng cách chơi 1 môn thể thao với họ vào cuối tuần. Trong bối
cảnh quân sự,
Ở cái nhìn đầu tiên, cả hai KPP-1 và KPP-2 sẽ xuất hiện để được giải quyết dễ dàng bằng
cách sử dụng một số khái niệm lý thuyết đồ thị, chẳng hạn như cutpoints và cutsets, hoặc
thông qua các phương pháp phân tích mạng xã hội, chẳng hạn như tìm kiếm núttrung tâm.

Tuy nhiên, không một cái nào trong số các phương pháp hiện có là đầy đủ.Bài viết này giải
thích tại sao và trình bày một cách tiếp cận mới thiết kế đặc biệt cho các vấn đề chủ chốt.
I.1.2 Ph ươ ng pháp ti ế p c ậ n trung tâm
Hướng tiếp cận trung tâm bao gồm việc đo tính trung tâm của mỗi nút trong mạng, sau đó
chọn k nút trung tâm nhất kp. Khi có nhiều phép đo của sự trung tâm tồn tại, một trong
những câu hỏi phát sinh là sử dụng biện pháp nào. Đối với KPP-1, chúng ta có thể mong
đợi các biện pháp tốt nhất là dựa trên betweenness. Ví dụ, biện pháp đo betweenness của
Freeman tổng kết tỷ lệ của đường đi ngắn nhất từ một nút khác đi qua một nút cho trước.
Như vậy, một nút với betweenness cao chịu trách nhiệm để kết nối các cặp nút thông qua
con đường tốt nhất, và xóa nút đó nên gây ra nhiều cặp của các nút bị mờ nhạt (nếu không
nói là hoàn toàn bị ngắt kết nối).
Đối với KPP-2, chúng ta có thể mong đợi các biện pháp dựa trên mức độ trung tâm và sự
gần gũi trung tâm là hữu ích. Bậctrung tâm chỉ đơn giản là số lượng các nút có một nút cho
trước liền kề với nó. Do đó, tùy thuộc vào những mối quan hệ xã hội gì được miêu tả bởi
đồ thị, một nút với bậc cao có thể có khả năng trực tiếp ảnh hưởng đến rất nhiều các nút
khác. Sự gần gũi trung tâm được định nghĩa là tổng các khoảng cách đo đạc từ một nút cho
tất cả những người khác, nơi đo đạc khoảng cách đề cập đến chiều dài của đường đi ngắn
nhất giữa hai điểm. Vì vậy, một nút với một số điểm gần gũi thấp (trung tâm) nên có thể
gây ảnh hưởng, trực tiếp và gián tiếp, nhiều người khác.
Vũ Công Tâm-CH1101129 15
Phân tích mạng xã hội và vấn đề key player
Các biện pháp trung tâm là những giải pháp chính đáng cho KPP.Tuy nhiên, họ không phải
là tối ưu. Có hai vấn đề cơ bản, mà tôi đề cập là thiết kế vấn đề và lựa chọn nhóm vấn đề.
Trong đó, lựa chọn nhómvấn đề là nghiêm trọng hơn.
I.1.3 Thi ế t k ế v ấ n đ ề :
1
2
3
4
5

6
7
8
9
10
11
12
Node 1 có bậc trung tâm (degree centrality) cao nhất trên tất cả các biện pháp xem xét, bao
gồm cả betweenness centrality.Tuy nhiên, xóa nút 1 có hiệu lực tương đối ít trên mạng.
Khoảng cách giữa các cặp nút nhất định làm tăng, nhưng nó là rõ ràng rằng sự thông tin
giữa tất cả các điểm vẫn có thể có phân mảnh. Ngược lại, xóa 8 nút, mà không có
betweenness cao nhất, là hiệu quả hơn.Loại bỏ 8 chia đồ thị thành năm mảnh vỡ không có
liên quan (thành phần).
Đối với KPP-2, hình ảnh sáng hơn một chút. Nếu chúng ta xây dựng KPP-2 về đến hầu hết
các nút trực tiếp, mức độ trung tâm là tối ưu.Nếu chúng ta xây dựng nó trong điều kiện đạt
được các nút trêntới bước m, sau đó chúng ta có thể dễ dàng xác định một biện pháp mới
của trung tâm là đếm số lượng các nút trong m khoảng cách của một nút cho trước.
I.1.4 L ự a Ch ọ n Nhóm V ấ n Đ ề
Việ c lựa chọn nhóm vấn đề, đã được thảo luậnnhư là nhóm vấn đề trung tâm tại Everett
và Borgatti (1999), đề cập đến thực tế là lựa chọn một tập hợp của các nút, như một toàn
thể để giải quyết KPP-1 hoặc KPP-2, Sự khác nhau hoàn toàn từ lựa chọn mộtsố nút riêng
biệt như nhau đó là giải pháp tối ưu cho KPP. Để bắt đầu, hãy xem xét KPP-1.Hình bên
dưới cho thấy một đồ thị trong có các nút h và I là các nút riêng lẻ, đó là các nút tốt nhất để
Vũ Công Tâm-CH1101129 16
Phân tích mạng xã hội và vấn đề key player
xóa đi và làm phân mảnh mạng. Tuy nhiên, xóa i sẽ làm mạng ít phân mảnh hơn xóa h, vì
khi xóa h sẽ làm cho r trở thành cô lập Ngược lại, xóa m với h làm số lượng phân mảnh gia
tăng, nhưng m không hiệu quả như i. Nguyên nhân i và h là không tốt như i và m và i và h
là không quan trọng trong vai tròtrong mạng liên lạc của chúng(i và h) - chúng kết nối các
bên thứ ba cùng với nhau. Trong một nghĩa nào đó, tính trung tâm của một nút là do tính

trung tâm của những nút khác, với kết quả là trung tâm của toàn quần thể
I.1.5 L ự a ch ọ n t ậ p KP
Đối với tập KP có kích thước 1, ta có thể chọn các key player bằng cách đơn giản chọn
một điểm với số điểm cao nhất trên bất kỳ biện pháp nào. Vì vậy,nó có thể được coi là biện
pháp mới của nút trung tâm và được xem là tối ưu hóa cho các vấn đề keyplayer.
Đối với bộkpcó kích thước k> 1, không có thủ tục đơn giản để lựa chọn một tập tối ưu.
Một số thủ tục có thể có giá trị.Ví dụ, với KPP-2, chúng ta bắt đầu bằng cách chọn nút với
số điểm cao nhất của DR. Sau đó, với mỗi nút trong số k-1 nút còn lại, chúng ta chọn các
nút với số điểm cao nhất không phải là liền kề với bất kỳ các nút đã được chọn. Vớithuật
toán này, một biến thể của nó là đóng gói nhị phân vấn đề, nhanh chóng và dễ dàng, nhưng
thường mang lại kết quả không tốt bằng tối ưu
Vũ Công Tâm-CH1101129 17
Phân tích mạng xã hội và vấn đề key player
Thuật toán tối ưu Greedy
I.1.6 Th ự c nghi ệ m
Thuật toán được minh họa bằng cách sử dụng hai tập dữ liệu được rút ra từ y tế công cộng
(AIDS) và bối cảnh quân sự (khủng bố). Cả hai trường hợp được tiếp cận từ cả hai KPP-1
và KPP-2
1
2
3
4
5
6
7
8
9
10
11
12

13
14
15
16
17
18
19
20
21
22
23
24
27
2829
30
31
32
34
35
36
37
38
39
40
42
43
45
46
47
4849

50
52
54
55
56
57
58
59
61
63
64
65
66
67
68
70
71
72
74
75
77
78
79
81
83
84
85
87
88
89

90
91
92
93
95
96
97
98
99
100
101
102
104
105
106
107
108
109
113
115
116
117
118
120
122
123
124
125
126
127

128
129
130
131
134
135
136
137
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
163

165
166
167
169
171
172
173
174
175
177
178
180
182
183
184
185
187
188
189
190
191
192
193
194
196
197
199
200
202
203

204
205
206
208
209
210
211
212
213
215
216
217
219
220
222
223
224
225
226
227
228
231
232
233
234
235
236
239
240
244

245
246
251
252
254
255
256
258
260
273
275
277
280
285
287
290
295
298
Vũ Công Tâm-CH1101129 18
1. Select k nodes at random to populate set S
2. Set F = fit using appropriate key player metric
3. For each node u in S and each node v not in S
a. DELTAF = improvement in fit if u and v were swapped
4. Select pair with largest DELTAF
a. If DELTAF <= then terminate
b. Else, swap pair with greatest improvement in fit and set F = F + DELTAF
5. Go to step 3
Phân tích mạng xã hội và vấn đề key player
Hình tam giác hướng lên dùng chỉ người Mỹ gốc Phi, hình tam giác đi xuống dùng chỉ
người Puerto Rico, và hình vuông xác định tất cả những người khác.

I.1.6.1 Đới với AIDS
Các số liệu AIDS bao gồm một mạng lưới người quen biết trong số 293 người nghiện ma
túy trên đường phố Hartford, CT. Các dữ liệu được mô tả trong tuần et al (2002). Mạng
lưới này bao gồm một thành phần chính lớn (193 nút), và nhiều thành phần rất nhỏ. Như
thể hiện trong hình trên, các thành phần chính của mạng có một cấu trúc rất rõ ràng. Nó
bao gồm hai nhóm, một người Mỹ gốc Phi (tỷ lệ HIV cao hơn), và phần lớn Puerto Rico
(với tỷ lệ HIVthấp hơn).Kết nối giữa hai nhóm được giới hạn bởi một vài người quen biết
và nút thắt cổ chai này giúp duy trì tỷ lệ nhiễm HIV thấp hơn ở phần Puerto Rico của
mạng. Cho dù thông qua tiêm hoặc kiểm dịch, và nó cho kết quả rõ ràng rằng chúng ta nên
sớm tách ly người này ra khỏi 2 nhóm,bởi vì chúng tôi muốn duy trì mức độ HIV thấp ở
cụm Puerto-Rico, Vì vậy, chúng ta có một trường hợp của KPP-1.
Mạng lưới cung cấp một phương pháp thử nghiệm hữu ích đầu tiên của thuật toán tối ưu
hóa key player vì hai lý do. Đầu tiên, cấu trúc của mạng làm cho nó dễ bị ngắt kết nối, và
dễ dàng để kiểm tra kết quả một cách trực quan. Nếu thuật toán không thất bại trong kiểm
tra này, nó rõ ràng là không đủ tốt. Thứ hai, mạng lưới đã được phân mảnh, cung cấp thông
tin có thể gây nhầm lẫn một số thuật toán.
Trên cơ sở kiểm tra trực quan, rõ ràng rằng tiêm chủng, cách ly hai nút thì sẽ tách các
thành phần chính thành hai nửa gần bằng nhau. Vì vậy, với lần chạy đầu tiên của thuật
toán, chúng tôi tìm kiếm một tập hợp kp có kích thước 2. Chỉ số phân mảnh cho đồ thị là
0,567.Các thuật toán lựa chọn hai nút, xác định trong màu đen trong trên, trong đó, nếu bị
xóa, sẽ làm tăng phân mảnh 0,658 (một sự gia tăng tỷ lệ phân mảnh của 16%).Chọn nút
phù hợp với trực giác của chúng ta và phân chia các thành phần chính trong hai khối lớn.
Chuyển đến KPP-2, chúng tôi cũng quan tâm đến việc lựa chọn một nhóm nhỏ các nút là
đối tượng của một can thiệp cụ thể, được đào tạo như giáo dục cộng đồng (được biết đến
Peer Health Advocates hay PHAs) để phổ biến và chứng minh công tác phòng chống HIV.
Tuần et al (2002) đã làm điều này bằng tay, lựa chọn các nhóm nhỏ nhất có thể đạt hơn
50% thành phần chính của mạng. Tập khai thác bao gồm 14 nút. Tìm key player trên các
dữ liệu tương tự, cho ra cùng một kết quả
Vũ Công Tâm-CH1101129 19
Phân tích mạng xã hội và vấn đề key player

Group
Size
Number
Reached
Percent
Reached
1 16 8.3
2 27 14.0
3 36 18.7
4 43 22.3
5 49 25.4
6 55 28.5
7 61 31.6
8 67 34.7
9 72 37.3
10 77 39.9
11 82 42.5
12 87 45.1
13 92 47.7
14 97 50.3
I.1.6.2 Đới với khủng bố
Tập dữ liệu khủng bố, được biên soạn bởi Krebs (2001), bao gồm một mạng lưới người
quen giả định trong số 74 nghi can khủng bố. Theo mục đích của phân tích này, chỉ có các
thành phần chính được sử dụng, bao gồm 63 cá nhân
Câu hỏi đầu tiên chúng tôi yêu cầu những người cần được cô lập để làm gián đoạn mạng
lớn nhất. Hãy giả định rằng chúng tôi chỉ có thể cô lập ba người (A,B,C trong hình dưới).
Chạy chương trình tìmKeyPlayer với 3 nút đó (các nút A, B, và C). Loại bỏ các nút này
mang lại một phân mảnh có số đo 0,59, và phá vỡ các đồ thị với 7 thành phần nhỏ.
Câu hỏi thứ hai là chúng ta muốn phổ biến thông tin nhất định, chúng ta cần tiếp xúc
những nút nào để tất cả những nút còn lại có thể tiếp xúc được thông tin đó?Chúng ta giả

định rằng thông tin mà đi hơn hai liên kết có xu hướng làm suy thoái hay được xem với sự
nghi ngờ. Do đó chúng ta muốn có một tập hợp nhỏ nhất các nút có thể đạt được tất cả
những người khác trong hai liên kết hoặc ít hơn. Các thuật toán KeyPlayer thấy rằng một
Vũ Công Tâm-CH1101129 20
A
B
C
Phân tích mạng xã hội và vấn đề key player
bộ ba nút (nút hình vuông trong hình 7, có nhãn A, C, và D) đạt 100% của các mạng (kể cả
chính họ).
Vũ Công Tâm-CH1101129 21
Phân tích mạng xã hội và vấn đề key player
Chương trình DEMO
Chương trình này là một ứng dụng nhỏ giúp ta tính các thông số liên quan tới mạng xã hội
và tìm key player không thông qua Neo4j, chỉ bằng những tính toán thông thường.
Chương trình : />Tài liệu tham khảo
[1] PGS.TS Đỗ Phúc. Slide bài giảng môn Cơ Sở Dữ Liệu Nâng Cao dành cho học viên
cao học khóa 6 năm 2012.
[2] Dr. Giorgos Cheliotis. Social Network Analysis (SNA). Communications and New
Media, National University of Singapore . 2009
[3] Stephen P. Borgatti. The Key Player Problem 2005
[4] />opus-71888/algorithm.pdf?sequence=1
Vũ Công Tâm-CH1101129 22

×