Tải bản đầy đủ (.docx) (17 trang)

TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG KEY PLAYER TRONG MẠNG XÃ HỘI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (270.57 KB, 17 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO
DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG
KEY PLAYER TRONG MẠNG XÃ HỘI
Giảng viên hướng dẫn : PGS.TS Đỗ Phúc
Học viên thực hiện : Nguyễn Thị Ngọc Diễm
MSHV : CH1101075
Lớp : Cao học khóa 6
TP Hồ Chí Minh, tháng 08 năm 2012
MỤC LỤC
I. Giới thiệu chung
Nghiên cứu mạng là một chủ đề nghiên cứu chủ động vì khả năng của việc
mô hình hóa nhiều hệ thống phức tạp trên thế giới thực. Mạng xã hội là đồ thị
của tương tác giữa các cá nhân, nhóm người. Một mạng lưới xã hội bao gồm
một tập hợp của các nút như người, tổ chức, hoặc các nhóm cùng với một tập
của liên kết tập hợp khái quát ý tưởng của một liên kết từ A đến B. Phân tích
mạng lưới xã hội cung cấp công cụ và phương pháp tiếp cận lý thuyết thăm dò
toàn diện của các mô hình tương tác giữa các cá nhân, nhóm và thậm chí tổ
chức.
Các mạng xã hội đã trở nên phổ biến gần đây với sự ra đời của các trang
web như MySpace, Friendster, Orkut, Twitter, Facebook. Số lượng người dùng
tham gia các mạng này là rất lớn và vẫn đang phát triển. 133 triệu blog được
lập chỉ mục bởi Technorati (là một trên web công cấp search engine trên blog
đầu tiên và là nơi cho blogger có thể sưu tập, đánh dấu và phân phối các bài
viết trực tuyến) kể từ khi năm 2002 và 900 ngàn bài viết được đăng trên blog
trong 24 giờ. Tháng 6 năm 2008, Technorati đã theo dõi các blog qua 81 ngôn
ngữ và có 77.7 triệu người truy cập tại Mỹ tháng 8 năm 2008. Xu hướng này
đang phát triển sẽ giúp các nhà nghiên cứu để biến sự quan tâm cho việc phân
tích các bài viết blog trong một số kích thước. Một vấn đề cơ bản liên quan đến
các mạng là phát hiện của các cụm hoặc cộng đồng. Một Blog, cũng được gọi


là weblog, là một cách phổ biến của việc đưa thông tin lên web. Nó bao gồm
bài đăng trên blog, hoặc nội dung được viết bởi các blogger, thường tổ chức
thành các loại. Blogs tạo ra một bối cảnh đối thoại giữa các blogger và người
đọc. Thế giới có gần 700 triệu người dùng Facebook, tiêu tốn 700 tỉ phút/
tháng để cập nhật thông tin về gia đình, bạn bè, tải hình ảnh, video hay đơn
giản chia sẻ những suy nghĩ của mình. Hầu hết các blog của nền tảng cung cấp
một không gian viết cá nhân cái dễ dàng để thể hiện, và chia sẻ. Mạng xã hội
trực tuyến đã trở thành một ứng dụng rất phổ biến trong thời đại Web 2.0 ứng
dụng, tạo điều kiện cho người sử dụng để giao tiếp, tương tác và chia sẻ trên
3
World Wide Web (WWW). Các hệ thống mạng đã đưa ra hàng triệu trang web
cá nhân được cập nhật liên tục bởi người dùng và ý kiến của khách truy cập.
Người dùng vào đây không chỉ để cập nhật thông tin về cá nhân mà còn chia sẻ
suy nghĩ, nhận xét, sự trải nghiệm về một sản phẩm hay dịch vụ nào đó. Đây
chính là mỏ vàng đối với nhiều công ty. Các chuyên gia marketing qua đó có
cơ hội tiếp cận người tiêu dùng tiềm năng và biết thêm trải nghiệm của khách
hàng. Từ đó, họ phân tích thêm cho việc kinh doanh. Sự tương tác này được
gọi là phân tích dữ liệu xã hội trực tuyến. Dữ liệu trên mạng xã hội trực tuyến
khi được phân tích có ý nghĩa với các công ty cung cấp dịch vụ cho người tiêu
dùng ở quy mô lớn. Thông qua các trao đổi trên mạng xã hội, đội ngũ bán hàng
và marketing có thể có được thông tin về sản phẩm và dịch vụ hiện tại hay ý
tưởng cho sản phẩm, chiến dịch marketing sắp tới. Càng nhiều người nói về
sản phẩm và dịch vụ thì các phân tích sẽ càng có giá trị với doanh nghiệp. Tuy
nhiên, phần lớn thông tin trên mạng xã hội là những dữ liệu phi cấu trúc. Để dễ
sàng lọc, phân tích, xử lý dữ liệu sẵn có thành những thông tin hữu ích, doanh
nghiệp có thể cần đến công cụ phần mềm được thiết lập để theo dõi và quản lý
các cập nhật trên mạng xã hội. Doanh nghiệp khi đó chỉ tập trung phân tích
những thông tin hữu ích cho họ.
Key player là yếu tố quan trọng trong hệ thống mạng và bao gồm một số
tiêu chí. Xác định các key player là một trong số những mục tiêu trong các

phương tiện truyền thông tương tác trực tuyến cũng như các bài đăng trên blog.
Có bài đăng trên blog nhiều hơn một khoảng thời gian. Có thể là một hoặc
nhiều hơn những lời hồi đáp cho bài viết trên blog. Các hiện tượng của việc
đăng các bài viết ngày càng tăng và cần phải được phân tích. Điều này dẫn đến
vấn đề xác định key player, những người có có nhiều phản hồi cho các bài
đăng trên blog của họ.
II.
4
III. Bài toán key player
Một mạng lưới xã hội thường được xem như là một đồ thị bởi vì cấu trúc của
nó rất phức tạp. Đo lường vị trí mạng là tìm kiếm các trung tâm của một nút. Các
biện pháp cung cấp cho chúng ta cái nhìn sâu sắc vào các vai trò khác nhau và
gom nhóm trong một mạng, như người liên kết, nhà lãnh đạo, cầu nối, và các key
player. Bài toán key player (KPP- Key Player Problem) có thể được phân ra làm
hai dạng dưới đây:
- KPP - 1: Với một mạng xã hội, tìm thấy một tập nút k (có thể được gọi
là tập kp thứ tự k), nếu loại bỏ, sẽ làm gián đoạn tối đa liên lạc giữa các
các nút còn lại. KPP - 1 là xác định các key player với mục đích của
một cái gì đó khuếch tán tối ưu thông qua mạng lưới bằng cách sử dụng
các key player như hạt giống.
- KPP - 2: Với một mạng xã hội, tìm thấy một kp -k để được tối đa kết
nối với tất cả các các nút. KPP - 2 là việc xác định các key player cho
mục đích của việc phá vỡ hoặc phân mảnh mạng bởi việc loại bỏ các
nút quan trọng.
Một phần của quá trình giải quyết những bài toán này là cung cấp những định
nghĩa của các khái niệm này dẫn đến các giải pháp khả thi và kết quả hữu ích. Ta
thấy rằng KPP-1 liên quan đến việc phân mảnh một mạng lưới thành các thành
phần, hoặc nếu không, làm cho khoảng cách giữa các nút lớn đến nổi như là bị
ngắt kết nối. Ngược lại, KPP-2 liên quan đến việc tìm kiếm các nút có thể đi đến
các nút còn lại sao cho càng nhiều càng tốt thông qua các liên kết trực tiếp hoặc

đường dẫn ngắn.
Bài toán đầu tiên, KPP-1, phát sinh trong một số ngữ cảnh. Một ví dụ điển hình
trong bối cảnh y tế cộng đồng là bài toán tiêm chủng/kiểm dịch. Với một bệnh
truyền nhiễm lây truyền từ người sang người, và cho rằng nó là không khả thi để
chủng ngừa và / hoặc kiểm dịch toàn bộ dân số, thay vào đó ta thực hiện tiêm
chủng phòng ngừa trên tập hợp con nào đó để ngăn cản tối đa sự lây lan của nhiễm
trùng. Một ví dụ trong bối cảnh quân sự là lựa chọn mục tiêu. Với một mạng lưới
của những kẻ khủng bố phải phối hợp với nhau để thực hiện một cuộc tấn công
5
hiệu quả, nhưng ta chỉ có thể can thiệp vào bằng cách bắt giữ hoặc làm mất uy tín
một số phần tử, vậy câu hỏi đưa ra là những đối tượng nào nên được lựa chọn để
làm gián đoạn sự kết nối của mạng lưới khủng bố?
Bài toán thứ hai, KPP-2, phát sinh trong bối cảnh y tế cộng đồng khi một cơ
quan y tế cần phải chọn một tập hợp nhỏ của các thành viên dân số để sử dụng như
là hạt giống cho sự khuếch tán của các hoạt động hoặc nhằm thúc đẩy sức khỏe,
chẳng hạn như sử dụng thuốc tẩy để làm sạch kim tiêm. Trong bối cảnh quản lý tổ
chức, bài toán xảy ra khi quản lý muốn thực hiện một sáng kiến thay đổi và khi đó
họ cần phải đưa thông tin đến các nhà lãnh đạo thay vì thông báo cho toàn thể
nhân viên.
Ở cái nhìn đầu tiên, cả hai KPP-1 và KPP-2 sẽ xuất hiện để được giải quyết dễ
dàng bằng cách sử dụng một số khái niệm lý thuyết đồ thị, chẳng hạn như
cutpoints và cutsets, hoặc thông qua các phương pháp phân tích mạng xã hội,
chẳng hạn như đo độ trung tâm của một nút. Tuy nhiên, không tồn tại một phương
pháp nào trong số các phương pháp hiện có là đầy đủ.
IV. Các độ đo trung tâm
Trong lý thuyết đồ thị và phân tích mạng, có các biện pháp khác nhau của việc
đo độ trung tâm của một đỉnh trong vòng một đồ thị để xác định tầm quan trọng
tương đối của một đỉnh trong đồ thị. Đo lường vị trí mạng là việc tìm kiếm vai trò
trung tâm của một nút. Các cách tiếp cận trung tâm bao gồm đo lường trung tâm
của mỗi nút trong mạng, sau đó chọn k nút trung tâm nhất bao gồm các kp - set.

Độ trung tâm đo độ trung tâm khi một cá nhân được đặt trong một mạng xã hội.
Degree centrarity, Betweenness centrality, Closeness centrality và Eigenvector
centrality là bốn độ đo lường trung tâm được sử dụng rộng rãi trong phân tích
mạng.
1. Betweenness centrality
Đối với một đồ thị G = (V, E) với n đỉnh, Betweenness centrality cho đỉnh
v được xác định bởi:
6
Trong đó:

tổng shortest path từ đỉnh đến đỉnh của toàn network

tổng shortest path từ đỉnh đến đỉnh đi qua đỉnh
Betweenness centrality được định nghĩa như tổng tỷ số của các đường đi
ngắn nhất từ một nút tới một nút khác đi qua một nút cho trước. Như xem xét KPP
- 1, một nút với Betweenness centrality cao chịu trách nhiệm cho kết nối cặp nhiều
các nút thông qua con đường tốt nhất, và việc xóa nút đó sẽ gây ra việc nhiều cặp
nút trở nên tách biệt hơn. Xóa mà nút nên gây ra nhiều cặp nút để trở thành hoàn
toàn bị ngắt kết nối hoặc ít nhất kết nối sẽ xa hơn.
2. Degree centrality
Degree centrality của một nút là số các kết nối trực tiếp của nút đó. Theo
một định nghĩa khác Degree centrality được xem là số lượng mối quan hệ mà một
nút có, tức là số lượng các liên kết sự cố khi một nút. Đối với một đồ thị G = (V,
E) với n đỉnh, mức độ trung tâm của đĩa cho đỉnh v là:
Trong đó:

số đỉnh của đồ thị

các link trực tiếp của đỉnh v
3. Closeness centrality

Closeness centrality là một trong những khái niệm cơ bản trong một topo
không gian. Chúng tôi có thể nói rằng hai tập hợp chặt chẽ nếu họ tự ý gần nhau.
Trong một mạng xã hội, các Closeness centrality đo độ gẫn gũi giữa một đỉnh với
tất cả các đỉnh khác trong đồ thị. Đỉnh mà có xu hướng có khoảng cách ngắn đo
đạc đỉnh khác trong đồ thị có sự gần gũi cao hơn. Điều này có thể được đo như
7
Trong đó: n ≥ 2 là kích thước của kết nối của mạng lưới V thành phần có thể
truy cập từ v.
Sự gần gũi có thể là được coi như một biện pháp của nó sẽ mất bao lâu
thông tin để lan truyền từ một đỉnh cho khác có thể truy cập trong mạng.
Closeness Centrality của một đỉnh càng lớn thì càng rút ngắn khoảng cách hình
thành đỉnh bất kỳ đỉnh khác, và do đó vị trí tốt hơn đỉnh trong việc truyền bá thông
tin khác đỉnh. Closeness centrality của tất cả các đỉnh có thể được tính bằng cách
giải quyết tất cả các cặp đường đi ngắn nhất.
4. Eigenvector centrality
Trung tâm eigenvector của nút là tỷ lệ thuận với tổng centralities
eigenvector của tất cả các nút trực tiếp kết nối với nó. Nói cách khác, một nút với
một eigenvector centrality cao được kết nối đến các nút khác với eigenvector cao
vai trò trung tâm. Điều này là tương tự như cách Google xếp hạng trang web:
những liên kết từ một trang được tham chiếu nhiều sẽ được sắp hạng cao.
V. Các công trình liên quan
Một mạng lưới xã hội có thể được mô hình hóa như một đồ thị G = (V, E), V
là một tập hợp các đối tượng, gọi là các nút đỉnh, và E là một tập hợp các liên kết,
được gọi là các cạnh, kết nối hai yếu tố của V. Cutpoints và key player là các nút
mà việc xóa nó đi sẽ phân đoạn mạng thành những nhóm bị ngắt kết nối. Một số
bài báo cung cấp một số công trình quan trọng đã được thực hiện trong lĩnh vực
này.
Ref. [2] mô tả công việc đáng chú ý cung cấp giới thiệu một số phần của bài
toán cùng với phân loại của nó. Trong bài báo này, tác giả giải thích các biện pháp
như thế nào độ đo trung tâm có thể được áp dụng trên các mạng xã hội. Ref. [5]

của cùng tác giả đã giải thích làm thế nào các độ đo trung tâm có thể được áp dụng
cho xác định lưu lượng giao thông trên một cấu trúc mạng. Ref. [4] cung cấp một
đặc tính hình học của các key player được xác định với một độ đo intercentrality,
trong đó có vào tài khoản của cả hai của một cầu thủ trung tâm và đóng góp cho
trung tâm của những người khác. Các tác giả đã chơi game là lĩnh vực của họ cho
nghiên cứu của họ. Các kết quả được thể hiện như là một kết quả nghiên cứu của
8
họ. Ref. [6] cung cấp một cái nhìn sâu sắc vào vấn đề. Bài viết này có thể được sử
dụng như một vật liệu giới thiệu để biết chi tiết liên quan đến khu vực của các key
player như ý nghĩa của vấn đề chủ chốt, phân loại và khác nhau lĩnh vực ứng dụng
của khu vực. Bài báo này cũng thảo luận về về làm thế nào các biện pháp trung
tâm là hữu ích trong việc tìm kiếm chủ chốt. Phương pháp tiếp cận khác nhau
được áp dụng cho tìm thấy các key player cũng được giải thích trong bài báo này.
Ref. [1] được áp dụng cách tiếp cận lý thuyết thông tin để xác định bộ key player.
Các tác giả đề xuất một phương pháp mới nhằm tìm kiếm một tập hợp các key
player bằng cách sử dụng dữ liệu ngẫu nhiên các biện pháp. Ref. [3] kết hợp các
phương pháp hiện có trên tính toán giá trị chính xác và giá trị gần đúng của sự gần
gũi trung tâm và trình bày các thuật toán mới để xếp hạng các đỉnh đầu-k với trung
tâm của sự gần gũi cao nhất.
VI. Kết luận
Một key player là những người luôn luôn tỏa sáng và tham gia vào các hoạt
động cộng đồng. Trong vấn đề này, cách tiếp cận trung tâm được sử dụng xác định
các bộ của các key player trong weblog. Các mối quan hệ cũng như cách tương tác
trong một mạng xã hội sẽ luôn thay đổi. Như vậy, các công cụ mới cũng sẽ phát
triển để thích ứng tốt hơn với cộng đồng những người sử dụng mạng xã hội.
VII.Ứng dụng
Chương trình cho phép nhập vào đồ thị người dùng trên mạng xã hội và xuất ra
các độ đo trung tâm để tìm kiếm key player. Chương trình được viết bằng ngôn
ngữ đặc tả HTML và ngôn ngữ lập trình Javascript và có thể chạy trên các trình
duyệt Web như Google Chrome, Firefox, Opera và Safari.

9
Chương trình gồm hai phần:
- P
h
ần bên trái dùng để nhập bài toán bao
gồm nhập số đỉnh và ma trận kề hay danh
sách liên kết các đỉnh
trong
đồ thị
(Trong đó sự thay
đổi của ma trận kề tương ứng với tập các
cạnh của đồ thị).
- Phần bên phải dùng để hiển thị
lời giải như sau
10
11
12
13
14
15
VIII.
16
IX. Tham khảo
[1] Daniel Ortiz - Arroyo, D. M. Akbar Hussain, "An information
Theory approach to identify sets of key players", LNCSA 5376, pp
15-26, 2008
[2] Stephen P. Borgatti, "Identifying sets of key players in a social
network", Computational and mathematical organization theory,
springer US, vol 12, no 1, pp 21-34, 2006
[3] Kazuya Okamoto, Wei Chen, Xiang - Yang Li, "Ranking of

closeness centrality for large - scale social networks", Springer
Lecture Notes in Computer Science, pp 186-195, 2008
[4] Coralio Ballester, Antoni Calvo - Armengol, Yves Zenou, "Who's
who in networks wanted: the key player", Econometrica, vol 74,
No. 5, pp 1403-1417, 2006
[5] Stephen P. Borgatti, "Centrality and network flow", Social
Networks, Vol 27, pp 55–71, 2005
[6] Stephen P. Borgatti, "The Key Player Problem" available at:
www.steveborgatti.com/ /borgatti%20-%20NAS%20-
17

×