Tải bản đầy đủ (.docx) (74 trang)

Giải pháp phát hiện thông tin sai lệch trên mạng xã hội theo hướng tiếp cận tối ưu tổ hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 74 trang )

1
LỜI CAM ĐOAN
Tơi xin cam đoan khóa luận tốt nghiệp “Giải pháp phát hiện thông tin sai
lệch trên mạng xã hội theo hướng tiếp cận tối ưu tổ hợp” là cơng trình nghiên
cứu của bản thân tơi; các số liệu sử dụng trong khóa luận là trung thực, chính
xác; các tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng; kết quả nghiên cứu
không sao chép vi phạm bản quyền của bất kỳ cơng trình nào.
Tơi xin chịu mọi trách nhiệm và hình thức kỷ luật theo quy định cho lời
cam đoan của tôi.
Hà Nội, tháng 07 năm 2019
Sinh viên


2

MỤC LỤC


3
DANH MỤC TỪ VIẾT TẮT

Từ viết tắt

Tiếng anh

Tiếng việt

MD

Misinformation Detection


Phát hiện thông tin sai lệch

Minimum Budget for

Phát hiện thông tin sai lệch

Misinformation Detection

với ngân quỹ nhỏ nhất

IC

Independent Cascading

Bậc độc lập

LT

Linear Threshold

Ngưỡng tuyến tính

Non-deterministic

Thuật tốn bất định trong

polynomial-time

thời gian đa thức


IM

Influence Maximization

Tối đa hóa ảnh hưởng

SC

Set Cover

Tập phủ

MBD

NP


4
DANH MỤC HÌNH VẼ


5
MỞ ĐẦU
1. Lý do nghiên cứu đề tài
Cùng với sự phát triển của Internet, các mạng xã hội đã phát triển mạnh
mẽ và trở thành một xu hướng mới thu hút nhiều người sử dụng trên Internet.
Hiện nay, có hàng tỷ người sử dụng mạng xã hội trên toàn thế giới. Nhờ có
mạng xã hội, người dùng có thể trao đổi thơng tin với nhau một cách nhanh
chóng bất kể khoảng cách địa lý và thời gian. Không những thế, mạng xã hội
còn cung cấp cho người dung rất nhiều tiện ích và ứng dụng hữu ích, làm cho

cuộc sống của con người ngày càng trở nên thuận tiện.
Mạng xã hội khơng những kế thừa những đặc tính của mạng lưới xã hội
thực như: tương tác giữa người dung, lan truyền thông tin, tạo ảnh hưởng
trong mạng lưới v.v.. mà cịn mang nhiều đặc tính mới như: Thơng tin trong
thế giới thực được cập nhật trên mạng một cách nhanh chóng, sự lan truyền
thơng tin giữa người dung xảy ra trong thời gian ngắn, sự bùng nổ thông tin
với các nguồn tin tức khác nhau. Có thể nói, hiện nay mạng xã hội là nguồn
cung tri thức dồi dào và thuận tiện cho con người.
Tuy nhiên, mạng xã hội không phải là nguồn thơng tin chính thống,
mơi trường mạng chưa có chế đảm bảo cho tính chính xác của thơng tin, dẫn
đến việc nó có thể trở thành một khơng gian để các kẻ xấu lợi dụng nhằm
truyền bá những thông tin xấu, những tin tức giả chưa được kiểm chứng,
những phát ngôn gây thù địch nhằm định hướng dư luận xã hội. Bên cạnh
những thơng tin tin cậy, chính xác thì những thơng tin sai lệch cũng lan truyền
trên mạng xã hội một cách nhanh chóng, dễ dàng. Một nhóm nghiên cứu đến
từ Đại học Columbia (New York, Mỹ) [5] đã chỉ ra rằng tốc độ lan truyền của
thông tin sai lệch ngang bằng so với những tin tức chính thống.


6
Các yếu tố này gây ra những tác hại lớn đối với cộng đồng người sử
dụng mạng xã hội. Những tác hại này diễn ra trên phạm vi toàn thế giới, gây
ra những tác động xã hội tiêu cực, thậm chí là tổn thất lớn về kinh tế, chính
trị, tác động không nhỏ tới các cá nhân, tổ chức, tâm lý, cuộc sống của con
người. Tại Việt Nam, tin giả, thơng tin sai lệch xuất hiện dưới đủ các hình
thức: Từ những tin tức được trình bày giống như một tin báo chí trên một số
trang tin, đến các câu chuyện sai sự thật, các hình ảnh, video cắt ghép được
lan truyền trên các mạng xã hội, và cả các tin tức sai một phần xuất hiện trên
báo chí do không được kiểm chứng thông tin. Những thông tin này kích thích
sự tị mị của người dùng mạng xã hội nhằm mục đích tạo sự chú ý, tăng lượt

người xem phục vụ mục đích kinh tế, xa hơn nữa là thực hiện các hành vi
không trong sang nhằm gây thiệt hại cho các cá nhân, tổ chức, thậm chí là
phục vụ các mục đích xuyên tạc, chống phá sự lãnh đạo của chính quyền
Nhân dân.
Thơng tin sai lệch cho rằng cựu Tổng thống Mỹ Barack Obama bị
thương trong Nhà trắng vào năm 2013 đã dẫn tới sự bất ổn của thị trường tài
chính phố Wall, gián tiếp gây ra tổn thất 136,5 triệu đơ la cho thị trường
chứng khốn [6]. Những tin đồn sai lệch về dịch Ebola bùng phát vào năm
2014 tại bang Washington D.C đã gây hoang mang, tác động tiêu cực không
chỉ trên phạm vi nước Mĩ mà cịn lan rộng ra trên tồn thế giới [7]. Tại Việt
Nam, trước thềm Đại hội đại biểu toàn quốc lần thứ XII của Đảng Cộng sản
Việt Nam, đã có những thơng tin sai lệch về gia đình cũng như tài sản của Thủ
tướng Nguyễn Xuân Phúc lúc đó vẫn đang giữ chức vụ Phó Thủ tướng Chính
phủ, nhằm hạ uy tín, gây mất lịng tin của Nhân dân đối với Thủ tướng. Gần
đây, theo báo cáo của đài NDTV (Ấn Độ), những tin đồn thất thiệt trên mạng
xã hội là nguyên nhân chính gây nên cuộc bạo loạn ở quận Pune, thành phố
Mumbai [8].


7
Trong thời gian gần đây, Đảng và Nhà nước ta đã đề ra rất nhiều biện
pháp nhằm ngăn chặn tác động của thông tin sai lệch trên mạng xã hội. Đặc
biệt là việc ban hành luật An ninh mạng quy định về hoạt động bảo vệ an ninh
quốc gia và bảo đảm trật tự, an tồn xã hội trên khơng gian mạng. Trong đó
cơng việc quan trọng đầu tiên, là chủ động phát hiện thông tin sai lệch, nguồn
phát tán thơng tin sai lệch kịp thời, nhanh chóng, chính xác.
Những thông tin sai lệch, không được kiểm chứng không chỉ tạo sự tò
mò cho người dùng trên mạng xã hội mà còn tiềm ẩn các nguy cơ phát tán mã
độc, lừa đảo trên mạng gây mất an ninh, an toàn thơng tin. Với thực trạng đó,
các nhà khoa học đã nghiên cứu những giải pháp hiệu quả để phát hiện kịp

thời nhằm xử lý, ngăn chặn thông tin sai lệch. Trong đó việc mơ hình hóa q
trình lan truyền thơng tin trên mạng là một trong những hướng tiếp cận nền
tảng để giải quyết vấn đề này. Các mơ hình lan truyền thơng tin, hay cịn gọi
là mơ hình khuếch tán thông tin được các nhà khoa học đưa ra đã mơ hình hóa
tốn học và mơ tả một cách tương đối chính xác một mạng lưới và q trình
thơng tin lan truyền trên mạng xã hội.
Thúc đẩy bởi những hiện tượng nêu trên và yêu cầu bức thiết của việc
phát hiện, giải quyết những tác hại do virus và tin đồn sai lệch trên mạng xã
hội mang lại. Tôi đã mạnh dạn nghiên cứu đề tài “Giải pháp phát hiện thông
tin sai lệch trên mạng xã hội theo hướng tiếp cận tối ưu tổ hợp”. Đề tài tập
trung vào nghiên cứu bài tốn tìm tập nút có kích cỡ nhỏ nhất để đặt giám sát
nhằm đảm bảo kì vọng của hàm phát hiện thông tin không nhỏ hơn ngưỡng ,
việc giải quyết bài tốn có ý nghĩa thực tiễn và khoa học trong việc phát hiện
thông tin sai lệch và đảm bảo thơng tin được lan truyền chính xác và minh
bạch.
2. Tình hình nghiên cứu liên quan đến đề tài
Phát hiện thông tin sai lệch, nguồn phát tán thông tin sai lệch, tin đồn,


8
virus hiện nay là một chủ đề được nhiều nhà khoa học quan tâm. Rất nhiều
những nghiên cứu và bằng sáng chế liên quan đến vấn đề này có tính ứng
dụng thực tiễn cao được áp dụng trên các mạng xã hội, ứng dụng trong nhiều
ngành lĩnh vực như giáo dục, y tế sức khỏe, ứng dụng cho chính phủ cũng
như các vấn đề bảo vệ An ninh Quốc gia.
Không chỉ ở Việt Nam mà đối với các nước trên thế giới, hiện nay sự
phát tán của thông tin sai lệch đã trở thành vấn nạn nghiêm trọng. Một số
nước đã thành lập các trung tâm chống tin tức giả sử dụng các biện pháp, giải
pháp kỹ thuật cũng như xã hội để phát hiện, ngăn chặn ảnh hưởng thông tin
sai lệch đối với xã hội.

Sử dụng các kĩ thuật khai phá dữ liệu, thơng tin sai lệch có thể được tự
động phát hiện thông qua các nội dung người dùng đã đăng, chia sẻ, bình luận
trên mạng xã hội. Kwon [9] đề xuất một phương pháp để xác định tin đồn dựa
trên các đặc điểm thời gian, cấu trúc và ngôn ngữ của người dùng. Qazvinian
và cộng sự [10] đã chỉ ra rằng các tính năng bao gồm các meme dựa trên nội
dung, dựa trên mạng và các microblog cụ thể có thể được sử dụng để xác định
hiệu quả thông tin sai lệch. Dựa trên những nghiên cứu đó, gần đây một số
nhà nghiên cứu đã đề xuất một phương pháp tốn học để xác định thơng tin
sai lệch hoặc sự bùng phát thông tin trong mạng xã hội bằng cách đặt các
giám sát, cảm biến tại một số điểm quan trọng trong mạng [11]–[13].
Leskovec và cộng sự [14] đề xuất một giải pháp đặt cảm biến gần tối ưu cho
bài tốn phát hiện trong khơng gian các blog. Cui và nhóm nghiên cứu của
mình [15] đã đề xuất một cách tiếp cận dựa trên dữ liệu để lựa chọn ra các
đỉnh quan trọng trong mạng để đặt cảm biến có thể xác định sự bùng phát
thơng tin với xác suất tương đối cao. Zhang và các cộng sự [11], [12] đã phát
biểu bài tốn Phát hiện thơng tin sai lệch (Misinformation Detection – MD)
theo hướng tối ưu tổ hợp với mục đích chọn ra k đỉnh để đặt giám sát sao cho


9
kì vọng xác suất phát hiện thơng tin sai lệch là tối đa. Họ chỉ ra bài tốn tối đa
hóa ảnh hưởng (Influence Maximization – IM) [16] là một trường hợp con
của bài toán MD khi tất cả các đỉnh có cùng xác suất trở thành nguồn phát tán
thơng tin sai lệch. Sau đó, Zhang và cộng sự [13] tiếp tục đề xuất bài tốn
Phát hiện thơng tin sai lệch trong ngưỡng thời gian (Time Constrained
Misinformation Detection – TCMD) nhằm tìm kiếm tập nhỏ nhất các đỉnh để
đặt giám sát để có thể nắm bắt tất cả các thơng tin sai lệch có trong điều kiện
thời gian nhất định theo mơ hình Bậc độc lập (Independent Casade – IC) với
cạnh trễ (Edge Delay). Tuy nhiên thuật toán heuristic của họ không cung cấp
được bất kỳ tỷ lệ xấp xỉ nào.

Mặc dù có một số lượng lớn các nghiên cứu liên quan nhằm giải quyết
bài tốn tối ưu hóa việc đặt giám sát, cảm biến, tuy nhiên các nghiên cứu đó
chưa giải quyết được nhiều trường hợp trong thực tế. Một trong những hạn
chế đó là trong trường hợp số lượng cảm biến, giám sát có thể đặt bị ràng
buộc, khi đó chúng ta khơng biết được có bao nhiêu cảm biến, giám sát cần
thiết đặt là đủ để có thể phát hiện hiệu quả thơng tin sai lệch.
Ngồi ra, việc giải quyết các bài toán liên quan đến lan truyền thơng tin
có mối quan hệ chặt chẽ với bài tốn tính tốn hàm mục tiêu. Đây là bài tốn
khó bởi vì tính ngẫu nhiên của các mơ hình lan truyền thông tin. Chen và
cộng sự [17], [18] đã chứng minh việc tính tốn hàm kì vọng ảnh hưởng của
một tập đỉnh trong một mơ hình khuếch tán ngẫu nhiên là bài tốn #P khó. Để
giải quyết vấn đề này, một số nghiên cứu đã sử dụng mơ phỏng Monte-Carlo
để tính tốn kì vọng của hàm phát hiện thơng tin sai lệch [12], [13], tuy nhiên
các kết quả lý thuyết chỉ ra số lượng mô phỏng cần thiết để đảm bảo được độ
xấp xỉ kết quả là quá cao cho việc áp dụng vào thực tế.
3. Mục tiêu, nhiệm vụ nghiên cứu
- Mục tiêu nghiên cứu: Đề tài khóa luận thực hiện nhằm để đạt được các mục


10
tiêu sau:
+ Tìm hiểu tổng quan về mạng xã hội, các đặc trưng cơ bản của mạng xã hội.
+ Tìm hiểu thơng tin sai lệch, q trình phát tán thơng tin sai lệch, cơ chế phát
tán thông tin sai lệch và các mơ hình phát tán thơng tin tin sai lệch.
+ Đề xuất bài tốn phát hiện thơng tin sai lệch theo ngưỡng, đưa ra giải pháp
phát hiện thông tin sai lệch trên mạng xã hội theo hướng tiếp cận tối ưu tổ
hợp.
- Nhiệm vụ nghiên cứu: Trên cơ sở những mục tiêu trên, tác giả đề ra các nhiệm
vụ cần giải quyết sau:
+ Nghiên cứu, hệ thống hóa những vấn đề lý luận liên quan tới mạng xã

hội, bao gồm định nghĩa, sự hình thành và phát triển, các đặc tính của mạng
xã hội.
+ Nghiên cứu các vấn đề lý luận liên quan tới thông tin sai lệch, những
nguy cơ và hậu quả do thông tin sai lệch gây ra.
+ Phân tích cơ chế lan truyền thơng tin sai lệch trên mạng xã hội, mơ hình
hóa cơ chế này bởi các mơ hình lan truyền thơng tin, nghiên cứu đặc tính
của các mơ hình này.
+ Đề xuất bài tốn phát hiện thông tin sai lệch theo ngưỡng, chứng minh độ
khó bài tốn, đưa ra giải pháp phát hiện thơng tin sai lệch cho bài toán trên,
chứng minh kết quả lý thuyết về độ xấp xỉ của thuật toán và tiến hành thực
nghiệm, so sánh, đánh giá với các giải pháp đã công bố.
4. Đối tượng và phạm vi nghiên cứu của đề tài
- Đối tượng nghiên cứu: Các mạng xã hội trực tuyến, thông tin sai lệch được
phát tán trên mạng xã hội và q trình lan truyền thơng tin sai lệch trên mạng
xã hội.
- Phạm vi nghiên cứu:
+ Không gian nghiên cứu: Các mạng xã hội tồn tại trên Internet, lớp bài tốn
tối ưu hóa tổ hợp trên đồ thị.
+ Thời gian: Từ năm 1995 (năm đầu tiên mạng xã hội xuất hiện) cho tới nay.
5. Phương pháp nghiên cứu


11
Trên cơ sở những điều kiện và đặc điển nêu trên, để đạt được mục tiêu
nghiên cứu của đề tài, tác giả sử dụng tổng hợp các cách tiếp cận và phương
pháp nghiên cứu sau:
- Phương pháp nghiên cứu lý thuyết:
+ Phương pháp phân tích và tổng hợp lý thuyết: Tác giả thực hiện tìm hiểu,
nghiên cứu, phân tích, tổng hợp các bài báo khoa học nội dung có liên quan
đến vấn đề nghiên cứu được đăng trên các hội nghị khoa học, tạp chí uy tín

trên thế giới được cộng đồng nghiên cứu sử dụng ở các địa chỉ sau:
• Google Scholar: />• ACM Digital Library: />• Springer: />• ArXiv: />• Science direct: />+ Phương pháp phân loại và hệ thống hóa lý thuyết: Từ những kiến thức thu
được bằng phân tích và tổng hợp lý thuyết, tác giả tiến hành sắp xếp các kiến
thức thu được theo từng lĩnh vực, sau đó hệ thống hóa các thơng tin đó một
cách khoa học phục vụ cho cơng tác nghiên cứu.
+ Phương pháp mơ hình hóa: Từ những lý thuyết tìm hiểu được về mạng xã hội,
quá trình lan truyền thông tin trên mạng xã hội, tác giả tiến hành mơ hình hóa
tốn học mạng xã hội, nghiên cứu, sử dụng mơ hình lan truyền thơng tin cho
phù hợp thực tế q trình lan truyền. Các bài tốn thực tế cũng được định
nghĩa dựa trên các mơ hình tốn học trên.
- Phương pháp nghiên cứu thực tiễn:
+ Phương pháp chuyên gia: Xem xét, tham khảo những ý kiến, đóng góp,
định hướng từ những chun gia có kinh nghiệm, trình độ cao trong lĩnh
vực tối ưu hóa để có góc nhìn, định hướng nghiên cứu phù hợp, và nhận
định rõ được bản chất của vấn đề nghiên cứu.
+ Phương pháp thực nghiệm khoa học: Tiến hành thực nghiệm các phương
pháp đề xuất, các phương pháp đã có áp dụng cho bài tốn đặt ra trên máy
tính với mơi trường, tham số phù hợp, đánh giá phương pháp dựa trên các
bộ dữ liệu đáng tin cậy khác nhau. Phương pháp này giúp kiểm chứng tính


12
chính xác và tính khả thi của những giải pháp, thuật toán được đề xuất của
đề tài, là một trong những cơ sở để đánh giá tính hiệu quả so với các
phương pháp đã có về mặt thực nghiệm.
+ Phương pháp thống kê: Từ những kết quả, số liệu từ phương pháp thực
nghiệm khoa học, đề tài tiến hành tổng hợp, xử lý, thống kê và mô tả bằng
các biểu đồ thích hợp, phục vụ q trình phân tích đánh giá.
6. Ý nghĩa khoa học, ý nghĩa thực tiễn của đề tài
- Ý nghĩa khoa học:

+ Hệ thống hóa những lý luận về mạng xã hội, quá trình, cơ chế lan truyền
thông tin sai lệch trên mạng xã hội trực tuyến.
+ Đưa ra những giải pháp mới có ý nghĩa trong nghiên cứu lý thuyết cơ bản
cũng như thực tế cho bài tốn phát hiện thơng tin sai lệch trên mạng xã hội
hiện nay.
+ Trong quá trình nghiên cứu, kết quả của tác giả đã đóng góp một phần vào bài
báo khoa học đang được submit tại tạp chí World Wide Web (WWW) với tên
là: Minimum Budget for Misinformation Detection in Online Social Networks
with Provable Guarantees.
- Ý nghĩa thực tiễn:
+ Giúp người sử dụng có cái nhìn rõ hơn về những tác hại của mạng xã hội
và đặc biệt là thực trạng về thông tin sai lệch.
+ Đánh giá thực trạng lan truyền, quy luật lan truyền của thông tin sai lệch
trên mạng xã hội.
+ Đề xuất một giải pháp nhằm phát hiện thông tin sai lệch trên mạng xã hội
trực tuyến chính xác, hiệu quả.
7. Kết cấu của đề tài
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo và các phụ
lục, đề tài được cấu trúc gồm 3 chương:
Chương 1: Giới thiệu về mạng xã hội
Chương này giới thiệu tổng quan về mạng xã hội bao gồm: Định nghĩa


13
mạng xã hội, lịch sử hình thành, phát triển, những tính năng và những đặc
trưng cơ bản của mạng xã hội. Ngồi ra nội dung chương cịn cung cấp một
số lợi ích mạng xã hội đem lại phục vụ đời sống con người.
Chương 2: Thơng tin sai lệch, q trình và cơ chế lan truyền trên
mạng xã hội
Chương này trình bày định nghĩa, các tính chất của thơng tin sai lệch, thực

trạng lan truyền thông tin sai lệch và phân tích cơ chế lan truyền thơng tin sai
lệch trên mạng xã hội dưới các mơ hình khuếch tán ngẫu nhiên.
Chương 3: Giải pháp phát hiện thông tin sai lệch trên mạng xã hội
Chương này xây dựng mơ hình, phát biểu và định nghĩa bài tốn Phát hiện
thơng tin sai lệch với ngân quỹ nhỏ nhất – MBD, chứng minh độ khó về mặt
lý thuyết của bài tốn, đồng thời đề xuất giải pháp hiệu quả để giải quyết bài
toán, so sánh với các giải pháp đã có về cả mặt lý thuyết và thực nghiệm.


14

Chương 1
GIỚI THIỆU VỀ MẠNG XÃ HỘI

Chương này tập trung vào giới thiệu tổng quan về mạng xã hội, bao gồm:
Định nghĩa mạng xã hội, lịch sử hình thành, phát triển, những tính năng và
những đặc trưng cơ bản của mạng xã hội. Chương này còn cung cấp một số
lợi ích mà mạng xã hội đem lại trong nhiều lĩnh vực của đời sống, giúp người
dùng thuận tiện, dễ dàng chia sẻ thông tin với nhau hơn.
1.1. Giới thiệu chung về mạng xã hội


15
Trong những năm gần đây, cùng với sự phát triển của Web 3.0, các
mạng xã hội trực tuyến như Facebook1, Instagram2, Twitter3, ngày càng trở
nên phổ biến và có sự phát triển nhanh chưa từng thấy. Theo số liệu công bố
trên trang Statista4, tính đến tháng 4/2019, Facebook vẫn là mạng xã hội có số
lượng người dùng lớn nhất thế giới với hơn 2.32 tỉ người sử dụng, Instagram
với hơn 1 tỉ người sử dụng xếp thứ 6, và Twitter với hơn 330 triệu người đứng
ở vị trí thứ 12 trong bảng xếp hạng.

1.1.1. Định nghĩa mạng xã hội
Mạng xã hội, hay còn gọi là mạng xã hội ảo (Social network) là dịch vụ
kết nối các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục

Hình 1.1. Bảng xếp hạng các mạng xã hội theo số lượng người dùng,
tháng 4/2019 (Đơn vị triệu người)

đích khác nhau khơng phân biệt không gian và thời gian. Những người tham
1 />2 />3 h />4 />

16
gia vào mạng xã hội còn được gọi là cư dân mạng (Theo Wikipedia5).
Theo Marin và Wellman [19], mạng xã hội là một tập hợp các tác nhân
có yếu tố xã hội được kết nối với nhau bởi một hoặc nhiều các quan hệ xã hội.
Ngồi ra, cịn một số định nghĩa khác về mạng xã hội, có thể kể đến như:
Mạng xã hội là một cấu trúc xã hội được tạo thành từ các nút và các cung mà
mỗi nút được liên kết bởi một hoặc nhiều cung khác nhau, thể hiện một mối
quan hệ cụ thể [20].
Cùng với sự phát triển mạnh mẽ của Internet, các mạng xã hội đã phát
triển một cách nhanh chóng. Người dùng trên mạng xã hội có thể giao tiếp với
nhau bất chấp khoảng cách địa lý, nhờ đó sự liên kết và tương tác giữa con
người với nhau trở nên thường xuyên và nhanh chóng. Các nhà nghiên cứu
cho rằng thuật ngữ “xã hội” giải thích cho các tính năng giống như một xã hội
thực của mạng.
Một mạng xã hội thông thường có những tính năng như: E-mail, chat,
voice chat, phim ảnh, chia sẻ file, blog và xã luận. Có nhiều cách để người sử
dụng có thể tìm kiếm bạn bè, đối tác, đó là: Dựa theo các nhóm người dùng,
dựa trên thông tin cá nhân (Địa chỉ e-mail, số điện thoại hay tên tài khoản),
dựa trên sở thích cá nhân (Thể thao, phim ảnh, sách báo, ca nhạc), hay là lĩnh
vực quan tâm (Kinh doanh, mua bán). Nhờ vào các tính năng này mà mạng xã

hội có thể kết nối mọi người một cách dễ dàng, chia sẻ sở thích và hoạt động
khơng phân biệt tuổi tác, chế độ chính trị, kinh tế và khoảng cách địa lý. Qua
e-mail, tin nhắn tức thời và các nhóm người dùng, các cộng đồng trực tuyến
được tạo ra để mọi người có thể dễ dàng trao đổi thơng tin với nhau.
Ngồi ra, mạng xã hội cịn xây dựng nhiều mơi trường nền tảng phục
vụ cho nhiều tiện ích, ứng dụng cho người dùng (Giáo dục, y tế, sức khỏe,
kinh doanh, quản lý). Do đó ngoài việc sử dụng mạng xã hội để trao đổi thông
5 />

17
tin thì người sử dụng cịn có thể tiến hành nhiều hoạt động khác tùy theo các
tiện ích được cung cấp.
Mạng xã hội có nhiều ảnh hưởng tới các hoạt động trong thế giới thực.
Theo một nghiên cứu của trung tâm Pew Research Center 6, trung bình 63% số
người sử dụng các mạng xã hội ở Mỹ xem các mạng này là nguồn thơng tin
chính thức. Nghiên cứu này cũng cho thấy rằng người dùng chịu các ảnh
hưởng về cảm xúc khi tham gia vào mạng xã hội. Không những thế, mạng xã
hội trực tiếp tác động đến các mối quan hệ trong thế giới thực. Ngày càng có
nhiều cơng ty, cơ quan, tổ chức khuyến khích thành viên của mình sử dụng
mạng xã hội để tạo ra các kết nối trong nội bộ. Ngồi ra, người dùng có thể tự
hình thành nên các nhóm có cùng sở thích, đam mê, cùng quan điểm về một
lĩnh vực nhất định.
1.1.2. Lịch sử phát triển của mạng xã hội
Lịch sử phát triển của mạng xã hội luôn đồng hành cùng với sự phát
triển của Internet. Từ những e-mail đầu tiên được gửi đi bởi các nhà nghiên
cứu Thụy Sĩ vào năm 1971 đến những mạng xã hội hiện đại như Facebook,
Twitter,v.v, Internet và các nội dung chia sẻ luôn gắn liền với tính chất cộng
đồng. Mục tiêu chính của Internet là tạo ra phương tiện để con người có thể
kết nối, giao tiếp và tương tác với nhau.
Năm 1994 đánh dấu sự ra đời của Blog cá nhân đầu tiên. Justin Hall,

sinh viên đại học Swarthmore đã phát triển website mang tên Justin’s Link
from the Underground để kết nối với thế giới bên ngoài. Hall đã xây dựng
trang web trong suốt 11 năm và anh được mệnh danh là “cha đẻ của trang
blog cá nhân”.

6 />

18
Năm 1995 đánh dấu sự ra đời của mạng xã hội đầu tiên với sự ra đời
của trang Classmate7 với mục đích hỗ trợ mọi người có thể tìm lại bạn bè từng
học tập cùng với mình từ thời tiểu học, trung học và đại học của người dùng.
Tiếp theo là sự xuất của SixDegrees 8 vào năm 1997 với mục đích giao lưu kết
bạn dựa theo sở thích. Năm 2001, sau vụ khủng bố trung tâm thương mại thế
giới vào ngày 11/09/2001 đã gợi cảm hứng cho Scott Heiferman tìm cách tạo
ra trang web Meetup9 nhằm giúp mọi người có thể kết nối với nhau và thậm
chí khơng cần online. Trang web có mục đích là tạo điều kiện cho những
người có cùng suy nghĩ gặp gỡ, trị chuyện, học tập và kết nối, giao tiếp cùng
với những người khác.
Năm 2002, mạng xã hội Friendster10 ra đời cho phép người dùng tạo
thông tin cá nhân và kết nối ảo với những người khác, và trở thành một trào
lưu mới tại Hoa Kỳ với hàng triệu người dùng đăng ký. Tuy nhiên, với sự
phát triển quá nhanh về số lượng người dùng cũng như nhu cầu tương tác trên
mạng xã hội ngày càng lớn đã dẫn đến hệ thống máy chủ của Friendster
thường bị quá tải mỗi ngày, dẫn đến sự thất vọng của người dùng.
Kế thừa các bước phát triển của các mạng xã hội đi trước, năm 2003
mạng xã hội MySpace11 ra đời với nhiều tính năng mới cho phép người dùng
tải các hình ảnh video, nhanh chóng thu hút hàng chục ngàn thành viên mới
mỗi ngày. Điều này phản ánh rõ nhu cầu của người dùng đối với mạng xã hội
càng ngày càng lớn. Mạng xã hội lúc đó khơng chỉ là một khơng gian để
người dùng trao đổi, tương tác, kết bạn với nhau mà còn là nơi thể hiện quan

điểm, ý kiến, sở thích của họ. Do nắm được các nhu cầu của người dùng,
MySpace trở thành mạng xã hội đầu tiên có nhiều lượt xem vượt qua cả
7 />8 />9 />10 />11 />

19
Google, tuy nhiên sự ra đời của Facebook đã khiến MySpace nhanh chóng trở
thành dĩ vãng.
Năm 2004, Mark Zuckerburg giới thiệu mạng xã hội Facebook, đánh
dấu bước ngoặt mới cho hệ thống mạng xã hội trực tuyến. Với nền tảng
Facebook Platform hỗ trợ mạnh mẽ cho các ứng dụng, người dùng có thể tạo
ra những ứng dụng mới cho cá nhân mình cũng như các thành viên khác.
Facebook nhanh chóng gặt hái được thành công vượt bậc, mang lại nhiều tính
năng mới và đóng góp khơng nhỏ cho con số trung bình 19 phút mà các thành
viên bỏ ra trên trang này mỗi ngày. Đến đây, khái niệm về mạng xã hội mới
thực sự được hình thành và đầy đủ giống như hiện nay.
Năm 2005, mạng xã hội YouTube12 ra đời, cho phép người dùng tự do
đăng tải và chia sẻ video với gia đình, bạn bè. Tiếp sau đó, năm 2006, Twitter
ra đời, cho phép mỗi cá nhân có thể truyền đạt thơng tin nhanh chóng và dễ
dàng với các mẩu tin nhỏ tweets. Năm 2011, Google+ ra đời, mang đầy đủ
tính năng của Google, liên kết người dùng bởi các danh sách liên lạc vào các
đoạn khác nhau (Vịng) và giao tiếp với nhau qua cơng cụ chat Video
Hangouts. Năm 2012, Pinterset13 được sang lập, là mạng xã hội hình ảnh đồ
họa, phát triển nhanh chóng vượt mức 10 triệu người sử dụng.
Hiện nay có rất nhiều mạng xã hội trên tồn thế giới, có thể kể đến một
số mạng xã hội lớn như Orkut14 và Hi515 tại Nam Mỹ, Bebo16 tại Anh,
CyWorld17 tại Hàn Quốc, Mixi18 tại Nhật Bản, Sina Weibo19 tại Trung

12 />13 />14 />15 />16 />17
18 />19



20
Quốc,v.v. Tại Việt Nam, một số mạng xã hội như Zing Me 20, Yume21 cũng đã
thu hút được nhiều người dùng với nhiều mục đích khác nhau.
1.1.3. Những tính năng của mạng xã hội
Một mạng xã hội giống như một xã hội ảo, trong đó mỗi tài khoản
tương đương một cá nhân trong xã hội. Tuy nhiên, khác với thế giới thực, mỗi
mạng xã hội bao gồm một số đặc điểm nổi bật: khả năng truyền tải thông tin
nhanh và lưu trữ lượng thơng tin khổng lồ, tính tương tác, tính liên kết cộng
đồng.
a) Khả năng truyền tải và lưu trữ thông tin:
Một đặc điểm quan trọng trên mạng xã hội là những thông tin, xu
hướng được lan truyền rộng rãi trong thời gian ngắn. Mỗi thành viên là một
mắt xích để tạo ra mạng lưới truyền tải thơng tin đó. Người dùng có thể tương
tác với nhau bất kể khoảng cách về giới tính, địa lý, ngơn ngữ, tơn giáo. Là
những website mở với nội dung được xây dựng hoàn toàn dựa trên các thành
viên tham gia, người dùng có thể tự do chia sẻ các quan điểm cá nhân của
mình, đây là đặc điểm quan trọng của mạng xã hội. Ngoài ra, các trang mạng
xã hội lưu trữ thơng tin nhóm và sắp xếp chúng theo trình tự thời gian, nhờ đó
người dùng có thể dễ dàng truy cập và tìm lại những thơng tin đã đăng tải.
b) Tính đa phương tiện:
Mạng xã hội ra đời, hoạt động theo nguyên lý của Web 2.0 nên có rất
nhiều tiện ích nhờ sự kết hợp linh hoạt giữa các yếu tố văn bản, hình ảnh, âm
thanh, video, v.v.. Sau khi đăng ký mở tài khoản, người dùng có thể tự do xây
dựng một không gian riêng cho bản thân. Nhờ những tiện ích dịch vụ được
cung cấp, người dùng có thể chia sẻ đường dẫn, bài việt, tệp tin, âm thanh,
hình ảnh, video, v.v.. Khơng những vậy, họ cịn có thể tham gia các trò chơi
20
21



21
trực tuyến, các hoạt động nhiều người tham gia, từ đó tạo dựng nên các mối
quan hệ trong xã hội ảo.
c) Tính liên kết cộng đồng:
Đây là tính năng nổi bật của mạng xã hội cho phép mở rộng phạm vi
kết nối giữa con người với con người trong một khơng gian đa dạng. Người
sử dụng có thể trở thành bạn của nhau thông qua việc gửi lời mời kết bạn và
đồng ý mà không cần gặp gỡ trực tiếp. Việc tạo ra các liên kết này hình thành
một cộng đồng mạng với số lượng thành viên lớn. Những người chia sẻ cùng
một mối quan tâm có thể tập hợp lại thành các nhóm trên mạng xã hội,
thường xuyên giao lưu, chia sẻ thơng qua việc bình luận hay nhắn tin của
nhóm.
Về cấu tạo, mỗi mạng xã hội đều được cấu thành bởi hai yếu tố sau:
- Nút (node): Là một thực thể trong mạng, thực thể này thường dùng để biểu
diễn người dùng trong mạng.
- Liên kết (tie, link): Là mối quan hệ giữa các thực thể đó. Trong mạng xã hội
có nhiều kiểu liên kết khác nhau như: liên kết vơ hướng, liên kết có hướng.
1.2. Các đặc trưng của mạng xã hội
1.2.1. Đặc trưng tập nhân
Cấu trúc và sự vận động của mạng xã hội chịu tác động bởi các nút có
số lượng lớn các cung kết nối hay các nút có bậc cao. Người ta gọi những nút
này là nút trung tâm hay nút nhân. Phân tích cấu trúc của mạng xã hội đã chỉ
ra rằng nó ln chứa một lượng lớn những nút có bậc cao [21]. Bao quanh các
nút này là các nút có bậc thấp hơn, cứ như vậy tạo thành một hệ thống phân
cấp. Các nút nhân có vai trị quan trọng trong việc kết nối luồng thơng tin của
tồn mạng, cũng như những người nổi tiếng có tiếng nói, ảnh hưởng rất lớn
tới cộng đồng. Nếu ta chọn một nút nhân và đưa ra khỏi mạng, mạng có thể sẽ
bị phân chia thành các nhóm cơ lập với nhau.



22

Hình 1.2. Đặc trưng tập nhân của mạng xã hội

Một nút mới khi được thêm vào mạng thường có xu hướng kết nối đến
những nút bậc cao, đây được gọi là hiện tượng “rich get richer” (Người giàu
thường trở nên giàu hơn). Hiện tượng này phần nào giải thích trong mạng
những cơng trình khoa học, các bài báo được tham chiếu trích dẫn nhiều thì
được nhiều nhà nghiên cứu tham chiếu, hay trong mạng xã hội trực tuyến
chúng ta thường có xu hướng kết bạn với những người nổi tiếng.
1.2.2. Đặc trưng thế giới nhỏ
Vấn đề nghiên cứu cấu trúc mạng xã hội đã gây được sự chú ý và quan
tâm sâu sắc của các nhà nghiên cứu trong nhiều năm qua. Đầu tiên là thí
nghiệm nổi tiếng có tên là “thí nghiệm thế giới nhỏ” (Small World
Experiment) được thực hiện bởi Stanley Milgram vào năm 1967 nhằm tính
tốn số bước cần thiết để hai người bất kỳ trong một dân số đã được xác định
có thể biết nhau. Nghiên cứu đã chỉ ra rằng giữa hai người dân bất kỳ ở Hoa
Kỳ có thể biết nhau thơng qua trung bình 6 bước.


23

Hình 1.3. Đặc trưng thế giới nhỏ của mạng xã hội

Trên thực tế đó người ta đã kiểm chứng được “hiện tượng thế giới nhỏ”
(Small World Phenomenon) đúng với hầu hết các mạng xã hội nhỏ. Đối với
các mạng xã hội lớn như Facebook, khoảng cách trung bình kết nối giữa hai
người dùng bất kỳ trên thế giới là 5.28 bước vào năm 2008 và đến năm 2011
khoảng cách này rút ngắn xuống cịn 4.74.

Ngồi ra, nghiên cứu của Leskovec [22] chỉ ra rằng bậc trung bình của
các nút trong mạng tăng theo thời gian do số lượng liên kết tăng siêu tuyến
tính so với số lượng nút.
1.2.3. Phân bố luật lũy thừa
Sự phân bố bậc của các nút trong mạng được mô tả bằng hàm , hàm
này cho biết xác suất của một nút có bậc là . Phân bố bậc mô tả các liên kết
trong mạng phân bố như thế nào giữa các nút.
Phân bố bậc của một mạng là tuân theo luật lũy thừa: xác suất một nút
có bậc là tỉ lệ với , với . Hiện nay hầu hết các mạng xã hội đều có phân bố
bậc theo luật lũy thừa [23]. Bảng sau liệt kê một số mạng xã hội với số mũ .
Tên mạng
WWW

Số mũ α
2.3/2.7


24
Film Actors
Telephone Call Graph
Sexual Contacts
Internet
Email Networks
Protein Interactions
Metabolic Network

2.3
2.1
3.2
2.5

1.5/2.0
2.4
2.2

Bảng 1.1. Một số mạng xã hội tiêu biểu cho phân bố luật lũy thừa

1.2.4. Đặc trưng cộng đồng
Cộng đồng là một tập các thực thể có những tính chất tương tự nhau và
cùng đóng một vai trị. Trong xã hội ngày nay, tồn tại nhiều nhóm cộng đồng
khác nhau, chẳng hạn như nhóm bạn bè cùng sở thích, cộng đồng những nhà
khoa học, các câu lạc bộ thể thao, v.v.. Sự phát triển của mạng xã hội trực
tuyến cũng tạo ra nhiều nhóm ảo, hay cịn gọi là các cộng đồng trực tuyến.
Trong mạng xã hội phân chia thành các cộng đồng lớn nhỏ khác nhau,
bên trong các cộng đồng lớn có những cộng đồng nhỏ hơn. Giữa các nút trong
một cộng đồng có mật độ kết nối lớn hơn so với các nút bên ngoài.


25

Hình 1.4. Đặc trưng cấu trúc cộng đồng của mạng xã hội

Xét theo tiêu chí cấu trúc, cộng đồng được chia thành hai kiểu: cấu trúc
cộng đồng tách rời và cấu trúc cộng đồng chồng chéo. Đối với cấu trúc cộng
đồng chồng chéo, một nút có thể thuộc nhiều cộng đồng khác nhau. Ngược
lại, trong cấu trúc cộng đồng tách rời, một nút chỉ thuộc duy nhất một cộng
đồng.


×