Tải bản đầy đủ (.doc) (27 trang)

Tổng quan tình hình nghiên cứu, luận giải về mục tiêu và những nội dung nghiên cứu của nhiệm vụ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (650.77 KB, 27 trang )

15 Tổng quan tình hình nghiên cứu, luận giải về mục tiêu và những nội dung nghiên cứu
của nhiệm vụ
15.1 Đánh giá tổng quan tình hình nghiên cứu thuộc lĩnh vực của nhiệm vụ
15.1.1. Ngoài nước (Phân tích đánh giá được những công trình nghiên cứu có liên quan và những
kết quả nghiên cứu mới nhất trong lĩnh vực nghiên cứu của nhiệm vụ; nêu được những bước tiến
về trình độ KH&CN của những kết quả nghiên cứu đó)
15.1.1.1. Khái niệm mạng xã hội và phương tiện truyền thông xã hội
Nhà xã hội học John Arundel Barnes (người Úc) được coi là một trong những người đầu tiên đưa
thuật ngữ "mạng xã hội" (social network) vào ngữ cảnh nghiên cứu khoa học vào năm 1954
[Barnes54]. Theo David Easley và Jon Kleinberg, 2010 [EK10], mạng xã hội là một cấu trúc xã
hội bao gồm một tập các cá nhân/ tổ chức và một tập các quan hệ xã hội giữa các cá nhân/tổ chức
trong mạng. Mạng xã hội thường được biểu diễn dưới dạng một đồ thị trong đó các cá nhân/tổ
chức được biểu diễn bằng các nút còn các quan hệ xã hội trong mạng được biểu diễn bằng các
cạnh kết nối các nút trong mạng đó. Mạng xã hội trực tuyến (online social network) là mạng xã
hội được thi hành bằng các dịch vụ mạng xã hội trực tuyến (online social network service). Dưới
đây, cụm từ "mạng xã hội" được chỉ "mạng xã hội trực tuyến" nếu không có sự chỉ dẫn riêng.
Khái niệm "phương tiện truyền thông xã hội" (social media) về cơ bản là cùng ý nghĩa và nội
dung với dịch vị mạng xã hội. Thông qua phương tiện truyền thông xã hội, khối lượng nội dung
do người dùng tạo ra (user-generated content: UGC) trở thành thành phần có tỷ trọng lớn nhất
trong tập dữ liệu tổng thể mà con người hiện có.
Jure Leskovec, 2011 [Lesk11] cho rằng phương tiện truyền thông xã hội được thiết kế và thi hành
là để phổ biến tới cộng đồng (community) về các mối quan hệ xã hội. Sheng Yu và Subhash Kak,
2012 [YK12] nhận định rằng phương tiện truyền thông xã hội bao gồm các nền tảng để người
dùng tạo và trao đổi nội dung với cộng đồng người dùng trong mạng. Phương tiện truyền thông xã
hội là đa dạng về hình thức, bao gồm các blog, các trang web mạng xã hội, thế giới xã hội ảo, dự
án hợp tác, cộng đồng nội dung và thế giới trò chơi ảo. Tồn tại phương tiện truyền thông xã hội
mà không bao gói dáng cấu trúc xã hội, chẳng hạn, blogspot.com là một khung nền blog nổi tiếng
nhưng không có liên kết xã hội giữa các blogger. Andreas M Kaplan và Michael Haenlein, 2010
[KH10] cho rằng truyền thông xã hội được hiểu như là "một nhóm các ứng dụng dựa trên Internet
được xây dựng trên nền tảng tư tưởng và công nghệ của Web 2.0, cho phép tạo và trao đổi nội
dung do người dùng tạo ra". Theo các tác giả, thời đại của phương tiện truyền thông xã hội được


bắt đầu từ sự ra đời của trang web ‘‘Open Diary’’
1
(Nhật ký mở) của Bruce và Susan Abelson
(vào tháng 5/2012, Open Diary có trên 381 nghìn nhật ký mở). Hai chiều đặc trưng cơ bản phân
biệt các loại phương tiện truyền thông xã hội là hiện diện xã hội/phong phú phương tiện truyền
thông (social presence/media richness) và tự trình bày/ tự tiết lộ (self-presentation/self-disclosure).
Các tác giả giải thích chi tiết về nội dung ngữ nghĩa của hai chiều đặc trưng này và đưa ra bảng
phân loại các phương tiện truyền thông xã hội theo hai chiều đặc trưng cơ bản nói trên (Hình 1).
Hình 1. Phân loại mạng xã hội theo sự hiện diện tính xã hội/phong phú phương tiện truyền thông
(social presence/media richness) và đặc trưng tự trình bày/tự tiết lộ (self-presentation /self-
disclosure) [KH10]
Các phát biểu trên đây tuy có nội dung không trùng khít nhau song cùng thống nhất ở điểm cơ bản
nhất là phương tiện truyền thông xã hội có tính xã hội hóa và gắn liền với internet. Phương tiện
truyền thông xã hội có sự phân biệt với phương tiện truyền thông truyền thống (sách, báo, truyền
hình) về chủ thể và hình thức xuất bản nội dung. Tuy nhiên, một số phương tiện truyền thông
truyền thống (chẳng hạn, các kênh tin tức lớn) cũng có tài khoản trên Twitter và Facebook.
Phương tiện truyền thông xã hội là một cách thức mà người dùng bất kỳ trong xã hội đều có thẻ
chia sẻ và đóng góp nội dung, bày tỏ quan điểm và kết nối với những người khác, vì vậy phương
tiện truyền thông xã hội mang hơi thở của cuộc sống đời thường đang diễn ra với tính động cao.
15.1.1.2. Sự phát triển của mạng xã hội
Do các lợi thế của mình, mạng xã hội trực tuyến ngày càng hấp dẫn người sử dụng và vì vậy dữ
liệu, mạng xã hội tăng nhanh một cách đáng kể. Mới xuất hiện vào năm 2004 nhưng tới tháng
8/2012 thì Facebook đã có xấp xỉ một tỷ người dùng. Cùng thời điểm đó, Twitte cũng đã đạt tới
con số 500 triệu người dùng [Ben12]. Hình 2 mô tả sự tăng trưởng số lượng người sử dụng
Facebook và Twitter.
1

2
Hình 2a. Sự tăng trưởng số lượng người sử dụng Facebook [Ben 12]
Hình 2b. Sự tăng trưởng số lượng người sử dụng Twitter [Ben 12]

Hơn nữa, mạng xã hội hấp dẫn những người trẻ tuổi, những người làm việc trí tuệ là những người
có tính năng động cao trong xã hội và vì vậy, mạng xã hội có tác động rất to lớn tới các cộng đồng
trong xã hội thực.
15.1.1.3. Tác động của mạng xã hội
a) Tác động xã hội
3
Mạng xã hội thừa kế sức quảng bá thông tin của các phương tiện truyền thông truyền thống nhưng
với sức lan tỏa nhanh hơn tới các cộng đồng năng động cao trong xã hội. Vì vậy, tác động xã hội
của mạng xã hội là rất lớn.
Về cơ bản, mạng xã hội góp phần tăng cường nguồn vốn xã hội (social capital) cho quốc gia như
trong nghiên cứu của nhiều tác giả (Nicole B. Ellison và cộng sự, 2007 [ESL07], Homero Gil de
Zúnĩga và cộng sự, 2012 [ZJV12]), tuy nhiên, trong không ít trường hợp, mạng xã hội cũng cản
trở sự phát triển của vốn xã hội.Dưới đây là một ví dụ điển hình về tác động xã hội của mạng xã
hội.
+ Facebook với phong trào "Mùa xuân Ả rập" năm 2011
Tác động của Facebook tới phong trào "Mùa xuân Ả rập" tháng 3 năm 2011 là nội dung nghiên
cứu trong nhiều công bố khoa học, chẳng hạn như Ban Al-Ani và cộng sự, 2012 [AMCJ12],
Elizabeth Iskander, 2011 [Iskan11]. Nhiều tác giả cho rằng Facebook là một trong các yếu tố quan
trọng tạo nên phong trào nnói trên Ai Cập dẫn tới sự sụp đổ của chế độ Tổng thống Mubarak.
Racha Mourtada và Fadi Salem, 2011 [MS11] đưa ra các số liệu thống kê về các hình thức sử
dụng Facebook tại Ai Cập và Tuy-ni-zi trong phong trào “Mùa xuân Ả rập” (Hình 3) và thông kê
này cho thấy việc sử dụng Facebook cho hoạt động liên quan đến phong trào nói trên chiếm một
trọng số rất lớn.
4
Hình 3. Hình thức sử dụng Facebook trong Phong trào Dân sự và sự kiện đầu năm 2011 [MS11]
+ Facebook với cuộc bạo loạn tại Anh năm 2011
Casill, Antonio A. và Paola Tubaro, 2012 [AT12] trình bày một nghiên cứu thực nghiệm mô
phỏng mối liên quan giữa mức độ bạo lực với sự kiểm duyệt Facebook. Kết quả nghiên cứu của
các tác giả cho thấy rằng lời giải tối ưu mang tính hệ thống là giải pháp hoàn toàn không kiểm
duyệt Facebook và trong trường hợp đó, không chỉ giảm được mức độ bạo lực theo thời gian mà

còn cho phép khoảng thời gian hòa bình dài hơn đáng kế sau mỗi đợt bùng phát bạo lực. Kết quả
nghiên cứu này gợi ý rằng, giải pháp tối ưu nhằm ngăn chặn sự thâm nhập và khuyếch tán các
quan điểm không lành mạnh, để nắm bắt và dẫn dắt dư luận trong Facebook thì giải pháp tối ưu là
chúng cần phải tham gia cởi mở cung cấp thông tin lành mạnh chính xác và không áp đặt vào
Facebook.
Thông qua việc kiểm chứng bốn giả thuyết về mối liên quan của công dân với việc sử dụng mạng
xã hội trực tuyến tin tức, Homero Gil de Zúnĩga và cộng sự, 2012 [ZJV12] chỉ ra rằng việc sử
dụng mạng xã hội trực tuyến tương ứng với vai trò "phóng viên nhân dân" sẽ có tác động lớn đáng
kể và tích cực tới các cá nhân trong hoạt động dân sự và chính trị. Kết quả là, nguồn vốn xã hội
của đất nước được tăng thêm tạo tiền đề cho phát triển quốc gia.
+ Sự kiện chống quyền lợi của Mỹ vào tháng 9/2012
Từ giữa tháng 9/2012, hoạt động chống Mỹ của thế giới Hồi giáo lại bùng phát với điểm xuất phát
từ việc xuất hiện và quảng bá đoạn video xúc phạm đạo Hồi. Facebook được sử dụng để quảng bá
và khuyến khích hoạt động phản đối tưởng niệm cuộc tấn công ngày 11/9/2001
2
. Đại sứ Mỹ tại
Lybi bị giết hại và cuộc chiến giữa chính quyền Mỹ và lực lượng Hồi giáo chống Mỹ lại bước
sang giai đoạn mới. Trong cuộc chiến đó, các mạng xã hội được nhiều phía khai thác không chỉ
theo khía cạnh tích cực mà còn theo khía cạnh tiêu cực.
+ Twiter trợ giúp giảm thiểu thảm họa kép "Động đất + Sóng thần" ớ Nhật Bản
Khai thác tính thời gian thực của trao đổi thông điệp trên Twitter, coi mỗi người dùng Twitter như
một bộ cảm biến trong một mạng cảm biến, Takeshi Sakaki và cộng sự, 2010 [SOM10] xây dựng
một mô hình hệ thống dựa trên nền tảng một mô hình xác suất để dự báo động đất và lan truyền
thông tin động đất tới người dùng. Thông báo động đất của hệ thống này được lan truyền tới
người dùng nhanh hơn nhiều so với thông báo của Cơ quan khí tượng Nhật Bản.
2

5
Thảm họa kép "Động đất + Sóng thần" (The Great Eastern Japan Earthquake [STM11]) ớ Nhật
Bản vào ngày 11/3/2011 làm nhiều người rơi vào tình huống khẩn cấp và mạng xã hội Twitter trở

thành phương tiện truyền thông hữu dụng để những người gặp nguy cấp gửi thông điệp cầu cứu
ngắn tới bạn bè và các tổ chức cứu trợ. Twitter cũng truyền đạt lại các thông điệp tư vấn, hướng
dẫn trợ giúp thông tin cho những người khẩn cấp. Trong trường hợp đó, thông tin định vị thiết bị
gửi thông điệp của người kêu cứu được sử dụng để hướng dẫn người đó tới các đia điểm an toàn
hoặc địa điểm có sự trợ giúp. Takeshi Sakaki và cộng sự, 2011 [STM11], Nigen Collier, Son Doan
và cộng sự, 2011 [CD11, DVC11] đề xuất các phương án nhận thông đệp cầu cứu của người dùng
và gửi thông điệp tư vấn tới người dùng thông qua Twitter.
b) Tác động khoa học
Sự phát triển của các mạng xã hội trực tuyến kéo theo sự hình thành các chủ đề mới trong một số
ngành khoa học mà điển hình là xã hội học và khoa học máy tính.
+ Ngành xã hội học
Theo Robert E. Wilson và cộng sự, 2012 [WGG12], nghiên cứu xã hội học dựa trên Facebook
định hướng tới năm nhóm chủ đề là Phân tích mô tả người sử dụng, Động lực sử dụng Facebook,
Trình bày danh tính, Vai trò của Facebook trong tương tác xã hội, Tính riêng tư và việc tiết lộ
thông tin.
Thêm nữa, mạng xã hội thúc đẩy những chủ đề nghiên cứu mới như "Netnography" = “Inter[net]”
and “eth[nography]”, "Child-led Research" trong xã hội học. Netnography cung cấp thông tin
về các mẫu biểu tượng, các mẫu ngữ nghĩa và các mẫu tiêu dùng của nhóm người mua trực tuyến
hoặc việc tiêu dùng của cộng đồng trực tuyến không quan hệ với nhau ngoại trừ sự trao đổi thông
tin trên mạng xã hội trực tuyến. Child-led Research để chỉ các hoạt động tạo cho các nhóm người
bất lực một cách tương đối (tuổi vị thành niên, khuyết tật) thiết lập được các chương trình nghị sự
và dẫn dắt nghiên cứu của riêng họ.
+ Khai phá dữ liệu
Cliff Lampe và cộng sự, 2012 [LVGE12], Facebook (tổng quát hóa là mạng xã hội trực tuyến) có
vai trò của một nguồn tài nguyên thông tin , và vì vậy, mạng xã hội trực tuyến chứa đựng một
nguồn dữ liệu với dung lượng lớn và rất có giá trị.
Sự phát triển của khai phá dữ liệu phương tiện truyền thông xã hội và mối quan hệ liên ngành giữa
công nghệ thông tin và xã hội học. Một số nội dung điển hình nhất về khai phá dữ liệu phương
6
tiện truyền thông xã hội có trong phần tiếp theo.

15.1.1.4. Khai phá dữ liệu mạng xã hội
Chúng ta sử dụng thuật ngữ “khai phá dữ liệu mạng xã hội” để chỉ các nghiên cứu và triển khai
khai phá dữ liệu từ phương tiện truyền thông xã hội và từ mạng xã hội trực tuyến, nội dung do
người dùng tạo ra do mối liên quan chặt chẽ của chúng với phương tiện truyền thông xã hội. Dữ
liệu phương tiện truyền thông xã hội trải trên một miền rộng lớn các lĩnh vực trong đời sống xã
hội, đặc biệt chúng phản ánh tính "hiện thời" của đời sống cho nên khai phá dữ liệu mạng xã hội
còn là nội dung chủ yếu của "phân tích cuộc sống" (living analytics
3
). Có thể nói khai phá dữ liệu
mạng xá hội đã hội tụ nhiều nội dung nghiên cứu thời sự nhất về mạng xã hội, về khai phá dữ liệu,
về tiếp thị và kinh doanh, về hành vi con người
Rất nhiều công trình nghiên cứu về khai phá dữ liệu phương tiện truyền thông xã hội đã và sẽ
được công bố. David Easley và Jon Kleinberg [EK10], Jiawei Han và cộng sự, 2010 [HSYY10],
Jure Leskovec, 2011 [Lesk11] cung cấp các khía cạnh khác nhau của một khung nhìn tổng thể về
khai phá dữ liệu phương tiện truyền thông xã hội bao gồm các khái niệm và nội dung về phương
tiện truyền thông xã hội, ý nghĩa kinh tế và xã hội của nghiên cứu phương tiện truyền thông xã
hội.
Hai kiểu đối tượng nghiên cứu chính trong khai phá dữ liệu mạng xã hội là nội dung có trong
mạng xã hội trực tuyến và cấu trúc mạng xã hội. Khai phá dữ liệu nội dung mạng xã hội là để chỉ
hoạt động khai phá dữ liệu nội dung văn bản mà người dùng tạo ra trên phương tiện truyền thông
xã hội. Thành phần này tạo thành một miền ứng dụng rất rộng lớn. Khai phá dữ liệu cấu trúc
mạng xã hội là để chỉ hoạt động khai phá dữ liệu về cấu trúc mạng xã hội tương ứng với phương
tiện truyền thông xã hội. Hơn nữa, khai phá dữ liệu cũng được tiến hành dựa trên sự kết hợp nội
dung và cấu trúc trong phương tiện truyền thông xã hội.
a) Khai phá dữ liệu nội dung mạng xã hội
Khai phá dữ liệu nội dung mạng xã hội đề cập tới toàn bộ nội dung của hai lớp bài toán khai phá
dữ liệu mô tả và dự báo; nó huy động một phạm vi toàn diện các thuật toán khai phá dữ liệu
[HSYY10, Lesk11]. Khai phá dữ liệu nội dung mạng xã hội trực tuyến có một phạm vi ứng dụng
rất rộng lớn trong quản lý danh tiếng (reputation management), tiếp thị phương tiện truyền thông
3

/>7
xã hội (Social media marketing), phản ứng công dân (citizen response), phân tích hành vi con
người (Human behavior analysic), phóng viên công dân thời gian thực (Real time citizen
journalist) và rất nhiều ứng dụng khác.
Chẳng hạn, Craig Macdonald và cộng sự, 2010 [MSOS10] cho một phân tích về các nghiên cứu
khai phá dữ liệu blogs trong khuôn khổ TREC giai đoạn 2006-2009 đối với ba bài toán: phát hiện
quan điểm (opinion-finding) đối với một đối tượng ("Người sử dụng blogs nghĩ gì về đối tượng X
đã cho ? "), chưng cất blog (blog distillation) để tìm ra các blog quan tâm tới đối tượng X ("Tìm
blog quan tâm chính, định kỳ tới đối tượng X ?") và phát hiện tin nổi bật (top news) từ blogs ("tìm
các tin có giá trị gần đây nhất ?"). Hàng chục công trình nghiên cứu tham gia TREC-Blogs Track
cung cấp một phổ rộng lớn các giải pháp khai phá dữ liệu để giải quyết ba bài toán nói trên. Theo
các tác giả, bài toán phát hiện quan điểm (bài toán đầu tiên) từ blogs không có nhiều khác biệt so
với bài toán khai phá quan điểm nói chung.
Chúng ta xem xét một nghiên cứu khác về khai phá dữ liệu microblogs của Huina Mao và cộng sự,
2011 [MCB11]. Đặc thù về độ dài thông điệp ngắn, về cấu trúc liên kết thành viên và thông điệp
tạo ra một số yếu tố bổ sung cho khai phá dữ liệu nội dung từ microblogs. Tính cập nhật thông tin
nhanh trên microblogs là tiền đề cho các giải pháp dự báo ngắn hạn trên microblogs. Trong
[MCB11], Huina Mao và cộng sự cung cấp một khảo sát công phu về các chỉ số tâm trạng của nhà
đầu tư chứng khoán gồm có tỷ lệ phần trăm tăng giá DSI (DSI bullish percentage: DSI), chỉ số
thông minh của nhà đầu tư (Investor Intelligence: II), đánh giá nhà đầu tư Twitter (Twitter
Investor Sentiment: TIS), lượng thuật ngữ tìm kiếm tài chính Twest (Tweet volumes of financial
search terms: TV-FST), đánh giá tin tức tiêu cực (Negative News Sentiment: NNS), và lượng tìm
kiếm Google của các thuật ngữ tài chính (Google search volumes of financial search terms: GIS).
Qua thực nghiệm theo thời gian một tuần, các tác giả phát hiện rằng GIS có độ liên quan đáng kể
với các chỉ số tài chính phân biệt (different financial indexes: DJIA) và như vậy GIS có thể thay
thế các chỉ số dự báo tài chính. Tuy nhiên, đối với chỉ số thông minh nhà đầu tư (II) thì không có
được vai trò đó. Độ chính xác của dự báo có thể cải thiện khi làm giàu đặc trưng. Thực nghiệm
theo thời gian ngày cho thấy TIS và TV-FST cho phép dự báo tốt đáng kể theo thống kê về hoàn
vốn thị trường hàng ngày trong khi DSI thì không cho phép. NNS cũng cho kết quả theo chiều
hướng tương tự như TSI và TV-FST nhưng kém hơn về độ liên quan.

b) Khai phá dữ liệu cấu trúc mạng xã hội
8
Khai phá dữ liệu cấu trúc mạng xã hội đề cập tới mẫu và tính động về cấu trúc của mạng xã hội
trực tuyến. Mẫu cấu trúc của một mạng xã hội trực tuyến phù hợp với tính chất chung của mạng
xã hội và đặc tính riêng của mạng xã hội trực tuyến đó.
Tính chất chung của mạng xã hội gồm tính chất thế giới nhỏ (small world), liên kết mạnh – yếu
(strong – weak tie), phân bố luật lũy thừa (power law distribution), và cấu trúc cộng đồng
(community). Tinh chất thế giới nhỏ chỉ ra rằng độ dài đường đi liên kết hai đỉnh bất kỳ trong
mạng xã hội không vượt quá một số nguyên dương nhỏ. Tính chất này được Stanley Milgram phát
hiện bằng thực nghiệm từ năm 1969. Tính chất liên kết mạnh – yếu chỉ ra rằng liên kết giữa hai
nút trong mạng xã hội không giống nhau và đươc chia thành hai lớp liên kết mạnh và liên kết yếu.
Về mặt xã hội, liên kết mạnh thể hiện mối quan hệ người thân, còn liên kết yếu thể hiện mối quan
hệ mới tiếp xúc. Trong nhiều trường hợp, liên kết mạnh - yếu còn được chuyển đổi thành liên kết
dương - âm để chỉ mối liên kết đồng thuận hoặc trái ngược nhau. Phân bố luật lũy thừa (power
law distribution): số nút có k liên kết tới bằng khoảng 1/k
2
với số k>2, cấu trúc cộng đồng
(community): tập tất cả các nút có thể được phân chia thành một số nhóm các nút có tính chất
chung.
Dự báo liên kết là một bài toán quan trọng trong khai phá dữ liệu cấu trúc mạng xã hội trực tuyến.
L. Liu và T. Zhou, 2010 [LZ10] cung cấp một tổng quan về dự báo liên kết trong mạng xã hội.
Cho đồ thị vô hướng mạng xã hội G = (V, E) trong đó V là tập n nút (đỉnh), E là tập cung đã có
trong tập U gồm tất cả n*(n-1)/2 các cung có thể có. Bài toán đặt ra là hãy tìm ra các cung có thể
có trong tương lai từ tập U\E. Các tác giả hệ thống hóa các thuật toán giải quyết bài toán dự báo
liên kết, bao gồm các thuật toán dựa trên độ tương tự, các thuật toán dựa theo cực đại hóa khả
năng, các thuật toán dựa trên mô hình xác suất. J. Leskovec và cộng sự, 2010 [LHK10] đề xuất
một phương pháp học máy hồi quy để dự báo liên kết âm – dương trong mạng xã hội. Số lượng
mẫu quan hệ giữa các liên kết được thu gọn dựa trên lý thuyết cân bằng (balance theory) và lý
thuyết trạng thái (status theory) [EK10], vì vậy, mô hình học máy dự báo hồi quy thi hành hiệu
quả hơn.

15.1.1.6. Nghiên cứu về khai phá dữ liệu mạng xã hội tại một số tổ chức, nhóm nghiên cứu
a) Nghiên cứu tại Viện Tiêu chuẩn và Công nghệ quốc gia Mỹ
Viện Tiêu chuẩn và Công nghệ quốc gia Mỹ (National Institute of Standards and Technology:
NIST) tiến hành nhiều hội nghị khoa học về các chủ đề khoa học – công nghệ được quan tâm của
9
nước Mỹ và thế giới. Chuỗi hội nghị về “thu hồi” văn bản (Text REtrieval Conference: TREC) do
NIST và Bộ Quốc phòng Mỹ phối hợp tổ chức với sự tham gia của cộng đồng nghiên cứu và triển
khai về thu hồi thông tin (Information Retrieval) trên thế giới.
Liên quan tới nội dung đề tài, đã diễn ra một số hội nghị bộ phận (Track) trong khuôn khổ của hội
nghị TREC sau đây:
- Blog Track 2010. Craig Macdonald và cộng sự, 2010 [MSOS10] cung cấp một mô tả khái
quát kho ngữ liệu được sử dụng (Blogs06 và Blogs08), kết quả nghiên cứu của 45 nhóm
nghiên cứu về thu hồi thông tin trên Blogsphore đối với ba bài toán Phát hiện quan điểm
(Opinion-Finding), Tìm kiếm blog thú vị (Blog Distillation) và Phát hiện tin nóng (Top
news). Những giải pháp cho ba bài toán Phát hiện quan điểm (dựa theo phân lớp, dựa theo từ
vựng), Tìm kiếm blog thú vị (tiếp cận lựa chọn tài nguyên, tiếp cận tìm kiếm chuyên gia),
Phát hiện tin nóng (phương pháp bỏ phiếu, phương pháp xếp hạng) được Craig Macdonald và
cộng sự tổng hợp từ các công bố cụ thể của 45 nhóm nghiên cứu đã và đang được nhóm thực
hiện đề tài nghiên cứu triển khai thử nghiệm và có kết quả sơ bộ.
- Microblog Track 2011, 2012 ( /> NIST tạo ra 60 chủ đề cho bài
toán này và những người tham gia giải quyết bài toán trong thời gian thực. Số lượng tweest
mỗi ngày lên tới 200 triệu, yêu cầu thời gian thực là những thách thức rất lớn trong việc tìm
kiếm và xếp hạng tweest. Các giải pháp công bố tại Microblog Track năm 2011 sẽ được
nhóm thực hiện đề tài khảo sát để áp dụng
( Công trình nghiên cứu của Richard M.
C. McCreadie và cộng sự, 2012 [CSMOC12] cũng sẽ được nhóm thực hiện đề tài khảo sát để
áp dụng trong việc xây dựng và nâng cấp kho ngữ liệu (scopus) cho các bài toán trong phạm
vi đề tài.
b) Nghiên cứu tại Viện Tin học Quốc gia Nhật Bản
Trường ĐHCN, ĐHQGHN (trực tiếp là Phòng thí nghiệm Công nghệ Tri thức: KTLab) và Viện

Tin học Quốc gia Nhật Bản (trực tiếp là nhóm nghiên cứu của GS. Nigel Collier) cộng tác khoa
học công nghệ thực hiện một số bài toán khai phá dữ liệu từ thông điệp của người dùng trên mạng
xã hội Twitter là (i) Hiểu được yêu cầu người dùng khi gặp tình huống khẩn cấp; (ii) Theo dõi sự
biến đổi khí hậu; (iii) Phân tích danh tiếng của các sản phẩm; (iv) Khám phá và theo dõi chủ đề và
phân tích quan điểm của người sử dụng liên quan tới thảm họa.
10
Nhóm nghiên cứu của GS. Nigel Collier có một số kết quả nghiên cứu theo các chủ đề nghiên cứu
nói trên [CD11, DVC11]. Trong năm 2012, KTLab đã cử 3 thành viên (NCS. Trần Mai Vũ,
HVCH Vũ Tiến Thành, HVCH Lê Hoàng Quỳnh) thực hiện nội dung hợp tác nghiên cứu và phát
triển các kết quả của nhóm GS. Nigel Collier có liên quan tới các chủ đề nghiên cứu nói trên.
c) Nghiên cứu tại Trung tâm nghiên cứu phân tích cuộc sống, ĐH Quản lý Singapore
Phân tích cuộc sống (Living Analytics: LA) tại Trung tâm nghiên cứu phân tích cuộc sống (LA
Research Center: LARC) là một định hướng nghiên cứu mới về phân tích hành vi và mạng xã hội
và thực nghiệm hành vi nhằm phát hiện và thu hoạch các luật tiến hóa đối với các mạng các cá
nhân, các tổ chức và các doanh nghiệp. Phân tích cuộc sống được thi hành bằng mô hình phân tích
vòng kín hướng thực nghiệm (Experiment-Driven Closed-Loop Analytics) tại Hình 4.
Hình 4. Mô hình vòng kín hướng thực nghiệm tại LARC
Quá trình thi hành vòng kín Experiment-Driven Closed-Loop Analytics như sau:
- Vòng kín được bắt đầu với pha Quan sát: tiến hành quan sát tương tác và các mối quan hệ của
người dùng trong một mạng thời gian thực và thu thập các dấu vết kỹ thuật số.
- Pha Phân tích và Dự báo tiếp nhận và tiến hành phân tích các dấu vết kỹ thuật số nói trên nhằm
phát hiện ra các mẫu, và sử dụng mẫu này để dự báo hành vi người dùng và xu hướng mạng trong
tương lai.
- Pha Thực nghiệm tiến hành kiểm tra cách mà cá nhân và nhóm trên mạng phù hợp với sự thay
đổi về nội dung, cung cấp dịch vụ, kinh nghiệm tương tác, giá cả và ưu đãi. Giai đoạn thực
11
nghiệm cũng kiểm tra cách người dùng đáp ứng với các loại hướng dẫn và phản hồi khác nhau.
- Cuối cùng, trong pha Hành động con người, người dùng tạo ra trả lời từ thực nghiệm thông
qua các loại thông tin phản hồi khác nhau, và qua đó tạo ra dữ liệu cho pha Quan sát của vòng kín
tiếp theo.

Bùng nổ sự kiện là một chủ đề nghiên cứu tại LARC với các nghiên cứu của Wayne Xin Zhao và
cộng sự, 2011 [ZJHS11], Wayne Xin Zhao và cộng sự, 2012 [ZSJSL12], Qiming Dia và cộng sự,
2012 [DJZL12]. Hiện tại Phòng Thí nghiệm Công nghệ Tri thức có hai thành viên (HVCH
Nguyễn Thanh Sơn, HVCH Trần Xuân Tứ) đang thực tập khoa học tại LARC về trích xuất sự kiện
và dự báo bùng nổ sự kiện.
15.1.1.7. Phát hiện vai trò và dự báo bùng nổ sự kiện trong mạng xã hội
Phần dưới đây trình bày một số nội dung cơ bản và điển hình nhất về bài toán phát hiện vai trò và
bùng nổ sự kiện trên các mạng xã hội trực tuyến, các mô hình, giải pháp của cộng đồng nghiên
cứu trên thế giới về trích chọn thông tin, phát hiện vai trò và bùng nổ sự kiện trên các mạng xã hội
trực tuyến.
Mạng xã hội không thừa kế mối quan hệ trong xã hội thực của các thành viên, tuy nhiên, thông tin
về hành vi và nội dung thông điệp trao đổi trong mạng xã hội cho phép phát hiện các mối quan hệ
giữa các thành viên trong mạng bao gồm mối quan hệ trong xã hội thực lẫn mối quan hệ nảy sinh
trong ngữ cảnh mạng xã hội. Đây là xuất xứ của bài toán phát hiện vai trò trong mạng xã hội.
Chi Wang và cộng sự, 2010 [WHJTZ10] đề xuất mô hình đồ thị nhân tử xác suất phụ thuộc thời
gian (Time-constrained probabilistic factor graph model: TPFG) để phát hiện quan hệ người
hướng dẫn – người được hướng dẫn trong mạng thông tin được hình thành từ Cơ sở dữ liệu
DBLP. Kết quả nghiên cứu này đã được thi hành trong hệ thống tìm kiếm và khai phá dữ liệu
mạng xã hội khoa học Arnetminer ( của Trường Đại học Thanh Hoa Trung
Quốc.
Trong nhiều trường hợp, giải pháp tính hạng (ranking) cũng được áp dụng trong bài toán phát hiện
vai trò, trong đó những nút mạng (cá nhân/tổ chức) có hạng cao là những nút quan trọng trong
mạng xã hội. Hành vi của những nút quan trọng có tác động tới hành vi chung của mạng hoặc một
cộng đồng trong mạng. Sự bùng nổ sự kiện trong mạng xã hội có liên quan tới hành vi của những
nút quan trọng trong mạng.
Vanesa Junquero-Trabado và David Dominguez-Sal [TS12] đề xuất một kiến trúc cho hệ thống
tìm kiếm vai trò từ những người dùng phương tiện xã hội. Các tác giả định nghĩa 14 đặc trưng cần
12
thiết liên quan tới các vai trò và thực nghiệm trên tập dữ liệu Twitter tìm kiếm 4 vai trò là người
nổi tiếng (Celebrity), người lãnh đạo quan điểm (Information propagators), người phát kiến

(Promoters) và người vận động quảng bá (Early adopters). Kết quả nghiên cứu của hai tác giả sẽ
được nhóm thực hiện đề tài phân tích và khai thác.
Bùng nổ sự kiện trong mạng xã hội phản ánh tính cao trào của sự kiện tương ứng trong xã hội thực
vì vậy dự báo bùng nổ sự kiện trong mạng xã hội cho phép dự báo sự kiện trong xã hội thực.
Trong [STM11], Takeshi Sakaki và cộng sự phân tích xu hướng Tweet của người sử dụng xung
quanh sự kiện thảm họa kép "động đật – sóng thần" ở Nhật Bản. Tập dữ liệu Tweet tiếng Nhật của
1,3 triệu người dùng được thu thập bằng giải pháp crawling trực tiếp. Các mẫu phổ biến Tweet
trước và sau ngày 11/3/2011 cũng như các mẫu mẫu phổ biến Tweet trong ngày 11/3/2011 tại các
vùng lãnh thổ khác nhau được đối sánh. Tweet bằng điện thoại di động, thiết bị thông minh chiếm
ưu thế tại các vùng bị tác động trực tiếp của thảm họa. Dự báo bùng nổ sự kiện trong mạng xã hội
cũng là một chủ đề được nghiên cứu tại Trung tâm nghiên cứu phân tích cuộc sống LARC tại ĐH
quản lý Singapore. Wayne Xin Zhao và cộng sự [ZJHS11, ZSJSL12], Qiming Diao và cộng sự
[DJZL12] phân tích các yếu tố góp phần tạo ra sự bùng nổ sự kiện và từ đó cho phép dự báo bùng
nổ sự kiện. Phân tích chủ đề ẩn để phát hiện các chủ đề quan trọng là một hướng phân tích hữu
dụng.
15.1.2. Trong nước
15.1.2.1. Tình hình chung
* Mạng xã hội Việt Nam
Tại Việt Nam, sử dụng mạng xã hội đã trở thành xu thế không chỉ của lớp trẻ mà còn của nhiều
lướp đối tượng khác. Theo thống kê được công bố vào tháng 02/2012 của VinaLink Media
[Tuan12], trong tố 10 mạng xã hội được sử dụng nhiều nhất ở Việt Nam thì có tới 7 mạng xã hội
của Việt Nam mà ZingMe là mạng xã hội Việt Nam lớn nhất, đứng vị trí thứ ba sau YouTube và
Facebook. Mạng xã hội nước ngoài phủ tới 83% còn mạng xã hội của Việt Nam phủ tới 75% số
người dùng Internet tại Việt Nam. Dù thống kê của VinaLink Media không cho biết lượng người
dùng tích cực (Active user) song số liệu trên đây cũng cho thấy sức hấp dẫn của mạng xã hội đối
với người dùng Internet.
Đã có các nghiên cứu về sử dụng mạng xã hội cho kinh doanh. Tuan Ha, 2012 [Tuan12] cung cấp
số liệu thống kê về tiếp thị mạng xã hội với 0,4% doanh nghiệp với Facebook, 0,07% doanh
nghiệp với YouTube và 0,2% doanh nghiệp với mọi mạng xã hội còn lại. Nguyen Huu Chi và
13

Christophe J. Nordman [CN12] làm sáng tô mối liên hệ giữa mạng xã hội hộ gia đình, kinh doanh
hộ gia đình với hiệu quả kinh doanh hộ gia đình phi nông nghiệp. Ngoài một số mối tương quan
khác, các giả nhận thấy cộng đồng kinh doanh hộ gia đình có tác dụng tới hiệu quả kinh doanh hộ
gia đình.
* Nghiên cứu về phát hiện vai trò và bùng nổ sự kiện trong mạng xã hội
Tại các tổ chức thực hiện và phối hợp thực hiện đề tài (tập trung tại Phòng Thí nghiệp Công nghệ
Tri thức), một số nghiên cứu bước đầu về phát hiện vai trò và bùng nổ sự kiện trong mạng xã hội
đã được thực hiện. Một số kết quả nghiên cứu trực tiếp và gián tiếp liên quan tới hai nội dung
nghiên cứu của đề tài mà nhóm thực hiện đề tài đã thực hiện sẽ được trình bày chi tiết hơn ở phần
tiếp theo.
Ngoài các nghiên cứu liên quan tại các tổ chức thực hiện đề tài, chúng tôi chưa thấy các công bố
khoa học có giá trị liên quan tới phát hiện vai trò và bùng nổ sự kiện trong mạng xã hội tại Việt
Nam.
15.1.2.2. Tình hình nghiên cứu của nhóm thực hiện đề tài
a) Lọc nội dung trên Internet
14
Hình 5. Kiến trúc hệ thống lọc nội dung trên Internet [HNNL11]
Trong giai đoạn 2007-2009, chủ trì đề tài Nguyễn Lương Hoàng Hoa cùng nhiều thành viên tham
Firewall
Bộ kiểm soát
Bộ xác định
ngôn ngữ
Bộ lọc tiếng
Anh
Bộ lọc tiếng
Việt
Bộ phân tích nội dung
Bộ ra
quyết
định

Người dùng
Proxy
Hệ thống cache
Bộ chuẩn hoá
DL
Bộ lọc
URL/PICS
Bộ lọc
ảnh
15
gia thực hiện đề tài này chính là nguồn nhân lực chủ chốt thực hiện và hoàn thành đề tài cấp Nhà
nước mã số KC.01.02/06-10 "Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm
bảo an toàn – an ninh thông tin trên mạng Internet" do Tiến sỹ, Thiếu tướng Nguyễn Viết Thế,
Cục trưởng Cục Tin học nghiệp vụ, Bộ Công an làm Chủ nhiệm đề tài. Đề tài đã được Hội đồng
nghiệm thu đánh giá và xếp loại Khá.
Kiến trúc tổng quát của hệ thống lọc nội dung sản phẩm của đề tài KC.01.02/06-10 được mô tả tại
Hình 5. Bộ phân tích nội dung của hệ thống giải quyết các bài toán xử lý văn bản tiếng Việt và
tiếng Anh và xây dựng các mô hình phân lớp đoàn nhận ngôn ngữ và xếp hạng văn bản để lọc văn
bản theo nội dung. Các thành phần như đã nói trong đề tài KC.01.02/06-10 là có liên quan trực
tiếp tới nội dung trích chọn thông tin (vai trò, sự kiện) của đề tài. Kinh nghiệm thực hiện giải
quyết các bài toán nói trên rất có ích cho việc thực hiện đề tài
b) Khai phá quan điểm theo đặc trưng từ nhận xét đánh giá sản phẩm
Khai phá quan điểm (opinion mining / sentiment analysic) là bài toán nhận biết, phân tích và tổng
hợp các nhận xét, đánh giá của người dùng về một hiện tượng, một sự vật, một người hoặc một tổ
chức. Đầu tiên cần phải lọc ra các văn bản được coi là không chứa nhận xét đánh giá từ một tập
văn bản thu thập được. Sau đó, các câu chứa nhận xét đánh giá được lựa chọn. Đặc trưng của đối
tượng và đánh giá của người dùng về đối tượng đó được trích xuất. Cuối cùng, đánh giá chung về
đối tượng được tập hợp thành một bản đánh giá chung. Nhóm thực hiện đề tài đã có một số kết
quả nghiên cứu về khai phá quan điểm [QTHC11, THCQ11, HTMQ11], theo đó từ một tập nhận
xét đánh giá sản phẩm của người dùng, cần trích xuất ra đánh giá của từng người dùng theo từng

đặc trưng của sản phẩm và sau đó là tích hợp lại. Mô hình Trích xuất và tổng hợp quan điểm theo
đặc trưng từ đánh giá sản phẩm được thể hiện tại Hình 6.
16
Hình 6. Trích xuất và tổng hợp quan điểm theo đặc trưng từ đánh giá sản phẩm [QTHC11,
THCQ11, HTMQ11]
Các giải pháp trích chọn đặc trưng sản phẩm cũng như quan điểm của người dùng về đặc trưng đó
rất hưu dụng khi giải quyết bài toán phát hiện sự kiện cùng các đặc trưng liên quan tới sự kiện đó
mà sẽ được thi hành trong hệ thống xác định vai trò và bùng nổ sự kiện trong mạng xã hội.
c) Dự báo chứng khoán từ dữ liệu Twitter
Tien Thanh Vu và cộng sự, 2012 [TSQN12] đề xuất một phương pháp lai dạy chuỗi mô hình dự
báo thay đổi phân cực giá mở cửa thị trường bốn cổ phiếu công nghệ Apple (AAPL), Google
(GOOG), Microsoft (MSFT) và Amazon (AMZN) như trình bày tại Hình 7.
Dữ liệu gồm 5.001.460 tweet của người dùng hàng ngày tại bốn thành phố của nước Mỹ (New
York, Chicago, Los Angeles và San Francisco) được thu thập nhờ công cụ giao diện trình ứng
dụng Twitter trực tuyến trực tiếp API từ ngày 01/4/2011 đến ngày 31/5/2011. Ba nhóm đặc trưng
(đánh giá tích cực – tiêu cực, độ tin cậy của khách hàng vào cổ phiếu, sự lên-xuống của cổ phiếu
trong ba ngày trước đó) được sử dụng trong phân lớp cây quyết định (C4.5) Tree cho độ chính xác
82,93%, 80,49%, 75,61% và 75,00% khi dự báo thay đổi lên - xuống hàng ngày của Apple
17
(AAPL), Google (GOOG), cổ phiếu Microsoft (MSFT) và Amazon (AMZN).
Hình 7. Mô hình dự báo sự lên – xuống của thị trường chứng khoán từ Twitter [TSQN12]
Công trình nghiên cứu này trực tiếp khai thác dữ liệu từ mạng xã hội Twitter vì vậy cung cấp một
nền tảng tri thức miền ứng dụng đối với đề tài sẽ được thực hiện. Không những thế, một số kỹ
thuật trích chọn đặc trưng cụ thể cho miền dữ liệu này sẽ được tái sử dụng và nâng cấp trong quá
trình thực hiện đề tài.
d) Giám sát sự kiện từ phương tiện truyền thông xã hội
18
Hình 8. Hệ thống giám sát sự kiện VnLoc [MMSMX12]
Mai-Vu Tran và cộng sự, 2012 [MMSMX12] thi hành một mô hình và xây dựng hệ thống trích
chọn sự kiện từ các trang báo điện tử. Hình 8 trình bày một thể hiện trực quan của hệ thống.

Hệ thống sử dụng kỹ thuật cực đại entropy để trích chọn sự kiện với 5 nhóm đặc trưng về tên sự
kiện, người tạo sự kiện, thời gian, địa điểm và tác động của sự kiện.
Các kỹ thuật thi hành hệ thống giám sát sự kiện cũng sẽ được sử dụng trong đề tài.
e) Trích chọn thông tin từ Internet
Một bài toán cốt lõi nhất để thi hành các hệ thống trên đây là bài toán trích chọn thông tin từ
Internet. Dữ liệu được thu thập từ Internet (theo phạm vi xác định của từng bài toán) được tiền xử
lý để tìm ra các thực thể (entity/object) và các đặc trưng của từng thực thể, và sau đó, tổng hợp
thông tin của thực thể đó để có được các mẫu, các tri thức từ dữ liệu trong miền ứng dụng.
19
Hình 9. Mô hình chủ đề ẩn trích chọn thông tin từ Internet [PNLLS11, TTT09, TTT08]
Phương pháp mô hình chủ đề là một phương pháp tiên tiến trong trích chọn thông tin, theo đó, tập
dữ liệu "tổng thể" về miền ứng dụng được tập hợp và phân tích chủ đề tạo nên mô hình chủ đề cho
miền ứng dụng.
Hình 9 trình bày các kết quả nghiên cứu sử dụng mô hình chủ đề trích chọn thông tin trên Internet.
Các giải pháp mô hình chủ đề ẩn sẽ được ứng dụng trong đề tài.
20
15.2 Luận giải về việc đặt ra mục tiêu và những nội dung cần nghiên cứu của nhiệm vụ
Như đã được luận giải, tăng cường vốn xã hội quốc gia là một vai trò quan trọng của mạng xã hội.
Đồng thời, phản ánh cuộc sống xã hội thực là một đặc trưng cốt lõi của mạng xã hội. Không ít sự
kiện lớn trong đời sống xã hội thực được hình thành và phát triển từ mạng xã hội và bùng nổ sự
kiện trong mạng xã hội là dấu hiệu của quá trình hình thành và phát triển các sự kiện như vậy. Từ
những dấu hiệu như vậy chúng ta có thể dự đoán được sự bùng nổ sự kiện trong mạng xã hội và
qua đó dự đoán những sự kiện sẽ xảy ra trong xã hội thực. Dự đoán được sự bùng nổ sự kiện cũng
cho phép đặt ra các giải pháp là lành mạnh hóa các luồng thông tin liên quan tới sự kiện, định
hướng được sự kiện theo mục tiêu tăng cường vốn xã hội cho quốc gia. Những giải pháp của
Takeshi Sakaki và cộng sự [STM11], Wayne Xin Zhao và cộng sự [ZJHS11, ZSJSL12], Qiming
Diao và cộng sự [DJZL12] định hướng cho các giải pháp của nhóm thực hiện đề tài.
Người nổi tiếng, người lãnh đạo quan điểm, người phát kiến và người vận động quảng bá [TS12]
là những cá nhân có vai trò quan trọng trong việc hình thành và phát triển sự kiện cũng như sự
bùng nổ sự kiện. Vì vậy, việc phát hiện vai trò của các cá nhân trong mạng xã hội cần được tiến

hành như là giải pháp tiền đề của dự báo bùng nổ sự kiện trên mạng xã hội. Những giải pháp của
Chi Wang và cộng sự [WHJTZ10], của Vanesa Junquero-Trabado và David Dominguez-Sal
[TS12] định hướng cho các giải pháp của nhóm thực hiện đề tài. Một trường hợp riêng của dự báo
bùng nổ sự kiện là bùng nổ sự kiện có liên quan tới một cá nhân, một nhóm cá nhân thuộc bốn lớp
vai trò trên cũng cần được quan tâm giải quyết trong đề tài.
Hoạt động phối hợp nghiên cứu khoa học – triển khai công nghệ của nhóm thực hiện đề tài với
nhóm của GS. Nigel Collier tại Viện Tin học Quốc gia Nhật Bản, với nhóm nghiên cứu của GS.
Lim Ee Peng (Trung tâm nghiên cứu phân tích cuộc sống: LARC) tại Đại học Quản lý Singapore,
với nhóm nghiên cứu của GS. Bart Baesens tại Đại học KU Leuven (Bỉ) cũng cần được khai thác
cho các giải pháp của đề tài.
Như đã được luận giải, để giải quyết được các bài toán phát hiện vai trò và dự báo bùng nổ sự
kiện trên mạng xã hội, các bài toán thu thập dự liệu từ mạng xã hội, tiền xử lý dữ liệu và trích
chọn thông tin từ văn bản cần được giải quyết. Kinh nghiệm của nhóm nghiên cứu trong các chủ
đề này sẽ được vận dụng hiệu quả trong quá trình thực hiện đề tài.
Phát hiện vai trò và dự báo bùng nổ sự kiện trong mạng xã hội là các bài toán khó, đnag là các
chủ đề khoa học – công nghệ thời sự trên thế giới. Trong mỗi miền ứng dụng cụ thể, sự cộng tác
của các chuyên gia miền ứng dụng (các chuyên gia nghiệp vụ) sẽ cần được khai thác để hệ thống
21
sản phẩm của đề tài đạt hiệu quả tốt nhất trong miền ứng dụng đó. Sự cộng tác trong nhóm thực
hiện đề tài từ cơ quan chủ trì đề tài và cơ quan phối hợp thực hiện đề tài sẽ là một giải pháp thi
hành nội dung này.
Tính thời sự của đề tài, phát huy các kết quả nghiên cứu đã có và phát triển hợp tác KH-CN quốc
tế đang có là các tiền đề để các giải pháp được đề xuất trong quá trình thực hiện đề tài đáp ứng
yêu cầu công bố khoa học quốc tế (01 bài) và quốc gia (01 bài), đồng thời, sản phẩm hệ thống
phần mềm đáp ứng yêu cầu dự báo bùng nổ sự kiện trêng mạng xã hội hỗ trợ hoạt động nghiệp vụ.
16 Liệt kê danh mục các công trình nghiên cứu, tài liệu có liên quan đến đề tài đã trích dẫn
khi đánh giá tổng quan
16.1. Các công trình khoa học liên quan tới nội dung đề tài của các tác giả khác
1. [Tuan12] Tuan Ha (2012). Mạng xã hội tại Việt Nam (Phần 2), Social Media Marketing
Conference, Hanoi Feb 2012.

2. [AMCJ12] Ban Al-Ani, Gloria Mark, Justin Chung, Jennifer Jones (2012). The Egyptian
Blogosphere: A Counter-Narrative of the Revolution, Proceedings of the ACM 2012 conference on
Computer Supported Cooperative Work: 17-26.
3. [AT12] Casilli, Antonio A. and Paola Tubaro (2012). Social media censorship in times of political
unrest: A social simulation experiment on the UK riots, Bulletin of Sociological Methodology, 115 (1):
5-20.
4. [Barnes54] Barnes, J. (1954). Class and Committees in a Norwegian Island Parish, Human
Relations, 7, 39-58.
5. [Ben12], Shea Bennet (2012). Twitter On Track For 500 Million Total Users By March, 250
Million Active Users By End Of 2012, />users_b17655.
6. [BM11] Johan Bollen, Huina Mao: Twitter Mood as a Stock Market Predictor, IEEE Computer
44(10): 91-94 (2011)
7. [BS12] Adam Bermingham, Alan F. Smeaton (2012). An Evaluation of the Role of Sentiment in
Second Screen Microblog Search Tasks, ICWSM 2012.
8. [CD11] Nigel Collier, Son Doan (2011). Syndromic Classification of Twitter Messages, eHealth
2011: 186-195.
9. [CN12] Nguyen Huu Chi, Christophe J. Nordman (2012) Household Entrepreneurship and Social
Networks: Panel Data Evidence from Vietnam, Technical Report, “Unlocking potential: Tackling
economic, institutional and social constraints of informal entrepreneurship in Sub-Saharan Africa”
22
Project.
10. [CSMOC12] Richard M. C. McCreadie, Ian Soboroff, Jimmy Lin, Craig Macdonald, Iadh Ounis,
Dean McCullough (2012). On building a reusable Twitter corpus, SIGIR 2012: 1113-1114.
11. [DJZL12] Qiming Diao, Jing Jiang, Feida Zhu and Ee-Peng Lim (2012). Finding bursty topics
from microblogs, ACL'12: 536-544, 2012.
12. [DVC11] Son Doan, Bao-Khanh Ho Vo, Nigel Collier (2011). An Analysis of Twitter Messages in
the 2011 Tohoku Earthquake, eHealth 2011: 58-66.
13. [EK10] David Easley and Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning
about a Highly Connected World, Cambridge University Press, 2010.
14. [ESL07] Nicole B. Ellison, Charles Steinfield, Cliff Lampe (2007). The Benefits of Facebook

"Friends: "Social Capital and College Students' Use of Online Social Network Sites, J. Computer-
Mediated Communication 12(4): 1143-1168 (2007).
15. [HSYY10] Jiawei Han, Yizhou Sun, Xifeng Yan, Philip S. Yu (2010). Mining Knowledge from
Databases: An Information Network Analysis Approach, ACM SIGMOD Conference Tutorial, 2010.
16. [HWNC11] Andrew Bengry-Howell, Rose Wiles, Melanie Nind, Graham Crow (2011). A Review
of the Academic Impact of Three Methodological Innovations: Netnography, Child-Led Research and
Creative Research Methods, ESRC National Centre for Research Methods,
/>17. [Iskan11] Elizabeth Iskander (2011). Connecting the National and the Virtual: Can Facebook
Activism Remain Relevant After Egypt’s January 25 Uprising?, International Journal of
Communication 5 (2011): 1225–1237.
18. [KH10] Andreas M Kaplan and Michael Haenlein (2010). Users of the world, unite! The
challenges and opportunities of Social Media, Business horizons (2010), 53:59-68.
19. [Lesk08] Jure Leskovec (2008). Dynamics of large networks, PhD Thesis, Carnegie Mellon
University.
20. [Lesk11] Jure Leskovec (2011). Social Media Analytics, Tutorial at the ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (Part 1: Information flow, Part2:
Rich Interactions), 2011.
21. [LHK10] J. Leskovec, D. Huttenlocher, J. Kleinberg (2010). Predicting Positive and Negative
Links in Online Social Networks, WWW’2010, ACM Press, New York.
22. [LVGE12] Cliff Lampe, Jessica Vitak, Rebecca Gray, Nicole B. Ellison (2012). Perceptions of
facebook's value as an information source, CHI 2012: 3195-3204
23. [LZ10] L. Lu and T. Zhou (2010). Link prediction in complex networks: A survey, Physica A,
390:1150–1170, 2010.
24. [MCB11] Huina Mao, Scott Counts, Johan Bollen (2011). Predicting Financial Markets:
Comparing Survey, News, Twitter and Search Engine Data, CoRR abs/1112.1051: (2011),
arXiv:1112.1051v1 [q-fin.ST] 5 Dec 2011.
23
25. [MS11] Racha Mourtada and Fadi Salem (2011). Civil Movements: The Impact of Facebook and
Twitter, Arab Social Media Report, 1 (2): 1-30.
26. [MSOS10] Craig Macdonald, Rodrygo L. T. Santos, Iadh Ounis, Ian Soboroff (2010). Blog track

research at TREC, SIGIR Forum 44(1): 58-75 (2010).
27. [Russ11] Matthew A. Russell (2011). Mining the social web, O'Reilly, 2011.
28. [SOM10] Takeshi Sakaki, Makoto Okazaki, Yutaka Matsuo (2010). Earthquake shakes Twitter
users: real-time event detection by social sensors, WWW 2010: 851-860.
29. [STM11] Takeshi Sakaki, Fujio Toriumi, Yutaka Matsuo (2011). Tweet trend analysis in an
emergency situation, SWID '11: 3.
30. [TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role search engine for
social media. WWW (Companion Volume) 2012: 1051-1060.
31. [WGG12] Robert E. Wilson, Samuel D. Gosling, and Lindsay T. Graham (2012). A Review of
Facebook Research in the Social Sciences, Perspectives on Psychological Science 7(3) 203– 220.
32. [WHJTZ1] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo
(2010). Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212.
33. [YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media CoRR
abs/1203.1647: (2012)
34. [ZF11] X. Zhang and H. Fuehres (2011). Predicting Stock Market Indicators through Twitter ‘I
hope it is not as bad as I fear’, CONs, 2010.
35. [ZJHS11] Wayne Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim
and Xiaoming Li (2011) Topical keyphrase extraction from Twitter, ACL-HLT'11: 379-388, 2011.
36. [ZJV12] Homero Gil de Zúnĩga, Nakwon Jung, Sebastián Valenzuela (2012). Social Media Use for
News and Individuals’ Social Capital, Civic Engagement and Political Participation, Journal of
Computer-Mediated Communication 17 (2012) 319–336.
37. [ZSJSL12] Wayne Xin Zhao, Baihan Shu, Jing Jiang, Yang Song, Hongfei Yan and Xiaoming Li
(2012). Identifying Event-related Bursts via Social Media Activities, EMNLP-CoNLL'12:1466-1477,
2012.
16.2. Các công trình khoa học liên quan tới nội dung đề tài của nhóm thực hiện đề tài
1. [HNNL11] Hà Quang Thụy, Nguyễn Ngọc Hóa, Nguyễn Viết Thế, Lương Nguyễn Hoàng Hoa
(2011). Mô hình giải pháp lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh trên Internet,
Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT & Truyền thông, V-1 (6/26): 260-
270, 9-2011.
2. [DMTQ11] Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co-

reference Resolution in Vietnamese Documents Based on Support Vector Machines, IALP 2011: 89-
93, Penang, Malaysia.
3. [HMNNQ11] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy
Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition
24
and Person Property Extraction in Vietnamese Text, IALP 2011 :115-118, Penang, Malaysia.
4. [HTMQ11] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha (2011). A
Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews, IEEE APSCC’2011:
503-508, Jeju, Korea.
5. [MMSMX12] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, Xuan-
Hieu Phan (2012). VnLoc: A Real–time News Event Extraction Framework for Vietnamese,
KSE'2012:161-166, Da Nang, August 17-19, 2012.
6. [MTTH10] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le (2010).
Automatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations,
IALP 2010: 170-173, Harbin, Heilongjiang China; December 28-30, 2010.
7. [MXH10] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). "User Interest Analysis with
Hidden Topic in News Recommendation System, IALP 2010: 211-214, Harbin, Heilongjiang China;
December 28-30, 2010.
8. [NKQ10] Nam-Khanh Tran, Kim-Cuong Pham, Quang-Thuy Ha (2010). XPath-Wrapper
Induction for Data Extraction, IALP 2010 (Harbin, Heilongjiang China; December 28-30, 2010): 150-
153.
9. [NNH09] Huong-Thao Nguyen, Phuong-Thai Nguyen, Quang-Thuy Ha, and Le-Minh Nguyen
(2009). Vietnam Noun Phrase Chunking based on Conditional Random Field, The First International
Conference on Knowledge and System Engineering (KSE): 172-178, Hanoi, Vietnam, 2009.
10. [OCT09] Tran Thi Oanh, Le Anh Cuong, Ha Quang Thuy and Quynh Hoang Le (2009). An
Experimental Study on Vietnamese POS tagging, International Conference on Asian Language
Processing (IALP 2009): 23-27, Dec 7-9, 2009, Singapore.
11. [PNLLS11] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu
Horiguchi, and Quang-Thuy Ha (2011). A Hidden Topic-Based Framework Towards Building
Applications with Short Web Documents, IEEE Transactions on Knowledge and Data Engineering,

23(7): 961-976, July 2011 (SCI Journal).
12. [QTH11] Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011). An
Upgrading Feature-based Opinion Mining Model on Product Reviews in Vietnamese, AMT’2011: 173-
185, Lanzhou, China.
13. [QTTT12] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh Nguyen (2012).
Refining the Judgement Threshold to Improve Recognizing Textual Entailment Using Similarity,
ICCCI 2012, Ho Chi Minh City, Vietnam, November, 2012 (accepted).
14. [TD11] Tien-Thanh Vu, Dat Quoc Nguyen (2011). A Vietnamese Information Retrieval System
for Product-Price, GrC 2011: 691-696, HKaoh-siung, Taiwan.
15. [THC11] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A Feature-
based Opinion Mining Model on Product Reviews in Vietnamese, Studies in Computational
Intelligence, SCI 381 (Semantic Methods for Knowledge Management and Communication): 23-33.
25

×