Tải bản đầy đủ (.pdf) (61 trang)

Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu Twitter (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.35 MB, 61 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TẠ QUANG LONG

LUẬN VĂN THẠC SĨ KỸ THUẬT

XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN
TÍCH DỮ LIỆU TWITTER

HÀ NỘI - 2018


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TẠ QUANG LONG

LUẬN VĂN THẠC SĨ KỸ THUẬT

XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN
TÍCH DỮ LIỆU TWITTER
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ

:

8.48.01.04

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS TỪ MINH PHƯƠNG



HÀ NỘI - 2018


1

MỤC LỤC
DANH MỤC BẢNG ............................................................................................ 3
DANH MỤC HÌNH VẼ ........................................................................................ 4
MỞ ĐẦU ............................................................................................................... 6
CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG ................... 10
1.1 Giới thiệu mạng xã hội Twitter .......................................................... 11
1.2 Các đặc trưng thông tin của Twitter ................................................... 11
1.3 Mối quan hệ người dùng trong mạng Twitter .................................... 15
1.4 Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng xã
hội khác .............................................................................................. 17
1.5 Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác ................. 18
1.5.1

Ứng dụng Google Flu Trends................................................ 19

1.5.2

Trung tâm kiểm soát dịch bệnh (CDC) ................................. 22

1.6 Kết luận chương ................................................................................. 23
CHƯƠNG 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ............................. 24
XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER .............................. 24
2.1 Tiền xử lý dữ liệu (văn bản) ........................................................... 25
2.1.1


Dữ liệu thô/gốc: ..................................................................... 25

2.1.2

Chất lượng dữ liệu (data quality): ......................................... 25

2.1.3 Chất lượng dữ liệu (data quality): ................................................. 25
2.1.4 Chất lượng dữ liệu (data quality): ................................................. 26
2.1.5 Các kỹ thuật tiền xử lý dữ liệu: ..................................................... 26
2.2 Biểu diễn văn bản dưới dạng vector ................................................. 28
2.3 Giới thiệu về phân loại văn bản và một số phương pháp phân loại
văn bản ............................................................................................... 31


2

2.3.1

Bài toán phân loại văn bản .................................................... 31

2.3.2

Một số phương pháp phân loại văn bản: ............................... 33

2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) ................................. 36
2.3.2.4 Phương pháp SVM (Support Vector Machine) .......................... 38
2.6 Kết luận chương ................................................................................. 45
CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ................................................. 46
3.1 Thu thập dữ liệu thử nghiệm .............................................................. 46

3.2 Đánh giá các phương pháp phân loại văn bản: .................................. 50
3.3 Ứng dụng mô phỏng thuật toán .......................................................... 53
3.4 Kết luận chương ................................................................................. 55
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 58


3

DANH MỤC BẢNG
Số hiệu bảng

Tên bảng

Trang

3.1

Dữ liệu người dùng trong cơ sở dữ liệu

45

3.2

Các tweet thu thập được trong cơ sở dữ liệu

46

3.3

Phân chia tập huấn luyện và tâp kiểm thử


46

3.4

Thống kê tập dữ liệu huấn luyện

47

3.5

Gán nhãn cho tập kiểm thử

48

3.6

File lưu dữ liệu huấn luyện

48

3.7

File lưu dữ liệu kiểm thử

49

3.8

Đánh giá thuật toán sau 5 lần kiểm thử


49

3.9

Biểu đồ so sánh kết quả sau 5 lần thử nghiệm

50

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các cụm từ, ký hiệu

Ý nghĩa

NB

Naive Bayet

NBL

Naive Bayet Classifier

CDC

Trung tâm kiểm soát dịch bệnh

K-NN

K – Nearest Neighbor


SVM

Support Vector Machine

IDF

Inverse Document Frequency

TF

Term Frequency


4

DANH MỤC HÌNH VẼ
Số hiệu hình vẽ
1.1
1.2.1

Tên hình vẽ
Các Tweets được chia sẻ bởi một người dùng
Quan hệ người dùng và hiển thị tweet theo mối

Trang
5
6

quan hệ đó
1.2.2


Tweet có chứa hashtag trong nội dung

8

1.2.3

Người dùng Twitter có thể mention một người

9

1.2.4

Nếu ký hiệu mention được sử dụng ở đầu tweet, ý

9

nghĩa sẽ là một hành động reply
1.3

Mối quan hệ người dùng trong mạng Twitter

12

1.5.1

Biểu đồ ứng dụng Google Flu Trends

17


1.5.2

Biểu đồ dịch bệnh theo website CDC

19

2.1.1

Các bước tiền xử lý dữ liệu

23

2.2.1

Biểu diễn văn bản dưới dạng vector

25

2.2.2

Văn bản biểu diễn 3 đặc C-D-E

26

2.3.1

Mô hình giai đoạn huấn luyện

31


2.3.2

Mô hình giai đoạn phân lớp

32

2.3.3

Mô hình Thuật toán cây quyết định

36

2.3.4

Mô hình Thuật toán K – Nearest Neighbor

37

2.3.5

Phương pháp SVM

38

3.1

Định dạng lưu dữ liệu sau khi tiền xử lý

47


3.2

Ứng dụng phân tích và xác định dịch bệnh trên 51
Twitter

3.3

Phân tích dữ liệu và hiển thị Heatmap

51

3.4

Kết quả phân tích dữ liệu trên Twitter

52


5

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu là tìm hiểu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.
HỌC VIÊN

Tạ Quang Long


6


MỞ ĐẦU
Ngày nay, mạng xã hội ngày càng phát triển để kết nối các thành viên cùng
sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt
không gian và thời gian. Có thể nói, đây là mô hình mới nhất trong quá trình phát
triển giao tiếp trên mạng, đơn giản hoá các phương thức tương tác và kết nối giữa
con người với nhau. Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của
trang Classmate với mục đích kết nối bạn học, tiếp theo là sự xuất hiện của
SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích. Hiện
nay thế giới có hàng trăm mạng xã hội khác nhau, trong đó một trong mạng xã hội
phát triển nhanh nhất và thành công nhất mặc dù có mặt khá muộn, đó là Twitter.
Hai mạng xã hội phát triển nhanh nhất hiện nay có mặt khá muộn. Năm
2004, Facebook ra mắt. Ban đầu đây là địa chỉ dành cho sinh viên đại học kết nối và
chia sẻ. Ngay sau khi ra đời tại trụ sở trường đại học danh tiếng Harvard, Facebook
đã có tới 19.500 sinh viên đăng kí trong tháng đầu tiên.
Tuy không phải là mạng xã hội nổi tiếng nhất thời điểm đó như
Facebook, MySpace, 2 năm sau Twitter cũng kịp thời ra đời, ghi dấu mốc
quan trọng trong quá trình phát triển của mạng xã hội. Tại thời điểm năm 2008,
mỗi giây người dùng Twitter đăng lên 3.283 thông điệp. Thông qua mạng xã
hội này mà các tin nhắn nhắn hoặc các mẩu tin được chia sẻ giữa một số lượng
lớn người dùng bằng một cơ chế tin nhắn rất đơn giản.
Với số lượng người sử dụng lên đến trên 500 triệu người, nó cho phép
người dùng chia sẻ các thông tin thông qua việc đăng các tin nhắn trong phạm vi
giới hạn 140 ký tự, được gọi là các tweet hoặc các status. Lượng tweet được người
dùng đăng lên hàng ngày rất lớn, lên đến 340 triệu tweets mỗi ngày, kèm với đó là
một lượng thông tin khổng lồ được chia sẻ và cập nhật mới nhất. Mỗi người dùng
có thể lựa chọn theo dõi một cá nhân hoặc tổ chức nào đó, mà người đó quan tâm,


7


và ngược lại cũng có thể được theo dõi bởi các người dùng khác, Twitter sẽ hiển thị
những tweet mới nhất được đăng tải bởi các cá nhân hoặc tổ chức mà người dùng
đang theo dõi, theo thứ tự thời gian đăng tweet đó.
Nghiên cứu cho thấy các tweet đăng trên Twitter có chứa nhiều loại thông
tin, trong đó có cả các thông tin về tình hình sức khỏe của người đăng tải. Ví dụ
như: Tôi bị đau đầu, ho và sốt cả tuần nay... Các thông tin này có thể có dạng trực
tiếp, chẳng hạn báo rõ số lượng bệnh nào đó đang tăng, hoặc có thể là gián tiếp,
chẳng hạn khi người dùng than phiền về tình trạng sức khoẻ của mình. Bài toán đặt
ra là chúng ta phải lọc được các tweet có nội dung liên quan đến dịch bệnh cụ thể là
bệnh cúm được đưa vào phân tích trong luận văn của em dựa vào kỹ thuật phân lớp
văn bản. Việc phát hiện và phân tích những tweet như vậy cho phép phát hiện sớm
tình trạng bùng phát dịch bệnh trong cộng đồng dân cư và có thể đóng vai trò một
kênh thông tin quan trọng hỗ trợ y tế cộng đồng.
Một vấn đề đặt ra là khi số lượng tweet tăng lên một cách chóng mặt, do
người dùng theo dõi quá nhiều cá nhân hoặc tổ chức khác thì vấn đề lớn mà họ gặp
phải chính là sự quá tải thông tin. Rất nhiều thông tin hữu ích có thể sẽ bị mất đi do
các tweet khác mới hơn được cập nhật và làm đẩy lùi các tweet trước đó, trong khi
những tweet đó không phải là những thông tin thực sự cần thiết mà người dùng
quan tâm. Đồng thời, một bài toán khác cũng được quan tâm là rất nhiều người
dùng muốn biết đang có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…)
ở vùng nào đó gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến và có biện
pháp phòng tránh kịp thời cho họ và những người xung quanh họ.
Có thể lấy ví dụ như sau:
Tweet#1: Today I do not go to work, because I feel headache, cough and
runny or stuffy nose. I think I have the flu.
Tweet#2: Our company is selling tea to improve health, relieve cough
symptoms, and fight the flu.
Như đã nhìn thấy ở trên, cả 2 Tweet đều có nội dung nói đến cúm(flu), và



8

các triệu chứng. Dựa vào kỹ thuật phân lớp văn bản xác định được Tweet#1 là
Tweet có nội dung nói đến người đang bị bệnh cúm và Tweet#1 là Tweet thực sự bị
cúm.
Do vậy, trên Twitter có rất nhiều thông tin về bệnh cúm nhưng rất khó phân
biệt đâu là trường hợp mắc bệnh cúm thực sự.
Từ đó việc thu thập các Tweet mà mọi người đề cập đến những từ liên quan
đến cúm trong mẩu tin của họ, hệ thống xử lý thông tin này giúp sàng lọc những
thông tin về bệnh cúm thực sự và loại bỏ các thông tin khác để tìm ra có nhiều
người thực sự bị cúm, dựa vào số lượng người bị và vị trí địa lý lấy được từ đó thì
đưa cảnh báo đang có dịch bệnh ở một vùng nào đó.
Chính vì vậy, việc giám sát dịch bệnh, cụ thể là dịch cúm nhằm cung cấp cho
người dùng những tweet hữu dụng là một vấn đề vô cùng quan trọng. Một trong
những kỹ thuật được sử dụng phổ biến hiện nay và mang lại hiệu quả cao là kỹ
thuật phân lớp văn bản, đề tài luận văn này của em sẽ tập trung vào tìm hiểu kỹ
thuật phân lớp văn bản này, dựa trên tính cá nhân hóa của người dùng Twitter nhằm
đưa ra một kết quả phân tích tốt nhất về dịch cúm. Giải pháp được thử nghiệm trên
bộ dữ liệu thực được thu thập từ Twitter.
Nội dung của luận văn được bố cục thành 3 chương như sau:
 Chương 1 – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG
Giới thiệu chương: Giới thiệu về mạng xã hội Twitter, các khái niệm và đặc
trưng trong mạng xã hội này, bao gồm các mối quan hệ trong mạng, những tác
nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin
thông qua Twitter. Giới thiệu những cách thức tư vấn hiện nay được áp dụng cho
Twitter và những hạn chế của các phương pháp này
 Chương 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP
DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER
Giới thiệu chương: Trình bày tổng quan về kỹ thuật phân lớp văn bản và áp



9

dụng kỹ thuật Naive Bayes để xác định dịch bệnh trong phân tích dữ liệu trên
Twitter. Dựa vào những đặc trưng của mạng xã hội Twitter, đưa ra đề xuất phương
pháp áp dụng kỹ thuật phân lớp văn bản.
 Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ
Giới thiệu chương: Sử dụng các thư viện có sẵn do Twitter cung cấp, thực
hiện xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng
người dùng, sử dụng kỹ thuật phân lớp văn bản Naive Bayet đã đề xuất ở chương 2
để phân tích và xác định dịch cúm. Đánh giá kết quả so với các phương pháp tư vấn
khác, và so với cách làm việc hiện tại của Twitter để cung cấp các tweet cho người
dùng.


10

CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC
TRƯNG
Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến trong
những năm gần đây v à cung cấp một số lượng lớn người dùng sử dụng để đăng
các bản tin, hoặc có thể được gọi là các tweet. Các tweet đó được Twitter hiển
thị cho người dùng theo thứ tự về thời gian v à được gọi là Timeline, người dùng
sẽ dựa vào timeline để theo dõi những thông tin mà họ có thể sẽ quan tâm. Tuy
nhiên, vấn đề quá tải thông tin đã gây khó khăn cho người sử dụng, đặc biệt khi
người dùng đó theo dõi nhiều người dùng khác v à có hàng ngàn tweet đến với
họ mỗi ngày. Luận văn này sẽ tập trung vào việc đưa ra những tweet hữu ích mà
người dùng thực sự quan tâm thông qua các phương pháp tư vấn, giúp người dùng
giảm công sức bỏ ra để tìm kiếm những thông tin đó.


Hình 1.1 Các Tweets được chia sẻ bởi một người dùng.


11

1.1

Giới thiệu mạng xã hội Twitter
Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc,

nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng tiểu blog.
Những mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh
chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi
cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ
biến toàn cầu, những tweet có thể chỉ là dòng tin cá nhân cho đến những cập
nhật mang tính thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính
thông.
Theo thống kê 2013, Twitter có khoảng hơn 500 triệu người dùng đã được
kích hoạt và trung bình mỗi ngày tweet trung bình hàng ngày được đăng mới là 58
triệu tweet [1], các con số này vẫn không ngừng tăng lên, mỗi ngày có thể thêm
khoảng 135,000 người dùng mới đăng ký sử dụng dịch vụ.
Giới hạn về độ dài tin nhắn là 140 ký tự có tính tương thích với một bản tin,
mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng
rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ.
Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones),
việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ
dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn
giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API)
cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép đ lấy và

cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến
Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter
và thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người
sử dụng.

1.2

Các đặc trưng thông tin của Twitter
Người dùng Twitter cập nhật các bản tin ngắn bị giới hạn trong 140 ký tự

được gọi là các tweet, và thuật ngữ để chỉ việc đăng các bản tin đó gọi là


12

tweeting. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng
theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B
nhưng ngược lại, B không thấy tweet của A. Mô tả cho mối quan hệ người dùng này
được thể hiện trong hình 1.1
A

CA

B

CB

Hình 1.2.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó

Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng

Twitter với nhau gồm có follower và followee, follower là những người đang theo
dõi một người dùng nào đó, và followee là chỉ những người đang được người dùng
theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là follower của B, và
B là followee của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới
được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các
tweet hiển thị trong danh sách này chính là những tweet được đăng bởi các
followee. Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ
được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì
những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn
‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy
cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng.
Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản
tin văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích
trong bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng
b sung thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và
retweet.
-

Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt

sau dấu # Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều


13

thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag
‘#hanoi’ sẽ có ý nghĩa tweet đó mang thông tin về ‘hanoi’

Hình 1.2.2 Tweet có chứa hashtag trong nội dung


Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận
về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm.
-

Mention và reply (đề cập và trả lời) Đây là hai đặc trưng quan

trọng mà Twitter cung cấp cho người dùng, đề cập và trả lời một người
dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc
trưng này cũng là một quy ước trong thế giới mạng trước khi trở thành
một đặc trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú
ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực
hiện đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào
đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của
mình, Alice sẽ viết ‘@bob’ Bên cạnh chức năng mention, Twitter còn
cung cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng
cách dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được
đặt ở đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong
tweet của Alice. Mention và reply sẽ được Twitter hiển thị khác nhau
trong danh sách tweet của những người đang theo dõi Alice và Bob.

Hình 1.2.3 Người dùng Twitter có thể mention một người dùng khác trong tweet của mình


14

Hình 1.2.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý nghĩa sẽ là một hành
động reply

-


Retweet: Mộ tổ chức năng không thể thiếu giúp cho mạng xã hội

Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter
có thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ
được hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi
retweet sẽ có kèm thêm thông tin về người đã đăng tweet đó gười dùng bất
kỳ khi truy cập danh sách các tweet của một người nào đó cũng có thể
biết một tweet đã được retweet bao nhiêu lần và bởi những ai.
-

Favorite: bên cạnh việc retweet những tweet mà người dùng cảm

thấy hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh
sách các tweet của người dùng đó, v à cũng hiển thị đối với những người
dùng đang follow, chức năng fa orite cũng th hiện sự quan tâm của người
dùng đối với một thông tin nào đó thông qua iệc lựa chọn một tweet là
favorite hay không. Đây cũng là một cách đ giúp người dùng đánh dấu à
lưu lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm
được đề cập trong tweet. Khác với retweet, hành động favorite không
được chia sẻ công khai với những người dùng Twitter khác, kể cả những
người đang theo dõi.
Tất cả các đặc trưng mà Twitter cung cấp đều góp phần thể hiện một phần
quan điểm, sở thích cá nhân của người dùng, những hành động của người dùng
cũng sẽ được lưu trữ trong hồ sơ người dùng và có thể trích xuất thông qua giao
diện lập trình ứng dụng (API) mà Twitter cung cấp.


15

1.3


Mối quan hệ người dùng trong mạng Twitter
Mạng xã hội trực tuyến là một trong những cách truyền thông quan trọng

nhất mà chúng ta sử dụng trong cuộc sống hàng ngày. Nó giúp chúng ta duy trì các
mối quan hệ xã hội với gia đình và bạn bè, cũng như để mở rộng phạm vi
chuyên môn và tiếp thu kiến thức cũng như ý tưởng mới từ mạng. Mạng xã hội
phổ biến là do khả năng thu hút mọi người vào để tạo thành các nguồn sản xuất
thông tin tích cực, cho phép họ tạo, truy cập và chia sẻ nội dung ở bất cứ đâu và
bất cứ lúc nào. Chính vì thế, sự phổ biến của mạng xã hội trực tuyến đã tạo ra
một lượng lớn các bản ghi thông tin liên lạc và kết nối truyền thông mà có thể
dễ dàng truy cập và phân tích để nghiên cứu hành vi xã hội của con người.
Những đặc điểm duy nhất của mạng xã hội là tạo ra các hiệu ứng mạnh mẽ đối
với xã hội, nhưng mức độ mà nó đang ảnh hưởng tới hành vi xã hội của con người
vẫn còn chưa biết. Tuy nhiên, không có nghi ngờ rằng vai trò của nó sẽ là quan
trọng hàng đầu trong tương lai
Twitter là một dịch vụ mạng xã hội trực tuyến được thành lập ào năm 2006,
và tới nay trở thành một trong những mạng xã hội phổ biến nhất, với hơn 500 triệu
người đăng ký như của năm 2012. Tính năng chính của Twitter là cho phép người
dùng gửi tin nhắn văn bản ngắn gọi là tweet. Người dùng có thể theo dõi người sử
dụng khác để tự động nhận được tất cả các tweets của họ và có thể thấy chúng đang
được hiện thị trên trang chủ của họ. Những người sử dụng mà một người nào đó
theo dõi họ thì là bạn bè của họ, trong khi những người dùng mà đang theo dõi
người đó thì sẽ được gọi là những người đi theo – followers. Hành động tham chiếu
tới một người dùng nào đó trong một tweet của mình thì được gọi là đề cập đến –
mentions. Mentions là các thông điệp trực tiếp gửi đến một hoặc nhiều người thông
qua cơ chế đề cập và là một hình thức đặc biệt của truyền thông trực tiếp giữa
những người sử dụng Twitter cho phép người dùng trả lời – reply trực tiếp cho bất
kỳ tweet nào tự động thêm một mention để phản hồi lại. Trả lời thường liên quan
đến hai hướng trong giao tiếp, vì người dùng thường trả lời để phản hồi lại các

thông tin mà họ được đề cập. Twitter cho phép việc trao đổi tin nhắn riêng như một


16

cơ chế bổ sung cho thông tin liên lạc trực tiếp. Mặc dù vậy, nội dung của những tin
nhắn này là cá nhân và không thể được truy cập mà không có sự cho phép.
Hơn nữa, tin nhắn riêng chỉ chiếm một phần nhỏ của tất cả các tin nhắn trao
đổi trên Twitter và do đó nếu chỉ sử dụng chúng để xác định thông tin liên lạc
trực tiếp giữa những người sử dụng có thể dẫn đến một hình ảnh không đầy đủ.
Bên cạnh truyền thông trực tiếp, tất cả các tweet sẽ được tự động quảng bá đến
tất cả các người sử dụng đang theo dõi. Các Tweet có thể được retweeted hay
nói cách khác, các tweets có thể được chuyển tiếp bởi người sử dụng cho tất cả
các followers của họ. Retweeting là một cơ chế truyền thông thực sự hiệu quả, nó
giúp truyền bá thông tin trên mạng nhanh chóng hơn. Các thẻ đặc biệt được sử
dụng để gán một hoặc nhiều chủ đề của một tweet được gọi là hashtags, các thẻ
này được đặc trưng bởi sự hiện diện của ký tự "#" trước tên của chủ đề, như là
một phần của văn bản của các tweet.
Hashtags được sử dụng bởi Twitter để phân loại các tweet và nhóm chúng
thành các loại, có thể xem bởi người sử dụng.
Thông qua cơ chế truyền thông của Twitter, chúng ta có thể thấy hai
khái niệm được sử dụng để thể hiện mối quan hệ hai chiều giữa những người
dùng, đó là, “followers và followings” Trong đó, “Followers” là khái niệm chỉ
những người dùng đồng ý nhận các Tweets của một người dùng nhất định thông
qua Twitter. Và nếu người dùng này thêm một ai đó vào danh sách theo dõi các
tweet của họ thì có nghĩa là người dùng đang “following” họ.Số lượng
“followers” là quan trọng với một người dùng Twitter bởi sự nổi tiếng và uy
tín được đo bằng số lượng “followers” mà một người dùng có.



17

Hình 1.3

1.4

Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các

mạng xã hội khác
Twitter có số lượng người dùng và chia sẻ thông tin gần như nhiều

-

nhất so với các mạng xã hội khác như : Facebook, Youtube, Linkedin,
Instagram…
Hầu hết các mạng xã hội khác như Youtube, Linkedin, Instagram…

-

đều nhắm tới một đối tượng cụ thể như:
-

Facebook: chia sẻ thông tin hình ảnh, video, clip…và lưu trữ dưới

dạng blog cá nhân hóa cho người sử dụng.
-

Youtube: là những đoạn video, clip được mọi người chia sẽ và theo

dõi.

-

Linkedin: đã xây dựng thành công một nơi để những người làm kinh

doanh, giới văn phòng có thể kết nối với nhau và xây dựng mạng lưới gắn
kết, hợp tác và hỗ trợ cho hoạt động kinh doanh của mình.
-

Instagram: khi tập trung hơn về hình ảnh và bản quyền ảnh, tức là bạn

không thể tải ảnh về máy trên Instagram. Người dùng yêu Instagram là vì
chức năng chỉnh sửa ảnh quá điêu luyện của nó. Đó là sự kết hợp thông
minh và thuận tiện giữa mạng xã hội với ứng dụng chỉnh ảnh.
-

Nhiều năm nay đối thủ cạnh tranh với Twitter thì chỉ có thể là

Facebook. Với lượng thông tin truy cập và chia sẻ rất nhiều nhưng Facebook
thì hướng tới đối tượng người dùng chủ yếu được các cá nhân sử dụng để họ


18

kết nối với những người đang offline, hơn nữa để lưu lại một bộ hồ sơ cá
nhân và đăng tải những thông điệp trên tường của họ. Người sử dụng có thể
đăng tải cả một album ảnh và videos, chia sẻ các liên kết hay, viết một đoạn
note dài, gửi tin nhắn cá nhân một đoạn văn bản hay thậm chí là video tới
bạn bè của mình.
Sức mạnh của Twitter chính là sự kết nối. Khả năng kết nối rộng rãi


-

tới mọi người chính là sức mạnh để Twitter nổi tiếng như hôm nay. Twitter
cung cấp khả năng kết nối cực kỳ nhanh và mạnh. Bao gồm các kết nối sau:
-

Viết blog từ điện thoại di động bằng cách gửi mail, gửi tin nhắn SMS

tới Twitter. Thông tin sẽ lập tức được đưa vào blog của bạn.
-

Kết nối mọi người bằng các công cụ theo dõi. Với công cụ này, những

người được kết nối với bạn sẽ nhận được tin nhắn của bạn như một phần
trong nội dung blog của họ, ngược lại, bạn sẽ theo dõi tất cả những người
được bạn kết nối như một phần trong blog của bạn. Và như thế, mọi người
có thể dõi theo nhau ở bất cứ đâu, bất cứ thời điểm nào.
-

Twitter được hỗ trợ bởi thư viện các ứng dụng "ăn theo" phong phú

giúp kết nối tới Twitter từ bất cứ đâu. Bạn có thể chèn Twitter lên blog &
website của mình nhờ các ứng dụng bổ sung, theo dõi Twitter ngay trên trình
duyệt khi đang lướt web, xem mail.
Tóm lại, việc lựa chọn mạng xã hội Twitter để phân tích dịch bệnh trong luận
văn của em, mà không phải sử dụng các mạng xã hội khác lý do chủ yếu twitter
bao gồm các thông điệp ngắn về bất cứ thông tin nào mà người dùng cũng có thể
chia sẻ: tin tức, chuyện phiếm, xã hội….Mọi người có thể sử dụng nó như là một
hình thức giao tiếp thông qua Twitter. Vì vậy, Twitter là một nguồn tốt để tìm kiếm,
và phân tích thông tin.


1.5

Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác
Với tiến bộ trong công nghệ và nhận thức cao về rủi ro. Hiện này có rất nhiều

công cụ hỗ trợ mọi người theo dõi dịch bệnh trên mạng internet. Để kiểm soát sức


19

khỏe trong cộng đồng, phát hiện sớm các dịch bệnh, tầm nguy hại nhằm hỗ trợ cho
việc báo động, cũng như phản ứng nhanh để kịp thời đối phó với các rủi ro, giảm
thiểu tới mức tối đa tỷ lệ mắc bệnh, và lây lan.
Song song với twitter, thì mạng xã hội khác như facebook, google…cũng là
nơi có nhiều người dùng truy cập và chia sẽ thông tin. Với lượng dữ liệu khổng lồ
không khác gì twitter, việc phân tích dữ liệu big data từ những mạng xã hôi này để
xác định dịch bệnh là khả quan.
Một số ứng dụng nghiên cứu trước đây về giám sát cúm dựa trên web, dựa
vào nhật ký truy vấn và dữ liệu qua các công cụ tìm kiếm và các nguồn thông tin
khác bao gồm các bài báo từ các phương tiện truyền thông.

1.5.1 Ứng dụng Google Flu Trends
Google Flu Trends[11] là một dịch vụ web do Google điều hành. Nó cung
cấp ước tính về bệnh cúm cho hơn 25 quốc gia. Bằng cách tổng hợp các truy vấn
tìm kiếm của Google , sau đó phân tích và đưa ra dự đoán chính xác về bệnh cúm.
Dự án này lần đầu tiên được Google.org đưa ra vào năm 2008 để giúp dự đoán sự
bùng phát dịch cúm.
Ý tưởng đằng sau Google Flu Trends (GFT) là bằng cách theo dõi hàng triệu
hành vi sức khỏe của người dùng trực tuyến, số lượng lớn các truy vấn tìm kiếm của

Google được thu thập có thể được phân tích và công bố thành dịch cúm nếu tìm
thấy nhiều người bị cúm. Google Flu Trends so sánh những phát hiện này với mức
độ hoạt động của bệnh cúm trong lịch sử cho khu vực tương ứng của nó và sau đó
báo cáo mức độ hoạt động ở mức tối thiểu, thấp, trung bình, cao hoặc cường độ cao.
Những ước tính này nói chung là phù hợp với dữ liệu giám sát thông thường được
thu thập bởi các cơ quan y tế, cả trong nước và khu vực.
Google Flu Trends được mô tả là sử dụng phương pháp sau đây để thu thập
thông tin về xu hướng dịch cúm.


20

Đầu tiên, chuỗi thời gian được tính cho khoảng 50 triệu truy vấn thông
thường được nhập hàng tuần trong Hoa Kỳ từ năm 2003 đến 2008. Chuỗi thời gian
của truy vấn được tính riêng cho từng tiểu bang và được chuẩn hóa thành một phần
bằng cách chia số truy vấn cho số lượng tất cả các truy vấn trong trạng thái đó.
Bằng cách xác định địa chỉ IP được kết hợp với mỗi tìm kiếm, trạng thái mà truy
vấn này được nhập có thể được xác định.
Mô hình tuyến tính được sử dụng để tính toán tỷ lệ đăng nhập của lần khám
bác sĩ giống cúm (ILI) và tỷ lệ đăng nhập của truy vấn tìm kiếm liên quan đến ILI:
logit(P) = β 0 + β 1 x logit(Q) + ε
P là phần trăm số lần khám bác sĩ ILI và Q là phần truy vấn liên quan đến ILI
được tính toán trong các bước trước đó. β 0 là chặn và β 1 là hệ số, trong khi ε là từ
lỗi.
Mỗi 50 triệu truy vấn được kiểm tra là Q để xem liệu kết quả tính từ một truy
vấn có thể khớp với dữ liệu lịch sử thực tế của ILI thu được từ Trung tâm Kiểm soát
và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) hay không. Quá trình này tạo ra một danh
sách các truy vấn hàng đầu cung cấp các dự đoán chính xác nhất về dữ liệu ILI CDI
khi sử dụng mô hình tuyến tính. Sau đó, 45 truy vấn hàng đầu được chọn vì, khi
được tổng hợp cùng nhau, các truy vấn này phù hợp với dữ liệu lịch sử chính xác

nhất. Sử dụng tổng của 45 truy vấn liên quan đến ILI hàng đầu, mô hình tuyến tính
được gắn với dữ liệu ILI hàng tuần từ năm 2003 đến năm 2007 để có thể đạt được
hệ số. Cuối cùng, mô hình được đào tạo được sử dụng để dự đoán sự bùng phát dịch
cúm ở tất cả các vùng ở Hoa Kỳ.
Google cho biết rằng dự đoán của Google Flu Trends là 97% chính xác so
với dữ liệu CDC. Tuy nhiên, các báo cáo tiếp theo khẳng định rằng dự đoán của
Google Flu Trends đôi khi rất không chính xác - đặc biệt là trong khoảng thời gian


21

2011-2013, khi nó đánh giá cao tỷ lệ mắc cúm, và hơn một lần trong mùa cúm
2012-2013 dự đoán hai lần mắc cúm như CDC đã ghi lại.
Một nguồn của vấn đề là những người tạo các tìm kiếm liên quan đến cúm có
thể biết rất ít về cách chẩn đoán bệnh cúm; tìm kiếm các triệu chứng cúm hoặc cúm
có thể nghiên cứu các triệu chứng bệnh tương tự như cúm, nhưng không thực sự là
bệnh cúm.
Hơn nữa, phân tích các cụm từ tìm kiếm được Google theo dõi, chẳng hạn
như "sốt" và "ho", cũng như ảnh hưởng của các thay đổi trong thuật toán tìm kiếm
của họ theo thời gian, đã làm dấy lên lo ngại về ý nghĩa của các dự đoán của nó.
Vào năm 2013, Google bắt đầu cố gắng bù đắp cho sự gia tăng tìm kiếm do sự nổi
bật của cúm trong tin tức, điều này đã được tìm thấy trước đó đã làm sai lệch kết
quả. Tuy nhiên, một phân tích kết luận rằng "bằng cách kết hợp dữ liệu GFT và dữ
liệu CDC bị trễ, cũng như hiệu chỉnh lại GFT, chúng tôi có thể cải thiện đáng kể
hiệu năng của GFT hoặc chỉ riêng CDC".

Hình 1.5.1

Một nghiên cứu sau này cũng chứng minh rằng dữ liệu tìm kiếm của Google
thực sự có thể được sử dụng để cải thiện các ước tính, giảm thiểu các lỗi được thấy

trong một mô hình sử dụng dữ liệu CDC một mình lên tới 52,7 phần trăm.


22

Bằng cách đánh giá lại mô hình GFT ban đầu, các nhà nghiên cứu đã phát
hiện ra rằng mô hình đã tập hợp các truy vấn về các điều kiện sức khỏe khác nhau,
một điều có thể dẫn đến dự đoán quá mức về tỷ lệ ILI; trong cùng một công việc,
một loạt các phương pháp tiếp cận tuyến tính và phi tuyến tiến bộ tốt hơn để mô
hình hóa ILI đã được đề xuất.
Ngoài ra Google Trend còn hỗ trợ phân tích, nghiên cứu xu hướng tìm kiếm
của người dùng không chỉ về cúm.

1.5.2 Trung tâm kiểm soát dịch bệnh (CDC)
CDC là cơ quan trực thuộc Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ có trụ sở
tại Atlanta, bang Georgia. Tổ chức này chịu trách nhiệm bảo vệ sức khỏe của người
dân và thực hiện công tác y tế cộng đồng thông qua việc cung cấp những thông tin
cần thiết giúp nâng cao sức khỏe cùng với nhiều bộ thuộc liên bang và các tổ chức
khác. CDC có trụ sở tại Việt Nam, để nghiên cứu, theo dõi các dịch bệnh tại đất
nước này. CDC còn có website và luôn cập nhật liên tục nội dung về dịch bệnh, các
câu hỏi về dịch bệnh, biểu đồ dịch bệnh từ nhiều năm trở lại đây…..

Hình 1.4.2


23

CDC có số liệu thực tế do thu thập được từ bộ y tế ở các địa phương nơi mà
CDC có trụ sở. Vì vậy, mọi người có thể vào website của CDC để cập nhật thông
tin về dịch cúm.


1.6

Kết luận chương
Bằng trực quan, ta có thể thấy một tweet có thực sự hữu ích hay không phụ

thuộc vào nhiều yếu tố, cơ bản là phân tích nội dung của các thông tin được người
viết đăng tải, việc dựa trên nội dung của bài viết đó có lẽ sẽ rất khó khăn với trường
hợp của Twitter, vì sự giới hạn của 140 ký tự, nên hầu hết các bài viết trên Twitter
đều ngắn gọn, phi hình thức, không có cấu trúc ngữ pháp rõ ràng và thông tin bị
nhiễu rất nhiều. Những phương pháp này sẽ không mang lại hiệu quả khả quan cho
mục đích của phân tích dữ liệu Twitter.

Hiện nay, đã có rất nhiều ứng dụng xác định thông tin dịch bệnh dựa
trên hệ tìm kiếm trên mạng internet.... Tuy nhiên, hầu hết các phương pháp đó
đều không mang đầy đủ tính chất các mối quan hệ trong mạng, hoặc chỉ dựa
trên những lần tìm kiếm thông tin trên mạng. Phương pháp được đề xuất
trong luận văn này không dựa trên hệ tìm kiếm trên internet, mà phân tích dữ liệu
trên mạng xã hội Twitter, việc sử dụng phân tích dữ liệu trên mạng xã hội Twitter,
do có số lượng người truy cập nhiều, môi trường thân thiện, tính cập nhật liên tục và
nhanh chóng, việc phân tích dữ liệu cụ thể nội dung được đăng tải trên Twitter
nhằm mục đích lấy được tất cả các thông tin hữu ích, để cải thiện hiệu quả của việc
xác định thông tin dịch bệnh.


×