Tải bản đầy đủ (.docx) (64 trang)

Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 64 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TẠ QUANG LONG

LUẬN VĂN THẠC SĨ KỸ THUẬT

XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN
TÍCH DỮ LIỆU TWITTER

HÀ NỘI - 2018


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN
TÍCH DỮ LIỆU TWITTER
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS TỪ MINH PHƯƠNG


1

MỤC LỤC
DANH MỤC BẢNG ............................................................................................
DANH MỤC HÌNH VẼ ........................................................................................



MỞ ĐẦU....................
CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG ...................

1.1 Giới thiệu m

1.2 Các đặc trưn

1.3 Mối quan hệ

1.4 Tại sao lại s
hội khác ....

1.5 Các ứng dụn

1.6 Kết luận chư
CHƯƠNG 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ .............................
XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER ..............................

2.1 Tiền xử lý d

2.1.3 Chất lượng dữ liệu (data quality): .................................................
2.1.4 Chất lượng dữ liệu (data quality): .................................................
2.1.5 Các kỹ thuật tiền xử lý dữ liệu: .....................................................

2.2 Biểu diễn v

2.3 Giới thiệu v
văn bản .....



2

2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) .................................
2.3.2.4 Phương pháp SVM (Support Vector Machine) ..........................
2.6Kết luận chương
CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ .................................................

3.1Thu thập dữ liệu t

3.2Đánh giá các phư

3.3Ứng dụng mô phỏ
3.4Kết luận chương
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................


3

DANH MỤC BẢNG
Số hiệu bảng
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9


DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Các cụm từ, ký hiệu
NB
NBL
CDC
K-NN
SVM
IDF
TF


4

DANH MỤC HÌNH VẼ
Số hiệu hình vẽ
1.1
1.2.1
1.2.2
1.2.3
1.2.4
1.3
1.5.1
1.5.2
2.1.1
2.2.1
2.2.2
2.3.1
2.3.2
2.3.3

2.3.4
2.3.5
3.1
3.2

3.3
3.4


5

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu là tìm hiểu của riêng tôi. Các
số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong
bất kỳ công trình nào khác.
HỌC VIÊN

Tạ Quang Long


6

MỞ ĐẦU
Ngày nay, mạng xã hội ngày càng phát triển để kết nối các thành viên cùng
sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt
không gian và thời gian. Có thể nói, đây là mô hình mới nhất trong quá trình phát
triển giao tiếp trên mạng, đơn giản hoá các phương thức tương tác và kết nối giữa
con người với nhau. Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của
trang Classmate với mục đích kết nối bạn học, tiếp theo là sự xuất hiện của
SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích. Hiện

nay thế giới có hàng trăm mạng xã hội khác nhau, trong đó một trong mạng xã hội
phát triển nhanh nhất và thành công nhất mặc dù có mặt khá muộn, đó là Twitter.
Hai mạng xã hội phát triển nhanh nhất hiện nay có mặt khá muộn. Năm 2004,
Facebook ra mắt. Ban đầu đây là địa chỉ dành cho sinh viên đại học kết nối và chia
sẻ. Ngay sau khi ra đời tại trụ sở trường đại học danh tiếng Harvard, Facebook đã có
tới 19.500 sinh viên đăng kí trong tháng đầu tiên.
Tuy không phải là mạng xã hội nổi tiếng nhất thời điểm đó như Facebook,
MySpace, 2 năm sau Twitter cũng kịp thời ra đời, ghi dấu mốc quan trọng trong quá
trình phát triển của mạng xã hội. Tại thời điểm năm 2008, mỗi giây người dùng
Twitter đăng lên 3.283 thông điệp. Thông qua mạng xã hội này mà các tin nhắn
nhắn hoặc các mẩu tin được chia sẻ giữa một số lượng lớn người dùng bằng một cơ
chế tin nhắn rất đơn giản.
Với số lượng người sử dụng lên đến trên 500 triệu người, nó cho phép người
dùng chia sẻ các thông tin thông qua việc đăng các tin nhắn trong phạm vi giới hạn
140 ký tự, được gọi là các tweet hoặc các status. Lượng tweet được người dùng
đăng lên hàng ngày rất lớn, lên đến 340 triệu tweets mỗi ngày, kèm với đó là một
lượng thông tin khổng lồ được chia sẻ và cập nhật mới nhất. Mỗi người dùng có thể
lựa chọn theo dõi một cá nhân hoặc tổ chức nào đó, mà người đó quan tâm,


7

và ngược lại cũng có thể được theo dõi bởi các người dùng khác, Twitter sẽ hiển thị
những tweet mới nhất được đăng tải bởi các cá nhân hoặc tổ chức mà người dùng
đang theo dõi, theo thứ tự thời gian đăng tweet đó.
Nghiên cứu cho thấy các tweet đăng trên Twitter có chứa nhiều loại thông tin,
trong đó có cả các thông tin về tình hình sức khỏe của người đăng tải. Ví dụ như:
Tôi bị đau đầu, ho và sốt cả tuần nay... Các thông tin này có thể có dạng trực tiếp,
chẳng hạn báo rõ số lượng bệnh nào đó đang tăng, hoặc có thể là gián tiếp, chẳng
hạn khi người dùng than phiền về tình trạng sức khoẻ của mình. Bài toán đặt ra là

chúng ta phải lọc được các tweet có nội dung liên quan đến dịch bệnh cụ thể là bệnh
cúm được đưa vào phân tích trong luận văn của em dựa vào kỹ thuật phân lớp văn
bản. Việc phát hiện và phân tích những tweet như vậy cho phép phát hiện sớm tình
trạng bùng phát dịch bệnh trong cộng đồng dân cư và có thể đóng vai trò một kênh
thông tin quan trọng hỗ trợ y tế cộng đồng.
Một vấn đề đặt ra là khi số lượng tweet tăng lên một cách chóng mặt, do
người dùng theo dõi quá nhiều cá nhân hoặc tổ chức khác thì vấn đề lớn mà họ gặp
phải chính là sự quá tải thông tin. Rất nhiều thông tin hữu ích có thể sẽ bị mất đi do
các tweet khác mới hơn được cập nhật và làm đẩy lùi các tweet trước đó, trong khi
những tweet đó không phải là những thông tin thực sự cần thiết mà người dùng
quan tâm. Đồng thời, một bài toán khác cũng được quan tâm là rất nhiều người
dùng muốn biết đang có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…)
ở vùng nào đó gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến và có biện
pháp phòng tránh kịp thời cho họ và những người xung quanh họ.
Có thể lấy ví dụ như sau:
Tweet#1: Today I do not go to work, because I feel headache, cough and
runny or stuffy nose. I think I have the flu.
Tweet#2: Our company is selling tea to improve health, relieve cough
symptoms, and fight the flu.
Như đã nhìn thấy ở trên, cả 2 Tweet đều có nội dung

nói đến cúm(flu), và


8

các triệu chứng. Dựa vào kỹ thuật phân lớp văn bản xác định được Tweet#1 là
Tweet có nội dung nói đến người đang bị bệnh cúm và Tweet#1 là Tweet thực sự bị
cúm.
Do vậy, trên Twitter có rất nhiều thông tin về bệnh cúm nhưng rất khó phân

biệt đâu là trường hợp mắc bệnh cúm thực sự.
Từ đó việc thu thập các Tweet mà mọi người đề cập đến những từ liên quan
đến cúm trong mẩu tin của họ, hệ thống xử lý thông tin này giúp sàng lọc những
thông tin về bệnh cúm thực sự và loại bỏ các thông tin khác để tìm ra có nhiều
người thực sự bị cúm, dựa vào số lượng người bị và vị trí địa lý lấy được từ đó thì
đưa cảnh báo đang có dịch bệnh ở một vùng nào đó.
Chính vì vậy, việc giám sát dịch bệnh, cụ thể là dịch cúm nhằm cung cấp cho
người dùng những tweet hữu dụng là một vấn đề vô cùng quan trọng. Một trong
những kỹ thuật được sử dụng phổ biến hiện nay và mang lại hiệu quả cao là kỹ thuật
phân lớp văn bản, đề tài luận văn này của em sẽ tập trung vào tìm hiểu kỹ thuật
phân lớp văn bản này, dựa trên tính cá nhân hóa của người dùng Twitter nhằm đưa
ra một kết quả phân tích tốt nhất về dịch cúm. Giải pháp được thử nghiệm trên bộ
dữ liệu thực được thu thập từ Twitter.
Nội dung của luận văn được bố cục thành 3 chương như sau:



Chương 1 – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC
TRƯNG
Giới thiệu chương: Giới thiệu về mạng xã hội Twitter, các khái niệm và đặc
trưng trong mạng xã hội này, bao gồm các mối quan hệ trong mạng, những tác nhân
ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua
Twitter. Giới thiệu những cách thức tư vấn hiện nay được áp dụng cho Twitter và
những hạn chế của các phương pháp này



Chương 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP
DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER
Giới thiệu chương: Trình bày tổng quan về kỹ thuật phân lớp văn bản và áp



9

dụng kỹ thuật Naive Bayes để xác định dịch bệnh trong phân tích dữ liệu trên
Twitter. Dựa vào những đặc trưng của mạng xã hội Twitter, đưa ra đề xuất phương
pháp áp dụng kỹ thuật phân lớp văn bản.



Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ

Giới thiệu chương: Sử dụng các thư viện có sẵn do Twitter cung cấp, thực
hiện xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng
người dùng, sử dụng kỹ thuật phân lớp văn bản Naive Bayet đã đề xuất ở chương 2
để phân tích và xác định dịch cúm. Đánh giá kết quả so với các phương pháp tư vấn
khác, và so với cách làm việc hiện tại của Twitter để cung cấp các tweet cho người
dùng.


10

CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC
TRƯNG
Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến trong
những năm gần đây v à cung cấp một số lượng lớn người dùng sử dụng để đăng các
bản tin, hoặc có thể được gọi là các tweet. Các tweet đó được Twitter hiển thị cho
người dùng theo thứ tự về thời gian v à được gọi là Timeline, người dùng sẽ dựa vào
timeline để theo dõi những thông tin mà họ có thể sẽ quan tâm. Tuy nhiên, vấn đề
quá tải thông tin đã gây khó khăn cho người sử dụng, đặc biệt khi người dùng đó

theo dõi nhiều người dùng khác v à có hàng ngàn tweet đến với họ mỗi ngày. Luận
văn này sẽ tập trung vào việc đưa ra những tweet hữu ích mà người dùng thực sự
quan tâm thông qua các phương pháp tư vấn, giúp người dùng giảm công sức bỏ ra
để tìm kiếm những thông tin đó.

Hình 1.1 Các Tweets được chia sẻ bởi một người dùng.


11

1.1

Giới thiệu mạng xã hội Twitter
Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc,

nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng tiểu blog. Những
mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong
phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người.
Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu,
những tweet có thể chỉ là dòng tin cá nhân cho đến những cập nhật mang tính thời
sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thông.

Theo thống kê 2013, Twitter có khoảng hơn 500 triệu người dùng đã được
kích hoạt và trung bình mỗi ngày tweet trung bình hàng ngày được đăng mới là 58
triệu tweet [1], các con số này vẫn không ngừng tăng lên, mỗi ngày có thể thêm
khoảng 135,000 người dùng mới đăng ký sử dụng dịch vụ.
Giới hạn về độ dài tin nhắn là 140 ký tự có tính tương thích với một bản tin,
mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng
rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ.
Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones),

việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ
dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn
giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API)
cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép đ lấy và
cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến
Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và
thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử
dụng.

1.2

Các đặc trưng thông tin của Twitter
Người dùng Twitter cập nhật các bản

được gọi là các tweet, và thuật ngữ để chỉ

tin ngắn bị giới hạn trong 140 ký tự
việc đăng các bản tin đó gọi là


12

tweeting. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng
theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B
nhưng ngược lại, B không thấy tweet của A. Mô tả cho mối quan hệ người dùng này
được thể hiện trong hình 1.1
A

CA


B

CB

Hình 1.2.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó
Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng

Twitter với nhau gồm có follower và followee, follower là những người đang theo
dõi một người dùng nào đó, và followee là chỉ những người đang được người dùng
theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là follower của B, và B
là followee của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới
được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các
tweet hiển thị trong danh sách này chính là những tweet được đăng bởi các
followee. Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ
được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì
những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn
‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy
cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng.
Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin
văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong
bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng b sung
thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet.
-

Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt

sau dấu # Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều


13


thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#hanoi’
sẽ có ý nghĩa tweet đó mang thông tin về ‘hanoi’

Hình 1.2.2 Tweet có chứa hashtag trong nội dung

Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận
về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm.
-

Mention và reply (đề cập và trả lời) Đây là hai đặc trưng quan trọng

mà Twitter cung cấp cho người dùng, đề cập và trả lời một người
dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc trưng
này cũng là một quy ước trong thế giới mạng trước khi trở thành một đặc
trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú
ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực hiện
đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào
đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của
mình, Alice sẽ viết ‘@bob’ Bên cạnh chức năng mention, Twitter còn cung
cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng cách
dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được đặt ở
đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong tweet của
Alice. Mention và reply sẽ được Twitter hiển thị khác nhau trong danh sách
tweet của những người đang theo dõi Alice và Bob.

Hình 1.2.3 Người dùng Twitter có thể mention một người dùng khác trong tweet của mình


14


Hình 1.2.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý nghĩa sẽ là một hành
động reply

- Retweet: Mộ tổ chức năng không thể thiếu giúp cho mạng xã hội
Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có
thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ được
hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi retweet
sẽ có kèm thêm thông tin về người đã đăng tweet đó gười dùng bất kỳ khi
truy cập danh sách các tweet của một người nào đó cũng có thể biết một
tweet đã được retweet bao nhiêu lần và bởi những ai.
-

Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy

hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các
tweet của người dùng đó, v à cũng hiển thị đối với những người
dùng đang follow, chức năng fa orite cũng th hiện sự quan tâm của người
dùng đối với một thông tin nào đó thông qua iệc lựa chọn một tweet là
favorite hay không. Đây cũng là một cách đ giúp người dùng đánh dấu à lưu
lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm được đề
cập trong tweet. Khác với retweet, hành động favorite không được chia sẻ
công khai với những người dùng Twitter khác, kể cả những người đang theo
dõi.
Tất cả các đặc trưng mà Twitter cung cấp đều góp phần thể hiện một phần
quan điểm, sở thích cá nhân của người dùng, những hành động của người dùng cũng
sẽ được lưu trữ trong hồ sơ người dùng và có thể trích xuất thông qua giao diện lập
trình ứng dụng (API) mà Twitter cung cấp.



15

1.3

Mối quan hệ người dùng trong mạng Twitter
Mạng xã hội trực tuyến là một trong những cách truyền thông quan trọng

nhất mà chúng ta sử dụng trong cuộc sống hàng ngày. Nó giúp chúng ta duy trì các
mối quan hệ xã hội với gia đình và bạn bè, cũng như để mở rộng phạm vi chuyên
môn và tiếp thu kiến thức cũng như ý tưởng mới từ mạng. Mạng xã hội phổ biến là
do khả năng thu hút mọi người vào để tạo thành các nguồn sản xuất thông tin tích
cực, cho phép họ tạo, truy cập và chia sẻ nội dung ở bất cứ đâu và bất cứ lúc nào.
Chính vì thế, sự phổ biến của mạng xã hội trực tuyến đã tạo ra một lượng lớn các
bản ghi thông tin liên lạc và kết nối truyền thông mà có thể dễ dàng truy cập và
phân tích để nghiên cứu hành vi xã hội của con người. Những đặc điểm duy nhất
của mạng xã hội là tạo ra các hiệu ứng mạnh mẽ đối với xã hội, nhưng mức độ mà
nó đang ảnh hưởng tới hành vi xã hội của con người vẫn còn chưa biết. Tuy nhiên,
không có nghi ngờ rằng vai trò của nó sẽ là quan trọng hàng đầu trong tương lai

Twitter là một dịch vụ mạng xã hội trực tuyến được thành lập ào năm 2006,
và tới nay trở thành một trong những mạng xã hội phổ biến nhất, với hơn 500 triệu
người đăng ký như của năm 2012. Tính năng chính của Twitter là cho phép người
dùng gửi tin nhắn văn bản ngắn gọi là tweet. Người dùng có thể theo dõi người sử
dụng khác để tự động nhận được tất cả các tweets của họ và có thể thấy chúng đang
được hiện thị trên trang chủ của họ. Những người sử dụng mà một người nào đó
theo dõi họ thì là bạn bè của họ, trong khi những người dùng mà đang theo dõi
người đó thì sẽ được gọi là những người đi theo – followers. Hành động tham chiếu
tới một người dùng nào đó trong một tweet của mình thì được gọi là đề cập đến –
mentions. Mentions là các thông điệp trực tiếp gửi đến một hoặc nhiều người thông
qua cơ chế đề cập và là một hình thức đặc biệt của truyền thông trực tiếp giữa

những người sử dụng Twitter cho phép người dùng trả lời – reply trực tiếp cho bất
kỳ tweet nào tự động thêm một mention để phản hồi lại. Trả lời thường liên quan
đến hai hướng trong giao tiếp, vì người dùng thường trả lời để phản hồi lại các
thông tin mà họ được đề cập. Twitter cho phép việc trao đổi tin nhắn riêng như một


16

cơ chế bổ sung cho thông tin liên lạc trực tiếp. Mặc dù vậy, nội dung của những tin
nhắn này là cá nhân và không thể được truy cập mà không có sự cho phép. Hơn nữa,
tin nhắn riêng chỉ chiếm một phần nhỏ của tất cả các tin nhắn trao đổi trên Twitter
và do đó nếu chỉ sử dụng chúng để xác định thông tin liên lạc trực tiếp giữa những
người sử dụng có thể dẫn đến một hình ảnh không đầy đủ. Bên cạnh truyền thông
trực tiếp, tất cả các tweet sẽ được tự động quảng bá đến tất cả các người sử dụng
đang theo dõi. Các Tweet có thể được retweeted hay nói cách khác, các tweets có
thể được chuyển tiếp bởi người sử dụng cho tất cả các followers của họ. Retweeting
là một cơ chế truyền thông thực sự hiệu quả, nó giúp truyền bá thông tin trên mạng
nhanh chóng hơn. Các thẻ đặc biệt được sử dụng để gán một hoặc nhiều chủ đề của
một tweet được gọi là hashtags, các thẻ này được đặc trưng bởi sự hiện diện của ký
tự "#" trước tên của chủ đề, như là một phần của văn bản của các tweet.
Hashtags được sử dụng bởi Twitter để phân loại các tweet và nhóm chúng
thành các loại, có thể xem bởi người sử dụng.
Thông qua cơ chế truyền thông của Twitter, chúng ta có thể thấy hai khái
niệm được sử dụng để thể hiện mối quan hệ hai chiều giữa những người dùng, đó là,
“followers và followings” Trong đó, “Followers” là khái niệm chỉ những người
dùng đồng ý nhận các Tweets của một người dùng nhất định thông qua Twitter. Và
nếu người dùng này thêm một ai đó vào danh sách theo dõi các tweet của họ thì có
nghĩa là người dùng đang “following” họ.Số lượng “followers” là quan trọng v ới
một người dùng Twitter bởi sự nổi tiếng và uy tín được đo bằng số lượng
“followers” mà một người dùng có.



17

Hình 1.3

1.4 Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng
xã hội khác
-

Twitter có số lượng người dùng và chia sẻ thông tin gần như nhiều

nhất so với các mạng xã hội khác như : Facebook, Youtube, Linkedin,
Instagram…
-

Hầu hết các mạng xã hội khác như Youtube, Linkedin, Instagram…

đều nhắm tới một đối tượng cụ thể như:
-

Facebook: chia sẻ thông tin hình ảnh, video, clip…và lưu trữ dưới

dạng blog cá nhân hóa cho người sử dụng.
- Youtube: là những đoạn video, clip được mọi người chia sẽ và theo
dõi.
-

Linkedin: đã xây dựng thành công một nơi để những người làm kinh


doanh, giới văn phòng có thể kết nối với nhau và xây dựng mạng lưới gắn
kết, hợp tác và hỗ trợ cho hoạt động kinh doanh của mình.
-

Instagram: khi tập trung hơn về hình ảnh và bản quyền ảnh, tức là bạn

không thể tải ảnh về máy trên Instagram. Người dùng yêu Instagram là vì
chức năng chỉnh sửa ảnh quá điêu luyện của nó. Đó là sự kết hợp thông
minh và thuận tiện giữa mạng xã hội với ứng dụng chỉnh ảnh.
- Nhiều năm nay đối thủ cạnh tranh với Twitter thì chỉ có thể

Facebook. Với lượng thông tin truy cập và chia sẻ rất nhiều nhưng Facebook
thì hướng tới đối tượng người dùng chủ yếu được các cá nhân sử dụng để họ


18

kết nối với những người đang offline, hơn nữa để lưu lại một bộ hồ sơ cá
nhân và đăng tải những thông điệp trên tường của họ. Người sử dụng có thể
đăng tải cả một album ảnh và videos, chia sẻ các liên kết hay, viết một đoạn
note dài, gửi tin nhắn cá nhân một đoạn văn bản hay thậm chí là video tới
bạn bè của mình.
-

Sức mạnh của Twitter chính là sự kết nối. Khả năng kết nối rộng rãi

tới mọi người chính là sức mạnh để Twitter nổi tiếng như hôm nay. Twitter
cung cấp khả năng kết nối cực kỳ nhanh và mạnh. Bao gồm các kết nối sau:
-


Viết blog từ điện thoại di động bằng cách gửi mail, gửi tin nhắn SMS

tới Twitter. Thông tin sẽ lập tức được đưa vào blog của bạn.
-

Kết nối mọi người bằng các công cụ theo dõi. Với công cụ này, những

người được kết nối với bạn sẽ nhận được tin nhắn của bạn như một phần
trong nội dung blog của họ, ngược lại, bạn sẽ theo dõi tất cả những người
được bạn kết nối như một phần trong blog của bạn. Và như thế, mọi người
có thể dõi theo nhau ở bất cứ đâu, bất cứ thời điểm nào.
- Twitter được hỗ trợ bởi thư viện các ứng dụng "ăn theo" phong phú
giúp kết nối tới Twitter từ bất cứ đâu. Bạn có thể chèn Twitter lên blog &
website của mình nhờ các ứng dụng bổ sung, theo dõi Twitter ngay trên trình
duyệt khi đang lướt web, xem mail.
Tóm lại, việc lựa chọn mạng xã hội Twitter để phân tích dịch bệnh trong luận
văn của em, mà không phải sử dụng các mạng xã hội khác lý do chủ yếu twitter bao
gồm các thông điệp ngắn về bất cứ thông tin nào mà người dùng cũng có thể chia
sẻ: tin tức, chuyện phiếm, xã hội….Mọi người có thể sử dụng nó như là một
hình thức giao tiếp thông qua Twitter. Vì vậy, Twitter là một nguồn tốt để tìm kiếm,
và phân tích thông tin.

1.5

Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác
Với tiến bộ trong công nghệ và nhận thức cao về rủi ro. Hiện này có rất nhiều

công cụ hỗ trợ mọi người theo dõi dịch bệnh trên mạng internet. Để kiểm soát sức



19

khỏe trong cộng đồng, phát hiện sớm các dịch bệnh, tầm nguy hại nhằm hỗ trợ cho
việc báo động, cũng như phản ứng nhanh để kịp thời đối phó với các rủi ro, giảm
thiểu tới mức tối đa tỷ lệ mắc bệnh, và lây lan.
Song song với twitter, thì mạng xã hội khác như facebook, google…cũng là
nơi có nhiều người dùng truy cập và chia sẽ thông tin. Với lượng dữ liệu khổng lồ
không khác gì twitter, việc phân tích dữ liệu big data từ những mạng xã hôi này để
xác định dịch bệnh là khả quan.
Một số ứng dụng nghiên cứu trước đây về giám sát cúm dựa trên web, dựa
vào nhật ký truy vấn và dữ liệu qua các công cụ tìm kiếm và các nguồn thông tin
khác bao gồm các bài báo từ các phương tiện truyền thông.

1.5.1 Ứng dụng Google Flu Trends
Google Flu Trends[11] là một dịch vụ web do Google điều hành. Nó cung
cấp ước tính về bệnh cúm cho hơn 25 quốc gia. Bằng cách tổng hợp các truy vấn
tìm kiếm của Google , sau đó phân tích và đưa ra dự đoán chính xác về bệnh cúm.
Dự án này lần đầu tiên được Google.org đưa ra vào năm 2008 để giúp dự đoán sự
bùng phát dịch cúm.
Ý

tưởng đằng sau Google Flu Trends (GFT) là bằng cách theo dõi hàng triệu

hành vi sức khỏe của người dùng trực tuyến, số lượng lớn các truy vấn tìm kiếm của
Google được thu thập có thể được phân tích và công bố thành dịch cúm nếu tìm thấy
nhiều người bị cúm. Google Flu Trends so sánh những phát hiện này với mức độ
hoạt động của bệnh cúm trong lịch sử cho khu vực tương ứng của nó và sau đó báo
cáo mức độ hoạt động ở mức tối thiểu, thấp, trung bình, cao hoặc cường độ cao.
Những ước tính này nói chung là phù hợp với dữ liệu giám sát thông thường được
thu thập bởi các cơ quan y tế, cả trong nước và khu vực.

Google Flu Trends được mô tả là sử dụng phương pháp sau đây để thu thập
thông tin về xu hướng dịch cúm.


20

Đầu tiên, chuỗi thời gian được tính cho khoảng 50 triệu truy vấn thông
thường được nhập hàng tuần trong Hoa Kỳ từ năm 2003 đến 2008. Chuỗi thời gian
của truy vấn được tính riêng cho từng tiểu bang và được chuẩn hóa thành một phần
bằng cách chia số truy vấn cho số lượng tất cả các truy vấn trong trạng thái đó. Bằng
cách xác định địa chỉ IP được kết hợp với mỗi tìm kiếm, trạng thái mà truy vấn này
được nhập có thể được xác định.
Mô hình tuyến tính được sử dụng để tính toán tỷ lệ đăng nhập của lần khám
bác sĩ giống cúm (ILI) và tỷ lệ đăng nhập của truy vấn tìm kiếm liên quan đến ILI:
logit(P) = β 0 + β 1 x logit(Q) + ε
P là phần trăm số lần khám bác sĩ ILI và Q là phần truy vấn liên quan đến ILI
được tính toán trong các bước trước đó. β 0 là chặn và β 1 là hệ số, trong khi ε là từ
lỗi.
Mỗi 50 triệu truy vấn được kiểm tra là Q để xem liệu kết quả tính từ một truy
vấn có thể khớp với dữ liệu lịch sử thực tế của ILI thu được từ Trung tâm Kiểm soát
và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) hay không. Quá trình này tạo ra một danh
sách các truy vấn hàng đầu cung cấp các dự đoán chính xác nhất về dữ liệu ILI CDI
khi sử dụng mô hình tuyến tính. Sau đó, 45 truy vấn hàng đầu được chọn vì, khi
được tổng hợp cùng nhau, các truy vấn này phù hợp với dữ liệu lịch sử chính xác
nhất. Sử dụng tổng của 45 truy vấn liên quan đến ILI hàng đầu, mô hình tuyến tính
được gắn với dữ liệu ILI hàng tuần từ năm 2003 đến năm 2007 để có thể đạt được
hệ số. Cuối cùng, mô hình được đào tạo được sử dụng để dự đoán sự bùng phát dịch
cúm ở tất cả các vùng ở Hoa Kỳ.
Google cho biết rằng dự đoán của Google Flu Trends là 97% chính xác so với
dữ liệu CDC. Tuy nhiên, các báo cáo tiếp theo khẳng định rằng dự đoán của Google

Flu Trends đôi khi rất không chính xác - đặc biệt là trong khoảng thời gian


21

2011-2013, khi nó đánh giá cao tỷ lệ mắc cúm, và hơn một lần trong mùa cúm
2012-2013 dự đoán hai lần mắc cúm như CDC đã ghi lại.
Một nguồn của vấn đề là những người tạo các tìm kiếm liên quan đến cúm có
thể biết rất ít về cách chẩn đoán bệnh cúm; tìm kiếm các triệu chứng cúm hoặc cúm
có thể nghiên cứu các triệu chứng bệnh tương tự như cúm, nhưng không thực sự là
bệnh cúm.
Hơn nữa, phân tích các cụm từ tìm kiếm được Google theo dõi, chẳng hạn
như "sốt" và "ho", cũng như ảnh hưởng của các thay đổi trong thuật toán tìm kiếm
của họ theo thời gian, đã làm dấy lên lo ngại về ý nghĩa của các dự đoán của nó.
Vào năm 2013, Google bắt đầu cố gắng bù đắp cho sự gia tăng tìm kiếm do sự nổi
bật của cúm trong tin tức, điều này đã được tìm thấy trước đó đã làm sai lệch kết
quả. Tuy nhiên, một phân tích kết luận rằng "bằng cách kết hợp dữ liệu GFT và dữ
liệu CDC bị trễ, cũng như hiệu chỉnh lại GFT, chúng tôi có thể cải thiện đáng kể
hiệu năng của GFT hoặc chỉ riêng CDC".

Hình 1.5.1

Một nghiên cứu sau này cũng chứng minh rằng dữ liệu tìm kiếm của Google
thực sự có thể được sử dụng để cải thiện các ước tính, giảm thiểu các lỗi được thấy
trong một mô hình sử dụng dữ liệu CDC một mình lên tới 52,7 phần trăm.


22

Bằng cách đánh giá lại mô hình GFT ban đầu, các nhà nghiên cứu đã phát

hiện ra rằng mô hình đã tập hợp các truy vấn về các điều kiện sức khỏe khác nhau,
một điều có thể dẫn đến dự đoán quá mức về tỷ lệ ILI; trong cùng một công việc,
một loạt các phương pháp tiếp cận tuyến tính và phi tuyến tiến bộ tốt hơn để mô
hình hóa ILI đã được đề xuất.
Ngoài ra Google Trend còn hỗ trợ phân tích, nghiên cứu xu hướng tìm kiếm
của người dùng không chỉ về cúm.

1.5.2 Trung tâm kiểm soát dịch bệnh (CDC)
CDC là cơ quan trực thuộc Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ có trụ sở
tại Atlanta, bang Georgia. Tổ chức này chịu trách nhiệm bảo vệ sức khỏe của người
dân và thực hiện công tác y tế cộng đồng thông qua việc cung cấp những thông tin
cần thiết giúp nâng cao sức khỏe cùng với nhiều bộ thuộc liên bang và các tổ chức
khác. CDC có trụ sở tại Việt Nam, để nghiên cứu, theo dõi các dịch bệnh tại đất
nước này. CDC còn có website và luôn cập nhật liên tục nội dung về dịch bệnh, các
câu hỏi về dịch bệnh, biểu đồ dịch bệnh từ nhiều năm trở lại đây…..

Hình 1.4.2


23

CDC có số liệu thực tế do thu thập được từ bộ y tế ở các địa phương nơi mà
CDC có trụ sở. Vì vậy, mọi người có thể vào website của CDC để cập nhật thông tin
về dịch cúm.

1.6

Kết luận chương
Bằng trực quan, ta có thể thấy một tweet có thực sự hữu ích hay không phụ


thuộc vào nhiều yếu tố, cơ bản là phân tích nội dung của các thông tin được người
viết đăng tải, việc dựa trên nội dung của bài viết đó có lẽ sẽ rất khó khăn với trường
hợp của Twitter, vì sự giới hạn của 140 ký tự, nên hầu hết các bài viết trên Twitter
đều ngắn gọn, phi hình thức, không có cấu trúc ngữ pháp rõ ràng và thông tin bị
nhiễu rất nhiều. Những phương pháp này sẽ không mang lại hiệu quả khả quan cho
mục đích của phân tích dữ liệu Twitter.

Hiện nay, đã có rất nhiều ứng dụng xác định thông tin dịch bệnh dựa trên hệ
tìm kiếm trên mạng internet.... Tuy nhiên, hầu hết các phương pháp đó
đều không mang đầy đủ tính chất các mối quan hệ trong mạng, hoặc chỉ dựa trên
những lần tìm kiếm thông tin trên mạng. Phương pháp được đề xuất trong luận văn
này không dựa trên hệ tìm kiếm trên internet, mà phân tích dữ liệu trên mạng xã hội
Twitter, việc sử dụng phân tích dữ liệu trên mạng xã hội Twitter, do có số lượng
người truy cập nhiều, môi trường thân thiện, tính cập nhật liên tục và nhanh chóng,
việc phân tích dữ liệu cụ thể nội dung được đăng tải trên Twitter nhằm mục đích lấy
được tất cả các thông tin hữu ích, để cải thiện hiệu quả của việc xác định thông tin
dịch bệnh.


×