Tải bản đầy đủ (.pdf) (88 trang)

Biểu diễn và phân tích trực quan dữ liệu dịch bệnh áp dụng tập dữ liệu dịch bệnh sốt xuất huyết tỉnh Bình Dương (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.38 MB, 88 trang )

ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

DƢƠNG THỊ THÚY HIỀN

BIỂU DIỄN VÀ PHÂN TÍCH TRỰC QUAN DỮ LIỆU DỊCH BỆNH
ÁP DỤNG TẬP DỮ LIỆU DỊCH BỆNH SỐT XUẤT HUYẾT
(HOẶC DỊCH BỆNH TAY - CHÂN - MIỆNG)
TỈNH BÌNH DƢƠNG

CHUN NGÀNH: HỆ THỐNG THƠNG TIN
MÃ NGÀNH: 8480104

LUẬN VĂN THẠC SỸ

BÌNH DƢƠNG - NĂM 2020


ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

DƢƠNG THỊ THÚY HIỀN

BIỂU DIỄN VÀ PHÂN TÍCH TRỰC QUAN DỮ LIỆU DỊCH BỆNH - ÁP
DỤNG TẬP DỮ LIỆU DỊCH BỆNH SỐT XUẤT HUYẾT (HOẶC DỊCH
BỆNH TAY - CHÂN - MIỆNG) TỈNH BÌNH DƢƠNG

CHUN NGÀNH: HỆ THỐNG THƠNG TIN
MÃ NGÀNH: 8480104

LUẬN VĂN THẠC SỸ



NGƢỜI HƢỚNG DẪN KHOA HỌC:
PGS.TS. TRẦN VĨNH PHƢỚC

BÌNH DƢƠNG - NĂM 2020


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi. Dữ liệu tôi sử dụng
trong nghiên cứu về sốt xuất huyết và thời tiết đã đƣợc sự chấp thuận, cho phép
sử dụng của lãnh đạo cơ quan Trung tâm Y tế Dự phịng tỉnh Bình Dƣơng, Trung
tâm quan trắc, môi trƣờng tỉnh.
Nội dung tham khảo từ các nghiên cứu liên quan đều đƣợc trích dẫn rõ
ràng. Nội dung của nghiên cứu là nỗ lực của tôi và chƣa từng đƣợc cơng bố
trong các cơng trình nghiên cứu khoa học nào khác.

Tác giả

Dƣơng Thị Thúy Hiền

i


LỜI CẢM ƠN
Trong quá trình nghiên cứu và thực hiện đề tài luận văn “Biểu diễn và
phân tích trực quan dữ liệu dịch bệnh - Áp dụng tập dữ liệu dịch bệnh sốt xuất
huyết (hoặc dịch bệnh tay - chân - miệng) tỉnh Bình Dƣơng”, tơi đã nhận đƣợc
rất nhiều sự giúp đỡ từ phía thầy cơ, các tổ chức và cá nhân sau:
Đầu tiên, tôi xin chân thành cảm ơn sâu sắc đến Thầy PGS.TS. Trần Vĩnh
Phƣớc - đã tận tâm dìu dắt, hƣớng dẫn, góp ý, chỉnh sửa để tơi hồn thành luận

văn này. Tơi xin chân thành cảm ơn đến Thầy PGS.TS Lê Tuấn Anh - Phó Hiệu
trƣởng Phụ trách Đại học Thủ Dầu Một đã giúp tôi tiếp cận các lĩnh vực nghiên
cứu mới vừa khoa học, vừa gần gũi thực tiễn cuộc sống.
Tôi trân trọng gửi lời cảm ơn đến Ban Giám hiệu nhà trƣờng, Viện Sau
Đại học, cùng Thầy, Cô trong

hoa

thuật - Công nghệ, Trƣờng Đại học Thủ

Dầu Một đã tạo mọi điều kiện giúp tôi nghiên cứu thuận lợi. Xin cảm ơn tất cả
Thầy, Cô là giảng viên đã truyền đạt cho chúng tôi những kiến thức và kinh
nghiệm vô c ng quý giá trong học tập và nghiên cứu khoa học.
Tôi trân trọng cảm ơn Ban lãnh đạo, chuyên gia y tế của Trung tâm Y tế
Dự phịng tỉnh Bình Dƣơng, cảm ơn lãnh đạo Trung tâm quan trắc môi trƣờng
tỉnh đã giúp đỡ nhiệt tình trong việc thu thập dữ liệu và chia sẻ các kiến thức về
chuyên về bệnh Sốt xuất huyết.
Xin cảm ơn gia đình, bạn bè c ng lớp CH18HT01 đã luôn ủng hộ, động
viên, tạo điều kiện thuận lợi cho tơi hồn thành văn này.
Xin trân trọng cảm ơn BGH trƣờng THCS Phú M , trƣờng THCS Hiệp
An c ng đồng nghiệp đã tạo điều kiện thuận lợi cho tôi đi học và báo cáo luận
văn này. Một lần nữa xin tri ân và trân trọng cảm ơn tất cả mọi ngƣời.
25

á

12 ăm 2020

Tác giả


Dƣơng Thị Thúy Hiền

ii


MỤC LỤC
LỜI CAM ĐOAN ................................................................................................ i
LỜI CẢM ƠN ..................................................................................................... ii
MỤC LỤC .......................................................................................................... iii
DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU ...................................... v
DANH SÁCH CÁC BẢNG BIỂU .................................................................... vi
DANH SÁCH HÌNH ẢNH .............................................................................. vii
MỞ ĐẦU ............................................................................................................. 1

1. Tính cấp thiết của đề tài: ................................................................... 1
2. Mục tiêu nghiên cứu: ........................................................................ 2
3. Đối tƣợng nghiên cứu: ...................................................................... 2
4. Phạm vi nghiên cứu:.......................................................................... 2
Phạm vi không gian:................................................................................. 2
Phạm vi thời gian: ..................................................................................... 2
5. Phƣơng pháp nghiên cứu: ................................................................. 2
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN .................................................... 4

1.1. Tổng quan về tỉnh Bình Dƣơng: .................................................... 4
1.2. Tổng quan về bệnh sốt xuất huyết ở Việt Nam và tỉnh Bình
Dƣơng giai đoạn 2014 - 2018: .................................................................. 4
CHƢƠNG 2: CƠ SỞ LÝ THUYẾT ................................................................. 6

2.1. Tổng quan về trực quan hóa: ......................................................... 6
2.2. Lý thuyết về trực quan hóa: ........................................................... 6

2.2.1. Các dạng biểu đồ, đồ thị thƣờng d ng trong trực quan hóa: .. 6
2.2.2. Biểu diễn vị trí của đối tƣợng trên khối khơng gian - thời gian
9
2.3. Các nghiên cứu liên quan: ............................................................. 9
2.4. Trực quan hóa bằng ngơn ngữ lập trình python: ......................... 11
Tôi sử dụng Thƣ viện Matplotlib để tạo các biểu đồ trực quan trong
Python.................................................................................................. 11
2.3.1. Giới thiệu thƣ viện Matplotlib: ............................................. 11
2.3.2.
hái niệm: ............................................................................. 11
2.3.3. Các dạng biểu đồ trong thƣ viện Matplotlib: ........................ 11
CHƢƠNG 3: NỘI DUNG VÀ PHƢƠNG PHÁP THỰC HIỆN .................. 13

3.1. Đặt vấn đề: ................................................................................... 13
3.2. Nội dung nghiên cứu: .................................................................. 13
3.2.1. Xác định các biến và mô tả: .................................................. 15
3.2.2. Lập bảng dữ liệu: .................................................................. 17
iii


3.2.3. Phân tích mối quan hệ giữa các biến: ................................... 17
3.2.4. Sơ đồ quan hệ giữa các biến: ................................................ 18
3.2.5. Các hàm toán học giữa các biến: .......................................... 18
3.3. Lập trình trên Python:.................................................................. 18
3.3.1. Biểu đồ cột tổng hợp ca bệnh SXH trong 5 năm (2014 –
2018) của tỉnh Bình Dƣơng:................................................................ 19
3.3.2. Biểu đồ cột ca bệnh SXH từng năm của tỉnh Bình Dƣơng:.. 20
3.3.3. Biểu đồ cột ca bệnh SXH từng Huyện/Thị/Thành phố của tỉnh
Bình Dƣơng trong 5 năm: ................................................................... 22
CHƢƠNG 4: CÂU HỎI PHÂN TÍCH ........................................................... 27


4.1.
4.2.

Câu hỏi phân tích:........................................................................ 27
Phân tích trực quan dữ liệu bệnh, các yếu tố liên quan:.............. 28

KẾT LUẬN ....................................................................................................... 37

1.
2.

Nội dung nghiên cứu và kết quả đạt đƣợc ...................................... 37
Định hƣớng phát triển: .................................................................... 38

TÀI LIỆU THAM KHẢO ............................................................................... 39
PHỤ LỤC ............................................................................................................ 1

1. Bảng dữ liệu thô số ca SXH từng tháng trong khoảng thời gian từ
năm 2014 – 2018: ...................................................................................... 1
2. Bảng dữ liệu số ca SXH từng tháng trong khoảng thời gian từ năm
2014 – 2018: .............................................................................................. 3
3. Bảng 3.1 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lƣợng
mƣa của tỉnh Bình Dƣơng năm 2014 ...................................................... 16
4. Bảng 3.2 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lƣợng
mƣa của tỉnh Bình Dƣơng năm 2018 ...................................................... 20

iv



DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU
TỪ VIẾT TẮT

TIẾNG VIỆT

WHO

Tổ chức Y tế thế giới
Trung tâm Y tế dự phịng hoặc

TTYTDP

(Trung tâm kiểm sốt, phịng
ngừa dịch bệnh)

SXH

Sốt xuất huyết

CSDL

Cơ sở dữ liệu

CMSXH

Ca mắc sốt xuất huyết



Nhiệt độ không khí


ĐA

Độ ẩm khơng khí

LM

Lƣợng mƣa

SXHD

Sốt xuất huyết Dengue

v


DANH SÁCH CÁC BẢNG BIỂU
Bảng 3.1 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lƣợng mƣa của tỉnh
Bình Dƣơng năm 2014 ....................................................................................... 17
Bảng 3.2 Dữ liệu thống kê số ca mắc SXH, nhiệt độ, độ ẩm, lƣợng mƣa của tỉnh
Bình Dƣơng năm 2018 ....................................................................................... 20
Bảng 4.1: Dữ liệu lƣợng mƣa, nhiệt độ, độ ẩm số ca mắc SXH của năm 2014 2018 – Thành phố TDM sau khi đã loại bỏ một số dữ liệu không cần thiết d ng
cho phân tích dữ liệu. ......................................................................................... 29

vi


DANH SÁCH HÌNH ẢNH
Hình 2.1: Biểu đồ cột, cột chồng. ........................................................................ 7
Hình 2.2: Biểu đồ đƣờng. ..................................................................................... 7

Hình 2.3: Biểu đồ trịn. ........................................................................................ 7
Hình 2.4: Biểu đồ Area. ....................................................................................... 8
Hình 2.5: Biểu đồ thác nƣớc. ............................................................................... 8
Hình 2.5: Biểu đồ nhiệt. ....................................................................................... 8
Hình 2.6: Biểu đồ kết quả mơ hình Hồi quy của nhóm tác giả Ngọc Anh. ......... 8
Hình 3.1: Biểu đồ dịch sốt xuất huyết ở Bình Dƣơng. ...................................... 15
Hình 3.2: Sơ đồ quan hệ giữa các biến. ............................................................. 18
Hình 3.3: Màn hình chính lựa chọn thơng tin để xem. ...................................... 19
Hình 3.4: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của 9 huyện, Thị xã/ Thành phố. 19
Hình 3.5: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong năm 2014 của 9 huyện, thị xã/ thành phố. ...................... 20
Hình 3.6: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong năm 2015 của 9 huyện, thị xã/ thành phố. ...................... 20
Hình 3.7: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong năm 2016 của 9 huyện, thị xã/ thành phố. ...................... 21
Hình 3.8: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong năm 2017 của 9 huyện, thị xã/ thành phố. ...................... 21
Hình 3.9: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong năm 2018 của 9 huyện, thị xã/ thành phố. ...................... 22
Hình 3.10: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Bàu Bàng. ............................ 22
Hình 3.11: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Bến Cát. ............................... 23
Hình 3.12: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Bắc Tân Uyên. ..................... 23

vii



Hình 3.13: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Dĩ An. .................................. 24
Hình 3.14: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Dầu Tiếng. ........................... 24
Hình 3.15: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Phú Giáo. ............................. 25
Hình 3.16: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Thuận An. ............................ 25
Hình 3.17: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Thủ Dầu Một........................ 26
Hình 3.18: Biểu đồ biểu diễn trực quan số liệu về số ca mắc SXH, nhiệt độ, độ
ẩm, lƣợng mƣa trong giai đoạn 2014 – 2018 của Tân Uyên. ............................ 26
Hình 4.1: Biểu đồ dịch bệnh sốt xuất huyết ở Bình Dƣơng năm 2014. ............. 31
Hình 4.2: Biểu đồ dịch bệnh sốt xuất huyết ở Bình Dƣơng năm 2017. ............. 32

viii


MỞ ĐẦU
1.

Tính cấp thiết của đề tài:
Bình Dƣơng là một trong những tỉnh có số ca bệnh sốt xuất huyết tăng

nhanh hàng năm và không theo chu kỳ nhất định mà diễn biến ngày một phức
tạp. Trong vòng 5 năm từ 2014-2018 đã có hai đợt dịch lớn xảy ra vào các năm
2015 và 2017; số ca mắc và tử vong cao nhất nhì khu vực phía Nam. Tình hình
dịch bệnh diễn biến ngày càng phức tạp là vấn đề quan tâm hàng đầu của ngành y
tế. Việc biểu diễn và phân tích dữ liệu bệnh nhanh chóng là hết sức cần thiết để
giúp chuyên gia kịp thời đƣa ra những giải pháp có khả năng giải quyết đƣợc tính

phức tạp và dự báo dịch bệnh.
Ở Việt Nam, nguồn dữ liệu về y tế, khí hậu, thời tiết, dân cƣ ...v.v đƣợc
thu thập, lƣu trữ trong nhiều năm qua. Điều này đã mang đến cơ hội mới cho
phân tích, biểu diễn dữ liệu bệnh và dự báo dịch bệnh trong ngành y tế.
Do đó, việc áp dụng phƣơng pháp trực quan hóa dữ liệu giúp chuyên gia
dự báo dịch bệnh dựa vào nguồn dữ liệu hiện có, kết hợp xem xét các yếu tố liên
quan tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết nhằm góp phần cảnh
báo sớm, ngăn chặn sự b ng phát, lây lan của dịch bệnh; giúp các cơ quan có
chức năng quản lý, kiểm soát dịch bệnh tiếp cận với một hƣớng khác mới hơn
trong cơng tác dự báo, phịng chống dịch ngoài các phƣơng pháp truyền thống.
Bệnh truyền nhiễm sốt xuất huyết đã đe dọa tính mạng con ngƣời vì bệnh
không chỉ làm nhiều ngƣời chết ở một nơi, mà cịn có thể lây lan đến nhiều nơi
khác nhau. Cần theo dõi tiến trình của bệnh và tìm cách giảm tổn thất. Trong đề
tài này, tôi đề xuất một hệ thống cảnh báo dựa trên trực quan để kiểm soát sự
phát triển của bệnh. Hệ thống này hỗ trợ các chuyên gia trong việc xem tổng
quan, từ sự hiểu biết cũng nhƣ kinh nghiệm của các chuyên gia sẽ ƣớc tính khả
năng b ng phát dịch. Xem biểu đồ biểu diễn dữ liệu, trên cơ sở kiến thức và kinh
nghiệm sẵn có các nhà dịch tễ học có thể ƣớc tính tình hình để đƣa ra thơng điệp
cảnh báo/hoặc đề xuất một giải pháp ngăn chặn sự b ng phát dịch.

1


Nhận thấy đƣợc tầm quan trọng của vấn đề nêu trên, tôi quyết định chọn
đề tài: “Biểu diễn và phân tích trực quan dữ liệu dịch bệnh - áp dụng tập dữ
liệu dịch bệnh sốt xuất huyết tỉnh Bình Dƣơng” làm đề tài cho luận văn của
mình.
2.

Mục tiêu nghiên cứu:

Thực hiện phân tích và biểu diễn trực quan dữ liệu dịch bệnh sốt xuất

huyết tại Bình Dƣơng trong 5 năm 2014 - 2018.
3.

Đối tƣợng nghiên cứu:
Để biểu diễn và phân tích trực quan dịch SXH trên địa bàn tỉnh Bình

Dƣơng, luận văn tập trung sử dụng, tìm hiểu, xử lý, biểu diễn, phân tích các tập
dữ liệu sau: Tập dữ liệu về ca bệnh SXH, lƣợng mƣa, nhiệt độ, độ ẩm từ năm
2014 đến năm 2018.
4.

Phạm vi nghiên cứu:
Phạm vi không gian:
Cơ sở dữ liệu gồm: số ca bệnh sốt xuất huyết, lƣợng mƣa, nhiệt độ, độ ẩm

tại địa bàn 09 huyện, thị, thành phố thuộc tỉnh Bình Dƣơng từ năm 2014 - 2018.
Phạm vi thời gian:
Dữ liệu nghiên cứu đƣợc lấy trong khoảng thời gian từ ngày 01 tháng 01
năm 2014 đến ngày 31 tháng 12 năm 2018.
5.

Phƣơng pháp nghiên cứu:
Phƣơng pháp phân tích: đƣợc d ng để trả lời các câu hỏi về các thuộc tính

nhƣ số ca mắc sốt xuất huyết và các yếu tố ảnh hƣởng đến số ca mắc.
Phƣơng pháp trực quan: đƣợc d ng để giúp ngƣời d ng biết đƣợc tình
trạng các thuộc tính bằng phƣơng pháp nhìn - hiểu.


2


Phƣơng pháp hình học: đƣợc d ng để biểu diễn các thuộc tính trên khối
khơng gian – thời gian nhiều chiều.
Phƣơng pháp tra cứu tài liệu: đƣợc d ng để nghiên cứu khối không gian –
thời gian 3D và cách biểu diễn dữ liệu bệnh, nhiệt độ, độ ẩm, lƣợng mƣa lên biểu
đồ.
Phƣơng pháp lập trình: Sử dụng ngơn ngữ lập trình Python, thƣ viện
Matplotlib để tạo những biểu đồ trực quan.
Nghiên cứu tổng quan về bệnh sốt xuất huyết; phân tích, tham khảo ý kiến
chuyên gia và biểu diễn trực quan hóa dữ liệu bệnh sốt xuất huyết bằng biểu đồ
3D sử dụng thƣ viện Matplotlib trong ngôn ngữ lập trình Python.
Qua biểu đồ biểu diễn trực quan, thể hiện mối liên hệ giữa số ca bệnh sốt xuất
huyết với lƣợng mƣa, nhiệt độ, độ ẩm, giúp chuyên gia đánh giá và dự báo tình
hình dịch bệnh một cách nhanh chóng.
Bố cục luận văn đƣợc trình bày ngồi phần Mở đầu và

ết luận gồm 04

chƣơng với các nội dung chính nhƣ sau:
-

Chƣơng 1: Giới thiệu tổng quan về tỉnh Bình Dƣơng, về tình hình dịch
bệnh sốt xuất huyết tại Việt Nam và tỉnh Bình Dƣơng; cơng tác phịng
chống dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết tại Bình Dƣơng.

-

Chƣơng 2: Cơ sở lý thuyết. Tác giả trình bày tổng quan về trực quan hóa

và lý thuyết trực quan hóa. Trực quan hóa bằng ngơn ngữ lập trình
Python.

-

Chƣơng 3: Nội dung và phƣơng pháp thực hiện.

-

Chƣơng 4: Câu hỏi phân tích.

3


CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
1.1.

Tổng quan về tỉnh Bình Dƣơng:
Tỉnh Bình Dƣơng thuộc v ng Đơng Nam bộ, giáp ranh với TP. Hồ Chí

Minh, Đồng Nai, Tây Ninh, Bình Phƣớc; nằm trong V ng kinh tế trọng điểm
phía Nam; có diện tích tự nhiên 2.694,43 km2; dân số 2.070.951, mật độ dân số
769 ngƣời/ km2. Bình Dƣơng có 09 đơn vị hành chính cấp huyện (gồm: Thị xã
Thuận An, thị xã Bến Cát, thị xã Tân Uyên, thị xã Dĩ An, Thành phố Thủ Dầu
Một, và các huyện Bàu Bàng, Bắc Tân Uyên, Dầu Tiếng, Phú Giáo) và 91 đơn vị
hành chính cấp xã (46 xã, 41 phƣờng, 04 thị trấn).
hí hậu ở Bình Dƣơng có đặc điểm: nắng nóng vào tháng 1, 2, 3, 4 và
mƣa nhiều vào tháng 6, 7, 8, 9, độ ẩm khá cao.

hí hậu nhiệt đới gió m a, trong


năm phân chia thành hai m a: m a mƣa và m a khô. M a mƣa thƣờng bắt đầu từ
tháng 5 kéo dài đến cuối tháng 10 dƣơng lịch. Những tháng 7, 8, 9 thƣờng là
những tháng mƣa dầm. Nhiệt độ trung bình hàng năm ở Bình Dƣơng từ 26oC27oC. Nhiệt độ cao nhất có lúc lên tới 39,3oC và thấp nhất từ 16oC-17oC (ban
đêm) và 18oC vào sáng sớm. Vào m a nắng, độ ẩm trung bình hàng năm từ 76%
- 80%, cao nhất là 86% (vào tháng 9) và thấp nhất là 66% (vào tháng 2). Lƣợng
nƣớc mƣa trung bình hàng năm từ 1.800 - 2.000 mm.
Bình Dƣơng là một trong những tỉnh có nhiều khu cơng nghiệp lớn, tốc độ
đơ thị hóa cao; tốc độ tăng dân số cơ học rất nhanh. Sự phát triển kinh tế mạnh
mẽ, Bình Dƣơng cũng đối mặt với vấn đề về chăm sóc sức khỏe và phịng chống
dịch bệnh. Nhất là tình hình bệnh SXHD cũng tăng nhanh lên theo, số ca mắc
bệnh ngày càng tăng theo hàng năm và không theo chu kỳ nhất định mà diễn biến
ngày một phức tạp.
1.2.

Tổng quan về bệnh sốt xuất huyết ở Việt Nam và tỉnh Bình Dƣơng
giai đoạn 2014 - 2018:
Theo báo cáo của TTYTDP tỉnh, Bình Dƣơng là một trong những tỉnh có

số ca mắc SXHD cao nhất cả nƣớc. Trong vòng 5 năm từ 2014 - 2018 đã có

4


nhiều đợt dịch lớn xảy ra vào các năm 2015 và 2017, số ca mắc và tử vong cao
tăng theo hàng năm. Năm 2014 có 2714 ca mắc, tử vong 1; Năm 2015 có 5991 ca
mắc, tử vong 14 ca; Năm 2016 cả tỉnh có 3.964 ca mắc SXHD, trong đó có 01 ca
tử vong. Trong năm 2017 có 8507 ca mắc và 3 ca tử vong; Năm 2018 toàn tỉnh
có 8244 ca mắc, tử vong 3.
Cũng nhƣ nhiều nơi lƣu hành bệnh sốt xuất huyết, hệ thống giám sát sốt

xuất huyết ở Việt Nam dựa vào báo cáo thụ động đƣợc chẩn đoán lâm sàng ở
bệnh nhân nhập viện. iểm sốt véc-tơ là cơng cụ chính để dự phịng và kiểm
soát bệnh sốt xuất huyết. Chiến lƣợc này phải đối mặt với những hạn chế về tính
kịp thời trong phát hiện và ngăn chặn dịch, địi hỏi cần có những biện pháp khác
để hỗ trợ kiểm soát bệnh tốt hơn.
Trong các yếu tố nguy cơ giúp truyền bệnh sốt xuất huyết thì thời tiết, khí
hậu là yếu tố đặc biệt quan trọng, gây ảnh hƣởng đến sự sinh sản và phát triển
của vec-tơ truyền bệnh, chẳng hạn nhƣ mƣa cung cấp môi trƣờng thuận lợi để
muỗi đẻ trứng, nhiệt độ cao sẽ làm giảm thời gian sinh trƣởng và phát triển của
muỗi…
Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch sốt xuất huyết là rất cần
thiết, giúp các nhà quản lý, chuyên môn chủ động trong công tác phòng chống
dịch một cách hiệu quả, giảm đƣợc nguồn lực phân bổ cũng nhƣ tránh đƣợc rủi
ro, thiệt hại lớn khi dịch xảy ra.

5


CHƢƠNG 2: CƠ SỞ LÝ THUYẾT
2.1.

Tổng quan về trực quan hóa:
Trực quan hóa thƣờng đƣợc sử dụng để truyền đạt, trình bày, minh họa dữ

liệu một cách dễ hiểu dƣới dạng các biểu đồ, đồ thị,…để trực quan hóa.
2.2.

Lý thuyết về trực quan hóa:
Trực quan hóa là biểu diễn dữ liệu thành dạng hình ảnh [8]. Trực quan hóa


là cơng cụ cần thiết để hiểu rõ về dữ liệu. Trực quan hóa biểu diễn dữ liệu lên
biểu đồ với mục đích mơ tả, phát hiện,thu nhận các thơng tin bổ ích, các thông tin
tiềm ẩn trong dữ liệu thông qua thị giác và bộ não con ngƣời. Thị giác giúp
chúng ta tiếp nhận thơng tin từ những mơ hình trực quan, bộ não sẽ xử lý giúp
chúng ta có đƣợc thơng tin hữu ích từ những hình ảnh minh họa.
Trực quan hóa dữ liệu là các k thuật đƣợc sử dụng để chuyển đổi dữ liệu
thành các đối tƣợng trực quan trên màn hình nhƣ các điểm, đƣờng hoặc các thanh
đồ họa [9]. Mục tiêu chính của trực quan hóa dữ liệu là hỗ trợ ngƣời d ng rút
trích thơng tin hoặc khai phá tri thức từ dữ liệu bằng cách d ng thị giác cảm nhận
thông tin hoặc tri thức từ hình ảnh, đồ thị biểu diễn dữ liệu. Trong phân tích trực
quan, ngƣời d ng (hay các chuyên gia) sử dụng các công cụ đồ họa để rút trích
thơng tin cần thiết bằng kiến thức và k năng sẵn có của mình.
2.2.1. Các dạng biểu đồ, đồ thị thƣờng dùng trong trực quan hóa:

6


 Biểu đồ cột/ cột chồng.

Hình 2.1: Biểu đồ cột, cột chồng.
 Biểu đồ đƣờng.

Hình 2.2: Biểu đồ đƣờng.
 Biểu đồ trịn.

Hình 2.3: Biểu đồ trịn.

7



 Biểu đồ Area.

Hình 2.4: Biểu đồ Area.
 Biểu đồ thác nƣớc.

Hình 2.5: Biểu đồ thác nƣớc.
 Biểu đồ nhiệt.

Hình 2.5: Biểu đồ nhiệt.

8


2.2.2. Biểu diễn vị trí của đối tƣợng trên khối không gian - thời gian
Trên khối không gian - thời gian, một đối tƣợng đƣợc biểu diễn nhƣ một
điểm của phép chiếu trên mặt phẳng xy, cho thấy vị trí của nó trong thế giới thực
và chiếu trên trục thời gian chỉ ra thời điểm tƣơng ứng với vị trí này.
2.3.

Các nghiên cứu liên quan:
Nghiên cứu dự báo dịch tả dựa vào mơ hình học máy hồi quy và phân lớp

của nhóm tác giả Lê Thị Ngọc Anh thực hiện năm 2016, đăng trên cổng
Researchgate.net, nghiên cứu trên tập dữ liệu dịch tả và khí hậu, mơi trƣờng tại
địa bàn Hà Nội [1].

ết quả thực nghiệm trên mơ hình hồi quy và phân lớp của

nhóm tác giả Ngọc Anh nhƣ hình :
Hình 2.6: Biểu đồ kết quả mơ hình Hồi quy của nhóm tác giả Ngọc Anh


Bảng 2.1 : Bảng kết quả mơ hình phân lớp của nhóm tác giả Ngọc Anh

9


Một nghiên cứu của nhóm tác giả thuộc Đại học Công nghệ

umaraguru

[2] về phát hiện sớm bệnh sốt xuất huyết bằng thuật toán học máy.

ết quả thực

nghiệm cho thấy thuật tốn Random Forest cho độ chính xác 83,3%.
Bảng 2 2: Bảng kết quả mơ hình học máy của nhóm tác giả Đại học Công
nghệ Kumaraguru:

Martin Mabangiz và cộng sự đã thực hiện nghiên cứu sử dụng k thuật
học máy để dự báo dịch tả ở những khu vực khác nhau ở Uganda bằng thuật toán
Bayesians dựa trên số liệu dịch tả trong quá khứ [3].
Ngoài ra, trong một nghiên cứu khác của nhóm tác giả trong bài báo [4] đã
đề xuất k thuật dựa trên thống kê hồi quy đa biến Poisson. Họ tập trung vào
phân tích tri thức ẩn trong dữ liệu, mối tƣơng quan tuyến tính của các trƣờng hợp
sốt xuất huyết và dữ liệu về muỗi, vai trò của muỗi cái, m a để đƣa ra tỷ lệ dự
đoán dịch sốt xuất huyết. Một nghiên cứu khác nữa, các tác giả trong bài báo [5]
đã xây dựng mơ hình dự đốn bằng cách sử dụng cây quyết định (Decision Tree)
để dự đoán khả năng xuất hiện bệnh sốt xuất huyết ở khu vực các bộ tộc. Độ
chính xác của mơ hình do họ đề xuất lên tới 97%.
Tuy nhiên, các nghiên cứu đã đề cập ở trên chỉ phân tích và dự báo về

dịch bệnh khác hoặc có đề cập đến dự báo dịch hoặc bệnh sốt xuất huyết nhƣng ở
các điều kiện (đặc trƣng, đặc th ) và ở các không gian khác nhau. Theo sự hiểu
biết của chúng tơi, hiện chƣa có nghiên cứu nào sử dụng phƣơng pháp trực quan

10


hóa về dịch bệnh sốt xuất huyết ở tỉnh Bình Dƣơng cũng nhƣ ở v ng Đơng Nam
bộ.
2.4.

Trực quan hóa bằng ngơn ngữ lập trình python:
Tơi sử dụng Thƣ viện Matplotlib để tạo các biểu đồ trực quan trong

Python.
2.3.1. Giới thiệu thƣ viện Matplotlib:
Matplotlib là một thƣ viện phổ biến nhất của Python. Giúp cho chúng ta
trực quan hóa dữ liệu của mình bằng các biểu đồ.
2.3.2. Khái niệm:
Pyplot là một module của Matplotlib cung cấp các hàm đơn giản để thêm
các thành phần plot nhƣ lines, images, text... vào các axes trong figure. Một
Matplotlib figure có thể đƣợc phân loại thành nhiều phần nhƣ dƣới đây:
-

Figure: là cửa sổ thể hiện bản đồ đã vẽ.

-

Axes: Là những khung nhỏ hơn chứa hình. Một figure có thể chứa một
hoặc nhiều axes.


-

Axis: Nhƣ là các đối tƣợng và đảm nhiệm việc tạo các giới hạn biểu đồ.

-

Artist: Hầu hết các Artists đƣợc gắn với Axes.

2.3.3. Các dạng biểu đồ trong thƣ viện Matplotlib:
-

Biểu đồ thanh.
Biểu đồ thanh là một trong những loại biểu đồ phổ biến nhất và đƣợc sử

dụng để hiển thị dữ liệu đƣợc liên kết với các biến phân loại. Pyplot cung cấp
một phƣơng thức bar() để tạo các biểu đồ thanh có các đối số: biến phân loại, giá
trị và màu sắc của chúng (nếu bạn muốn chỉ định bất kỳ)
-

Biểu đồ tròn.

11


Biểu đồ Pie có thể đƣợc tạo bằng phƣơng thức Pie(). Chúng ta cũng có
thể chuyển các đối số để t y chỉnh biểu đồ Pie của mình để hiển thị shadow,
explode một phần của nó, nghiêng nó theo một góc.
-


Biểu đồ Histogram.
Histogram là một loại biểu đồ rất phổ biến. Histogram's data đƣợc vẽ

trong một phạm vi so với tần số của nó. Histograms là các biểu đồ xuất hiện rất
phổ biến trong xác suất và thống kê.
-

Sơ đồ phân tán và 3 chiều.
Các biểu đồ phân tán là các biểu đồ đƣợc sử dụng rộng rãi, đặc biệt là

chúng có ích trong việc hình dung một vấn đề về hồi quy.

12


CHƢƠNG 3: NỘI DUNG VÀ PHƢƠNG PHÁP THỰC HIỆN
Trong chƣơng này, tác giả sẽ trình bày chi tiết nội dung luận văn, các bƣớc
thực hiện và phƣơng thức sử dụng trong đề tài.
3.1.

Đặt vấn đề:
Bệnh truyền nhiễm sốt xuất huyết đã đe dọa tính mạng con ngƣời vì bệnh

khơng chỉ làm nhiều ngƣời chết ở một nơi, mà cịn có thể lây lan đến nhiều nơi
khác nhau. Cần theo dõi tiến trình của bệnh và tìm cách giảm tổn thất. Trong đề
tài này, tôi đề xuất một hệ thống cảnh báo dựa trên trực quan để kiểm soát sự
phát triển của bệnh. Hệ thống này hỗ trợ các chuyên gia trong việc xem tổng
quan, từ sự hiểu biết cũng nhƣ kinh nghiệm của các chuyên gia sẻ ƣớc tính khả
năng b ng phát dịch. Xem biểu đồ biểu diễn dữ liệu, trên cơ sở kiến thức và kinh
nghiệm sẵn có các nhà dịch tễ học có thể ƣớc tính tình hình để đƣa ra thơng điệp

cảnh báo/hoặc đề xuất một giải pháp ngăn chặn sự b ng phát dịch.
3.2.

Nội dung nghiên cứu:
Trong đề tài này, tôi sẽ thể hiện trực quan dữ liệu về bệnh sốt xuất huyết

của tỉnh Bình Dƣơng trong giai đoạn 2014 - 2018. Phần mềm hiển thị những dữ
liệu này dƣới dạng biểu đồ dễ hiểu trên khối đa chiều. Nó cho thấy sự thay đổi
của số lƣợng bệnh nhân theo thời gian tại các địa điểm (9 huyện thị), mối tƣơng
quan giữa số lƣợng bệnh nhân và các yếu tố gây bệnh nhƣ nhiệt độ khơng khí, độ
ẩm khơng khí cũng nhƣ lƣợng mƣa ở mỗi huyện thị. Trực quan hóa dữ liệu để
giúp các chuyên gia dịch tễ học d ng kinh nghiệm có sẵn của họ không những
để cảnh báo về bệnh sốt xuất huyết, mà còn để xác định đƣợc yếu tố gây bệnh và
truyền bệnh.
 Các bƣớc thực hiện
Bước 1: Đồng bộ hóa dữ liệu. Dữ liệu liên quan đến sốt xuất huyết ở
khu vực được tổng hợp từ nhiều nơi.

13


Số lƣợng bệnh nhân đƣợc tính trong các đơn vị thời gian khác nhau đƣợc
chuyển đổi sang c ng đơn vị thời gian.
Nhiệt độ và độ ẩm là hiện tƣợng tự nhiên thay đổi liên tục theo thời gian
và tại các địa điểm, nhƣng đƣợc ghi lại một cách riêng biệt theo thời gian và
không gian đƣợc thu thập trong khu vực nghiên cứu.
Đồng bộ hóa nhiệt độ và độ ẩm đƣợc tính giá trị trung bình trong một đơn
vị hành chính quản lý dịch (tỉnh) và trong một đơn vị thời gian.
Các giá trị độ ẩm ở mỗi đơn vị thời gian và tại một địa điểm (tỉnh) đƣợc
tính tƣơng tự nhƣ các giá trị của nhiệt độ.

Bước 2: Lập bảng dữ liệu.
Sau khi đƣợc đồng bộ hóa về thời gian và địa điểm, các biến dữ liệu đƣợc
xác định nhƣ sau:
 Số ngƣời nhiễm bệnh đƣợc tính ở một tỉnh trong một đơn vị thời
gian.
 Nhiệt độ và độ ẩm là các giá trị đƣợc ƣớc tính trung bình ở một tỉnh
trong một đơn vị thời gian.
Nam

Thang

2014

1





Diaban

Luong

Nhiet

mua

do

Do am


Camac

TDM

Nam: Từ năm 2014 đến năm 2018
Thang: tháng 1 đến tháng 12
Diaban: gồm 9 địa bàn của tỉnh Bình Dƣơng (Thủ Dầu Một, Bến Cát, Bàu
Bàng, Dầu Tiếng, Thuận An, Dĩ An, Tân Uyên, Bắc Tân Uyên, Phú Giáo)
Bước 3. Hình thành biểu đồ 3D từ các biểu đồ thời gian tích hợp.

14


Biểu đồ về số lƣợng bệnh nhân, nhiệt độ, độ ẩm và lƣợng mƣa theo thời
gian của một tỉnh đƣợc tích hợp vào một biểu đồ trên mặt phẳng 3 chiều với trục
thời gian đƣợc chia sẻ bởi bốn biểu đồ và màu sắc đƣợc sử dụng làm biến số trực
quan để phân biệt giữa các biểu đồ
Một biểu đồ bao gồm 3 trục chỉ vị trí (9 huyện, thị xã của tỉnh Bình
Dƣơng), thời gian và trục chỉ giá trị.

Hình 3.1: Biểu đồ dịch sốt xuất huyết ở Bình Dƣơng.
3.2.1. Xác định các biến và mô tả:
Sau khi thu thập dữ liệu từ trung tâm y tế dự phòng tỉnh Bình Dƣơng, tiếp
theo cần xác định các loại biến và phân tích thuộc tính từng biến:
a. Mơ tả các biến dữ liệu:
 Số lƣợng bệnh nhân
Tổng số ca mắc sốt xuất huyết của từng huyện/thị/thành phố trong một
đơn vị thời gian.
í hiệu: p

Tính theo đơn vị thời gian: tháng, năm.

15


×