ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM
VÕ THỊ MỘT
KHĨA LUẬN TỐT NGHIỆP
PHÂN LOẠI COVID-19 TỪ HÌNH ẢNH X-QUANG BẰNG
MÁY HỌC
Classification of Coronavirus (COVID-19) from X-ray images using
Machine learning
KỸ SƯ KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
VÕ THỊ MỘT – 16520756
KHĨA LUẬN TỐT NGHIỆP
PHÂN LOẠI COVID-19 TỪ HÌNH ẢNH X-QUANG BẰNG
MÁY HỌC
Classification of Coronavirus (COVID-19) from X-ray images using
Machine learning
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
NGUYỄN TẤN TRẦN MINH KHANG
TP. HỒ CHÍ MINH, 2021
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..
NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN/PHẢN BIỆN)
Tên khóa luận:
PHÂN LOẠI COVID-19 TỪ HÌNH ẢNH X-QUANG BẰNG MÁY HỌC
Cán bộ hướng dẫn/phản biện:
Nhóm SV thực hiện:
Võ Thị Một
16520756
Nguyễn Tấn Trần Minh Khang
Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang
_______
Số chương
Số bảng số liệu
_______
Số hình vẽ
Số tài liệu tham khảo
_______
Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
2. Về nội dung nghiên cứu:
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
3. Về chương trình ứng dụng:
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
4. Về thái độ làm việc của sinh viên:
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
……..………..………..………..………..………..………..………..………..………………...........
Đánh giá chung:Khóa luận đạt/khơng đạt u cầu của một khóa luận tốt nghiệp kỹ sư/ cử nhân,
xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
<Tên sinh viên 1>:………../10
<Tên sinh viên 2>:………../10
Người nhận xét
(Ký tên và ghi rõ họ tên)
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn Ban giám hiệu nhà trường, quý thầy cô khoa
Công nghệ phần mềm cũng như q thầy cơ khoa Khoa học máy tính trường Đại
học Công nghệ Thông tin, đã tạo điều kiện và hỗ trợ nhiệt tình để tơi hồn thành tốt
đề tài này.
Tơi xin gửi lời biết ơn và sự kính trọng sâu sắc đến TS. Nguyễn Tấn Trần
Minh Khang và Ths. Võ Duy Nguyên, đã nhiệt tình chỉ dạy, định hướng nghiên cứu
trong suốt q trình thực hiện khóa luận.
Cuối cùng tơi xin cảm ơn đến gia đình, bạn bè, và những người thân đã quan
tâm động viên và đóng góp ý kiến giúp đỡ tơi hồn thành đề tài nghiên cứu này.
Q trình làm khóa luận đã cho tơi thêm nhiều kiến thức bổ ích từ thực tiễn, những
kinh nghiệm và kĩ năng về về học tập và nghiên cứu. Và đây chính là những hành
trang vững chắc cho sự nghiệp trong tương lai. Từ đó để tơi học hỏi và rút kinh
nghiệm cho quá trình làm việc sau này của mình.
Một lần nữa xin gửi đến thầy cơ, bạn bè, người thân lời cảm ơn chân thành
và tốt đẹp nhất!
Tp Hồ Chí Minh, ngày … tháng … năm 2021
Võ Thị Một
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ
MINH
CỘNG HỒ XÃ HỘI CHỦ NGHĨA
VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập – Tự Do – Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
__________________________
__________________________
ĐỀ CƯƠNG CHI TIẾT
Tên đề tài: Phân loại COVID-19 từ hình ảnh X-quang bằng máy học
Cán bộ hướng dẫn: TS.Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 27/12/2020
Sinh viên thực hiện:
Võ Thị Một: 16520756
Nội dung đề tài:
• Thực trạng: COVID-19 là một bệnh đường hơ hấp cấp tính ở người được phát hiện vào
năm 2019, gây ra bởi vi-rút SARS-CoV-2 và chưa từng được xác định trong quá khứ.
Coronavirus là một họ virus lớn gây bệnh ở bệnh nhân từ cảm lạnh thông thường đến các
hội chứng hô hấp tiến triển như Middle East Resporatory Syndrone (MERS-COV) và
Severe Acute Respiratory Syndrone (SARS-COVS). Thế giới đang bị ảnh hưởng, nhiều
người chết, nhiều quốc gia tuyên bố tình trạng khẩn cấp. Việc phát hiện tình trạng bệnh
sớm sẽ có ích cho q trình điều trị của bệnh nhân. Một giải pháp hữu hiệu được đề xuất
giúp các bác sĩ có thể sàng lọc lâm sàng các trường hợp nhiễm bệnh là chẩn đoán bệnh
thơng qua ảnh chụp X-quang.
• Mục tiêu:
− Thực hiện khảo sát các phương pháp máy học cho bài toán phân loại COVID-19
trên ảnh X-quang. Từ đó, có những lựa chọn phù hợp trong quá trình nghiên cứu và
thực nghiệm trong quá trình phát hiện bệnh COVID-19.
− Xây dựng ứng dụng chẩn đoán bệnh COVID-19 giúp hỗ trợ bác sĩ trong quá trình
sàng lọc lâm sàng các trường hợp nhiễm bệnh thơng qua ảnh chụp X-quang.
• Phương pháp thực hiện:
− Tổng hợp bộ dữ liệu X-quang từ nhiều nguồn dữ liệu được công bố từ các bài báo
khoa học.
− Tìm hiểu đặc trưng phổ biến trên ảnh y khoa (Haralick) và đặc trưng học sâu
(VGG19, DenseNet121).
− Cài đặt, đánh giá thực nghiệm các phương pháp máy học phổ biến: k-NN, SVM,
Logistic Regression cho bài toán phân loại ảnh sử dụng các đặc trưng được khảo
sát.
− Phân tích và thống kê các kết quả thực nghiệm.
− Xây dựng ứng dụng phân loại COVID-19.
• Kết quả mong đợi:
− Hồn thành việc khảo sát phân loại ảnh COVID-19 trên các phương pháp máy học
đã chọn. Dựa trên kết quả thực nghiệm, chọn ra phương pháp phù hợp để làm cơ sở
xây dựng một ứng dụng phân loại COVID-19 trên ảnh X-quang.
− Hoàn thành một ứng dụng phân loại hoạt động tốt với đầy đủ các chức năng đã
được đề ra. Ứng dụng có giao diện và chức năng thân thiện, giúp cho người dùng
cảm thấy thuận tiện trong việc sử dụng.
Kế hoạch thực hiện: (thời gian thực hiện trong 16 tuần)
STT
Công việc
Phase 1: Khảo sát phân loại ảnh COVID-19 trên các phương
pháp máy học
1
Sprint 1: Phân tích tìm hiểu các phương pháp thực hiện
Thời gian thực hiện
07/09/2020 - 01/11/2020
07/09/2020 – 15/09/2020
- Phân tích đề tài.
- Tìm hiểu các bài báo liên quan đến đề tài.
1.1
- Tình hình nhiễm bệnh COVID-19 trong nước và trên thế
giới.
- Tìm hiểu các phương pháp sử dụng cho bài tốn trích xuất
đặc trưng và phân lớp.
2
Sprint 2: Tìm hiểu về các bộ dữ liệu COVID-19
16/09/2020 –
25/09/2020
- Tìm hiểu thơng tin về các bộ dữ liệu là ảnh chụp X-quang
COVID-19 trên các nguồn uy tín và đã được công bố.
2.1
- Tham khảo các bộ dữ liệu của các nghiên cứu đạt được kết quả
tốt.
3
Sprint 3: Tổng hợp và xây dựng một bộ dữ liệu
COVID-19 có chất lượng tốt.
26/09/2020 – 10/10/2020
- Thu thập các bộ dữ liệu COVID-19 .
3.1
- Sàn lọc các hình ảnh chụp X-quang từ các bộ dữ liệu đã
thu thập được.
- Thống kê dữ liệu được gán nhãn đầy đủ ở từng thư mục.
- Hoàn thành bộ dữ liệu tổng hợp COVID-19 hoàn chỉnh.
4
Sprint 4: Khảo sát các phương pháp máy học phân loại
COVID-19.
4.1
- Thực nghiệm các phương pháp phân loại đã tìm hiều để
phân loại ảnh COVID-19.
11/10/2020 – 15/11/2020
- Thống kê và đánh giá kết quả thực nghiệm.
Phase 2: Xây dựng ứng dụng chẩn đốn bệnh COVID-19
5
Sprint 5: Phân tích xây dựng các chức năng cho ứng
dụng
5.1
Phân tích u cầu cho ứng dụng.
5.2
Hồn thành các sơ đồ thể hiện các chức năng chính cho ứng
dụng.
5.3
Thiết kế phát thảo ban đầu cho ứng dụng.
6
Sprint 6: Tìm hiểu cơng nghệ và kỹ thuật để xây dựng
ứng dụng
6.1
Tìm hiểu các cơng nghệ mới xây dựng ứng dụng trên các
thiết bị di động.
6.2
Tìm hiểu các framework, IDE trong quá trình triển khai
ứng dụng.
16/11/2020 – 27/12/2020
16/11/2020 – 25/11/2020
26/11/2020 – 02/12/2020
7
Sprint 7: Thiết kế cơ sở dữ liệu
7.1
Thiết kế cơ sở dữ liệu.
7.2
Tìm hiểu các hệ quản trị cơ sở dữ liệu phù hợp với ứng
dụng.
8
Sprint 8: Thực hiện xây dựng ứng dụng phân loại
COVID19 trên các thiết bị di động, máy tính bảng
8.1
Tiến hành xây dựng ứng dụng với các chức năng cơ bản sử
dụng công nghệ và phương pháp đã tìm hiểu.
8.2
Kiểm thử, sửa lỗi và hồn thành ứng dụng.
03/12/2020 – 10/12/2020
11/12/2020 – 27/12/2020
TP. HCM, ngày 29 tháng 09 năm 2020
Xác nhận của CBHD
Sinh viên
(Ký tên và ghi rõ họ tên)
(Ký tên và ghi rõ họ tên)
Nguyễn Tấn Trần Minh Khang
Võ Thị Một
MỤC LỤC
Chương 1.
TỔNG QUAN ĐỀ TÀI ..................................................................... 2
1.1. Đặt vấn đề .................................................................................................. 2
1.2. Giới thiệu bài toán ...................................................................................... 7
1.3. Đối tượng và phạm vi nghiên cứu............................................................... 8
1.3.1.
Đối tượng nghiên cứu ....................................................................... 8
1.3.2.
Phạm vi nghiên cứu .......................................................................... 8
1.4. Thách thức bài toán .................................................................................... 8
1.5. Ý nghĩa của đề tài ....................................................................................... 9
1.5.1.
Ý nghĩa khoa học.............................................................................. 9
1.5.2.
Ý nghĩa thực tiễn .............................................................................. 9
1.6. Bố cục khóa luận ...................................................................................... 10
Chương 2.
CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN ........ 11
2.1. Bài toán phân lớp ..................................................................................... 11
2.2. Đặc trưng ................................................................................................. 15
2.3. Rút trích đặc trưng.................................................................................... 16
2.4. Kiến trúc mạng học sâu ............................................................................ 17
2.5. Các phương pháp phân lớp ....................................................................... 18
2.5.1.
k-Nearest-Neighbours ..................................................................... 18
2.5.2.
Support vector machines (SVM) ..................................................... 19
2.5.3.
Logistic regression ......................................................................... 21
2.6. Các phương pháp biểu diễn đặc trưng....................................................... 22
2.6.1.
Đặc trưng ảnh ................................................................................. 22
2.6.2.
Đặc trưng kết cấu Haralick ............................................................. 22
2.6.3.
Đặc trưng học sâu ........................................................................... 24
2.6.3.1. VGG16 ....................................................................................... 24
2.6.3.2. Inception-Resnet-V2 ................................................................... 25
Chương 3.
Mô tả bộ dữ liệu COVID-19 ........................................................... 27
3.1.1.
Cấu trúc bộ dữ liệu ......................................................................... 27
3.1.2.
Nguồn thu thập dữ liệu ................................................................... 31
Chương 4.
THỰC NGHIỆM CÁC PHƯƠNG PHÁP MÁY HỌC TRÊN BỘ DỮ
LIỆU COVID-19 ................................................................................................... 32
4.1. Độ đo dánh giá ......................................................................................... 32
4.1. Kiến trúc hệ thống phân loại ..................................................................... 33
4.2. Kết quả thực nghiệm ................................................................................ 35
Chương 5.
XÂY DỰNG ỨNG DỤNG DEMO PHÁT HIỆN COVID-19......... 39
5.1. Python ...................................................................................................... 39
5.2. Flask framework....................................................................................... 40
5.3. ReactJS .................................................................................................... 41
5.4. Phân tích thiết kế ứng dụng demo ............................................................. 42
5.4.1.
Mô tả nghiệp vụ ứng dụng .............................................................. 42
5.4.2.
Các chức năng chính....................................................................... 43
5.4.3.
Thiết kế sơ đồ use case ................................................................... 44
5.4.4.
Thiết kế sơ đồ tuần tự ..................................................................... 48
5.4.5.
Thiết kế sơ đồ hoạt động................................................................. 52
5.4.6.
Thiết kế sơ đồ lớp ........................................................................... 54
5.5. Giao diện ứng dụng demo phân loại COVID-19 trên ảnh X-quang phổi ... 58
5.5.1.
Màn hình hiển thị danh sách bệnh nhân .......................................... 58
5.5.2.
Màn hình thêm mới bệnh nhân ....................................................... 59
5.5.3.
Màn hình hiển thị chế độ view ảnh ................................................. 60
5.5.4.
Màn hình hiển thị thơng tin ảnh và kết quả chẩn đốn .................... 63
Chương 6.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................... 64
6.1. Kết luận .................................................................................................... 64
6.2. Hướng phát triển ...................................................................................... 65
TÀI LIỆU THAM KHẢO ..................................................................................... 66
PHỤ LỤC.............................................................................................................. 69
DANH MỤC HÌNH
Hình 1.1 Hiện trạng COVID-19 đang lan rộng trên tồn thế giới (Coronavirus
Disease (COVID-19) Situation Reports, [1]............................................................. 2
Hình 1.2 Bản đồ các tỉnh và thành phố theo số ca nhiễm COVID-19 được xác nhận
(tính đến ngày 03 tháng 01 năm 2021) [4] ............................................................... 3
Hình 1.3 Bài tốn phân loại COVID-19 ................................................................... 7
Hình 2.1 Minh hoạ cấu trúc của bài tốn phân lớp [10].......................................... 15
Hình 2.2 Kiến trúc của một Convolution Neural Network [11] .............................. 17
Hình 2.3 Minh họa phương pháp k-Nearest-Neighbours [19] ................................ 19
Hình 2.4 Minh họa thuật tốn SVM [20] ............................................................... 19
Hình 2.5 So sánh sự khác nhau của 2 thuật toán Linear Regression và Logistic
Regression [20] ..................................................................................................... 21
Hình 2.6 Ảnh minh họa đặc trưng kết cấu Haralick [23] ........................................ 23
Hình 2.7 Kiến trúc mạng VGG16 [25] ................................................................... 25
Hình 2.8 Kiến trúc mạng Inception-Resnet-V2 [26]............................................... 25
Hình 3.1 Dữ liệu ảnh X-quang được gán nhãn với kết quả chẩn đốn bệnh ........... 27
Hình 3.2 Dữ liệu ảnh X-quang được gán nhãn với kết quả chẩn đoán bệnh ........... 27
Hình 4.1 Kiến trúc hệ thống phân loại hình ảnh COVID-19................................... 33
Hình 4.2 Biểu diễn kết quả sử dụng Confusion matrix ........................................... 38
Hình 5.1 Sơ đồ Use case phân loại bệnh COVID-19 .............................................. 44
Hình 5.2 Sơ đồ use case quản lý danh sách bệnh nhân ........................................... 46
Hình 5.3 Sơ đồ tuần tự hiển thị danh sách bệnh nhân ............................................. 48
Hình 5.4 Sơ đồ tuần tự thêm mới bệnh nhân .......................................................... 49
Hình 5.5 Sơ đồ tuần tự cập nhật thơng tin bệnh nhân ............................................. 50
Hình 5.6 Sơ đồ tuần tự phân loại tình COVID-19 .................................................. 51
Hình 5.7 Sơ đồ hoạt động phân thêm mới bệnh nhân ............................................. 52
Hình 5.8 Sơ đồ tuần tự phân loại tình trạng bệnh COVID-19 ................................. 53
Hình 5.9 Sơ đồ lớp của ứng dụng demo phát hiện COVID-19 ............................... 54
Hình 5.10 Màn hình hiển thị danh sách bệnh nhân tìm kiếm theo các trường thơng
tin .......................................................................................................................... 58
Hình 5.11 Màn hình hiển thị thêm mới bệnh nhân ................................................. 59
Hình 5.12 Màn hình hiển thị chế độ view ảnh với các chức năng tương tác trên ảnh
.............................................................................................................................. 60
Hình 5.13 Thanh cơng cụ với các chức năng tương tác với ảnh y khoa .................. 61
Hình 5.14 Phần hiển thị thơng tin ảnh thơng tin bện .............................................. 62
Hình 5.15 Màn hình hiển thị thơng tin ảnh và kết quả chẩn đốn ........................... 63
DANH MỤC BẢNG
Bảng 3.1 Giải thích nhãn ứng với tình trạng bệnh trên bộ dữ liệu: ......................... 28
Bảng 4.1 Kết quả thực nghiệm sử dụng phương pháp k-NN với độ đo Cosine ....... 35
Bảng 4.2 Kết quả thực nghiệm sử dụng phương pháp k-NN với độ đo Minkowski 36
Bảng 4.3 Kết quả thực nghiệm sử dụng phương pháp SVM................................... 37
Bảng 4.4 Kết quả thực nghiệm sử dụng phương pháp Logistic Regression ............ 37
Bảng 5.1 Thống kê, phân tích các chức năng của ứng dụng demo.......................... 43
Bảng 5.2 Đặc tả use case phân loại COVID-19 ...................................................... 44
Bảng 5.3 đặc tả use case quản lý thông tin bệnh nhân ............................................ 46
Bảng 5.4 Đặc tả lớp Image .................................................................................... 55
Bảng 5.5 Đặc tả lớp Patient ................................................................................... 56
Bảng 5.6 Đặc tả lớp Test ....................................................................................... 57
Bảng 5.7 Bảng mơ tả chức năng màn hình hiển thị chế độ view ............................ 60
Bảng 5.8 Mô tả chức năng chú thích và tương tác với hình ảnh ............................. 61
DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
Từ nguyên gốc
CNN
Convolutional network
COVID-19
Coronavirus - nhiễm COVID-19
MERS
Hội chứng hô hấp Trung Đông
k-NN
học k-Nearest-Neighbours (k-NN), (), Logistic Regression
SVM
SupportVector Machines
MERS-COV
MiddleEast Resporatory Syndrone
SARS-COVS
Severe AcuteRespiratory Syndrone
NORMAL
Bình thường
PNEUMONIA Viêm phổi thông thường
UI
User Interface – giao diện người dùng
GLCM
Ma trận đồng xuất hiện mức xám
Unidirectional
Luồng dữ liệu một chiều
Data Flow
GLCM
Ma trận đồng xuất hiện mức xám
TĨM TẮT KHĨA LUẬN
Đại dịch tồn cầu COVID-19 đã và đang gây ra những thiệt hại vơ cùng lớn
cho tồn nhân loại . Với những diễn biển phức tạp của dịch bệnh, đến nay COVID19 đã lan rộng ra trên toàn thế giới với hơn 200 quốc gia, vùng lãnh thổ và hiện
chưa tìm ra thuốc chữa. Các cơng tác xét nghiệm và chẩn đoán bệnh đang được các
quốc gia hết sức quan tâm và đẩy mạnh nguồn nhân lực, trang thiết bị để hỗ trợ cho
các bác sĩ trong quá trình sàn lọc. Việc phát hiện tình trạng bệnh càng sớm sẽ rất có
ích cho q trình điều trị của bệnh nhân. Có nhiều phương pháp để chẩn đốn tình
trạng bệnh, trong đó có phương pháp sàn lọc ảnh dựa trên ảnh X-quang. Tuy nhiên,
với lượng bệnh nhân ngày càng tăng, dẫn đến số lượng ảnh X-quang cần kiểm tra là
rất lớn. Điều này đòi hỏi sự tốn kém về các trang thiết bị và nhân lực có chun
mơn. Đây cũng chính là động lực để tơi thực hiện nghiên cứu về phân loại COVID19 sử dụng ảnh X-quang phổi. Trong bài báo cáo này, tôi đã tiến hành khảo sát các
phương pháp máy học k-Nearest-Neighbours (k-NN), Support Vector Machines
(SVM), Logistic Regression cho bài toán phân loại bệnh COVID-19 gồm ba nhãn
dữ liệu: COVID-19, PNEUMONIA, NORMAL. Các phương pháp này sử dụng các
đặc trưng đặc biệt để thực hiện huấn luyện gồm: đặc trưng từ ảnh (xem mỗi ảnh là
một vector đặc trưng), đặc trưng kết cấu Haralick và các đặc trưng được rút trích từ
mơ hình học sâu như: VGG16, Inception-Resnet-V2. Các thử nghiệm được tiến
hành trên bộ dữ liệu do tôi chuẩn bị gồm 3423 ảnh X-quang ngực là kết quả chụp và
kiểm định bởi các bác sĩ y khoa. Tơi thực hiện phân tích đánh giá so sánh các kết
quả thực theo từng phương pháp.
Dựa trên kết quả nghiên cứu và thực nghiệm, tơi tìm hiểu và sử dụng FLASK
framework, kết hợp với Reactjs để xây đựng một demo nhỏ với dạng website giúp
hiển thị hóa kết quả của quá trình thực nghiệm.
MỞ ĐẦU
COVID-19 [1] đã gây ra hơn 90 triệu ca lây nhiễm và gần 2 triệu người chết
trên toàn thế giới1. Đồng thời trở thành đại dịch toàn cầu gây ra những ảnh hưởng,
thiệt hại về sức khỏe con người, các hệ lụy về kinh tế xã hội cho nhân loại. Tổ chức
y tế thế giới WHO cảnh báo mức độ nguy hiểm của COVID-19 đạt mức báo động,
là mối đoe dọa của hầu hết các quốc gia trên thế giới.
COVID-19 được định nghĩa là một bệnh đường hô hấp cấp tính ở người
được phát hiện vào năm 2019, gây ra bởi vi-rút SARS-CoV-2 [2] chưa từng được
xác định trong quá khứ. Coronavirus là một họ virus lớn gây bệnh ở bệnh nhân từ
cảm lạnh thông thường đến các hội chứng hô hấp tiến triển như MiddleEast
Resporatory Syndrone (MERS-COV) và Severe AcuteRespiratory Syndrone
(SARS-COVS). Thế giới đang bị ảnh hưởng, nhiều người chết, nhiều quốc gia
tuyên bố tình trạng khẩn cấp. Hầu hết những người bị nhiễm COVID -19 đều có các
triệu chứng về đường hô hấp từ nhẹ đến trung bình. Một số trường hợp khác có
triệu chứng bệnh khi đã mắc bệnh viêm phổi từ trước.
Một giải pháp hữu hiệu được đề xuất giúp các bác sĩ có thể sàng lọc lâm sàng
các trường hợp nhiễm bệnh là chẩn đốn bệnh thơng qua sàng lọc ảnh chụp Xquang. Có nhiều nghiên cứu phát hiện COVID -19 trên ảnh X-quang với kết quả
cao. Tuy nhiên hầu hết được thực nghiệm trên bộ dữ liệu khá nhỏ. Điều này đã thúc
đẩy tôi thu thập các bộ dữ liệu chụp X-quang ngực với mong muốn tăng tính đa
dạng dữ liệu và độ chính xác cho q trình dự đốn kết quả phân loại hình ảnh trên
các nguồn khác nhau. Bộ dữ liệu có tổng số ảnh là 3423, trong đó có 1517 ảnh nhãn
NORMAL, 1467 ảnh PNEUMONIA và 439 ảnh COVID-19.
Theo thống kê của Worldometers.info, tính đến 8 giờ ngày 13-1 (giờ Việt Nam), thế giới ghi nhận
91.988.471 ca nhiễm virus SARS-CoV-2, trong đó có 1.968.622 ca tử vong và hơn 65,8 triệu ca đã hồn tồn
bình phục.
1
1
Chương 1. TỔNG QUAN ĐỀ TÀI
1.1. Đặt vấn đề
Bối cảnh xuất hiện dịch bệnh COVID-19
Đại dịch COVID-19 [1] là một đại dịch bệnh truyền nhiễm với tác nhân là
virus SARS-CoV-2, đang diễn ra trên phạm vi toàn cầu và được phát hiện lần đầu
tiên tại thành phố Vũ Hán, tỉnh Hồ Bắc, Trung Quốc vào tháng 12/2019. Ở Việt
Nam ghi nhận trường hợp nhiễm COVID-19 đầu tiên vào ngày 23 tháng 1 năm
2020, gồm hai bệnh nhân người Trung Quốc được nhập viện tại bệnh viện Chợ
Rẫy, thành phố Hồ Chí Minh.
Theo số liệu thống kê, đến ngày 2 tháng 1 năm 2021, tổng số ca nhiễm
COVID-19 trên toàn cầu là hơn 84 triệu ca, trong đó có hơn 1,8 triệu người thiệt
mạng. Dịch bệnh đến nay xuất hiện và lây lan ở 218 quốc gia và vùng lãnh thổ.
Các nước cũng ghi nhận hơn 59 triệu bệnh nhân được điều trị khỏi, số ca nguy
kịch hiện là hơn 22 triệu ca và hơn 106 ngìn ca đang điều trị tích cực. Thế giới có
tới 120 quốc gia và vùng lãnh thổ ghi nhận ca COVID-19 mới [2]; 83 quốc
gia/vùng lãnh thổ có các ca tử vong vì đại dịch.
> 1,000,000
500,001 – 1,000,000
50,001 – 500,000
5,001 – 50,000
1 – 5,0000
No Reported Data
Not Applicable
Hình 1.1 Hiện trạng COVID-19 đang lan rộng trên toàn thế giới (Coronavirus
Disease (COVID-19) Situation Reports, [1]
2
1–9
10-99
100-299
trên 300
Hình 1.2 Bản đồ các tỉnh và thành phố theo số ca nhiễm COVID-19 được xác nhận
(tính đến ngày 03 tháng 01 năm 2021) [4]
Thông tin về đặc điểm bệnh COVID-19
Nói một cách cụ thể, Virus Corona là một họ virus lớn thường lây nhiễm
cho động vật nhưng đôi khi chúng có thể tiến hóa và lây sang người. Hầu hết
những người mắc bệnh COVID-19 sẽ gặp các triệu chứng từ nhẹ đến trung bình
và hồi phục mà khơng cần phải điều trị đặc biệt. Khi virus xâm nhập vào cơ thể,
nó xâm nhập vào một số tế bào và chiếm lấy bộ máy tế bào (gây tổn thương viêm
đặc hiệu ở đường hô hấp), đồng thời virus chuyển hướng bộ máy đó để phục vụ
cho nó, tạo ra virus mới và nhiễm tiếp người khác. Vi-rút gây bệnh COVID-19
chủ yếu lây truyền qua các giọt bắn văng ra khi người nhiễm bệnh ho, hắt hơi
hoặc thở ra. Những giọt bắn này quá nặng nên không thể bay lơ lửng trong khơng
khí và nhanh chóng rơi xuống sàn nhà hoặc các bề mặt. Bất cứ ai có thể bị nhiễm
bệnh khi hít phải vi-rút nếu đang ở gần người nhiễm COVID-19 hoặc chạm vào
bề mặt có vi-rút, rồi lại chạm vào mắt, mũi hoặc miệng.
3
Có 7 loại virus Corona [3], trong đó, 4 loại không nguy hiểm là 229E,
NL63, OC43 và HKU1; hai loại khác là Hội chứng hô hấp Trung Đông (MERS)
và Hội chứng hơ hấp cấp tính nặng (SARS), nguy hiểm hơn và từng gây ra đại
dịch toàn cầu.
Những người mắc bệnh COVID-19 đã có một loạt các triệu chứng được
báo cáo - từ các triệu chứng nhẹ đến bệnh nghiêm trọng. Các triệu chứng có thể
xuất hiện 2-14 ngày sau khi phơi nhiễm với vi-rút. Những người có các triệu
chứng này có thể nhiễm COVID-19: Sốt hoặc ớn lạnh, ho, hụt hơi hoặc khó thở,
mệt mỏi, đau cơ hoặc đau người, đau đầu, mất vị giác hoặc khứu giá, đau họng,
gạt mũi hoặc chảy nước mũi, buồn nôn hoặc nôn mửa, tiêu chảy.
Những ảnh hưởng của COVID-19 đối với xã hội, con người, kinh tế
Sự bùng phát của dịch bệnh COVID-19 trên thế giới và quay trở lại tại
Việt Nam mà chưa có vắc-xin điều trị được sản xuất hàng loạt buộc các quốc gia
phải sử dụng các biện pháp như giãn cách xã hội, đeo khẩu trang nơi công cộng,
rửa tay thường xuyên, tuyên truyền nâng cao nhận thức cho người dân để hạn chế
sự lây lan của dịch bệnh.
Mặc dù còn rất nhiều điều chưa tường tận về virus gây bệnh COVID-19
hiện đang hoành hành trên toàn cầu nhưng có một sự thật mà chúng ta đều chắc
chắn: COVID-19 có thể tác động sâu rộng lên các cơ quan trong cơ thể con người
[4]:
• Hủy hoại phổi: Đối với hầu hết trường hợp đã xác nhận, phổi là nơi
COVID-19 tác động đầu tiên (do tiếp xúc gần với các giọt bắn từ người
nhiễm bệnh) và cũng là bộ phận bị tàn phá mạnh nhất. Virus SARS-CoV2 cũng tương tự như virus cúm – chúng gây ra bệnh về đường hô hấp.
Các triệu chứng coronavirus chủng mới ban đầu là sốt, ho, hắt hơi, sau đó
có thể tiến triển thành viêm phổi cấp tính.
• Các vấn đề về tim mạch: Các chun gia nước ngồi cho biết COVID-19
cũng có thể ảnh hưởng đến tim và mạch máu như làm nhịp tim không
4
đều, tim bơm không đủ máu đến các mô hoặc gây huyết áp thấp và cần
dùng thuốc. Tuy nhiên, cho đến nay vẫn chưa có cơ sở để khẳng định
COVID-19 gây hại trực tiếp cho tim.
• Tổn thương gan: Khi virus lây lan từ hệ hô hấp, gan thường là bộ phận
cuối chịu tổn thương. Dấu hiệu tổn thương gan được ghi nhận trong các
trường hợp mắc COVID-19 thường nhẹ nhưng vẫn có ca tổn thương gan
nghiêm trọng hơn, thậm chí là suy gan.
Trật tự và hoạt động kinh tế thế giới thay đổi mạnh mẽ do hầu hết các quốc
gia đang trải qua thời kỳ cách ly tại nhà, giãn cách xã hội và thậm chí đóng cửa
quốc gia [4]. Đại dịch COVID-19 gây ra khủng hoảng sức khỏe cộng đồng,
khủng hoảng kinh tế và sinh kế, hiện nay nhiều nền kinh tế lớn đang rơi vào suy
thoái nghiêm trọng. Giống như hầu hết nền kinh tế trên thế giới, Việt Nam bị ảnh
hưởng do sự bùng phát của dịch bệnh, các ngành công nghiệp tư nhân bị thiếu hụt
nguồn nguyên liệu cung ứng và đối mặt với nguy cơ dừng sản xuất. Dịch
COVID-19 còn ảnh hưởng đến nhiều ngành kinh tế bao gồm hàng hải, hậu cần
hay các lĩnh vực phân phối, bán lẻ trong nước. Nhiều doanh nghiệp, các hộ kinh
doanh gặp khó khăn. Ngành hàng khơng bị ảnh hưởng nặng nề, nhiều chuyến bay
bị hủy bỏ, lượng khách du lịch đến Việt Nam sụt giảm.
Các quy trình xét nghiệm chẩn đốn COVID-19
Vào ngày 19 tháng 3 năm 2020, WHO đã công bố một hướng dẫn tạm thời
về các xét nghiệm đối với những người nghi ngờ mắc bệnh do coronavirus
(COVID-19) (WHO 2020). Gần đây, nhiều cập nhật toàn diện về các kỹ thuật xét
nghiệm trong chẩn đốn SARS-CoV-2 cũng đã được cơng bố (Chen 2020,
Loeffelholz 2020) [4].
Xét nghiệm cận lâm sàng:
• Số lượng bạch cầu trong máu có thể bình thường hoặc giảm; số lượng bạch
cầu lympho thường giảm, đặc biệt nhóm diễn biến nặng.
5
• Protein C phản ứng (CRP) bình thường hoặc tăng, procalcitonin (PCT)
thường bình thường hoặc tăng nhẹ. Một số trường hợp có thể tăng nhẹ ALT,
AST, CK, LDH.
• Trong các trường hợp diễn biến nặng có các biểu hiện suy chức năng các cơ
quan, rối loạn đông máu, tăng D-dimer, rối loạn điện giải và toan kiềm.3Xquang và chụp cắt lớp (CT) phổi
• Ở giai đoạn sớm hoặc chỉ viêm đường hơ hấp trên, hình ảnh X-quang bình
thường.
• Khi có viêm phổi, tổn thương thường ở hai bên với dấu hiệu viêm phổi kẽ
hoặc đám mờ (hoặc kính mờ) lan tỏa, ở ngoại vi hay thùy dưới. Tổn thương
có thể tiến triển nhanh trong ARDS. Ít khi gặp dấu hiệu tạo hang hay tràn
dịch, tràn khí màng phổi.
4. Xét nghiệm khẳng định căn nguyên
Phát hiện SARS-CoV-2 bằng kỹ thuật real-time RT-PCR hoặc giải trình tự
gene từ các mẫu bệnh phẩm.
6
1.2. Giới thiệu bài toán
Bài toán: Phân loại COVID-19 trên ảnh X-quang phổi. Trong bài tốn này tơi đã
thực hiện phân loại ảnh thể hiện tình trạng bệnh của bệnh nhân.
Đầu vào của bài toán: Ảnh chụp X-quang phổi
Đầu ra của bài toán: Kết quả phân loại gồm ba nhãn ứng với tình trạng bệnh:
COVID-19 (nhiễm COVID-19), NORMAL (Bình thường), PNEUMONIA (viêm
phổi thơng thường).
Hình 1.3 Bài tốn phân loại COVID-19
Mục đích nghiên cứu: Khảo sát các phương pháp máy học để phân loại ảnh
COVID-19, có thể có những cơ sở và nhận định khi sử dụng các phương pháp này.
Mục đích nghiên cứu cụ thể: Nghiên cứu tìm hiểu về các bộ dữ liệu COVID-19,
các bộ dữ liệu liên quan đến ảnh y khoa. Các bộ dữ liệu ảnh chụp X-quang phổi và
não để phân tích và nghiên cứu.
Tìm hiểu tình trạng bệnh về viêm phổi (Pneumonia) và tình trạng nhiễm COVID19 dựa trên ảnh X-quang phổi ở người.
Thử nghiệm các giá trị và đặc trưng trên từng phương pháp phân rút trích đặc
trưng khác nhau trên bộ dữ liệu COVID-19 đã tổng hợp từ Kaggle để có đánh giá và
lựa chọn phù hợp trong việc lựa chọn các phương pháp để thực nghiệm. Cụ thể,
7