Tải bản đầy đủ (.pdf) (69 trang)

(Luận văn thạc sĩ) Nghiên cứu một số thuật toán học máy và ứng dụng trong phân loại bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.87 MB, 69 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

PHẠM XN THU

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY
VÀ ỨNG DỤNG TRONG PHÂN LOẠI BỆNH

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI – 2021


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

PHẠM XN THU

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY
VÀ ỨNG DỤNG TRONG PHÂN LOẠI BỆNH
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ:

8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ VĂN THỎA


HÀ NỘI – 2021


i

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tơi. Nội dung của luận
văn có tham khảo và sử dụng các tài liệu, thông tin được đăng tải trên những tạp chí
khoa học và các trang web được liệt kê trong danh mục tài liệu tham khảo. Tất cả
các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Hà nội, ngày

tháng

Người cam đoan

Phạm Xuân Thu

năm 2021


ii

LỜI CẢM ƠN
Được sự đồng ý của Học Viện Công Nghệ Bưu Chính Viễn Thơng, và của
thầy giáo hướng dẫn TS. Vũ Văn Thỏa, học viên đã thực hiện đề tài luận văn tốt
nghiệp Thạc sĩ: “Nghiên cứu một số thuật toán học máy và ứng dụng trong phân
loại bệnh”.

Để hoàn thành luận văn này, học viên xin chân thành cảm ơn các thầy cơ
giáo đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và
rèn luyện ở Học Viện Cơng Nghệ Bưu Chính Viễn Thông.
Học viên xin đặc biệt gửi lời cảm ơn đến TS. Vũ Văn Thỏa, người thầy đã
trực tiếp hướng dẫn trong quá trình thực hiện luận văn tốt nghiệp này. Nhờ sự động
viên và chỉ bảo tận tình của thầy trong thời gian qua đã giúp học viên vượt qua
những khó khăn khi nghiên cứu để luận văn được hồn thành.
Học viên xin gửi lời cảm ơn tới gia đình, bạn bè và đồng nghiệp, những
người đã luôn ở bên cổ vũ tinh thần, tạo điều kiện thuận lợi để học viên có thể học
tập và hồn thành tốt luận văn này.
Học viên đã có nhiều cố gắng để thực hiện luận văn một cách hoàn chỉnh
nhất. Tuy nhiên, do còn nhiều hạn chế về kiến thức và kinh nghiệm nên khơng thể
tránh khỏi những thiếu sót nhất định mà học viên chưa thấy được. Học viên rất
mong nhận được sự góp ý của q Thầy, Cơ giáo và các bạn đồng nghiệp để luận
văn được hoàn chỉnh hơn.
Học viên xin trân trọng cám ơn!
Hà Nội, ngày tháng năm 2021
Học viên

Phạm Xuân Thu


iii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN .............................................................................................................ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT .......................................................... v
DANH MỤC BẢNG .................................................................................................. vi

DANH MỤC HÌNH ..................................................................................................vii
MỞ ĐẦU ..................................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI BỆNH VÀ HỌC MÁY
........................................................................................................................ 3
1.1. Giới thiệu bài toán phân loại bệnh và các vấn đề liên quan ............................ 3
1.1.1. Khái niệm về phân lớp dữ liệu và bài toán phân loại bệnh ............................... 3
1.1.2. Quy trình thực hiện phân loại bệnh.................................................................... 4
1.1.3. Các độ đo đánh giá mơ hình phân loại bệnh ..................................................... 5
1.1.4. Các ứng dụng của bài toán phân loại bệnh ....................................................... 6
1.2. Tổng quan về học máy ..................................................................................... 7
1.2.1. Khái niệm về học máy và phân loại các kỹ thuật học máy ................................. 7
1.2.2. Ứng dụng học máy xây dựng mơ hình phân loại bệnh ....................................... 8
1.3. Tổng quan về học sâu ...................................................................................... 9
1.3.1. Khái niệm về học sâu.......................................................................................... 9
1.3.2. Hướng tiếp cận học sâu .................................................................................... 10
1.4. Kết luận chương 1 .......................................................................................... 11

CHƯƠNG 2. NGHIÊN CỨU THUẬT TOÁN CÂY QUYẾT ĐỊNH VÀ THUẬT
TOÁN MÁY VECTOR HỖ TRỢ ............................................................... 13
2.1. Khảo sát thuật toán cây quyết định và các vấn đề liên quan ......................... 13
2.1.1. Giới thiệu phương pháp ................................................................................... 13
2.1.2. Khảo sát nội dung phương pháp ...................................................................... 14
2.1.3. Đánh giá phương pháp ..................................................................................... 15
2.2. Khảo sát thuật toán máy vectơ hỗ trợ và các vấn đề liên quan...................... 15
2.2.1. Giới thiệu phương pháp ................................................................................... 15
2.2.2. Kỹ thuật SVM tuyến tính với tập dữ liệu phân tách được ................................ 18


iv


2.2.3. Kỹ thuật SVM tuyến tính với tập dữ liệu không phân tách được...................... 21
2.2.4. Kỹ thuật SVM phi tuyến phân lớp nhị phân ..................................................... 24
2.2.5. Kỹ thuật tối thiểu tuần tự SMO ........................................................................ 27
2.2.6. Kỹ thuật SVM phân lớp đa lớp ......................................................................... 27
2.2.7. Đánh giá phương pháp ..................................................................................... 29
2.3. Kết luận chương 2 .......................................................................................... 29

CHƯƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .................................. 31
3.1. Tổng quan về xét nghiệm hóa nghiệm ........................................................... 31
3.1.1. Giới thiệu chung về xét nghiệm hóa nghiệm .................................................... 31

3.1.1. Đặc điểm của dữ liệu xét nghiệm hóa nghiệm ................................................. 33
3.1.2. Thu thập dữ liệu nghiên cứu............................................................................. 34
3.2. Bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm ................ 36
3.2.1. Đặt bài toán ...................................................................................................... 36
3.2.2. Tiền xử lý dữ liệu .............................................................................................. 36
3.2.3. Các kịch bản thử nghiệm .................................................................................. 38
3.2.4. Công cụ thực nghiệm ........................................................................................ 39
3.3. Kết quả thực nghiệm và đánh giá .................................................................. 40
3.3.1. Chuẩn bị dữ liệu và thực hiện thử nghiệm ....................................................... 40
3.3.2. Kết quả thực nghiệm......................................................................................... 43
3.3.3. Phân tích và đánh giá kết quả thực nghiệm ..................................................... 49
3.4. Kết luận chương 3 .......................................................................................... 53

DANH MỤC TÀI LIỆU THAM KHẢO .................................................................. 55
Tiếng Việt ............................................................................................................. 55
Tiếng Anh ............................................................................................................. 55
PHỤ LỤC .................................................................................................................. 57



v

DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT

Viết tắt

Tiếng Anh

Tiếng việt

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

CNTT

Information Technology

Công nghệ thông tin

CSDL

Database

Cơ sở dữ liệu

FN


False Negative

Số mẫu âm phân loại sai

FP

False Positive

Số mẫu dương phân loại sai

HL

Training

Huấn luyện

KC

Test

Kiểm chứng

KDD

Knowledge Discovery and Data

Phát hiện tri thức và khai phá

Mining


dữ liệu

SVM

Support Vector Machines

Máy véc tơ hỗ trợ

SMO

Sequential Minimal Optimization

Tối thiểu tuần tự

TN

True Negative

Số mẫu âm phân loại đúng

TP

True Positive

Số mẫu dương phân loại đúng

WEKA

Waikato Environment for


Công cụ kiểm thử học máy

Knowledge Acquisition


vi

DANH MỤC BẢNG
Bảng 3.1: Số lượng bệnh nhân ..................................................................................35
Bảng 3.2: Phân bố số lượng mẫu nhóm theo kích cỡ mẫu ........................................40
Bảng 3.3: Cơ cấu nhóm bệnh với số mẫu HL và KC tương ứng ..............................41
Bảng 3.4: Chi tiết các tập tin dữ liệu .........................................................................42
Bảng 3.5: Kết quả phân lớp phương pháp SVM theo chiến lược 1/k với nhóm mẫu 1
...................................................................................................................................43
Bảng 3.6: Kết quả phân lớp phương pháp SVM theo chiến lược 1/1 với nhóm mẫu 1
...................................................................................................................................44
Bảng 3.7: Kết quả phân lớp theo cây quyết định ......................................................44
Bảng 3.8: Bảng kết quả huấn luyện của 2 thuật tốn theo nhóm mẫu 1 ...................44
Bảng 3.9: Bảng kết quả kiểm chứng của 2 thuật tốn theo nhóm mẫu 1 ..................45
Bảng 3.10: Kết quả phân lớp phương pháp SVM theo chiến lược 1/k với nhóm mẫu
2 .................................................................................................................................45
Bảng 3.11: Kết quả phân lớp phương pháp SVM theo chiến lược 1/1 với nhóm mẫu
2 .................................................................................................................................46
Bảng 3.12: Kết quả phân lớp theo j48 .......................................................................46
Bảng 3.13: Bảng kết quả huấn luyện của 2 thuật tốn theo nhóm mẫu 2 .................46
Bảng 3.14: Bảng kết quả kiểm chứng của 2 thuật tốn theo nhóm mẫu 2 ................47
Bảng 3.15: Kết quả phân lớp phương pháp SVM theo chiến lược 1/k với nhóm mẫu
3 .................................................................................................................................47
Bảng 3.16: Kết quả phân lớp phương pháp SVM theo chiến lược 1/1 với nhóm mẫu
3 .................................................................................................................................48

Bảng 3.17: Kết quả phân lớp theo j48 .......................................................................48
Bảng 3.18: Bảng kết quả huấn luyện của 2 thuật tốn theo nhóm mẫu 3 .................48
Bảng 3.19: Bảng kết quả kiểm chứng của 2 thuật tốn theo nhóm mẫu 3 ................49


vii

DANH MỤC HÌNH
Hình 1.1. Bài tốn phân loại bệnh ...............................................................................4
Hình 1.2. Quy trình phân loại bệnh .............................................................................5
Hình 1.3. Mơ tả học sâu ..............................................................................................9
Hình 1.4. Quá trình học tăng cường ..........................................................................11
Hình 2.1. Mơ hình dạng cây của cây quyết định.......................................................14
Hình 2.2. Sự quan trọng của biên đối với siêu phẳng phân tách...............................16
Hình 2.3. Ví dụ về biên tối ưu của siêu phẳng phân tách .........................................17
Hình 2.4. Ảnh hưởng của C đến độ rộng biên ..........................................................22
Hình 2.5. Khơng gian 3 chiều được ánh xạ từ khơng gian 2 chiều ...........................25
Hình 2.6. Phân lớp đa lớp sử dụng chiến lược OAA và OAO ..................................28
Hình 3.1: Kết quả xét nghiệm của BN ở các lần xét nghiệm khác nhau ..................36
Hình 3.2: Dữ liệu xét nghiệm của 1 BN đã tách thành 2 dòng dữ liệu min, max. ....37
Hình 3.3: Dữ liệu xét nghiệm có ý nghĩa của 1 BN đã được xác định .....................37
Hình 3.4: Dữ liệu xét nghiệm đã được chuẩn hóa với miền [0.0;10.0] ....................38
Hình 3.5: Màn hình WEKA ......................................................................................40
Hình 3.6: Biểu đồ so sánh độ chính xác của phân loại thử nghiệm theo 2 thuật tốn
của nhóm 1 ................................................................................................................50
Hình 3.7: Biểu đồ so sánh độ chính xác của phân loại thử nghiệm theo 2 thuật tốn
của nhóm 2 ................................................................................................................51
Hình 3.8. Biểu đồ so sánh độ chính xác của phân loại thử nghiệm theo 2 thuật tốn
của nhóm 3 ................................................................................................................51
Hình 3.9: Biểu đồ so sánh thời gian của các thuật toán thử nghiêm trên tập HL .....52

Hình 3.10: Biểu đồ so sánh thời gian của các thuật toán thử nghiêm trên tập KC ...53


1

MỞ ĐẦU
Trên thế giới cũng như tại Việt Nam, công tác y tế chăm sóc sức khỏe tồn
dân có một vị trí hết sức to lớn và quan trọng đối với phát triển của xã hội. Đặc biệt,
trong thời kỳ đại dịch Covid-19, công tác khám, chữa bệnh cho bệnh nhân có ý
nghĩa hết sức quan trọng.
Q trình điều trị bệnh nhân phụ thuộc rất nhiều vào kết quả các xét nghiệm
cận lâm sàng (bao gồm các xét nghiệm chỉ định, chẩn đốn hình ảnh và thăm dị
chức năng). Các kết quả xét nghiệm đóng vai trị rất quan trọng trong các quyết định
của các bác sĩ, điều dưỡng và nhân viên y tế trong tồn bộ q trình điều trị, chăm
sóc bệnh nhân.
Trong giai đoạn hiện nay, tình trạng bệnh tật có xu hướng gia tăng và các đại
dịch diễn ra với quy mơ tồn thế giới. Do đó, việc đảm bảo chất lượng khám và điều
trị đang là một thách thức đối với các cơ sở khám, chữa bệnh khi phải đối mặt với
tình trạng quá tải. Một yêu cầu cấp bách đặt ra là phải có các hệ thống hỗ trợ việc
phân loại bệnh nhanh chóng, chính xác để kịp thời cứu chữa bệnh nhân.
Cùng với sự phát triển mạnh mẽ của công nghệ thông tin, các kỹ thuật học
máy và học sâu được nghiên cứu và triển khai ứng dụng trong nhiều lĩnh vực, trong
đó giải quyết hiệu quả bài toán phân lớp (Classification) dữ liệu. Phân lớp dữ liệu là
việc xếp các dữ liệu vào những lớp khác nhau. Ví dụ: Phân lớp sinh viên theo kết
quả học tập, phân lớp các loài thực vật, … . Bài toán phân lớp dữ liệu thường được
giải quyết bằng cách sử dụng một số kỹ thuật học máy như: Cây quyết định
(Decision Tree), Máy vector hỗ trợ (Support Vector Machine), Mạng Nơ-ron nhân
tạo (Artificial Neural Network), Thuật toán Bayes (Naive Bayes), … .
Bài toán phân loại bệnh dựa trên các kết quả xét nghiệm cũng thuộc lớp các
bài tốn phân lớp dữ liệu. Do đó có thể áp dụng các kỹ thuật học máy khác nhau để

giải quyết.


2

Xuất phát từ những lý do trên, học viên chọn thực hiện luận văn tốt nghiệp
chương trình đào tạo thạc sĩ với đề tài có tên “Nghiên cứu một số thuật toán học
máy và ứng dụng trong phân loại bệnh”.
Mục tiêu của luận văn là nghiên cứu một số thuật toán học máy cho bài toán
phân loại bệnh. Trên cơ sở đó tiến hành thực nghiệm ứng dụng một số thuật toán
học máy trong phân loại bệnh dựa trên xét nghiệm hóa nghiệm.
Trong khn khổ của luận văn, học viên sẽ thực hiện nghiên cứu hai kỹ thuật
học máy Cây quyết định và Máy vector hỗ trợ và ứng dụng giải quyết bài toán phân
loại bệnh dựa trên kết quả xét nghiệm hóa nghiệm.
Nội dung của luận văn được trình bày trong ba chương như sau:
Chương 1: Tổng quan về bài tốn phân loại bệnh và học máy.
Nội dung chính của chương 1 của luận văn khảo sát tổng quan về bài toán
phân loại bệnh, các kỹ thuật học máy và các vấn đề liên quan.
Chương 2: Nghiên cứu thuật toán cây quyết định và thuật toán máy
Vector hỗ trợ.
Nội dung chính của chương 2 là nghiên cứu chi tiết hai thuật toán học máy
cây quyết định và máy vector hỗ trợ để giải quyết bài toán phân loại bệnh và một số
vấn đề liên quan.
Chương 3: Kết quả thực nghiệm và đánh giá.
Nội dung chính của chương 3 là ứng dụng hai thuật toán học máy đã nghiên
cứu trong chương 2 cho bài toán phân loại bệnh dựa trên kết quả xét nghiệm hóa
nghiệm.


3


CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI
BỆNH VÀ HỌC MÁY
Nội dung chính của chương này khảo sát tổng quan về bài toán phân loại
bệnh, học máy và các vấn đề liên quan

1.1. Giới thiệu bài toán phân loại bệnh và các vấn đề liên quan

1.1.1. Khái niệm về phân lớp dữ liệu và bài toán phân loại bệnh
Phân lớp (classification) dữ liệu [7] là một tiến trình xử lý nhằm xếp các dữ
liệu vào một trong các lớp đã được định nghĩa trước. Các dữ liệu được xếp vào các
lớp dựa vào giá trị của các thuộc tính (attributes) của chúng. Sau khi đã xếp tất của
các dữ liệu đã biết trước vào các lớp tương ứng, mỗi lớp được đặc trưng bởi tập các
thuộc tính của các dữ liệu chứa trong lớp đó. Sau đó, có thể sử dụng chúng trong
ᴠiệᴄ phân lớp cho các dữ liệu mới. Như vậy, quá trình phân lớp đượᴄ tiến hành bao
gồm 2 giai đoạn: giai đoạn xâу dựng mơ hình phân lớp ᴠà giai đoạn sử dụng mơ
hình. phân lớp.
Xâу dựng mơ hình phân lớp là mơ tả một tập những lớp dữ liệu đượᴄ định
nghĩa trướᴄ, trong đó mỗi bộ hoặᴄ mẫu đượᴄ gán thuộᴄ ᴠề một lớp nào đó đượᴄ хác
định bởi thuộᴄ tính nhãn lớp. Tập hợp ᴄủa những bộ đượᴄ ѕử dụng trong ᴠiệᴄ xây
dựng mô hình đượᴄ gọi là tập huấn luуện. Mơ hình thường được biểu diễn dưới
dạng những luật phân lớp hoặc là những ᴄơng thứᴄ tốn họᴄ. Để xây dựng mơ hình
phân lớp cần sử dụng các kỹ thuật khác nhau, trong đó có các kỹ thuật học máy [8].
Sử dụng mơ hình phân lớp là ѕử dụng mơ hình phụᴄ ᴠụ ᴄho mụᴄ đíᴄh phân
lớp dữ liệu trong tương lai hoặᴄ phân lớp ᴄho những đối tượng ᴄhưa biết đến. Trướᴄ
khi ѕử dụng mơ hình người ta thường phải đánh giá độ ᴄhính хác ᴄủa mơ hình. Độ
ᴄhính хáᴄ là phần trăm ᴄủa tập hợp mẫu kiểm tra được phân loại đúng bởi mơ hình.
Do đó, tập kiểm tra thường là độᴄ lập ᴠới tập huấn luуện.
Bài toán phân loại bệnh là một dạng của phân lớp dữ liệu. Bài toán phân loại
bệnh có thể được mơ tả như hình 1.1 dưới đây [10].



4

Lớp bệnh 1 (Tim)

Dữ liệu bệnh

Mơ hình

Lớp bệnh 2 (Thận)

phân lớp

Lớp bệnh 3 (Khớp)
Lớp bệnh n (…)

Hình 1.1. Bài tốn phân loại bệnh

Trong mơ hình trên, dữ liệu bệnh là đầu vào của bài tốn phân loại bệnh. Đó
là các dữ liệu về triệu chứng lâm sàng (như ho, đau, nhiệt độ, huyết áp) hoặc cận
lâm sàng (kết quả các xét nghiệm đặc hiệu hoặc chẩn đốn hình ảnh) của các bệnh
nhân. Mơ hình hình phân lớp được xây dựng nhờ sử dụng các kỹ thuật học máy.
Trong luận văn sẽ nghiên cứu chi tiết kỹ thuật cây quyết định và kỹ thuật SVM để
xây dựng mơ hình phân loại bệnh dựa. Kết quả của bài toán phân loại bệnh là xếp
các bệnh nhân vào các lớp mặt bệnh phù hợp nhất.

1.1.2. Quy trình thực hiện phân loại bệnh
Đối với bài tốn phân lớp dữ liệu nói chung thường được thực hiện theo 2
giai đoạn: Giai đoạn học để xây dựng mơ hình phân lớp và giai đoạn phân lớp để

kiểm tra đánh giá mơ hình phân lớp [7]. Đối với bài tốn phân loại bệnh có thể thực
hiện theo các bước sau đây.
Bước 1: Thu thập dữ liệu bệnh;
Bước 2: Tiền xử lý dữ liệu;
Bước 3: Phân chia dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng;
Bước 4: Xây dựng mơ hình phân lớp theo phương pháp lựa chọn phù hợp trên tập
huấn luyện;
Bước 5: Sử dụng mơ hình phân lớp có được để phân loại với tập dữ liệu kiểm
chứng và đánh giá kết quả của mơ hình.


5

Các bước trên có thể biểu diễn như trong hình 1.2.

Dữ liệu HL
Nguồn
dữ liệu

Mơ hình
HL

Tiền
xử lý
Dữ liệu KC

Kết quả phân
loại, đánh giá

Hình 1.2. Quy trình phân loại bệnh


1.1.3. Các độ đo đánh giá mơ hình phân loại bệnh
Hiệu quả của mơ hình phân lớp dữ liệu nói chung và phân loại bệnh nói riêng
thường được xác định thơng qua các đại lượng được mô tả dưới đây [9].
 True Positive (TP): đối tượng ở lớp Positive, mơ hình phân đối tượng vào lớp
Positive (phân loại đúng)
 True Negative (TN): đối tượng ở lớp Negative, mơ hình phân đối tượng vào
lớp Negative (phân loại đúng)
 False Positive (FP): đối tượng ở lớp Negative, mơ hình phân đối tượng vào
lớp Positive (phân loại sai) – Thường gọi là phân loại sai kiểu 1 (Type I
Error).
 False Negative (FN): đối tượng ở lớp Positive, mơ hình phân đối tượng vào
lớp Negative (phân loại sai) – Phân loại sai kiểu 2 (Type II Error).
Bốn trường hợp trên thường được biểu diễn dưới dạng ma trận hỗn loạn
(confusion matrix).
Ta có các độ đo đánh giá sau:
(1) Độ đo Precision (Mức chính xác)


6

-

Định nghĩa: Precision = TP / (TP + FP).

-

Ý nghĩa: Precision càng lớn có nghĩa là độ chính xác của các điểm tìm được
càng cao.


(2) Độ đo Recall (Độ bao phủ hoặc độ triệu hồi)
-

Định nghĩa: Recall = TP / (TP + FN).

-

Ý nghĩa: Độ đo Recall được nhân với 100 và gọi là độ đo Sensitivity (Độ
nhạy).

(3) Độ đo Accuracy (Độ chính xác)
-

Định nghĩa: Accuracy = (TP + TN) / (TP + TN + FP + FN) * 100%.

-

Ý nghĩa: Accuracy phản ánh độ chính xác chung của mơ hình phân lớp ..

(4) Độ đo F-Measure
-

Định nghĩa: F-Measure = 2.(Precision.Recall) / (Precision + Recall).

-

Ý nghĩa: F-Measure là là độ đo bao gồm vừa Precison và Recall.

(5) Độ đo Specitivity (Độ đặc hiệu)
-


Định nghĩa: Specitivity = TN/(TN+FP).

-

Ý nghĩa: Độ đo Specitivity là tỷ lệ dự báo chính xác.
Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường được

sử dụng trong lĩnh vực y tế để giải thích lâm sàng các kết quả xét nghiệm chẩn đốn
và để ước tính mức độ tốt và phù hợp khi chỉ định xét nghiệm [8]. Vì vậy luận văn
sử dụng các độ đo Sensitivity (độ nhạy), Specitivity (độ đặc hiệu) và Accuracy (độ
chính xác) để đánh giá mơ hình phân lớp cho bài toán phân loại bệnh

1.1.4. Các ứng dụng của bài toán phân loại bệnh
Bài toán phân loại bệnh được ứng dụng rộng rãi trong y học. Gần đây việc
ứng dụng bài tốn phân loại bệnh trong y học ngày càng hồn thiện trong việc tìm












×