Tải bản đầy đủ (.pdf) (26 trang)

Ứng dụng kỹ thuật học sâu trong chẩn đoán bệnh ngoài da

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (809.37 KB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------------------------------

BÙI HUY HOÀNG

ỨNG DỤNG KỸ THUẬT HỌC SÂU
TRONG CHẨN ĐOÁN BỆNH NGOÀI DA
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2019


Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: TS. HOÀNG VĂN DŨNG

Phản biện 1: TS. Lê Thị Mỹ Hạnh
Phản biện 2: TS. Đậu Mạnh Hoàn

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ ngành Khoa học máy tính họp tại Trường Đại học
Bách khoa vào ngày 25 tháng 8 năm 2019

Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học
Bách khoa.
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách


khoa - ĐHĐN.


1
MỞ ĐẦU
1. Lý do chọn đề tài
Sức khỏe có vai trò quan trọng trong sự phát triển kinh tế - xã hội của
đất nước. Một quốc gia không thể phát triển nếu người dân không có sức
khỏe. Sức khỏe quan trọng đối với sự phát triển kinh tế - xã hội của mọi
quốc gia và là một trong những quyền lợi cơ bản nhất của con người. Do
vậy, sức khỏe cần phải được nhìn nhận như tài sản của con người và xã hội,
hơn bất cứ của cải vật chất nào.
Cùng với sự phát triển nhanh chóng của khoa học công nghệ, các kỹ
thuật dựa trên trí tuệ nhân tạo và xử lý ảnh ứng dụng trong các hệ thống
thông minh đạt được những kết quả vượt bậc. Trong y học, xử lý ảnh hỗ
trợ rất tốt cho việc chẩn đoán hình ảnh các bệnh về khối u, xương, mạch,
ung thư…, tuy nhiên, đối với ảnh y học, do đặc trưng thường chụp các
bộ phận bên trong cơ thể người bằng máy chụp X quang, máy chụp city,
máy siêu âm, máy nội soi… nên chất lượng hình ảnh thường bị mờ,
nhiễu, không sắc nét… gây khó khăn cho việc chẩn đoán bệnh.
Để khắc phục vấn đề trên, luận văn sử dụng kỹ thuật học sâu để
giải quyết. Kỹ thuật học sâu thể hiện tính ưu việt hơn các kỹ thuật khác
trong việc nhận diện hình ảnh cũng như nhiều lĩnh vực khác, những kết quả
nghiên cứu gần đây áp dụng kỹ thuật này cho độ chính xác cao hơn.
2. Mục đích và ý nghĩa đề tài
a. Mục đích: Mục đích chính của đề tài là nghiên cứu các kỹ thuật trí tuệ
nhân tạo, đặc biệt là kỹ thuật học sâu và các ứng dụng của nó trong thực tế.
Nghiên cứu hình ảnh về da, tập trung vào các điểm ảnh bất thường dựa trên các
kỹ thuật học sâu mạng tích chập 3D-CNN trong lĩnh vực thị giác máy tính.
Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trong trích

xuất đặc trưng hình ảnh để dự đoán bệnh ngoài da. Từ đó phân tích, đánh
giá hiệu quả và độ chính xác trên các thư viện chuẩn có sẵn.
b. Ý nghĩa khoa học: Kế thừa những nghiên cứu về các hệ thống nhận
dạng hình ảnh y tế trước đây; tìm hiểu, mô tả về mô hình hệ thống chẩn đoán


2
bệnh qua ảnh chụp qua da; so sánh giữa các kỹ thuật được sử dụng trong hệ
thống nhận dạng; đánh giá hiệu suất của phương pháp bằng các thực nghiệm
trên tập dữ liệu thực; vận dụng trí tuệ nhân tạo trong việc giải quyết bài toán
chẩn đoán bệnh qua ảnh chụp qua da với khả năng xử lý được nhiều loại bệnh.
c. Ý nghĩa thực tiễn: Thiết kế được mô hình chẩn đoán bệnh qua ảnh
chụp qua da để ứng dụng trong việc chẩn đoán bệnh.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu: Nắm vững được kỹ thuật học sâu trong bài toán chẩn
đoán bệnh qua ảnh chụp qua da. Đề xuất được mô hình chẩn đoán bệnh qua
ảnh chụp qua da.
b. Nhiệm vụ: Nghiên cứu kỹ thuật trí tuệ nhân tạo, mạng neural học
sâu; phát biểu bài toán; phân tích và cài đặt giải thuật cho bài toán chẩn đoán
bệnh qua ảnh chụp da; đánh giá kết quả theo yêu cầu của đề tài.
4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu: Nghiên cứu các kỹ thuật trí tuệ nhân tạo, kỹ
thuật mạng neural học sâu để ứng dụng trong phân tích hình ảnh chụp qua da.
b. Phạm vi nghiên cứu: Nghiên cứu và đề xuất mô hình chẩn đoán bệnh
qua ảnh chụp qua da để ứng dụng cho các phòng khám trong chẩn đoán bệnh.
5. Phương pháp nghiên cứu
a. Phương pháp lý thuyết: Phương pháp phân tích điều tra số liệu: Thu
thập và nghiên cứu các tài liệu có liên quan đến đề tài. Phương pháp nghiên cứu
tài liệu: Các kỹ thuật xử lý ảnh, trí tuệ nhân tạo và đặc biệt là kỹ thuật học sâu.
b. Phương pháp thực nghiệm: Nghiên cứu và khai thác các mô hình

nhận diện hình ảnh đã được đề xuất; xây dựng chương trình ứng dụng vào
nhận dạng các điểm đặc trưng qua ảnh chụp qua da đối với từng loại bệnh;
kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
6. Phương tiện, công cụ triển khai
* Môi trường được sử dụng để huấn luyện mô hình nhận dạng chẩn
đoán bệnh là máy vi tính có cấu hình:
- Vi xử lý (CPU): Intel Core i3-7100 3.90GHz
- RAM: 16Gb


3
- Card đồ họa GPU: NVIDIA GeForce GTX 1060 6GB
- Ổ cứng: SSD Colorful 160GB+ HDD Toshiba 1TB
- Hệ điều hành Windows 10 64bit
* Ngôn ngữ lập trình Matlab.
Thư viện thị giác máy tính, thư viện trí tuệ nhân tạo OpenCV,
Computer vision tool, Neural network tool.
7. Cấu trúc của luận văn
Mở đầu
Chương 1. Cơ sở lý thuyết
Chương 2. Kỹ thuật học sâu CNN trong chẩn đoán bệnh
Chương 3. Thực nghiệm, đánh giá kết quả
Kết luận và kiến nghị.


4
CHƯƠNG I. CƠ SỞ LÝ THUYẾT
Tổng quan về trí tuệ nhân tạo (Artificial intelligence)
Vào những năm 1980, những nghiên cứu thành công liên quan đến trí
tuệ nhân tạo (AI) như các hệ chuyên gia, mô phỏng tri thức và các kỹ năng

phân tích của một hoặc nhiều chuyên gia con người. AI được áp dụng trong
logic, khai phá dữ liệu, chẩn đoán y học và nhiều lĩnh vực ứng dụng khác
trong công nghiệp. Sự thành công dựa vào nhiều yếu tố: Tăng khả năng tính
toán của máy tính, tập trung giải quyết các bài toán con cụ thể, xây dựng các
mối quan hệ giữa AI, các lĩnh vực khác giải quyết các bài toán tương tự và
một sự chuyển giao mới của các nhà nghiên cứu cho các phương pháp toán
học vững chắc và chuẩn khoa học chính xác.
1.1.1. Các lĩnh vực của trí tuệ nhân tạo
Lập luận, suy diễn tự động; biểu diễn tri thức; lập kế hoạch; xử lý
ngôn ngữ tự nhiên; hệ chuyên gia.
Trí tuệ nhân tạo ứng dụng rất hiệu quả trên lĩnh vực giáo dục, lĩnh
vực y tế, lĩnh vực công nghiệp…
Tổng quan về ảnh và một số kỹ thuật xử lý ảnh
1.2.1. Tổng quan về ảnh
1.2.1.1. Một số khái niệm cơ bản
1.2.1.2. Một số dạng ảnh
1.2.2. Một số kỹ thuật xử lý ảnh
1.2.2.1. Lược đồ ảnh (Histogram)
Lược đồ ảnh là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng
điểm ảnh theo các mức hay nói cách khác lược đồ Histogram của một hình ảnh
biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh.
1.2.2.2. Nhị phân hóa ảnh
Hình ảnh của phiếu trả lời trắc nghiệm được chụp hoặc scan thành
file ảnh sau đó đưa vào hệ thống. Hình ảnh này được có hệ màu RGB do đó
cần phải chuyển sang dạng nhị phân trong đó mỗi điểm ảnh được biểu diễn
bởi một trong 2 giá trị 0 hoặc 255 để có thể phân tích và nhận dạng.


5
1.2.2.3. Làm mịn ảnh

Mịn ảnh được thực hiện dựa trên bộ lọc trơn (Smoothing filter) nhằm
loại nhiễu, bước này dùng trong quá trình tiền xử lý (Pre-processing) khi
phải giảm bớt một số chi tiết không cần thiết của một đối tượng nào đó
trong ảnh. Một hướng áp dụng phổ biến để giảm nhiễu là lọc tuyến tính,
những bộ lọc tuyến tính theo hướng này được biết đến như là lọc thông thấp.
1.2.2.4. Phép co ảnh - Erosion
Xét tập hợp A và tập hợp B (Phần tử cấu trúc), phép co ảnh nhị phân
của tập hợp A bởi phần tử cấu trúc B được kí hiệu A ⊝ B và viết dưới dạng
công thức như sau[2]:
A ⊝ B = { c (B) C  A }
Trong đó: A: Ma trận điểm ảnh của ảnh nhị phân; B: Là phần tử cấu trúc.
Trích chọn và biểu diễn đặc trưng hình ảnh
1.3.1. Đặc trưng ảnh
1.3.1.1. Đặc trưng màu sắc
Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất
trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc)
có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều.
Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV.
1.3.1.2. Đặc trưng kết cấu
Kết cấu hay còn gọi là vân (texture) là một đối tượng dùng để phân
hoạch ảnh ra thành những vùng được quan tâm và để phân lớp những vùng
đó. Vân cung cấp thông tin sự sắp xếp về mặt không gian của màu sắc và
cường độ của một ảnh.
1.3.1.3. Đặc trưng hình dạng
Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng
trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính
của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của
một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng.



6
1.3.2. Một số phương pháp trích chọn đặc trưng đơn giản
1.3.2.1. Trích chọn đặc trưng ảnh dựa trên màu sắc
- Lược đồ màu (Histogram).
- Vector liên kết màu (Color Coherence Vector).
1.3.2.2. Trích chọn đặc trưng ảnh dựa trên kết cấu
Kết cấu hay còn gọi là vân (texture) là một đối tượng dùng để phân
hoạch ảnh ra thành những vùng được quan tâm và để phân lớp những vùng
đó. Vân cung cấp thông tin sự sắp xếp về mặt không gian của màu sắc và
cường độ của một ảnh. Ví dụ cấu trúc vân của một số loại lá cây.
1.3.2.3. Trích chọn đặc trưng ảnh dựa trên hình dạng
- Trích chọn đặc trưng theo biên.
- Trích chọn đặc trưng theo vùng.
1.3.3. Mô tả đặc trưng HOG
1.3.3.1. Đặc trưng HOG
Bộ mô tả đặc trưng HOG được dùng phổ biến trong nhiều bài toán nhận
dạng mẫu như nhận dạng người, nhận dạng xe, biển báo giao thông và nhiều
loại đối tượng khác. Đặc trưng HOG có thể mô tả hình dáng và tư thế của đối
tượng theo sự phân bố về hướng của gradient mức xám ảnh. HOG thuộc nhóm
phương pháp mô tả đặc trưng toàn vùng ảnh về đối tượng, đặc trưng được biểu
diễn dưới dạng một vector. Qua việc trích rút đặc trưng trên mẫu ảnh cho trước
ta thu được một vector đặc trưng của đối tượng trong ảnh đó.
1.3.3.2. Quá trình trích rút đặc trưng HOG
Quá trình xử lý liên quan đến cách chia mẫu ảnh đầu vào thành lưới
các cell và tính vector đặc trưng HOG theo phương pháp thông dụng nhất
áp dụng cho bài toán nhận dạng người. Để phù hợp với các bài toán nhận
dạng đối tượng khác nhau, cần có những biến đổi phù hợp nhằm đạt kết quả
chính xác cao và thời gian tính toán tối ưu nhất.
1.3.4. Mô tả đặc trưng SIFT
1.3.4.1. Đặc trưng SIFT

Mô tả đặc trưng SIFT được dùng để mô tả sự phân phối đặc trưng
trong vùng ảnh quanh điểm chính (hay còn gọi là điểm chính, keypoint)


7
được phát hiện (xác định) nhờ vào tính chất bất biến theo biến đổi hình học
và điều kiện ánh sáng. Nhằm mô tả những đặc điểm khác nhau giữa các
keypoint phục vụ việc đối sánh ảnh, cần có bộ mô tả đặc trưng phù hợp.
1.3.4.2. Quá trình xử lý SIFT
Thuật toán SIFT được thực hiện theo các bước chính sau: Xác định
cực trị trong không gian tỷ lệ. Sau khi tính được giá trị DoG toàn ảnh ở các
mức scale, xét trên từng vị trí pixel để so sánh với các láng giềng trong vùng
3x3x3, tương ứng với 3 bảng DoG với 8 láng giềng (neighbors) trong vùng
kích thước 3 x 3 cùng mức tỷ lệ; vùng 3x3 (9 pixels) vị trí tương ứng ở lớp
ngay trên và vùng 3x3 (9 pixels) vị trí tương ứng ở mức phía dưới. Nếu giá
trị DoG tại vị trí đó là local extrema (cực trị cục bộ: lớn nhất hoặc nhỏ nhất)
thì nó là điểm cực trị tại vị trí ở mức scale hiện tại. Những điểm được lựa
chọn này là điểm tiềm năng trở thành điểm chính (potential keypoint).
1.3.4.3. Mô tả đặc trưng keypoint
Đặc trưng mỗi keypoint được giới hạn trong một vùng bao quanh vị
trí keypoint với kích thước 16×16 pixels. Vùng này được chia nhỏ thành
4×4 vùng con, tương ứng mỗi vùng con là 4×4 pixel. Mỗi vùng con tính
trong lược đồ với 8 hướng khác nhau. Như vậy, bộ mô tả đặc trưng keypoint
được biểu diễn bằng vector với số chiều 4×4×8=128 phần tử. Vector này
sau đó được chuẩn hóa nhằm mục đích làm nổi bật khả năng bất biến với
biến đổi hình học và biến đổi độ chiếu sáng. Để giảm ảnh hưởng của độ
sáng phi tuyến tính, cường độ gradient lớn có thể áp dụng ngưỡng các giá
trị vào vector đặc trưng, mỗi giá trị không lớn hơn ngưỡng. Giá trị ngưỡng
được xác định giá trị 0,2 được sử dụng và sau đó vector được chuẩn hóa lại.
Phương pháp phân đoạn ảnh

Phân đoạn ảnh là một quá trình chia một ảnh số thành nhiều vùng
khác nhau, mỗi vùng gồm tập hợp các điểm ảnh có cùng tính chất. Mục tiêu
của việc phân đoạn là để đơn giản hóa hoặc thay đổi cách biểu diễn một ảnh
theo tiêu chuẩn nào đó nhằm làm cho nó ý nghĩa hơn và dễ dàng trong phân
tích, trích xuất đặc trưng[7]. Kết quả của quá trình phân đoạn ảnh là tập hợp


8
các vùng (region) hay còn gọi là các phân đoạn (segments) có thể bao gồm
toàn bộ ảnh hoặc tập hợp các vùng đối tượng được trích xuất ra từ ảnh.
10
9
8
7
6
5
4

Gán mỗi
đối tượng
vào các
cụm

K=2
Chọn k đối tượng
trung tâm tùy ý

3
2
1

0
0

1

2

3

4

5

6

7

8

9

10

Cập nhật
lại trọng
tâm
Gán lại các đối tượng

Gán lại các đối tượng
10


10

9

9

8

8

7

7

6

6

5

5

4

4

3
2
1

0
0

1

2

3

4

5

6

7

8

9

10

Cập nhật
lại trọng
tâm

3
2
1

0
0

1

2

3

4

5

6

7

8

9

10

Hình 1.1 Minh họa phân cụm bằng k-means
Kỹ thuật học máy
1.5.1. Tổng quan
Học máy (Machine Learning) là một ngành khoa học nghiên cứu các
thuật toán cho phép máy tính có thể học được các khái niệm (concept). Có
hai loại phương pháp học máy chính: Phương pháp quy nạp và Phương pháp
suy diễn. Để huấn luyện mô hình và nhận dạng đối tượng, các mẫu dữ liệu

thường được số hóa và biểu diễn thành các vector đặc trưng trong một không
gian đa chiều tương ứng, được gọi là không gian đặc trưng. Nhờ vào các
vector đặc trưng này để có thể phân tích, đánh giá nhằm xây dựng được mô
hình đối tượng phục vụ phân loại, nhận dạng chúng. Quá trình nhận dạng
đối tượng được mô tả bằng sơ đồ tổng quát như sau:
Ảnh
đầu vào

Tiền
xử lý

Trích xuất
đặc trưng

Phân tích
đặc trưng

Hình 1.2 Quá trình nhận dạng đối tượng

Phân
loại


9
1.5.2. Máy phân loại Vector hỗ trợ (Support Vector Machine)
Support Vector Machine (SVM) là một mô hình phân loại hoạt động
bằng việc xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong
không gian n chiều của dữ liệu sao cho siêu phẳng này phân loại các lớp
một cách tối ưu nhất. Ở không gian 2 chiều thì siêu phẳng này là 1 đường
thẳng phân cách chia mặt phẳng không gian thành 2 phần tương ứng 2 lớp

với mỗi lớp nằm ở 1 phía của đường thẳng. Bản chất của phương pháp SVM
là chuyển không gian dữ liệu ban đầu thành một không gian mới hữu hạn
chiều mà ở đó cho khả năng phân lớp dễ dàng hơn.
1.5.3. Mạng neural nhân tạo
Mạng neural nhân tạo (Artificial Neural Network- ANN) là mô hình
xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh
của sinh vật, bao gồm số lượng lớn các neural được gắn kết để xử lý thông
tin. ANN giống như bộ não con người, được học bởi kinh nghiệm (thông
qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức)
và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết
(unseen data). Kiến trúc chung của một mạng neural nhân tạo (ANN) gồm
3 thành phần đó là: Input Layer, Hidden Layer và Output Layer.
1.5.4. Mạng neural sâu
Mạng neural sâu (DNN-Deep neural network) là một mạng neural
nhân tạo với nhiều đơn vị lớp ẩn kết nối với nhau từ lớp đầu vào tới lớp đầu
ra[2]. Sự khác nhau giữa mạng neural sâu và mạng đơn giản ít lớp ẩn đó là
mức độ sâu của mạng, tức là số nút trong mỗi lớp và số lớp ẩn rất lớn so
với các mạng neural truyền thống. Nó được thể hiện qua số lớp và số nút
mà dữ liệu cần phải được xử lý qua trong quá trình nhận dạng.
Tại mỗi lớp trong mạng neural sâu, các nút sẽ tập trung huấn luyện
các đặc trưng riêng biệt dựa vào kết quả đầu ra của các lớp trước đó. Khi đi
sâu vào các lớp bên trong của mạng neural, độ phức tạp đặc trưng dữ liệu
càng tăng lên, các nút có thể phát hiện, tổng hợp và tái kết hợp các đặc trưng
từ những lớp trước nhằm biểu diễn đặc trưng ở mức cao.


10
CHƯƠNG 2. KỸ THUẬT HỌC SÂU CNN TRONG CHẨN
ĐOÁN BỆNH
Bài toán chẩn đoán bệnh ngoài da bằng hình ảnh

2.1.1. Các nghiên cứu liên quan
2.1.1.1. Giới thiệu về Lưu trữ ISIC
Hiệp hội hợp tác hình ảnh da quốc tế (ISIC - International skin imaging
collaboration) được tài trợ bởi Hiệp hội quốc tế về hình ảnh kỹ thuật số của
da (ISDIS). Lưu trữ ISIC chứa bộ sưu tập lớn nhất có sẵn về hình ảnh da được
kiểm soát chất lượng của các tổn thương da. Lưu trữ ISIC chứa hơn 13.000
hình ảnh da liễu, được thu thập từ các trung tâm lâm sàng hàng đầu quốc tế
và được mua từ nhiều thiết bị khác nhau trong mỗi trung tâm.
2.1.1.2. Tổng quan về Ung thư da
Hơn một nửa số chẩn đoán ung thư trên toàn thế giới là ung thư
da[9,10]. Về cơ bản, có hai loại ung thư da phổ biến nhất là ung thư tế bào
đáy (BCC), ung thư tế bào vảy và u hắc tố. Trong những thập kỷ gần đây,
tỷ lệ mắc bệnh và tử vong do ung thư da ngày càng tăng lên, trở thành một
vấn đề lớn trong sức khỏe cộng đồng.
2.1.2. Mục tiêu bài toán chẩn đoán bệnh
Chẩn đoán phân loại bệnh qua hình ảnh da liễu đối với một số bệnh về
da phổ biến như: Nốt ruồi; U da lành tính; U ác tính; Dày sừng quang hóa;
Chứng khô sừng quang hóa; Ung thư tế bào đáy; Tổn thương mạch máu.
Nốt ruồi

U da lành tính

U ác tính

Tổn thương mạch
máu
Dày sừng quang
hóa

Chứng khô sừng

quang hóa

Ung thư tế bào đáy


11
Hình 2.1 Hình ảnh một số bệnh về da
2.1.3. Dữ liệu chẩn đoán bệnh
2.1.3.1. Dữ liệu đầu vào
Các hình ảnh tổn thương đến từ Bộ dữ liệu HAM10000[13] và được
thu thập bằng nhiều loại da liễu, từ tất cả các vị trí giải phẫu (trừ niêm mạc
và móng tay), từ lịch sử một số mẫu bệnh nhân được sàng lọc ung thư da
của một số tổ chức khác nhau.
2.1.3.2. Dữ liệu đầu ra
Dữ liệu đáp ứng là tập hợp các phân loại nhị phân cho mỗi trong số
7 trạng thái bệnh, cho biết chẩn đoán của từng hình ảnh tổn thương đầu vào.
Tất cả dữ liệu đầu ra được mã hóa trong một tệp CSV, với mỗi phản hồi
phân loại liên tiếp. Các cột tệp là:
- MEL: Chẩn đoán U ác tính
- NV: Chẩn đoán Nốt ruồi
- BCC: Chẩn đoán Ung thư tế bào đáy
- AKIEC: Chẩn đoán Dày sừng quang hóa
- BKL: Chẩn đoán Chứng khô sừng quang hóa
- DF: Chẩn đoán U da lành tính
- VASC: Chẩn đoán Tổn thương mạch máu
2.1.3.3. Chứng minh tính chính xác
Như chi tiết trong mô tả Bộ dữ liệu HAM10000, sự thật về chẩn đoán
được thiết lập bằng một trong các phương pháp: Mô bệnh học; kính hiển vi
đồng tiêu phản xạ; thương tổn không thay đổi trong quá trình theo dõi da kỹ
thuật số trong hơn hai năm với ít nhất ba hình ảnh; đồng thuận của ít nhất ba

chuyên gia da liễu từ một hình ảnh duy nhất.
Trong tất cả các trường hợp ác tính, chẩn đoán bệnh đã được xác nhận
mô bệnh học.
2.1.4. Đánh giá chẩn đoán bệnh
2.1.4.1. Mục tiêu số liệu
Ứng dụng lâm sàng trong phân loại tổn thương da cuối cùng có hai
mục tiêu: Đưa ra thông tin cụ thể và các lựa chọn điều trị cho một tổn


12
thương, và phát hiện ung thư da với độ nhạy và độ đặc hiệu hợp lý. Trong
các thách thức trước đây của ISIC, tập trung vào nhiệm vụ thứ hai, xếp hạng
cho số liệu chính xác hơn về độ chính xác đa giác, vì nó cũng gần với đánh
giá thực sự của bác sĩ da liễu.
2.1.4.2. Số liệu khác
Về mặt khoa học, các chẩn đoán đầu ra cũng sẽ được tính toán các số
liệu sau cho mỗi hình ảnh: Độ nhạy; Độ đặc hiệu; Chính xác; Khu vực dưới
đường cong (AUC); Trung bình chính xác; Điểm F1; AUC tích hợp từ độ nhạy
80% đến 100%; Giá trị tiên đoán tích cực (PPV); Giá trị tiên đoán âm (NPV).
2.1.5. Chạy thử chương trình chẩn đoán bệnh
2.1.5.1. Xác thực
- Tải về dữ liệu đầu vào và xác nhận dữ liệu.
- Chạy thuật toán xác thực dữ liệu đầu vào để tạo phản hồi dự đoán
xác thực.
- Gửi các phản hồi dự đoán xác thực, cung cấp phản hồi dự đoán có
định dạng dữ liệu chính xác và có hiệu suất hợp lý.
2.1.5.2. Kiểm tra
- Tải về dữ liệu đầu vào thử nghiệm.
- Chạy thuật toán trên dữ liệu đầu vào thử nghiệm để tạo ra các phản
ứng dự đoán thử nghiệm.

- Gửi các phản ứng dự đoán thử nghiệm.
- Gửi một bản thảo mô tả cách tiếp cận thuật toán.
Mạng neural học sâu sử dụng trong nhận dạng
2.2.1. Giới thiệu về mô hình CNN
Mạng neural tích chập (Convolutional Neural Network - CNN) ra đời
với một kiến trúc khác so mới mạng truyền thẳng. Thay vì toàn bộ ảnh nối
với một node thì chỉ có một phần cục bộ trong ảnh nối đến một node trong
lớp tiếp theo. Dữ liệu hình ảnh thông qua các lớp của mô hình này sẽ được
“học” ra các đặc trưng để tiến hành phân lớp một cách hiệu quả. Về cơ bản
mô hình mạng neural tích chập bao gồm các lớp sau: lớp Convolutional, lớp
RELU, lớp Pooling, lớp Fully connected.


13
2.2.2. Cấu trúc mô hình CNN
- Lớp Convolutional: Lớp này chính là nơi thể hiện tư tưởng ban đầu
của mạng neural tích chập. Thay vì kết nối toàn bộ điểm ảnh, lớp này sẽ sử
dụng một bộ các bộ lọc (filters) có kích thước nhỏ so với ảnh áp vào một
vùng trong ảnh và tiến hành tính tích chập giữa bộ filter và giá trị điểm ảnh
trong vùng cục bộ đó. Bộ filter sẽ lần lượt được dịch chuyển theo một giá
trị bước trượt (stride) chạy dọc theo ảnh và quét toàn bộ ảnh.
- Lớp RELU - rectified linear unit: Lớp này có nhiệm vụ chuyển toàn
bộ giá trị âm trong kết quả lấy từ lớp Convolutional thành giá trị 0. Ý nghĩa
của cách cài đặt này chính là tạo nên tính phi tuyến cho mô hình. Tương tự
như trong mạng truyền thẳng, việc xây dựng dựa trên các phép biến đổi
tuyến tính sẽ khiến việc xây dựng đa tầng đa lớp trở nên vô nghĩa.
- Lớp Pooling: Lớp này sử dụng một cửa sổ trượt quét qua toàn bộ
ảnh dữ liệu, mỗi lần trượt theo một bước trượt (stride) cho trước. Khác với
lớp Convolutional, lớp Pooling không tính tích chập mà tiến hành lấy mẫu
(subsampling). Khi cửa sổ trượt trên ảnh, chỉ có một giá trị được xem là giá

trị đại diện cho thông tin ảnh tại vùng đó được giữ lại. Các phương thức lấy
phổ biến trong lớp Pooling là MaxPooling (lấy giá trị lớn nhất), MinPooling
(lấy giá trị nhỏ nhất) và AveragePooling (lấy giá trị trung bình).
- Lớp FC - fully connected: Lớp này tương tự với lớp trong mạng
neural truyền thẳng, các giá trị ảnh được liên kết đầy đủ vào node trong lớp
tiếp theo. Sau khi ảnh được xử lý và rút trích đặc trưng từ các lớp trước đó,
dữ liệu ảnh sẽ không còn quá lớn so với mô hình truyền thẳng nên ta có thể
sử dụng mô hình truyền thẳng để tiến hành nhận dạng.
2.2.3. Hoạt động của mô hình CNN
Một mạng neural tích chập được hình thành bằng cách ghép các lớp
nêu trên lại với nhau. Mô hình bắt đầu với lớp Convolutional. Lớp RELU
thường luôn được cài đặc ngay sau lớp Convolutional hoặc thậm chí kết hợp
cả hai lớp này thành một lớp. Các lớp tiếp theo có thể là Convolutional hay
Pooling tùy theo kiến trúc mà ta muốn xây dựng. Cuối cùng sẽ là lớp fullyconnected để tiến hành phân lớp.


14
2.2.4. Một số kiến trúc học sâu đã huấn luyện có thể sử dụng
2.2.4.1. Mô hình Mạng AlexNet
Mạng AlexNet[14] là một kiến trúc mạng neural học sâu đặc biệt của
mạng tích chập (CNN), được phát triển bởi nhóm nghiên cứu của Alex.
AlexNet lần đầu được giới thiệu vào năm 2012 với kiến trúc mạng tương tự
với LeNet nhưng sử dụng một số lượng các lớp (layer), số bộ lọc và số
neural lớn hơn rất nhiều. Mô hình pretrain AlexNet được sử dụng rất thành
công và phổ biến trong lĩnh vực nhận dạng đối tượng trong ảnh. Thành công
của AlexNet đã nâng tầm kỹ thuật học sâu CNN và thu hút được sự quan
tâm lớn của nhiều nhà khoa học và chứng minh khả năng ứng dụng cao
trong giải quyết bài toán nhận dạng mẫu ứng dụng thực tế nhờ có độ chính
xác cao và tốc độ xử lý nhanh.
2.2.4.2. Mô hình Mạng ZFNet

Sau những thành công vang dội của AlexNet, nhóm nghiên cứu của
Zeiler và Fergus[15] đã tiếp tục nghiên cứu và đề xuất mô hình kiến trúc
mạng CNN mới với tên gọi là ZFNet. Về cơ bản nhóm tác giả ZFNet đã
phát triển dựa trên nền tảng mạng AlexNet, đặc biệt là tinh chỉnh các siêu
tham số về kích thước nhân tích chập, bước trượt (stride)...
2.2.4.3. Mô hình mạng GoogLeNet
Nhóm nghiên cứu của Szegedy tại công ty Google đã thực hiện một
số thay đổi nhằm giảm thiểu số lượng tham số trong AlexNet từ 60 triệu
xuống còn 4 triệu. Trong đó, GoogLeNet[16] sử dụng lớp Pooling trung
bình (average pooling) trước lớp kết nối đầy đủ FC-Layer có thể giúp tăng
độ chính xác top-1 lên khoảng 0,6%[16]. Mô hình này được huấn luyện với
hơn một triệu ảnh và có khả năng phân loại được 1.000 lớp đối tượng khác
nhau. Kết quả, mô hình huấn luyện pretrain thể hiện được đặc trưng cấp cao
với nguồn dữ liệu ảnh chứa một lượng rất lớn các lớp đối tượng.
2.2.4.4. Mô hình mạng VGG19
VGG19 là một mạng nơ ron tích chập được huấn luyện trên hơn
một triệu hình ảnh từ cơ sở dữ liệu ImageNet. Mạng sâu 19 lớp và có thể
phân loại hình ảnh thành 1000 loại đối tượng, chẳng hạn như bàn phím,


15
chuột, bút chì và nhiều động vật. Kết quả là, mạng đã học được các biểu
diễn tính năng phong phú cho một loạt các hình ảnh. Mạng có kích thước
đầu vào hình ảnh là 224 x-224.
Thiết kế hệ thống học sâu chẩn đoán bệnh
2.3.1. Kiến trúc tổng quát
Trong nghiên cứu này, chúng tôi đề xuất hệ thống phân loại khối u
ác tính bao gồm ba thành phần chính: module tăng cường dữ liệu, module
trích xuất các đặc trưng và giai đoạn phân loại nhận dạng nhóm dữ liệu. Mô
hình tổng thể được trình bày như trong hình 2.9 sau:

Dữliệuhuấnluyện
Dữ liệu

Đặc tính

tăng thêm

trích xuất

Huấn luyện mô
hình phân loại
Mô hình
phân loại

Đối tượng mới
Dữ liệu

Đặc tính

tăng thêm

trích xuất

Dự đoán
ung thư da

- Nốt ruồi
- U da lành tính
- U ác tính
- Dày sừng

quang hóa
- Khô sừng
quang hóa
- Ung thư tế
bào đáy
- Tổn thương
mạch máu

Hình 2.2 Sơ đồ tổng quát giải pháp phân loại bệnh qua hình ảnh
Như đã biết, cách tiếp cận mạng học sâu cần một lượng dữ liệu lớn
để huấn luyện được mô hình nhận dạng hiệu quả. Tuy nhiên, trong bài toán
này dữ liệu huấn luyện ít và mất cân bằng giữa các loại hình ảnh tổn thương
da nói chung và hình ảnh huấn luyện nói riêng. Do vậy, để nâng cao chất
lượng nhận dạng hiệu quả luận văn đề xuất giải pháp ăng cường hình ảnh
trên dữ liệu huấn luyện gốc. Nhiệm vụ này rất quan trọng để tạo ra các mô
hình nhận dạng đủ mạnh khi dữ liệu huấn luyện nhỏ.
2.3.2. Kiến trúc học sâu dựa vào mạng Deepmind inception
Inception V4 là một kiến trúc nổi tiếng được phát triển dựa trên nền
tảng GoogLeNet, đây là bản nâng cấp của Inception V3[18]. Đầu vào của
mạng này là mẫu dữ liệu hình ảnh có kích thước 299x299 pixel, đầu ra phụ


16
thuộc vào bài toán có bao nhiêu lớp mục tiêu cần được dự đoán. Trong mô
hình đã được huấn luyện trước pretrained sử dụng với đầu ra gồm 1000 lớp.
Trong nghiên cứu này, sử dụng phiên bản mới nhất của GoogLeNet
(Inception V4) với số mẫu đầu ra được huấn luyện lại theo bài toán trong
luận văn; kiến trúc mạng đã được xóa lớp được kết nối đầy đủ và sử dụng
lớp chia sẻ trung bình (Average Pooling) như là lớp đầu ra cuối. Đầu ra của
lớp Average Pooling là vector đặc trưng một chiều với 1.536 phần tử là số

thực. Bên cạnh vector đặc trưng một chiều ở lớp Average Pooling, ba đặc
trưng logit được thêm vào cuối cùng từ mạng CNN. Do đó vector đặc trưng
tổng thể đầu ra là một vector gồm 1.539 phần tử biểu diễn mỗi hình ảnh
mẫu.
2.3.3. Tăng cường dữ liệu cho mạng học sâu
Trong thực hiện nghiên cứu phân loại khối u ác tính, áp dụng ba loại
tăng cường dữ liệu như sau:
- Geometric augmentation (tăng cường hình học): Các mẫu ảnh được
sinh ra từ ảnh gốc được thực hiện bằng cách kết hợp một cách ngẫu nhiên
các phép toán cắt xén và phép toán đối xứng theo chiều ngang, dọc tương
tự như tình huống xoay máy ảnh khi chụp.
- Color augmentation (tăng màu): Đây là phương pháp tăng cường
ảnh bằng các phép toán xử lý trên màu sắc của ảnh gốc. Thông thường các
hình ảnh về tổn thương da được thu thập từ các nguồn khác nhau và được
tạo ra bởi các loại thiết bị khác nhau. Do đó, cần chuẩn hóa màu sắc của
hình ảnh nhằm tạo ra sự đa dạng của dữ liệu hình ảnh bao trùm được dữ liệu
với giả định nó được thu thập từ các nguồn, thiết bị khác nhau.
- Data warping based on specialist's knowledge (dữ liệu cong vênh
dựa trên kiến thức của chuyên gia): Trong thực tế chẩn đoán các bệnh về da
của chuyên gia được thực hiện dựa trên các quan sát, sử dụng những thông
tin, mẫu tác động qua lại trong hình ảnh xung quanh vùng tổn thương. Các
kỹ thuật xử lý làm cong vênh vân hình ảnh phù hợp cho mục đích tăng
cường dữ liệu nhằm cải thiện hiệu suất và giảm thiểu sự khan hiếm dữ liệu
trong hình ảnh các bệnh về da.


17
CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ
Cơ sở dữ liệu thực nghiệm
Luận văn thực hiện đánh giá trên hai bộ dữ liệu thực nghiệm khác

nhau của hai tổ chức ISIC[19] và HAM10000[13]. Cả hai tập dữ liệu đều
chứa hình ảnh của các trường hợp khối u, được chia thành hai lớp là khối u
ác tính và khối u lành tính. Bộ dữ liệu thực nghiệm ISIC 2016 chứa 900
hình ảnh có nhãn, bao gồm 172 hình ảnh Khối u ác tính - 728 hình ảnh khối
u lành tính. Bộ dữ liệu thứ hai ISIC 2018 bao gồm tổng cộng 10015 hình
ảnh, bao gồm 1113 hình ảnh khối u ác tính và 8892 hình ảnh khối u lành
tính. Hình ảnh có độ phân giải cao, có thể xấp xỉ tới 1800x1200 pixel.
Xây dựng kiến trúc học máy và môi trường cài đặt
3.2.1. Xây dựng kiến trúc mạng và tham số thực nghiệm
Để xây dựng máy nhận dạng, có nhiều cách tiếp cận khác nhau để
xây dựng mạng học sâu trong nhận dạng bệnh. Trong nghiên cứu này, đã
xây dựng kiến trúc mạng neural học sâu DNN có kiến trúc 75 lớp, đó là có
một số kiểu mạng như sau: lớp đầu vào, lớp tích chập (convolution layer),
lớp chỉnh sửa đơn vị tuyến tính (rectified linear unit layer-ReLu), chuẩn hóa
chéo (cross normalization), lớp max-pooling và lớp kết nối đầy đủ (fully
connectional layer). Mạng biến đổi hình ảnh đầu vào thành một bộ mô tả
đặc trưng phân cấp nối tiếp. Dữ liệu đầu vào là tập hợp neural là các giá trị
cường độ sáng điểm ảnh của mẫu ảnh đưa vào mạng học sâu. Kích thước
mẫu dữ liệu đầu vào bao gồm hình ảnh 200x265x3. Trong mô hình này, các
bộ lọc ở lớp đầu tiên tương ứng với ba kênh màu R-G-B. Các bộ lọc hoạt
động độc lập kết nối với nhau giữa các lớp ẩn, liên quan đến ba kênh của
ảnh đầu vào. Lớp cuối cùng xử lý trên vectơ đặc trưng được trích xuất ra để
đưa vào lớp phân loại nhận dạng. Một lớp convolutional thực hiện một sự
kết hợp các ánh xạ ảnh đầu vào với một kích thước bộ lọc nx×ny. Trong phần
nhận dạng bệnh chính thức, đánh giá bằng cách sử dụng các phương pháp
tiếp cận khác nhau như sử dụng kiến trúc học sâu DNN trên kiến trúc mạng
đồ thị có hướng (DAGNetworks).


18

3.2.2. Môi trường và công cụ lập trình
* Môi trường được sử dụng để huấn luyện mô hình nhận dạng chẩn
đoán bệnh là máy vi tính có cấu hình:
- Vi xử lý (CPU): Intel Core i3-7100 3.90GHz
- RAM: 16Gb
- Card đồ họa GPU: NVIDIA GeForce GTX 1060 6GB
- Ổ cứng: SSD Colorful 160GB+ HDD Toshiba 1TB
- Hệ điều hành Windows 10 64bit
* Kết quả thực nghiệm trên các cấu hình máy tính khác nhau cho
thấy, các hệ thống nhận dạng dựa trên kiến trúc mạng học sâu thường yêu
cầu nhiều thời gian hơn cho quá trình huấn luyện so với các cách tiếp cận
truyền thống và đòi hỏi phần cứng phải có card đồ họa GPU.
Quy trình đánh giá, phân loại dữ liệu
Quy trình đánh giá phân loại dữ liệu bao gồm 4 bước chính:
• Tiền xử lý dữ liệu
• Trích xuất đặc trưng
• Phân loại khối u ác tính
• Phân tích kết quả
Phân tích kết quả
Để đánh giá hiệu quả của một mô hình phân loại, chúng ta có nhiều
thông số đánh giá, tùy thuộc vào từng bài toán và mục đích sử dụng mà có
những tiêu chí đánh giá khác nhau.
+ Tiêu chí AUC (Area Under the Curve): Giá trị diện tích dưới biểu
đồ ROC là tiêu chí liên quan đến xác suất mà một bộ nhận dạng lựa chọn
ngẫu nhiên mẫu positive cao hơn lựa chọn ngẫu nhiên Negative.
+ Tiêu chí AP (Average Precision): Độ chính xác trung bình.
+ Tiêu chí SEN (Sensitivity): Đây là tiêu chí đề cập đến khả năng
kiểm tra để phát hiện chính xác mẫu đánh giá bị bệnh.
+ Tiêu chí SPC (Specificity): Tiêu chí SPC liên quan đến khả năng
kiểm tra tính chính xác các mẫu không bị bệnh thực sự mà không cần thêm

điều kiện nào cả.


19
+ Tiêu chí PPV (Positive predictive value) được dùng để chỉ xác suất
trường hợp một mẫu đánh giá mẫu positive xác định người đó người đó thực
sự là positive.
Kết quả thực nghiệm
3.5.1. Kết quả đánh giá khối u ác tính trên bộ dữ liệu ISIC2017
Trong luận văn này, tiến hành thực hiện tăng cường dữ liệu bằng cách
sử dụng thư viện của TensorFlow, sau đó thực hiện việc trích chọn đặc trưng
của bộ dữ liệu huấn luyện và bộ dữ liệu thử nghiệm như mô tả ở trên trong
mục cơ sở dữ liệu ISIC2017. Kết quả trích chọn đặc trưng được lưu lại để
thực hiện việc phân loại mô hình huấn luyện. Sau khi huấn luyện xong, sẽ
thực hiện việc đánh giá hiệu quả của giải thuật bằng bộ dữ liệu thử nghiệm
đặc trưng. Trong nghiên cứu này, việc phân loại được tiến hành theo cả 3
phương pháp là NN, SVM, RF để so sánh các hiệu quả của các giải thuật
với nhau với các tiêu chí đánh giá AUC, AP, SEN, SPC, ACC.
Bảng 3.2 Kết quả thực hiện nhận dạng với bộ dữ liệu huấn luyện 2000 mẫu ảnh
Classifier

AUC

AP

SEN

SPC

ACC


PPV

TOP 1

0.868

0.710

0.735

0.851

0.828

-

TOP 2

0.856

0.654

0.103

0.998

0.823

-


TOP 3

0.874

0.715

0.547

0.950

0.872

-

NN-DAUG

0.876

0.737

0.564

0.965

0.872

0.795

SVM-DAUG


0.768

0.722

0.573

0.963

0.887

0.788

RF-DAUG

0.741

0.722

0.504

0.977

0.887

0.843

3.5.2. Kết quả đánh giá các loại bệnh sắc tố da trên dữ liệu ISIC2018
Trong luận văn này, thực hiện tăng cường dữ liệu lên 2 lần và sử dụng
50% mẫu của mỗi loại cho huấn luyện và 50% cho đánh giá kiểm tra. Số

lượng các mẫu ảnh được sử dụng trong huấn luyện mô hình nhận dạng phân
loại 7 loại bệnh liên quan đến sắc tố. Kết quả đánh giá được thể hiện trong
các bảng sau. Trong đó, số lượng mẫu trên đường chéo chính của ma trận
trong bảng 3.4 là số mẫu nhận dạng đúng. Trong số mẫu ở các phần tử ở cột
i và hàng là mẫu bệnh thứ i bị chẩn đoán nhầm qua bệnh thứ j. Ví dụ 69 mẫu


20
ở cột MEL và hàng NV là hình ảnh về bệnh MEL bị chẩn đoán nhầm qua
bệnh NV.
Bảng 3.4 Ma trận chéo kết quả chẩn đoán bệnh
MEL
NV
BCC AKIEC BKL DF VASC
MEL
1029
754
23
24
104
0
0
NV
69
5704
29
8
118
5
0

BCC
2
54
435
4
10
2
0
AKIEC
0
26
18
283
9
0
0
BKL
13
162
9
8
857
1
0
DF
0
1
0
0
0

107
0
VASC
0
4
0
0
1
0
142
Trong bài toán đoán nhận nhãn của đa lớp (7 loại bệnh), để đánh giá
các tiêu chí SEN, SPC, PPV cần xác định các chỉ số như Positive, Negative,
True Positive, True Negative như sau: Positive là số mẫu ảnh của loại bệnh
tương ứng đang xét; Negative là tổng số mẫu không thuộc loại bệnh đang
xét, nghĩa là tổng số mẫu trong cơ sở dữ liệu trừ số Positive; True Positive
là số lượng mẫu nhận dạng đúng bệnh tương ứng với mỗi bệnh đang xét;
True Negative là số lượng mẫu không thuộc bệnh đang xét có kết quả chẩn
đoán không thuộc bệnh đang xét. Theo cách tính này, các chỉ số SEN, SPC
và PPV về chẩn đoán đạt được theo từng loại bệnh như bảng 3.6.
Bảng 3.6 Kết quả đánh giá theo các tiêu chí chẩn đoán
True
False
True
Positve Negative
SEN SPC PPV
Positive Positive Negative
MEL
1113
8902
1029

905
7997 92.45 89.83 53.21
NV

6705

3310

5704

229

3081

85.07 93.08 96.14

BCC

514

9501

435

72

9429

84.63 99.24 85.80


AKIEC

327

9688

283

53

9635

86.54 99.45 84.23

BKL

1099

8916

857

193

8723

77.98 97.84 81.62

DF


115

9900

107

1

9899

93.04 99.99 99.07

VASC

142

9873

142

5

9868

100

99.95 96.60


21

Một số kết quả đánh giá so sánh các giải pháp
Phần này, sử dụng kỹ thuật trích xuất đặc trưng HOG và kỹ thuật
học máy SVM. Các kỹ thuật này được dùng trực tiếp, không tiền xử lý dữ
liệu. Kết quả đánh giá trên tập dữ liệu ISIC2018, dữ liệu chia thành hai tập
dữ liệu train (70%) và test (30%) như ở bảng 3.8.
NV
NV
1767
VASC
1
MEL
122
BCC
16
AKIEC
7
BKL
98
DF
0
2011

Bảng 3.8 Kết quả nhận dạng bệnh
VASC MEL BCC AKIEC BKL
20
233
50
34
225
23

0
0
0
0
0
59
20
11
41
0
1
65
2
7
0
2
3
31
3
0
38
16
20
53
0
0
0
0
0
43

333
154
98
329

DF
9
0
2
1
0
7
15
34

Một số kết quả so sánh, đánh giá sử dụng kết hợp nhiều
phương pháp
Phần này, luận văn đưa ra kết quả nhận dạng bệnh đối với công trình
đã được nghiên cứu và công bố kết quả để so sánh với kết quả nghiên cứu
của luận văn. Ở công trình nghiên cứu này (nghiên cứu của nhóm:
T.C.Pham, G.S. Tran, N.T.Phuong, D.Antoine, L.C.Mai, V.D.Hoang, “A
comparative study for classification of skin cancer”, IEEE International
Conference on System Science and Engineering, pp. 1-6, 2019) [34], các
kỹ thuật xử lý được sử dụng gồm tiền xử lý: bản gốc, GB, LN, GB + LN;
trích xuất đặc trưng: HSV, LBP, HOG, SIFT, HSV + LBP + HOG, HSV
+ LBP + HOG LN , HSV + LBP + HOG PCA; phân loại: SVM, LR, RF,
AdaBoost, BB, BRF.
3.7.1. Các phương pháp trích xuất đặc trưng
HSV (Hue-Saturation-Value)[23] đại diện cho các đặc trưng màu của
hình ảnh đầu vào. Luận văn nghiên cứu chuyển đổi hình ảnh đầu vào (ở

định dạng RGB) sang không gian màu HSV và tính toán biểu đồ cho từng


22
kênh (H, S, V) riêng biệt. Sau đó kết hợp các biểu đồ này để đạt được một
vectơ 512 đặc trưng.
LBP (Local Binary Pattern)[24] là một mô tả trực quan, đại diện cho
kết cấu của hình ảnh đầu vào. Hình ảnh đầu vào được chia thành 8x8 ô, mỗi
pixel trong ô này được so sánh với các ô bên cạnh nó, cung cấp một số cho
mỗi pixel. Sau đó tính toán biểu đồ của từng ô, kết hợp tất cả lại với nhau
và thực hiện chuẩn hóa. Kết quả là một vectơ 242 đặc trưng, đại diện cho
kết cấu của hình ảnh đầu vào.
HOG (Histogram of Oriented Gradients)[25] là một mô tả hình ảnh
khác của hình ảnh đầu vào bằng cách định hướng các vùng được tiêu chuẩn
hóa. Đầu ra của trích xuất đặc trưng này là một vectơ bao gồm 18432 đặc
trưng.
SIFT (Scale-Invariant Feature Transform)[26] trích xuất các điểm
chính của hình ảnh đầu vào, chuyển đổi hình ảnh, tỷ lệ và xoay. Các điểm
chính được trích xuất sau đó được sử dụng để tính toán sự tương đồng của
hình ảnh.
3.7.2. Các phương pháp học máy
SVM (Máy véc tơ hỗ trợ).
LR (Hồi quy logistic).
RF (Rừng ngẫu nhiên).
AdaBoost (Tăng cường thích ứng).
BB (Cân bằng đóng gói).
BRF (Rừng ngẫu nhiên cân bằng).
3.7.3. Phân tích kết quả theo kỹ thuật tiền xử lý
Trong phần này, đánh giá hiệu quả của các phương pháp tiền xử lý
cho từng tập dữ liệu đã cho. Đặc biệt, đánh giá kết quả tốt nhất có thể đạt

được bằng cách sử dụng hình ảnh gốc, bộ lọc gaussian Blur (GB), chuẩn
hóa tuyến tính (LN) và kết hợp GB và LN.
Có thể thấy rằng những hình ảnh ban đầu trên HAM10000 cho kết
quả dự đoán tốt hơn so với phần còn lại. Gaussian Blur và chuẩn hóa tuyến


23
tính bình thường đã cải thiện kết quả dự đoán cho bộ dữ liệu ISIC 2016,
nhưng không phải trên bộ dữ liệu thực nghiệm HAM10000.
Các phân tích kết quả chỉ xem xét trên bộ dữ liệu thực nghiệm
HAM10000 vì hầu hết các kết quả AUC trên bộ dữ liệu thực nghiệm ISIC
2016 đều kém hơn đáng kể so với bộ dữ liệu thực nghiệm HAM10000.
3.7.4. Phân tích kết quả theo đặc trưng
Trong phần này, phân tích các giá trị của các đặc trưng khác nhau
liên quan đến kết quả dự đoán cuối cùng. Các đặc trưng đang được thử
nghiệm bao gồm HSV, LBP, HOG, SIFT và kết hợp HSV + LBP + HOG,
HSV + LBP + HOG được chuẩn hóa tuyến tính (HLH LN), HSV + LBP +
HOG với phân tích thành phần chính (PCH HLH).
3.7.5. Phân tích kết quả theo kỹ thuật học máy
Phân tích hiệu quả của các phương pháp phân tích khác nhau để cung
cấp kết quả dự đoán. Các phân loại đang được sử dụng bao gồm Máy vectơ
hỗ trợ (SVM), Hồi quy logistic (LR), Rừng ngẫu nhiên (RF), AdaBoost
(Tăng cường thích ứng), Đóng gói cân bằng (BB) và Rừng ngẫu nhiên cân
bằng (BRF).
Nhìn chung, BRF đạt được điểm dự đoán AUC tốt nhất khi so sánh
với các phương pháp trích xuất đặc trưng khác. Đáng chú ý, khi được sử
dụng với HSV, nó mang lại điểm số cao nhất (81,46% AUC) trong tất cả
các kết hợp. Trong số tất cả các đánh giá của nghiên cứu này, cấu hình cung
cấp kết quả dự đoán Khối u ác tính tốt nhất theo AUC như sau:
• Chuẩn hóa tuyến tính của hình ảnh đầu vào dưới dạng bước chuẩn

bị dữ liệu.
• HSV là phương pháp trích xuất đặc trưng
• Rừng ngẫu nhiên (BRF) đóng gói làm phân loại.
Kết quả dự đoán của cấu hình như vậy là 81,46% AUC, độ chính xác
74,75%, độ nhạy 90,09% và độ đặc hiệu 72,84%.


×