Tải bản đầy đủ (.pdf) (9 trang)

Xử lý mất cân bằng dữ liệu trong phân loại tổn thương da trên ảnh soi da

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (838.24 KB, 9 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00238

XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI
TỔN THƯƠNG DA TRÊN ẢNH SOI DA
Võ Minh Thiện1, Lê Minh Hưng1, Trần Kim Tâm2, Trần Văn Lăng3
1
Trƣờng ĐH Công nghệ Thông tin - ĐHQG TP. HCM
2
Trƣờng Đại học Giao thông Vận tải TP. HCM
3
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
, , ,
TÓM TẮT: Ung thư hắc tố là một bệnh lý ác tính về da, có khả năng di căn đến các cơ quan khác và tiên lượng rất nặng
nếu chẩn đoán muộn. Ở giai đoạn sớm, các tổn thương ác tính này rất dễ nhầm lẫn với nốt ruồi lành tính nếu chỉ thăm khám bằng
mắt thường. Để khắc phục thực trạng này, máy soi da - một thiết bị quang học đã được sử dụng tại các bệnh viện da liễu để hỗ trợ
các bác sĩ trong thăm khám các lớp nơng của da với độ phóng đại lớn, đồng thời kết hợp với một hệ thống chụp và lưu trữ hình ảnh.
Cuộc thi International Skin Image Collaboration 2018 (ISIC2018) được tổ chức với nhiệm vụ phân loại ảnh tổn thương da để phát
hiện sớm các bệnh lý, nhất là ung thư ác tính. Dữ liệu bao gồm 10,015 ảnh soi da của 7 loại bệnh tổn thương. Vấn đề chính đặt ra
của bài tốn này là việc mất cân bằng dữ liệu nghiêm trọng khi chênh lệch giữa lớp nhiều nhất và lớp ít nhất lên đến 60 lần. Để giải
quyết bài toán đặt ra, trong nghiên cứu này chúng tôi tiến hành thực hiện tinh chỉnh thơng số có sẵn các mạng nơron tích chập sâu
(Deep Convolutional Neural Network - DCNN) hiện đại, có thể kể đến như Inception, DenseNet. Với vấn đề mất cân bằng dữ liệu,
nghiên cứu này đã thực nghiệm và so sánh các phương pháp phổ biến như cân bằng batch, gán trọng số trên lớp. Bên cạnh đó,
nghiên cứu cịn áp dụng một hàm mất mát đã mang lại những kết quả cải tiến đáng kể trong các bài toán phân loại ảnh là Large
Margin Cosine Loss (CosFace) để có thể phân loại đặc trưng các lớp tốt hơn. Đặc biệt, trong nghiên cứu này đề xuất một phương
pháp mới là phương pháp gán trọng số động (Dynamic Classweight) nhằm mong muốn tạo nên một mơ hình có khả năng thích nghi
và khơng phụ thuộc vào tỷ lệ các lớp, hay là sự mất cân bằng dữ liệu. Kết quả của phương pháp đề xuất cho thấy sự cải thiện tốt rõ
rệt với độ chính xác đạt 82,9 % so với khi không can thiệp vào hàm mất mát là 70,7 % trên hệ thống kiểm thử của cuộc thi
ISIC2018.
Từ khóa: Ung thư da, ISIC2018, CosFace, Dynamic Classweight.


I. GIỚI THIỆU
Ung thƣ da là một trong những ung thƣ phổ biến ở Mỹ, với hơn 5 triệu trƣờng hợp mắc phải đƣợc chẩn đoán
hằng năm. Ung thƣ hắc tố là giai đoạn nguy hiểm nhất của ung thƣ da, với xấp xỉ 91.000 ca bệnh mắc mới mỗi năm ở
Mỹ và hơn 9.000 ngƣời chết. Điều trị ung thƣ hắc tố da tiêu tốn hơn 3 triệu đô la Mỹ mỗi năm chỉ tính riêng ở Mỹ. Ung
thƣ da đặt ra vấn đề nhƣ là một mối đe dọa lớn đến với sức khỏe cộng đồng. Ở Úc, hơn 14.000 ca mắc bệnh mới của
ung thƣ hắc tố đƣợc báo cáo hằng năm, gây ra 2.000 cái chết. Ở châu Âu, hơn 100.000 ca mắc ung thƣ hắc tố mới và
22.000 cái chết liên quan đến ung thƣ hắc tố đƣợc báo cáo định kỳ hằng năm. Một điều đáng báo động là không giống
nhiều loại ung thƣ khác, tỷ lệ mắc bệnh của ung thƣ hắc tố đã tăng một cách đều đặn qua những thập kỷ gần trở lại đây,
từ năm 1990 đến năm 2018, đã ghi nhận sự tăng lên đến 225 % ở Mỹ [1].
Trong quá khứ, phƣơng thức chẩn đốn chính của ung thƣ hắc tố là thăm khám lâm sàng khơng có sự hỗ trợ,
điều này làm cho độ chính xác bị giới hạn và biến động, dẫn đến những thách thức quan trọng trong phát hiện sớm
bệnh lẫn hạn chế việc sinh thiết không cần thiết. Trong những năm gần đây, kỹ thuật soi da đƣợc ra đời, đây một kỹ
thuật hình ảnh có độ phân giải cao trên da cho phép sự hiển thị của các cấu trúc da sâu hơn bằng cách giảm phản xạ bề
mặt, với độ phóng đại từ 10 đến 100 lần, điều này góp phần cải tiến khả năng chẩn đoán của các chuyên gia. Đây là
một tiến bộ mới trong chẩn đoán lâm sàng các thƣơng tổn có sắc tố, cho phép gia tăng hiệu năng chẩn đoán so với quan
sát và thăm khám đơn thuần bằng mắt thƣờng [2], hạn chế bỏ sót các tổn thƣơng ung thƣ hắc tố ở giai đoạn sớm.

Hình 1. Hình ảnh lâm sàng và ảnh soi da của một nốt ruồi lành tính

Những năm trở lại đây, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, các hệ thống máy tính hỗ trợ
phát hiện và chẩn đoán (Computer-Aided Detection And Diagnosis System - CAD/CADx) đã và đang hỗ trợ các nhà
bệnh lý học, các bác sĩ trong việc phát hiện các bất thƣờng bệnh lý trong lĩnh vực hình ảnh y khoa nói chung và bài
tốn phân loại các tổn thƣơng da đƣợc nghiên cứu ở đây nói riêng, giúp nâng cao độ chính xác trong việc chẩn đoán và
phát hiện sớm các tổn thƣơng, mà đặc biệt là ung thƣ hắc tố, đồng thời giảm bớt khối lƣợng công việc, thời gian của
các chuyên gia này. Những cách tiếp cận sớm ban đầu phụ thuộc vào việc trích xuất đặc trƣng do chuyên gia đề xuất
(hand-crafted) để có thể đƣa chúng vào các bộ phân lớp truyền thống [3], [4]. Gần đây, những cách tiếp cận dựa trên
học sâu (deep learning) đã cho thấy những thành cơng lớn trong lĩnh vực hình ảnh y khoa [5]. Một sự mở rộng cho
phƣơng pháp trích xuất đặc trƣng cổ điển là sử dụng học sâu để trích xuất đặc trƣng kết hợp với các phƣơng pháp máy



Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng

757

học thơng thƣờng để giải quyết bài tốn phân loại tổn thƣơng da [6], [7]. Nhiều hƣớng tiếp cận hƣớng đến xây dựng
mạng nơron tích chập (CNN) có khả năng học đầu-cuối cho chẩn đoán tổn thƣơng da [8], [9], [10]. Thêm vào đó, nhiều
hƣớng tiếp cận đa mơ hình sử dụng ảnh lâm sàng, ảnh soi da và siêu dữ liệu đã đƣợc đề xuất [11], cũng nhƣ một
phƣơng pháp kết hợp sự phân đoạn ảnh và thông tin cấu trúc tổn thƣơng vào cùng một hệ thống [12]. Bên cạnh đó,
nghiên cứu của Esteva et al. [13] thể hiện một nền tảng của chẩn đoán tổn thƣơng da với hiệu suất nhƣ một bác sĩ da
liễu đạt đƣợc bởi một mạng CNN. Ở nghiên cứu của họ, nhóm tác giả đã huấn luyện kiến trúc mạng Inception-V3 [14]
trên 130,000 bức ảnh lâm sàng và so sánh dự đốn của nó so với đánh giá của 21 bác sĩ gia liễu có tay nghề. Trong khi
đây là một thành tựu đáng chú ý, hiệu suất cao đạt đƣợc phần lớn nhờ vào kích thƣớc dữ liệu khổng lồ với một mơ hình
tiêu chuẩn thay vì mơ hình thiết kế chuyên biệt cho chẩn đoán tổn thƣơng da.
Bộ dữ liệu HAM10000 đƣợc công bố công khai [15]. Bộ dữ liệu gồm 10015 ảnh soi da có thể phục vụ nhƣ là
một tiêu chuẩn cho chẩn đoán tổn thƣơng da. HAM đƣợc sử dụng nhƣ là một tập huấn luyện cho cuộc thi “ISIC2018
Skin Lesion Diagnosis Challenge” với 7 lớp. Trong khi những nghiên cứu trƣớc đây phần lớn tập trung vào phân lớp
nhị phân để xác định tổn thƣơng cần sinh thiết (“biopsy”) hay không cần sinh thiết (“no biopsy”), bộ dữ liệu
HAM10000 rất phù hợp cho một bài toán phân loại tổn thƣơng da nhiều lớp kèm theo nhiều thách thức hơn phải giải
quyết, đặc biệt là vấn đề mất cân bằng dữ liệu, một vấn đề phổ biến trong các bài toán phân loại ảnh y khoa, do đặc thù
các bệnh lý về da trong đời sống vốn dĩ khơng đồng đều, có những bệnh nguy hiểm nhƣng lại thƣờng ít gặp hơn so với
các bệnh lành tính khác. Bài báo này có những đóng góp nhƣ sau:
Xử lý tập dữ liệu HAM10000 cuộc thi ISIC2018 và chọn ra phƣơng pháp tiền xử lý ảnh đầu vào để giữ đƣợc
nhiều đặc trƣng nhất của ảnh soi da.
Xây dựng mơ hình CNN kết hợp các phƣơng pháp xử lý mất cân bằng quen thuộc nhƣ cân bằng batch, trọng
số trên lớp, đồng thời áp dụng hàm mất mát mới là LMCL và phƣơng pháp mới là gán trọng số động.
Thực hiện phƣơng pháp kết hợp (esssemble) giữa các mơ hình để nâng cao hiệu suất.
II. PHƯƠNG PHÁP
A. Tiền xử lý ảnh đầu vào
Nghiên cứu này xác định vấn đề mấu chốt đầu tiên chính là việc sử dụng ảnh có độ phân giải cao. Thơng
thƣờng, ảnh đƣợc giảm kích thƣớc (downsampling) xuống thành kích thƣớc đầu vào có độ phân giải thấp hơn cho phù

hợp với các mô hình CNN, vì bộ nhớ và tài ngun tính tốn của máy tính thì có giới hạn. Q trình downsampling chỉ
ra rằng nhiều thông tin quan trọng trong ảnh bị mất sẽ là một vấn đề quan trọng trong ngữ cảnh y khoa.
Bên cạnh đó, những hƣớng tiếp cận dựa trên patch mà sử dụng những crop nhỏ từ ảnh có độ phân giải cao làm
đầu vào của một mạng CNN đƣợc sử dụng thƣờng xun. Để có đƣợc tồn bộ bức ảnh với những ảnh xén (crop) nhỏ,
theo truyền thống, phƣơng pháp đánh giá multi-crop đƣợc sử dụng khi mà xác suất dự đoán từ tất cả các ảnh xén đƣợc
kết hợp lại, thơng qua lấy trung bình hoặc bình chọn. Cách tiếp cận này có thể là lợi thế vì việc sử dụng những patch
nhỏ thì thấp về mặt tính tốn và quan trọng hơn, các kiến trúc mạng thông thƣờng đƣợc huấn luyện sẵn từ ảnh trong
đời sống thực tế với kích thƣớc đầu vào nhỏ thơng thƣờng là 224 x 224 có thể đƣợc sử dụng. Tuy nhiên, phƣơng pháp
đánh giá multi-crop có thể là thách thức vì các patch cục bộ cần đƣợc kết hợp một cách có ý nghĩa. Những phƣơng
pháp đơn giản nhƣ lấy trung bình hay bỏ phiếu xem tất cả các patch một cách nhƣ nhau sẽ là vấn đề đối với việc phân
lớp tổn thƣơng da vì trên thực tế tổn thƣờng chỉ bao phủ một phần của ảnh [16].

Hình 2. Phƣơng pháp Multi-crop với n=9 cho thấy sự không đồng đều giữa các crop [16]

Do đó, ở vấn đề đầu tiên này, chúng tôi chọn thực hiện kết hợp cả phƣơng pháp single-crop (crop đơn thuần) và
đánh giá multi-crop và gọi nó là đánh giá random multi-crop (đánh giá multi-crop ngẫu nhiên). Với mong muốn tạo ra
một sự đa dạng đặc trƣng từ dữ liệu trong quá trình huấn luyện và đề cao yếu tố ngẫu nhiên của mô hình huấn luyện
đƣợc, đồng thời cũng sử dụng downsampling để so sánh. Cụ thể:
1. Downsampling
Đầu tiên, cơ bản và thƣờng đƣợc sử dụng nhất chính là phƣơng pháp downsampling, thực hiện giảm trực tiếp
kích thƣớc cả bức ảnh xuống kích thƣớc đầu vào của các mơ hình nhƣ Hình 3. Phƣơng pháp này đƣợc sử dụng cho cả
giai đoạn huấn luyện và đánh giá. Bài báo sử dụng phƣơng pháp này nhƣ một hệ quy chiếu cơ bản để so sánh.


758

XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA

2. Single-Crop
Kế tiếp là phƣơng pháp Single-Crop, thực hiện crop ảnh một cách ngẫu nhiên và thay đổi kích thƣớc thành kích

thƣớc đầu vào của mơ hình trong suốt q trình huấn luyện nhƣ Hình 3. Do đó, có thể đạt đƣợc thêm sự đa dạng của dữ
liệu trong suốt quá trình huấn luyện. Ở giai đoạn đánh giá, một crop trung tâm chiếm 85 % của ảnh đƣợc lấy và thay
đổi kích thƣớc thành kích thƣớc đầu vào của mơ hình. Phƣơng pháp này tƣơng tự nhƣ chiến thuật đƣợc sử dụng cho
mô hình DenseNet121 và Inception-V3 ở bài báo gốc [14], [17].

Hình 3. Các phƣơng pháp tiền xử lý ảnh đầu vào

3. Multi-Crop
Phƣơng pháp Multi-Crop khơng thay đổi kích thƣớc của ảnh và crop một cách ngẫu nhiên các patch về kích
thƣớc đầu vào của mơ hình. Trong suốt q trình đánh giá, việc crop có thứ tự nơi mà vị trí của mỗi patch đƣợc cố định
tại một điểm đƣợc định nghĩa trƣớc trong ảnh. Sau đó, tiến hành lấy trung bình trên xác suất dự đốn của tất cả các ảnh
xén. Số lƣợng của ảnh xén là Nc thuộc {5, 9, 16} trong đó 5 bao phủ bốn góc và trung tâm, 9 và 16 thì đƣợc phân bố
đều ảnh với những phần trùng lặp giữa các patches, ví dụ với N c = 16 ở Hình 3. Phƣơng pháp này đã đƣợc sử dụng
thành công cho phân lớp tổn thƣơng da [18].
4. Random Multi-crop
Nghiên cứu này đề xuất phƣơng pháp Random Multi-Crop, đƣợc dựa trên ý tƣởng của Single-Crop và MultiCrop, ảnh sẽ đƣợc xén một cách ngẫu nhiên trong suốt quá trình huấn luyện, với tỷ lệ dao động 0,08 đến 1,0 so với
kích thƣớc ảnh gốc và trong quá trình đánh giá, ảnh sẽ đƣợc xén ngẫu nhiên 32 lần, sau đó đƣợc tổng hợp bằng phƣơng
pháp lấy trung bình các giá trị xác suất dự đốn. Phƣơng pháp này cho ra kết quả cải thiện rõ rệt so với phƣơng pháp
Downsampling cơ bản.
Trong nghiên cứu này, phƣơng pháp tăng cƣờng dữ liệu đƣợc thực hiện trong quá trình huấn luyện, chỉ bao gồm
lật ảnh trái phải và trên dƣới không thực hiện xoay ảnh và điều chỉnh màu của ảnh.
B. Xử lý mất cân bằng dữ liệu
1. Oversampling
Nghiên cứu này thực hiện lặp lại những mẫu của từng lớp trong tập huấn luyện mà các lớp có số lƣợng mẫu
bằng nhau. Trong suốt q trình huấn luyện, lấy mẫu một cách đồng đều và ngẫu nhiên từ tập mẫu mới này. Ở cách
này, một số lƣợng mẫu bằng nhau từ mỗi lớp sẽ đƣợc xuất hiện xun suốt tồn bộ q trình huấn luyện. Tuy nhiên,
trong q trình thực nghiệm, chúng tơi nhận kết quả cho thấy phƣơng pháp này không phù hợp do khối lƣợng dữ liệu
đƣợc phình to ra nhƣng lại khơng có sự thay đổi về cấu trúc ảnh, dẫn đến tốn kém trong chi phí tính tốn và thời gian
huấn luyện.


Hình 4. Minh họa cho phƣơng pháp Oversampling


Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng

759

2. Balanced batches
Cách tiếp cận Oversampling không đảm bảo một số lƣợng bằng nhau của các mẫu trong mỗi batch, mà chỉ sấp
xỉ trong tồn bộ q trình huấn luyện. Do đó, nghiên cứu cũng cho thấy một cách nghiêm ngặt cân bằng mẫu tại mỗi
batch đƣợc xây dựng sao cho nó chứa một cách chính xác số lƣợng mẫu của mỗi lớp.

Hình 5. Minh họa cho phƣơng pháp Balanced batches

3. Trọng số lớp - classweight
Đây là phƣơng pháp phổ biến đƣợc dùng đối với các bài tốn có sự mất cân bằng giữa các lớp, với mục đích
“trừng phạt” mạnh hơn đối với các lớp có số lƣợng mẫu ít, nghĩa là khi dự đốn sai các lớp hiếm gặp này sẽ gây ra một
biến động lớn trong hàm mất mát, làm ảnh hƣởng đến quá trình tối ƣu hóa và hội tụ của mơ hình, và ngƣợc lại đối với
các lớp chiếm ƣu thế. Công thức đƣợc biểu diễn nhƣ sau:
(1)
trong đó:
chính là trọng số ở lớp thứ i,
ni là số lƣợng mẫu của lớp thứ i,
N là tổng số mẫu dữ liệu, c là tổng số lớp.
Có thể nói đây là phƣơng pháp đơn giản nhƣng mang lại hiệu quả rõ rệt nhất trong các bài toán mất cân bằng
các lớp trong bộ dữ liệu.
4. Trọng số lớp động - dynamic classweight
Ngoài ra, nghiên cứu này cũng đề xuất thử nghiệm một phƣơng pháp mới chính là trọng số lớp động (dynamic
classweights). Các trọng số thay đổi ngẫu nhiên liên tục này sẽ đƣợc gán vào hàm mất mát trong suốt q trình huấn
luyện, có thể là trên mỗi epoch hoặc trên từng batch, với công thức nhƣ sau:



(

)

( )

( )

(2)

trong đó:
H là giá trị hàm mất mát thu đƣợc sau cùng,
( )có giá trị bằng 1 khi nhãn của ảnh đang xét và bằng 0 khi thuộc các nhãn khác,
( ) là xác suất dự đốn thu đƣợc từ mơ hình,
(
) trọng số đƣợc chọn ngẫu nhiên trong khoảng [1, 1 + s, 1 + 2s,…, α - 2s, α - s, α]. Ở đây giá
trị mặc định là α = 100 và s = 1.
Bằng cách kết hợp phƣơng pháp balanced batches và dynamic class weights, nghiên cứu này mong muốn tạo ra
một mô hình có khả năng tƣơng thích trong điều kiện thay đổi của các trọng số lớp cổ điển, hƣớng tới việc giải quyết
mất cân bằng dữ liệu.
C. Áp dụng hàm mất mát Large Margin Cosine Loss
Nhận diện khuôn mặt đã có những phát triển mạnh nhờ vào sự tiến bộ của mạng CNN. Nhiệm vụ trọng tâm của
nhận diện khuôn mặt đó chính là xác thực và định danh khn mặt, liên quan đến phân biệt các đặc trƣng khuôn mặt
khác nhau. Tuy nhiên, hàm mất mát Softmax truyền thống mạng CNN thƣờng thiếu khả năng phân biệt mạnh. Để giải
quyết vấn đề này, một vài hàm mát mát gần đây nhƣ Center Loss, Large Margin Softmax Loss, Angular Softmax Loss
và Large Margin Cosine Loss [19] đã đƣợc đề xuất. Tất cả những hàm mất mát cải tiến này đều có chung một ý tƣởng
đó là: tối đa sự khác biệt giữa các lớp khác nhau và tối thiểu sự khác nhau trong một lớp. Trong đó, Large Margin
Cosine Loss (LMCL) cho thấy kết quả cải thiện khá rõ rệt và đạt đƣợc state-of-the-art về hiệu suất trên các chuẩn đo về

nhận diện khuôn mặt.


XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA

760

Hình 6. Tổng quan về mơ hình CosFace sử dụng LMCL [19]

Với hàm mất mát Softmax, và vector đặc trƣng xi tƣơng ứng với nhãn yi, hàm mất mát Softmax đƣợc biểu diễn
nhƣ công thức sau:






(3)

trong đó:
pi ký hiệu cho xác suất của xi sau khi đƣợc phân loại một cách chính xác,
N là số lƣợng mẫu huấn luyện, C là số lƣợng lớp,
fj thƣờng đƣợc ký hiệu nhƣ là sự kích hoạt của lớp FC với vector trọng số W j và Bj.
Hàm LMCL đƣợc định nghĩa bởi công thức sau:


(

(


(

(

)

)

)



)
(

)

(4)

Tùy thuộc theo:




‖ ‖
(

)

trong đó:

N là số lƣợng mẫu huấn luyện,
là vector đặc trƣng thứ i tƣơng ứng với nhãn là yi,
Wj là vector trọng số của lớp thứ j,
θj là góc giữa Wj và xi,
s và m là 2 siêu tham số.
Trong bài báo này chúng tôi áp dụng hàm mất mát LMCL thay thế cho hàm Softmax thông thƣờng, với kỳ vọng
sẽ tạo ra đƣợc những đặc trƣng có khả năng phân biệt cao, từ đó nâng cao đƣợc độ chính xác của các mơ hình, đồng
thời kết hợp với các phƣơng pháp xử lý mất cân bằng khác.

Hình 7. Một ví dụ trực quan so sánh đặc trƣng đƣợc tạo ra bởi LMCL với các giá trị m khác nhau [19]


Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng

761

D. Mơ hình mạng
Trong nghiên cứu này, sử dụng 02 mơ hình là Inception-V3 [14] và DenseNet201 [17] đƣợc huấn luyện sẵn trên
tập dữ liệu ImageNet mang lại hiệu quả cao hơn so với việc huấn luyện mạng lại từ đầu [18]. Đồng thời, thực hiện
phƣơng pháp kết hợp (essemble) giữa các hƣớng tiếp cận dựa trên 2 mô hình này bằng cách lấy trung bình các xác suất
dự đốn ở đầu ra và nâng cao độ chính xác của các mơ hình.
III. THỬ NGHIỆM VÀ ĐÁNH GIÁ
A. Tập dữ liệu HAM10000 (ISIC2018)
Bộ dữ liệu chứa 10015 bức ảnh để đƣợc phân loại thành 7 lớp khác nhau, với kích thƣớc là 600 x 450 pixel.
Phân bố của dữ liệu thể hiện một thực tế trong thế giới thực với phần lớn tổng thể là hình ảnh lành tính trong khi những
trƣờng hợp ác tính vẫn cịn ít. Phân bố lớp của tập dữ liệu đƣợc hiển thị ở Bảng 1, cho thấy nổi bật lên vấn đề mất cân
bằng lớp vốn có nhƣ là một vấn đề then chốt cần giải quyết. Ở đây, tổn thƣơng gồm có 7 loại bao gồm: melanoma
(mel), melanocytic nevus (nv), basal cell carcinoma (bcc), actinic keratosis (akiec), benign keratosis (bkl),
dermatofibroma (df) và vascular lesions (vasc).


Hình 8. Ví dụ minh họa về 7 lớp của tập dữ liệu HAM10000, cuộc thi ISIC2018

Ngoài ra, một tập gồm 1512 ảnh không công khai, đƣợc sử dụng là tập kiểm tra và ghi nhận điểm trong suốt quá
trình diễn ra cuộc thi. Tất cả các đánh giá, kiểm tra cuối cùng của nghiên cứu này đều đƣợc thực hiện trên tập kiểm thử
này và đƣợc ghi nhận thông qua hệ thống chấm trực tuyến của cuộc thi.
MEL
ISIC2018

1113

Bảng 1. Phân bố các lớp của bộ dữ liệu HAM10000, cuộc thi ISIC2018
NV
BCC
AKIEC
BKL
DF
6705

514

327

1099

115

VASC
142

Để đảm bảo hạn chế sự ngẫu nhiên khơng đáng có khi chia tập dữ liệu, nghiên cứu này sử dụng 5-fold

crossvalidation chia tập dữ liệu trên thành 5 bộ dữ liệu, mỗi bộ sẽ gồm 8012 ảnh để huấn luyện, 2003 ảnh để đánh giá
và tinh chỉnh siêu tham số, mỗi bộ đều đảm bảo tỷ lệ phân bố của các lớp trong tập huấn luyện và đánh giá là nhƣ nhau
và giống nhƣ tỷ lệ phân bố trên bộ dữ liệu gốc. Chúng tôi tiến hành thực hiện các thực nghiệm trên bộ dữ liệu fold-1,
sau khi tinh chỉnh và chọn đƣợc cấu hình tối ƣu, tiến hành huấn luyện lại các bộ dữ liệu các fold còn lại đồng thời sử
dụng phƣơng pháp esemble models để ghi nhận kết quả cuối cùng.
B. Độ đo
Về những chuẩn đo khi đánh giá, bản chất của vấn đề phân loại tổn thƣơng đa lớp phải đƣợc tính đến. Một độ
chính xác (accuracy) bình thƣờng sẽ ủng hộ và khuyến khích sự phân lớp chính xác của những lớp xuất hiện nhiều, và
sẽ không đánh giá đúng đƣợc hiệu suất đối với các tập dữ liệu mất cân bằng. Do đó, theo đề xuất của Nil Gessert el at
[16], nghiên cứu này sử dụng multiclass sensitivity (MC-Sensitivity) viết tắt là S để đánh giá hiệu quả của những cách
tiếp cận, đƣợc định nghĩa bởi cơng thức:


(5)
trong đó: TP biểu thị True Positives, FN biểu thị False Negatives, C biểu thị số lƣợng lớp.
Độ đo này cũng chính là Macro-Recall, đƣợc tính bằng cách lấy trung bình cộng các Recall của mỗi lớp. Ngồi
ra, độ đo này cịn đƣợc gọi là overall balanced accuracy (BACC) theo cách quy ƣớc của cuộc thi ISIC2018. Để thống
nhất và tiện theo dõi, trong bài báo này sẽ dùng ký hiệu BACC cho các kết quả ghi nhận đƣợc cuối cùng trên hệ thống
cuộc thi.


XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA

762

C. Các thực nghiệm
Trƣớc tiên, để đánh hiệu quả của phƣơng pháp tiền xử lý ảnh đầu vào, nghiên cứu này tiến hành so sánh trên hai
nhóm thực nghiệm lớn là sử dụng downsampling đơn thuần và sử dụng random multi-crop với 32 crops và chỉ dùng
trên tập dữ liệu fold-1. Ở nhóm sử dụng downsampling, chúng tôi thực hiện các thực nghiệm sau:
So sánh việc khơng sử dụng và có sử dụng riêng lẻ các phƣơng pháp xử lý mất cân bằng dữ liệu nhƣ:

classweight, balanced batches và dynamic classweight và cũng nhƣ dùng hàm mất mát LMCL.
So sánh việc sử dụng kết hợp các phƣơng pháp trên.
Sau khi đã tìm ra phƣơng pháp tốt nhất ở trƣờng hợp downsampling, chúng tôi tập trung thực nghiệm các
phƣơng pháp này trên trƣờng hợp random multi-crop vẫn ở tập dữ liệu fold-1. Và cuối cùng, tiến hành thực hiện các
phƣơng pháp tốt nhất trên tất cả 5 fold cũng nhƣ thực hiện essemble các phƣơng pháp lại để cho ra kết quả cuối cùng.
Phƣơng pháp huấn luyện và tối ƣu: trong nghiên cứu này chọn giải thuật tối ƣu Stochastic Gradient Descent
(SGD) trong suốt quá trình thực nghiệm. Các thơng số của q trình huấn luyện nhƣ learning rate, batch size,
momentum đƣợc điều chỉnh sao cho mỗi trƣờng hợp đạt kết quả cao nhất, số epoch rơi vào khoảng 200-300 epoch một
lần chạy thực nghiệm.
D. Kết quả thử nghiệm
Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phƣơng pháp đề xuất, kết quả ở Bảng 2 cho thấy các
phƣơng pháp đề xuất đều mang lại độ chính xác BACC cao hơn so với khơng xử lý, kết quả cũng cho thấy mơ hình
DenseNet201 đều cho kết quả cao hơn mơ hình Inception-V3.
Bảng 2. Kết quả đối với nhóm downsampling sử dụng riêng lẻ phƣơng pháp xử lý mất cân bằng và hàm LMCL
Trường hợp
Không xử lý mất cân bằng
Classweight
Balanced batches
Dynamic weight on epoch
Dynamic weight on batch
LMCL

InceptionV3
60,2
70,4
69,6
69,2
70,5
65,4


DenseNet201
70,7
72,1
74,0
71,4
72,0
70,4

Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phƣơng pháp đề xuất, kết quả ở Bảng 3 cho thấy cách
kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính xác BACC cao
hơn hẳn so với khi sử dụng riêng lẻ từng phƣơng pháp cũng nhƣ không xử lý mất cân bằng. Tuy nhiên, ở mơ hình
Inception-V3 thì sự cải thiện này tƣơng đối không nhiều. Hai cách kết hợp này đƣợc chọn để thực nghiệm các trƣờng
hợp tiếp theo trong nghiên cứu này.
Bảng 3. Kết quả đối với nhóm downsampling sử dụng kết hợp phƣơng pháp xử lý mất cân bằng và hàm LMCL
Trường hợp
InceptionV3
DenseNet201
Classweight + LMCL
75,1
75,4
Balanced batches + Dynamic weight on batch
71,7
76,1
Balanced batches + LMCL
71,8
75,2
LMCL + Dynamic weight on batch
60,1
70,1
Balanced batches + LMCL + Dynamic weight on batch

65,4
68,8

Ở nhóm thực nghiệm random multi-crop với số crops là 32, kết quả ở Bảng 4 cho thấy cách không xử lý mất
cân bằng và cách kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính
xác BACC cao hơn hẳn so với khi sử dụng phƣơng pháp tiền xử lý ảnh là downsampling.
Bảng 4. Kết quả đối với nhóm random multi-crop
Trường hợp
Khơng xử lý mất cân bằng
Classweight + LMCL
Balanced batches + Dynamic weight on batch

InceptionV3
73,2
80,3
79,5

DenseNet201
75,5
80,0
80,7

Cuối cùng, ở nhóm thực nghiệm random multi-crop với số crops là 32 và thực hiện essemble trên cả 5 fold cũng
nhƣ các phƣơng pháp với nhau, kết quả ở Bảng 5 cho thấy mơ hình DenseNet201 đều đạt đƣợc kết quả cao hơn hẳn
Inception-V3, việc kết hợp 2 mơ hình lại với nhau dẫn đến hiệu suất cải thiện không đáng kể.


Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng

763


Bảng 5. Kết quả đối với nhóm random multi-crop và thực hiện essemble trên cả 5 fold và essemble các phƣơng pháp với nhau
Trường hợp
Classweight + LMCL
Balanced batches + Dynamic weight on batch
Essemble 2 phƣơng pháp
Esemble cả 2 mô hình

InceptionV3
79,4
77,5
78,3

DenseNet201
80,0
80,7
82,6
82,9

IV. KẾT LUẬN
Nghiên cứu này đã tiến hành tìm hiểu bộ dữ liệu HAM10000 (ISIC2018) cho bài toán phân loại tổn thƣơng da
và xác định các phƣơng pháp xử lý mất cân bằng dữ liệu cũng nhƣ áp dụng hàm mất mát LMCL để tăng khả năng phân
loại. Đồng thời, áp dụng phƣơng pháp kết hợp giữa trọng số lớp cơ bản và hàm LMCL cũng nhƣ cách kết hợp cân bằng
batch và trọng số lớp động đƣợc đề xuất mới đều cho ra kết quả cải thiện rõ rệt, với độ chính xác BACC cuối cùng đạt
82,9 %. Kết quả này đạt đƣợc hạng thứ 2 đối với các mơ hình chỉ sử dụng dữ liệu cơng khai của cuộc thi và hạng thứ 6
đối với tất cả các mơ hình dự thi cuộc thi ISIC2018 (bao gồm cả sử dụng bộ dữ liệu ngoài). Kỹ thuật đề xuất có thể
đƣợc ứng dụng hiệu quả để khắc phục tính mất cân bằng dữ liệu cho các bài toán xử lý ảnh y khoa khác.
Một số nghiên cứu cho thấy việc ứng dụng mơ hình GAN (Generative adversarial network) vào giải quyết vấn
đề thiếu và mất cân bằng dữ liệu về tổn thƣơng da nói riêng hay dữ liệu ảnh y khoa nói chung. Ngồi ra, việc nghiên
cứu và đánh giá thật kỹ phƣơng pháp multi-crop có thể giúp tận dụng hết mức có thể các thơng tin trong hình ảnh tổn

thƣơng da, từ đó giúp phân loại các lớp tốt hơn.
V. LỜI CẢM ƠN
Bài báo đƣợc hoàn thành dƣới sự hỗ trợ của đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ
Việt Nam.
TÀI LIỆU THAM KHẢO
[1] M. E. Celebi, N. Codella, and A. Halpern. "Dermoscopy image analysis: Overview and future directions". IEEE
journal of biomedical and health informatics, 2019.
[2] M. E. Vestergaard, P. Macaskill, P. E. Holt, and S. W. Menzies, “Dermoscopy compared with naked eye
examination for the diagnosis of primary melanoma: A meta-analysis of studies performed in a clinical setting”,
Brit. J. Dermatol., Vol. 159, No. 3, pp. 669-676, 2008.
[3] M. Maragoudakis and I. Maglogiannis, “Skin lesion diagnosis fromimages using novel ensemble classification
techniques”, in InformationTechnology and Applications in Biomedicine (ITAB), 10 th IEEE International
Conference on. IEEE, 2010, pp. 1-5, 2010.
[4] A. Madooei et al., “Intrinsic melanin and hemoglobin colour componentsfor skin lesion malignancy detection”, in
MICCAI. Springer, pp.315-322, 2012.
[5] G. Litjens et al., “A survey on deep learning in medical image analysis”, Medical Image Analysis, Vol. 42, pp. 6088, 2017.
[6] N. Codella et al., “Deep learning, sparse coding, and svm for melanomarecognition in dermoscopy images”, in
International Workshop on Machine Learning in Medical Imaging. Springer, pp. 118-126, 2015.
[7] J. Kawahara et al., “Deep features to classify skin lesions”, in ISBI, pp. 1397-1400, 2016.
[8] J. Kawahara and G. Hamarneh, “Multi-resolution-tract CNN with hybridpretrained and skin-lesion trained layers”,
in International Workshop onMachine Learning in Medical Imaging. Springer, pp. 164-171, 2016.
[9] A. R. Lopez et al., “Skin lesion classification from dermoscopic imagesusing deep learning techniques”, in
Biomedical Engineering (BioMed),2017 13th IASTED International Conference on. IEEE, pp. 49-54, 2017.
[10] J. Yang et al., “Clinical skin lesion diagnosis using representationsinspired by dermatologist criteria”, in CVPR,
Vol. 11, 2018.
[11] J. Kawahara et al., “7-point checklist and skin lesion classification usingmulti-task multi-modal neural nets”, IEEE
Journal of Biomedical andHealth Informatics, 2018.
[12] I. G. Diaz, “Dermaknet: Incorporating the knowledge of dermatologiststo convolutional neural networks for skin
lesion diagnosis”, IEEEJournal of Biomedical and Health Informatics, 2018.
[13] A. Esteva et al., “Dermatologist-level classification of skin cancer withdeep neural networks”, Nature, Vol. 542,

No. 7639, pp. 115, 2017.
[14] C. Szegedy et al., “Rethinking the inception architecture for computervision”, in CVPR, pp. 2818-2826, 2016.


764

XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA

[15] P. Tschandl et al., “The HAM10000 dataset, a large collection ofmulti-source dermatoscopic images of common
pigmented skin lesions”, Scientific Data, Vol. 5, No. 180161, 2018.
[16] Gessert, Nils & Sentker, Thilo & Madesta, Frederic & Schmitz, Rudiger & Kniep, Helge & Baltruschat, Ivo &
Werner, René & Schlaefer, Alexander. "Skin Lesion Classification Using CNNs With Patch-Based Attention and
Diagnosis-Guided Loss Weighting". IEEE Transactions on Biomedical Engineering. pp. 1-1.
10.1109/TBME.2019.2915839, 2019.
[17] G. Huang et al., “Densely connected convolutional networks”, in CVPR, 2017.
[18] N. Gessert et al., “Skin lesion diagnosis using ensembles, unscaled multicrop evaluation and loss weighting”,
arXiv preprint arXiv:1808.01694, 2018.
[19] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Zhifeng Li,Dihong Gong, Jingchao Zhou, and Wei Liu. "Cos
face: Largemargin cosine loss for deep face recognition". In CVPR, 2018.

HANDLE IMBALANCE OF DATA IN SKIN LESION CLASSIFICATION ON DERMOSCOPY
Vo Minh Thien, Le Minh Hung, Tran Kim Tam, Tran Van Lang
ABSTRACT: Melanoma is a malignant skin condition that has the potential to spread to other organs and has a very severe
prognosis if diagnosed late. In an early stage, these malignant lesions are easy to confuse with benign moles if they are only
examined with the naked eye. To overcome this situation, dermoscopes - an optical device that has been used in dermatology
hospitals to assist physicians in examining shallow layers of the skin with a large magnification, at the same time with an image
capture and storage system. The International Skin Image Collaboration 2018 (ISIC2018) is organized with the task of classifying
photos of skin lesions for early detection of diseases, especially malignant cancer. Data included 10,015 skin scans of 7 lesions. The
main problem posed by this problem is the severe data imbalance when the difference between the largest layer and the least layer
reaches 60 times. To solve the problem posed, in this study, we conduct to refine the available parameters of modern Deep

Convolutional Neural Network (DCNN), such as Inception, DenseNet. Given the problem of data imbalances, this study has
experimented with and compared popular methods such as batch balancing and class weighting. In addition, the study also applied
a loss function that has brought about significant improvements in image classification problems, namely Large Margin Cosine Loss
(CosFace) to better classify classes. In particular, in this study, a new method is proposed which is the dynamic classweight method,
aiming to create a model that is adaptable and does not depend on the ratio of classes, or the data imbalance. The results of the
proposed method show a marked improvement with an accuracy of 82.9 % compared with 70.7 % when not interfering with the loss
function on the test system of the ISIC2018 competition.



×