Nghiên cứu khoa học công nghệ
TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO HỆ THỐNG HỌC
SÂU PHÂN VÙNG CÁC POLYP TRÊN ẢNH NỘI SOI ĐẠI TRÀNG
SỬ DỤNG MẠNG SINH DỮ LIỆU CÓ ĐIỀU KIỆN
Lê Thị Thu Hồng1*, Nguyễn Chí Thành1, Phạm Thu Hương1,
Nguyễn Sinh Huy1, Nguyễn Văn Đức2, Nguyễn Thành Trung2
Tóm tắt: Một trong những trở ngại chính của các hệ thống học sâu phân tích
ảnh y tế nói chung và tự động phân vùng các polyp trên ảnh nội soi đại tràng hỗ trợ
các bác sỹ trong trong quá trình nội soi nói riêng là sự thiếu hụt dữ liệu ảnh dùng
để huấn luyện đã được gán nhãn bởi các chuyên gia y tế. Trong bài báo này, chúng
tôi đề xuất một phương pháp sinh ảnh nội soi đại tràng có chứa các polyp sử dụng
mạng sinh dữ liệu có điều kiện (CGAN) nhằm tăng số lượng mẫu huấn luyện cho hệ
thống học sâu. Chúng tôi đề xuất sử dụng ảnh nhị phân thể hiện hình dạng polyp kết
hợp với ảnh lọc cạnh của ảnh nội soi đại tràng bình thường làm điều kiện cho việc
sinh ảnh nội soi có chứa polyp. Theo cách này, chúng tôi có thể tạo ra nhiều ảnh
chứa polyp khác nhau trong khi vẫn duy trì nội dung tổng thể của ảnh nội soi. Phần
thực nghiệm của chúng tôi cho thấy rằng, ảnh polyp tổng hợp được tạo ra không chỉ
giống ảnh thực mà còn giúp nâng cao hiệu suất của hệ thống học sâu phát hiện và
phân vùng các polyp trên ảnh nội soi.
Từ khóa: Mạng sinh dữ liệu; Tăng cường dữ liệu; Học chuyển giao; Phân vùng polyp.
1. GIỚI THIỆU
Ung thư đại trực tràng (CRC) là nguyên nhân phổ biến thứ ba gây tử vong liên quan đến
ung thư trên thế giới cho cả nam và nữ, với 551.269 ca tử vong (chiếm 5,8% tổng số ca tử
vong do ung thư) trên toàn thế giới vào năm 2018 [1]. CRC thường phát sinh từ các polyp
tăng trưởng bất thường bên trong đại tràng, nội soi đại tràng là thủ thuật phổ biến để phát
hiện các polyp từ đó sàng lọc, phát hiện sớm CRC. Trong thủ thuật nội soi, một ống dài linh
hoạt (colonoscope) đầu có gắn máy quay phim nhỏ và đèn soi ở được đưa vào quét bộ đại
tràng thu hình ảnh của niêm mạc đại tràng và hình ảnh này được phóng đại trên màn hình
màu có độ nét cao, cho phép các bác sĩ xem xét bên trong của toàn bộ đại tràng. Chất lượng
thủ thuật nội soi đại tràng phụ thuộc vào tay nghề, kinh nghiệm và sự tập trung của các bác
sĩ nội soi, các nghiên cứu gần đây đã chỉ ra rằng 22% đến 28% polyp của bệnh nhân trong
quá trình nội soi [2]. Các ứng dụng tự động phân vùng polyp trên ảnh nội soi sẽ hỗ trợ các
bác sĩ nội soi cải thiện độ chính xác và giảm thiểu việc bỏ sót polyp trong quá trình nội soi.
Hiện tại có các nghiên cứu sử dụng các mô hình học sâu cho tác vụ phân vùng polyp trên
ảnh nội soi. Tuy nhiên, trở ngại chính trong việc sử dụng học sâu cho tác vụ này là không đủ
dữ liệu nội soi được gán nhãn là các ảnh nhị phân thể hiện hình dạng của polyp (polyp mask)
chính xác dùng để huấn luyện các mô hình học sâu, do đó cần có các phương pháp tăng số
lượng mẫu dữ liệu học có gán nhãn cho huấn luyện mô hình học sâu từ đó nâng cao hiệu
năng của mô hình. Thông thường, các kỹ thuật tăng cường dữ liệu (data augmentation) đơn
giản như xoay (rotating) và lật (flipting), phóng to thu nhỏ (scaling), thay đổi độ sáng, làm
mờ (blurring), thay đổi độ tương phản các ảnh gốc thường được sử dụng để tăng số lượng
mẫu học cho các mô hình học sâu. Tuy nhiên, do các polyp trên ảnh nội soi có sự biên thiên
về hình dạng, tỷ lệ và màu sắc rất lớn nên việc áp dụng các kỹ thuật tăng cường ảnh đơn giản
chỉ có hiệu quả hạn chế đối với hiệu năng hệ thống vì không thay đổi được các đặc điểm của
các polyp và sự cân bằng của nó với nền.
Mạng sinh dữ liệu đối nghịch (GAN- Generative Adversarial Networks) [3] là mô hình
mạng nơ ron có khả năng tạo các ảnh tổng hợp bằng cách sử dụng sự cạnh tranh của hai
mạng nơ-ron: Bộ sinh (Generator) dùng để sinh ảnh và Bộ phân biệt (Discriminator) để
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020
447
Toán học – Công nghệ thông tin
phân biệt ảnh thật là các ảnh trong bộ dữ liệu thực và ảnh giả là ảnh do bộ Generator tạo
ra. GAN là một phương pháp có hiệu quả để tăng cường dữ liệu cho các hệ thống học sâu.
Mạng sinh dữ liệu có điều kiện [4] (CGAN- Conditional GAN) là một dạng GAN trong đó
có kiểm soát Generator sinh ảnh theo điều kiện đầu vào nhất định. Trong nghiên cứu này,
chúng tôi sử dụng mô hình Pix2Pix [5] là một mạng CGAN để sinh ảnh nội soi đại tràng
có chứa polyp nhằm tăng số lượng mẫu huấn luyện từ đó tăng hiệu năng của hệ thống
phân vùng polyp trên ảnh nội soi. Ngoài ra, để tạo ra ảnh nội soi có chứa polyp với polyp
và nền hài hòa tự nhiên, chúng tôi đề xuất kết hợp lọc cạnh của ảnh nội soi đại tràng bình
thường và ảnh nhị phân thể hiện hình dạng polyp (polyp mask) tạo nên đầu vào cho mô
hình Pix2Pix. Hình 1 biểu diễn mô hình sinh ảnh nội soi đại tràng chứa polyp mà chúng tôi
đề xuất, trong đó, G là bộ sinh (Generator), D là bộ phân biệt (Discriminator). Đầu vào của
G là ảnh điều kiện x được tạo ra bằng kết hợp của lọc cạnh của ảnh nội soi và polyp mask,
đầu ra của G là ảnh nội soi tổng hợp G(x). Đầu vào của D gồm 2 ảnh: ảnh điều kiện x (đầu
vào của generator) và ảnh nội soi chứa polyp có thể là G(x) (đầu ra của generator) hoặc
ảnh nội soi thực trong bộ dữ liệu y có nhãn là polyp mask được sử dụng để tạo ảnh điều
kiện đầu vào x. Đầu ra của D là giá trị nhị phân thể hiện ảnh thật (real) là các ảnh trong bộ
dữ liệu thực và ảnh giả (fake) là ảnh do bộ G tạo ra.
Hình 1. Mô hình Pix2Pix sinh ảnh nội soi chứa polyp.
Với mô hình sinh ảnh nội soi chứa polyp từ hình ảnh nội soi bình thường, chúng tôi có
thể tạo ra nhiều hình ảnh nội soi chứa polyp khác nhau, điều này nhằm khắc phục khó
khăn trong việc thu thập mẫu dữ liệu vì các trường hợp nội soi có polyp ít gặp hơn các
trường hợp nội soi bình thường trong thực tế. Ngoài ra, chúng tôi đánh giá định lượng chất
lượng tăng cường dữ liệu của mô hình sinh ảnh nội soi chứa polyp thông qua đánh giá hiệu
năng của mô hình học sâu phân vùng polyp trên ảnh nội soi được huấn luyện với dữ liệu
ảnh nội soi tổng hợp đã được sinh.
Phần còn lại của bài báo này được tổ chức như sau: Phần 2 mô tả các phương pháp mà
chúng tôi sử dụng trong nghiên cứu bao gồm: mô hình sinh dữ liệu ảnh nội soi có chứa
polyp được đề xuất, phương pháp tạo ảnh điều kiện đầu vào, giới thiệu tóm tắt mô hình tự
động phân vùng polyp trên ảnh nội soi và cách đánh giá khả năng cải thiện hiệu nă ọc cạnh của ảnh nội soi bình thường và polyp
mask. Để đánh giá hiệu quả của phương pháp này, chúng tôi thực hiện thí nghiệm chỉ sử
dụng các polyp mask làm ảnh đầu vào cho huấn luyện và sinh ảnh tổng hợp, tất cả mô
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020
451
Toán học – Công nghệ thông tin
hình và các tham số huấn luyện được sử dụng như nhau, hình 7 trình bày kết quả các ảnh
được sinh ra. Chúng ta có thể thấy trong hình 7, mặc dù mạng đã tạo ra các polyp khá
giống thực nhưng nền không giống như các ảnh nội soi thực. Qua đó cho thấy, phương
pháp tạo ảnh nhị phân đầu vào cho mạng Pix2Pix bằng kết hợp của lọc cạnh ảnh nội soi và
polyp mask mà chúng tôi đề xuất đã có hiệu quả rất tốt trong việc hướng dẫn bộ Generator
của mạng GAN sinh cấu trúc tổng thể của ảnh nội soi đại tràng.
Hình 6. Kết quả sinh ảnh nội soi chứa polyp
của mạng Pix2Pix.
Hình 7. Ảnh nội soi tổng hợp được
sinh từ các polyp mask.
3.4. So sánh hiệu năng của phân vùng polyp trên ảnh nội soi
Chúng tôi đã thực hiện huấn luyện mô hình phân vùng polyp sử dụng hai bộ dữ liệu
huấn luyện khác nhau: một là sử dụng bộ CVC-ClinicDB, hai là sử dụng bộ dữ liệu huấn
luyện mới bao gồm các mẫu trong bộ CVC-ClinicDB và các ảnh nội soi có polyps tổng
hợp do mạng GAN Pix2Pix tạo ra. Sau khi huấn luyện chúng tôi thu được 2 bộ tham số tối
ưu khác nhau của mô hình. Chúng tôi đánh giá kết quả phân vùng polyp của mô hình với
từng bộ tham số đó trên hai bộ dữ liệu kiểm thử và so sánh kết quả đạt được, bảng 1 và
bảng 2 trình bày các kết quả thử nghiệm đạt được. Từ các bảng này, chúng ta thấy hiệu
năng của hệ thống phân vùng polyp được cải thiện trên cả 2 bộ số liệu thử nghiệm, thể
hiện bằng việc tất cả các độ đo đánh giá phân vùng đều được tăng tốt lên. Tuy nhiên, kết
quả tăng ở trên bộ ETIS-Larib tốt hơn, đạt được tăng 2,48% đối với hệ số Dice và 3,55%
với IoU trong khi đó, với bộ CVC-ColonDB chỉ số tăng lên chỉ là 1,24% với hệ số Dice và
1,77% với IoU.
Bảng 1. So sánh kết quả trên bộ dữ liệu CVC-ColonDB.
Dữ liệu huấn luyện
CVC-ClinicDB
Dice
IoU
Sen
Prec
F1
0.8407 0.731 0.7992 0.8956 0.8437
CVC-ClinicDB+ Ảnh tổng hợp 0.8617 0.761
0.848 0.8814
Spec
0.995
0.864 0.9938
Bảng 2. So sánh kết quả trên bộ dữ liệu ETIS-Larib.
Dữ liệu huấn luyện
CVC-ClinicDB
Dice
IoU
Sen
0.7767 0.6367 0.7803
Prec
F1
0.778 0.7768
Spec
0.989
CVC-ClinicDB+ Ảnh tổng hợp 0.7886 0.6639 0.8267 0.7727 0.7966 0.9888
Trong thí nghiệm trên chúng tôi sử dụng toàn bộ 300 ảnh tổng hợp được sinh bởi mạng
sinh có điều kiện, tuy nhiên, số lượng này có thể chưa phải là tối ưu cho mô hình phân vùng
polyp vì vậy chúng tôi đã tiến hành đánh giá hiệu năng của mô hình phân vùng khi thay đổi
số lượng ảnh tổng hợp đưa vào huấn luyện. Chúng tôi đã huấn luyện mô hình phân vùng
polyp với các tập dữ liệu khác nhau như sau: Dataset1 gồm 612 ảnh của bộ CVC-ClinicDB
ký hiệu C, Dataset1 gồm C và 100 ảnh tổng hợp, Dataset2 gồm C và 200 ảnh tổng hợp,
452
L. T. T. Hồng, …, N. T. Trung, “Tăng cường dữ liệu huấn luyện … có điều kiện.”
Nghiên cứu khoa học công nghệ
Dataset3 gồm C và 300 ảnh tổng hợp. Bảng 3 và bảng 4 trình bày các kết quả thử nghiệm
trên bộ dữ liệu kiểm thử ETIS-LaribPolypDB và CVC-ColonDB. Từ kết quả này chúng ta
rút ra kết luận nhìn chung khi số lượng ảnh tổng hợp đưa vào huấn luyện tăng thì các độ đo
đánh giá phân vùng đều tăng, tức là hiệu năng của hệ thống phân vùng tốt lên.
Bảng 3. So sánh kết quả trên bộ dữ liệu CVC-ColonDB.
Dữ liệu huấn luyện
Dice
IoU
Sen
Prec
F1
Spec
CVC-ClinicDB
0.8407 0.731 0.7992 0.8956 0.8437 0.995
CVC-ClinicDB+ 100 0.8530 0.7502 0.8364 0.8794 0.8566 0.9938
CVC-ClinicDB+ 200 0.856 0.7574 0.8477 0.877 0.8613 0.9936
CVC-ClinicDB+ 300 0.8617 0.761 0.848 0.8814 0.864 0.9938
Bảng 4. So sánh kết quả trên bộ dữ liệu ETIS-Larib.
Dữ liệu huấn luyện
CVC-ClinicDB
CVC-ClinicDB+ 100
CVC-ClinicDB+ 200
CVC-ClinicDB+ 300
Dice
0.7767
0.7835
0.7880
0.7886
IoU
0.6367
0.6569
0.6664
0.6639
Sen
Prec
F1
Spec
0.7803 0.778 0.7768 0.989
0.7886 0.8217 0.7915 0.9923
0.8033 0.7983 0.7986 0.9907
0.8267 0.7727 0.7966 0.9888
4. KẾT LUẬN
Trong nghiên cứu này, chúng tôi đã đề xuất một mô hình sinh ảnh nội soi chứa polyp
tổng hợp sử dụng mạng sinh dữ liệu có điều nhằm tăng cường dữ liệu cho hệ thống học
sâu phân vùng polyp trên ảnh nội soi đại tràng. Mô hình mạng sinh dữ liệu có điều kiện
mà chúng tôi sử dụng là mô hình Pix2Pix một mô hình được xây dựng cho mục đích dịch
ảnh sang ảnh. Để sinh ảnh nội soi chứa polyp giống ảnh thực chúng tôi đã đề xuất sử dụng
điều kiện đầu vào cho mạng sinh dữ liệu là kết hợp của lọc cạnh của ảnh nội soi bình
thường và polyp mask tổng hợp, điều kiện đầu vào này đã hướng dẫn việc tạo cấu trúc nền
hiệu quả và sự hài hòa của nền với polyp của ảnh tổng hợp được tạo ra. Chúng tôi đã cài
đặt thử nghiệm mô hình sinh dữ liệu để tạo ảnh nội soi chứa polyps tổng hợp và sử dụng
các ảnh này tăng số lượng mẫu huấn luyện cho mô hình học sâu cho phân vùng polyp trên
ảnh nội soi. Số liệu thực nghiệm của chúng tôi cho thấy, ảnh polyp được tạo có thể sử
dụng để tăng cường dữ liệu nhằm cải thiện hiệu năng của hệ thống phân vùng polyp trên
ảnh nội soi đại tràng sử dụng các kỹ thuật học sâu. Tuy nhiên, kết quả cải thiện đạt được
chưa được cao do các polyp được tạo ra chưa có sự đa dạng về màu sắc và kết cấu. Để
khắc phục vấn đề này một trong những hướng giải quyết là xây dựng bộ dữ liệu bao gồm
các ảnh nội soi chứa nhiều loại polyp khác nhau và phân loại các loại polyp sau đó thêm
điều kiện loại polyp cho các đầu vào của mạng sinh ảnh. Do đó, trong tương lai để nâng
cao kết quả chúng tôi dự định sẽ tiếp tục hợp tác với các bác sỹ để xây dựng bộ dữ liệu
huấn luyện với các ảnh nội soi chứa nhiều loại polyp khác nhau và cải tiến mô hình sinh
ảnh nội soi chứa polyps với hiệu năng tốt hơn.
TÀI LIỆU THAM KHẢO
[1]. Bray, Freddie, et al. "Global cancer statistics 2018: GLOBOCAN estimates of
incidence and mortality worldwide for 36 cancers in 185 countries." CA: a cancer
journal for clinicians 68.6 (2018): 394-424.
[2]. M. Gschwantler, S. Kriwanek, E. Langner, B. Goritzer, C. SchrutkaKolbl, E.
Brownstone, H. Feichtinger, and W. Weiss. “High-grade dysplasia and invasive
carcinoma in colorectal adenomas: a multivariate analysis of the impact of adenoma
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020
453
Toán học – Công nghệ thông tin
and patient characteristics,” European journal of gastroenterology hepatology,
14(2):183188, 2002.
[3]. Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural
information processing systems. 2014.
[4]. Mirza, Mehdi, and Simon Osindero. "Conditional generative adversarial nets."
arXiv preprint arXiv:1411.1784 (2014).
[5]. Isola, Phillip, et al. "Image-to-image translation with conditional adversarial
networks." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2017.
[6]. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of
the IEEE conference on computer vision and pattern recognition. 2016..
[7]. Bernal, J., Sánchez, F. J., Fernández-Esparrach, G., Gil, D., Rodríguez, C., &
Vilariño, F. “WM-DOVA maps for accurate polyp highlighting in colonoscopy:
Validation vs. saliency maps from physicians”. Computerized Medical Imaging and
Graphics, 43, 99-111,2015
[8]. Juan S. Silva, Aymeric Histace, Olivier Romain, Xavier Dray, Bertrand Granado,
“Towards embedded detection of polyps in WCE images for early diagnosis of
colorectal cancer”, International Journal of Computer Assisted Radiology and
Surgery, Springer Verlag (Germany), 2014, 9 (2), pp. 283-293.
[9]. Jorge Bernal, F. Javier Sanchez, & Fernando Vilariño. “Towards Automatic Polyp
Detection with a Polyp Appearance Model”. Pattern Recognition, 45(9), 3166–
3182, 2012.
[10]. Konstantin Pogorelov, Kristin Ranheim Randel, Carsten Griwodz, Sigrun Losada
Eskeland, Thomas de Lange, Dag Johansen, Concetto Spampinato, Duc-Tien DangNguyen, Mathias Lux, Peter Thelin Schmidt, Michael Riegler, Pål Halvorsen,
Kvasir. “A Multi-Class Image Dataset for Computer Aided Gastrointestinal Disease
Detection”, MMSys'17 Proceedings of the 8th ACM on Multimedia Systems
Conference (MMSYS), Pages 164-169 Taipei, Taiwan, June 20-23, 2017.
ABSTRACT
DATA AGUMENTATION FOR DEEP LEARNING SYSTEM OF POLYP
SEGMENTION ON COLONOSCOPY IMAGES USING CONDITIONAL
GENARATIVE ADVERSARIAL NETWORKS
One of the major obstacles in automatic polyp segmentation during colonoscopy is
the lack of labeled polyp training images. In this paper, a framework of conditional
genarativ adversarial networks to increase the number of training samples by
generating synthetic polyp images is proposed. An edge filtering-based combined input
conditioned image to train our proposed networks is proposed. This enables realistic
polyp image generations while maintaining the original structures of the colonoscopy
image frames. Our experiment shows that the generated polyp images are not only
qualitatively realistic, but also help to improve polyp segmentation performance.
Keywords: CGAN; Data Agumentation; Transfer learning; Polyp Segmentation.
Nhận bài ngày 03 tháng 8 năm 2020
Hoàn thiện ngày 05 tháng 10 năm 2020
Chấp nhận đăng ngày 05 tháng 10 năm 2020
Địa chỉ: 1Viện Công nghệ thông tin/Viện Khoa học và Công nghệ quân sự;
2
Bệnh viện Trung ương Quân đội 108.
*Email:
454
L. T. T. Hồng, …, N. T. Trung, “Tăng cường dữ liệu huấn luyện … có điều kiện.”