Tải bản đầy đủ (.pdf) (46 trang)

Phân đoạn ảnh tuyến tụy bằng phương pháp học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 46 trang )

ĐẠI HỌC QUỐC GIA TP. HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

VÕ NGUYÊN THÀNH

PHÂN ĐOẠN ẢNH TUYẾN TỤY BẲNG
PHƯƠNG PHÁP HỌC SÂU

LUẬN VĂN THẠC SĨ


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

VÕ NGUYÊN THÀNH

PHÂN ĐOẠN ẢNH TUYẾN TỤY BẰNG PHƯƠNG
PHÁP HỌC SÂU

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 5, năm 2019

2


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI


TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS. TS NGUYỄN THANH BÌNH

Cán bộ chấm nhận xét 1:

Cán bộ chấm nhận xét 2:

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày ....................tháng . . . . năm ............
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1................................................................
2 ............................................................................
3 ...............................................................
4 ...............................................................
5 ...............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐÒNG

TRƯỞNG KHOA ...............

3


LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn thầy giáo hướng dẫn khoa học PGS. TS Nguyễn
Thanh Bình đã tận tình hướng dẫn, giúp đỡ trong quá trình hoàn thành luận văn thạc sĩ
này.
Xin gửi lời cảm ơn đến quý thầy cô khoa Khoa học máy tính, Trường Đại Học
Bách Khoa Thành Phố Hồ Chí Minh, những người đã truyền đạt những kiến thức quý

báu cho tác giả trong suốt thời gian học tập vừa qua.
Cuối cùng, xin trân trọng cám ơn gia đĩnh, bạn bè, đồng nghiệp, những người đã
luôn giúp đỡ, động viên, đồng hành cùng tác giả trong suốt quá trình học tập và hoàn
thành luận văn này.

4


TÓM TẮT LUẬN VĂN
Phân đoạn ảnh đã mang lại nhiều ứng dụng quan trọng trong y học. Có nhiều bài
toán cần giải quyết liên quan đến vấn đề này. Qua đề tài này, tác giả tập trung vào việc
đề xuất một phuơng pháp phân đoạn ảnh tuyến tụy sử dụng học sâu.
Phuơng pháp dựa trên huớng tiếp cận bottom-up, ảnh đầu vào truớc hết đuợc phân
đoạn thành các điểm ảnh lớn, sau đó các điểm ảnh này đuợc phân lớp để tim ra tuyến
tụy.
Đe hiện thực việc phân lớp này, tác giả xây dựng một mô hĩnh phân lớp đa tầng,
với Random Forest và CNN.
Trong phạm vi đề tài, tác giả tiến hành thực nghiệm phuơng pháp trên bộ ảnh
Pancreas-CT của National Institutes of Health Clinical Center [13], bao gồm 82 bộ ảnh
3D CT scan tăng tuơng phản khoang bụng, đuợc lấy từ 53 nguời đàn ông và 27 nguời
phụ nữ.
Đây có thể là một phuơng pháp mang lại hiệu quả cao. Chi tiết luận văn sẽ đuợc
trình bày theo trình tự trong các phần sau.

5


LỜI CAM ĐOAN CỦA TÁC GIẢ

Tác giả xin cam đoan đây là công trình nghiên cứu độc lập. Các số liệu, kết quả

trong luận văn là trung thục và chua đuợc công bố trong công trình nào khác. Neu có
bất cứ sai phạm nào, tác giả xin hoàn toàn chịu trách nhiệm về đề tài của mình.

Nguời cam đoan

Võ Nguyên Thành

6


DANH MỤC CÁC HÌNH ẢNH
Hình 2.1

Máy chụp cắt lớp vi tính

Hình 2.2

Thông tin các điểm ảnh được rút ra từ một tập tin trong Tập ảnh

16
17

Pancreas CT của National Institutes of Health Clinical Center
Hình 2.3

Các thông tin cơ bản của một tập tin ảnh DICOM được lấy ra từ Tập

18

ảnh Pancreas-CT của National Institutes of Health Clinical Center

Hình 3.1

Minh họa quá trình phân đoạn một ảnh 2D

24

Hình 3.2

Mô hình rút trích đặc trưng và phân lớp với kiến trúc đa tầng

25

Hình 3.3

Các tiểu vùng 25x25 (màu đỏ) và 64x64 (màu xanh)

26

Hình 3.4

Phân đoạn các điểm ảnh lớn và gán nhãn

Hình 3.5

Ket quả phân đoạn điểm ảnh lớn một ảnh CT

28
29

Hình 3.6


Phân lớp các tiểu vùng 25x25 thông qua Random Forest

30

Hình 3.7

Keypoint descriptor 2x2 bins, với 8 orientation mỗi bin [20]

31

Hình 3.8

Phân lớp các tiểu vùng bằng học sâu

32

Hình 3.9

Bộ phân lớp hoàn chỉnh

33

Hình 4.1

Các điểm ảnh lớn thu được sau khi áp dụng SLIC với tham số chỉ số

38

Hình 4.2


lượng điểm ảnh lớn là 300
Minh họa quá trình phân đoạn sáu mẫu ảnh 2D

7

37


DANH MỤC BẢNG BIỂU
Bảng 2.1

Các chỉ số Dương tính đúng (TP), Dương tính sai (FP), Âm tính

21

đúng (TN) và Âm tính sai (FN)
Bảng 4.1

Số lượng mẫu dương tính và âm tính dùng để huấn luyện bộ phân

41

lớp CNN với phương pháp đề xuất (áp dụng tầng 1) và phương pháp
loại bỏ tầng 1
Bảng 4.2

Kết quả thực nghiệm với phương pháp đề xuất (áp dụng tầng 1) và
phương pháp loại bỏ tầng 1


8

41


DANH SÁCH CÁC TỪ VIẾT TẮT
CT
DICOM

Computed Tomography
Digital Imaging and Communications in Medicine

SLIC

Simple Linear Iterative Clustering

TP

Dương tính đúng

FP

Dương tính sai

TN

Âm tính đúng

FN


Âm tính sai

SIFT

Scale Invariant Feature Transform

dSIFT

Dense-Scale Invariant Feature Transform

CNN

Convolutional Neural Network

9


MỤC LỤC
• •

LỜI CẢM ƠN ............................................................................................................... 4
TÓM TẮT LUẬN VĂN ............................................................................................... 5
LỜI CAM ĐOAN CỦA TÁC GIẢ ............................................................................... 6
DANH MỤC CÁC HÌNH ẢNH ................................................................................. 7
DANH MỤC BẢNG BIÊU .......................................................................................... 8
DANH SÁCH CÁC TỪ VIẾT TẮT ............................................................................. 9
MỤC LỤC................................................................................................................... 10
Chương 1: GIỚI THIỆU ............................................................................................. 12
1.1 Giới thiệu đề tài.......................................................................................... 12
1.2 Mục tiêu và nội dung đề tài ....................................................................... 13

1.3 Giới hạn đề tài ........................................................................................... 13
1.4 Phương pháp nghiên cứu ........................................................................... 13
1.5 Cấu trúc luận văn ....................................................................................... 14
Chương 2: cơ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN cứu LIÊN QUAN ............... 16
2.1 Cơ sở lý thuyết ........................................................................................... 16
2.1.1 Chụp cắt lớp vi tính........................................................................ 16
2.1.2 Chuẩn DICOM .............................................................................. 17
2.1.3 Phân đoạn điểm ảnh lớn ................................................................ 18
2.1.4 SIFT ............................................................................................... 19
2.1.5 Random Forest............................................................................... 20
2.1.6 Precision và Recall ........................................................................ 20
2.2 Các nghiên cứu liên quan .......................................................................... 21
Chương 3: PHÂN ĐOẠN ẢNH TUYẾN TỤY BẰNG PHUƠNG PHÁP................. 23
HỌC SÂU
3.1 Yêu cầu bài toán ........................................................................................ 23
3.1.1 Dữ liệu đầu vào .............................................................................. 23
3.1.2 Dữ liệu đầu ra ................................................................................ 23
3.2 Phân đoạn ảnh tuyến tụy bằng phương pháp học sâu ............................... 23
10


3.2.1 Bước 1: Phân đoạn các điểm ảnh lớn và gán nhãn ........................ 28
3.2.2 Bước 2: Tầng 1- Rút trích đặc trưng và phân lớp các tiểu ........... 30
vùng thông qua Random Forest
3.2.3 Bước 3: Tầng 2 - Phân lớp các tiểu vùng bằng học sâu ................32
3.3 Phương pháp đánh giá ...............................................................................34
Chương 4: THÍ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .............................................36
4.1 Các thông số ban đầu .................................................................................36
4.2 Hiện thực phương pháp đề xuất.................................................................37
4.2.1 Bước 1: Phân loại các điểm ảnh lớn và gán nhãn .......................... 37

4.2.2 Bước 2: Tầng 1- Rút trích đặc trưng và phân lớp các tiểu........... 39
vùng thông qua Random Forest
4.2.3 Bước 3: Tầng 2 - Phân lớp các tiểu vùng bằng học sâu ................39
4.2.4 Kiểm thử mô hình .......................................................................... 40
4.3 Đánh giá kết quả ........................................................................................ 41
Chương 5: KẾT LUẬN ............................................................................................... 42
5.1 Kết quả đạt được ........................................................................................ 42
5.2 Uu nhược điểm của phưong pháp đề xuất ................................................. 42
5.3 Hướng mở rộng.......................................................................................... 43
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ...........................................................44

11


Chương 1
GIỚI THIÊU
Trong chương này, tác giả sẽ giới thiệu bối cảnh lựa chọn đề tài ‘‘Phân
đoạn ảnh tuyển tụy bằng phương pháp học sâu ” cũng như mục tiêu và nội
dung chính của đề tài này. Bên cạnh đó, đề tài sẽ được giới hạn trong một
phạm vi cụ thể, phương pháp nghiên cứu sẽ được giải thích chỉ tiết, đồng
thời cẩu trúc cụ thể của luận vãn cũng sẽ được giới thiệu.
1.1 GIỚI THIỆU ĐỀ TÀI
Những năm gần đây, các mô hình học sâu đã đạt được nhiều bước tiến vượt bậc
trong các bài toán xử lý ảnh nói chung. Các phương pháp này cũng đặc biệt hữu hiệu
trong bài toán phân đoạn ảnh nói riêng.
Phân đoạn ảnh là một bước quan trọng trong việc hiểu hĩnh ảnh, nhằm mục đích
tách các đối tượng trong một ảnh thành nhiều lớp, dựa trên các đặc điểm của đối tượng
và thông tin trước đó về miền lân cận.
Trong lĩnh vực y khoa, nhu cầu ứng dụng phân đoạn ảnh là khá cao, cụ thể như
trong bài toán phân đoạn ảnh các cơ quan trong cơ thể, việc này cũng gặp phải khá

nhiều khó khăn vĩ các đặc thù của ảnh y khoa. Nhìn chung, sự thay đổi lớn về vị trí cũng
như kích thước của các cơ quan trong cơ thể là một trong những thách thức lớn của
phân đoạn ảnh loại này. Bên cạnh đó, các ảnh scan khoang bụng thường chứa nhiều
thành phần phức tạp, để phân đoạn ảnh, cần thực hiện phân tích các đặc trưng riêng.
Một trong những cơ quan cơ thể - tuyến tụy, khi tiến hành phân đoạn, ngoài những
trở ngại trên, ta còn phải đối mặt với việc hĩnh dạng của nó khá linh hoạt, cũng như việc
cơ quan này thường nằm trùng lắp với các cơ quan khác trong khoang bụng. Bên cạnh
đó, sự chênh lệch về tỉ lệ giữa diện tích tuyến tụy so với phần nền trên ảnh CT là rất
lớn, đây cũng là một khó khăn khi tiếp cận bài toán này.
Với bối cảnh trên, tác giả chọn đề tài “Phân đoạn ảnh tuyến tụy bằng phương pháp
học sâu”.

12


1.2 MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI
Mục tiêu của đề tài là phân đoạn ảnh tuyến tụy dựa trên phuơng pháp học sâu.
Để đạt đuợc mục tiêu này, đề tài sẽ thực hiện các nội dung sau:
(i)

Tìm hiểu về ảnh y khoa

(ii)

Tìm hiểu về các công trình nghiên cứu liên quan

(iii)

Đề xuất phuơng pháp phân đoạn ảnh tuyến tụy dựa trên phuơng pháp học
sâu


(iv)

Hiện thực mô hĩnh với:
• Đầu vào là ảnh CT khoang bụng
• Đầu ra là ảnh tuyến tụy đã đuợc phân đoạn tự động

(v)

Đánh giá kết quả đạt đuợc

1.3 GIỚI HẠN ĐỀ TÀI
Đe tài chỉ bao gồm thực nghiệm trên tập ảnh Pancreas-CT của National
Institutes of Health Clinical Center [13].
Xây dựng đuợc mô hĩnh, thử nghiệm và đánh giá, xem xét khả năng ứng dụng,
cải thiện hoặc mở rộng trong tuơng lai.
1.4 PHƯƠNG PHÁP NGHIÊN CỨU
Đề tài sử dụng phuơng pháp nghiên cứu định tính và phuơng pháp nghiên cứu
định luợng.
• Phuơng pháp định tính:
(i)

Tìm hiểu về bài toán phân đoạn ảnh nói chung, và phân đoạn ảnh
tuyến tụy nói riêng bằng phuơng pháp học sâu và các công trình liên
quan.

(ii)

Đề xuất mô hĩnh.


(iii)

Đua ra nhận xét và đánh giá

13


• Phương pháp định lượng:
(i)

Dữ liệu: Tập ảnh Pancreas-CT của National Institutes of Health
Clinical Center [13], bao gồm 82 bộ ảnh 3D CT scan tăng tương phản
khoang bụng, được lấy từ 53 người đàn ông và 27 người phụ nữ.
Trong đó, 17 đối tượng là những người hiến thận khỏe mạnh, được
quét trước khi cắt thận. 65 đối tượng còn lại được lựa chọn bởi một
bác sĩ từ những bệnh nhân hoàn toàn không có bệnh lý ở khoang bụng
cũng như dấu hiệu ung thư tuyến tụy nào. Độ tuổi của các đối tượng
nằm trong khoảng từ 18 đến 76 với độ tuổi trung bĩnh là 46.8 ± 16.7.
Các ảnh CT scan có độ phân giải 512x512 pixel (với các kích thước
pixel khác nhau) và độ dày lát cắt trong khoảng 1.5 - 2.5 mm, trung
bĩnh 235 lát cắt trên một bệnh nhân, thu được trên máy quét MDCT
của Philips và Siemens. Một sinh viên y khoa đã thực hiện phân đoạn
thủ công từng lát tập ảnh này, dữ liệu này cũng được xác nhận và
chỉnh sửa bởi một bác sĩ có kinh nghiệm.

(ii)

Hiện thực mô hĩnh trên python.

(iii)


Dựa trên tập ảnh CT khoang bụng đầu vào, tiến hành thực nghiệm và
đánh giá kết quả đạt được.

(iv)

Sử dụng các chỉ số SI, JI, Precision và Recall (sẽ được giải thích ở
chương 2).

1.5 CẤU TRÚC LUẬN VĂN
Luận văn được chia thành 5 chương như sau:
Chương 1: GIỚI THIỆU. Trong chương này, tác giả sẽ giới thiệu bối cảnh, nội
dung, mục tiêu và phương pháp nghiên cứu của đề tài.

14


Chương 2: cơ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN cứu LIÊN QUAN.
Các lý thuyết quan trọng sẽ được trình bày ở chương 2, đồng thời, tác giả cũng
lướt qua các nghiên cứu có liên quan đến đề tài.
Chương 3: PHÂN ĐOẠN ẢNH TUYẾN TỤY BẰNG PHƯƠNG PHÁP HỌC
SÂU. Một phương pháp phân đoạn ảnh tuyến tụy theo hướng tiếp cận bottom-up
sẽ được trình bày chi tiết trong chương này. Phương pháp được thiết kế trên một
kiến trúc đa tầng dựa trên Random Forest và CNN.
Chương 4: THÍ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ. Ở chương này, tác giả
sẽ trình bày quá trình thực nghiệm trên phương pháp này. Bên cạnh đó, tác giả
cũng loại bỏ tầng thứ nhất trong mô hình và thực nghiệm với cùng bộ dữ liệu để
thực hiện so sánh.
Chương 5: KẾT LUẬN. Cuối cùng tác giả sẽ tóm lược lại những ưu nhược điểm
của phương pháp đã đề xuất, đồng thời phác thảo hướng phát triển trong tương

lai

15


Chương 2
Cơ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN cứu LIÊN QUAN
Trong chương này, tác giả sẽ giới thiệu các kiến thức liên quan đến đề tài,
bao gồm ảnh cat lớp vi tinh CT, chuẩn ảnh DICOM, khái niệm điểm ảnh
lớn, mô hình phân lớp và một sổ kỹ thuật đánh giá mô hình.

2.1 Cơ SỞ LÝ THUYẾT
2.1.1 Chụp cắt lớp vi tính
Chụp cắt lớp vi tính (Computed Tomography) là một phương pháp chụp hĩnh Xquang. Máy CT chạy vòng quanh thân thể bệnh nhân, phát sóng X-quang, sau đó dựa
vào độ hấp thụ năng lượng tia X của các thành phần cấu trúc khác nhau trong cơ thể để
dựng lại hĩnh ảnh của cơ thể trên không gian 2 hoặc 3 chiều.
Tia X được chiếu từ nhiều góc để tạo nên hĩnh cắt ngang của cơ thể, nhờ vậy cấu
trúc bên trong được phản ánh mà không qua phẫu thuật.
Ảnh 3 chiều của cơ thể sẽ được dựng lại từ một loạt các ảnh cắt lớp 2 chiều được
chụp xung quanh một trục xoay lớn (Hĩnh 2.1).

Hình 2.1 Mảy chụp cắt lớp vi tinh [18]
16


2.1.2 Chuẩn dicom
Digital Imaging and Communications in Medicine (DICOM) đã trở thành một
trong những chuẩn ảnh y khoa phổ biến nhất hiện nay. Ban đầu, chuẩn DICOM được
dùng trể lưu chuyển dữ liệu hĩnh ảnh giữa các hệ thống khác nhau. Sau đó, chuẩn này
ngày càng được ứng dụng rộng rãi trong các tác vụ nhằm tích hợp các hệ thống thông

tin [17].
Chuẩn DICOM bao gồm cả việc định nghĩa cấu trúc tập tin và giao thức truyền
thông tin. Các tập tin DICOM có thể được trao đổi giữa các hệ thống khác nhau. Hiệp
hội các nhà sản xuất điện - điện tử Hoa Kỳ nắm giữ bản quyền cho chuẩn này.
Định dạng dữ liệu DICOM bao gồm các nhóm thông tin được tích hợp vào trong
cùng một tập tin. Một tập tin dạng DICOM sẽ chứa các thông tin như tên bệnh nhân,
mã ID bệnh nhân nhằm tránh bị thất lạc thông tin về hĩnh ảnh.
Tập tin DICOM dĩ nhiên cũng chứa một thông tin quan trọng khác, đó là các thuộc
tính chứa dữ liệu của từng điểm ảnh.
Các ảnh CT được sử dụng trong đề tài có định dạng DICOM, thông tin về các
điểm ảnh được minh họa ở Hĩnh 2.2, các thông tin cơ bản khác rút trích từ một tập tin
DICOM này được minh họa ở Hĩnh 2.3.

Hình 2.2 Thông tin các điếm ảnh được rút ra từ một tập tin trong Tập ảnh
Pancreas-CT của National Institutes of Health Clinical Center [13]
17


(0008,
(0008,
(0008,
(0008,

0005)
0008)
0016)
0018)

Specific Character Set
Image Type

SOP Class UID
SOP Instance UID

CS ■IS0_IR 100'
CS ['ORIGINAL', 'PRIMARY'# 'AXIAL']
UI CT Image storage
UI 1.2.826.0.1.3680043.2.1125.1.71445149387501242933362211537151554

(0008,
(0008,
(0008,
(0008,

0020)
0030)
0050)
0060)

Study Date
Study Time
Accession Number
Modality

DA '20151124'
TM '165447.561958'
SH 1 1
CS 'CT'

(0008, 0064) Conversion Type
(0008, 0070) Manufacturer

(0008, 0080) Institution Name

cs 'DV'

LO 1 1
LO 'NIH'

(0008, 0090) Referring Physician's Name
(0008, 1030) Study Description
(0008, 103e) Series Description

PN 11
LO 'Pancreas'
LO 'Pancreas'

(0010,
(0010,
(0010,
(0010,

0010)
0020)
0030)
0040)

Patient's Name
Patient ID
Patient's Birth Date
Patient's Sex


PN 'PANCREAS_0001'
LO 'PANCREAS_0001'
DA 11
CS 11

(0013,
(0013,
(0013,
(0018,
(0018,
(0018,

0010)
1010)
1013)
0010)
0015)
0050)

Private Creator
Private tag data
Private tag data
Contrast/Bolus Agent
Body Part Examined $1
Slice Thickness

(0018,
(0020,
(0020,
(0020,

(0020,

0060)
000d)
000e)
0010)
0011)

KVP
Study Instance UID
Series Instance UID
Study ID
Series Number

OB 'CTP '
OB 'Pancreas-CT '
OB '93781505'
11
LO
CS: 'PANCREAS'
DS 11
DS ''

(0020, 0012) Acquisition Number
(0020, 0013) Instance Number
(0020,
(0020,
(0020,
(0020,
(0028,


0032)
0037)
0052)
1040)
0002)

Image Position (Patient)
Image Orientation (Patient)
Frame of Reference UID
Position Reference Indicator
Samples per Pixel

(0028, 0004) Photometric Interpretation
(0828, 0010) Rows
(0028, 0011) Columns

UI 1.2.826.0.1.3680043.2.1125.1.38381854871216336385978062044218957
UI 1.2.826.0.1.3680043.2.1125.1.68878959984837726447916707551399667
SH 'PANCREAS_0001'
IS 1 1
IS 1 1
IS '1'
DS ['0\ '0', '0']
DS ['1', '0\ '0', '0', '-l'f '0']
UI 1.2.826.0.1.3680043.2.1125.1.45138396560156236976616409747397611
LO 11
US 1
cs 'M0N0CHR0ME2'
US 512

US 512

(0028, 0030) Pixel Spacing
(0028, 0100) Bits Allocated
(0028, 0101) Bits Stored

DS ['0.859375', '0.859375']
US 16
US 16

(0028,
(0028,
(0028,
(0028,
(7fe0,

US 15
US 1
DS '0'
DS '1'
OB or OW: Array of 524288 bytes

0102)
0103)
1052)
1053)
0010)

High Bit
Pixel Representation

Rescale Intercept
Rescale Slope
Pixel Data

Hình 2.3 Các thông tin cơ bản của một tập tin ảnh DICOM được lấy ra từ Tập ảnh
Pancreas-CT của National Institutes of Health Clinical Center [13]
2.1.3 Phân đoạn điểm ảnh lớn
Phân đoạn ảnh bảo tồn biên [12] là việc phân rã ảnh thành các vùng nhỏ đồng
nhất mang đặc trung riêng, gọi là các điểm ảnh lớn (superpixel). Điều này cho ra một
biểu diễn khác cho mỗi ảnh, trong đó, các biên không đều và các điểm ảnh lớn có kích
thước khác nhau.
Một điểm ảnh lớn được định nghĩa là một vùng nhỏ trên ảnh, trong đó không có
chứa bất kĩ biên nào.
SLIC (simple linear iterative clustering) là một giải thuật được giới thiệu với chi
phí tính toán thấp, tạo ra các điểm ảnh lớn bằng cách phân cụm các điểm ảnh dựa trên
độ tương tự và độ gần màu của chúng.
18


Giải thuật có cách tiếp cận tương đối đơn giản với một tham số thể hiện số lượng
điểm ảnh lớn. Các thí nghiệm cho thấy giải thuật SLIC hiệu quả hơn đáng kể so với các
phương pháp khác, trong khi lại tạo ra kết quả phân đoạn có chất lượng tương tự hoặc
thậm chí tốt hơn.
Việc phân cụm cục bộ được thực hiện trong không gian 5 chiều được xác định
bởi các giá trị tông màu, độ bão hòa màu, độ sáng của không gian màu CIELAB và tọa
độ pixel (x, y).
2.1.4 SIFT
SIFT là phát minh của David Lowe [20], nhằm giải quyết bài toán nhận dạng vị
trí của một vật thể trong một ảnh.
Giải thuật bao gồm các bước:



Phát hiện điểm cực trị trong scale-space: giai đoạn đầu tiên này tim kiếm
trên tất cả các scale và location của hĩnh ảnh. Việc này được hiện thực hiệu
quả bởi áp dụng hàm difference-of-Gaussian để xác định các đặc điểm bất
biến tiếm năng theo scale cũng như orientation của ảnh.



Xác định keypoint: tại mỗi vị trí, một mô hĩnh chi tiết được áp dụng để xác
định vị trí và tỉ lệ. Các keypoint được chọn dựa trên việc đo lường tính ổn
định của chúng.



Xác định Orientation: một hoặc nhiều orientation được gán cho mỗi keypoint
dựa trên image gradient. Tất cả các tính toán trong tương lai thực hiện trên
dữ liệu ảnh đã được chuyển đổi sang orientation, scale và location của từng
feature.



Keypoint descriptor: image gradient được đo theo tỉ lệ đã chọn trong vùng
xung quanh keypoint. Chúng đại diện cho mức độ biến dạng và thay đổi độ
sáng.

Việc nhận dạng ảnh thường được thực hiện bằng cách so sánh các keypoint trong
ảnh:
• Neu 2 keypoint có descriptor gần giống nhau, có thể coi 2 điểm cùng thuộc
về một vật.

19


• Dựa vào thuơng của scale và hiệu của orientation của 2 keypoint, có thể
biết thêm tỉ lệ giữa 2 vật hoặc góc lệch giữa 2 vật.
Keypoint ít phụ thuộc vào cuờng độ sáng, nhiễu, che khuất, góc xoay hoặc thay
đổi tu thế. Ngoài ra, giải thuật SIFT tỏ ra khá hiệu quả và có thể đáp ứng trong thời gian
thực.
2.1.5 Random Forest
Random Forest là một phuơng pháp học có giám sát, dựa trên việc xây dựng một
tập các Decision Tree, trong đó mỗi cây đuợc tạo ngẫu nhiên từ việc tái chọn mẫu và
các biến.
Bộ phân lớp Decision Tree đã đuợc biết đến từ lâu, nhung chúng đã cho thấy các
vấn đề liên quan đến over-fitting và sự thiếu khái quát. Ý tuởng chính của Random
Forest là cố gắng giảm thiểu các vấn đề này bằng cách:
• Thêm hàm ngẫu nhiên vào quá trình huấn luyện cây
• Ket hợp đầu ra của nhiều Decision Tree một một bộ phân lớp duy nhất.
Phuơng pháp này có thể đuợc áp dụng cả cho bài toán phân lớp lẫn hồi quy, có
thể làm việc đuợc với cả dữ liệu thiếu giá trị.
2.1.6 Precision và Recall
Phuơng pháp đánh giá này thuờng đuợc áp dụng cho các bài toán phân lớp nhị
phân (chỉ có hai lớp dữ liệu duơng tính và âm tính). Thông thuờng, lớp dữ liệu quan
trọng đuợc gán nhãn duơng tính, lớp còn lại đuợc gán nhãn âm tính. Việc phân lớp
nhằm tìm ra các mẫu có lớp duơng tính.
Các chỉ số duơng tính đúng (TP), duơng tính sai (FP), âm tính đúng (TN) và âm
tính sai (FN) dựa trên bảng 2.1 với:


TP: các mẫu đuợc phân lớp duơng tính thực tế là duơng tính




FP: các mẫu đuợc phân lớp duơng tính nhung thực tế là âm tính



TN: các mẫu đuợc phân lớp âm tính thực tế là âm tính



FN: các mẫu đuợc phân lớp âm tính nhung thực tế là duơng tính

20


Thực tế

Dự báo

Dương tính

Âm tính

Dương tính

TP

FP

Âm tính


FN

TN

Bảng 2.1 Các chỉ sô dương tỉnh đúng (TP), dương tính sai (FP), âm tỉnh đúng (TN)
và âm tính sai (FN)

Tỉ lệ chính xác (Precision) được tính theo công thức 2.1 [14]:
Precision =
2
Tỉ lệ tái hiện (Recall) được tính theo công thức 2.2 [14]:
Recall — —221—
/vecuít T P + F N

ị2 2)

2.2 CÁC NGHIÊN cứu LIÊN QUAN
Các phương pháp phân đoạn ảnh các cơ quan trong cơ thể có thể được chia thành
2 loại lớn: top-down và bottom-up. Với top-down, atlas hoặc mẫu hĩnh dạng của các cơ
quan được tạo ra và kết hợp vào hệ thống thông qua việc học dựa trên các mẫu hĩnh
dạng phù hợp [1, 2] hoặc volumetric image registration [3, 4, 5]. Với bottom-up, các
cách tiếp cận được thực hiện bằng cách grouping và growing hoặc gán nhãn dựa trên
pixel, superpixel/supervoxel-based [6, 7], Nhìn chung, các phương pháp top-down dành
cho các cơ quan có thể mô hĩnh hoá tốt bởi các mô hình thống kê hĩnh dạng, trong khi
các phương pháp bottom-up có hiệu quả cao hơn đối với các cơ quan với hĩnh dạng có
xu hướng non-Gaussian.
Hầu hết các nghiên cứu về phân đoạn ảnh tuyến tụy từ ảnh CT sử dụng cách tiếp
cận top-down.
Nghiên cứu trong [8] sử dụng dữ liệu CT tăng cường tương phản three-phase được

đăng kí cùng nhau cho một bệnh nhân cụ thể và sau đó đăng kí cho bệnh nhân tham
chiếu bằng đăng kí biến dạng landmark-based.
21


Okada và các cộng sự [9] thực hiện phân đoạn đa cơ quan bằng cách kết hợp các
mối tương quan về không gian giữa các cơ quan với các xác suất atlas. Cách tiếp cận
này đã kết hợp nhiều kiến thức tiên nghiệm vào mô hình bao gồm các biểu diễn hình
dạng của 7 cơ quan trong cơ thể. Phương pháp đã được thử nghiệm trên 28 bộ dữ liệu
CT tăng cường tương phản.
Cài đặt thử nghiệm mặc định trong nhiều cách tiếp cận atlas-based được thực hiện
cho tối đa 150 bệnh nhân. Trong môi trường lâm sàn, dense volume registration (từ tất
cả các bệnh nhân khác dưới dạng mẫu atlas) và quy trình hợp nhất nhãn có thể không
thực tế về mặt tính toán (hơn 10 giờ cho mỗi trường hợp thử nghiệm). Quan trọng hơn,
nó khó mở rộng khi có bộ dữ liệu qui mô lớn. Mặt khác, phân lớp cascade hiệu quả đã
được nghiên cứu trong cả vấn đề phân tích hĩnh ảnh máy tính và hình ảnh y tế [10, 11],
với kết quả khả quan.
Công trình của Wang đề xuất một phương pháp lang truyền nhãn trên các tiểu
vùng sử dụng relative geodesic distances. Cách tiếp cận này được coi là sự khởi đầu để
phát triển các phương pháp phân đoạn ảnh bottom-up.
Công trình của Paul Viola và Michael J. Jones nhằm nhận dạng gương mặt [19]
đã đưa ra một đề xuất có tính hiệu quả cao, qua việc áp dụng kiến trúc đa tầng các bộ
phân lớp. Mấu chốt chính của phương pháp này nằm ở chỗ áp dụng các bộ phân lớp có
chi phí tính toán thấp ở các tầng thấp và các bộ phân lớp có chi phí tính toán cao hơn ở
các tầng cao hơn. Các tầng thấp có nhiệm vụ chính nhằm giảm số mẫu âm tính được
dùng để huấn luyện ở các tầng cao hơn. Tác giả cũng tham khảo chính mô hình này để
ứng dụng vào bài toán phân đoạn ảnh tuyến tụy, nhằm giảm chi phí tính toán ở tầng học
sâu.

22



Chương 3
PHÂN ĐOAN ẢNH TUYẾN TUY BẰNG PHƯƠNG PHÁP
• •

HỌC SÂU


Ở chương này, bài toán phân đoạn ảnh tuyến tụy sẽ được xác định lại chỉ
tiết hơn với các định dạng dữ ỉỉệu cho trước, qua đó, phương pháp được đề
xuất sẽ được mô tả chỉ tiết với một mô hình rút trích đặc trưng và phân lớp
có kiến trúc đa tầng.
3.1 YÊU CẦU BÀI TOÁN
3.1.1 Dữ liệu đầu vào
Các bộ ảnh 3D CT scan tăng tương phản khoang bụng của mỗi bệnh nhân, mỗi
bộ ảnh 3D bao gồm trung bình 235 tập tin ảnh 2D được lưu dưới định dạng DICOM
(.dem).
Mỗi ảnh CT scan 2D có độ phân giải 512x512 và độ dày lát cắt trong khoảng
1.5 - 2.5 mm.
Nhãn của mỗi bộ ảnh ứng với mỗi bệnh nhân được lưu ở dạng 3D với định dạng
tập tin nhãn (.nii.gz).
3.1.2 Dữ liệu đầu ra
ứng với mỗi ảnh 2D CT đầu vào, mô hĩnh sẽ cho ra một tập tin 2D với cùng độ
phân giải, tập tin này chứa các pixel tương ứng với ảnh 2D CT đầu vào, nhưng giá trị
mỗi pixel là 1 hoặc 0, tương ứng với các nhãn “tuyến tụy” hoặc “không tuyến tụy”.
3.2

Phân đoạn ảnh tuyến tụy bằng phương pháp học sâu
Đe giải quyết bài toán phân đoạn ảnh tuyến tụy, tác giả áp dụng phương pháp tiếp


cận sử dụng chiến lược bottom-up [22] với mô hình hoạt động được minh họa ở Hình
3.1. Mỗi ảnh CT cắt lớp đầu vào sẽ được phân đoạn trước, dựa trên đó, một

23


mô hình rút trích đặc trưng và phân lớp với kiến trúc đa tầng sẽ được triển khai nhằm
tìm ra tuyến tụy. Dữ liệu đầu vào và đầu ra của mô hĩnh được minh họa ở hình 3.1

(a)

(b)

Hình 3.1 Minh họa quá trình phân đoạn một ảnh 2D:
(a)

ảnh 2D đầu vào

(b)

các điếm ảnh lớn

(c)

phỏng to vùng chứa tuyến tụy

(d)

kết quả phân đoạn


(e)

dữ liệu gán nhãn thủ công

24


Mô hình bao gồm 3 bước chính tương ứng với các bước được đánh số trong
Hình 3.1:


Bước 1: Phân đoạn các điểm ảnh lớn và gán nhãn

• Bước 2: Tầng 1 - Rút trích đặc trưng và phân lớp các tiểu vùng thông qua
Random Forest


Bước 3: Tầng 2 - Phân lớp các tiểu vùng bằng học sâu
MÔ hình phân lớp
đa tầng

dưỡng tính
64x64

Hình 3.2 Mô hình rút trích đặc trưng và phân lớp với kiến trúc đa tầng
Đối với bài toán phân đoạn ảnh tuyến tụy, tác giả chọn cách tiếp cận bottom- up.
Với cách tiếp cận này, việc phân vùng sẽ được thực hiện trước, việc phân lớp sẽ được
thực hiện sau. Các ảnh 2D đầu vào trước tiên sẽ được phân đoạn thành các điểm ảnh
lớn, với một trong số các điểm ảnh có thể ứng với tuyến tụy, các điểm ảnh lớn còn lại

ứng với phần nền không phải tuyến tụy. Như vậy, có 2 công việc chính cần được tiến
hành:
• Phân đoạn ảnh 2D thành các điểm ảnh lớn.

25


×