Phân đoạn chứng phình mạch máy não trên ảnh MRI3D

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 42 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021

Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D.
Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE.
Khoa/ Bộ môn: Công nghệ phần mềm
Thời gian thực hiện: 06 tháng
Cán bộ hướng dẫn: TS. Lê Mình Hưng

Tham gia thực hiện

TT
1.

Họ và tên, MSSV

Chịu trách
nhiệm

Điện thoại

Email

Đỗ Ngọc Cường

Chủ nhiệm

0355766760

Thành phố Hồ Chí Minh – Tháng 10 /2021

ĐẠI HỌC QUỐC GIA TP. HCM

Ngày nhận hồ sơ

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số đề tài
(Do CQ quản lý ghi)

BÁO CÁO TỔNG KẾT

Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D.

Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE.

Ngày ... tháng ...... năm ....

Ngày ... tháng ...... năm ....

Cán bộ hướng dẫn

Sinh viên chủ nhiệm đề tài

(Họ tên và chữ ký)

(Họ tên và chữ ký)

THƠNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thơng tin chung:
- Tên đề tài: PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI
3D.

- Chủ nhiệm: Đỗ Ngọc Cường
- Thành viên tham gia: Khơng
- Cơ quan chủ trì: Trường Đại học Cơng nghệ Thông tin.
- Thời gian thực hiện: 06 tháng
2. Mục tiêu:
Trong phạm vi đề tài này, chúng tơi sẽ:

-

Tìm hiểu tổng quan về các kỹ thuật học sâu, bài toán phân đoạn đối tượng trong
ảnh, các phương pháp phân đoạn đối tượng trong ảnh y sinh và tìm thơng tin
dựa trên các nghiên cứu có sẵn.

-

Tìm hiểu các dữ liệu hiện có để ứng dụng vào bài tốn

-

Tiến hành cài đặt thử các phương pháp dựa trên các nghiên cứu hiện có và đánh

giá.

3. Tính mới và ứng dụng:
Với những bệnh nhân này cần chuẩn đoán và khám kịp thời để lên chiến lược điều
trị và phương pháp phẫu thuật. Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi
phình (clipping the neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và
vị trí bác sĩ vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ.
Chúng tôi tập trung vào việc phát hiện túi phình vị trí của nó bằng phương pháp học
sâu.
Chúng tôi kết hợp các hàm mất mát với nhau để tăng độ hiệu quả cho việc phát hiện
túi phình mạch máu não.

4. Tóm tắt kết quả nghiên cứu: trong bài báo cáo lần này nhóm em chỉ có thể tìm
hiểu và đề xuất thêm vào phần backbone các module để cải thiện hiệu suất của bộ dữ
liệu não 3D này. Đạt được hiệu suất là Dice similarity coefficient: 0.38, Hausdorff
distance (modified, 95th percentile): 16.36, Volumetric Similarity: 0.49.

5. Tên sản phẩm:
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng:
Do bài toán này khá hạn chế về mặt dữ liệu, tuy thực hiện các biện pháp tăng cường
nhưng về bản chất đó dữ liệu thực tế vẫn khơng có bổ sung thêm, nên việc bổ sung dữ
liệu thật là điều cần thiết. Tìm hiểu thêm các phương pháp xử lý mất cân bằng dữ liệu,
và xử lý ảnh y khoa não MRI 3D, tìm cách giảm bớt lượng tài ngun chi phí tính tốn

mỗi lần huấn luyện và kiểm thử. Thay đổi và can thiệp vào hàm mất mát để tăng khả
năng giám sát trong quá trình huấn luyện của kiến trúc mạng. Nhằm đưa các thuật toán
này vào hệ thống hỗ trợ phát hiện và chẩn đốn bệnh, giúp nâng cao độ chính xác của

việc chẩn đoán mà không gây ra các phản ứng xấu lên cơ thể của bệnh nhân kèm theo là
sự giảm bớt khối lượng công việc và thời gian của các bác sĩ, chuyên gia. Nó sẽ là bước
đệm phóng cho các nghiên cứu tiếp theo để cải thiện và phát triển.

7. Hình ảnh, sơ đồ minh họa chính

Cơ quan Chủ trì

Chủ nhiệm đề tài

(ký, họ và tên, đóng dấu)

(ký, họ và tên)

MỤC LỤC

MỤC LỤC ................................................................................................................... 5
DANH MỤC HÌNH .................................................................................................... 7
DANH MỤC BẢNG ................................................................................................... 8
TỔNG QUAN ..................................................................................... 9
1.1.

Giới thiệu chung .....................................................................................9

1.2.

Động lực nghiên cứu .............................................................................10

1.2.1.

Tính khoa học .................................................................................... 10

1.2.2.

Tính ứng dụng ................................................................................... 10

1.3.

Phát biểu bài toán ..................................................................................10

1.4.

Phạm vi bài toán ...................................................................................10

1.5.

Thách thức bài tốn...............................................................................11

1.6.

Đóng góp của nghiên cứu .....................................................................11

1.7.

Cấu trúc báo cáo ...................................................................................12

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ....... 12

2.1.

Dữ liệu 3D.............................................................................................13

2.2.

Cấu trúc hình học ..................................................................................14

2.2.1. Depth images ..................................................................................... 14
2.2.2. Point cloud ......................................................................................... 14
2.2.3. Voxel ................................................................................................. 15
2.2.4. Polygon Mesh .................................................................................... 16
2.3.

3D deeplearning ....................................................................................18

2.4.

Classification ........................................................................................19

2.5.

Object detection ....................................................................................21

2.6.

Segmentation ........................................................................................25

2.7.

Framework được thực hiện. ..................................................................26
THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................... 28

3.1.

Dữ liệu ..................................................................................................29

3.2.

Phương pháp đánh giá ..........................................................................30

3.3.

Chiến lược thực nghiệm và kết quả ......................................................31
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 36

4.1.

Kết luận .................................................................................................36

4.2.

Hướng phát triển ...................................................................................37

LỜI CẢM ƠN .......................................................................................................... 38
TÀI LIỆU THAM KHẢO

39

DANH MỤC HÌNH

Hình 1. Mơ tả tổng quan phương pháp. ....................................................................10
Hình 2. Tổng quan về nhận dạng đối tượng. .............................................................13
Hình 3. Ví dụ về depth image. ..................................................................................14
Hình 4. Ví dụ về point cloud. ....................................................................................15
Hình 5. Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải). ................16
Hình 6. Ví dụ về Mesh. .............................................................................................17
Hình 7. Các ứng dụng của các mơ hình trí tuệ nhân tạo 3D. ....................................18
Hinh 8. Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019. ..19
Hình 9: Faster RCNN. ...............................................................................................23
Hình 10. Khác biệt giữa object detection và object segmentation. ...........................25
Hình 11. Ảnh X-quang đã được phân đoạn. .............................................................26
Hình 12. Mất cân bằng giữa 3 nhãn. .........................................................................29
Hình 13. Trực quan hóa 3 lớp của một ảnh lấy ra từ bộ dữ liệu. ..............................30
Hình 14. Lần huấn luyện thứ nhất, Smooth loss và khơng tiền xử lý dữ liệu...........32
Hình 15. Lần huấn luyện thứ hai, No smooth loss và không tiền xử lý dữ liệu. ......33
Hình 16. No Smooth Loss, đã tiền xử lý dữ liệu, đã cải tiến thêm phần backbone. .34
Hình 17. Trực quan hóa kết quả 1. ............................................................................36
Hình 18. Trực quan hóa kết quả 2. ............................................................................37

DANH MỤC BẢNG

Bảng 1: kết quả..........................................................................................................35

TỞNG QUAN
Trong chương này, chúng tơi giới thiệu chung về khóa luận, động lực nghiên cứu,
xác định bài tốn và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa
luận. Phần tóm tắt từng chương trong khóa luận được trình bày ở cuối chương này.
1.1. Giới thiệu chung
Phình mạch máu não là một có thể di chứng gây nguy hiểm đến tính mạng, và và
đi theo căn bệnh là các phương pháp xử lý triệu chứng phức tạp. Việc chuẩn đoán
thường xuyên và kiểm nghiệm tiền phẫu thuật sẽ là tiền đề cho các phương pháp chữa
trị và phẫu thuật sau này. Và hiện tại phương pháp chủ yếu để thực hiện việc chữa trị
là kẹp nơi bị phình mạch và để ngăn cho mạch khơng bị vỡ. Quyết định vị trí và
hướng của thanh kẹp vẫn phải phụ thuộc phần lớn vào kinh nghiệm của người điều
trị.
Với bài nghiên cứu này chúng ta sẽ tập trung vào phát triển và phân đoạn vị trí
của túi phình bằng phương pháp học sâu, đơ chính xác được quan tâm và là phần quan
trọng nhất vì nó được sử dụng để lấy cổ túi phình.
Dự án này chính là tiền đề để đóng góp cho các nghiên cứu sau này. Qua đó có
thể đóng góp và tiếp cận tới các bài toán như: đưa ra vị trí kẹp túi phình, …

9

Hình 1. Mơ tả tổng quan phương pháp.

1.2. Động lực nghiên cứu
1.2.1. Tính khoa học
Bài tốn phát hiện và đánh dấu nơi phình mạch sẽ hỗ trợ cho việc chuẩn đoán
và chưa trị cho các bệnh nhân bị phình mạch. Từ dữ liệu này các y khoa, bác sĩ có thể
đánh giá và đưa ra phương hướng điều trị tốt nhất cho tình hình bệnh nhân.
1.2.2. Tính ứng dụng
● Cần chuẩn đoán và khám kịp thời để lên chiến lược điều trị và phương pháp phẫu

thuật. Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi phình (clipping the
neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và vị trí bác sĩ
vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ.
● Phân đoạn ngữ nghĩa biến đổi dữ liệu ảnh y sinh thơ thành các thơng tin có ý nghĩa
có cấu trúc khơng gian và đóng một vai trị thiết yếu trong việc phân tích khoa
học. Tạo ra nhiều ứng dụng hỗ trợ khám bệnh lâm sàng, lập kế hoạch trị liệu, phẫu
thuật và theo dõi sự phát triển của các chỗ phình mạch. Sự quan tâm về phương
pháp phát hiện và phân đoạn tự động trong bối cảnh nghiên cứu ngày càng phát
triển mạnh.
1.3. Phát biểu bài tốn
Báo cáo trình bày hai nội dung chính liên quan đến lĩnh vực thị giác máy tính và
hỗ trợ chuẩn đoán cho bệnh nhân:
• Input bài tốn: Đầu vào là ảnh chụp mri não 3D.
• Output bài tốn: các nhãn đã được phân đoạn phình mạch.
• Class: 0 – background, 1 – túi phình chưa điều trị và chưa bị vỡ, 2 – túi
phình đã được điều trị.
1.4. Phạm vi bài tốn
-

Tìm hiểu về bài toán phân đoạn ảnh,

10

-

Tìm hiểu về bài tốn xử lý ảnh và các thuật tốn máy học và học sâu.

-

Tìm hiểu, áp dụng các kỹ thuật tiền xử lý ảnh y khoa.

-

Tìm hiểu phân loại các hàm mất mát được sử dụng cho bài toán ảnh y khoa.

Đánh giá, so sánh kết quả việc áp dụng các hàm mất mát để phân đoạn túi phình.
1.5. Thách thức bài tốn
Các thách thức Hiện tại bài tốn này cịn nhiều thách thức như là nhãn của phình
động mạch thường rất nhỏ so với nhãn của những loại còn lại dẫn đến mất cân bằng
dữ liệu, ảnh MRI được biểu diễn bằng 32 bit so với việc hầu hết các mạng deep
learning cụ thể là CNN hiện chỉ xử lý được dữ liệu 8bit nên việc xử lý để trách mất
mát thông tin khi dùng các kiến trúc mạng CNN là điều cần thiết. Dữ liệu train của
các bài tốn y sinh này khá ít dẫn tới việc tìm cách rút trích đặc trưng cho các mạng
CNN đủ để huấn luyện gây nhiều khó khắn. Trong bộ dữ liệu này trong trường hợp
nhãn có được gán là được tạo từ các đồ tạo tác từ chứng phình động mạch có kích
thước khá lớn cả kích thước nhỏ và việc rút trích đặc trưng gây ra khó khắn dễ bị
nhầm lẫn và việc phát hiện nhãn này là không cần thiết trong việc chuẩn đoán lâm
sàng, điều này đặt ra vấn đề cần tiền xử lý tốt phần nhãn được gán là 2 (phình động
mạch đã được điều trị hoặc các đồ tạo tác từ phình động mạch đã được điều trị) trước
khi đưa vô huấn luyện. Dữ liệu này là dữ liệu MRI 3D nên việc rút trích đặc trưng
hay chọn phương pháp để giải quyết bài toán cũng gây nhiều khó khăn vì mỗi phương
pháp đều có một cách tiếp cận riêng như là: project view, voxel, points, mesh.

1.6. Đóng góp của nghiên cứu
− Tìm hiểu bài toán phân đoạn ảnh 3D MRI.
− Thực nghiệm các phương pháp đã tìm hiểu được.
− Đưa ra một số nhận định về thách thức khó khăn của việc phân đoạn ảnh 3d,
sự mất cân bằng dữ liệu, và cách khắc phục bằng các kĩ thuật học sâu.

11

1.7. Cấu trúc báo cáo
Báo cáo này được trình bày trong chương, nội dung chính được tóm tắt như dưới đây:
− Chương 1: Giới thiệu chung về khóa luận, động lực nghiên cứu, xác định bài
toán và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa luận.
− Chương 2: Trình bày các cơ sở lý thuyết, nghiên cứu liên quan, xu hướng
nghiên cứu mới đối với bài được đề cập trong khóa luận.
− Chương 3: Trình bày kết quả thực nghiệm và đánh giá ưu điểm, hạn chế của
các phương pháp được chọn để khảo sát.
− Chương 4: Nêu kết quả đạt được, kết luận, định hướng nghiên cứu trong tương
lai.

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN
QUAN
Trên thực tế các mơ hình deep learning 3D khá giống các mơ hình deep learning
2D, ở chương này sẽ khái quát lại các kiến thức cơ bản, ý tưởng hình thành các thuật
tốn deep learning trong thị giác máy tính. Và phương pháp được thực nghiệm cho
bài toán này.

12

Hình 2. Tổng quan về nhận dạng đối tượng.

2.1. Dữ liệu 3D
Việc tổng hợp dữ liệu 3D từ một góc nhìn duy nhất là một chức năng thị giác cơ
bản của con người, nhưng điều này cực kì thách thức đối với các thuật tốn thị giác
máy tính. Nhưng những tiến bộ gần đây trong công nghệ thu thập dữ liệu 3D đã có

một bước phát triển vượt bậc, các thiệt bị như LiDAR, RGB-D cameras. Không giống
như dữ liệu 2D có sẵn, dữ liệu 3D rất phong phú về tỷ lệ thơng tin hình học, do đó
tạo cơ hội cho máy tính có thể học được nhiều hơn.Tuy nhiên, tính khả dụng của dữ
liệu 3D tương đối thấp hơn cùng với chi phí thu thập cao hơn dữ liệu 2D.
Trong những năm gần đây, deep learning đã chứng tỏ được khả năng vượt trội
trong việc giải quyết các tác vụ 2D-image như phân loại hình ảnh, phát hiện đối
tượng, phân đoạn ngữ nghĩa,.. Và không phải ngoại lệ deep learning cũng cho thấy
những tiến bộ vượt bậc trong việc ứng dụng vào các bài tốn có input là các ảnh
3D.

13

Dữ liệu 3D được ứng dụng trong nhiều bài toán khác nhau, như là robotlcs,
augmented realty, autonomous driving, medical image processing,..
2.2. Cấu trúc hình học
2.2.1. Depth images
Bao gồm thơng tin giá trị độ sâu của ảnh là khoảng cách từ máy chụp đến cảnh
được tính bằng mét cho mỗi pixel trong ảnh. Nhưng khi tập trung vào một đối tượng
cụ thể trong cảnh để tạo mơ hình 3D, thơng tin này trở nên khơng đủ và khơng chính
xác trong các mơ hình sate of the art hiện tại.

Hình 3. Ví dụ về depth image.

2.2.2. Point cloud
Là tập hợp các điểm ba chiều được phân bố trong không gian 3 chiều. Mỗi điểm
3D này có một vị trí xác định được biểu thị bằng một tọa độ (x, y, z) theo từng kênh
màu RGB. Mỗi voxel có thể được xem là một quantized point cloud với kích thước
cố định. Tuy nhiên, biểu diễn point cloud khơng có kết nối cục bộ giữa các điểm, do
đó dẫn đến mức độ tự do rất lớn và độ lớn nhiều chiều khiến việc tổng hợp chính xác

trở nên khó khăn hơn.

14

Hình 4. Ví dụ về point cloud.

2.2.3. Voxel
Voxel hoặc pixel thể tích là phần mở rộng trực tiếp của spatial-grid pixel thành
volume-grid voxel. Nói một các đơn giản, voxel là một pixel trong khơng gian ba
chiều. Vị trí tương đối, khoảng của mỗi voxel với nhau giúp xác định được cấu trúc
duy nhất vật thể 3D. Tuy nhiên, đối với mơ hình 3D, việc biểu diễn các voxel khá là
thưa thớt, có nghĩa là ln ln có sự mất mát về mặt thông tin, điều này dẫn đến việc
đánh đổi tài nguyên tính toán và độ chính xác cũng là một thách thức đối với cách
biểu diễn này.

15

Hình 5. Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải).

2.2.4. Polygon Mesh
Là tập hợp các cạnh, đỉnh và mặt kết hợp với nhau để xác định hình dạng hay
thể tích của một vật thể đa diện. Các mặt đa giác lồi của lưới liên kết với nhau để tạo
ra một bề mặt hình học gần đúng. Tương tự như voxel, lưới cũng có thể được coi là
tập hợp đám mây điểm ba chiều được lấy mẫu từ tập hợp các bề mặt liên tục (độ phức
tạp tương đối thấp hơn). Các mặt lưới có thể là hình tam giác, tứ giác hoặc đa giác
lồi. hông giống như voxels và point cloud, Mesh làm mất các chi tiết bề mặt quan
trọng để tái tạo lại mơ hình bề mặt, Tuy nhiên, Mesh được sử dụng cho nhiều ứng
dụng thực tế. Do đó, xem xét các điểm trên, Polygon mesh dường như thực tế hơn và

biểu diễn tổng hợp tốt hơn so với các định dạng khác.
Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu.
Có nhiều phương pháp ra đời dựa theo các cách biểu diễn loại dữ liệu này:

16

Hình 6. Ví dụ về Mesh.

Volumetric: F Milletari et al. Fully convolutional neural networks for
volumetric medical image segmentation[1]. X Wang et al. Volumetric attention for
3D medical image segmentation and detection[2]. Graham et al. Submanifold sparse
convolutional networks (SSCNs)[3]. Z Zhu et al. A 3D coarse-to-fine framework for
volumetric medical image segmentation[4].
Points: L Tchapmi et al. Segcloud: Semantic segmentation of 3d point
clouds[5]. HY Chiang et al. A unified point-based framework for 3d segmentation[6].
L Landrieu et al. Large-scale point cloud semantic segmentation with superpoint
graphs[7]. C Xu et al. Squeezesegv3: Spatially-adaptive convolution for efficient
point-cloud segmentation[8]. G Te et al. Rgcnn: Regularized graph cnn for point
cloud segmentation[9].
Mesh: D George et al.3D mesh segmentation via multi-branch 1D convolutional
neural networks[10]. G Bui et al.A multi-view recurrent neural network for 3D mesh
segmentation[11]. R Kalfarisi et al. Crack detection and segmentation using deep
learning with 3D reality mesh model for quantitative assessment and integrated
visualization[12]. Q Peng et al. Deep learning-based optimal segmentation of 3D
printed product for surface quality improvement and support structure reduction[13].

17

2.3. 3D deeplearning

Hình 7. Các ứng dụng của các mơ hình trí tuệ nhân tạo 3D.

Những năm gần đây, từ khóa 3D khá là phổ biến trong các hội nghị lớn về trí
tuệ nhân tạo hay thị giác máy tính, Với việc các thiết bị phần cứng càng ngày càng
tiến bộ và tiên tiến, những tri thức hay lý thuyết giờ này khơng cịn là điều viễn vơng,
nhờ vào các thuật tốn học máy, các mơ hinh deep learning 3D ra đời để đã giải quyết
rất nhiều bài tốn hóc búa và phức tạp.

18

Hinh 8. Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019.

Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu.
Có nhiều phương pháp ra đời dựa theo cách biểu diễn loại dữ liệu này:
2.4. Classification
Trong học máy, classification đề cập đế một vấn đề mô hình dự đoán nhãn trong
những nhãn cần phân loại (biết trước) ví dụ:
• Phân loại thư rác.
• Phát hiện ung thư
• Phát hiện viêm võng mạc.

19

Từ góc độ mơ hình hóa, bất kì bài tốn học máy nào cũng cần bộ dữ liệu đủ tốt
để thuật tốn có thể học được những “tri thức” tổng quát chứ không đơn giản chỉ là
ghi nhớ.

Nhiệm vụ là các mơ hình sẽ tìm ra các ánh xạ để chuyển dữ liều vào thành đầu
ra theo những nhãn cụ thể. Khơng có lý thuyết tốt về cách ánh xạ thuật tốn vào các
dạng dữ liệu nào, thay vào đó, họ thực hiện các thử nghiệm được kiểm soát và khám
phá thuật tốn và cấu hình thuật tốn nào mang lại hiệu suất tốt nhất cho một nhiệm
vụ phân loại nhất định trên một bộ dữ liệu nhất định
Thông thường có ba loại nhiệm vụ phân loại chính:
• Phân loại nhị phân (Binary Classification)
• Phân loại đa lớp (Multi-class classification)
• Phân loại mất cân bằng (imbalanced classification)
Hiện nay, hầu hết các thuật toán phần lớp đều trải qua hai giai đoạn: rút trích
đặc trưng (feature extraction), sau đó đưa qua các thuật toán học máy như là SVM,
neural network, logistic regression, Nạve bayes, K-nearest neighbors,.. để phân lớp.
Có nhiều cách tiếp cận khác nhau, trong quá khứ các phương pháp máy học
truyền thống đã từng được sử dụng nhưng nhược điểm của các phương pháp này phụ
thuộc rất nhiều vào cơng đoạn rút trích đặc trưng, các đặc trưng này có thể tốt hoặc
khơng tốt tùy theo dữ liệu và thuật toán sử dụng để huấn luyện nên hiệu suất đạt được
vẫn chưa cao và khó có thể đáp ứng được nhu cầu thực tế. Tuy nhiên, năm 2012 với
sự xuất hiện của AlexNet[14] đã thành một bước đột phá trong thị giác máy tính nói
chung và trong ảnh y tế nói riêng và kiến trúc CNN đã trở thành một cách tiếp cận
phổ biến và đạt được độ hiệu quả và chính xác cao nhờ vào việc bộ rút trích đặc trưng
bây giờ hồn tồn được tự động, các đặc trưng được cải thiện dần dần dựa trên hàm
mục tiêu cần tối ưu.

20

2.5. Object detection
Object detection hay dịch tiếng việt gọi là phát hiện đối tượng, đây là một thuật
ngữ chung để một tả một tập hợp các nhiệm vụ thị giác máy tính liên quan đến phát
hiện và xác định các đối tượng trong ảnh kỹ thuật số.

Classification liên quan đến việc dự đoán nhãn là lớp của một đối tượng trong
ảnh. Object localization đề cập đến việc xác định vị trí của một hoặc nhiều đối tượng
trong ảnh và vẽ các bounding box xung quanh phạm vi của đối tượng đó. Object
detection là kết hợp hai tác vụ này một hoặc nhiều đối tượng trong một hình ảnh.
Tóm lại object detection ban đầu được chia ra làm các nhiệm vụ nhỏ sau đó tổng
hợp lại:
Phân loại ảnh (image classification): Dự đoán kiểu hoặc lớp của một đối tượng
trong ảnh.
• Đầu vào: Một hình ảnh với một đối tượng duy nhất, ví dụ như một bức
ảnh.
• Đầu ra: Một nhãn lớp (ví dụ một hoặc nhiều số nguyên được ánh xạ tới
nhãn lớp).
Bản địa hóa đối tượng (Object localization): Định vị sự hiện diện của các đối
tượng trong một hình ảnh và chỉ ra vị trí của chúng bằng một hộp giới hạn (bounding
box).
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một
bức ảnh.
• Đầu ra: Một hoặc nhiều hộp giới hạn (ví dụ: được xác định bởi một điểm,
chiều rộng và chiều cao).
Phát hiện đối tượng (Object detection): Định vị sự hiện diện của các đối tượng
bằng hộp giới hạn và các lớp của các đối tượng được định vị trong một hình ảnh.
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một
bức ảnh.

21

• Đầu ra: Một hoặc nhiều hộp giới hạn (ví dụ: được xác định bởi một điểm,
chiều rộng và chiều cao) và nhãn lớp cho mỗi hộp giới hạn.
Họ mạng RCNN – phương pháp phát hiện đối tượng 2 giai đoạn, được xem là

phương pháp phát hiện đối tượng ra đời sớm nhất và có hiệu suất khá tốt vào thời
điểm ra đời của thuật tốn này, được mơ tả như sau:
R-CNN[15] (Region with CNN feature): Đây là phiên bản đầu tiên của họ kiến
trúc mạng này, đầu tiên sử dụng thuật toán Selective Search algorithm để lấy ra
khoảng 1800 đến 2000 vùng ảnh có khả năng chứ đối tượng. Sau đó các vùng này
được phân ra là chứa đối tượng hay là background. Sau đó được resize về cùng kích
thước và thực hiện transfer learning với fearture extractor sau đó tiếp tục đưa vào
SVM để phân loại. Hạn chế của R-CNN là thời gian train và test rất lâu không thể
ứng dụng cho real-time.
Fast R-CNN[16]: Khoảng một năm rưỡi sau đó, tác giả của R-CNN, nó giải
quyết được một số vấn đề về thời gian xử lý và test. Tương tự như R-CNN thì Fast
R-CNN vẫn sử dụng selective search để lấy ra các vùng có khả năng chứa đối tượng.
Tuy không tách các vùng này ra khỏi ảnh mà thực hiện phân lớp cho mỗi ảnh. Sau đó
các vùng này được lấy tương ứng từ các convolution feature map rồi được đưa qua
một lớp có tên là Reigion of interest (ROI). Tiếp đó các vùng này được đưa qua mạng
neural network để phân lớp các vùng tọa độ của bounding box.

22

Hình 9: Faster RCNN.

Faster R-CNN[17]: Khơng sử dụng thuật toán Selective Search để lấy ra các
vùng có khả năng chứa đối tượng mà sử dụng một mạng CNN có tên là Region
Proposal Network để tìm ra các vùng đó. Input của RPN là các feature map và output
là các region proposal có hình chữ nhật.
Ở phiên bản này họ sử dụng một định nghĩa mới có tên là Anchor, một Anchor
bảo gồm tọa độ điểm trung tầm và kích thước của hình chữ nhật. Nên sẽ có 4 tham
số sau là (x_center, y_center, width, height).

YOLOv4[18] là mơ hình CNN phát hiện đối tượng một giai đoạn(one stage)
dùng để phát hiện đối tượng được giới thiệu đầu năm 2020, nó đạt được độ chính xác
cao và thời gian dự đoán thấp, phù hợp với các ứng dụng cần thời gian dự đoán nhanh,
hardware yêu cầu tầm trung không cần quá mạnh để train và predict.

23

Kiến trúc:
Gồm 3 phần chính là Backbone, Neck, Head.
Backbone có tác dụng dùng để rút trích những đặc trưng nơng, thơ ( low
feature) như viền góc cạnh của đối tượng, các đặc trưng sâu (deep feature) chính là
các đặc trưng mang ý nghĩa quyết định thông tin ngữ nghĩa của ảnh.
Neck: phần này khắc phục những nhược điểm như việc sử dụng neural network
và CNN
Đối với Neural network đầu vào lúc nào cũng phải cố định một kích thước,
điều này làm cho chúng ta cần phải resize ảnh, hoặc các feature map phải có kích
thước như u cầu, việc như vậy là khơng cần thiết bởi vì như thế sẽ làm mất mát
thơng tin, có thể loại bỏ, làm biến dạng vùng cần phát hiện dẫn tới độ chính xác giảm.
Với CNN thì kích thước cửa sổ trượt thì ln cố định.
Khi ảnh được đưa qua một loạt các lớp CNN các mạng neural, đặc trưng phía
sau được lấy từ những đặc trưng phía trước, tuy nhiên việc đi qua nhiều lớp CNN có
thể làm mất mát thơng tin.
Neck được sinh ra để giải quyết những vấn đề trên.
Output của Neck được fixed về cùng 1 size bất kể kích thước đầu vào ra sao.
Các thông tin của các lớp trước được đưa đến những lớp sau để kết hợp với
nhau.
Hecd: Dùng để dự đoán các tọa độ của bounding box, và bounding box đó
thuộc class nào.
Đây là một phương pháp phát hiện đối tượng một giai đoạn (end to end). Điều

này sẽ giúp việc tối ưu trở nên tốt hơn. Hiện nay có nhiều phiên bản của YOLOv4
được sinh ra, mỗi môi phiên bản là sự thay đổi về kiến trúc đánh đổi giữa tài ngun
tính tốn và hiệu suất của mơ hình.

24

2.6. Segmentation
Một phần mở rộng nữa cho sự phân tích các nhiệm vụ thị giác máy tính này là
phân đoạn đối tượng (object segmentation), còn được gọi là “phân đoạn thể hiện đối
tượng” hoặc “phân đoạn ngữ nghĩa”, trong đó các đối tượng được nhận dạng được
chỉ ra bằng cách phân loại từng pixel cụ thể của đối tượng thay vì một hộp giới hạn
thơ.

Hình 10. Khác biệt giữa object detection và object segmentation.

Phân đoạn hình ảnh được sử dụng nhiều trong xử lý ảnh y khoa vì yêu cầu cần
độ chính xác cao đến từng mm, các thuật toán ra đời nhằm hỗ trợ các y bác sĩ chuẩn
đoán bệnh cho các bệnh nhân ví dụ như phát hiện phân đoạn các khối u, các vùng bị
tổn thương.

25

Phân đoạn chứng phình mạch máy não trên ảnh MRI3D

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về