Tải bản đầy đủ (.pdf) (42 trang)

Phân đoạn chứng phình mạch máy não trên ảnh MRI3D

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 42 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021

Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D.
Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE.
Khoa/ Bộ môn: Công nghệ phần mềm
Thời gian thực hiện: 06 tháng
Cán bộ hướng dẫn: TS. Lê Mình Hưng

Tham gia thực hiện

TT
1.

Họ và tên, MSSV

Chịu trách
nhiệm

Điện thoại

Email

Đỗ Ngọc Cường

Chủ nhiệm



0355766760



Thành phố Hồ Chí Minh – Tháng 10 /2021


ĐẠI HỌC QUỐC GIA TP. HCM

Ngày nhận hồ sơ

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số đề tài
(Do CQ quản lý ghi)

BÁO CÁO TỔNG KẾT

Tên đề tài tiếng Việt:
PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI 3D.

Tên đề tài tiếng Anh:
SEGMENTATION ANEURYSM FOR 3D MRI IMAGE.

Ngày ... tháng ...... năm ....

Ngày ... tháng ...... năm ....

Cán bộ hướng dẫn


Sinh viên chủ nhiệm đề tài

(Họ tên và chữ ký)

(Họ tên và chữ ký)


THƠNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thơng tin chung:
- Tên đề tài: PHÂN ĐOẠN CHỨNG PHÌNH MẠCH MÁY NÃO TRÊN ẢNH MRI
3D.

- Chủ nhiệm: Đỗ Ngọc Cường
- Thành viên tham gia: Khơng
- Cơ quan chủ trì: Trường Đại học Cơng nghệ Thông tin.
- Thời gian thực hiện: 06 tháng
2. Mục tiêu:
Trong phạm vi đề tài này, chúng tơi sẽ:

-

Tìm hiểu tổng quan về các kỹ thuật học sâu, bài toán phân đoạn đối tượng trong
ảnh, các phương pháp phân đoạn đối tượng trong ảnh y sinh và tìm thơng tin
dựa trên các nghiên cứu có sẵn.

-

Tìm hiểu các dữ liệu hiện có để ứng dụng vào bài tốn


-

Tiến hành cài đặt thử các phương pháp dựa trên các nghiên cứu hiện có và đánh

giá.

3. Tính mới và ứng dụng:
Với những bệnh nhân này cần chuẩn đoán và khám kịp thời để lên chiến lược điều
trị và phương pháp phẫu thuật. Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi
phình (clipping the neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và
vị trí bác sĩ vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ.
Chúng tôi tập trung vào việc phát hiện túi phình vị trí của nó bằng phương pháp học
sâu.
Chúng tôi kết hợp các hàm mất mát với nhau để tăng độ hiệu quả cho việc phát hiện
túi phình mạch máu não.


4. Tóm tắt kết quả nghiên cứu: trong bài báo cáo lần này nhóm em chỉ có thể tìm
hiểu và đề xuất thêm vào phần backbone các module để cải thiện hiệu suất của bộ dữ
liệu não 3D này. Đạt được hiệu suất là Dice similarity coefficient: 0.38, Hausdorff
distance (modified, 95th percentile): 16.36, Volumetric Similarity: 0.49.

5. Tên sản phẩm:
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng:
Do bài toán này khá hạn chế về mặt dữ liệu, tuy thực hiện các biện pháp tăng cường
nhưng về bản chất đó dữ liệu thực tế vẫn khơng có bổ sung thêm, nên việc bổ sung dữ
liệu thật là điều cần thiết. Tìm hiểu thêm các phương pháp xử lý mất cân bằng dữ liệu,
và xử lý ảnh y khoa não MRI 3D, tìm cách giảm bớt lượng tài ngun chi phí tính tốn

mỗi lần huấn luyện và kiểm thử. Thay đổi và can thiệp vào hàm mất mát để tăng khả
năng giám sát trong quá trình huấn luyện của kiến trúc mạng. Nhằm đưa các thuật toán
này vào hệ thống hỗ trợ phát hiện và chẩn đốn bệnh, giúp nâng cao độ chính xác của

việc chẩn đoán mà không gây ra các phản ứng xấu lên cơ thể của bệnh nhân kèm theo là
sự giảm bớt khối lượng công việc và thời gian của các bác sĩ, chuyên gia. Nó sẽ là bước
đệm phóng cho các nghiên cứu tiếp theo để cải thiện và phát triển.

7. Hình ảnh, sơ đồ minh họa chính

Cơ quan Chủ trì

Chủ nhiệm đề tài

(ký, họ và tên, đóng dấu)

(ký, họ và tên)


MỤC LỤC

MỤC LỤC ................................................................................................................... 5
DANH MỤC HÌNH .................................................................................................... 7
DANH MỤC BẢNG ................................................................................................... 8
TỔNG QUAN ..................................................................................... 9
1.1.

Giới thiệu chung .....................................................................................9

1.2.


Động lực nghiên cứu .............................................................................10

1.2.1.

Tính khoa học .................................................................................... 10

1.2.2.

Tính ứng dụng ................................................................................... 10

1.3.

Phát biểu bài toán ..................................................................................10

1.4.

Phạm vi bài toán ...................................................................................10

1.5.

Thách thức bài tốn...............................................................................11

1.6.

Đóng góp của nghiên cứu .....................................................................11

1.7.

Cấu trúc báo cáo ...................................................................................12

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ....... 12

2.1.

Dữ liệu 3D.............................................................................................13

2.2.

Cấu trúc hình học ..................................................................................14

2.2.1. Depth images ..................................................................................... 14
2.2.2. Point cloud ......................................................................................... 14
2.2.3. Voxel ................................................................................................. 15
2.2.4. Polygon Mesh .................................................................................... 16
2.3.

3D deeplearning ....................................................................................18


2.4.

Classification ........................................................................................19

2.5.

Object detection ....................................................................................21

2.6.

Segmentation ........................................................................................25


2.7.

Framework được thực hiện. ..................................................................26
THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................... 28

3.1.

Dữ liệu ..................................................................................................29

3.2.

Phương pháp đánh giá ..........................................................................30

3.3.

Chiến lược thực nghiệm và kết quả ......................................................31
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 36

4.1.

Kết luận .................................................................................................36

4.2.

Hướng phát triển ...................................................................................37

LỜI CẢM ƠN .......................................................................................................... 38
TÀI LIỆU THAM KHẢO


39


DANH MỤC HÌNH

Hình 1. Mơ tả tổng quan phương pháp. ....................................................................10
Hình 2. Tổng quan về nhận dạng đối tượng. .............................................................13
Hình 3. Ví dụ về depth image. ..................................................................................14
Hình 4. Ví dụ về point cloud. ....................................................................................15
Hình 5. Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải). ................16
Hình 6. Ví dụ về Mesh. .............................................................................................17
Hình 7. Các ứng dụng của các mơ hình trí tuệ nhân tạo 3D. ....................................18
Hinh 8. Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019. ..19
Hình 9: Faster RCNN. ...............................................................................................23
Hình 10. Khác biệt giữa object detection và object segmentation. ...........................25
Hình 11. Ảnh X-quang đã được phân đoạn. .............................................................26
Hình 12. Mất cân bằng giữa 3 nhãn. .........................................................................29
Hình 13. Trực quan hóa 3 lớp của một ảnh lấy ra từ bộ dữ liệu. ..............................30
Hình 14. Lần huấn luyện thứ nhất, Smooth loss và khơng tiền xử lý dữ liệu...........32
Hình 15. Lần huấn luyện thứ hai, No smooth loss và không tiền xử lý dữ liệu. ......33
Hình 16. No Smooth Loss, đã tiền xử lý dữ liệu, đã cải tiến thêm phần backbone. .34
Hình 17. Trực quan hóa kết quả 1. ............................................................................36
Hình 18. Trực quan hóa kết quả 2. ............................................................................37


DANH MỤC BẢNG

Bảng 1: kết quả..........................................................................................................35



TỞNG QUAN
Trong chương này, chúng tơi giới thiệu chung về khóa luận, động lực nghiên cứu,
xác định bài tốn và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa
luận. Phần tóm tắt từng chương trong khóa luận được trình bày ở cuối chương này.
1.1. Giới thiệu chung
Phình mạch máu não là một có thể di chứng gây nguy hiểm đến tính mạng, và và
đi theo căn bệnh là các phương pháp xử lý triệu chứng phức tạp. Việc chuẩn đoán
thường xuyên và kiểm nghiệm tiền phẫu thuật sẽ là tiền đề cho các phương pháp chữa
trị và phẫu thuật sau này. Và hiện tại phương pháp chủ yếu để thực hiện việc chữa trị
là kẹp nơi bị phình mạch và để ngăn cho mạch khơng bị vỡ. Quyết định vị trí và
hướng của thanh kẹp vẫn phải phụ thuộc phần lớn vào kinh nghiệm của người điều
trị.
Với bài nghiên cứu này chúng ta sẽ tập trung vào phát triển và phân đoạn vị trí
của túi phình bằng phương pháp học sâu, đơ chính xác được quan tâm và là phần quan
trọng nhất vì nó được sử dụng để lấy cổ túi phình.
Dự án này chính là tiền đề để đóng góp cho các nghiên cứu sau này. Qua đó có
thể đóng góp và tiếp cận tới các bài toán như: đưa ra vị trí kẹp túi phình, …

9


Hình 1. Mơ tả tổng quan phương pháp.

1.2. Động lực nghiên cứu
1.2.1. Tính khoa học
Bài tốn phát hiện và đánh dấu nơi phình mạch sẽ hỗ trợ cho việc chuẩn đoán
và chưa trị cho các bệnh nhân bị phình mạch. Từ dữ liệu này các y khoa, bác sĩ có thể
đánh giá và đưa ra phương hướng điều trị tốt nhất cho tình hình bệnh nhân.
1.2.2. Tính ứng dụng
● Cần chuẩn đoán và khám kịp thời để lên chiến lược điều trị và phương pháp phẫu

thuật. Phương pháp điều trị chủ yếu hiện nay là mổ kẹp túi phình (clipping the
neck of an aneurysm) các quyết định về việc đặt tư thế phẫu thuật và vị trí bác sĩ
vẫn phụ thuộc vào phán đoán lâm sàng dựa trên kinh nghiệm của bác sĩ.
● Phân đoạn ngữ nghĩa biến đổi dữ liệu ảnh y sinh thơ thành các thơng tin có ý nghĩa
có cấu trúc khơng gian và đóng một vai trị thiết yếu trong việc phân tích khoa
học. Tạo ra nhiều ứng dụng hỗ trợ khám bệnh lâm sàng, lập kế hoạch trị liệu, phẫu
thuật và theo dõi sự phát triển của các chỗ phình mạch. Sự quan tâm về phương
pháp phát hiện và phân đoạn tự động trong bối cảnh nghiên cứu ngày càng phát
triển mạnh.
1.3. Phát biểu bài tốn
Báo cáo trình bày hai nội dung chính liên quan đến lĩnh vực thị giác máy tính và
hỗ trợ chuẩn đoán cho bệnh nhân:
• Input bài tốn: Đầu vào là ảnh chụp mri não 3D.
• Output bài tốn: các nhãn đã được phân đoạn phình mạch.
• Class: 0 – background, 1 – túi phình chưa điều trị và chưa bị vỡ, 2 – túi
phình đã được điều trị.
1.4. Phạm vi bài tốn
-

Tìm hiểu về bài toán phân đoạn ảnh,

10


-

Tìm hiểu về bài tốn xử lý ảnh và các thuật tốn máy học và học sâu.

-


Tìm hiểu, áp dụng các kỹ thuật tiền xử lý ảnh y khoa.

-

Tìm hiểu phân loại các hàm mất mát được sử dụng cho bài toán ảnh y khoa.

Đánh giá, so sánh kết quả việc áp dụng các hàm mất mát để phân đoạn túi phình.
1.5. Thách thức bài tốn
Các thách thức Hiện tại bài tốn này cịn nhiều thách thức như là nhãn của phình
động mạch thường rất nhỏ so với nhãn của những loại còn lại dẫn đến mất cân bằng
dữ liệu, ảnh MRI được biểu diễn bằng 32 bit so với việc hầu hết các mạng deep
learning cụ thể là CNN hiện chỉ xử lý được dữ liệu 8bit nên việc xử lý để trách mất
mát thông tin khi dùng các kiến trúc mạng CNN là điều cần thiết. Dữ liệu train của
các bài tốn y sinh này khá ít dẫn tới việc tìm cách rút trích đặc trưng cho các mạng
CNN đủ để huấn luyện gây nhiều khó khắn. Trong bộ dữ liệu này trong trường hợp
nhãn có được gán là được tạo từ các đồ tạo tác từ chứng phình động mạch có kích
thước khá lớn cả kích thước nhỏ và việc rút trích đặc trưng gây ra khó khắn dễ bị
nhầm lẫn và việc phát hiện nhãn này là không cần thiết trong việc chuẩn đoán lâm
sàng, điều này đặt ra vấn đề cần tiền xử lý tốt phần nhãn được gán là 2 (phình động
mạch đã được điều trị hoặc các đồ tạo tác từ phình động mạch đã được điều trị) trước
khi đưa vô huấn luyện. Dữ liệu này là dữ liệu MRI 3D nên việc rút trích đặc trưng
hay chọn phương pháp để giải quyết bài toán cũng gây nhiều khó khăn vì mỗi phương
pháp đều có một cách tiếp cận riêng như là: project view, voxel, points, mesh.

1.6. Đóng góp của nghiên cứu
− Tìm hiểu bài toán phân đoạn ảnh 3D MRI.
− Thực nghiệm các phương pháp đã tìm hiểu được.
− Đưa ra một số nhận định về thách thức khó khăn của việc phân đoạn ảnh 3d,
sự mất cân bằng dữ liệu, và cách khắc phục bằng các kĩ thuật học sâu.


11


1.7. Cấu trúc báo cáo
Báo cáo này được trình bày trong chương, nội dung chính được tóm tắt như dưới đây:
− Chương 1: Giới thiệu chung về khóa luận, động lực nghiên cứu, xác định bài
toán và phạm vi tương ứng, từ đó nêu lên các đóng góp chính của khóa luận.
− Chương 2: Trình bày các cơ sở lý thuyết, nghiên cứu liên quan, xu hướng
nghiên cứu mới đối với bài được đề cập trong khóa luận.
− Chương 3: Trình bày kết quả thực nghiệm và đánh giá ưu điểm, hạn chế của
các phương pháp được chọn để khảo sát.
− Chương 4: Nêu kết quả đạt được, kết luận, định hướng nghiên cứu trong tương
lai.

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN
QUAN
Trên thực tế các mơ hình deep learning 3D khá giống các mơ hình deep learning
2D, ở chương này sẽ khái quát lại các kiến thức cơ bản, ý tưởng hình thành các thuật
tốn deep learning trong thị giác máy tính. Và phương pháp được thực nghiệm cho
bài toán này.

12


Hình 2. Tổng quan về nhận dạng đối tượng.

2.1. Dữ liệu 3D
Việc tổng hợp dữ liệu 3D từ một góc nhìn duy nhất là một chức năng thị giác cơ
bản của con người, nhưng điều này cực kì thách thức đối với các thuật tốn thị giác
máy tính. Nhưng những tiến bộ gần đây trong công nghệ thu thập dữ liệu 3D đã có

một bước phát triển vượt bậc, các thiệt bị như LiDAR, RGB-D cameras. Không giống
như dữ liệu 2D có sẵn, dữ liệu 3D rất phong phú về tỷ lệ thơng tin hình học, do đó
tạo cơ hội cho máy tính có thể học được nhiều hơn.Tuy nhiên, tính khả dụng của dữ
liệu 3D tương đối thấp hơn cùng với chi phí thu thập cao hơn dữ liệu 2D.
Trong những năm gần đây, deep learning đã chứng tỏ được khả năng vượt trội
trong việc giải quyết các tác vụ 2D-image như phân loại hình ảnh, phát hiện đối
tượng, phân đoạn ngữ nghĩa,.. Và không phải ngoại lệ deep learning cũng cho thấy
những tiến bộ vượt bậc trong việc ứng dụng vào các bài tốn có input là các ảnh
3D.

13


Dữ liệu 3D được ứng dụng trong nhiều bài toán khác nhau, như là robotlcs,
augmented realty, autonomous driving, medical image processing,..
2.2. Cấu trúc hình học
2.2.1. Depth images
Bao gồm thơng tin giá trị độ sâu của ảnh là khoảng cách từ máy chụp đến cảnh
được tính bằng mét cho mỗi pixel trong ảnh. Nhưng khi tập trung vào một đối tượng
cụ thể trong cảnh để tạo mơ hình 3D, thơng tin này trở nên khơng đủ và khơng chính
xác trong các mơ hình sate of the art hiện tại.

Hình 3. Ví dụ về depth image.

2.2.2. Point cloud
Là tập hợp các điểm ba chiều được phân bố trong không gian 3 chiều. Mỗi điểm
3D này có một vị trí xác định được biểu thị bằng một tọa độ (x, y, z) theo từng kênh
màu RGB. Mỗi voxel có thể được xem là một quantized point cloud với kích thước
cố định. Tuy nhiên, biểu diễn point cloud khơng có kết nối cục bộ giữa các điểm, do
đó dẫn đến mức độ tự do rất lớn và độ lớn nhiều chiều khiến việc tổng hợp chính xác

trở nên khó khăn hơn.

14


Hình 4. Ví dụ về point cloud.

2.2.3. Voxel
Voxel hoặc pixel thể tích là phần mở rộng trực tiếp của spatial-grid pixel thành
volume-grid voxel. Nói một các đơn giản, voxel là một pixel trong khơng gian ba
chiều. Vị trí tương đối, khoảng của mỗi voxel với nhau giúp xác định được cấu trúc
duy nhất vật thể 3D. Tuy nhiên, đối với mơ hình 3D, việc biểu diễn các voxel khá là
thưa thớt, có nghĩa là ln ln có sự mất mát về mặt thông tin, điều này dẫn đến việc
đánh đổi tài nguyên tính toán và độ chính xác cũng là một thách thức đối với cách
biểu diễn này.

15


Hình 5. Ví dụ về Sparse voxel (Độ thưa thớt giảm dần từ trái qua phải).

2.2.4. Polygon Mesh
Là tập hợp các cạnh, đỉnh và mặt kết hợp với nhau để xác định hình dạng hay
thể tích của một vật thể đa diện. Các mặt đa giác lồi của lưới liên kết với nhau để tạo
ra một bề mặt hình học gần đúng. Tương tự như voxel, lưới cũng có thể được coi là
tập hợp đám mây điểm ba chiều được lấy mẫu từ tập hợp các bề mặt liên tục (độ phức
tạp tương đối thấp hơn). Các mặt lưới có thể là hình tam giác, tứ giác hoặc đa giác
lồi. hông giống như voxels và point cloud, Mesh làm mất các chi tiết bề mặt quan
trọng để tái tạo lại mơ hình bề mặt, Tuy nhiên, Mesh được sử dụng cho nhiều ứng
dụng thực tế. Do đó, xem xét các điểm trên, Polygon mesh dường như thực tế hơn và

biểu diễn tổng hợp tốt hơn so với các định dạng khác.
Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu.
Có nhiều phương pháp ra đời dựa theo các cách biểu diễn loại dữ liệu này:

16


Hình 6. Ví dụ về Mesh.

Volumetric: F Milletari et al. Fully convolutional neural networks for
volumetric medical image segmentation[1]. X Wang et al. Volumetric attention for
3D medical image segmentation and detection[2]. Graham et al. Submanifold sparse
convolutional networks (SSCNs)[3]. Z Zhu et al. A 3D coarse-to-fine framework for
volumetric medical image segmentation[4].
Points: L Tchapmi et al. Segcloud: Semantic segmentation of 3d point
clouds[5]. HY Chiang et al. A unified point-based framework for 3d segmentation[6].
L Landrieu et al. Large-scale point cloud semantic segmentation with superpoint
graphs[7]. C Xu et al. Squeezesegv3: Spatially-adaptive convolution for efficient
point-cloud segmentation[8]. G Te et al. Rgcnn: Regularized graph cnn for point
cloud segmentation[9].
Mesh: D George et al.3D mesh segmentation via multi-branch 1D convolutional
neural networks[10]. G Bui et al.A multi-view recurrent neural network for 3D mesh
segmentation[11]. R Kalfarisi et al. Crack detection and segmentation using deep
learning with 3D reality mesh model for quantitative assessment and integrated
visualization[12]. Q Peng et al. Deep learning-based optimal segmentation of 3D
printed product for surface quality improvement and support structure reduction[13].

17



2.3. 3D deeplearning

Hình 7. Các ứng dụng của các mơ hình trí tuệ nhân tạo 3D.

Những năm gần đây, từ khóa 3D khá là phổ biến trong các hội nghị lớn về trí
tuệ nhân tạo hay thị giác máy tính, Với việc các thiết bị phần cứng càng ngày càng
tiến bộ và tiên tiến, những tri thức hay lý thuyết giờ này khơng cịn là điều viễn vơng,
nhờ vào các thuật tốn học máy, các mơ hinh deep learning 3D ra đời để đã giải quyết
rất nhiều bài tốn hóc búa và phức tạp.

18


Hinh 8. Tần suất xuất hiện từ khóa 3D trong các bài báo ở hội nghị CVPR 2019.

Đối với dữ liệu 3D, việc xác định cách biểu diễn loại dữ liệu là điều thiết yếu.
Có nhiều phương pháp ra đời dựa theo cách biểu diễn loại dữ liệu này:
2.4. Classification
Trong học máy, classification đề cập đế một vấn đề mô hình dự đoán nhãn trong
những nhãn cần phân loại (biết trước) ví dụ:
• Phân loại thư rác.
• Phát hiện ung thư
• Phát hiện viêm võng mạc.

19


Từ góc độ mơ hình hóa, bất kì bài tốn học máy nào cũng cần bộ dữ liệu đủ tốt
để thuật tốn có thể học được những “tri thức” tổng quát chứ không đơn giản chỉ là
ghi nhớ.

Nhiệm vụ là các mơ hình sẽ tìm ra các ánh xạ để chuyển dữ liều vào thành đầu
ra theo những nhãn cụ thể. Khơng có lý thuyết tốt về cách ánh xạ thuật tốn vào các
dạng dữ liệu nào, thay vào đó, họ thực hiện các thử nghiệm được kiểm soát và khám
phá thuật tốn và cấu hình thuật tốn nào mang lại hiệu suất tốt nhất cho một nhiệm
vụ phân loại nhất định trên một bộ dữ liệu nhất định
Thông thường có ba loại nhiệm vụ phân loại chính:
• Phân loại nhị phân (Binary Classification)
• Phân loại đa lớp (Multi-class classification)
• Phân loại mất cân bằng (imbalanced classification)
Hiện nay, hầu hết các thuật toán phần lớp đều trải qua hai giai đoạn: rút trích
đặc trưng (feature extraction), sau đó đưa qua các thuật toán học máy như là SVM,
neural network, logistic regression, Nạve bayes, K-nearest neighbors,.. để phân lớp.
Có nhiều cách tiếp cận khác nhau, trong quá khứ các phương pháp máy học
truyền thống đã từng được sử dụng nhưng nhược điểm của các phương pháp này phụ
thuộc rất nhiều vào cơng đoạn rút trích đặc trưng, các đặc trưng này có thể tốt hoặc
khơng tốt tùy theo dữ liệu và thuật toán sử dụng để huấn luyện nên hiệu suất đạt được
vẫn chưa cao và khó có thể đáp ứng được nhu cầu thực tế. Tuy nhiên, năm 2012 với
sự xuất hiện của AlexNet[14] đã thành một bước đột phá trong thị giác máy tính nói
chung và trong ảnh y tế nói riêng và kiến trúc CNN đã trở thành một cách tiếp cận
phổ biến và đạt được độ hiệu quả và chính xác cao nhờ vào việc bộ rút trích đặc trưng
bây giờ hồn tồn được tự động, các đặc trưng được cải thiện dần dần dựa trên hàm
mục tiêu cần tối ưu.

20


2.5. Object detection
Object detection hay dịch tiếng việt gọi là phát hiện đối tượng, đây là một thuật
ngữ chung để một tả một tập hợp các nhiệm vụ thị giác máy tính liên quan đến phát
hiện và xác định các đối tượng trong ảnh kỹ thuật số.

Classification liên quan đến việc dự đoán nhãn là lớp của một đối tượng trong
ảnh. Object localization đề cập đến việc xác định vị trí của một hoặc nhiều đối tượng
trong ảnh và vẽ các bounding box xung quanh phạm vi của đối tượng đó. Object
detection là kết hợp hai tác vụ này một hoặc nhiều đối tượng trong một hình ảnh.
Tóm lại object detection ban đầu được chia ra làm các nhiệm vụ nhỏ sau đó tổng
hợp lại:
Phân loại ảnh (image classification): Dự đoán kiểu hoặc lớp của một đối tượng
trong ảnh.
• Đầu vào: Một hình ảnh với một đối tượng duy nhất, ví dụ như một bức
ảnh.
• Đầu ra: Một nhãn lớp (ví dụ một hoặc nhiều số nguyên được ánh xạ tới
nhãn lớp).
Bản địa hóa đối tượng (Object localization): Định vị sự hiện diện của các đối
tượng trong một hình ảnh và chỉ ra vị trí của chúng bằng một hộp giới hạn (bounding
box).
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một
bức ảnh.
• Đầu ra: Một hoặc nhiều hộp giới hạn (ví dụ: được xác định bởi một điểm,
chiều rộng và chiều cao).
Phát hiện đối tượng (Object detection): Định vị sự hiện diện của các đối tượng
bằng hộp giới hạn và các lớp của các đối tượng được định vị trong một hình ảnh.
• Đầu vào: Một hình ảnh có một hoặc nhiều đối tượng, chẳng hạn như một
bức ảnh.

21


• Đầu ra: Một hoặc nhiều hộp giới hạn (ví dụ: được xác định bởi một điểm,
chiều rộng và chiều cao) và nhãn lớp cho mỗi hộp giới hạn.
Họ mạng RCNN – phương pháp phát hiện đối tượng 2 giai đoạn, được xem là

phương pháp phát hiện đối tượng ra đời sớm nhất và có hiệu suất khá tốt vào thời
điểm ra đời của thuật tốn này, được mơ tả như sau:
R-CNN[15] (Region with CNN feature): Đây là phiên bản đầu tiên của họ kiến
trúc mạng này, đầu tiên sử dụng thuật toán Selective Search algorithm để lấy ra
khoảng 1800 đến 2000 vùng ảnh có khả năng chứ đối tượng. Sau đó các vùng này
được phân ra là chứa đối tượng hay là background. Sau đó được resize về cùng kích
thước và thực hiện transfer learning với fearture extractor sau đó tiếp tục đưa vào
SVM để phân loại. Hạn chế của R-CNN là thời gian train và test rất lâu không thể
ứng dụng cho real-time.
Fast R-CNN[16]: Khoảng một năm rưỡi sau đó, tác giả của R-CNN, nó giải
quyết được một số vấn đề về thời gian xử lý và test. Tương tự như R-CNN thì Fast
R-CNN vẫn sử dụng selective search để lấy ra các vùng có khả năng chứa đối tượng.
Tuy không tách các vùng này ra khỏi ảnh mà thực hiện phân lớp cho mỗi ảnh. Sau đó
các vùng này được lấy tương ứng từ các convolution feature map rồi được đưa qua
một lớp có tên là Reigion of interest (ROI). Tiếp đó các vùng này được đưa qua mạng
neural network để phân lớp các vùng tọa độ của bounding box.

22


Hình 9: Faster RCNN.

Faster R-CNN[17]: Khơng sử dụng thuật toán Selective Search để lấy ra các
vùng có khả năng chứa đối tượng mà sử dụng một mạng CNN có tên là Region
Proposal Network để tìm ra các vùng đó. Input của RPN là các feature map và output
là các region proposal có hình chữ nhật.
Ở phiên bản này họ sử dụng một định nghĩa mới có tên là Anchor, một Anchor
bảo gồm tọa độ điểm trung tầm và kích thước của hình chữ nhật. Nên sẽ có 4 tham
số sau là (x_center, y_center, width, height).


YOLOv4[18] là mơ hình CNN phát hiện đối tượng một giai đoạn(one stage)
dùng để phát hiện đối tượng được giới thiệu đầu năm 2020, nó đạt được độ chính xác
cao và thời gian dự đoán thấp, phù hợp với các ứng dụng cần thời gian dự đoán nhanh,
hardware yêu cầu tầm trung không cần quá mạnh để train và predict.

23


Kiến trúc:
Gồm 3 phần chính là Backbone, Neck, Head.
Backbone có tác dụng dùng để rút trích những đặc trưng nơng, thơ ( low
feature) như viền góc cạnh của đối tượng, các đặc trưng sâu (deep feature) chính là
các đặc trưng mang ý nghĩa quyết định thông tin ngữ nghĩa của ảnh.
Neck: phần này khắc phục những nhược điểm như việc sử dụng neural network
và CNN
Đối với Neural network đầu vào lúc nào cũng phải cố định một kích thước,
điều này làm cho chúng ta cần phải resize ảnh, hoặc các feature map phải có kích
thước như u cầu, việc như vậy là khơng cần thiết bởi vì như thế sẽ làm mất mát
thơng tin, có thể loại bỏ, làm biến dạng vùng cần phát hiện dẫn tới độ chính xác giảm.
Với CNN thì kích thước cửa sổ trượt thì ln cố định.
Khi ảnh được đưa qua một loạt các lớp CNN các mạng neural, đặc trưng phía
sau được lấy từ những đặc trưng phía trước, tuy nhiên việc đi qua nhiều lớp CNN có
thể làm mất mát thơng tin.
Neck được sinh ra để giải quyết những vấn đề trên.
Output của Neck được fixed về cùng 1 size bất kể kích thước đầu vào ra sao.
Các thông tin của các lớp trước được đưa đến những lớp sau để kết hợp với
nhau.
Hecd: Dùng để dự đoán các tọa độ của bounding box, và bounding box đó
thuộc class nào.
Đây là một phương pháp phát hiện đối tượng một giai đoạn (end to end). Điều

này sẽ giúp việc tối ưu trở nên tốt hơn. Hiện nay có nhiều phiên bản của YOLOv4
được sinh ra, mỗi môi phiên bản là sự thay đổi về kiến trúc đánh đổi giữa tài ngun
tính tốn và hiệu suất của mơ hình.

24


2.6. Segmentation
Một phần mở rộng nữa cho sự phân tích các nhiệm vụ thị giác máy tính này là
phân đoạn đối tượng (object segmentation), còn được gọi là “phân đoạn thể hiện đối
tượng” hoặc “phân đoạn ngữ nghĩa”, trong đó các đối tượng được nhận dạng được
chỉ ra bằng cách phân loại từng pixel cụ thể của đối tượng thay vì một hộp giới hạn
thơ.

Hình 10. Khác biệt giữa object detection và object segmentation.

Phân đoạn hình ảnh được sử dụng nhiều trong xử lý ảnh y khoa vì yêu cầu cần
độ chính xác cao đến từng mm, các thuật toán ra đời nhằm hỗ trợ các y bác sĩ chuẩn
đoán bệnh cho các bệnh nhân ví dụ như phát hiện phân đoạn các khối u, các vùng bị
tổn thương.

25


×