Tải bản đầy đủ (.pdf) (71 trang)

Khóa luận phát hiện đối tượng định hướng trong không ảnh dựa trên học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.34 MB, 71 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM

TRẦN VĂN BẢO

KHĨA LUẬN TỐT NGHIỆP

PHÁT HIỆN ĐỐI TƯỢNG ĐỊNH HƯỚNG TRONG
KHÔNG ẢNH DỰA TRÊN HỌC SÂU
Oriented object detection in aerial images
based on deep learning

KỸ SƯ NGÀNH CƠNG NGHỆ PHẦN MỀM

TP. HỒ CHÍ MINH, 2023


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

TRẦN VĂN BẢO – 18520499

KHÓA LUẬN TỐT NGHIỆP

PHÁT HIỆN ĐỐI TƯỢNG ĐỊNH HƯỚNG TRONG
KHÔNG ẢNH DỰA TRÊN HỌC SÂU
Oriented object detection in aerial images


based on deep learning

KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG

TP. HỒ CHÍ MINH, 2023


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.


LỜI CẢM ƠN

Để hồn thành được khóa luận này, lời đầu tiên, em xin chân thành gửi lời
cảm ơn sâu sắc đến thầy TS. Nguyễn Tấn Trần Minh Khang – giảng viên hướng dẫn
của em trong khóa luận. Thầy đã luôn lo lắng, nhắc nhở, dành sự quan tâm cũng
như hỗ trợ em trong suốt q trình thực hiện khóa luận. Thầy cũng là người đã tạo
cơ hội và là động lực cho em trên con đường học tập và nghiên cứu khoa học. Cùng
với đó, em cũng xin gửi lời cảm ơn đến thầy ThS. Võ Duy Nguyên đã ln giúp đỡ,
hướng dẫn tận tình và sửa chữa, đóng góp nhiều ý kiến q báu giúp em hồn thành
báo cáo khóa luận.
Em xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Công nghệ
Thông tin, quý thầy cơ khoa Cơng nghệ Phần mềm, phịng thí nghiệm Truyền thông
Đa phương tiện MMLab và các anh chị, các bạn đã truyền đạt kiến thức, tạo điều
kiện và hỗ trợ nhiệt tình cho em trong suốt quá trình em theo học tại trường.

Trong q trình thực hiện khóa luận, mặc dù bản thân em đã cố gắng, nỗ lực
hoàn thành nhiệm vụ nhưng sẽ không tránh khỏi những sai sót trong đề tài. Em rất
mong nhận được sự góp ý của q thầy cơ và các bạn để hồn thiện kiến thức, lấy
đó làm hành trang quý báu trong chặng đường sau này.
Một lần nữa, em xin chân thành cảm ơn!
Sinh viên thực hiện
Trần Văn Bảo

TP. Hồ Chí Minh, ngày 03 tháng 07 năm 2023


MỤC LỤC
Chương 1.

TỔNG QUAN ĐỀ TÀI................................................................ 2

1.1. Động lực nghiên cứu ............................................................................ 2
1.2. Phát biểu bài toán ................................................................................. 3
1.3. Thách thức bài toán .............................................................................. 4
1.4. Mục tiêu và phạm vi nghiên cứu ............................................................ 5
1.5. Đóng góp khố luận.............................................................................. 5
1.6. Cấu trúc báo cáo khoá luận.................................................................... 6
Chương 2.

CÁC NGHIÊN CỨU LIÊN QUAN .............................................. 7

2.1. Phát hiện đối tượng .............................................................................. 7
2.1.1.

Giới thiệu ................................................................................... 7


2.1.2.

Phân loại thuật toán phát hiện đối tượng ........................................ 9

2.2. Phương pháp rút trích đặc trưng ảnh dựa trên học sâu ............................ 10
2.2.1.

Mạng học sâu – DNN ................................................................ 11

2.2.2.

Convolutional Neural Network – CNN........................................ 13

2.2.2.1. Tầng tích chập (Convolution layer) ......................................... 14
2.2.2.2. Tầng tổng hợp (Pooling layer)................................................. 15
2.2.2.3. Tầng liên kết đầy đủ (Fully connected layer) ............................ 16
2.3. Các phương pháp phát hiện đối tượng .................................................. 17
2.3.1.

YOLOv3 .................................................................................. 17

2.3.2.

YOLOX ................................................................................... 19

2.3.2.1. Anchor free ........................................................................... 19
2.3.2.2. Decoupled head ..................................................................... 19
2.3.2.3. Multiple positive.................................................................... 20



2.3.3.

PP-YOLOE .............................................................................. 21

2.4. Phương pháp phát hiện đối tượng trong không ảnh ................................ 23
2.4.1.

Oriented RepPoints for Aerial Object Detection - OR ................... 23

2.4.2.

Learning High-Precision Bounding Box for Rotated Object Detection

via Kullback-Leibler Divergence [12] – KLD ............................................ 28
2.4.3.

Fully Convolutional One-Stage Object Detection – FCOS ............ 31

Chương 3.

BỘ DỮ LIỆU KHÔNG ẢNH..................................................... 34

3.1. DOTA - Dataset for Object Detection in Aerial Images.......................... 34
3.2. Các bộ dữ liệu không ảnh tương tự....................................................... 37
Chương 4.

THỰC NGHIỆM VÀ ĐÁNH GIÁ.............................................. 39

4.1. Dữ liệu thực nghiệm ........................................................................... 39

4.2. Mô tả thực nghiệm ............................................................................. 39
4.2.1.

Mô tả quy trình thực nghiệm ...................................................... 39

4.2.2.

Cấu hình thực nghiệm................................................................ 39

4.3. Phương pháp đánh giá ........................................................................ 40
4.3.1.

Intersection over Union ............................................................. 40

4.3.2.

Average Precision (AP) ............................................................. 41

4.3.3.

Mean Average Precision (mAP) ................................................. 42

4.4. Kết quả thực nghiệm và đánh giá ......................................................... 44
4.4.1.

Kết quả thực nghiệm ................................................................. 44

4.4.2.

Trực quan hoá kết quả ............................................................... 45


4.4.3.

Đánh giá kết quả ....................................................................... 46

Chương 5.

ỨNG DỤNG PHÁT HIỆN ĐỐI TƯỢNG.................................... 47

5.1. Giới thiệu .......................................................................................... 47


5.2. Phân tích thiết kế................................................................................ 48
5.2.1.

Thiết kế usecase ........................................................................ 48

5.2.2.

Thiết kế user-flow ..................................................................... 49

5.2.3.

Thiết kế kiến trúc ...................................................................... 49

5.2.4.

Thiết kế giao diện...................................................................... 50

5.3. Chức năng của ứng dụng..................................................................... 53

Chương 6.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................... 58

6.1. Kết luận............................................................................................. 58
6.1.1.

Kết quả .................................................................................... 58

6.1.2.

Khó khăn.................................................................................. 59

6.1.3.

Thuận lợi.................................................................................. 59

6.2. Hướng phát triển ................................................................................ 59


DANH MỤC HÌNH
Hình 1.1 Bài tốn phát hiện đối tượng trong khơng ảnh........................................ 3
Hình 2.1 Các kỹ thuật trong Phát hiện đối tượng.................................................. 7
Hình 2.2 So sánh sự mơ hình two-stage (a) và one-stage (b) ................................. 9
Hình 2.3 Ý tưởng mô phỏng hoạt động của não bộ con người của mạng ANN. .... 11
Hình 2.4 Minh họa kiến trúc mạng nơ-ron sâu................................................... 12
Hình 2.5 Kiến trúc tổng quan của mơ hình CNN................................................ 13
Hình 2.6 Minh họa Convolution Layer. ............................................................ 14
Hình 2.7 Minh họa Pooling Layer .................................................................... 15
Hình 2.8 Minh họa Fully-connected layer,......................................................... 16

Hình 2.9 Kiến trúc mạng Darknet-53................................................................ 17
Hình 2.10 Minh họa hộp giới hạn được dự đoán ở 3 kích thước khác nhau trong
YOLOv3 ....................................................................................................... 18
Hình 2.11 Minh họa sự khác nhau giữa couple head trong kiến trúc YOLOv3 và
decoupled head trong YOLOX được các tác giả đề xuất..................................... 20
Hình 2.12 Minh họa sự khác nhau giữa Single positive và Multiple Positives....... 21
Hình 2.13 Kiến trúc mơ hình của PP-YOLOE ................................................... 22
Hình 2.14 Hình ảnh framework của Oriented RepPoints..................................... 24
Hình 2.15 Hình ảnh kiến trúc mạng FCOS ........................................................ 32
Hình 3.1 Hình ảnh các lớp trong bộ dữ liệu DOTA ............................................ 34
Hình 3.2 Một số hình ảnh trong bộ dữ liệu DOTA ............................................. 36
Hình 4.1 Cơng thức minh họa để tính IoU......................................................... 40
Hình 4.2 Precision and recall. .......................................................................... 42
Hình 4.3 Trực quan hoá kết quả phương pháp OR trên bộ dữ liệu DOTA ............ 45
Hình 4.4 Trực quan hố kết quả cả ba phương pháp trên bộ dữ liệu DOTA .......... 46
Hình 5.1 Sơ đồ usecase ................................................................................... 49
Hình 5.2 Sơ đồ user-flow ................................................................................ 49
Hình 5.3 Sơ đồ kiến trúc ................................................................................. 50
Hình 5.4 Màn hình giao diện chính ban đầu ...................................................... 50


Hình 5.5 Màn hình giao diện sau khi tải ảnh đầu vào ......................................... 51
Hình 5.6 Màn hình giao diện sau khi phát hiện đối tượng ................................... 51
Hình 5.7 Màn hình giao diện khi xem chi tiết ảnh đầu ra .................................... 52
Hình 5.8 Màn hình giao diện khi nhấn tải thơng tin ảnh ..................................... 52
Hình 5.9 Màn hình giao diện khi xem ảnh đầu ra............................................... 53
Hình 5.10 Hình ảnh minh hoạ sử dụng demo..................................................... 53
Hình 5.11 Hình ảnh minh hoạ upload ảnh đầu vào ............................................. 54
Hình 5.12 Hình ảnh minh hoạ bắt đầu phát hiện đối tượng ................................. 54
Hình 5.13 Hình ảnh minh hoạ demo đang xử lý................................................. 55

Hình 5.14 Hình ảnh minh hoạ sau khi phát hiện đối tượng.................................. 55
Hình 5.15 Hình ảnh minh hoạ xem ảnh đầu ra ................................................... 56
Hình 5.16 Hình ảnh minh hoạ xem detail ảnh đầu ra .......................................... 56
Hình 5.17 Hình ảnh minh hoạ download file txt thông tin đối tượng.................... 57


DANH MỤC BẢNG
Bảng 4-1 Kết quả thực nghiệm......................................................................... 44


DANH MỤC TỪ VIẾT TẮT
DOTA

A Large-scale Dataset for Object Detection in Arial Images

UAV

Unmanned Aerial Vehicle

OR

Oriented reppoints for aerial object detection

KLD

Learning High-Precision Bounding Box for Rotated Object
Detection via Kullback-Leibler Divergence

FCOS


Fully Convolutional One-Stage Object Detection


TĨM TẮT KHĨA LUẬN
Phát hiện đối tượng trong khơng ảnh (aerial imagery) là một bài toán quan
trọng trong lĩnh vực xử lý ảnh và trí tuệ nhân tạo. Bài tốn này đặt ra thách thức
trong việc phát hiện và định vị các đối tượng quan trọng trên một bức ảnh chụp từ
trên không. Với sự phát triển của công nghệ cảm biến và thu thập dữ liệu từ vệ tinh,
máy bay không người lái (UAV) và máy bay, chúng ta có sẵn một lượng lớn ảnh
khơng ảnh chất lượng cao. Điều này mở ra cơ hội để áp dụng trí tuệ nhân tạo và các
thuật toán phức tạp để phân tích và phát hiện các đối tượng trên bề mặt đất.
Các phương pháp và thuật toán phát hiện đối tượng trong không ảnh liên tục
được nghiên cứu và phát triển để nâng cao hiệu suất và chính xác của quá trình phân
tích và định vị. Điều này đóng góp vào việc tăng cường khả năng khai thác và tận
dụng thông tin từ ảnh khơng ảnh cho các mục đích ứng dụng đa dạng.
Nội dung khố luận tập trung tìm hiểu bài tốn Phát hiện đối tượng trong
khơng ảnh. Bắt đầu từ tổng quan bài toán, kiến thức và các nghiên cứu liên quan.
Tiếp theo tìm hiểu bộ dữ liệu DOTA – A Large-scale Dataset for Object Detection
in Arial Images [1] và những bộ dữ liệu được dùng cho bài toán tương tự. Giai đoạn
thực nghiệm thực hiện huấn luyện những phương pháp phát hiện đối tượng sử dụng
mạng học sâu trên bộ dữ liệu DOTA. Cuối cùng tổng hợp, so sánh kết quả thực
nghiệm và chọn ra phương pháp tốt hơn để xây dựng demo ứng dụng web phát hiện
đối tượng từ không ảnh sử dụng mạng học sâu.

1


Chương 1.

TỔNG QUAN ĐỀ TÀI


Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán,
các thách thức gặp phải, mục tiêu – phạm vi nghiên cứu và những đóng góp chính
trong khóa luận.
1.1. Động lực nghiên cứu
Học sâu (deep learning) và việc sử dụng phương tiện bay không người lái
(UAV) đã tạo ra nhiều ứng dụng hữu ích trong lĩnh vực phát hiện đối tượng và theo
dõi giao thơng. Dưới đây là một số ví dụ nổi bật về những ứng dụng này:
• Giám sát: Các hệ thống UAV trang bị công nghệ học sâu có thể được sử
dụng để giám sát mơi trường, như giám sát rừng, biển, hoặc các khu vực khó
tiếp cận. Chúng có khả năng phát hiện và theo dõi các sự kiện bất thường,
như cháy rừng, ô nhiễm môi trường, hay hoạt động bất hợp pháp.
• Cứu hộ: UAV có thể được sử dụng trong các hoạt động cứu hộ để tìm kiếm
và cứu người mắc kẹt. Phương pháp học sâu cho phép xây dựng hệ thống
nhận dạng và phân loại các vật thể, như người, phương tiện, hoặc vật nuôi, từ
ảnh chụp bởi UAV. Điều này giúp cải thiện khả năng tìm kiếm và đưa ra
quyết định nhanh chóng trong các tình huống khẩn cấp.
• Theo dõi giao thơng: UAV có thể được sử dụng để giám sát và theo dõi giao
thông trên đường bộ hoặc đường sắt. Hệ thống học sâu có thể nhận diện biển
báo giao thơng, phương tiện di chuyển, và phân tích dữ liệu để cung cấp
thơng tin về tình trạng giao thơng, đảm bảo an tồn và tối ưu hóa quy trình
giao thơng.
• Tự động hóa phương tiện giao thơng: Sử dụng học sâu và UAV, có thể phát
triển các hệ thống tự động hóa phương tiện giao thơng. Chúng có khả năng
nhận dạng và phân tích các tín hiệu giao thơng, giúp đảm bảo an tồn và tăng
tính hiệu quả của giao thơng đơ thị. Hơn nữa, UAV cũng có thể được sử
dụng để giám sát và kiểm sốt phương tiện giao thơng từ trên cao.

2



Những ứng dụng này đều mang lại nhiều lợi ích cho cuộc sống và có tiềm năng
phát triển trong tương lai. Tuy nhiên, cần lưu ý về các vấn đề liên quan đến quyền
riêng tư và an ninh trong việc sử dụng UAV và phân tích dữ liệu từ học sâu.
1.2. Phát biểu bài tốn
Phát hiện đối tượng từ khơng ảnh, tức ảnh chụp bởi thiết bị bay không người lái
(Drone)

Hình 1.1 Bài tốn phát hiện đối tượng trong khơng ảnh

Đầu vào: Không ảnh (ảnh chụp từ Drone)
Đầu ra: Vị trí bounding box và nhãn tương ứng của đối tượng.

3


1.3. Thách thức bài tốn
Thơng qua việc tham khảo, khảo sát về các bài tốn phát hiện đối tượng
trong khơng ảnh, tơi nhận thấy thách thức của bài tốn tương đối đáng kể, đến từ
nhiều yếu tố khác nhau.
Một số thách thức bên ngoài như điều kiện thời tiết xấu có thể ảnh hưởng
trực tiếp đến chất lượng hình ảnh như mật độ sương mờ dày đặc, ánh sáng phân bổ
khơng đều, các góc quay khác nhau cho ra hình dạng của vật thể khác nhau, các khu
vực địa hình mang đặc thù riêng… Ngoài ra, sự rung lắc của UAVs trong q trình
thu thập dữ liệu có thể làm chất lượng ảnh giảm sút hoặc bị nhòe, bị mờ.
Thách thức đến từ bên trong như sự đa dạng về bối cảnh, phân bố đối tượng
giao thông không đồng đều, độ giãn cách khác nhau giữa các loại đối tượng, sự đa
dạng trong hình thái, màu sắc của các đối tượng và các đối tượng có thể che khuất
lẫn nhau.
Mặt khác, về khía cạnh dữ liệu, hình ảnh trong các bộ dữ liệu được chụp ở

nhiều góc cạnh, điều kiện ánh sáng sáng khác nhau, mật độ của các yếu tố như
sương mờ, mưa, khói khơng đồng đều. Việc này dẫn đến hình ảnh bị suy giảm độ
tương phản và độ trung thực của màu sắc. Điều này gây ảnh hưởng nghiêm trọng
đến các tác vụ thị giác trong ảnh, địi hỏi cần có kỹ thuật tiền xử lý ảnh và rút trích
đặc trưng phù hợp.
Thách thức khi ứng dụng thực tiễn, trong thực tế việc phát hiện đối tượng
trong khơng ảnh vẫn cịn nhiều khó khăn do phụ thuộc các yếu tố như mật độ đối
tượng, điều kiện thu nhận của ảnh,... Do đó việc phát hiện đối tượng trong khơng
ảnh vẫn cịn là vấn đề cần nghiên cứu thêm để đưa vào các ứng dụng thực tiễn.

4


1.4. Mục tiêu và phạm vi nghiên cứu
Mục tiêu đề tài:
• Tìm hiểu tổng quan về bài tốn Phát hiện đối tượng từ ảnh chụp bởi
Drone dựa trên nghiên cứu đã được cơng bố (Oriented reppoints for aerial
object detection [2]).
• Tìm hiểu bộ dữ liệu DOTA – A Large-scale Dataset for Object Detection
in Arial Images và khảo sát những bộ dữ liệu được dùng cho bài tốn
tương tự.
• Nghiên cứu và cài đặt thực nghiệm những phương pháp phát hiện đối
tượng sử dụng mạng học sâu trên bộ dữ liệu DOTA.
• Phân tích, so sánh kết quả thực nghiệm của các phương pháp.
• Xây dựng ứng dụng di động demo phát hiện đối tượng từ không ảnh sử
dụng mạng học sâu.
• Tổng hợp, đánh giá kết quả thực nghiệm và viết báo cáo.
Phạm vi nghiên cứu:
• Phạm vi: Tìm hiểu bộ dữ liệu DOTA và khảo sát các bộ dữ liệu tương tự,
nắm rõ kiến trúc các phương pháp phát hiện đối tượng dự định thực

nghiệm.
• Đối tượng: Bài tốn tập trung vào đối tượng từ không ảnh với những đặc
thù riêng về kích thước, hình dạng, mật độ,… xen lẫn với các tác nhân
bên ngồi.
1.5. Đóng góp khố luận
• Giới thiệu bài tốn Phát hiện đối tượng trong khơng ảnh, nghiên cứu liên
quan, xu hướng phát triển của bài toán sử dụng các phương pháp phát hiện
đối tượng dựa trên học sâu.
• Tìm hiểu bộ dữ liệu DOTA và khảo sát những bộ dữ liệu được dùng cho bài
toán tương tự.

5


• Trình bày các phương pháp phát hiện đối tượng trong không ảnh dựa trên
học sâu và thực hiện huấn luyện các phương pháp trên bộ dữ liệu đã tìm
hiểu.
• Tổng hợp kết quả thực nghiệm, đưa ra đánh giá từ đó xây dựng ứng dụng
phát hiện đối tượng trên nền tảng web.
1.6. Cấu trúc báo cáo khoá luận
Báo cáo khóa luận gồm 6 chương với các nội dung như sau:
• Chương 1: Tổng quan đề tài. Giới thiệu về nội dung đề tài bao gồm động
lực nghiên cứu, phát biểu bài toán, thách thức bài toán, mục tiêu, phạm vi
nghiên cứu và đóng góp của khố luận.
• Chương 2: Nghiên cứu liên quan. Trình bày phần tìm hiểu, khảo sát các
hướng nghiên cứu, hướng tiếp cận bài tốn.
• Chương 3: Bộ dữ liệu không ảnh. Giới thiệu bộ dữ liệu không ảnh DOTA
và các bộ dữ liệu được dùng cho những bài tốn tương tự.
• Chương 4: Thực nghiệm và đánh giá. Trình bày quá trình cài đặt thực
nghiệm, các thông số, phương pháp đánh giá và đánh giá kết quả.

• Chương 5: Ứng dụng phát hiện đối tượng. Giới thiệu, phân tích thiết kế
ứng dụng phát hiện đối tượng.
• Chương 6: Kết luận và hướng phát triển. Tổng kết các kết quả đã đạt
được trong đề tài và hướng phát triển của đề tài trong tương lai.

6


Chương 2.

CÁC NGHIÊN CỨU LIÊN QUAN

Trong chương này, tôi sẽ trình bày hướng tiếp cận đối với bài tốn Phát hiện
đối tượng trong khơng ảnh. Thơng qua q trình nghiên cứu, tôi nhận thấy các
phương pháp Phát hiện đối tượng trong ảnh dựa trên học sâu có khả năng được áp
dụng cho bài tốn “Phát hiện đối tượng trong khơng ảnh”. Vì vậy, chương 2 sẽ giới
thiệu các phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu.
2.1. Phát hiện đối tượng
2.1.1. Giới thiệu
Phát hiện đối tượng (Object Detection) là một thuật ngữ dùng để mô tả một
tập hợp các nhiệm vụ thị giác máy tính có liên quan đến việc xác định các đối tượng
trong ảnh kỹ thuật số. Phát hiện đối tượng kết hợp hai nhiệm vụ bao gồm Phân loại
hình ảnh (Classifier) và Định vị đối tượng (Object Localization). Ta có thể phân
loại các kỹ thuật trên như sau:

Hình 2.1 Các kỹ thuật trong Phát hiện đối tượng1.

“ />1

7



• Phân loại hình ảnh (Object Classification): Dự đốn nhãn của một đối
tượng (ơ tơ, chó, mèo, …) trong một hình ảnh. Về cơ bản, kỹ thuật này
trả lời cho câu hỏi “Cái gì ở trong hình?”
o Input: Một hình ảnh với một đối tượng.
o Output: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên được ánh xạ tới
nhãn lớp).
• Định vị đối tượng (Object Localization): Xác định vị trí xuất hiện của các
đối tượng trong ảnh và cho biết vị trí của chúng bằng Bounding box. Kỹ
thuật này trả lời cho câu hỏi “Vật thể nằm ở vị trí nào trong ảnh?”
o Input: Một hình ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều Bounding box được xác định bởi tọa độ tâm,
chiều rộng và chiều cao.
• Phát hiện đối tượng (Object Detection): Xác định vị trí hiện diện của các
đối tượng trong ảnh bằng Bounding box và nhãn của các đối tượng nằm
trong một hình ảnh.
o Input: Một hình ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều Bounding box và nhãn đối tượng tương ứng
với Bounding box đó.
• Phân đoạn thực thể (Instance Segmentation): Thay vì sử dụng Bounding
box để xác định các đối tượng bên trong ảnh, kỹ thuật này cho phép các
thuật tốn phân đoạn có thể trích xuất chính xác hình dạng của đối tượng
từ chính bức ảnh và thể hiện bằng cách làm nổi bật các pixel cụ thể của
từng đối tượng bằng màu sắc khác nhau.

8


2.1.2. Phân loại thuật toán phát hiện đối tượng

Thuật toán Phát hiện đối tượng được chia thành 2 nhóm chính:

Hình 2.2 So sánh sự mơ hình two-stage (a) và one-stage (b)

• Two-stage: bao gồm các phương pháp thuộc họ R-CNN (Region-Based
Convolutional Neural Networks) như Fast R-CNN [3], Faster R-CNN [4],
Mask R-CNN [5]… Các mơ hình two-stage bao gồm có 2 giai đoạn bắt
đầu bằng việc trích chọn (extract) các vùng trên ảnh có khả năng chứa đối
tượng dựa vào các anchor box. Sau đó, ở giai đoạn 2, mơ hình thực hiện
phân loại đối tượng và xác định vị trí bằng cách chia làm 2 nhánh gồm
hồi quy Bounding box (Bounding box Regression) và hồi quy phân loại
(Classifier Regression) tại phần cuối trong kiến trúc của mơ hình. Với
khả năng dự đốn có độ chính xác cao, các mơ hình two-stage thường
được sử dụng trong các bài toán định vị và nhận diện vật thể tĩnh (hình
ảnh) có u cầu không quá cao về tốc độ xử lý.

9


• One-stage (hay còn gọi là single-stage): Bao gồm các mơ hình thuộc họ
YOLO, SSD (Single Shot Detection), Retina... Các mơ hình one-stage
khơng có phần trích chọn các vùng đặc trưng như two-stage. Thay vào
đó, các mơ hình này sẽ coi việc Phát hiện đối tượng như một bài toán
regression và dựa trên pre-defined box hay còn gọi là anchor box để phát
hiện đối tượng. Mặc dù sở hữu tốc độ nhanh hơn các mơ hình two-stage,
độ chính xác của mơ hình single-stage thường kém hơn và chúng được sử
dụng trong các trường hợp nhận dạng đối tượng, đặc biệt là các đối tượng
real-time – tác vụ vốn yêu cầu cao về tốc độ xử lý hơn là độ chính xác.

Phát hiện đối tượng đã được ứng dụng rộng rãi để phát hiện khuôn mặt, phát

hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái. Sự phát triển
của các phương pháp phát hiện đối tượng khơng chỉ đem lại lợi ích cho ngành Cơng
nghệ thơng tin mà cịn cho rất nhiều ngành nghề lĩnh vực khác như quân sự, y tế,
hàng không, …

2.2. Phương pháp rút trích đặc trưng ảnh dựa trên học sâu
Rút trích đặc trưng (Feature Extraction) là một trong những bước cốt lõi
trong quá trình Phát hiện đối tượng, trực tiếp ảnh hưởng đến hiệu quả của các mơ
hình. Một số phương pháp rút trích đặc trưng học sâu sẽ được trình bày trong các
phần sau đây bao gồm:
• Mạng học sâu – DNN
• Convolutional Neural Network – CNN

10


2.2.1. Mạng học sâu – DNN

Hình 2.3 Ý tưởng mơ phỏng hoạt động của não bộ con người của mạng ANN2.

Mạng nơ-ron nhân tạo (Artificial Neural Networks) hay gọi tắt Neural
Networks (NNs) là mạng lưới thần kinh được liên kết đầy đủ giữa các lớp với nhau.
ANN xuất phát từ ý tưởng mô phỏng hoạt động của não bộ con người, cụ thể là nơron thần kinh.
Mạng nơ-ron sâu – mạng học sâu (Deep Neural Network – DNN) là một
mạng nơ-ron nhân tạo (Artificial Neural Networks – ANNs) với một kiến trúc phức
tạp và “sâu” hơn so với mạng nơ-ron nông.
Kiến trúc của mạng nơ-ron sâu tương tự như mạng nơ-ron nhân tạo với 3
thành phần: lớp đầu vào, các lớp ẩn (số lượng các lớp và số lượng nơ-ron trên mỗi
lớp không giới hạn) và lớp đầu ra. Kiến trúc của một mạng học sâu 3 lớp được minh
họa.


2

/>
11


Hình 2.4 Minh họa kiến trúc mạng nơ-ron sâu

Đối với từng node trong các lớp của mạng, độ lớn trọng số của node hiện tại
đang xem xét sẽ là tổng các độ lớn trong số của các node thuộc lớp đầu vào trước
đó và chuyển sang hàm kích hoạt phi tuyến tính để tính tốn trọng số. Các node này
là đầu ra của lớp trước đó và là đầu vào của lớp tiếp theo. Mạng sẽ tính tốn và tối
ưu hóa các trọng số đối với từng nốt trong mạng xun suốt q trình huấn luyện.
Trong các bài tốn liên quan đến xử lý ảnh, DNN sử dụng nhiều lớp để lần
lượt rút trích các đặc trưng từ thấp tới cao. Những lớp thấp sẽ phát hiện góc cạnh
của ảnh, sau đó những đặc trưng này sẽ được truyền tới những lớp cao hơn (sâu
hơn) để phân biệt đối tượng rõ ràng hơn. Mặc dù DNN có khả năng xử lý bài toán
phát hiện đối tượng trong ảnh, nhưng kiến trúc này cũng gặp nhiều trở ngại trong
thời đại hiện nay.

12


2.2.2. Convolutional Neural Network – CNN
Mạng nơ-ron tích chập (cịn gọi là ConvNet/CNN) là một thuật tốn Deep
Learning có thể lấy hình ảnh đầu vào, gán độ quan trọng cho các đặc trưng/đối
tượng khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng/đối tượng
này với nhau. Công việc tiền xử lý được yêu cầu cho mạng nơ-ron tích chập thì ít
hơn nhiều so với các thuật toán phân loại khác. Trong các phương thức sơ khai, các

bộ lọc được thiết kế thủ công, với một quá trình huấn luyện để chọn ra các bộ lọc
phù hợp thì mạng nơ-ron tích chập lại có khả năng tự học để chọn ra các bộ lọc tối
ưu nhất.
Kiến trúc của nơ-ron tích chập tương tự như mơ hình kết nối của các nơ-ron
trong bộ não con người và được lấy cảm hứng từ hệ thống vỏ thị giác trong bộ não
(Visual cortex). Các nơ-ron riêng lẻ chỉ phản ứng với các kích thích trong một khu
vực hạn chế của trường thị giác được gọi là Trường tiếp nhận (Receptive Field).
Một tập hợp các trường như vậy chồng lên nhau bao phủ tồn bộ khu vực thị giác.

Hình 2.5 Kiến trúc tổng quan của mơ hình CNN3

3

/>
13


Mạng nơ-ron tích chập là một trong những phương pháp được áp dụng nhiều
nhất trong lĩnh vực xử lý ảnh (Computer vision) để giải quyết các bài toán như nhận
dạng hình ảnh, phân loại hình ảnh, phát hiện đối tượng, nhận diện khn mặt...
Mơ hình CNN sẽ có kiến trúc gồm các tầng như sau: tầng tích chập
(Convolution), tầng tổng hợp (pooling) dùng để trích xuất đặc trưng và tầng liên kết
đầy đủ (fully connected) dùng để phân lớp đối tượng.
2.2.2.1. Tầng tích chập (Convolution layer)

Hình 2.6 Minh họa Convolution Layer4.
Mục đích của tầng này là trích xuất đặc trưng tương ứng với đầu vào. Mơ
hình sẽ tiến hành chọn 1 bộ lọc để tìm và trích xuất những thơng tin quan trọng từ
dữ liệu đầu vào, đồng thời giảm số chiều cho các lớp ẩn tiếp theo. Các giá trị đầu ra
cho vùng lọc sẽ được tính tốn bằng các hàm kích hoạt (Activated Function). Một

số hàm kích hoạt nổi tiếng thường dùng có thể kể đến như ReLU, Sigmoid… Hiện
nay, hàm ReLU được sử dụng nhiều hơn các hàm còn lại.
Đây là lớp quan trọng nhất của CNN, lớp này có nhiệm vụ thực hiện mọi
cơng việc tính tốn. Những yếu tố quan trọng của một tầng tích chập là: stride,
padding, filter map, feature map. CNN sử dụng các bộ lọc để áp dụng vào vùng của
4

/>
14


×