Tải bản đầy đủ (.pdf) (74 trang)

Tìm hiểu phương pháp d2det cho bài toán phát hiện phương tiện giao thông trong không ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.57 MB, 74 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021

Tên đề tài tiếng Việt:
TÌM HIỂU PHƯƠNG PHÁP D2DET CHO BÀI TOÁN
PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH
Tên đề tài tiếng Anh:

LEARNING TO USE D2DET FOR
VEHICLE DETECTION IN AERIAL IMAGES

Khoa/ Bộ môn: Công nghệ phần mềm
Thời gian thực hiện: 06 tháng
Cán bộ hướng dẫn: Ths. Võ Duy Nguyên
Tham gia thực hiện
TT

Họ và tên, MSSV

1. Phan Thị Hồng Cúc,
18520260

Chịu trách
nhiệm
Chủ nhiệm

Điện thoại


Email

0868775576

Thành phố Hồ Chí Minh – Tháng 03/2022


ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Ngày nhận hồ sơ
Mã số đề tài
(Do CQ quản lý ghi)

BÁO CÁO TỔNG KẾT

Tên đề tài tiếng Việt:
TÌM HIỂU PHƯƠNG PHÁP D2DET CHO BÀI TOÁN
PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH
Tên đề tài tiếng Anh:
LEARNING TO USE D2DET FOR
VEHICLE DETECTION IN AERIAL IMAGES

Ngày ... tháng ...... năm ....
Cán bộ hướng dẫn
(Họ tên và chữ ký)

Ngày ... tháng ...... năm ....
Sinh viên chủ nhiệm đề tài
(Họ tên và chữ ký)


Võ Duy Nguyên

Phan Thị Hồng Cúc


THƠNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thơng tin chung:
- Tên đề tài: Tìm hiểu phương pháp D2Det cho bài tốn phát hiện phương tiện
giao thông trong không ảnh.
- Chủ nhiệm: Phan Thị Hồng Cúc.
- Thành viên tham gia: Không.

- Cơ quan chủ trì: Trường Đại học Cơng nghệ Thơng tin.
- Thời gian thực hiện: 06 tháng.
2. Mục tiêu:
Trong phạm vi đề tài, chúng tôi sẽ tập trung giải quyết các vấn đề sau:
- Tìm hiểu tổng quan bài tốn phát hiện đối tượng.
- Tìm hiểu tổng quan bộ dữ liệu UAVDT và tập trung vào bộ dữ liệu dành cho
bài tốn phát hiện đối tượng UAVDT-benchmark-M.
- Tìm hiểu về phương pháp phát hiện đối tượng D2Det để ứng dụng vào bài
tốn phát hiện phương tiện giao thơng trong khơng ảnh.

- Huấn luyện mơ hình D2Det trên bộ dữ liệu UAVDT-benchmark-M.
- Đánh giá mơ hình trên tập test và các ảnh thuộc trường hợp cụ thể: daylight,
low-alt, bird-view của bộ dữ liệu UAVDT-benchmark-M.
3. Tính mới và sáng tạo:
Dựa trên khảo sát ban đầu, chúng tơi lựa chọn tìm hiểu phương pháp D2Det
cho bài tốn phát hiện phương tiện giao thơng trong khơng ảnh vì đây là một trong
các phương pháp phát hiện đối tượng cho kết quả tốt trên bộ dữ liệu UAVDT – bộ

dữ liệu chứa các ảnh chụp phương tiện giao thông từ trên không. Trong bài báo
công bố D2Det, tác giả đã sử dụng mơ hình D2Det được huấn luyện trên bộ dữ
liệu COCO để đánh giá trên bộ dữ liệu UAVDT. Vì vậy, trong đề tài này, chúng
tơi huấn luyện mơ hình trên tập train và đánh giá trên tập test và các ảnh thuộc
trường hợp daylight, low-alt, bird-view của bộ dữ liệu UAVDT-benchmark-M.
Đây cũng chính là điểm mới của đề tài.
4. Tóm tắt kết quả nghiên cứu:
- Báo cáo tổng quan về bài toán phát hiện đối tượng.
- Báo cáo về bộ dữ liệu UAVDT và UAVDT-benchmark-M.
- Báo cáo tổng hợp về phương pháp D2Det và các lý thuyết liên quan.


- Mơ hình D2Det được huấn luyện trên bộ dữ liệu UAVDT-benchmark-M.
- Báo cáo về kết quả chạy thực nghiệm mơ hình trên tập test và các ảnh thuộc
trường hợp cụ thể: daylight, low-alt,
bird-view của bộ dữ liệu UAVDTMỤC LỤC
benchmark-M.
5. Tên sản phẩm:
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Độ chính xác của mơ hình huấn luyện chưa cao. Tuy nhiên, đối với trường
hợp low-alt và trường hợp có cả 3 thuộc tính daylight, low-alt, birdview thì mơ
hình cho kết quả tương đối tốt. Do đó, mơ hình có thể được triển khai thơng qua
API để dự đốn các ảnh thuộc trường hợp trên.
7. Hình ảnh, sơ đồ minh họa chính

DANH MỤC HÌNH
Hình 1-1: Tổng quan về Đầu ra (a) – Đầu vào (b) của bài toán. Đầu vào của bài toán
là tài liệu ở dạng ảnh, đầu ra là vị trí của bảng có thể có trong ảnh - các hộp giới hạn
Chủ trì
nhiệm đềnot

tài defined.
màu xanh lá Cơ
cây.quan
........................................................
Error!Chủ
Bookmark
(ký, họ và tên, đóng dấu)
(ký, họ và tên)
Hình 1-2: Một số ví dụ về sự đa dạng về hình dạng và kích thước của bảng ... Error!
Bookmark not defined.
Hình 1-3: Một số ví dụ minh họa về sự giao thoa vị trí bảngError! Bookmark not
defined.
Hình 2-1: Minh họa các phương pháp biến đổi hình ảnh tài liệu. a) là ảnh gốc, b) là
ảnh giãn nở đã biến đổi và c) là ảnh bị nhịe đã biến đổiError!

Bookmark

not

defined.
Hình 2-2: Ví dụ phân biệt các kỹ thuật trong Computer VisionError!

Bookmark

not defined.
Hình 2-3: Tổng quan về trích xuất đặc trưng HOG trong bài báo gốc [5]........ Error!
Bookmark not defined.
Hình 2-4: Kiến trúc mạng nơ ron sâu.[6] .................. Error! Bookmark not defined.



MỤC LỤC
Chương 1.

TỔNG QUAN ĐỀ TÀI .....................................................................14

1.1. Động lực nghiên cứu ...................................................................................14
1.1.1.

Giới thiệu chung ................................................................................14

1.1.2.

Tính khoa học ....................................................................................15

1.1.3.

Tính ứng dụng ...................................................................................15

1.2. Phát biểu bài toán ........................................................................................16
1.3. Các thách thức .............................................................................................16
1.4. Mục tiêu và phạm vi đề tài ..........................................................................17
1.5. Đóng góp của đề tài .....................................................................................17
1.6. Cấu trúc báo cáo ..........................................................................................18
Chương 2.

CÁC NGHIÊN CỨU LIÊN QUAN ..................................................19

2.1. Computer Vision..........................................................................................19
2.1.1.


Giới thiệu ...........................................................................................19

2.1.2.

Một số bài toán nổi bật ......................................................................19

2.2. Object Detection ..........................................................................................20
2.2.1.

Giới thiệu ...........................................................................................20

2.2.2.

Phân loại ............................................................................................21

2.3. Neural Network ...........................................................................................22
2.4. Convolutional Neural Network ...................................................................24
2.4.1.

Giới thiệu ...........................................................................................24

2.4.2.

Convolution Layer .............................................................................24

2.4.3.

Pooling Layer ....................................................................................28

2.4.4.


Fully connected layer ........................................................................28


2.5. ResNet .........................................................................................................29
2.5.1.

Giới thiệu ...........................................................................................29

2.5.2.

Vanishing Gradient ............................................................................30

2.5.3.

Kiến trúc mạng ResNet .....................................................................30

2.6. RoI pooling ..................................................................................................31
2.7. RoIAlign ......................................................................................................34
2.8. Deformable RoI Pooling ..............................................................................36
2.9. Feature Pyramid Network ............................................................................37
Chương 3.

PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN HỌC SÂU
...........................................................................................................39

3.1. Phương pháp phát hiện đối tượng họ R-CNN .............................................39
3.1.1.

R-CNN (Region with CNN feature) ..................................................39


3.1.2.

Fast R-CNN .......................................................................................40

3.1.3.

Faster R-CNN ....................................................................................41

3.1.3.1. Tổng quan ......................................................................................42
3.1.3.2. RPN................................................................................................43
3.1.3.3. Fast R-CNN ...................................................................................46
3.2. D2Det...........................................................................................................47
3.2.1.

Tổng quan ..........................................................................................47

3.2.2.

Dense local regression .......................................................................48

3.2.3.

Discriminative RoI pooling ...............................................................49

3.2.4.

Kết quả thực nghiệm .........................................................................51

Chương 4.


BỘ DỮ LIỆU UAVDT-BENCHMARK-M .....................................53

4.1. Bộ dữ liệu UAVDT .....................................................................................53


4.2. Bộ dữ liệu UAVDT-Benchmark-M .............................................................54
4.2.1.

Tổng quan ..........................................................................................54

4.2.2.

Annotation .........................................................................................55

Chương 5.

THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................58

5.1. Quá trình thực nghiệm .................................................................................58
5.1.1.

Dữ liệu thực nghiệm ..........................................................................58

5.1.1.1. Thay đổi cách tổ chức của bộ dữ liệu ............................................58
5.1.1.2. Thay đổi định dạng annotation của bộ dữ liệu ..............................59
5.1.2.

Quá trình thực nghiệm .......................................................................61


5.1.2.1. Cấu hình thực nghiệm ....................................................................61
5.1.2.2. Mơ tả q trình thực nghiệm .........................................................61
5.2. Phương pháp đánh giá .................................................................................62
5.2.1.

Intersection over Union .....................................................................62

5.2.2.

Confusion matrix ...............................................................................63

5.2.3.

Precision và Recall ............................................................................64

5.2.4.

AP ......................................................................................................65

5.3. Kết quả .........................................................................................................66
5.3.1.

Kết quả thực nghiệm .........................................................................66

5.3.1.1. Mơ hình D2Det sử dụng backbone ResNet50 kết hợp với FPN ...66
5.3.1.2. Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN .67
5.3.2.

Hình ảnh minh họa ............................................................................67


5.3.2.1. Mơ hình D2Det sử dụng backbone ResNet50 kết hợp với FPN ...67
5.3.2.2. Mơ hình D2Det sử dụng backbone ResNet101 kết hợp với FPN .68
5.3.3.

Đánh giá kết quả ................................................................................69


Chương 6.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................71

6.1. Kết luận ........................................................................................................71
6.2. Hạn chế ........................................................................................................71
6.3. Hướng phát triển ..........................................................................................71
TÀI LIỆU THAM KHẢO .........................................................................................72


DANH MỤC HÌNH
Hình 1.1 Input – output của bài tốn. .......................................................................16
Hình 1.2 Thách thức của bài tốn .............................................................................17
Hình 2.1 Ví dụ phân biệt 3 bài tốn của Computer Vision. .....................................21
Hình 2.2 Nơ-ron sinh học. ........................................................................................22
Hình 2.3 Kiến trúc Neural Network. ........................................................................23
Hình 2.4 Nơ-ron trong Neural Network. ..................................................................23
Hình 2.5 Convolutional Neural Network. .................................................................24
Hình 2.6 Cấu trúc tổng quát của Convolution layer. ................................................25
Hình 2.7 Ví dụ đầu vào của Convolution layer.........................................................25
Hình 2.8 Ví dụ minh họa q trình hoạt động của Convolution layer. .....................26
Hình 2.9 Ví dụ minh họa Max Pooling .....................................................................28
Hình 2.10 Fully connected layer. ..............................................................................29

Hình 2.11 Residual block. .........................................................................................30
Hình 2.12 Mạng CNN truyền thống và mạng ResNet. .............................................31
Hình 2.13 Feature map của ví dụ. .............................................................................32
Hình 2.14 Ví dụ minh họa sau khi ánh xạ proposal lên feature map. .......................33
Hình 2.15 Ví dụ minh họa chia proposal thành các vùng tương ứng với kích thước
của output cho trước ..................................................................................................33
Hình 2.16 Kết quả thu được của ví dụ. .....................................................................34
Hình 2.17 Minh họa chia vùng của RoIAlign. ..........................................................34
Hình 2.18 Ví dụ minh họa chia vùng của RoIAlign. ...............................................35
Hình 2.19 Ví dụ minh họa quá trình xác định 4 điểm mẫu của RoIAlign. ..............35
Hình 2.20 Ví dụ minh họa kết quả sau khi max pooling của RoIAlign. ..................36
Hình 2.21 Deformable RoI Pooling. .........................................................................36
Hình 2.22 Feature Pyramid Network. .......................................................................37
Hình 2.23 Minh họa đường đi theo bottom-up và top-down. ...................................38
Hình 3.1 Kiến trúc của R-CNN. ................................................................................39
Hình 3.2 Kiến trúc của Fast R-CNN. ........................................................................40


Hình 3.3 Kiến trúc của Faster R-CNN. .....................................................................42
Hình 3.4 Kiến trúc của RPN. ...................................................................................43
Hình 3.5 RPN trong bài báo gốc. ..............................................................................44
Hình 3.6 Ví dụ minh họa về anchor ứng với một cửa sổ trượt. ...............................44
Hình 3.7 Score của anchor được classification layer dự đốn. ................................45
Hình 3.8 Anchor được điều chỉnh bởi bounding-box regression layer. ....................45
Hình 3.9 Sự khác biệt giữa Fast R-CNN và Faster R-CNN. ...................................46
Hình 3.10 Kiến trúc của D2Det.................................................................................47
Hình 3.11 Dense local regression..............................................................................48
Hình 3.12 Discriminative RoI Pooling. ....................................................................50
Hình 3.13 Adaptive Weighted Pooling. ....................................................................50
Hình 4.1 Một số ảnh của bộ dữ liệu UAVDT. .........................................................53

Hình 5.1 Minh họa định dạng annotation mới. ........................................................59
Hình 5.2 Quy trình thực nghiệm. ..............................................................................62
Hình 5.3 Minh hoạ cách tính IoU..............................................................................63
Hình 5.4 Mẫu confusion matrix với bài tốn phân loại có 3 lớp. .............................63
Hình 5.5 Cách tính Precision và Recall. ...................................................................64
Hình 5.6 Bảng quan sát giá trị Precision và Recall. ..................................................65
Hình 5.7 Minh họa vùng mà cơng thức tính AP tính tốn. .......................................65
Hình 5.8 Kết quả dự đốn của mơ hình D2Det sử dụng ResNet50 kết hợp FPN. ....68
Hình 5.9 Kết quả dự đốn của mơ hình D2Det sử dụng ResNet101 kết hợp FPN. ..69


DANH MỤC BẢNG
Bảng 2.1 Một số bộ lọc phổ biến. .............................................................................28
Bảng 3.1 Kết quả trên bộ dữ liệu MS COCO test-dev. .............................................52
Bảng 3.2 Kết quả trên bộ dữ liệu UAVDT. ..............................................................52
Bảng 4.1 Tóm tắt các bộ dữ liệu liên quan. ..............................................................54
Bảng 4.2 Mô tả ý nghĩa định dạng annotation dành cho bài tốn MOT. ..................56
Bảng 4.3 Mơ tả ý nghĩa định dạng annotation dành cho bài toán DET. ...................57
Bảng 5.1 Mô tả ý nghĩa định dạng annotation mới. ..................................................61
Bảng 5.2 Kết quả dự đoán của D2Det sử dụng ResNet50 kết hợp FPN...................66
Bảng 5.3 Kết quả dự đoán của D2Det sử dụng ResNet101 kết hợp FPN.................67


DANH MỤC TỪ VIẾT TẮT
AP

Average Precision

CNN


Convolutional Neural Networks

Fast R-CNN

Fast Region-based Convolutional Network

Faster R-CNN

Faster Region-based Convolutional Network

NN

Neural Networks

ResNet

Residual Network

RoI

Region of Interest

RPN

Region Proposal Network

UAVDT

Unmanned Aerial Vehicle Benchmark Object Detection and
Tracking



TĨM TẮT
Phát hiện phương tiện giao thơng trong khơng ảnh là một bài toán thuộc bài toán
Phát hiện đối tượng (Object Detection) trong lĩnh vực Thị giác máy tính (Computer
Vision).
Trong đề tài này, chúng tôi tập trung vào việc nghiên cứu và thực nghiệm
phương pháp D2Det [1] với bộ dữ liệu UAVDT-Benchmark-M. Bộ dữ liệu gồm
40,735 frame ảnh từ 50 video trong số 100 video của bộ dữ liệu UAVDT [2] với 3
nhãn: car, truck, bus. Phương pháp D2Det mà chúng tơi sử dụng thực nghiệm cho bài
tồn là phiên bản sử dụng mmdetetection 2.1.0.

13


Chương 1.

TỔNG QUAN ĐỀ TÀI

Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các
thách thức gặp phải, mục tiêu – phạm vi và những đóng góp chính của đề tài.
1.1. Động lực nghiên cứu
1.1.1.

Giới thiệu chung

Với sự phát triển mạnh mẽ của công nghệ, nhiều dự án xây dựng thành phố
thông minh đã và đang được nghiên cứu rộng rãi. Một trong những yếu tố góp phần
hiện thực điều ấy là việc xây dựng nên hệ thống quản lý hoạt động giao thông thơng
minh. Trong đó, việc phát hiện phương tiện giao thơng trong ảnh là một phần khơng

thể thiếu bởi nó giúp ta giám sát, phân tích hành vi của người tham gia giao thơng,
cải thiện tình trạng ùn tắc, tính tốn lưu lượng giao thông phục vụ cho các lĩnh vực
liên quan…
Để nâng cao độ chính xác của bài tốn, ta cần phải có một lượng lớn dữ liệu
hình ảnh mà cách thức thu thập phổ biến nhất hiện tại là sử dụng hệ thống camera
giám sát. Tuy nhiên, việc lắp đặt hệ thống camera giám sát cố định dẫn đến các hạn
chế về địa điểm, tầm nhìn, góc quay, các điều kiện ngoại cảnh (thời tiết, ánh sáng…)
tác động đến chất lượng hình ảnh mà chỉ có thể cải thiện bằng cách lắp đặt hệ thống
camera giám sát phức tạp tại nhiều vị trí. Song, cách giải quyết này vẫn phụ thuộc
vào các cơng trình xây dựng của khu vực đó. Chính vì vậy, phát hiện phương tiện
giao thơng trong khơng ảnh – hình ảnh thu từ trên khơng bằng các thiết bị bay không
người lái (UAV) đang ngày càng được nhiều nhà nghiên cứu quan tâm và phát triển.
Chỉ với một hoặc một vài thiết bị bay không người lái, ta có thể dễ dàng cho camera
bay qua nhiều địa điểm, thu thập được lượng lớn hình ảnh từ các độ cao, góc quay,
điều kiện ngoại cảnh khác nhau, từ đó giúp giảm chi phí lắp đặt cũng như thời gian
thực hiện.

14


1.1.2.

Tính khoa học

Bài tốn phát hiện phương tiện giao thơng trong không ảnh đang ngày càng
phổ biến trong giới nghiên cứu khoa học. Nhiều bộ dữ liệu đã được công bố như:
VEDAI [3] (2016), UAVDT [2] (ECCV 2018), VisDrone [4] (2018) ... và các cuộc
thi như ODAI [5] (ICPR 2018), VisDrone Challenge… được tổ chức nhằm khuyến
khích các nhà nghiên cứu tìm ra các phương pháp nâng cao độ hiệu quả cho bài tốn.
1.1.3.


Tính ứng dụng

Phát hiện phương tiện giao thơng trong khơng ảnh có thể được áp dụng vào
nhiều lĩnh vực trong cuộc sống:
− Giám sát giao thông:
o Phát hiện và theo dõi phương tiện giao thơng.
o Tính tốn lưu lượng phương tiện để đưa ra các phương pháp cải thiện
vấn đề giao thông như ùn tắc, tai nạn...
o Phát hiện sự bất thường của các phương tiện giao thông như đi sai làn
đường, đi vào đường cấm...
− Quân sự:
o Phát hiện phương tiện lạ vào khu vực trọng điểm, bí mật của quân đội.
o Phát hiện phương tiện chiến đấu trên chiến trường.
o Hỡ trợ dự đốn hướng di chuyển của phương tiện để xây dựng phịng
tuyến.
− Ngồi ra, việc tính tốn lưu lượng giao thơng giúp:
o Các doanh nghiệp lựa chọn được vị trí đặt bảng quảng cáo phù hợp để
tiếp cận đúng khách hàng mục tiêu.
o Các chủ cửa hàng, nhà hàng, khách sạn... lựa chọn được vị trí xây dựng
cửa hàng hiệu quả.

15


1.2. Phát biểu bài tốn
Đề tài trình bày nội dung liên quan đến lĩnh vực thị giác máy tính và đơ thị
thơng minh trong tương lai:
− Bài tốn phát hiện phương tiện giao thông trong không ảnh (Vehicle detection
in aerial images):

o Đầu vào (input): Ảnh chụp giao thông (.jpg, .png) được trích xuất từ
camera của thiết bị bay khơng người lái.
o Đầu ra (output): Các thông tin cơ bản tương ứng với từng phương tiện
có trong ảnh đầu vào gồm vị trí và nhãn của loại phương tiện quan tâm.

a) Đầu vào

b) Đầu ra

Hình 1.1 Input – output của bài toán.
1.3. Các thách thức
Về dữ liệu, một số ảnh của bộ dữ liệu UAVDT [2] có mật độ đối tượng cao,
đối tượng nhỏ, đối tượng bị mờ do sự chuyển động nhanh của thiết bị bay, địi hỏi
cần có kỹ thuật tiền xử lý ảnh và rút trích đặc trưng phù hợp.
Về phương pháp, hiện nay có rất nhiều cơng bố sử dụng các kiến trúc mạng
CNN khác nhau (LeNet, AlexNet, VGG, ResNet…) hoặc các mạng được tùy chỉnh,
tính chính xác trên mỗi mạng là khác nhau và cần phải nghiên cứu, tùy chỉnh để đạt
được kết quả cao nhất. Điều này đòi hỏi cần nghiên cứu sâu và kỹ để tìm ra phương
pháp mang lại kết quả cao nhất.
Về tính ứng dụng, trong thực tế việc phát hiện phương tiện giao thông phải đối
mặt nhiều thách thức khi phụ thuộc vào các yếu tố kích thước, hình dạng phương tiện,

16


thời tiết, ánh sáng... Chẳng hạn như với các ảnh thu được ở góc quay cao hoặc trong
điều kiện ánh sáng phức tạp như trời tối, sương mù... sẽ khó phân biệt đối tượng.

a) Góc quay cao


b) Trời tối

c) Sương mù

Hình 1.2 Thách thức của bài tốn
1.4. Mục tiêu và phạm vi đề tài
Trong phạm vi đề tài này, chúng tôi sẽ tập trung giải quyết các vấn đề sau:
− Tìm hiểu tổng quan bài tốn phát hiện đối tượng.
− Tìm hiểu tổng quan bộ dữ liệu UAVDT [2] và tập trung vào bộ dữ liệu dành
cho bài toán phát hiện đối tượng UAVDT-benchmark-M.
− Tìm hiểu về phương pháp phát hiện đối tượng D2Det [1] để ứng dụng vào bài
toán phát hiện phương tiện giao thông trong không ảnh.
− Huấn luyện mơ hình D2Det trên bộ dữ liệu UAVDT-benchmark-M.
− Đánh giá mơ hình trên tập test và các ảnh thuộc trường hợp cụ thể: daylight,
low-alt, bird-view của bộ dữ liệu UAVDT-benchmark-M.
1.5. Đóng góp của đề tài
Các đóng góp của đề tài chúng tôi bao gồm:
− Hệ thống lại các kiến thức về bài toán phát hiện đối tượng.
− Hệ thống lại các kiến thức Deep Learning liên quan gồm: NN, CNN, ResNet,
Deformable RoI Pooling, Faster R-CNN, D2Det...
− Huấn luyện mô hình D2Det trên bộ dữ liệu UAVDT-benchmark-M.
− Đánh giá mơ hình trên tập test và các ảnh thuộc trường hợp cụ thể: daylight,
low-alt, bird-view của bộ dữ liệu UAVDT-benchmark-M.

17


1.6. Cấu trúc báo cáo
Đề tài được trình bày trong 6 chương, nội dung chính được tóm tắt như sau:
− Chương 1: Tổng quan đề tài. Giới thiệu về đề tài gồm: động lực nghiên cứu,

phát biểu bài toán, các thách thức, mục tiêu và phạm vi đề tài cũng như trình
bày về các đóng góp chính của đề tài.
− Chương 2: Các nghiên cứu liên quan. Trình bày về các cơ sở lý thuyết,
nghiên cứu liên quan đến đề tài.
− Chương 3: Phương pháp phát hiện đối tượng dựa trên học sâu. Trình bày
về các phương pháp phát hiện đối tượng thuộc họ R-CNN – phương pháp tiêu
biểu trong nhóm phương pháp sử dụng anchor và D2Det – phương pháp dựa
trên nhóm phương pháp này.
− Chương 4: Bộ dữ liệu UAVDT-Benchmark-M. Trình bày tổng quan về bộ
dữ liệu UAVDT và chi tiết hơn về UAVDT-Benchmark-M dành cho bài toán
mà chúng tôi đề cập trong đề tài.
− Chương 5: Thực nghiệm và đánh giá. Trình bày tổng quát về quá trình thực
nghiệm, phương pháp đánh giá và kết quả.
− Chương 6: Kết luận và hướng phát triển. Tổng kết kết quả đạt được trong
đề tài cũng như hướng phát triển trong tương lai.

18


Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN
Nội dung chương này sẽ trình bày về các nghiên cứu, lý thuyết liên quan đến đề tài
của chúng tôi.
2.1. Computer Vision
2.1.1.

Giới thiệu

Thị giác máy tính (Computer Vision) là một lĩnh vực cho phép máy tính lấy
được thơng tin có nghĩa từ hình ảnh, video… và thực hiện hành động hoặc đưa ra đề
xuất dựa trên thơng tin đó. Nếu như Trí tuệ nhân tạo (Artificial Intelligence – AI) cho

phép máy tính suy nghĩ thì Thị giác máy tính cho phép chúng nhìn, quan sát và hiểu.
Thị giác máy tính hoạt động giống như thị giác của con người. Thị giác của
con người có lợi thế về thời gian tồn tại để huấn luyện cách phân biệt các vật thể,
chúng ở khoảng cách bao xa, chúng có đang chuyển động hay khơng và liệu có điều
gì đó sai trong ảnh hay khơng. Thị giác máy tính huấn luyện máy móc thực hiện
những chức năng này nhưng nó phải làm điều đó trong thời gian ngắn hơn võng mạc,
dây thần kinh thị giác và vỏ não thị giác bằng dữ liệu và thuật toán bởi một hệ thống
được huấn luyện để kiểm tra sản phẩm hoặc theo dõi dây chuyền sản xuất có thể phân
tích hàng nghìn sản phẩm hoặc quy trình mỡi phút, nhận thấy các lỡi hoặc vấn đề
khơng thể nhìn thấy, nó có thể nhanh chóng vượt qua khả năng của con người.
Thị giác máy tính được ứng dụng trong nhiều ngành cơng nghiệp từ các ngành
năng lượng và tiện ích cho đến các ngành sản xuất chế tạo. Thị trường của lĩnh vực
này vẫn đang tiếp tục phát triển, dự kiến sẽ đạt đến 48.6 tỷ đô vào năm 2022.
2.1.2.

Một số bài toán nởi bật

Một số bài tốn phổ biến trong lĩnh vực Computer Vision:
− Phân loại ảnh (Image classification): là một bài tốn với mục đích dự đốn
lớp của đối tượng trong ảnh.

19


− Định vị đối tượng (Object localization): là một bài tốn với mục đích xác định
vị trí của một hoặc nhiều đối tượng trong ảnh và vẽ bounding box xung quanh
đối tượng.
− Phát hiện đối tượng (Object detection): là một bài toán kết hợp giữa phân loại
ảnh và định vị đối tượng, cụ thể là xác định vị trí, vẽ bounding box cho một
hoặc nhiều đối tượng trong ảnh và cho biết chúng thuộc lớp nào.

− Truy vết đối tượng (Video object tracking): là một bài tốn với mục đích xác
định vị trí của một hoặc nhiều đối tượng trong mỡi khung hình của video.
2.2. Object Detection
2.2.1.

Giới thiệu

Phát hiện đối tượng (Object detection) là một thuật ngữ chung để mô tả một
tập hợp các nhiệm vụ thị giác máy tính có liên quan đến việc xác định các đối tượng
trong ảnh kỹ thuật số. Phát hiện đối tượng kết hợp hai bài toán Phân loại ảnh và Định
vị đối tượng và thực hiện cho một hoặc nhiều đối tượng trong ảnh. Ta có thể phân
biệt 3 bài tốn trên thơng qua đầu vào (input) và đầu ra (output) của chúng như sau:
− Phân loại ảnh (Image classification): dự đoán lớp của đối tượng trong ảnh.
o Input: Một ảnh với một đối tượng.
o Output: Nhãn lớp của đối tượng.
− Định vị đới tượng (Object localization): Xác định vị trí hiện diện của các đối
tượng trong ảnh và cho biết vị trí của chúng bằng bounding box.
o Input: Một ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều bounding box được xác định bởi tọa độ tâm,
chiều rộng và chiều cao.
− Phát hiện đối tượng (Object detection): Xác định vị trí hiện diện của các đối
tượng bằng bounding box và cho biết nhãn của các đối tượng đó trong ảnh.
o Input: Một ảnh có một hoặc nhiều đối tượng.
o Output: Một hoặc nhiều bounding box và nhãn của mỗi bounding box.

20


Hình 2.1 Ví dụ phân biệt 3 bài tốn của Computer Vision. 1
2.2.2.


Phân loại

Các phương pháp giải quyết bài toán Phát hiện đối tượng được chia thành 2
nhóm chính:
− Phương pháp phát hiện đối tượng 1 giai đoạn (one-stage/single-stage object
detection/detector): Đây là phương pháp mà trong việc thiết kế mô hình khơng
có phần trích xuất các vùng có khả năng chứa đối tượng (RoI) như RPN của
Faster-RCNN. Các mơ hình 1 giai đoạn xem việc định vị đối tượng như 1 bài
tốn regression (với 4 thơng số, ví dụ như x, y, w, h) và cũng dựa trên các
anchor để phát hiện đối tượng. Các mơ hình loại này thường nhanh nhưng độ
chính xác lại kém hơn phương pháp 2 giai đoạn và thường được dùng để nhận
dạng đối tượng. Mơ hình tiêu biểu: You Only Look Once (YOLO), Single
Shot MultiBox Detector (SSD), RetinaNet…
− Phương pháp phát hiện đối tượng 2 giai đoạn (two-stage object
detection/detector): Đây là phương pháp mà mơ hình sẽ thực hiện 2 phần gồm
trích xuất các vùng trên ảnh có khả năng chứa đối tượng dựa vào các anchor
box, sau đó sẽ thực hiện tiếp phân loại đối tượng và xác định vị trí nhờ vào
việc chia làm 2 nhánh tại phần cuối của mơ hình (Object Classification và
Bounding Box Regression). Các mơ hình này được dùng để giải quyết các bài
1

Nguồn: />
21


tốn định vị và nhận diện vật thể tĩnh (hình ảnh) do u cầu cao về độ chính
xác nhưng khơng u cầu q cao về tốc độ. Mơ hình tiêu biểu: Region-Based
Convolutional Neural Networks (Các mơ hình thuộc họ R-CNN).
2.3. Neural Network

Mạng nơ-ron nhân tạo (Artificial neural network – ANN) hay cịn gọi là Neural
network (NN) là một mơ hình lấy cảm hứng từ mạng nơ-ron thần kinh, hoạt động
theo hướng mô tả hoạt động của hệ thần kinh với các nơ-ron được kết nối với nhau.

Hình 2.2 Nơ-ron sinh học. 1
Một mạng NN gồm 3 tầng:
− Tầng vào (input layer): Là tầng bên trái cùng của mạng, thể hiện cho các đầu
vào của mạng.
− Tầng ra (output layer): Là tầng bên phải cùng của mạng, thể hiện cho các đầu
ra của mạng.
− Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra, thể hiện cho
việc suy luận logic của mạng.

1

Nguồn: />
22


a) Mạng NN với 1 tầng ẩn

b) Mạng NN với 2 tầng ẩn

Hình 2.3 Kiến trúc Neural Network. 1

Hình 2.4 Nơ-ron trong Neural Network. 1
Trong mạng NN, mỗi nút là một sigmoid nơ-ron nhưng hàm kích hoạt của
chúng có thể khác nhau. Tuy nhiên trong thực tế người ta thường để chúng cùng dạng
với nhau để tính tốn cho thuận lợi. Ở mỗi tầng, số lượng các nút mạng (nơ-ron) có
thể khác nhau tuỳ thuộc vào bài tốn và cách giải quyết. Nhưng khi làm việc, người

ta thường để các tầng ẩn có số lượng nơ-ron bằng nhau. Ngồi ra, các nơ-ron ở các

1

Nguồn: />
23


tầng thường được liên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (fullyconnected network).
2.4. Convolutional Neural Network
2.4.1.

Giới thiệu

Mạng nơ-ron tích chập (Convolutional neural network – CNN) là một trong
những mơ hình học sâu (Deep learning) tiên tiến. Mỗi ảnh đầu vào của mạng CNN
sẽ được truyền qua các lớp Convolution với các bộ lọc (Kernals), lớp Pooling, các
lớp được kết nối đầy đủ (fully connected layers – FC) và áp dụng hàm Softmax để
phân loại đối tượng với xác suất trong khoảng từ 0 đến 1.

Hình 2.5 Convolutional Neural Network.
2.4.2.

Convolution Layer

Lớp tích chập là lớp đầu tiên trích xuất các đặc trưng từ ảnh đầu vào. Lớp tích
chập duy trì mối quan hệ giữa các pixel thông qua việc học các đặc trưng của ảnh
bằng cách sử dụng các ô vuông nhỏ của dữ liệu đầu vào. Nó là 1 phép tốn có 2 đầu
vào là ma trận ảnh và 1 bộ lọc hoặc kernel.


24


Hình 2.6 Cấu trúc tổng quát của Convolution layer.
Xét 1 ma trận 5 × 5 có giá trị pixel là 0 và 1 và ma trận bộ lọc 3 × 3 như
hình bên dưới.

Hình 2.7 Ví dụ đầu vào của Convolution layer
Q trình tích chập của ma trận hình ảnh 5 × 5 với bộ lọc 3 × 3 được thể
hiện ở hình bên dưới. Ma trận thu được từ quá trình này được gọi là Feature Map.

25


×