ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
PHAN THỊ HỒNG CÚC
KHÓA LUẬN TỐT NGHIỆP
NGHIÊN CỨU VÀ ĐÁNH GIÁ PHƯƠNG PHÁP
PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG
TRONG KHÔNG ẢNH
Studying And Evaluating
Vehicle Detection Methods In Aerial Images
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2022
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
PHAN THỊ HỒNG CÚC – 18520260
KHÓA LUẬN TỐT NGHIỆP
NGHIÊN CỨU VÀ ĐÁNH GIÁ PHƯƠNG PHÁP
PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG
TRONG KHÔNG ẢNH
Studying And Evaluating
Vehicle Detection Methods In Aerial Images
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG
TP. HỒ CHÍ MINH, 2022
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành nhất đến thầy TS. Nguyễn
Tấn Trần Minh Khang – giảng viên hướng dẫn của tơi trong khóa luận tốt nghiệp.
Thầy đã luôn quan tâm, nhắc nhở, hỗ trợ tơi trong suốt q trình thực hiện khóa
luận. Thầy cũng là người đã truyền cảm hứng cho tôi trong q trình tơi tham gia
nghiên cứu khoa học.
Ngồi ra, tơi xin cảm ơn thầy ThS. Võ Duy Nguyên cũng như các bạn trong
nhóm nghiên cứu đã ln giúp đỡ, hướng dẫn, sửa chữa và đóng góp nhiều ý tưởng
trong quá trình tơi thực hiện khóa luận, giúp tơi hồn thành tốt báo cáo khóa luận.
Bên cạnh đó, tơi cũng xin gửi lời cảm ơn sâu sắc đến tập thể quý thầy cơ
trường Đại học Cơng Nghệ Thơng Tin nói chung và các q thầy cơ khoa Cơng
Nghệ Phần Mềm, phịng thí nghiệm Truyền thơng Đa phương tiện MMLab nói
riêng đã truyền đạt kiến thức, hỗ trợ cho tôi trong suốt q trình học tập tại trường.
Cuối cùng, tơi muốn gửi lời cảm ơn chân thành nhất đến bố mẹ và những
người trong thân trong gia đình tơi vì đã ln tạo mọi điều kiện và là nguồn động
lực của tôi trong suốt quá trình học tập và làm việc.
Trong quá trình thực hiện sẽ khơng tránh khỏi những sai sót. Tơi mong sẽ
nhận được sự góp ý của q thầy cơ và các bạn để được hồn thiện hơn.
Một lần nữa, tôi xin chân thành cảm ơn!
Sinh viên thực hiện
Phan Thị Hồng Cúc
TP.Hồ Chí Minh, ngày 15 tháng 06 năm 2022
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: NGHIÊN CỨU VÀ ĐÁNH GIÁ PHƯƠNG PHÁP PHÁT HIỆN
PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH
Cán bộ hướng dẫn: TS. Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 28/02/2022 đến tháng 20/06/2022
Sinh viên thực hiện:
Phan Thị Hồng Cúc – 18520260
Nội dung đề tài:
1.
Giới thiệu bài toán
Ngày nay, để xây dựng hệ thống quản lý giao thông thông minh, việc phát hiện
phương tiện giao thông trong ảnh là một phần không thể thiếu. Tuy nhiên, hệ thống
camera giám sát bị hạn chế bởi địa điểm lắp đặt nên việc sử dụng khơng ảnh – hình ảnh
thu được từ các thiết bị bay không người lái (UAV) đang ngày càng được chú trọng. Bởi
chỉ với một vài thiết bị bay, ta có thể cho camera bay qua nhiều địa điểm, thu thập được
lượng lớn hình ảnh từ các độ cao, góc quay, điều kiện thời tiết, ánh sáng khác nhau.
Khơng ảnh có nhiều ứng dụng trong các hệ thống giám sát an ninh, nơng nghiệp, vận
chuyển hàng hóa…
Trong giới nghiên cứu khoa học, bài toán phát hiện phương tiện giao thông trong
không ảnh đang ngày càng phổ biến. Nhiều bộ dữ liệu đã được công bố như UAVDT,
VisDrone… và các cuộc thi như ODAI, VisDrone Challenge được tổ chức để khuyến
khích các nhà nghiên cứu tìm ra các phương pháp xử lý nhằm nâng cao sự chính xác, độ
hiệu quả cho bài tốn.
Bài tốn phát hiện phương tiện giao thơng trong không ảnh nhận đầu vào là ảnh
chụp giao thông được trích xuất từ camera của thiết bị bay khơng người lái và cho ra các
thơng tin về vị trí, tên tương ứng với từng phương tiện giao thơng có trong ảnh đầu vào.
a) Đầu vào
b) Đầu ra
Hình 1. Ảnh minh họa đầu vào và đầu ra của bài toán.
2.
Mục tiêu
Khóa luận này sẽ tìm hiểu bộ dữ liệu khơng ảnh về phương tiện giao thông
UAVDT, nghiên cứu và thực nghiệm các phương pháp phát hiện đối tượng trên bộ dữ
liệu UAVDT. Sau đó, chúng tơi đưa ra các đánh giá, so sánh giữa các phương pháp đã
tìm hiểu. Cuối cùng, dựa trên các nghiên cứu, chúng tôi xây dựng ứng dụng minh họa
cho bài toán phát hiện phương tiện giao thông trong không ảnh.
3.
Phạm vi
Đánh giá độ hiệu quả của các phương pháp học sâu (D2Det, DetectoRS, TOOD,
VarifocalNet, YOLOX…) trên bộ dữ liệu không ảnh UAVDT.
4.
Đối tượng
Ảnh chụp giao thơng đường bộ được trích xuất từ camera của thiết bị bay không
người lái trong bộ dữ liệu UAVDT – cụ thể là bộ UAVDT-Benchmark-M dành cho bài
toán phát hiện đối tượng với 3 lớp đối tượng: car, truck, bus.
5.
Phương pháp thực hiện
− Tìm hiểu tổng quan bài tốn phát hiện đối tượng và tập trung vào phát hiện
phương tiện giao thông.
− Tìm hiểu bộ dữ liệu khơng ảnh về phương tiện giao thơng UAVDT.
− Tìm hiểu về các phương pháp học sâu để ứng dụng cho bài toán phát hiện
phương tiện giao thông trong không ảnh.
− Nghiên cứu và thực nghiệm các phương pháp học sâu trên bộ dữ liệu
UAVDT-Benchmark-M.
− Phân tích và đánh giá độ hiệu quả giữa các phương pháp đã tìm hiểu.
− Xây dựng ứng dụng minh họa phát hiện phương tiện giao thông trong không
ảnh.
6.
Kết quả mong đợi
− Tài liệu tổng hợp về bài toán, bộ dữ liệu UAVDT.
− Tài liệu tổng hợp về thực nghiệm: cách cài đặt môi trường và kết quả.
− Tài liệu phân tích, so sánh và đánh giá các phương pháp đã tìm hiểu.
− Ứng dụng minh họa phát hiện phương tiện giao thông trong không ảnh.
− Bài báo khoa học nộp tại hội nghị quốc gia.
7.
Tài liệu tham khảo
[1] Du, D., Qi, Y., Yu, H., Yang, Y., Duan, K., Li, G., ... & Tian, Q. (2018). The
unmanned aerial vehicle benchmark: Object detection and tracking. In Proceedings of
the European conference on computer vision (ECCV) (pp. 370-386).
[2] Cao, J., Cholakkal, H., Anwer, R. M., Khan, F. S., Pang, Y., & Shao, L.
(2020). D2det: Towards high quality object detection and instance segmentation. In
Proceedings of the IEEE/CVF conference on computer vision and pattern recognition
(pp. 11485-11494).
[3] Qiao, S., Chen, L. C., & Yuille, A. (2021). Detectors: Detecting objects with
recursive feature pyramid and switchable atrous convolution. In Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10213-10224).
[4] Feng, C., Zhong, Y., Gao, Y., Scott, M. R., & Huang, W. (2021). Tood:
Task-aligned one-stage object detection. In Proceedings of the IEEE/CVF International
Conference on Computer Vision (pp. 3510-3519).
[5] Zhang, H., Wang, Y., Dayoub, F., & Sunderhauf, N. (2021). Varifocalnet:
An iou-aware dense object detector. In Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition (pp. 8514-8523).
[6] Ge, Z., Liu, S., Wang, F., Li, Z., & Sun, J. (2021). Yolox: Exceeding yolo
series in 2021. arXiv preprint arXiv:2107.08430.
Kế hoạch thực hiện:
Cơng việc
STT
Giai đoạn 1: Tìm hiểu tổng quan – Từ 28/02/2022 đến 27/03/2022
1
Tìm hiểu bộ dữ liệu UAVDT.
2
Tìm hiểu tổng quan bài toán phát hiện đối tượng và phát hiện phương
tiện giao thơng trong khơng ảnh.
3
Tìm hiểu về các phương pháp học sâu (phát hiện đối tượng) cho bài
toán phát hiện phương tiện giao thông trong không ảnh.
Giai đoạn 2: Chạy thực nghiệm – Từ 28/03/2022 đến 08/05/2022
4
Nghiên cứu và huấn luyện các mơ hình phát hiện đối tượng trên bộ dữ
liệu UAVDT-Benchmark-M.
5
Phân tích, đánh giá kết quả thực nghiệm các mơ hình đã sử dụng.
Giai đoạn 3: Xây dựng ứng dụng minh họa – Từ 09/05/2022 đến 05/06/2022
6
Xây dựng ứng dụng minh họa phát hiện phương tiện giao thơng trong
khơng ảnh.
Giai đoạn 4: Hồn thiện báo cáo – Từ 06/06/2022 đến 20/06/2022
7
Hồn thiện báo cáo khóa luận.
Xác nhận của CBHD
TP. HCM, ngày 24 tháng 02 năm 2022
(Ký tên và ghi rõ họ tên)
Sinh viên
(Ký tên và ghi rõ họ tên)
TS. Nguyễn Tấn Trần Minh Khang
Phan Thị Hồng Cúc
MỤC LỤC
Chương 1. TỔNG QUAN ĐỀ TÀI ...........................................................................2
1.1. Động lực nghiên cứu .....................................................................................2
1.2. Phát biểu bài toán ..........................................................................................3
1.3. Các thách thức ...............................................................................................4
1.4. Mục tiêu và phạm vi nghiên cứu ...................................................................5
1.5. Đóng góp khóa luận .......................................................................................5
1.6. Cấu trúc báo cáo ............................................................................................6
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN .......................................................8
2.1. Thị giác máy tính ...........................................................................................8
2.1.1.
Giới thiệu .............................................................................................8
2.1.2.
Một số bài tốn nổi bật ........................................................................8
2.2. Phát hiện đối tượng ........................................................................................9
2.2.1.
Giới thiệu .............................................................................................9
2.2.2.
Phân loại ............................................................................................10
2.3. Phương pháp rút trích đặc trưng dựa trên học sâu.......................................11
2.3.1.
Deep Neural Network ........................................................................11
2.3.2.
Convolutional Neural Network .........................................................13
2.3.2.1. Giới thiệu .......................................................................................13
2.3.2.2. Convolution layer ..........................................................................13
2.3.2.3. Pooling layer ..................................................................................14
2.3.2.4. Fully connected layer .....................................................................15
2.3.3.
Residual Network ..............................................................................15
2.3.3.1. Giới thiệu .......................................................................................15
2.3.3.2. Vanishing Gradient ........................................................................15
2.3.3.3. Kiến trúc mạng ResNet ..................................................................16
2.4. Phương pháp phát hiện đối tượng dựa trên học sâu ....................................17
2.4.1.
Phương pháp phát hiện đối tượng họ R-CNN ...................................17
2.4.1.1. R-CNN ...........................................................................................18
2.4.1.2. Fast R-CNN ...................................................................................19
2.4.1.3. Faster R-CNN ................................................................................19
2.4.2.
D2Det ................................................................................................22
2.4.2.1. Dense local regression ...................................................................23
2.4.2.2. Discriminative RoI pooling ...........................................................24
2.4.3.
DetectoRS ..........................................................................................25
2.4.3.1. Recursive Feature Pyramid ............................................................26
2.4.3.2. Switchable Atrous Convolution .....................................................27
2.4.4.
TOOD ................................................................................................29
2.4.4.1. Task-aligned Head .........................................................................29
2.4.4.2. Task Alignment Learning ..............................................................31
2.4.5.
VFNet ................................................................................................33
2.4.5.1. IoU-Aware Classification Score ....................................................33
2.4.5.2. Varifocal Loss ................................................................................33
2.4.5.3. Star-Shaped Box Feature Representation ......................................34
2.4.5.4. Bounding Box Refinement ............................................................35
Chương 3. BỘ DỮ LIỆU UAVDT .........................................................................37
3.1. Bộ dữ liệu UAVDT .....................................................................................37
3.2. Bộ dữ liệu UAVDT-Benchmark-M .............................................................38
3.2.1.
Tổng quan ..........................................................................................38
3.2.2.
Annotation .........................................................................................40
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .......................................................42
4.1. Dữ liệu thực nghiệm ....................................................................................42
4.1.1.
Thay đổi cách tổ chức........................................................................42
4.1.2.
Thay đổi định dạng annotation ..........................................................43
4.2. Mô tả thực nghiệm .......................................................................................45
4.2.1.
Mô tả quá trình thực nghiệm .............................................................45
4.2.2.
Cấu hình thực nghiệm .......................................................................46
4.3. Phương pháp đánh giá .................................................................................46
4.3.1.
Intersection over Union .....................................................................46
4.3.2.
AP ......................................................................................................47
4.3.2.1. Confusion matrix ...........................................................................47
4.3.2.2. Precision và Recall ........................................................................48
4.3.2.3. AP và mAP ....................................................................................48
4.4. Kết quả .........................................................................................................49
4.4.1.
Kết quả thực nghiệm phương pháp Faster R-CNN ...........................50
4.4.1.1. Kết quả thực nghiệm ......................................................................50
4.4.1.2. Hình ảnh minh họa.........................................................................51
4.4.2.
Kết quả thực nghiệm phương pháp D2Det ........................................53
4.4.2.1. Kết quả thực nghiệm ......................................................................53
4.4.2.2. Hình ảnh minh họa.........................................................................54
4.4.3.
Kết quả thực nghiệm phương pháp DetectoRS .................................56
4.4.3.1. Kết quả thực nghiệm ......................................................................56
4.4.3.2. Hình ảnh minh họa.........................................................................57
4.4.4.
Kết quả thực nghiệm phương pháp TOOD .......................................59
4.4.4.1. Kết quả thực nghiệm ......................................................................59
4.4.4.2. Hình ảnh minh họa.........................................................................60
4.4.5.
Kết quả thực nghiệm phương pháp VFNet .......................................62
4.4.5.1. Kết quả thực nghiệm ......................................................................62
4.4.5.2. Hình ảnh minh họa.........................................................................63
4.5. Đánh giá .......................................................................................................65
4.5.1.
So sánh...............................................................................................65
4.5.2.
Đánh giá.............................................................................................67
4.6. Ứng dụng Phát hiện phương tiện giao thông trong không ảnh ...................68
4.6.1.
Giới thiệu ...........................................................................................68
4.6.2.
Thiết kế ..............................................................................................69
4.6.2.1. Thiết kế Use case ...........................................................................69
4.6.2.2. Thiết kế user flow ..........................................................................69
4.6.2.3. Thiết kế kiến trúc ...........................................................................69
4.6.2.4. Thiết kế giao diện ..........................................................................70
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................73
5.1. Kết luận ........................................................................................................73
5.1.1.
Kết quả đạt được................................................................................73
5.1.2.
Hạn chế ..............................................................................................73
5.2. Hướng phát triển ..........................................................................................73
DANH MỤC HÌNH
Hình 1.1 Đầu vào và đầu ra của bài tốn. ...................................................................3
Hình 1.2 Một số thách thức của bài tốn. ...................................................................4
Hình 2.1 Ví dụ phân biệt 3 bài tốn của Computer Vision. .....................................10
Hình 2.2 Nơ-ron sinh học. ........................................................................................11
Hình 2.3 Kiến trúc Neural Network. .........................................................................12
Hình 2.4 Nơ-ron trong Neural Network. ...................................................................12
Hình 2.5 Convolutional Neural Network. ................................................................13
Hình 2.6 Ví dụ đầu vào của Convolution layer.........................................................13
Hình 2.7 Ví dụ minh họa q trình hoạt động của Convolution layer. ....................14
Hình 2.8 Residual block. ...........................................................................................16
Hình 2.9 Mạng CNN truyền thống và mạng ResNet. ...............................................17
Hình 2.10 Kiến trúc của R-CNN. ..............................................................................18
Hình 2.11 Kiến trúc của Fast R-CNN. ......................................................................19
Hình 2.12 Kiến trúc của Faster R-CNN. ...................................................................20
Hình 2.13 Region Proposal Network. .......................................................................20
Hình 2.14 Kiến trúc của D2Det.................................................................................22
Hình 2.15 Dense local regression..............................................................................23
Hình 2.16 Discriminative RoI Pooling. ....................................................................24
Hình 2.17 Adaptive Weighted Pooling. ....................................................................25
Hình 2.18 Feature Pyramid Network. .......................................................................26
Hình 2.19 Recursive Feature Pyramid. .....................................................................27
Hình 2.20 Switchable Atrous Convolution. ..............................................................28
Hình 2.21 Minh họa cách chuyển đổi lớp tích chập thành SAC. ..............................28
Hình 2.22 Task-aligned head. ...................................................................................29
Hình 2.23 Kiến trúc VFNet. ......................................................................................33
Hình 2.24 Minh họa Star-Shaped Box Feature Representation. ...............................34
Hình 3.1 Một số ảnh của bộ dữ liệu UAVDT. ..........................................................37
Hình 3.2 Bảng tóm tắt các bộ dữ liệu liên quan. (Hình cắt từ bài báo gốc)..............38
Hình 4.1 Minh họa định dạng annotation mới. .........................................................43
Hình 4.2 Q trình thực nghiệm. ..............................................................................45
Hình 4.3 Minh hoạ cách tính IoU..............................................................................46
Hình 4.4 Mẫu confusion matrix với bài tốn phân loại có 3 lớp. .............................47
Hình 4.5 Cách tính Precision và Recall. ...................................................................48
Hình 4.6 Minh họa vùng mà cơng thức tính AP tính tốn. .......................................49
Hình 4.7 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN. ........51
Hình 4.8 Ảnh minh họa kết quả dự đoán kém của các mơ hình Faster R-CNN. ......52
Hình 4.9 Ảnh minh họa kết quả dự đốn tốt của các mơ hình D2Det. .....................54
Hình 4.10 Ảnh minh họa kết quả dự đoán kém của các mơ hình D2Det. ................55
Hình 4.11 Ảnh minh họa kết quả dự đốn tốt của các mơ hình DetectoRS. ............57
Hình 4.12 Ảnh minh họa kết quả dự đoán kém của các mơ hình DetectoRS. ..........58
Hình 4.13 Ảnh minh họa kết quả dự đốn tốt của các mơ hình TOOD. ...................60
Hình 4.14 Ảnh minh họa kết quả dự đoán kém của các mơ hình TOOD. ................61
Hình 4.15 Ảnh minh họa kết quả dự đốn tốt của các mơ hình Faster R-CNN. ......63
Hình 4.16 Ảnh minh họa kết quả dự đốn kém của các mơ hình Faster R-CNN. ....64
Hình 4.17 Mơ tả use case tổng quát cho ứng dụng VEDAI......................................69
Hình 4.18 User flow tổng quát của ứng dụng VEDAI. .............................................69
Hình 4.19 Kiến trúc ứng dụng VEDAI. ....................................................................69
Hình 4.20 Màn hình trang chủ. .................................................................................70
Hình 4.21 Màn hình detect. .......................................................................................70
Hình 4.22 Màn hình detect – sau khi upload ảnh......................................................71
Hình 4.23 Màn hình detect – Sau khi detect thành cơng. .........................................71
Hình 4.24 Màn hình history. .....................................................................................72
Hình 4.25 Màn hình History detail. ..........................................................................72
DANH MỤC BẢNG
Bảng 3.1 Mô tả ý nghĩa định dạng annotation cho Truy vết nhiều đối tượng. .........40
Bảng 3.2 Mô tả ý nghĩa định dạng annotation cho Phát hiện đối tượng. ..................41
Bảng 4.1 Mô tả ý nghĩa định dạng annotation mới. ..................................................45
Bảng 4.2 Kết quả thực nghiệm Faster R-CNN. (Kết quả cao nhất được in đậm).....50
Bảng 4.3 Kết quả thực nghiệm D2Det. (Kết quả cao nhất được in đậm) .................53
Bảng 4.4 Kết quả thực nghiệm DetectoRS. (Kết quả cao nhất được in đậm) ..........56
Bảng 4.5 Kết quả thực nghiệm TOOD. (Kết quả cao nhất được in đậm) .................59
Bảng 4.6 Kết quả thực nghiệm VFNet. (Kết quả cao nhất được in đậm) .................62
Bảng 4.7 Tổng hợp kết quả tốt nhất của các phương pháp. (Kết quả cao nhất được
in đậm).......................................................................................................................65
DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
STT
Ý nghĩa
1
ANN
Artificial Neural Network
2
AP / mAP
Average Precision / mean Average Precision
3
ASPP
Atrous Spatial Pyramid Pooling
4
AWP
Adaptive Weighted Pooling
5
BCE
Binary Cross Entropy
6
CNN
Convolutional Neural Network
7
DNN
Deep Neural Network
8
FC
Fully connected
9
FPN
Feature Pyramid Network
10
IACS
Iou-Aware Classification Score
11
IoU
Intersection over Union
12
NN
Neural Network
13
R-CNN
Regions with Convolutional Neural Network
14
ResNet
Residual Network
15
RFP
Recursive Feature Pyramid
16
RoI
Region of Interest
17
RPN
Region Proposal Network
18
SAC
Switchable Atrous Convolution
19
TAL
Task Alignment Learning
20
TAP
Task-aligned Predictor
21
TOOD
Task-aligned one-stage object detection
22
UAV
Unmanned aerial vehicle (drone)
23
UAVDT
24
VFNet
Unmanned Aerial Vehicle Benchmark Object
Detection and Tracking
VarifocalNet
TĨM TẮT KHĨA LUẬN
Phát hiện phương tiện giao thơng trong khơng ảnh là một bài tốn thuộc bài
tốn Phát hiện đối tượng trong lĩnh vực Thị giác máy tính. Đây là bài toán phổ biến
trong giới nghiên cứu khoa học bởi UAV đang ngày được chú trọng trong nhiều
lĩnh vực cũng như việc sử dụng hình ảnh thu được từ camera của UAV giúp tránh
được các hạn chế của camera an ninh.
Trong đề tài này, tơi tìm hiểu, nghiên cứu các phương pháp phát hiện đối
tượng state-of-the-art: Faster R-CNN (2016) [1], D2Det (2020) [2], DetectoRS
(2021) [3], TOOD (2021) [4], VFNet (2021) [5]. Đồng thời, tôi thực nghiệm các
phương pháp này cho đối tượng phương tiện giao thông trong miền dữ liệu không
ảnh, cụ thể là trên bộ dữ liệu UAVDT (2018) [6]. Qua kết quả chạy thực nghiệm,
tôi đưa ra đánh giá đầy đủ, chi tiết về các phương pháp đã thực hiện.
Trong phạm vi nghiên cứu, tôi chỉ thực nghiệm với bộ dữ liệu UAVDTBenchmark-M vì đây là bộ dữ liệu dùng cho bài toán Phát hiện đối tượng và Truy
vết nhiều đối tượng. Ngoài ra, các phương pháp mà tơi thực nghiệm đều sử dụng
framework mmdetection.
Ngồi ra, trong q trình chuẩn bị cho khóa luận, tơi đã có đóng góp bài báo
“Phát hiện phương tiện giao thơng trong khơng ảnh với nhiều tình huống khác
nhau” cho Hội thảo Quốc gia lần thứ XXIV về Điện tử, Truyền thông và Công nghệ
Thông tin – REV-ECIT 2021 với kết quả thực nghiệm sử dụng D2Det với backbone
ResNet50 và ResNet101 được huấn luyện trong vòng 24 epoch:
D2Det (AP@50)
Backbone
daylight
lowalt
birdview
daylight–lowalt–birdview
ResNet50
23.0
59.6
17.8
76.9
ResNet101
22.1
35.4
24.3
71.1
1
Chương 1.
TỔNG QUAN ĐỀ TÀI
Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các
thách thức gặp phải, mục tiêu – phạm vi và những đóng góp chính của đề tài.
1.1. Động lực nghiên cứu
Với sự phát triển mạnh mẽ của công nghệ, nhiều dự án xây dựng thành phố
thông minh đã và đang được nghiên cứu rộng rãi. Một trong những yếu tố góp phần
hiện thực điều ấy là việc xây dựng nên hệ thống quản lý hoạt động giao thông thông
minh. Trong đó, việc phát hiện phương tiện giao thơng trong ảnh là một phần khơng
thể thiếu bởi nó giúp ta giám sát, phân tích hành vi của người tham gia giao thơng,
cải thiện tình trạng ùn tắc, tính tốn lưu lượng giao thông phục vụ cho các lĩnh vực
liên quan… Để nâng cao độ chính xác của bài tốn, ta cần phải có một lượng lớn dữ
liệu hình ảnh mà cách thức thu thập phổ biến nhất hiện tại là sử dụng hệ thống
camera an ninh. Tuy nhiên, việc lắp đặt hệ thống camera an ninh dẫn đến các hạn
chế về địa điểm, tầm nhìn, góc quay, các điều kiện ngoại cảnh (thời tiết, ánh
sáng…) mà chỉ có thể cải thiện bằng cách lắp đặt hệ thống camera phức tạp tại
nhiều địa điểm. Song, cách giải quyết này vẫn phải phụ thuộc vào các cơng trình
xây dựng của khu vực đó. Chính vì vậy, phát hiện phương tiện giao thơng trong
khơng ảnh – hình ảnh thu được từ trên khơng bằng các thiết bị bay không người lái
đang ngày càng được nhiều nhà nghiên cứu quan tâm và phát triển. Bởi chỉ với một
hoặc một vài thiết bị bay không người lái, ta có thể dễ dàng cho camera bay qua
nhiều địa điểm, thu thập được lượng lớn hình ảnh từ các độ cao, góc quay, điều kiện
ngoại cảnh khác nhau, từ đó giúp giảm chi phí lắp đặt cũng như thời gian thực hiện.
Phát hiện phương tiện giao thông trong khơng ảnh có thể áp dụng vào nhiều
lĩnh vực trong cuộc sống. Về giám sát giao thơng, bài tốn giúp phát hiện và theo
dõi phương tiện giao thơng, tính tốn lưu lượng phương tiện để đưa ra các phương
pháp cải thiện vấn đề giao thông như ùn tắc, tai nạn.... Về quân sự, bài toán giúp ta
phát hiện phương tiện lạ đang di chuyển vào khu vực trọng điểm, bí mật của quân
đội, phương tiện chiến đấu trên chiến trường. Ngồi ra, việc tính tốn lưu lượng
2
giao thông giúp các doanh nghiệp lựa chọn được vị trí xây dựng địa điểm kinh
doanh hiệu quả cũng như lựa chọn các vị trí đặt bảng quảng cáo phù hợp để tiếp cận
đúng khách hàng mục tiêu.
Ngoài ra, trong giới nghiên cứu khoa học, bài toán phát hiện phương tiện
giao thông trong không ảnh đang ngày càng phổ biến. Nhiều bộ dữ liệu đã được
công bố như: VEDAI (2016) [7], UAVDT (2018) [6], VisDrone (2018) [8]... và các
cuộc thi như ODAI (2018) [9], VisDrone Challenge… được tổ chức nhằm khuyến
khích giới nghiên cứu tìm ra các phương pháp nâng cao độ hiệu quả cho bài toán.
Như vậy, trong thời đại công nghệ phát triển mạnh mẽ như hiện nay, bài tốn
phát hiện phương tiện giao thơng trong khơng ảnh không chỉ là một nhiệm vụ quan
trọng trong lĩnh vực giám sát giao thơng mà cịn tác động đến nhiều lĩnh vực khác
trong cuộc sống và được nhiều nhà nghiên cứu quan tâm. Đồng thời, với việc ngày
càng xuất hiện nhiều phương pháp học sâu state-of-the-art được nhiều nhà nghiên
cứu phát triển đã thúc đẩy tôi nghiên cứu thực hiện đề tài “Nghiên cứu và đánh giá
phương pháp phát hiện phương tiện giao thông trong không ảnh”.
1.2. Phát biểu bài tốn
a) Đầu vào
b) Đầu ra
Hình 1.1 Đầu vào và đầu ra của bài toán. [6]
Bài toán phát hiện phương tiện giao thông trong không ảnh (Vehicle
detection in aerial images) nhận đầu vào là ảnh chụp giao thơng (.jpg, .png) được
trích xuất từ camera của UAV và cho ra các thông tin cơ bản tương ứng với từng
3
phương tiện giao thơng có trong ảnh đầu vào, bao gồm vị trí và nhãn của loại
phương tiện quan tâm (Hình 1.1).
1.3. Các thách thức
Trước đây, UAV thường được sử dụng trong lĩnh vực quân sự và chỉ mới
được ứng dụng rộng rãi trong các lĩnh vực dân sự trong các năm gần đây nên thực tế
là bài toán phát hiện phương tiện giao thơng trong khơng ảnh vẫn cịn khá mới mẻ.
Do đó, bài tốn đang phải đối mặt với nhiều thách thức.
Về dữ liệu, giống với bài toán phát hiện phương tiện giao thông trong ảnh,
ảnh thu được từ camera trên UAV cũng phụ thuộc vào kích thước, hình dạng
phương tiện, địa điểm, thời tiết, ánh sáng,... Chẳng hạn như với các ảnh thu được ở
góc quay cao hoặc trong điều kiện ánh sáng phức tạp như trời tối, sương mù... sẽ
khó phân biệt đối tượng. Tuy nhiên, ảnh thu được từ UAV còn chịu ảnh hưởng bởi
tốc độ của thiết bị. Khi UAV chuyển động nhanh, một số đối tượng trong ảnh mà
camera thu được có thể sẽ bị mờ.
a) Góc quay cao
b) Trời tối
c) Sương mù
d) Đối tượng bị mờ
Hình 1.2 Một số thách thức của bài toán [6]
4
Về phương pháp, hiện nay có rất nhiều cơng bố sử dụng các kiến trúc mạng
học sâu khác nhau, song tính chính xác trên mỗi mạng là khác nhau và các mạng
này thường được thực nghiệm trên các bộ dữ liệu tổng quát cho bài toán Phát hiện
đối tượng (MS COCO, Pascal VOC,…). Đồng thời, việc bài toán phát hiện phương
tiện giao thơng trong khơng ảnh vẫn cịn khá mới mẻ đòi hỏi ta cần nghiên cứu và
thực nghiệm nhiều để tìm ra phương pháp hiệu quả.
1.4. Mục tiêu và phạm vi nghiên cứu
Trong phạm vi đề tài này, tôi sẽ tập trung nghiên cứu các vấn đề sau:
• Tìm hiểu tổng quan bài toán phát hiện đối tượng và tập trung vào đối
tượng phương tiện giao thông trên miền dữ liệu khơng ảnh.
• Tìm hiểu tổng quan bộ dữ liệu không ảnh về phương tiện giao thông
UAVDT [2] và tập trung vào bộ dữ liệu UAVDT-Benchmark-M dành
cho bài toán Phát hiện đối tượng.
• Tìm hiểu về các phương pháp học sâu (phát hiện đối tượng) state-ofthe-art để ứng dụng vào bài tốn phát hiện phương tiện giao thơng
trong khơng ảnh: Faster R-CNN, D2Det, DetectoRS, TOOD, VFNet.
• Cài đặt thực nghiệm các phương pháp Faster R-CNN, D2Det,
DetectoRS, TOOD, VFNet trên bộ dữ liệu UAVDT-benchmark-M.
• Phân tích, đánh giá và so sánh các phương pháp dựa trên kết quả thu
được từ các mơ hình đã huấn luyện.
• Lựa chọn mơ hình tốt nhất trong các mơ hình đã huấn luyện để xây
dựng ứng dụng demo.
• Tổng hợp nội dung đã thực hiện và viết báo cáo.
1.5. Đóng góp khóa luận
Các đóng góp của đề tài bao gồm:
• Đóng góp về lý thuyết:
5
o Hệ thống lại các kiến thức tổng quan về lĩnh vực Thị giác máy
tính và bài tốn phát hiện đối tượng.
o Hệ thống lại các kiến thức về một số phương pháp rút trích đặc
trưng dựa trên học sâu.
o Hệ thống lại các kiến thức về phương pháp phát hiện đối tượng
họ R-CNN, D2Det, DetectoRS, TOOD, VFNet.
• Đóng góp về thực nghiệm:
o Huấn luyện các mơ hình Faster R-CNN, D2Det, DetectoRS,
TOOD, VFNet trên bộ dữ liệu UAVDT-benchmark-M.
o Đánh giá mơ hình trên tập test và trên từng thuộc tính của bộ
dữ liệu UAVDT-Benchmark-M để có đánh giá chi tiết về kết
quả thực nghiệm các mơ hình state-of-the-art cho bài tốn phát
hiện phương tiện giao thơng trong khơng ảnh.
o Kết quả mơ hình được sử dụng để phát triển thành ứng dụng
minh họa phát hiện các phương tiện giao thông car, truck, bus
trong khơng ảnh.
• Đóng góp về nghiên cứu khoa học:
o Phan Thị Hồng Cúc, Nguyễn Thành Hiệp, Võ Duy Nguyên,
Nguyễn Tấn Trần Minh Khang, “Phát hiện phương tiện giao
thơng trong khơng ảnh với nhiều tình huống khác nhau”. Hội
thảo Quốc gia lần thứ XXIV về Điện tử, Truyền thông và Công
nghệ Thông tin – REV-ECIT 2021. (Đã được đăng)
1.6. Cấu trúc báo cáo
Báo cáo được trình bày trong 5 chương, nội dung được tóm tắt như sau:
• Chương 1: Tổng quan đề tài. Giới thiệu về đề tài gồm động lực
nghiên cứu, phát biểu bài toán, các thách thức, mục tiêu và phạm vi
nghiên cứu cũng như trình bày về các đóng góp chính của đề tài.
6
• Chương 2: Các nghiên cứu liên quan. Trình bày tổng quan về Thị
giác máy tính, bài tốn phát hiện đối tượng, các kiến thức học sâu liên
quan: các phương pháp rút trích đặc trưng dựa trên học sâu, các
phương pháp phát hiện đối tượng dựa trên học sâu.
• Chương 3: Bộ dữ liệu UAVDT. Trình bày tổng quan về bộ dữ liệu
UAVDT và chi tiết hơn về UAVDT-Benchmark-M dành cho bài tốn
phát hiện phương tiện giao thơng trong khơng ảnh.
• Chương 4: Thực nghiệm và đánh giá. Trình bày về quá trình thực
nghiệm, phương pháp đánh giá và phân tích kết quả.
• Chương 5: Kết luận và hướng phát triển. Tổng kết kết quả đạt
được trong đề tài cũng như hướng phát triển trong tương lai.
7
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN
Nội dung chương này sẽ trình bày tổng quan về các bài tốn phát hiện đối tượng
trong Thị giác máy tính, các kiến thức học sâu liên quan: các phương pháp rút trích
đặc trưng dựa trên học sâu, các phương pháp phát hiện đối tượng dựa trên học sâu.
2.1. Thị giác máy tính
2.1.1.
Giới thiệu
Thị giác máy tính (Computer Vision) là một lĩnh vực cho phép máy tính lấy
thơng tin có nghĩa từ hình ảnh, video… và thực hiện hành động hoặc đưa ra đề xuất
dựa trên thơng tin đó. Nếu như Trí tuệ nhân tạo (Artificial Intelligence) cho phép
máy tính suy nghĩ thì Thị giác máy tính cho phép chúng nhìn, quan sát và hiểu.
Thị giác máy tính hoạt động giống như thị giác của con người. Thị giác của
con người có lợi thế về thời gian tồn tại để huấn luyện cách phân biệt các vật thể,
chúng ở khoảng cách bao xa, chúng có đang chuyển động hay khơng và liệu có điều
gì đó sai trong ảnh hay khơng. Thị giác máy tính huấn luyện máy móc thực hiện
những chức năng này nhưng nó phải làm điều đó trong thời gian ngắn hơn bằng dữ
liệu và thuật toán bởi một hệ thống được huấn luyện để kiểm tra sản phẩm hoặc
theo dõi dây chuyền sản xuất có thể phân tích hàng nghìn sản phẩm hoặc quy trình
mỗi phút, nhận thấy các lỗi hoặc vấn đề khơng thể nhìn thấy. Nó có thể nhanh
chóng vượt qua khả năng của con người.
2.1.2.
Một số bài toán nổi bật
Một số bài toán phổ biến trong lĩnh vực Computer Vision:
• Phân loại ảnh (Image classification): là một bài tốn với mục đích dự
đốn lớp của đối tượng trong ảnh.
• Định vị đối tượng (Object localization): là một bài tốn với mục đích
xác định vị trí của một hoặc nhiều đối tượng trong ảnh và vẽ bounding
box xung quanh đối tượng.
8