ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM
TRẦN TUẤN MINH
KHĨA LUẬN TỐT NGHIỆP
PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH
CHỨA SƯƠNG MỜ DỰA TRÊN HỌC SÂU
Object detection in foggy aerial images
based on deep learning
KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM
TP. HỒ CHÍ MINH, 2022
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
TRẦN TUẤN MINH - 18520314
KHĨA LUẬN TỐT NGHIỆP
PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH
CHỨA SƯƠNG MỜ DỰA TRÊN HỌC SÂU
Object detection in foggy aerial images
based on deep learning
KỸ SƯ NGÀNH CÔNG NGHỆ PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG
TP. HỒ CHÍ MINH, 2022
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
…………………… ngày ………………….. của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
LỜI CẢM ƠN
Để hồn thành được khóa luận này, lời đầu tiên, tôi xin chân thành gửi lời
cảm ơn sâu sắc đến thầy TS. Nguyễn Tấn Trần Minh Khang – giảng viên hướng
dẫn của tơi trong khóa luận. Thầy đã luôn quan tâm, lo lắng, nhắc nhở cũng như
hỗ trợ tơi trong suốt q trình thực hiện khóa luận. Thầy cũng là người đã tạo cơ
hội và động lực cho tôi trên con đường học tập và nghiên cứu khoa học. Đồng
thời, tôi cũng xin gửi lời cảm ơn đến thầy ThS. Võ Duy Nguyên đã luôn giúp
đỡ, hướng dẫn, sửa chữa và đóng góp nhiều ý kiến quý báu giúp tơi hồn thành
báo cáo khóa luận.
Tơi xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Công nghệ
Thông tin, các quý thầy cô khoa Công nghệ Phần mềm và phịng thí nghiệm
Truyền thơng Đa phương tiện MMLab đã truyền đạt kiến thức, hỗ trợ nhiệt tình
và tạo điều kiện cho tơi trong suốt q trình tơi học tập tại trường.
Bên cạnh đó, tơi xin gửi lời cảm ơn chân thành đến các anh chị, các bạn
thành viên trong nhóm nghiên cứu đã ln đồng hành, giúp đỡ và động viên tơi
trong suốt q trình tơi thực hiện khóa luận này.
Cuối cùng, tơi muốn gửi lời cảm ơn chân thành nhất đến gia đình tơi –
những người đã luôn động viên, giúp đỡ và là niềm cảm hứng của tơi trong mọi
chặng đường.
Trong q trình thực hiện khóa luận, mặc dù tơi đã cố gắng hồn thành
một cách chỉnh chu nhất nhưng sẽ không tránh khỏi những sai sót, hạn chế trong
đề tài. Chính vì vậy, tơi rất mong nhận được sự góp ý của quý thầy và các bạn
để hồn thiện kiến thức, lấy đó làm hành trang quý báu trong công việc sau này.
Một lần nữa, tôi xin chân thành cảm ơn!
Sinh viên thực hiện
Trần Tuấn Minh
TP. Hồ Chí Minh, ngày 09 tháng 06 năm 2022
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA
SƯƠNG MỜ DỰA TRÊN HỌC SÂU
TÊN ĐỀ TÀI (tiếng Anh): OBJECT DETECTION IN FOGGY AERIAL
IMAGES BASED ON DEEP LEARNING
Cán bộ hướng dẫn: TS. Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện: Từ ngày 01/03/2022 đến ngày 20/06/2022
Sinh viên thực hiện:
Trần Tuấn Minh - 18520314
Nội dung đề tài:(Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,
kết quả mong đợi của đề tài)
1. Động lực nghiên cứu
• Những năm gần đây, cùng với sự phát triển nhanh chóng của học sâu
trong lĩnh vực phát hiện đối tượng, con người đã có những ứng dụng
được xây dựng dựa trên các phương pháp học sâu và không ảnh được
chụp từ các phương tiện bay không người lái (Unmanned aerial vehicle
– UAV). Những ứng dụng này đã mang lại nhiều lợi ích cho cuộc sống,
một số ví dụ nổi bật có thể đề cập đến như giám sát, cứu hộ, theo dõi
giao thơng, tự động hóa phương tiện giao thơng…
• Hiện nay, đa phần các nghiên cứu về phát hiện đối tượng được thực
hiện trong không ảnh với điều kiện thời tiết tốt. Tuy nhiên, trong thực
tế, những ứng dụng này sẽ phải đối mặt với thời tiết không lý tưởng, cụ
thể được đề cập trong đề tài này là sự xuất hiện của sương mờ (sương
mù, khói, bụi…).
• Sương mờ ảnh hưởng trực tiếp đến chất lượng của hình ảnh đầu vào, vì
độ nét, độ tương phản, màu sắc… đều ảnh hưởng rất nhiều. Điều này
làm cho các không ảnh đầu vào có chất lượng thấp và trong một vài
trường hợp sương mờ còn che khuất các đối tượng trong ảnh và dẫn đến
kết quả phát hiện thấp. Đó là cũng chính là động lực giúp tơi và nhóm
nghiên cứu thực hiện đề tài "Phát hiện đối tượng trong không ảnh chứa
sương mờ dựa trên học sâu".
2. Phát biểu bài toán
Đầu vào
Đầu ra
Hình 1: Ảnh minh họa đầu vào - đầu ra của bài tốn
• Đầu vào: Khơng ảnh chứa sương mờ.
• Đầu ra: Vị trí và loại đối tượng (nếu có) trong ảnh đầu vào.
3. Mục tiêu đề tài
• Tìm hiểu tổng quan về các bài toán Phát hiện đối tượng trong khơng
ảnh nói chung cũng như trong khơng ảnh chứa sương mờ nói riêng.
• Khảo sát các bộ dữ liệu cho bài tốn tương tự đã được cơng bố trên thế
giới. Đồng thời, tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến,
có kết quả khả quan trên các bộ dữ liệu này.
• Xây dựng bộ dữ liệu khơng ảnh chứa sương mờ.
• Nghiên cứu phương pháp khử sương mờ trong khơng ảnh.
• Nghiên cứu và tiến hành thực nghiệm phương pháp phát hiện đối tượng
học sâu trên bộ dữ liệu đã được xây dựng.
• Phân tích kết quả thực nghiệm, nghiên cứu đề xuất phương pháp học
sâu phát hiện đối tượng trong không ảnh chứa sương mờ giúp cải thiện
kết quả.
• Xây dựng ứng dụng demo.
• Tổng hợp kết quả và viết báo cáo.
4. Đối tượng và phạm vi nghiên cứu
• Miền dữ liệu: Khơng ảnh chứa sương mờ.
• Dữ liệu thực nghiệm: Bộ dữ liệu gồm nhãn của 4 đối tượng: bus (xe
buýt), car (xe con), motor (xe máy), pedestrian (người đi bộ).
• Phương pháp thực nghiệm: Nghiên cứu các phương pháp học sâu
“state-of-the-art” cho bài toán phát hiện đối tượng (Guided Anchoring,
Double-Head, Cascade R-CNN) và phương pháp khử sương mờ (FFANet).
5. Phương pháp thực hiện
• Tìm hiểu, nghiên cứu tổng quan về bài tốn Phát hiện đối tượng từ
những nghiên cứu đã cơng bố trên thế giới.
• Tiến hành tìm hiểu bộ dữ liệu không ảnh và phương pháp tạo sương mờ
để xây dựng bộ dữ liệu khơng ảnh chứa sương mờ.
• Nghiên cứu và tiến hành thực nghiệm phương pháp khử sương mờ trên
bộ dữ liệu đã xây dựng.
• Nghiên cứu và tiến hành thực nghiệm phương pháp phát hiện đối tượng
học sâu trên bộ dữ liệu đã được xây dựng.
• Nghiệm thu, so sánh và phân tích kết quả thực nghiệm, từ đó nghiên
cứu đề xuất phương pháp học sâu phát hiện đối tượng trong không ảnh
chứa sương mờ giúp cải thiện kết quả.
• Xây dựng ứng dụng demo.
• Tổng hợp kết quả và viết báo cáo.
6. Kết quả mong đợi
• Xây dựng thành công bộ dữ liệu không ảnh chứa sương mờ dựa trên bộ
dữ liệu UIT-Drone21, RESIDE, UAVDT-Benchmark.
• Tài liệu tóm tắt kết quả khảo sát, phân tích bài tốn các cơng trình và bộ
dữ liệu đã được cơng bố.
• Tài liệu tổng hợp bài tốn, các phương pháp học sâu đã nghiên cứu.
• Tài liệu chi tiết về cách cài đặt mơi trường thực nghiệm.
• Xây dựng mơ hình đề xuất và đưa ra cải tiến, đồng thời báo cáo đánh
giá và phân tích thực nghiệm các phương pháp đã chọn trên bộ dữ liệu
đã xây dựng.
Kế hoạch thực hiện:(Mô tả kế hoạch làm việc và phân công công việc cho từng sinh
viên tham gia)
1. Giai đoạn 1: 28/02/2022 – 31/03/2022
• Khảo sát tổng quan về bài tốn Phát hiện đối tượng trong khơng ảnh từ
những nghiên cứu đã cơng bố trên thế giới.
• Tiến hành tìm hiểu các phương pháp tạo sương mờ, các phương pháp
khử sương mờ và các bộ dữ liệu không ảnh RESIDE, UAVDTBenchmark-M…
• Tổng hợp kết quả khảo sát và hồn thành xây dựng bộ dữ liệu không
ảnh chứa sương mờ.
2. Giai đoạn 2: 01/04/2022 – 30/04/2022
• Nghiên cứu các phương pháp học sâu cho bài tốn Phát hiện đối tượng
trong khơng ảnh.
• Tiến hành cài đặt, chạy thực nghiệm các phương pháp dựa trên bộ dữ
liệu đã xây dựng được ở Giai đoạn 1.
• Phân tích kết quả và đánh giá các kết quả thực nghiệm.
• Nghiên cứu và đề xuất phương pháp học sâu có khả năng cải thiện kết
quả hơn so với các phương pháp đã thực nghiệm.
3. Giai đoạn 3: 01/05/2022 – 17/06/2022
• Phân tích các kết quả, đưa ra nhận xét và báo cáo các kết quả đạt được.
• Xây dựng ứng dụng demo và viết báo cáo.
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
TP. HCM, ngày 18 tháng 02 năm 2022
Sinh viên
(Ký tên và ghi rõ họ tên)
TS. Nguyễn Tấn Trần Minh Khang
Trần Tuấn Minh
MỤC LỤC
TÓM TẮT KHÓA LUẬN ..........................................................................................1
Chương 1. TỔNG QUAN ĐỀ TÀI ...........................................................................2
1.1. Động lực nghiên cứu......................................................................................2
1.2. Phát biểu bài toán...........................................................................................3
1.3. Các thách thức ...............................................................................................4
1.4. Mục tiêu và phạm vi nghiên cứu ...................................................................5
1.5. Đóng góp khóa luận .......................................................................................6
1.6. Cấu trúc báo cáo khóa luận ............................................................................7
Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN ........................................................9
2.1. Phát hiện đối tượng ........................................................................................9
2.1.1. Giới thiệu ................................................................................................9
2.1.2. Phân loại thuật toán phát hiện đối tượng ..............................................10
2.2. Phương pháp rút trích đặc trưng ảnh dựa trên học sâu ................................12
2.2.1. Mạng học sâu – DNN ...........................................................................12
2.2.2. Convolutional Neural Network - CNN .................................................14
2.2.2.1. Tầng tích chập (Convolution layer) ...............................................15
2.2.2.2. Tầng tổng hợp (Pooling layer) .......................................................16
2.2.2.3. Tầng liên kết đầy đủ (Fully connected layer) ................................16
2.3. Các phương pháp phát hiện đối tượng liên quan .........................................17
2.3.1. Faster R-CNN .......................................................................................17
2.3.2. Cascade R-CNN....................................................................................18
2.3.3. Guided Anchoring. ...............................................................................20
2.3.4. Double-Head .........................................................................................22
2.4. Phương pháp khử sương mờ ........................................................................24
2.4.1. Khử sương mờ đơn ảnh ........................................................................24
2.4.2. Feature Fusion Attention Network (FFA-Net) .....................................25
2.4.2.1. Feature Attention ...........................................................................25
2.4.2.2. Basic Block Structure ....................................................................26
2.4.2.3. Feature Fusion Attention ...............................................................26
2.4.3. DW-GAN ..............................................................................................27
Chương 3. XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN ĐỐI TƯỢNG TRONG
KHÔNG ẢNH CHỨA SƯƠNG MỜ........................................................................29
3.1. Khảo sát bộ dữ liệu ......................................................................................29
3.1.1. Khảo sát ................................................................................................29
3.1.2. Lý do xây dựng bộ dữ liệu ....................................................................32
3.2. Bộ dữ liệu UIT-Drone21..............................................................................33
3.2.1. Tổng quan về bộ dữ liệu UIT-Drone21 ................................................33
3.2.2. Định dạng nhãn dữ liệu của bộ dữ liệu UIT-Drone21 ..........................34
3.3. Quy trình tạo sương mờ cho ảnh .................................................................36
3.4. Phân tích bộ dữ liệu .....................................................................................38
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .......................................................40
4.1. Dữ liệu thực nghiệm ....................................................................................40
4.1.1. Mô tả cơ bản .........................................................................................40
4.1.2. Mô tả chi tiết .........................................................................................40
4.2. Mô tả thực nghiệm .......................................................................................42
4.2.1. Mô tả quy trình thực nghiệm ................................................................42
4.2.2. Cấu hình thực nghiệm ...........................................................................42
4.3. Phương pháp đánh giá .................................................................................43
4.3.1. Intersection over Union (IoU) ..............................................................43
4.3.2. Average Precision (𝐴𝑃) ........................................................................44
4.3.3. Mean Average Precision (𝑚𝐴𝑃)...........................................................45
4.4. Kết quả thực nghiệm và đánh giá ................................................................46
4.4.1. Kết quả thực nghiệm .............................................................................46
4.4.2. Trực quan hóa kết quả ..........................................................................46
4.4.3. Đánh giá kết quả ...................................................................................49
Chương 5. ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ .............................51
5.1. Đề xuất cải tiến kết quả phát hiện đối tượng trong không chứa sương mờ .51
5.1.1. Cross Entropy Loss ...............................................................................51
5.1.2. Focal Loss .............................................................................................52
5.2. Đánh giá kết quả đề xuất .............................................................................53
5.2.1. Kết quả đề xuất .....................................................................................53
5.2.2. Trực quan hóa kết quả ..........................................................................53
5.2.3. Đánh giá kết quả ...................................................................................54
5.3. Ứng dụng Phát hiện đối tượng trong không ảnh chứa sương mờ ...............56
5.3.1. Giới thiệu ..............................................................................................56
5.3.2. Phân tích thiết kế ..................................................................................57
5.3.2.1. Thiết kế usecase .............................................................................57
5.3.2.2. Thiết kế user-flow ..........................................................................57
5.3.2.3. Thiết kế kiến trúc ...........................................................................58
5.3.2.4. Thiết kế giao diện ..........................................................................58
5.3.3. Cài đặt và kiểm thử ...............................................................................62
Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................64
6.1. Kết luận ........................................................................................................64
6.1.1. Kết quả ..................................................................................................64
6.1.2. Khó khăn ...............................................................................................66
6.1.3. Thuận lợi ...............................................................................................66
6.2. Hướng phát triển ..........................................................................................66
TÀI LIỆU THAM KHẢO .........................................................................................68
PHỤ LỤC A – BÀI BÁO..........................................................................................72
PHỤ LỤC B – HƯỚNG DẪN CÀI ĐẶT.................................................................86
DANH MỤC HÌNH
Hình 1.1: Bài tốn phát hiện đối tượng trong không ảnh chứa sương mờ. Đầu vào là
không ảnh chứa sương mờ. Đầu ra là vị trí các đối tượng Car (tím), Motor (xanh lá
đậm), Pedestrian (xanh chuối), Bus (xanh dương). ....................................................3
Hình 2.1: Các kỹ thuật trong Phát hiện đối tượng. .....................................................9
Hình 2.2: So sánh sự mơ hình two-stage (a) và one-stage (b) [4].............................11
Hình 2.3: Ý tưởng mơ phỏng hoạt động của não bộ con người của mạng ANN. ....12
Hình 2.4: Minh họa kiến trúc mạng nơ-ron sâu [5]. .................................................13
Hình 2.5: Kiến trúc tổng quan của mơ hình CNN. ...................................................14
Hình 2.6: Minh họa Convolution Layer. ...................................................................15
Hình 2.7: Minh họa Pooling Layer. ..........................................................................16
Hình 2.8: Minh họa Fully-connected layer. ..............................................................17
Hình 2.9: Kiến trúc mơ hình Faster R-CNN lấy từ bài báo gốc [6]. .........................17
Hình 2.10: So sánh cấu trúc của Faster R-CNN và Cascade R-CNN lấy từ bài báo
gốc [2]. “I” là ảnh đầu vào, “conv” là backbone convolutions, “pool” là region-wise
feature extraction, “H” là network head, “B” là Bounding box, “C” là classification.
“B0” là vùng đề xuất. ................................................................................................19
Hình 2.11: Minh họa cấu trúc của Guided Anchoring lấy từ bài báo gốc [1]. .........21
Hình 2.12: So sánh cấu trúc của kiến trúc sử dụng chung mạng và Double-Head
được lấy từ bài báo gốc [3]. ......................................................................................22
Hình 2.13: Kiến trúc mạng FFA-Net từ bài báo gốc [16]. ........................................25
Hình 2.14: Feature Attention module [16]. ...............................................................26
Hình 2.15: Ảnh minh họa Khối kiến trúc cơ bản [16]. .............................................26
Hình 2.16: Kiến trúc phương pháp khử sương DW-GAN từ bài báo gốc [17]. .......28
Hình 3.1: Hình ảnh minh họa bộ dữ liệu FRIDA [25]. .............................................30
Hình 3.2: Hình ảnh minh họa bộ dữ liệu Foggy Driving [27]. .................................31
Hình 3.3: Hình ảnh minh họa bộ dữ liệu RESIDE [28]. ...........................................31
Hình 3.4: Hình ảnh minh họa bộ dữ liệu UAVDT-Benchmark-M [29]. ..................32
Hình 3.5: Hình ảnh minh họa của bộ dữ liệu UIT-Drone21. ....................................34
Hình 3.6: Minh họa kết quả mơ phỏng sương mờ. ...................................................37
Hình 3.7: Hình ảnh minh họa bộ dữ liệu UIT-DroneFog .........................................38
Hình 4.1: Số lượng ảnh trong các tập dữ liệu của bộ dữ liệu UIT-DroneFog. .........40
Hình 4.2: Biểu đồ thể hiện số lượng các đối tượng trong mỗi tập dữ liệu của bộ dữ
liệu UIT-DroneFog....................................................................................................41
Hình 4.3: Luồng xử lý quá trình cài đặt, chạy thực nghiệm của bài tốn. ................42
Hình 4.4: Cơng thức minh họa để tính IoU. ..............................................................43
Hình 4.5: Precision and recall. ..................................................................................45
Hình 4.6: Ảnh kết quả dự đốn tốt khi chạy thực nghiệm với thông số mặc định. (a)
Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN. ....................................47
Hình 4.7: Ảnh kết quả dự đoán xấu khi chạy thực nghiệm với thông số mặc định (a)
Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN. ....................................49
Hình 5.1 Ảnh kết quả dự đốn thử nghiệm Double-Head và CasDou với hàm mất
mát Cross Entropy và Focal Loss. ............................................................................53
Hình 5.2: Ảnh kết quả dự đốn thử nghiệm mở rộng với phương pháp CasDou khi
thêm bước khử sương. ...............................................................................................55
Hình 5.3: Mơ tả usecase tổng qt ứng dụng Aerial Object Detection. ...................57
Hình 5.4: Userflow tổng quát ứng dụng Aerial Object Detection. ...........................57
Hình 5.5: Kiến trúc ứng dụng Aerial Object Detection. ...........................................58
Hình 5.6: Chức năng Dự đốn đối tượng trên di động. ............................................59
Hình 5.7: Chức năng Dự đốn đối tượng trên web. ..................................................60
Hình 5.8: Chức năng Xem lịch sử ảnh dự đốn trên di động....................................61
Hình 5.9: Chức năng Xem lịch sử ảnh dự đốn trên web. ........................................61
Hình 5.10: Chức năng Xem thơng tin ứng dụng trên di động. .................................62
Hình 5.11: Chức năng Xem thông tin ứng dụng trên web. .......................................62
DANH MỤC BẢNG
Bảng 3.1: Tóm tắt các bộ dữ liệu tài liệu dạng ảnh hiện có. Bộ dữ liệu đề xuất UITDroneFog được in đậm .............................................................................................29
Bảng 3.2: Mô tả ý nghĩa giá trị các thuộc tính trong khối “categories” (.json). .......35
Bảng 3.3: Mô tả ý nghĩa giá trị các thuộc tính trong khối “image” (.json)...............35
Bảng 3.4: Mơ tả ý nghĩa giá trị các thuộc tính trong khối “annotations” (.json). .....36
Bảng 4.1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp
phát hiện đối tượng. Kết quả tốt nhất được in đậm (%)............................................46
Bảng 5.1: Bảng kết quả thực nghiệm mở rộng khi thay đổi hàm mất mát. Kết quả tốt
nhất được in đậm (%). ...............................................................................................53
Bảng 5.2: Bảng kết quả thực nghiệm mở rộng với phương pháp CasDou khi thêm
bước khử sương. Kết quả tốt nhất được in đậm (%). ................................................54
Bảng 5.3: Danh sách màn hình chức năng Dự đốn đối tượng. ...............................58
Bảng 5.4: Danh sách màn hình chức năng Xem lịch sử ảnh dự đoán.......................60
DANH MỤC TỪ VIẾT TẮT
STT
Từ viết tắt
Ý nghĩa
01
ANN/NN
02
CE
03
CNN
04
DNN
Mạng nơ-ron sâu – Deep Neural Network
05
FL
Hàm mất mát Focal Loss
06
FPN
07
IoU
Intersection over Union
08
mAP/AP
Độ đo trung bình AP – Measure Average Precision
09
RPN
Mạng đề xuất khu vực – Region Proposal Network
10
SOTA
Tiên tiến – State-of-the-art
11
UAV
Mơ hình mạng nơ-ron nhân tạo –
Artificial Neural Network/Neural Network
Hàm mất mát Cross Entropy
Mơ hình mạng tích chập –
Convolution Neural Network
Mơ hình mạng trích xuất đặc trưng Kim tự tháp –
Feature Pyramid Network
Thiết bị bay không người lái –
Unmanned aerial vehicle
TÓM TẮT KHÓA LUẬN
Những năm gần đây, rất nhiều nghiên cứu khoa học về phát hiện đối tượng
đã được thực hiện nhằm đáp ứng nhu cầu khai thác thông tin cho các mục đích khác
nhau trong đời sống. Tuy nhiên, phần lớn các nghiên cứu này được thực hiện với
điều kiện thời tiết lý tưởng. Điều này dẫn tới sự sai lệch kết quả khi ứng dụng các
mơ hình này vào thực tế bởi sự cản trở của các điều kiện thời tiết xấu như mưa,
sương mờ, tuyết...
Trong nghiên cứu này, chúng tôi nghiên cứu giải quyết nhiệm vụ phát hiện
đối tượng trong không ảnh chứa sương mờ. Đầu tiên, chúng tôi giới thiệu bộ dữ liệu
UIT-DroneFog được xây dựng bằng cách sử dụng hàm mô phỏng sương mù (tham
khảo từ thư viện imgaug) trên 15,370 không ảnh. Bộ dữ liệu này chứa nhiều thách
thức mới so với các bộ dữ liệu tài liệu ảnh khác đã được với những đối tượng phổ
biến trong giao thông Việt Nam bao gồm: Pedestrian, Motor, Car, Bus. Tiếp theo,
chúng tơi tìm hiểu, nghiên cứu và tiến hành chạy thực nghiệm các phương pháp
phát hiện đối tượng dựa trên học sâu tiên tiến nhất: Guided Anchoring và DoubleHead trên bộ dữ liệu xây dựng được để giải quyết bài tốn và đánh giá tồn diện về
bộ dữ liệu. Các kết quả thực nghiệm ban đầu cho thấy Double-Head đạt điểm 𝑚𝐴𝑃
cao hơn, cụ thể là 33.20%. Từ cơ sở này, chúng tôi đề xuất một phương pháp mở
rộng mang tên CasDou – sự kết hợp giữa Cascade R-CNN, Double-Head và Focal
Loss để cải thiện độ chính xác cho mơ hình mặc định. CasDou cải thiện đáng kể
điểm 𝑚𝐴𝑃 trên bộ dữ liệu được đề xuất, cụ thể lên đến 34.70%. Ngồi ra, chúng tơi
cũng khảo sát khả năng cải thiện kết quả phát hiện đối tượng khi thực hiện khử
sương mờ trong không ảnh chứa sương mờ. Đóng góp nghiên cứu của chúng tơi
hiện đã được đăng tại Hội nghị Quốc tế “NAFOSTED Conference on Information
and Computer Science – NICS2021” và một bài đăng tại “Can Tho University
Journal of Science”.
1
Chương 1. TỔNG QUAN ĐỀ TÀI
Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các
thách thức gặp phải, mục tiêu – phạm vi và những đóng góp chính trong khóa luận.
1.1. Động lực nghiên cứu
Ngày nay, với sự phát triển nhanh chóng của Deep Learning trong lĩnh vực
phát hiện đối tượng, con người đã sở hữu những ứng dụng hữu ích được sử dụng
rộng rãi trong đời sống hằng ngày có thể kể đến như giám sát, cứu hộ, theo dõi giao
thông, tự động hóa phương tiện giao thơng... Hình ảnh, video trong những ứng dụng
này thường được thu nhận qua các thiết bị điện tử như camera, máy ảnh và đặc biệt
là các thiết bị bay không người lái (UAVs). Các tài ngun hình ảnh này là cơng cụ
hữu ích giúp lưu trữ và trích xuất thơng tin quan trọng. Tuy nhiên, đây chỉ là nguồn
dữ liệu thơ mà máy tính khơng thể hiểu ngữ cảnh và theo dõi các đối tượng được
trong khi việc theo dõi, giám sát các đối tượng trong ảnh bằng phương pháp thủ
công tốn rất nhiều nhân lực, thời gian và chi phí…
Vì lý do trên, các thuật toán phát hiện đối tượng đã liên tiếp được đề xuất.
Tuy nhiên, phần lớn các thuật toán này được nghiên cứu trong ngữ cảnh có điều
kiện thời tiết thuận lợi. Điều này dẫn tới hiệu quả khi áp dụng vào thực tế khơng
được như mong đợi vì sự ảnh hưởng của các điều kiện thời tiết bất lợi như mưa,
tuyết, và cụ thể được đề cập trong nghiên cứu lần này là sương mờ.
Sương mờ ảnh hưởng trực tiếp đến chất lượng của hình ảnh đầu vào, chẳng
hạn như độ nét, độ tương phản, màu sắc, ánh sáng… Bên cạnh đó, sự tồn tại của
sương mờ trong khơng ảnh cịn có thể che khuất đi các đối tượng. Vấn đề này đã và
đang khiến cho việc phát hiện đối tượng trong khơng ảnh gặp khá nhiều khó khăn.
Điều này đã thơi thúc chúng tơi thực hiện tìm hiểu, thử nghiệm, nghiên cứu đề tài
“Phát hiện đối tượng trong không ảnh chứa sương mờ dựa trên học sâu”.
2
1.2. Phát biểu bài tốn
Đầu vào
Đầu ra
Hình 1.1: Bài tốn phát hiện đối tượng trong không ảnh chứa sương mờ. Đầu vào là
không ảnh chứa sương mờ. Đầu ra là vị trí các đối tượng Car (tím), Motor
(xanh lá đậm), Pedestrian (xanh chuối), Bus (xanh dương).
Phát hiện đối tượng trong không ảnh là một trong những bước cốt lõi để
phân tích các video được thu thập từ UAVs mang tính ứng dụng thực tế cao như hệ
thống camera an ninh, hệ thống giám sát giao thông. Việc thực hiện trên không ảnh
gặp phải những thách thức đặc trưng như bối cảnh phức tạp bởi sự xuất hiện của các
3
đối tượng gây nhiễu như cơng trình xây dựng, bảng hiệu giao thơng, cây cối. Bên
cạnh đó, các yếu tố như độ sáng mơi trường, góc quay, tốc độ bay của UAV, mật độ
các đối tượng hay độ phân giải ảnh đều có tác động đến kết quả phát hiện đối tượng.
Và đặc biệt nhất, sự tồn tại của khói, bụi, sương mờ trong khí quyển làm hình ảnh
đầu vào bị mờ, độ tương phản thấp, sai lệch màu sắc gây ra nhiều khó khăn trong
các tác vụ phân loại, theo dõi, nhận dạng con người... Chính vì thế, việc thực hiện
nghiên cứu của chúng tơi chính là tiền đề cho những nghiên cứu trong tương lai.
Dữ liệu đầu vào của bài toán phát hiện đối tượng trong sương mờ là một
không ảnh được chụp trong điều kiện thời tiết có sương mờ, đầu ra của bài tốn là
vị trí các đối tượng quan tâm trong khơng ảnh (nếu có) được xác định bằng các hộp
giới hạn và nhãn của chúng theo Hình 1.1.
1.3. Các thách thức
Thơng qua việc tham khảo, khảo sát về các bài toán phát hiện đối tượng
trong không ảnh chưa sương mờ, chúng tôi nhận thấy thách thức của bài toán tương
đối đáng kể, đến từ nhiều yếu tố khác nhau.
Một số thách thức bên ngoài như điều kiện thời tiết xấu có thể ảnh hưởng
trực tiếp đến chất lượng hình ảnh như mật độ sương mờ dày đặc, ánh sáng phân bổ
khơng đều, các góc quay khác nhau cho ra hình dạng của vật thể khác nhau, các khu
vực địa hình mang đặc thù riêng… Ngồi ra, sự rung lắc của UAVs trong q trình
thu thập dữ liệu có thể làm chất lượng ảnh giảm sút hoặc bị nhòe, bị mờ.
Thách thức đến từ bên trong như sự đa dạng về bối cảnh, phân bố đối tượng
giao thông không đồng đều, độ giãn cách khác nhau giữa các loại đối tượng, sự đa
dạng trong hình thái, màu sắc của các đối tượng và các đối tượng có thể che khuất
lẫn nhau.
Thách thức khi ứng dụng thực tiễn, trong thực tế việc phát hiện đối tượng ở
các ảnh bị ảnh hưởng bởi sương mờ vẫn còn nhiều khó khăn do phụ thuộc các yếu
tố như mật độ đối tượng, điều kiện thu nhận của ảnh... Do đó việc phát hiện đối
4
tượng trên ảnh sương mờ vẫn còn là vấn đề cần nghiên cứu thêm để đưa vào các
ứng dụng thực tiễn.
Mặt khác, về khía cạnh dữ liệu, hình ảnh trong các bộ dữ liệu được chụp ở
nhiều góc cạnh, điều kiện ánh sáng sáng khác nhau, mật độ của các yếu tố như
sương mờ, mưa, khói khơng đồng đều. Từ đó dẫn đến hình ảnh bị suy giảm độ
tương phản và độ trung thực của màu sắc. Điều này gây ảnh hưởng nghiêm trọng
đến các tác vụ thị giác trong ảnh, địi hỏi cần có kỹ thuật tiền xử lý ảnh và rút trích
đặc trưng phù hợp. Thách thức cốt lõi của bài toán này là làm thế nào để tăng độ
chính xác khi nhận diện các đối tượng bị ảnh hưởng nặng nề bởi các yếu tố ngoại
cảnh.
Ngoài những thách thức về dữ liệu, bài tốn cịn gặp những khó khăn về mặt
kỹ thuật khi chưa có quá nhiều phương pháp phát hiện đối tượng hiệu quả trong
điều kiện có sương mờ. Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo
sát, chúng tôi quyết định chọn các phương pháp phát hiện đối tượng SOTA gồm:
Guided Anchoring [1], Cascade-RCNN [2], Double-Head [3] để tiến hành thực
nghiệm và đánh giá trên bộ dữ liệu. Tuy nhiên, mỗi phương pháp có những đặc
trưng khác nhau về kiến trúc dẫn tới sự khác biệt về điểm mạnh và điểm yếu. Hơn
nữa, sự tinh chỉnh các thông số cho từng mơ hình cũng sẽ ảnh hưởng đến kết quả
đạt được trong quá trình thực nghiệm. Điều này đặt ra yêu cầu nghiên cứu sâu nhằm
để có thể tìm ra phương pháp mang lại kết quả tốt nhất và đáp ứng được các thách
thức của bài toán.
1.4. Mục tiêu và phạm vi nghiên cứu
Trong phạm vi nghiên cứu, mục tiêu chính của khóa luận là:
• Tìm hiểu tổng quan về các bài tốn Phát hiện đối tượng trong khơng ảnh
nói chung cũng như trong khơng ảnh chứa sương mờ nói riêng.
• Khảo sát các bộ dữ liệu cho bài toán tương tự đã được cơng bố trên thế
giới. Đồng thời, tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến, có
kết quả khả quan trên các bộ dữ liệu này.
5
• Xây dựng bộ dữ liệu không ảnh chứa sương mờ.
• Nghiên cứu phương pháp khử sương mờ trong khơng ảnh.
• Nghiên cứu và tiến hành thực nghiệm phương pháp phát hiện đối tượng
học sâu (Cascade R-CNN, Double-Head, Guided Anchoring) trên bộ dữ
liệu đã được xây dựng.
• Phân tích kết quả thực nghiệm, nghiên cứu đề xuất phương pháp học sâu
phát hiện đối tượng trong không ảnh chứa sương mờ giúp cải thiện kết
quả.
• Lựa chọn một model cho kết quả tốt để xây dựng ứng dụng demo.
• Tổng hợp kết quả, phân tích đánh giá kết quả từ mơ hình và viết báo cáo.
1.5. Đóng góp khóa luận
Nội dung cuốn báo cáo bao gồm:
• Giới thiệu bài tốn Phát hiện đối tượng trong khơng ảnh chứa sương mờ,
trình bày tình hình nghiên cứu đã có trên thế giới, phân tích xu hướng
phát triển của bài tốn sử dụng các phương pháp phát hiện đối tượng dựa
trên học sâu.
• Trình bày kết quả khảo sát các bộ dữ liệu có cùng ngữ cảnh đã được công
bố trên thế giới và quy trình xây dựng bộ dữ liệu khơng ảnh chứa sương
mờ UIT-DroneFog dựa trên bộ dữ liệu UIT-Drone21.
• Trình bày các phương pháp phát hiện đối tượng trong không ảnh chứa
sương mờ dựa trên học sâu bao gồm các phương pháp Cascade R-CNN,
Guided Anchoring, Double-Head và các phương pháp khử sương
DWGAN, FFA-Net. Thực hiện huấn luyện các phương pháp trên bộ dữ
liệu đã xây dựng để đánh giá chi tiết về bộ dữ liệu cũng như kết quả phát
hiện đối tượng của các mơ hình. Qua kết quả thực hiện, chúng tôi đề xuất
một phương pháp kết hợp Cascade R-CNN, Double-Head và hàm Focal
Loss để cải thiện kết quả phát hiện.
6
• Kết quả mơ hình nghiên cứu được sử dụng và phát triển thành ứng dụng
phát hiện đối tượng trên nền tảng web và di động (Android/IOS).
Đóng góp 3 bài báo nghiên cứu khoa học:
− Trần, M. T., Tran, B. V., Vo, N. D., & Nguyen, K. (2022). An object detection
method for aerial hazy images. Can Tho University Journal of Science, 14(1),
91-98. />− Tran, M. T., Tran, B. V., Vo, N. D., & Nguyen, K. (2021, December). UITDroneFog: Toward High-performance Object Detection Via High-quality Aerial
Foggy Dataset. In 2021 8th NAFOSTED Conference on Information and
Computer
Science
(NICS)
(pp.
290-295).
IEEE.
/>− Khang Nguyen, Nguyen D. Vo, Minh T. Tran, Doanh C. B, Phuc Nguyen (2022,
June). Analysis of the Influence of De-Hazing Methods on Vehicle Detection in
Aerial Images. International Journal of Advanced Computer Science and
Applications (IJACSA), 13(6). (Accepted)
1.6. Cấu trúc báo cáo khóa luận
Báo cáo khóa luận gồm 6 chương với các nội dung như sau:
• Chương 1: Tổng quan đề tài. Giới thiệu về nội dung đề tài bao gồm
động lực nghiên cứu, phát biểu bài toán, mục tiêu, phạm vi của nghiên
cứu và những đóng góp chính trong khóa luận.
• Chương 2: Các nghiên cứu liên quan. Trình bày phần khảo sát các
hướng nghiên cứu trên thế giới, hướng tiếp cận bài tốn. Đồng thời trình
bày phương pháp khử sương mờ trong ảnh và phát hiện đối tượng dựa
trên học sâu tiên tiến.
• Chương 3: Xây dựng bộ dữ liệu khơng ảnh chứa sương mờ. Trình bày
về quy trình khảo sát, xây dựng và phân tích bộ dữ liệu xây dựng được
7