Tải bản đầy đủ (.pdf) (76 trang)

KHÓA LUẬN tốt NGHIỆP ẢNH HƯỞNG của PHƯƠNG PHÁP SIÊU PHÂN GIẢI đối với bài TOÁN PHÁT HIỆN đối TƯỢNG TRONG KHÔNG ẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.88 MB, 76 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM

TRƯƠNG TUẤN NGẠN

KHĨA LUẬN TỐT NGHIỆP

ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI
ĐỐI VỚI BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG
KHƠNG ẢNH
The effects of super-resolution on object detection performance in
an aerial image
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2020


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

TRƯƠNG TUẤN NGẠN – 16520796

KHÓA LUẬN TỐT NGHIỆP

ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI
ĐỐI VỚI BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG
KHƠNG ẢNH


The effects of super-resolution on object detection performance in
an aerial image
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN TẤN TRẦN MINH KHANG

TP. HỒ CHÍ MINH, 2020


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1. …………………………………………. – Chủ tịch.
2. …………………………………………. – Thư ký.
3. …………………………………………. – Ủy viên.
4. …………………………………………. – Ủy viên.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..

NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TỐN PHÁT
HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH
Cán bộ hướng dẫn:

Nhóm SV thực hiện:
Trương Tuấn Ngạn

16520796

TS. Nguyễn Tấn Trần Minh Khang

Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang

_______

Số chương

_______

Số bảng số liệu

_______

Số hình vẽ

_______


Số tài liệu tham khảo

_______

Sản phẩm

_______

Một số nhận xét về hình thức cuốn báo cáo:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
2. Về nội dung nghiên cứu:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
3. Về chương trình ứng dụng:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….


4. Về thái độ làm việc của sinh viên:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….

………………………………………………………………………………….
Đánh giá chung:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
Điểm từng sinh viên:
Trương Tuấn Ngạn:………../10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..

NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI BÀI TỐN PHÁT
HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH
Nhóm SV thực hiện:


Cán bộ phản biện:

Trương Tuấn Ngạn

16520796

Đánh giá Khóa luận
5. Về cuốn báo cáo:
Số trang

_______

Số chương

_______

Số bảng số liệu

_______

Số hình vẽ

_______

Số tài liệu tham khảo

_______

Sản phẩm


_______

Một số nhận xét về hình thức cuốn báo cáo:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
6. Về nội dung nghiên cứu:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
7. Về chương trình ứng dụng:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….


8. Về thái độ làm việc của sinh viên:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
Đánh giá chung:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….

Điểm từng sinh viên:
Trương Tuấn Ngạn:………../10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: ẢNH HƯỞNG CỦA PHƯƠNG PHÁP SIÊU PHÂN GIẢI ĐỐI VỚI
BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH
Cán bộ hướng dẫn: TS. Nguyễn Tấn Trần Minh Khang
Thời gian thực hiện:Từ ngày…07/09/2020……………..đến ngày…27/12/2020………
Sinh viên thực hiện:
<Trương Tuấn Ngạn - 16520796 >
Nội dung đề tài:
Ngày nay, các thiết bị bay An unmanned aerial vehicle (UAV) được sử dụng ngày
càng nhiều, phục vụ cho nhiều nhiệm vụ như thu thập, giám sát,... nguồn dữ liệu thu thập
từ UAV càng lớn, các nhiệm vụ xử lý trên ảnh UAV có nhiều đặc điểm khác với ảnh từ
CCTV như góc quay, đối tượng chiếm tỉ lệ rất nhỏ, mất cân bằng giữa foreground và

background, bị ảnh hưởng thời tiết: rung lắc (gió), che chắn (mây), mờ (sương),... làm
ảnh hưởng chất lượng ảnh cũng như tạo ra nhiều thách thức cho các nhiệm vụ thị giác
máy tính, như phát hiện đối tượng. Việc tái tạo ảnh càng chính xác càng tốt. Image Super
Resolution (SR) thuộc về nhóm phương pháp này. Chất lượng của hình ảnh được tái tạo
được đánh giá bằng các thước đo định lượng dựa trên pixel như PSNR, và SSIM.
Một cách trực quan, người ta có thể cho rằng các phương pháp siêu phân giải sẽ
tăng hiệu suất phát hiện đối tượng, vì sự gia tăng độ phân giải sẽ thêm nhiều tính năng dễ
phân biệt hơn mà thuật tốn phát hiện đối tượng có thể sử dụng để phân biệt. Phát hiện
các vật thể nhỏ như người, xe cộ trong ảnh vẫn là một nhiệm vụ cực kỳ khó khăn. Trong
ngữ cảnh của nghiên cứu này, chúng tôi tạo ra bộ dữ liệu LR bằng phương pháp Blurdown Degradation làm giảm chất lượng, độ phân giải bộ ảnh Visdrone2019-val xuống


(LR - Low Resolution). Sử dụng phương pháp Image Super Resolution - RCAN để cải
thiện bộ dữ liệu LR thành SR. Sử dụng bộ dữ liệu SR vào mơ hình nhận diện vật thể
được huấn luyện sẵn từ bộ dữ liệu HR để đánh giá kết quả nhận diện. Thông thường việc
nhận diện vật thể trên những tấm ảnh có chất lượng, độ phân giải cao (HR) thì ln ln
tối ưu hơn các ảnh có chất lượng thấp (LR) hay ảnh siêu độ phân giải (SR) nhưng để thu
được ảnh có chất lượng cao thì đồng nghĩa với việc chi một khoảng chi phí lớn cho việc
thay đổi chất lượng camera [1], nhưng khi áp dụng phương pháp của chúng tơi thì việc
nhận diện trên các ảnh có chất lượng, độ phân giải thấp (LR, SR) sẽ có kết quả gần
tương đồng với kết quả nhận diện ảnh chất lượng cao (HR).
Chúng tơi chọn ra 5 phương pháp bài tốn toán phát hiện đối tượng: Faster-RCNN
[3], Cascade-RCNN [4], DetectoRS [5], Retina [6], SSD [7]; sử dụng phương pháp
RCAN[8] cho bài tốn ảnh siêu độ phân giải.
Phương pháp:







Tìm hiểu tổng quan về 2 bài toán Object Detection và Image Super Resolution.
Cài đặt các phương pháp tiên tiến hiện nay của 2 bài tốn.
Tìm hiểu bộ dữ liệu Visdrone2019-DET [2].
Sử dụng phương pháp RCAN (ISR) vào trong bộ dữ liệu Visdrone2019-DET.
Huấn luyện các phương pháp Object Detection với bộ dữ liệu Visdrone2019DET: Faster RCNN, Cascade RCNN, DetectoRS, RetinaNet, SSD.
• Thử nghiệm bộ dữ liệu thu được từ phương pháp RCAN vào các mơ hình huấn
luyện phương pháp Object Detection.
• Đánh giá kết quả thử nghiệm được
Mục tiêu:
• Tìm hiểu và tổng hợp các phương pháp phát hiện đối tượng: Faster-RCNN,
Cascade-RCNN, DetectoRS , RetinaNet, SSD.
• Huấn luyện và đánh giá kết quả thực nghiệm các phương pháp với 3 độ phân giải
khác nhau (HR, LR, SR).
• Xây dựng ứng dụng áp dụng kết quả thu được.
Tài liệu tham khảo:
[1] K. Nguyen, N. T. Huynh, P. C. Nguyen, K.-D. Nguyen, N. D. Vo, and T. V. Nguyen,
“Detecting objects from space: An evaluation of deep-learning modern approaches”,
Electronics, vol. 9, no. 4, p. 583, 2020.
[2] D. R. Pailla, “Visdrone-det2019: The vision meets drone object detection in image


challenge results”, 2019.
[3] S. Ren, K. He, R. Girshick, and J. Sun, “Faster rcnn: Towards real-time object
detection with region proposal networks”, in Advances in neural information processing
systems, 2015, pp. 91–99.
[4] Z. Cai and N. Vasconcelos, “Cascade r-cnn: Delving into high quality object
detection”, in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2018, pp. 6154–6162.
[5] S. Qiao, L.-C. Chen, and A. Yuille, “Detectors: Detecting objects with recursive

feature pyramid and switchable atrous convolution”, arXiv preprint arXiv:2006.02334,
2020.
[6] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, “Focal loss for dense object
detection”, in The IEEE International Conference on Computer Vision (ICCV), Oct.
2017.
[7] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg,
“Ssd: Single shot multibox detector”, in European conference on computer vision,
Springer, 2016, pp. 21–37.
[8] Y. Zhang, K. Li, K. Li, L. Wang, B. Zhong, and Y. Fu, “Image super-resolution
using very deep residual channel attention networks”, in Proceedings of the European
Conference on Computer Vision (ECCV), 2018, pp. 286–301.
Kế hoạch thực hiện:
Công việc

Nội dung thực hiện

Thời gian thực hiện

ND1: Tìm hiểu đề tài

- Nghiên cứu, tìm hiểu u 07/09/2020-14/09/2020
cầu bài tốn và các giải
pháp liên quan

ND2: Cài đặt thực nghiệm - Cài đặt phương pháp ảnh 15/09/2020 – 22/09/2020
các phương pháp

siêu phân giải: RCAN
- Cài đặt phương pháp phát



hiện đối tượng: FasterRCNN, SSD ,DetectoRS,
RetinaNet, Cascade-RCNN
ND3: Tìm hiểu, đánh giá - Nghiên cứu, đánh giá dữ 23/09/2020 - 28/09/2020
bộ dữ liệu Visdrone2019- liệu của 3 bộ dataset con
DET

của bộ Visdrone2019-DET
(train, val, test). Chuyển
hóa bộ dữ liệu về các định
dạng coco, DIV2K dùng
trong các phương pháp

ND4: Huấn luyện mơ hình - Huấn luyện mơ hình từng 29/09/2020 – 13/10/2020
của từng phương pháp

phương pháp bằng bộ dữ
liệu bộ Visdrone2019-DET
train.

ND5: Đánh giá kết quả - Sử dụng bộ dữ liệu thu 14/10/2020 – 27/10/2020
huấn luyện

được từ phương pháp ảnh
siêu phân giải vào mơ hình
phát hiện vật thể. Đánh giá
kết quả so sánh.

ND6: Viết bài báo khoa - Dựa vào các kiến thức và 28/10/2020 – 09/11/2020
học nộp hội nghị khoa học


kết quả thu được viết bài
nghiên cứu khoa học.

ND7: Xây dựng ứng dụng - Xây dựng ứng dụng áp
minh họa

dụng kết quả thu được.

ND8: Hồn thành khóa - Hồn thành báo cáo khóa
luận

10/11/2020 – 24/11/2020

luận tốt nghiệp.

25/11/2020 – 28/12/2020


Xác nhận của CBHD

TP. HCM, ngày 29 tháng 9 năm 2020.

(Ký tên và ghi rõ họ tên)

Sinh viên
(Ký tên và ghi rõ họ tên)

Nguyễn Tấn Trần Minh Khang


Trương Tuấn Ngạn


LỜI CẢM ƠN
Để hồn thành khóa luận này, em xin chân thành gửi lời tới giáo viên hướng
dẫn Ts. Nguyễn Tấn Trần Minh Khang, thầy đã tận tâm chỉ dẫn em trên con đường
học tập cũng như những kỹ năng làm việc nhóm trong tập thể, cộng đồng, trường
học và xã hội. Ngồi ra em cịn gửi lời cảm ơn đến anh Ths. Võ Duy Nguyên đã
giúp đỡ em trong suốt quá trình làm nghiên cứu, viết bài báo khoa học và làm khóa
luận.
Cám ơn phịng thí nghiệm truyền thơng đa phương tiện (MMLab) trường Đại
học Công nghệ thông tin, ĐHQG Tp.HCM đã cung cấp cho em các cơ sở thiết bị
trong q trình nghiên cứu. Cám ơn Khoa Cơng nghệ phần mềm của trường Đại học
Công nghệ thông tin, ĐHQG Tp.HCM đã tạo điều kiện cho em cơ hội để hồn
thành khóa luận này.
Xin chân thành cám ơn.


MỤC LỤC
Chương 1.

GIỚI THIỆU........................................................................................2

1.1. GIỚI THIỆU ..................................................................................................2
1.2. MỤC TIÊU ....................................................................................................3
1.3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................................3
1.4. PHẠM VI NGHIÊN CỨU ............................................................................4
1.5. BỐ CỤC KHĨA LUẬN ................................................................................5
Chương 2.


TỔNG QUAN CÁC CƠNG TRÌNH NGHIÊN CỨU CÓ LIÊN

QUAN

.............................................................................................................6

2.1. TỔNG QUAN................................................................................................6
2.2. CÁC PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG ....................................6
2.2.1.

Faster R-CNN ......................................................................................8

2.2.2.

Cascade R-CNN ..................................................................................9

2.2.3.

DetectoRS ..........................................................................................10

2.2.4.

RetinaNet ...........................................................................................11

2.2.5.

SSD ....................................................................................................11

2.3. ẢNH SIÊU PHÂN GIẢI .............................................................................12
2.3.1.


Giới thiệu tổng quan bài toán ảnh siêu phân giải ..............................12

2.3.2.

RCAN ................................................................................................12

2.4. MẠNG THẦN KINH TÍCH CHẬP ............................................................14
2.4.1.

VGG-16 .............................................................................................14

2.4.2.

Resnet50 ............................................................................................15

Chương 3.

KIẾN TRÚC ĐỀ XUẤT ...................................................................16


3.1. KIẾN TRÚC MƠ HÌNH BÀI TỐN PHÁT HIỆN ĐỐI TƯỢNG ...........16
3.1.1.

Cấu trúc mơ hình ...............................................................................16

3.1.2.

Thực hiện ...........................................................................................16


3.2. KIẾN TRÚC MƠ HÌNH BÀI TỐN ẢNH SIÊU PHÂN GIẢI ................17
3.2.1.

Cấu trúc mơ hình ...............................................................................17

3.2.2.

Thực hiện ...........................................................................................17

3.3. KIẾN TRÚC MƠ HÌNH BÀI TỐN KẾT HỢP........................................18
3.3.1.

Cấu trúc mơ hình ...............................................................................18

3.3.2.

Thực hiện ...........................................................................................18

Chương 4.

ĐÁNH GIÁ VÀ THỰC NGHIỆM ...................................................20

4.1. BỘ DỮ LIỆU...............................................................................................20
4.1.1.

Bộ dữ liệu không ảnh ........................................................................20

4.1.2.

Visdrone2019-DET ...........................................................................21


4.2. ĐỘ ĐO .........................................................................................................22
4.2.1.

Inersection over Union (IoU) ............................................................22

4.2.1.1. Khái niệm.......................................................................................22
4.2.1.2. Đặc điểm và lý do sử dụng ............................................................22
4.2.2.

Mean Average Percision (mAP)........................................................23

4.2.2.1. True Positive(TP), False Positive(FP), False Negative(FN) and
True Negative(TN) ........................................................................................23
4.2.2.2. Precision (độ chính xác) và Recall (độ gọi lại) .............................24
4.2.3.

Peak Signal-to-Noise Ration (PSNR)/ Structural Similarity (SSIM)24

4.2.3.1. Peak Signal-to-Noise Ration (PSNR) ............................................24
4.2.3.2. Structural Similarity (SSIM) .........................................................25


4.3. ẢNH SIÊU PHÂN GIẢI .............................................................................25
4.3.1.

Chuẩn bị.............................................................................................25

4.3.2.


Thực hiện ...........................................................................................25

4.3.3.

Kết quả...............................................................................................27

4.3.3.1. Kết quả huấn luyện (Loss và PSNR) .............................................27
4.3.3.2. Kết quả ảnh thực nghiệm ...............................................................29
4.4. PHÁT HIỆN ĐỐI TƯỢNG .........................................................................30
4.4.1.

Chuẩn bị.............................................................................................30

4.4.2.

Thực hiện ...........................................................................................30

4.4.3.

Kết quả...............................................................................................34

4.4.4.

Thống kê kết quả ...............................................................................37

4.5. MƠ HÌNH KẾT HỢP GIỮA ẢNH SIÊU PHÂN GIẢI VÀ PHÁT HIỆN
ĐỐI TƯỢNG ........................................................................................................38
4.5.1.

Chuẩn bị.............................................................................................38


4.5.2.

Thực hiện ...........................................................................................38

4.5.3.

Thống kê kết quả ...............................................................................39

Chương 5.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................43

5.1. Kết luận ........................................................................................................43
5.2. Hướng phát triển ..........................................................................................43
5.3. Cơng bố ........................................................................................................43
CƠNG TRÌNH CƠNG BỐ .......................................................................................44
TÀI LIỆU THAM KHẢO .........................................................................................45
PHỤ LỤC ..................................................................................................................47
CÁC KẾT QUẢ THỰC NGHIỆM .......................................................................47


Faster R-CNN....................................................................................................47
Cascade R-CNN ................................................................................................48
DetectoRS .........................................................................................................49
RetinaNet...........................................................................................................50
SSD ...................................................................................................................52
MINH HỌA THỰC NGHIỆM .............................................................................54



DANH MỤC HÌNH
Hình 2.1 Mơ hình Faster R-CNN [2]. .........................................................................8
Hình 2.2 Mơ hình Cascade R-CNN [4].....................................................................10
Hình 2.3 Recursive Feature Pyramid và Switchables Atrous Convolution [5]. .......11
Hình 2.4 Mơ hình SSD [7]. .......................................................................................12
Hình 2.5 Bài tốn Image Super Resolution...............................................................13
Hình 2.6 Mơ hình RCAN[8]. ....................................................................................13
Hình 2.7 Kiến trúc mạng VGG-16 [10]. ...................................................................14
Hình 2.8 Kiến trúc mạng Resnet-50 [10]. .................................................................15
Hình 3.1 Cấu trúc mơ hình bài tốn phát hiện đối tượng ..........................................16
Hình 3.2 Cấu trúc mơ hình bài tốn ảnh siêu phân giải. ...........................................17
Hình 3.3 Mơ hình thực nghiệm. ................................................................................18
Hình 4.1 COCO và Visdrone2019 ............................................................................20
Hình 4.2 Visdrone2019 datasets. ..............................................................................21
Hình 4.3 Thuật tốn IoU . .........................................................................................22
Hình 4.4 Mức độ đánh giá IoU. ................................................................................23
Hình 4.5 Biểu đồ đường Loss và PSNR trong huấn luyện mô hình RCAN scale 2 .27
Hình 4.6 Biểu đồ đường Loss và PSNR trong huấn luyện mơ hình RCAN scale 3. 27
Hình 4.7 Kết quả đánh giá mơ hình RCAN scale 2. .................................................28
Hình 4.8 Kết quả đánh giá mơ hình RCAN scale 3. .................................................28
Hình 4.9 Kết quả chuyển đổi ảnh SRx2 và SRx3. ....................................................29
Hình 4.10 Kết quả chuyển đổi ảnh SRx2 và SRx3. ..................................................30
Hình 4.11 Ảnh trích xuất các bounding-box từ annotation dưới định dạng COCO
(VOC). .......................................................................................................................31
Hình 4.12 File config mẫu cho mơ hình phát hiện đối tượng bằng phương pháp
Cascade R-CNN. .......................................................................................................32
Hình 4.13 File config chi tiết cấu trúc mạng.............................................................33
Hình 4.14 File config chi tiết datasets.......................................................................34



Hình 4.15 Kết quả đánh giá mơ hình phương pháp Faster R-CNN trên
Visdrone2019-val. .....................................................................................................34
Hình 4.16 Kết quả đánh giá mơ hình phương pháp Cascade R-CNN trên
Visdrone2019-val ......................................................................................................35
Hình 4.17 Kết quả đánh giá mơ hình phương pháp DetectoRS trên Visdrone2019val ..............................................................................................................................35
Hình 4.18 Kết quả đánh giá mơ hình phương pháp RetinaNet trên Visdrone2019-val
...................................................................................................................................35
Hình 4.19 Kết quả đánh giá mơ hình phương pháp SSD trên Visdrone2019-val.....36


DANH MỤC BẢNG
Bảng 1 So sánh tốc độ giữa R-CNN, Fast R-CNN, Faster R-CNN [2]. .....................9
Bảng 2 Bảng so sánh kết quả huấn của 5 phương pháp phát hiện đối tượng (AP)...37
Bảng 3 Bảng so sánh kết quả huấn của 5 phương pháp phát hiện đối tượng (AR) ..37
Bảng 4 Bảng so sánh kết quả thực nghiệm của 5 phương pháp phát hiện đối tượng
trên các tập dữ liệu Visdrone2019-val (HR, LRx2, SRx2, SRx3) trên độ đo AP.....40
Bảng 5 Bảng so sánh kết quả thực nghiệm của 5 phương pháp phát hiện đối tượng
trên các tập dữ liệu Visdrone2019-val (HR, LRx2, SRx2, SRx3) trên độ đo AR. ...42


DANH MỤC TỪ VIẾT TẮT
Đầy đủ

Viết tắt
HR

High Resolution

LR


Low Resolution

SR

Super Resolution

ISR

Image- Super Resolution

SSD

Single Shot Multibox Detector

IoU

Inersection over Union

AP

Average Percision

AR

Average Recall

CNN

Convolutional Neural Network


SOTA

State of the art

Faster R-CNN

Faster Region-based Convolutional Network

Dataset

Tập dữ liệu


TÓM TẮT KHÓA LUẬN
Trong xã hội ngày nay, các ứng dụng khoa học được ứng dụng rộng rãi trong
cuộc sống con người. Với bước tiến vào thời đại công nghệ 4.0, nhu cầu của con
người về ứng dụng cũng ngày một cao. Ngoài những nền khoa học cơ bản về kĩ
thuật, điện tử, y tế,… thì một nền khoa học mới cũng dần được đưa vào cuộc sống
con người đó là trí tuệ nhân tạo. Trí tuệ nhân tạo đã dần dần được đưa vào cuộc
sống con người, từ các ứng dụng : nhận diện khuôn mặt, nhân diện giọng nói, các
người máy trí tuệ nhân tạo trong SmartPhone (Siri, Google AI).
Trong khóa luận này sẽ đề cập đến hai lĩnh vực trong trí tuệ nhân tạo – AI
nói chung và học sâu – DeepLearning nói riêng, đó là kết hợp kĩ thuật ảnh siêu độ
phân giải vào bài toán phát hiện đối tượng. Sự kết hợp này được đề ra nhằm mục
đích đánh giá về khả năng và mức độ ảnh hưởng của phương pháp ảnh siêu phân
giải đối với bài tốn phát hiện đối tượng và từ đó đề xuất ứng dụng của mơ hình kết
hợp này vào ứng dụng cuộc sống.
Với đề tài nghiên cứu trên nhóm nghiên cứu chúng tôi đã thành công trong
việc chuyển đổi nội dung này thành bài báo khoa học và được công bố tại hội nghị
NAFOSTED Conference on Information and Computer Science, 2020.


1


Chương 1. GIỚI THIỆU
1.1. GIỚI THIỆU
Ngày nay, các thiết bị bay unmanned aerial vehicle (UAV) được sử
dụng ngày càng nhiều, phục vụ cho nhiều nhiệm vụ như thu thập, giám sát,...
nguồn dữ liệu thu thập từ UAV ngày càng nhiều và phong phú mặt khác các
nhiệm vụ xử lý trên ảnh UAV có nhiều đặc điểm bị hạn chế như góc quay, tỉ
lệ nhỏ của vật thể với ảnh, mất cân bằng giữa foreground và background, bị
ảnh hưởng thời tiết: rung lắc (gió), che chắn (mây), mờ (sương),...Các vấn đề
đó điều làm ảnh hưởng chất lượng ảnh cũng như tạo ra nhiều thách thức cho
các nhiệm vụ thị giác máy tính, trong đó có bài tốn phát hiện đối tượng. Do
đó việc nâng cao chất lượng ảnh đang là nhiệm vụ thiết yếu giúp tăng khả
năng phát hiện đối tượng .
Trong những năm gần đây, các cơng trình nghiên cứu liên quan độ
hiệu quả cho bài toán phát hiện đối tượng ngày càng đa dạng. Bao gồm
những thực nghiệm về: thay đổi kiến trúc mạng, sử dụng các phương pháp
tối ưu nhất, điều chỉnh số lượng vật thể trong bộ dữ liệu, nâng cao chất lượng
ảnh,… Các thực nghiệm trên đã được công nhận, do các kết quả thực nghiệm
đều trả về các kết quả khả quan và chứng tỏ rằng chúng thực sự có hiệu quả
trong bài tốn phát hiện đối tượng. Kế thừa quan điểm đó, khóa luận này sẽ
tiến hành thực nghiệm dựa trên việc nâng cao chất lượng ảnh nhằm đạt mục
tiêu tăng hiểu quả của bài toán phát hiện đối tượng.
Đối với việc nâng cao chất lượng ảnh thì những năm gần đây việc cải
tiến, nâng cao kỹ thuật của camera gần như đã được những thành tựu cao về
chất lượng ảnh. Nhưng đối mặt với vấn đề ấy là mặt tốn kém về các chi phí
cho vận hành và bảo trì chất lượng của những camera tiên tiến [1]. Thay vì ra
các chi phí ấy, thì ta sẽ sử dụng vận dụng cơng nghệ máy học nhằm đạt được

mục tiêu nâng cao chất lượng ảnh nhưng cũng đồng thời giảm chi phí. Image
Super Resolution (ISR) - ảnh siêu phân giải, là một bài toan học sâu được
vận dùng trong việc nâng cao chất lượng ảnh ngày nay. Bài toán sẽ tiến hành

2


huấn luyện từ tập dữ liệu ảnh chất lượng cao và thấp để thu được mơ hình
chuyển hóa những ảnh chất lượng thấp thành ảnh chất lượng cao. Chất lượng
của hình ảnh được tái tạo được đánh giá bằng các thước đo định lượng dựa
trên pixel như PSNR và SSIM. Một cách trực quan, người ta có thể cho rằng
các phương pháp siêu phân giải sẽ tăng hiệu suất phát hiện đối tượng, vì sự
gia tăng độ phân giải sẽ thêm nhiều tính năng dễ phân biệt hơn mà thuật tốn
phát hiện đối tượng có thể sử dụng để phân biệt.
Bằng việc kết hợp phương pháp siêu phân giải và phát hiện đối tượng.
Bài khóa luận này sẽ đưa những đánh giá về độ ảnh hưởng của phương pháp
siêu độ phân giải ảnh đối với bài toán phát hiện đối tượng khơng ảnh.
1.2. MỤC TIÊU
Xây dựng mơ hình phát hiện đối tượng gồm nhiều phương pháp như:
Faster R-CNN [3], Cascade R-CNN [4], DetectoRS [5], RetinaNet [6], SSD
[7]. Được huấn luyện từ bộ dữ liệu Visdrone2019 và sử dụng thuật toán siêu
phân giải ảnh để xử lý dữ liệu đầu vào của mơ hình. Đánh giá kết quả thu
được từ việc thực nghiệm bộ dữ liệu gốc (được xem như ảnh chất lượng cao
– High Resolution) và bộ dữ liệu ảnh siêu phân giải (Super Resolution).
Khóa khóa luận này sẽ đề ra một mơ hình thay thế việc sử dụng những ảnh
chất lượng cao cho bài toán phát hiện đối tượng bằng những ảnh chất lượng
thấp được nâng cao chất lượng từ bài toán ảnh siêu phân giải.
1.3. PHƯƠNG PHÁP NGHIÊN CỨU
-


Phương pháp tổng luận: khóa luậnnày dùng để định hướng các nghiên cứu
liên quan đến bài toán phát hiện đối tượng và ảnh siêu phân giải. Giúp làm rõ
kết quả phát hiện đối tượng giữa ảnh chất lượng cao và ảnh siêu phân giải.
Ngồi ra cịn làm rõ một số hạn chế của bài toán ảnh siêu phân giải đối với
bài toán phát hiện đối tượng.

3


-

Phương pháp máy học: được sử dụng cho việc nghiên cứu các phương pháp
phát hiện đối tượng và ảnh siêu phân giải. Tổng hợp những lý thuyết cơ bản
về máy học trong tồn khóa luận:
o Tổng quan về bài tốn phát hiện đối tượng:
▪ Faster R-CNN [3]
▪ Cascade R-CNN [4]
▪ DetectoRS [5]
▪ RetinaNet [6]
▪ SSD[7]
o Tổng quan về bài toán ảnh siêu phân giải:
▪ Giới thiệu ảnh siêu phân giải [12]
▪ Phương pháp RCAN (Residual channel attention network) [8]
o Giới thiệu mạng nơ-ron tích chập
▪ VGG-16 [9, 10]
▪ Resnet50 [10, 11]

-

Phương pháp so sánh: so sánh kết quả nhằm đưa ra nhận định giữa các

phương pháp phát hiện đối tượng cũng như giữa phương pháp ảnh siêu phân
giải đối với bài toán phát hiện đối tượng.

-

Phương pháp thực nghiệm: được dùng trong q trình phân tích bộ dữ liệu,
huấn luyện mơ hình phát hiện đối tượng, ảnh siêu phân giải và cuối cùng là
đánh giá các mơ hình đó.

1.4. PHẠM VI NGHIÊN CỨU
Đề tài tập trung vào việc nghiên cứu độ ảnh hưởng của ảnh siêu phân
giải đối với bài toán phát hiện đối tượng

4


×