Tải bản đầy đủ (.pptx) (18 trang)

Slide thuật toán SSD

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (836.03 KB, 18 trang )

MÔN CS338

Đề tài
me listen…
Single Shot MultiBoxLetDetector
Giảng viên hướng dẫn: Lê Minh Hưng
Sinh viên thực hiện:





18521075: Bùi Minh Lý
18521204: Nguyễn Huỳnh Nhi
18521070: Lê Công Lực

1


Single Shot Detector

2


Single Shot Detector

 SSD chỉ cần duy nhất đầu vào là 1 bức ảnh và các ground truth boxes và tạo ra các MultiBox sau khi qua
lớp extract feature.

3



Single Shot Detector

 Trên mỗi một feature map, gồm tập hợp nhỏ gồm những default boxes tương ứng với các tỷ lệ (aspect
ratio).

 Mỗi default box (các boxes nét đứt trong hình) ta cần dự báo một phân phối xác suất c=(c1,c2,
…,cp) tương ứng với các class.

4


Kiến trúc mạng

5


Kiến trúc mạng

  Sử dụng backbone là VGG16 để tạo ra  feature map.
 Base Network tính từ input image -> khối Conv7.
 Những khối phía sau basenetwork để tiến hành nhận diện vật thể như phần extra feature layer trong sơ
đồ.

6


Kiến trúc mạng

 Input Layer: Nhận input đầu vào là các bức ảnh có kích thước 300 x 300 x 3 với SSD300 hoặc 500 x 500 x

3 với SSD500.
 Conv5_3 Layer: Chính là kiến trúc của VGG16 nhưng loại bỏ layers fully connected ở cuối cùng. Output
của layer này là Conv4_3 và là một feature map có kích thước 38 x 38 x 512.
 Số lượng các bounding box được sản sinh ra là 38 x 38 x 4

7


Kiến trúc mạng

 Quá trình áp dụng classifier lên feature map cũng tương tự với các layer Conv7, Conv8_2, Conv_9,
Conv10_2, Conv11_2.
 Conv7: 19×19×6 = 2166 boxes (6 boxes/cell)
 Conv8_2: 10×10×6 = 600 boxes (6 boxes/cell)
 Conv9_2: 5×5×6 = 150 boxes (6 boxes/cell)
 Conv10_2: 3×3×4 = 36 boxes (4 boxes/cell)
 Conv11_2: 1×1×4 = 4 boxes (4 boxes/cell)
8


Kiến trúc mạng

 Tổng lại ta có 8732 box nhiều hơn rất nhiều lần so với YOLO khi chỉ phải dự đốn chỉ 98 khung hình ở
output.
 Đó là lý do tại sao thuật tốn có tốc độ chậm hơn so với YOLO.

9


Hàm Loss


10


Hàm Loss



Hàm Loss của MultiBox là kết hợp của 2 thành phần ứng với 2 chức năng của SSD:




Confidence Loss: tính tốn tỉ lệ rơi vào class mà bounding box được tính tốn. Sử dụng độ đo cross-entropy để đo.
Location Loss: Thành phần này ước lượng sự sai lệch thực tế của bounding box so với tập dữ liệu mẫu. L2-Norm
được sử dụng ở đây.

Hàm loss lấy ý tưởng Szegedy
11


Hàm Loss

 Cơng
thức tổng qt:
 
 Trong đó:

 




Hàm loss localization () tương tự với hàm loss lcslization của Faster R-CNN.



Confidence loss () là một softmax loss đối với nhiều classes (c).

12


Quá trình huấn luyện

13


Q trình huấn luyện

 SSD có thể

nhận biết được của các đối tượng bằng cách, mỗi đối tượng sẽ có rất
nhiều các default box từ ground truth.

 Từ đó nó sẽ lấy tập các aspect ratio của mỗi class và thực hiện gom cụm để đưa
về các object có hình dạng giống nhau.

 Để giảm thiểu số lượng bounding box phải dự đốn và cũng đảm bảo được độ
chính xác.

14



Đánh giá

15


Đánh giá
 Mơ hình được đào tạo bằng SGD, Sử dụng Nvidia Titan X trong bài kiểm tra VOC2007, SSD đạt 59 FPS với mAP
74,3%, nhanh hơn R-CNN 7 FPS với mAP 73,2% hoặc YOLO 45 FPS với mAP 63,4%.

16


Đánh giá

 Đây là bản tóm tắt về hiệu suất tốc độ tính theo khung hình trên giây.

17


Tài liệu






SSD: Single Shot MultiBox Detector - Wei liu và cộng sự
SSD: object detection single shot multibox detector for real time processing - jonathan hui

SSD_keras github repository
SSD caffe github repository - Weiliu

18



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×