Slide thuật toán SSD

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (836.03 KB, 18 trang )

MÔN CS338

Đề tài
me listen…
Single Shot MultiBoxLetDetector
Giảng viên hướng dẫn: Lê Minh Hưng
Sinh viên thực hiện:

•
•
•

18521075: Bùi Minh Lý
18521204: Nguyễn Huỳnh Nhi
18521070: Lê Công Lực

1

Single Shot Detector

2

Single Shot Detector

 SSD chỉ cần duy nhất đầu vào là 1 bức ảnh và các ground truth boxes và tạo ra các MultiBox sau khi qua
lớp extract feature.

3

Single Shot Detector

 Trên mỗi một feature map, gồm tập hợp nhỏ gồm những default boxes tương ứng với các tỷ lệ (aspect
ratio).

 Mỗi default box (các boxes nét đứt trong hình) ta cần dự báo một phân phối xác suất c=(c1,c2,
…,cp) tương ứng với các class.

4

Kiến trúc mạng

5

Kiến trúc mạng

 Sử dụng backbone là VGG16 để tạo ra feature map.
 Base Network tính từ input image -> khối Conv7.
 Những khối phía sau basenetwork để tiến hành nhận diện vật thể như phần extra feature layer trong sơ
đồ.

6

Kiến trúc mạng

 Input Layer: Nhận input đầu vào là các bức ảnh có kích thước 300 x 300 x 3 với SSD300 hoặc 500 x 500 x

3 với SSD500.
 Conv5_3 Layer: Chính là kiến trúc của VGG16 nhưng loại bỏ layers fully connected ở cuối cùng. Output
của layer này là Conv4_3 và là một feature map có kích thước 38 x 38 x 512.
 Số lượng các bounding box được sản sinh ra là 38 x 38 x 4

7

Kiến trúc mạng

 Quá trình áp dụng classifier lên feature map cũng tương tự với các layer Conv7, Conv8_2, Conv_9,
Conv10_2, Conv11_2.
 Conv7: 19×19×6 = 2166 boxes (6 boxes/cell)
 Conv8_2: 10×10×6 = 600 boxes (6 boxes/cell)
 Conv9_2: 5×5×6 = 150 boxes (6 boxes/cell)
 Conv10_2: 3×3×4 = 36 boxes (4 boxes/cell)
 Conv11_2: 1×1×4 = 4 boxes (4 boxes/cell)
8

Kiến trúc mạng

 Tổng lại ta có 8732 box nhiều hơn rất nhiều lần so với YOLO khi chỉ phải dự đốn chỉ 98 khung hình ở
output.
 Đó là lý do tại sao thuật tốn có tốc độ chậm hơn so với YOLO.

9

Hàm Loss

10

Hàm Loss



Hàm Loss của MultiBox là kết hợp của 2 thành phần ứng với 2 chức năng của SSD:

•
•

Confidence Loss: tính tốn tỉ lệ rơi vào class mà bounding box được tính tốn. Sử dụng độ đo cross-entropy để đo.
Location Loss: Thành phần này ước lượng sự sai lệch thực tế của bounding box so với tập dữ liệu mẫu. L2-Norm
được sử dụng ở đây.

Hàm loss lấy ý tưởng Szegedy
11

Hàm Loss

 Cơng
thức tổng qt:

 Trong đó:

•

Hàm loss localization () tương tự với hàm loss lcslization của Faster R-CNN.

•

Confidence loss () là một softmax loss đối với nhiều classes (c).

12

Quá trình huấn luyện

13

Q trình huấn luyện

 SSD có thể

nhận biết được của các đối tượng bằng cách, mỗi đối tượng sẽ có rất
nhiều các default box từ ground truth.

 Từ đó nó sẽ lấy tập các aspect ratio của mỗi class và thực hiện gom cụm để đưa
về các object có hình dạng giống nhau.

 Để giảm thiểu số lượng bounding box phải dự đốn và cũng đảm bảo được độ
chính xác.

14

Đánh giá

15

Đánh giá
 Mơ hình được đào tạo bằng SGD, Sử dụng Nvidia Titan X trong bài kiểm tra VOC2007, SSD đạt 59 FPS với mAP
74,3%, nhanh hơn R-CNN 7 FPS với mAP 73,2% hoặc YOLO 45 FPS với mAP 63,4%.

16

Đánh giá

 Đây là bản tóm tắt về hiệu suất tốc độ tính theo khung hình trên giây.

17

Tài liệu






SSD: Single Shot MultiBox Detector - Wei liu và cộng sự
SSD: object detection single shot multibox detector for real time processing - jonathan hui

SSD_keras github repository
SSD caffe github repository - Weiliu

18

Slide thuật toán SSD

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về