Abstract. 

We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape. Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes. SSD is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stages and encapsulates all computation in a single network. This makes SSD easy to train and straightforward to integrate into systems that require a detection component. Experimental results on the PASCAL VOC, COCO, and ILSVRC datasets confirm that SSD has competitive accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference. For 300 × 300 input, SSD achieves 74.3% mAP on VOC2007 test at 59 FPS on a Nvidia Titan X and for 512 × 512 input, SSD achieves 76.9% mAP, outperforming a comparable state-of-the-art Faster R-CNN model. Compared to other single stage methods, SSD has much better accuracy even with a smaller input image size. Code is available at: https://github.com/weiliu89/caffe/tree/ssd .


단일 deep NN을 사용하여 이미지의 객체를 탐지하기 위한 방법을 소개한다.

SSD는 bbox의 출력 공간을 특성 맵 location 당 크기와 다양한 aspect ratio를 통해 일련의 bbox로 구분한다.

추론시에, 네트워크는 각 box에 대해 객체 카테고리의 존재에 대한 score를 계산하고 객체 모양에 가장 잘 맞는 box를 고안한다.

추가로 네트워크는 객체의 다양한 크기를 다루기 위한 다른 방법들을 가진 multiple feature maps로 부터 생성된 prediction을 혼합한다.

SSD는 제안 생성과 후속 픽셀 또는 특징 리샘플링 단계를 제거하고 단일 네트워크에서 모든 계산을 행하기 때문에 객체 제안이 필요한 방법에 비해 단순하다.

이는 학습과 감지 요소가 필요한 시스템에 대한 통합을 쉽게한다. 

다양한 데이터셋에 대해 SSD는 객체 제안 방법보다 경쟁적인 정확도를 보여주고 빠르며, 학습과 추론을 위한 프레임워크를 제공한다.

300x300의 사이즈에서 VOC 2007 테스트 데이터셋에 대해 74.3% mAP를 달성하였고 Nvidia Titan X에서 59 FPS를 보였다.

500x500의 사이즈에서 Faster R-CNN보다 높은 76.9%의 mAP를 달성하였다. 

다른 단일 단계 방법과 비교했을 때, 이미지 크기가 작아도 훨씬 우수한 성능을 보여주었다.


요약

  • 1-stage : region proposal, 작업을 한번에 하는 것
  • 2-stage : region proposal path를 따로 구성하여 detect하는 것 
  • 여러 개의 conv에서 나온 다양한 크기의 feature map을 bounding box detect에 사용한다
  • Loss 는 주로 fast R-CNN과 같으며, bbox를 얼마나 이동시켜야 하는지에 대한 파라미터인 d를 학습시킨다
  • YOLO에 비해 상당히 많은 default bbox를 생성하는데 이는 곧 성능향상으로 이루어진다

 

 

Reference

Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.