Abstract

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation. Since the whole detection pipeline is a single network, it can be optimized end-to-end directly on detection performance. Our unified architecture is extremely fast. Our base YOLO model processes images in real-time at 45 frames per second. A smaller version of the network, Fast YOLO, processes an astounding 155 frames per second while still achieving double the mAP of other real-time detectors. Compared to state-of-the-art detection systems, YOLO makes more localization errors but is less likely to predict false positives on background. Finally, YOLO learns very general representations of objects. It outperforms other detection methods, including DPM and R-CNN, when generalizing from natural images to other domains like artwork.


object detection을 위한 YOLO를 소개한다.

object detection의 사전 연구는 분류기를 객체 탐지용으로 변환하여 사용하는데에 목적이 있었다.

우리는 object detection을 연관 클래스 확률과 bounding box 회귀문제로 정의한다.

한번의 평가에서 전체 이미지에 대해 클래스 확률과 bounding box를 추론한다.

detection pipeline은 end-to-end로 최적화 된 단일 신경망으로 구성된다.

우리의 통합된 아키텍처는 매우 빠르다.

YOLO는 실시간으로 초당 45프레임을 처리할 수 있다.

경량 버전인 Fast YOLO는 다른 실시간 detector의 mAP의 두배를 달성하면서도 초당 155 프레임을 처리한다.

최신 모델과 비교하면, YOLO는 localization error를 많이 발생시키지만 background에 대해서 false positive는 덜 발생시킨다.

마지막으로, YOLO는 객체의 일반화된 표현을 학습한다. natural image에서 예술작품과 같은 다른 도메인으로 일반화 시킬때 DPM과 R-CNN을 포함한 다른 탐지기에 비해 우수한 성능을 낸다.


요약

  • 이전 연구의 모든것을 통합했다. 빠르다. end-to-end

  • 1x1 network를 통해 모델 파라미터 갯수를 낮추려고 노력을 많이 했다.

  • Classifier부분에 단순히 Dense를 1~2개 사용한 것이 아니라 Conv를 활용해보았다.

  • Non Maximum Suppression 방법을 통해 class와 bbox를 예측한다.

      1. 각 grid cell마다 2개의 bbox를 만든다.
      1. 각 bbox의 class score가 일정 수준보다 낮은 경우는 0으로 채우고 score가 높은 순서대로 sorting한다.
      1. 가장 높은 bbox를 기준으로 다음으로 높은 bbox와 IOU를 계산하여 일정 수준이상 겹치면 0으로 채워 지운다.
  • 일정 bbox 크기만 학습을 하기 때문에 다양한 객체 학습에 어려움이 있음.


 

Reference

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).