Abstract

In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network to have remarkable local- ization ability despite being trained on image-level labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that can be applied to a variety of tasks. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014, which is re- markably close to the 34.2% top-5 error achieved by a fully supervised CNN approach. We demonstrate that our net- work is able to localize the discriminative image regions on a variety of tasks despite not being trained for them.


이 논문은 Global average pooling layer에 대해 다시 생각해보고, image-level label에 대해서만 학습했음에도 불구하고 CNN이 현저한 지역화 능력을 어떻게 가질 수 있는지에 대해 밝힌다.

이 기술은 이전에 정규(규제?) 학습의 의미로서 알렸지만, 본 연구팀은 다양한 작업에 적용가능한 일반적인 지역화의 심층적인 표현을 빌드한 다는 것을 발견하였다.

Global Average Pooling 의 명백한 단순함에도 불구하고, 우리는 bounding box annotation을 사용하지 않고 ILSVRC 2014의 객체 지역화에서 top-5 error 37.1%를 달성하였다.

본 연구팀은 실험한 네트워크가 특정 이미지 영역을 학습하지 않아도 다양한 작업에 성능을 나타낼 수 있을을 증명한다.

1Our models are available at: http://cnnlocalization.csail.mit.edu

Weakly supervised learning에 관한 논문중 하나이다.

 

Reference

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2921-2929).