Abstract

In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network (CNN) to have remarkable localization ability despite being trained on imagelevel labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that exposes the implicit attention of CNNs on an image. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014 without training on any bounding box annotation. We demonstrate in a variety of experiments that our network is able to localize the discriminative image regions despite just being trained for solving classification task1.


이 논문에서는 제안된 GAP에 대해 살펴보고, 이미지 단위의 레이블로 학습했음에도 불구하고 뛰어난 지역화 성능을 보여주는 CNN이 어떻게 그럴 수 있는지에 대해 살펴본다.

이 기술은 학습을 정규화하는 목적으로 사용되지만, 실제로 CNN이 이미지에 대한 암시적 관심을 노출시키는 일반적인 지역화가 가능한 심층 표현을 학습할 수 있는 것으로 나타났다.

GAP의 단순성에도 불구하고, bbox annotation을 학습에 사용하지 않고서도 ILSVRC 2014 객체 지역화 대회에서 37.1% top-5 error를 달성하였다. 

우리는 다양한 실험에서 분류를 위해 학습되었음에도 불구하고, 이러한 모델이 객체 지역화에서 잘 작동할 수 있음을 보여준다.


요약

  • 단순 classification 문제로 신경망을 학습시켰을 때, 모델이 해당 이미지에서 주요 객체를 지역화시킬 수 있는지에 대해 알아본다.

  • 관련 연구로는 GAP(Global Average Pooling)이 있으며, 이 개념은 NIN(Network in Network)에서 나옴. GAP의 사용은 대표적으로 기존 모델 구성 시에, FCN(fully connected layer)가 오버피팅을 발생시키기 쉽기 때문에 이를 해결하기 위해서 사용됨. 또한, FCN은 단순 연결하는데 비해 GAP는 채널 별 Sum을 가져다 쓰므로 모델이 이미지를 이해하는데 더욱 도움을 준다고 한다. 
  • 모델 설명을 위해 자주 사용되는 Grad-CAM에서의 CAM에 대한 내용이 이 논문의 대부분이다.

  • GAP와 GMP의 비교도 해주게 되는데, 이는 단순하게 MaxPooling과 Average Pooling의 차이와 비슷하다. 결과적으로 GAP는 activation에서 활성화를 시키려면 대부분의 픽셀이 영향을 주어야 활성화가 진행되기 때문에 지역화에 좀 더 영향을 크게 미친다.
  • Localization의 높은 성능을 위해서는 Classification의 성능 또한 중요하다.
  • 논문에서는 계속해서 GAP를 추가한 것과 그렇지 않은 것 + Weekly-supervised에 관한 실험에 대한 내용을 설명한다. 밑의 그림에서 green box는 ground truth이고, red box는 실험 결과이다.

  • 마지막으로 논문에서 보면 GAP를 활용하면 다양한 주제에서 적절한 성능을 얻을 수 있다는 실험을 보여주는 것 같다.

 

Reference

https://www.youtube.com/watch?v=-Z1NIzLxgRU&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=48
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2921-2929).