Abstract

Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNet-trained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on ‘Stylized-ImageNet’, a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.


CNN은 일반적으로 복잡한 object shape representation을 점차 학습하면서 객체를 인식하는 것처럼 생각할 수 있다.

최근 연구는 image texture가 더욱 중요한 규칙이라고 제안하고 있다.

이 연구는 texture와 shape가 존재하는 이미지에서 사람과 CNN을 평가하여 이러한 상충되는 가설을 검증하는 정량적 테스트를 수행한다.

분류하는 과정에 있어서 ImageNet으로 학습된 CNN은 사람이 사물을 판단하는 것과 다르게 shape보다 texture 인식에 편향되어 있다.

 ImageNet에서 texture-based representation을 학습하는 ResNet-50과 같은 표준 아키텍쳐가 이 논문에서 제안하는 'Stylized-ImageNet'을 학습하면 shape representation을 학습할 수 있다는 것을 보여줍니다.

이는 연구실에서 잘 통제된 연구 환경에서 사람이 사물을 구분하는 것처럼 모델이 잘 구분할 수 있, 이보다 더 나은 성능을 보여줄 수 있음을 다양한 실험을 통해 증명한다. 또, object detection 성능이나 이전에 보지 못한 이미지를 잘 구분하는 견고함과 같은 이점을 shape-based representation을 학습함으로써 얻을 수 있음을 보여준다.


요약

  • 사람은 global object shape에 편향되어 사물을 추측하고, 이와 다르게 CNN은 texture로 사물을 판단한다
  • 결국 성능 향상을 위해 논문에서 제시한 style-based ImageNet과 base Image를 함께 학습시킴
  • 사람이 noise가 포함된 이미지를 잘 인식하는 이유는 shape-based이기 때문이다
  • 나머지 내용은 참조의 유튜브 동영상 보는 것을 추천합니다. 매우 설명을 잘해주고 있으십니다..!

 

Reference

Geirhos, R., Rubisch, P., Michaelis, C., Bethge, M., Wichmann, F. A., & Brendel, W. (2018). ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. arXiv preprint arXiv:1811.12231.

www.youtube.com/watch?v=oBapZTL8LsE&list=PLWKf9beHi3TgstcIn8K6dI_85_ppAxzB8&index=49