Abstract

https://github.com/msracver/Deformable-ConvNets.

Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in their building modules. In this work, we introduce two new modules to enhance the transformation modeling capability of CNNs, namely, de- formable convolution and deformable RoI pooling. Both are based on the idea of augmenting the spatial sampling locations in the modules with additional offsets and learn- ing the offsets from the target tasks, without additional supervision. The new modules can readily replace their plain counterparts in existing CNNs and can be easily trained end-to-end by standard back-propagation, giving rise to deformable convolutional networks. Extensive ex- periments validate the performance of our approach. For the first time, we show that learning dense spatial trans- formation in deep CNNs is effective for sophisticated vi- sion tasks such as object detection and semantic segmen- tation. The code is released at https://github.com/msracver/Deformable-ConvNets.


CNN은 구조 안에서 고정된 기하학적 구조때문에 model geometric transformation이 제한적이다.

이 연구에서는 이러한 한계점을 극복할 수 있는 deformable cnn, RoI pooling을 소개한다.

둘 다 추가적인 오프셋으로 모듈의 공간 샘플링 위치를 늘리고 추가적인 감독 없이 대상 작업에서 오프셋을 학습한다는 아이디어이다.

이러한 새로운 모듈들은 cnn의 기본적은 기능을 행할 수 있어 대체 가능하다.

많은 실험으로 우리의 연구를 검증하였다.

첫번째로 object detection, semantic segmentation과 같은 정교한 vision tasks를 위한 효과적인 deep CNN에서의 밀집한 공간 변화 학습을 보여준다.


요약

  • object detection에서 object의 크기는 각각 제각기인데, 고정된 필터사이즈로는 학습해서 제대로된 결과를 얻기가 힘들다.

  • 따라서 이 연구에서는 filter size 또한 학습하여 객체 크기에 맞게 변화하도록 하는 것이다.

  • 이 논문은 Spatial Transform Networks(STN)과 철학을 공유한다.

  • regular MNIST에서는 기존의 CNN이 더 좋은 결과를 보이나, Scaled 또는 rotation MNIST에서는 더 좋은 결과를 보인다.

  • 마지막 3개(또는 6개)의 레이어에서만 deformable cnn을 사용하는 것이 가장 결과가 좋았다.


 

Reference

Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773).