Abstract

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build “fully convolutional” networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet [20], the VGG net [31], and GoogLeNet [32]) into fully convolutional networks and transfer their learned representations by fine-tuning [3] to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves state-of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.


Convolution Networks는 feature들의 계층화를 만들어내는 강력한 시각적인 모델이다.

Semantic Segmentation에서 자체적으로 종단간 pixel-to-pixel 트레이닝을 하는 ConvNet을 소개한다.

이 논문의 핵심은 효율적인 추론 및 학습을 통해 임의의 크기의 input을 받아들이고, 상응하는 크기의 output을 생성해내는 fully-convolutional 네트워크를 빌드하는 것이다.

fully convolutional 네트워크에 대해 정의하고, 작용에 대해 설명하며 이전 모델과의 연결을 도출한다.

분할 작업에 대한 fine-tuning을 진행하면서 학습된 것을 전이하는 방법을 AlexNet, VGG net, GoogLeNet에 적용하였다.

그런 다음 깊은 층과 얕은 층을 결합하여 정확하고 디테일한 분할을 생성하는 skip architecture를 정의한다.

이러한 방법은 PASCAL VOC, NYUDv2, SIFT Flow에서 좋은 성능을 보였으며, 이미지 당 추론 시간은 0.2초 미만이다.


 

Reference

Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3431-3440).