
There is large consent that successful training of deep net- works requires many thousand annotated training samples. In this pa- per, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localiza- tion. We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neu- ronal structures in electron microscopic stacks. Using the same net- work trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these cate- gories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.

deep networks에서 성공적인 training을 위해서는 수천장의 라벨링된 데이터가 필요하다는 것은 이미 자명한 사실이다. 

우리 논문에서는 잘 라벨링된 데이터를 더욱 효율적으로 사용하기 위한 강력한 데이터 변형 방법에 기반되어지는 training 전략과 network를 보여줄 것이다. 

아키텍처는 context를 저장하기 위한 contracting path와 정교한 localization을 가능하게 하는 대칭적 expanding path로 이루어져 있다. 

우리는 network가 몇몇 이미지를 end-to-end방식을 통해 훈련시킬 수 있으며, ISBI의 최상의 모델인 a sliding-window convolutional network를 능가한다는 것을 보여준다. 

이러한 network를 현미경 데이터에 이용해서, ISBI에서 큰 격차를 벌리면서 우승하였고, network가 빠르다.

우리가 사용한 GPU에서 512 * 512 를 segmentation하는데 1초도 걸리지 않았다.

code에 대한 내용은(by caffe) 위의 url에 있다.



Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Springer, Cham.



Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build “fully convolutional” networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet [20], the VGG net [31], and GoogLeNet [32]) into fully convolutional networks and transfer their learned representations by fine-tuning [3] to the segmentation task. We then define a skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves state-of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.

Convolution Networks는 feature들의 계층화를 만들어내는 강력한 시각적인 모델이다.

Semantic Segmentation에서 자체적으로 종단간 pixel-to-pixel 트레이닝을 하는 ConvNet을 소개한다.

이 논문의 핵심은 효율적인 추론 및 학습을 통해 임의의 크기의 input을 받아들이고, 상응하는 크기의 output을 생성해내는 fully-convolutional 네트워크를 빌드하는 것이다.

fully convolutional 네트워크에 대해 정의하고, 작용에 대해 설명하며 이전 모델과의 연결을 도출한다.

분할 작업에 대한 fine-tuning을 진행하면서 학습된 것을 전이하는 방법을 AlexNet, VGG net, GoogLeNet에 적용하였다.

그런 다음 깊은 층과 얕은 층을 결합하여 정확하고 디테일한 분할을 생성하는 skip architecture를 정의한다.

이러한 방법은 PASCAL VOC, NYUDv2, SIFT Flow에서 좋은 성능을 보였으며, 이미지 당 추론 시간은 0.2초 미만이다.



Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3431-3440).