Abstract

We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depthwise separable convolutions to build light weight deep neural networks. We introduce two simple global hyper-parameters that efficiently trade off between latency and accuracy. These hyper-parameters allow the model builder to choose the right sized model for their application based on the constraints of the problem. We present extensive experiments on resource and accuracy tradeoffs and show strong performance compared to other popular models on ImageNet classification. We then demonstrate the effectiveness of MobileNets across a wide range of applications and use cases including object detection, finegrain classification, face attributes and large scale geo-localization.


임베디드 비전 앱과 모바일을 위한 효율적인 모델인 MobileNet을 소개한다. 

MobileNet은 경량 심층신경망으로 구성된 깊이방향으로 분리가능한 합성곱을 사용한 간소화된 아키텍처이다.

지연속도(latency)와 정확도(accuracy)를 효율적으로 조정 가능한 두가지 global hyper-parameter를 소개한다.

이 두 매개변수는 모델 개발자가 문제의 제약에 따라 적합한 크기의 모델을 택할 수 있게 해준다.

우리는 자원과 정확도의 trade-off관계에 대해 많은 실험을 하였고, ImageNet 분류문제에서 다른 저명한 모델과 비교하여 좋은 성능을 보였다.

object detection, fine grain classification, face attributes and large scale geo-loc를 포함한 다양한 애플리케이션에서의 효율성을 증명한다.

 

Reference

Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... & Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861.

Abstract

Recent work has shown that convolutional networks can be substantially deeper, more accurate, and efficient to train if they contain shorter connections between layers close to the input and those close to the output. In this paper, we embrace this observation and introduce the Dense Convolutional Network (DenseNet), which connects each layer to every other layer in a feed-forward fashion. Whereas traditional convolutional networks with layers have connections—one between each layer and its subsequent layer—our network has L(L+1) direct connections. For2

each layer, the feature-maps of all preceding layers are used as inputs, and its own feature-maps are used as inputs into all subsequent layers. DenseNets have several compelling advantages: they alleviate the vanishing-gradient problem, strengthen feature propagation, encourage feature reuse, and substantially reduce the number of parameters. We evaluate our proposed architecture on four highly competitive object recognition benchmark tasks (CIFAR-10, CIFAR-100, SVHN, and ImageNet). DenseNets obtain significant improvements over the state-of-the-art on most of them, whilst requiring less computation to achieve high per- formance. Code and pre-trained models are available at https://github.com/liuzhuang13/DenseNet.


최근 CNN은 입력 근처의 레이어와 아웃풋 근처의 레이어가 짧은 connection을 가질 수록 더욱 깊고 정확한 결과를 만들어 내는 것을 볼 수 있다.

이 논문에서, 위와 같은것에 기반하여 정방향으로 모든 레이어가 연결된 Dense Convolutional Network(DenseNet)를 소개한다.

L개의 레이어를 가진 전통적인 합성곱 신경망은 L개의 연결을 가지지만(각 레이어와 그 다음 레이어 사이에 존재하는) 우리의 네트워크는 L(L+1) / 2개의 connection을 가진다. 

각 계층에서, 모든 이전 계층의 특징맵이 인풋으로서 사용되며, 다시 그것의 특징맵이 모든 후속레이어의 인풋으로서 사용되어진다.

DenseNet은 여러가지 장점이 있다. 

vanishing-gradient 문제를 완화하고, 특징 전파를 강력하게 하고, 특징 재사용과 실질적으로 파라미터의 수를 감소시킨다. 

4가지 유명한 곳에서 우리의 아키텍쳐를 평가하였다 (CIFAR-10, CIFAR-100, SVHN, and ImageNet)

DenseNet은 최신 결과보다 향상된 결과를 얻었지만, 높은 성능에 비해 컴퓨팅 능력은 덜 사용하였습니다.

코드와 pre-trained model은 깃허브에서 이용가능하다.


Reference

Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017, July). Densely connected convolutional networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 2261-2269). IEEE.

Abstract

Training Deep Neural Networks is complicated by the fact that the distribution of each layer’s inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful parameter initialization, and makes it no- toriously hard to train models with saturating nonlineari- ties. We refer to this phenomenon as internal covariate shift, and address the problem by normalizing layer in- puts. Our method draws its strength from making normal- ization a part of the model architecture and performing the normalization for each training mini-batch. Batch Nor- malization allows us to use much higher learning rates and be less careful about initialization. It also acts as a regu- larizer, in some cases eliminating the need for Dropout. Applied to a state-of-the-art image classification model, Batch Normalization achieves the same accuracy with 14 times fewer training steps, and beats the original model by a significant margin. Using an ensemble of batch- normalized networks, we improve upon the best published result on ImageNet classification: reaching 4.9% top-5 validation error (and 4.8% test error), exceeding the ac- curacy of human raters.


깊은 신경망을 훈련하는 것은 이전 계층 파라미터의 변화에 따라 훈련 도중 각 레이어의 인풋에 대한 분포의 변화 때문에 복잡하다. 

이는 학습에 낮은 학습률과 민감한 파라미터 초기화로 학습을 느리게 만들고, 포화 비선형성이 있는 모델을 학습시키는 것이 매우 어렵다.

우리는 이를 'internal covariate' 현상이라 칭하고, 각 층의 인풋을 정규화하는 문제라고 정의한다.

우리의 방법은 모델 아키텍처의 한 부분으로서 정규화를 포함시키고, mini-batch에 대한 정규화를 수행하는 것에 노력하였다.

Batch Normalization은 높은 학습률의 사용과 파라미터 초기화에 덜 민감하게 해준다.

regularizaer 역할을 하여, 케이스에 따라 Dropout의 필요성을 줄여준다.

state-of-the-art 이미지 분류 문제에서 적용했을 때, Batch Normalization은 14배나 작은 훈련 단계로 같은 정확률을 얻거나 높았습니다.

이를 사용한 네트워크 앙상블을 사용한다면, ImageNet 분류문제에서 최고의 성능을 낼 수 있습니다.


요약

  • weight의 변화가 가중되어 쌓일 때, hidden layer를 다수 거치면서 값이 변하게 되고 이는 우리가 원하는 결과가 다른 결과를 갖게 한다. 이를 Internal Covarient Shift라고 칭한다. 즉, k 번째 학습과 k+1 번째 학습에서의 분포의 변화가 심해진다는 것을 의미한다.
  • 이러한 문제를 해결하기 위해 적절한 가중치 초기화(어려움), 작은 학습률(학습속도가 너무느림)을 사용할 수 있지만, 문제가 많다.
  • 이를 위해 Batch Norm을 제안하였다. Activation 이전의 값의 변화를 줄이는 것이 목적.(Input -> layer -> BN -> Activation)
  • BN에서 mean 0, var 1을 주로 사용한다. var이 커지면 Internal Covarient Shift가 일어날 가능성이 높다.
  • 장점은 높은 학습률을 사용해도 안정적이라는 것, 가중치 초기화를 매우 잘하지 않아도 된다.
  • ELU(Exponential Linear Unit)은 BN이 필요없다고 주장한다. SELU 또한 그렇다.

 

Reference

Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.

Abstract

Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and ob- ject detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called ”semantic image segmentation”). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our “DeepLab” system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantita- tively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the ’hole’ algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.


DCNN은 이미지 분류나 객체인식에서 고성능을 보여주었다.

이 논문은 DCNN의 방법을 가져옴과 동시에 "semantic image segmentation" 이라고 불리우는 픽셀단위의 작업을 하는 확률적 그래픽 모델을 사용한다. 

DCNN은 객체 구분에 있어서 주요한 지역화의 성능이 떨어지는 것을 볼 수 있다. 

DCNN의 고수준의 작업에서만 잘되기 떄문이다. ( 눈은 잘 구별할 수 있지만, 위치는 고려하지 않는 문제 -> CapsNet? )

DCNN과 CRF를 합쳐 낮은 수준의 지역화를 극복하려 한다.

우리의 "DeepLab" 시스템은 이전 방법에 비해 훨씬 더 정확한 수준의 구분 경계를 지역화할 수 있다.

또한 PASCAL VOC-2012에 적용하여 71.6% IOU accuracy를 도달하였다.

네트워크의 재사용과 'hole' 알고리즘을 통해 최신 GPU에서 초당 8프레임의 반응을 얻음으로서 우리의 방법이 얼마나 효율적인지를 보여줄 수 있다.

 

 

Reference

Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2014). Semantic image segmentation with deep convolutional nets and fully connected crfs. arXiv preprint arXiv:1412.7062.

 

 

Abstract

We propose a novel semantic segmentation algorithm by learning a deep deconvolution network. We learn the net- work on top of the convolutional layers adopted from VGG 16-layer net. The deconvolution network is composed of deconvolution and unpooling layers, which identify pixel- wise class labels and predict segmentation masks. We ap- ply the trained network to each proposal in an input im- age, and construct the final semantic segmentation map by combining the results from all proposals in a simple man- ner. The proposed algorithm mitigates the limitations of the existing methods based on fully convolutional networks by integrating deep deconvolution network and proposal-wise prediction; our segmentation method typically identifies de- tailed structures and handles objects in multiple scales nat- urally. Our network demonstrates outstanding performance in PASCAL VOC 2012 dataset, and we achieve the best ac- curacy (72.5%) among the methods trained without using Microsoft COCO dataset through ensemble with the fully convolutional network.


우리는 깊은 deconvolution network로 학습이 가능한 semantic segmentation 알고리즘을 제안한다.

VGG16 network를 기반으로 실험하였다.

Deconvolution network는 deconvolution과 unspooling layers로 구성되어 있으며, pixel-wise 클래스들을 식별하고 구분된 마스크를 예측한다.

우리는 각 이미지에 훈련된 네트워크를 사용하며, 각각의 모델로부터 나온 결과를 조합하여 결과를 구성한다.

제안 알고리즘은 FCN의 한계점을 보완한다. 

우리의 seg방법은 좀더 디테일하게 구조를 식별하고 다양한 크기의 객체를 자연스럽게 다룰 수 있다.

PASCAL VOC 2012 dataset으로 이미 성능을 증명했으며, COCO 데이터셋을 사용하지 않고 FCN 앙상블 모델을 통해 best acc를 달성하였다.


 

Reference

Noh, H., Hong, S., & Han, B. (2015). Learning deconvolution network for semantic segmentation. In Proceedings of the IEEE international conference on computer vision (pp. 1520-1528).