Abstract

In this paper we describe a new mobile architecture, MobileNetV2, that improves the state of the art perfor- mance of mobile models on multiple tasks and bench- marks as well as across a spectrum of different model sizes. We also describe efficient ways of applying these mobile models to object detection in a novel framework we call SSDLite. Additionally, we demonstrate how to build mobile semantic segmentation models through a reduced form of DeepLabv3 which we call Mobile DeepLabv3.

is based on an inverted residual structure where the shortcut connections are between the thin bottle- neck layers. The intermediate expansion layer uses lightweight depthwise convolutions to filter features as a source of non-linearity. Additionally, we find that it is important to remove non-linearities in the narrow layers in order to maintain representational power. We demon- strate that this improves performance and provide an in- tuition that led to this design.

Finally, our approach allows decoupling of the in- put/output domains from the expressiveness of the trans- formation, which provides a convenient framework for further analysis. We measure our performance on ImageNet [1] classification, COCO object detection [2], VOC image segmentation [3]. We evaluate the trade-offs between accuracy, and number of operations measured by multiply-adds (MAdd), as well as actual latency, and the number of parameters.


본 논문에서는 다양한 모델 크기의 스펙트럼에서뿐만 아니라 여러 작업과 벤치마크에서 SOTA를 달성한 MobileNetV2를 소개한다.

우리는 또한 SSDLite라 부르는 새로운 프레임워크에서 이러한 모바일 모델을 객체 인식에 적용할 수 있는 효과적인 방법을 설명한다.

더하여서, 우리는 Mobile DeepLabv3이라고 부르는 축소된 DeepLabv3를 통해 어떻게 모바일 semantic segmentation을 빌드하는지 설명한다.

DeepLabv3는 shortcut connection이 병목 레이어 사이에 있는 inverted 잔차 연결 구조를 기반으로 한다.

중간 팽창 레이어는 lightweight depthwise convolutoin을 사용하여 비선형성으로서 feature들을 필터링한다.

또한, 우리는 표현력을 유지하기 위해서는 좁은 층에서 비선형성을 제거하는 것이 중요하다는 것을 알게 된다.

우리는 이것이 성능을 향상시키고 이러한 디자인을 이끌어낸 직관력을 제공한다는 것을 증명한다.

마지막으로, 우리의 방법은 추가 분석을 위한 편리한 프레임워크를 제공하는 변환의 표현성으로부터 input/output 도메인의 분리를 가능케 한다.

우리는 Imagenet 분류, COCO 객체인식, VOC 이미지 segmentation에서 실험하였다. 

우리는 정확도와 multiply-adds(MAdd)를 이용하여 측정한 연산의 수 뿐만 아니라 실제 지연시간과 파라미터수 간의 트레이드 오프를 평가했다. 

 

 

Reference

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L. C. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4510-4520).

Abstract.

We propose a deep learning method for single image super- resolution (SR). Our method directly learns an end-to-end mapping be- tween the low/high-resolution images. The mapping is represented as a deep convolutional neural network (CNN) [15] that takes the low- resolution image as the input and outputs the high-resolution one. We further show that traditional sparse-coding-based SR methods can also be viewed as a deep convolutional network. But unlike traditional meth- ods that handle each component separately, our method jointly optimizes all layers. Our deep CNN has a lightweight structure, yet demonstrates state-of-the-art restoration quality, and achieves fast speed for practical on-line usage.


우리는 단일 이미지 초해상도에 관한 딥러닝 방법을 제안한다.

우리의 방법은 저/고 해상도의 이미지가 end-to-end방식으로 매핑하여 학습한다.

매핑은 저해상도 영상을 입력으로 가져다가 고해상도 영상을 출력하는 심층신경망(CNN)[15]으로 표현된다.

또한 기존의 희소 코드 기반 SR 방식도  deep convolution network로 볼 수 있음을 보여 준다.

기존의 방법은 각 요소를 부분적으로 다루지만, 우리의 방법은 전 layer를 최적화한다.

우리의 deep CNN은 모델은 가볍지만, 품질 복원에서 SOTA를 증명하였고, on-line에서 실용적이고 빠른속도로 수행가능하다.

 

 

Reference

Dong, C., Loy, C. C., He, K., & Tang, X. (2014, September). Learning a deep convolutional network for image super-resolution. In European conference on computer vision (pp. 184-199). Springer, Cham.

 

ABSTRACT

Recent research on deep convolutional neural networks (CNNs) has focused primarily on improving accuracy. For a given accuracy level, it is typically possible to identify multiple CNN architectures that achieve that accuracy level. With equivalent accuracy, smaller CNN architectures offer at least three advantages: (1) Smaller CNNs require less communication across servers during distributed train- ing. (2) Smaller CNNs require less bandwidth to export a new model from the cloud to an autonomous car. (3) Smaller CNNs are more feasible to deploy on FP- GAs and other hardware with limited memory. To provide all of these advantages, we propose a small CNN architecture called SqueezeNet. SqueezeNet achieves AlexNet-level accuracy on ImageNet with 50x fewer parameters. Additionally, with model compression techniques, we are able to compress SqueezeNet to less than 0.5MB (510× smaller than AlexNet).

The SqueezeNet architecture is available for download here: https://github.com/DeepScale/SqueezeNet


CNN에서의 최근 연구는 주로 acc를 향상시키는 쪽에 집중되어 왔다. 

현재의 acc 수준은 그러한 수준을 달성할 수 있는 다중 CNN 아키텍처가 있음을 알 수 있다.

같은 acc상에서 본다면, 규모가 작은 CNN 아키텍처는 적어도 3가지 이점을 제공한다.

(1) 분산 트레이닝의 경우 서버에 부담을 덜 준다

(2) 자율자동차와의 통신에 필요한 대역폭이 더 작다

(3) FPGA 및 기타 하드웨어 제공에 적합하다

이러한 이점을 위해, 우리는 SqueezeNet을 제안한다.

SqueezeNet은 AlexNet과 같은 수준의 acc를 가지며, 50배 낮은 파라미터를 가진다.

추가로, 모델 압축 기술을 통해 모델 사이즈를 0.5MB보다 낮은 수준으로 압축할 수 있다. 

SqueezeNet Downloads : https://github.com/DeepScale/SqueezeNet


 

Reference

Iandola, F. N., Han, S., Moskewicz, M. W., Ashraf, K., Dally, W. J., & Keutzer, K. (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size. arXiv preprint arXiv:1602.07360.

Abstract. 

Object detection is one of the major problems in computer vision, and has been extensively studied. Most of the existing detection works rely on labor-intensive supervision, such as ground truth bound- ing boxes of objects or at least image-level annotations. On the con- trary, we propose an object detection method that does not require any form of human annotation on target tasks, by exploiting freely avail- able web images. In order to facilitate effective knowledge transfer from web images, we introduce a multi-instance multi-label domain adaption learning framework with two key innovations. First of all, we propose an instance-level adversarial domain adaptation network with attention on foreground objects to transfer the object appearances from web domain to target domain. Second, to preserve the class-specific semantic struc- ture of transferred object features, we propose a simultaneous transfer mechanism to transfer the supervision across domains through pseudo strong label generation. With our end-to-end framework that simultane- ously learns a weakly supervised detector and transfers knowledge across domains, we achieved significant improvements over baseline methods on the benchmark datasets.


Object detection은 컴퓨터비전에서의 주요 연구중 하나이며, 광범위하게 연구되어져 왔다. 

detection 작업의 대부분은 bounding box가 존재하거나, 적어도 image-level의 annotation과 같은 노동 집약적인 지도(학습)에 의존한다.

반대로, 우리 연구팀은 자유롭게 사용가능한 웹 이미지를 사용하면서도, target 데이터에 사람이 작업한 어떤 형태의 annotation이 존재하지 않는 object detection 방법을 제안한다.

웹 이미지로부터의 효과적인 지식 전달이 용이하기 위해, 우리는 두가지 주요 혁신요소와 함께 multi-instance multi-label 도메인 적응 학습 프레임워크를 소개한다. 

첫번째로, 우리는 중요 객체에 주의를 기울여 인스턴스 수준의 적대적 도메인 적응 네트워크를 제안하여 웹 도메인에서 대상 도메인으로 객체 모양을 전송합니다

둘째, 전송된 객체의 특징들의 구체적인 클래스 의미구조가 보존되기 위해서, 우리는 (pseudo??) 강한 레이블 생성을 통한 도메인 간 supervision을 전송하기 위한 동시다발적 전송 메커니즘을 제안한다.

약한 supervised detector와 도메인간 지식 전송을 동시에 학습하는 end-to-end 프레임워크와 함께, 우리는 벤치마크 데이터에서 기준 방법보다 향상된 결과를 달성했다.

Weakly supervised 관련 논문입니다.

 

Reference

Tao, Q., Yang, H., & Cai, J. (2018). Zero-annotation object detection with web knowledge transfer. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 369-384).

Abstract

In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network to have remarkable local- ization ability despite being trained on image-level labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that can be applied to a variety of tasks. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014, which is re- markably close to the 34.2% top-5 error achieved by a fully supervised CNN approach. We demonstrate that our net- work is able to localize the discriminative image regions on a variety of tasks despite not being trained for them.


이 논문은 Global average pooling layer에 대해 다시 생각해보고, image-level label에 대해서만 학습했음에도 불구하고 CNN이 현저한 지역화 능력을 어떻게 가질 수 있는지에 대해 밝힌다.

이 기술은 이전에 정규(규제?) 학습의 의미로서 알렸지만, 본 연구팀은 다양한 작업에 적용가능한 일반적인 지역화의 심층적인 표현을 빌드한 다는 것을 발견하였다.

Global Average Pooling 의 명백한 단순함에도 불구하고, 우리는 bounding box annotation을 사용하지 않고 ILSVRC 2014의 객체 지역화에서 top-5 error 37.1%를 달성하였다.

본 연구팀은 실험한 네트워크가 특정 이미지 영역을 학습하지 않아도 다양한 작업에 성능을 나타낼 수 있을을 증명한다.

1Our models are available at: http://cnnlocalization.csail.mit.edu

Weakly supervised learning에 관한 논문중 하나이다.

 

Reference

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2921-2929).