Abstract

In this paper we describe a new mobile architecture, MobileNetV2, that improves the state of the art perfor- mance of mobile models on multiple tasks and bench- marks as well as across a spectrum of different model sizes. We also describe efficient ways of applying these mobile models to object detection in a novel framework we call SSDLite. Additionally, we demonstrate how to build mobile semantic segmentation models through a reduced form of DeepLabv3 which we call Mobile DeepLabv3.

is based on an inverted residual structure where the shortcut connections are between the thin bottle- neck layers. The intermediate expansion layer uses lightweight depthwise convolutions to filter features as a source of non-linearity. Additionally, we find that it is important to remove non-linearities in the narrow layers in order to maintain representational power. We demon- strate that this improves performance and provide an in- tuition that led to this design.

Finally, our approach allows decoupling of the in- put/output domains from the expressiveness of the trans- formation, which provides a convenient framework for further analysis. We measure our performance on ImageNet [1] classification, COCO object detection [2], VOC image segmentation [3]. We evaluate the trade-offs between accuracy, and number of operations measured by multiply-adds (MAdd), as well as actual latency, and the number of parameters.


본 논문에서는 다양한 모델 크기의 스펙트럼에서뿐만 아니라 여러 작업과 벤치마크에서 SOTA를 달성한 MobileNetV2를 소개한다.

우리는 또한 SSDLite라 부르는 새로운 프레임워크에서 이러한 모바일 모델을 객체 인식에 적용할 수 있는 효과적인 방법을 설명한다.

더하여서, 우리는 Mobile DeepLabv3이라고 부르는 축소된 DeepLabv3를 통해 어떻게 모바일 semantic segmentation을 빌드하는지 설명한다.

DeepLabv3는 shortcut connection이 병목 레이어 사이에 있는 inverted 잔차 연결 구조를 기반으로 한다.

중간 팽창 레이어는 lightweight depthwise convolutoin을 사용하여 비선형성으로서 feature들을 필터링한다.

또한, 우리는 표현력을 유지하기 위해서는 좁은 층에서 비선형성을 제거하는 것이 중요하다는 것을 알게 된다.

우리는 이것이 성능을 향상시키고 이러한 디자인을 이끌어낸 직관력을 제공한다는 것을 증명한다.

마지막으로, 우리의 방법은 추가 분석을 위한 편리한 프레임워크를 제공하는 변환의 표현성으로부터 input/output 도메인의 분리를 가능케 한다.

우리는 Imagenet 분류, COCO 객체인식, VOC 이미지 segmentation에서 실험하였다. 

우리는 정확도와 multiply-adds(MAdd)를 이용하여 측정한 연산의 수 뿐만 아니라 실제 지연시간과 파라미터수 간의 트레이드 오프를 평가했다. 

 

 

Reference

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L. C. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4510-4520).