Abstract

We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depthwise separable convolutions to build light weight deep neural networks. We introduce two simple global hyper-parameters that efficiently trade off between latency and accuracy. These hyper-parameters allow the model builder to choose the right sized model for their application based on the constraints of the problem. We present extensive experiments on resource and accuracy tradeoffs and show strong performance compared to other popular models on ImageNet classification. We then demonstrate the effectiveness of MobileNets across a wide range of applications and use cases including object detection, finegrain classification, face attributes and large scale geo-localization.


임베디드 비전 앱과 모바일을 위한 효율적인 모델인 MobileNet을 소개한다. 

MobileNet은 경량 심층신경망으로 구성된 깊이방향으로 분리가능한 합성곱을 사용한 간소화된 아키텍처이다.

지연속도(latency)와 정확도(accuracy)를 효율적으로 조정 가능한 두가지 global hyper-parameter를 소개한다.

이 두 매개변수는 모델 개발자가 문제의 제약에 따라 적합한 크기의 모델을 택할 수 있게 해준다.

우리는 자원과 정확도의 trade-off관계에 대해 많은 실험을 하였고, ImageNet 분류문제에서 다른 저명한 모델과 비교하여 좋은 성능을 보였다.

object detection, fine grain classification, face attributes and large scale geo-loc를 포함한 다양한 애플리케이션에서의 효율성을 증명한다.

 

Reference

Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... & Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861.