Abstract

Much of the recent progress made in image classification research can be credited to training procedure refinements, such as changes in data augmentations and optimization methods. In the literature, however, most refinements are either briefly mentioned as implementation details or only visible in source code. In this paper, we will examine a collection of such refinements and empirically evaluate their impact on the final model accuracy through ablation study. We will show that, by combining these refinements together, we are able to improve various CNN models significantly. For example, we raise ResNet-50’s top-1 validation accuracy from 75.3% to 79.29% on ImageNet. We will also demonstrate that improvement on image classification accuracy leads to better transfer learning performance in other application domains such as object detection and semantic segmentation.


data augmentation이나 optimization의 변화와 같은 학습 절차 정제는 이미지 분류문제의 진전에 큰 도움을 주었다.

그러나 문헌에서 대부분의 정제는 간략하게 언급되거나 코드에서만 볼 수 있다.

이 논문은 다양한 정제에 대해 설명하고 간략하게 최종 모델의 정확도에 어떤 영향을 끼치는지 경험적으로 평가한다.

이러한 것들을 혼합하여 사용한 결과 다양한 CNN모델에서 성능향상을 보여주었다.

예를 들어, ResNet-50's top-1 validation accuracy가 75.3%에서 79.29%로 향상되었다.(ImageNet)

우리는 또한, object detection, semantic segmentation과 같은 다른 분야에서도 transfer learning이 좋은 결과를 도출해낸다는 것을 증명한다.


요약

  • 최근 몇년간 가파르게 accuracy가 증가해왔지만, 핵심적인 것은 model architecture가 아니라 loss functions, data preprocessing과 같은 것(refinements)이 핵심이었다. 
  • weight regularization은 쓰는게 좋으나, bias regularization은 효과가 안좋다.
  • 32-bit floating point(FP)보다 16FP가 gradient를 표현하는데에 더 효율적이어서 속도와 정확도 측면에서 우수하다. 
  • Learning rate decay는 당연히 사용하는 것이 좋다.
  • transfer learning은 어느 도메인에서도 outperforming했다.

 

Reference

He, T., Zhang, Z., Zhang, H., Zhang, Z., Xie, J., & Li, M. (2019). Bag of tricks for image classification with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 558-567).