Abstract

Modeling the distribution of natural images is a landmark problem in unsupervised learning. This task requires an image model that is at once expressive, tractable and scalable. We present a deep neural network that sequentially predicts the pixels in an image along the two spatial dimensions. Our method models the discrete probability of the raw pixel values and encodes the complete set of dependencies in the image. Architectural novelties include fast two-dimensional recurrent layers and an effective use of residual connections in deep recurrent networks. We achieve log-likelihood scores on natural images that are considerably better than the previous state of the art. Our main results also provide benchmarks on the diverse ImageNet dataset. Samples generated from the model appear crisp, varied and globally coherent.


원본 이미지의 분포를 모데링하는 것은 비지도 학습에서의 근본적인 문제이다.

이 작업은 한번에 표현 가능하고, 다루기 쉽고, 확장이 가능한 이미지 모델을 요구한다.

우리는 두 공간 차원을 따라 이미지의 픽셀을 시계열적으로 예측하는 깊은 신경망을 소개한다. 

우리의 방법은 원본 픽셀 값의 이산 확률을 모델링하고, 이미지에서 완전 종속(y)을 인코딩합니다.

아키테처적 이점은 빠른 2차원의 순환 신경망을 포함하고, 깊은 순환 신경망에서 잔차 연결을 효율적으로 사용하게 한다.

우리는 이전 최고 성능의 모델보다 원본 이미지에서 더 높은 log-likelihood score를 달성했다.

또한, 우리의 주요 결과는 다양한 이미지넷 데이터세트에서의 멘치마크를 제공한다.

모델에서 생성 된 샘플은 선명하고 다양하며 전적으로 일관적이게 생성됩니다.


요약

  • 이미지의 픽셀을 생성하는데 recurrent nn을 사용한 논문이다.
  • 다음 세 가지를 제안했다.(Row LSTM, Diagonal BiLSTM, PixelCNN)
  • i번째 픽셀을 (1~i-1)번째 픽셀을 이용하여 추론한다.(tractable) 이를 Auto regressive 모델이라고 한다.
  • 이전 픽셀을 전부 사용할 경우 속도가 현저히 느려지므로, receptive field를 삼각형 모양을 가지게끔 구성했다.
  • Diagonal BiLSTM은 i-1번째까지의 모든 픽셀을 사용하게 된다. 대신 느리지만 성능이 좋다.
  • log-liklihood측면에서 가장 우수했다.

 

Reference

Oord, A. V. D., Kalchbrenner, N., & Kavukcuoglu, K. (2016). Pixel recurrent neural networks. arXiv preprint arXiv:1601.06759.