Abstract

How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.


대규모 데이터셋과 난해한 사후분포에 연속적인 잠재변수가 존재할 때, 확률적 모델을 어떻게 효율적으로 학습시키고 추론할 것인가?

우리는 대규모 데이터셋으로 확장되는 확률적 가변 추론 및 학습 알고리즘을 소개하고, 미분이 힘든 상황에서도 다뤄본다.

contribution은 2가지이다.

첫번째는 variational lower bound의 reparameterization이 확률 경사법을 통해 최적화되어 질 수 있다.

두번째는 데이터 당 연속 잠재변수를 가지는 i.i.d. 데이터셋같은 경우에 제안된 lower bound estimator를 이용하여 대략적인 추론 모델(인식 모델이라고도 불림)을 다루기 힘든 posterior에 fit함으로써 특히 효율적인 추론을 생성해낼 수 있다.

이론적 이점은 experimental results에 나와있다.


요약

  • generative model의 가장 classic한 방법이라고 할 수 있다.
  • variance inference는 우리가 가진 데이터의 복잡한 확률분포를 직접 추정하기는 어려우니 이와 비슷한 분포로 근사하겠다는 의미이다.
  • KL-divergence는 P와 Q의 분포의 거리에 대한 식이다.
  • p(x)를 풀어보면 L(lower bound) + KL-divergence로 풀어놓을 수 있는데, 이때 L을 최대화시키면 p(x)를 maximum하는 것과 같게 된다.
  • reparametriczation이란, backprop시에 sampling하는 부분은 미분을 할 수 없기때문에 바깥으로 빼주어서 결과를 도출한다. 밖으로 빼낸다고해서 결과가 달라지진 않는다.

 

Reference

Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.