Abstract

This paper describes InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner. InfoGAN is a generative adversarial network that also maximizes the mutual information between a small subset of the latent variables and the observation. We derive a lower bound of the mutual information objective that can be optimized efficiently. Specifically, InfoGAN successfully disentangles writing styles from digit shapes on the MNIST dataset, pose from lighting of 3D rendered images, and background digits from the central digit on the SVHN dataset. It also discovers visual concepts that include hair styles, presence/absence of eyeglasses, and emotions on the CelebA face dataset. Experiments show that InfoGAN learns interpretable representations that are competitive with representations learned by existing supervised methods. For an up-to-date version of this paper, please seehttps://arxiv.org/abs/1606.03657.


이 논문은 비지도 학습에서 각각의 분리된 표현을 학습할 수 있는 GAN에서 정보이론적 의미가 확장된 infoGAN을 소개한다.

InfoGAN은 잠재 변수와 관측 변수의 하위 집합 사이에서 상호 정보를 최대화하는 GAN이다.

우리는 효율적으로 최적화 시킬 수 있는 상호 정보 목표의 하한을 도출한다.

특히, InfoGAN은 SVHN 데이터셋에서 중요 표현과 백그라운드, 3D 렌더링 이미지에서의 명암, MNIST에서의 숫자의 스타일과 같은 표현들을 성공적으로 분리했다.

또한, CelebA 데이터셋에서 머리 스타일, 안경의 유무 그리고 감정과 같은 특징들을 포함한 시각적 개념들을 찾아낼 수 있다.

InfoGAN은 지도 학습의 방법에 의해 학습된 표현들과 달리 해석 가능한 표현을 학습할 수 있다는 장점을 가진다.


요약

  • Mutual Information은 두 확률 분포가 서로 얼머나 의존관계에 있는가에 대한 개념이다.
    • 의존적이면 높은 값, 의존적이지 않으면 0으로 수렴하게 된다.
  • disentangled의 의미는 분리된 표현을 의미하는데, MNIST를 예로 들면 글자의 두께, 선의 표현 등을 의미한다.
  • 성능을 높이려고 시도 한 논문들은 DiscoGAN, CycleGAN, DualGAN

 

Reference

Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., & Abbeel, P. (2016). Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In Advances in neural information processing systems (pp. 2172-2180).