Abstract

Generative Adversarial Nets [8] were recently introduced as a novel way to train generative models. In this work we introduce the conditional version of generative adversarial nets, which can be constructed by simply feeding the data, y, we wish to condition on to both the generator and discriminator. We show that this model can generate MNIST digits conditioned on class labels. We also illustrate how this model could be used to learn a multi-modal model, and provide preliminary examples of an application to image tagging in which we demonstrate how this approach can generate descriptive tags which are not part of training labels.


GAN은 최근 생성 모델 학습의 대표적 방법으로 소개되고 있다.

이 논문에서는 generator와 discriminator에 우리가 원하는 조건을 지정하여 단순히 데이터를 입력시키는 gan의 conditional 버전을 소개한다.

이 모델은 클래스 레이블에 따라 MNIST 숫자를 생성 할 수 있음을 보여준다.

또한, 이 모델이 multi-modal 모델을 학습할 수 있는 방법을 설명하고, 학습 레이블의 일부가 아닌 설명 태그를 생성할 수 있는 방법을 보여주는 이미지 태깅 app를 설명한다.


요약

  • 기존의 GAN은 데이터를 생성함에 있어서 어떠한 조건도 붙일 수 없는 형태이기 때문에 우리가 원하는 데이터를 생성하는데 제한적이었다.
  • 이 논문에서 제안한 모델은 generator나 discriminator에 데이터를 입력할 때 y를 함께 입력해준다(condition)

  • 논문에서는 y라는 조건뿐만 아니라 다른 데이터를 입력시킬 수 있는데, 다른 데이터라면 이미지나 동영상 등이 되겠다. 논문에서는 이미지 태그를 활용했다. 이때, generator에는 random variable z를 입력하고, discriminator에는 유저가 생성한 태그(ground-truth)를 입력해준다. 또한, 컨디션 y로는 동일하게 이미지를 입력시켜준다.
  • 위의 말을 정리하면 (data x, condition data y) == (data G(z), condition daa y) 가 matching 되는지 판단하는 거라고 도영상에서 설명하고 있다.

 

Reference

Mirza, M., & Osindero, S. (2014). Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784.
https://www.youtube.com/watch?v=iCgT8G4PkqI&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=52

 

Abstract

The goal of precipitation nowcasting is to predict the future rainfall intensity in a local region over a relatively short period of time. Very few previous studies have examined this crucial and challenging weather forecasting problem from the machine learning perspective. In this paper, we formulate precipitation nowcasting as a spatiotemporal sequence forecasting problem in which both the input and the prediction target are spatiotemporal sequences. By extending the fully connected LSTM (FC-LSTM) to have convolutional structures in both the input-to-state and state-to-state transitions, we propose the convolutional LSTM (ConvLSTM) and use it to build an end-to-end trainable model for the precipitation nowcasting problem. Experiments show that our ConvLSTM network captures spatiotemporal correlations better and consistently outperforms FC-LSTM and the state-of-theart operational ROVER algorithm for precipitation nowcasting.


현재 강우량 예측의 목표는 상대적으로 짧은 기간에 지역의 미래 강우량을 예측하기 위함이다.

대부분의 선행 연구는 이를 핵심적으로 설명해왔고, 머신러닝 관점에서 날씨 예측문제는 도전적이다.

이 논문은 시공간적 시퀀스인 입력과 예측 타겟이 시공간적 예측 문제로서 강수량 예측을 수행한다.

input-to-state, state-to-state으로의 변환에서 컨볼루션 구조를 포함하는 완전 연결 LSTM의 확장으로, 우리는 컨볼루션 LSTM을 제안하고 강우량 예측 문제를 위해 end-to-end 방식의 모델을 구성하였다.

실험은 ConvLSTM이 시공간적 관계를 더 잘 포착해내는 것을 보여주었고,  우수한 성능을 보여주었으며, 강우량 문제에서 사용되는 ROVER 알고리즘과 FC-LSTM보다 우수한 성능을 보여주었다.


요약

  • 국소적인 지역에서 강우량을 예측하는 문제를 다룬다. 이를 위해서 구름 이미지를 사용하게 된다.
  • 기존 강우량 예측에 사용되던 방법은 장점도 있지만, 긴시간 예측에서의 정확도가 떨어지는 등의 문제점을 가지고 있다.
  • 강우량 문제는 과거 J번의 관찰로 미래의 강우량을 예측하게 되는데, 여기서 과거 J번의 관찰을 신경망을 사용하여 인코딩하여 예측에 사용되도록 한다.

  • 기존 Fully-connected LSTM은 시간적 요소만 다루기 때문에 불충분하다. 이를 보완하기 위해 LSTM 식의 앞단에 컨볼루션을 사용하여 지역적(공간적)인 요소를 더해준다.

  • Moving MNIST와 HKO Radar Echo dataset을 사용하였다.

 

 

Reference

Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810).
https://www.youtube.com/watch?v=3cFfCM4CXws&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=51

 

Abstract

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.


대표적인 문장 번역 모델들은 인코더와 디코더를 포함한 순환 또는 컨볼루션 신경망으로 구성된다.

가장 우수한 모델은 어텐션 메커니즘을 통해 인코더와 디코더를 연결한다.

우리는 순환 및 컨볼루션 신경망을 완전히 배제하고 어텐션 메커니즘을 사용하는 새로운 모델 아키텍쳐 Transformer를 제안한다.

두 가지 기계번역의 실험에서 제안한 모델은 우수한 성능과 병렬화가 가능하고, 학습 시간을 감소시킨다.

영어 -> 독일 28.4 2 BLEU는 앙상블을 포함하여 현존 최고의 성능이다.

영어 -> 프랑스어 작업에서는 8개의 GPU로 3.5일동안 학습시킨 결과 최고의 성능을 얻었다. 학습 비용 측면에서도 우수하다. 


요약

  • self-attention은 연산량이 O(1)로 낮으며, 시퀀스의 모든 값들을 비교분석해볼 수 있다. 예를 들어, CNN 같은 경우는 필터의 크기만큼에 해당하는 값만 비교할 수 있었다.

  • 논문에서는 CNN과 RNN을 사용하지 않고 오로지 어텐션만 사용하여 모델을 구성하였다. 위의 그림에서 N = 6이다.
  • 어텐션은 대표적으로 Additive와 dot--product attention이 사용된다.

  • dot-product 어텐션은 sparsity에 강하다. self-attention은 컨볼루션과 다르게 위치에 관한 정보를 가지지 않게 되는데, 이를 Multi-head 어텐션을 통해 보완해준다.

 

 

Reference

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
https://www.youtube.com/watch?v=6zGgVIlStXs&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=50

ABSTRACT

The goal of this paper is not to introduce a single algorithm or method, but to make theoretical steps towards fully understanding the training dynamics of generative adversarial networks. In order to substantiate our theoretical analysis, we perform targeted experiments to verify our assumptions, illustrate our claims, and quantify the phenomena. This paper is divided into three sections. The first section introduces the problem at hand. The second section is dedicated to studying and proving rigorously the problems including instability and saturation that arize when training generative adversarial networks. The third section examines a practical and theoretically grounded direction towards solving these problems, while introducing new tools to study them.


이 논문의 목적은 알고리즘이 아닌 GAN의 학습방법에 대한 이론적 이해를 위한 것이다.

우리의 이론적 주장을 증명하기 위해, 현상을 정량화하고 주장을 설명하여 우리의 가설을 검증하는 실험을 수행한다.

논문은 세 개의 섹션으로 구성되어 있다.

첫 섹션은 문제를 설명한다.

두 번째 섹션은 GAN 학습 시에 발생하는 포화, 불안정성을 포함한 문제를 구체적으로 증명하고 연구하는데 집중합니다.

세 번째 섹션은 실용적, 이론적으로 이러한 문제를 해결하기 위한 방향을 설명하고 연구를 위한 새로운 도구를 소개한다.


요약

  • 기존 GAN 논문들은 경험적인 문제를 논문에서 간간히 언급하지만, 이를 이론적으로 정리하진 않았다.
  •  기존에 자주 사용하던 KL divergence는 비대칭성 때문에 학습이 잘 안되는 경우가 있는데, 이를 해결하기 위해 JSD divergence가 고안되었다.
  • GAN은 minimax 문제로 discriminator와 generator를 번갈아가면서 학습시키게 되는데, 이때 문제는 discriminator가 잘 뽑아낼수록 generator의 혼동이 커진다는 것이다. 또한, 불안정성과 같은 문제나 JSD와 비슷한 cost function을 제안한다. 
  • 논문에서는 학습이 잘 안되는 이유가 real data의 분포가 자신만의 da ta space에 존재하는 것이 아니라 generator 분포의 data space에도 걸쳐있기 때문이라고 주장한다. 각 분포의 모양은 line 형태로 이루어져 있다고 한다.
  • 실질적으로 real data의 분포에는 많은 데이터 속에서 의미있는 데이터는 소수에 불과하여 매니폴드가 매우 좁아지게 되고, 이로 인해 완벽한 discriminator가 만들어질 수 있게 되는데 이는 generator에도 영향을 끼치게 되어 학습의 진행을 방해하게 된다. 
  • 매니폴드의 범위를 넓혀주기 위해 기존의 방법에 가우시안 등의 분포를 활용하여 노이즈를 추가해주게 되는데, 이를 통해 generator의 학습에 도움을 줄순 있지만 완벽한 해결방법은 아니라고 주장한다. 또한, 이를 하이퍼파라미터로 설정하여 휴리스틱하게 결정하는 것은 좋지 않다고 하면서 이에 대해 추가로 설명한다.
  • wasserstein distance --> WGAN

 

Reference

https://arxiv.org/abs/1701.04862
https://www.youtube.com/watch?v=RlAgB0Ooxaw&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=49

Abstract

In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network (CNN) to have remarkable localization ability despite being trained on imagelevel labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that exposes the implicit attention of CNNs on an image. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014 without training on any bounding box annotation. We demonstrate in a variety of experiments that our network is able to localize the discriminative image regions despite just being trained for solving classification task1.


이 논문에서는 제안된 GAP에 대해 살펴보고, 이미지 단위의 레이블로 학습했음에도 불구하고 뛰어난 지역화 성능을 보여주는 CNN이 어떻게 그럴 수 있는지에 대해 살펴본다.

이 기술은 학습을 정규화하는 목적으로 사용되지만, 실제로 CNN이 이미지에 대한 암시적 관심을 노출시키는 일반적인 지역화가 가능한 심층 표현을 학습할 수 있는 것으로 나타났다.

GAP의 단순성에도 불구하고, bbox annotation을 학습에 사용하지 않고서도 ILSVRC 2014 객체 지역화 대회에서 37.1% top-5 error를 달성하였다. 

우리는 다양한 실험에서 분류를 위해 학습되었음에도 불구하고, 이러한 모델이 객체 지역화에서 잘 작동할 수 있음을 보여준다.


요약

  • 단순 classification 문제로 신경망을 학습시켰을 때, 모델이 해당 이미지에서 주요 객체를 지역화시킬 수 있는지에 대해 알아본다.

  • 관련 연구로는 GAP(Global Average Pooling)이 있으며, 이 개념은 NIN(Network in Network)에서 나옴. GAP의 사용은 대표적으로 기존 모델 구성 시에, FCN(fully connected layer)가 오버피팅을 발생시키기 쉽기 때문에 이를 해결하기 위해서 사용됨. 또한, FCN은 단순 연결하는데 비해 GAP는 채널 별 Sum을 가져다 쓰므로 모델이 이미지를 이해하는데 더욱 도움을 준다고 한다. 
  • 모델 설명을 위해 자주 사용되는 Grad-CAM에서의 CAM에 대한 내용이 이 논문의 대부분이다.

  • GAP와 GMP의 비교도 해주게 되는데, 이는 단순하게 MaxPooling과 Average Pooling의 차이와 비슷하다. 결과적으로 GAP는 activation에서 활성화를 시키려면 대부분의 픽셀이 영향을 주어야 활성화가 진행되기 때문에 지역화에 좀 더 영향을 크게 미친다.
  • Localization의 높은 성능을 위해서는 Classification의 성능 또한 중요하다.
  • 논문에서는 계속해서 GAP를 추가한 것과 그렇지 않은 것 + Weekly-supervised에 관한 실험에 대한 내용을 설명한다. 밑의 그림에서 green box는 ground truth이고, red box는 실험 결과이다.

  • 마지막으로 논문에서 보면 GAP를 활용하면 다양한 주제에서 적절한 성능을 얻을 수 있다는 실험을 보여주는 것 같다.

 

Reference

https://www.youtube.com/watch?v=-Z1NIzLxgRU&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=48
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., & Torralba, A. (2016). Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2921-2929).