Abstract

This paper introduces a deep-learning approach to photographic style transfer that handles a large variety of image content while faithfully transferring the reference style. Our approach builds upon the recent work on painterly transfer that separates style from the content of an image by considering different layers of a neural network. However, as is, this approach is not suitable for photorealistic style transfer. Even when both the input and reference images are photographs, the output still exhibits distortions reminiscent of a painting. Our contribution is to constrain the transformation from the input to the output to be locally affine in colorspace, and to express this constraint as a custom fully differentiable energy term. We show that this approach successfully suppresses distortion and yields satisfying photorealistic style transfers in a broad variety of scenarios, including transfer of the time of day, weather, season, and artistic edits.


이 논문은 다양한 이미지를 다루면서 reference style을 정확히 변형하는 deep-learning기반의 style transfer를 소개한다.

우리의 접근방식은 신경망의 서로 다른 층을 고려함으로써 이미지의 내용과 스타일을 구분하는 화가적 transfer에 관한 최근 연구에 기초한다.

그러나 이 방법은 포토리얼리즘(사물을 사진처럼 정확하고 상세하게 묘사하는 기법) style transfer에는 적절하지 않은 방법이다.

input과 reference image가 사진으로 주어질 때 여전히 output은 그림처럼 묘사되어 진다.

우리는 input이 output으로 변환되어질 때 colorspace에 affine을 locally하게 하도록 제약하고, 이러한 제약을 완전히 다른 energy term으로 표현했다.

이러한 방법은 왜곡을 성공적으로 억제하였고, the time of day(저녁, 아침 등), 날씨, 계절, 여러 예술적 요소들에 대한 transfer을 포함하여 다양한 이미지를 포토리얼리즘 스타일로 잘 변형하였다.


요약

  • 내 생각으로 이 논문의 전부는 밑의 loss_function인 것 같다.
  • 기존 논문들의 결과도 좋았지만 대체적으로 하늘에 빌딩건물 색이 칠해져 있다던지 하는 문제점이 많았는데, 종합적으로 더해서 이들을 loss function으로 제한했더니 잘 되더라!

 

Reference

Luan, F., Paris, S., Shechtman, E., & Bala, K. (2017). Deep photo style transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4990-4998).

Abstract

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.


우리는 강화학습을 사용하여 고차원 sensory input을 직접 control 정책을 성공적으로 학습한 딥러닝 모델을 제시한다.

input이 raw pixel이고, output이 미래 보상을 추정하는 가치함수인 변형된 Q-learning으로 학습된 CNN으로 이루어져 있다.

이 방법을 학습 알고리즘이나 아키텍처를 변형하지 않고, 아케이트 학습 환경에서 얻어진 7개의 아타리 2600게임에 적용했다.

6개의 게임이 모두 이전에 제시된 방법보다 outperform하였고, 그 중 3개는 인간의 수준을 넘어섰다.


요약

  • 이전의 연구들은(6가지 게임에 대해) 결과가 좋지 않으며, 최근 deep learning의 여러 방법들을 적용하였지만 좋은 결과를 얻진 못하였다. data sample independent를 만족하지 못하였기 때문.
  • 위 방법은 기존 강화학습에서 사용하기엔 상당히 챌린지하며, 이를 해결하기 위해 Experience replay와 CNN with varient Q-learning을 사용하였다.
  • 기존 deep learning은 batch를 이용하여 학습 시켰을때 좋은 결과를 얻었는데, 강화학습에서는 sequence로 나오기 때문에 이를 사용할 수 없었다. 따라서 연구팀은 내가 원하는 만큼의 sequence를 미리 저장해 두었다가 이를 batch training하겠다는 것이 핵심 novelity라고 할 수 있다.
  • 이론적으로 자세히 증명하진 못했으나 Q가 상당히 잘 수렴하였다.

 

Reference

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

Abstract

We extend the capabilities of neural networks by coupling them to external memory resources, which they can interact with by attentional processes. The combined system is analogous to a Turing Machine or Von Neumann architecture but is differentiable end-to-end, allowing it to be efficiently trained with gradient descent. Preliminary results demonstrate that Neural Turing Machines can infer simple algorithms such as copying, sorting, and associative recall from input and output examples.


우리는 신경망의 기능을 외부 메모리 자원과 결합시킴으로써 확장하는데, 신경망들은 attentional process로 상호 작용할 수 있다.

결합된 시스템은 튜링 머신 또는 폰 노이만 아키텍처와 유사하지만 경사 하강법을 통한 효율적인 방법을 가진 end-to-end와는 다르다.

논문에 쓰여진 결과는 Neural Turing Machine이 입출력 예제로부터 copying, sorting 및 associative recall 등과 같은 간단한 알고리즘을 유추할 수 있음을 보여준다.


요약

  • 메모리와 neural network가 나뉘어져 있으며, Attention mechanism을 활용한다.
  • Writing mechanism과 Reading을 동시에 사용한다.
  • Turing machine과 다르게 부드러운 곡선(미분 가능)을 학습할 수 있다.
  • RNN, LSTM을 무한정 쌓는 것 보다는 NTM(Neural Turing Machine)을 사용하는 것이 훨씬 효율적이다.
  • content addressing, interpolation Convolutional shift sharpening을 통해서 weight를 구하고 메모리를 중요한 부분에 집중시키겠다.

이번 요약은 다음을 참고하였습니다.

https://jamiekang.github.io/2017/05/08/neural-turing-machine/

 

Neural Turing Machines · Pull Requests to Tomorrow

Neural Turing Machines 08 May 2017 | PR12, Paper, Machine Learning, Neural Turing Machine 오늘 소개하려는 논문은 역시 Google DeepMind의 “Neural Turing Machines”라는 - 제목부터 범상치 않은 - 2014년 논문입니다. Neural Turing Machine의 개념 Neural Turing Machine을 한 마디로 정리하면, 외부의 메모리에 연결할 수 있

jamiekang.github.io

https://www.youtube.com/watch?v=2wbDiZCWQtY&list=PLWKf9beHi3Tg50UoyTe6rIm20sVQOH1br&index=7


 

Reference

Graves, A., Wayne, G., & Danihelka, I. (2014). Neural turing machines. arXiv preprint arXiv:1410.5401.

Abstract

In this paper, we propose a novel neural network model called RNN Encoder–Decoder that consists of two recurrent neural networks (RNN). One RNN encodes a sequence of symbols into a fixed- length vector representation, and the other decodes the representation into another sequence of symbols. The encoder and de- coder of the proposed model are jointly trained to maximize the conditional probability of a target sequence given a source sequence. The performance of a statistical machine translation system is empirically found to improve by using the conditional probabilities of phrase pairs computed by the RNN Encoder–Decoder as an additional feature in the existing log-linear model. Qualitatively, we show that the proposed model learns a semantically and syntactically meaningful representation of linguistic phrases.


이 논문은 두개의 RNN으로 구성된 RNN Encoder-Decoder이라고 명명된 새로운 신경망 구조를 제안한다.

첫번째 RNN은 문장을 쪼개어 고정 길이의 벡터에 mapping하고, 두번째 RNN은 인코딩된 벡터를 하나의 단어씩 디코딩하여 다시 하나의 문장으로 만든다.

이 모델의 인코더와 디코더는 주어진 source 문장에서 target 문장의 조건부 확률을 최대화하도록 학습한다.

통계 기계 번역 시스템의 성능은 RNN 인코더-디코더가 기존 로그-선형 모델의 추가 특징으로 제시한 구문 쌍의 조건부 확률을 사용하여 개선되는 것으로 경험적으로 확인된다.

질적으로, 우리는 제안된 모델이 의미적이고 의미 있는 언어적 어구의 표현을 배운다는 것을 보여준다.


요약

  • SMT의 성능을 높일 수 있었으며, 완전히 대체할 가능성을 보았다.
  • 학습된 벡터가 의미와 문법을 포착한다.
  • RNN을 활용하여 문장 구절을 학습시킴(다양한 길이에 적용 가능)

 

 

Reference

Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.

Abstract

https://github.com/msracver/Deformable-ConvNets.

Convolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in their building modules. In this work, we introduce two new modules to enhance the transformation modeling capability of CNNs, namely, de- formable convolution and deformable RoI pooling. Both are based on the idea of augmenting the spatial sampling locations in the modules with additional offsets and learn- ing the offsets from the target tasks, without additional supervision. The new modules can readily replace their plain counterparts in existing CNNs and can be easily trained end-to-end by standard back-propagation, giving rise to deformable convolutional networks. Extensive ex- periments validate the performance of our approach. For the first time, we show that learning dense spatial trans- formation in deep CNNs is effective for sophisticated vi- sion tasks such as object detection and semantic segmen- tation. The code is released at https://github.com/msracver/Deformable-ConvNets.


CNN은 구조 안에서 고정된 기하학적 구조때문에 model geometric transformation이 제한적이다.

이 연구에서는 이러한 한계점을 극복할 수 있는 deformable cnn, RoI pooling을 소개한다.

둘 다 추가적인 오프셋으로 모듈의 공간 샘플링 위치를 늘리고 추가적인 감독 없이 대상 작업에서 오프셋을 학습한다는 아이디어이다.

이러한 새로운 모듈들은 cnn의 기본적은 기능을 행할 수 있어 대체 가능하다.

많은 실험으로 우리의 연구를 검증하였다.

첫번째로 object detection, semantic segmentation과 같은 정교한 vision tasks를 위한 효과적인 deep CNN에서의 밀집한 공간 변화 학습을 보여준다.


요약

  • object detection에서 object의 크기는 각각 제각기인데, 고정된 필터사이즈로는 학습해서 제대로된 결과를 얻기가 힘들다.

  • 따라서 이 연구에서는 filter size 또한 학습하여 객체 크기에 맞게 변화하도록 하는 것이다.

  • 이 논문은 Spatial Transform Networks(STN)과 철학을 공유한다.

  • regular MNIST에서는 기존의 CNN이 더 좋은 결과를 보이나, Scaled 또는 rotation MNIST에서는 더 좋은 결과를 보인다.

  • 마지막 3개(또는 6개)의 레이어에서만 deformable cnn을 사용하는 것이 가장 결과가 좋았다.


 

Reference

Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773).