Abstract

We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.


우리는 강화학습을 사용하여 고차원 sensory input을 직접 control 정책을 성공적으로 학습한 딥러닝 모델을 제시한다.

input이 raw pixel이고, output이 미래 보상을 추정하는 가치함수인 변형된 Q-learning으로 학습된 CNN으로 이루어져 있다.

이 방법을 학습 알고리즘이나 아키텍처를 변형하지 않고, 아케이트 학습 환경에서 얻어진 7개의 아타리 2600게임에 적용했다.

6개의 게임이 모두 이전에 제시된 방법보다 outperform하였고, 그 중 3개는 인간의 수준을 넘어섰다.


요약

  • 이전의 연구들은(6가지 게임에 대해) 결과가 좋지 않으며, 최근 deep learning의 여러 방법들을 적용하였지만 좋은 결과를 얻진 못하였다. data sample independent를 만족하지 못하였기 때문.
  • 위 방법은 기존 강화학습에서 사용하기엔 상당히 챌린지하며, 이를 해결하기 위해 Experience replay와 CNN with varient Q-learning을 사용하였다.
  • 기존 deep learning은 batch를 이용하여 학습 시켰을때 좋은 결과를 얻었는데, 강화학습에서는 sequence로 나오기 때문에 이를 사용할 수 없었다. 따라서 연구팀은 내가 원하는 만큼의 sequence를 미리 저장해 두었다가 이를 batch training하겠다는 것이 핵심 novelity라고 할 수 있다.
  • 이론적으로 자세히 증명하진 못했으나 Q가 상당히 잘 수렴하였다.

 

Reference

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.