Abstract

Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Thus, by simply augmenting convolutions, LSTMs, and MLPs with RNs, we can remove computational burden from network components that are not well-suited to handle relational reasoning, reduce overall network complexity, and gain a general ability to reason about the relations between entities and their properties.


관계 추론은 일반적으로 지능적 행동에 있어서 중요한 요소이지만, 신경망에게 있어서 매우 어려운 명제 중 하나이다.

이 논문에서는 관계 추론이 가지는 문제점을 해결하기 위한 간단한 plug-and-play 모듈을 사용한 RN을 어떻게 사용할지에 대해 설명한다.

우리는 RN 네트워크를 3가지에서 실험했다. visual question answering(CLEVR 데이터 셋 사용, SOTA 달성), text-based question answering(bAbl), complex reasoning about dynamic physical systems.

Sort-of-CLEVR이라는 데이터 셋을 사용한 경우에, CNN은 relational question을 해결하기 힘들었지만, RN같은 경우엔 가능했다.

CNN, LSTM, MLP를 RN과 함께 사용하면서 관계 추론을 다루기 적합하지 않은 네트워크 요소에 대한 비용적 부담, 전반적인 네트워크 복잡성을 제거할 수 있고, 요소와 특성간의 관계에 대해 추론할 수 있는 능력을 얻었다.


요약

  • RN의 장점은 다음과 같다
    • 관계를 잘 추론한다, 유연하다.
    • g 함수만 사용하기 때문에 효율적이다.
    • Object set을 사용하기 때문에 order invariant하다
  • CNN에서는 마지막에 나오는 filter를 모호하게 object라고 생각한 뒤, 질문을 뒤에 붙여서 g함수에 통과시킨다.


 

Reference

Santoro, A., Raposo, D., Barrett, D. G., Malinowski, M., Pascanu, R., Battaglia, P., & Lillicrap, T. (2017). A simple neural network module for relational reasoning. In Advances in neural information processing systems (pp. 4967-4976).