Abstract

We present a modality hallucination architecture for training an RGB object detection model which incorporates depth side information at training time. Our convolutional hallucination network learns a new and complementary RGB image representation which is taught to mimic convolutional mid-level features from a depth network. At test time images are processed jointly through the RGB and hallucination networks to produce improved detection performance. Thus, our method transfers information commonly extracted from depth training data to a network which can extract that information from the RGB counterpart. We present results on the standard NYUDv2 dataset and report improvement on the RGB detection task.


우리는 학습 시에 깊이 정보를 포함한 RGB 객체 탐지 모델의 학습을 위해 madality hallucination architecture방법을 소개한다.  
컨볼루션 할루시네이션 네트워크는 깊이 네트워크로부터 컨볼루션의 중간 단계 feature들을 모방하기 위해 학습되는 새로운 그리고 보완적인 RGB 이미지 표현을 학습한다.  
테스트 단계에서 이미지는 향상된 탐지 성능을 생성할 수 있는 할루시네이션 네트워크와 RGB 네트워크를 동시에 거친다.  
우리의 방법은 깊이 학습데이터에서 얻어진 정보를 RGB 정보를 추출할 수 있는 네트워크로 전송한다.  
우리는 RGB 탐지 작업에서의 향상과 NYUDv2 데이터 세트에서의 결과를 소개한다. 


요약

  • 테스트를 진행할 때, Depth 정보가 없는 것이 문제이다. 그런데 이를 생성하기는 힘들고 매우 어렵다. 그래서 대응 방안으로 깊이 정보에 대한 특징을 미리 학습시켜놓고 이를 이용하는 것이다.
  • 밑 그림의 모델에서 테스트 시에는 깊이 정보가 없어 빨간 네트워크가 없다.  따라서, 파란색 네트워크를 빨간색 네트워크와 최대한 같게 만들어 이를 테스트시에 활용하여 깊이정보를 생성해낸다. 
  • 파란색 네트워크에서 할루시네이션은 input 근처의 네트워크에서는 잘 안되고 중간 층 이후부터 학습이 잘 된다.
  • 매우 간단한 논문이지만, 평소 우리가 실험할 때 깊이, 위치 등 이미지의 세부 정보를 직접 주지 않아도 모델이 직접 추론하여 추가 정보를 뽑아내게끔 하는 아이디어는 좋다.

 

Reference

Hoffman, J., Gupta, S., & Darrell, T. (2016). Learning with side information through modality hallucination. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 826-834).

Abstract

Modeling the distribution of natural images is a landmark problem in unsupervised learning. This task requires an image model that is at once expressive, tractable and scalable. We present a deep neural network that sequentially predicts the pixels in an image along the two spatial dimensions. Our method models the discrete probability of the raw pixel values and encodes the complete set of dependencies in the image. Architectural novelties include fast two-dimensional recurrent layers and an effective use of residual connections in deep recurrent networks. We achieve log-likelihood scores on natural images that are considerably better than the previous state of the art. Our main results also provide benchmarks on the diverse ImageNet dataset. Samples generated from the model appear crisp, varied and globally coherent.


원본 이미지의 분포를 모데링하는 것은 비지도 학습에서의 근본적인 문제이다.

이 작업은 한번에 표현 가능하고, 다루기 쉽고, 확장이 가능한 이미지 모델을 요구한다.

우리는 두 공간 차원을 따라 이미지의 픽셀을 시계열적으로 예측하는 깊은 신경망을 소개한다. 

우리의 방법은 원본 픽셀 값의 이산 확률을 모델링하고, 이미지에서 완전 종속(y)을 인코딩합니다.

아키테처적 이점은 빠른 2차원의 순환 신경망을 포함하고, 깊은 순환 신경망에서 잔차 연결을 효율적으로 사용하게 한다.

우리는 이전 최고 성능의 모델보다 원본 이미지에서 더 높은 log-likelihood score를 달성했다.

또한, 우리의 주요 결과는 다양한 이미지넷 데이터세트에서의 멘치마크를 제공한다.

모델에서 생성 된 샘플은 선명하고 다양하며 전적으로 일관적이게 생성됩니다.


요약

  • 이미지의 픽셀을 생성하는데 recurrent nn을 사용한 논문이다.
  • 다음 세 가지를 제안했다.(Row LSTM, Diagonal BiLSTM, PixelCNN)
  • i번째 픽셀을 (1~i-1)번째 픽셀을 이용하여 추론한다.(tractable) 이를 Auto regressive 모델이라고 한다.
  • 이전 픽셀을 전부 사용할 경우 속도가 현저히 느려지므로, receptive field를 삼각형 모양을 가지게끔 구성했다.
  • Diagonal BiLSTM은 i-1번째까지의 모든 픽셀을 사용하게 된다. 대신 느리지만 성능이 좋다.
  • log-liklihood측면에서 가장 우수했다.

 

Reference

Oord, A. V. D., Kalchbrenner, N., & Kavukcuoglu, K. (2016). Pixel recurrent neural networks. arXiv preprint arXiv:1601.06759.

Abstract

We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. Using a novel, multi-scale training method the same YOLOv2 model can run at varying sizes, offering an easy tradeoff between speed and accuracy. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster R-CNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don’t have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. YOLO9000 predicts detections for more than 9000 different object categories, all in real-time.


9000개의 오브젝트를 탐지할 수 있는 실시간 객체 탐지기인 YOLO9000을 소개한다.

첫 번째로, YOLO보다 성능을 향상시켰다.

YOLOv2는 PASCAL VOC, COCO 데이터 셋에서 최고 성능을 달성했다.

multi-scale 방법을 사용하는 YOLOv2는 속도와 정확도 사이의 트레이드 오프관계를 쉽게 해결하면서 다양한 크기에서 실행될 수 있다.

VOC 2007에서 67 fps, 76.8 mAP를 달성했고, 빠른 속도를 보이는 SSD나 ResNet을 사용한 Faster R-CNN보다 높은 성능을 보여주었다.

마지막으로 우리는 객체 탐지와 분류를 동시에 학습할 수 있는 방법을 제안한다.

이 방법을 사용한 YOLO9000은 ImageNet 분류 데이터 셋과 COCO 데이터 셋을 동시에 학습한다.

이 학습 방법은 YOLO900이 라벨링 되지 않은 데이터에서 해당 객체의 클래스를 추론할 수 있게끔 한다.

우리는 ImageNet 탐지 작업에서 이 방법을 검증했다.

YOLO9000은 200개의 클래스 중에서 44개에 대한 탐지 데이터만 가지고 있음에도 불구하고 검증 셋에서 19.7 mAP를 달성했다.

COCO에 포함되지 않은 156개의 클래스에서, YOLO900은 16.0 mAP를 달성했다. 

YOLO9000은 실시간으로 9000개의 다른 카테고리를 예측한다.


요약

  • YOLO의 단점은 성능이 떨어지고, recall이 낮다.
  • YOLO에서 사용하던 fc layer를 없애고 anchor box 방식을 채택하고 (448, 448; 이미지 크기)대신 (416, 416)을 사용함. 그 이유는 물체가 대부분 이미지의 중심에 존재하기 때문에 짝수 셀보다는 홀수 셀로하는게 좋다고 함. 짝수면 bbox가 4개의 셀을 걸치게 되고, 홀수인 경우는 1개의 셀에만 걸치기 때문에 좋다.
  • (13, 13) feature map의 이전 (26, 26) feature map을 (13, 13, 2048)로 만들어서 (13, 13) feature map에 concat했다. 이로 인해 1% 의 향상을 얻었다.
  • Detector가 다양한 이미지 크기에 대응하기 위해 다양한 이미지 크기를 사용하여 학습시켰다.(320 ~ 608 image resolution)
  • ImageNet Classification에서 (224, 224)로 학습시킨 후, (448, 448)로 fine tuning하니 성능이 좀 높아졌다.
  • WordTree를 구축하여서 총 1369개의 클래스를 구성하여 학습시켰지만, 큰 성능의 차이를 보여주진 못하였다. 
  • YOLOv2는 빠르고 정확하다. YOLO9000은 성능보다는 데이터셋의 구성에 더 초점을 두었다.

 

Reference

Redmon, J., & Farhadi, A. (2017). YOLO9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7263-7271).

Abstract

Rectified activation units (rectifiers) are essential for state-of-the-art neural networks. In this work, we study rectifier neural networks for image classification from two aspects. First, we propose a Parametric Rectified Linear Unit (PReLU) that generalizes the traditional rectified unit. PReLU improves model fitting with nearly zero extra computational cost and little overfitting risk. Second, we derive a robust initialization method that particularly considers the rectifier nonlinearities. This method enables us to train extremely deep rectified models directly from scratch and to investigate deeper or wider network architectures. Based on the learnable activation and advanced initialization, we achieve 4.94% top-5 test error on the ImageNet 2012 classification dataset. This is a 26% relative improvement over the ILSVRC 2014 winner (GoogLeNet, 6.66% [33]). To our knowledge, our result is the first1 to surpass the reported human-level performance (5.1%, [26]) on this dataset.


정류한 활성화 유닛은 최고 성능의 신경망에서 필수적으로 사용된다.

이 논문에서는 두 가지 관점의 이미지 분류에서 rectifier neural network에 대해 연구했다.

첫번째로, 기존에 사용하던 rectified unit을 일반화한 PReLU를 제안한다.

PReLU는 오버피팅의 위험이 적고, 추가 계산 비용이 들지 않게끔 모델을 향상시킨다.

두번째로, 특히 rectifier 비선형성을 고려한 견고한 초기화 방법을 제안한다.

이 방법은 네트워크 구조를 깊게 또는 넓게 사용하게 해주고, 초기 모델에서부터 깊게 구성하여 학습시킬 수 있게 한다.

학습 가능한 활성화 함수와 향상된 초기화에 기반하여, 우리는 2012 ImageNet 분류 데이터셋에서 top-5 test error 4.94%를 달성했다.

이는 ILSVRC2014 우승자에 비해 상대적으로 26%의 향상을 이끌었다는 의미이다.

위의 결과는 2012 ImageNet 데이터셋에서 인간 수준의 성능을 첫번째로 뛰어넘은 것이다.


요약

  • Relu를 parametric하게 변화시킨 점과 Relu에 맞게 가중치를 초기화하는 방법
  • 기본 Relu보다는 성능이 좋았다. 특징으로는 밑의 첫번째 그림에서 a가 학습 가능한 변수인데, CNN이 깊어지도록 작은 값을 가진다는 것
  • Relu의 특성을 이용하여 normal distribution을 구한 것이 kaiming init이다.
  • Relu를 사용할 떄, Xavier보다 더 좋은 성능이 나왔다.
  • 기존 활성화 함수보다 100% 좋은 점은 아니다(다른 연구자들의 사견, 논문 내용은 아님)
  • 하지만 이 이후에 Batch-Normalization이 나오면서 성능면에서 바로 뒤쳐진 논문...?

 

Reference

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision (pp. 1026-1034).

Abstract

Relational reasoning is a central component of generally intelligent behavior, but has proven difficult for neural networks to learn. In this paper we describe how to use Relation Networks (RNs) as a simple plug-and-play module to solve problems that fundamentally hinge on relational reasoning. We tested RN-augmented networks on three tasks: visual question answering using a challenging dataset called CLEVR, on which we achieve state-of-the-art, super-human performance; text-based question answering using the bAbI suite of tasks; and complex reasoning about dynamic physical systems. Then, using a curated dataset called Sort-of-CLEVR we show that powerful convolutional networks do not have a general capacity to solve relational questions, but can gain this capacity when augmented with RNs. Thus, by simply augmenting convolutions, LSTMs, and MLPs with RNs, we can remove computational burden from network components that are not well-suited to handle relational reasoning, reduce overall network complexity, and gain a general ability to reason about the relations between entities and their properties.


관계 추론은 일반적으로 지능적 행동에 있어서 중요한 요소이지만, 신경망에게 있어서 매우 어려운 명제 중 하나이다.

이 논문에서는 관계 추론이 가지는 문제점을 해결하기 위한 간단한 plug-and-play 모듈을 사용한 RN을 어떻게 사용할지에 대해 설명한다.

우리는 RN 네트워크를 3가지에서 실험했다. visual question answering(CLEVR 데이터 셋 사용, SOTA 달성), text-based question answering(bAbl), complex reasoning about dynamic physical systems.

Sort-of-CLEVR이라는 데이터 셋을 사용한 경우에, CNN은 relational question을 해결하기 힘들었지만, RN같은 경우엔 가능했다.

CNN, LSTM, MLP를 RN과 함께 사용하면서 관계 추론을 다루기 적합하지 않은 네트워크 요소에 대한 비용적 부담, 전반적인 네트워크 복잡성을 제거할 수 있고, 요소와 특성간의 관계에 대해 추론할 수 있는 능력을 얻었다.


요약

  • RN의 장점은 다음과 같다
    • 관계를 잘 추론한다, 유연하다.
    • g 함수만 사용하기 때문에 효율적이다.
    • Object set을 사용하기 때문에 order invariant하다
  • CNN에서는 마지막에 나오는 filter를 모호하게 object라고 생각한 뒤, 질문을 뒤에 붙여서 g함수에 통과시킨다.


 

Reference

Santoro, A., Raposo, D., Barrett, D. G., Malinowski, M., Pascanu, R., Battaglia, P., & Lillicrap, T. (2017). A simple neural network module for relational reasoning. In Advances in neural information processing systems (pp. 4967-4976).