Abstract.
Object detection is one of the major problems in computer vision, and has been extensively studied. Most of the existing detection works rely on labor-intensive supervision, such as ground truth bound- ing boxes of objects or at least image-level annotations. On the con- trary, we propose an object detection method that does not require any form of human annotation on target tasks, by exploiting freely avail- able web images. In order to facilitate effective knowledge transfer from web images, we introduce a multi-instance multi-label domain adaption learning framework with two key innovations. First of all, we propose an instance-level adversarial domain adaptation network with attention on foreground objects to transfer the object appearances from web domain to target domain. Second, to preserve the class-specific semantic struc- ture of transferred object features, we propose a simultaneous transfer mechanism to transfer the supervision across domains through pseudo strong label generation. With our end-to-end framework that simultane- ously learns a weakly supervised detector and transfers knowledge across domains, we achieved significant improvements over baseline methods on the benchmark datasets.
Object detection은 컴퓨터비전에서의 주요 연구중 하나이며, 광범위하게 연구되어져 왔다.
detection 작업의 대부분은 bounding box가 존재하거나, 적어도 image-level의 annotation과 같은 노동 집약적인 지도(학습)에 의존한다.
반대로, 우리 연구팀은 자유롭게 사용가능한 웹 이미지를 사용하면서도, target 데이터에 사람이 작업한 어떤 형태의 annotation이 존재하지 않는 object detection 방법을 제안한다.
웹 이미지로부터의 효과적인 지식 전달이 용이하기 위해, 우리는 두가지 주요 혁신요소와 함께 multi-instance multi-label 도메인 적응 학습 프레임워크를 소개한다.
첫번째로, 우리는 중요 객체에 주의를 기울여 인스턴스 수준의 적대적 도메인 적응 네트워크를 제안하여 웹 도메인에서 대상 도메인으로 객체 모양을 전송합니다
둘째, 전송된 객체의 특징들의 구체적인 클래스 의미구조가 보존되기 위해서, 우리는 (pseudo??) 강한 레이블 생성을 통한 도메인 간 supervision을 전송하기 위한 동시다발적 전송 메커니즘을 제안한다.
약한 supervised detector와 도메인간 지식 전송을 동시에 학습하는 end-to-end 프레임워크와 함께, 우리는 벤치마크 데이터에서 기준 방법보다 향상된 결과를 달성했다.
Weakly supervised 관련 논문입니다.
Reference
Tao, Q., Yang, H., & Cai, J. (2018). Zero-annotation object detection with web knowledge transfer. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 369-384).