Abstract

When integrating computational tools such as automatic segmentation into clinical practice, it is of utmost importance to be able to assess the level of accuracy on new data, and in particular, to detect when an automatic method fails. However, this is difficult to achieve due to absence of ground truth. Segmentation accuracy on clinical data might be different from what is found through cross-validation because validation data is often used during incremental method development, which can lead to overfitting and unrealistic performance expectations. Before deployment, performance is quantified using different metrics, for which the predicted segmentation is compared to a reference segmentation, often obtained manually by an expert. But little is known about the real performance after deployment when a reference is unavailable. In this paper, we introduce the concept of reverse classification accuracy (RCA) as a framework for predicting the performance of a segmentation method on new data. In RCA we take the predicted segmentation from a new image to train a reverse classifier which is evaluated on a set of reference images with available ground truth. The hypothesis is that if the predicted segmentation is of good quality, then the reverse classifier will perform well on at least some of the reference images. We validate our approach on multi-organ segmentation with different classifiers and segmentation methods. Our results indicate that it is indeed possible to predict the quality of individual segmentations, in the absence of ground truth. Thus, RCA is ideal for integration into automatic processing pipelines in clinical routine and as part of large-scale image analysis studies.


automatic segmentation과 같은 실행 프로그램을 실전에 통합시킬때는 특히 프로그램이 잘 작동하지 않는 경우 새로운 데이터에 대한 정확도를 검출할 수 있어야한다. 

그러나 새로운 데이터에는 정답에 대한 기준이 제시되지 않기 때문에 이를 행하기가 어렵다.

향상된 방법을 개발하는 동안에 validation data가 자주 사용되기 때문에 임상 데이터에 대한 Segmentation 정확도가 교차 검증을 통해 확인된 것과 다를 수 있으며 과적합하고 비현실적인 성능 기대치를 일으킬 수 있다.

사용되기 이전에 성능은 다른지표를 사용하여 정량화되며 예측된 Segmentation은 전문가에 의해 수동으로 획득되는(직접 손으로 segmentation시킨 데이터) 참조 Segmentation과 비교되어진다.

그러나 참조 데이터를 사용할 수 없는 경우에는 사용한 후에 실제 성능에 대해서는 알 수가 없다.

이 논문에서는 새로운 데이터에 대해 segmentation 방법의 성능을 예측할 수 있는 프레임워크인 reverse classification accuracy(RCA)의 개념에 대해 소개한다.

RCA는 실제 데이터로 이용가능한 참조 이미지들로 평가된 reverse 분류기를 새로운 이미지로 학습시켜 예측된 segmentation을 얻을 수 있다.

만약 예측된 segmentation의 좋은 질을 가지고 있다면 reverse classifier는 참조 이미지에 대해서도 좋은 성능을 가질 것이다.

각 다른 분류기와 다른 segmentation방법을 통한 multi-organ 방식으로 우리의 접근법을 검증한다.

실제 데이터가 없어도 개개의 segmentation 품질을 예측할 수 있다는 것을 보여준다.

따라서 RCA는 임상 루틴 및 대규모 이미지 분석 연구의 부분으로서 자동 처리 파이프라인에 통합하는 것이 이상적이다.


요약

  • 자동 세분화(Automatic Segmentation)등의 실무 문제에서 새로운 데이터에 대한 정확도를 평가하는 방법이 필요하다
  • 하지만 의료 데이터 등 검증용 데이터(Ground truth data)를 구하기 어려운 경우, 평가는 매우 어렵다. 제대로 된 평가가 이루어 지지 않은 경우 모델이 오버피팅 될 가능성이 높다
  • 이 상황에 대한 타개책으로 RCA(Reverse Classification Accuracy)를 통해 정확도를 판단한다.
  • 이미지 갯수가 적고, 레이블링이 있는 데이터가 적은 경우에 먼저 레이블이 있는 데이터로 cv를 통해 학습시킨 다음 테스트 데이터에 대한 값을 예측시킨다(가짜정답). 테스트 데이터와 가짜정답을 모델에 다시 학습시킨다.(RCA)

 

Reference

Valindria, V. V., Lavdas, I., Bai, W., Kamnitsas, K., Aboagye, E. O., Rockall, A. G., ... & Glocker, B. (2017). Reverse classification accuracy: predicting segmentation performance in the absence of ground truth. IEEE transactions on medical imaging, 36(8), 1597-1606.