Deep Neural Network에서의 bias, variance

위의 이미지를 떠올리면서 개념을 이해하면 더 쉽습니다.

Bias

여기서 말하는 편향은 회귀모델의 상수항이 아닙니다.

편향이란, y_pred의 평균과 y_true와의 관계입니다. 다르게 말하면 외부적으로 얼마나 영향을 받는지를 뜻합니다. 외부란 정답이라고 생각하면 쉽겠죠?

다르게 말해서, y_pred의 값들과 y_true의 값들이 떨어져 있는 정도가 클 경우를 '편향이 높다' 라고 표현합니다.

편향이 클 경우엔 정답값들과의 거리가 멀테니 이를 과소적합이라고 표현할 수 있습니다 - underfitting

Variance

분산이란, 예측값들 간의 관계입니다. 즉, 밑의 식에 따라 예측값과 예측값들의 평균의 차이에 대한 평균입니다.

즉, 예측값들끼리 얼마나 떨어져 있는가 입니다.

예측값들이 자기들끼리 떨어져 있는 정도가 클 경우를 '분산이 높다' 라고 표현합니다.

높은 분산을 가질 경우 과대적합이라고 표현할 수 있습니다. - overfitting

그리는 선의 종류가 구불구불하게 복잡해져 새로운 데이터를 예측하기가 쉽지 않기 떄문이죠.

이러한 편향과 분산에는 트레이드 오프가 존재합니다.

또한, 이는 모델 복잡도와도 연관이 있습니다.

모델이 복잡해질수록 편향은 줄어들지만 분산은 높아집니다.

모델이 단순해질수록 편향은 높아지지만 분산은 줄어듭니다.

실제로 첫 번째 그림은 bias가 높고 variance가 낮습니다.

예측값들은 한 직선 위에 있으니 분산이 낮고, 데이터들이 모델과 멀어져 있으니 편향이 높습니다.

세 번째 그림은 구불구불한 직선 위에 있으니 분산이 높고, 모델과 거리가 가까우니 편향이 낮게 됩니다.

실제 데이터를 다룰 때, 데이터가 충분히 많다는 가정하에 bias가 높아 underfitting으로 고생하는 연구자들은 잘 보지 못했지만, overfitting때문에 고생하는 분들은 상당수 보았습니다.

Overfitting은 모델 학습을 수행할 때 training error와 validation error가 함께 같은 방향으로 잘 진행되다가 어느 순간 갑자기 벌어지는 현상에서 포착할 수 있습니다.

Activation function에 맞는 initilization parameters (0)	2019.05.20
릿지회귀, 라쏘회귀, 엘라스틱넷 (0)	2019.03.19
Stndardization, Normalization, Minmax(표준화, 정규화, 민맥스) (0)	2019.03.17
[Ubuntu 16.04] CUDA + Cudnn 설치하기 (3)	2019.03.04
superpixel algorithm 이란? (0)	2019.03.02