위의 이미지를 떠올리면서 개념을 이해하면 더 쉽습니다.
Bias
여기서 말하는 편향은 회귀모델의 상수항이 아닙니다.
편향이란, y_pred의 평균과 y_true와의 관계입니다. 다르게 말하면 외부적으로 얼마나 영향을 받는지를 뜻합니다. 외부란 정답이라고 생각하면 쉽겠죠?
다르게 말해서, y_pred의 값들과 y_true의 값들이 떨어져 있는 정도가 클 경우를 '편향이 높다' 라고 표현합니다.
편향이 클 경우엔 정답값들과의 거리가 멀테니 이를 과소적합이라고 표현할 수 있습니다 - underfitting
Variance
분산이란, 예측값들 간의 관계입니다. 즉, 밑의 식에 따라 예측값과 예측값들의 평균의 차이에 대한 평균입니다.
즉, 예측값들끼리 얼마나 떨어져 있는가 입니다.
예측값들이 자기들끼리 떨어져 있는 정도가 클 경우를 '분산이 높다' 라고 표현합니다.
높은 분산을 가질 경우 과대적합이라고 표현할 수 있습니다. - overfitting
그리는 선의 종류가 구불구불하게 복잡해져 새로운 데이터를 예측하기가 쉽지 않기 떄문이죠.
Trade-off between Bias and Variance
이러한 편향과 분산에는 트레이드 오프가 존재합니다.
또한, 이는 모델 복잡도와도 연관이 있습니다.
모델이 복잡해질수록 편향은 줄어들지만 분산은 높아집니다.
모델이 단순해질수록 편향은 높아지지만 분산은 줄어듭니다.
실제로 첫 번째 그림은 bias가 높고 variance가 낮습니다.
예측값들은 한 직선 위에 있으니 분산이 낮고, 데이터들이 모델과 멀어져 있으니 편향이 높습니다.
세 번째 그림은 구불구불한 직선 위에 있으니 분산이 높고, 모델과 거리가 가까우니 편향이 낮게 됩니다.
실제 데이터를 다룰 때, 데이터가 충분히 많다는 가정하에 bias가 높아 underfitting으로 고생하는 연구자들은 잘 보지 못했지만, overfitting때문에 고생하는 분들은 상당수 보았습니다.
Overfitting은 모델 학습을 수행할 때 training error와 validation error가 함께 같은 방향으로 잘 진행되다가 어느 순간 갑자기 벌어지는 현상에서 포착할 수 있습니다.
'# Machine Learning > 글 공부' 카테고리의 다른 글
Activation function에 맞는 initilization parameters (0) | 2019.05.20 |
---|---|
릿지회귀, 라쏘회귀, 엘라스틱넷 (0) | 2019.03.19 |
Stndardization, Normalization, Minmax(표준화, 정규화, 민맥스) (0) | 2019.03.17 |
[Ubuntu 16.04] CUDA + Cudnn 설치하기 (3) | 2019.03.04 |
superpixel algorithm 이란? (0) | 2019.03.02 |