먼저 단일 변수에 대한 기본 비용함수는 m을 없앤 식을 생각하면 됩니다.
이 비용함수는 binary classification에서 탁월한 성능을 보여줍니다.
2가지로 구분하여 비용함수를 책정하게 되는데
1. if y = 0 :
이 때는 -log(1-y_hat)이 남게 됩니다. 결국 우리의 목표는 cost를 낮추는 것이기 때문에 y_hat이 작아지는 쪽으로 update를 하게 될 것입니다.
2. if y = 1 :
이 경우는 -log(y_hat)이 남게 됩니다. 위와 같이 cost를 낮추려면 y_hat을 1과 비슷하게 만들어야 겠죠? log1은 곧 0이니까요.
이와 여러개의 변수에 관해서 구하고 싶다면 m으로 나눠주어 평균으로 비용함수를 책정하게 됩니다.
직관적인 이해는 아래 그림을 참고하세요! ( 구글 검색 그림 )
'# Machine Learning > 글 공부' 카테고리의 다른 글
deconvolution(conv2Dtranspose) vs upsampling (0) | 2018.12.10 |
---|---|
1x1 convolution이란, (16) | 2018.12.10 |
basic gradient(+backprop) with numpy (0) | 2018.12.09 |
Multi Class vs Multi Label (0) | 2018.12.06 |
fine tuning 시 상위층과 하위층 (0) | 2018.11.25 |