먼저 단일 변수에 대한 기본 비용함수는 m을 없앤 식을 생각하면 됩니다. 


이 비용함수는 binary classification에서 탁월한 성능을 보여줍니다. 


2가지로 구분하여 비용함수를 책정하게 되는데


1. if y = 0 :

이 때는 -log(1-y_hat)이 남게 됩니다. 결국 우리의 목표는 cost를 낮추는 것이기 때문에 y_hat이 작아지는 쪽으로 update를 하게 될 것입니다.


2. if y = 1 :

이 경우는 -log(y_hat)이 남게 됩니다. 위와 같이 cost를 낮추려면 y_hat을 1과 비슷하게 만들어야 겠죠? log1은 곧 0이니까요. 


이와 여러개의 변수에 관해서 구하고 싶다면 m으로 나눠주어 평균으로 비용함수를 책정하게 됩니다. 


직관적인 이해는 아래 그림을 참고하세요! ( 구글 검색 그림 )





'# Machine Learning > 글 공부' 카테고리의 다른 글

deconvolution(conv2Dtranspose) vs upsampling  (0) 2018.12.10
1x1 convolution이란,  (16) 2018.12.10
basic gradient(+backprop) with numpy  (0) 2018.12.09
Multi Class vs Multi Label  (0) 2018.12.06
fine tuning 시 상위층과 하위층  (0) 2018.11.25