베르누이 분포는 이산 분포의 한가지로서 가장 기본이 되는 분포입니다. 

가장 기본이 되는 분포라 하면 이항분포를 떠올릴 수 있겠지만, 베르누이 분포의 업그레이드 버전이므로 

베르누이 분포를 먼저 알고 가는 것이 좋습니다.


베르누이 분포는 X가 성공(1), 실패(0) 두 가지의 경우만 가질 수 있으며, 

P(x=1) = p, P(x=0) = 1-p일 때, X ~ Bernoulli(p)를 따른다고 한다. 



베르누이 분포의 PMF는 다음과 같다.

< 베르누이 분포 PMF >


확률에서의 기댓값을 구하는 방법은 확률값 * 확률질량함수로 구할 수 있다.


따라서 베르누이 분포의 기댓값은 

E(X) = 1 * p + 0 * (1-p) = p 이며, 이와 동일하게 E(X^2)을 구해 분산을 구해보면

VAR(X) = pq 를 얻을 수 있다. 


기본 통계학 책을 보면 주사위에 관한 예제가 자주 나오는데 한번 보면, 

홀수 : 실패, 짝수 : 성공일 경우 기댓값, 분산을 구하여라.


짝수 = 성공 = 1, 짝수가 나올 확률 1/2

홀수 = 실패 = 0, 홀수가 나올 확률 1/2

이므로, E(X)와 VAR(X)는 각각 1/2, 1/4가 된다. 


'# 기타 공부한 것들 > math' 카테고리의 다른 글

초기하 분포  (0) 2019.01.30
이항분포  (0) 2019.01.28
기댓값, 분산, 표준편차  (0) 2019.01.21
posterior과 bayesian  (6) 2018.10.20
Measure theory  (1) 2018.07.26

본 글은 이산형을 기준으로 합니다.

 

기댓값 : 각 값과 확률의 곱

분산 : 각 분포의 값이 평균으로부터 떨어져 있는 정도 

: E(X-E(X))^2

제곱인 이유 : 선형성에 의해 E(X-E(X))는 0 이 된다. 이를 해결하기 위해 절댓값을 씌워주면 되지만 '연속 가능한' 이라는 특징을 잃어버리기 떄문에 제곱을 씌워주게 된다

표준편차 : 분산의 제곱근

: 분산을 제곱하면 본 단위를 잃기 때문에 다시 제곱근을 해주어 원단위를 다시 찾아오게 하기 위함.

: 분산이 마일이라면 제곱하면 마일의 제곱이기 떄문에 내가 원하는 마일이 아니다 따라서 제곱근을 씌워주워 마일로 다시 바꿔준다.

 

Reference

https://m.blog.naver.com/PostView.nhn?blogId=freewheel3&logNo=220847292476&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F

'# 기타 공부한 것들 > math' 카테고리의 다른 글

이항분포  (0) 2019.01.28
베르누이 분포  (0) 2019.01.26
posterior과 bayesian  (6) 2018.10.20
Measure theory  (1) 2018.07.26
Set theory  (0) 2018.07.26

논문을 읽다보면 확률 모델에 대한 이야기가 많이 나옵니다. 사실상 이해를 못한 채 넘어가는 부분이 많은데, 검색을 통해서 공부하고 또 공부한 내용을 한번 적어보도록 하겠습니다.

대표적으로 VAE에서 inference에 관한 이야기가 나올때, 확률에 관한 이야기에서 한번 멘붕이 오게 됩니다. 그래서 논문을 접게되죠....

사실상 완벽히 이해하는 것은 본인의 몫이라 생각하고......., 단어만 알아도 이해가 되는 경우가 있기에...


1. Posterior

말 그대로 사후확률입니다. 반대로 prior(사전확률)이 있고, 비교하는 것은 liklihood(우도)가 있죠.

커튼에 비친 형상을 관찰할 수 있다고 합니다. 이 때, 두 가지 경우를 생각 할 수 있습니다.

P(형상|철수), P(철수|형상)

실제로 우리가 알고 싶은 것은 P(철수|형상) 입니다.

또한, 이를 사후확률, posterior라고 부릅니다. 근데 실제로 이 확률은 우리가 알 수 없어요. variational inference나 이를 사용하는 다른 방법론에서도

확률을 구하는 것에 초점을 맞추는 것보다는 근사하는 방법을 택하죠.

그래서 우리는 근사할때 P(형상|철수)를 씁니다. 또한, 이를 liklihood(우도)라고 부를 수 있습니다.

  • 형상이 철수 일 수 있다는 확률은 직관적으로 이해가 될 수 있는데, 후자는 그러지 않을 수 있어요.
  • P(형상|철수)의 의미는 철수가 여러가지 형상을 가질 수 있는데, 동물 형상, 사람 형상, 비행기 형상 등등.
  • 이러한 형상들 중, 커튼에 비쳐져 있는 형상일 확률을 뜻하는 겁니다.

 

따라서, 사후확률은 우리가 잘아는 베이즈 정리로 근사할 수 있습니다.

흔히 말하는 조건부확률과 모양이 비슷하죠? 네 동일합니다. 똑같다고 생각하셔도 문제될게 없습니다.

여기서 그치지 않고, 대게 내가 구하고 싶은 값을 근사하기 위해 여기서 한번 더 변형시켜주게 됩니다.

분모에 해당하는 P(형상)의 값은 분자에 무엇이 오던간에 변하지 않는 상수에 해당하게 됩니다,

결국,

이와 같은 형식으로 근사하게 되고, 이를 수학적 표현을 이용하여 좀 더 멋지게 표현하면..

가 됩니다!

위의 식에서도 구할 수 있듯이, P(철수), P(영희)와 같은 우리가 이미 알고 있고 정의된 확률을 Prior(사전 확률)이라고 합니다.

따라서, 베이지안 확률은 posterior를 liklihood와 prior를 활용해 구해주는 방법이라고 할 수 있겠습니다

 

likelihood: p(z|x), 어떤 모델에서 해당 데이터(관측값)이 나올 확률

사전확률(prior probability): p(x), 관측자가 관측을 하기 전에 시스템 또는 모델에 대해 가지고 있는 선험적 확률. 예를 들어, 남여의 구성비를 나타내는 p(남자), p(여자) 등이 사전확률에 해당한다.

사후확률(posterior probability): p(x|z), 사건이 발생한 후(관측이 진행된 후) 그 사건이 특정 모델에서 발생했을 확률


2. MLE와 MAP

이러한 개념을 이용하여 내가 원하는 확률을 얻는 방법은 크게 2가지가 있습니다.

  • MLE(Maximum liklihood)
  • MAP(Maximum a Posterior)

 

먼저, MLE는 사람에게서 그러한 형상이 나올 확률 P(형상|철수)와 P(형상|영희) 중, 단순하게 큰 liklihood값을 고르는 것입니다.

예를 들어서, 철수와 영희에게 총 1000번의 형상을 취하라고 했을 때, 내가 원하는 형상이 각각 0.4, 0.6의 확률로 나왔다면 우리는

철수에게서 우리가 원하는 형상이 나올 확률을 0.4라고 정할 것입니다.

이렇게 정하는 방법이 MLE입니다.

 

MAP는 반대로 어떤 형상을 보았는데 그 형상을 취하고 있는 사람이 철수 P(철수|형상), 영희 P(영희|형상)를 비교해서 둘 중 큰 값을 갖는 클래스를 선택하는 방법입니다. 즉, Posterior를 최대화 시키는 방법이며, 이때 베이즈 정리가 사용되게 됩니다.

이 두가지의 큰 차이점은 prior을 곱하냐 안곱하냐 입니다.

MAP에서 데이터에 대한 즉, P(철수), P(영희)와 같은 prior확률이 같다고 가정하면 MLE와 같은 수식이 나오게 되겠죠.

그렇다면 MLE와 다르게 우리에게 필요한 것은 어떤 사람이 철수일 확률을 알아야 합니다.

다른 예를 들어볼까요. 스팸 필터라는 유명한 예를 빌려오면,

기본적으로 A라는 사람이 보낸 메일에 대해서 스팸인지 기본 메일인지를 구하면 MLE가 되겠지만, 우리가 전체메일 중에서 스팸메일과 기본 메일의 비율을 알고 있다면, 더 정확한 방법인 MAP를 쓸 수 있다는 것입니다.

 

우리가 항상 확률을 구할 때는 비율을 고려하게 되죠. 그렇지 않으면 한쪽에 편향될 수 있는 등의 문제점이라던가 결과의 해석에 대한 신뢰성이 낮아 질 수 있으니까요.

그래서 두 방법 사이의 정확성을 따져보면 MAP가 정확합니다. 하지만 현실에서는 MLE를 쓸때도 많아요. 왜냐하면 클래스만의 확률, 즉 사전확률을 구하는게 어렵거든요.


(사례 참고) 피부색 검출 예제(MAP가 아닌 MLE를 활용해야하는 예제)

그렇다면, 베이지안 정리가 이미지에서는 어떻게 사용될까요?

피부색을 검출하는 문제는 해당 픽셀이 피부색인지 아닌지를 classify할 수 있어야합니다.

피부색 검출을 위해서는 먼저 샘플 영상들을 열심히 수집해서 피부색 DB와 일반 색상 DB를 구성해야 한다.

입력 픽셀값이 z라 하면 p(z|피부색)은 피부색 DB에 있는 데이터들 중에서 z와 같은 색을 가진 데이터의 비율을 세면 된다.

또한 p(z|일반색)은 일반색 DB에 있는 데이터들 중에서 z와 같은 색을 가진 데이터의 비율이다.

 

만일 ML로 피부색 검출을 한다면 p(z|피부색)과 p(z|일반색)을 비교해서 확률이 큰 값을 선택하면 될 것이다.

 

그런데, 이 문제를 MAP로 풀면 어떻게 될까? 수집된 DB에 있는 데이터의 개수를 이용하여

P(피부색), P(일반색) 에 대한 확률을 알아햐는데,

P(피부색) = |피부색DB| / (|피부색DB| + |일반색DB|)

 P(일반색) = |일반색DB| / (|피부색DB| + |일반색DB|)

라 놓고 MAP를 적용하면 되는 것일까요?

 

대답은 NO!

 

p(피부색)은 세상에 존재하는 모든 이미지 색상들 중에서 피부색이 얼마나 되느냐를 나타내는 말이다.

따라서, 자신이 수집한 피부색 DB와 일반색 DB의 크기만을 가지고 이 확률을 추정하는 것은 무리가 있다.

오히려 일반색 DB에 있는 데이터들 중에서 피부색 DB에 있는 색과 같은 색을 갖는 데이터들의 비율을 p(피부색)이라 잡는 것이 보다 합리적일 것이다.

 

이 글은 여러 refer을 모으고 모아서 합쳐진 글입니다. 좀 더 알고 싶으시다면 밑에 글들을 들어가서 한번 더 보시는 것도 좋겠네요.

 

Reference

http://khanrc.tistory.com/entry/likeihood-postierior-prior-MAP-MLE
http://blog.naver.com/PostView.nhn?blogId=ynca333&logNo=221314899811&categoryNo=0&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView
http://darkpgmr.tistory.com/62
http://rpubs.com/Statdoc/204928

 

'# 기타 공부한 것들 > math' 카테고리의 다른 글

베르누이 분포  (0) 2019.01.26
기댓값, 분산, 표준편차  (0) 2019.01.21
Measure theory  (1) 2018.07.26
Set theory  (0) 2018.07.26
Local Minimum, Local Maximum  (0) 2018.06.21

Measure theory라는 강의에 대한 내용을 정리하겠습니다. 

사실 이 부분은 처음이기도 하고 해서 아직도 제대로 이해가 되지는 않네요 ㅠㅠ.

우리가 사실 Set theory에서 집합을 어떻게 정의하고 어떻게 이루어져 있는지를 알 수 있어요. 

하지만 그렇다고 그 각각 개별에 대한 measure를 정의해놓은 것은 아니에요.

우리가 어떤 행위를 하려고 할 때 measure은 필수적이에요. 

 

예를 들어서, 사람들의 몸무게를 잰다고 가정할 때, 나이순으로 할지, 성별별로 할지, 몸무게 순으로 할지, 

이러한 measure를 아직 정하지 않았다는 소리에요.

 

그래서 간단하게 생각하면, 어떤 사람의 몸무게가 70kg다. 이게 measure이고, 어떤 두 사람의 몸무게를 재었더니 140kg이다. 

이 자체가 measure라고 표현할 수 있어요.

 

그래서 수학안에서는 이 measure를 측정하기 위해서, 

σ- field B 

 

라는 개념이 등장하게 됩니다.

 

이 시그마필드의 특징은 

1. 공집합이 들어가구요 

2. 10개의 집합에서 3개의 집합이 들어가있다면 나머지 7개의 집합도 들어가야 하구요(예를 들어서, 100명 중에 2명의 몸무게를 잴 수 있다면, 나머지 98명 또한 잴 수 있어야한다는 의미입니다) 

3. 또한, 시그마필드 내의 원소를 합쳤을 때, 그 합쳐진 원소도 시그마필드에 들어가 있어야 해요. (A와 B의 몸무게를 잴 수 있다면, A+B의 몸무게도 잴 수 있어야합니다.)

제일 쉽게 말하면 시그마 필드는 '면적을 주기위한 최소 단위' 라고 생각하시면 됩니다.

그래서 여러분이 제일 익숙할만한 시그마 필드는 power-set입니다. 2^A, 즉 모든 부분집합을 포함하는 집합이라는 거죠. 또는, 어떤 원소들을 제일 잘게 나눠서 가지고 있는 집합이라고도 표현할 수 있겠네요.

따라서, 위 특징에 따르면 어떠한 element가 시그마필드에 들어가 있지 않다면, 그는 measured될 수 없습니다.

예를 들면, 어떤 시그마필드에 0명의 몸무게와 100명의 몸무게가 원소로 들어있다면, 이는 각각의 몸무게는 잴 수 없다는 것입니다. 이때, 각각의 몸무게는 0도 아니고, 어떠한 수치를 가지고 있지 않습니다. 그냥 '불가능하다'라고 표현합니다.

이를 이용해서 수학자들은 measure space를 정의하게 됩니다.

 

1.  공간을 확장했다고 생각하면 됩니다. 원래는 사람밖에 없었는데 몸무게라는 measure를 추가함으로써 확장시킨 것이죠.

2. 그래서 measure의 정의가 뭐냐면, U라는 set이 있고, 그로부터 만들어지는 시그마 필드 B가 있을 때,

empty set은 0이어야하고, 시그마필드 안에서 겹치지 않는 원소들을 더해서 구한 measure와 각각의 measure을 더한 값이 같아야 합니다.

 -> A(X+Y) = A(X) + A(Y) 라고 쉽게 생각해보세요!

3.전체가 들어가면 1이 되는 normalized된 measure가 확률이다. 

(확률에서 전체를 더하면 1이 되죠? 이 개념을 설명할 때 measure theory를 이용하는 이유입니다.)

 

4. 

U라는 어떤 set이 있고, 

U의 element로 이루어진 subset들의 집합인 시그마필드가 있고, 

시그마필드의 각각의 원소에 양수를 부여할 수 있는 measure가 있고, 

그 measure가 1번과 2번의 조건을 만족한다면 그게 measure space로 정의 되어 질 수 있습니다.

 

Reference

edwith 강의, 최성준님

'# 기타 공부한 것들 > math' 카테고리의 다른 글

기댓값, 분산, 표준편차  (0) 2019.01.21
posterior과 bayesian  (6) 2018.10.20
Set theory  (0) 2018.07.26
Local Minimum, Local Maximum  (0) 2018.06.21
Convexity(2)  (3) 2018.06.20

여러분도 아시다시피 Set에서는 여러가지 정의가 있습니다. 

set, element, subset, universal set(집합을 덮을 수 있는 전체 집합), set operations.

위의 개념들은 초등학교에서 배우는 것으로 누구나가 다 알 수 있는 사실입니다. 다음으로

  • disjoint sets : A∩B = 
  • partition of A : 부분 집합
  • Cartesian product : 집합의 곱을 뜻합니다. 
    • example) A = {1, 2}, B = {3, 4, 5}
    • A * B = {(1,3), (1,4), (1,5), (2,3), (2,4), (2,5)}
  • power set : 집합 A의 모든 부분 집합을 뜻합니다 -> 2^A

 

  • cardinality A : finite, infinite, countable, uncountable, denumerable(countably infinite)
  • 쉽게 카디널리티는, 차원이라고 생각하면 조금 쉬울 수도 있습니다.
  • 집합(cardinality)에서 A(m), B(n)이라면 AB는 (mn)의 cardinality를 가지게 됩니다.
  • 두개의 집합이 one-to-one이라면, 두 집합의 cardinality는 같습니다.
  • countable : 예를 들어, 자연수의 집합(1,2,3,4 ....) 과 어떤 집합이 one-to-one 대응이 된다면 그를 countable (infinite)라고 부르게 됩니다.
  • 예를 들면, 정수들의 집합과 분수들의 집합은 countable이다. 둘은 자연수의 집합과 one-to-one대응이 되기 댸문이죠. 
  • 그렇다면 정수는 양수만 있는게 아니라 음수만 있는데 그게 어떻게 되냐? 라고 물어 보실 수 있는데요. 이 부분은 무한대에서 2를 곱하면 똑같이 무한대죠? 똑같은 개념입니다. 

 

그래서 이처럼 셀 수 있는 무한대의 집합을 denumerable이라고 부릅니다. 또한 이를, 수학적으로 aleph null이라고 부릅니다.

not countable한 것을 uncountable 이라고 합니다. 한마디로 셀 수 없는 무한 집합입니다. 또한 수학적으로 countinuum이라고 표현하빈다.

이를 설명할 때에는 대표적인 예시가 있습니다.

Q : 0과 1사이의 집합이 몇개 일까요?

A : 무한개요.

위의 답변이 이해가 가시나요? 당연한 얘기입니다. 그렇다면

Q : 0과 1사이의 집합과 정수에서의 집합은 둘 다 같은 무한대인가요?

 

네! 답은 '아니오' 입니다. 이를 증명한게 Cantor라는 수학자입니다. 이를 증명하는 과정은

C = [0, 1]

  1. C를 countable이라 가정
  2. C에 대응하는 시퀀스, S가 존재한다고 가정
  3. 우리가 0과 1사이의 숫자를 다루기 때문에 다음과 같이 표현할 수 있습니다.
  4.  

 

이와 같이 이진법으로 표현할 수 있습니다.

(시퀀스 S에 포함되는) x와 같이 표현하다 보면, 0과 1사이를 모두 표현할 수 있기때문에 countable하다는 것을 알 수 있습니다.

그런데 여기서 d = 1-d를 이용해서 하나씩 바꿔서 만든 x를 생각해 봅시다. 근데 이 새로 생긴 x는 S에 속하나요?

아니요. 0과 1을 바꿔서 만든 새로운 변수이기 때문에 S에 속하지 않고, C에 속하게 됩니다. 

이를 이용하여 모든 x를 바꿔가면서 생각해보면, 일부의 x가 아닌 모든 x에 대해서 생각을 하기 떄문에, 이를 uncountable이라고 표현할 수 있게 됩니다.

  • function or mapping f : U -> V
  • domain U, codomain V (input, output이라고 생각하세요)
  • image f(A) : A는 원소를 얘기하는 겁니다.
  • range f(U) 

 

사실 그래서 많은 machine learning 에서 푸는 문제가 preimage의 형태입니다.

어떠한 label을 가지고 개와 고양이를 train한 문제를 가지고 있을 때, 또 다른 data set, 즉 test set으로 이게 개인지 고양이인지를 파별해야하기 때문이죠.

마지막으로, 

  • one-to-one  or injective : f(a) = f(b) -> a = b
  • onto or injective : f(U) = V
  • invertible : one-to-one and onto 

설명은 그림을 보시면 잘 이해 되실겁니다!

 

Reference

edwith 강의, 최성준님

'# 기타 공부한 것들 > math' 카테고리의 다른 글

posterior과 bayesian  (6) 2018.10.20
Measure theory  (1) 2018.07.26
Local Minimum, Local Maximum  (0) 2018.06.21
Convexity(2)  (3) 2018.06.20
Convexity(1)  (4) 2018.06.20