Notice
Recent Posts
Recent Comments
Link
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

무한한 심해 탐험

Bayesian Theorem : Likelihood, Prior, MAP 본문

알아본 것

Bayesian Theorem : Likelihood, Prior, MAP

유진쟝 2021. 1. 15. 13:53

기존의 통계학, 전통적인 통계 관점에서는 '빈도주의(Frequentism)'를 기반으로 엄격하게 확률 공간을 정의하고 계산을 통해 파생되는 빈도수를 기반으로 하여 확률을 계산하였다. 

 

ex. 가령, 동전 100개 중 앞면이 나올 확률을 구하기 위해서는 실제로 동전을 100번 던진 다음에 앞면이 나오는 횟수를 빈도를 통하여 얻는다.

 

이러한 빈도는 일어나지 않은 일에 대한 확률. 즉 불확실성이 연관되어 있고, 빈도 확률 방법으로는 측정이 어려운 사건들의 확률들에 대하여 신뢰할만한 값을 얻기 어렵다는 한계점이 존재했다. 

 

베이지안 관점의 통계학에서는 이러한 반복할 수 없는 사건들, 일어나지 않은 일에 대한 확률을 추정하기 위해 사건과 관련있는 다른 여러 확률을 이용하여 새롭게 일어날 사건을 추정하는 것이 목표이다.

 

베이즈 이론은 사전확률 p(A)와 우도확률 p(B|A)를 안다면, 사후확률 p(A|B)를 알 수 있다는 것이다. 또한, 베이즈 이론에서 사건들은 모두 배반사건일 때 이용할 수 있다.

 

여기서 잠깐 조건부 확률이 나오는데, 조건부확률의 의의는 Sample Space를 줄이는 것이다. 과거의 경험, 알고있는 정보로 범위를 축소하여 관심 있는 사건의 확률에 대해 추정하는 것이다. 베이즈이론에서는 이 조건부확률을 이용함으로써 sample space를 줄여서 사건의 확률을 추정해가는 것이다.

 

 

 

 

출처 : https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

H : Hypothesis의 약자. 가설 혹은 '어떤 사건이 발생했다는 주장' 즉 원인이 된다.

E : Evidence의 약자. '새로운 정보, 혹은 데이터'

 

P(H) : 어떤 사건이 발생했다는 주장에 관한 신뢰도 (사전확률 Prior)

P(E|H) : H가 발생했다는 조건하에 E가 발생할 확률. (우도확률 Likelihood)

P(H|E) : 새로운 정보를 받은 후 갱신된 신뢰도 (사후확률 Posterior)

 

 

새로운 정보 P(E)를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법이다.

 

https://bioinformaticsandme.tistory.com/47

 

 

 

Y = E / 세타 = H 

사후확률과 사전확률은 비례관계에 있다.

 

기호가 좀 깔끔하지는 않지만... 위의 수식과 그림을 비교했을 때, xt를 실제값, yt를 예측값이라고 보았을 때, 실제 xt-1에서 나온 값에서 yt를 예측하고, 이 예측한 값 yt와 xt-1를 곱함으로써 yt값이 나왔을 때의 xt 값을 갱신한다. 이것은 실제 자동차의 위치를 GPS로 측정한 값과 실제 자동차의 위치값을 비교해나가며 그 차이를 줄여나가는 방식에 쓰인다. 

 

앞서서 계산한 사후확률이 다시 사전확률로 주어지고, 이를 이용하여 한번 더 갱신한 사후확률을 계산할 수 있다. 이로써, 계산하여 얻은 사전확률에 근거를 기반으로 하여 확률을 갱신해주는 것이다. 

 


확률(Probability) 

- 모수로부터 다음과 같이 관찰될 확률은?

 

우도 (Likelihood)

- 현상에 대해 가장 가능성이 높은(우도가 높은) 모수는?

우도는 나타난 결과에 따라 여러 가능한 가설들을 평가할 수 있는 측도(Measure)가 된다.

확률분포함수의 y값, 일어날 가능성이 높은 사건이 된다.

 

 

최대우도법 (Maximum Likelihood Estimation) - MLE

- 주어진 현상을 가지고 이 현상이 추출될 가능성을 가장 높게 하는 모수를 거꾸로 추적하는 방법

모수적인 데이터 밀도 추정 방법으로써, 확률밀도함수 p(x|theta)에서 관측된 표본 데이터 집합을 x라고 할 때 이 표본들 x로부터 파라미터 theta를 추정하는 방법이다.

 

최대우도법의 목표

  • 주어진 파라메터를 기반으로 데이터의 가능도를 최대화 한다. 
  • (log) likelihood의 음수를 최소화 한다.

 

사건의 발생확률을 최대로 높이는 모델 변수를 찾는 것이다.

확률분포를 최대로 할 수 있는 theta값을 찾는 것이 최대우도법이다.

 

 

xi 하나하나가 Likelihood의 기여도이다. 수치적으로 이 '가능도'를 계산하는 방법은 확률밀도값(높이)를 모두 곱한다.

 

나온 데이터들(x)들이 어떻게 나왔는지에 대한 가능도에 대한 Likelihood function 분포는 매우 다양하지만, 가장 높은 가능도를 가질 수 있는 최대값의 지점이 있다. 이것이 최대 우도값이다. 

 

측정된 관측자료들을 토대로 모분포의 평균과 분산을 추정해나간다. 

 

정규분포에서의 모평균 추정 공식

 

$ μ = \cfrac{1}{n} \times \sum_{i=1}^{n}x_i $

정규분포에서의 모분산 추정 공식

$ \sigma ^2 =\cfrac{1}{n} \times \sum_{i=1}^{n}{(x_i - \mu )^2} $

 

 

P(x|theta) = Likelihood function에 Log를 취해준다.

-> 왜?

Log-likelihood function을 취해주는 이유는, 계산이 쉽기도 하고(곱하기는 합이 되기 때문), 최대값을 찾기 쉽기 때문이다.

L(theta|x)의 최댓값을 찾아주면 된다.

 

미분(혹은 편미분)을 이용하여 0이 되는 부분이 최댓값이 되는 부분이므로 미분한 값이 (기울기가) 0이 되는 theta 값을 찾을 수 있다.

로그를 미분했을 때 최대값은 기울기가 0인 지점이기 때문이다.

 

 

* Gaussian Distribution의 경우, 다음과 같은 최대 가능도가 나올 수 있는 w값을 추정하는 공식이다.

Gaussian Distribution은 정규분포 형태를 띄기 때문에 정규분포의 확률밀도함수를 가지고 있다. 여기서, 로그를 취하면 시그마 안에 값을 키울 수록 최대값이 나오게 되고 이는 즉, 음수를 제거한다면 (yi - fw(xi))^2)값을 최소화 하는 것과 동치이다.

https://taeoh-kim.github.io/blog/bayesian1/

 

 

MLE의 한계점

관찰값에만 의존하여 Outlier에 민감.

- Observation에 전적으로 의존한다. 편향된 데이터에 영향을 받을 수 있다.

 

 

MAP (Maximum a Posteriori Estimation)

https://sodayeong.tistory.com/25

L : likelihood로서 데이터로부터 계산한 것이다.

f(theta) -> prior probability로서, 파라메터 자체의 확률이다. = 사전지식이다.

 

- prior = f(theta)라는 강력한 가설을 추가함으로써 MLE의 데이터 의존 문제를 해결한다.

(사전분포에 영향을 받는데, 보통은 uniform distribution 혹은 gaussian distribution을 이용한다.)

 

 

* 데이터의 양이 충분히 많아지면, prior 값의 영향이 거의 없어진다는 연구결과가 있다.

 

MLE는 Likelihood를 Maximize하고, MAP는 Posterior을 Maximize하여 추정치를 얻는 방법론이다.

 

 

 

 

 

 

Reference

Comments