통계쪽 전문가 등판해주세요 ㅠㅠ (베이즈 추정)
2
644
2020-04-09 23:51:23
최대 가능도 함수를 배우고 이제 베이즈 추정법으로 왔는데
베이즈 추정에서 도저히 이해가 안되는게 있어서 전문가들에게 도움을 구합니다
예를 들어 실제 모숫값이 0.6인 베르누이 분포에서 무작위 데이터를 50번, 100번, 150번 추출하면
결국엔 0.6에 수렴하는게 당연한데 왜 베이즈 추정을 하는건가요???
모숫값을 모르는 상태에서 베이즈 추정을 통해 하나의 모숫값을 찾아야 되는 것 아닌가요?
그 과정에서 사이파이랑 맷플롯립을 이용해서 그래프 모양이 달라지는걸 확인했는데 혹시 이거랑 관련이 있나요??
즉, 어차피 이미 설정한 모수로 값이 나올텐데 왜 추정값을 구하는거죠??
통계 공부하고 있는데 참 이해가 힘드네요..
4
Comments
글쓰기 |
Bayesian statistics 에서는 시스템의 확률분포를 정해진 것으로 보지 않습니다. 베르누이 분포의 p값은 물론 시스템이 베르누이 분포를 따른다는 것 조차 모르는 상황에서, 측정을 여러번 했을 때 그 측정값들을 바탕으로 시스템의 확률분포를 추론하는거죠. 개념적으로는 Bayesian inference 의 결과로 나오는 확률분포는 우리가 이 시스템에 대해 얼마나 알고 있는가를 나타내는 것입니다. 우리가 흔히 하는 Frequentism 과 다른것이 이 부분인데, Frequentism 에서는 시스템의 확률분포가 정해져 있고 우리의 측정에 uncertainty 가 섞인 것으로 보지만, Bayesian 에서는 우리의 측정이 명확한 것이고, 시스템의 확률분포 쪽에 uncertainty 가 있다고 봅니다.
수행하신 예제에서는 실재 우리가 모르는 시스템을 가지고 할 수가 없으니, (우리는 그걸 모르는채로) p값이 0.6인 베르누이 분포를 따르는 시스템이 있다고 가정하고 그 시스템에 대해 50번, 100번, 150번의 측정을 통해 Bayesian inference 를 해보는 것이죠. 당연히 측정을 많이 하면 할수록 Bayesian inference 의 결과로 나오는 확률분포가 p=0.6인 베르누이 분포에 가까워지겠죠. 앞에 말씀드렸지만 p값은 물론이고 베르누이 분포를 따른다는 것 조차 모르는 상황에서 수행하는 것이기 때문에 의미가 있습니다. 50번, 100번, 150번의 샘플링과 이에 따른 Bayesian inference 로 얻어내신 확률분포가 우리가 이 모르는 시스템에 대해 각각 50번, 100번, 150번의 측정을 했을 때 우리가 얻어낼 수 있는 이 시스템의 정보입니다.