본문 바로가기
Statistics

분포들 사이의 관계 1 (Relationship Between Distributions 1)

by 함승우 2022. 1. 20.

예전부터 통계 관련 강의를 들을 때마다 나오는 다양한 분포 (Distribution)에 대하여 궁금한 점이 많았습니다. F 분포가 뭐지? Gamma 분포는 또 뭘까? 하는 생각을 많이 하곤 했는데, 이번 글에서 그에 대한 제 나름의 답을 최대한 수식 없이 정리해보겠습니다. 식을 포함한 자세한 포스팅은 다음에 추가하고, 이번에는 개념적으로만 서술해보도록 노력해보겠습니다.

 

먼저, 동전이 던져서 앞면/뒷면이 나오는 사건, 한쪽 면에 잼을 바른 빵을 떨어뜨렸는데 잼을 바른 면/잼을 바르지 않은 면으로 떨어지는 사건과 같이 두 가지 결과만 나올 수 있는 독립시행을 베르누이 (Bernoulli) 독립시행이라고 합니다. 베르누이 독립시행을 여러 번 시행했을 때 특정 사건의 발생 확률은 이항분포를 따릅니다. 이항분포는 시행 횟수 $n$과 사건 발생 확률 $p$를 파라미터로 갖습니다.

 

포아송분포 (Poisson distribution)는 이항분포의 특별한 경우, 혹은 근사로 생각하면 됩니다. 이항분포에서는 시행 횟수사건의 발생 확률에 따라서 분포의 모습이 달라지는데, 포아송분포는 여기서 시행 횟수는 충분히 많고, 사건의 발생 확률은 충분히 적을 때 적용될 수 있습니다. 예를 들어 올 한해 동안 교대역이 물에 잠기는 횟수는 포아송분포를 따를 수 있습니다. 포아송분포는 발생률(rate, $\lambda$)을 파라미터로 갖습니다. 자세한 식이 궁금하신 분은 포아송분포에 대한 게시글을 확인해주세요

 

포아송분포가 발생 횟수에 대한 분포라면, 지수분포 (exponential distribution)는 첫 번째 발생까지의 대기시간에 대한 확률밀도함수입니다. 위의 교대역이 물에 잠기는 예시를 활용하면, 위 사건의 지수분포는 하루하루의 교대역이 물에 잠기는데 걸리는 시간을 나타내게 됩니다. 지수분포도 포아송분포와 마찬가지로 발생률(rate, $\lambda$)을 파라미터로 갖습니다.

 

감마분포 (Gamma distribution)은 지수분포의 일반화 형태라고 생각하시면 편합니다. $r$번째 현상이 시각 $t$ 이전에 발생할 확률을 나타냅니다. 지수분포가 첫 번째 발생까지의 대기시간에 대한 확률밀도함수여서 발생률(rate, $\lambda$)만을 파라미터로 갖는다면, 감마분포는 발생 횟수 $r$도 파라미터로 갖습니다. 교대가 10번째 물에 잠기는 사건이 발생하기까지의 대기시간의 확률밀도함수도 알 수 있다고 생각하시면 되겠습니다.

 

다음은 정규분포 (normal distribution) 혹은 가우스분포 (Gaussian distribution)라고 불리는 분포에 대해서 확인해봅시다. 신기하게도, 그 어떤 분포에서 sample을 모아서 평균을 계산한뒤 그 값의 분포를 보면, 그 분포는 무조건 정규분포를 따르게 됩니다. 아래 그림에도 첨부하겠지만, 자세한 설명은 StatQuest의 영상 참조하시면 좋겠습니다.

 

위의 그림은 어떤 분포에서 sampling 하더라도 결국 그 평균의 분포는 정규분포를 따르게 됨을 의미합니다.

출처

김우철. 수리통계학 = Mathematical Statistics / 김우철 지음, 2012.