주사위, 용과 정규 분포에 가까워지기: 중심 극한 정리 Dice, Dragons and Getting Closer to Normal Distribution: The Central Limit Theorem

José Padilla | 7/23/2020

주제: Minitab Statistical Software, Articles, data literacy, 조항, 데이터 활용 능력

데이터 분석가는 밤에 양을 세는 것이 아니라 양들이 울타리를 뛰어넘을 때 그리는 우아한 종 모양의 곡선을 생각한답니다. 정규 분포라고 하는 이 곡선은 바로 통계 분석에서 가장 중요한 개념 중 하나인 중심 극한 정리를 이해하는 시작점입니다.

정규 데이터? 비정규 데이터? 분포에서 패턴 찾기

정규 분포 데이터는 종 모양의 대칭 패턴을 그립니다. 대다수의 관찰 결과는 평균에 가까우며, 평균에서 멀어질수록 관찰 결과의 수는 점점 더 적어집니다. 정규 분포는 원시 데이터의 혼돈에도 일종의 패턴이 있다는 사실을 보여주죠.

아티스트 Shuyi Chiou는 토끼와 용의 날개폭을 이용하여 울타리를 뛰어넘는 양들보다도 더 창의적인 예시를 만들었습니다. 이 예시는 표본 크기, 분포, 중심 극한 정리 등 서로 연관되어 있는 여러 개념을 이해하기 쉽게 보여줍니다.

토끼의 크기부터 주사위 굴리기까지 여러 상황의 데이터는 정규 분포를 따릅니다. 하지만 많은 경우 우리의 측정 대상은 이 패턴을 따르지 않는데 이 경우 비정규 분포에 해당한다고 합니다.

단, 정규 데이터와 비정규 데이터 모두 집단에서 n 크기의 독립적인 무작위 표본을 반복해서 추출하면 n이 클수록 표본 평균의 분포가 정규 분포에 가까워집니다.

충분한 규모'의 표본 크기는 얼마인가요?

경우에 따라 다릅니다. 집단 분포가 이미 정규 분포에 가까울수록 정리를 나타내기 위해 필요한 표본 수도 적어집니다. 일반적으로 중심 극한 정리가 유효하기 위해서는 표본 크기가 30개 이상이면 충분합니다. 그러나 표본이 심하게 치우치거나 모드가 여러 개라면 더 큰 표본이 필요할 수도 있습니다.

 

관련 내용: 정말로 필요한 데이터의 양은?

검정력과 표본 크기에 대해 자세히 알아보기

 

예시 1: 주사위 굴리기는 정규 분포를 나타냅니다

dice-image면이 6개인 주사위가 있다고 가정해 보겠습니다. 주사위를 굴리면 6가지 숫자 중 하나가 나올 확률은 1/6입니다. 즉, 어떤 숫자든 나머지 5가지 숫자와 동일한 확률로 나올 수 있습니다.

Minitab Statistical Software에서는 랜덤 데이터 생성기를 활용하여 주사위를 처음 굴렸을 때 나올 수 있는 500가지 결과를 시뮬레이션할 수 있습니다. 계산 > 랜덤 데이터 > 정수...를 클릭한 다음 열을 500개 생성하고 최소값을 1, 최대값을 6으로 설정합니다.

이러한 500가지의 '첫회 굴리기' 경우는 히스토그램으로 나타낼 수 있습니다. 이 시나리오에서는 표본 크기가 1입니다. 또한 주사위를 굴려 6가지 숫자 중 하나가 나올 확률이 동일하므로 분포는 비교적 평평한 모습으로 나타납니다. 아래 그래프의 파란색 막대와 정규 분포를 나타내는 빨간색 곡선을 비교해 보면 이 시나리오의 데이터가 정규 데이터가 아님을 알 수 있습니다. 

histogram-of-one-rollrolls-value-table다음으로 더 많은 표본을 추출하여 표본 평균의 히스토그램을 살펴보겠습니다. 이번에는 주사위를 두 번 굴리는 경우를 시뮬레이션하고, 이 과정을 500번 반복해 보도록 하겠습니다. 이제 표본 크기는 2가 됩니다. 계산 > 열 통계량을 사용하여 각 쌍의 평균을 계산해 보겠습니다. 아래 내용을 보세요.

여기서 각 열은 표본 크기인 2와 표본의 평균을 나타냅니다. 표본 크기가 충분하면 정규 분포를 따르게 됩니다. 이를 확인하기 위해 평균치의 히스토그램을 생성해 보겠습니다.

보시다시피 정규 분포에 좀 더 가까워진 모습입니다.

그럼 주사위를 다섯 번, 열 번, 스무 번 그리고 서른 번씩 굴려보겠습니다.

각각의 경우에 대한 평균의 히스토그램을 보면 표본 크기가 커질수록 표본의 분포가 정규 분포에 가까워짐을 알 수 있습니다.

 

histogram-of-meanshistogram-of-means-multiple-rolls

 

 

관련 내용: 데이터 분포 파악하기

Minitab을 이용해 파악하는 방법 알아보기

 

예시 2: 지수 분포

지수 분포는 사건 사이의 시간을 모형화합니다. 이러한 모형은 출시된 시점과는 관계없이 언제든지 실패할 가능성이 있는 제품의 단계나 품목의 수명(즉, 제품이 예상된 사용 중 낡고 마모되기 시작하기 전의 단계)을 알아보는 데 유용합니다.

관련 내용: 메모리 부족으로 실패 데이터를 모델링 하는 방법

지수 분포에 대해 자세히 알아보기

 

다음은 트랜지스터의 고장까지 소요되는 예상 시간을 나타내는 확률 밀도 곡선입니다.

distribution-plot

보시다시피 이는 분명 정규 분포에 해당하지 않습니다. 하지만 표본 크기를 5로 하여 지수 데이터를 생성하고 평균을 계산한 다음 평균의 히스토그램을 만들면 어떻게 될까요? 또 표본 크기를 10, 20, 30으로 늘리면 어떻게 될까요?

histogram-of-means-sample-sizes

주사위를 굴리는 시나리오와 마찬가지로 표본 크기가 커질수록 평균의 분포가 정규 분포에 더 가까워집니다.

정리

중심 극한 정리는 통계 종사자가 아닌 사람은 자주 접할 일이 없지만 그럼에도 불구하고 매우 중요한 개념입니다. 주사위, 용과 실패율에서 보시다시피, 표본 크기가 커질수록 분포 곡선은 정규 분포에 가까워진다는 사실을 알 수 있습니다.