데이터 분석가는 밤에 양을 세는 것이 아니라 양들이 울타리를 뛰어넘을 때 그리는 우아한 종 모양의 곡선을 생각한답니다. 정규 분포라고 하는 이 곡선은 바로 통계 분석에서 가장 중요한 개념 중 하나인 중심 극한 정리를 이해하는 시작점입니다.
정규 분포 데이터는 종 모양의 대칭 패턴을 그립니다. 대다수의 관찰 결과는 평균에 가까우며, 평균에서 멀어질수록 관찰 결과의 수는 점점 더 적어집니다. 정규 분포는 원시 데이터의 혼돈에도 일종의 패턴이 있다는 사실을 보여주죠.
아티스트 Shuyi Chiou는 토끼와 용의 날개폭을 이용하여 울타리를 뛰어넘는 양들보다도 더 창의적인 예시를 만들었습니다. 이 예시는 표본 크기, 분포, 중심 극한 정리 등 서로 연관되어 있는 여러 개념을 이해하기 쉽게 보여줍니다.
토끼의 크기부터 주사위 굴리기까지 여러 상황의 데이터는 정규 분포를 따릅니다. 하지만 많은 경우 우리의 측정 대상은 이 패턴을 따르지 않는데 이 경우 비정규 분포에 해당한다고 합니다.
단, 정규 데이터와 비정규 데이터 모두 집단에서 n 크기의 독립적인 무작위 표본을 반복해서 추출하면 n이 클수록 표본 평균의 분포가 정규 분포에 가까워집니다.
경우에 따라 다릅니다. 집단 분포가 이미 정규 분포에 가까울수록 정리를 나타내기 위해 필요한 표본 수도 적어집니다. 일반적으로 중심 극한 정리가 유효하기 위해서는 표본 크기가 30개 이상이면 충분합니다. 그러나 표본이 심하게 치우치거나 모드가 여러 개라면 더 큰 표본이 필요할 수도 있습니다.
Minitab Statistical Software에서는 랜덤 데이터 생성기를 활용하여 주사위를 처음 굴렸을 때 나올 수 있는 500가지 결과를 시뮬레이션할 수 있습니다. 계산 > 랜덤 데이터 > 정수...를 클릭한 다음 열을 500개 생성하고 최소값을 1, 최대값을 6으로 설정합니다.
이러한 500가지의 '첫회 굴리기' 경우는 히스토그램으로 나타낼 수 있습니다. 이 시나리오에서는 표본 크기가 1입니다. 또한 주사위를 굴려 6가지 숫자 중 하나가 나올 확률이 동일하므로 분포는 비교적 평평한 모습으로 나타납니다. 아래 그래프의 파란색 막대와 정규 분포를 나타내는 빨간색 곡선을 비교해 보면 이 시나리오의 데이터가 정규 데이터가 아님을 알 수 있습니다.
여기서 각 열은 표본 크기인 2와 표본의 평균을 나타냅니다. 표본 크기가 충분하면 정규 분포를 따르게 됩니다. 이를 확인하기 위해 평균치의 히스토그램을 생성해 보겠습니다.
보시다시피 정규 분포에 좀 더 가까워진 모습입니다.
그럼 주사위를 다섯 번, 열 번, 스무 번 그리고 서른 번씩 굴려보겠습니다.
각각의 경우에 대한 평균의 히스토그램을 보면 표본 크기가 커질수록 표본의 분포가 정규 분포에 가까워짐을 알 수 있습니다.
지수 분포는 사건 사이의 시간을 모형화합니다. 이러한 모형은 출시된 시점과는 관계없이 언제든지 실패할 가능성이 있는 제품의 단계나 품목의 수명(즉, 제품이 예상된 사용 중 낡고 마모되기 시작하기 전의 단계)을 알아보는 데 유용합니다.
다음은 트랜지스터의 고장까지 소요되는 예상 시간을 나타내는 확률 밀도 곡선입니다.
보시다시피 이는 분명 정규 분포에 해당하지 않습니다. 하지만 표본 크기를 5로 하여 지수 데이터를 생성하고 평균을 계산한 다음 평균의 히스토그램을 만들면 어떻게 될까요? 또 표본 크기를 10, 20, 30으로 늘리면 어떻게 될까요?
주사위를 굴리는 시나리오와 마찬가지로 표본 크기가 커질수록 평균의 분포가 정규 분포에 더 가까워집니다.
중심 극한 정리는 통계 종사자가 아닌 사람은 자주 접할 일이 없지만 그럼에도 불구하고 매우 중요한 개념입니다. 주사위, 용과 실패율에서 보시다시피, 표본 크기가 커질수록 분포 곡선은 정규 분포에 가까워진다는 사실을 알 수 있습니다.