가설 검정의 검정력 및 표본 크기 Power and Sample Size for Hypothesis Tests

José Padilla | 20 October, 2021

주제: Hypothesis Testing, Articles

가설 검정에서는 표본의 데이터를 사용하여 모집단에 대한 결론을 도출합니다. 첫째, '귀무 가설'(H0으로 표시)이라는 가정을 합니다. 귀무 가설을 가정하면 귀무의 반대인 대립 가설(Ha)도 정의해야 합니다. H0을 기각할 수 있는지 확인하기 위해 표본 데이터를 사용합니다. H0이 기각되면 통계적 결론은 대립 가설 Ha이 참이라는 것입니다.

검정력 또는 귀무가설이 참이 아닐 때 귀무 가설을 기각할 확률에 유의하세요

이는 '기각해야 하는 귀무가설을 기각할 수 있는 검정 능력'으로 해석됩니다. 귀무가설이 아니면 귀무 가설 기각 확률이 높은 것이 타당합니다. 검정력은 제2종 오류(검정력 = 제1종 - 제2종 오류)와 관련됩니다. 아래의 표를 참조하세요. 제2종 오류는 대립 가설이 참일 때 귀무가설이 기각되지 않을 확률입니다. 즉, 충분히 높은 검정력이 보장되면 낮거나 '허용 가능한' 제2종 오류도 보장됩니다. 검정력이 충분한지 확인하는 일반적인 방법 중 하나는 충분한 데이터를 수집하는 것입니다. 검정력의 계산은 무엇보다도 표본 크기에 따라 달라지기 때문입니다. 표본 크기가 클수록 검정력이 높아집니다. 반면, 데이터를 충분히 수집하지 않으면 검정력이 낮아지고 제2종 오류가 발생합니다.

 

Truth

Decision of Hypothesis Test

H0 is True

Ha is True

Reject H0

Type 1 Error, α

Power (1-β)

Fail to Reject H0

Correct

Type 2 Error, β

 

따라서 적절한 표본 크기를 찾는 것이 중요합니다. 데이터를 충분히 수집하지 않으면 제2종 오류가 발생하는 것도 사실이지만, 반면 데이터를 '너무 많이' 수집하면 검정력이 높아져서 제1종 오류도 증가할 수 있습니다. 결과적으로 이 차이가 특히 표본 추출 비용과 관련하여 실질적으로 유의하지 않을 수 있더라도 검정에서 귀무가설의 값에서 매우 작은 차이를 탐지할 수 있습니다. 검정력 계산은 실질적인 유의성에 기반해야 합니다.

 

MINITAB STATISTICAL SOFTWARE는 다양한 통계 검정의 검정력을 계산하는 기능을 지원합니다

다음 예에서 분석가가 Minitab에서 단일 비율 검정 및 1-표본 t 검정에 대한 검정력 및 표본 크기 분석을 실시합니다.

단일 비율 검정의 표본 크기

제품을 양호 또는 불량으로 분류하는 한 제조 공정이 1%의 불량률로 운영된다고 가정해보세요. 불량률이 3%로 상승하면 조직의 비용에 심각한 영향이 발생합니다. 이 조직은 불량률이 1%에서 3% 이상으로 증가하는 현상을 감지할 수 있도록 제1종 오류율은 0.05, 검정의 검정력은 0.80이 될 만한 크기의 표본을 정해야 합니다.

분석가는 불량률 연구에 관심이 있으므로 단일 비율 검정을 사용합니다. 귀무 가설과 대립 가설은 다음과 같습니다.

Ho: P = 0.01

Ha: P > 0.01

여기서 P는 실제 불량 비율입니다.

분석가는 최소 .8 이상의 검정력에 도달하기 위해 필요한 데이터 점의 수를 확인하기 위해 Minitab에서 단일 비율 검정을 위한 검정력 및 표본 크기 분석을 실시합니다.

power-sample-size-hypothesis-tests-1

1-표본 t 검정의 표본 크기

제품을 양호 또는 불량으로 분류하는 것은 간단하지만, 이 경우 정보가 부족하다는 문제가 있습니다. 5~10의 범위를 양호로 고려하세요. 예를 들어 제품이 2개 있는데 각각 4.9와 10.01로 측정되어 불량으로 분류된 사례와 또 다른 제품 2개는 각각 2.3과 14.1로 측정되어 불량으로 분류된 사례를 생각해보세요. 제품을 단순히 '양호'와 '불량'으로 구분하면 두 사례는 동일하게 취급됩니다. 따라서 제품 품질 특성 측정이 가능하다면, 분석가는 측정을 '양호'와 '불량'으로 측정하지 말고 품질 특성의 실제 값을 기록하고 기록된 데이터 자체를 사용해야 합니다. 1-표본 t 검정을 사용하여 모집단 평균이 목표 범위에 해당하는지 검정할 수 있습니다. 표본 데이터 평균이 '목표'와 가까우면 공정이 잘 수행되고 있는 것입니다. 그러나 평균이 목표와 떨어져 있으면 불량품이 생산될 수 있습니다.

예를 들어 제품 특성이 특정한 목표값이 있는 구멍의 지름이라고 가정해보세요. 분석가는 구멍이 사양을 충족하는지 확인하기 위해 제품 236개를 검사하는 대신 각 제품의 구멍 지름을 측정하고 1-표본 t 검정을 사용하여 지름의 평균을 목표값과 비교할 수 있습니다.

분석가는 80% 이상의 검정력으로 공정 평균에서 1시그마 이상의 이동을 감지하기 위해 필요한 데이터 점의 수를 확인하고자 Minitab에서 1-표본 t 검정의 검정력 및 표본 크기 분석을 실시합니다.

power-sample-size-hypothesis-tests-2

계산된 표본 크기는 10입니다. 따라서 분석가가 평균과 목표값의 편차가 1시그마 이상인지 확인하려는 경우, 1-표본 t 검정의 검정력이 80% 이상이 되게 하려면 제품을 10개 검사하면 됩니다.

차이가 이렇게 큰 이유

계수형 데이터를 위한 가설 검정은 데이터 수집 시 상세 정보가 수집되지 않기 때문에 대규모의 표본을 필요로 합니다. 반면 연속형 데이터를 위한 가설 검정의 경우, 제품의 상세 정보가 수집 및 활용되므로 보다 작은 규모의 표본을 필요로 합니다. 이 개념은 검정력에만 적용되는 것이 아닙니다. 계수형 데이터는 신뢰도 구간, 계수형 합치도 분석, 관리도와 공정 능력 분석에서도 더 큰 크기의 표본을 필요로 합니다.

결론적으로 차이를 감지할 수 있을 만한 확률을 확보하기 위해 검정력이 충분한 가설 검정을 실시하는 것은 중요합니다. 검정력은 표본 크기와 직접적인 연관이 있습니다. Minitab은 실험 설계를 비롯한 다양한 가설 검정의 검정력을 계산할 수 있는 기능을 지원합니다.