이번 게시물에서는 방정식과 숫자보다는 개념과 그래프를 중심으로 가설 검정과 신뢰 구간의 원리를 알아보겠습니다.
앞서 그래프를 사용하여 통계적 유의성이 실제로 무엇을 의미하는지 보여드렸는데요, 이 게시물에서는 신뢰 구간과 신뢰 수준을 설명하고, 이들이 P값과 유의 수준과 어떻게 밀접하게 관련되어있는지 알아보겠습니다.
신뢰 구간과 신뢰 수준을 올바르게 해석하는 방법
신뢰 구간은 알 수 없는 모집단 모수를 포함할 가능성이 높은 값의 범위입니다. 무작위 표본을 여러 번 추출하면 신뢰 구간 중 특정 비율이 모집단 평균을 포함하게 됩니다. 이 비율이 바로 신뢰 수준입니다.
대부분의 경우 평균 또는 표준 편차를 제한하기 위해 신뢰 구간을 사용하지만, 이를 통해 회귀 계수, 비율, 발생률(포아송, Poisson) 및 모집단 간 차이를 파악할 수도 있습니다.
P값을 해석하는 방법에 대한 일반적인 오해가 있듯이 신뢰 구간을 해석하는 방법에 대한 일반적인 오해가 있습니다. 이 경우, 신뢰 수준은 특정한 신뢰 구간에 모집단 모수가 포함될 확률이 아닙니다.
신뢰 수준은 여러 개의 구간을 파악할 수 있으며 모집단 모수의 값을 아는 경우 정확한 구간을 도출할 수 있는 분석의 이론적 역량을 나타냅니다. 한 연구의 특정 신뢰 구간에서 구간은 모집단 값을 포함하거나 포함하지 않습니다. 즉, 0이나 1이 아닌 확률은 존재하지 않습니다. 또한 모집단 모수의 값을 알 수 없으므로 0과 1 중 한 가지를 선택할 수도 없습니다.
"매개변수는 알 수 없는 상수이며, 그 값에 관한 확률 진술 또한 불가능하다."
—Jerzy Neyman(신뢰 구간을 개발한 사람)
아래의 그래프를 살펴보면 이러한 내용을 이해하기가 좀 더 쉬울 겁니다. . .
이를 염두에 두고 신뢰 구간을 해석하는 방법은 무엇일까요?
신뢰 구간은 모수를 포함하는 구간을 생성하므로 모집단 모수에 대한 좋은 추정치로 사용합니다. 신뢰 구간은 점 추정치(가장 가능성이 높은 값)와 해당 점 추정치 주변의 오차 한계로 구성됩니다. 오차 한계는 모집단 모수의 표본 추정치를 둘러싼 불확실성의 양을 나타냅니다.
이러한 맥락에서 신뢰 구간을 사용해 표본 추정치의 정확성을 평가할 수 있습니다. 특정 변수에 대해서 더 좁은 신뢰 구간[90 110]은 더 넓은 신뢰 구간[50 150]보다 모집단 모수 추정치가 더 정확한 것입니다.
신뢰 구간과 오차 한계
다음으로 신뢰 구간이 오차 한계를 어떻게 설명하는지 알아보겠습니다. 이를 위해 가설 검정을 이해하는 데 사용했던 도구를 이용하도록 합니다. 확률 분포도, t-분포와 데이터의 변동성을 사용하여 표본 추출 분포를 만들었습니다. 이전에도 사용했던 에너지 비용 데이터 세트를 기반으로 신뢰 구간을 설정하겠습니다.
유의 수준을 살펴보면 귀무 가설 값을 중심으로 하는 표본 분포그래프로 나타나며, 분포의 바깥쪽 5%는 음영 영역으로 표시되는 것을 확인할 수 있습니다. 신뢰 구간의 경우, 표본 평균이 중심이고 중간 95%가 음영 처리되도록 표본 분포를 이동해야 합니다.
T음영 처리된 영역은 이 표본 평균을 모집단 평균의 점 추정치로 사용했을 때 95%의 확률로 도출되는 표본 평균의 범위를 나타냅니다. 이 범위[267 394]가 이 예의 95% 신뢰 구간입니다.
그래프를 살펴보면 특정 신뢰 구간이 점 추정치의 오차 한계 또는 불확실성의 양을 어떻게 나타내는지 보다 쉽게 이해할 수 있습니다. 표본 평균은 우리가 가지고 있는 정보를 고려했을 때 모집단 평균으로 산출될 확률이 가장 높은 값입니다. 그러나 이 그래프를 보면, 같은 모집단에서 추출한 다른 랜덤 표본이 음영 처리된 영역 내에서 다른 표본 평균을 얻는 것이 전혀 이상하지 않음을 보여줍니다. 이러한 다른 가능성 높은 표본 평균은 모두 모집단 평균에 대해 서로 다른 값을 제시합니다. 따라서 이 구간은 표본 데이터를 사용할 때 발생하는 불확실성을 나타냅니다.
이러한 그래프를 사용하여 특정 값의 확률을 계산할 수 있습니다. 하지만 해당 값을 알 수 없으므로 그래프에서 모집단 평균의 위치를 지정할 수는 없습니다. 따라서 Neyman의 말대로 모집단 평균의 확률은 계산할 수 없습니다.
통계적 유의성에 대해 P값과 신뢰 구간이 항상 일치하는 이유
P값 또는 신뢰 구간을 사용하여 결과가 통계적으로 유의한지 확인할 수 있습니다. 가설 검정이 두 가지 모두를 도출하면 결과는 일치할 것입니다.
신뢰 수준은 1-알파 수준과 같습니다. 따라서 유의 수준이 0.05이면 해당 신뢰 수준은 95%입니다.
- P값이 유의(알파) 수준보다 작으면 가설 검정이 통계적으로 유의합니다.
- 신뢰 구간에 귀무 가설 값이 포함되지 않으면 결과는 통계적으로 유의합니다.
- P값이 알파보다 작으면 신뢰 구간에 귀무 가설 값이 포함되지 않습니다.
이 예에서 P값(0.031)은 유의 수준(0.05)보다 작으므로, 결과는 통계적으로 유의합니다. 마찬가지로 95% 신뢰 구간[267 394]은 귀무 가설 평균(260)을 포함하지 않으므로 결과가 통계적으로 유의 하다는 결론을 내릴 수 있습니다.
결과가 항상 일치하는 이유를 알아보기 위해 유의 수준과 신뢰 수준의 원리를 다시 살펴보겠습니다.
- 유의 수준은 통계적으로 유의하다고 간주되기 위해 표본 평균이 귀무 가설에서 얼마나 떨어져 있어야 하는지 정의합니다.
- 신뢰 수준은 신뢰 한계가 표본 평균과 얼마나 가까운지 정의합니다.
유의 수준과 신뢰 수준 모두 한계에서 평균의 거리를 정의합니다. 그런데 이 두 경우의 거리는 정확히 일치합니다!
즉, 이 두 경우의 거리는 평균의 임계 t-값 * 표준 오차에 해당합니다. 에너지 비용 예시 데이터의 경우, 이 거리는 $63.57입니다.
귀무 가설 평균과 표본 평균 사이에 다음과 같은 대화가 오간다고 상상해보세요.
귀무 가설 평균, 가설 검정 대표: 안녕! 너는 나와 $63.57만큼 떨어져 있어서 통계적으로 유의하구나!
표본 평균, 신뢰 구간 대표: 사실 네가 나와 $63.57만큼 떨어져 있어서 내가 유의한 거야!
사실상 같은 말이죠? 올바른 P값과 신뢰 구간을 비교하는 한 항상 일치할 것입니다. 하지만 잘못된 P값과 신뢰 구간을 비교하면 이 게시물의 일반적인 실수 #1처럼 혼란스러운 결과가 도출됩니다.
결론
통계 분석에서는 P값에 더 중점을 두고 단순히 유의한 효과나 차이를 더 중요하게 여겨지는 경향이 있습니다. 하지만 통계적으로 유의미한 효과가 현실에서 반드시 의미 있는 것은 아닙니다. 예를 들어, 이러한 효과가 실질적인 가치를 제공하기에 너무 작을 수 있습니다.
중요한 것은 추정 효과의 크기와 정확도 모두에 주의를 기울이는 것입니다. 때문에 저는 신뢰 구간을 더 선호합니다. 신뢰 구간을 사용하면 이러한 중요한 특징을 통계적 유의성과 함께 평가할 수 있습니다. 범위 전체가 현실에 유의미한 효과를 나타내는 좁은 신뢰 구간을 확인할 수도 있고 말이죠.
이 게시물이 유용하셨다면 같은 그래프 프레임워크를 사용하는 본 시리즈의 이전 게시물도 읽어보세요.
- 1부: 가설 검정을 사용해야 하는 이유
- 2부: 유의 수준(알파)과 P값
신뢰 구간에 대한 자세한 내용은 공차 구간 및 예측 구간과 비교한 제 게시물을 참조하세요.
확률 분포도를 만든 방법은 1-표본 t-검정의 그래프 버전을 만드는 방법에서 확인할 수 있습니다.