P값을 올바르게 해석하는 방법 How to Correctly Interpret P Values

Minitab Blog Editor | 7/10/2020

주제: Hypothesis Testing, 가설검정

P값은 T-검정부터 회귀 분석까지 다방면으로 활용됩니다. 또한 가설 검정의 통계적 유의성을 판단하기 위해 P값을 사용해야 한다는 것은 널리 알려진 사실입니다. 실제로 P값이 논문의 발표 여부와 프로젝트의 자금 지원 여부를 판가름하기도 합니다.

P값은 이처럼 중요한데도 불구하고 많은 사람들에게 잘못 해석되곤 합니다. 여러분은 P값을 어떻게 해석하고 있나요?

이 게시물에서는 P값을 보다 직관적으로 이해하고, 많은 비용과 신뢰도의 하락을 초래할 수 있는 잘못된 해석을 방지하는 방법을 소개합니다.

가설 검정의 귀무 가설이란 무엇일까요?

Scientist performing an experimentP값을 이해하려면 먼저 귀무 가설을 이해해야 합니다.

모든 실험에는 연구자가 검정하려는 효과나 집단 간 차이가 있습니다. 예컨대 신약, 건축 자재, 치료 요법 등의 효과가 이에 해당합니다. 연구자에게는 불행한 일이지만 집단 간 차이가 나타나지 않을 가능성, 즉 효과가 없을 가능성도 얼마든지 존재합니다. 이처럼 차이가 없는 경우를 귀무 가설이라고 하며, 이는 실험 결과를 평가할 때 선의의 비판을 담당하는 사람이 맡는 역할에 비유할 수 있습니다.

좀 더 자세히 알아보기 위해, 효과가 전혀 없는 것으로 알려진 약에 관한 실험이 있다고 가정해보겠습니다. 이 경우 집단 수준에서 실험군 간 차이가 없으므로 귀무 가설이 참입니다.

귀무 가설이 참이어도 무작위 표본 추출 오류로 인해 표본 데이터에 영향이 발생할 수 있습니다. 실제로 표본 집단이 귀무 가설의 값과 완벽하게 일치할 가능성은 거의 없습니다. 따라서 표본에서 관찰된 차이가 실질적인 집단 간 차이를 나타내지는 않는다는 사실이 바로 선의의 비판과도 같은 지점이라고 볼 수 있습니다.

P값이란 무엇일까요?

JokeP값은 표본 데이터가 귀무 가설이 참이라는 선의의 비판을 얼마나 뒷받침하는지 평가하는 값으로, 데이터가 귀무 가설에 얼마나 적합한지 측정합니다. 귀무 가설이 참이라면 표본 데이터에서 효과가 관찰될 가능성이 얼마나 높을까요?

  • P값이 높은 경우: 귀무 가설이 참일 가능성이 높은 데이터입니다.
  • P값이 낮은 경우: 귀무 가설이 참일 가능성이 낮은 데이터입니다.

P값이 낮다는 것은 표본이 집단 전체에 대해 귀무 가설을 기각할 수 있는 증거를 충분히 제공한다는 의미입니다.

여러분은 P값을 어떻게 해석하고 있나요?

Vaccine전문 용어로 P값은 귀무 가설이 참이라는 가정하에 최소한 표본 데이터만큼 극단적인 효과를 도출할 가능성을 의미합니다.

예를 들어 한 백신 연구의 P값이 0.04로 나타났다고 가정해보겠습니다. 이 P값은 백신이 효과가 없다면 무작위 표본 추출 오류로 인해 연구의 4%에서 관찰된 수준 이상의 차이가 도출된다는 뜻입니다.

P값은 귀무 가설이 참이라는 것을 데이터가 나타낼 가능성이 얼마나 높은지 만을 나타내며, 대립 가설에 대한 근거를 측정하지 않습니다. 이러한 제약으로 인해 다음 섹션에서 P값에 대한 일반적인 오류를 알아보겠습니다.

Minitab에 문의하기

P값은 오류가 발생할 확률이 아닙니다

P값은 잘못 해석되는 경우가 많습니다. 가장 흔한 실수는 귀무 가설을 기각하면 P값을 오류를 범하게 될 확률로 해석하는 것입니다(제 1종 오류).

P값이 오류율이 될 수 없는 이유는 다음과 같습니다.

첫째, P값은 모집단에 대해 귀무 가설이 참이며 표본의 차이가 오로지 무작위 확률에 의해 발생했다는 가정에 기반하여 계산됩니다. 즉, P 값은 계산에서 보면 100% 참이므로 귀무 가설이 참이거나 거짓일 확률을 나타낼 수 없습니다.

둘째, 낮은 P값은 데이터가 실제 귀무 가설을 가정할 가능성이 낮음을 나타내지만, 다음 두 경우 중 어느 쪽의 가능성이 더 높은지 평가할 수는 없습니다.

  • 귀무 가설은 참이나 표본이 특이함
  • 귀무 가설이 거짓임

어느 경우의 가능성이 더 높은지 판단하려면 해당 주제에 대한 지식과 반복 연구가 필요합니다.

아까의 백신 연구로 돌아가 P값(0.04)을 해석하는 올바른 방법과 잘못된 방법을 비교해보겠습니다.

  • 올바른 방법: 백신이 효과가 없다고 가정한다면, 무작위 표본 추출 오류로 인해 연구의 4%에서 관찰된 수준 이상의 차이가 도출됩니다. 
  • 잘못된 방법: 귀무 가설을 기각하면 오류를 범할 확률이 4%입니다.

가설 검정의 원리를 그림으로 알아보려면 제가 작성한 글 가설 검정의 이해: 유의 수준과 P값을 참조하세요.

실제 오류율이란 무엇일까요?

Caution sign이러한 해석의 차이가 단순한 의미의 차이일 뿐이며 까다로운 통계학자에게나 중요할 것 같다면 다시 생각해보세요. 이는 여러분에게도 중요합니다.

P값이 오류율이 아니라면 대체 무엇이 오류율일까요? (이제 무슨 이야기인지 아시겠죠?)

Sellke et al. *은 다른 P값과 관련된 오류율을 추정했습니다. 다음 표는 일반적인 가정의 오류율을 요약하여 나타낸 것입니다. 단, 정확한 오류율은 가정에 따라 달라질 수 있습니다(여기를 참조).

P값

참인 귀무 가설을 잘못 기각할 확률

0.05

23% 이상(보통 약 50%)

0.01

7% 이상(보통 약 15%)

표의 높은 오류율에 놀라셨나요? 안타깝게도 P값을 오류율로 잘못 해석하는 일이 자주 발생하면서 귀무 가설에 대한 증거가 정당화되기보다 실제로 더 많다는 착각을 일으킵니다. 보시다시피 P값이 0.05에 가까운 단일 연구를 기반으로 결론을 내리면 표본에서 관찰된 차이가 모집단 수준에서는 나타나지 않아 큰 문제가 발생할 수 있습니다!

지금까지 P값을 해석하는 방법에 대해 알아보았습니다. 자세한 내용은 제가 작성한 P값을 사용하고 실수를 방지하는 방법 5가지를 참조하세요.

P값을 금지한 학술지에 대한 반증도 권해드립니다.

2015년 8월에 실험 결과의 재현 가능성에 관한 흥미로운 연구가 발표되었습니다. 이 연구는 실제 오류율을 이해하는 것의 중요성을 강조했습니다. 자세한 내용은 제 블로그 게시물 P값과 실험의 재현을 참조하세요.

미국 통계학회(American Statistical Association)가 P값을 사용하는 방법에 대해 발표했습니다!

*Thomas SELLKE, M. J. BAYARRI, and James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, 2001년 2월, 제55권 1호