P값이 0.05보다 크다는 것은 무슨 의미일까요? What Can You Say When Your P-Value is Greater Than 0.05?

Minitab Blog Editor | 7/3/2020

주제: Hypothesis Testing, 통계, 가설검정

P값에 관한 잘못된 해석은 많은 문제를 야기합니다. 이러한 문제는 이미 제 동료인 Jim Frost가 자세히 소개한 적이 있기 때문에 이 글에서 다시 언급하지는 않겠습니다. 그럼에도 불구하고 P값은 여전히 결과의 통계적 유의성을 결정하는 데 가장 많이 사용되는 도구입니다. 

마크 트웨인을 비롯한 여러 역사적인 인물들이 언급한 "거짓, 새빨간 거짓말, 그리고 통계"라는 말을 들어본 적이 있으신가요? 이는 통계에서 해석과 설명이 수학만큼이나 중요하다는 점에서 사실처럼 느껴지기도 합니다. 즉, 실수할 가능성과 약점을 지닌 인간이 데이터를 분석하는 만큼 결과를 보고하는 방식을 은폐하거나 모호하게 만드는 일이 발생할 수도 있습니다.

물론 저는 대부분의 사람들이 정직하고 객관적인 시선을 유지하려고 노력한다고 믿고 싶습니다. 특히 다른 사람들의 삶에 영향을 미칠 수 있는 데이터를 조사하고 분석하는 똑똑한 사람들이라면 말이죠. 하지만 이러한 믿음을 정면으로 반박하는 증거가 500가지나 있습니다.

이러한 증거를 살펴보기 전에 먼저 다음에 대해 간략하게 알아보도록 하죠.

P값이란 무엇이며, 어떻게 해석할 수 있을까요?

P값은 여러 복잡한 방법에도 중요하게 사용되지만, 대다수의 사람들은 간단한 가설 검정을 실시할 때 처음으로 접하게 됩니다. Minitab Statistical Software를 사용해 이러한 가설 검증을 실시하는 방법을 간단하게 알아보도록 하겠습니다. Minitab이 없는 경우 전체 패키지를 30일 동안 무료로 사용해 보세요. 다음 예에서는 각기 다른 종류의 두 용광로의 연료소비량을 비교하여 평균 간의 차이가 있는지 확인해 보겠습니다.

파일 > 워크시트 열기로 이동한 다음, 'Minitab 표본 데이터 폴더에서 찾아보기' 버튼을 클릭합니다. 표본 데이터 세트 'Furnace.mtw'를 연 다음 메뉴에서 통계분석 > 기초 통계 > 2 표본 t검정을 선택합니다. 대화 상자의 표본에 'BTU.In'을 입력하고 표본 ID에는 'Damper'를 입력합니다.

확인을 누르면 Minitab이 다음과 같은 출력을 반환합니다(강조 표시된 값 = P값).
 

대다수의 분석에서는 0.05의 알파가 유의성의 기준으로 사용됩니다. P값이 0.05 미만인 경우 평균 간에 차이가 없다는 귀무 가설을 기각하고 유의한 차이가 있다는 결론을 내리게 됩니다. P값이 0.05보다 크면 큰 차이가 존재한다는 결론을 내릴 수 없습니다.

간단하죠? 0.05 미만이면 유의하고 0.05를 초과하면 유의하지 않습니다.  

Minitab에 문의하기

"거의 통과했는데!"

위의 예에서는 P값이 무려 0.7로, 기준치인 0.05보다 훨씬 크므로 결과가 매우 분명합니다. 유의 하다고 생각하면 안 되는 것이죠. 하지만 P값이 0.05에 매우 근접하면 어떨까요?

예를 들어 P값이 0.06이라면?

유의하지 않습니다.

그렇군요. 그럼 0.055라면요?

그래도 유의하지 않습니다.

0.051이라면요?

그래도 유의하지 않는 것으로 데이터 분석가는 유의성이 있는 것처럼 가장하지 말아야 합니다. P값은 타협의 여지가 없습니다. P값이 0.05보다 크면 결과는 유의성이 없는 것입니다. 절대로요.

그러니까 P값이 0.05보다 크면 어떻게 해야 한다고요?

이렇게 말하세요. "결과가 통계적으로 유의하지 않습니다" 데이터의 결과가 그렇다면, 이렇게 말해도 아무 문제가 없습니다.
 

아무리 좋게 말해도 엉터리인 것

이 시점에서 제가 처음에 언급했던 블로그 게시물을 읽어보실 것을 권해드립니다. 이 블로그 게시물의 작성자는 과학 학술지 기고자들이 결과(결과가 없을 때도)를 모호하게 만들기 위해 교묘한 어휘를 사용한 500가지 방법을 목록화 했다는 것입니다.

언어학 전공자로서 저는 이 목록이 신기하기도 하지만 불쾌하게도 느껴집니다. 이런 행위는 옳지 않으니까요. 이 기고자들은 A) 0.05보다 큰 P값이 의미하는 바와 B) 교묘한 어휘로 결과를 모호하게 만드는 행위가 고의적인 기만 행위라는 사실을 명확하게 이해하고 있는 지식인들입니다. 좀 더 분명히 말하자면 이것은 새빨간 거짓말입니다.

그럼에도 불구하고 이러한 행위는 심심찮게 일어나고 있습니다.

다음은 유의하지 않은 결과를 보고한 500가지 방법 중 기발한 사례들을 각각의 창의적인 해석 및 해당하는 P값과 함께 나열한 것입니다.

  • 어느 정도 유의성을 보이는 경향이 있음(p=0.08)
  • 유의성의 경계선에 도달함(p=0.07)
  • 통계적 유의성의 한계(p<0.07)
  • 통계적 유의성에 근접(p=0.055)
  • 통계적 유의성에 미치지 못함(p=0.12)
  • 유의성 수준에 미치지 못함(p=0.086)
  • 유의성의 한계에 가까움(p=0.18)
  • 아주 약간 유의하지 않음(p=0.0738)
  • 잠정적으로 유의함(p=0.073)

그 중에서도 제가 백미로 꼽는 것은 다음 해석입니다.

  • 준유의함(p=0.09)

'준 유의함'이 대체 무슨 말인지도 모르겠지만, 어쨌든 심각하게 생각하지만 않으면 ‘준 중요함’처럼 들리기는 합니다. 그럼에도 불구하고 P값이 0.09라면 결과에 통계적 유의성이 없다는 사실은 부정할 수 없습니다.

이 블로거는 반대의 경우는 다루지 않았습니다. 예를 들어 기고자들이 P값이 0.049999인 경우 결과가 다음과 같다고 할까요?

  • 약간 유의하지 않음
  • 아주 약간 유의함
  • 잠정적으로 유의하지 않음
  • 유의하지 않다 에 근접함
  • 통계적으로 유의하지 않은 주변부에 해당함

P값이 0.05보다 아주 조금 작더라도 통계적 유의성을 부정하는 경우는 아마도 없을 것입니다. 그러나 통계적으로 유의하지 않은 것을 대수롭지 않게 여기는 행동은 거의 고질적으로 발생하고 있습니다.

제가 위에 언급한 게시물이 이토록 절망적으로 느껴지는 것도 바로 이 때문입니다. 분명 더 좋은 방법을 찾을 수 있는 데이터 분석가들 사이에서 이처럼 바람직하지 못한 행위가 만연하다는 사실에 힘이 빠질 따름입니다.

여러분은 언어를 교묘하게 사용하여 분석 결과를 은폐하지 않으시겠죠?

New call-to-action