지난 번에는 회귀 계수와 개별 P값을 해석하는 방법에 대해 소개한 바 있습니다.
또한 R-제곱을 해석하여 모형과 반응 변수 간 관계의 강도를 평가하는 방법도 설명했습니다.
최근에 저는 전반적 유의성 F-검정과 그 P값을 다른 통계와 함께 활용하는 방법에 대한 질문을 받았는데요. 이번 글에서는 이 질문에 대한 답변을 알아보도록 하겠습니다.
일반적으로 회귀의 F-검정은 여러 선형 모형의 적합성을 비교합니다. 한 번에 하나의 회귀 계수만 평가할 수 있는 t-검정과 달리, F-검정은 동시에 여러 개의 계수를 평가할 수 있습니다.
전반적 유의성 F-검정은 예측 변수가 없는 모형을 여러분이 지정한 모형과 비교하는 F-검정입니다. 예측 변수가 포함되지 않은 회귀 모형은 '절편만 있는 모형'이라고도 합니다.
전반적 유의성 F-검정의 가설은 다음과 같습니다.
Minitab Statistical Software의 분산 분석 표에 전반적 유의성에 대한 F-검정이 있습니다.
전체 유의성 F-검정의 P값이 유의성 수준보다 작으면 귀무 가설을 기각하고 여러분의 모형이 절편만 있는 모형보다 더 적합하다는 결론을 내릴 수 있습니다.
즉, 여러분이 모형에 포함한 항으로 인해 적합성이 개선되었습니다.
보통 모형의 각 계수에 대한 유의성 있는 P값이 없다면 전체 F-검정도 유의성이 없습니다. 단, 일부 경우에 검정의 결과가 다를 수 있습니다. 예를 들어 전반적인 유의성 F-검정을 통해서는 계수 공동으로는 일부가 0과 같지 않지만, 각 계수에 대한 검정을 통해서는 모든 계수가 각각 0과 같다는 결론이 도출될 수 있습니다.
전반적인 유의성을 지닌 F-검정을 통해 추가적으로 다음과 같은 결론도 도출할 수 있습니다.
절편만 있는 모형에서는 모든 적합치가 반응 변수의 평균과 같습니다. 따라서 전체 F-검정의 P값이 유의하다면 여러분의 회귀 모형이 반응 변수의 평균보다 반응 변수를 더 정확하게 예측하는 것입니다.
R-제곱은 여러분의 모형과 반응 변수 간 관계의 강도를 추정하지만, 이러한 관계에 대한 공식적인 가설 검정을 제공하지는 않습니다. 이러한 관계가 통계적 유의성을 지니는지는 전체 F-검정을 통해 확인할 수 있습니다. 전체 F-검정의 P값이 유의 수준보다 낮다면 R-제곱값이 0과 유의하게 다르다는 결론을 내릴 수 있습니다.
개념과 그래프를 통해 F-검정의 원리를 알아보려면, F-검정을 이해하는 방법에 관한 제 글을 읽어보세요.
여러분의 모형 전체가 통계적 유의성을 지니고 있다면 이는 축하할 일입니다. 단, 결과를 신뢰할 수 있도록 반드시 잔차 그림을 확인하세요!
회귀를 학습하는 분들은 제 회귀 튜토리얼을 참조하실 수 있습니다.