분산 분석(ANOVA)을 통해 집단 3개 이상의 평균이 서로 다른지 확인할 수 있습니다. 분산 분석은 F-검정을 사용하여 평균의 동질성 통계적으로 검정합니다. 이 게시물에서는 일원 분산 분석 예시를 통해 분산 분석과 F-검정의 원리를 설명합니다.
하지만 그전에 먼저 분산 분석을 사용하여 평균이 다른지 알아보는 이유가 무엇인지 생각해본 적이 있나요? 이 글에서는 분산이 평균에 대한 정보를 제공하는 방식도 함께 알려드리겠습니다.
T-검정을 이해하는 방법에 관한 게시물에서처럼, 공식보다는 개념과 그래프를 중점적으로 활용하여 분산 분석 F-검정을 설명하도록 하겠습니다.
F-검정은 해당 검정 통계량의 이름으로부터 유래한 것으로, F는 Ronald Fisher 경의 이름을 딴 것입니다. F-통계량은 두 분산의 비율입니다. 분산은 산포의 측정치 또는 데이터가 평균에서부터 얼마나 산재되어 있는지를 나타내는 수치입니다. 분산 값이 크면 산포도 더 큰 것입니다.
분산은 표준 편차의 제곱입니다. 우리처럼 평범한 사람들은 분산보다 표준 편차를 이해하기가 더 쉽습니다. 표준 편차는 제곱 단위가 아닌 데이터와 동일한 단위로 표시되기 때문입니다. 그러나 실제로 여러 분석의 계산에서는 분산이 사용됩니다.
F-통계량은 평균 제곱율에 기반합니다. '평균 제곱'이라는 용어는 어렵게 느껴질 수 있지만, 실은 모분산의 추정치로서 이러한 추정치를 계산하는 데 사용된 자유도(DF)를 나타낼 뿐입니다.
비록 분산비이지만 F-검정은 다양한 상황에 활용할 수 있습니다. 또한 F-검정은 당연히 분산의 동질성 평가에도 사용 가능합니다. 단, 비율에 포함된 분산을 변경하면 F-검정은 매우 유연한 검정으로 활용됩니다. 예를 들어 F-통계량과 F-검정은 회귀 모형의 전체 유의성 검정, 여러 모형의 적합성 비교, 특정 회귀 항 검정 및 평균의 동질성 검정에 사용할 수 있습니다.
비율에 올바른 분산을 포함하기만 하면 F-검정을 통해 집단 평균이 동일한지 확인할 수 있습니다. 일원 분산 분석에서 F-통계량의 비율은 다음과 같습니다.
F = 표본 평균 간 변동/표본 내 변동
이 비율을 이해하는 최적의 방법은 일원 분산 분석의 예시를 살펴보는 것입니다.
플라스틱 표본 4개를 분석하여 각 플라스틱의 평균 강도가 다른지 확인하는 예시를 살펴보도록 하겠습니다. 설명을 보면서 직접 해보고 싶다면 표본 데이터를 다운로드하세요. (Minitab이 없는 경우 30일 무료 평가판을 다운로드하세요.) 일원 분산 분석은 개념을 설명하면서 다시 살펴보겠습니다.
Minitab에서 통계분석 > 분산 분석 > 일원 분산 분석...을 선택합니다. 대화 상자에서 '강도'를 반응으로, '표본'을 요인으로 설정합니다. 확인을 누르면 Minitab의 세션 창에 다음과 같은 결과가 표시됩니다.
일원 분산 분석 결과, 플라스틱 표본 4개 각각의 평균이 계산되었습니다. 집단 평균은 11.203, 8.938, 10.683, 8.838입니다. 이러한 집단 평균은 40회 관찰 결과의 전체 평균인 9.915 주변에 분포합니다. 집단 평균이 전체 평균에 가깝게 밀집하면 분산이 낮으며, 집단 평균이 전체 평균에서 먼 곳에 흩어져 있으면 분산이 높은 것입니다.
집단 평균이 서로 떨어져 있으면 집단 평균이 서로 다르다는 사실을 입증하는 데 도움이 됩니다. 즉, 평균 간 변동성이 높아야 합니다.
각 분석에 집단이 4개씩 포함된 일원 분산 분석 2개를 수행하는 경우를 가정해보겠습니다. 아래 그래프는 평균의 산포를 나타냅니다. 각 점은 집단 전체의 평균을 나타냅니다. 점들이 서로 떨어져 있을수록 F-통계량의 분자의 분산 값이 높아집니다.
플라스틱 강도 예시의 표본 평균 간 분산을 측정하려면 어떤 값을 사용해야 할까요? 일원 분산 분석 결과에서는 수정된 평균 제곱(Adj MS = 14.540)을 요인으로 사용해보겠습니다. 이 숫자는 편차 제곱의 합계를 요인 DF로 나눈 값으로, 해석할 수 없으므로 굳이 해석하지 않아도 됩니다. 집단 평균이 멀리 떨어져 있을수록 이 숫자가 커진다는 사실만 기억하세요.
각 표본 내 변동성의 추정치도 필요합니다. 이 분산을 계산하려면 각각의 관측치가 40개 관측치 집단 평균에서 얼마나 떨어져 있는지도 계산해야 합니다. 이는 집단 평균의 각 관측치에서 도출된 편차 제곱의 합계를 오차 DF로 나눈 것입니다.
각 집단의 관찰 결과가 집단 평균에 가까우면 표준 내 분산도 낮습니다. 반면, 각 집단의 관찰 결과가 집단 평균에서 멀리 떨어져 있으면 표준 내 분산 또한 높습니다.
그래프의 왼쪽 패널은 표준의 분산이 낮은 경우를, 오른쪽 패널은 표준의 분산이 높은 경우를 나타냅니다. 관찰 결과가 집단 평균에서 멀리 분산되어 있을수록 F-통계량의 분모 값도 높습니다.
평균이 서로 다르다는 것을 보여주려면 집단 내 분산이 낮은 것이 좋습니다. 집단 내 분산은 평균 간 차이를 모호하게 합니다.
이 일원 분산 분석 예시에서 표본 내 분산으로 사용할 값은 오차에 대한 Adj MS(4.402)입니다. 이는 요인으로 설명되지 않는 변동성이기 때문에 '오류'로 간주됩니다.
F-통계량은 F-검정용 검정 통계량입니다. 일반적으로 F-통계량은 귀무 가설 하에 대략 동일할 것으로 예상되는 두 수량의 비율입니다. 이 경우 F-통계량은 약 1로 나타납니다.
F-통계량은 앞서 언급한 2가지 변동성 측정방법을 모두 포함합니다. 이러한 측정방법이 어떻게 함께 작용하여 낮거나 높은 F-값을 도출하는지 알아보겠습니다. 아래의 그래프에서 집단 평균의 산포 너비를 각 집단 내 산포 너비와 비교해 보세요.
낮은 F-값 그래프는 집단 평균이 각 집단 내 변동성에 비해 밀집한(변동성이 낮은) 경우를 나타냅니다. 높은 F-값 그래프는 집단 평균의 변동성이 집단 내 변동성에 비해 큰 경우를 나타냅니다. 집단 평균이 동일하다는 귀무 가설을 기각하려면 F-값이 높아야 합니다.
우리의 플라스틱 강도 예시에서는 요인 Adj MS를 분자(14.540)로, 오차 Adj MS를 분모(4.402)로 사용하겠습니다. 그 결과, F-값이 3.30으로 계산되었습니다.
F-값이 충분히 높을까요? F-값만으로는 해석이 어려우며, 해석을 위해서는 F-값을 더 광범위한 맥락에 놓고 보아야 합니다. 이를 위해 F-분포를 이용하여 확률을 계산해보도록 하겠습니다.
일원 분산 분석의 경우, 귀무 가설이 참이면 집단 간 변동성과 집단 내 변동성의 비율이 F-분포를 따릅니다.
단일 연구용으로 일원 분산 분석을 실시하면 단일 F-값이 도출됩니다. 단, 같은 집단에서 같은 크기의 무작위 표본을 여러 개 추출하여 동일한 일원 분산 분석을 실시하면 그 결과로 도출된 여러 F-값의 분포를 그릴 수 있습니다. 이러한 분포 유형을 표본 추출 분포라고 합니다.
F-분포의 가정은 귀무 가설이 참이라는 것이므로, 우리 연구의 F-값을 F-분포로 사용하여 귀무 가설이 참인 경우 결과가 얼마나 일치하는지 확인하고 확률을 계산할 수 있습니다.
계산할 확률은 본 연구에서 도출된 값 만큼 높은 F-값이 관찰될 확률입니다. 이 확률을 통해 귀무 가설이 참이라는 가정하에서 F-값이 얼마나 흔한지 또는 얼마나 희귀한지 확인할 수 있습니다. 확률이 일정 수준 이하라면 데이터가 귀무 가설에 부합하지 않는다는 결론을 내릴 수 있습니다. 표본 데이터의 증거는 전체 집단에 대해 귀무 가설을 기각할 수 있을 정도로 강력합니다.
지금 계산하려는 확률은 P값이라고도 합니다!
Minitab의 확률 분포도를 사용하여 플라스틱 강도 예시의 F-분포를 그려보도록 하겠습니다. 이 설계와 표본 크기에 적합한 F-분포를 그래프로 나타내려면 올바른 DF 수치를 지정해야 합니다. 일원 분산 분석 결과에서 분자의 DF는 3개이며 분모의 DF는 36개임을 알 수 있습니다.
이 그래프는 귀무 가설이 참인 경우 연구를 여러 번 반복했을 때 도출되는 F-값의 분포를 나타냅니다. 음영 영역은 본 연구에서 도출된 F-값 이상의 F-값이 관찰될 확률을 나타냅니다. 귀무 가설이 참인 경우 F-값이 이 음영 영역의 범위에 해당할 확률은 3.1%입니다. 이 확률은 일반적인 유의 수준(0.05)에 의거하여 귀무 가설을 기각할 수 있을 만큼 낮습니다. 따라서 모든 집단 평균이 동일하지 않다는 결론을 내릴 수 있습니다.
분산 분석에서는 F-검정을 사용하여 집단 평균 간 변동성이 집단 내 관찰 결과의 변동성보다 큰지 파악합니다. 이 비율이 일정 수준 이상이라면 모든 평균이 동일하지 않다는 결론을 내릴 수 있습니다.
여기서 평균에 대한 판단을 내리기 위해 변동을 분석하는 이유를 다시 돌아볼 필요가 있는데요. "집단 평균이 서로 다른가?" 라는 질문에 대해 생각해보세요. 이 질문에는 평균의 변동성에 대한 질문이 내포되어 있습니다. 집단 평균이 다르지 않거나 무작위 확률보다 수준 이상으로 다르지 않다면 평균이 서로 다르다고 할 수 없으며, 분산 분석을 통해 평균을 검정하는 이유도 이 때문입니다.