지금 우리는 10월 야구의 한가운데에 있으며, 남은 MLB 팀들이 월드 시리즈에 진출하기 위해 치열한 경쟁을 벌이고 있습니다. 이때는 야구 팬들에게 즐거운 시간인 동시에 통계 마니아에게도 매우 신나는 시기입니다. 야구 데이터를 분석하기에 이보다 더 좋은 때는 없으니까요! 이 블로그에서는 Minitab Statistical Software 에서 쉽게 이용할 수 있으며 서로 밀접하게 관련된 두 가지 분석 방법인 분산분석(ANOVA)과 평균분석(ANOM)을 구분해서 살펴보고자 합니다. 저는 "어느 야구장이 타자에게 더 좋고 어느 야구장이 투수에게 더 좋은가?"에 대한 답변으로 이 두 가지 분석 방법의 차이를 설명하려고 합니다.
제 데이터는 ESPN의 MLB Park Factors에서 가져왔으며, 기간 범위는 2001년부터 현재까지입니다. 먼저 이 분석에 대한 몇 가지 유의 사항을 알려드리겠습니다.
자세히 알아보기 전에 다음 사항에 유의해야 합니다. ANOVA 및 ANOM은 모집단에서 랜덤 표본 추출을 사용하여 표본 결과를 더 큰 모집단으로 일반화하는 분석 방법입니다. 연도별 데이터가 랜덤 표본을 나타낸다고 가정하는 것은 아니기 때문에, 이 분석을 너무 진지한 추론으로 받아들이지는 마세요. 하지만 해당 결과는 두 개의 다른 분석이 대답할 수 있는 질문의 차이를 보여 주는 데는 유용합니다.
ANOVA 분석의 귀무 가설은 비교 그룹의 평균이 모두 서로 같다는 것입니다. ANOVA 분석에는 종종 다중 비교가 포함됩니다. 다중 비교는 그룹 평균 간의 차이를 확인하여 통계적으로 어떤 평균이 얼마나 다른지 파악합니다.
ANOM 분석의 귀무 가설은 모든 그룹 평균이 모든 데이터의 평균과 같다는 것입니다. ANOM 분석의 귀무 가설이 참이면 ANOVA의 귀무 가설도 참입니다. 분석 목표에서 차이가 발견되면 귀무 가설은 기각됩니다.
첫 번째 분석을 위해 일원 분산 분석 검정을 사용하겠습니다. 관심 있는 특정 비교를 선택하여 이러한 유형의 분석에 대해 더 자세히 알아볼 수 있습니다. 여기에서는 모든 야구장을 득점이 가장 낮은 야구장인 펫코 파크(Petco Park)와 비교합니다.
그럼 어떻게 비교하는지 살펴볼까요? 다음은 제가 분석한 데이터 세트가 포함된 Minitab 20.4 프로젝트입니다. 이 데이터 세트는 야구장 이름 앞에 야구장 요인 순위가 추가되었다는 점에서 특별합니다. 즉 Minitab이 결과에서 야구장 이름을 알파벳순으로 정렬하면 야구장 요인이 가장 작은 야구장에서 가장 큰 야구장순으로 정렬됩니다.
위의 결과는 어느 야구장이 펫코 파크보다 타자에게 유리한지 보여 줍니다. 이 목록에는 19개의 야구장이 포함되어 있으며, 그 중에서 덴버의 쿠어스 필드가 대표적입니다. 덴버의 고도는 타자에게 유리한 환경을 제공하는 것으로 잘 알려져 있습니다.
이러한 ANOVA 정보는 매우 유용합니다. 이제 우리는 펫코 파크보다 타자에게 더 유리한 야구장과 펫코 파크와 구분이 어려운 야구장을 확인할 수 있습니다. 다른 세트의 다중 비교를 수행하면 모든 야구장을 다른 모든 야구장과 비교하거나, 모든 야구장을 하나의 특정 야구장과 비교할 수 있습니다. 그룹 간의 차이가 주요 핵심입니다. ANOM을 사용하면 다른 질문에 대답할 수 있습니다. 야구장을 타자에게 유리한 야구장, 타자와 투수 모두에게 유리한 야구장, 투수에게 유리한 야구장으로 분류하려면 어떻게 해야 할까요?
그래프의 점은 평균 야구장 요인입니다. 중앙선은 전체 평균을 나타냅니다. 바깥쪽 선은 전체 평균과 다른 야구장을 표시하는 결정 한계입니다.
ANOM은 평균이 서로 같은지 검정하는 것이 아니라, 평균이 전체 평균과 같은지 검정한다는 점을 기억하세요. Minitab은 결과를 이해하기 쉽도록 그래프를 생성합니다. 동일한 데이터 세트로 다음 단계를 진행하여 결과를 얻을 수 있습니다.
이 데이터에 포함된 투수에게 유리한 7개 야구장: | 그리고 타자에게 유리한 4개 야구장: |
|
|
올바른 의사 결정의 핵심은 각 사례에 적합한 질문에 대답하는 분석을 사용하는 것입니다. ANOVA와 ANOM의 차이점에 유의하세요.
ANOVA 분석에서는 다음의 두 가지 범주가 있습니다.
ANOM 분석에서는 다음의 세 가지 범주가 있습니다.
분류에도 차이가 있다는 점에 유의하세요. ANOVA 분석에서 부시 스타디움은 펫코 파크와 구분할 수 없기 때문에 투수에게 유리한 야구장으로 생각하는 경향이 있습니다. ANOM 분석에서 부시 스타디움은 전체 평균과 구분할 수 없기 때문에 득점 측면에서 중립적인 야구장으로 생각할 수 있습니다. ANOVA 분석에서는 19개의 야구장이 펫코 파크보다 타자에게 더 유리한 것으로 나타났습니다. ANOM 분석에서는 4개의 야구장이 전체 평균보다 타자에게 더 유리한 것으로 나타났습니다.
살렌 필드의 ANOM 분석 사례는 흥미롭습니다. 살렌 필드의 평균을 보면 타자에게 유리한 야구장으로 보이지만, 통계적으로는 타자에게 유리한 야구장으로 분류되지 않습니다. 토론토 블루제이스 팀은 단 두 시즌 동안 이 야구장에서 경기를 치렀습니다. 이러한 데이터가 랜덤 표본이라면 데이터의 변동이 너무 크고 표본이 너무 작아서 살렌 필드가 항상 타자에게 유리한 야구장이라는 통계적 근거를 제공할 수 없습니다. 평균과 그룹 내 변공 간의 관계는 데이터의 변동을 고려하는 통계 분석을 사용할 때 얻을 수 있는 중요한 이점입니다.
ANOVA 및 ANOM 같은 통계 분석은 데이터(이 경우 야구장)를 기반으로 더 나은 결정을 내리는 데 필요한 통찰력을 제공합니다. 다양한 방식으로 그룹 비교 결과를 활용하여 여러분의 삶과 모든 산업의 거의 모든 직무에서 더 나은 의사 결정을 내릴 수 있습니다. 그룹 비교의 다른 결과를 확인하려면 Riverview Hospital Association이 특정 환자 그룹을 식별한 방법을 살펴보세요. 이 환자 그룹은 다른 환자 그룹보다 만족도 점수가 낮았으며, 이러한 식별 작업을 통해 개선 프로세스를 올바르게 지시할 수 있었습니다.