现在我们正处在 10 月中旬的棒球比赛中,剩余的美国职业棒球大联盟 (MLB) 球队正在为进入世界大赛而激烈角逐。 对于棒球球迷来说,这是一个激动人心的时刻,而作为一个对统计数据感到同样兴奋的人,我想不出有什么时机比现在更适合来分析一些棒球数据!在这篇博客中,我将区分 Minitab Statistical Software 能轻松地完成的两种密切相关的分析:方差分析 (ANOVA) 和均值分析 (ANOM)。我将通过回答“哪些棒球球场更适合击球手,哪些球场更适合投手”来说明这两种分析的区别。
我的数据源自 ESPN 的 MLB 球场因子,涵盖了 2001 年至今的数据。首先,让我解释一下为什么这种分析需要一些注意事项:
在我们深入研究之前,这里有一些注意事项:方差分析和均值分析是使用一个总体的随机样本,然后将样本结果广泛用于较大总体的分析。逐年的数据来代表一个随机样本是难以想象的,因此不要把本分析当作严肃的推断。但要想知道这两种不同的分析所回答的问题有哪些差异,这些结果仍然是很有用的。
方差分析的原假设是,比较组的均值都是互相相等的。方差分析通常包括多重比较。多重比较研究各组均值之间的差异,以确定哪些均值在统计上存在差异以及差异的程度。
均值分析的原假设是,所有的组均值等于所有数据的均值。如果均值分析的原假设为真,那么方差分析的原假设也为真。当我们否定原假设时,我们就会发现分析目标的差异。
球场分析#1 使用单因子方差分析
对于第一个分析,我将使用单因子方差分析检验。我们可以通过选择感兴趣的特定比较,更深入地进行这种分析。 在这里,我们将比较所有球场与得分最少的球场:佩科球场。
想要看看吗?下面是 Minitab 20.4 项目,其中包含我分析的数据集。这个数据集很特殊,因为我在球场名称前面添加了球场因子排名。这一添加意味着,当 Minitab 将结果中的球场名称按字母顺序排列时,球场是按照从最小的球场因子到最大的球场因子的顺序排列的。
上面的结果显示了哪些球场是比佩科球场更好的击球手球场。此列表包含 19 个球场,最引人注目的是丹佛的库尔斯球场。丹佛的海拔高度为击球手打造了一个很好的环境,并以此闻名。
这个方差分析信息非常有用。我们可以看到哪些球场是比佩科球场更好的击球手球场,哪些球场与佩科球场没有区别。如果我们做了不同的多组比较,我们可以将每个球场与其他球场一一比较,或者将每个球场与单一选定的球场进行比较。组之间的差异是首要关注点。通过均值分析,我们回答了一个差异问题。如果我们想把球场分为击球手球场、中立球场和投手球场,那该怎么办?
图上的点是均值球场因子。中心线表示总体均值。外线是决定限制,显示哪些球场与总体均值不同。
回顾一下,均值分析不是检验均值是否互相相等,而是检验均值是否等于总体均值。Minitab 做了一个图表,这样结果就很容易理解。您可以用同样的数据集遵循下列步骤来获得结果:
This data contains 7 pitchers’ parks: | And 4 hitters’ parks: |
|
|
利用分析来回答您应用领域的适当问题,这是做出正确决策的关键。注意方差分析和均值分析之间的区别。
在方差分析中,我们获得了两个类别:
对于均值分析,我们获得了三个类别:
请注意,在分类上也有差异。在方差分析中,布什体育场与佩科球场没有区别,所以我们倾向于认为它是一个有利于投手的球场。在均值分析中,布什体育场与总体均值没有区别,所以我们会认为它在得分方面是中立球场。在方差分析中,我们看到有 19 个球场比佩科球场更适合击球手。在均值分析中,我们看到有 4 个球场对击球手来说优于总体均值。
均值分析中的萨伦球场案例很有意思。萨伦球场的均值使它看起来像一个击球手的球场,但从统计学上看,它并没有被归类为击球手的球场。多伦多蓝鸟队仅在那里仅打了两个赛季。如果这些数据是随机样本,我们会发现,数据的变化太大,而样本太小,无法提供统计学证据来证明萨伦球场始终是一个击球手的球场。均值之间的差异和组内变化之间的这种关系是使用考虑数据变化的统计分析的一个重要好处。
像方差分析和均值分析这样的统计分析提供了我们所需要的见解,以便利用数据做出更好的决策,在本案例中,使用的是棒球球场数据。在您自己的生活中,以及几乎每个行业的每个角色中,您可以使用很多种方法,以利用比较组的结果来做出更好的决策。要了解比较组的另一个结果,请查看 Riverview 医院协会如何确定满意度评分往往比其他组低得多的特定患者组,因此协会可以正确地指引他们的改进过程。