对于数据,需要了解的最重要事项之一是哪些值是常见的,哪些值是罕见的。最常见的数据汇总之一是算术均值,我们通常称之为均值。您可能习惯于听到平均降雨量、平均交付时间或平均燃料价格。然而,有时均值无法很好地表达常见数值。这是在直方图中绘制数据的绝佳机会。
考虑一下 2021 年法国大奖赛上 44 号车手的单圈时间,从最快到最慢排序(来自 FastF1 python 库)。
我们可以看到,大多数圈速在 90 到 92 秒之间,这是最常见的数值。数据集的均值约为 109 秒,不接近数据集中的任何值,无论是快还是慢。对于这样的数据,均值不是了解数据常见值的好方法。由于知道均值何时表示数据中的常见数值很有用,因此了解一些能够快速帮助您确定均值是否表示常见数值的工具很有用。
了解 Minitab 强大的工具套件如何帮助您评估过程质量:
查看常见数值的快速方法是使用直方图绘制数据。直方图将样本值划分为多个区间,并用条形表示每个区间内数据值出现的频率。下面是单圈时间的直方图:
当直方图中显示常见数值和最极端数值的最高柱之间存在差距时,则均值通常不能很好地代表常见数值。
当大多数值接近平均值,而在任何一个方向上远离平均值的值越来越少时,直方图显示钟形。当直方图呈钟形时,均值很好地描述了常见数值。
下面的直方图显示 2022 年上半年美国健康婴儿的出生体重样本(来自国家经济研究局)。大多数婴儿的体重都接近 3,300 克常见值。在每个方向上,离均值更远的重量越来越少。
数据的另一个常见形状是大多数数据是典型的,但某些数据可能要大得多。我们将此形状称为“右偏斜”。具有下边界但没有上边界的变量,如收入和强度,通常遵循右偏斜分布。对于右偏斜数据,均值通常远离直方图中最高的柱,使均值不能很好地反映常见数值。我们通常会使用另一种统计数据,如中位数,来显示右偏斜数据的常见数值。
下面的直方图显示美国新抵押贷款持有人的收入样本(来自 FHFA.gov)。中位数比平均值更能代表数据集中的常见数值。
当我们考虑哪些数据是常见的时,我们会想到直方图中的高柱。实践中常见的需求是估计符合客户规格的产品数量。超出规格的产品很少见,这需要了解远离常见值的值。
当我们想要使用相对较小的数据样本来描述罕见数值时,数据的形状至关重要。如果我们只想进行几十次测量,我们不一定会看到样本中出现少于 1% 的数据,但从我们这里购买数千种产品的客户会看到。在这种情况下,我们将使用数据的形状作为模型,以便推断罕见数据是什么样的。
假设我们在宣布一批货物可以发货之前,测量一个小阀门的长度。为了尽可能地满足公差,我们把阀门制造得大一点,然后尽可能精确地修整它们。太短的阀门在修整之前被丢弃,因此在检查要发货的批次时,我们从来就没有任何需要测量的短阀门。该过程产生右偏斜数据。
如果我们使用钟形为这些数据建模,我们将估计拥有更多比现实生活中的阀门要短得多的阀门。如果我们在这些右偏斜数据的直方图上叠加一条钟形曲线,您可以看到柱状图左边的空白区域,这表明曲线与数据不匹配。
如果我们添加右偏斜曲线,即使是相对较小的样本,曲线也能让我们更好地了解数据中罕见值的情况。
使用相对较小的样本来估计在更大的总体中会发生什么是质量统计的常见应用。使用直方图来了解数据的形状,可以快速确定均值是否很好地表示数据中的常见数值。