太多还是不足:样本数量和统计分析 | Too Much or Not Enough: Sample Sizes and Statistical Analysis

Dennis Corbin | 25 十一月, 2022

主题: Articles, Minitab Statistical Software

进行统计分析最实际的理由是,只收集一小部分数据,而不是整个总体。灵活收集采样数据可节省时间和资金,但灵活性的代价是决策出现错误。

  • I 类错误 - 假阳性 - 生产商风险
  • II 类错误 - 假阴性 - 消费者风险

这些错误给分析师带来的影响不同,可能会因分析中所用样本数量而被放大。这篇博客文章将探讨这些错误以及样本数量如何影响结论。

功效和样本数量

人们想知道采样时始终适用的一个数。他们通常会引用的样本数量是 30,因为公司同事曾无意中发现中心极限定理,然而这个数字并不总是正确的。

在统计学中,我们使用功效概念来确定样本数量可检测实际差值的概率。功效当然是越高越好,功效的良好目标值介于 80% 到 90% 之间。功效可理解为检验的真阳率或是发现火情的火警报警器。

Minitab Statistical Software 中,使用“统计 > 功效和样本数量”菜单来评估您所执行的特定检验,从而确保样本数量正确。

II 类错误和数据不足

II 类错误指的是缺失临界差值的错误。这类错误也称为假阴率、消费者风险,也可将其视为无法发现火情的火警警报器。如果 p 值高于 0.05,那么您应当关注存在假阴值的可能性。

人们普遍认为,II 类错误的后果更严重。对于研发工作而言,这类错误可能导致错失一个优化或改进过程的机会。对于制造来说,这类错误可能导致将不良部件发给客户。

在这个模拟中,产生的是偏离目标 1 西格玛单位差值的中等偏移。下方是 1 西格玛偏移过程和目标值的分布图。

too-much-not-enough-population-distribution

在这个示例中,从整个总体抽取 100 个数量为 5 的样本,来确定他们能否检测出 1 西格玛偏移。在这个示例中,用数量为 5 的样本来检测 1 西格玛偏移的功效是 40%。这意味着,从所拥有的 100 个样本中,我们预计应该有 40 个左右能检测出差值。在下方的模拟中,样本中有 44 个由于未捕获目标,因此能够检测出偏移。

Interval Plots of Small Sample Sizes

但是,这个样本数量较小,因此无法检测过程中偏移的可能性为 60%。我们确定过程不好的可能性低于 50%。如此低几率的情况下,我们可能无法发现过程需要修复。此外,在现实世界中,您只会执行 1 次模拟,而不是 100 次。

在样本数量比较小的情况下,假阴率增加会给人一种自满的感觉,导致对过程不做任何改进。为抵消样本数量比较小时假阴率较高的可能性,最好使用控制图持续监控这些过程,或是尽量增加样本数量。

I 类错误和太多数据

I 类错误指的是检测可忽略不计之差值的错误。这类错误也称为假阳率、生产商风险,也可以将其视为火警报警器在没火情时关闭。如果 p 值低于 0.05,那么您应当关注存在假阳值的可能性。

下方示例是过程偏移 0.15 西格玛单位,这个可视为较小、可忽略不计的差值,且这个示例中,不必执行过程改进。

Population Distribution

在这个 0.15 西格玛偏移的过程中,会随机对 100 个 1,000 单位的样本进行采样。系统会对这 100 个样本逐一检验以查看是否偏离目标。在这个示例中,这个检验检测 0.15 西格玛单位较小偏移的功效是 99.7%。下方图形是 100 个样本的 95% 置信区间。在这 100 个区间中,99 个未捕获表明过程偏离目标的零。

Interval Plot of Large Sample Sizes

如果分析师只关注 p 值,他们可能会开始实施更改或“改进”。如果分析师看到偏移只有 0.15 西格玛单位,他们就会意识到这实际上是误报。

但是那么小的偏移是否值得投入资源以依照目标来重定位过程?答案就是,要综合考虑成本、产品规格限或是响应变量的临界值大小。

为利用较大样本数量执行强大的分析,用户应当考虑机器学习技术,例如 CART 分类树CART 回归树,用户还应当参照规格限或其他预定义限制,对数据进行比较。

太多还是不足:样本数量和统计分析

统计学让人们能够以更低成本、更轻松地作出准确的商业决策,但分析中所用样本数量会极大影响这些决策。如果数据不足,极有可能出现假阴性值。如果数据过多,假阳性值又会带来不少麻烦。强大的历史知识、良好的数据收集过程以及对统计分析的全面了解会让作出的每一个决策坚实有力。