如何设计、分析并解读扩展量具 R&R 研究的结果 | How to Design, Analyze and Interpret the Results of an Expanded Gage R&R Study

本文中解释了为什么标准量具 R&R 无法充分评估多种测量系统的能力，并演示了当标准研究无法满足要求时扩展量具 R&R 是全面描述测量系统特征的理想工具。

传统量具 R&R 研究的限制

如果您不信任测量系统，则您也无法信赖其产生的数据。这也是为什么测量系统分析 (MSA) 是建立、改善并维持系统质量的关键因素。无论您参与了六西格玛项目，还是 ISO-9000 认证，MSA 都能帮助您找出测量系统中的问题，并判断您是否可以信赖您的数据。

最常见的 MSA 类型为量具重复性与再现性（量具 R&R）研究。大多数量具 R&R 研究会分析您测量系统中两个因子变化的影响 - 通常是操作员和部件。它可以帮助您回答各种问题，包括：

您的测量系统是否足够灵敏？
您的测量工具是否一致？
进行测量的人是否一致？

但是，操作员和部件的影响通常不足以完整的了解测量系统。通常需要在标准研究中增加第三个变量（通常为“量具”）。

当分析中包含 3 个或更多因子时，我们将研究称为扩展量具 R&R。在下列情况中，第三个因子对于了解系统至关重要。下列为几个示例场景。

一个电气设备生产商在 3 条生产线上生产电压调节器，每一条都有自己的量具系统。当前面临的问题是废品率很高，质量经理怀疑测量系统出现了故障，但是每个量具均依据自己的标准进行了校准，并在 flying colors 中通过了其量具 R&R。经理进行了扩展量具 R&R，其中包含了三个量具以及操作员和部件。对 %公差进行了计算 — 测量系统变异性所占的公差比例为 79%。%公差大于 30% 即被视为不可接受。在生产商以同一标准进行了校准后，几乎消除了不合格产品。
加利福尼亚州的一家机器车间生产的不锈钢零件公差非常小，可用于机器人手术器械。客户要求验证其尺寸测量系统的能力。因为任何测量技术人员都可以使用几十个量具，而标准量具 R&R 无法展示其能力。他们进行的扩展量具 R&R 包括了操作员、部件和量具。总量具 R&R %公差为 3%，值非常低，因此车间能够减少 QA 样本数量，同时保持相同的质量水平。

标准和扩展量具 R&R 研究之间的 5 个主要区别是什么？

扩展研究允许评估除操作员和部件之外的额外因子，例如量具、实验室、位置等等。
该设计可以不平衡，这意味着 - 与标准研究不同 - 在扩展研究的分析中允许缺少数据点。
对额外因子与操作员和部件间的交互也可以进行评估。
该扩展研究的抽样计划将迅速增长，超过合理规模，并要求减少至少一个变量的样本数量。例如，将部件数量从 10 减少到 5 就是一个常见方法。
该研究可以包括固定或随机的因子，以增加其灵活性。在量具研究中，如果您有意选择了一定的兴趣级别 – 比如最有经验和最缺乏经验的操作员 – 则该因子是固定的。如果您随机选择了级别来代表总体，则该因子为随机。常见量具研究会在所有因子均为随机的基础上计算结果。但将固定因子视为随机因子可能导致过度或低估其重要性。

现场体验扩展量具 R&R

Minitab 已经帮助了数十家公司进行扩展量具研究，以正确评估其测量系统并改善质量 — 从 Corning,Inc., 的表面粗糙度到 AzkoNobel 的涂层厚度。我们已经了解到，仅仅在每个额外变量级别都进行单独的标准量具 R&R 很少成为回答所面临问题的有效设计。

为了帮助更多的高质量专业人士从这一强大工具中获益，让我们逐步了解如何设计、分析和解读扩展量具 R&R 研究的结果。我们将使用一个微电子行业使用的薄膜厚度测量系统来说明。

扩展量具 R&R 研究的过程和数据收集

在微电子行业中，光刻胶涂层被用于在硅晶圆上蚀刻微处理器、RAM 等集成电路。[1] 我们需要评估光刻胶涂层厚度的测量系统。该厚度会影响涂层硅晶圆的微电子性能，因此获得准确的测量值至关重要。

该数据收集计划如下（为了便于展示，仅显示了 1 个分支）：

Process-and-Data-Collection

随机选择 5 个晶圆以代表常规过程性能。
随机选择 3 个操作员。
随机选择 3 个量具。
每个操作员将使用每个量具测量每个晶圆两次。

在标准量具 R&R 计划中，我们应随机选择 10 个晶圆来代表过程性能。如果全部 3 个量具都遵循标准研究，则总样本数量将为：

（10 个部件）x（3 个操作员）x（重复 2 次）x（3 个量具）= 180 次测量

这是一个无法接受的大样本量。通过将部件（晶圆）数量从 10 减至 5，整个研究只需 90 次测量即可完成。

通常需要更改抽样计划，以将扩展量具 R&R 研究的规模缩小到可管理的水平。这是标准和扩展研究的一个重要区别。稍后，我们将展示将部件从 10 减至 5 后并未影响计算的质量。

为扩展量具 R&R 研究输入数据

Data-for-Expanded-Gage-R-and-R-Studies

正如本研究 90 行数据集的工作表所示，每个操作员都用三个量具为每个晶圆进行两次测量。每一行都有一列写明了操作员、量具、晶圆和厚度读数。尽管在标准量具 R&R 中不允许缺失数据，但扩展研究可以缺失数据，如下文第 10 行所示。

如需在 Minitab 中进行分析，请选择统计 > 质量工具 > 量具研究 > 量具 R&R 研究（扩展）。如下所示填写对话框。该分析将操作员、部件和量具作为随机因子，因为每个因子的等级（例如，每个操作员）都是从较大的总体随机抽样的。（如果我们的测量系统只有两个量具且主要目标是相互进行比较，那么我们的分析应考虑将量具作为固定因子，[2] 并且应在对话框中将其确定为固定因子。）

接着，通过单击术语...并加入所有主要效果（晶圆、操作员和量具）以及所有二阶术语 - 晶圆*操作员、晶圆*量具和操作员*量具，选择要评估的术语。通过在研究中加入“量具”，我们不仅要确定量具主效应引起的变异性，还要确定它与其他两个变量（操作员和部件）的相互作用。最后，通过单击图形…并完成如图所示的对话框来选择要评估的图形。

Gage-R-and-R-Study-Expanded Gage-R-and-R-Study-Expanded-Graphs

然后单击确定关闭对话框，Minitab 将执行分析。

解读扩展量具 R&R 研究的结果

Minitab 提供了大量数字和图形的输出结果。让我们先评估两个最重要的数据表。方差分析表（方差分析）显示哪个变异源具有显著的统计意义。在下方方差分析表中，p 值低于 .05 的因子具有显著的统计意义。

Anova-Table-with-all-terms

方差分析输出表明，部件间、量具间变异，晶圆*操作员交互作用，以及晶圆*量具交互作用具有显著的统计意义。操作员和操作员*量具交互作用的 p 值高，表明这两个变异源没有显著的统计意义，因此在试图减少测量系统变异性时无需考虑。（晶圆间变异性同样具有显著的统计意义，但是因为我们更重视测量系统，部件间的变异并非本研究的主要问题。）

评估可用于估计量具重复性的自由度数（重复测量次数的指标）的方差分析表也很重要。在此我们看到自由度为 57，远高于模拟研究中建议的 30 至 45。[3] 通常，自由度越大，估计结果越好。因此，本研究中部件数量的减少并未妨碍我们评估量具重复性对测量系统整体变异的贡献。

Gage-Evaluation

接下来，我们会检查量具评估表。汽车工业行动组织 [4] 为 %研究变异和可区分类别数设置了准则，分别为最高 30% 且类别最少为 5 个。在此我们看到，两个测量都表明此测量系统只是勉强实现了这两点。

量具评估表还显示了每个变异源的相对重要性。因量具和晶圆*量具导致的变异是整体变异中的两个最强贡献，每个约占研究变异的 15%。我们可以在下面的主效应图中看到量具对变异的贡献。量具的平均读数从 111 到 123 微米不等。

然而，这并不是全部，因为晶圆*量具交互作用也是测量系统变异的重要贡献，如下图所示。

thickness-by-gage

晶圆 3 和 5 上的三个量具的总体一致性表明，三个量具之间没有一致的偏倚。但是，量具 1 在晶圆 1 和 4 上有明显的正偏倚。即使测量系统是可接受的，确定测量晶圆 1 和 4 时量具显示偏倚的原因 — 并解决此问题 — 将减少测量系统的总体变异。

wafer-gage-interaction 最后，我们回到将部件数量从 10 个减少到 5 个的效果问题。我们的能力估计量 %研究变异和可区分类别数是部件间变异性的函数，可根据研究中的部件或历史数据计算得出。仅有 5 个部件，用户会希望使用历史标准差得到更可靠的结果。测量系统变异与根据历史数据计算的过程变异之比称为量具评估表中显示的 % 过程。% 过程的常规规格（低于 30%）与 % 研究变异相同。将部件数量减少至 10 以下时，强烈建议您输入历史标准差并重点关注 % 过程，而不是 % 研究变异。这样，研究的规模就可以缩小，而不必担心结果的质量会受到影响。在本例中，我们可以看到 % 过程和 % 研究变异几乎相等。因此，我们的结论保持不变。

扩展量具 R& R 研究得出的可操作结论

扩展量具 R&R 研究对光刻胶厚度测量的测量系统进行了全面评估。当可区分类别数 = 5 时，系统符合用于研究过程测量的最低验收标准。
因为量具和晶圆*量具交互作用对于测量变异具有最强贡献，因此确定量具间差异的原因，特别某些部件的差异，能够减少整体的测量系统变异。量具内的重复性也是一个相当大的变异源。确定使量具更具可重复性的方法也将减少系统中的变异。

结论

正如我们所见，标准量具 G&G 无法充分的评估很多测量系统的能力。当标准研究无法满足需求时，扩展量具 R&R 将成为综合表征您的测量系统的最理想工具。

References

[1] Johnson, L., and S. P. Bailey (2012), “Implementing an Expanded Gage R&R Study.” ASQ World Conference on Quality and Improvement, Anaheim, Ca.

[2] Dolezal, K. K., R. K. Burdick, and N. J. Birch (1998). “Analysis of a Two-Factor R&R Study with Fixed Operators.” Journal of Quality Technology, Vol 30, p163.

[3] Zuo, Y., (2009) “Effect of Sample Size on Variance Component Estimates in Gage R & R Studies.” Minitab Technical 技术白皮书。

[4] AIAG Measurement Systems Analysis, Reference Manual, 3rd ed. (2003). Automotive Industry Action Group, Southfield, Mich.