我们从过程中收集的观测数据越来越多,因此,我们可能需要新工具才能够获得有意义的见解。您可以添加现代机器学习技术和传统统计工具来分析、改进及掌控各个过程。我们查看一个示例,该示例从二元逻辑回归开始,并以分类和回归树 (CART®) 结束。
在我们的示例中,我们了解到产品缺陷率为 2.9%。为开始研究造纸过程中发生不可接受缺陷率的根本原因,您可以使用 Minitab 中的二元逻辑回归,其中响应变量为“观测值是否为缺陷”。遗憾的是,对于该数据,下方残差图中所示的杂乱模式表明,二元逻辑回归模型可能不足以满足分析要求。
CART 是一种决策树算法,它会创建一组“是/否”规则,然后利用这些规则并基于预测变量 (X) 设置将响应 (Y) 变量分裂到多个分区。通过使用 Minitab 中的 CART 功能,可以看到,其中一个预测变量,即“排水 pH”是导致出现缺陷的主要因素。
若排水 pH <= 7.739,则估计出现缺陷的概率相对较高 (17.7%)。若排水 pH > 7.739,则很少出现缺陷。
下方的 Minitab 图解释了此规则的工作原理。CART 模型会找出可将 Response = Pass 组与 Response = Fail 组分离的最佳变量和设置。在这个案例中,最佳变量和设置是数值为 7.739 的排水 pH。
我可以继续扩展 CART 树,从而找出更多会导致此过程出现缺陷的设置组合。将问题范围缩小到关键的几个 X 之后,我就可以实施控制以降低缺陷概率。在这个案例中,完整的 CART 分类模型可确定会导致高缺陷率的排水 pH 与生产率的特定组合,如下图所示。