Minitab博客

修剪决策树,造出好纸张:Minitab 中的预测分析和根本原因分析 | Trimming Decision Trees to Make Paper: Predictive Analytics and Root Cause Analysis in Minitab

Written by Cheryl Pammer | 2022-1-7 14:59:00

我们从过程中收集的观测数据越来越多,因此,我们可能需要新工具才能够获得有意义的见解。您可以添加现代机器学习技术和传统统计工具来分析、改进及掌控各个过程。我们查看一个示例,该示例从二元逻辑回归开始,并以分类和回归树 (CART®) 结束。

立即观看:利用最新版 Minitab 不断充实数据专业知识

 

找出纸浆漂白过程中过量变异的根本原因

在我们的示例中,我们了解到产品缺陷率为 2.9%。为开始研究造纸过程中发生不可接受缺陷率的根本原因,您可以使用 Minitab 中的二元逻辑回归,其中响应变量为“观测值是否为缺陷”。遗憾的是,对于该数据,下方残差图中所示的杂乱模式表明,二元逻辑回归模型可能不足以满足分析要求。

 

CART 方法

CART 是一种决策树算法,它会创建一组“是/否”规则,然后利用这些规则并基于预测变量 (X) 设置将响应 (Y) 变量分裂到多个分区。通过使用 Minitab 中的 CART 功能,可以看到,其中一个预测变量,即“排水 pH”是导致出现缺陷的主要因素。

若排水 pH <= 7.739,则估计出现缺陷的概率相对较高 (17.7%)。若排水 pH > 7.739,则很少出现缺陷。

 

延伸阅读:

下方的 Minitab 图解释了此规则的工作原理。CART 模型会找出可将 Response = Pass 组与 Response = Fail 组分离的最佳变量和设置。在这个案例中,最佳变量和设置是数值为 7.739 的排水 pH

 

我可以继续扩展 CART 树,从而找出更多会导致此过程出现缺陷的设置组合。将问题范围缩小到关键的几个 X 之后,我就可以实施控制以降低缺陷概率。在这个案例中,完整的 CART 分类模型可确定会导致高缺陷率的排水 pH 与生产率的特定组合,如下图所示。

 

准备好亲身体验?