修剪决策树,造出好纸张:Minitab 中的预测分析和根本原因分析 | Trimming Decision Trees to Make Paper: Predictive Analytics and Root Cause Analysis in Minitab

Cheryl Pammer | 07 一月, 2022

主题: Lean Six Sigma, Regression Analysis, Machine Learning, Predictive Analytics, DMAIC, CART, classification trees, Minitab Statistical Software

我们从过程中收集的观测数据越来越多,因此,我们可能需要新工具才能够获得有意义的见解。您可以添加现代机器学习技术和传统统计工具来分析、改进及掌控各个过程。我们查看一个示例,该示例从二元逻辑回归开始,并以分类和回归树 (CART®) 结束。

立即观看:利用最新版 Minitab 不断充实数据专业知识


 

blog-trimming-decision-trees-1-pie-chart

找出纸浆漂白过程中过量变异的根本原因

在我们的示例中,我们了解到产品缺陷率为 2.9%。为开始研究造纸过程中发生不可接受缺陷率的根本原因,您可以使用 Minitab 中的二元逻辑回归,其中响应变量为“观测值是否为缺陷”。遗憾的是,对于该数据,下方残差图中所示的杂乱模式表明,二元逻辑回归模型可能不足以满足分析要求。

 

blog-trimming-decision-trees-2-deviance-residual-plots-pulp-defects

CART 方法

CART 是一种决策树算法,它会创建一组“是/否”规则,然后利用这些规则并基于预测变量 (X) 设置将响应 (Y) 变量分裂到多个分区。通过使用 Minitab 中的 CART 功能,可以看到,其中一个预测变量,即“排水 pH”是导致出现缺陷的主要因素。

blog-trimming-decision-trees-3-zoom-cart

若排水 pH <= 7.739,则估计出现缺陷的概率相对较高 (17.7%)。若排水 pH > 7.739,则很少出现缺陷。

 

延伸阅读:
使用 CART 来分析调查数据,进行深入研究

下方的 Minitab 图解释了此规则的工作原理。CART 模型会找出可将 Response = Pass 组与 Response = Fail 组分离的最佳变量和设置。在这个案例中,最佳变量和设置是数值为 7.739 的排水 pH

blog-trimming-decision-trees-4-graph-proving-cart-model

 

我可以继续扩展 CART 树,从而找出更多会导致此过程出现缺陷的设置组合。将问题范围缩小到关键的几个 X 之后,我就可以实施控制以降低缺陷概率。在这个案例中,完整的 CART 分类模型可确定会导致高缺陷率的排水 pH 与生产率的特定组合,如下图所示。

blog-trimming-decision-trees-5-specific-combinations-graph

 

准备好亲身体验?

开始免费试用