如果您不是程序员,那么尝试使用预测分析来确定过程失败的原因似乎让人望而生畏。
我们将向您展示实际情况不一定如此!这是我们的第二篇博客,其内容与借助 Minitab 与 R 和 Python 的集成更轻松地使用编程语言有关。在此处阅读第一个示例:创建基于 Python 的可视化。
在本博客中,我们将探讨如何在 Minitab 中使用 R 构建神经网络,以对我们自己的预测分析模块进行补充并将二者的结果进行比较。
什么是 R?
R 是一种开源编程语言,可用于执行许多与数据相关的任务,例如数据转换、建模和可视化。尽管 R 取决于用户对语法的理解能力,但是它有一系列用于数据和统计分析的库,以及多种机器学习算法。
为什么要将 R 与 Minitab 集成?
Minitab Statistical Software 是尝试减少缺陷的专业人员的首选工具。它通过易于使用的界面提供统计和预测分析。
通过与 Minitab Statistical Software 集成,可以使用功能极其强大的 R 脚本。这简化了非 R 程序员通常难以部署的过程。我们的集成允许大量用户访问 R 脚本,从而增加 R 脚本可以带来的好处。
Minitab Statistical Software 的桌面应用程序为 R 集成提供一个名为 mtbr 的定制包。在 https://support.minitab.com/en-us/minitab/21/integration/ 可以找到更多信息。
如何使用 R 编程语言在 Minitab 中构建神经网络
挑战:
Susan 的任务是找到降低过程缺陷率的方法。幸运的是,她拥有关于生产参数以及每批产品是否合格的数据。
Susan 的想法是使用预测分析来尝试弄清以下问题:
- 哪些生产参数会影响批次出现缺陷的几率?
- 这家公司需要在哪些方面维护这些参数以最大程度地减少批次不合格率?
Susan 想尝试各种预测分析模型,以找到最适合分析其数据的模型。
幸运的是,Susan 可以选择在 Minitab Statistical Software 中使用回归模型和 CART®,还可以选择预测分析附加模块中提供的 Random Forests® 和 TreeNet® 模型。
曲线球
没那么快,Susan!她的老板听说过神经网络,并想尝试使用神经网络,但 Minitab 中并不包括神经网络 – 幸运的是,通过 R 能够构建神经网络。
Susan 不是经验丰富的 R 用户,但幸运的是,她可以在 Minitab 的 R 集成中运行 R 脚本。这将提供几个优势。
Minitab 的 R 集成会将所有数据和输出内容都保留在 Minitab 中,从而简化整个分析过程。
Susan 无需在两个不同的程序上分别运行分析,而是可以在 Minitab 中运行所有分析,并轻松比较不同模型的性能和结果。
在 Minitab 中,Susan 可以将所有 Minitab 输出内容(表、图形等)轻松导出为 PowerPoint 演示文稿,供经理使用。
教程:执行分析
那么,Susan 如何使用 Minitab 的预测分析和 R 集成进行分析呢?
首先,她将数据加载到 Minitab 中。她所在的公司使用 Minitab Connect 自动从各种数据源收集生产数据,因此她可以轻松地将这些数据加载到 Minitab 中。
将数据加载到 Minitab 中后,她就可以开始分析了!首先,让我们看一下数据。
Susan 的想法是使用 C1 到 C8 列中的数据来了解批次是否合格(“缺陷”列等于 1)。她将使用 Minitab 中提供的模型。
为此,她选择了 Minitab®中的自动化机器学习。这将针对数据集使用 Minitab 的所有模型,然后选择性能最佳的模型,从而节省大量时间。
Minitab 中提供的最佳模型是 Random Forests 和 TreeNet 模型。TreeNet 模型具有最佳的误分率 (0.8% (0.008)) – 这意味着该模型对批次是否合格的预测错误率只有 0.8%。Susan 选择的是 TreeNet 模型,因为该模型比 Random Forests 提供的输出内容更有用而且更丰富。
接下来,是时候使用 Minitab 的 R 集成在 R 中拟合神经网络了。下面是一个脚本示例。
在输出过程中,我们可以对神经网络进行可视化。
左侧的输入层(节点的第一行)从每个输入变量(共八个)接收信息。每行上方是突触权重,这些权重会影响网络的下一层。有一个由两个神经元组成的隐藏层,蓝色圆圈代表与标准回归模型中的截距相对应的偏倚量,正是在这个隐藏层将发生神奇的事情!右侧的输出神经元代表缺陷变量。
将脚本另存为 R 脚本 (.R),为了在 Minitab 中执行该脚本,我们使用 RSCRIPT 命令,后跟带引号的脚本名称。
该模型的误分率为 7%,不如 TreeNet 模型准确 - 因此 Susan 决定使用 TreeNet 模型。
接下来,她使用 TreeNet 输出来了解哪些参数对导致批次出现缺陷影响最大。Minitab 模型的优势之一是提供大量补充信息(例如下面的图表)作为标准,从而更便于理解模型对您的意义。
O2、生产率、腐蚀剂和 MgSO4 对缺陷率的影响似乎都很大。为了帮助实现改进,Susan 必须了解这些参数产生影响的方式。TreeNet 输出可以帮助实现这一点。
那么,这家公司需要在哪些方面控制这些参数以最大程度地减少批次不合格率?
我们在图形上看到的值越高,批次出现缺陷的几率就越小。以上各图表明:
- O2 应保持在 20.5% 和 22% 之间
- 生产率越低,缺陷率越低
- 腐蚀剂的浓度应保持在 60% 和 70% 之间
- MgSO4 值高于 6% 可减少批次不合格率
基于此,Susan 对每个会产生影响的参数采取控制计划,以将它们控制在一个区域,从而使批次出现缺陷的几率保持在较低的良好水平。
缺陷率降低了,大家都超级开心,Susan 也升职了 🤩👌
最后,您想亲自试试这种分析方法吗?
下面的视频将引导您完成安装步骤,在 Minitab 中测试 R,然后在 Minitab 中运行神经网络 R 脚本。