Minitab博客

为什么机器学习在过程制造中很重要

Written by Adam Russell & Brittany Clinton | 2026-1-15 9:30:00

随着过程制造变得更加自动化和数字化集成,过程数据的数量和复杂性也呈爆炸式增长。传感器实时记录数千个变量。跨班次、批次和机器跟踪指标。传统统计方法虽然仍然有价值,但有时在处理这些数据的规模、混乱和细微差别时却显得不足。

这是机器学习(ML)介入的地方,Minitab 的预测分析 可以为您提供支持。简而言之,机器学习使制造商能够以前所未有的方式发现模式、预测结果并优化性能。与经典回归不同,机器学习不需要对数据结构进行严格的假设。它直接从实际示例中学习——处理多共线性、滞后效应、非线性行为等。

在经典建模中,目的是定义输入变量(X)和输出变量(Y)之间的数学关系。但是在许多过程中,底层函数过于复杂或未知。机器学习不会尝试猜测公式。它直接从数据中学习模式,使用事后示例构建模型,在给定新 X 值时预测 Y。这使得它成为制造环境的理想选择,在这些环境中,过程复杂,变量交互作用难以定义。机器学习无需人工预先指定规则即可学习。

Minitab 的预测分析套件 能够有效应对以下六种常见的数据分析陷阱。我们仍然鼓励黑带和黑带大师级别的所有从业者在使用机器学习之前完全熟悉多元回归技术。我们的目标是助力从业者从大量潜在输入变量中,萃取出少数关键因子供后续深入研究——这一过程可通过 Minitab 全面支持的实验设计(DOE)方法高效实现。

什么是预测分析? 想要了解更多内容。 

 

六个陷阱

陷阱 #1:脏数据

历史数据可能会被极端值、异常值和缺失值污染。这些问题在估计可靠的回归方程系数时出现问题。

  • 极端值 – 单个值 X i 可能远离其他数据;如果是这种情况,X i 可能会对回归估计施加高杠杆作用。
  • 异常值 – X i 可能与其他 X 值相差不远,但假设残差呈正态分布且总体均值 = 0,则模型的残差(实际值 - 预测值)可能较大且大于 3 个标准差。
  • 缺失值 – 在逐步回归与最佳子集回归中,若任一选定的预测变量(X)在数据行中存在缺失值,则对应整行数据将被排除。

陷阱 #2:大数据

数据的大小与行数和列数相关。

  • 如果预测变量(p)的数量相对于观测值(n)的数量较大,则对于经典回归来说,这变得非常复杂,甚至是计算上不可能的。
  • 在经典回归中,n 必须大于 p 才能估计模型误差(s)并计算每个预测变量的 P 值。在没有估计模型误差(s)的情况下,没有 r 平方值。
  • 如果没有 r 平方和残差,我们就无法知道回归方程是否很好地对数据建模。

陷阱 #3:多共线性

当输入(X)相互相关(依赖)时。两个预测变量之间的相关系数大于 0.5 是有问题的迹象。

  • 经典回归会话窗口提供有关多共线性的信息。
  • 方差膨胀因子(VIF)– 测量如果预测变量相关,估计回归系数的方差增加多少。VIF = 1 / (1 – r2)。如果 VIF > 5,这可能是模型的严重问题。
  • R 平方和 R 平方(调整后)– 在经典回归模型中添加相关预测变量会导致这些值出现差异。R 平方(调整后)惩罚建模器包括与模型中已存在的其他预测变量相关的预测变量。

陷阱 #4:交互作用

当一个预测变量(X1)的影响取决于第二个独立预测变量(X2)的设置时。

  • 交互作用增加模型项 – 在数学上,交互作用的数量随着预测变量的数量呈指数增长。交互作用可以是双因子、三因子、四因子等。实际上,双向交互作用很频繁,但高阶交互作用很少见。
  • 全局交互作用与局部交互作用 – 经典回归强制交互作用为全局交互作用;如果发现交互作用显著,则必须在预测变量空间的所有维度上均等地发生。局部交互作用可能发生在工业场景中,但很难用经典回归进行建模。

陷阱 #5:非线性

经典回归在设计上是“线性”的。常见的线性回归表达式为 Y = mx + b。此基本公式可以扩展到其他类型的线性方程。例如,X2 是线性函数。但是,2X 不是线性函数。要使函数呈线性,必须在指数中呈线性。

非线性函数不能用简单回归、逐步回归或最佳子集回归建模。如果预期是非线性,用户必须提供基础非线性关系或从多个替代方案中进行选择。

机器学习假定所有 X-Y 关系都是非线性的。此假设意味着,即使是线性函数也可以用 ML 算法以直接的方式建模。用户无需了解适当的非线性函数即可继续机器学习。

 

陷阱 #6:滞后效应

在连续过程制造数据分析中,分析人员必须经常创建每个预测变量(X)或将及时向前移动,以匹配预期响应(Y)。尽管经典回归也可以处理滞后效应,但机器学习模型通常能够更好地适应它们。

例如,化学过程有一个响应变量(Y)的重要预测变量(X)。过程的标称停留时间为 4 小时。如果操作员对 X 进行更改,响应变量(Y)在 X 更改后 4 小时发生变化。当然,这个简单示例会做出一些大假设。有时,插塞流过程会偏离理想状态,反混会影响其行为。有时,X 变化的效应随时间扩散,而不是立即反映在 Y 的响应中。在这些情况下,需要评估预测变量(X)的多个时间偏移。

 

从陷阱到转型

传统方法仍然很有价值,但它们并不总是针对现代过程制造数据的规模和复杂性而构建的。Minitab 预测分析中的机器学习通过自动处理非线性、滞后效应和混乱的真实变量来帮助克服这些挑战。有了它,您不仅能分析数据,更能预测结果、防止故障并自信地优化性能。

准备好将您的数据转化为决策了吗? 立即联系 Minitab。