使用 Minitab 回归进行预测分析 – 第二部分 | Predictive Analytics using Minitab's Regression – Part II

Dennis Corbin | 18 November, 2022

主题: Regression Analysis, Articles, Minitab Statistical Software

回归的目的是进行准确预测。模型中的项(线性、交互、二次)和用于计算模型的样本数据是影响模型可预测性的两大因素。项过多的模型通常会过度拟合样本数据,但会导致对新数据值的预测不佳。

Minitab Statistical Software 中可以使用回归分析,来:

  • 构建、验证和可视化预测模型(第一部分)。

  • 验证模型的预测能力。

  • 自动化分析和模型选择。

  • 预测新结果并优化参数。

前文中,我们讨论了如何快速构建、验证和可视化预测模型。现在,我们将深入了解验证模型的预测能力、自动化分析和模型选择以及预测新结果的更高级功能。

验证 MINITAB STATISTICAL SOFTWARE 预测模型的能力

下图显示了一个过度拟合的模型。在添加来自同一过程的新数据时,该模型在预测新测量值方面表现不佳。如果使用线性模型来拟合原始数据,则可以做出更准确的预测。验证用于防止构建可预测性较低的模型。

predictive-analytics-regression-pt-2-model-fitted-new-data

验证过程分为两步,首先根据一组数据(训练集)构建模型。然后使用该模型对模型构建中省略的一组数据(测试集)进行预测。有三类验证技术:逐一剔除法、K 折叠和使用测试集验证。

使用验证时,分析师需要了解报告的模型及对应的 R2值。R2值用于了解模型在样本数据中解释了多少变异以及准确预测新值的能力。R2R2值越高越理想。如果过度拟合是潜在问题,则测试集和训练集之间的 R2值会存在较大差异。

逐一剔除法验证

验证过程省略一个数据点,作为测试集。剩余的 n-1 个观测值用于计算训练模型。然后使用该模型计算删除数据点的预测误差。每次观察都会重复此过程。预测误差用于生成预测 R2请注意,预测 R2是所有回归模型的标准输出。 

回归中的 K 折叠验证

在 K 折叠验证中,将数据随机分配到 K 个大小相同的组中,通常 K=10。删除第一组,作为测试集,并以剩余的组作为训练集来构建模型。使用训练模型对忽略组进行预测,来计算预测误差。将针对各组重复此过程,并计算复合 K 折叠 R2

使用测试集验证

在使用测试集验证方法时,将随机数据子集分配为测试集,例如 30%,剩余的训练集 (70%) 用于计算预测模型。使用测试集对该模型进行验证,以计算测试 R2

predictive-analytics-regression-pt-2-leave-one-out-k-fold-test

比较验证技术

K 折叠验证更适用于中等大小的样本,而使用测试集方法的验证则是大型数据集的理想之选。需要注意的是,逐一剔除法和 K 折叠验证技术仅验证模型的形式,而不能像使用测试集方法那样验证精确的模型系数。

自动化分析和模型选择。

回归模型选择通常是一个手动流程。但数据集不仅增加了观测值个数,还测量了更多变量。必须手动删除项可能让人望而生畏。

模型选择可以自动化。三种常见程序如下:

  • 项 p 值的 Alpha 标准:逐步,使用“前进法”和“后退法”选择一个模型,该模型中的项在阈值 alpha 中具有显著意义。 

  • 模型拟合的信息标准AICc BIC 前进法将选择可最小化所选信息标准的模型。 

  • 模型预测拟合的 R 平方值K 折叠或使用测试集进行验证前进法将选择具有最高测试 R2值的模型。

验证方法往往会导致不同的结果;因此,最好结合行业知识,找到最实用、最具影响力的解决方案。

预测新结果并优化参数

回归分析是一个强大的工具,一旦选择了“最佳”模型,就可以用其进行预测。以制造工厂的洁净室为例。重要的是了解几个预测变量对每立方英尺超过 100 个 0.5μ 或更大尺寸的粒子计数的影响。工艺工程师构建粒子计数预测模型:
predictive-analytics-regression-pt-2-regression-equation-output

该模型用于预测在有 7 名员工和 24 个洁净室入口/出口的情况下,完成 1000 生产量:

predictive-analytics-regression-pt-2-prediction-output

每立方英尺超过 100 个 0.5μ 或更大尺寸的预测平均粒子计数为 87.63。置信区间和预测区间说明了预测中的潜在误差。
MINITAB 让回归变得简单

Minitab 的易用性使分析师能够使用所有现代工具进行回归。如果您尚未利用 Minitab 的强大功能从数据中获取最大价值,请立即下载功能完备的 Minitab Statistical Software 30 天免费试用版