Minitab Statistical Software 中的预测分析模型在所有行业中都是非常有价值的资产。业务价值可以通过预测诸如客户流失率、患者住院时间、成本、风险、利润和许多其他因素等度量来产生。
在本博客中,我们将了解在银行业中的一个应用示例。对于银行来说,向错误的人提供抵押贷款,可能会付出数十万美元的错误代价。鉴于利害关系,银行在决定批准或拒绝客户的抵押贷款申请之前,了解客户并对其进行预测是极其重要的。让我们看看 Minitab 预测分析如何通过准确预测哪些客户未来可能违约,从而最大限度地减少抵押贷款违约的数量。
以下是分析所使用的一部分观测数据。这里有之前客户抵押贷款的 1645 条观察数据。“C1”列显示响应变量或目标,如果该客户拖欠抵押贷款,则该变量为“是”,否则为“否”。其他 9 列包含我们将作为潜在预测变量进行评估的特征。
以下饼图有助我们更好了解借款人拖欠抵押贷款的比率。我们看到有 10% 的抵押贷款违约。降低这一违约率,可以极大增加利润。
为了应对这一挑战,我们借助 Minitab 预测分析模块。
由于响应结果为“是”或“否”,我们将使用分类模型。如果对连续响应感兴趣,则使用基于树的回归模型。预测分析模块包含三种分类建模类型:
对于分类,评估模型拟合优度的主要指标之一是 ROC 曲线下方的区域。该指标越接近 1 越好。使用模块中的所有三个建模引擎,并比较 ROC 曲线下的各自面积值。
TreeNet 分类产生的 ROC 曲线下方面积为 0.9695。这个数值超过了其他两个建模引擎模型的 ROC 曲线下方的面积,这意味着生成的 TreeNet 分类模型是抵押贷款违约的最佳预测模型。TreeNet 梯度推进是 Minitab 最灵活、获得最多奖项、最强大的机器学习工具,能够按照统一的方式生成非常准确的模型。在这三个建模引擎中,TreeNet 往往会产生最佳预测结果。
我们首先看看作为模型输出一部分的相对变量重要性图。相对变量重要性值的范围从 0% 到 100%,最重要的变量始终是 100%。债务信用比是预测抵押贷款违约最重要的变量,其次债务收入比是第二重要的变量。九个功能中的八个在某种程度上对模型很重要。
现在我们在 Minitab 拥有了模型,就可以进行预测了。我们可以在 Minitab 中输入单个数值进行预测,如果一次进行较大量的预测是有价值的,则可以输入一列数值。
我们有个客户,他申请了 485000 美元的抵押贷款,个人数据如下所示:
我们将这些值输入预测模型,得到个人违约的概率,具体如下预测输出所示。该个人拖欠抵押贷款的概率超过 97%。一旦做出预测,那么具备行业知识的你就可以解读预测并据此采取行动。我认为,一个违约概率为 97%的个人,很可能会被拒绝抵押贷款。
我们将这些值输入预测模型,得到个人违约的概率,具体如下预测输出所示。该个人拖欠抵押贷款的概率超过 97%。一旦做出预测,那么具备行业知识的你就可以解读预测并据此采取行动。我认为,一个违约概率为 97%的个人,很可能会被拒绝抵押贷款。
当所有预测变量值都可用时进行预测一直都是最好的情况,但事实上,大多数情况下都会缺失一些预测变量值。即便发生这种情况,Minitab 的预测分析仍让我们可以轻松地进行预测。在下面的示例中,有多个缺失值。即使有缺失值,我们仍然可以对此客户拖欠抵押贷款的概率进行预测。
我们有另一潜在客户申请了 375000 美元的抵押贷款。我们没有该申请人的收入、债务收入比、地区和家属人数的数据。但我们有以下信息:
尽管缺失值,但我们仍然能够进行预测,看到该客户拖欠抵押贷款的可能性不到 1%,具体如下所示。
基于以上分析,该个人看起来是一位优质的抵押贷款候选人,因为根据预测模型,其违约概率小于 1%。这只是 Minitab 基于树的机器学习算法如何帮助您解决复杂问题并获得有价值见解的示例之一。