在目前已可供点播的在线研讨会中,我分享了 Minitab Statistical Software 中分类和回归树 (CART) 的技巧。我们探索 CART 结果,设置特定数据条件的惩罚,还讨论处理结果的最佳实践。今天我想让大家体会一下预期性能。
CART 提示和技巧点播在线研讨会
分类和回归树 (CART) 是什么?
CART 是以递归分割为基础的建模技术,可用于预测连续响应和类别响应。这些预测模型不仅提供自动变量选择,还可通过 Minitab 轻松完成构造。最重要的是,这个模型能以决策树形式实现可视化,便于解释。处理大型观测数据集或存在复杂非线性关系时,CART 可作为线性或 Logistic 回归的备择,发挥积极作用。
提示 1:使用节点分裂视图获得对决策树的总体了解
较大 CART 模型的详细视图可能较难实现可视化,但所幸 Minitab 提供的选项可查看树的简化视图。只需右键单击 Minitab 中的 CART 模型并选择节点分裂视图即可。此简化视图只会显示每次划分数据时使用的预测变量。
提示 2:将 CART 预测存储在工作表中
响应变量或目标变量为连续变量时,回归树模型会预测每个终端节点的平均值。对于类别结果变量而言,预测值为每个响应水平以及预测响应水平的概率。要使用 Minitab 中的其他可视化功能以图形方式探索模型的预测,只需使用存储选项将 CART 预测值存储在工作表中。
CART 的相对变量重要性图会依重要性顺序显示预测变量。这些重要预测变量对响应的效应可使用 Minitab 的图形化选项予以可视化。在下方的示例中,分类模型中两个最重要的连续预测变量用于通过等值线图来直观表示响应事件的预测概率。
提示 3:将惩罚应用到具有大量缺失值的预测变量或具有大量唯一值的类别预测变量
与具有较少水平或没有缺失值的预测变量相比,具有许多缺失值的连续或类别预测变量,或者具有多个水平的类别预测变量,拥有一定优势。因此,这些预测变量的其中一个会“接管”树,掩盖其他预测变量的效应。为应对这些数据条件,Minitab 提供了一个选项,将惩罚应用到具有大量缺失值的预测变量或具有大量唯一值的类别预测变量。
这些惩罚可通过选项菜单中的文件 > 选项找到。惩罚可应用到分类或回归树中,且缺失值的惩罚值范围为 0 到 2,类别预测变量的惩罚值范围为 0 到 5(0 代表无惩罚,而较高的值分别表示程度最高的惩罚)。