オンデマンドでご利用いただけるようになったウェビナーで、Minitab Statistical Softwareの分類木と回帰木(CART)のコツをお知らせします。CARTの結果を探索し、特定のデータ条件にペナルティを設定し、結果に取り組むベストプラクティスについて話し合います。今日は、どんな内容かを少しお見せします。
オンデマンドCARTウェビナーのヒントとコツウェビナーを見るウェビナーを見る
分類木と回帰木(CART)とは何でしょうか?
CARTは、連続応答とカテゴリ応答の両方の予測で使用できる、再帰分割を基にしたモデリング技法です。この予測モデルは自動的な変数選択を実現し、Minitabで簡単に構築できます。また何よりも、モデルは解釈の簡単な決定木として視覚化できます。CARTは、大きな観測データセットを扱うときに、または複雑な非線形関係が存在する場合に、線形回帰またはロジスティック回帰の代替として役に立ちます。
ヒント1:ノード分岐ビューを使用して、決定木の概要を確認する
大きなCARTモデルの詳細ビューは視覚化が少し難しいこともありますが、Minitabには、木の縮約ビューを表示するオプションがあります。MinitabでCARTモデルを右クリックし、ノード分岐ビューを選択するだけです。縮約ビューには、データの各分割箇所で使用された予測変数のみが表示されます。
ヒント2:ワークシートにCART予測を保存する
応答変数または目標変数が連続である場合、回帰木モデルは各終端ノードの平均を予測します。分類的な結果変数では、予測は、各応答レベルの確率および予測された応答レベルです。Minitabの他の視覚化を使用してモデルの予測を図で探索するには、保存オプションを使用してCART予測をワークシートに保存するだけでできます。
CARTの相対変数重要度グラフには、重要な順に予測変数が表示されます。この重要な予測変数が応答に与える影響は、Minitabのグラフオプションで視覚化できます。以下の例では、分類モデルの重要度上位2つの連続予測変数を使用して、等高線プロットで応答事象の予測確率を視覚化しています。
ヒント3:欠損値の多い予測変数、または一意の値の多いカテゴリ予測変数にペナルティを適用する
欠損値の多い連続予測変数またはカテゴリ予測変数、またはレベルの多いカテゴリ予測変数は、レベルが少ないまたは欠損値がない予測変数よりも優位になる場合があります。この予測変数の1つが木を「乗っ取る」場合があり、他の予測変数の影響を覆い隠します。このデータ条件に対応するため、Minitabには、欠損値の多い予測変数、または一意の値の多いカテゴリ予測変数にペナルティを適用するオプションがあります。
ペナルティは、ファイル > オプションのオプションメニューにあります。ペナルティは分類木または回帰木の両方に適用でき、ペナルティ値の範囲は、欠損値で0~2、カテゴリ予測変数で0~5です(0はペナルティなし、高い値は最大ペナルティ)。