In einem Webinar in englischer Sprache, das nun auf Abruf verfügbar ist, stelle ich einige Tricks für Klassifikations- und Regressionsbäume (CART) in der Minitab Statistical Software vor. Ich untersuche CART-Ergebnisse, lege Strafen für bestimmte Datenbedingungen fest und erläutere bewährte Vorgehensweisen für die Arbeit mit Ihren Ergebnissen. Jetzt wollte ich Ihnen einen kleinen Vorgeschmack darauf geben.
Webinar zu Tipps und Tricks für CART auf englisch ansehen
Was sind Klassifikations- und Regressionsbäume (CART)?
CART ist ein Modellierungsverfahren auf der Grundlage einer rekursiven Partitionierung, mit dem stetige und kategoriale Antwortvariablen prognostiziert werden können. Diese prädiktiven Modelle bieten eine automatische Variablenauswahl und können in Minitab ganz einfach erstellt werden. Und das Beste: Die Modelle können als Entscheidungsbäume visualisiert und damit ganz einfach interpretiert werden. CART ist nützlich als Alternative zur linearen oder logistischen Regression für große Datensätze oder beim Arbeiten mit komplexen nichtlinearen Beziehungen.
Tipp 1: Knotenteilungsansicht als Übersicht für Ihren Entscheidungsbaum
Es kann etwas schwierig sein, die detaillierte Ansicht eines umfangreichen CART-Modells als Ganzes aufzunehmen, aber glücklicherweise bietet Minitab eine Option, mit der die Ansicht des Baums komprimiert wird. Klicken Sie einfach mit der rechten Maustaste auf Ihr CART-Modell in Minitab, und wählen Sie Knotenteilungsansicht aus. In dieser komprimierten Ansicht wird nur der Prädiktor angezeigt, der jeweils zum Partitionieren der Daten verwendet wurde.
Tipp 2: CART-Prognosen im Arbeitsblatt speichern
Wenn die Antwort- bzw. Zielvariable stetig ist, prognostiziert ein Modell für einen Regressionsbaum den Durchschnittswert in jedem Endknoten. Bei kategorialen Ergebnisvariablen besteht die Prognose aus der Wahrscheinlichkeit für jede Stufe der Antwortvariablen sowie aus der prognostizierten Stufe der Antwortvariablen. Um die Modellprognosen mit anderen Visualisierungen in Minitab grafisch zu untersuchen, können Sie die CART-Prognosen einfach mit Hilfe der Option Speichern im Arbeitsblatt speichern.
Das Diagramm der relativen Variablenwichtigkeit von CART zeigt die Prädiktoren in der Reihenfolge ihrer Wichtigkeit. Die Auswirkungen dieser wichtigen Prädiktoren auf die Antwortvariable kann dann mit den Grafikoptionen in Minitab visualisiert werden. Im nachfolgenden Beispiel wurden die beiden wichtigsten stetigen Prädiktoren in einem Klassifikationsmodell verwendet, um die prognostizierte Wahrscheinlichkeit des Ereignisses der Antwortvariablen in einem Konturdiagramm zu visualisieren.
Tipp 3: Prädiktoren mit vielen fehlenden Werten oder kategorialen Prädiktoren mit vielen eindeutigen Werten Strafen zuweisen
Stetige und kategoriale Prädiktoren mit vielen fehlenden Werten sowie kategoriale Prädiktoren mit vielen Stufen können einen Vorteil gegenüber Prädiktoren mit weniger Stufen oder ohne fehlende Werte aufweisen. In der Folge kann es geschehen, dass diese Prädiktoren den Baum dominieren und dabei die Auswirkungen der anderen Prädiktoren verdecken. Um diese Datenbedingungen auszugleichen, bietet Minitab eine Option, um Prädiktoren mit vielen fehlenden Werten oder kategorialen Prädiktoren mit vielen eindeutigen Werten Strafen zuzuweisen.
Diese Strafen finden sich im Menü Optionen unter Datei > Optionen. Strafen können sowohl Klassifikations- als auch Regressionsbäumen zugewiesen werden. Sie können Werte von 0 bis 2 für fehlende Werte und von 0 bis 5 für kategoriale Prädiktoren annehmen (wobei 0 keiner Strafe und der hohe Wert jeweils der Höchststrafe entspricht).