Entscheidungsbäume, um Umfragedaten zu analysieren

Marilyn Wheatley 18 May, 2020

Themen: Machine Learning, Minitab Statistical Software, Praediktiven Analysen

Identifizieren und eliminieren Sie Ihre analytischen Schwachpunkte mit Minitab

Es kann eine große Herausforderung darstellen, das Verhalten von Kunden oder Patienten auszuwerten. Häufig werden dabei Daten aus Umfragen genutzt und mit Hilfe der Regression in der Minitab Statistical Software analysiert. Bei kategorialen statt quantitativen Antwortvariablen lassen sich die Ergebnisse einer logistischen Regression allerdings nicht so einfach oder intuitiv interpretieren.

 

Tree Branches

 

Können Umfragedaten in Minitab auch anders analysiert werden? Nutzen Sie die Funktionen von CART® (Klassifikations- und Regressionsbäume)! Hierbei handelt es sich um ein veranschaulichendes Verfahren für das maschinelle Lernen auf der Grundlage von Entscheidungsbäumen, das in der aktuellen Version der Minitab Statistical Software verfügbar ist.

 

Was sind die Entscheidungsbäume CART ?

CART ist ein Algorithmus für Entscheidungsbäume, mit dem ein Satz von Ja-oder-Nein-Regeln erstellt wird. Anhand dieser Regeln wird die Ergebnis- bzw. Antwortvariable auf der Grundlage der Prädiktor- oder Eingabeeinstellungen in Partitionen aufgeteilt. Das daraus resultierende Modell wird als Entscheidungsbaum dargestellt, der zeigt, wie die Ergebnis- bzw. Antwortvariable mit den Eingabeeinstellungen partitioniert wurde. Der CART-Algorithmus in Minitab ermittelt automatisch die optimale Anzahl von Endknoten (auch als Teilungen oder endgültige Gruppierungen bezeichnet). Dabei ist das Ziel, die Prognoseleistung des Modells zu maximieren.

Und das Beste dabei? Nach Abschluss der Analyse kann die CART-Ausgabe intuitiv visuell interpretiert werden, sodass Sie auch ohne Fachkenntnisse wertvolle Einblicke in Ihre Daten erhalten.

 

Hinweis: Minitab zeigt standardmäßig einen detaillierten CART-Baum an. Wenn Sie eine kondensierte Darstellung wie oben bevorzugen, klicken Sie mit der rechten Maustaste auf den Baum, und wählen Sie Knotenteilungsansicht aus.

 

 


Laden Sie eine kostenlose Testversion der Minitab® Statistical Software herunter,
um CART zu entdecken und das Beispiel nachzuvollziehen.


 

Daten zu Ambulanzpatienten mit CART auswerten

Nachdem Sie die Grundlagen von CART kennengelernt haben, schauen Sie sich jetzt an, wie diese Methode funktioniert.

Der Betreiber mehrerer Ambulanzen hat Umfragedaten von Patienten erhoben, um herauszufinden, mit welcher Wahrscheinlichkeit ein Patient die Ambulanz in Zukunft wieder nutzt: Sehr wahrscheinlich, etwas wahrscheinlich oder unwahrscheinlich. Die Mitarbeiter erfassten außerdem das Alter des Patienten, die Entfernung zwischen Wohnort und Ambulanz in Meilen sowie den Beschäftigungsstatus. Die Regionalleiterin der Ambulanzen wollte insbesondere nachvollziehen, welche Faktoren die Wahrscheinlichkeit beeinflussen, dass sich ein Patient erneut für diese Ambulanz entscheidet.

Rechts sind eine Teilmenge der Daten sowie ein Balkendiagramm zu sehen, das die Antworten der Ambulanzpatienten darstellt

Mit CART kann die Wahrscheinlichkeit eines kategorialen Ergebnisses prognostiziert werden; in diesem Fall handelt es sich um die Wahrscheinlichkeit, dass ein Patient die Ambulanz wieder aufsucht. Das CART-Modul für die Klassifizierung in Minitab bietet eine intuitive Benutzeroberfläche, mit der binäre Ergebnisse (zwei Gruppen) sowie multinomiale Ergebnisse (drei oder mehr Gruppen) analysiert werden können.

Da drei oder mehr Gruppen vorhanden sind, wählt sie Multinomiale Antwort und dann unter Antwort (die zu prognostizierende Ergebnisvariable) die Variable „Folgeuntersuchung“ aus. Außerdem gibt sie noch die Werte für Stetige Prädiktoren und Kategoriale Prädiktoren (die Eingaben für die Prognose) ein.

Nachdem die Leiterin die Daten in Minitab eingegeben hat, wählt sie Statistik > Prädiktive Analysen > CART®-Klassifikation aus. Folgendes wird angezeigt:

 

 

 

Mit CART werden fehlende Werte automatisch behandelt, der Algorithmus ist unempfindlich gegenüber extremen Ausreißern, und es müssen keine Annahmen zu Verteilungen, p-Werten oder Residuen überprüft werden. All dies macht CART auch für Anwender ohne Vorkenntnisse äußerst benutzerfreundlich. Außerdem werden die Daten mit der CART-Funktion in Minitab gezielt in zwei Gruppen aufgeteilt. Ein Teil der Daten wird zum Erstellen des Modells verwendet (Trainingsdaten), während anhand der restlichen Daten ausgewertet wird, wie gut das Modell neue Prognosen treffen kann (Testdaten).

Die Ausgabe der CART-Analyse zeigt für jedes Paar der Ergebnisvariablen eine Fläche unterhalb der ROC-Kurve von 0,93 oder höher. Mit der ROC-Kurve kann die Leiterin veranschaulichen, wie gut das Modell die Wahrscheinlichkeit prognostiziert, dass ein Patient wieder in die Ambulanz kommt. Die Grafik zeigt die Beziehung zwischen der Empfindlichkeit (Positive, die richtig als Positive prognostiziert wurden) und der Spezifität (Negative, die richtig als Negative prognostiziert wurden).

ROC-Werte von 0,70 und höher werden im Allgemeinen als geeignet für die meisten Anwendungen betrachtet. Die Leiterin war daher erfreut, dass die Wahrscheinlichkeit eines weiteren Patientenbesuchs in der Ambulanz mit ihrem Modell so genau prognostiziert werden konnte.

 

 

Sie war zuvor davon ausgegangen, dass die Entfernung des Wohnorts von der Ambulanz der beste Prädiktor für die Wahrscheinlichkeit eines weiteren Besuchs ist. Überraschenderweise war dies jedoch nicht der Fall. Mit der Grafik Relative Variablenwichtigkeit in CART wird die Wichtigkeit jedes Prädiktors für die Frage dargestellt, ob ein Patient noch einmal die Ambulanz aufsucht.

 

 

Erkenntnisse

Patienten der beste Prädiktor für die Wahrscheinlichkeit ist, dass er noch einmal in die Ambulanz kommt. Danach folgt die Entfernung und schließlich der Beschäftigungsstatus.

Auf der Grundlage der Einblicke in das Verhalten der Patienten konnte die Regionalleiterin Profile für Personen erstellen, die mit der größten Wahrscheinlichkeit wiederkehren. So können für diese Patienten gezielt Informationen bereitgestellt und Anreize geschaffen werden, damit sie die Ambulanz auch künftig nutzen. Patienten, die jünger als 43 Jahre sind und weniger als 11 Meilen von der Ambulanz entfernt wohnen, kommen mit hoher Wahrscheinlichkeit wieder, unabhängig vom Beschäftigungsstatus. Patienten zwischen 71 und 82 kehren mit einer mittleren Wahrscheinlichkeit wieder, unabhängig von Entfernung und Beschäftigungsstatus. Bei Patienten zwischen 67 und 71 ist die Wahrscheinlichkeit eines weiteren Besuchs sehr gering, wenn sie mehr als 11 Meilen von der Ambulanz entfernt leben, unabhängig von anderen Faktoren.

Die auf Entscheidungsbäumen basierenden Algorithmen für das maschinelle Lernen in der Minitab Statistical Software lassen sich in vielen verschiedenen Situation einsetzen und können auch Ihnen helfen, Antworten auf Fragen in Ihrer Organisation zu finden.

 

 


Möchten Sie CART selbst ausprobieren?

Laden Sie Ihre kostenlose 30-Tage-Demoversion der Minitab Statistical Software herunter


Minitab Virtual Launch Event am 21. Oktober 2020 um 16H30