Nachdem in der aktuellen Version der Minitab Statistical Software jetzt auch Korrelogramme als Visualisierungen verfügbar sind, möchte ich genauer betrachten, warum diese Grafiken so beliebt und für komplexe Analysen so hilfreich sind.
Einfach ausgedrückt ist ein Korrelogramm (auch als Korrelationsplot oder Korrelationsmatrix bezeichnet) eine Darstellungsmöglichkeit von Statistiken zur Korrelation. Sie können damit die Zufälligkeit auswerten und einfache Muster in Ihren Daten ermitteln, da Sie schnell die Variablen erkennen, die stark korrelieren. Wie bei allen Datenanalysen besteht ein wichtiger erster Schritt für eine prädiktive Analyse darin, die Daten zu untersuchen und ihre Struktur zu verstehen. Die nächsten Schritte leiten sich dann daraus ab, ob Variablen stark korrelieren.
Und wie Sie sehen werden, ist ein Korrelogramm das perfekte visuelle Werkzeug, um prädiktive Analysen noch besser einsetzen zu können.
Sie fragen sich vielleicht, „Ich nutze doch bereits die Korrelationsfunktion mit Matrixplots, um Assoziationen und die Zufälligkeit auszuwerten. Was ist hierbei anders?“ Nun, wenn Sie nur mit wenigen Variablen und relativ kleinen Stichproben arbeiten, ist es völlig richtig, die Korrelationsfunktion zusammen mit einem Matrixplot zu verwenden.
Doch betrachten wir einmal als Beispiel einen Ingenieur, der Brennstoffzellen für Elektroautos entwickelt. Daran lässt sich demonstrieren, warum ein Korrelogramm ein leistungsstarkes Werkzeug sein kann, wenn mehr Variablen und Stichproben abgebildet werden müssen.
Zu den Parametern, die die Leistung einer Brennstoffzelle beeinflussen, gehören die Betriebstemperatur sowie Druck, Flussraten und Feuchtigkeit. Für jedes Design von Brennstoffzellen muss dabei eine optimale Betriebstemperatur ermittelt werden. Um ein solches Design im Hinblick auf Leistung und Effizienz zu optimieren, muss der Ingenieur die Beziehung zwischen der Wasserstoffmenge in der Zelle, der Sauerstoffmenge in der Zelle und der Temperatur kennen, bei der Wasserstoff und Sauerstoff zur Energiegewinnung in die Brennstoffzelle eingebracht werden.
Es soll ausgewertet werden, ob chemische Reaktionen zwischen Sauerstoff und Wasserstoff bei etwas höheren oder niedrigeren Temperaturen die Leistung der Brennstoffzelle beeinflussen. Dafür werden für jeden Messwert 14 Beobachtungen betrachtet.
Nach einer Korrelationsanalyse in Minitab („Statistik“ > „Statistische Standardverfahren“ > „Korrelation“) werden die Korrelationen zwischen den Variablen in dieser Untersuchung in einer Korrelationstabelle und in einem Matrixplot verglichen.
Gemäß der Tabelle beträgt der Korrelationskoeffizient nach Pearson zwischen dem Wasserstoffgehalt und den Leistungsminuten –0,791, und der p-Wert ist 0,001. Der p-Wert ist kleiner als das Signifikanzniveau von 0,05, was darauf hinweist, dass die Korrelation signifikant von null abweicht. Diese Assoziation impliziert, dass bei einer Zunahme des Wasserstoffgehalts die generierten Leistungsminuten abnehmen. (Zur Erinnerung: Die Korrelation misst die Stärke einer linearen Assoziation zweier Variablen und kann Werte zwischen -1 [starke negative Korrelation] und +1 [starke positive Korrelation] annehmen. Korrelationen nahe null weisen darauf hin, dass es keine starke lineare Assoziation zwischen den beiden Variablen gibt.)
Ein Matrixplot bildet die einzelnen Assoziationen ab; es ist ein hilfreiches Werkzeug zur Darstellung einer solchen Analyse. Im Beispiel unten befindet sich das Diagramm der Leistungsminuten und des Wasserstoffgehalts in der linken Ecke.
Mit einem Matrixplot lassen sich außerdem gut potenzielle Ausreißer ermitteln, es ist aber nicht geeignet, um schnell die stärksten und schwächsten Korrelationen zu erkennen. Betrachten Sie z. B. das Matrixplot oben: Wie lange brauchen Sie, um zu entscheiden, welche dieser Korrelationen am nächsten an –1 oder +1 liegen?
Um diese Frage schnell zu beantworten, ist ein Korrelogramm deutlich hilfreicher, insbesondere wenn Sie Ihre Analyse anderen präsentieren möchten, die die Informationen mit einem Blick erfassen und verstehen sollen.
Unten sehen Sie dieselben Daten, diesmal dargestellt in einem Korrelogramm (in der Minitab Statistical Software: „Grafik“ > „Korrelogramm“):
Ihr Blick hat sich vermutlich sofort auf das dunkelrote Feld unten gerichtet, in dem die Leistungsminuten im Vergleich zum Sauerstoff dargestellt werden. Bei Korrelogrammen ist die Intensität der Farbe proportional zum Korrelationskoeffizienten, d. h. je dunkler das Feld, umso stärker die Korrelation. Auf diese Weise bietet ein Korrelogramm eine deutliche, schnell erfassbare visuelle Darstellung von Korrelationen. Indem er in diesem Fall ein Korrelogramm erstellt, kann der Ingenieur die Korrelationen in den Daten viel einfacher erkennen.
Betrachten wir jetzt eine Analyse mit 14 Variablen und 1.000 Datenzeilen. Genauere Informationen sind unwichtig; dies könnten z. B. die Ergebnisse einer Kundenumfrage zu einem Produkt oder Messwerte für einen Prozess im Zusammenhang mit Platinen sein. Wenn Sie Ihr Team bitten würden, die stärksten Assoziationen (nahe +1 oder –1) im folgenden Matrixplot zu ermitteln – wie lange würde das wohl dauern?
Betrachten Sie jetzt dieselben Daten in einem Korrelogramm. Schwache Korrelationen werden unauffällig dargestellt, während die Aufmerksamkeit auf Bereiche mit einer starken Korrelation geleitet wird. Sie können sich vorstellen, wie viel schneller Ihr Team hier wichtige Informationen erfassen kann.
Beziehungen zwischen Variablen, z. B. Korrelationen, zu verstehen, ist ein äußerst wichtiger Faktor, um robuste prädiktive Analysen zu erstellen. Bei der Analyse von Daten mit relativ wenigen Variablen ist es einfach, Korrelationen zu ermitteln. Aber mit einer zunehmenden Anzahl von Variablen und einem größeren Datensatz ist es auch deutlich aufwändiger, die Korrelationen nachzuvollziehen. Durch die Leistungsstärke von Korrelogrammen werden statistische Analysen mit Minitab noch besser, schneller und einfacher – ganz besonders bei komplexen Problemen.