Kürzlich habe ich eine äußerst interessante Unterhaltung in einer LinkedIn-Gruppe verfolgt. In dieser Gruppe, der Statistik- und Datenanalyseberater angehören, wurde diskutiert, inwiefern Kausalität und Korrelation von der jeweiligen Branche bzw. dem Fachgebiet abhängen. So würden die Belege für eine Kausalität bei Daten aus einer klinischen Studie unter kontrollierten Bedingungen z. B. ganz anders als bei beobachteten Wirtschaftsdaten ausfallen.
Contributors also have been citing some pretty fascinating ideas and approaches, including the application of Granger-Kausalität auf Zeitreihendaten, die Kausalitätskriterien nach Hill in der Epidemiologie und in anderen medizinischen Bereichen und sogar einen äußerst überzeugenden Artikel, in dem postuliert wird, dass die meisten veröffentlichten Forschungsergebnisse falsch sind.
All dies sind großartige Denkanstöße, aber sie unterstreichen wieder einmal das wahrscheinlich größte Missverständnis in der Statistik: Korrelation ist nicht Kausalität. Dies scheint ein eingängiges Konzept zu sein – doch wie oft wurde in den Medien aufgeregt über eine Studie berichtet, in der eine assoziative Beziehung zwischen einem Faktor (z. B. Konsum von Kartoffelchips) und einer Antwortvariablen (z. B. Auftreten von Herzinfarkten) festgestellt wurde, als ob dadurch unweigerlich a + b = c nachgewiesen würde?
Korrelation ist einfach eine lineare Assoziation zwischen zwei Variablen. Wenn also der Wert einer Variablen zu- oder abnimmt, nimmt der Wert der anderen Variablen ebenfalls zu oder ab. Diese Assoziation ist positiv, wenn die Werte beider Variablen stets gleichzeitig zunehmen, oder negativ, wenn die Werte einer Variablen stets abnehmen, während die Werte der anderen zunehmen.
Mit einem Streudiagramm lässt sich leicht feststellen, ob zwei Variablen miteinander korrelieren. In einigen Fällen zeigt ein Streudiagramm unmittelbar, dass eine Korrelation vorliegt. Wählen Sie bei diesem Datensatz beispielsweise Grafiken > Streudiagramm > Einfach aus und geben Sie „Score1“ und „Score2“ ein. Minitab erstellt die folgende Grafik:
Wenn Sie dieses Beispiel in Minitab nachvollziehen möchten, aber noch nicht über die Software verfügen, können Sie jetzt Ihre 30-Tage-Demo starten!
Im Streudiagramm oben lässt sich klar erkennen, dass die Werte für „Score2“ bei zunehmenden Werten für „Score1“ ebenfalls zunehmen. Dies ist definitiv eine Korrelation! Gelegentlich ist ein Streudiagramm jedoch nicht so eindeutig. Erstellen Sie aus demselben Datensatz ein Streudiagramm mit „Sprache“ als x-Variable und „Notendurchschnitt“ als y-Variable.
Es sieht so aus, als ob eine Korrelation vorliegen könnte, aber es gibt eine Menge Streuung in den Daten, und das Bild ist nicht so klar wie in der ersten Grafik. Lohnt es sich, dies weiter zu untersuchen (und beispielsweise mit einer Regressionsanalyse fortzufahren, um mehr Informationen über den Zusammenhang zu erhalten)? Glücklicherweise gibt es ein statistisches Maß, durch das wir mehr über die Stärke der Assoziation zwischen diesen Variablen erfahren.
Der Korrelationskoeffizient kann Werte zwischen -1 und +1 annehmen und drückt zwei Sachverhalte in Bezug auf die lineare Assoziation zweier Variablen aus:
Um den Korrelationskoeffizienten nach Pearson für diese beiden Variablen in Minitab zu ermitteln, rufen Sie „Statistik“ > „Statistische Standardverfahren“ > „Korrelation...“ auf, und geben Sie im Dialogfeld „Sprache“ und „Notendurchschnitt“ ein. Minitab erzeugt die folgende Ausgabe:
Der Korrelationskoeffizient für „Sprache“ und „Notendurchschnitt“ in unserem Datensatz beträgt 0,322. Dies deutet darauf hin, dass eine positive Assoziation zwischen diesen beiden Variablen vorhanden ist. Wenn Sie den Wert 0,978 für die beiden Variablen im ersten Streudiagramm hiermit vergleichen, sehen Sie, dass sich die im zweiten Streudiagramm erkennbare Streuung im niedrigen Korrelationskoeffizienten widerspiegelt. Es gibt eine Beziehung, aber sie ist nicht so offensichtlich oder klar.
Lohnt es sich, den Zusammenhang zwischen „Sprache“ und „Notendurchschnitt“ näher zu betrachten? Vielleicht ... Bei echten Datensätzen treten so hohe Korrelationskoeffizienten wie zwischen „Score1“ und „Score2“ nur selten auf. Ob Sie einen mittleren Wert für den Korrelationskoeffizienten nach Pearson als schwache, moderate oder starke Korrelation interpretieren sollten, hängt von den Zielen und Anforderungen der Untersuchung ab.
Es ist wichtig zu berücksichtigen, dass eine Korrelation nicht zwangsläufig auch Kausalität bedeutet, selbst wenn für Ihre Daten ein Korrelationskoeffizient von +1 oder –1 berechnet wird. Angenommen, ein Streudiagramm von Eisverkäufen und Skateboard-Unfällen weist eine gerade Linie und einen Korrelationskoeffizienten von 0,9999 auf ... es ist aber ganz eindeutig, dass Eis zu kaufen nicht zu Skateboard-Unfällen führt. Jedoch fahren mehr Menschen Skateboard und kaufen Eis, wenn das Wetter warm ist – und das ist der Grund, aus dem diese beiden Faktoren miteinander korrelieren.
Mit dem Korrelationskoeffizienten können darüber hinaus nur lineare Beziehungen gemessen werden. Auch wenn der Korrelationskoeffizient 0 ist, liegt möglicherweise eine bedeutsame nichtlineare Beziehung vor.
Nur mit ordnungsgemäß kontrollierten Experimenten kann bestimmt werden, ob eine kausale Beziehung vorliegt. Und wie in der kürzlichen Unterhaltung auf LinkedIn herausgearbeitet wurde, können je nach Gegenstand einer Untersuchung sehr unterschiedliche Anforderungen zum Feststellen einer Kausalität gelten.
Was können wir also zu der Beziehung zwischen Korrelation und Kausalität schlussfolgern? Dieser Comic, auf den auch in der kürzlichen LinkedIn-Unterhaltung verwiesen wird, fasst dies gut zusammen:
Comic licensed under a Comic lizenziert unter einer Creative Commons Attribution-NonCommercial 2.5-Lizenz.
Bildquelle: robin_24. Dieses Foto unterliegt einer Creative Commons Attribute-Lizenz.
Müssen Sie Ihre Datenkompetenz verbessern? Schauen Sie, ob Sie diese 5 Fragen beantworten können Kurzer Test: Wie ist es um Ihre Datenkompetenz bestellt?