Bei einer Regressionsanalyse wird eine Gleichung erzeugt, die die statistische Beziehung zwischen einer oder mehreren Prädiktorvariablen und der Antwortvariablen beschreibt. Nachdem Sie mit der Minitab Statistical Software ein Regressionsmodell angepasst und die Anpassung durch Überprüfen der Residuendiagramme bestätigt haben, können Sie die Ergebnisse interpretieren. In diesem Beitrag werde ich erläutern, wie die p-Werte und Koeffizienten in der Ausgabe einer linearen Regressionsanalyse interpretiert werden.
Mit dem p-Wert der einzelnen Terme wird die Nullhypothese getestet, dass der Koeffizient gleich null ist (kein Effekt). Ein niedriger p-Wert (< 0,05) gibt an, dass die Nullhypothese zurückgewiesen werden kann. Anders ausgedrückt: Ein Prädiktor mit einem niedrigen p-Wert ist wahrscheinlich eine sinnvolle Ergänzung für das Modell, weil Änderungen des Prädiktorwerts mit Änderungen in der Antwortvariablen zusammenhängen.
Umgekehrt weist ein höherer (nicht signifikanter) p-Wert darauf hin, dass Änderungen des Prädiktors nicht mit Änderungen der Antwortvariablen zusammenhängen.
In der Ausgabe unten sehen Sie, dass die Prädiktorvariablen für den Norden und Süden signifikant sind, weil beide p-Werte 0,000 betragen. Der p-Wert für den Osten (0,092) hingegen ist größer als das gängige Alpha-Niveau 0,05, was darauf hinweist, dass der Term statistisch nicht signifikant ist.
Die p-Werte der Koeffizienten werden gewöhnlicherweise herangezogen, um zu ermitteln, welche Terme im Regressionsmodell beibehalten werden sollen. Im Modell oben sollte der Osten entfernt werden.
Wie interpretiere ich die Regressionskoeffizienten für lineare Beziehungen?
Regressionskoeffizienten stellen die mittlere Änderung der Antwortvariablen dar, wenn die Prädiktorvariable eine Änderung in Höhe einer Einheit aufweist und die anderen Prädiktoren im Modell konstant bleiben. Diese statistische Kontrolle, die die Regression bietet, ist wichtig, weil sie die Bedeutung einer Variablen von allen anderen Variablen im Modell isoliert.
Der Schlüssel zum Verständnis der Koeffizienten besteht darin, sie als Steigungen zu betrachten. Daher werden sie häufig auch als Steigungskoeffizienten bezeichnet. Dies wird in der Darstellung der Anpassungslinie unten veranschaulicht, mit der anhand der Größe einer Person ihr Gewicht modelliert wird. Dies ist die Ausgabe im Sessionfenster von Minitab:
The fitted line plot shows the same regression results graphically.
Die Gleichung ergibt, dass der Koeffizient für die Größe in Metern 106,5 kg beträgt. Der Koeffizient zeigt, dass für jeden zusätzlichen Meter bei der Höhe erwartet werden kann, dass das Gewicht um durchschnittlich 106,5 kg zunimmt.
Die blaue Anpassungslinie stellt diese Information grafisch dar. Bei einer Bewegung entlang der x-Achse, die einer Änderung der Größe von einem Meter entspricht, steigt bzw. fällt die Anpassungslinie um 106,5 kg. Diese Körpergrößen stammen allerdings von Mädchen im Alter von 11–14 Jahren und liegen zwischen 1,3 m und 1,7 m. Die Beziehung ist nur in diesem Bereich aussagekräftig, daher sind 1-Meter-Schritte in diesem Fall nicht sinnvoll.
Wenn die Anpassungslinie waagrecht wäre (ein Steigungskoeffizient von null), würde sich der erwartete Wert für das Gewicht unabhängig von der Position auf der Linie nicht ändern. Ein niedriger p-Wert weist also darauf hin, dass die Steigung nicht null ist. Dies wiederum weist darauf hin, dass Änderungen der Prädiktorvariablen mit Änderungen der Antwortvariablen zusammenhängen.
Ich habe hier eine Darstellung der Anpassungslinie verwendet, weil sie die Werte sehr anschaulich zeigt. Mit einer solchen Darstellung können allerdings nur die Ergebnisse einer einfachen Regression abgebildet werden, d. h. eine Prädiktorvariable und die Antwortvariable. Die hier beschriebenen Konzepte gelten auch für die multiple lineare Regression, doch würde dabei eine weitere räumliche Dimension für jeden weiteren Prädiktor zum Darstellen der Ergebnisse benötigt. Leider übersteigt dies die Möglichkeiten der heutigen Technologie.
Im Beispiel oben ist die Größe ein linearer Effekt: Die Steigung ist konstant, was darauf hinweist, dass der Effekt entlang der gesamten Anpassungslinie ebenfalls konstant ist. Wenn ein Modell jedoch Polynomial- oder Wechselwirkungsterme enthält, ist die Interpretation nicht ganz so intuitiv möglich.
Zur Erinnerung: Polynomialterme modellieren die Krümmung in den Daten, während Wechselwirkungsterme angeben, dass der Effekt eines Prädiktors vom Wert eines anderen Prädiktors abhängt.
Im nächsten Beispiel wird ein Datensatz verwendet, in dem die Krümmung mit einem quadrierten Term modelliert werden muss. Die Ausgabe unten zeigt, dass die p-Werte für den linearen und die quadratischen Terme signifikant sind.
Die Residuendiagramme (nicht dargestellt) weisen auf eine gute Anpassung hin, daher können wir die Interpretation fortsetzen. Doch wie werden die Koeffizienten interpretiert? Eine Darstellung der Anpassungslinie ist hier eine große Hilfe.
Sie können erkennen, wie sich die Beziehung zwischen der Maschineneinstellung und dem Energieverbrauch abhängig davon unterscheidet, welcher Bereich der Anpassungslinie betrachtet wird. Wenn Sie z. B. mit der Maschineneinstellung 12 beginnen und die Einstellung um 1 erhöhen, erwarten Sie eine Abnahme des Energieverbrauchs. Wenn Sie jedoch bei 25 beginnen, sollte eine Steigerung um 1 zu einem höheren Energieverbrauch führen. Und um den Wert 20 sollte sich der Energieverbrauch überhaupt nicht ändern.
Durch einen signifikanten Polynomialterm kann die Interpretation weniger intuitiv sein, da der Effekt einer Änderung des Prädiktors abhängig vom Wert unterschiedlich ausfällt. Ähnlich zeigt ein signifikanter Wechselwirkungsterm, dass der Effekt des Prädiktors abhängig vom Wert eines anderen Prädiktors unterschiedlich ausfällt.
Passen Sie daher beim Interpretieren von Regressionsmodellen, die solche Terme enthalten, besonders auf. Sie dürfen nicht nur den Haupteffekt (linearen Term) betrachten, um die Daten zu verstehen! Leider können die Ergebnisse bei einer multiplen Regressionsanalyse nicht anhand einer Darstellung der Anpassungslinie ausgewertet werden. Hier ist Fachwissen also besonders wichtig!
Besonders aufmerksame Leser werden bemerkt haben, dass ich nicht auf die Interpretation der Konstanten eingegangen bin. Dies werde ich in meinem nächsten Beitrag erläutern.
Vergessen Sie die folgenden Arbeitsschritte nicht: