Prädiktive Analysen mit der Regression in der Minitab Statistiksoftware – Teil II

Dennis Corbin | 02 September, 2021

Themen: Praediktiven Analysen, Minitab Statistical Software, Regressionsanalysen

Das Ziel einer Regression sind genaue Prognosen. Zwei Faktoren, die Auswirkungen auf die Prognosefähigkeiten des Modells haben, sind die Terme im Modell (linear, Wechselwirkungen, quadratisch) und die Stichprobendaten, mit denen das Modell berechnet wird. Modelle mit zu vielen Termen sind häufig übermäßig an die Stichprobendaten angepasst und führen zu einer schlechteren Prognose von neuen Datenwerten!

Die Regressionsanalyse in der Minitab Statistical Software kann für Folgendes eingesetzt werden:

  • Prädiktive Modelle erstellen, verifizieren und visualisieren. Bitte lesen Sie Teil 1 dieser Serie von Blog-Artikeln, um mehr über diese Funktionen zu erfahren.
  • Prognosefähigkeit des Modells validieren.
  • Analyse und Modellauswahl automatisieren.
  • Neue Ergebnisse prognostizieren und Parameter optimieren.

In Prädiktive Analysen mit der Regression in Minitab - Teil I wurde erläutert, wie das prädiktive Modell rasch erstellt, verifiziert und visualisiert werden kann. Jetzt geht es um die fortschrittlicheren Funktionen zum Validieren der Prognoseleistung, Automatisieren der Analyse und Modellauswahl sowie Prognostizieren neuer Ergebnisse.

LEISTUNG EINES PRÄDIKTIVEN MODELLS IN DER MINITAB STATISTICAL SOFTWARE VALIDIEREN

Die Abbildungen unten zeigen ein übermäßig angepasstes Modell. Wenn neue Daten aus demselben Prozess hinzugefügt werden, können die neuen Messwerte mit dem Modell nur schlecht prognostiziert werden. Mit einem linearen Modell für die ursprünglichen Daten wären genauere Prognosen möglich. Durch die Validierung wird verhindert, dass Modelle mit einer geringen Prognoseleistung erstellt werden.

predictive-analytics-regression-pt-2-model-fitted-new-data

Die Validierung ist ein zweistufiger Prozess. Zunächst wird ein Modell auf der Grundlage eines Teils der Daten (Trainingsdatensatz) erstellt. Danach werden mit diesem Modell Prognosen für den Teil der Daten getroffen, der nicht zum Erstellen des Modells verwendet wurde (Testdatensatz). Es gibt drei Arten von Validierungsverfahren: Eine auslassen, K Faltungen und die Validierung mit einem Testdatensatz.

Bei der Validierung muss der Analytiker das Modell und die entsprechenden R2-Werte kennen. Die R2-Werte zeigen, wie viel Streuung in den Stichprobendaten das Modell erklärt und wie genau neue Werte prognostiziert werden können. Dabei wird ein hoher R2-Wert angestrebt. Wenn eine übermäßige Anpassung ein potenzielles Problem ist, unterscheiden sich die R2-Werte zwischen dem Testdatensatz und dem Trainingsdatensatz deutlich.

Validierung mit „Eine auslassen“

Bei der Validierung wird ein Datenpunkt ausgelassen und als Testdatensatz verwendet. Die verbleibenden n-1 Beobachtungen werden zum Berechnen des Trainingsmodells verwendet. Danach wird mit diesem Modell der Prognosefehler des entfernten Datenpunkts berechnet. Der Vorgang wird für jede Beobachtung wiederholt. Mit Hilfe der Prognosefehler wird der prognostizierte R2-Wert erzeugt. Beachten Sie, dass der prognostizierte R2-Wert erzeugt. Beachten Sie, dass der prognostizierte R2-Wert standardmäßig für alle Regressionsmodelle ausgegeben wird.

Validierung mit K Faltungen in der Regression

Bei der Validierung mit K Faltungen werden die Daten zufällig K gleich großen Gruppen zugeordnet. Häufig wird dabei mit K=10 gearbeitet. Die erste Gruppe wird als Testdatensatz entfernt, und die restlichen Gruppen bilden den Trainingsdatensatz zum Erstellen des Modells. Mit Hilfe des Trainingsmodells wird die ausgelassene Gruppe prognostiziert, und der Prognosefehler wird berechnet. Dieser Vorgang wird für alle Gruppen wiederholt. Anschließend wird der zusammengesetzte R2-Wert für K Faltungen berechnet.

Validierung mit einem Testdatensatz

Bei der Validierung mit einem Testdatensatz wird eine zufällige Teilmenge der Daten, z. B. 30 %, als Testdatensatz definiert. Mit dem verbleibenden Trainingsdatensatz (70 %) wird das prädiktive Modell berechnet. Das Modell wird mit dem Testdatensatz validiert, um den Test-R2-Wert zu berechnen.

predictive-analytics-regression-pt-2-leave-one-out-k-fold-test

Vergleich der Validierungsverfahren

Bei mittelgroßen Stichproben eignet sich die Validierung mit K Faltungen besser, während die Validierung mit einem Testdatensatz optimal für sehr große Datensätze ist. Dabei ist wichtig zu berücksichtigen, dass sich die Validierung mit „Eine auslassen“ sowie K Faltungen nur auf die Form des Modells bezieht, die Validierung mit einem Testdatensatz hingegen auf die genauen Modellkoeffizienten.

ANALYSE UND MODELLAUSWAHL AUTOMATISIEREN

Die Modellauswahl für die Regression erfolgt normalerweise manuell. Heutzutage umfassen die Datensätze jedoch tendenziell immer mehr Beobachtungen und Variablen. Es kann zu einer gewaltigen Aufgabe werden, in solchen Fällen Terme manuell zu entfernen.

Die Modellauswahl lässt sich aber auch automatisieren. Hierzu gibt es drei gängige Verfahren:

  • Alpha-Kriterien für die p-Werte der Terme: Mit „Schrittweise“, „Vorwärtsauswahl“ und „Rückwärtselimination“ wird ein Modell ausgewählt, dessen Terme gemäß einem Alpha-Schwellenwert signifikant sind.
  • Informationskriterien für die Modellanpassung: Mit „AICc“ oder „BIC“ für die Vorwärtsauswahl wird das Modell ausgewählt, bei dem die ausgewählten Informationskriterien minimiert werden.
  • R-Quadrat-Werte für die prädiktive Anpassung des Modells: Bei der Vorwärtsauswahl mit K Faltungen oder Validierung mit einem Testdatensatz wird das Modell mit dem höchsten R2-Wert ausgewählt.

Diese Verfahren führen häufig zu unterschiedlichen Ergebnissen. Daher sollte zusätzlich anhand von relevanten Vorkenntnissen beurteilt werden, welche Lösung am besten geeignet ist.

NEUE ERGEBNISSE PROGNOSTIZIEREN UND PARAMETER OPTIMIEREN

Die Regressionsanalyse ist ein leistungsstarkes Werkzeug, und nachdem das „beste“ Modell ausgewählt wurde, können Prognosen aufgestellt werden. Betrachten wir als Beispiel einen Reinraum in einem Produktionsunternehmen. Hier sollen die Auswirkungen verschiedener Prädiktoren auf eine Partikelzahl über 100 mit einer Größe von 0,5 μ oder mehr pro Kubikfuß betrachtet werden. Die Prozessingenieure erstellen ein prädiktives Modell für die Partikelzahl:

predictive-analytics-regression-pt-2-regression-equation-output

Das Modell wird für die Prognose mit einem Produktionsvolumen von 1000 Einheiten mit 7 Mitarbeitern und 24 Eintritten/Austritten im Reinraum verwendet:

predictive-analytics-regression-pt-2-prediction-output

Die prognostizierte durchschnittliche Partikelzahl über 100 mit einer Größe von 0,5 μ oder mehr pro Kubikfuß beträgt 87,63. Die Konfidenzintervalle und Prognoseintervalle erklären den möglichen Fehler in der Prognose.

MINITAB MACHT DIE REGRESSION GANZ EINFACH

Durch die Benutzerfreundlichkeit von der Minitab Statistiksoftware stehen alle gängigen Werkzeuge für die Regression zur Verfügung. Wenn Sie Minitab noch nicht verwenden, um Ihre Daten optimal auszuwerten, laden Sie eine kostenlose 30-Tage-Demoversion mit vollem Funktionsumfang herunter.

Kostenlose Demoversion

Notabene: in Prädiktive Analysen mit der Regression in Minitab - Teil I wurde erläutert, wie das prädiktive Modell rasch erstellt, verifiziert und visualisiert werden kann. Jetzt geht es um die fortschrittlicheren Funktionen zum Validieren der Prognoseleistung, Automatisieren der Analyse und Modellauswahl sowie Prognostizieren neuer Ergebnisse.