Wir sind mitten in den Spielen beim Baseball, und die verbleibenden MLB-Teams kämpfen um den Einzug in die World Series. Dies ist eine aufregende Zeit für Baseballfans, und als jemand, dem Statistik tatsächlich Freude bereitet, kann ich mir keinen besseren Zeitpunkt vorstellen, um Baseballdaten zu analysieren. In diesem Blog werde ich zwei eng verwandte Analysen betrachten, die in der Minitab Statistiksoftware ganz einfach auszuführen sind: Die Varianzanalyse (ANOVA) und die Mittelwertanalyse (ANOM). Ich werde die Unterschiede zwischen den beiden Analysen erläutern, indem ich die Frage beantworte, welche Baseballstadien besser für Hitter und welche besser für Pitcher sind.
Meine Daten stammen aus den MLB Park Factors von ESPN aus dem Jahr 2001 bis heute. Lassen Sie mich aber erst kurz darauf eingehen, warum für diese Analyse einige Einschränkungen gelten:
Bevor wir loslegen, noch einige Hinweise: ANOVA und ANOM sind Analysen, bei denen Zufallsstichproben aus einer Grundgesamtheit verwendet werden, um die Stichprobenergebnisse für eine größere Grundgesamtheit zu generalisieren. Es wäre schwierig zu behaupten, dass Jahr für Jahr erfasste Daten eine Zufallsstichprobe darstellen. Betrachten Sie diese Analyse daher bitte nicht als ernsthafte Schlussfolgerung. Die Ergebnisse sind aber trotzdem hilfreich, um den Unterschied zwischen den Fragen aufzuzeigen, die durch die verschiedenen Analysen beantwortet werden können.
Die Nullhypothese für eine ANOVA ist, dass alle Mittelwerte der Vergleichsgruppen gleich sind. Eine ANOVA umfasst häufig Mehrfachvergleiche. Bei Mehrfachvergleichen werden die Unterschiede zwischen Mittelwerten von Gruppen betrachtet, um zu bestimmen, welche statistisch von den anderen abweichen und in welchem Umfang sie dies tun.
Die Nullhypothese für eine ANOM ist, dass alle Gruppenmittelwerte identisch mit dem Mittelwert aller Daten sind. Wenn die Nullhypothese einer ANOM wahr ist, ist auch die Nullhypothese der ANOVA wahr. Doch beim Zurückweisen der Nullhypothese zeigen sich die Unterschiede zwischen den Zielen der beiden Analysen.
Für die erste Analyse verwende ich eine einfache ANOVA. Eine solche Analyse kann noch weiter vertieft werden, indem einzelne, besonders interessante Vergleiche ausgewählt werden. Hier vergleichen wir alle Stadien mit dem Stadion, in dem die wenigsten Runs erzielt wurden: Petco Park.
Möchten Sie mitmachen? Hier finden Sie ein Minitab Projekt mit dem Datensatz, den ich analysiert habe. Dieser Datensatz hat eine besondere Eigenschaft: Ich habe den Park-Factor-Rang vor dem Stadionnamen eingefügt. Wenn Minitab die Stadionnamen in den Ergebnissen alphabetisch sortiert, werden die Stadien hierdurch vom kleinsten zum größten Park Factor aufgeführt.
Die Ergebnisse oben zeigen, welche Stadien für Hitter besser als Petco Park sind. Die Liste enthält 19 Stadien. Herausragend ist dabei Coors Field in Denver. Die Höhenlage von Denver ist bekannt als günstige Umgebung für Hitter.
Diese ANOVA-Informationen sind sehr hilfreich. Wir können die Stadien sehen, die für Hitter günstiger als Petco Park sind, sowie die Stadien, die sich nicht von Petco Park unterscheiden. Wenn wir verschiedene Mehrfachvergleiche durchführen würden, könnten wir jedes Stadion mit jedem anderen Stadion oder alle Stadien mit einem bestimmten einzelnen Stadion vergleichen. Schwerpunkt sind die Unterschiede zwischen den Gruppen. Mit einer ANOM wird eine andere Frage beantwortet. Was wäre, wenn die Stadien nach Stadien für Hitter, neutralen Stadien und Stadien für Pitcher klassifiziert werden sollten?
Die Punkte im Diagramm sind die mittleren Park Factors. Die Mittellinie stellt den Gesamtmittelwert dar. Die Linien außen sind Entscheidungsgrenzen, die zeigen, welche Stadien vom Gesamtmittelwert abweichen.
Denken Sie daran: Mit einer ANOM wird nicht getestet, ob die Mittelwerte untereinander gleich sind, sondern ob sie dem Gesamtmittelwert entsprechen. Minitab erstellt eine Grafik, die die Ergebnisse übersichtlich darstellt. Sie können diese Schritte mit demselben Datensatz nachvollziehen, um die Ergebnisse selbst zu berechnen:
Punkte im Diagramm sind die mittleren Park Factors. Die Mittellinie stellt den Gesamtmittelwert dar. Die Linien außen sind Entscheidungsgrenzen, die zeigen, welche Stadien vom Gesamtmittelwert abweichen.
Diese Daten enthalten 7 Stadien für Pitcher: | Und 4 Stadien für Hitter: |
|
|
Eine gute Entscheidung beruht auf einer Analyse, die die richtige Frage für Ihren jeweiligen Anwendungsfall beantwortet. Beachten Sie dabei die Unterschiede zwischen der ANOVA und der ANOM.
Bei der ANOVA gibt es zwei Kategorien:
Bei der ANOM gibt es drei Kategorien:
Außerdem gibt es Unterschiede bei den Kategorisierungen. In der ANOVA unterscheidet sich das Busch Stadium nicht von Petco Park. Daher könnte man denken, dass dieses Stadion eher Pitcher begünstigt. In der ANOM unterscheidet sich das Busch Stadium nicht vom Gesamtmittelwert. Daher kann es im Hinblick auf Runs als neutrales Stadion betrachtet werden. In der ANOVA haben wir gesehen, dass 19 Stadien für Hitter besser als Petco Park waren. In der ANOM haben wir gesehen, dass 4 Stadien für Hitter besser als der Gesamtdurchschnitt waren.
Der Fall von Sahlen Field in der ANOM ist besonders interessant. Der Mittelwert von Sahlen Field erweckt den Anschein, dass es sich um ein günstiges Stadion für Hitter handelt, aber statistisch wird es nicht als Stadion für Hitter klassifiziert. Die Toronto Blue Jays haben dort nur zwei Saisons gespielt. Wenn es sich bei diesen Daten um eine Zufallsstichprobe handelte, könnten wir sehen, dass die Streuung in den Daten zu hoch und die Stichprobe zu klein ist, um statistisch zu belegen, dass Sahlen Field immer Hitter begünstigt. Diese Beziehung zwischen der Differenz zwischen den Mittelwerten und der Streuung innerhalb einer Gruppe ist ein wichtiger Vorteil von statistischen Analysen, bei denen die Streuung in den Daten berücksichtigt wird.
Analysen wie die ANOVA und ANOM bieten die Einblicke, die wir für bessere Entscheidungen auf der Grundlage von Daten benötigen – in diesem Fall in Bezug auf Baseballstadien Es gibt viele Möglichkeiten, um Ergebnisse aus dem Vergleich von Gruppen für eine bessere Entscheidungsfindung zu nutzen, sei es privat oder geschäftlich in praktisch allen Positionen in jeder Branche. Ein weiteres Ergebnis beim Vergleich von Gruppen finden Sie im Artikel dazu, wie die Riverview Hospital Association bestimmte Patientengruppen identifizierte, die schlechtere Zufriedenheitsbewertungen als andere Gruppen angaben, damit Verbesserungsinitiativen gezielt angesetzt werden konnten.