Der Minitab Blog

Kampf der Baseballstadien mit ANOVA und ANOM

Geschrieben von Cody Steele | 01.12.2021 13:33:27

Wir sind mitten in den Spielen beim Baseball, und die verbleibenden MLB-Teams kämpfen um den Einzug in die World Series. Dies ist eine aufregende Zeit für Baseballfans, und als jemand, dem Statistik tatsächlich Freude bereitet, kann ich mir keinen besseren Zeitpunkt vorstellen, um Baseballdaten zu analysieren. In diesem Blog werde ich zwei eng verwandte Analysen betrachten, die in der Minitab Statistiksoftware ganz einfach auszuführen sind: Die Varianzanalyse (ANOVA) und die Mittelwertanalyse (ANOM). Ich werde die Unterschiede zwischen den beiden Analysen erläutern, indem ich die Frage beantworte, welche Baseballstadien besser für Hitter und welche besser für Pitcher sind.

Meine Daten stammen aus den MLB Park Factors von ESPN aus dem Jahr 2001 bis heute. Lassen Sie mich aber erst kurz darauf eingehen, warum für diese Analyse einige Einschränkungen gelten:

  • Ich bitte bei den Fans der White Sox, Cubs und Athletics um Entschuldigung dafür, dass ich die Stadien dieser Teams ausgelassen habe. Die ESPN-Daten zeigen nicht, auf welches Stadion in Chicago sie sich beziehen.
  • Stadion in Chicago sie sich beziehen. Für die Athletics gibt es nur Daten für zwei Jahre, auch wenn das Team seit den 60er-Jahren im selben Stadion spielt.
  • ESPN stellt Park Factors für bestimmte Arten von Hits bereit, sodass mit den entsprechenden Daten das beste Stadion für Singles, Home Runs usw. bestimmt werden könnte. Ich verwende nur die Daten, die auf der Anzahl der erzielten Runs in einem bestimmten Stadion basieren.

HINWEISE ZUR ANOVA UND ANOM

Bevor wir loslegen, noch einige Hinweise: ANOVA und ANOM sind Analysen, bei denen Zufallsstichproben aus einer Grundgesamtheit verwendet werden, um die Stichprobenergebnisse für eine größere Grundgesamtheit zu generalisieren. Es wäre schwierig zu behaupten, dass Jahr für Jahr erfasste Daten eine Zufallsstichprobe darstellen. Betrachten Sie diese Analyse daher bitte nicht als ernsthafte Schlussfolgerung. Die Ergebnisse sind aber trotzdem hilfreich, um den Unterschied zwischen den Fragen aufzuzeigen, die durch die verschiedenen Analysen beantwortet werden können.

Möchten Sie Ihre Analysekenntnisse ausbauen und Ihre Datenkompetenz auf die nächste Stufe bringen? Wir bieten sowohl Fernschulungen als auch Schulungen unter Anleitung an. Sprechen Sie mit unserem Team, um den richtigen Kurs für Sie und Ihr Team zu finden >

Die Nullhypothese für eine ANOVA ist, dass alle Mittelwerte der Vergleichsgruppen gleich sind. Eine ANOVA umfasst häufig Mehrfachvergleiche. Bei Mehrfachvergleichen werden die Unterschiede zwischen Mittelwerten von Gruppen betrachtet, um zu bestimmen, welche statistisch von den anderen abweichen und in welchem Umfang sie dies tun.

Die Nullhypothese für eine ANOM ist, dass alle Gruppenmittelwerte identisch mit dem Mittelwert aller Daten sind. Wenn die Nullhypothese einer ANOM wahr ist, ist auch die Nullhypothese der ANOVA wahr. Doch beim Zurückweisen der Nullhypothese zeigen sich die Unterschiede zwischen den Zielen der beiden Analysen.

STADIONANALYSE 1 MIT EINER EINFACHEN ANOVA

Für die erste Analyse verwende ich eine einfache ANOVA. Eine solche Analyse kann noch weiter vertieft werden, indem einzelne, besonders interessante Vergleiche ausgewählt werden. Hier vergleichen wir alle Stadien mit dem Stadion, in dem die wenigsten Runs erzielt wurden: Petco Park.

Möchten Sie mitmachen? Hier finden Sie ein Minitab Projekt mit dem Datensatz, den ich analysiert habe. Dieser Datensatz hat eine besondere Eigenschaft: Ich habe den Park-Factor-Rang vor dem Stadionnamen eingefügt. Wenn Minitab die Stadionnamen in den Ergebnissen alphabetisch sortiert, werden die Stadien hierdurch vom kleinsten zum größten Park Factor aufgeführt.

  1. Wählen Sie Statistik > Varianzanalyse (ANOVA) > Einfache ANOVA aus.
  2. Geben Sie im Feld Antwort, den Wert Runs ein.
  3. Geben Sie im Feld Faktor, den Wert Stadionnamen ein.
  4. Klicken Sie auf Vergleiche.
  5. Wählen Sie Hsu MCB.
  6. Wählen Sie im Feld Bester die Option Kleinster Mittelwert ist am besten.
  7. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Die Ergebnisse oben zeigen, welche Stadien für Hitter besser als Petco Park sind. Die Liste enthält 19 Stadien. Herausragend ist dabei Coors Field in Denver. Die Höhenlage von Denver ist bekannt als günstige Umgebung für Hitter.

Diese ANOVA-Informationen sind sehr hilfreich. Wir können die Stadien sehen, die für Hitter günstiger als Petco Park sind, sowie die Stadien, die sich nicht von Petco Park unterscheiden. Wenn wir verschiedene Mehrfachvergleiche durchführen würden, könnten wir jedes Stadion mit jedem anderen Stadion oder alle Stadien mit einem bestimmten einzelnen Stadion vergleichen. Schwerpunkt sind die Unterschiede zwischen den Gruppen. Mit einer ANOM wird eine andere Frage beantwortet. Was wäre, wenn die Stadien nach Stadien für Hitter, neutralen Stadien und Stadien für Pitcher klassifiziert werden sollten?

Die Punkte im Diagramm sind die mittleren Park Factors. Die Mittellinie stellt den Gesamtmittelwert dar. Die Linien außen sind Entscheidungsgrenzen, die zeigen, welche Stadien vom Gesamtmittelwert abweichen.

Holen Sie sich Ihre kostenlose 30-Tage-Demoversion der Minitab Statistical Software >

STADIONANALYSE 2 MIT EINER ANOM

Denken Sie daran: Mit einer ANOM wird nicht getestet, ob die Mittelwerte untereinander gleich sind, sondern ob sie dem Gesamtmittelwert entsprechen. Minitab erstellt eine Grafik, die die Ergebnisse übersichtlich darstellt. Sie können diese Schritte mit demselben Datensatz nachvollziehen, um die Ergebnisse selbst zu berechnen:

  1. Wählen Sie Statistik > Varianzanalyse (ANOVA) > Mittelwertanalyse aus.
  2. Geben Sie im Feld Antwort den Wert Runs ein.
  3. Geben Sie unter Normal im Feld Faktor 1 den Wert Stadionnamen ein.
  4. Klicken Sie auf OK.

Punkte im Diagramm sind die mittleren Park Factors. Die Mittellinie stellt den Gesamtmittelwert dar. Die Linien außen sind Entscheidungsgrenzen, die zeigen, welche Stadien vom Gesamtmittelwert abweichen.

Diese Daten enthalten 7 Stadien für Pitcher: Und 4 Stadien für Hitter:
  1. Petco Park
  2. T-Mobile Park
  3. Citi Field
  4. Marlins Park>
  5. Dodger Stadium
  6. Tropicana Field
  7. Oracle Park
  1. Coors Field
  2. Globe Life Park
  3. Fenway Park
  4. Chase Field

BESSERE ENTSCHEIDUNGEN DURCH STATISTISCHE ANALYSEN

Eine gute Entscheidung beruht auf einer Analyse, die die richtige Frage für Ihren jeweiligen Anwendungsfall beantwortet. Beachten Sie dabei die Unterschiede zwischen der ANOVA und der ANOM.

Bei der ANOVA gibt es zwei Kategorien:

  • Unterscheidet sich nicht von Petco Park
  • Besser für Hitter als Petco Park

Bei der ANOM gibt es drei Kategorien:

  • Kleiner als der Gesamtmittelwert
  • Unterscheidet sich nicht vom Gesamtmittelwert
  • Größer als der Gesamtmittelwert

Außerdem gibt es Unterschiede bei den Kategorisierungen. In der ANOVA unterscheidet sich das Busch Stadium nicht von Petco Park. Daher könnte man denken, dass dieses Stadion eher Pitcher begünstigt. In der ANOM unterscheidet sich das Busch Stadium nicht vom Gesamtmittelwert. Daher kann es im Hinblick auf Runs als neutrales Stadion betrachtet werden. In der ANOVA haben wir gesehen, dass 19 Stadien für Hitter besser als Petco Park waren. In der ANOM haben wir gesehen, dass 4 Stadien für Hitter besser als der Gesamtdurchschnitt waren.

Ausführlichere Informationen zu der Leistungsfähigkeit der Analytik finden Sie im folgenden Blog-Artikel:

Der Fall von Sahlen Field in der ANOM ist besonders interessant. Der Mittelwert von Sahlen Field erweckt den Anschein, dass es sich um ein günstiges Stadion für Hitter handelt, aber statistisch wird es nicht als Stadion für Hitter klassifiziert. Die Toronto Blue Jays haben dort nur zwei Saisons gespielt. Wenn es sich bei diesen Daten um eine Zufallsstichprobe handelte, könnten wir sehen, dass die Streuung in den Daten zu hoch und die Stichprobe zu klein ist, um statistisch zu belegen, dass Sahlen Field immer Hitter begünstigt. Diese Beziehung zwischen der Differenz zwischen den Mittelwerten und der Streuung innerhalb einer Gruppe ist ein wichtiger Vorteil von statistischen Analysen, bei denen die Streuung in den Daten berücksichtigt wird.

Analysen wie die ANOVA und ANOM bieten die Einblicke, die wir für bessere Entscheidungen auf der Grundlage von Daten benötigen – in diesem Fall in Bezug auf Baseballstadien Es gibt viele Möglichkeiten, um Ergebnisse aus dem Vergleich von Gruppen für eine bessere Entscheidungsfindung zu nutzen, sei es privat oder geschäftlich in praktisch allen Positionen in jeder Branche. Ein weiteres Ergebnis beim Vergleich von Gruppen finden Sie im Artikel dazu, wie die Riverview Hospital Association bestimmte Patientengruppen identifizierte, die schlechtere Zufriedenheitsbewertungen als andere Gruppen angaben, damit Verbesserungsinitiativen gezielt angesetzt werden konnten.