La bataille des terrains de baseball : comparaison entre ANOVA et ANOM

Cody Steele | 11/24/2021

Les Sujets: analyses predictives, ANOM

En ce mois d'octobre, nous voilà en pleine saison de baseball et les équipes restantes de la Ligue majeure de baseball sont aux prises pour intégrer la Série Mondiale.  Les passionnés de baseball s'en donnent à cœur joie et, pour ma part, étant donné que j'aime autant ce sport que les statistiques, je me suis dit que c'était l'occasion rêvée d'analyser des données sur le baseball !

Dans cet article, je vais faire la distinction entre deux types d'analyses proches qui sont simplifiées grâce à l'utilisation de Minitab Statistical Software : l'analyse de la variance (ANOVA) et l'analyse des moyennes (ANOM). Pour illustrer les différences entre ces deux analyses, je vais répondre à la question suivante : quels terrains de baseball sont les plus adaptés aux batteurs et quels terrains sont les plus adaptés aux lanceurs ? 

Mes données sont tirées des facteurs sur les terrains publiés par le site Web sportif ESPN et concernent la période allant de 2001 à aujourd'hui. Je vais commencer par vous expliquer pourquoi ces analyses doivent faire l'objet de quelques mises en garde : 

  • Toutes mes excuses aux fans des White Sox de Chicago, des Cubs de Chicago et des Athletics d'Oakland, car j'ai écarté les terrains de ces équipes. En effet, les données d'ESPN ne font pas la distinction entre les deux terrains de Chicago.  
  • D'autre part, les données sur les Athletics se limitaient à deux années, alors même qu'ils ont joué dans le même stade depuis les années 1960.  
  • ESPN présente les facteurs sur les terrains en fonction de chaque type de coup sûr. Nous avons donc pu utiliser les données afin d'identifier le meilleur terrain pour les coups simples, les coups de circuit, etc. Je vais uniquement utiliser les données sur le nombre de points marqués sur chaque terrain. 

QUELQUES REMARQUES CONCERNANT LES ANALYSES ANOVA ET ANOM 

Avant de nous lancer, voici quelques points à prendre en compte : l'ANOVA et l'ANOM sont des analyses qui ont recours à des échantillons aléatoires tirés d'une population pour ensuite généraliser les résultats des échantillons sur une population plus large. Il est exagéré de considérer que des données année par année représentent un échantillonnage aléatoire ; ces analyses ne sont donc en aucun cas des extrapolations sérieuses. Leurs résultats restent cependant utiles pour illustrer la différence entre les questions auxquelles elles répondent. 

Etes-vous prêt(e) à booster vos compétences analytiques et à consolider votre expertise des données ? 

Découvrir le module d'analyse prédictive  de Minitab

 

L'hypothèse nulle d'une analyse ANOVA est que les moyennes des groupes témoins sont égales. Une analyse ANOVA comprend souvent des comparaisons multiples. Ces comparaisons multiples examinent les différences entre les moyennes des groupes pour identifier celles qui sont statistiquement différentes et la mesure dans laquelle elles sont différentes. 

L'hypothèse nulle de l'ANOM est que toutes les moyennes des groupes sont égales à la moyenne de toutes les données. Si l'hypothèse nulle de l'ANOM est vraie, c'est également le cas de celle de l'ANOVA. Le rejet de l'hypothèse nulle permet d'obtenir la différence entre les objectifs analytiques. 

 

ANALYSE N°1 DES TERRAINS DE BASEBALL À L'AIDE D'UNE ANOVA À UN FACTEUR

Dans le cadre de la première analyse, je vais utiliser un test ANOVA à un facteur. Nous pouvons même aller plus loin dans ce type d'analyse en choisissant des comparaisons précises qui nous intéressent.  Dans notre cas, nous comparons l'ensemble des terrains au terrain sur lequel le nombre de points marqués est le plus faible : Petco Park. 

Si vous souhaitez suivre cette analyse, voici un projet Minitab 20.4 comportant le fichier de données que j'ai analysé. Ce fichier est unique, car j'ai ajouté le rang du facteur de chaque terrain avant son nom. Ainsi, lorsque Minitab classe par ordre alphabétique les noms des terrains, les terrains sont classés du plus petit au plus grand facteur de terrain. 

  1. Sélectionnez Stat > ANOVA > Un facteur
  2. Dans la zone Réponse, saisissez Points
  3. Dans la zone Facteur, saisissez Noms des terrains
  4. Cliquez sur Comparaisons
  5. Sélectionnez MCB de Hsu
  6. Dans la zone Meilleur, sélectionnez Le plus petit est le meilleur
  7. Cliquez sur OK dans chaque boîte de dialogue. 

Les résultats ci-dessus montrent les terrains qui sont mieux que Petco Park pour les batteurs. La liste comprend 19 terrains, dont le Coors Field à Denver. Il est bien connu que l'altitude de cette ville crée un environnement favorable aux batteurs.  

Les informations fournies par l'ANOVA sont très utiles. Nous pouvons voir les terrains qui sont mieux que Petco Park pour les batteurs et les terrains qui ne présentent pas de différences par rapport à Petco Park. Si nous faisions plusieurs ensembles de comparaisons multiples, nous pourrions comparer chaque terrain à l'ensemble des autres terrains, ou bien chaque terrain à un seul autre terrain que nous aurions choisi. Nous nous intéressons principalement aux différences entre les groupes.

Avec l'ANOM, nous répondons à une autre question : Et si nous voulions répartir les terrains en trois catégories : les terrains pour les batteurs, les terrains neutres et les terrains pour les lanceurs ? 

Les points sur le graphique représentent les facteurs moyens sur les terrains. La ligne centrale représente la moyenne globale. Les lignes extérieures sont les limites de décision qui montrent les parcs différents de la moyenne globale. 

Téléchargez une version d'essai de Minitab Statistical Software :

Je fais un essai gratuit du logiciel Minitab 

 

ANALYSE N°2 DES TERRAINS DE BASEBALL À L'AIDE D'UNE ANOM

N'oubliez pas que l'ANOM ne vérifie pas si les moyennes sont égales les unes aux autres, mais si elles sont égales à la moyenne globale. Minitab crée un graphique afin de faciliter la compréhension des résultats. Vous pouvez suivre ces étapes avec le même fichier de données afin d'obtenir les résultats : 

  1. Sélectionnez Stat > ANOVA > Analyse des moyennes
  2. Dans la zone Réponse, saisissez Points
  3. Sous Normal dans Facteur 1, saisissez Noms des terrains
  4. Cliquez sur OK

Les points sur le graphique représentent les facteurs moyens sur les terrains. La ligne centrale représente la moyenne globale. Les lignes extérieures sont les limites de décision qui montrent les parcs différents de la moyenne globale. 

Ces données comprennent 7 terrains pour les lanceurs : 

Et 4 terrains pour les batteurs : 

  1. Petco Park 
  2. T-Mobile Park 
  3. Citi Field 
  4. Marlins Park 
  5. Dodger Stadium 
  6. Tropicana Field 
  7. Oracle Park 
  1. Coors Field 
  2. Globe Life Park 
  3. Fenway Park 
  4. Chase Field
     

 

L'ANALYSE STATISTIQUE PERMET DE MEILLEURES PRISES DE DÉCISION 

Il est indispensable d'avoir recours à une analyse qui répond à la bonne question dans votre situation pour prendre les bonnes décisions. Vous remarquerez les différences entre l'ANOVA et l'ANOM.  

Dans le cas de l'analyse ANOVA, nous obtenons deux catégories : 

  • Sans différence par rapport à Petco Park 
  • Mieux que Petco Park pour les batteurs 

Dans le cas de l'ANOM, nous obtenons trois catégories : 

  • Moins élevé que la moyenne globale 
  • Sans différence par rapport à la moyenne globale 
  • Plus élevé que la moyenne globale 

Vous remarquerez également les différences entre les catégories. Dans l'analyse ANOVA, Busch Stadium ne présente pas de différence par rapport à Petco Park ; nous pourrions donc penser que ce terrain favorise les lanceurs. Dans l'analyse ANOM, Busch Stadium ne présente pas de différence par rapport à la moyenne globale ; nous pourrions donc penser qu'il s'agit d'un terrain neutre pour ce qui est des points. Dans l'analyse ANOVA, nous avons vu que 19 terrains étaient mieux que Petco Park pour les batteurs. Dans l'analyse ANOM, nous avons vu que 4 terrains étaient mieux que la moyenne globale pour les batteurs.  

Pour une exploration plus fine de la puissance des analyses, lisez cet article de blog associé :

Je consulte l'article à propos de  l'importance de l'analyse prédictive

Le cas de Sahlen Field dans l'ANOM est intéressant. La moyenne de Sahlen Field laisse penser que ce terrain est adapté aux batteurs, mais il n'est pourtant pas classé comme terrain pour batteurs dans les statistiques. Les Blue Jays de Toronto n'y ont joué que lors de deux saisons. Si ces données constituaient un échantillonnage aléatoire, nous pourrions constater que les variations de données sont trop importantes et que l'échantillon est trop restreint pour prouver statistiquement que Sahlen Field est systématiquement un terrain pour les batteurs. La relation entre la différence entre les moyennes et les variations au sein d'un même groupe est un avantage considérable de l'utilisation d'analyses statistiques qui prennent en compte les variations de données. 

Les analyses statistiques comme l'ANOVA et l'ANOM nous donnent l'éclairage nécessaire afin de prendre de meilleures décisions fondées sur les données, dans ce cas, concernant des terrains de baseball. Les résultats tirés des comparaisons de groupes peuvent vous aider sur bien des aspects à prendre de meilleures décisions dans votre travail quotidien, dans presque tous les postes et tous les secteurs. Si vous souhaitez voir les résultats d'une autre comparaison de groupes, consultez cette étude de cas pour découvrir comment la Riverview Hospital Association a identifié des groupes de patients spécifiques qui attribuaient des scores de satisfaction plus bas que les autres groupes, ce qui a permis à l'association de bien orienter ses procédés d'amélioration.