En quoi la transformation Box-Cox peut vous être utile

Minitab Blog Editor | 26 août, 2020

Imaginez que vous observez le déroulement d’une course en étant placé près de la ligne d'arrivée.

Lorsque les premiers coureurs (les plus rapides) arrivent, les écarts de temps de parcours entre eux sont souvent très faibles (quelques secondes), alors que pour les derniers coureurs (les plus lents), les écarts de temps entre eux peuvent devenir très importants.

Ceci est dû au fait que pour des temps de parcours longs une petite différence en termes de vitesse moyenne aura un impact très important sur les écarts de temps entre coureurs, tandis que pour des temps de parcours faibles, ces mêmes différences en termes de vitesse, auront un impact faible (mais décisif) sur ces écarts.

 

 

Ce phénomène est appelé "hétéroscédasticité" (non constance de la variance).

Dans cet exemple, l’amplitude de variation dépend de la moyenne (de petites variations pour des temps de parcours plus courts, de grandes variations pour des temps plus longs).

La distribution des temps de parcours ne suivra probablement pas la courbe en forme de cloche qui nous est familière (la distribution normale).

Elle sera probablement asymétrique avec une queue de distribution beaucoup plus allongée sur le côté droit.

La variabilité est faible du côté gauche de la distribution, avec une queue plus courte pour des durées plus faibles et une variabilité plus grande pour des durées plus longues, avec une queue plus longue sur le côté droit.

 

 

Pourquoi est-ce important ?

  • Modèles compliqués avec des interactions factices : si vous utilisez une régression ou un plan d'expériences sur des données asymétriques non normales, votre modèle final risque d’être biaisé par ce phénomène.

    Si un facteur a un effet significatif sur la moyenne, puisque la variabilité sera beaucoup plus grande pour une durée moyenne plus élevée, beaucoup d’autres facteurs sembleront aussi avoir un effet plus important lorsque la moyenne sera plus élevée.

    Ceci est dû non pas à un véritable effet des autres facteurs, mais plutôt à une variabilité non constante, plus élevée, qui affecte toutes les estimations des effets des facteurs dès lors que la moyenne est plus élevée.
    Ce phénomène générera probablement des interactions parasites en raison de cette variance non-constante, aboutissant à un modèle final très complexe avec beaucoup d’interactions peu réalistes.
  • Si vous effectuez une analyse de capabilité, l’hypothèse de normalité des données est cruciale. La non-normalité de vos données risque de biaiser les estimations de la capabilité de votre procédé.

 

La Transformation de Box-Cox

Pour résoudre ce problème vous pouvez transformer vos données vers la normalité en utilisant une transformation de type Box-Cox.

Minitab choisira pour vous la meilleure fonction mathématique possible pour transformer vos données.

L'objectif est d'obtenir une distribution normale des données après transformation et une variance constante.

Considérez la distribution asymétrique et non normale ci-dessous :

 

 

Si une transformation logarithmique est appliquée à cette distribution, les différences entre des valeurs plus petites seront élargies (parce que la pente de la fonction logarithmique est plus raide quand les valeurs sont petites) tandis que les différences entre les valeurs les plus grandes seront réduites (à cause de la pente très faible de la fonction logarithmique pour des valeurs plus grandes).

Si vous dilatez les différences au niveau de la queue de distribution à gauche et réduisez les différences sur la queue de droite, le résultat final sera une distribution normale symétrique avec une variance constante.

C’est la raison pour laquelle dans l’Assistant de Minitab, une transformation Box-Cox est suggérée systématiquement pour des données non-normales.

En ce qui concerne la régression ou les plans d'expériences, la transformation Box-Cox est une option disponible dans les boîtes de dialogue dans Minitab, pour transformer les données vers la normalité et éviter ainsi des estimations biaisées dans le modèle..

Le diagramme ci-dessus montre comment, grâce à une transformation de Box-Cox, effectuée par l'Assistant Minitab (dans une analyse de la capabilité), une distribution asymétrique a été transformée en une distribution tout à fait symétrique et normale (avec un test de normalité qui valide la normalité des données après transformation).

 

 

 

 

Conclusion : Transformation Box-Cox et échelle des données

Minitab cherchera la meilleure fonction de transformation possible, qui ne sera pas nécessairement une transformation logarithmique.

Suite à cette transformation cependant, l'échelle des données risque d’être complétement modifiée.

Après transformation, en observant un graphique de capabilité, on ne pourra probablement plus reconnaître l’échelle physique, naturelle et les valeurs typiques des données.

Toutefois, les estimations des indicateurs de capabilité Ppk et Pp seront, eux, fiables et basés sur une distribution normale.