Cet article a originellement été écrit en langue anglaise. il traite de la comparaison sur trois cas différents des tests de normalité proposés par Minitab : Anderson-Darling (AD) proposé par défaut, Ryan-Joiner (RJ) et Kolmogorov-Smirnov (KS).
Nous avons comparé chacun de ces trois tests de normalité selon trois scénarios différents. Des données simulées ont été utilisées pour chaque cas, mais elles reflètent des situations très fréquentes, souvent rencontrées en pratique.
Le processus de fabrication produit des valeurs aberrantes de temps en temps. Dans cette simulation, 29 valeurs sont simulées à partir d'une loi normale (moyenne = 0, écart type = 1) et une valeur est simulée à partir d'une autre loi normale (moyenne = 0, écart type = 4).
Le processus de fabrication tend à dériver ce qui se traduit par un changement dans la moyenne de la distribution. Dans cette simulation, 15 valeurs sont simulées à partir d'une loi normale de moyenne 0 (m = 0, s = 1) et 15 valeurs sont simulées à partir d'une autre loi normale de moyenne 4 (m = 4, s = 1).
Les mesures suivent naturellement une distribution non-normale asymétrique, situation fréquente pour l’analyse de temps jusqu’à défaillance ou de mesures de résistance à l’effort. Pour ce scénario, 30 valeurs ont été simulées à partir d'une loi de Weibull (alpha = 1, beta = 1,5).
Ces trois scénarios n’ont pas été conçus pour évaluer la validité de l'hypothèse de normalité pour des tests qui sont plus robustes à la non-normalité et qui bénéficient du théorème central limite, comme par exemple le test t à 1-échantillon, t à 2-échantillons et les tests appariés.
Notre objectif est de détecter une non-normalité pour l’estimation de la proportion de pièces hors spécifications ou défectueuses (des analyses qui sont très sensibles à la normalité des données).
le test Ryan-Joiner est clairement le plus performant. La probabilité de détection de la présence de valeurs aberrantes est plus élevée que pour les autres tests.
Les résultats de la simulation sont présentés ci-dessous.
le test Anderson-Darling a été le meilleur avec une meilleure probabilité de détection d’un décalage de la moyenne.
Les résultats de la simulation sont ci-dessous.
Peu de différence est constatée entre le test Anderson Darling et le test Ryan Joiner.
Les résultats de la simulation sont affichés ci-dessous.
Le test d’Anderson-Darling n'a jamais été le pire des tests, mais il n'a pas été aussi efficace que le test de Ryan Joiner pour la détection d'une valeur aberrante située à 4-sigma de la moyenne.
Si vous analysez les données issues d'un procédé de fabrication qui tend à générer des valeurs aberrantes, le test Ryan-Joiner est sans doute le plus approprié.
Le test Ryan Joiner a été performant dans deux des scénarios, mais il n’a pas été efficace pour détecter une non-normalité lors d’un changement dans la moyenne des données.
Si vous analysez des données issues d'un procédé de fabrication qui tend à dériver en raison de causes spéciales, le test d'Anderson Darling est le plus approprié. Le test Kolmogorov Smirnov n'a pas été efficace dans tous les scénarios.
Lorsqu’un outil de mesure n’a pas une résolution suffisante pour pouvoir distinguer toutes les nuances entre pièces mesurées, les points du diagramme de probabilité peuvent apparaitre comme étant distribués par paquets, catégories distinctes, avec de nombreux points superposés/agglomérés, comme s’il s’agissait de valeurs discrètes ou arrondies.
Les tests d’Anderson-Darling et de Kolmogorov-Smirnov sont très sensibles à l'arrondi lorsque la distribution sous-jacente est normale, tandis que le test de Ryan-Joiner est beaucoup plus robuste dans ce contexte : il est donc préférable d’utiliser le test Ryan Joiner pour des valeurs arrondies.
Voyez le diagramme ci-dessous.