Cet article a été initialement écrit en anglais. Nous l'avons traduit et expliqué la valeur ajoutée d'un test d'équivalence par rapport à un test Student t dans le domaine de l'amélioration de la qualité.
Les tests d'équivalence sont fréquemment utilisés dans le domaine biomédical. Les fabricants de médicaments cherchent souvent à démontrer qu’un médicament générique est équivalent à un médicament de référence, agréé par les autorités réglementaires.
Les tests d'équivalence du logiciel de statistiques Minitab vous permettent de disposer d’un test statistique supplémentaire pour comparer la moyenne d'un échantillon à une valeur de référence ou à un échantillon différent.
Supposons qu’un fournisseur propose un composant moins cher qui pourrait se substituer à une pièce plus coûteuse actuellement en service sur un équipement de la ligne de production.
Ce nouveau composant plus compétitif est censé être aussi bon que l'actuel et ne pas modifier les caractéristiques finales du produit.
Pour s'assurer que la substitution n'aura pas d’impact négatif sur la qualité, nous avons prélevé deux échantillons représentatifs : un échantillon produit avec le nouveau composant et l’autre avec le composant actuel.
Un test t, accessible en sélectionnant le sous-menu Stat > Statistiques Elémentaires > Test t à deux échantillons dans le logiciel statistique de Minitab, peut être utilisé pour évaluer si les caractéristiques du produit différent en fonction des deux types de pièces :
Test t à deux échantillons
Puisque la valeur de p n'est pas inférieure au niveau seuil alpha (0,05), nous en concluons que les moyennes des pièces ne diffèrent pas si le nouveau composant remplace l'actuel.
La société décide donc de changer de fournisseur, persuadée que l'analyse statistique a démontré qu'ils peuvent économiser de l'argent avec la nouvelle pièce sans compromettre la qualité du produit.
Il reste pourtant un problème mineur : si l’analyse statistique a démontré que les moyennes des pièces ne différent pas, elle n'a pas vraiment démontré que les pièces sont identiques.
Habituellement, l'hypothèse alternative (H1) représente ce que vous cherchez à démontrer.
Quand vous utilisez un test t, la question posée est la suivante : « Ai-je assez de preuves pour démontrer, au-delà de tout doute raisonnable (le niveau d’alpha), que les moyennes des populations sont différentes ? ».
Tout comme dans l'exemple avec de multiples moyennes, vous devez avoir un nombre suffisant d'observations pour chaque terme dans le modèle. Des simulations montrent qu’une bonne règle de base est d'avoir 10-15 observations par terme dans une régression linéaire multiple.
Les hypothèses sont les suivantes :
Si la valeur de p est inférieure au niveau d’alpha, on en conclut que les moyennes diffèrent de manière significative.
Cependant si la valeur de p n'est pas inférieure à alpha, vous n'avez pas non plus montré que les moyennes sont égales. Vous n'avez juste pas assez de preuves pour montrer qu'elles ne sont pas égales.
Si vous n'avez pas d’éléments de preuve suffisants pour prouver que A est vrai, vous n'avez pas non plus montré que A est faux.
Les tests d'équivalence ont été spécifiquement développés pour répondre à ce problème. Dans un test d'équivalence, les hypothèses nulles et alternatives sont inversées par rapport à un test t de Student.
Nous utiliserons la présomption d'innocence, par analogie, pour illustrer ce concept.
Dans une cour de justice, la charge de la preuve est de démontrer la culpabilité. Par conséquent, le suspect est présumé innocent (H0), jusqu'à preuve de sa culpabilité (H1).
Pour l'opinion publique, relayée par les médias, la charge de la preuve est souvent inversée : le suspect est présumé coupable (H0), jusqu'à ce que l'innocence soit prouvée (H1).
Le déplacement de la charge de la preuve peut apporter à des conclusions complètement différentes. L'opinion publique est -en général- outragée quand un suspect, présumé coupable selon elle, est laissé libre parce qu'il n'y avait pas d’éléments de preuve suffisants pour prouver sa culpabilité dans la salle d'audience. Tant que l'opinion publique et la salle d'audience inverseront les hypothèses nulles et alternatives, ils tireront souvent des conclusions complétement différentes basées sur les mêmes preuves.
Pourquoi leurs hypothèses sont-elles différentes en premier lieu ?
Chacun semble avoir une idée très différente de ce qui constitue l’événement le plus grave, le plus défavorable. Pour le système judiciaire, l'erreur la plus grave est de condamner une personne innocente (plutôt que de laisser une personne coupable en liberté). L'opinion publique semble souvent convaincue du contraire.
Un déplacement de la charge de la preuve, pourrait modifier la conclusion de notre responsable qualité du premier exemple.
Pour éviter de perdre des clients, la société pourrait supposer a priori que la qualité n'est pas identique en utilisant les pièces meilleur marché — ce qui constituerait l’événement le plus défavorable, hypothèse que l’on aimerait pouvoir rejeter (H0).
Le esponsable qualité décide de réaliser un test d'équivalence en sélectionnant le sous-menu stat > Test d'équivalence > deux échantillons de Minitab car le test d’équivalence est utilisé pour démontrer de façon rigoureuse que l’hypothèse nulle peut être rejetée et que les moyennes sont identiques (H1).
En utilisant le test d'équivalence sur les mêmes données, les résultats indiquent maintenant qu'il n'y a pas de preuve suffisante pour affirmer que les moyennes sont identiques. Nous ne pouvons pas rejeter Ho.
La société ne peut plus être sûre que la qualité du produit ne sera pas affectée si elle remplace la pièce. En utilisant un test d'équivalence, la société a modifié ses critères, elle valide différemment une différence éventuelle dans les moyennes des échantillons produits par le processus.
En observant les résultats affichés ci-dessus, vous remarquerez une autre différence du test d'équivalence par rapport à un test t standard. Deux tests t unilatéraux sont simultanément utilisés pour tester l'hypothèse nulle. En outre, le test utilise une zone d'équivalence qui précise quelle différence entre les moyennes est considérée à vos yeux comme pratiquement insignifiante.
À quelle distance la moyenne devrait–elle être située par rapport à une moyenne de référence pour que l’on puisse les considérer comme «équivalentes» d’un point de vue pratique ?
La zone d'équivalence est définie par une limite d’équivalence inférieure (LEI) et / ou une limite supérieure d'équivalence (LES). Les limites d'équivalence représentent des limites d'acceptabilité pour la différence. Toute différence par rapport aux moyennes située à l’intérieur de cette zone d’acceptabilité est considérée comme étant sans importance.
Dans certains domaines, tels que l'industrie pharmaceutique, les limites d'équivalence sont fixées selon des directives réglementaires.
S'il n'y a pas de lignes directrices pour votre domaine, vous devrez définir la zone d'équivalence en utilisant votre connaissance du produit ou du procédé.
Il n'existe pas un statisticien sur terre qui pourrait vous aider à définir ces limites, parce la décision ne s'appuie pas sur une théorie statistique, tout simplement. Il s’agit de prendre en compte les implications tangibles d’un changement de la moyenne pour vous ou votre client.
Quel est l’impact d’une différence de 0,005 mg dans la moyenne? Quelles sont les conséquences d’un changement de 10% dans le processus ? De toute évidence, les critères ne peuvent pas être les mêmes pour le diamètre d'un stent ou le diamètre d'une canette de boisson gazeuse.
Pour choisir entre un test d'équivalence et un test t standard, considérez ce que vous désirez prouver.
Ce que vous cherchez à prouver sera exprimé par l'hypothèse alternative (H1) et nécessite la charge de la preuve.
Si vous désirez prouver rigoureusement que les deux moyennes sont égales, ou qu'une moyenne est égale à une valeur cible, vous devrez utiliser un test d'équivalence au lieu d'un test t standard.