En tant qu'ingénieur en génie chimique, vous développez et concevez probablement des procédés de fabrication de produits chimiques. Contrairement à d'autres ingénieurs, il est possible que vous deviez appliquer les principes de la chimie, de la biologie, de la physique et des maths afin de résoudre des problèmes qui impliquent la production ou l'utilisation de produits chimiques, de carburant, de médicaments, de produits alimentaires, et bien d'autres encore. Le temps dédié aux matières scientifiques est considérable, et si vous n'avez pas passé autant de temps que vous l'auriez souhaité sur les statistiques, Minitab est là pour vous aider.
Nous allons maintenant vous expliquer en quoi l'analyse de la variance (ANOVA) peut être l'arme secrète de l'ingénieur en génie chimique.
De nombreux procédés industriels impliquent de réaliser des expériences dont le but est de savoir si des groupes sont différents. En termes statistiques, nous nous intéressons à un facteur (par exemple, un type de catalyseur) et nous souhaitons comprendre si les niveaux de ce facteur (catalyseur 1, catalyseur 2, catalyseur 3 et catalyseur 4) sont significativement différents les uns des autres du point de vue statistique. Lorsque les mesures dans les groupes sont continues et que certaines autres hypothèses sont vérifiées, nous utilisons l'ANOVA afin de comparer les moyennes des groupes. En fait, le nom « analyse de la variance » n'est pas tout à fait approprié puisque nous voulons comparer les moyennes des groupes. Cependant, en analysant la variation au sein des données dans les niveaux de groupe et entre les groupes, nous pouvons déterminer si les moyennes de groupe sont statistiquement différentes.
L'analyse ANOVA teste l'hypothèse nulle selon laquelle les moyennes des populations (représentées par le symbole µ) sont toutes égales. Nous estimons les moyennes des populations à l'aide des moyennes des échantillons. Si cette hypothèse nulle est rejetée, nous en concluons que les moyennes des populations ne sont pas toutes égales.
L'hypothèse nulle est la suivante :
Ho : µCatalyseur 1 = µCatalyseur 2 = µCatalyseur 3 = µCatalyseur 4
En clair, nous supposons que les moyennes sont toutes égales dans les groupes, et nous rassemblons des preuves qui vont dans ce sens. Autrement dit, si nous observons de grandes différences entre ces moyennes, nous allons probablement rejeter notre hypothèse et supposer plutôt qu'il existe des différences au sein des niveaux de groupe.
Imaginons qu'une ingénieure en génie chimique souhaite comparer le rendement d'un produit en utilisant quatre catalyseurs différents. Elle fait chauffer le catalyseur avec le produit pour obtenir une réaction. À l'aide de l'ANOVA, elle peut déterminer si le rendement du produit diffère de façon significative lorsqu'elle utilise différents catalyseurs.
Elle commence d'abord par recueillir ses données, comme dans le tableau ci-dessous.
Ensuite, elle exécute une ANOVA à un facteur.
La valeur de p pour l'ANOVA de rendement du produit est faible, ce qui indique qu'il est très peu probable que nous ayons pu observer ces résultats si l'hypothèse nulle était vraie, c'est-à-dire, que les moyennes de catalyseur étaient toutes égales. Puisque le seuil de signification de la valeur de p est inférieur à 5 % (nous utilisons une valeur alpha de 0,05), nous rejetons l'hypothèse nulle. Nous concluons que le rendement moyen du produit diffère dans les groupes de catalyseurs.
L'ingénieure sait que certaines des moyennes de groupe sont différentes. Elle va donc se poser la question suivante : lesquelles sont différentes ?
Alors que l'ANOVA nous a appris que certaines des moyennes de groupe diffèrent, l'ingénieure a besoin d'une comparaison plus avancée pour comprendre lesquelles sont différentes. C'est dans ce but que Minitab fournit les « comparaisons ». Dans notre exemple, l'ingénieure en génie chimique utilise les comparaisons de Tukey pour vérifier de façon formelle les différences entre les paires de groupes afin de comprendre lesquelles sont significativement différentes du point de vue statistique.
Le test de comparaisons multiples de Tukey est le test le plus conservateur parmi ceux qui peuvent être utilisés pour déterminer les moyennes d'un ensemble qui diffèrent du reste. La méthode de Tukey est utilisée une fois l'ANOVA réalisée (c'est pourquoi elle est parfois appelée test post-hoc) et permet de créer des intervalles de confiance pour toutes les différences deux à deux entre les moyennes de niveaux des facteurs tout en contrôlant le taux d'erreur de famille à un niveau que vous indiquez.
Dans notre exemple, le graphique qui comprend les intervalles de confiance simultanés de Tukey montre que l'intervalle de confiance pour la différence entre les moyennes des catalyseurs 2 et 4 s'étend de 3,114 à 15,886. Cette plage de valeurs n'inclut pas zéro, ce qui indique que la différence entre ces moyennes est significative. L'ingénieure peut utiliser cette estimation de la différence afin de déterminer si cette dernière est significative dans la pratique.
À l'inverse, les intervalles de confiance pour les paires de moyennes restantes incluent toutes zéro, ce qui indique que les différences ne sont pas significatives.
C'est une bonne question, qui revient souvent ! La réponse est en lien avec le risque de faire une erreur et, plus spécifiquement, le risque de conclure à tort qu'il existe une différence statistiquement significative, que nous appelons notre risque alpha. Lorsque nous effectuons un test, il existe 5 % de probabilité qu'on observe une différence, alors qu'il n'y en a pas. Pour les quatre catalyseurs, il faudrait effectuer six tests t.
Quelle est la probabilité d'observer au moins un résultat significatif dû au hasard ?
P(au moins un résultat significatif) = 1 − P(aucun résultat significatif)
= 1 − (1 − 0,05)6
≈ 0,264
Ainsi, en prenant en compte six tests, nous avons 26 % de probabilité d'observer au moins un résultat significatif, même si, en fait, tous les tests ne le sont pas. Les tests post-hoc contrôlent le taux d'erreur dans l'expérience. Pour faire simple, nous voulons nous assurer que la probabilité que nous déclarions à tort qu'une paire de catalyseurs est différente soit toujours de 5 %. Et c'est exactement ce que fait le test de Tukey pour nous !
L'utilisation de l'ANOVA permet à notre ingénieure en génie chimique de tester des mélanges afin de voir si les résultats sont statistiquement significatifs. Tout aussi important, elle peut également déterminer si le groupe tout entier est différent ou si seul un sous-segment du groupe l'est en utilisant des tests de comparaison. Dans notre exemple, seuls les catalyseurs 2 et 4 sont significativement différents du point de vue statistique en ce qui concerne le rendement du produit. D'après ces informations, l'ingénieure peut commencer à étudier les autres catalyseurs afin de déterminer celui qui est le plus rentable, qui a la plus grande durée de conservation ou qui est le plus accessible, en sachant qu'il produira une quantité similaire de produit.