Lors de l’évaluation de données à l’aide d’un modèle linéaire généralisé, l’insertion de covariables peut améliorer considérablement l’exactitude du modèle et avoir un effet significatif sur les résultats de l’analyse finale.
Dans un modèle linéaire généralisé, une covariable est un prédicteur continu, contrôlable ou non.
Prenez le cas, par exemple, d’une entreprise de textiles qui utilise trois machines différentes pour la production de fibres monofilament.Supposons que vous cherchiez à établir si la résistance à la rupture des fibres diffère selon la machine utilisée.
Des données ont été collectées sur la résistance et le diamètre pour 5 fibres choisies aléatoirement sur chaque machine, comme indiqué ci‐dessous.
Etant donné la corrélation étroite entre la résistance de la fibre et son diamètre, le diamètre de la fibre a été relevé afin de pouvoir être utilisé comme covariable.
Lors de l’utilisation d’une covariable, vous devez d’abord vérifier qu’il y a corrélation linéaire entre la covariable et la réponse.
Vous pouvez le faire avec le logiciel de statistiques Minitab en analysant les données avec une droite d’ajustement.
Evaluez la position des données par rapport à la droite d’ajustement et dans quelle mesure R² est proche d’un « ajustement parfait » (100 %).
Dans le cas de l’exemple de la production de fibres, la droite d’ajustement indique une corrélation linéaire étroite (87,2%) entre le diamètre et la résistance:
Après vérification de la corrélation linéaire entre la covariable et la réponse, vous pouvez effectuer l’analyse MLG (Modèle Linéaire Généralisé) en incluant la covariable.
Le logiciel Minitab affiche les résultats suivants pour les données de production de fibres :
où S est l'estimation de la variabilité moyenne.
La statistique F pour les machines est 2,61 et la valeur de p est 0,118. Etant donné que la valeur de p est > 0,05, vous ne devez pas rejeter l'hypothèse nulle selon laquelle les résistances des fibres ne diffèrent pas selon la machine utilisée. Nous supposons que les résistances des fibres sont identiques sur toutes les machines.
Remarquez que la statistique F pour le diamètre (covariable) est 69,97 avec une valeur de p de 0,000. Ceci indique un effet significatif de la covariable. Le diamètre a une incidence statistiquement significative sur la résistance des fibres.
Supposons à présent que l’on effectue de nouveau l’analyse, sans inclure la covariable.
Vous obtenez les résultats suivants:
Notez que la statistique F est 4,09 avec une valeur de p de 0,044. En l’absence de la covariable dans le modèle, nous rejetons l’hypothèse nulle au niveau de signification de 5 % et concluons que les résistances des fibres diffèrent selon la machine utilisée.
Cette conclusion est complètement à l’opposé de notre conclusion pour l’analyse incluant la covariable. Cet exemple montre comment l’omission d’une covariable dans une analyse peut produire des résultats trompeurs.
Référence bibliographique :
D. C. Montgomery (1991). Design and Analysis of Experiments, 3ème édition. John Wiley & Sons, Inc.