Après avoir utilisé une régression linéaire multiple pour générer un modèle qui contient plusieurs variables significatives, vous vous poserez probablement la question suivante : « Quelle est la variable la plus importante ? »
Dans cet article, Vous apprendrez que certaines statistiques ne sont pas pertinentes et peuvent vous induire en erreur. Nous présenterons celles vraiment utiles pour identifier les variables les plus importantes dans votre modèle de régression.
Les coefficients de régression décrivent la relation entre variables prédictives et réponse. La valeur du coefficient représente la variation moyenne de la réponse en fonction d'une augmentation d'une unité du prédicteur.
Il est tentant d’en conclure que les variables ayant des coefficients de régression plus importants génèrent un changement plus important dans la réponse, mais cela pourrait vous induire en erreur.
Les échelles des unités sont souvent différentes pour les variables prédictives, ce qui rend impossible une comparaison directe. Par exemple, si, pour un même jeu de données, vous utilisez des grammes dans un modèle et des kilogrammes dans un autre, les coefficients de régression pour le poids seront complétement différents alors que l'importance de la variable reste identique.
Conclusion
Les coefficients les plus importants peuvent être affectés par des effets d’échelle, et ne permettent pas d’identifier les variables prédictives les plus importantes.
Des valeurs de p faibles indiquent qu’une variable est significative et qu’elle doit être conservée dans le modèle.
Cependant, la valeur de P prend en compte des caractéristiques qui n’ont rien à voir avec l’importance d’une variable, par exemple la précision de l’estimation et la taille de l'échantillon.
Même des effets peu importants dans le monde réel pourraient avoir des valeurs de p très faibles. Un effet statistiquement significatif risque d’avoir, en réalité, peu d’influence pratique.
Les valeurs de p faibles ne permettent pas nécessairement d’identifier les variables prédictives qui sont importantes en pratique.
Nous avons écarté certaines statistiques qui semblaient évidentes mais qui ne permettent pas d’évaluer l'importance relative des variables. D’autres statistiques sont plus efficaces pour déterminer les variables prédictives les plus importantes dans un modèle de régression.
Nous avons vu qu’à cause des effets d’échelle, il ne faut pas comparer directement les coefficients de régression. Cependant, si vous standardisez ces coefficients de régression de sorte qu'ils soient basés sur la même échelle, ils deviennent directement comparables.
Pour obtenir des coefficients standardisés, normalisez les valeurs pour tous vos prédicteurs continus. Dans Minitab 17, vous pouvez le faire facilement en cliquant sur le bouton Codage dans la boîte de dialogue de la régression. Sous « Normaliser les prédicteurs continus », choisissez 'Soustraire la moyenne, puis divisez par l'écart-type' car cette option permet de centrer les prédicteurs et de les placer sur une échelle comparable.
Après avoir généré un modèle de régression à l'aide de vos prédicteurs standardisés, considérez les valeurs des coefficients « codés » qui représentent les coefficients normalisés. Ce codage met les différents prédicteurs à la même échelle et vous permet de les comparer. Les coefficients standardisés représentent la variation moyenne de la réponse pour une variation d'un écart type dans le prédicteur.
Recherchez la variable prédictive avec la plus grande valeur absolue pour le coefficient codé.
La valeur du R² représente la proportion de la variation de la réponse qui est expliquée par un modèle. La régression multiple dans l’Assistant de Minitab permet de calculer l'augmentation du R² pour chaque variable (sa contribution spécifique au R²) lorsqu'elle est ajoutée dans un modèle qui contient déjà toutes les autres variables (impact incrémentiel d’une variable).
Cette analyse du R² traite chaque variable comme la dernière entrée dans le modèle, l’augmentation représente le pourcentage de variation de la réponse, qui est expliqué intrinsèquement par cette variable et que les autres variables déjà présentes dans le modèle ne pouvaient pas expliquer.
Intéressez-vous à la variable prédictive qui est associée à la plus grande augmentation du R².
L'exemple ci-dessous montre un modèle de régression qui comporte de nombreux prédicteurs. Il s’agit de variables qui affectent la consommation d’énergie d’une usine.
Les résultats ont été générés par une analyse de régression dans Minitab, en allant à Stat> Régression> Régression> Ajuster un modèle de régression. J'ai standardisé les prédicteurs continus en utilisant la fonction « Codage » dans la boîte de dialogue afin que nous puissions voir les coefficients codés (normalisés). Voici le tableau des coefficients codés :
‘Temps total chaînes fabrication’ est clairement le paramètre le plus important (coefficient codé : 3021) vient ensuite la température maximale (coefficient codé : 977,1).
Cependant si l’on considère les coefficients non-codés (voir l’équation du modèle ci-dessous), l’importance de la variable ‘Temps total chaînes fabrication’ ne ressort plus du tout, par rapport aux autres coefficients, à cause des effets d’échelles.
Le graphique ci-dessous a été généré par l’Assistant de Minitab à partir des mêmes données. Vous pouvez lancer cette analyse en allant à: Assistant> Régression> Régression multiple. Le rapport de l'Assistant de Minitab affiche l'impact incrémentiel des variables sur le R² (diagramme à barres en haut à droite dans le rapport). De nouveau, ‘Temps total chaînes fabrication’ ressort comme étant clairement le paramètre le plus important, vient ensuite la température maximale avec une importance bien moindre cependant. Les autres variables ont une importance négligeable.
Les valeurs de p ou les coefficients de régression ne sont pas des indicateurs fiables de l’importance relative d’une variable, dans une régression. Basez-vous plutôt sur les coefficients codés ou l’impact incrémentiel d’une variable sur le R².