L’analyse de régression génère une équation pour décrire la relation statistique entre une ou plusieurs variables prédictives et la variable de réponse. Après avoir utilisé le Logiciel statistique Minitab pour ajuster un modèle de régression, et vérifier l’ajustement par la vérification des valeurs résiduelles, vous voudrez interpréter les résultats. Dans cet article, je vais vous montrer comment interpréter les valeurs de p et les coefficients qui apparaissent dans la sortie pour l’analyse de régression linéaire.
Comment interpréter les valeurs P dans l’analyse de régression linéaire ?
La valeur p pour chaque terme teste l’hypothèse nulle que le coefficient est égal à zéro (aucun effet). Une faible valeur p (<0,05) indique que vous pouvez rejeter l’hypothèse nulle. En d’autres termes, un prédicteur qui a une faible valeur p est susceptible d’être un ajout significatif à votre modèle parce que les changements dans la valeur du prédicteur sont liés à des changements dans la variable de réponse.
Inversement, une valeur p plus importante (non significative) suggère que les changements dans le prédicteur ne sont pas associés à des changements dans la réponse.
Dans la sortie ci-dessous, nous pouvons voir que les variables prédictives du Sud et du Nord sont significatives parce que leurs deux valeurs p sont de 0,000. Cependant, la valeur p pour l’Est (0,092) est supérieure au niveau alpha commun de 0,05, ce qui indique qu’elle n’est pas statistiquement significative.
En règle générale, vous utilisez les valeurs de p pour déterminer les termes à conserver dans le modèle de régression. Dans le modèle ci-dessus, nous devrions envisager de supprimer l’Est.
Comment interpréter les coefficients de régression pour les relations linéaires ?
Les coefficients de régression représentent le changement moyen de la variable de réponse pour une unité de changement dans la variable prédictive tout en maintenant d’autres prédicteurs dans le modèle constant. Ce contrôle statistique que la régression fournit est importante parce qu’elle isole le rôle d’une variable de toutes les autres dans le modèle.
La clé pour comprendre les coefficients est de les considérer comme des pentes, et ils sont souvent appelés coefficients de pente. Je vais illustrer cela à partir de la droite ajustée ci-dessous, où je vais utiliser la taille d’une personne pour modéliser son poids. Tout d’abord, les résultats numériques obtenus dans Minitab :
La droite ajustée montre les mêmes résultats de régression graphiquement.
L’équation montre que le coefficient de la Taille en mètres est de 118,8 kilogrammes. Le coefficient indique que pour chaque mètre supplémentaire de hauteur, vous pouvez vous attendre à ce que le poids augmente en moyenne de 118,8 kilogrammes.
La ligne rouge ajustée montre graphiquement les mêmes informations. Si vous vous déplacez à gauche ou à droite le long de l’axe X par une quantité qui représente un changement d’un mètre de hauteur, la ligne ajustée monte ou descend de 118,8 kilogrammes. Cependant, ces tailles sont celles de filles d’âge moyen et vont de 1,3 m à 1,7 m. La relation n’est valable que dans cet intervalle de taille, de sorte que nous n’augmenterions ou diminuerions la taille par 1 mètre.
Si la ligne ajustée était horizontale (un coefficient de pente de zéro), la valeur prévue pour le poids ne changerait pas, peu importe la valeur de taille choisie. Ainsi, une faible valeur p suggère que la pente n’est pas nulle, ce qui suggère à son tour que les changements dans la variable prédictive sont associés à des changements dans la variable de réponse.
J’ai utilisé une droite ajustée parce qu’elle permet vraiment de rapprocher le calcul à la réalité. Cependant, les droites ajustées ne peuvent afficher les résultats que de la régression simple, qui est une variable prédictive et la réponse. Les concepts sont valables pour la régression linéaire multiple, mais j’aurais besoin d’une dimension spatiale supplémentaire pour chaque prédicteur supplémentaire pour représenter les résultats. C’est difficile à montrer avec la technologie d'aujourd’hui !
Prêt(e) pour une démonstration du logiciel d'analyse de données Minitab ? Ecrivez-nous >
Comment interpréter les coefficients de régression pour les relations curvilignes et les termes d’interaction ?
Dans l’exemple ci-dessus, la hauteur est un effet linéaire; la pente est constante, ce qui indique que l’effet est également constant le long de toute la ligne ajustée. Toutefois, si votre modèle nécessite des termes polynomiaux ou d’interaction, l’interprétation est un peu moins intuitive.
Pour rappel, les termes polynomiaux modélisent la courbure dans les données, tandis que les termes d’interaction indiquent que l’effet d’un prédicteur dépend de la valeur d’un autre prédicteur.
L’exemple suivant utilise un ensemble de données qui nécessite un terme quadratique (carré) pour modéliser la courbure. Dans la sortie ci-dessous, nous voyons que les valeurs p pour les termes linéaires et quadratiques sont significatives.
Les valeurs résiduelles (non montrées) indiquent un bon ajustement, de sorte que nous pouvons procéder à l’interprétation. Mais, comment interprétons-nous ces coefficients? Il est très utile de représenter cela à l’aide d’une courbe ajustée.
Vous pouvez voir comment la relation entre le réglage de la machine et la consommation d’énergie varie en fonction de l’endroit où vous commencez sur la courbe ajustée. Par exemple, si vous démarrez à un réglage de machine de 12 et augmentez le réglage de 1 unité, vous vous attendez à une diminution de la consommation d’énergie. Toutefois, si vous commencez à 25, une augmentation de 1 unité devrait augmenter la consommation d’énergie. Et si vous êtes autour de 20, la consommation d’énergie ne devrait pas varier énormément.
Un terme polynomial significatif peut rendre l’interprétation moins intuitive parce que le fait de changer la valeur du prédicteur varie en fonction de la valeur de ce prédicteur. De même, un terme d’interaction significatif indique que l’effet du prédicteur varie en fonction de la valeur d’un prédicteur différent.
Faites très attention lorsque vous interprétez un modèle de régression qui contient ce type de termes. Vous ne pouvez pas simplement regarder l’effet principal (terme linéaire) et comprendre ce qui se passe! Malheureusement, si vous effectuez une analyse de régression multiple, vous ne serez pas en mesure d’utiliser une droite d’ajustement pour interpréter graphiquement les résultats. C’est là que la connaissance physique/pratique du sujet est très précieuse !
Des lecteurs particulièrement attentifs auront peut-être remarqué que je n’ai pas encore indiqué comment interpréter la constante.
Assurez-vous de :
Découvrez et essayez gratuitement la version d'essai du logiciel d'analyse de données Minitab >