Qu'est-ce qu'un modèle de régression surajusté ?

Minitab Blog Editor | 8/20/2020

Les Sujets: analyse de régression

Cet article a été initialement écrit en anglais et publié sur le blog Minitab. Nous l'avons traduit et expliqué comment détecter et éviter ce problème.

Le surajustement d’un modèle de régression se produit lorsque vous tentez d'estimer trop de paramètres à partir d'un échantillon de taille trop faible.

Le surajustement d’un modèle statistique constitue un danger réel. A cause d’un surajustement, les coefficients de régression, les valeurs estimées de p et le R-carré risquent de devenir peu fiables.

Un modèle « surajusté » est un modèle inutilement complexe, qui prend en compte le bruit aléatoire et les variations erratiques dans votre échantillon spécifique et ne reflète plus la population générale. Si vous sélectionnez un nouvel échantillon à partir de la population (autre que l’échantillon initial) avec ses propres variations aléatoires, erratiques, votre modèle surajusté initial ne sera plus valable pour ces nouvelles données.

Idéalement le modèle estimé devrait se rapprocher le plus possible du vrai modèle, qui est valable pour l'ensemble de la population.

Dans le graphique ci-dessous, le modèle surajusté semble expliquer une grande partie de la variation dans la réponse, cependant, il est beaucoup trop complexe. Dans la population générale, la relation entre le prédicteur et la réponse finale est, en réalité, de nature quadratique et le modèle linéaire est trop simpliste (mauvais ajustement).

 

  

 

L'objectif est de tirer des conclusions pour une population plus large à partir d'un échantillon sélectionné de façon aléatoire.

La quantité d'informations que vous pouvez obtenir sur une population est limitée par la taille de l'échantillon. Plus vous voulez obtenir d’informations, plus la taille de votre échantillon devrait être grande.

Ce concept est assez intuitif. Par exemple, si vous avez un échantillon de 20 valeurs et que vous souhaitez estimer une seule moyenne de la population, vous obtiendrez probablement une estimation fiable. Si vous souhaitez estimer deux moyennes de la population en utilisant la même taille totale de l'échantillon, les estimations semblent déjà moins crédibles. Si vous désirez estimer trois moyennes ou plus pour la population, la qualité des estimations risque de devenir franchement mauvaise.

La qualité des résultats se détériore lorsque vous essayez d'obtenir trop d’informations à partir d'un échantillon de taille réduite. Comme le nombre d'observations par paramètre diminue dans l'exemple ci-dessus (20 ; 10 ; 6,7, etc) les estimations deviennent plus erratiques.

 

Application du concept de surajustement aux modèles de régression

La taille de l'échantillon limite le nombre de termes que vous pouvez estimer sans risquer un surajustement du modèle. Les termes du modèle peuvent être les coefficients des prédicteurs, des interactions et/ou des termes du polynôme (quadratique, cubique) éventuels.

Des échantillons de taille plus importante permettent de spécifier des modèles plus complexes. Pour des résultats fiables, la taille de l'échantillon doit être suffisamment grande en fonction du niveau de complexité de votre étude.

Tout comme dans l'exemple avec de multiples moyennes, vous devez avoir un nombre suffisant d'observations pour chaque terme dans le modèle. Des simulations montrent qu’une bonne règle de base est d'avoir 10-15 observations par terme dans une régression linéaire multiple.

Minitab fournit une excellente solution de validation croisée pour les modèles linéaires en calculant un R carré prédictif. Cette validation croisée ne vous oblige pas à recueillir plusieurs échantillons distincts ou à scinder votre échantillon. Minitab calcule ce R-carré prédictif en éliminant systématiquement chaque observation, l’une après l’autre, de façon itérative, de l’échantillon de données, pour ré-estimer l'équation de régression sans ce point et déterminer dans quelle mesure le modèle prédit l'observation qui a été supprimée, pour chaque point et en boucles.

 

Si le modèle prédit mal les observations supprimées, cela signifie qu’il est sans doute bien adapté aux données de l’échantillon spécifique mais non généralisable en dehors de cet échantillon.

 

Dans le graphique ci-dessus, le modèle est très dépendant par rapport à un point unique isolé (en haut à droite du graphique) avec un fort effet de levier. Au cours de la validation croisé, lorsque ce point est éliminé, le modèle change complètement (passage de la ligne rouge à la ligne verte). On peut noter grâce à cette validation croisée que ce modèle est peu robuste, non généralisable à la population et donc « surajusté ».

 

Conclusion

Pour éviter un surajustement de votre modèle, recueillez un échantillon assez grand pour pouvoir prendre en compte tous les prédicteurs, les effets des interactions et les termes des polynômes que vous désirez étudier. Il vous faudra identifier les variables potentiellement importantes, le modèle potentiel et utiliser cette information pour bien dimensionner votre échantillon.