*Algunos enlaces relacionados pueden contener información en otros idiomas
En un análisis de regresión, es deseable que el modelo de regresión tenga variables significativas y que produzca un valor R-cuadrado alto. Esta combinación de valor p bajo/R2 alto indica que los cambios en los predictores se relacionan con cambios en la variable de respuesta y que su modelo explica gran parte de la variabilidad de la respuesta.
Esta combinación parece producirse con naturalidad. Pero ¿qué ocurre si su modelo de regresión tiene variables significativas, pero es de poca utilidad para explicar la variabilidad?
Tiene valores p bajos y un R-cuadrado bajo.
A primera vista, esta combinación no tiene sentido. ¿Los predictores significativos siguen siendo importantes? ¡Examinemos esto!
Es difícil comprender esta situación utilizando números únicamente. Las investigaciones demuestran que las gráficas son esenciales para interpretar correctamente los resultados de los análisis de regresión. ¡Es más fácil comprender cuando se puede ver lo que está ocurriendo!
Tomando esto en cuenta, utilizaré gráficas de líneas ajustadas. Sin embargo, una gráfica de línea ajustada 2D solo puede mostrar los resultados de una regresión simple, que tiene una variable predictora y la respuesta. Los conceptos son válidos para regresiones lineales múltiples, pero no me resulta posible graficar las mayores dimensiones que se requieren.
Estas gráficas de líneas ajustadas muestran dos modelos de regresión que tienen ecuaciones de regresión casi idénticas, pero el modelo que está en la parte superior tiene un valor de R-cuadrado bajo mientras el otro es alto. Mantuve constantes las escalas de los gráficos para facilitar la comparación. Estos son los datos correspondientes a estos ejemplos.
Los dos modelos son casi idénticos de varias maneras:
Puede ver que la pendiente ascendente de ambas líneas de regresión está alrededor de 2 y que estas siguen con exactitud la tendencia presente en ambos conjuntos de datos.
La interpretación del valor p y el coeficiente para la entrada no cambia. Si se mueve hacia la derecha en cualquier línea incrementando la entrada en una unidad, existe un aumento promedio de dos unidades en la salida. En ambos modelos, el valor p significativo indica que puede rechazar la hipótesis nula de que el coeficiente es igual a cero (no tiene ningún efecto).
Además, si ingresa el mismo valor para la entrada en ambas ecuaciones, calculará valores pronosticados casi equivalentes para la salida. Por ejemplo, una entrada de 10 produce una salida pronosticada de 66.2 para un modelo y de 64.8 para el otro modelo.
Apuesto a que la principal diferencia es lo primero que notó respecto a estas gráficas de líneas ajustadas: La variabilidad de los datos alrededor de las dos líneas de regresión es drásticamente diferente. R2 y S (error estándar de la regresión) describen en términos numéricos esta variabilidad.
La gráfica con R-cuadrado bajo muestra que incluso datos ruidosos y de alta variabilidad pueden tener una tendencia significativa. La tendencia indica que la variable predictora proporciona información acerca de la respuesta a pesar de que los puntos de datos se ubican más lejos de la línea de regresión. ¡Recuerde esta gráfica cuando intente reconciliar variables significativas con un valor R-cuadrado bajo!
Como vimos, las dos ecuaciones de regresión producen predicciones casi idénticas. Sin embargo, los distintos niveles de variabilidad afectan la precisión de estas predicciones.
Para evaluar la precisión, estudiaremos los intervalos de predicción. Un intervalo de predicción es un rango que probablemente contenga el valor de respuesta de una observación nueva individual dada la configuración especifica de los predictores en su modelo. Los intervalos más estrechos indican predicciones más precisas. A continuación, se muestran los valores ajustados y los intervalos de predicción para una entrada de 10.
El modelo con datos que poseen alta variabilidad produce un intervalo de predicción que se extiende desde alrededor de -500 hasta 630, ¡más de 1100 unidades! Mientras tanto, el modelo de baja variabilidad tiene un intervalo de predicción entre -30 y 160, aproximadamente 200 unidades. Claramente, las predicciones son mucho más precisas a partir del modelo de R-cuadrado alto, ¡a pesar de que los valores ajustados son casi los mismos!
La diferencia en la precisión debería tener sentido luego de ver la variabilidad presente en los datos reales. Cuando los puntos de datos se dispersan más, las predicciones deben reflejar la incertidumbre que se añade.
Repasemos lo que hemos aprendido:
Entonces, ¿qué se debe hacer si tiene predictores significativos pero un valor R-cuadrado bajo? Puedo escuchar que algunos de ustedes dicen: “¡agregar más variables al modelo!”
En algunos casos, es posible que predictores adicionales puedan incrementar el verdadero poder explicativo del modelo. No obstante, en otros casos, los datos contienen una cantidad inherentemente mayor de variabilidad inexplicable. Por ejemplo, muchos estudios de psicología tienen valores R-cuadrado menores que 50% porque las personas son bastante impredecibles.
Para ayudarlo a determinar cuál caso se aplica a su modelo de regresión, lea mi artículo sobre evitar los peligros de un modelo excesivamente complejo.
La buena noticia es que aun cuando R-cuadrado es bajo, los valores p bajos indican una relación real entre los predictores significativos y la variable de respuesta.
Si está aprendiendo sobre regresión, ¡lea mi tutorial!