*Algunos enlaces relacionados pueden contener información en otros idiomas
El análisis de varianza (ANOVA) puede determinar si las medias de tres o más grupos son diferentes. ANOVA utiliza la prueba F para evaluar estadísticamente la igualdad de las medias. En esta publicación, les mostraré cómo funcionan el ANOVA y la prueba F utilizando un ejemplo de ANOVA de un solo factor.
Pero, esperen un momento ¿alguna vez se han detenido a pensar por qué usarían un análisis de varianza para determinar si las medias son diferentes? También les mostraré de qué manera las varianzas proveen información sobre las medias.
La prueba F llevan el nombre de su estadística de prueba, F, que fue nombrado así en honor al científico inglés Ronald Fisher. La estadística F es simplemente un cociente de dos varianzas. Las varianzas son una medida de dispersión, es decir, qué tan dispersos están los datos con respecto a la media. Los valores más altos representan mayor dispersión.
La varianza es el cuadrado de la desviación estándar. Para nosotros los seres humanos, las desviaciones estándar son más fáciles de entender que las varianzas, porque están en las mismas unidades que los datos y no en unidades elevadas al cuadrado. Sin embargo, muchos análisis en realidad utilizan las varianzas en los cálculos.
Las estadísticas F se basan en la proporción de cuadrados medios. El término “cuadrados medios” puede parecer confuso, pero simplemente es una estimación de la varianza de la población que explica los grados de libertad (GL) utilizados para calcular esa estimación.
A pesar de ser una relación de varianzas, la prueba F se puede utilizar en una amplia variedad de situaciones. Como era de esperar, la prueba F puede evaluar la igualdad de las varianzas. Sin embargo, al cambiar las varianzas que se incluyen en la relación, la prueba F se convierte en una prueba muy flexible. Por ejemplo, las estadísticas F y las pruebas F se pueden utilizar para evaluar la significancia general de un modelo de regresión, para comparar el ajuste de diferentes modelos, para probar términos de regresión específicos y para evaluar la igualdad de las medias.
Para utilizar la prueba F para determinar si las medias de los grupos son iguales, solo se necesita incluir las varianzas correctas en la relación. En un ANOVA de un solo factor, la estadística F es una proporción:
F = variación entre las medias de las muestras / variación dentro de las muestras
La mejor manera de entender esta relación es a través de un ejemplo de un ANOVA de un solo factor.
Analizaremos cuatro muestras de plástico para determinar si tienen diferentes resistencias medias. Pueden descargar los datos de muestra si desean seguirme. (Si no tienen Minitab, pueden descargar una prueba gratis por 30 días.) Volveré a referirme a la salida del ANOVA de un solo factor cuando explique los conceptos.
En Minitab, elijan Estadísticas > ANOVA > ANOVA de un solo factor... En el cuadro de diálogo, elijan "Resistencia" como la respuesta y "Muestra" como el factor. Presionen Aceptar, y la ventana de sesión de Minitab mostrará la siguiente salida:
El ANOVA de un solo factor ha calculado una media para cada una de las cuatro muestras de plástico. Las medias de los grupos son las siguientes: 11,203, 8,938, 10,683 y 8,838. Estas medias de grupo están distribuidas alrededor de la media general de las 40 observaciones, que es 9,915. Si las medias de los grupos están agrupadas cerca de la media general, su varianza es baja. Sin embargo, si las medias de los grupos están dispersas con respecto a la media general, su varianza es mayor.
Claro, si queremos mostrar que las medias de los grupos son diferentes, el hecho de que las medias estén separadas unas de otras nos ayudan. En otras palabras, queremos que haya mayor variabilidad entre las medias.
Imaginemos que realizamos dos ANOVA de un solo factor diferentes, donde cada análisis tiene cuatro grupos. La gráfica de abajo muestra la dispersión de las medias. Cada punto representa la media de todo un grupo. Cuanto más dispersos estén los puntos, mayor será el valor de la variabilidad en el numerador del estadístico F.
¿Qué valor utilizamos para medir la varianza entre las medias de las muestras en el ejemplo de la resistencia del plástico? En la salida del ANOVA de un solo factor, usaremos el cuadrado medio ajustado (CM ajust.) del Factor, que es 14,540. No traten de interpretar este número, porque no tendrá sentido. Es la suma de las desviaciones cuadráticas dividida por los GL para el factor. Simplemente hay que saber que cuanto más dispersas estén las medias de los grupos, mayor será este número.
También necesitamos una estimación de la variabilidad dentro de cada muestra. Para calcular esta varianza, tenemos que calcular qué tan lejos está cada observación de la media de su grupo para las 40 observaciones. Técnicamente, es la suma de las desviaciones cuadráticas de cada observación con respecto a la media de su grupo dividida por los GL para el error.
Si las observaciones de cada grupo están cerca de la media del grupo, la varianza dentro de las muestras es baja. Sin embargo, si las observaciones de cada grupo están alejadas de la media del grupo, la varianza dentro de las muestras es mayor.
En la gráfica, la sección de la izquierda refleja poca variación en las muestras, mientras que la sección de la derecha exhibe gran variación. Cuanto más dispersas estén las observaciones con respecto a la media de su grupo, mayor será el valor en el denominador de la estadística F.
Si esperamos mostrar que las medias son diferentes, es bueno que la varianza dentro de los grupos sea baja. Podemos imaginar la varianza dentro de los grupos como el ruido de fondo que puede ocultar una diferencia entre las medias.
En este ejemplo de ANOVA de un solo factor, el valor que usaremos para la varianza dentro de las muestras es el CM ajust. para el Error, que es 4,402. Se considera "error" porque es la variabilidad que el factor no explica.
La estadística F es el estadística de prueba para las pruebas F. En general, una estadística F es un cociente de dos cantidades que se espera que sean aproximadamente iguales bajo la hipótesis nula, lo que produce una estadística F de aproximadamente 1.
La estadística F incorpora dos medidas de variabilidad descritas anteriormente. Veamos cómo pueden funcionar estas medidas de manera combinada para producir valores F bajos y altos. Fíjense en las gráficas de abajo y comparen la amplitud de la dispersión de las medias de los grupos con la amplitud de la dispersión dentro de cada grupo.
La gráfica del valor F bajo muestra un caso donde las medias de los grupos están cercanas entre sí (poca variabilidad) en relación con la variabilidad dentro de cada grupo. La gráfica del valor F alto muestra un caso donde la variabilidad de las medias de los grupos es grande en relación con la variabilidad dentro de los grupos. Para rechazar la hipótesis nula de que las medias de los grupos son iguales, necesitamos un valor F alto.
Para nuestro ejemplo de la resistencia del plástico, usaremos el CM ajust. del Factor para el numerador (14,540) y el CM ajust. del Error para el denominador (4,402), lo que nos da un valor F de 3,30.
¿Es nuestro valor F lo suficientemente alto? Un valor F individual es difícil de interpretar por sí solo. Tenemos que poner nuestro valor F en un contexto más amplio para poder interpretarlo. Para ello, usaremos la distribución F para calcular las probabilidades.
Para el ANOVA de un solo factor, la relación de variabilidad entre los grupos a la variabilidad dentro de los grupos sigue una distribución F cuando la hipótesis nula es verdadera.
Cuando se realiza un ANOVA de un solo factor para un solo estudio, se obtiene un solo valor F. Sin embargo, si tomáramos varias muestras aleatorias del mismo tamaño de la misma población y realizáramos el mismo ANOVA de un solo factor, obtendríamos muchos valores F y podríamos graficar una distribución de todos ellos. Este tipo de distribución se conoce como una distribución de muestreo.
Puesto que la distribución F asume que la hipótesis nula es verdadera, podemos poner el valor F de nuestro estudio en la distribución F para determinar qué tan consistentes son nuestros resultados con la hipótesis nula y para calcular las probabilidades.
La probabilidad que queremos calcular es la probabilidad de observar una estadística F que sea al menos tan alto como el valor que se obtuvo en nuestro estudio. Esa probabilidad nos permite determinar qué tan común o poco común es nuestro valor F bajo el supuesto de que la hipótesis nula es verdadera. Si la probabilidad es lo suficientemente baja, podemos concluir que nuestros datos son incompatibles con la hipótesis nula. La evidencia de los datos de la muestra es lo suficientemente fuerte como para rechazar la hipótesis nula para toda la población.
¡Esta probabilidad que estamos calculando también se conoce como el valor P!
Para graficar la distribución F de nuestro ejemplo de resistencia del plástico, usaremos las gráficas de distribución de probabilidad de Minitab. Para graficar la distribución F adecuada para nuestro diseño y tamaño de muestra específicos, tendremos que especificar el número correcto de GL. Al mirar la salida de nuestro ANOVA de un solo factor, podemos ver que tenemos 3 GL para el numerador y 36 GL del denominador.
La gráfica muestra la distribución de los valores F que obtendremos si la hipótesis nula es verdadera y repetimos el estudio muchas veces. El área sombreada representa la probabilidad de observar un estadístico F que sea al menos tan alto como el valor F que se obtuvo en nuestro estudio. Los valores F se encuentran dentro de esta región sombreada aproximadamente el 3,1% de las veces cuando la hipótesis nula es verdadera. Esta probabilidad es lo suficientemente baja como para rechazar la hipótesis nula utilizando el nivel de significancia común de 0,05. Podemos concluir que no todas las medias de los grupos son iguales.
Conozcan cómo interpretar correctamente el valor p.
El ANOVA utiliza la prueba F para determinar si la variabilidad entre las medias de los grupos es mayor que la variabilidad de las observaciones dentro de los grupos. Si ese cociente es lo suficientemente grande, se puede concluir que no todas las medias son iguales.
Esto nos lleva de vuelta a por qué analizamos la variación para emitir juicios sobre las medias. Pensemos en esta pregunta: "¿Son diferentes las medias de los grupos?" Implícitamente estamos preguntando acerca de la variabilidad de las medias. Después de todo, si las medias de los grupos no varían, o no varían más de lo que permite la probabilidad aleatoria, entonces no se puede decir que las medias son diferentes. Y es por eso que se utiliza el análisis de varianza para evaluar las medias.