*Algunos enlaces relacionados pueden contener información en otros idiomas
Hace aproximadamente un año, un lector preguntó si podría intentar explicarle el significado de grados de libertad en estadística. Desde entonces he estado dando vueltas alrededor de esta solicitud con mucha cautela como si fuera una bestia salvaje a la que no estoy seguro de poder neutralizar.
El concepto de grados de libertad no es fácil de explicar. Este concepto aparece en diversos contextos en estadística, algunos de ellos avanzados y complicados. En matemáticas, los grados de libertad se definen como la dimensión del dominio de un vector aleatorio.
Pero no los veremos en detalle. Porque los grados de libertad no representan un concepto que sea necesario entender para realizar análisis estadísticos. A menos que sea un estadístico de investigación o alguien que se dedique a estudiar la teoría estadística.
A pesar de esto, las mentes curiosas desean saber. Por lo tanto, para las mentes aventureras y curiosas, los siguientes son algunos ejemplos que proporcionan un entendimiento de lo esencial de su significado en estadística.
La libertad para Variar
Primero, olvídese de la estadística. Imagínese que usted sea una persona a la que le encanta divertirse y le gustan los sombreros. Le importa muy poco lo que es un grado de libertad. Piensa que en la variedad está el placer.
Desafortunadamente, tiene restricciones. Solo tiene 7 sombreros. Desea lucir un sombrero diferente cada día.
El primer día, puede usar cualquiera de los 7 sombreros. El segundo día, puede elegir entre los 6 sombreros restantes, el tercer día puede elegir entre 5 sombreros y así sucesivamente.
Cuando llega al día 6, todavía tiene la opción de escoger entre 2 sombreros que no ha usado todavía esa semana. Pero después de escoger su sombrero para el día 6, no tiene ninguna opción disponible para el sombrero que utilizará el día 7. Debe usar el sombrero restante. Tenía 7-1 = 6 días de libertad de “sombreros” respecto a la variación del sombrero que podía utilizar.
Ese es el tipo de idea que apoya el concepto de grados de libertad en estadística. Los grados de libertad se definen frecuentemente como el número de observaciones (piezas de información) en los datos que pueden variar libremente al estimar parámetros estadísticos.
Grados de Libertad: Prueba t de 1 Muestra
Ahora imagínese que no es un entusiasta de los sombreros. Ahora es un analista de datos.
Tiene un conjunto de datos de 10 valores. Si no está haciendo un cálculo en particular, cada valor puede ser cualquier número, ¿correcto? Cada valor puede variar libremente.
Pero suponga que desea probar la media de una población con una muestra de 10 valores, usando la prueba t de 1 muestra. Ahora tiene una restricción: la estimación de la media. ¿Cuál es esa restricción exactamente? Por definición de la media, la relación siguiente se debe mantener: La suma de todos los valores de los datos debe ser igual a n x media, donde n es el número de valores en el conjunto de datos.
Por ejemplo, si el conjunto de datos tiene 10 valores, la suma de los 10 valores debe ser igual a la media x 10. Si la media de los 10 valores es 3.5 (puede escoger cualquier número), esta restricción requiere que la suma de los 10 valores debe ser igual a 10 x 3.5 = 35.
Con esa restricción, el primer valor del conjunto de datos varía libremente. Independientemente del valor que sea, es posible que la suma de los 10 números tenga un valor de 35. El segundo valor también varía libremente, debido a que independientemente del valor que escoja, aun permite la posibilidad de que la suma de todos los valores sea 35.
De hecho, los primeros 9 valores pueden ser cualquier número, incluyendo los 2 ejemplos siguientes:
34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9
Pero para que los 10 valores sumen 35 y tengan una media de 3.5, el 10mo valor no puede variar. Debe ser un número específico:
34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> El 10mo valor debe ser 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> El 10mo valor debe ser 30.5
Por lo tanto, tiene 10 - 1 = 9 grados de libertad. Independientemente del tamaño de la muestra o del valor de la media que utilice, el ultimo valor de la muestra no puede variar libremente. Finalmente, tendrá n - 1 grados de libertad, donde n es el tamaño de la muestra.
Otra manera de decir esto es que el número de grados de libertad es igual al número de “observaciones” menos el número de relaciones requeridas entre las observaciones (por ejemplo, el número de parámetros estimados). Para una prueba t de 1 muestra, se gasta un grado de libertad en la estimación de la media y los n - 1 grados de libertad restantes en estimar la variabilidad.
Los grados de libertad definen la distribución t específica que se utiliza para calcular los valores p y los valores t de la prueba t.
Tenga en cuenta que para tamaños de muestras pequeños (n), que corresponden a grados de libertad más pequeños (n - 1 para la prueba de 1 muestra) la distribución t tiene colas más amplias. Esto se debe a que la distribución t fue diseñada especialmente para proporcionar resultados de pruebas más conservadores al analizar muestras pequeñas (tal como en la industria cervecera). A medida que aumenta el tamaño de la muestra (n), el número de grados de libertad aumenta y la distribución t se aproxima a una distribución normal.
Grados de Libertad: Prueba Chi-Cuadrada de Independencia
Observemos otro contexto. Una prueba chi-cuadrada de independencia se utiliza para determinar si dos variables categóricas son dependientes. Para esta prueba, los grados de libertad son el número de celdas de la tabla de dos factores de las variables categóricas que pueden variar, dadas las restricciones de los totales marginales de las filas y columnas. Entonces cada “observación” en este caso es la frecuencia en una celda.
Considere el ejemplo más simple: una tabla 2 x 2, con dos categorías y dos niveles por cada categoría:
|
Categoría A |
Total |
|
Categoría B |
? |
|
6 |
|
|
15 |
|
Total |
10 |
11 |
21 |
No importa que valores se utilizan para los totales marginales de las filas y las columnas. Una vez que se hayan establecido estos valores, solo hay un valor de celda que puede cambiar (mostrado aquí con un signo de interrogación, pero puede ser cualquiera de las cuatro celdas). Una vez que ingrese un número para una celda, los números de las otras celdas son predeterminados por los totales de las filas y las columnas. No pueden variar libremente. De manera que la prueba de independencia chi-cuadrada tiene solo 1 grado de libertad para una tabla 2x2.
Similarmente, una tabla 3 x 2 tiene 2 grados de libertad, debido a que solo dos de las celdas pueden variar para un conjunto dado de totales marginales.
|
Categoría A |
Total |
||
Categoría B |
? |
? |
|
15 |
|
|
|
15 |
|
Total |
10 |
11 |
9 |
30 |
Si experimenta con tablas de tamaños diferentes, eventualmente encontrará un patrón general. Para una tabla con r filas y c columnas, el número de celdas que puede variar es (r-1)(c-1). Y esa es la fórmula para los grados de libertad de la prueba de independencia de chi-cuadrada.
Los grados de libertad definen la distribución chi-cuadrada que se utiliza para evaluar la independencia de la prueba.
La distribución chi-cuadrada tiene asimetría positiva. A medida que aumentan los grados de libertad, se aproxima a la curva normal.
Grados de libertad: Regresión
Los grados de libertad se relacionan más en el contexto de la regresión. Para no arriesgarme a perder al único lector restante de este artículo (¡Hola mamá!), iré directo al grano.
Recuerde que los grados de libertad generalmente son iguales al número de observaciones (elementos de información) menos el número de parámetros estimados. Cuando se lleva a cabo una regresión, se estima un parámetro para todos los términos del modelo, y cada uno consume un grado de libertad. Por lo tanto, incluir una cantidad excesiva de términos en un modelo de regresión múltiple reduce los grados de libertad disponibles para estimar la variabilidad de los parámetros. De hecho, si la cantidad de datos no es suficiente para el número de términos en su modelo, es posible que ni siquiera haya suficientes grados de libertad (GL) para el término de error y no es posible calcular valores p ni valores F. Obtendrá una salida como esta:
Si esto sucede, necesita recolectar más datos (para incrementar los grados de libertad) o quitar términos de su modelo (con el propósito de reducir el número de grados de libertad requeridos). Entonces, los grados de libertad sí tienen efectos reales y tangibles en el análisis de los datos, a pesar de existir en el inframundo del dominio de un vector aleatorio.
Próximos Pasos
Este artículo ofrece una introducción básica e informal a los grados de libertad en estadística. Si desea profundizar en su comprensión conceptual de los grados de libertad, consulte este documento clásico en Journal of Educational Psychology de la Dra. Helen Walker, una profesora asociada de educación en Columbia, quien fue la primera mujer presidente de la American Statistical Association. Otra buena referencia general es by Pandy, S., and Bright, C. L., Social Work Research Vol 32, número 2, junio de 2008, disponible aquí.