*Algunos enlaces relacionados pueden contener información en otros idiomas
El valor p se utiliza en toda la estadística, desde las pruebas t hasta el análisis de regresión. Todos sabemos que el valor p se utiliza para determinar la significancia estadística en una prueba de hipótesis. De hecho, los valores p suelen determinar qué estudios se publican y cuáles proyectos obtienen financiamiento.
A pesar de ser tan importante, el valor p es un concepto escurridizo que las personas suelen interpretar de forma incorrecta. ¿Cómo se interpretan realmente los valores p?
En este blog, les ayudaré a entender los valores p de una manera más intuitiva y a evitar una interpretación errónea muy común que puede costarles dinero y credibilidad.
En todo experimento, hay un efecto o diferencia entre los grupos que los investigadores evalúan. Podría ser la eficacia de un medicamento nuevo, un material de construcción u otro procedimiento que ofrece beneficios. Lamentablemente para los investigadores, siempre existe la posibilidad de que no haya ningún efecto, es decir, que no haya diferencia entre los grupos. Esta ausencia de diferencia se conoce como hipótesis nula, que es esencialmente la posición que asumiría un abogado del diablo al evaluar los resultados de un experimento.
Para entender por qué, imaginemos un experimento con un medicamento que sabemos que es totalmente ineficaz. La hipótesis nula es verdadera: no hay diferencia entre los grupos experimentales a nivel de población.
A pesar de que la hipótesis nula es verdadera, es perfectamente posible que haya un efecto en los datos de la muestra debido al error de muestreo aleatorio. De hecho, es muy poco probable que los grupos de la muestra sean exactamente iguales al valor de la hipótesis nula. En consecuencia, la posición del abogado del diablo es en la que la diferencia observada en la muestra no refleja una verdadera diferencia entre las poblaciones.
Un valor p bajo sugiere que la muestra provee suficiente evidencia de que se puede rechazar la hipótesis nula para toda la población.
Por ejemplo, supongamos que un estudio sobre una vacuna produjo un valor p de 0,04. Este valor p indica que si la vacuna no tuviera ningún efecto, se obtendría la diferencia observada o más en el 4% de los estudios debido al error de muestreo aleatorio.
Los valores p responden a una sola pregunta: ¿Qué tan probables son los datos, asumiendo una hipótesis nula verdadera? No miden la hipótesis alternativa. Esta limitación nos lleva a la siguiente sección para tratar una interpretación errónea muy común de los valores p.
Las interpretaciones erróneas de los valores p son muy comunes. El error más común es interpretar un valor p como la probabilidad de cometer un error al rechazar una hipótesis nula verdadera (un error Tipo I).
Existen varias razones por las que los valores p no pueden ser la tasa de error.
En primer lugar, los valores p se calculan con base en los supuestos de que la hipótesis nula es verdadera para la población y que la diferencia en la muestra se debe completamente a la probabilidad aleatoria. Por lo tanto, los valores p no pueden indicar la probabilidad de que la hipótesis nula sea verdadera o falsa, porque esta es 100% verdadera desde la perspectiva de los cálculos.
En segundo lugar, aunque un valor P bajo indica que los datos de la muestra son poco probables asumiendo una hipótesis nula verdadera, no puede determinar cuál de dos casos opuestos es más probable:
Para determinar qué caso es más probable se requiere conocimiento de la materia y replicar estudios.
Volvamos al estudio sobre la vacuna y comparemos la forma correcta e incorrecta de interpretar el valor p de 0,04:
Para ver una representación gráfica de cómo funcionan las pruebas de hipótesis, consulten mi publicación: Comprensión de las pruebas de hipótesis: niveles de significancia y valores P.
Si un valor p no es la tasa de error, ¿qué rayos es la tasa derror? (¿Pueden ver hacia dónde vamos ahora?)
Sellke et al.* han estimado la tasa de error asociada a diferentes valores p. Si bien el nivel de error preciso depende de varios supuestos (lo cuales abordo aquí), la tabla los resume como supuestos “moderados”.
Valor p |
Probabilidad de rechazar erróneamente una hipótesis nula verdadera |
0,05 |
Al menos 23% (y por lo general cerca de 50%) |
0,01 |
Al menos 7% (y por lo general cerca de 15%) |
¿Les parecen sorprendentes los niveles de significancia más altos indicados en esta tabla? Desafortunadamente, la mala interpretación común de los valores p como la tasa de error crea la ilusión de una evidencia sustancialmente mayor en contra de la hipótesis nula de lo que puede justificarse. Como pueden ver, si una decisión se basa en un único estudio con un valor p cercano a 0,05, la diferencia observada en la muestra pudiera no existir a nivel de población. ¡Eso podría resultar costoso!
Ahora que saben cómo interpretar los valores p, lean mis cinco pautas sobre cómo usar los valores p y evitar errores.
También pueden leer mi refutación a una revista académica que ¡prácticamente vetó los valores p!
En agosto de 2015 se publicó un interesante estudio sobre la reproducibilidad de los resultados experimentales. Este estudio destaca la importancia de entender el verdadero nivel de significancia. Para obtener más información, lea mi publicación de blog: Los valores p y la replicación de experimentos.
¡La Asociación Americana de Estadística se pronuncia sobre cómo usar los valores p!
*Thomas SELLKE, M. J. BAYARRI y James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, Febrero de 2001, Vol. 55, No. 1