Cómo Interpretar Correctamente los Valores P

*Algunos enlaces relacionados pueden contener información en otros idiomas

El valor p se utiliza en toda la estadística, desde las pruebas t hasta el análisis de regresión. Todos sabemos que el valor p se utiliza para determinar la significancia estadística en una prueba de hipótesis. De hecho, los valores p suelen determinar qué estudios se publican y cuáles proyectos obtienen financiamiento.

A pesar de ser tan importante, el valor p es un concepto escurridizo que las personas suelen interpretar de forma incorrecta. ¿Cómo se interpretan realmente los valores p?

En este blog, les ayudaré a entender los valores p de una manera más intuitiva y a evitar una interpretación errónea muy común que puede costarles dinero y credibilidad.

¿Qué es la Hipótesis Nula en las Pruebas de Hipótesis?

Scientist performing an experiment Para entender los valores p, primero se debe entender la hipótesis nula.

En todo experimento, hay un efecto o diferencia entre los grupos que los investigadores evalúan. Podría ser la eficacia de un medicamento nuevo, un material de construcción u otro procedimiento que ofrece beneficios. Lamentablemente para los investigadores, siempre existe la posibilidad de que no haya ningún efecto, es decir, que no haya diferencia entre los grupos. Esta ausencia de diferencia se conoce como hipótesis nula, que es esencialmente la posición que asumiría un abogado del diablo al evaluar los resultados de un experimento.

Para entender por qué, imaginemos un experimento con un medicamento que sabemos que es totalmente ineficaz. La hipótesis nula es verdadera: no hay diferencia entre los grupos experimentales a nivel de población.

A pesar de que la hipótesis nula es verdadera, es perfectamente posible que haya un efecto en los datos de la muestra debido al error de muestreo aleatorio. De hecho, es muy poco probable que los grupos de la muestra sean exactamente iguales al valor de la hipótesis nula. En consecuencia, la posición del abogado del diablo es en la que la diferencia observada en la muestra no refleja una verdadera diferencia entre las poblaciones.

¿Qué son los Valores P?

Que-son-los-Valores-P Los valores p evalúan qué tan bien los datos de la muestra apoyan el argumento del abogado del diablo de que la hipótesis nula es verdadera. Mide qué tan compatibles son los datos con la hipótesis nula. ¿Qué tan probable es el efecto observado en los datos de la muestra si la hipótesis nula es verdadera?

Valores p altos: los datos son probables con una hipótesis nula verdadera.
Valores p bajos: los datos son poco probables con una hipótesis nula verdadera.

Un valor p bajo sugiere que la muestra provee suficiente evidencia de que se puede rechazar la hipótesis nula para toda la población.

¿Cómo se interpretan los valores p?

Vaccine En términos técnicos, un valor p es la probabilidad de obtener un efecto por lo menos tan extremo como el de los datos de la muestra, asumiendo que la hipótesis nula es verdadera.

Por ejemplo, supongamos que un estudio sobre una vacuna produjo un valor p de 0,04. Este valor p indica que si la vacuna no tuviera ningún efecto, se obtendría la diferencia observada o más en el 4% de los estudios debido al error de muestreo aleatorio.

Los valores p responden a una sola pregunta: ¿Qué tan probables son los datos, asumiendo una hipótesis nula verdadera? No miden la hipótesis alternativa. Esta limitación nos lleva a la siguiente sección para tratar una interpretación errónea muy común de los valores p.

Los Valores P NO son la Probabilidad de Cometer un Error

Las interpretaciones erróneas de los valores p son muy comunes. El error más común es interpretar un valor p como la probabilidad de cometer un error al rechazar una hipótesis nula verdadera (un error Tipo I).

Existen varias razones por las que los valores p no pueden ser la tasa de error.

En primer lugar, los valores p se calculan con base en los supuestos de que la hipótesis nula es verdadera para la población y que la diferencia en la muestra se debe completamente a la probabilidad aleatoria. Por lo tanto, los valores p no pueden indicar la probabilidad de que la hipótesis nula sea verdadera o falsa, porque esta es 100% verdadera desde la perspectiva de los cálculos.

En segundo lugar, aunque un valor P bajo indica que los datos de la muestra son poco probables asumiendo una hipótesis nula verdadera, no puede determinar cuál de dos casos opuestos es más probable:

La hipótesis nula es verdadera, pero la muestra era poco común.
La hipótesis nula es falsa.

Para determinar qué caso es más probable se requiere conocimiento de la materia y replicar estudios.

Volvamos al estudio sobre la vacuna y comparemos la forma correcta e incorrecta de interpretar el valor p de 0,04:

Correcto: Suponiendo que la vacuna no tuviera ningún efecto, se obtendría la diferencia observada o más en el 4% de los estudios debido al error de muestreo aleatorio.
Incorrecto: Si se rechaza la hipótesis nula, existe una probabilidad de 4% de cometer un error.

Para ver una representación gráfica de cómo funcionan las pruebas de hipótesis, consulten mi publicación: Comprensión de las pruebas de hipótesis: niveles de significancia y valores P.

¿Cuál es la Verdadero Tasa de Error?

caution-sign ¿Creen que esta diferencia de interpretación es simplemente una cuestión de semántica y que solo es importante para los especialistas en estadística exigentes? Se equivocan. Es importante para ustedes.

Si un valor p no es la tasa de error, ¿qué rayos es la tasa derror? (¿Pueden ver hacia dónde vamos ahora?)

Sellke et al.* han estimado la tasa de error asociada a diferentes valores p. Si bien el nivel de error preciso depende de varios supuestos (lo cuales abordo aquí), la tabla los resume como supuestos “moderados”.

Valor p	Probabilidad de rechazar erróneamente una hipótesis nula verdadera
0,05	Al menos 23% (y por lo general cerca de 50%)
0,01	Al menos 7% (y por lo general cerca de 15%)

¿Les parecen sorprendentes los niveles de significancia más altos indicados en esta tabla? Desafortunadamente, la mala interpretación común de los valores p como la tasa de error crea la ilusión de una evidencia sustancialmente mayor en contra de la hipótesis nula de lo que puede justificarse. Como pueden ver, si una decisión se basa en un único estudio con un valor p cercano a 0,05, la diferencia observada en la muestra pudiera no existir a nivel de población. ¡Eso podría resultar costoso!

Ahora que saben cómo interpretar los valores p, lean mis cinco pautas sobre cómo usar los valores p y evitar errores.

También pueden leer mi refutación a una revista académica que ¡prácticamente vetó los valores p!

En agosto de 2015 se publicó un interesante estudio sobre la reproducibilidad de los resultados experimentales. Este estudio destaca la importancia de entender el verdadero nivel de significancia. Para obtener más información, lea mi publicación de blog: Los valores p y la replicación de experimentos.

¡La Asociación Americana de Estadística se pronuncia sobre cómo usar los valores p!

*Thomas SELLKE, M. J. BAYARRI y James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, Febrero de 2001, Vol. 55, No. 1