*Algunos enlaces relacionados pueden contener información en otros idiomas
Los valores p suelen interpretarse erróneamente, lo que causa muchos problemas. No voy a retomar esos problemas aquí porque anteriormente los hemos detallado con bastante detenimiento, pero el hecho es que el valor p seguirá siendo una de las herramientas más utilizadas para decidir si un resultado es estadísticamente significativo.
Conoce la vieja frase "Mentiras, grandes mentiras y estadísticas", ¿cierto? Suena a verdad porque la estadística realmente tiene tanto que ver con la interpretación y la presentación como la matemática. Eso significa que nosotros, los seres humanos, que analizamos los datos, con todas nuestras debilidades y desaciertos, tenemos la oportunidad de ensombrecer y opacar la manera de comunicar los resultados.Aunque por lo general me gusta creer que las personas quieren ser honestas y objetivas (especialmente la gente inteligente que investiga y analiza los datos que pueden afectar la vida de otras personas), he aquí 500 elementos de prueba que van en contra de esa creencia.
Retomaremos el tema en un momento. Pero antes, un breve repaso...
¿Qué es el Valor P, y Cómo se Interpreta?
La mayoría de nosotros nos topamos por primera vez con los valores p cuando realizamos pruebas de hipótesis simples, aunque también son parte integral de muchos métodos más sofisticados. Utilicemos Minitab Statistical Software para hacer un breve repaso de cómo funcionan (si desea seguirme y no tiene Minitab, el paquete completo está disponible aquí sin costo por 30 día). Vamos a comparar el consumo de combustible en dos tipos de horno para ver si hay una diferencia entre las medias.
Vaya a Archivo > Abrir hoja de trabajo, y haga clic en el botón "Buscar en la carpeta de datos de muestra de Minitab". Abra el conjunto de datos de muestra Horno.mtw, y elija Estadísticas > Estadísticas básicas > t de 2 muestras... en el menú. En el cuadro de diálogo, ingrese "BTU.Con" para Muestras y "Amortiguador " para ID de muestras.
Presione Aceptar y Minitab devuelve la siguiente salida, en la que he resaltado el valor p.
En la mayoría de los análisis, un nivel de significancia (alfa) de 0,05 se utiliza como el límite de significancia. Si el valor p es menor que 0,05, rechazamos la hipótesis nula de que no hay diferencia entre las medias y concluimos que sí existe una diferencia significativa. Si el valor p es mayor que 0,05, no podemos concluir que existe una diferencia significativa.
Es bastante sencillo, ¿verdad? Inferior a 0,05, significativo. Superior a 0,05, no significativo.
"¡Estuvo tan cerca!"
En el ejemplo anterior, el resultado es claro: un valor p de 0,7 es tan alto en comparación con 0,05 que no se puede aplicar ninguna ilusión vana a los resultados. ¿Pero qué tal si el valor p estuviera muy, pero muy cerca de 0,05?
Por ejemplo, ¿qué tal si el valor p fuera de 0,06?
Eso no es significativo.
Ummm. Ok, ¿Qué tal 0,055?
No significativo.
¿Y si fuera de 0,051?
Sigue siendo no significativo desde el punto de vista estadístico, y los analistas de datos no deberían tratar de forzar una interpretación contraria. Un valor p no es una negociación: si p > 0,05, los resultados no son significativos. Punto.
Entonces, ¿qué debo decir cuando obtenga un valor p mayor que 0,05?
¿Qué tal si decimos esto? "Los resultados no fueron estadísticamente significativos." Si eso es lo que dicen los datos, no hay nada de malo en decirlo.
De cualquier forma que se plantee, el resultado no cambiará.
Lo que me hace volver a la publicación de blog que mencioné al principio. Le invito a leerla, pero la conclusión es que el autor catalogó 500 maneras diferentes en las que colaboradores de revistas científicas han utilizado el lenguaje para enmascarar sus resultados (o la falta de ellos).
Como estudiante del lenguaje, confieso que la lista me parece fascinante... pero también desconcertante. No está bien: Estos colaboradores son personas educadas que sin duda entienden A) lo que significa un valor p mayor que 0,05, y B) que manipular las palabras para suavizar ese resultado es deliberadamente engañoso. O, dicho con palabras menos blandas, es una gran mentira.
Sin embargo, sucede con frecuencia.
Estas son solo algunas de mis favoritas de las 500 maneras diferentes en las que las personas han reportado resultados que no son significativos, acompañadas por los valores p a los que se aplican estas interpretaciones creativas:
- cierta tendencia a ser significativos (p = 0,08)
- cercanos al límite de significancia (p = 0,07)
- al borde de la significancia estadística (p < 0,07)
- muy cerca de ser estadísticamente significativos (p = 0,055)
- rozaron la significancia estadística (p = 0.12)
- no alcanzaron el nivel de significancia por muy poco (p = 0,086)
- significancia casi marginal (p = 0,18)
- solo ligeramente no significativos (p = 0,0738)
- tentativamente significativos (p = 0,073)
y mi favorita de todas:
- cuasi significativo (p = 0,09)
Incluso no estoy seguro de lo que se supone que significa "cuasi significativo", pero suena a casi importante, siempre que no se piense mucho en eso. Pero, sea como sea, no hay forma de ocultar el hecho de que un valor p de 0,09 p no es un resultado estadísticamente significativo.
El bloguero no responde a la pregunta de si se ha registrado la situación opuesta. ¿Alguna vez han escrito los colaboradores que un valor p de, digamos, 0,049999:
- es cuasi insignificante
- es solo ligeramente significativo
- es tentativamente insignificante
- está muy cerca de ser no significativo
- está al borde de la insignificancia estadística
Me aventuraré a suponer que describir un valor p que esté justo por debajo de 0,05 de una manera que atenúe su significancia estadística es algo que simplemente no sucede. Sin embargo, restar importancia a la falta de significancia estadística parece ser casi endémico.
Es por eso que la publicación a la que hice referencia anteriormente me parece tan desalentadora. Resulta alarmante poder reunir tan fácilmente tantos ejemplos de mal comportamiento por parte de analistas de datos que estoy casi seguro de que lo saben bien.
Usted nunca usaría el lenguaje para tratar de tergiversar el resultado de su análisis ¿cierto?