Si usted no es experto en estadística, examinar resultados estadísticos a veces puede hacerle sentir un poco como Alicia en el País de las Maravillas. De repente, usted entra a un mundo fantástico donde extraños y misteriosos fantasmas aparecen de la nada.
Por ejemplo, consideremos la T y la P en los resultados de la prueba t.
“¡Curioso y requetecurioso!”, podría exclamar usted (tal como lo hizo Alicia) al contemplar los datos de salida.
¿Qué son realmente estos valores? ¿De dónde salen? Aunque haya usado el valor p para interpretar la significancia estadística de sus resultados muchísimas veces, es posible que siga sin tener claro su origen real.
T y P están estrechamente relacionadas. Van cogidas del brazo, como Tararí y Tarará. La razón es la siguiente.
Cuando se realiza una prueba t, por lo general se está tratando de hallar evidencia de una diferencia significativa entre las medias de las poblaciones (t de 2 muestras) o entre la media de la población y un valor hipotético (t de 1 muestra). El valor t mide el tamaño de la diferencia en relación con la variación en los datos de la muestra. Dicho de otro modo, T es simplemente la diferencia calculada representada en unidades de error estándar. Cuanto mayor sea la magnitud de T, mayor será la evidencia en contra de la hipótesis nula. Esto significa que hay mayor evidencia de que existe una diferencia significativa. Cuanto más cerca esté T del 0, más probable será que no exista una diferencia significativa.
Recuerde que el valor t de la salida se calcula usando únicamente una muestra de toda la población. Si tomara muestras aleatorias repetidamente de la misma población, obtendría valores t ligeramente diferentes cada vez, debido al error de muestreo aleatorio (que realmente no es ningún tipo de error; es solo la variación aleatoria esperada en los datos).
¿Qué tan diferentes se puede esperar que sean los valores t de muchas muestras aleatorias tomadas de la misma población? ¿Y cómo se compara el valor t de los datos de la muestra con esos valores t esperados?
Puede utilizar una distribución t para averiguarlo.
A modo de ilustración, supongamos que usted está usando una prueba t de 1 muestra para determinar si la media de la población es mayor que un valor hipotético, como por ejemplo 5, con base en una muestra de 20 observaciones, como se aprecia arriba, en la salida de la prueba t.
La parte más alta (pico) de la curva de distribución muestra dónde se puede esperar que se encuentre la mayoría de los valores t. La mayoría de las veces, se espera obtener valores t cercanos a 0. Eso tiene sentido, ¿cierto? Porque si se seleccionan de forma aleatoria muestras representativas de una población, la media de la mayoría de esas muestras aleatorias de la población debería estar cerca de la media general de la población, haciendo que sus diferencias (y por consiguiente los valores t calculados) estén cerca de 0.
Los valores T de mayor magnitud (negativos o positivos) son menos probables. Las "colas" en los extremos izquierdo y derecho de la curva de distribución representan casos en los que se obtienen valores extremos de t, lejos del 0. Por ejemplo, la región sombreada representa la probabilidad de obtener un valor t de 3,25 o superior. Imaginemos un dardo mágico que pudiéramos arrojar para que cayera aleatoriamente en cualquier parte debajo de la curva de distribución. ¿Cuál es la probabilidad de que caiga en la región sombreada? La probabilidad calculada es de 0,002107.....que se redondea a 0.002...que es...¡el valor p obtenido en los resultados de la prueba t!
En otras palabras, la probabilidad de obtener un valor t de 3,35 o superior, al tomar las muestras de la misma población (en este caso, una población con una media hipotética de 5), es de aproximadamente 0,002.
¿Qué tan probable es eso? ¡No muy probable! A efectos de comparación, la probabilidad de obtener "3 del mismo tipo" en una mano de póquer de 5 cartas es más de tres veces mayor (≈ 0,021).
Puesto que la probabilidad de obtener un valor tan alto como este o mayor al tomar muestras de esta población es tan baja, ¿qué es lo más probable? Es muy probable es que esta muestra no provenga de esta población (con la media hipotética de 5). Es mucho más probable que esta muestra provenga de otra población, una con una media mayor que 5.
Es decir: Puesto que el valor p es muy bajo (< nivel de significancia), usted rechaza la hipótesis nula y concluye que existe una diferencia estadísticamente significativa.
Por lo tanto, T y P están estrechamente relacionadas. Simplemente considere que son dos maneras diferentes de cuantificar lo "extremo" de sus resultados bajo la hipótesis nula. No se puede cambiar el valor de una sin cambiar la otra.
Cuanto mayor sea el valor absoluto del valor t, menor será el valor p, y mayor será la evidencia en contra de la hipótesis nula (Esto se puede verificar ingresando valores t más bajos y más altos para la distribución t en el paso 6, arriba).
El ejemplo de distribución t que se muestra arriba se basa en una prueba t de una cola para determinar si la media de la población es mayor que un valor hipotético. Por lo tanto, el ejemplo de distribución t muestra la probabilidad asociada al valor t de 3.25 solo en una dirección (la cola derecha de la distribución).
¿Cómo se podría usar la distribución t para encontrar el valor p asociado a un valor t de 3.25 para la prueba t de dos colas (en ambas direcciones)?
Sugerencia: En Minitab, ajuste las opciones en el paso 5 para encontrar la probabilidad para ambas colas. Si no posee una copia de Minitab, descargue gratis una versión de prueba por 30 días.