*Algunos enlaces relacionados pueden contener información en otros idiomas.
Me encantan todos los datos, ya sea que estén distribuidos normalmente o sean completamente extraños. Sin embargo, muchas personas se sienten más cómodas con la curva simétrica en forma de campana de una distribución normal. No es tan intuitivo entender una distribución Gamma, con sus parámetros de forma y escala, como lo es entender la distribución Normal común con su media y desviación estándar.
No obstante, es un hecho real que no todos los datos siguen la distribución Normal. ¡Oye!, hay muchas cosas que simplemente están distribuidas de una manera anormal... bueno... no normal. Cómo entender y presentar las implicaciones prácticas de una distribución no normal de una manera fácil de entender es un desafío constante para los analistas.
Esto se aplica particularmente a los analistas de mejora de procesos de calidad, porque muchos de sus datos son asimétricos. La salida de muchos procesos suele tener límites naturales en un lado de la distribución. Los límites naturales incluyen cosas como la pureza, que no puede exceder el 100%. O los tamaños de agujeros perforados que no pueden ser más pequeños que la broca del taladro. Estos límites naturales producen distribuciones asimétricas que se extienden más allá del límite natural. Por lo tanto, los datos no normales son realmente típicos en algunas áreas.
No teman: si se puede iluminar algo que está oculto y se logra identificar, eso lo vuelve menos atemorizante. Le mostraré cómo:
Para ilustrar este proceso, utilizaré los datos sobre el porcentaje de grasa corporal de mi publicación anterior sobre cómo usar el análisis de regresión para predicción.
Simplemente podríamos graficar los datos de muestra sin procesar en un histograma como este:
Este histograma refleja la forma de los datos de la muestra y es un buen punto de partida. Podemos ver que esta distribución es asimétrica hacia la derecha y probablemente no normal. Sin embargo, esta gráfica solo nos informa acerca de los datos de este ejemplo específico. No es posible hacer inferencias sobre la población más grande.
¿Qué se puede hacer para aumentar la utilidad de estos datos? En primer lugar, identifique la distribución que siguen los datos. Una vez que lo haga, podrá saber más acerca de la población, ¡y también podrá crear gráficas muy llamativas!
Para identificar la distribución, iremos a Estadísticas > Herramientas de calidad > Identificación de la distribución individual en Minitab. Esta práctica herramienta le permite comparar fácilmente la manera en que sus datos se ajustan a 16 distribuciones diferentes. Produce una gran cantidad de salida en la ventana Sesión y en las gráficas, pero no se deje intimidar. Antes de examinar la salida, hay tres medidas que debe conocer.
Estadístico de Anderson-Darling (AD): Los valores más bajos de AD indican un mejor ajuste. Sin embargo, para comparar qué tan bien se ajustan las diferentes distribuciones a los datos, debe evaluar el valor p, como se describe a continuación.
Valor p: Es conveniente un valor p alto. Por lo general, es válido comparar los valores p entre las distribuciones y seleccionar el más alto. Un valor p bajo (por ejemplo, < 0.05) indica que los datos no siguen esa distribución. Para algunas distribuciones de 3 parámetros, el valor p es imposible de calcular y se representa mediante asteriscos.
LRT P: Solo para las distribuciones de 3 parámetros, un valor bajo indica que agregar el tercer parámetro es una mejora significativa sobre la versión de 2 parámetros. Un valor más alto sugiere que podría ser conveniente seguir con la versión de 2 parámetros.
Entonces, en el caso de mis datos, rellenaré el cuadro de diálogo principal de la siguiente manera:
Vamos a profundizar en la salida. Comenzaremos con la tabla de bondad de ajuste que se muestra abajo.
La primera línea muestra que nuestros datos definitivamente no están distribuidos normalmente, porque el valor p para la distribución Normal es menor que 0.005.
Omitiremos las dos transformaciones (Box-Cox y Johnson), porque queremos identificar la distribución nativa en lugar de transformarla.
Un buen lugar para empezar es echar un vistazo a los valores p y buscar el más alto. El valor p más alto corresponde a la distribución de Weibull de 3 parámetros. Para Weibull de 3 parámetros, el LRT P es significativo (0.000), lo que significa que el tercer parámetro mejora significativamente el ajuste.
Considerando el valor p más alto y un valor de LRT P significativo, podemos seleccionar la distribución de Weibull de 3 parámetros como el mejor ajuste para nuestros datos. Identificamos esta distribución al examinar la tabla en la ventana Sesión, pero Minitab también crea una serie de gráficas que proporcionan mucha de la misma información junto con gráficas de probabilidad.
Las gráficas de probabilidad son una excelente manera de identificar visualmente la distribución que siguen los datos. Si los puntos de los datos siguen la línea recta, la distribución se ajusta. En la siguiente gráfica, se puede ver la distribución de Weibull de 3 parámetros, así como otras tres distribuciones que no se ajustan a los datos.
Ahora sabemos lo que es la distribución, pero ¿cuáles son los valores de los parámetros de la distribución? Para esos valores, examine la siguiente tabla en la salida de la ventana Sesión de Minitab:
Muy bien. Ahora sabemos que los datos de porcentaje de grasa corporal siguen una distribución de Weibull de 3 parámetros con una forma de 1.85718, una escala de 14.07043 y un umbral de 16.06038.
En este punto es posible que se pregunte, "¿Cómo nos ayuda eso?" La respuesta: con esta información acerca de la distribución, podemos ir más allá de los datos de muestra sin procesar y hacer inferencias estadísticas sobre la población más grande.
En mi próxima publicación, le mostraré cómo usar potentes herramientas de Minitab para lograr un conocimiento más profundo de su área de investigación y presentar sus resultados de una manera más efectiva.