El Blog de Minitab

Analizando datos de Bitcoin con el módulo de Analítica predictiva de Minitab

Escrito por Mikhail Golovnya | 20-mar-2023 8:47:39

Con la creciente popularidad del bitcoin, cada vez son más los analistas que tratan de comprender mejor este fenómeno. Aunque podría ser muy difícil hacer predicciones exactas de los precios reales del bitcoin, sí es posible identificar algunas tendencias y relaciones interesantes. A continuación, haré una demostración de cómo utilizar el módulo de Analítica predictiva de Minitab para llevar a cabo esta tarea.

Conozca el módulo Minitab Predictive Analytics en nuestro seminario web a la carta. Ver ahora >

 

Los datos reales del bitcoin están disponibles en muchas fuentes públicas. Un conjunto de datos muy útil se puede descargar aquí

El conjunto de datos incluye estadísticas diarias del bitcoin que se remontan a 2009. Cada día se resume con 44 métricas diferentes, incluyendo el precio del bitcoin, diversas tarifas, conteo de bloques, conteo de transacciones, retorno de la inversión, y más.

A los efectos de nuestro análisis, examinaré las estadísticas diarias del bitcoin desde el 1 de enero de 2015 hasta el 20 de abril de 2021. Con esto se elimina parte de la historia más temprana que podría restar importancia a las tendencias más recientes. El conjunto de datos incluye una variable denominada ROI30d: un porcentaje del retorno de la inversión del activo que supone una compra 30 días antes. En lo que sigue, mi objetivo principal será hacer predicciones exactas del retorno de la inversión de 30 días utilizando las variables restantes como potenciales predictores.

 

RESÚMENES DE DATOS

En primer lugar, permítanme echar un vistazo rápido a varios resúmenes de datos utilizando el software de estadística Minitab.

A continuación se muestra la gráfica de series de tiempo del retorno de la inversión de 30 días:

 

Como puede ver, invertir en Bitcoin puede proporcionar retornos sustanciosos o pérdidas significativas. Dada la volatilidad de este activo, el momento de una inversión en Bitcoin es muy importante para el retorno, por lo que saber qué factores influyen en el retorno puede ayudar a determinar cuándo sería el mejor momento para invertir.

 

DETERMINACIÓN DE LOS PREDICTORES MÁS IMPORTANTES

Muchas veces nos hacen preguntas y tenemos que encontrar la mejor respuesta en el menor tiempo posible. Con 44 predictores posibles, necesito saber cuáles son los más importantes, y necesito saberlo rápido para poder hacer un análisis.

Es exactamente por eso que el módulo de Analítica predictiva de Minitab incluye una opción denominada “Descubrir los predictores clave”. Con esta opción, puedo dejar que el software identifique las variables más importantes, permitiéndome construir un modelo que sigue siendo sumamente preciso y, sin embargo, es mucho menos complejo, lo que lo hace mucho más fácil de usar.

Tomo mi conjunto de datos y le aplico la opción “Descubrir los predictores clave” de TreeNet. Como era de esperar, Minitab comienza con el conjunto suministrado de predictores candidatos y procede a crear una serie de modelos en secuencia, y cada modelo subsiguiente utiliza un predictor menos al eliminar la variable menos importante. Por lo tanto, todo el proceso es una generalización moderna del proceso de eliminación hacia atrás característico de los modelos clásicos de regresión. Esto es lo que sucede cuando empiezo con el conjunto completo de predictores (excluyendo la fecha):

 

Examinando la visualización gráfica de mis posibles modelos, podemos ver que la exactitud del modelo fluctúa alrededor de 90% hasta que solo quedan dos predictores. Cuando profundizo en el análisis, la opción “Descubrir los predictores clave” revela que AssetEODCompletionTime es el “último que queda en pie” o el predictor más importante.

Desafortunadamente, al buscar su definición en el diccionario de datos, este “predictor” es simplemente la hora en que se recopiló el último dato cada día, que no es una métrica útil. Como resultado, me gustaría eliminarlo porque sé, con certeza, que es probable que estén correlacionados pero no sean predictivos. Esto no es raro en la selección de los predictores: suele suceder que la máquina selecciona unos cuantos predictores inútiles al principio. En este ejemplo también se destaca la importancia de combinar la analítica predictiva con la experiencia en la materia. Por suerte, la solución es sencilla: ¡simplemente elimínelo de la lista inicial de variables y vuelva a hacer el análisis para “Descubrir el mejor predictor”!

Después de eliminar AssetEODCompletionTime de la lista original y reiniciar el proceso para descubrir predictores, obtengo el siguiente resumen:

 

Tenga en cuenta que el motor de Minitab destaca que el modelo óptimo utiliza 8 variables (métricas) originales y alcanza un R-cuadrado de 91% en la partición de prueba del 50%. ¡Este es un excelente resultado de rendimiento para un modelo de regresión de este tipo! También tenga en cuenta que hay una variación estadística en el rendimiento de los modelo de alrededor de 90%.

Minitab también me permite ver que la exactitud general de los modelos solo disminuye significativamente cuando el número de predictores cae por debajo de 3. Con el fin de construir el modelo más simple, y al mismo tiempo maximizar la exactitud, selecciono un modelo con 3 predictores para un análisis más detallado. Alternativamente, puede eliminar algunas de estas variables de la lista original de candidatos y volver a hacer la búsqueda de los mejores predictores para identificar un subconjunto diferente de ganadores. Recuerde que en este ejemplo estoy tratando de identificar rápidamente lo que es importante. Si su objetivo es la máxima exactitud, es probable que prefiera usar el modelo óptimo. Las oportunidades son infinitas, y no importa cuál sea su objetivo, ¡puede lograrlo fácilmente con solo unos pocos clics!

 

HALLAZGOS DEL MODELADO

Volvamos a mi ejemplo. Ahora echaré un vistazo más de cerca al modelo de 3 variables seleccionado anteriormente. El siguiente es el resumen de rendimiento de este modelo:

 

Como puede ver, tenemos una exactitud de más de 88% en la muestra de prueba del 50%: ¡un excelente resultado! Además, Minitab proporciona clasificaciones relativas de las tres métricas sobrevivientes en términos de su contribución global a este modelo:

 

La variable más importante asociada al retorno de la inversión de 30 días es CapMVRVCur. Resulta que esta variable resume una posible sobrevaloración/subvaloración del mercado. La siguiente es la gráfica de series de tiempo de esta variable en los últimos 6 años:

 

Parece que esta métrica tiende a fluctuar entre 1 y 4, situándose los valores actuales alrededor de 3,3 y posiblemente disminuyendo. La siguiente es una descripción más detallada de esta métrica tomada del diccionario de datos:

La intuición detrás de la creación de este cociente fue dividir una función de precio por un “fundamental” como se indica en Capitalización realizada (véase Capitalización, realizada, USD). Esto le proporciona un cociente que potencialmente indica períodos de sobrevaloración (cuando el valor de red supera con creces su relación histórica con la capitalización realizada) y subvaloración. La capitalización realizada es un fundamental potente, ya que puede entenderse como la base de costo promedio para los tenedores en un momento determinado, por lo que el cociente de ambos indica si los tenedores están en aprietos o no, brindando una idea del sentimiento agregado.

 

El modelo de potenciación de gradientes TreeNet también revela la naturaleza de la contribución de esta métrica al retorno de la inversión de 30 días:

 

Recuerde que los valores más recientes de esta métrica fluctúan alrededor de 3,3 y es posible que sigan disminuyendo. De acuerdo con la gráfica de dependencia anterior, está claro que si realmente ese va a ser el caso, entonces podemos esperar que el ROI de 30 días siga disminuyendo. Alternativamente, si hay alguna razón para creer que esta métrica va a aumentar a 3,7 o más, podríamos esperar un salto significativo en el ROI, con base en el patrón histórico.

La serie de pasos descritos anteriormente refleja un escenario que se presenta comúnmente en la analítica predictiva. Comenzamos con un conjunto de datos que contenía 44 variables y encontramos rápidamente los predictores más importantes en cuestión de minutos. La Selección de predictores clave proporciona un método abreviado para evitar el proceso potencialmente tedioso y laborioso de examinar cada variable una a la vez. Además, el modelo de potenciación de gradientes TreeNet mostró un excelente grado de exactitud. Todo esto resalta el poder de la analítica predictiva moderna y demuestra por qué la necesitará de ahora en adelante!

¿Se anima a realizar su propio análisis predictivo en Minitab Statistical Software? Comience su prueba gratuita >