Análise de dados de Bitcoin usando o módulo de análise preditiva do Minitab

Mikhail Golovnya | 04 November, 2022

Tópicos: analyses predictives, Minitab Statistical Software

Com a crescente popularidade do bitcoin, uma quantidade cada vez maior de analistas tenta desenvolver uma melhor compreensão desse fenômeno. Embora seja muito difícil fazer previsões precisas dos preços reais do bitcoin, é possível identificar algumas tendências e relações interessantes. A seguir, demonstrarei como usar o Módulo de Análise preditiva do Minitab para realizar essa tarefa. 

Aprenda sobre o Módulo de Análise Preditiva do Minitab: 

Descubra os modelos preditivos no Minitab

Os dados reais do bitcoin estão disponíveis em muitas fontes públicas. Você pode baixar um conjunto de dados muito útil aqui >

O conjunto de dados inclui estatísticas diárias de bitcoin desde 2009. Os dados diários contém 44 métricas diferentes, incluindo preço do bitcoin, várias taxas, contagem de blocos, contagem de transações, retorno sobre o investimento e muito mais.

Para a nossa análise, examinarei as estatísticas diárias do bitcoin de 1º de janeiro de 2015 a 20 de abril de 2021. Isso elimina parte do histórico anterior que poderia prejudicar as tendências mais recentes. O conjunto de dados inclui uma variável chamada ROI30d - um retorno percentual sobre o investimento para o ativo, pressupondo uma compra feita 30 dias antes. A seguir, meu principal objetivo será fazer previsões precisas do retorno sobre o investimento em 30 dias usando as variáveis restantes como preditoras potenciais. 

grafico-da-serie-cronologica-do-retorno-do-investimento-de-30-dias

RESUMOS DE DADOS 

Em primeiro lugar,darei uma olhada em vários resumos de dados usando o Minitab. 

Abaixo está o gráfico da série temporal do retorno do investimento de 30 dias: 

[Histogram]

Como pode ser visto, o investimento em Bitcoin pode gerar retornos lucrativos ou perdas significativas. Dada a volatilidade desse ativo, o momento certo de um investimento em Bitcoin é fundamental para obter o retorno. Portanto, saber quais são os impactos do retorno pode ajudar a determinar quando seria o melhor momento para investir. 

DETERMINAÇÃO DAS PREDITORAS MAIS IMPORTANTES 

Frequentemente fazemos perguntas e precisamos encontrar a melhor resposta no menor tempo possível. Com 44 preditoras possíveis, preciso saber quais são as mais importantes e preciso saber rapidamente para conseguir rodar uma análise. 

É exatamente por isso que o Módulo de Análise preditiva do Minitab tem uma opção chamada “Descobrir as principais preditoras”. Esta opção permite que o software identifique as variáveis mais importantes, permitindo construir um modelo que ainda é altamente preciso e, no entanto, muito menos complexo, tornando-o muito mais amigável. 

Então eu executo meu conjunto de dados no "Descobrir as principais preditoras” do TreeNet. Como esperado, o Minitab começa com o conjunto fornecido de candidatas a preditoras e prossegue construindo uma série de modelos em sequência, e a cada modelo subsequente usa uma preditora a menos, eliminando a variável menos importante. Assim, o processo inteiro é uma generalização moderna do processo de eliminação para trás (o backwards) conhecido da modelagem de regressão clássica. Veja o que acontece quando eu começo com o conjunto completo de preditoras (excluindo a data): 

seleccione-um-modelo-alternativo

Observando a visualização gráfica de meus modelos possíveis, você pode ver que a precisão do modelo flutua ao redor de 90% até que restem apenas duas preditoras. Quando me aprofundo na análise, o "Descobrir as principais preditoras" revela que AssetEODCompletionTime é a variável "highlander", ou a preditora mais importante. 

Infelizmente, ao procurar sua definição no dicionário de dados, essa "preditora" é simplesmente a hora em que os últimos dados foram coletados a cada dia, o que não é uma métrica útil. Como resultado, gostaria de eliminar isso porque sei - com certeza - que provavelmente estão correlacionados, mas não são preditivas. Isso não é incomum na seleção de preditoras: muitas vezes, a máquina seleciona primeiro um grupo de participantes inúteis. Este exemplo também destaca a importância de emparelhar análise preditiva com experiência no assunto. Felizmente a solução é simples - basta retirá-la da lista inicial de variáveis e refazer a análise “Descobrir as principais preditoras”! 

Depois de eliminar AssetEODCompletionTime da lista original e reiniciar o processo de descoberta da preditora, obtenho o seguinte resumo: 

seleccione-um-modelo-alternativo-2

Observe que o motor do Minitab destaca que o modelo ideal usa 8 variáveis originais (métricas) e obtém 91% de R2 na partição de teste a 50%. Este é um excelente resultado para o desempenho em um modelo de regressão desse tipo! Observe também que há uma variação estatística no desempenho do modelo, de cerca de 90%. 

O Minitab também me dá uma visualização útil de que a precisão geral dos modelos só cai significativamente quando o número de preditoras cai abaixo de 3. Para construir o modelo mais simples e, ao mesmo tempo, maximizar a precisão, seleciono um modelo com 3 preditoras para uma análise mais detalhada.   Como alternativa, você pode remover algumas dessas variáveis da lista original de candidatas e refazer a pesquisa da melhor preditora para identificar um subconjunto diferente de escolhidas. Lembre-se, neste exemplo, estou tentando identificar rapidamente o que é importante. Se a precisão máxima for seu objetivo, você provavelmente escolheria o modelo ótimo. As oportunidades são infinitas e, não importa qual seja o seu objetivo, você pode realizá-lo facilmente com apenas alguns cliques! 

INSIGHTS SOBRE A MODELAGEM 

Voltando ao meu exemplo. Agora vou dar uma olhada mais de perto no modelo de três variáveis selecionado acima. Veja o resumo do desempenho deste modelo: 

Resumo-do-modelo

Como você pode ver, temos mais de 88% de precisão na amostra de teste a 50% - um resultado excelente! Além disso, o Minitab relata as classificações relativas das três métricas remanescentes em termos de sua contribuição geral para este modelo: 

Importancia-relativa-da-variavel

A variável mais importante associada ao retorno do investimento de 30 dias é a CapMVRVCur. Mas esta variável resume uma possível sobrevalorização/subvalorização no mercado. Veja o gráfico da série temporal desta variável nos últimos 6 anos: 

3-dias-de-retorno-do-investimento

Parece que essa métrica tende a oscilar entre 1,0 e 4,0, com os valores atuais em torno de 3,3 e possivelmente diminuindo. Segue uma descrição mais detalhada dessa métrica no dicionário de dados:

A intuição por trás da criação desta razão foi dividir uma função de preço por um "fundamento", que é representado pela Capitalização realizada como uma proxy (ver Capitalização, realizada, USD). Isso dá a você uma razão que indica, potencialmente, períodos de sobrevalorização (quando o valor da rede excede em muito sua relação histórica com o limite realizado) e subvalorização. O limite realizado é um fundamento poderoso, pois pode ser entendido como a base do custo médio para os detentores em um determinado momento, de modo que a proporção dos dois indica se os detentores estão “debaixo d’água” ou não, dando uma visão geral do sentimento agregado. 

O modelo de aumento de gradiente do TreeNet também revela a natureza da contribuição desta métrica para o retorno do investimento de 30 dias: 

um-preditor-de-dependencia-parcial

Lembre-se de que os valores mais recentes dessa métrica estão flutuando em torno de 3,3 e possivelmente continuarão diminuindo. Com base no gráfico de dependência acima, fica claro que, se realmente for esse o caso, esperamos que o ROI de 30 dias continue a diminuir. De forma alternativa, se houver algum motivo para acreditar que essa métrica aumentará para 3,7 ou mais poderemos esperar um salto significativo no ROI, com base no padrão histórico. 

A série de etapas acima simula um cenário típico encontrado na análise preditiva. Começamos com um conjunto de dados contendo 44 variáveis e rapidamente encontramos as preditoras mais importantes, e tudo isso em questão de minutos. A seleção da preditora principal cria um atalho para evitar o processo potencialmente tedioso e trabalhoso de examinar cada variável isolada, uma de cada vez. Além disso, o modelo de aumento do gradiente do TreeNet mostrou uma precisão excelente. Tudo isso para destacar o poder da análise preditiva moderna e mostrar por que você precisa dela no futuro! 

Está se sentindo inspirado para fazer a sua própria análise preditiva no Minitab Statistical Software?

Fale com a Minitab