Analyser les données bitcoin au moyen du module d'analyse prédictive de Minitab

Mikhail Golovnya | 25 June, 2021

Les Sujets: Minitab Statistical Software, analyses predictives, Arbres de régression et de classification, Random Forest, Treenet

Face à la popularité grandissante du bitcoin, les analystes sont de plus en plus nombreux à essayer de comprendre plus précisément ce phénomène. S'il s'avère très difficile de prévoir avec précision le prix réel des bitcoins, il est néanmoins possible d'identifier certaines tendances et corrélations intéressantes. Je propose de vous expliquer ci-dessous comment utiliser le module d'analyse prédictive de Minitab pour effectuer cette tâche. 

Découvrez les nouveaux algorithmes de décision Treenet® et Random Forest® disponibles dans le module d'analyse prédictive de Minitab 

Je découvre les arbres de décision Treenet et Random Forest

Les données de bitcoin sont disponibles auprès d'un grand nombre de sources publiques. Il est possible de télécharger un fichier de données très utile ici.  

Ce fichier de données comprend des statistiques sur les bitcoins, compilées quotidiennement depuis 2009. Chaque jour est résumé par 44 indicateurs différents, dont le prix des bitcoins, les frais applicables, le nombre de blocs et de transactions, le retour sur investissement et bien plus encore. Vous pouvez consulter l'intégralité du dictionnaire de données ici.  

Dans le cadre de notre analyse, je vais m'intéresser aux statistiques quotidiennes des bitcoins entre le 1er janvier 2015 et le 20 avril 2021. Cela me permet d'écarter certaines parties plus anciennes de l'historique qui seraient susceptibles de fausser les tendances les plus récentes. Le fichier de données comprend une variable appelée ROI30d, un retour sur investissement exprimé en pourcentage pour un actif ayant été acheté 30 jours plus tôt. Dans ma démonstration ci-dessous, je vais tenter avant tout de prévoir le plus précisément possible le montant du retour sur investissement à 30 jours à l'aide des autres variables que je vais utiliser comme prédicteurs potentiels. 

RECAPITULATIFS DE DONNEES 

Laissez-moi tout d'abord jeter un rapide coup d’œil à différents récapitulatifs de données au moyen du logiciel d'analyse de données Minitab. 

Vous avez ici le diagramme de série chronologique représentant le retour sur investissement à 30 jours : 

Comme vous pouvez le constater, investir dans des bitcoins peut générer des retours très lucratifs ou d'énormes pertes. Compte tenu de la volatilité de cet actif, il est indispensable d'investir au bon moment dans cette cryptomonnaie pour bénéficier du meilleur retour. Ainsi, en sachant précisément quels sont les facteurs qui influent sur le retour, il est possible de déterminer le meilleur moment pour investir. 

 

DETERMINER LES PREDICTEURS LES PLUS IMPORTANTS 

Nous sommes souvent confrontés à des questions auxquelles nous devons répondre au mieux, le plus rapidement possible. Face à 44 prédicteurs potentiels, j'ai besoin de savoir quels sont les plus importants et de les identifier rapidement pour pouvoir lancer une analyse. 

C'est précisément ce que propose l'option "Découvrir les prédicteurs principaux" du module d'analyse prédictive de Minitab. Cette option permet au logiciel d'identifier lui-même les variables les plus importantes et m'aide à générer un modèle à la fois ultra-précis et bien moins complexe, pour une expérience deux fois plus conviviale. 

Je récupère mon fichier de données et je lance l'option "Découvrir les prédicteurs principaux" dans le cadre d'une régression TreeNet. Comme prévu, Minitab commence par analyser l'ensemble de prédicteurs potentiels fourni, puis continue en créant une série de modèles de façon séquentielle, chaque nouveau modèle utilisant un prédicteur de moins en abandonnant la variable la moins importante. Ainsi, l'ensemble du processus s'apparente à une généralisation moderne du procédé d'élimination descendante emprunté à la modélisation de régression classique.

Voici ce qu'il se passe lorsque je commence par l'ensemble complet de prédicteurs (à l'exclusion de la date) : 

 

Si vous observez la représentation graphique des différents modèles possibles, vous constaterez que la précision de chacun d'eux varie autour de 90 % jusqu'à ce qu'il ne reste plus que deux prédicteurs. Si j'approfondis un peu plus mon analyse, je m'aperçois que l'option "Découvrir les prédicteurs principaux" révèle que la variable HeureCollecteDernièrreDonnéeChaqueJour est la "dernière survivante", c'est-à-dire le prédicteur le plus important. 

Malheureusement, si nous consultons le dictionnaire de données pour découvrir sa définition, ce "prédicteur" ne correspond qu'à l'heure à laquelle les dernières données ont été collectées chaque jour, ce qui n'est pas un indicateur très utile. Dans ce cas, je décide de l'écarter, car je sais, avec certitude, que les prédicteurs de ce type sont certes probablement corrélés, mais non prédictifs.

Cette situation n'est pas si rare lors de la sélection de prédicteurs : en effet, la machine sélectionne souvent une première série de variables inutiles. Cet exemple met également en évidence l'importance de posséder une expertise dans le domaine lors de la réalisation d'analyses prédictives. Heureusement, dans ce cas, la solution est on ne peut plus simple : il suffit de supprimer le prédicteur de la liste des variables initiales et de relancer l'analyse permettant de "découvrir le meilleur prédicteur » ! 

Après avoir écarté HeureCollecteDernièrreDonnéeChaqueJour  de la liste d'origine et relancé le processus d'identification des prédicteurs, j'obtiens le résultat suivant : 

 

MODELISER LES INFORMATIONS 

Revenons à mon exemple. Je vais maintenant m'intéresser de plus près au modèle à 3 variables sélectionné ci-dessus. Voici le récapitulatif des performances de ce modèle : 

Bitcoin Blog Image 4

Comme vous pouvez le voir, la précision est supérieure à 88 % pour l'échantillon de test de 50 %, il s'agit d'un excellent résultat ! Par ailleurs, Minitab indique le classement relatif des trois indicateurs restants en matière de contribution globale à ce modèle : 

CapMVRVCur correspond à la variable la plus importante associée au retour sur investissement à 30 jours. Il s'avère que cette variable indique une éventuelle sur-évaluation/sous-évaluation du marché. Voici maintenant le diagramme de série chronologique de cette variable couvrant les 6 dernières années : 

 

Il apparaît que cet indicateur a tendance à fluctuer entre 1,0 et 4,0, les valeurs actuelles étant situées autour de 3,3 avec une éventuelle propension à la baisse. Voici une description plus détaillée de cet indicateur tirée du dictionnaire de données : 

La création de ce ratio avait pour objectif de diviser une fonction prix par un "élément fondamental", tel que la capitalisation réalisée (voir capitalisation, réalisée, USD). Cela permet d'obtenir un ratio indiquant éventuellement les périodes de sur-évaluation (lorsque la valeur du réseau est nettement supérieure à son niveau historique en matière de capitalisation réalisée) et de sous-évaluation. La capitalisation réalisée est un puissant élément fondamental, car elle peut être interprétée comme la référence des coûts moyens pour les détenteurs à un moment donné. Ainsi, le rapport entre les deux indique si la valeur des bitcoins détenus a plongé ou non, ce qui donne un aperçu du sentiment général. 

Le modèle de boosting de gradient TreeNet révèle également la nature de la contribution de cet indicateur dans le retour sur investissement à 30 jours : 

N'oubliez pas que les valeurs les plus récentes de cet indicateur fluctuent autour de 3,3 et qu'elles vont probablement continuer de baisser. Le diagramme de dépendance ci-dessus montre clairement que si c'est en effet le cas, nous pouvons nous attendre à ce que le retour sur investissement à 30 jours continue de chuter. Ceci étant, s'il y a des raisons de penser que cet indicateur va augmenter jusqu'à 3,7 ou plus, nous pouvons espérer une hausse significative du retour sur investissement sur la base du schéma historique. 

La série d'étapes ci-dessus reproduit un scénario caractéristique des analyses prédictives. Nous sommes partis d'un fichier de données contenant 44 variables et avons découvert en quelques minutes seulement les prédicteurs les plus importants. La sélection des prédicteurs principaux permet d'éviter d'avoir à observer chacune des variables les unes après les autres, une tâche éventuellement fastidieuse et laborieuse. Par ailleurs, le modèle de boosting de gradient de TreeNet nous a permis de bénéficier d'un maximum de précision.

Cette présentation souligne la puissance des analyses prédictives actuelles et démontre pourquoi vous en avez besoin pour aller plus loin ! 

 

Vous souhaitez tester votre propre analyse prédictive dans Minitab Statistical Software ? 

Je télécharge la version d'essai de 30 jours gratuits