Bitcoin-Daten mit dem Minitab-Modul „Prädiktive Analysen“ analysieren

Mikhail Golovnya | 07 June, 2021

Themen: Minitab Statistical Software, Praediktiven Analysen, Modellierung

Der Bitcoin wird immer populärer, und so ist es kein Wunder, dass immer mehr Analysten versuchen, dieses Phänomen zu verstehen. Auch wenn es äußerst schwer sein dürfte, genaue Prognosen für die tatsächlichen Bitcoin-Preise aufzustellen, ist es doch möglich, einige interessante Trends und Beziehungen zu ermitteln. Im Folgenden werde ich zeigen, wie dies mit dem Minitab-Modul „Prädiktive Analysen“ möglich ist.

Erfahren Sie mehr zum Minitab-Modul „Prädiktive Analysen“ in unserem Webinar On-Demand:
Jetzt ansehen

 

Die tatsächlichen Bitcoin-Daten sind aus vielen öffentlich zugänglichen Quellen erhältlich. Ein sehr nützlicher Datensatz kann hierhier heruntergeladen werden. 

Dieser Datensatz enthält Bitcoin-Statistiken mit täglich erfassten Daten bis zurück ins Jahr 2009. Jeder Tag wird durch 44 unterschiedliche Kennzahlen zusammengefasst, darunter der Bitcoin-Preis, verschiedene Gebühren, Anzahl der Blöcke, Anzahl der Transaktionen, Kapitalrendite und mehr. Das gesamte Datenwörterbuch kann hier eingesehen werden.

Für unsere Analyse werde ich die täglichen Bitcoin-Statistiken vom 1. Januar 2015 bis zum 20. April 2021 untersuchen. Damit wird der frühere Verlauf ausgeklammert, der von den neuesten Trends ablenken könnte. Der Datensatz enthält eine Variable mit dem Namen ROI30d. Hierbei handelt es sich um die prozentuale Kapitalrendite für die Anlage unter der Annahme, dass diese 30 Tage vorher erworben wurde. Im Folgenden wird mein Hauptziel sein, die 30-Tage-Kapitalrendite anhand der übrigen Variablen als potenzielle Prädiktoren genau zu prognostizieren.

 

ZUSAMMENFASSUNGEN DER DATEN

Zuerst möchte ich kurz die verschiedenen Zusammenfassungen der Daten in Minitab betrachten.

Unten sehen Sie ein Zeitreihendiagramm der 30-Tage-Kapitalrendite:

Zeitreihendiagramm für ROI30d

 

Wie sie sehen können, kann eine Investition in Bitcoin zu hohen Gewinnen oder erheblichen Verlusten führen. Aufgrund der Volatilität dieser Anlageform ist der richtige Zeitpunkt für den Ankauf von Bitcoins wesentlich für einen Gewinn. Zu wissen, was sich auf den Gewinn auswirkt, kann Ihnen dabei helfen, den besten Zeitpunkt für den Ankauf zu bestimmen.

 

DIE WICHTIGSTEN PRÄDIKTOREN ERMITTELN

Häufig wird uns eine Frage gestellt, und wir müssen innerhalb kürzester Zeit die beste Antwort finden. Bei 44 möglichen Prädiktoren muss ich wissen, welche die stärksten Auswirkungen haben. Und ich muss diese Antwort rasch parat haben, damit ich die Analyse ausführen kann.

Genau aus diesem Grund gibt es im Minitab-Modul „Prädiktive Analysen“ die Option „Wichtige Prädiktoren ermitteln“. Mit dieser Option kann ich es der Software überlassen, die wichtigsten Variablen zu bestimmen. So erhalte ich ein Modell, das immer noch sehr genau, jedoch weit weniger komplex und damit viel benutzerfreundlicher ist.

Ich führe also den TreeNet-Befehl „Wichtige Prädiktoren ermitteln“ für den Datensatz aus. Wie erwartet beginnt Minitab mit den angegebenen Kandidaten als Prädiktoren und erstellt nacheinander eine Reihe von Modellen. Dabei wird in jedem nachfolgendem Modell ein Prädiktor weniger verwendet, indem jeweils die am wenigsten wichtige Variable ausgeschlossen wird. Das gesamte Verfahren ist also eine neuartige Verallgemeinerung der aus der klassischen Regressionsmodellierung bekannten Rückwärtselimination. Folgendes geschieht, wenn ich mit dem gesamten Satz Prädiktoren (außer dem Datum) beginne:

Prädiktor-Eliminationsdiagramm

 

In der graphischen Visualisierung aller möglichen Modelle können Sie feststellen, dass die Modellgenauigkeit um einen Wert von 90 % schwankt, bis nur noch zwei Prädiktoren übrig sind. Bei einer genaueren Betrachtung der Analyse zeigen die Ergebnisse von „Wichtige Prädiktoren ermitteln“, dass AssetEODCompletionTime der wichtigste Prädiktor ist.

Leider ergibt sich aus der Definition im Datenwörterbuch, dass dieser „Prädiktor“ einfach die Uhrzeit ist, zu der die letzten Daten täglich erfasst wurden. Dies ist keine nützliche Kennzahl. Ich möchte diese Daten also ausschließen, weil ich sicher weiß, dass sie wahrscheinlich korrelieren, aber nicht prädiktiv sind. Bei der Prädiktorauswahl ist es nicht ungewöhnlich, dass der Computer eine Reihe von nutzlosen Variablen auswählt. Dieses Beispiel zeigt auch, wie wichtig es ist, die prädiktive Analyse zusammen mit Fachwissen einzusetzen. Glücklicherweise gibt es eine einfache Lösung: Entfernen Sie diese Variable aus der anfänglichen Liste der Variablen, und wiederholen Sie den Befehl „Wichtige Prädiktoren ermitteln“!

Nach dem Ausschluss von AssetEODCompletionTime aus der anfänglichen Liste und Wiederholen der Prädiktorermittlung erhalte ich die folgende Zusammenfassung:

Prädiktor-Eliminationsdiagramm_Prädikto 38

 

Beachten Sie die Anmerkung des Minitab-Moduls, dass das optimale Modell 8 der ursprünglichen Variablen (Kennzahlen) nutzt und bei der 50%-Testpartition ein R-Quadrat von 91 % erzielt. Dies ist eine ausgezeichnete Leistung für ein Regressionsmodell dieses Typs! Beachten Sie außerdem, dass die Leistung der verschiedenen Modelle statistisch um 90 % gestreut ist.

Minitab bietet außerdem eine hilfreiche Visualisierung des Umstands, dass die Gesamtgenauigkeit der Modelle erst abnimmt, wenn die Anzahl der Prädiktoren unter 3 fällt. Um das einfachste Modell zu erstellen, das dennoch die maximale Genauigkeit aufweist, wähle ich für eine detailliertere Analyse ein Modell mit 3 Prädiktoren aus. Alternativ können Sie einige dieser Variablen aus der anfänglichen Kandidatenliste entfernen und die Ermittlung der besten Prädiktoren wiederholen, um eine andere Teilmenge von Prädiktoren zu finden. Denken Sie daran, dass ich in diesem Beispiel versuche, rasch die wichtigsten Faktoren festzustellen. Falls Ihr Ziel die größtmögliche Genauigkeit ist, würden Sie wahrscheinlich stattdessen das optimale Modell wählen. Es gibt unzählige Möglichkeiten, und ganz egal, wie Ihr Ziel aussieht, benötigen Sie nur wenige Mausklicks, um dahin zu gelangen!

 

EINBLICKE AUS DEM MODELL

Zurück zu meinem Beispiel. Ich werde jetzt das oben ausgewählte Modell mit 3 Variablen näher betrachten. Hier ist eine Zusammenfassung der Leistung dieses Modells:

Zusammenfassung des Modells

 

Wie sie sehen können, wurde bei der 50%-Teststichprobe eine Genauigkeit von über 88 % erzielt – ein ausgezeichnetes Ergebnis! Darüber hinaus gibt Minitab die relativen Ränge der verbleibenden drei Kennzahlen als jeweiligen Gesamtbeitrag zu diesem Modell an:

Relative Variablenwichtigkeit

 

Die wichtigste Variable für die 30-Tage-Kapitalrendite ist CapMVRVCur. Wie sich herausstellt, fasst diese Variable eine mögliche Über- oder Unterbewertung des Markts zusammen. Hier ist das Zeitreihendiagramm dieser Variable über die vergangenen 6 Jahre:

Zeitreihendiagramm für CapMVRVCur

 

Diese Kennzahl schwankt tendenziell zwischen 1,0 und 4,0, wobei aktuelle Werte um 3,3 liegen und möglicherweise abnehmen. Hier ist eine ausführlichere Beschreibung dieser Kennzahl aus dem Datenwörterbuch:

Die Logik hinter diesem Verhältnis ist eine Preisfunktion geteilt durch eine „Fundamentalgröße“, in diesem Fall die realisierte Kapitalisierung (siehe Kapitalisierung, realisiert, USD). Hierdurch erhalten Sie ein Verhältnis, das potenziell Zeiträume mit einer Überbewertung (wenn der Wert im Netzwerk das historische Verhältnis zur realisierten Kapitalisierung weit überschreitet) und Unterbewertung angibt. Die realisierte Kapitalisierung ist eine leistungsfähige Fundamentalgröße, da sie als durchschnittliche Kostenbasis für die Eigentümer zu einem gegebenen Zeitpunkt verstanden werden kann. Das Verhältnis dieser beiden Größen gibt also an, ob die Eigentümer Verluste gegenüber dem Nennwert verbuchen mussten, und erlaubt damit Einblicke in die allgemeine Stimmung.

 

Das TreeNet-Modell mit Gradient Boosting deckt außerdem auf, wie diese Kennzahl zur 30-Tage-Kapitalrendite beiträgt:

Ein Predictor Partielleabhängigkeitsdiagramm

 

Erinnern Sie sich daran, dass die neuesten Werte dieser Kennzahl um 3,3 schwanken und möglicherweise weiterhin abnehmen. Aus dem oben gezeigten Diagramm der Abhängigkeit geht klar hervor, dass wir eine fortgesetzte Abnahme des 30-Tage-ROI erwarten würden, wenn dies tatsächlich der Fall wäre. Falls es hingegen Grund zu der Annahme gibt, dass diese Kennzahl auf mindestens 3,7 oder höher ansteigen wird, können wir auf der Grundlage des historischen Musters möglicherweise einen erheblichen Sprung der ROI erwarten.

Die oben aufgeführten Schritte veranschaulichen ein typisches Szenario bei der prädiktiven Analyse. Wir haben mit einem Datensatz mit 44 Variablen begonnen und innerhalb von wenigen Minuten die wichtigsten Prädiktoren bestimmt. Die Funktion „Wichtige Prädiktoren ermitteln“ ist eine Abkürzung, mit dem sich das potenziell langwierige und aufwändige Verfahren, bei dem jede Variable einzeln betrachtet wird, vermeiden lässt. Außerdem wies das TreeNet-Modell mit Gradient Boosting eine ausgezeichnete Genauigkeit auf. Dies alles zeigt die Leistungsfähigkeit der modernen prädiktiven Analyse und untermauert, warum Sie künftig nicht darum herumkommen werden!

Möchten Sie Ihre eigene prädiktive Analyse in der Minitab Statistical Software durchführen?
Demoversion kostenlos testen