ビットコインの人気が高まるなか、この現象の理解を深めようとするアナリストが増えています。ビットコイン価格を正確に予測するのは難しいかもしれませんが、興味深いトレンドや関係を判別するのは可能です。この記事では、Minitab予測分析モジュールを使ってビットコインの価格予測を行いました。
実際のビットコインデータは、多くの公開ソースで確認することができます。 有用なデータセットの一つを、こちらからダウンロードできます。
データセットには、さかのぼること2009年までのビットコインの日次統計が含まれています。 毎日、ビットコイン価格、さまざまな手数料、ブロック数、トランザクション数、投資利益率など、44の異なる指標で要約されています。 データディクショナリ全体は、こちらで参照できます。
分析を目的として、2015年1月1日~2021年4月20日のビットコインの日次統計を見ます。これで、最新トレンドに当てはまらない昔の履歴を排除できます。データセットには、ROI30dと呼ばれる変数が含まれます。これは、30日前に購入したと仮定した場合の、資産の投資利益率です。残りの変数を潜在的な予測変数として用いて、30日間の投資利益率を正確に予測することが、私の主な目的です。その方法をご紹介します。
まず、Minitabを使用して、さまざまなデータ要約を見ていきます。
下の図は、30日間の投資利益率の時系列プロットです。
ご覧のとおり、ビットコインへの投資から、大きな儲けがでるまたは大きな損失がでる可能性があります。変動を考えると、ビットコインへの投資のタイミングが、利益を得るのには重要です。つまり、何が利益に影響をおよぼすのかがわかっていれば、投資の最適なタイミングを判断しやすくなります。
質問をされて、最短の時間で最良の答えを見つけなくてはいけないことがよくあります。分析を実行できるように、44の予測変数の中から、最も重要なものがどれかを素早く理解できることが必要です。
素早く理解するために、Minitab予測分析モジュールには「主要な予測変数を検出」オプションがあります。このオプションを使用すると、最も重要な変数を識別できるため、精度が高く、複雑さがはるかに少ないモデルを構築できるため、ユーザーフレンドリーになります。
データセットを取得して、TreeNet®「主要な予測変数を検出」から実行します。Minitabで、予測変数の候補セットから始まり、一連のモデルが順番に作成されていき、後続の各モデルが最も重要度の低い変数を削除しながら予測変数を1つずつ減らしていきます。つまり、従来の回帰モデリングから既知の後方排除を行っていく一般化の最新版です。予測変数の完全なセット(日付を除く)から始めると、次のようになります。
可能なモデルの視覚化グラフを見ると、予測変数が残り2つになるまで、モデルの精度が約90%変動していることがわかります。分析を掘り下げると、「主要な予測変数を検出」で、AssetEODCompletionTimeが「ラストマン・スタンディング」つまり最も重要な予測変数であることがわかります。
データディクショナリからこの定義を調べると、残念ながら、この「予測変数」は毎日の最後のデータが収集された時刻で、有用な指標ではありませんでした。相関の可能性は高いものの、予測ではないことが確実にわかっているため、これを排除します。これは予測変数の選択において、よくあることです。機械がまず、役に立たないものをたくさん選択することが多いです。この例では、予測分析と主題の専門知識を組み合わせることの重要性も強調されています。幸い、解決策は単純です。開始の変数リストから削除して、「主要な予測変数を検出」分析をやり直すだけです!
先のリストからAssetEODCompletionTimeを削除し、予測変数検出を再開すると、次の要約を得ることができます。
Minitabのエンジンでは、最適なモデルが8つの元の変数(メトリック)を使用し、50%の検定の分割で91%のR二乗を達成することが強調されています。これは、このタイプの回帰モデルの優れた成果です!また、モデルのパフォーマンスには約90%の統計的変動があります。
Minitabでは、予測変数の数が3以下になるとモデルの全体的な精度が大幅に低下するという、有用な可視化が行われます。最も単純なモデルを構築するため、精度を最大化しながら、詳細な分析用として3つの予測変数のあるモデルを選択します。または、先の候補リストからこれらの変数の一部を削除し、最良の予測変数探しをやり直して、別の有用なサブセットを特定することもできます。この例では、何が重要かを素早く特定しようとしています。精度の最大化が目的ならば、代わりに最適なモデルを選ぶでしょう。機会は無限にあるので、どのような目的であれ、数回クリックするだけで簡単に達成できるのです!
私の例に戻りましょう。上で選択した3変数モデルを詳しく見ていきます。このモデルの要約は、以下のようになります。
50%の検定サンプルで精度88%以上とは、素晴らしい結果です!さらに、Minitabでは、このモデルへの全体的な寄与度が、存続している3つのメトリックの相対ランキングでレポートされます。
30日間の投資利益率に関連する最も重要な変数は、CapMVRVCurです。この変数が市場の過大評価または過小評価の可能性を要約していることがわかります。過去6年間のこの変数の時系列プロットは、以下の通りです。
このメトリックは1.0~4.0で変動する傾向があり、現在の値は3.3前後、場合によって減少しているようです。 データディクショナリでは、この指標の詳細は、以下の通りです。
この比率作成の背後にある直感は、価格関数を実現資本化によってプロキシされた「ファンダメンタルズ」で割ることでした(資本化、実現、米ドルご参照)。これで、過大評価(ネットワーク値が実現資本との過去の関係をはるかに超える場合)と過小評価の期間を示す比率が得られます。実現資本は、ある時点の保有者の平均コスト基準と理解できるため、強力なファンダメンタルズです。したがって、2つの比率は、全体的なセンチメントの洞察を得ながら、保有者の含み損の有無を示します。
TreeNet®勾配ブースティングモデルは、30日間の投資利益率に対するこのメトリックの寄与の性質も明らかにします。
このメトリックの最新の値は3.3前後で推移しており、減少し続けそうなことを思い出してください。上の従属プロットから、これが当てはまる場合に、30日間のROIは低下し続けると予想できます。または、このメトリックが3.7以上に増加しそうな理由がある場合は、過去のパターンに基づいて、ROIが大幅に増加すると予想できます。
上の一連の手順は、予測分析で遭遇する典型的なシナリオです。44の変数を含むデータセットから始めて、わずか数分で、最も重要な予測変数を見つけました。主要な予測変数の選択では、一度に1つの変数を調べていく面倒な手順を回避するショートカットができます。さらに、TreeNet®勾配ブースティングモデルは優れた精度を示しました。このすべてが、最新の予測分析のパワーを示し、前に進めるべき理由を示しています。