Minitab博客

使用 Minitab 预测分析模块分析比特币数据 | Analyzing Bitcoin Data Using Minitab Predictive Analytics Module

Written by Mikhail Golovnya | 2021-10-16 2:40:00

随着比特币的不断普及,越来越多的分析师希望深入了解这一现象。尽管准确预测比特币的实际价格依然十分困难,但确定几个值得关注的趋势和关系却并非遥不可及。在下文中,我将演示如何使用 Minitab 预测分析模块来完成这项任务。

参加即将举行的网络研讨会,了解 Minitab 预测分析模块:

真实的比特币数据可以从许多公开来源获得。您可从此处下载一个非常实用的数据集。 

该数据集提供自 2009 年以来,每天的比特币统计量。每天的汇总采用 44 种不同指标,包括比特币的价格、各类费用、区块计数、交易计数、投资回报等等,您可以在此处查询整部数据字典。 

在接下来的分析中,我将关注从 2015 年 1 月 1 日到 2021 年 4 月 20 日期间,每天的比特币统计量。这样做可以排除部分较早的历史资料,以免其弱化最近的趋势。这个数据集包括一个名为 ROI30d 的变量(即 30 天前所购资产产生的投资回报率)。在下文中,我的主要目标是将剩余变量用作潜在预测变量,对 30 天投资回报作出准确预测。

 

数据汇总

首先,我们快速浏览一下使用 Minitab 的不同数据汇总。

下方是 30 天投资回报的时间序列图。

 

可以看到,投资比特币可能会给你带来丰厚的回报,也可能会让您遭受巨大的损失。这项资产的波动性使得投资比特币的时机成为了决定回报大小的关键因素。因此,了解影响回报的因素有助于确定投资的最佳时机。

 

确定最重要的预测变量

我们经常会被问及一些问题,而且需要在最短时间内给出最佳答复。在 44 个可能的预测变量中,我需要知道哪一个最重要,而且必须快速知道才能执行分析。

这也正是 Minitab 预测分析模块包含“发现关键预测变量”选项的原因所在。这个选项可让我通过软件确定最重要的变量,从而构建一个高度准确但复杂性大幅降低的模型,以方便用户使用。

我通过 TreeNet“发现关键预测变量”选项运行我所选择的数据集。按照预期,Minitab 会从提供的候选预测变量集开始,之后按顺序构建一系列模型。由于会逐次放弃一个最不重要的变量,因此每一个后续模型使用的预测变量都会减少一个。所以,整个过程是泛化的现代后向消除过程,与经典回归模型有所区别。以下是我从完整的预测变量集开始之后所发生的情况(排除日期):

 

从出现的这些模型的图形可视化中可以看出,模型准确度围绕 90% 上下波动,直至只剩两个预测变量。经过深入分析之后,“发现关键预测变量”显示 AssetEODCompletionTime 是“最终优胜者”,也就是最重要的预测变量。

遗憾的是,根据数据字典里的定义,这个“预测变量”只是每天最后数据的收集时间而已,并不是有用的指标。因此,我想要移除这个变量,因为我确信它们很可能存在相关,但却没有预测作用。选择预测变量时,这种现象普遍存在:通常机器会先选择一堆无用的变量。这个示例也凸显了将预测分析与学科问题专业知识配对的重要性。幸运的是,应对方法很简单,只需将其移出候选变量列表,然后重新执行“发现关键预测变量”分析即可!

从原始列表移出 AssetEODCompletionTime 并重新启动预测变量发现过程后,我获得了以下汇总信息:

 

请注意,Minitab 的引擎突出显示最优模型使用了 8 个原始变量(指标),50% 检验分区的 R 平方达到了 91%。对于此类回归模型来说,这是很出色的性能结果。另外,还得注意,模型性能的统计变异为 90% 左右。

Minitab 还为我提供一个实用的可视化提示,即只有在预测变量数减少到 3 个以下时,模型的整体准确度才会明显下降。为了构建最简单且尽可能准确的模型,我选择了含 3 个预测变量的模型来执行更详细的分析。   或者,您可以从原始候选列表移除部分此类变量,然后重新执行最佳预测变量搜索,从而确定不同的优胜者子集。请记住,在这个示例中,我想要做的是快速确定最重要的因素。如果准确度是您的首要目标,那么您可以转为使用最优模型。机会是无穷无尽的,不论您的目标是什么,都可以通过点击几下来实现既定目标。

 

建模见解

回到我的示例,现在我来仔细看一下前面所选的 3 变量模型。以下便是此模型的性能汇总:

 

可以看到,在 50% 检验样本上的准确度为 88% 以上,结果十分出色!此外,Minitab 还会报告这三个幸存指标对此模型的整体贡献的相对排名:

 

30 天投资回报相关的最重要变量是 CapMVRVCur。结果表明,这个变量汇总了可能的高估/低估市场的情形。以下是此变量过去 6 年的时间序列图:

 

看上去,这个指标趋向于在 1.0 和 4.0 之间波动,目前的值为 3.3 左右且呈下降趋势。以下是数据字典对这一指标的详细描述:

创建这个比率背后的直觉是将价格函数除以“已实现价值”(请参考“价值,已实现,美元”)所代理的“基础”。这样就得到了一个比率,其可能会表明高估周期(网络价值远超其与已实现价值的历史关系)与低估周期。已实现价值是一个强有力的基础,可理解为特定时间持有者的平均成本基础,因此两者的比率可指示持有人是否处于平均水平以下,并据此提供对总体市场情绪的见解。

 

TreeNet 梯度推进模型也会揭示这个指标对 30 天投资回报所作贡献的性质:

 

回想一下,这个指标的最近值围绕 3.3 上下浮动,并且呈持续下降趋势。从上述依赖图可清晰看出,若事实确实如此,则 30 天 ROI 将继续下降。或者,若有理由相信此指标会至少上升到 3.7,则根据历史模式,我们可能会看到 ROI 的大幅增长。

上述几个步骤模拟了预测分析中会碰到的典型场景。我们先从包含 44 个变量的数据集开始,然后很快在几分钟之内找出最重要的预测变量。“关键预测变量选择”创建了一个快捷方式,避免了一次只能关注一个变量的单调且费力的过程。此外,TreeNet 梯度推进模型显示出卓越的准确度。所有这些都凸显出现代预测分析的强大能力,并且展示了为何您需要这种能力来不断向前发展!

得到了启发并希望利用 Minitab Statistical Software 运行自己的预测分析?