Minitab의 예측 분석 모듈을 사용하여 비트코인 데이터 분석하기 Analyzing Bitcoin Data Using the Minitab Predictive Analytics Module

Mikhail Golovnya | 5/20/2021

주제: Predictive Analytics, Minitab Statistical Software, 비트코인

비트코인의 인기가 상승하면서 점점 더 많은 분석가들이 이러한 현상을 보다 잘 이해하기 위해 노력하고 있습니다. 실제 비트코인 가격을 정확하게 예측하기란 매우 어렵지만, 일부 흥미로운 트렌드와 관계를 파악하는 것은 가능합니다. 다음에서는 Minitab 예측 분석(Predictive Analytics) 모듈을 사용하여 이러한 작업을 수행하는 방법을 알아보겠습니다.

주문형(On-demand) 웨비나에서 Minitab 예측 분석 모듈에 대해 알아보세요.
지금 시청

실제 비트코인 데이터는 여러 공공 자료에서 받아볼 수 있습니다. 매우 유용한 데이터 집합을 여기서 다운로드할 수 있습니다. 

이 데이터 집합은 2009년부터 일 단위의 비트코인 통계가 포함되어 있습니다. 매일 비트코인 가격, 다양한 수수료, 블록 수, 거래 횟수, 투자 대비 수익률을 포함한 44개의 지표로 요약됩니다. 데이터 관련 용어의 의미는 여기서 알아보세요. 

이 예에서는 최신 트렌드에 집중하기 위해 2015년 1월 1일부터 2021년 4월 20일까지의 비트코인 일일 통계를 분석하겠습니다. 데이터 집합은 ROI30d라는 변수를 포함하는데, 이는 최근 30일간 구매의 투자 대비 수익률(%)을 의미합니다. 이 분석의 주된 목적은 나머지 변수를 잠재적 예측 변수로 활용하여 30일간의 투자 대비 수익률을 정확하게 예측하는 것입니다.

 

데이터 요약

첫째, Minitab을 사용한 여러 데이터 요약을 간략하게 살펴보겠습니다.

아래는 30일 투자 대비 수익률의 시계열도입니다.

Bitcoin Blog Image 1

 

보시다시피 비트코인 투자는 상당한 수익이나 손실을 초래할 수 있습니다. 이 자산의 변동성을 감안하면 비트코인 투자의 시점이 수익률에 매우 중요한 역할을 하므로, 수익에 영향을 주는 요인이 무엇인지 알아보는 것이 최적의 투자 시기를 결정하는 데 도움이 됩니다.

 

가장 중요한 예측 변수 파악하기

많은 경우 우리는 최대한 빨리 질문에 대한 최적의 해답을 내놓아야 합니다. 이때 우리는 예측 변수 44개 중 가장 중요한 변수를 빨리 파악하여 분석을 실시해야 합니다.

Minitab 예측 분석 모듈은 이를 위해 '주요 예측 변수 검색'이라는 옵션을 제공합니다. 이 옵션을 사용하면 Minitab 소프트웨어가 파악한 가장 중요한 변수를 활용하여 정확도가 높으면서도 덜 복잡한 사용자 친화적인 모형을 만들 수 있습니다.

이 예에서는 데이터 집합에 TreeNet®의 '주요 예측 변수 검색'을 실행했습니다. 예상한 대로 Minitab은 제공된 예측 변수의 후보로 시작하여 순서대로 일련의 모형을 만듭니다. 일련의 모형은 뒤로 갈수록 중요도가 상대적으로 덜한 변수를 하나씩 제거하여 만들어집니다. 즉, 이러한 프로세스는 고전적인 회귀 모형화의 후진 제거를 최신식으로 일반화한 과정으로 볼 수 있습니다. 다음은 날짜를 제외한 모든 예측 변수로 이 과정을 시작하면 일어나는 일들입니다.

Bitcoin Blog Image 2

 

가능한 모형을 시각화한 그래프를 보면, 단 두 개의 예측 변수만 남을 때까지 모형의 정확도가 약90% 변동을 보인다는 사실을 확인할 수 있습니다. 분석을 자세히 살펴보면 '주요 예측 변수 검색' 옵션이 AssetEODCompletionTime이 '최종' 예측 변수 또는 가장 중요한 예측 변수임을 나타냅니다.

아쉽게도 데이터 용어집에서 AssetEODCompletionTime의 정의를 찾아보면 이 '예측 변수'는 '매일 마지막 데이터가 수집된 시간'이라는 사실을 확인할 수 있습니다. 이는 그다지 도움이 되는 지표가 아니죠. 즉, 이 변수는 상관관계는 있지만 예측적이지는 않으므로 제거하겠습니다. 이러한 현상은 예측 변수 선택 시 자주 일어나는 일입니다. 종종 머신은 먼저 쓸모가 없는 변수를 선택하곤 합니다. 또한 이 예는 전문 지식을 가진 사람이 예측 분석을 수행하는 것이 얼마나 중요한지 보여줍니다. 다행히 해결책은 간단합니다. 변수의 시작 목록에서 해당 변수를 제거하고 '최적의 예측 변수 검색' 분석을 다시 수행하기만 하면 됩니다.

원래 목록에서 AssetEODCompletionTime을 제거하고 예측 발견 프로세스를 다시 시작한 결과, 다음과 같은 결론을 도출했습니다.

Bitcoin Blog Image 3

 

보시다시피, Minitab 엔진은 최적의 모형이 8개의 원래 변수(지표)를 사용하고 50%의 검정 분할에서 결정계수(R-squared)가 91%를 달성한다는 사실을 나타냅니다. 이는 이러한 유형의 회귀 모형에서는 탁월한 성능 결과입니다. 또한 모형 성능의 통계적 변동이 약 90%라는 사실도 확인할 수 있습니다.

더불어 Minitab에서 예측 변수가 3개 미만으로 감소하는 경우에만 모형의 전체 정확도가 크게 떨어진다는 사실을 시각적으로 확인할 수 있습니다. 따라서 저는 정확도를 최대화하는 동시에 가장 단순한 모형을 만들기 위해 예측 변수가 3개인 모형을 선택하여 더욱 상세한 분석을 실시했습니다. 또는 이러한 변수 중 일부를 원래 후보 목록에서 제거하고 최적의 변수 검색을 다시 실시하여 다른 최적의 변수들을 파악할 수도 있습니다. 이 예시의 목적은 중요한 변수를 신속하게 파악하는 것입니다. 최대 정확도가 목적이라면 대신 최적의 모형을 선택해야 합니다. 기회는 무궁무진하며, 목표가 무엇이든 몇 번의 클릭만으로 쉽게 달성할 수 있습니다.

 

모델링 인사이트(통찰력)

앞의 예시로 다시 돌아와서, 다음으로 위에서 선택했던 3변수 모형을 보다 자세히 살펴보겠습니다. 다음은 이 모형의 성과를 요약한 것입니다.

Bitcoin Blog Image 4

 

보시다시피 50%의 테스트 표본에서 88%의 정확도를 달성했습니다. 이는 탁월한 결과입니다. 또한 Minitab은 최종 3개 변수가 이 모형에 기여하는 정도에 따라 이 변수들의 순위를 보고합니다.

Bitcoin Blog Image 5

 

3일 동안의 투자 수익률과 관련된 가장 중요한 변수는 CapMVRVCur입니다. 이 변수는 시장에서의 과대평가/저평가 가능성을 요약합니다. 다음은 지난 6년 동안 이 변수의 시계열도입니다.

Bitcoin Blog Image 6

 

이 지표는 현재 값이 약 3.3이고 감소하는 경우 1.0~4.0 사이에서 변동하는 경향이 있는 것으로 보입니다. 다음은 이 지표에 대한 데이터 용어집의 설명입니다.

이 비율의 원리는 실현 자본 환원(자본 환원, 실현, USD 참조)을 가상 지표로 삼은 '펀더멘탈(Fundamental)'로 가격 함수를 나눈 것입니다. 이것은 잠재적으로 과대평가 기간을 나타내는 비율(네트워크 값이 이전의 실현 자본 환원에 대한 관계를 훨씬 초과하는 경우)을 확인할 수 있습니다. 실현 자본 환원은 투자자의 평균 가격 기반으로 볼 수 있으므로 유력한 펀더멘털이며, 따라서 이 두 요인의 비율은 투자자가 손실을 보고 있는지 여부를 나타내 전반적인 상황을 파악할 수 있게 합니다.

또한 TreeNet의 경사(그래디언트) 부스팅 모형은 30일 동안의 투자 수익률에 대한 이 지표의 기여를 나타냅니다.

Bitcoin Blog Image 7

 

앞서 이 지표의 최근값은 3.3 전후로 움직이고 있으며, 앞으로 지속적으로 하락할 가능성이 높다고 했는데요. 위의 의존도를 보면 이 경우 3일 ROI가 지속적으로 하락할 것으로 예상됩니다. 또는 이 지표가 3.7 이상으로 증가할 가능성이 있다면 과거의 패턴에 기반하여 ROI가 상당히 증가할 것으로 예상할 수 있습니다.

위의 단계는 예측 분석의 일반적인 시나리오를 모방합니다. 이 예에서는 44개의 변수를 포함하는 데이터 집합으로 시작하여 단 몇 분만에 가장 중요한 예측 변수를 찾았습니다. 주요 예측 변수 검색은 각 변수를 하나씩 살펴보는 번거롭고 힘든 과정을 제거해줍니다. 또한 TreeNet® 경사 부스팅 모형은 탁월한 정확도를 나타냈습니다. 이 모든 과정은 최신 예측 변수의 강력한 기능을 나타내며, 앞으로 이러한 기능이 반드시 필요한 이유를 보여줍니다.

Minitab 통계 소프트웨어에서 직접 예측 변수를 수행하고 싶으신가요?
무료 평가판 시작하기