どれほど相関があっても、因果関係にはならない No Matter How Strong, Correlation Still Doesn't Equal Causation

Minitab Blog Editor | 15 12月, 2022

トピック: Minitab Statistical Software

最近、LinkedInのグループで興味深い会話を見かけました。グループは統計とデータ分析のコンサルタントからなり、彼らは因果関係と相関関係が分野に依存することを議論していました。例えば、観察に基づいた経済データと比較して、コントロールされた条件で実施された臨床試験のデータを見る場合、因果関係を裏付ける証拠は大きく異なる可能性があります。

 

グループの投稿者はさらに、時系列データへのグレンジャー因果の応用、疫学やその他の医療関連分野におけるHill因果関係基準、そして公表されている研究結果のほとんどが虚偽であるとする非常に説得力のある論文など、非常に魅力的なアイデアやアプローチを引用していました。  

これらは考察に向けた素晴らしい要素となりますが、統計学の世界で最も一般的に誤解されやすいことを改めて強調しています。それは、相関関係と因果関係は一致しないということです。一見単純なアイデアのようですが、我々は因子(例えば、ポテトチップスを食べること)と反応(例えば、心臓発作を引き起こす)の連想関係を発見した研究に関してメディアが報告するのを、息もつかせないほどの頻度で見てきたのではないでしょうか?あたかもそれがa + b = c の確立された必然であるかのように。 

相関とは何でしょうか?  

相関とは、2つの変数間の直線的な関連性にすぎず、ある変数が上昇または下降すると、他の変数も同様に上昇または下降することを意味します。この関連性は、両方の変数が一貫して上昇するような正の場合もあれば、一方の変数が上昇して他方の変数が減少するような負の場合もあります。 

2つの変数が相関しているかどうかを確認できる簡単な方法は、散布図を作成することです。相関の存在を散布図が即座に示すこともあります。例えば、このデータセットで、グラフ > 散布図 > 単純を選択し、スコア1とスコア2を入力すると、Minitabは次のようなグラフを作成します。  

scatterplot showing correlation between factors

(Minitabを操作してみたい方でまだお持ちでない方は、30日間の無料トライアルを今すぐ始めましょう!)

上の散布図から、スコア1の値が上昇するにつれてスコア2の値も上昇していることがよくわかります。確かに相関があります!しかし、あまり明確ではない散布図もあります。同じデータセットから、X変数にVerbal、Y変数にGPAを用いて散布図を作成してみましょう。  

Scatterplot of Verbal Scores and GPA

相関があるようにも見えますが…データはばらつきが多く、最初のグラフほどはっきりしません。これをさらに探ってみる価値はあるのでしょうか?例えば、回帰分析に進めることで関連性をより深く知ることができます。幸いなことに、これらの変数間の関連付けの強さを教えてくれる統計量を確認できます。    

相関係数

相関係数の値は-1から+1まであり、2つの変数間の直線的な関連性について次の2つのことを教えてくれます:

  • 強さ - 係数の絶対値が大きいほど、変数間でより強い線形関係を持ちます。値が1の場合は完全な線形関係(最初の散布図の変数の相関係数は0.978)を示し、値が0の場合は完全な線形関係の欠如を示します。
     
  • 方向 - 係数の符号は、関係の方向を示します。両方の変数が共に増加または共に減少する傾向があれば、係数は正になります。一方の変数が増加するのに対し、もう一方が減少する傾向があれば、係数は負になります。

Minitabで2つの変数に対するピアソン相関係数を見つけるには、統計 > 基本統計 > 相関...を選択し、ダイアログボックスにVerbalとGPAを入力します。Minitabでは、以下のように出力します。  

Pearson's correlation coefficient

このデータセットにおけるVerbalとGPAの相関係数は0.322となり、両者の間には正の関連性があることを示しています。最初の2つの変数の係数が0.978であったことと比較して、2番目のより低い相関係数が、散布図に見られるばらつきに反映されていることがわかります。そこに関係があるものの、容易にわかるわけでも、見た目で明確なわけでもありません。  


VerbalとGPAの関係は、さらに精査する価値があるのでしょうか?おそらく…実際のデータセットで、スコア1とスコア2の間の相関係数がこれほど高いのは珍しいと思います。ピアソン相関係数の中間値を弱相関、中相関、強相関と解釈すべきかどうかは、目的や要件によって異なります。

強い相関があっても因果関係にはならない

データの相関係数が+1や-1であっても、相関関係が因果関係を示唆しているわけではないことに注意が必要です。例えば、近所のアイスキャンデーの販売数とスケートボードの事故数の散布図は、直線のように見えるかもしれませんし、0.9999…の相関係数を与える場合があります。しかし、アイスキャンデーを買うことでスケートボードの事故を引き起こすことは明らかにありません。暑い時期では、スケートボードに乗る人が増え、アイスキャンデーを買う人も増える。この2つの要因が相関しているのです。

また、相関係数は直線的な関係のみを測定している点にも注意が必要です。相関係数が0であっても、意味のある非線形関係が存在する場合があります。

関係性が因果関係にあるかどうかを判断するために役立つものは、適切にコントロールされた実験だけであり、先ほどのLinkedInの会話でも示されていたように、因果関係を判断するための「要件」は、何を調査しているかによって大きく変わることがあります。  
では結局のところ、相関と因果の関係はどのように言えるのでしょうか?最近のLinkedInの会話でも言及されていた次のコミックは、これらをうまくまとめています。 

xkcd correlation comic

Comic licensed under a Creative Commons Attribution-NonCommercial 2.5 license. 

Photo credit to robin_24.  This photo has a creative commons attribute license.