Minitabブログ

Minitab最新リリースで実装されたコレログラムを使ってみました Learning to Love Correlograms in the Latest Minitab Release

作成者: Joshua Zable|2021/05/21 12:34:12

Minitab® Statistical Softwareの最新リリースの一部として、視覚化にコレログラムが加わりました。なぜそんなに人気が高いのか、高度な分析に有用なツールなのかを調べたくなりました。

簡単に言うと、コレログラム(相関プロットまたは相関行列表とも呼ばれる)は、相関統計を視覚化したものです。相互に強く相関している変数を素早く判別することにより、ランダム性を評価し、データの単純なパターンを特定します。データの構造を調べて理解することは、どんなデータ分析でもそうであるように、予測分析の重要な最初のステップであり、変数が相互に高度に相関しているかがわかれば、次のステップに役立ちます。

また、コレログラムは、予測分析を有効に活用する道のりで役立つ素晴らしいビジュアルツールです。

オンデマンドWebセミナーでMinitab Statistical Softwareの最新アップデートをご覧ください。

 

コレログラムで相関関係を素早く特定

「私は相関と行列散布図を使って、関連性とランダム性を評価していますが、どう違うのですか?」仰る通り、変数が少なく、サンプル数が比較的少ない場合に、相関を行列散布図と組み合わせて使用することは理にかなっています。

電気自動車の燃料電池を設計しているエンジニアの例を見てみましょう。変数とサンプルが多い場合に、コレログラムが強力なツールになり得る理由がわかります。

動作温度は、圧力、流量、湿度などと同じ、燃料電池の性能に影響を与えるパラメータなので、燃料電池を設計する際に最適な動作温度を割り出す必要があります。 エンジニアは、燃料電池の設計を性能と効率の面で最適化するために、電池の水素の量、酸素の量、水素と酸素が燃料電池に押し込まれてエネルギーを生成する温度の関係を理解する必要があります。

測定ごとに14の観測値を使用して、酸素と水素のわずかに高いまたは低い温度の化学反応が、燃料電池の出力に影響を与える可能性があるかを評価しようとしています。

Minitabで相関分析を実行(統計-基本統計-相関と同じくらい簡単です)した後、相関の表と行列散布図の両方を使用して、この調査の変数間の相関を観察します。

表の結果では、水素含有量と電力(分)のPearson相関係数は−0.791、p値は0.001です。p値は0.05の有意水準未満なので、相関がゼロとは異なることを示しています。これは、水素含有量が増えると、生成される電力(分)が減る傾向があるということです。(相関は2つの変数間の線形関係の強さを測定し、その範囲は-1(強い負の相関)~+1(強い正の相関)です。ゼロに近い相関は、2つの変数間に強い線形関係がないことを示します。)

行列散布図には個々の関連性が示されます。この分析を視覚化する便利なツールです。以下の例では、電力(分)と水素含有量のプロットは左下にあります。

 

行列散布図は、潜在的な外れ値を特定できる便利なツールですが、最も強い相関または最も弱い相関を素早く特定するようには設計されていません。上の行列散布図を見て、-1にまたは+1に最も近い相関を判断するのにどのくらい時間がかかりますか?

この質問に素早く答えるには、コレログラムがより便利なツールです。他の人に情報を一目で理解させる必要があるときには、特にそうです。

同じデータがコレログラムになると、以下のような感じです(Minitab Statistical Softwareでは、グラフ-コレログラム):

酸素ごとの電力(分)プロットで、下の真っ赤な四角に真っ先に目がいきましたか?コレログラムでは、色の強度は相関係数に比例し、四角の色が暗いほど相関が強いことになります。つまり、コレログラムでは、視覚的表現で、相関関係をはっきりと見ることができます。この場合、エンジニアはコレログラムを実行することにより、あまり労力をかけずにデータの相関関係を理解することができます。

大量のデータにコレログラムを使用

では、14の変数と1,000行のデータを使用した分析について考えてみましょう。詳細は抜きです。消費財の調査結果かもしれませんし、回路基板の工程の測定かもしれません。以下の行列散布図で、最も強い(+1または-1に近い)関連性を見て選べとチームに言ったら、どのくらい時間がかかるでしょうか?

 

では、同じデータをコレログラムで見てみましょう。相関の強い領域が目立っていて、弱い相関が目立たないようになっています。チームは、重要な情報をどれだけ早く特定できるでしょう。

 

変数間の相関などの関係を理解することは、堅牢な予測分析に重要です。変数が比較的少ないデータを分析する場合は、相関関係を特定するのが簡単ですが、変数の数とデータセットのサイズが増えると、相関関係を理解する労力も増えます。Minitabでコレログラムの力を活用すると、統計分析が、複雑な問題の場合は特に、より優れ、より速い、より簡単なものになります。

Minitab Statistical Softwareでコレログラムのような優れた視覚化を探索しませんか?