Minitabの回帰分析を利用した予測分析 - パ-トII Predictive Analytics using Minitab's Regression – Part II

Dennis Corbin | 8/3/2021

トピック: Regression Analysis, Articles, Minitab Statistical Software

回帰の目的は、正確な予測を行うことです。モデルの予測性に影響を与える2つの要因は、モデルの項(線形、相互作用、2次)と、モデルの計算に使用するサンプルデータです。あまりにも多くの項があるモデルは、サンプルデータがオーバーフィットして、新たなデータ値の予測がうまくいきません。

回帰分析にMinitab Statistical Softwareを次のように使用することができます。

前回は、予測モデルを素早く構築し、検証し、視覚化する方法について説明しました。ここからは、モデルの予測力の検証、分析とモデル選択の自動化、新しい結果の予測など、より高度な機能についてご紹介します。

MINITAB STATISTICAL SOFTWAREによる予測モデル能力の検証

下の図は、オーバーフィットしたモデルを示しています。同じプロセスから新しいデータが追加されたとき、このモデルでは新しい測定値を予測できていません。もしも、元のデータに適合するために線形モデルが使用されていれば、より正確な予測ができるでしょう。予測性の低いモデルを構築してしまうことを防ぐために検証します。

predictive-analytics-regression-pt-2-model-fitted-new-data

検証は2段階のプロセスで行われます。まず、データセット(トレーニングセット)についてモデルを構築します。次にそのモデルを使って、モデル構築から除外されたセット(テストセット)の予測を行います。検証手法には、一個抜き、K分割、テストセットによる検証の3種類があります。

検証する場合、分析者は報告されたモデルと対応するR2 値を理解する必要があります。このR2値は、モデルがサンプルデータの変動幅を説明し、新しい値を正確に予測する能力があるか理解するために使用します。R2が大きいほど理想的です。オーバーフィッティングが潜在的な問題であれば、R2値はテストセットとトレーニングセットの間で大幅に変化します。

一個抜き検証

この検証プロセスでは、テストセットとして1つのデータ点を除外します。残りのn-1個の観測値はトレーニングモデルの計算に使われます。そして、除外されたデータ点の予測誤差をこのモデルで計算します。このプロセスは、各観測データに対して繰り返されます。予測誤差は、予測R2を生成するために使用されます。予測R2は、すべての回帰モデルの標準出力であることに注意してください。

回帰のK分割検証

K分割検証では、データをK個の同じ大きさのグループに無作為に割り当てます(多くの場合、K=10)。最初のグループをテストセットとして除外し、残りのグループをトレーニングセットとしてモデルを構築します。除外されたグループを学習モデルで予測し、予測誤差を算出します。このプロセスを各グループについて繰り返し、複合K分割 R2を算出します。

テストセットによる検証

テストセットによる検証では、データの無作為な部分集合をテストセット(例えば 30%)として割り当て、残りのトレーニングセット(70%)を用いて予測モデルを算出します。そのモデルをテストセットで検証し、テストR2 を算出します。テストセットによる検証では、データの無作為な部分集合をテストセット(例えば 30%)として割り当て、残りのトレーニングセット(70%)を用いて予測モデルを算出します。そのモデルをテストセットで検証し、テストR2 を算出します。

predictive-analytics-regression-pt-2-leave-one-out-k-fold-test

検証手法の比較

K分割検証は中程度の大きさのサンプルに適していますが、テストセットによる検証法は非常に大きなデータセットに適しています。ここで重要なのは、一個抜き検証法とK-fold検証法はモデルの形を検証するだけであり、テストセットによる検証法のように正確なモデル係数を検証するわけではないことです。

分析とモデル選択の自動化

回帰のモデル選択は通常、手動で行われます。しかしながら、データセットは観察数が増えているだけでなく、測定される変数も増えています。手動で項を削除しなければならないことは困難なことです。

モデルの選択は自動化できます。一般的な手順は次の3つです。

  • バックワード消去の項のp値のアルファ基準: ステップワイズ、フォワード選択、バックワード消去では、閾値αで項が有意になるモデルを選択します。
  • モデルの適合性に関する情報基準:AICcまたはBICのフォワード選択は、選択された情報基準を最小化するモデルを選択します。
  • モデルの予測適合性を示すR二乗値:K分割検証またはテストセットによる検証、フォワード選択では、テストR2が最も高いモデルを選択します。

これらの方法では、異なる結果になることが多いため、業界の知識を取り入れて、最も実用的でインパクトのあるソリューションを見つけるのが最善です。

新しい結果の予測とパラメータの最適化

回帰分析は強力なツールであり、「最適な」モデルを選択すれば、それを使って予測することができます。ある製造施設のクリーンルームを例に考えてみましょう。立方フィートあたり0.5μ以上の粒子が合計100個を超える粒子数について、いくつかの予測因子が与える影響を理解することが重要です。プロセスエンジニアは、粒子数の予測モデルを構築します。

predictive-analytics-regression-pt-2-regression-equation-output

このモデルを使って、生産量1000、従業員7名、クリーンルームへの出入り口24箇所の場合について予測します。

predictive-analytics-regression-pt-2-prediction-output

立方フィートあたりサイズ0.5μ以上の粒子が合計100個を超える平均粒子数の予測値は87.63。信頼区間と予測区間は、予測の潜在的な誤差を考慮しています。

MINITABで回帰が簡単

Minitabが使いやすく、分析者は回帰のすべての現代的なツールを使用することができます。データから最大限の価値を引き出すためにMinitabの力をまだ利用されていない方は、今すぐ全機能を備えたMinitab Statistical Softwareの30日間の全機能無料体験版をダウンロードしましょう。