ステップワイズ回帰を用いて工場でのエネルギー使用を説明 Using Stepwise Regression to Explain Plant Energy Usage

私たちは最近、ステップワイズ回帰についてFacebookの友人の1人から質問をいただきました。私自身はステップワイズ回帰になじみがないため、この分析法の説明を試みるにあたってMinitabトレーニングマニュアルを参考にしました。製造工場におけるエネルギー使用の主要原因を特定することに関する興味深い例が見つかりましたので、ご紹介したいと思います。

ステップワイズ回帰が適切な状況とは？

変数が多数あり、有用な予測変数のサブセットを特定したい場合には、ステップワイズ回帰が適切な分析法となります。Minitabの標準的なステップワイズ回帰の手順では、予測変数の追加も削除も、1度に1つずつ行われます。モデルに含まれていないすべての変数が所定のAlpha-to-Enter値より大きいp値を持つときと、モデル内のすべての変数が所定のAlpha-to-Remove値以下のp値を持つとき、Minitabは停止します。

Minitabは、標準的なステップワイズ手法の他にも、次の2種類のステップワイズ手順を提供しています。

変数増加法: Minitabはモデル内に予測変数がまったくない状態でスタートし、各段階で最も有意な変数を追加します。モデル内にないすべての変数が所定のAlpha-to-Enter値より大きいp値を持つとき、Minitabは停止します。

変数減少法: Minitabはモデル内にすべての予測変数が含まれる状態でスタートし、各段階で最も有意ではない変数を削除します。モデル内のすべての変数が所定のAlpha-to-Remove値以下のp値を持つとき、Minitabは停止します。

ステップワイズ回帰の例

ステップワイズ回帰を用いてエネルギー使用の主要原因を特定したこの例では、製造工場の分析者たちが次の予測変数を検討しました: 総生産個数、総設備稼働時間、人員数、平均外気温、最低外気温、最高外気温、日照率、平均設備年齢。ただし覚えておきたいのは、ステップワイズ回帰がとりわけ有用なものになりうるのは、予測変数の数が100を上回る場合であるということです。

Energy-usage-Blog-dataset

彼らの目標は、これらの変数から、エネルギー使用の最も有意な予測変数のリストを絞り込むことでした。最終的なモデルを得るため、分析者たちはMinitabで[統計]>[回帰]>[ステップワイズ]を選択し、ダイアログボックスに「エネルギー（Energy）」という応答と、前述の予測変数のリストを入力しました。

Energy-usage-Fitting-Regression-Model-Dialog-Box

この結果、総設備稼働時間と最高温度と平均設備年齢の予測変数を含む以下のモデルが提示されました。Minitabは、p値が「Alpha-to-Enter」値より大きい他の変数を削除しました。

Energy-usage-Stepwise-Regression-Dialog-box

Energy-usage-Stepwise-Regression-Coefficients-Summary-ANOVA

最終的なモデルを得るため、分析者たちは[統計]>[回帰]>[回帰]を選択し、ダイアログボックスに、応答として「エネルギー（Energy）」を、また予測変数として3つの有意な変数を入力しました。（残差プロットをチェックするには、ダイアログボックスで[グラフ（Graphs）]を選択してから[残差プロット（Residual Plots）]で[4 in 1（Four in one）]を選択します。）

Energy-usage-Blog-regression-graph-dialog-box