私たちは最近、ステップワイズ回帰についてFacebookの友人の1人から質問をいただきました。私自身はステップワイズ回帰になじみがないため、この分析法の説明を試みるにあたってMinitabトレーニングマニュアルを参考にしました。製造工場におけるエネルギー使用の主要原因を特定することに関する興味深い例が見つかりましたので、ご紹介したいと思います。
変数が多数あり、有用な予測変数のサブセットを特定したい場合には、ステップワイズ回帰が適切な分析法となります。Minitabの標準的なステップワイズ回帰の手順では、予測変数の追加も削除も、1度に1つずつ行われます。モデルに含まれていないすべての変数が所定のAlpha-to-Enter値より大きいp値を持つときと、モデル内のすべての変数が所定のAlpha-to-Remove値以下のp値を持つとき、Minitabは停止します。
Minitabは、標準的なステップワイズ手法の他にも、次の2種類のステップワイズ手順を提供しています。
ステップワイズ回帰を用いてエネルギー使用の主要原因を特定したこの例では、製造工場の分析者たちが次の予測変数を検討しました: 総生産個数、総設備稼働時間、人員数、平均外気温、最低外気温、最高外気温、日照率、平均設備年齢。ただし覚えておきたいのは、ステップワイズ回帰がとりわけ有用なものになりうるのは、予測変数の数が100を上回る場合であるということです。
彼らの目標は、これらの変数から、エネルギー使用の最も有意な予測変数のリストを絞り込むことでした。最終的なモデルを得るため、分析者たちはMinitabで[統計]>[回帰]>[ステップワイズ]を選択し、ダイアログボックスに「エネルギー(Energy)」という応答と、前述の予測変数のリストを入力しました。
この結果、総設備稼働時間と最高温度と平均設備年齢の予測変数を含む以下のモデルが提示されました。Minitabは、p値が「Alpha-to-Enter」値より大きい他の変数を削除しました。
この結果、総設備稼働時間と最高温度と平均設備年齢の予測変数を含む以下のモデルが提示されました。Minitabは、p値が「Alpha-to-Enter」値より大きい他の変数を削除しました。
最終的なモデルを得るため、分析者たちは[統計]>[回帰]>[回帰]を選択し、ダイアログボックスに、応答として「エネルギー(Energy)」を、また予測変数として3つの有意な変数を入力しました。(残差プロットをチェックするには、ダイアログボックスで[グラフ(Graphs)]を選択してから[残差プロット(Residual Plots)]で[4 in 1(Four in one)]を選択します。)
以下の回帰式は、総設備稼働時間と最高温度と平均設備年齢の増加に伴ってエネルギー使用量が増加していることを示しています。
T統計によると、総設備稼働時間の影響が最大です。2番目は最高温度、その次が平均設備年齢です。
分析者たちは、この分析から、エネルギー使用量が非常に多いのは空調機器の稼働が多いときであり、設備を新しくすることでエネルギー使用量を減らせそうであると結論付けることができました。この工場は、空調が常に使用されるピーク時の設備稼働を制限し、夏が来る前に新しい設備を購入するとよいでしょう。
ステップワイズ回帰で分かることは多くありますが、知っておくべき落とし穴もいくつかあります。
ご自身でこのデータセットを扱ってみたい場合は、Scribdでデータをダウンロードしてください。