私たちは最近、ステップワイズ回帰についてFacebookの友人の1人から質問をいただきました。私自身はステップワイズ回帰になじみがないため、この分析法の説明を試みるにあたってMinitabトレーニングマニュアルを参考にしました。製造工場におけるエネルギー使用の主要原因を特定することに関する興味深い例が見つかりましたので、ご紹介したいと思います。
ステップワイズ回帰が適切な状況とは?
変数が多数あり、有用な予測変数のサブセットを特定したい場合には、ステップワイズ回帰が適切な分析法となります。Minitabの標準的なステップワイズ回帰の手順では、予測変数の追加も削除も、1度に1つずつ行われます。モデルに含まれていないすべての変数が所定のAlpha-to-Enter値より大きいp値を持つときと、モデル内のすべての変数が所定のAlpha-to-Remove値以下のp値を持つとき、Minitabは停止します。
Minitabは、標準的なステップワイズ手法の他にも、次の2種類のステップワイズ手順を提供しています。
- 変数増加法: Minitabはモデル内に予測変数がまったくない状態でスタートし、各段階で最も有意な変数を追加します。モデル内にないすべての変数が所定のAlpha-to-Enter値より大きいp値を持つとき、Minitabは停止します。
- 変数減少法: Minitabはモデル内にすべての予測変数が含まれる状態でスタートし、各段階で最も有意ではない変数を削除します。モデル内のすべての変数が所定のAlpha-to-Remove値以下のp値を持つとき、Minitabは停止します。
ステップワイズ回帰の例
ステップワイズ回帰を用いてエネルギー使用の主要原因を特定したこの例では、製造工場の分析者たちが次の予測変数を検討しました: 総生産個数、総設備稼働時間、人員数、平均外気温、最低外気温、最高外気温、日照率、平均設備年齢。ただし覚えておきたいのは、ステップワイズ回帰がとりわけ有用なものになりうるのは、予測変数の数が100を上回る場合であるということです。
彼らの目標は、これらの変数から、エネルギー使用の最も有意な予測変数のリストを絞り込むことでした。最終的なモデルを得るため、分析者たちはMinitabで[統計]>[回帰]>[ステップワイズ]を選択し、ダイアログボックスに「エネルギー(Energy)」という応答と、前述の予測変数のリストを入力しました。
この結果、総設備稼働時間と最高温度と平均設備年齢の予測変数を含む以下のモデルが提示されました。Minitabは、p値が「Alpha-to-Enter」値より大きい他の変数を削除しました。
この結果、総設備稼働時間と最高温度と平均設備年齢の予測変数を含む以下のモデルが提示されました。Minitabは、p値が「Alpha-to-Enter」値より大きい他の変数を削除しました。
最終的なモデルを得るため、分析者たちは[統計]>[回帰]>[回帰]を選択し、ダイアログボックスに、応答として「エネルギー(Energy)」を、また予測変数として3つの有意な変数を入力しました。(残差プロットをチェックするには、ダイアログボックスで[グラフ(Graphs)]を選択してから[残差プロット(Residual Plots)]で[4 in 1(Four in one)]を選択します。)
以下の回帰式は、総設備稼働時間と最高温度と平均設備年齢の増加に伴ってエネルギー使用量が増加していることを示しています。
T統計によると、総設備稼働時間の影響が最大です。2番目は最高温度、その次が平均設備年齢です。
分析者たちは、この分析から、エネルギー使用量が非常に多いのは空調機器の稼働が多いときであり、設備を新しくすることでエネルギー使用量を減らせそうであると結論付けることができました。この工場は、空調が常に使用されるピーク時の設備稼働を制限し、夏が来る前に新しい設備を購入するとよいでしょう。
ステップワイズ回帰の落とし穴
ステップワイズ回帰で分かることは多くありますが、知っておくべき落とし穴もいくつかあります。
- 2つの独立変数に大いに相関関係がある場合に、両方とも重要であるにもかかわらず、いずれか一方しか最終的なモデルに組み込まれないことがあります。
- この手順は多くのモデルをあてがって適合性を見るので、単なる偶然でデータによく適合したモデルを選択することもありえます。
- ステップワイズ回帰の結果として、一定数の予測変数に対して考えられる最も高いR2値を持つモデルが常に得られるとは限りません。
- 自動の手順では、分析者が持っているかもしれないデータに関する特別な知識は考慮されません。したがって、選ばれたモデルが最も実用的なモデルではない場合もあります。
- 応答に基づいて個々の予測変数をグラフ化すると、そのグラフは、モデル内の他の予測変数を考慮していないために、誤解を与えることが多々あります。
ご自身でこのデータセットを扱ってみたい場合は、Scribdでデータをダウンロードしてください。