最良の回帰モデルの選択方法 How to Choose the Best Regression Model

Minitab Blog Editor | 12/2/2022

トピック: Regression Analysis

正しい線形回帰モデルを選ぶのは難しいかもしれません。サンプルだけでモデル化しようとしても、簡単にはなりません。この投稿では、一般的なモデル選択の統計手法をいくつか見ていき、直面しうる複雑さを確認し、最良の回帰モデルを選択するための実用的なアドバイスをご提供します。

調査者が予測変数と応答変数の関係を数学的に記述するとき、それは始まります。調査を任されたチームは通常、たくさんの変数を測定しますが、モデルには少ししか含めません。アナリストは、関連性のない変数を排除し、真に関係のある変数のみを含めようとします。この過程で、アナリストは多くの可能なモデルを考慮します。

含める予測変数の数とのゴルディロックスバランスを取ろうと努力します。  

  • 少なすぎる:過小入力されたモデルは、偏った推定値を生成する傾向にあります。
  • 多すぎる:過大入力されたモデルは、正しい推定値を減らす傾向にあります。
  • ちょうど良い:正しい項のモデルには偏りがなく、正確な推定値が得られます。

 


Quality Trainerのアニメレッスン、クイズ、実践練習で、いつでもどこでも統計をマスターできます。
ボタン:Eラーニングコースの概要


 

最良の回帰モデルを探す統計的手法

良い回帰モデルにするため、偏った結果にならないよう、応答に影響を与える他の変数とともに、具体的に検定している変数を含めたくなります。Minitab Statistical Softwareは、回帰モデルの指定に役立つ統計的測定と手順を提供します。

調整済みR二乗と予測R二乗:調整済みR二乗値および予測R二乗値が高い方のモデルを選択しがちです。この統計は、標準的なR二乗の主要な問題が発生しないように設計されています。予測変数を追加するたびに増加し、惑わされて複雑すぎるモデルを指定してしまうこともあります。

  • 調整済みR二乗は、新しい項が偶然で期待される以上にモデルを改善する場合にのみ増加し、質の低い予測変数でも減少する可能性があります。
  • 予測R二乗は、交差検証の形式であり、減少する可能性もあります。交差検証は、データを分割することにより、モデルが他のデータセットにどれほど一般化されるかを特定します。

予測変数のp値:回帰では、低いp値は統計的に有意な項を示します。「モデルの低減」とは、モデルに候補の予測変数すべてを含めて、有意な予測変数だけが残るまで、p値が最も高い項を1つずつ体系的に除外することです。

ステップワイズ回帰およびベストサブセット回帰:これは、モデル構築の探索段階で有用な予測変数を特定できる、2つの自動化された手順です。Minitabでは、最良のサブセット回帰とともにマローズ(Mallows)のCpが提供されます。これは、正確さと偏りのトレードオフの管理に役立つように特別に設計された統計です。

 


関連ブログ:回帰チュートリアルで、役立つさらなる専門的なリソースをご覧ください。 


 

現実世界の複雑さ

さて、最良のモデルの選択に役立つさまざまな統計手法があります。でも残念ながら、潜在的な複雑さもたくさんあります。ご心配なく!実用的なアドバイスがあります。

  • 最良のモデルは、調査で測定された変数と同じくらい良いものになり得ます。分析に含める変数の結果は、含めなかった有意な変数によって偏る可能性があります。欠落変数バイアスの例をお読みください。
  • 偶然またはデータ収集方法により、サンプルが異常になる場合があります。偽陽性と偽陰性は、サンプルを扱う際のゲームの一部です。
  • p値は、モデル内の特定の項に基づいて変化する可能性があります。特に、多重共線性は有意性を奪い、各予測変数の役割の判断を難しくする可能性があります。
  • 十分な数のモデルを評価すると、有意であるように見えても偶然で相関していただけの変数がわかります。このデータマイニングの形式で、ランダムなデータが有意に見えたりします。低い予測R二乗は、この問題を確認するのに良い手段です。
  • p値、予測R二乗、調整済みR二乗、マローズのCpは、異なるモデルを示唆する可能性があります。
  • ステップワイズ回帰およびベストサブセット回帰は優れたツールで、正しいモデルに近づくことができます。でも、調査によれば、一般的に正しいモデルを選択していません。

最良の回帰モデルを探すための推奨事項

正しい回帰モデルを選択することは、芸術であり、科学でもあります。統計的手法は正しい方向を示してくれますが、最終的には他の考慮事項を取り入れる必要があります。

理論

他の人が行ったことを調査し、その発見をモデルの構築に組み込みます。回帰分析を開始する前に、重要な変数が何であるかを、その関係、係数の符号、効果の大きさとともに考えていきます。他の結果の上に構築していくことで、データマイニングを必要とせずに、正しいデータの収集と最良の回帰モデルの指定の両方が簡単になります。

理論的考察を、統計的測定だけに基づいて破棄すべきではありません。モデルを適合させた後、モデルが理論に合っているかを判断し、場合によっては調整を行います。たとえば、理論に基づいて、p値が有意でなくても、モデルに予測変数を含めます。係数の符号が理論に矛盾する場合は、モデルを調べて変更するか、不一致を説明します。

複雑性

複雑な問題には複雑なモデルが必要だと思うかもしれませんが、モデルが単純になるほど、一般的に、予測が正確になることが多くの研究で示されています。同様の説明力のあるモデルをいくつか調べると、最も単純なモデルが最良の選択である可能性が最も高くなっています。単純なモデルから始めて、必要に応じてモデルを複雑にしていきます。モデルを複雑にするほど、モデルをデータセットに合わせて調整している可能性が高くなり、一般化可能性が低くなります。

複雑にしたことで、予測区間を狭くしていることを確認してください。予測R二乗を確認し、高くて標準的なR二乗を無意識に追いかけないでください!

残差プロット

モデルを評価しながら、残差プロットを確認します。そうすると、不十分なモデルを避け、モデルを調整してより良い結果を得るのに役立ちます。たとえば、過小入力されたモデルの偏りは、曲線のモデリングの必要性など、残差のパターンとして現れる可能性があります。ランダムな残差を生成する最も単純なモデルは、比較的正しくて偏っていないモデルの良い候補です。

結局、どのモデルが最良かを教えてくれる測定はありません。統計的手法は、根底にあるプロセスまたは対象領域を理解するものではありません。自分の知識が、プロセスの重要な部分なのです!