正しい線形回帰モデルを選ぶのは難しいかもしれません。サンプルだけでモデル化しようとしても、簡単にはなりません。この投稿では、一般的なモデル選択の統計手法をいくつか見ていき、直面しうる複雑さを確認し、最良の回帰モデルを選択するための実用的なアドバイスをご提供します。
調査者が予測変数と応答変数の関係を数学的に記述するとき、それは始まります。調査を任されたチームは通常、たくさんの変数を測定しますが、モデルには少ししか含めません。アナリストは、関連性のない変数を排除し、真に関係のある変数のみを含めようとします。この過程で、アナリストは多くの可能なモデルを考慮します。
含める予測変数の数とのゴルディロックスバランスを取ろうと努力します。
Quality Trainerのアニメレッスン、クイズ、実践練習で、いつでもどこでも統計をマスターできます。
良い回帰モデルにするため、偏った結果にならないよう、応答に影響を与える他の変数とともに、具体的に検定している変数を含めたくなります。Minitab Statistical Softwareは、回帰モデルの指定に役立つ統計的測定と手順を提供します。
調整済みR二乗と予測R二乗:調整済みR二乗値および予測R二乗値が高い方のモデルを選択しがちです。この統計は、標準的なR二乗の主要な問題が発生しないように設計されています。予測変数を追加するたびに増加し、惑わされて複雑すぎるモデルを指定してしまうこともあります。
予測変数のp値:回帰では、低いp値は統計的に有意な項を示します。「モデルの低減」とは、モデルに候補の予測変数すべてを含めて、有意な予測変数だけが残るまで、p値が最も高い項を1つずつ体系的に除外することです。
ステップワイズ回帰およびベストサブセット回帰:これは、モデル構築の探索段階で有用な予測変数を特定できる、2つの自動化された手順です。Minitabでは、最良のサブセット回帰とともにマローズ(Mallows)のCpが提供されます。これは、正確さと偏りのトレードオフの管理に役立つように特別に設計された統計です。
関連ブログ:回帰チュートリアルで、役立つさらなる専門的なリソースをご覧ください。
さて、最良のモデルの選択に役立つさまざまな統計手法があります。でも残念ながら、潜在的な複雑さもたくさんあります。ご心配なく!実用的なアドバイスがあります。
正しい回帰モデルを選択することは、芸術であり、科学でもあります。統計的手法は正しい方向を示してくれますが、最終的には他の考慮事項を取り入れる必要があります。
理論
他の人が行ったことを調査し、その発見をモデルの構築に組み込みます。回帰分析を開始する前に、重要な変数が何であるかを、その関係、係数の符号、効果の大きさとともに考えていきます。他の結果の上に構築していくことで、データマイニングを必要とせずに、正しいデータの収集と最良の回帰モデルの指定の両方が簡単になります。
理論的考察を、統計的測定だけに基づいて破棄すべきではありません。モデルを適合させた後、モデルが理論に合っているかを判断し、場合によっては調整を行います。たとえば、理論に基づいて、p値が有意でなくても、モデルに予測変数を含めます。係数の符号が理論に矛盾する場合は、モデルを調べて変更するか、不一致を説明します。
複雑性
複雑な問題には複雑なモデルが必要だと思うかもしれませんが、モデルが単純になるほど、一般的に、予測が正確になることが多くの研究で示されています。同様の説明力のあるモデルをいくつか調べると、最も単純なモデルが最良の選択である可能性が最も高くなっています。単純なモデルから始めて、必要に応じてモデルを複雑にしていきます。モデルを複雑にするほど、モデルをデータセットに合わせて調整している可能性が高くなり、一般化可能性が低くなります。
複雑にしたことで、予測区間を狭くしていることを確認してください。予測R二乗を確認し、高くて標準的なR二乗を無意識に追いかけないでください!
残差プロット
モデルを評価しながら、残差プロットを確認します。そうすると、不十分なモデルを避け、モデルを調整してより良い結果を得るのに役立ちます。たとえば、過小入力されたモデルの偏りは、曲線のモデリングの必要性など、残差のパターンとして現れる可能性があります。ランダムな残差を生成する最も単純なモデルは、比較的正しくて偏っていないモデルの良い候補です。
結局、どのモデルが最良かを教えてくれる測定はありません。統計的手法は、根底にあるプロセスまたは対象領域を理解するものではありません。自分の知識が、プロセスの重要な部分なのです!