최상 회귀 모형 선택하기 How to Choose the Best Regression Model

Minitab Blog Editor | 7/6/2020

주제: Regression Analysis, 회귀분석

올바른 선형 회귀 분석을 선택하기란 어려울 수 있습니다. 단일 표본만으로 이를 모형화하려고 해도 크게 도움이 되지 않죠. 이 글에서는 모형을 선택할 때 일반적으로 사용되는 통계적 방법 및 이러한 과정에서 겪을 수 있는 어려움을 소개하고, 최상 회귀 모형을 선택하기 위한 실질적인 조언을 제공하고자 합니다.

모든 것은 연구자가 예측 변수와 반응 변수 사이의 관계를 수학적으로 설명하려고 하는 데서 시작합니다. 일반적으로 조사를 담당하는 연구 팀은 여러 변수를 측정하되 모형에는 그 중 일부만 포함합니다. 분석가는 연관성이 없는 변수를 제거하고 실질적인 관계가 있는 변수만을 포함하려고 노력하며, 이 과정에서 가능한 모형을 여러 개 고려합니다.

분석가들은 포함하는 예측 변수의 수로 최적의 균형을 달성하기 위해 노력합니다.  

  • 예측 변수가 너무 적게 포함될 경우: 모형을 충분히 지정하지 않으면 편향된 추정치가 도출될 수 있습니다.
  • 예측 변수가 너무 많이 포함될 경우: 모형이 지나치게 세부적으로 지정되어 정확도가 낮은 추정치가 도출될 수 있습니다.
  • 예측 변수가 적절히 포함될 경우: 편향이 없고 가장 정확한 추정치를 도출하는 모형이 완성됩니다.

 


Quality Trainer의 애니메이션 강의, 퀴즈와 실습 예제를 통해 언제 어디서든 통계를 익히세요. 
버튼: E-Learning 코스 개요 보기


 

최상 회귀 모형을 찾기 위한 통계적 방법

효과적인 회귀 모형을 만들려면 검정할 변수뿐 아니라 반응에 영향을 주는 변수도 함께 포함해야 결과가 편향되는 것을 방지할 수 있습니다. Minitab Statistical Software는 회귀 모형 지정에 유용한 통계적 측정과 절차를 제공합니다.

수정 R-제곱과 예측 R-제곱: 보통 수정 R-제곱값과 예측 R-제곱값이 더 높은 모형을 선택합니다. 일반 R-제곱의 문제는 예측 변수를 추가할 때마다 증가하여 지나치게 복잡한 모형을 지정하게 될 수 있다는 점인데, 이러한 통계는 이와 같은 문제를 방지할 수 있게 설계되어 있습니다.

  • 수정 R-제곱은 새로운 항이 우연으로 인해 예상되는 것보다 모형을 더 많이 개선하는 경우에만 증가하며, 예측 변수의 품질이 낮으면 감소할 수도 있습니다.
  • 예측 R-제곱은 교차 검증의 일종이며, 이 또한 감소할 수 있습니다. 교차 검증은 데이터를 분할하여 모형이 다른 데이터 세트로 얼마나 잘 일반화되는지 여부를 확인합니다.

예측 변수의 P값: 회귀에서 P값이 낮으면 항이 통계적 유의성을 지니는 것입니다. '모형 축소'란 모든 예측 변수 후보를 모형에 포함한 다음, 유의한 예측 변수만 남을 때까지 P값이 가장 높은 항을 차례로 제거하는 작업입니다.

단계적 회귀 및 최량 부분 집합 회귀: 모형 구축의 탐색 단계에서 유용한 예측 변수를 식별할 수 있는 2가지 자동 절차입니다. Minitab은 최량 부분 집합 회귀에서 Mallows의 Cp를 제공합니다. Mallows의 Cp는 예측과 편향 간 균형을 유지할 수 있도록 설계되었습니다.


관련 블로그: 더 많은 전문가 리소스를 참고할 수 있는 회귀 튜토리얼을 통해 지식을 넓히세요.


 

현실에서의 어려움

이처럼 최량 모형을 선택하는 데 도움이 되는 여러 통계적 방법이 있지만, 안타깝게도 다양한 문제 또한 발생할 수 있습니다. 하지만 이에 관한 실질적인 조언을 드릴 테니 걱정하지 마세요.

  • 연구를 통해 측정하는 변수가 유효하지 않으면 최량 모형도 유효하지 않습니다. 분석에 포함한 변수의 결과는 포함하지 않은 유의미한 변수로 인해 편향될 수 있습니다. 변수 누락으로 인한 편향의 예시를 살펴보세요.
  • 표본은 우연이나 데이터 수집 방법으로 인해 특이하게 나타날 수 있으며, 표본을 이용하여 작업할 때는 항상 가양성과 가음성이 나타날 수 있습니다.
  • PP값은 모형의 특정 항으로 인해 변화할 수 있습니다. 특히 다중 공선성으로 인한 유의성 약화 때문에 각 예측 변수의 역할을 파악하기 어려워질 수 있습니다.
  • 일정 수 이상의 모형을 평가하면 유의성이 있는 듯 하나 우연으로 인한 경우에만 연관성을 보이는 변수가 나타날 수 있습니다. 이러한 데이터 마이닝으로 인해 무작위 데이터가 유의성이 있는 것처럼 보일 수 있습니다. 예측 R-제곱이 낮으면 이러한 문제가 발생했을 가능성이 있습니다.
  • P값, 예측 R-제곱과 수정 R-제곱 및 Mallows의 Cp로 인해 다른 모형이 도출될 수 있습니다.
  • 단계적 회귀와 최량 부분 집합 회귀는 올바른 모형을 찾는 데 도움이 되는 유용한 도구입니다. 단, 연구 결과 이 두 방법은 일반적으로 올바른 모형을 도출하지는 않습니다.

최상 회귀 모형을 찾기 위한 권장 사항

올바른 회귀 모형을 선택하려면 과학적 접근만큼이나 창의력도 필요합니다. 통계적 방법은 올바른 방향을 제시해 줄 수는 있으나, 최종적으로는 다른 고려 사항도 감안하여 종합적인 결정을 내려야 합니다.

이론

다른 사람이 이용했던 방법을 연구하여 모형 구축에 활용해보세요. 회귀 분석을 시작하기 전에 중요한 변수와 이러한 변수의 관계, 계수 기호, 효과의 크기 등에 대한 아이디어를 다듬어 나가보세요. 다른 사람들의 결과를 바탕으로 데이터 마이닝을 진행하지 않고도 보다 쉽게 올바른 데이터를 수집하고 최상 회귀 모형을 파악할 수 있습니다.

통계적 측정에만 기반하여 이론적 고려 사항을 배제하면 안 됩니다. 모형을 적합시킨 후에는 이론에 부합하는지 확인하고, 필요한 경우 수정하세요. 예를 들어 이론에 기반하여 P값이 유의미하지 않은 예측 변수도 모형에 포함할 수 있습니다. 계수 기호가 이론과 일치하지 않는 경우, 그 이유를 알아보고 모형을 수정하거나 불일치를 설명하세요.

복잡성

Y복잡한 문제에는 복잡한 모형이 필요하다고 생각하시나요? 하지만 다수의 연구 결과에 따르면, 일반적으로 단순한 모형일수록 예측이 더 정확하다고 합니다. 여러 모형의 설명 능력이 비슷하다면 가장 간단한 모형이 최적의 선택일 가능성이 높습니다. 간단하게 시작하고, 반드시 필요한 경우에만 더 복잡한 모형을 만드세요. 모형을 복잡하게 만들수록 데이터 세트에 맞춤화되어 일반화 가능성이 낮아지게 됩니다.

추가된 복잡성이 실제로 예측 격차를 좁히는지 확인하세요. 예측 R-제곱을 확인하고 맹목적으로 더 높은 일반 R-제곱을 추구하지 마세요.

잔차 그림

모형을 평가할 때는 잔차 그림을 확인하면 부적절한 모형을 만드는 것을 방지하고 모형을 수정하여 더 나은 결과를 얻을 수 있습니다. 예를 들어 충분히 지정되지 않은 모형의 편향은 곡면성을 모형화 할 필요성과 같이 잔차 그림의 패턴으로 나타날 수 있습니다. 무작위 잔차를 나타내는 가장 간단한 모형은 비교적 정확도가 높고 편향이 없는 모형일 가능성이 큽니다.

결론적으로 최적의 모형이 무엇인지 알려주는 단 하나의 조치란 없습니다. 통계적 방법은 기본 프로세스나 주제 영역을 이해하지 못하니까요. 즉, 여러분의 지식이야말로 이러한 과정의 핵심입니다.