Minitab 블로그

단계적 회귀분석으로 공장 에너지 사용량 설명하기 Using Stepwise Regression to Explain Plant Energy Usage

Written by Minitab Blog Editor | 2022. 10. 18 오전 4:24:00

최근 저희는 Facebook 친구들에게 단계적 회귀분석에 관한 질문을 받았습니다. 저 또한 단계적 회귀분석은 처음 접해보므로, 이 분석을 설명하기 위해 Minitab 교육 매뉴얼을 참조했습니다. 이 글에서는 한 제조 공장의 에너지 사용량에서 높은 비중을 차지하는 원인을 식별하는 흥미롭고도 유용한 예시를 공유하고자 합니다.

단계적 회귀분석이 적합한 경우

단계적 회귀분석은 변수가 많고 예측 변수에 영향을 주는 독립 변수를 파악하려는 경우 적합합니다. Minitab의 표준 단계적 회귀분석 절차에서는 예측 변수를 한 번에 하나씩 추가하거나 제거합니다. Minitab은 모형에 포함되지 않은 모든 변수의 p값이 지정된 알파 값보다 크고 모형에 포함된 모든 변수의 p값이 지정된 제거할 알파 값보다 작거나 같으면 이 절차를 중단합니다.

Minitab은 표준 단계적 방법 외 두 가지 다른 유형의 단계적 절차도 제공합니다.

  • 전진(Forward) 선택법: Minitab은 모형에 예측 변수 없이 시작하고 각 단계에 가장 중요한 변수를 추가합니다. Minitab은 모형에 포함되지 않은 모든 변수의 p값이 지정된 알파 값보다 큰 경우 이 절차를 중단합니다.
  • 후진(Backward) 제거법: Minitab은 모형에 모든 예측 변수가 포함된 상태로 시작해 각 단계에 가장 중요하지 않은 변수를 제거합니다. Minitab은 모형에 포함된 모든 변수의 p값이 지정된 알파 값 보다 작거나 같은 경우 이 절차를 중단합니다.

단계적 회귀분석의 예

단계적 회귀분석을 사용하여 에너지 사용량에서 높은 비중을 차지하는 원인을 찾는 이 예에서 제조 공장의 분석가들은 총 생산량, 총 장비 가동 시간, 직원 규모, 평균 외부 온도, 최저 외부 온도, 최대 외부 온도, 일조율, 평균 장비 수명 등의 예측 변수를 고려했습니다. 예측 변수가 100개 이상인 경우 단계적 회귀가 특히 유용해진다는 점에 유의하세요!


분석가들의 목표는 이러한 변수들을 상위 에너지 사용량 예측 변수의 목록으로 좁히는 것이었습니다. 분석가들은 최종 모델을 도출하기 위해 Minitab의 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형으로 이동해 ‘Energy’를 반응으로 입력하고 위의 예측 변수 목록을 입력해서 대화 상자를 완료했습니다.

대화 상자에서 단계적 회귀를 클릭하고 아래와 같이 하위 대화 상자를 완료합니다.



분석가들은 여러 예측 변수 중 총 장비 가동 시간, 최대 온도와 평균 장비 수명을 포함하는 다음 모델을 얻었습니다. 다른 예측 변수들은 p값이 ‘입력할 알파’ 값보다 커서 Minitab에 의해 제거되었습니다.

 

잔차 그림을 확인하려면 Ctrl+E를 선택하여 입력한 마지막 대화 상자를 불러와서 그래프를 선택한 다음 Pareto를 선택하고, 잔차 그림 아래에서 ’네 개 모두’를 선택합니다.)



아래의 회귀 방정식은 총 장비 가동 시간, 최대 온도와 평균 장비 수명이 증가함에 따라 에너지 사용량이 증가함을 나타냅니다.

T-통계량에 따르면, 총 장비 가동 시간의 영향이 가장 큽니다. 두 번째로 영향이 큰 변수는 최대 온도이며, 그 다음은 평균 장비 수명입니다.



이러한 분석 결과에 따라 분석가들은 에어컨 사용량이 많아 에너지 사용이 크게 증가했으며, 신형 장비를 사용하면 에너지 사용량을 줄일 수 있다는 결론을 내렸습니다. 해당 공장은 에어컨을 지속적으로 사용하는 피크 시간 동안에는 장비 가동을 제한하고, 여름 시즌 전에 신형 장비 구매를 고려할 수 있습니다.

단계적 회귀의 함정

단계적 회귀분석으로 알아낼 수 있는 내용도 많지만, 일부 함정에 유의해야 합니다.

  • 두 개의 독립 변수의 상관관계가 높은 경우에는 두 변수 모두 중요하더라도 그 중 하나만 모형에 포함될 수 있습니다.
  • 절차가 많은 모형에 적합하기 때문에 우연에 의해 데이터에 적합한 모델을 선택할 수도 있습니다.
  • 단계적 회귀는 주어진 예측 변수에 대해 가장 높은 R^2 값을 가진 모델로 끝나지 않을 수도 있습니다.
  • 자동 절차는 분석가가 데이터에 대해 가지고 있는 특별한 지식을 고려하지 못합니다. 따라서 선택된 모델이 가장 실용적인 모델이 아닐 수 있습니다.
  • 그래프는 모형의 다른 예측 변수를 고려하지 않기 때문에 반응에 대해 개별 예측 변수를 그래프로 나타내는 것은 오해를 불러일으킵니다.

직접 이 데이터 세트를 사용하여 작업해 보려면 Scribd에서 데이터를 다운로드하세요.

회귀 그리고 데이터 분석 기술을 한 단계 끌어올리시겠습니까?