회귀 분석의 목표는 정확한 예측입니다. 모형의 예측 기능에 영향을 미치는 두 가지 요인은 모형의 (선형, 교호작용, 이차) 항과 모형을 계산하는 데 사용되는 표본 데이터입니다. 항이 너무 많은 모형은 종종 표본 데이터에 과적합되지만 새로운 데이터 값을 잘 예측하지 못합니다.
Minitab Statistical Software에서 회귀 분석을 사용하면 다음이 가능합니다.
- 예측 모형 구축, 검증 및 시각화(Part I).
- 모형의 예측력 검증.
- 분석 및 모형 선택 자동화.
- 새로운 결과 예측 및 매개변수 최적화.
Part I에서는 예측 모형을 빨리 만들고 검증하고 시각화하는 방법에 대해 설명했습니다. 이제는 모형의 예측력 검증, 분석 및 모형 선택 자동화, 새로운 결과 예측 같은 고급 기능에 대해 알아보겠습니다.
MINITAB STATISTICAL SOFTWARE에서 예측 모형의 성능 검증
아래에는 과적합 모형의 그림이 있습니다. 동일한 공정의 새로운 데이터를 추가하면 모형이 해당 데이터의 새로운 측정값을 잘 예측하지 못합니다. 선형 모형을 사용해 원래 데이터를 적합할 경우 더 정확한 예측이 가능할 수 있습니다. 검증은유효성 검사는 예측 가능성이 낮은 모형이 생성되지 않도록 하기 위해 사용합니다.
검증은 먼저 데이터 집합(훈련 데이터)의 모형을 만든 후 이 모형을 사용하여 모형을 만들 때 누락된 집합(테스트 데이터)에 대해 예측을 수행하는 2단계 과정입니다. 검증 기법에는 단일 관측치 (Leave-one-out) 검증, K-폴드(K-Fold) 및 테스트 데이터로 검증의 세 가지 기법이 있습니다.
검증을 사용할 때 분석가는 보고된 모형과 해당 R 2 (결정계수) 값을 이해해야 합니다. 이런 R 2 값은 모형이 표본 데이터의 변동을 설명하는 정도와 새로운 값을 정확하게 예측할 수 있는 능력을 이해하기 위해 사용됩니다. R 2 가 높을수록 적합합니다. 과적합이 잠재적인 문제라면 테스트 데이터와 훈련 데이터의 R 2 값이 크게 다를 것입니다.
단일 관측치(Leave-one-out) 검증
검증 과정에서는 데이터 점 하나를 제외하여 테스트 데이터로 사용합니다. 나머지 n-1개의 관측치는 훈련 모형을 계산하는 데 사용됩니다. 그런 다음 제거된 데이터 점의 예측 오차를 이 모형으로 계산합니다. 이 과정을 각 관측치마다 반복합니다. 예측 오차를 사용하여 예측된 R 2를 생성합니다. 예측된 R 2는 모든 회귀 모형의 기본 출력입니다.
회귀 분석의 K-Fold 검증
K-Fold 검증에서는 데이터를 K개의 크기가 같은 그룹에 무작위로 할당합니다(보통 K=10). 첫 번째 그룹은 테스트 데이터로 제거되고, 나머지 그룹은 훈련 데이터로 사용하여 모형을 만듭니다. 제외된 그룹은 예측 오차를 계산하기 위해 훈련 모형으로 예측됩니다. 이 과정을 각 그룹마다 반복하고 복합 K-폴드 R 2를 계산합니다.
테스트 데이터를 사용한 검증
테스트 데이터를 사용한 검증 방법에서는 데이터의 임의 부분 집합을 테스트 데이터(예: 30%)로 할당하고 나머지 훈련 데이터(70%)를 사용하여 예측 모형을 계산합니다. 이 모형을 테스트 데이터로 검증하여 테스트 R 2를 계산합니다.
검증 기법 비교
K-Fold 검증은 중간 크기의 표본과 함께 사용하면 더 효과적이고, 테스트 데이터를 사용한 검증은 매우 큰 데이터 집합에 적합합니다. 단일 관측치(Leave-One-Out) 검증 및 K-Fold 검증 기법은 모형의 형태만 검증하고 테스트 데이터 방법을 사용한 검증처럼 정확한 모형 계수를 검증하지 않는다는 점에 주의해야 합니다.
분석과 모형 선택 자동화
회귀 분석에 사용할 모형은 일반적으로 수동으로 선택합니다. 하지만 데이터 집합의 관측치 수만 증가하는 데 그치지 않고 측정하는 변수도 더 많아지고 있습니다. 이 경우 항을 수동으로 제거하려면 힘들 수 있습니다.
모형 선택은 자동화할 수 있으며, 일반적으로 다음 세 가지 절차가 사용됩니다.
- 항의 p-값에 대한 알파 기준: 단계적, 전진 선택법 및 후진 제거법에서는 항이 임계값 알파에서 유의미한 모형을 선택합니다.
- 모형 적합에 대한 정보 기준: AICc 또는 BIC 전진 선택법에서는 선택된 정보 기준을 최소화하는 모형을 선택합니다.
- 모형의 예측 적합에 대한 R-제곱 값: K-Fold나 테스트 데이터 전진 선택법을 사용한 검증에서는 테스트 R 2가 가장 높은 모형을 선택합니다.
이런 방법은 종종 결과가 서로 다르므로 산업 지식을 토대로 가장 실용적이고 영향력이 강한 솔루션을 찾는 방법이 가장 효과적입니다.
새로운 결과 예측 및 매개변수 최적화
회귀 분석은 강력한 도구이며, "최적" 모형을 선택한 후 예측하는 데 사용할 수 있습니다. 제조 시설의 청정실(클린룸)과 관련된 사례를 예로 들어 보겠습니다. 여러 예측 변수가 입방 피트당 총 100개가 넘는 크기가 0.5μ 이상인 입자 수에 미치는 영향을 이해하는 것이 중요합니다. 공정 엔지니어들이 입자 수에 대한 예측 모형을 만듭니다.
이 모델은 직원 7명과 청정실(클린룸) 출입구 24개로 1,000개의 생산량을 예측하는 데 사용됩니다.
입방 피트당 크기가 0.5μ 이상인 총 100개가 넘는 예상 평균 입자 수는 87.63개입니다. 신뢰 구간과 예측 구간은 예측의 잠재적 오차를 설명합니다.
MINITAB을 사용하면 쉬워지는 회귀 분석
분석가는 편리한 Minitab을 통해 최신 회귀 분석 도구를 모두 사용할 수 있습니다. 아직도 Minitab의 힘을 활용하여 데이터의 가치를 극대화하지 않고 있다면 지금 모든 기능을 사용할 수 있는 Minitab Statistical Software 30일 평가판을 무료로 다운로드하세요.