Minitab Statistical Software의 예측 분석 모형은 모든 산업에서 매우 가치 있는 자산이 될 수 있습니다. 고객 이탈, 환자 입원 기간, 비용, 리스크와 이익을 비롯한 여러 요인을 예측하여 비즈니스 가치를 창출할 수 있습니다.
이 블로그에서는 금융권의 활용 사례 하나를 살펴보겠습니다. 은행에서 부적격한 사람에게 담보대출을 제공하면 수백만 달러의 손실이 발생할 수 있습니다. 이러한 위험을 방지하려면 은행이 고객의 담보대출 신청을 승인하거나 거절하기 전에 예측을 통해 해당 고객을 파악하는 것이 매우 중요합니다. Minitab의 예측 분석을 통해 향후 채무를 불이행할 가능성이 있는 고객을 정확하게 예측하여 담보대출 채무 불이행 수를 최소화하는 방법을 살펴보겠습니다.
아래는 분석에 활용된 관측 데이터가 있습니다. 이전의 고객 담보대출에 대한 1,645건의 관측 결과가 있습니다. C1열은 반응 변수 또는 목표값을 나타냅니다. 해당 고객이 담보대출 채무 불이행 이력이 있으면 '예(Yes)'가, 채무 불이행 이력이 없으면 '아니오(No)'가 표시됩니다. 나머지 9개 열에는 잠재적인 예측 변수로 평가할 기능이 포함되어 있습니다.
아래의 파이 차트를 통해 채무자가 담보대출 채무를 불이행한 비율을 더 잘 이해할 수 있습니다. 차트에 따르면, 담보대출의 채무불이행 비율은 10%입니다. 이 비율을 줄이면 수익을 크게 늘릴 수 있습니다.
이 문제를 해결하기 위해 Minitab 예측 분석 모듈을 활용합니다.
답변이 '예(Yes)' 또는 '아니오(No)'이므로, 분류 모형을 활용하겠습니다. 연속형 반응변수에 관심이 있는 경우 트리 기반 회귀 모형을 사용하면 됩니다. 예측 분석 모듈에는 다음의 3가지 분류 모델링 유형이 있습니다.
분류의 경우, 모형의 적합도를 평가하기 위한 주요 지표 중 하나는 ROC 곡선 아래의 면적입니다. 이 측정항목이 1에 가까울수록 적합도가 높은 것입니다. 모듈의 3가지 모델링 엔진을 각각 활용하여 ROC 곡선 아래의 면적값을 비교한 결과.
TreeNet Classification의 ROC 곡선 아래 면적은 0.9695였습니다. 이 값은 나머지 두 모델 엔진 모형의 ROC 곡선 아래 면적보다 높았습니다. 즉, 도출된 TreeNet Classification 모형이 담보대출 채무 불이행에 가장 적합한 예측 모형입니다. Minitab의 가장 유연하고 수상 경력을 자랑하는 강력한 머신러닝 도구인 TreeNet 경사 부스팅은 매우 정확한 모형을 일관성 있게 생성할 수 있습니다. 3가지 모델링 엔진 중 TreeNet은 대부분의 경우 최상의 결과를 도출합니다.
먼저 모형 출력의 일부로 상대 변수 중요도 그래프를 살펴보겠습니다. 상대 변수 중요도 값의 범위는 0%~100%이며, 가장 중요한 변수는 항상 100%입니다. 신용 대비 부채는 담보대출 채무 불이행 예측에 가장 중요한 변수이며, 소득에 대한 부채가 두 번째로 중요한 변수입니다. 9가지 특성 중 8가지는 모형에 어느 정도 중요합니다.
이제 Minitab으로 모형을 가져왔으니 예측을 해보겠습니다. Minitab에 개별 값을 입력하거나, 한 번에 많은 양의 예측을 해야 할 경우 여러 열의 값을 사용할 수 있습니다.
$485,000 상당의 담보대출을 신청한 한 고객에 대해 다음의 데이터가 있습니다.
이러한 값을 예측 모형에 입력하여 이 고객의 채무 불이행 확률을 아래 예측 출력과 같이 도출할 수 있습니다. 이 고객이 담보대출 채무를 불이행할 확률은 97%가 넘습니다. 이러한 예측이 도출되면 업계에 대한 지식을 보유한 여러분은 이 예측을 해석하여 그에 따라 행동할 수 있습니다. 채무 불이행 확률이 97%인 고객은 담보대출이 거절될 가능성이 높겠죠.
모든 예측 변수의 값이 제공되는 상태에서 예측을 하는 것이 최상이지만, 실제로는 일부 예측 변수의 값이 누락되는 경우가 많습니다. Minitab의 예측 분석을 활용하면 이러한 경우에도 간편하게 예측을 수행할 수 있습니다. 아래 예에서는 누락된 값이 많습니다. 하지만 일부 값이 누락되었더라도 이 고객이 담보대출 채무를 불이행할 확률을 예측할 수 있습니다.
이 고객은 $375,000의 담보대출을 신청했습니다. 다만 이 고객의 경우 소득, 소득 대비 부채, 지역과 피부양자 수 데이터가 없습니다. 이 고객에 대해 확보한 정보는 다음과 같습니다.
일부 값이 누락되었지만 아래와 같이 예측을 수행하여 이 고객의 담보대출 채무 불이행 가능성이 1% 미만임을 확인할 수 있습니다.
예측 모형의 분석 결과에 따르면, 이 고객의 채무 불이행 확률은 1% 미만이므로 담보대출 대상자로서 적합합니다. 이 예시는 Minitab의 트리 기반 머신러닝 알고리즘을 활용하여 복잡한 문제를 해결하고 귀중한 통찰력을 도출하는 여러 방법 중 하나일 뿐입니다.