주문형 웨비나를 시청하여 Minitab Statistical Software의 분류 및 회귀 트리(CART)에 관한 팁을 알아보세요. 이 웨비나에서는 CART 결과와 특정 데이터 조건에 페널티를 설정하는 방법을 알아보고, 결과를 활용하는 방법에 관한 팁도 알려드립니다. 오늘은 이러한 내용의 맛보기를 소개하겠습니다.
주문형 CART 웨비나의 팁 및 요령
분류 및 회귀 트리(CART, Classification And Regression Tree)란?
CART는 재귀적 분할에 기반한 모형화 기법으로, 연속형 및 범주형 응답을 예측하는데 모두 사용할 수 있습니다. 이러한 예측 모형은 자동 변수 선택을 지원하고, Minitab에서 간편하게 구축 가능하며, 무엇보다도 만든 모형을 손쉬운 해석이 가능한 의사결정 트리로 시각화 할 수 있습니다. CART는 대규모 관찰 데이터 세트를 이용하여 작업하거나 복잡한 비선형 관계가 존재할 때 선형 회귀나 로지스틱 회귀의 대안으로 유용하게 활용할 수 있습니다.
팁 1: 의사결정 트리를 자세히 살펴보려면 노드 분할 보기를 사용하세요
대규모 CART 모형의 상세 보기는 시각화가 다소 어려울 수 있으나, 다행히 Minitab은 트리의 요약 보기 옵션을 지원합니다. Minitab에서 CART 모형을 마우스 오른쪽 버튼으로 클릭하고 노드 분할 보기를 선택하세요. 이 요약 보기에는 데이터가 분할될 때마다 사용된 예측 변수만 표시됩니다.
팁 2: CART 예측을 워크시트로 저장하세요
응답이나 목표 변수가 연속형인 경우, 회귀 트리 모형은 각 터미널 노드의 평균을 예측합니다. 범주형 결과 변수의 경우 예측은 각 응답 수준 및 예측된 응답 수준에 대한 확률입니다. Minitab의 다른 시각화를 사용하여 모형의 예측을 시각적으로 살펴보려면 저장 옵션을 사용하여 CART 예측을 워크시트로 저장하세요.
CART의 상대 변수 중요도 그래프는 예측 변수를 중요도 순서대로 표시합니다. Minitab의 그래프 옵션을 활용하여 이러한 중요 예측 변수가 응답에 미치는 영향을 시각화할 수 있습니다. 아래는 분류 모델에서 가장 중요한 두 개의 연속형 예측 변수를 사용하여 응답 이벤트의 예측 확률을 등고선도에 시각화한 예입니다.
팁 3: 결측값이 많은 예측 변수 또는 고유한 값이 많은 범주형 예측 변수에 페널티를 적용하세요
결측값이 많은 연속형 또는 범주형 예측 변수나, 수준이 여러 개인 범주형 예측 변수는 수준이 더 적거나 결측값이 없는 예측 변수에 비해 유리할 수 있습니다. 이로 인해 이러한 예측 변수 중 하나가 트리를 '인수'하여 다른 예측 변수의 효과를 숨길 수 있습니다. Minitab은 이러한 데이터 조건을 반영하기 위해 결측값이 많은 예측 변수 또는 고유한 값이 많은 범주형 예측 변수에 페널티를 적용하는 옵션을 지원합니다.
이러한 페널티는 옵션 메뉴의 파일 > 옵션에 있습니다. 페널티는 분류 트리와 회귀 트리 모두에 적용 가능하며, 결측값의 경우 0~2, 범주형 예측 변수의 경우 0~5의 페널티를 적용할 수 있습니다(0 = 페널티 없음, 최대값 = 최대 페널티).