통계를 분석하는 가장 실질적인 이유는 전체 모집단이 아닌 데이터 하위 세트만이 수집되기 때문입니다. 표본 데이터 수집의 유연성으로 인해 시간과 비용이 절약되니까요. 하지만 이러한 유연성에는 의사결정 과정의 오류가 발생합니다.
- 제1종 오류 - 거짓양성(False Positive) - 생산자의 위험
- 제2종 오류 – 거짓음성(False Negative) - 소비자의 위험
이러한 오류는 분석가에게 다양한 의미로 다가올 수 있으며, 분석에서 사용된 표본 크기에 따라 과장될 수도 있습니다. 이 블로그 게시물에서는 이러한 오류를 살펴보고, 표본 크기가 의사결정에 어떤 영향을 줄 수 있는지 알아봅니다.
검정력 및 표본 크기
사람들은 어느 경우에든 적합한 표본 수를 궁금해 합니다. 많은 이들은 주변에서 접한 중심 극한 정리의 개념을 기반으로 30이라는 표본 수를 떠올리지만, 이 숫자가 항상 알맞은 것은 아닙니다.
통계에서는 검정력의 개념을 통해 실질적인 차이를 감지할 수 있는 표본 수의 확률을 파악합니다. 이때 목표는 검정력을 높게 유지하는 것으로, 80~90%의 검정력 목표값이 적절합니다. 검정력은 테스트의 실제 양성 비율, 즉 화재를 감지할 수 있는 화재경보로 볼 수 있습니다.
Minitab Statistical Software에서 '통계분석' > '검정력 및 표본 크기' 메뉴로 이동하여 올바른 표본 크기를 설정하세요.
제2종 오류 및 충분하지 않은 데이터
제2종 오류는 중요한 차이가 누락되는 오류입니다. 이는 거짓음성 비율 또는 소비자의 위험으로 간주되며, 화재를 감지하지 못하는 화재경보로 볼 수 있습니다. p값이 0.05보다 크면 거짓음성의 가능성을 고려해 보아야 합니다.
제2종 오류는 더 중요한 오류로 간주됩니다. R+D 부문에서 이 오류가 발생하면 공정을 최적화하거나 개선할 기회를 놓칠 수 있습니다. 제조 과정에서 이 오류가 발생하면 고객이 불량 부품을 받게 될 수 있습니다.
이 시뮬레이션에서는 목표에 대해 1시그마 단위만큼의 이동이 생성되었습니다. 아래는 1시그마만큼 이동된 공정 및 목표값의 분포입니다.
이 예에서는 1시그마 이동을 감지할 수 있는지 확인하기 위해 모집단에서 크기가 5인 표본 100개를 추출했습니다. 이 예시에서 표본 크기가 5인 1시그마 이동을 감지할 수 있는 검정력은 40%입니다. 즉, 표본 100개 중 약 40개 정도에서 차이를 감지할 수 있다는 의미입니다. 아래 시뮬레이션에서는 표본 중 44개는 목표를 포착하지 않았기 때문에 이동을 감지할 수 있었습니다.
하지만 표본 크기가 너무 작아 공정 변화를 감지하지 못할 확률이 무려 60%나 됩니다. 즉, 공정이 불량인지 파악할 수 있는 확률이 동전 던지기의 확률보다도 못하다는 뜻입니다. 이렇게 낮은 확률로는 공정을 개선해야 할 필요를 파악하지 못할 수 있습니다. 더구나 현실에서는 이 과정을 100번 수행할 리가 없겠죠.
표본 크기가 작은 경우, 거짓음성 비율이 증가하면 현재 상황에 안주하게 되어 공정 개선이 이루어지지 않을 수 있습니다. 작은 표본 크기에서 거짓음성 확률이 높아지는 문제를 해결하려면 관리도를 사용하여 이러한 공정을 지속적으로 모니터링하거나 표본 크기를 늘리는 것이 가장 좋습니다.
제1종 오류 및 너무 많은 데이터
제1종 오류는 무시할 수 있는 차이를 감지하는 오류입니다. 이 오류는 거짓양성 비율 또는 생산자의 위험으로 간주되며, 화재가 발생하지 않았는데도 울리는 화재경보로 볼 수 있습니다. p값이 0.05보다 작으면 거짓음성의 가능성을 고려해 보아야 합니다.
아래는 공정이 0.15시그마 단위만큼 이동한 예시입니다. 이는 작지만 무시할 수 있는 차이로 간주되며, 이 예시에서는 공정 개선을 실시할 필요가 없습니다.
이 0.15시그마만큼 이동한 공정에서 1,000개 단위 중 표본 100개를 무작위로 추출한 다음, 각각의 표본을 검정하여 목표치를 벗어났는지 확인했습니다. 이 예시에서, 0.15 시그마 단위의 작은 차이를 감지할 수 있는 검정력은 99.7%입니다. 아래는 표본 100개의 95% 신뢰 구간의 그래프입니다. 구간 100개 중 99개는 공정이 목표를 벗어났음을 나타내는 0을 캡처하지 않았습니다.
분석가가 p값만 살펴본다면 변경 사항이나 '개선' 을 시작하게 될 수도 있습니다. 하지만 분석가가 이동이 0.15시그마 단위에 불과하다는 사실을 알게 되면 이 결과가 사실상 거짓 경보나 마찬가지라는 사실을 깨닫게 될 것입니다.
하지만 공정을 목표에 다시 집중시키기 위해 자원을 투자하는 데 그렇게 작은 변화가 필요할까요? 이러한 질문에 대한 답변은 비용, 제품의 규격 한계 또는 반응 변수의 중요도에 따라 다릅니다.
많은 표본을 사용하여 강력한 분석을 수행하려는 사용자는 CART 분류 트리나 CART 회귀 트리와 같은 머신 러닝 기법을 고려하거나, 데이터를 규격 한계 또는 기타 사전 정의된 한계와 비교해야 합니다.
너무 많거나 혹은 부족하거나: 표본 크기와 통계 분석
통계를 활용하면 더 적은 비용으로 보다 쉽게 비즈니스 의사결정을 내릴 수 있지만 이러한 의사결정은 분석에 사용된 표본 크기에 따라 크게 영향을 받을 수 있습니다. 데이터가 충분하지 않으면 거짓음성이 발생할 확률이 높아지며, 데이터가 너무 많으면 거짓양성 문제가 발생할 수 있습니다. 과거 이력에 대한 지식, 적절한 데이터 수집 프로세스 및 통계분석에 대한 높은 이해도를 갖추면 보다 정확한 의사결정을 내릴 수 있습니다.