Minitab 통계 소프트웨어 최신 버전의 시각화 도구에 자기 함수 상관 도표가 추가되었습니다. 오늘은 이 그래프가 이토록 인기 있고 유용한 고급 분석 도구로 활용되는 이유를 알아보겠습니다.
간단히 요약하자면, 자기 함수 상관 도표는 상관관계의 통계를 시각화한 그래프로 상관관계도나 상관관계 행렬이라고도 합니다. 자기 상관 함수 도표는 무작위성의 평가에 사용되며, 서로 강한 상관관계를 지닌 변수를 신속하게 파악하여 단순한 데이터 패턴을 식별합니다. 다른 데이터 분석과 마찬가지로, 데이터 구조의 조사와 이해는 예측 분석 절차의 중요한 첫 단계이며 변수가 서로 높은 상관관계를 지니는지 여부는 다음 단계를 결정하는 데 도움이 됩니다.
차차 소개하겠지만, 자기 상관 함수 도표는 예측 분석을 더욱 효과적으로 활용할 수 있는 최적의 시각적 도구입니다.
현재 산점도 행렬을 이용하여 상관관계와 무작위성을 파악하는데 자기 상관 함수 도표는 무엇이 다른지 궁금하실 수 있습니다. 물론 변수와 표본의 수가 비교적 적다면 산점도 행렬과 상관관계를 함께 사용하는 것이 적합합니다.
반면 자기 상관 함수 도표는 변수와 표본의 수가 많을 때 유용합니다. 보다 쉬운 이해를 위해 전기 차량을 위한 연료 전지를 설계하는 엔지니어의 예시를 살펴보겠습니다.
작동 온도는 압력, 유속(유체의 흐름), 습도와 함께 연료 전지의 성능에 영향을 미치는 매개변수에 속하며, 모든 연료 전지 설계 시에는 최적의 작동 온도를 파악해야 합니다. 엔지니어는 연료 전지 성능과 효율성을 최적화하는 설계를 도출하기 위해 전지의 수소 함유량, 산소 함유량과 수소 및 산소가 연료로 배출되어 에너지를 생성하는 온도 사이의 관계를 이해해야 합니다.
엔지니어는 14회의 관찰을 통해 측정치를 수집하여 여러 온도에서 산소와 수소 간에 화학반응이 일어나는 경우 연료 전지의 전력에 영향이 있는지 평가하려고 합니다.
Minitab의 통계분석 > 기초 통계 > 상관분석 메뉴로 이동하여 상관관계 분석을 수행한 결과, 엔지니어는 상관계수 표와 산점도 행렬 모두에서 변수 간 상관관계가 존재한다는 사실을 확인했습니다.
표의 결과에 따르면, 수소 함유량(Hydrogen)과 전력 시간(Minutes of Power)(분) 간 Pearson 상관 계수는 -0.791이었으며, p값은 0.001이었습니다. p값이 유의 수준 0.05보다 작으므로, 상관관계는 0과 유의하게다른 것입니다. 이러한 연관성은 수소 함유량이 증가할수록 생성되는 전력의 시간(분)이 감소한다는 사실을 나타냅니다. 참고로, 상관관계는 두 변수 간 선형 연관성의 강도를 측정하는 것으로, 범위는 -1(강한 음의 상관관계)과 +1(강한 양의 상관관계)입니다. 상관관계가 0에 가까울수록 두 변수 간 강한 선형 연관성이 없는 것입니다.
산점도 행렬은 개별 연관성을 나타내며, 이 분석 결과의 시각화에 유용한 도구입니다. 아래의 예를 보면 왼쪽 하단에 전력 공급 시간(분)과 수소 함유량의 산점도가 있습니다.
산점도 행렬은 잠재적 이상값의 식별에도 유용하지만, 가장 강하거나 가장 약한 상관관계를 빠르게 파악하는 용도는 아닙니다. 예를 들어 위의 산점도 행렬을 보고 -1이나 +1에 가장 가까운 상관관계를 파악하는 데에는 얼마나 걸릴까요?
이를 신속하게 파악하려면 자기 상관 함수 도표가 더 유용합니다. 특히 이러한 정보를 빠르게 훑어보고 단번에 이해해야 하는 사람들에게 분석 결과를 공유하는 경우 더욱 그러합니다.
같은 데이터를 자기 상관 함수 도표로 나타낸 아래의 예를 살펴보세요(Minitab 통계 소프트웨어에서 그래프 > 자기 상관 함수 도표 메뉴로 이동).
산소 함유량별 전력 공급 시간(분)을 나타낸 하단의 그래프(진한 빨강색 부분)이 즉시 눈에 들어오죠? 자기 상관 함수 도표에서는 색상의 강도가 상관 계수와 비례합니다. 즉, 그래프 색상이 진할수록 상관관계가 강한 것입니다. 이처럼 자기 상관 함수 도표는 상관관계를 명확하고 즉각적으로 파악할 수 있게 시각화합니다. 이 사례에서 엔지니어는 자기 상관 함수 도표를 실행하여 데이터의 상관관계를 훨씬 더 쉽게 이해할 수 있습니다.
다음으로 변수가 14개, 1,000개의 데이터 행이 있는 분석의 사례를 살펴보겠습니다. 참고로 이 사례는 소비재 설문조사나 회로 공정 측정치의 분석 등 다양한 경우에 공통적으로 적용 가능합니다. 팀에게 아래 산점도 행렬에서 가장 강한 연관성(+1이나 -1에 가장 가까운)을 찾으라고 하면 가장 강한 상관관계를 파악하는 데 얼마나 걸릴까요?
그런 다음 아래에서 같은 데이터를 자기 상관 함수 도표로 나타낸 예를 살펴보세요. 약한 상관관계는 시각적으로 눈에 띄지 않는 반면, 높은 상관관계를 나타내는 부분은 바로 눈에 들어오는 것을 확인할 수 있습니다. 이를 통해 팀은 중요한 정보를 훨씬 더 빠르게 파악할 수 있습니다.
변수 간 상관관계와 같은 관계를 이해하는 것은 정확한 예측 분석에 매우 중요합니다. 비교적 적은 변수가 사용되는 데이터 분석에서는 상관관계를 파악하기가 쉽지만, 변수의 수와 데이터 집합의 규모가 늘어나면 상관관계를 이해하는 데 소요되는 노력도 증가합니다. Minitab의 통계분석에서 특히 복잡한 문제를 해결할 때 자기 상관 함수 도표의 이점을 활용하면 더욱 빠르고 정확하며 간편한 분석이 가능합니다.