데이터의 형상은 무엇을 의미합니까? What Does the Shape of Your Data Indicate?

Cody Steele | 6/19/2024

주제: Minitab Statistical Software, data analysis, Capability Analysis

데이터에서 알아야 할 가장 중요한 것은 일반적인 값과 특이치입니다. 가장 일반적인 데이터 요약 중 하나는 산술 평균으로, 보통 평균이라고 합니다. 평균 강우량, 평균 납기 또는 평균 연료 가격 등을 들어 보셨을 것입니다. 하지만 평균이 일반적인 것을 나타내지 않는 경우도 있습니다. 이런 경우에는 데이터를 히스토그램으로 표시해야 할 때입니다.

Picture2-2 

2021년 프랑스 그랑프리에서 44명의 카레이서의 랩 주행시간을 가장 빠른 것에서 가장 느린 것(FastF1 python 라이브러리)으로 정리한 것을 보십시오. 

grand prix

대부분의 랩 주행시간은 90초에서 92초 사이이며 이것이 가장 일반적인 것입니다. 데이터 집합의 평균 값은 약 109초이며 데이터 집합에 들어 있는 빠른 시간이나 느린 시간 값 어느 쪽과도 가깝지 않습니다. 이와 같은 데이터의 평균 값은 전체 데이터 파악에 사용해서는 안됩니다. 평균 값이 데이터의 일반적인 부분을 나타낸다는 것을 알게 해주기 때문에 유용하며, 평균이 일반적인 것을 나타내는지 여부를 신속하게 파악하는 데 도움이 되는 도구를 파악하는 것이 도움이 됩니다.

Minitab의 강력한 도구 모음이 여러분의 공정 품질 평가에 어떻게 활용될 수 있는지 알아보세요.

웨비나 보기

데이터의 분포

데이터로 히스토그램을 구성해 보는 것이 데이터의 분포를 빠르게 확인할 수 있는 방법입니다. 히스토그램은 표본 값을 여러 구간으로 나누고 막대로 각 구간의 데이터 값 빈도를 보여줍니다. 이것이 랩 타임의 히스토그램입니다.

histograms

히스토그램에서 공통적인 부분을 보여 주는 가장 높은 막대와 가장 극단적 데이터 사이에 갭이 있으면 평균이 데이터의 분포를 제대로 보여주지 않습니다.

종 모양 데이터

대부분의 값이 평균에 가깝고 어느 방향으로든 평균에서 멀리 떨어져 있는 눈에 띄게 줄어드는 경우, 히스토그램은 종 모양이 됩니다. 히스토그램이 종 모양인 경우에 평균이 일반적인 값인 경우입니다.

babies (1)

 

다음 히스토그램은 미국에서 2022 1 사분기에 태어난 건강한 아기들의 출생 체중 표본입니다(출처:전미 경제 연구소).대부분의 신생아는 공통 체중인 3.3 킬로그램에 근접합니다. 평균에서 멀어지는 체중은 어느 방향으로도 급격히 줄어듭니다.

 

 

 

right data

오른쪽으로 치우친 데이터

데이터의 또 다른 일반적인 형태는 대부분의 데이터가 전형적인 형태이지만 일부 데이터가 엄청나게 큰 경우입니다. 이런 모양을 “오른쪽으로 치우친 모양” 이라고 합니다. 소득과 강도(힘) 같은 경우는 하한은 있지만 상한은 없는 변수로 종종 오른쪽으로 치우친 분포를 보여줍니다. 오른쪽으로 치우친 데이터의 경우, 평균이 히스토그램의 가장 높은 막대에서 멀리 떨어져 있어 평균이 일반적인 것의 지표가 되지 않습니다. 오른쪽으로 치우친 데이터의 경우, 중앙값과 같은 다른 통계치를 사용하여 공통적인 것이 무엇이인지 보여줍니다.

다음 히스토그램은 미국의 신규 담보 대출 보유자들의 소득 표본입니다(FHFA.gov). 중앙값이 평균보다 데이터 집합의 일반적인 값을 더 잘 보여줍니다.

median

특이치

데이터의 일반적인 값을 알고 싶으면 히스토그램의 높은 막대를 봅니다. 실제로 필요한 공통적인 요구 사항의 예는 고객의 사양에 맞는 제품의 수량을 추정하는 것입니다. 사양에 맞지 않는 제품은 희귀하지만 이를 알아내려면 일반적인 값에서 멀리 떨어진 값을 알아야 합니다.

비교적 적은 데이터 표본을 사용하여 특이치를 보여주려면 데이터의 형상이 매우 중요합니다. 단 몇 번의 측정만 하기를 원하면 표본에서 1% 이하로 발생하는 데이터를 반드시 볼 필요는 없습니다, 하지만 수천 개의 제품을 구매하는 고객은 이를 들여다 볼 것입니다. 이 경우 데이터 형상을 모형으로 사용하여 특이치가 어떤 것인지 추론합니다.

소형 밸브 배치 물품이 배송될 준비가 되었다고 발표하기 전에 밸브의 길이를 측정한다고 가정해 보겠습니다. 최대한의 공차를 충족하기 위해 밸브를 약간 크게 만든 다음에 이를 최대한 정교하게 다듬습니다. 너무 짧은 밸브는 다듬기 전에 폐기되므로 배치 선적 검사 시에 짧은 밸브는 하나도 없습니다. 이 프로세스는 오른쪽으로 치우친 데이터를 생성합니다.

valves (1)

 

종 모양을 사용하여 이러한 데이터를 모형화하면 실제보다 너무 짧은 밸브가 더 많다는 것을 추정할 수 있습니다. 이러한 오른쪽으로 치우친 데이터의 히스토그램에 종 모양의 곡선을 오버레이하면 곡선이 데이터에 맞지 않음을 보여주는 비워져 있는 막대 왼쪽 영역을 볼 수 있습니다.

 

 

right skewed

오른쪽으로 치우친 곡선을 추가하면, 이 커브를 통해서 상대적으로 적은 표본의 데이터에서 특이치를 파악할 수 있습니다.

last graph

데이터 형상 사용

상대적으로 적은 표본을 사용하여 훨씬 더 큰 모집단에서 발생할 상황을 추정하는 것이 품질 통계의 일반적인 응용 사례입니다. 히스토그램을 사용하여 데이터의 형상을 이해하면 평균이 데이터의 일반적인  값을 나타내는 지 아닌 지의 여부를 신속하게 확인할 수 있습니다. 

Minitab 통계 소프트웨어 무료 평가판으로 여러분의 데이터의 형상을 살펴보세요.

무료 평가판 다운로드

*포뮬라 1 자동차의 이미지 출저는 Wikimedia Commons이며 크리에이티브 커먼 라이센스에 따라 라이센스를 부여 받았습니다.

*연료 분사기의 이미지의 출처는 flickr 이며 크리에이티브 커먼 라이센스에 따라 라이센스를 부여 받았습니다.