データに関しては、どの値が一般的で、どの値がまれであるかを理解することが最も重要なことの一つです。データの最も一般的な要約の一つは算術平均であり、これは平均と呼ばれることがよくあります。平均降雨量、平均配達時間、平均燃料価格などについて聞いたことがあるかもしれません。ただし、平均値では共通点をうまく表現できない場合があります。これは、データをヒストグラムでプロットするのに最適な機会です。
2021年フランスグランプリにおけるドライバー44のラップタイムを、最速から最遅の順に並べたものを検討します(FastF1 Pythonライブラリより)。
ほとんどのラップが90秒から92秒の間であることがわかります。これが最も一般的な値です。データセットの平均は約109秒で、データセット内の速い値や遅い値のいずれにも近くありません。このようなデータの場合、平均値はデータの共通点を知るための最適な方法ではありません。平均値がどのような場合にデータ内の共通点を表すのかを知ることは有用であるため、平均値が共通点を表しているかどうかを素早く識別するのに役立つツールを知っておくと便利です。
Minitabの強力なツール スイートがプロセスの品質評価にどのように役立つかをご覧ください。
共通点
共通点を確認する簡単な方法は、ヒストグラムを使用してデータをプロットする方法です。ヒストグラムはサンプル値を多数の区間に分割し、各区間のデータ値の頻度をバーで表します。ラップタイムのヒストグラムは次のとおりです。
ヒストグラムで、共通点を示す最も高いバーと最も極端なデータの間にギャップがある場合、その平均値は共通点を適切に表していません。
ベル型データ
ほとんどの値が平均値に近く、また、平均値からどちらかの方向に離れる値が少なくなる傾向にある場合、ヒストグラムはベルの形を示します。ヒストグラムがベル型を示す場合、平均値は共通点をうまく表しています。
次のヒストグラムは、2022年前半の米国の健康な赤ちゃんの出生体重のサンプルを示しています(全米経済研究所より)。ほとんどの赤ちゃんは3,300グラムという共通値に近いです。平均から離れた重みは、各方向で次第に稀になります。
右に偏ったデータ
データのもう一つの一般的な形状は、ほとんどのデータは標準的なものですが、一部のデータが非常に大きくなり得る場合です。この形状を「右傾斜」と呼びます。所得や強度など、下限はあるが上限がない変数は、右に偏った分布に従うことが多くなります。右に偏ったデータの場合、平均値はヒストグラムの最も高いバーから遠く離れていることが多く、平均値は共通点を示す指標としては不十分です。右に偏ったデータの共通点を示すために、通常は中央値などの代替統計を使用します。
次のヒストグラムは、米国の新規住宅ローン保有者の所得のサンプルを示しています(FHFA.gov より)。中央値は、平均値よりもデータセット内の共通点をより良く表しています。
希少なもの
どのようなデータが共通なのかを考えるとき、ヒストグラム内の長いバーを思い浮かべます。実際の一般的なニーズは、顧客の仕様に適合する製品の数を見積もることです。仕様外の製品は稀なので、共通点から大きく離れた値を理解する必要があります。
比較的小さなデータサンプルを使用して何が希少なのかを説明する場合、データの形状が重要になります。数十回の測定のみを行う場合、サンプル内で1%未満の頻度で発生するデータが必ずしも表示されるわけではありませんが、当社から何千もの製品を購入している顧客の場合は表示されます。その場合、データの形状をモデルとして使用して、希少データがどのようなものであるかを推測できるようにします。
小型バルブ製品の出荷用のバッチの準備が完了したと宣言する前に、その小型バルブの長さを測定するとします。許容誤差をできる限り満たすために、バルブは少し大きめに製造し、その後できるだけ正確にトリミングします。短すぎるバルブはトリミング前に廃棄されるため、出荷用のバッチを検査する際に短いバルブを測定するということはありません。このプロセスにより、右に偏ったデータが生成されます。
ベル形状を使用してこれらのデータをモデル化すると、現実に存在するよりもはるかに多くの短すぎるバルブが存在すると推定してしまうことになります。これらの右に偏ったデータのヒストグラムにベル型を示す曲線を重ねると、バーの左側に空の領域があり、曲線がデータに適合していないことがわかります。
代わりに右に偏った曲線を追加すると、たとえ比較的小さなサンプルからでも、データ内の何が希少なのかを正確に把握できるようになります。
データの形状を活用する
比較的小さなサンプルを使用して、はるかに大きな集団で何が起こるかを予測することは、品質統計の一般的な応用です。ヒストグラムを使用してデータの形状を理解すると、平均値がデータに共通する内容を適切に表しているかどうかをすぐに判断できます。
ご自身のデータの形状を調査しましょう - Minitab Statistical Software の無料トライアルをダウンロードする
*フォーミュラー 1 カーの画像はウィキメディア コモンズからのものであり、このクリエイティブ コモンズ ライセンスに基づいてライセンスされています。
*燃料インジェクターの画像はflickrからのもので、このクリエイティブ コモンズ ライセンスに基づいてライセンスされています。