定性的、定量的、属性的、離散的、連続的なデータタイプを理解する Understanding Qualitative, Quantitative, Attribute, Discrete, and Continuous Data Types

「データ！データ！データ！粘土がなくて煉瓦が作れるもんか。」
— アーサー・コナン・ドイルの「ぶな屋敷」より、シャーロック・ホームズのせりふ

事件を解決しようとしている世界最高の探偵でも、仕事で問題を解決しようとしている人でも、情報は重要です。事実です。シャーロック・ホームズが言うように、データは重要です。

しかし、すべてのデータが同じように作成されるわけではありません。特に品質改善プロジェクトの一環として分析を計画している場合においては。

Minitab Statistical Softwareを使用している場合、Assistantにアクセスすることで、分析をステップバイステップでガイドし、持っているデータの種類を特定することができます。

とはいえ、さまざまなデータの種類や答えを求める際の質問の種類など、少なくとも基本的なことは理解しておくことが大切です。

今回の記事では、直面する可能性の高いデータの種類に関する基本的な概要を説明し、私のお気に入りのお菓子、Jujubeの箱を使って、異なる種類のデータをどのように収集し、どのような種類の分析に使用できるかを説明していきます。

データの主な2つの種類：定性的および定量的

最高レベルの分類として、定量的なデータと定性的なデータの2種類が存在します。

定量的なデータは、数字や客観的に測定できるものを指します。例えば、高さ、幅、長さなどの寸法。温度と湿度。価格。面積と体積など。

定性的データは、匂い、味、質感、魅力、色など、簡単には測定できないものの、主観的に観察できる特徴や記述を指します。

大まかに言えば、何かを測って数値が与えられると、定量的なデータとして得ることができます。何かを分類したり、判断したりする際には、定性データを作成します。ここまでは問題ありません。しかし、これは最高レベルのデータの場合です。定量的なデータと定性的なデータ、どちらとも異なるタイプがあります。

定量の種類：連続データと離散データ

数値データとも呼ばれる定量データの中には、連続データと離散データの2種類があります。一般的なルールとして、計数は離散的で、測定は連続的です。

離散データとは、それ以上正確にできない計数のことです。通常、整数を含みます。例えば、家族の中の子ども（または大人、ペット）の数は離散データです。これはあなたが実体を数えているからです。子どもが2.5人、ペットが1.3匹ということはありえません。

一方、連続データは分割して細かくすることができます。例えば、子どもの身長は、メートル、センチメートル、ミリメートルなど、より正確なスケールで測ることができるので、身長は連続データです。

箱に入っている個々のJujubeの数を集計すると、その数は1つの離散データになります。

a count of jujubes is discrete data

はかりを使って各Jujubeの重さや箱全体の重さを量ると、それは連続データになります。

連続データは、さまざまな種類の仮説検定に使用することができます。例えば、Jujubeの箱に印刷された重さの精度を評価するには、30個の箱を測定し、1標本t検定を行うことができます。

分析の中には、連続的な定量データと離散的な定量データを同時に使用するものもあります。例えば、Jujubeの箱の重さ（連続データ）が、中に含まれているJujubeの数（離散データ）と相関があるかどうかを調べるためには、回帰分析を行います。

定性の種類：二項データ、名義データ、順位データ

何かを分類したり、分別したりするときには、定性データや属性データを作成します。定性データには大きく分けて3つの種類があります。

バイナリデータは、正/誤であるか、真/偽であるか、承諾/拒否であるかの2つの背反カテゴリのいずれかに対象を配置します。

たまに、固かったり、乾燥していたりするJujubeのピースが箱に入っていることがあります。箱の中のそれぞれのJujubeを「良い」「悪い」に分類したとしたら、それはバイナリデータになります。このようなデータを使った統計モデルを開発して、どれくらいの頻度で悪いJujubeが出てくるかを予測することもできます。

順序のないデータや名義データを収集する際には、個々の対象について暗黙的または自然的な価値やランクを持たない、名前のあるカテゴリに割り当てます。箱の中のそれぞれのJujubeの色をワークシートに記録したら、それは名義データになります。

このタイプのデータは、さまざまな方法で使用することができます。例えば、カイ二乗検定を使うことで、箱の中の各色の量に統計的に有意な差があるかどうかを調べることができます。

また、「短・中・高」のように、ある種の暗黙的または自然な順序を持つカテゴリに対象を割り当てるような、順序または順位データを作成することもできます。他の例としては、10を一番良い評価として1～10の段階である対象を評価してもらうアンケート質問があります。ここには、10は9よりも優れており、9は8よりも優れている、などの意味合いが含まれます。

順序データの利用は、統計学者の間でも議論されている内容です。誰もが順序データは棒グラフを作成するために適切であることに同意しますが、それ以上の「順位データをどう取り扱えばいいですか？」という質問に対しては、「内容によります」という答えになります。別のブログで、関連する考慮事項を良く要約した英語の記事が提供されています。

Additional Resources about Data and Distributions

For more fun statistics you can do with candy, check out this article (PDF format): Statistical Concepts: What M&M's Can Teach Us.

For a deeper exploration of the probability distributions that apply to different types of data, check out my colleague Jim Frost's posts about understanding and using discrete distributions and how to identify the distribution of your data.