„Fakten! Fakten! Fakten! Ich kann keine Ziegelsteine ohne Lehm machen.“
— Sherlock Holmes in Die Blutbuchen von Arthur Conan Doyle
Ob Sie versuchen, als bester Detektiv der Welt einen verzwickten Fall zu lösen, oder ob es sich um ein Problem bei Ihrer Arbeit handelt – Sie werden zunächst Informationen benötigen. Daten. Oder Fakten, wie Sherlock Holmes sagt.
Doch nicht alle Daten sind gleich, insbesondere wenn Sie eine Analyse im Rahmen eines Qualitätsverbesserungsprojekts durchführen.
Wenn Sie die Minitab Statistical Software verwenden, können Sie den Assistenten nutzen, der Sie schrittweise durch Ihre Analyse führt und Ihnen dabei hilft, den Typ Ihrer Daten zu bestimmen.
Trotzdem ist zumindest ein grundlegendes Verständnis der unterschiedlichen Datentypen und der Arten der Fragen, die sich damit beantworten lassen, wichtig.
In diesem Artikel werde ich eine einfache Übersicht über die Datentypen geben, auf die Sie wahrscheinlich stoßen werden. Dabei werde ich anhand eines Päckchens Weingummis veranschaulichen, wie wir diese unterschiedlichen Arten von Daten erfassen und welche Arten von Analysen wir damit durchführen können.
Auf der höchsten Ebene lassen sich Daten in quantitative und qualitative Daten gliedern.
Quantitative Daten sind Zahlen und Merkmale, die objektiv gemessen werden können: Maße wie Höhe, Breite und Länge. Temperatur und Feuchtigkeit. Preise. Fläche und Volumen. Temperature and humidity. Prices. Area and volume.
Qualitative Daten beziehen sich auf Merkmale und Beschreibungen, die nicht gemessen, sondern nur subjektiv beobachtet werden können, z. B. Gerüche, Geschmäcke, Beschaffenheit, Attraktivität und Farbe.
Allgemein gesagt: Wenn Sie etwas messen und als Ergebnis einen numerischen Wert aufzeichnen, erfassen Sie quantitative Daten. Wenn Sie etwas klassifizieren oder beurteilen, erfassen Sie qualitative Daten. So weit, so gut. Dies ist jedoch lediglich eine Unterteilung auf der höchsten Ebene, und es gibt unterschiedliche Arten von quantitativen und qualitativen Daten.
Es gibt zwei Arten von quantitativen Daten, die auch als numerischen Daten bezeichnet werden: stetig und diskret. Als Daumenregel sind Anzahlen diskret und Messwerte stetig.
Diskrete Daten sind Anzahlen, die nicht genauer gemacht werden können. In der Regel handelt es sich um ganze Zahlen. So ist beispielsweise die Anzahl der Kinder (oder Erwachsenen oder Haustiere) in Ihrer Familie diskrete Daten, da Sie ganze, unteilbare Einheiten zählen. 2,5 Kinder oder 1,3 Haustiere sind schlichtweg nicht möglich.
Stetige Daten können hingegen immer feiner aufgeteilt bzw. präzisiert werden. So können Sie beispielsweise die Größe Ihrer Kinder auf immer genaueren Skalen messen – Meter, Zentimeter, Millimeter usw. Die Größenangaben sind also stetige Daten.
Wenn ich die Weingummis in einer Packung zähle, sind dies diskrete Daten.
Wenn ich mit einer Waage das Gewicht jedes einzelnen Weingummis oder der gesamten Packung ermittle, sind dies stetige Daten.
Stetige Daten können in vielen verschiedenen Arten von Hypothesentests verwendet werden. Um beispielsweise das auf der Weingummiverpackung angegebene Gewicht zu prüfen, könnten wir 30 Päckchen wiegen und einen t-Test bei einer Stichprobe ausführen.
Bei einigen Analysen werden stetige und diskrete Daten gleichzeitig verwendet. So könnten wir beispielsweise eine Regressionsanalyse ausführen, um zu ermitteln ob das Gewicht des Weingummipäckchens (stetige Daten) mit der Anzahl der enthaltenen Weingummis (diskrete Daten) korreliert.
Wenn Sie etwas klassifizieren oder kategorisieren, erfassen Sie qualitative oder attributive Daten. Es gibt drei wesentliche Arten von qualitativen Daten.
Mit binären Daten werden Dinge in eine von zwei sich gegenseitig ausschließenden Kategorien eingeordnet: richtig/falsch, wahr/unwahr oder annehmen/zurückweisen
Gelegentlich bekomme ich ein Päckchen Weingummis, in denen einige Stücke zu hart oder zu trocken sind. Wenn ich das gesamte Päckchen untersuche und jedes Stück als „Gut“ oder „Schlecht“ klassifiziere, erhalte ich binäre Daten. Mit diesen Daten könnte ich ein statistisches Modell entwickeln, das prognostiziert, wie oft ich ein mangelhaftes Weingummi erwarten könnte.
Beim Erfassen von nicht geordneten bzw. nominalen Daten werden einzelne Einheiten benannten Kategorien zugeordnet, die keine impliziten oder natürlichen Werte und keine Rangfolge aufweisen. Wenn ich die Farben aller Weingummis in einem Päckchen in einem Arbeitsblatt aufzeichne, sind dies nominale Daten.
Dieser Typ von Daten lässt sich auf vielerlei Art nutzen. Ich könnte beispielsweise eine Chi-Quadrat-Analyse verwenden, um festzustellen, ob es signifikante Unterschiede bei den Anzahlen der verschiedenen Farben in einem Päckchen gibt.
Es gibt außerdem geordnete bzw. ordinale Daten, in denen die Einheiten Kategorien zugeordnet werden, die eine implizite oder natürliche Reihenfolge aufweisen, z. B. „kurz, mittel oder lang“. Ein weiteres Beispiel ist eine Frage in einer Umfrage, für die ich etwas auf einer Skala von 1 bis 10 bewerten muss, wobei 10 die beste Bewertung ist. Daraus folgt, dass 10 besser als 9, 9 besser als 8 usw. ist.
Die Verwendungsmöglichkeiten von geordneten Daten sind bei Statistikern nicht ganz unumstritten. Zweifelsfrei eignen sie sich für Balkendiagramme, doch darüber hinaus lässt sich die Frage „Was kann ich mit ordinalen Daten anfangen?“ lediglich mit „Es kommt darauf an“ beantworten. Hier finden Sie einen Artikel in englischer Sprache aus einem anderen Blog, der die relevanten Überlegungen hervorragend zusammenfasst.
Müssen Sie Ihre Datenkompetenz verbessern? Schauen Sie, ob Sie diese 5 Fragen beantworten können Kurzer Test: Wie ist es um Ihre Datenkompetenz bestellt?