Im vorhergehenden Beitrag haben wir die Verteilung der Daten zum Körperfettanteil identifiziert. Jetzt werden wir die Vorteile betrachten, die wir dadurch haben, dass wir die Verteilung kennen. Der Schwerpunkt liegt dabei auf dem Erstellen von informativen Grafiken. Denn wenn Sie sich nicht sicher sind, wie eine bestimmte Verteilung mit bestimmten Parametern aussieht, erhalten Sie mit einer Grafik einen guten Überblick!
Bisher haben wir die Verteilung und die Parameterwerte für die Körperfettdaten von 14-jährigen Mädchen ermittelt.
Weibull-Verteilung mit 3 Parametern:
Wie hilft uns das weiter? Wie sieht das überhaupt aus? Und wo liegen die für die Gesundheit relevanten Bereiche in dieser Verteilung? Diese Fragen lassen sich alleine anhand der Parameterwerte nicht beantworten. Mit nur einer einzigen coolen Grafik ist es allerdings möglich!
Es ist immer empfehlenswert, sich mit der Verteilung von Daten vertraut zu machen, bevor man sie analysiert. Für bestimmte Analysen werden bestimmte Verteilungen benötigt. Es kann sich z. B. als teurer Fehler herausstellen, wenn Sie für nicht normalverteilte Daten eine Analyse einsetzen, für die nur normalverteilte Daten verwendet werden dürfen. Ich werde jetzt allerdings nicht auf das Auswählen alternativer Analysen eingehen. Stattdessen möchte ich die Grafiken vorstellen und die Möglichkeiten, die sich Ihnen eröffnen, wenn Sie die Verteilung kennen.
Da wir die am besten passende Verteilung ermittelt haben, sind wir nicht mehr auf die Rohdaten der Stichprobe beschränkt wie bei dem Histogramm. Wir können jetzt Rückschlüsse auf die Grundgesamtheit ziehen. Wir können die beste Schätzung dafür, wie die ganze Grundgesamtheit aussieht, grafisch darstellen und Wahrscheinlichkeiten für Werte in bestimmten Bereichen berechnen. Legen wir also los.
Um alle oben gestellten Fragen zu beantworten, verwenden wir die Darstellung der Wahrscheinlichkeitsverteilung in der Minitab Statistical Software. Ich bin großer Fan dieses Diagrammtyps. Wenn Sie Ihrem Chef zeigen möchten, wie eine ungewöhnliche Verteilung mit unverständlichen Parameternamen tatsächlich aussieht, verwenden Sie diese Grafik. Sie können die Auswirkungen von anderen Verteilungen und Parameterwerten veranschaulichen, die Lage von bestimmten Zielwerten in einer Verteilung zeigen und Anteile sehen, die mit wichtigen Bereichen verknüpft sind. Mit diesen einfachen Diagrammen lassen sich komplexe Konzepte für Betrachter ohne Statistikkenntnisse klar und einfach vermitteln.
Für Darstellungen der Wahrscheinlichkeitsverteilung werden keine Daten verwendet. Stattdessen geben Sie die Verteilung und die Parameterwerte an. Sie können auch Bereiche festlegen, die Sie besonders interessieren.
Wir verwenden die Parameter der Grundgesamtheit, die wir bereits ermittelt haben. Für den Bereich, der uns interessiert, habe ich eine Website gefunden, die für Mädchen zwischen 14 und 19 aus Gesundheitsgründen einen Körperfettanteil von 20 %–24 % empfiehlt. Dieser Bereich kommt mir sehr klein vor, doch sehen wir nach, wo er in der Verteilung der Grundgesamtheit für 14-jährige Mädchen liegt.
Ich öffne in Minitab Grafik > Darstellung der Wahrscheinlichkeitsverteilung > Wahrscheinlichkeit anzeigen und gebe unsere Verteilungsinformationen im Hauptdialogfeld ein:
Dann klicke ich auf die Registerkarte Eingefärbte Fläche und gebe folgende Werte ein:
Nachdem wir auf OK geklickt haben, erzeugt Minitab die folgende Grafik:
In nur einem Schritt können Sie die Form der Verteilung sehen und erkennen, wie sich ein bestimmter Bereich darin verhält. Ich bin kein Gesundheitsexperte, doch ich kann sehen, dass der auf der Website genannte Bereich für einen idealen Körperfettanteil nicht mit dem übereinstimmt, wo die meisten Mädchen liegen. Nur 20 % fallen in den idealen Bereich, der vor der Spitze der Kurve liegt. Wir wissen also bereits, dass wir etwas Interessantes entdeckt haben.
Die Bezeichnung Wahrscheinlichkeitsnetz klingt ähnlich wie Darstellung der Wahrscheinlichkeitsverteilung. Die beiden Grafiktypen sind verwandt, doch Wahrscheinlichkeitsnetze sind besonders gut geeignet, um zu bestimmen, ob eine Verteilung passend für die Daten ist (das haben wir bereits getan), und um Perzentile auf der Grundlage dieser Verteilung zu berechnen. In der Regel befinden sich n % einer Grundgesamtheit unterhalb und (100-n) % der Grundgesamtheit oberhalb des n-ten Perzentils.
Perzentile sind besonders wichtig für Nicht-Normalverteilungen, weil Sie hiermit die Lage und Streubreite einer Verteilung ermitteln können. Und das ist der Grund:
Intuitiv denken wir, dass der Mittelwert und die Standardabweichung die Lage und Streubreite einer Normalverteilung angeben. Außerdem lautet eine gute Daumenregel für Normalverteilungen, dass zwei Drittel der Grundgesamtheit symmetrisch innerhalb von 1 Standardabweichung um den Mittelwert liegen. Ungefähr 95 % liegen innerhalb von 2 Standardabweichungen.
All dies gilt allerdings nicht für nicht symmetrische Verteilungen. Der Mittelwert befindet sich nicht in der Mitte, und die Regel für die Streubreite gilt nicht mehr. Doch wenn Sie einmal die Verteilung ermittelt haben, können Sie die Perzentile berechnen und so Lage und Streubreite der Grundgesamtheit ermitteln.
Wenn Sie z. B. den mittleren Wert (Median) und die Spannweite finden möchten, in die die mittleren 95 % einer nicht normalverteilten Grundgesamtheit fallen, berechnen Sie das 2,5., 50. und 97,5. Perzentil (97,5 - 2,5 = 95). Der Median ist das 50. Perzentil: Die Hälfte der Grundgesamtheit liegt darüber und die andere Hälfte darunter
Wir berechnen die prozentualen Körperfettanteile, die dem 2,5., 50. und 97,5. Perzentil entsprechen. Sehen wir außerdem nach, welches Perzentil der Obergrenze des angeblich idealen Körperfettbereichs entspricht: 24 %.
Hierzu müssen Sie die Daten öffnen, die Sie hier finden.
Wir sehen die folgende Grafik:
Wir wussten bereits, dass diese Daten dieser Verteilung folgen, und diese Ausgabe bestätigt dies noch einmal. Die Datenpunkte folgen der Mittellinie, und der p-Wert in der Legende liegt über 0,500, d. h., er ist größer als alle allgemein verwendeten Alpha-Werte. Diese Daten folgen daher einer Weibull-Verteilung mit 3 Parametern.
In der Grafik werden die Datenwerte auf der x-Achse und die Perzentile auf der y-Achse dargestellt. Für diese Grundgesamtheit entspricht das 50. Perzentil (der Median) einem Körperfettanteil von 27,6 %. 95 % der Grundgesamtheit sollten zwischen dem 2,5. und dem 97,5. Perzentil liegen, was einem Körperfettanteil von 18,0 % bzw. 44,5 % entspricht. Aufgrund der nicht symmetrischen Form der Verteilung liegt der Median (27,6) näher an dem niedrigen Wert als an dem hohen.
24 % Körperfettanteil entspricht dem 29. Perzentil. 24 % ist die Obergrenze des auf der Website empfohlenen idealen Bereichs, doch für diese Grundgesamtheit ist dies ein relativ niedriges Perzentil. Anders ausgedrückt: 71 % der Grundgesamtheit übertreffen die Obergrenze des Bereichs. Oh je!
In Bezug auf den Idealbereich für den Körperfettanteil ist klar, dass hier ein Problem vorliegt. Ich bin kein Gesundheitsexperte, daher habe ich keine Erklärung dafür. Es sieht allerdings so aus, als wäre entweder der Bereich falsch oder als würde eine deutliche Mehrzahl (71 %) von 14-jährigen Mädchen den empfohlenen Bereich überschreiten. Nur 20 % liegen tatsächlich innerhalb des Bereichs. Mit einigen einfachen Werkzeugen in Minitab konnten wir die Problematik in diesen Daten veranschaulichen. Und genauso wichtig: Wir konnten die Ergebnisse leicht verständlich präsentieren.
Ich hoffe, dass Sie nach der Lektüre dieses Beitrags vertrauter mit Nicht-Normalverteilungen sind und erkennen, welche Vorteile es hat, wenn Sie die Verteilung Ihrer Daten ermitteln. Ich habe Ihnen gezeigt, wie Sie die Rohdaten der Stichprobe völlig neu auswerten können und hilfreiche Schlüsse zu der Grundgesamtheit ziehen können, die die Daten darstellen. Sie müssen keine Angst mehr vor nicht normalverteilten Daten haben!