Der Minitab Blog

So identifizieren Sie die Verteilung Ihrer Daten mit Minitab

Geschrieben von Minitab Blog Editor | 25.01.2022 09:27:51

Mir gefallen alle Daten, egal ob sie normal oder völlig bizarr verteilt sind. Doch viele Menschen bevorzugen die symmetrische, glockenförmige Kurve einer Normalverteilung. Eine Gamma-Verteilung mit ihrem Form- und ihrem Skalenparameter ist nicht so intuitiv erfassbar wie die vertraute Normalverteilung mit ihrem Mittelwert und ihrer Standardabweichung.

Jedoch liegt es in der Natur der Sache, dass nicht alle Daten der Normalverteilung folgen. Es gibt halt viele Dinge, die einfach nicht normal ... äh ... nicht normalverteilt sind. Analysten sind ständig mit der Herausforderung konfrontiert, wie die praktischen Konsequenzen einer nicht normalen Verteilung zu verstehen und präsentieren sind.

Dies gilt insbesondere für Analysten, die sich mit der Prozessverbesserung in Bezug auf Qualität beschäftigen, da sie oft mit schiefen (nicht symmetrischen) Daten arbeiten. Die Ausgaben vieler Prozesse haben häufig natürliche Grenzen auf einer Seite der Verteilung. Zu den natürlichen Grenzen zählen Aspekte wie Reinheit, die nicht über 100 % ansteigen kann. Oder Bohrungen, die nicht kleiner als der Bohrereinsatz sein können. Diese natürlichen Grenzen führen zu schiefen Verteilungen, die sich ausgehend von der natürlichen Grenze erstrecken. In einigen Bereichen sind nicht normalverteilte Daten also typisch.

Machen Sie sich aber keine Sorgen. Wenn Sie etwas beleuchten und dadurch identifizieren können, ist es gleich weniger beängstigend. Ich zeige Ihnen, wie Sie:

Um dieses Verfahren zu veranschaulichen, werde ich die Daten zum prozentualen Körperfettanteil aus meinem vorausgegangenen Beitrag zur Verwendung der Regressionsanalyse für die Prognose untersuchen. Sie können diese Daten hier herunterladen, wenn Sie die Analyse selbst durchführen möchten.

ROHDATEN DER STICHPROBE VERWENDEN

Wir könnten ganz einfach die Rohdaten der Stichprobe in einem Histogramm wie diesem darstellen:

Dieses Histogramm zeigt die Form der Stichprobendaten, und es ist ein guter Ausgangspunkt. Wir können sehen, dass die Verteilung rechtsschief und wahrscheinlich nicht normalverteilt ist. Diese Grafik gibt uns jedoch nur Aufschluss über die Daten in diesem spezifischen Beispiel. Sie können keine Rückschlüsse über die größere Grundgesamtheit ziehen.

Was können wir tun, um diese Daten nützlicher zu machen? Identifizieren Sie zunächst die Verteilung, der Ihre Daten folgen. Wenn Sie dies tun, erfahren Sie mehr über die Grundgesamtheit – und können dann auch noch einige ziemlich coole Grafiken produzieren!

SO IDENTIFIZIEREN SIE DIE VERTEILUNG IHRER DATEN

Um die Verteilung zu identifizieren, wählen Sie in der Minitab Statistiksoftware Statistik > Qualitätswerkzeuge > Identifikation der Verteilung aus. Mit diesem nützlichen Werkzeug können Sie einfach vergleichen, wie gut Ihre Daten auf 16 unterschiedliche Verteilungen passen. Hierbei werden jede Menge Ausgaben – im Sessionfenster und Grafiken – erzeugt, doch lassen Sie sich hiervon nicht einschüchtern. Bevor wir die Ausgaben durchgehen, müssen Sie mit 3 Maßzahlen vertraut sein.

Anderson-Darling-Statistik (AD): Niedrigere AD-Werte geben eine bessere Anpassung an. Um zu vergleichen, wie gut verschiedene Verteilungen passend für die Daten sind, sollten Sie jedoch den p-Wert betrachten. Dies wird im Folgenden beschrieben.

p-Wert: Der p-Wert soll möglichst hoch sein. Es ist im Allgemeinen ein gültiger Ansatz, die p-Werte für verschiedene Verteilungen zu vergleichen und die Verteilung mit dem höchsten Wert zu wählen. Ein niedriger p-Wert (z. B. < 0,05) gibt an, dass die Daten dieser Verteilung nicht folgen. Für einige Verteilungen mit 3 Parametern kann der p-Wert nicht berechnet werden; dies wird durch Sternchen dargestellt.

LVT p: Ausschließlich bei Verteilungen mit 3 Parametern zeigt ein niedriger Wert an, dass die Berücksichtigung des dritten Parameters zu einer erheblichen Verbesserung im Vergleich zu der Version mit 2 Parametern führt. Ein höherer Wert weist darauf hin, dass Sie die Version mit 2 Parametern beibehalten sollten.

Für meine Daten fülle ich das Hauptdialogfeld also folgendermaßen aus:

Lassen Sie uns die Ausgaben betrachten. Wir beginnen mit der unten abgebildeten Tabelle für den Test auf Güte der Anpassung.

Bereits in der ersten Zeile wird ersichtlich, dass unsere Daten nicht normalverteilt sind, da der p-Wert für Normal kleiner als 0,005 ist!

Die beiden Transformationen (Box-Cox und Johnson) sollen außer Acht gelassen werden, da wir die Verteilung identifizieren und nicht transformieren wollen

Es empfiehlt sich, zunächst die p-Werte anzuschauen und den höchsten p-Wert zu ermitteln. Der höchste p-Wert wird für die Weibull-Verteilung mit 3 Parametern aufgeführt. Bei der Weibull-Verteilung mit 3 Parametern ist das LVT p signifikant (0,000), was bedeutet, dass die Anpassung durch den dritten Parameter erheblich verbessert wird.

Angesichts des höheren p-Werts und des signifikanten LVT p können wir feststellen, dass die Weibull-Verteilung mit 3 Parametern am besten passend für unsere Daten ist. Wir haben diese Verteilung durch Auswerten der Tabelle im Sessionfenster identifiziert. Minitab erstellt jedoch auch eine Reihe von Grafiken, die ebenfalls einen Großteil dieser Informationen sowie Wahrscheinlichkeitsnetze enthalten.

Wahrscheinlichkeitsnetze eignen sich gut dafür, die Verteilung, der Ihre Daten folgen, rein visuell zu identifizieren. Wenn die Datenpunkte auf einer geraden Linie liegen, bietet die Verteilung eine gute Anpassung. In der nachstehenden Grafik sehen Sie die Weibull-Verteilung mit 3 Parametern und drei weitere Verteilungen, die nicht auf die Daten passen.

Jetzt wissen wir, um welche Verteilung es sich handelt, doch wie lauten die Parameterwerte der Verteilung? Sie finden diese in der nachfolgenden Tabelle in der Ausgabe im Minitab-Sessionfenster:

WIE UNTERSTÜTZT SIE DAS IDENTIFIZIEREN DER VERTEILUNG BEI DER ANALYSE?

Wir wissen jetzt, dass die Daten zum prozentualen Körperfettanteil einer Weibull-Verteilung mit 3 Parametern mit einer Form von 1,85718, einer Skala von 14,07043 und einem Schwellenwert von 16,06038 folgen

Vielleicht fragen Sie sich jetzt: „Wie hilft uns das weiter?“ Die Antwort: Mit diesen Informationen über die Verteilung können wir jenseits der Rohdaten der Stichprobe statistische Rückschlüsse auf die größere Grundgesamtheit ziehen.

In meinem nächsten Beitrag zeige ich Ihnen, wie Sie die leistungsstarken Werkzeuge in Minitab verwenden, um tiefere Einblicke in Ihr Forschungsgebiet zu gewinnen und Ihre Ergebnisse effektiver zu präsentieren.

Machen Sie angesichts der branchenübergreifenden Bedeutung von datenbasierter Entscheidungsfindung durch Ihre Datenanalysekompetenz auf sich aufmerksam.
Datenkompetenz bleibt eine der gefragtesten Fähigkeiten im Geschäft.
Sind Sie bereit, Ihr Analysewissen zu erweitern und Ihre Expertise unter Beweis zu stellen?
Lesen Sie mehr über das Minitab-Schulungsangebot >