Zu viel oder nicht genug: Stichprobenumfänge und die statistische Analyse

Der einfachste Grund, aus dem eine statistische Analyse genutzt wird, ist der Umstand, dass nicht die vollständige Grundgesamtheit, sondern nur eine Teilmenge der Daten erfasst wird. Die Flexibilität, Stichprobendaten zu erfassen, spart Geld und Zeit. Diese Flexibilität führt jedoch möglicherweise zu Fehlern bei unseren Entscheidungen.

Fehler 1. Art – falsch positiv – Lieferantenrisiko
Fehler 2. Art – falsch negativ – Abnehmerrisiko

Diese Fehler haben unterschiedliche und je nach dem in der Analyse genutzten Stichprobenumfang möglicherweise auch außerordentlich starke Auswirkungen für Analytiker. In diesem Blog-Artikel werden diese Fehler und die möglichen Auswirkungen von Stichprobenumfängen auf Ihre Schlussfolgerungen erläutert.

TRENNSCHÄRFE UND STICHPROBENUMFANG

Häufig steht die Frage im Raum, welchen Umfang eine Stichprobe grundsätzlich aufweisen sollte. Oft wird dann ein Stichprobenumfang von 30 genannt, da irgendjemand im Unternehmen etwas über den zentralen Grenzwertsatz auf Englisch gelesen hat. Diese Zahl ist jedoch nicht immer korrekt.

In der Statistik greifen wir auf das Konzept der Trennschärf zurück, um die Wahrscheinlichkeit zu bestimmen, mit der mit einer Stichprobe eines gegebenen Umfangs eine relevante Differenz erkannt werden kann. Das Ziel ist eine hohe Trennschärfe; ein guter Wert liegt zwischen 80 % und 90 %. Die Trennschärfe kann als Richtig-Positiv-Rate eines Tests betrachtet werden. Sie können sie sich auch als Brandmelder vorstellen, der einen Brand erkennen kann.

In der Minitab Statistical Softwarenutzen Sie das Menü „Statistik“ > „Trennschärfe und Stichprobenumfang“ für den spezifischen Test, den Sie verwenden, um sicherzustellen, dass Ihr Stichprobenumfang geeignet ist.

FEHLER 2. ART UND NICHT GENUG DATEN

Ein Fehler 2. Art ist der Fehler, eine wesentliche Differenz nicht zu erkennen. Dies wird als Falsch-Negativ-Rate bzw. Abnehmerrisiko betrachtet. Sie können ihn sich auch als Brandmelder vorstellen, der einen Brand nicht erkennen kann. Sie sollten Ihre Aufmerksamkeit auf potenziell falsch negative Ergebnisse richten, wenn Ihr p-Wert größer als 0,05 ist.

Ein Fehler 2. Art gilt als der schwerwiegendere Fehler. In der Forschung und Entwicklung könnte dies eine verpasste Gelegenheit sein, einen Prozess zu optimieren oder zu verbessern. In der Fertigung könnte dies bedeuten, ein fehlerhaftes Teil an einen Kunden auszuliefern.

In dieser Simulation wurde ein geringfügiger Shift in Höhe einer Differenz von 1 Sigma zum Sollwert erzeugt. Unten finden Sie die Verteilung des um 1 Sigma verschobenen Prozesses und den Sollwert.

zu viel zu wenig Bevölkerungsverteilung

In diesem Beispiel wurden 100 Stichproben mit dem Umfang 5 aus der Grundgesamtheit gezogen, um zu ermitteln, ob damit der Shift von 1 Sigma erkannt werden kann. In diesem Beispiel beträgt die Trennschärfe, mit der ein Shift von 1 Sigma bei einem Stichprobenumfang von 5 erkannt werden kann, 40 %. Dies bedeutet, dass die Differenz mit ungefähr 40 der 100 Stichproben erkannt werden kann. In der Simulation unten konnte der Shift mit 44 der Stichproben erkannt werden, da sie nicht den Sollwert umfassen.

Intervalldiagramme kleiner Stichproben

Jedoch ergibt dieser geringe Stichprobenumfang eine Chance von 60 %, den Shift im Prozess nicht zu erkennen. Die Wahrscheinlichkeit, die Schieflage des Prozesses zu erkennen, war geringer, als wenn wir eine Münze geworfen hätten. Bei so einer geringen Wahrscheinlichkeit würden wir also möglicherweise gar nicht erkennen, dass der Prozess korrigiert werden muss. Und im echten Leben würden wir diesen Vorgang auch nur einmal ausführen, nicht 100 Mal.

Bei kleinen Stichprobenumfängen kann der Anstieg der Falsch-Negativ-Rate zu einer gewissen Bequemlichkeit führen, aufgrund derer der Prozess nicht verbessert wird. Um den potenziell erheblichen Auswirkungen der falsch negativen Ergebnisse bei kleinen Stichprobenumfängen entgegenzuwirken, ist es am besten, diese Prozesse kontinuierlich mit Regelkarten zu überwachen oder den Stichprobenumfang zu vergrößern.

FEHLER 1. ART UND ZU VIELE DATEN

Ein Fehler 1. Art ist der Fehler, eine Differenz zu erkennen, die in Wirklichkeit vernachlässigbar ist. Dieser Fehler wird als Falsch-Positiv-Rate bzw. Lieferantenrisiko betrachtet. Sie können ihn sich auch als Brandmelder vorstellen, der ausgelöst wird, wenn es gar nicht brennt. Sie sollten Ihre Aufmerksamkeit auf potenziell falsch positive Ergebnisse richten, wenn Ihr p-Wert kleiner als 0,05 ist.

Im Folgenden finden Sie ein Beispiel, bei dem sich der Prozess um 0,15 Sigma verschoben hat. Dies wird als kleine und vernachlässigbare Differenz betrachtet, bei der der Prozess nicht verbessert werden muss.

Bevölkerungsverteilung

Aus diesem um 0,15 Sigma verschobenen Prozess wurden 100 Stichproben mit jeweils 1.000 zufälligen Einheiten entnommen. Jede der 100 Stichproben wurde getestet, um zu ermitteln, ob sie vom Sollwert abweicht. In diesem Beispiel weist der Test eine Trennschärfe von 99,7 % auf, mit der der kleine Shift von 0,15 Sigma erkannt werden kann. Unten wird eine grafische Darstellung der 95%-Konfidenzintervalle für die 100 Stichproben gezeigt. Von den 100 Intervallen umfassen 99 nicht den Wert 0, was darauf hinweist, dass der Prozess vom Sollwert abweicht.

Intervalldiagramm großer Stichprobengrößen

Falls der Analytiker nur den p-Wert betrachtet, könnte er damit beginnen, Änderungen bzw. „Verbesserungen“ umzusetzen. Wenn der Analytiker jedoch sehen kann, dass der Shift nur 0,15 Sigma beträgt, würde ihm klar, dass es sich eher um einen falschen Alarm handelt.

Würde es ein so kleiner Shift jedoch notwendig machen, Ressourcen darin zu investieren, den Prozess wieder auf den Sollwert zu zentrieren? Die Antwort auf diese Frage hängt von den Kosten, den Spezifikationsgrenzen des Produkts und der Wichtigkeit der Antwortvariablen ab.

Für robuste Analysen bei großen Stichprobenumfängen sollten Benutzer Verfahren des maschinellen Lernens wie CART-Klassifikationsbäume und CART-Regressionsbäume in Betracht ziehen oder die Daten in Bezug zu den Spezifikationsgrenzen oder anderen vordefinierten Grenzwerten setzen.

ZU VIEL ODER NICHT GENUG: STICHPROBENUMFÄNGE UND DIE STATISTISCHE ANALYSE

Die Statistik macht es kostengünstiger und einfacher, genaue Geschäftsentscheidungen zu treffen. Doch können diese Entscheidungen erheblich durch den in der Analyse verwendeten Stichprobenumfang beeinflusst werden. Liegen nicht genug Daten vor, ist ein falsch negatives Ergebnis wahrscheinlich. Bei zu vielen Daten könnte sich ein falsch positives Ergebnis als Problem erweisen. Solides historisches Wissen, geeignete Prozesse für die Datenerfassung und ein fundiertes Verständnis der statistischen Analyse machen jede Entscheidung belastbar.

Wenn Sie noch nicht mit der neuesten Version der Minitab Statistical Software arbeiten....

... laden Sie noch heute Ihre kostenlose 30-Tage-Demoversion für Minitab Statistiksoftware herunter,
um die Flexibilität, Stichprobendaten zu erfassen!

Außerdem: In unserer Webinar Aufzeichnung Neue Minitab Statistiksoftware: Datenanalyse für jeden, jetzt überall in der Cloud erfahren Sie mehr über die neue Funktionen der Minitab Statistical Software. Jetzt ansehen >