過剰か不足か：サンプルサイズと統計分析 Too Much or Not Enough: Sample Sizes and Statistical Analysis

統計分析を行う実用的な理由としては、母集団全体ではなく、データのサブセットが収集されるというのが一番です。収集したサンプルデータの柔軟性でお金と時間を節約することができます！この柔軟性には、意思決定の誤りによるコストが伴います。

タイプ I エラー – 偽陽性 – 製造者のリスク
タイプIIエラー – 偽陰性 – 消費者のリスク

このエラーには、アナリストにとってさまざまな意味があり、分析で使用されるサンプルサイズに応じて拡大解釈の可能性があります。このブログ記事では、このエラー、およびサンプルサイズが結論にいかに影響するかをご説明します。

検出力とサンプルサイズ

サンプルに常に使用すべき1つの数字を、人は知りたがります。サンプルサイズ30と言われがちです。社内で中心極限定理に出くわしたためです。でも、この数は常に正しいとは限りません。

統計では、検出力の概念を用いて、実際の差を検出するためにサンプルサイズの確率を割り出します。目標は検出力を高く保つことです。適切な目標は80%～90%です。検出力は、検定の真陽性率、または火災を検出できる火災警報器と考えることができます。

Minitab Statistical Softwareで、[統計] > [検出力とサンプルサイズ]メニューを使用して、特定の検定でサンプルサイズが正しくなるようにします。

タイプIIエラーおよび不十分なデータ

タイプIIエラーは、重大な差を見逃すエラーです。これは、偽陰性率、消費者のリスク、または火災を検出できない火災警報器と考えることができます。p値が0.05より大きい場合、偽陰性の可能性に注目します。

タイプIIエラーは、よりひどい過誤と見なされます。研究開発ならば、工程を最適化または改善する機会を逃す可能性です。製造ならば、消費者に悪い部品を送る可能性です。

このシミュレーションでは、1シグマの差の中程度の移動が目標から外れて生成されました。以下は、1シグマ移動工程と目標値の分布です。

too-much-not-enough-population-distribution

この例では、サイズ5のサンプル100個を母集団から抽出して、1シグマ移動を検出できるか判断しました。この例では、サイズ5のサンプルで1シグマ移動の検出力は40%です。つまり、100個のサンプルのうち、約40個が差を検出することを期待します。以下のシミュレーションでは、44個のサンプルが目標を捉えていなかったため、移動を検出できました。

Interval Plots of Small Sample Sizes

でも、この小さなサンプルサイズでは、工程の移動が検出されない可能性が60%あります。工程が悪いと判断する可能性は、コイントスよりも低かったのです。この低い確率では、工程の修正が必要なことに気付かない可能性があります。現実の世界では、これを100回ではなく1回しか行いません。

サンプルサイズが小さい場合、偽陰性率が高まって油断してしまい、工程改善につながらない可能性があります。サンプルサイズが小さい場合の偽陰性率の高さには、管理図でこの工程を継続的にモニタリングするか、サンプルサイズを増やして対応すると良いでしょう。

タイプIエラーおよび過剰なデータ

タイプIエラーは、わずかな差を検出するエラーです。このエラーは、偽陽性率、製造者のリスク、または火災が発生していなくても鳴る火災警報器と考えることができます。p値が0.05未満の場合、偽陽性の可能性に注目します。

以下は、工程が0.15シグマ移動した例です。小さいわずかな差と見なされるもので、この例では工程改善は必要ありません。

Population Distribution

この0.15シグマ移動した工程から、1,000単位のサンプル100個がランダムにサンプリングされました。次に、100個のサンプルのそれぞれを検定して、目標から外れているかを確認しました。この例の検定では、0.15シグマ単位の小さな移動の検出力は99.7％です。以下は、100個のサンプルの95%信頼区間のグラフです。100区間のうち99区間は、工程が目標から外れていることを示すゼロを捉えません。

Interval Plot of Large Sample Sizes

アナリストがp値のみを見る場合、変更または「改善」を始める可能性があります。ですが、移動がわずか0.15シグマ単位というところを見れば、事実上、誤警報であることに気付くでしょう。

工程を目標に再び集中させる資源に投資するために、この小さな移動は必要でしょうか？答えは、コスト、製品の仕様限界、または応答変数の重要度次第です。

大きなサンプルサイズで堅牢な分析を行うためには、CART分類および回帰木などの機械学習を検討するか、仕様限界またはその他の事前定義された限界でデータを比較する必要があります。