仮説検定の検出力と標本サイズ Power and Sample Size for Hypothesis Tests

José Padilla | 07 10月, 2021

トピック: Hypothesis Testing, Articles, Minitab Statistical Software

仮説検定では、母集団に関する結論を引き出すために、標本データを使います。まず、帰無仮説(H0)と呼ばれる仮定を立てます。帰無仮説を立てたらすぐに、帰無の反対である対立仮説(Ha)も定義します。標本データは、H0を棄却可能か判定するために使います。棄却される場合、対立仮説Haが真という統計的結論になります。

帰無仮説が真でないときの検定の検出力、言い換えると帰無仮説の棄却率、を念頭に置く

これは、「帰無仮説が棄却されるであろう場合に帰無仮説を棄却する検定の検出力」と解釈できます。帰無仮説が真でない場合、帰無仮説を棄却する確率が高いというのは理屈が通ります。以下の表のように、検出力は第2種の過誤(検出力=1 - 第2種の過誤)に関連しています。第2種の過誤は、対立仮説が真であっても帰無仮説を棄却しない確率です。そのため、十分に高い検出力を保証すれば、低いまたは「許容可能」な第2種の過誤が保証されます。検出力の計算は標本サイズなどに左右されるため、検定に十分な検出力を確保する一般的な方法として、十分なデータを収集します。標本サイズが大きいほど、検出力は高くなります。十分なデータを収集しないと、検出力が低くなり、第2種の過誤が高くなります。

 

Truth

Decision of Hypothesis Test

H0 is True

Ha is True

Reject H0

Type 1 Error, α

Power (1-β)

Fail to Reject H0

Correct

Type 2 Error, β

適切な標本サイズを見つけることが重要です。十分なデータを収集しないと、第2種の過誤が高くなることは明らかです。ですが、データを多く集めすぎると、検出力が高くなるために、第1種の過誤が高くなります。その結果、特にサンプリングのコストに関して、差に実際的な有意性がなくても、検定で仮説値とのわずかな差が検出される可能性があります。検定の検出力の計算は、実際的な有意性に基づいて行う必要があります。適切な標本サイズを見つけることが重要です。十分なデータを収集しないと、第2種の過誤が高くなることは明らかです。ですが、データを多く集めすぎると、検出力が高くなるために、第1種の過誤が高くなります。その結果、特にサンプリングのコストに関して、差に実際的な有意性がなくても、検定で仮説値とのわずかな差が検出される可能性があります。検定の検出力の計算は、実際的な有意性に基づいて行う必要があります。

 

Minitab Statistical Softwareには、さまざまな統計検定の検出力を計算する機能あり

以下の例では、アナリストはMinitabで1比率の検定と1標本のt検定に対する検出力および標本サイズ分析を行います。

1比率の検定の標本サイズ

製品を良品または不良品に選別する製造工程で、不良品が1%だとします。不良率が3%に上がると、会社には重いコストがのしかかってきます。第1種の過誤率0.05で、不良品1%から3%以上への増加を検出する検出力0.80になるよう、適切な標本サイズを割り出す必要があります。

アナリストは不良率の調査に関心があるため、1比率の検定を用います。帰無仮説と対立仮説は以下のようになります。

Ho: P = 0.01

Ha: P > 0.01

ここでは、Pは真の不良率です。

検出力0.8以上の達成に必要なデータポイント数を割り出すために、アナリストはMinitabで1比率の検定の検出力と標本サイズの分析を行います。

power-sample-size-hypothesis-tests-1

1標本のt検定の標本サイズ

良品と不良品の分類は簡単ですが、情報が失われます。5~10であれば良品だとします。測定結果が4.9、10.01だった2つのユニットがあり、不良品に分類されているとします。測定結果が2.3、14.1だったさらなる2つのユニットがあり、不良品に分類されているとします。良品か不良品かというだけであれば、この2つのシナリオは同じです。そのため、品質特性を測定することが可能かつ実用的ならば、分析者は品質特性の実値を記録し、その記録データを使用する必要があり、良品と不良品に変換する必要はありません。1標本のt検定を用いて、母集団の平均が目標どおりかを検定できます。標本データの平均値が「目標」に近い場合、工程はおそらく順調です。平均値が目標に近くない場合、不良品が製造される可能性があります。

たとえば、製品特性が特定目標の穴の直径だとします。アナリストは、製品236個を検査して穴が仕様どおりかを判定するのではなく、各製品の穴の直径を測定し、1標本のt検定を用いて平均値を目標と比べることができます。

アナリストは、検出力80%以上で工程平均の1シグマシフトを検出するのに必要なデータポイント数を割り出すために、Minitabで1標本のt検定の検出力と標本サイズの分析を行います。power-sample-size-hypothesis-tests-2

算出された標本サイズはわずか10です。つまり、平均値が目標から1シグマ超逸脱しているかを判定する場合、検出力80%以上の1標本のt検定で10ユニットを検査する必要があるということです。

なぜこれほど違うのか?

属性データの仮説検定では、データを収集するときに詳細は取得されないため、大きな標本サイズが必要になります。一方で、連続データの仮説検定では、製品の詳細が取得、使用されるため、必要な標本サイズは小さくなります。この概念が当てはまるのは検出力だけではありません。属性データでは、信頼区間、属性の一致分析、管理図、能力分析のために、大きな標本サイズが必要です。

結論として、十分な検出力で仮説検定を実施し、差を検出する妥当な機会を与えることが重要です。検出力は標本サイズに直接関係しています。Minitabには、実験の計画を含むさまざまな仮説検定の検出力を計算する機能があります。