p値は、t検定から回帰分析まで、統計のあらゆるところで使用されています。 p値を使用して仮説検定の統計的有意性を判断することは、よく知られています。実際、p値に基づいて、どの研究を公開するか、どのプロジェクトに資金提供するかが決まることが多いです。
これほど重要であるにもかかわらず、p値はぼんやりとした概念であり、よく誤って解釈されます。あなたはp値をどのように解釈していますか?
この投稿は、p値を直感的な方法で理解し、お金と信用性を台無しにしかねない一般的な誤解を避けるうえで役立つでしょう。
仮説検定における帰無仮説とは何か?
p値を理解するにはまず、帰無仮説を理解する必要があります。
どの実験でも、研究者が検定している複数のグループ間には効果つまり差異があります。例えば新薬、新しい建築材料、または他の有益な発明の効果性などです。 研究者にとって残念なことに、効果がない、つまりグループ間に差がない可能性はいつでも存在します。 この差がないことを帰無仮説と言います。実験結果を評価するとき、あえて反論する人はよくこの立場を取ります。
その理由を理解するために、まったく効果がないとわかっている薬の実験を想像してみましょう。この場合、帰無仮説は真です。母集団レベルで実験グループ間に差はありません。
帰無が真である(正しい)としても、ランダムサンプリングの誤差が原因でサンプルデータに影響が出る可能性は十分にあります。実際、サンプルグループが帰無仮説の値と等しくなる可能性はほとんどありません。 したがって、あえて反論する人の立場とは、サンプルで観測された差は母集団間の真の差を反映していないということです。
p値とは何か?
p値は、帰無仮説が真であるという反論者の主張をサンプルデータがどれほど裏付けるかを評価します。これは、データが帰無仮説とどれほど調和するかを測定します。帰無仮説が真である場合、サンプルデータで効果が観測される可能性はどれぐらいでしょうか?
- 高いp値:データの帰無が真である可能性が高いです。
- 低いp値:データの帰無が真である可能性は低いです。
低いp値は、母集団全体の帰無仮説を退けるのに十分な証拠をサンプルが与えていることを示しています。
p値をどのように解釈しますか?
技術用語におけるp値とは、帰無仮説が真であると仮定して、サンプルデータで見られた効果と同等またはそれ以上の極端な効果が得られる確率です。
たとえば、ワクチン研究でp値0.04が得られたとします。このp値は、仮にワクチンに効果がない場合、ランダムサンプリングの誤差が原因で、4%の研究において、観測された(またはそれを上回る)差異が得られることを示しています。
p値が答えてくれるのは1つの質問のみです:「帰無仮説が真だと仮定すると、このデータにはその可能性がどれほどありますか?」p値は対立仮説の裏付けを測定するものではありません。このような限界があるので、次のセクションでご説明するようにp値はよく誤解されます。
p値は間違いの確率ではない
p値は非常によく誤って解釈されます。 最も一般的な誤解は、真の帰無仮説を退けるのが間違っている確率をp値が表しているという解釈です(第一種過誤)。
p値が過誤率(間違いの確率)になりえない理由はいくつかあります。
まず、母集団に対して帰無が真であるという仮定、つまりサンプルの差が偶然に起きたという仮定に基づいてp値は計算されます。したがってp値は、帰無が真または偽である確率を示すものではありません。帰無は計算上100%真だからです。
次に、低いp値は、真の帰無を仮定した場合にデータがそれに当てはまらない可能性を示す一方で、競合する下記の2つのケースのうちどちらの可能性が高いかを評価することはできません。
- 帰無は真ですが、サンプルが異常でした。
- 帰無は偽です。
どちらのケースの方が可能性が高いかを割り出すには、対象領域の知識と繰り返し研究が必要です。
ワクチン研究に戻り、p値0.04を解釈する正しい方法と間違った方法を比較してみましょう。
- 正しい方法: ワクチンに効果がないと仮定すると、ランダムサンプリングの誤差が原因で、4%の研究において、観測された差またはそれ以上の差が得られる。
- 間違った方法: 帰無仮説を退けることは、4%の確率で間違っている。
仮説検定の仕組みをグラフで確認するには、他の投稿をご覧ください。 仮説検定とは:有意水準とp値
真の過誤率とは何か?
「この解釈の違いはただの言葉のニュアンスの問題だ」、「こだわりの強い統計学者だけが重視するものだ」と思いますか?もう一度考えてください。大切なことです。
p値が過誤率でないなら、過誤率とは一体何でしょう(どんな方向に話が進んでいるかお分かりですか?)
Sellkeおよび他の研究者*は、いくつかの異なるp値と関連付けながら過誤率を推定しました。さまざまな仮定(こちらをご覧ください)によって正確な過誤率は異なりますが、中立的な仮定を下の表に要約します。
P value |
Probability of incorrectly rejecting a true null hypothesis |
0.05 |
At least 23% (and typically close to 50%) |
0.01 |
At least 7% (and typically close to 15%) |
この表の過誤率が高いことに驚きましたか?残念ながら、p値が過誤率としてよく誤解されることが原因で、正当な大きさよりも過大な実質的証拠によって帰無仮説が否定されるという幻想が生じます。ご覧のとおり、p値が0.05に近い1つの研究に基づいて判断した場合、サンプルで観察されたような差は母集団レベルでは存在しない可能性があります。これは高い「コスト」につながる可能性があります!
p値の解釈方法がわかったところで、p値の使用方法と間違いを避ける方法の5つのガイドラインをお読みください。
p値を禁止した学術雑誌に対する私の反論もお読みいただけます。
実験結果の再現性に関する素晴らしい研究が2015年8月に発表されました。 この研究では、真の過誤率を理解することの重要性が強調されています。 詳細については、私のブログ記事をお読みください。 p値と実験の再現性。
米国統計学会がp値を用いる方法について言及!
*Thomas SELLKE, M. J. BAYARRI, and James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, February 2001, Vol. 55, No. 1