p値は、t検定から回帰分析まで、統計のあらゆるところで使用されています。 p値を使用して仮説検定の統計的有意性を判断することは、よく知られています。実際、p値に基づいて、どの研究を公開するか、どのプロジェクトに資金提供するかが決まることが多いです。
これほど重要であるにもかかわらず、p値はぼんやりとした概念であり、よく誤って解釈されます。あなたはp値をどのように解釈していますか?
この投稿は、p値を直感的な方法で理解し、お金と信用性を台無しにしかねない一般的な誤解を避けるうえで役立つでしょう。
どの実験でも、研究者が検定している複数のグループ間には効果つまり差異があります。例えば新薬、新しい建築材料、または他の有益な発明の効果性などです。 研究者にとって残念なことに、効果がない、つまりグループ間に差がない可能性はいつでも存在します。 この差がないことを帰無仮説と言います。実験結果を評価するとき、あえて反論する人はよくこの立場を取ります。
その理由を理解するために、まったく効果がないとわかっている薬の実験を想像してみましょう。この場合、帰無仮説は真です。母集団レベルで実験グループ間に差はありません。
帰無が真である(正しい)としても、ランダムサンプリングの誤差が原因でサンプルデータに影響が出る可能性は十分にあります。実際、サンプルグループが帰無仮説の値と等しくなる可能性はほとんどありません。 したがって、あえて反論する人の立場とは、サンプルで観測された差は母集団間の真の差を反映していないということです。
低いp値は、母集団全体の帰無仮説を退けるのに十分な証拠をサンプルが与えていることを示しています。
たとえば、ワクチン研究でp値0.04が得られたとします。このp値は、仮にワクチンに効果がない場合、ランダムサンプリングの誤差が原因で、4%の研究において、観測された(またはそれを上回る)差異が得られることを示しています。
p値が答えてくれるのは1つの質問のみです:「帰無仮説が真だと仮定すると、このデータにはその可能性がどれほどありますか?」p値は対立仮説の裏付けを測定するものではありません。このような限界があるので、次のセクションでご説明するようにp値はよく誤解されます。
p値は非常によく誤って解釈されます。 最も一般的な誤解は、真の帰無仮説を退けるのが間違っている確率をp値が表しているという解釈です(第一種過誤)。
p値が過誤率(間違いの確率)になりえない理由はいくつかあります。
まず、母集団に対して帰無が真であるという仮定、つまりサンプルの差が偶然に起きたという仮定に基づいてp値は計算されます。したがってp値は、帰無が真または偽である確率を示すものではありません。帰無は計算上100%真だからです。
次に、低いp値は、真の帰無を仮定した場合にデータがそれに当てはまらない可能性を示す一方で、競合する下記の2つのケースのうちどちらの可能性が高いかを評価することはできません。
どちらのケースの方が可能性が高いかを割り出すには、対象領域の知識と繰り返し研究が必要です。
ワクチン研究に戻り、p値0.04を解釈する正しい方法と間違った方法を比較してみましょう。
仮説検定の仕組みをグラフで確認するには、他の投稿をご覧ください。 仮説検定とは:有意水準とp値
p値が過誤率でないなら、過誤率とは一体何でしょう(どんな方向に話が進んでいるかお分かりですか?)
Sellkeおよび他の研究者*は、いくつかの異なるp値と関連付けながら過誤率を推定しました。さまざまな仮定(こちらをご覧ください)によって正確な過誤率は異なりますが、中立的な仮定を下の表に要約します。
P value |
Probability of incorrectly rejecting a true null hypothesis |
0.05 |
At least 23% (and typically close to 50%) |
0.01 |
At least 7% (and typically close to 15%) |
この表の過誤率が高いことに驚きましたか?残念ながら、p値が過誤率としてよく誤解されることが原因で、正当な大きさよりも過大な実質的証拠によって帰無仮説が否定されるという幻想が生じます。ご覧のとおり、p値が0.05に近い1つの研究に基づいて判断した場合、サンプルで観察されたような差は母集団レベルでは存在しない可能性があります。これは高い「コスト」につながる可能性があります!
p値の解釈方法がわかったところで、p値の使用方法と間違いを避ける方法の5つのガイドラインをお読みください。
p値を禁止した学術雑誌に対する私の反論もお読みいただけます。
実験結果の再現性に関する素晴らしい研究が2015年8月に発表されました。 この研究では、真の過誤率を理解することの重要性が強調されています。 詳細については、私のブログ記事をお読みください。 p値と実験の再現性。
米国統計学会がp値を用いる方法について言及!
*Thomas SELLKE, M. J. BAYARRI, and James O. BERGER, Calibration of p Values for Testing Precise Null Hypotheses, The American Statistician, February 2001, Vol. 55, No. 1