「統計的に有意である」の裏側

いずれにせよ、フィッシャーは当初、「統計的に有意な」閾値を0.05に設定しようと考えていた。これは、検定で偽陽性のエラーが発生する確率を5%以下に抑えるという意味である(この場合、スコットランドの身長の研究はp値が0.03で、統計的に有意な結果となる)。フィッシャーは1926年に発表した影響力のある論文で、「科学的事実は、適切に設計された実験でこのレベルの有意性が得られないことが『ほぼない』場合にのみ、実験的に確立されたものと見なされる」と述べている。

科学者が無我夢中に追い求める「0.05」

0.05というレベルはかなり恣意的だ。スコットランドの素晴らしいウェブサイト「taps-aff.co.uk」は全国の天気を調べて、気温が摂氏17度(華氏約63度)以上の地域を自動的に「taps aff」、すなわち「紳士が屋外で上半身裸で歩けるほど暖かい」と機械的に認定しているが、これと少し似ている。17度は妥当なところだが恣意的でもある。20度を超えないと胸をはだけようとは思わないという人もいれば、15度で脱ぐという頑強な人もいるだろう。同じように、フィッシャーは後に、何を試すかによって有意差の基準を変えたいという科学者もいるだろうと述べている。

2012年にヒッグス粒子が発見された後に、欧州合同原子核研究機構(CERN)の物理学者が議論した有名な「5シグマの証拠」は、これほど重要な結果に対して彼らが用いたかなり厳しい閾値を、洒落た言い方で表現している。「5シグマ」は、p値の閾値が約0.0000003に相当する。莫大な資源を投じて大型ハドロン衝突型加速器(LHC)を建設した物理学者たちは、データのノイズに惑わされたくないという切実な思いから、エビデンスの合格基準を非常に厳しく設定した。