実際のデータには必ず「エラー」が生じる
この推論は、2011年に社会心理学者のローレンス・サンナとダーク・スミースタースの誤りを見破った。サンナは、人は高い場所に立つと社会性が高まることがわかったと主張した。スミースタースは、赤色と青色を見せると有名人に関する考え方に影響を与えるとする研究結果を発表した。2つの論文の結果は、一見すると印象的で、彼ら自身が提案している人間の行動に関する理論を裏づけていた。
しかし詳しく見ると、明らかに奇妙なことがわかった。心理学者のウリ・サイモンソンはサンナの実験について、データの範囲(最高値と最低値の差)がほぼ同じグループ間で、ほかの要素があまりに大きく異なると指摘した。サイモンソンが計算したところ、実際のデータでこのようなことが起こる可能性はきわめて小さかった。スミースタースの実験も同じように、異なるグループの平均値が近すぎたが、こうした類似性は実際のデータで起こることと一致しなかった。実際のデータはエラーが数字をばらけさせるものだ。これらの指摘が明らかになると、問題のあった論文は撤回され、サンナとスミースタースは不名誉なかたちで職を辞した。
「完璧すぎるデータ」が疑わしい理由
このような統計上の危険信号は、たとえば、あなたのクレジットカードで南の島のクルーズ旅行に多額の支払いがあったときに、銀行がカードを利用停止にするのに近い。通常の予想を超える異常な行動は詐欺かもしれない、というわけだ。ほかにも不正なデータには、詳しく見ると疑念が生じるような特徴がたくさんある。たとえば、データポイントの欠落が少なすぎるなど、データセットが完璧すぎるかもしれない。実際のデータセットでは、参加者が途中で実験から抜けたり、機器が故障したりなど、さまざまな理由で欠落が生じる。数値の分布が、予想される数学的なルールに従っていない場合もあるだろう。あるいは、現実の世界で信憑性のある結果よりはるかに大きな影響をおよぼす結果が出たのは、話ができすぎているかもしれない。
(本稿は、『Science Fictions あなたが知らない科学の真実』の一部を抜粋・編集したものです)