研究者が「過剰適合」に誘惑される理由

 科学者はp値ハッキング(過去記事)をおこなう際に、意図せずに過剰適合をおこなっている。ただのランダムなノイズを、(そもそもシグナルが存在するなら)シグナルを優先して無視すべき厄介な変動と見なすのではなく、大げさに取り上げてモデルの一部に含めている。p値ハッキングされて過剰適合したモデルを別のサンプルで再現しようとするなど、災難でしかない。そこで得られる結果は、ノイズの多いデータが分岐をたどった行き先に収束して、データセットの世界を超えた先のことはほとんど何も語らないだろう。

 科学者が過剰適合の誘惑に駆られる理由はわかっただろう。自分のデータしか見えず、自分の仕事は世界について一般的な説明をすることだということを忘れてしまうと、図3Cのようにデータと完璧にフィットしたモデルがとても魅力的に見える。不確定要素も、自分が引いた線から外れるような厄介なデータポイントもない。そこに圧倒的な魅力を感じるのは、整然としているからだけではない。グラフの点をつなぐだけなら科学的な知識は必要ない。

 しかし、このようなモデルを使えば、データを集める「前に」具体的な線の形(つまり自分の理論)が見えていたかのような論文を書けるのだ。こうしてあなたは科学界の注目を浴びる。自分のモデルや理論、研究には真剣に受け止める価値があると、ほかの科学者に納得させること。それが科学の主な目的だから。

(本稿は、『Science Fictions あなたが知らない科学の真実』の一部を抜粋・編集したものです)