真偽を検証するための「統計的検定」

さて、私たちのサンプルは、女性が男性より平均10センチ背が低いことがわかった。この結果は、母集団における真の違いを反映しているのか(つまり、真のシグナルを拾ったのか)、それとも単なるノイズなのか(つまり、私たちが見ているのはランダムな偶然なのか)。それを知るためには、2つのグループを統計的検定で比較する必要がある

統計的検定にはZ検定、t検定、カイ二乗検定、尤度比検定など数え切れないほど種類があり、どの検定を選ぶかは対象となるデータの種類によって決まる。最近はいずれの検定も基本的に、コンピュータのソフトウエアにデータを入力してプログラムを実行すると、多くの有用な数値とともに、関連するp値が出力される。

「p値」の定義は間違われやすい

p値は、科学で最もよく使われる統計の1つであるにもかかわらず、定義が難しいことで知られている。最近のある監査では、心理学の入門書のサンプルのうち実に89%が定義を間違えていることがわかった。ここでは同じ間違いをしないように努力したい。

p値とは、あなたが関心を持っている効果が実際は存在しない場合に、結果がそのように見える、もしくは、さらに大きな効果を示しているように見える確率のことである。つまり、p値は、結果が正しい(正しい、がどのような意味であれ)確率を示すものでも、結果の重要性を示すものでもない。「あなたの仮説が正しくない世界で、純粋なノイズがあなたの結果と同じような結果や、それ以上に大きな効果をもたらす可能性はどれくらいか」という問いの答えである。

今回の身長の調査は、p値が0・03だったとしよう。これは、スコットランドの人口に男女の身長差がない場合に、今回のようなサンプルの抽出を無限に繰り返したら、10センチ以上の身長差が見つかるケースは全体の3%しかないという意味だ。この3%を見て、スコットランドの男性は女性より平均して背が高いと断言することはできない。逆から見れば、スコットランドの男性と女性の身長に実際は差がないとしたら、今回のサンプルと同じかそれ以上の身長差が見つかることは、あり得なくはないが考えにくい。

したがって、ほとんどの場合、p値は低ければ低いほど好ましい。

(本稿は、『Science Fictions あなたが知らない科学の真実』の一部を抜粋・編集したものです)