皆さんは「ベイズ統計学」をご存じでしょうか? 人工知能や検索エンジンの予測変換機能など、さまざまな最先端技術で応用されています。「入ってくる情報を瞬時に反映して、自動的に推定をアップデートさせる」という学習機能を持っているのが特徴で、データの解析に最適。インターネットの普及にともなって統計学の主流になっています。
そうは言っても、「ちょっとむずかしそう……」と思う人は多いのではないでしょうか。そこで、中学数学さえ忘れてしまっても理解できるように、『完全独習 ベイズ統計学入門』著者の小島寛之教授がエッセンスを凝縮して解説します。
第1回は「ガン検査」を題材にして、「ベイズ統計学」の重要な性質を紹介。95パーセントの確率で正しく識別できる検査キットで「陽性」と出た場合、あなたがガンである確率は何パーセントだと思いますか? ベイズ統計学を使うと、意外な結果がわかります。

ガン検査で陽性と出たら、
どのくらい深刻なのか

本講の問題は「偽陽性(ぎようせい)」と呼ばれています(写真はイメージです。本文とは関係ありません)

 最近では、いろいろなガン検査の方法がある。それこそ、胃や腸の中を直接、内視鏡で調べる方法もあるし、ガンができると血液中に現れる特殊な物質を血液検査によって調べて、間接的にガンの可能性を見積もる方法もある。後者のような間接的な方法を、本稿では「ガン検査」と呼ぶことにしよう。ここで問題にしたいのは、「ガン検査で陽性と出たら、どのくらい深刻に受け止めるべきか」という問題だ。例えば、架空の数値例として、次のような問題を考えてみよう。

 ある特定のガンの罹患率を0.1パーセントとする。このガンに罹患しているかどうかを検査するガン検査があって、罹患している人は95パーセントの確率で陽性と診断される。他方、健康な人が陽性と誤診される確率は2パーセントとする。この検査で陽性と診断されたとき、あなたがこのガンに罹患している確率はいくつか?

 読者は、まず、直観的にこの問いに答えてみて欲しい。あなたが実際、この検査で「陽性」の診断を伝えられたら、どのくらい深刻に受け取るだろうか。

 筆者が、いろんな場所でこのアンケートをとったところ、多くの人は「9割がた、ガンにかかっているだろう、と深刻に受け止める」と答える。95パーセントも正しい結果を示す検査なのだから、そう考えてしまうのは理解できる。でも、実際の確率は、こんなに大きな数値ではないのである。

本当にガンである確率は
実はかなり低い!

 答えをお教えしよう。陽性と出たあなたがガンである確率は、わずか約4.5パーセントなのである。あまりの小ささに驚いたのではあるまいか?

 この確率4.5パーセントは、ベイズ統計学の方法論で求めたものだ。以下、どのような求め方なのかをおおざっぱに解説しよう。

 あなたは陽性となったのだから、次の2タイプのうちのいずれかに属する。第一のタイプは、「本当にガンに罹患していて陽性と出た」タイプ第二のタイプは、「ガンではないのだが、誤診によって陽性と出た」タイプ。もちろん、精密検査をしたわけではないので、どちらのタイプに属すかは、この段階ではわからない。

 そこで、ベイズ統計学では、第一のタイプと第二のタイプの間の「可能性の比例関係」を計算する。簡略化のために、対象とする人口を10万人と設定しておく。このうち、ガンに罹っている人は、100,000×0.001=100人である。さらに、この100人のうち、ガン検査で陽性と出る人は、100×0.95=95人である。すなわち、第一のタイプは95人という人数となる。

 一方、ガンでない人は100,000-100=99,900人である。このうち、ガン検査で誤診によって陽性と出る人は、99,900×0.02=1,998人である。したがって、陽性という結果が出る人は、10万人のうちの95+1,998=2,093人となる。

 あなたは、陽性と出たのだから、この2,093人のうちの「誰か」であることは確実だ。大事なのは、この「誰か」が、第一のタイプに属するか、第二のタイプに属するか、ということだ。先ほども述べたように、正確なところは精密検査をしないとわからない。

 そこで、とりあえず、比例関係で考えるのが妥当だろう。すなわち、陽性と出た2093人は、95人の第一のタイプと1,998人の第二のタイプに分かれる。だから、普通に考えれば、あなたは圧倒的に多い第二のタイプに属すると判断するのが妥当だろう。決して、悲観するような状態ではない。数値で求めるなら、あなたが、第一のタイプ「ガンに罹患していて陽性と出た」95人のうちの一人である確率は、95÷2,093=約0.045、すなわち、4.5パーセントとなるのである。以上が確率4.5パーセントを求めるプロセスである。

 この計算は、ベイズ統計学における推定方法を、イメージしやすいように表現し直したものである。ベイズ統計学での標準的な推定方法は、拙著『完全独習 ベイズ統計学入門』で勉強してほしい。

ではガン検査の結果は
無視してもよいのか?

 さて、今、ガン検査の結果に悲観すべきではないと言ったが、もちろん、全くに気にする必要はない、とまでは言わない。その点をコメントしておこう。

 ガン検査の前に、「あなたが当該のガンである確率は?」を見積もるなら、0.1パーセントを想定するのが素直である。なぜなら、このガン罹患率が0.1パーセントだからである。何も情報がないなら、こうとしか見積もれない。

 しかし、「ガン検査が陽性」という情報を得た今、あなたがこのガンである確率は約4.5パーセントにまで高まった。決して高い数値ではないが、それでも0.1パーセントと比べれば45倍に高騰している。1,000人の1人から、20人の1人に高まったのだから、少なくとも精密検査の予約をすべきだろう。

 このように、情報(ガン検査の結果)の入手によって、確率が0.1パーセントから4.5パーセントに変化することを、「ベイズ更新」と呼ぶ。ベイズ統計学とは、得られた情報を元に確率を更新(アップデート)する方法論なのである。

(次回は11/25(水)に更新する予定です)