第4回では、ベイズ統計学が人工知能などの最先端技術を支えていることを解説しました。このようにベイズ統計学がビジネスで重宝されるのは、少ない情報でも「とりあえずの確率値」を出せるという優れた特徴があるからです。大学で一般的に教えられている標準的な統計学と比較すると、この性質が浮き彫りになります。

標準的な統計学と
ベイズ統計学との違いとは?

標準的な統計学を学びたい方は『完全独習 統計学入門』が参考になります。

 これまでこの連載では、ベイズ統計学の仕組みとその利用方法を解説してきた。ベイズ統計学とは、一般の方にはあまり耳慣れない言葉だと思うが、統計理論の研究者や統計を応用している学問分野では、もはや中心的な存在となっている。ベイズ統計学のこれまでの遍歴については、第4回のエントリーで読んでいただきたい。

 一般の方もご存じの統計学は、ネイマン・ピアソン統計学と呼ばれるもの。大学で教えられている標準的な統計学はこれにあたる。仮説検定、区間推定などの用語を耳にしたことがあるだろう。

 この連載を締めくくるにあたって、ベイズ統計学の推定方法が、ネイマン・ピアソン統計学のそれとどのような点で異なるかについてまとめることとしよう。

 先回りして、違いをざっくりと述べてしまうと次のようになる。今、どれが真実かを突き止めたい複数の選択肢(可能性)があるとしよう。観測したデータをヒントに推測するのである。選択肢たちに対して、ネイマン・ピアソン統計学では、「これであろう」という1つの結論を下す。他方、ベイズ統計学では、「各選択肢のありうる確率はこれこれ」という形で、確率的な数値評価を割り振るのである。

 このことを理解する簡単な具体例を挙げよう。

結論がはっきりしているが
間違いの可能性が残る標準的な統計学

 今、目の前にツボが1つあり、AのツボかBのツボであることはわかっているが、見た目ではどちらかわからない。ただし、Aのツボなら9個の白球と1個の黒球が入っており、Bのツボなら2個の白球と8個の黒球が入っていることは前提知識として知っている。いま、ツボから1個球を取り出したら黒球だった。このとき、目の前のツボがどちらのツボであるかを推定したい。

 ネイマン・ピアソン統計学では、仮説検定と呼ばれる手続きで次のように推定する。まず、「ツボAである」という仮説を立てる(専門的には帰無仮説と呼ばれる)。そして、仮説が正しいなら小さな確率αでしか観測されないような現象を設定する(αのことを有意水準と呼ぶ)。このケースでは、「黒の球を取り出す」という現象を設定しよう。このとき、この現象の確率はα=10パーセントである。

 次に、この現象が観測されたかどうかを確かめる。もしも観測されたなら、「仮説が正しいならきわめて小さい確率でしか観測されないはずの出来事が、実際に観測された」という理由から、「仮説は正しくないだろう」として仮説を捨てるのである(専門用語では、「棄却」と呼ぶ)。今の例の場合、黒い球を観測したから、「ツボAである」という仮説を捨て、「ツボBである」と結論する。

 言うまでもなく、この推定の方法にはリスクがある。仮説が正しく、目にしているのがAのツボであっても、10パーセントの確率で黒の球を観測する。したがって、この方法論で結論を下す限り、10回に1回の割合で「本当はツボAなのに、間違ってツボBと結論してしまう」のである。したがって、有意水準αを小さく設定すればするだけ、このような間違いの確率を小さくすることができる。

あくまで「可能性の比率関係」だけを出し
結論を人にゆだねるベイズ統計学

 ベイズ統計学では、同じ設定に対して、どのようなプロセスで推定を行うだろうか。

 まず、事前確率というのを設定する。これは、黒球を観測する前の段階として、ツボAなのかツボBなのかについての当座の確率を割り振ることである。全く情報がないので、五分五分と割り振る(これは「理由不十分の原理」と呼ばれる)。次に黒球を取り出した、という情報を利用して、ツボAなのかツボBなのかについて、確率のアップデートを行う。これをベイズ更新と呼ぶ(第1回第3回でも登場した)。

 アップデートされた確率は、事後確率と呼ばれる。黒球を取り出したという情報によって、「ツボAである」の事後確率は9分の1、「ツボBである」の事後確率は9分の8と計算される。計算の仕方は、第1回の計算と基本的に同じだが、字数の余裕がないので省略する。気になる人は拙著『完全独習 ベイズ統計学入門』で確認していただきたい。

 このように、ネイマン・ピアソン統計学とは異なり、ベイズ統計学では、「ツボAだ」とも「ツボBだ」とも結論を出さない可能性の比例関係を出すだけである。そこから結論を決めるのは、あなたの役割だ。9分の1という確率(ツボAの事後確率)がリスクとして小さいと感じるなら、「ツボBだ」と結論すればいい。無視できないリスクだと感じるなら、結論を保留すべきである。

 このように、ベイズ統計学では、最終的には判断は利用者に委ねられる。ポイントになるのは、ベイズ統計学では、選択肢「A」「B」に対して、結論を下さず、可能性を数値評価する、ということなのだ。

 ネイマン・ピアソン統計学には有意水準αという恣意性があり、ベイズ統計学には事前確率という恣意性がある。どっちもどっちであり、どちらがより科学的かの判断については、単なる個人の趣味の問題のように筆者には思える(両方の陣営から叱られてしまうかもしれないが)。

 ただ、ネイマン・ピアソン統計学では、有意水準αを小さく設定するなら、球を1個取り出すだけでは推定できず、たくさんの回数、球を取り出す必要が出てくる。他方、ベイズ統計学では、球を一個取り出すだけでも「とりあえずの確率値」を算出することができるベイズ統計学のこの柔軟性は、少なくともビジネス向きであると言えよう。ビジネスで責任を持って最終判断を下すのは、あなたに他ならないからだ。