3日で絶対#統計学その6
Photo:PIXTA

特集『夏だ!スキルだ!3日で絶対!習得シリーズ 2020』(全30回)の「統計学」(全6回)その6では、ビッグデータ時代の秘密兵器「ベイズ統計」について学ぼう。人工知能や自動運転にも活用されるこの統計学は、ビジネスで一歩先んずるための強力な武器となる。

「週刊ダイヤモンド」2016年7月2日号の第1特集を基に再編集。肩書や数値など情報は雑誌掲載時のもの。

データによって答えを更新
見えない原因を推定できる

 ベイズ統計は、今から約250年前にトーマス・ベイズという牧師が発見し、数学者ラプラスが完成させた、たった一つの定理から始まっている。

 その定理は時代を超え、今では迷惑メールフィルターや車の自動運転、スマートフォンの音声解析など人工知能や機械学習を活用する最先端のIT分野で幅広く応用されている。米グーグルや米マイクロソフトなどはベイズ派の研究者を積極的に採用してきた。

 ベイズの定理を言葉で表せば、「当初の何らかの考えを、新たに得られたデータに基づき考え直す(更新する)ことで、質の高い考えにつなげる」といえそうだ。

 数式を下の表の上に示す。重要なのは、展開式が「事後確率=客観データに基づく仮説の確率(尤度〈ゆうど〉)×事前確率」となることだ。事前に決めた確率が実データを得ることで更新される。

 この特性を生かすことで、観測データから「見えない原因」を推定できる。例えば、「39度の熱」というデータが取れたとしても、その原因は「風邪」なのか、「他の病気」なのかは一見分からない。だが、ベイズの力を借りると、「風邪の確率が70%」などと分かる。

データ時代に息を吹き返した
「異端」の統計学

 とはいえ、ベイズ統計は不遇の時代が長かった。フィッシャーやネイマン、ピアソンら統計学の礎を築いてきた「頻度論者」と呼ばれる学者により、「異端」として扱われてきたからだ。

 そもそも頻度論では、答え(母数)は分からないが一つあると決めて、得たデータが偶然の産物かどうかを判断してきた。この「有意性検定」という手法は、客観性が高いといわれている。

 一方、ベイズ統計は最初に経験的な確率を自らが設定する。頻度論者から見れば「客観性に乏しい」という批判があった。応用には高度な積分計算を行わなければならず、使い道が少なかった。

 だが、21世紀に入り潮目が変わった。コンピューターの処理能力が上がって、膨大なデータの取得ができるようになり、ベイズ統計が息を吹き返した。

 ベイズ統計に詳しい早稲田大学の豊田秀樹教授は「時間はかかると思うが、頻度論による有意性検定は絶滅するだろう。ビッグデータの前では有意性検定が無力になってしまうからだ」と言う。

 実は、これまでの統計手法ではデータ数が多ければ多いほど、「高度に有意」と判定してしまう構造的な欠陥があった。そこを克服できるのがベイズだ。まさにビッグデータ時代の“最終兵器”とも呼べる存在なのである。