フィッシャーに弾圧された「ベイズ統計」

——そのまま日本の統計学の歴史の解説になりそうなので、もう少しお2人の先生のお話をお願いします。

西内啓(にしうち・ひろむ) 東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2014年11月より株式会社データビークルを創業。自身のノウハウを活かしたデータ分析ツールの開発とコンサルティングに従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。

西内 そうですね。私の師匠の大橋先生は、もともとは東大の工学部にある計数工学科の出身ですね。それがなぜか医学部にヘッドハントされてきたと。いまでこそ色んな大学の医学部には「生物統計学」の研究室がありますが、日本の生物統計学は、大橋先生が一代で大きく発展させられたんです。
 大橋先生のすごいところとして「ITに強い」という点が挙げられます。大橋先生より前の時代は「統計学者は統計学の専門家だろう、民間業者の統計分析ソフトを使うとはけしからん」と言われていたそうですが、それをいちはやく導入して後の時代の統計学者の仕事の仕方に大きな変化を与えました。

岡田 その時代の大変さは聞いたことがあります。

西内 その頃多くの統計学者は、ちょっと実データを分析しようとすると自分で数値を手計算したり、手計算を省力化するための上手い近似方法を考案していたそうです。ところが大橋先生は若いころから「便利だから」とSASを導入し、自分でプログラムを書いて、いまでいうデータマイニング的な手法を研究テーマにされてましたね。最近になってとってつけたようなデータマイニングの本もいろいろと出版されていますが、「そんな手法は本質もその限界もとっくの昔に大橋靖雄の多変量解析の教科書に書いてるんだ」という印象を受けます。
 岡田さんが師事された繁桝算男先生は有名なベイジアンですが、繁桝先生とベイズ統計との付き合いはいつ頃からなんでしょうか?

岡田 繁桝先生はアイオワの大学院で博士号を取得されていますが、当時、アイオワ大学にはノヴィックという古典的テスト理論で有名なベイズ統計学者がいたんです。ベイズ統計学はフィッシャーやネイマン、ピアソンによって1920〜30年代にほぼ絶滅の危機に瀕したとされていますが、1950年代頃から復活してきています。

西内 最近出版された『異端の統計学 ベイズ』という本に、その経緯も書かれていましたね。フィッシャーやネイマンがベイズ統計を弾圧した、といった話でした。

岡田 はい。1920年代から30年代のことです。そもそも、ベイズ統計の名前で知られるトーマス・ベイズ(英、1701〜1761)自身は今から3世紀前の人です。「ベイズ」という名前が付いていますが、実際にはフランスのラプラス(1749〜1827)が再発見して体系化したという意味では、ラプラスの功績が大きいですね。ラプラスが40歳のときに起きたフランス革命は、科学やデータを重視する時代への一つの転換点であったそうです。そして20世紀初めまではベイズ的な考え方がデータ分析に根付いていたのですが、フィッシャーとネイマン、それにピアソンが徹底的にベイズ統計を否定した。

西内 フィッシャーがそこまでベイズ統計を拒絶したのは、フランス語が苦手だったからじゃないか、というジョークを聞いたこともあります(笑)。

岡田 ベイズ統計では「事前確率」というものを考えます。データを得る前から得た後で仮説についての確率がどう変わったかを調べるためには、データを得る以前の状態も考える必要があるわけです。とくに事前情報がないときには、とりあえず「確率は全部等しい」と置くのが一つの方法で、ラプラスもこの設定を用いました。ですが、それにはいろいろな問題点があるぞ、というのがフィッシャーらの攻撃ポイントの一つだったのですよね。

西内 確率分布を隅から隅まで積分しても1にならない、といったことですね。

岡田 はい。そうした批判を受けてベイズの方でも、1950年代以降に、確率をそれぞれの人に固有なものとして新たに解釈しなおすサベッジの主観ベイズや、最小限必要な情報だけを使って作った事前分布を使うジェフェリーズに始まる客観ベイズといった、新たな理論の枠組みが生まれていきました。

ベイズ統計はなぜ復活したのか?

西内 当時、サベッジやジェフェリーズらの努力以外にも、何かベイズ統計を後押しするような社会的背景があったのでしょうか?

岡田 そうですね。時間とともに、データ分析といえばフィッシャーの本を見よ、といった画一的な空気が薄れてきて、考えている問題によって使い分ける柔軟さが生まれてきたのかもしれません。その昔ベイズ統計を再発見して体系化したラプラスでさえも、考える問題によって頻度論とベイズ統計とを切り替えていた節があります。たとえば、天文学のように入手できるデータ数が限られているけれど「自分の考えや仮説が正しいかどうか」を知りたいときには、ベイズ統計を使う。一方で、フランス革命を経たフランス全土で社会調査をして膨大なデータが集まってくると頻度論に傾く、といった感じですね。

西内 ラプラス個人の中でも、ベイズ統計と頻度論が交錯していたわけですね。

岡田 はい、フィッシャーの例でいうと、彼は遺伝学者でもあり、ロザムステッドの農事試験場で研究をしていました。そのように実験を自ら計画し、比較的容易かつ短時間にデータを得ることを繰り返すことのできる環境にいると、ベイズ統計よりも頻度論のほうが相性がよいと思うようになるのかもしれません。ですから、考えている問題、ターゲットとしているテーマが、研究者の考え方に大きく関係するのかもしれませんね。

西内 そうですね。我々も、頻度論とベイズの手法は「考えていることで使い分ける」という感じですし。

岡田 「社会的な後押し」という意味では、暗号解読への活用があります。第二次大戦でイギリスはドイツ軍の暗号を破ったことが知られていますが、そのときに使われたのはベイズ的な方法だったそうです。それは長らく英軍の機密扱いになっていたのですが、そういう話って、どうしても秘密を話したくなる人が出てきますよね(笑)。

西内 あはは、いますね。

岡田 そんな人のおかげで「暗号解読にベイズ統計が一役買ったらしい」という話が1950年代ころに専門家の間では流布しだしたそうです。
 あともう一つ加えて言うと、最近のベイズ統計の進展はコンピュータとの相性のよさが大きな理由でしょうね。

西内 ベイズ統計は理論上正しいとしても、ちょっと状況が複雑になると解析的に計算できないという欠点がありましたからね。それが、いまは「マルコフ・チェーン・モンテカルロ」(MCMC)という手法ができて、MCMCを使えば色んな問題が解けるようになった。これが大きいですね。
 もう一つ、研究者は論文を書かないといけないわけですが、その際、書きやすいテーマで勝負をするでしょう。ひと昔前だと解決できなかった問題が、いまならベイズの考え方とMCMCで解けるようになった。これで爆発的にベイズ的手法の論文数が増えたのではないでしょうか。

岡田 そうですね。コンピュータを使った計算論的なベイズ統計学にはまだまだ未開拓のところが大きく、フロンティアが広がっていると考えています。