35万部を突破し、知的教養書としては異例のベストセラーとなった『統計学が最強の学問である』が、このたび「ビジネス書大賞2014」にて「大賞」を受賞しました。
選考会でも力強いタイトルが話題になったようですが、そもそも、なぜ「統計学が最強の学問である」といえるのでしょうか? この問いに、著者である西内啓氏が、『統計学が最強の学問である』で“述べなかった理由”も含めて回答します。(※本記事はダイヤモンド社配布の書店用小冊子に寄稿いただいたものを一部改編したものです。)

エビデンスの革命は医学から始まった

 これだけ『統計学が最強の学問である』が売れてしまったおかげで、会う人会う人、あるいは会ったことのない人からも、同じ質問を何回もいただく。
それは「なぜ、統計学が最強なんですか?」というものだ。

「統計学が最強である」ことの1つの理由は、本書の中で答えたつもりだ。医学だろうが経済学だろうが教育学だろうがビジネスだろうが、分野を問わず最も強力な議論の根拠となるのが統計学となったからである。

 一昔前までなら、「頭のいい人達」の間で議論の意思決定を最も大きくリードするのは「論理的思考」だと思われていた。そして、ともに正しいと思われる対立する2つの「論理」が存在した場合、最も大きな力を発揮していたのは「話者の大物感」や「弁の達者さ」であった。

 たとえば「心筋梗塞の手術をした後、不整脈が突然死の原因になる」という事実があれば「手術後に不整脈を防止する薬剤を飲ませたほうがいい」というのはとてもわかりやすいロジカルな考え方である。この考え方を弁の達者な医学会の大御所が主張した場合、1980年代まではおよそ反論のしようがなかった。

 だが、1991年にCAST研究と呼ばれる医学研究の成果が公表されてからは、いくら弁の立つ大御所であってもうかうかしてはいられなくなった。たとえばその研究から出た結果の一部を表にしてみると、以下のようになる。

出典:Echt DS, et al. Mortality and morbidity in patients receiving encainide, flecainide, or placebo. The Cardiac Arrhythmia Suppression Trial. N Engl J Med 1991; 324: 781-788.

 要するに、不整脈が突然死の原因になるから不整脈を予防する薬を飲ませる、という当たり前のロジックに従った治療を行なったところ、むしろ不整脈が原因にせよ、それ以外が原因にせよ、倍以上も死亡や心停止(つまり蘇生がうまくいって一命を取り留めたということ)が増えてしまったという結果である。

 この理屈に合わない研究成果は当時大きな波紋を呼び、当然さまざまな反論も試みられたが、いかに弁の立つ大御所であってもこの結果を否定しきることは不可能だった。

 たとえば、「不整脈の薬を飲ませたグループ」に何か特有の心停止が起こりやすいような理由があっただけではないか? という反論を考えることは可能である。実際に、これまでの治療成績を単純に集計した表が上の結果であると言われた場合、その反論はとても的確なものだ。

 医師が「この患者には不整脈の薬を投与すべきだ」あるいは「この患者には不整脈の薬は要らないだろう」と意思決定を行なっていたとすれば、前者のグループにはもともと症状が重かったとか年齢が高かったとか、何かしら条件の悪い患者が多く含まれていたということだって十分あり得る。だから、この場合は不整脈の薬を与えられたグループの死亡率が高かったとしても、「状態の悪い患者の死亡率が高い」というだけで別に何も目新しい事実ではない。

 だが、このCAST研究においては、不整脈の薬を飲ませたか、そうでないか、というグループ分けは完全にランダムに行なわれた。簡単に言えば、コインを投げて裏が出た人は不整脈の薬を飲み、表が出た人は(そうと知らずに)何も有効成分の入ってない偽の薬を飲んだ、という状態なのだ。

 両面均等な10枚のコインを投げてたまたま表が9枚以上出る確率は? という計算を高校で習うのと同様に、ランダムに分けた700名ほどのグループでこれほど死亡/心停止の発生率差が生じる確率は? という計算も統計学の基礎を知っていれば可能である。また、人の意思が介在していない以上「一方のグループに状態の悪い患者が多い」などということは確率的にほぼあり得ない。

 こうした「どちらのグループに割り当てられるかをランダムに行なう」ことで仮説を実証するやり方のことは、ランダム化比較実験(RCT:Randomized Controlled Trial)と呼ばれる。

 両面均等な10枚のコインを投げて表が9枚以上出る確率は1%ほどしかない。この確率を見て「奇跡的に表が偏った」と考えるか、「何かしら表が偏るようなコインだった」と考えるか、と言われれば、ふつうの人は後者を選択するはずである。もちろん、ちょっとした遊びに使うぐらいならどちらでもいいのかもしれないが、このコインで表が出たとき自分や家族の命を差し出さなければならないという状況に置かれた人は、すぐにこの不利なコインの交換を要求するだろう。

 これと同様、ランダムに分けたはずのこの2グループの患者で、これほど死亡/心停止の発生率差が生じる確率は0.1%もない。つまり、このCAST研究で用いられた不整脈の薬は死亡のリスクを上げる「めちゃくちゃ不利なコイン」だったのである。

 このような歴史的背景もあって、現代の医療においては、大御所の意見や生物学的なロジックよりも統計学的な実証研究の成果が最重要視されるようになった。「エビデンスベースドメディスン」(EBM)とか、「科学的根拠に基づく医療」という言葉を聞いたことがある人も少なくないと思うが、この「エビデンス」とか「科学的根拠」と呼ばれるもののうち最も大きな比重を占めるものが統計学的な実証研究なのである。
 もし本文をお読みのみなさんが今後医師の診療態度に不満を持つことがあれば、とりあえず「この治療のエビデンスを示してください」と言うだけで相手はあなたに一目置くかもしれない。

 こうして1990年代に医療の世界で広がったエビデンスに基づくという考え方は徐々に他の領域にも広がりを見せている。たとえば、2002年からスタートしたアメリカの教育改革法の中でもしつこいぐらいに「科学的根拠」という言葉は登場するし、RCTを用いた教育方法の効果検証が推奨されている。米国に限らずOECD全体でも教育政策におけるエビデンスの重要性はこれまで何度も強調され、日本でも東京の大田区の小学校でRCTの考え方に基づき、「早寝早起き朝ごはん」という昔から言われてきた生活習慣が実際に成績の上昇に繋がるという実証がなされたりした。

 現在では教育以外でも、犯罪や貧困などさまざまな社会問題の解決方法を議論するにあたって、欧米の有識者はエビデンスに基づくことを当たり前のように重視するようにもなってきた。

オバマの再選に貢献したA/Bテスト

 さらにはA/Bテストと呼ばれる一種のRCTがシリコンバレーで大いに活用されるようになった、ということも特筆すべきだろう。AmazonのようなECサイトの中では、ちょっとした画面領域やフォントのサイズ、色などが変わるだけで利用者のコンバージョン率(実際に購入する確率)はわずかながら変化することがある。その変化は、サイトの利用者のうち、「購入」ボタンをクリックする率が0.10%から0.11%に増加するというような微々たる変化かもしれない。しかし、見方を変えれば年間の売上が1.1倍に増加する大きなチャンスがそこに眠っているということだ。

 Amazonの売上は日本国内だけでも数千億円ほどの規模だ。それが1.1倍、というのであれば数百億円やそこらの売上増のチャンスがそこにあるということである。そしてこのような潜在的なチャンスを迅速かつ正確につかむためには統計学の知識が不可欠なのだ。
 医学の世界と同様、こうした売上増に繋がるデザインの変化はこれまでは「デザイナーの経験と勘」に頼っていたが、どれだけ大御所の手によるデザインであったとしても、きちんとしたA/Bテストを行なってしまえば、たちどころにその価値は丸裸にされてしまうのである。

 元Googleのダン・シロカーは長年Google内でA/Bテストを仕切ってきた人物である。彼はオバマ大統領に協力を要請され、再選をかけた選挙キャンペーンの中で積極的にA/Bテストを行なった。
 ECサイトでなくても、あるいはインターネット上のデジタルデータでさえなくても、寄付や投票を呼びかけるさまざまなダイレクトメールのメッセージとデザインを何度かランダムに送り分け、そのうち最も反応が良かったものを全面展開する、ということを行なえばよいのである。それだけで、これまで「選挙参謀」が考えていたものより圧倒的に有利に選挙戦を戦えた。何せ、オバマが獲得した寄付金のうち750万ドルほどはシロカーのA/Bテストのおかげで得られたものであるそうだ。

 心臓病死を減らし、読み書きの苦手な子どもを減らし、AmazonやGoogleの売上を伸ばし、オバマに巨額の選挙資金を与える、というすべてを達成できる学問がいま他にあるとしたらぜひ教えてほしい。もちろんそうした大きな成果は統計学単体でもたらされたものではないが、医学や教育学、ITや政治学といったさまざまな学問の成果との相乗効果で、いま最も大きなインパクトを生み出す学問は統計学であるといって過言ではないと思う。

 以上が『統計学が最強の学問である』で述べた理由なのだが、今回はさらに同書で述べなかった理由も紹介しておこう。