統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。本連載は、その刊行を記念して『統計学が最強の学問である』の本文を公開するものです。第2回は、「統計学が最強の学問である」と言える理由を「疫学の父」ジョン・スノウのエピソードとともに解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

『統計学が最強の学問である』2Photo: Adobe Stock

統計学が最強の武器になるワケ

 なぜ統計学は最強の武器になるのだろうか?

 その答えを一言で言えば、どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ。

 もしあなたが、小売企業で働いていて、社長キモ入りの全社横断プロジェクトで売上増加を目指すとしたら、一体どういうことに取り組むことになるだろうか?

 おそらくさまざまな部署から、偉いおっさんたちがやってきて、「自分の感覚では……」とか「長年の経験に基づくと……」といった主観的根拠で勝手なことを言い出すだろう。

 断言してもいい。もしあなたの会社に十分なデータがあるのであれば、データを分析せずに勘と経験だけに基づく議論を重ねるのは時間のムダだ。そして大抵の場合は、会議参加者の人件費の分だけお金もムダだ。日本の多くの会社は、時給800円でアルバイトする若者が仕事をサボることは叱るくせに、時給換算でその何倍もの人件費を支払われている人間が会議で不毛な時間を過ごすことに対しては思いのほか無頓着である。

 そして、センスだけのアイディアで過ちを犯した場合に困るのは経営者と従業員と取引先ぐらいだが、世の中にはしばしば過ちを許すことが絶対に許され得ない場合がある。たとえば大量の人の命がかかっている場合などはそれに該当するだろう。

 もしあなたが、選択を誤れば10万人の命が失われるといった状況に置かれたら、いったい何を根拠に判断を下すだろうか? そのようなときにあなたは上司の直感や経験だけに任せて決断を行なうだろうか?

 あるいは、総理大臣なり厚生労働大臣なり、権限のある人たちが、あなた自身やあなたの家族の命も含め、10万人分の命がかかった選択を、何の根拠もなく権力者たちのご意見のみで決めたとしたらあなたはどう感じるだろうか?

 判断を誤れば10万人の命が失われる意思決定、という状況はまるでSF映画の中の出来事のように感じられるかもしれない。だが、医療、なかでも私が専門とする「公衆衛生」や「社会医学」「保健行政」といった領域においては、今この瞬間にも慎重な議論を経てそういった決定を下している真っ最中なのである。

 たとえば日本では毎年35万人ほどががんで亡くなり、19万人ほどが心臓病で亡くなり、3万人ほどが自殺している。適切な予防や治療の方策さえ取れれば、このうち何万人もの命が救われるはずなのだ。

 こうした大量の人命がかかった間違いの許されない選択において最善の答えを出すために、人類は19世紀のロンドンで、史上はじめて統計学の力を使って万単位の人命を奪う原因に戦いを挑んだ。

 原因不明の疫病を防止するための学問を「疫学」と呼ぶが、世界で最初の疫学研究は19世紀のロンドンで、コレラという疫病に対して行なわれた。この疫学の中でも統計学は大きな役割を果たす。

 この当時コレラはイギリス全土で四度の大流行を起こし、合計十数万人もの死亡者を出したと言われている。現代ほど科学技術が進歩してはいないにせよ、当時のロンドンには高い教育を受けた科学者も医者も、優秀な役人も十分にいた。彼らの多くは聡明で論理的でもあっただろうが、残念なことにコレラの流行に対しては無力だった。というか、むしろ場合によっては有害ですらあった。

 たとえば、ある医者が提案したのは、彼の調合した特別な消臭剤によってコレラが減らせるというものだった。

 当時のロンドンは産業革命の真っ最中で、農業で食べていけなくなった人々が都会へ押し寄せ、工場で労働者として働くようになりはじめた時期であった。急激な人口の増加に都市の発達が追い付かず、狭く不潔な地域に粗末な家がひしめき、その家の中に貧しい人が押し込められ、下水も整備されないためにゴミや排泄物が庭や地下室、道端といったそこらじゅうに貯めこまれていた。当然その悪臭たるや悲惨なものだっただろうが、そうした「臭い地域」に住む臭い労働者たちの多くがコレラで死亡していたため、悪臭を取り除きさえすればコレラもなくなるのではないかと考えたのだ。

 さらには、もっと果敢にこの汚物を取り除こうとした役人もいた。彼は街中の汚物を片っ端から清掃し、下水を整備し汚物を川へ流せるようにする、という政策を取った。この役人が活躍したのは主にコレラの一度目と二度目の大流行時の間の期間だが、彼らの努力にかかわらず、二度目の大流行時(死亡者約7万人)は、むしろ最初の大流行時(死亡者約2万人)よりも大量の死亡者を出している。

 要するに、知性も見識も十分にある彼らが、知恵を絞って出したアイディアも、時間と労力をつぎ込んだ事業も、ムダか、もしくはむしろ有害だったのだ。

「疫学の父」ジョン・スノウの活躍

 では彼らはいったいどうすべきだったのだろうか。「疫学の父」と呼ばれるジョン・スノウという外科医がやったことはごくシンプルだ。

・コレラで亡くなった人の家を訪れ、話を聞いたり付近の環境をよく観察する。
・同じような状況下でコレラにかかった人とかかっていない人の違いを比べる。
・仮説が得られたら大規模にデータを集め、コレラの発症/非発症と関連していると考えられる「違い」について、どの程度確からしいか検証する。

 彼は調査した結果を詳細なレポートとして冊子の形にまとめあげているが、その中で最も端的にコレラの予防方法を示しているのは図表3だ。

『統計学が最強の学問である』図表3

 当時のロンドンでは複数の水道会社が営業しており、同じ地域の隣合う家でも異なる水道会社を使っているということがしばしばあった。図表に示すスノウが行なった分析は、同じように貧しく不潔な地域における、利用している水道会社別での家屋数とコレラによる死亡者の集計である。

 調査期間中、水道会社Aを利用している家に住む者が1263名死亡しているのに対し、水道会社Bを利用している家からは98名しか死亡していない。もちろんこの死亡者数を単純に比べたのではフェアではないから、「家屋の数」で調整してやらなければならないだろう。家屋の数が多ければそれだけコレラ感染者が含まれる確率だって大きくなるからだ。

 だからスノウは家屋1万軒あたりという条件を揃えたうえで両者のコレラ死亡者数を比較した。だがそれでもやはり水道会社Aを利用している家では8.5倍も死亡者が多い。

 わざわざ使っている水道会社で住む家を選ぶといった習慣は当時のロンドンには存在せず、同じ地域の中では1つの家屋の大きさや、その中に住んでいる人数は平均的にほぼ等しいと考えられる。ほぼ同じような条件で、ただ使う水道会社だけが異なる家々の間で8.5倍もリスクが違うのであれば、そこに何らかの理由があると考えるべきだろう。

 だからスノウの提案したコレラ流行の解決策もごくシンプルなものになる。

「とりあえずしばらく水道会社Aの水を使うのを止める。以上!」

 なおスノウがこの考えを発表してからおよそ30年後、ドイツの細菌学者ロベルト・コッホはコレラの病原体である「コレラ菌」を発見し、その結果、コレラが水中に生息することや、コレラ患者の排泄物に含まれること、そしてコレラ菌の存在する水を飲むことでコレラに感染することも証明された。

 じつは水道会社Aと水道会社Bの違いは、前者がロンドンの中心を流れるテムズ川の下流から、後者はテムズ川の上流からそれぞれ採水しているというものだった。そして当時のテムズ川には、前述の勇敢な役人の努力によって大量にコレラ患者の排泄物が流し込まれていたのである。つまり彼は、効率的にコレラ患者を拡大再生産させる社会システムを意図せず作りあげてしまったのだ。

 コッホの発見には科学的価値があるが、一方で、病原体が何であろうが、コレラの発症がどんなメカニズムでもたらされるものであろうが、コレラの流行を止めたいという目的に対して飲料水の水源を変えさえすればいいという事実に変わりはない。

 残念なことにスノウの主張は「科学的でない」あるいは「確実な証拠がない」として学会や行政からは退けられたが、彼の助言に従ってコレラに汚染された水の使用を止めた町ではぱったりとコレラの感染が止まった。

 コレラの話からもわかるように、頭やセンスや行動力に優れた人たちを集めて話しあわせただけではこうしたシンプルかつ強力な解決策というのは出てこないし、むしろ握りつぶされることも多い。代わりに出てくるやり方が、理屈としては一見正しくても、無益もしくは有害であることもしばしばである。

人類の寿命は疫学が伸ばした

 スノウの提示した「疫学」という考え方は、徐々に医学全域において欠くことのできない重要なものとなっていった。タバコを吸えば肺がんをはじめとしたがんになるリスクが上昇するということも、血圧が高ければ心臓病や脳卒中になるリスクが高まるということも、現代に生きる我々にとっては当たり前の常識である。しかし、ほんの50年ほど前に、アメリカのフラミンガムという田舎町で行なわれた大規模な疫学研究の結果が公表されるまではまったく明らかではなかった。それまでは医者や科学者の中でも、タバコが健康に悪いことなのかどうか、あるいは血圧が高いことが悪いことなのかどうか、さまざまな説があり侃々諤々(かんかんがくがく)の議論が重ねられてきたのである。

 だが、「がんを減らしたければとりあえず喫煙率を下げろ。以上!」とか、「心臓病を減らしたければとりあえず血圧を下げろ。以上!」といった疫学研究のシンプルな答えが侃々諤々の議論をぶっ飛ばしたことで、医学研究と健康政策の方針は変わり、50年前よりも我々の寿命はずいぶんと伸びた。

 もしこの判断を、今も、議論だけに基づいた誤ったものとしていたならば、一体どれほどの命が失われていたのか見当もつかないほど統計学は力を発揮したのである。