統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。第15回では、科学の領域そのものを変えた「ランダム化比較実験」の意義をより詳細に解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

『統計学が最強の学問である』15Photo: Adobe Stock

科学は「観察」と「実験」からなる

 統計学が「最強の学問」となったのはその汎用性の高さ、すなわち、政治だろうが教育だろうが経営だろうがスポーツだろうが、最速で最善の答えを導けるところにある、という話は先に書いたところである。そうした統計学の汎用性は、前節で紹介したようにどんなことの因果関係も科学的に検証可能な「ランダム化比較実験」によって大きく支えられている。

 もう少し大げさに言い換えるならば、フィッシャーが打ち立てたランダム化比較実験という方法論は、科学の領域そのものを変えたと言っても過言ではないのである。

 科学とは何か、という質問に詳しく答えようとすれば、本書は統計学ではなく科学哲学について説明しなければいけなくなってしまう。こうした科学哲学の詳細については専門書に譲るとして、ここでは科学の方法論の重要な特徴は「観察と実験からなる」、としたアンリ・ポアンカレの言葉を紹介しよう。「観察」とは対象を詳細に見たり測定したりして、そこから何かの真実を明らかにする行為である。一方、「実験」とは、さまざまに条件を変えたうえで対象を見たり測定したりしてそこから何らかの真実を明らかにする行為だ。

 観察にせよ実験にせよ、統計学は大きな力を発揮することに間違いないが、ランダム化比較実験という枠組みは、「実験とは何か」という考え方を一歩先へ進めたのだ

 もちろんフィッシャー以前にも素晴らしい実験はあった。たとえば医学においては、1628年にウイリアム・ハーヴェイが動物のさまざまな箇所にある血管を縛る、という実験を通して血液が心臓によって全身を循環していることを示した。彼の実験以前は、血液は肝臓で作られ人体各部で消費されると考えられていたらしい。

 ハーヴェイに限らず、化学でも物理でも、素晴らしい実験のアイディアによって実証された法則や作り出されたものは数限りない。だが、フィッシャーのランダム化比較実験がなければ、人類は「誤差のある現象」を科学的に扱うことはできなかったのである。

「誤差」あるものの科学

 血管を縛ればその先に血が流れる量が減るという現象は、言われてみれば小学生にだってわかる当たり前のことである。そこに誤差は存在しない。ニュートンは別に落下するリンゴを見て万有引力の法則に関する着想を得たわけではないらしいが、空中でリンゴを手放せば加速しながら地表に落下する、というのも100回試みれば100回そうなるだろう。

 生物はどうだろうか? 生物に関しても観察をすることができる。というか、中学生ぐらいまでに習う生物学のほとんどは、さまざまな生物を観察し、その特徴を理解し、分類するといった博物学的なものである。おそらく生物学において最も革命的なアイディアはチャールズ・ダーウィンの進化論だろうが、彼にしてもその研究方法はこうした博物学的な生物学の域を出るわけではない。

 だが、こうした科学の方法論の特徴を理解したうえで、「どうすれば小麦の収穫量が上がるか」といったテーマに科学的に取り組もうとすれば、どうすればよいのだろうか?

 生物学者に頼るまでもなく、小麦の特徴や種類については世界中で農作業に携わる人々のほうがよく知っていただろう。それに彼らはこれまでの経験上「水はけが悪いと育たない」とか、「冬場に晴れの日が続くと豊作」といったことも知っていたはずだ。より収穫量をあげるために、いつ、どれだけ、どういう種類の肥料をあげればよいのか、という点についても経験や勘を持っていただろう。

 だが、こうした知見はフィッシャー以前には科学ではなかった。なぜならリンゴを落とせば加速しながら落下する、という現象ほど毎回同じようにうまくいくわけではないからだ。細心の注意を払って肥料の配合を工夫した場合と、面倒くさがって肥料をあげなかった年を比較しても、たまたま後者のほうが天候に恵まれたために豊作になることもある。また同じ年、同じように肥料をあげた畑の中でも、生育のよい麦とそれほどよくない麦の個体差は表れる。このようなものを「実験で正しい真実を確認する」といった科学の方法論で扱えるとは、フィッシャー以前の時代にはあまり考えられていなかったのだ。

「誤差」への3つのアプローチ

 100回やって100回必ずそうなるわけではない、という現象を科学的に扱おうとしたときに考えられるアプローチは3つある。

 1つは、実際のデータをまったく扱わず、ただ仮説やこういう事例がありましたという話だけをもとにして理論モデルを組み立てる、というやり方。統計学が取り入れられるまで、経済学などの社会科学はしばしばこうしたアプローチをとっていた。

 そして2つ目は、見かけ上「100回やって100回そうなる」という状態を示すために、うまくいった事例のみを結果として報告するやり方である。

 たとえば生物の教科書にも載っているメンデルが、エンドウ豆を使って遺伝の法則を調べようとした実験の報告をしたとき、彼は初期の報告では「結果を10個ずつ例示する」と言って、自説である彼の唱えた遺伝の法則にぴったりとはまるエンドウ豆のデータのみを示した。もちろんメンデルはこの1回以外にも何度か実験を重ね、「例示」以上のデータを示すこともあったが、後にフィッシャーはそうした報告をまとめて検証し、「実際よりも明らかに誤差が少ない」と疑義を呈している。つまり、メンデル自身のせいなのか、彼の助手のせいなのか、自説に都合のいい「キレイな結果」だけを選んで報告しやがったのではないか、ということである。ただし、フィッシャーが主張するように、メンデルたちが何らかの不公正なデータ処理を行なったか否かについては、近年の科学史研究においても議論の分かれるところであるそうだ。

 そして最後の3つ目が、フィッシャーの提示した、ランダム化を用いて因果関係を確率的に表現しようとするものである。

 先ほどわざわざ小麦の例を出したのは、それがフィッシャーがランダム化比較実験をミルクティ以外で最初に適用した事例だからだ。天才的な頭脳を持ちながら偏屈で人付き合いの下手だったフィッシャーは、大学での人間関係に疲れ、20代の終わりから40代前半までの期間をイギリスの片田舎にあるロザムステッド農業試験場の統計家として過ごした。

 権力争いに敗れた失意の日々ともとられかねないこの期間に、彼はたった1人で歴史を動かす大発見をいくつもしていたのだから、人生何があるかわからないものだ。フィッシャーのような天才が大発見をするにあたり必要なのは、立派なオフィスでも肩書きでも、優秀な共同研究者でも潤沢な研究費でもなく、ただ自由に使える時間とデータがありさえすればいい、ということなのかもしれない。

『実験計画法』は農場で生まれた

 肥料A/肥料Bと小麦の収穫量の関連性を科学的に分析しようとしたとき、確かに水はけや土地の肥沃さ、日当たりといったものによって左右されるかもしれない。だが、農地を細かい単位に分割し、ランダムに肥料をまき分ければ、肥料Aをまいた土地と、肥料Bをまいた土地のグループの間で、平均的な条件はほぼ一致するのだ。

 ランダム化とランダムサンプリングは混同しやすい用語として区別しなければいけないが、ランダムにすることで推定結果の誤差が制御できる、というのは両者に共通した特徴である。仮に全農地を40に分割し、20地区ずつランダムに肥料A、Bそれぞれをまいたとして、片方に日当たりのよい側が集中する確率はどれほどあるだろう?

 もし各地区ごとに五分五分の確率で日当たりの良し悪しが決まるとすれば、ランダムに選んだ肥料Aの地区ばかりに日当たりのよい土地が集中する確率は2分の1の20乗、すなわち約100万分の1という奇跡のような確率でしか起こらない。一方で、両グループ間で日当たりのよい地区の数がまったく同じになる確率は18%もある(なお日当たりのよい地区の数の差をまで『ほぼ同様』と許容すればこの確率は50%、までなら74%にもなる)。これは水はけだろうが土地の肥沃さだろうがまったく同じ話である。

 ランダム化してしまえば、比較したい両グループの諸条件が平均的にはほぼ揃う。そして揃っていない最後の条件は実験で制御しようとした肥料だけであり、その状態で両グループの収穫量に「誤差とは考え難い差」が生じたのであれば、それはすなわち「肥料が原因で収穫量に差が出る結果になった」という因果関係がほぼ実証できたと言えるだろう。

 ロザムステッドで得た研究成果をまとめて彼が著した『実験計画法』は、その後さまざまな分野の研究者にとって研究のためになくてはならない本となり、一時期は世界中の科学論文の中で最も引用されていた本だったそうだ。

 小麦でさえその効果のバラツキのせいで科学的に取り扱えないのであれば、まして人間や、その集団となる社会など、フィッシャー以前の科学観においては完全に想定外だろう。だがフィッシャーの作り出した実験計画法によって、心理学にせよ、教育学や政策学、そしてあなたの仕事に直接関わる経営学など、複雑で誤差だらけの人間を対象とする科学は20世紀に大きく開花した。

 倫理的にも予算的にも実験が許されるものである限り、ごちゃごちゃ理屈を唱えるよりもとりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない。

 こうして得られたエビデンスたちがあなたのビジネスで大きな武器となりうることは、すでに述べたとおりである。

 日当たりや水はけといった「諸条件をランダム化してしまえば、平均的に比較したい両グループ間で同じになる」という性質をあなたの仕事に置きかえるならば、顧客や従業員の年齢や性別、心理的特性といったものが仮に結果を歪める可能性があったとしても、「ある程度の数でランダム化してしまえば問題にならない」というありがたい性質を示すことになる。

 適切にランダム化比較実験を扱えるようになれば、そこで実証された結果はもはや科学的に正しいと言っても過言ではない。もしあなたがランダム化比較実験で得た仕事のアイディアに新規性があるならば、ちゃんと論文にまとめれば学術雑誌に掲載されるレベルの研究成果なのだ。

 科学とは白衣を着て怪しげな機械や薬品をいじくることではなく、正しいことを最大限謙虚に、そして大胆に掘り下げようとする姿勢であると私は思っている。