統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。本連載は、その刊行を記念して『統計学が最強の学問である』の本文を公開するものです。第24回では、統計家たちが棲息する主要な6分野について解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

統計学の6つの分野とは?
p値や信頼区間、回帰モデルといったここまでの内容が理解できれば、おそらく統計学という強力な学問の「幹」は手に入れたことになるだろう。
しかしながら、統計学が面白いのはその「幹」だけではない。「枝葉」というとあまり聞こえがよくないが、広範な学問分野で応用されるために枝分かれした先にある「ディティール」を知れば、現代における統計学のフロンティアをよく理解することができる。また学問的背景の異なる統計家同士の論争を俯瞰して見られるようにもなるだろう。
統計学は数学的な理論に基づいて組み立てられているものの、その数理的性質を現実に適用したときには必ずいくつかの仮定や、仮定の扱いに関する現実的な判断が必要になる。またそうした現実的な判断は、分野ごとの哲学、目的、伝統や、扱おうとしているデータの性質によって左右されるのである。たとえば回帰モデルを用いる際には複数の説明変数の間に相乗効果はないという仮定をおいている、というのは数学的な事実だ。一方、その仮定をどう取り扱うか、という考え方は数学的な理論ではなく分野ごとの視座によって異なる。
実のところ、統計学を自分の研究や業務で用いている専門家も、あるいは統計学的な手法自体を研究している統計学者も、こうした分野間での考え方の違いに気づいている人は少ないように思う。統計学自体は広範な分野に応用できるものであるが、現代における学問の専門性は細分化が進んでおり、1つの分野の専門家が他の専門分野の視座を理解することはむずかしくなっているのかもしれない。
この章で扱う内容は、みなさんが今後統計学に触れる際、そうしたつまらないことで混乱しないようにするためのものである。たとえば以下に挙げる6つの特徴的な分野における考え方を学べば、今この世に流通しているほとんどの統計学に関する言説について「どのような立場から述べたものであるか」が理解できるのではないだろうか。
①実態把握を行なう社会調査法
②原因究明のための疫学・生物統計学
③抽象的なものを測定する心理統計学
④機械的分類のためのデータマイニング
⑤自然言語処理のためのテキストマイニング
⑥演繹に関心をよせる計量経済学
ではまず、これまでにも何度となく触れてきた①と②の考え方についておさらいしよう。
正確さを追求する社会調査のプロたち
一般に「統計をとる」という表現は、単にデータを集めるという意味で使われる。フィッシャーやゴセットの時代より昔、17~18世紀頃からヨーロッパ諸国ではすでに国の人口や死亡者数に関する統計がとられていたし、平均値やパーセンテージを求めるといった集計方法も生みだされていた。国勢調査や選挙前の世論調査に代表されるような社会調査は、この頃からの伝統をくむ統計学の「最古の使い方」である。
第8回で「ただ平均値やパーセンテージだけを記述する集計だけでは意味がない」と書いたが、こうした社会調査に関わる統計家の「平均値やパーセンテージ」に対するこだわりは、「ただの集計」のレベルを大きく超える。ニューディール政策の頃に実用化されたサンプリング調査を発展させ、可能な限り偏りなく、求められる誤差の範囲に収まる推定値を最も効率よく得るためにはどうすればいいのか、と彼らは研究し続けているのだ。
興味のある全対象者(たとえば全国民など)から完全にランダムに選ばれた、ある程度十分な数のサンプルデータが得られれば話は簡単である。しかし、現実には法律で回答が義務付けられた調査であったとしても、回答に協力的な国民と非協力的な国民の差というのは存在する(なお我が国においては統計法という法律によって、国の定める基幹統計調査の回答を拒んだり、虚偽の報告をした場合には50万円以下の罰金に処される)。
たとえば既婚の高齢者であれば、調査員が直接訪問して回答の催促もしやすいが、不規則な生活をする1人暮らしの若者は、調査員が訪問してもなかなか接触できないかもしれない。その結果、1人暮らしの若者の回答率が家族と同居する高齢者の回答率よりも著しく低ければ、得られたデータから単純に求めた平均年齢や既婚率は実態と比べて高くなってしまう。
得られるべきデータが測定できなかったことを「欠測」と呼ぶが、社会調査の専門家は可能な限りこの欠測を減らすべく調査員を訓練する。また調査方法の改善だけでは対処することのできない欠測を補完し、推定値の偏りをどう補正するかという点について、さまざまな手法を考案してきた。
こうした統計家の関心は、議論の土台となる正確な数値を推定することにある。政府が失業対策を行なうのであれば正確な失業者を知らなければいけないし、がん対策を行なうのであれば正確ながん患者数や新規罹患数を知らなければならない。そうでなければいくらの予算が必要なのか、どのような対策をとるべきなのか議論をはじめることはできないのだ。
ビジネスの領域で言えば、マーケティング調査にこの社会調査の専門家がしばしば携わる。もちろんいい加減なアンケートをエクセルでキレイにまとめてくる以外に能がないマーケターとはまったくの別人種である。
彼らは予め想定される誤差をきちんと計算し、政府も利用するような調査会社に、予算の範囲内で必要な情報の精度を最大化するような調査方法を発注する。その結果、「どのような顧客が何人いると見込まれます」とか、「彼らが我々の市場に支出する金額は平均いくらです」という推定値と誤差の範囲を教えてくれる。そうした推定値をもとに戦略を練る、というのはマーケティングに熱心な企業ならどこでも取り組んでいることだろう。
「妥当な判断」を求める疫学・生物統計家
こうした調査の重要性は否定できないが、その一方でいくら顧客の人数や市場規模がわかったとしても、「結局のところどのような戦略を取ればいいか」を関係者間の感覚的な議論に頼るのではもったいない。
ランダム化比較実験が行なえるのならば試せばいいし、そうでなくても回帰モデルや傾向スコアなどを活用して因果関係を推定できる。どのような原因をコントロールすれば、求める結果(ビジネスなら多くの場合、利益やそれに直結する指標)に一番影響するのかがわかれば、その原因をコントロールするような戦略が一番有望だということになるだろう。
ランダム化比較実験はロザムステッドの農業試験場でフィッシャーが生み出したものであり、回帰モデルはゴセットが進化論の影響を受けて生み出した。そのため彼らの専門分野を特に生物統計学と呼ぶこともあるが、実際のところ彼らの発明は生物に限らず、ほとんどの分野で用いられる統計学的手法の基幹となっている。ちなみに私自身、統計学の教育を受けたのは疫学と生物統計学を専攻する場であったので、やや本書の記述はこれらに偏ったものであったかもしれない。
フィッシャーの『実験計画法』が、世界中のありとあらゆる科学者に引用されるようになったことはすでに述べた。その中で説かれたランダム化比較実験は、農学を含む生物学だけでなく、工学や化学など物を対象とした分野でも、心理学や教育学、最近では政策科学や経営学など人間を対象にした分野においても、さまざまな領域で行なわれるようになった。物や人間以外の生物を対象にする限り、ランダム化比較実験を行なうことは比較的容易である。
また倫理や感情によってランダム化が許されない人間対象の領域では、疫学的な方法論を用いればいい。これも教育、政策、経営など、さまざまな分野で用いられる手法である。
この両者に共通する考え方は、最終的に結果に与える影響の大きい「原因」を探すことである。逆に言えば、p値に基づき「原因」がちゃんと見つけられるのであれば、推定値の「全国民におけるあてはまり」という社会調査分野の統計家が重視する点についてはそれほどこだわらない傾向にある。
たとえばタバコが体に悪いかどうか、という判断を誤りなく下すことは重要だが、仮にそれによって縮む寿命の全国民レベルでの真値が10年のところを8年と推定してしまう、といったことを疫学者や生物統計家はそれほど問題とは考えない。また高齢者における喫煙の寿命損失は10年分で、若者の場合は15年分でした、という交互作用についても問題にすることは限られている。もちろん仮に「若者だけに限定すれば逆に喫煙で寿命が伸びる」という、結論を覆すレベルの強力な交互作用であれば問題になるが。どちらにせよ大きな悪影響があるなら、とりあえず喫煙率は下げたほうがいいんじゃないのか? という妥当な判断が下せれば、ある程度それで満足なのである。
そのため生物統計家や疫学者は、「国全体からのランダムサンプル」という点に関してはほとんどこだわりを見せない。もし極端に偏ったデータ、たとえば国民全体での因果関係を議論したいのに、医者のデータしか集まらなかったとか、高校生のデータしか集まらなかったとかいうことになったとしても、「あくまでこの結果は医者という偏った集団のデータですがこういう関連性が見られました」と注釈つきで普通に発表する。
また「他の集団でどうかは厳密にはわかってませんので応用する際は注意してください」とか、「今後の課題として別の集団でも同じ関連性が見られるか確認する必要があります」という文章が、誠実な論文には必ずといっていいほど記述されている。
こうした考え方は、疫学や生物統計学において十分な数の「全体からのランダムサンプル」を得ようとすればとんでもないコストと手間がかかる、という現実的制約が影響している。
仮に今の日本で致死率50%という恐ろしい伝染病が流行し、3万人が死亡した、と言われれば大惨事だ。すぐに疫学的手法で原因究明に乗り出さなければいけない。しかしそれでも罹患者や死亡者は全人口の0・1%未満しかいない。つまり全国民から1万人をランダムに選んだとしても数人程度しか罹患者が見つからず、そのうち半数は亡くなって本人に調査ができない。これではまったく意味のある解析にならないだろう。
では、全国民からのランダムサンプルの中に罹患者を見つけるのではなく、罹患者全員を対象として、そこからランダムサンプルを選ぼうという考え方もできるかもしれない。しかし、そうするためには罹患者全員のリストがなければ「そこからランダムに」は選べない。だったらわざわざ罹患者全員を把握してランダムに選んでる間に、目の前の患者のデータを片っ端から分析していけよという話である。
終わりのない言い争い
だから疫学者や生物統計家は、「ランダムサンプリングによる正確な推定値」よりも、「ランダム化による妥当な判断」を大事にする。そしてたまに社会調査を中心とした統計を教育された者(あるいは単に聞きかじった者)から「ランダムサンプリングでないからこの結果は信用ならない」という批判をもらうと、終わりのない論争に突入する。たとえば以下のようなやり取りになるだろう。
「全国民からのランダムサンプリングじゃないから信用できない」
「確かに解析したのは若者だけのデータですが、年齢と喫煙リスクの間によっぽど強力な交互作用が存在していない限り、喫煙がリスクとなるという結果に変わりはないと思います」
「その交互作用が存在しているかしていないか、わからないじゃないか」
「何か高齢者だと喫煙が体にいいと考えられる根拠はあるんですか?」
「それはないけど、結局タバコが体に悪いのか一般化して言えるわけじゃないだろう」
「だから今回の研究はあくまで若者に偏ったデータなので、他の年代については今後の課題だと言ってますよね」
「じゃあなんでそんな結果をもとに喫煙の害を一般化して訴えたりできるんだ」
「だからよっぽどの交互作用が存在してない限り喫煙が体に悪いことに変わりないじゃないですか」
なお、社会調査の分野で発展した欠測に対する補完方法を疫学的な推定に持ちこむこともできるのだが、こうした補完方法は社会調査系の統計家にとっては、「ベストを尽くしたランダムサンプリング調査に付け加える最終手段」であり、そもそもキレイなランダムサンプルにする気ゼロのデータ自体がかなり気持ちの悪いものらしい。
そんなわけでこの両者が議論をすると、しばしば疫学者や生物統計家は内心「いくら正確なデータと推定値でも、関連性を分析しないんじゃ意味ないじゃねぇか」と毒づいている。一方、社会調査の専門家は「偏ったデータだけしかないのに何を偉そうなことぬかしてやがる」と腹を立てる。
だが両者のうちどちらが正しいか、と言われれば、それは単に学問的な視座の違いによるというだけの話であり、状況によって適した考え方はどちらなのかきちんと考えられることが重要なのである。