統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。本連載は、その刊行を記念して『統計学が最強の学問である』の本文を公開するものです。第33回では、「エビデンス」の探し方を解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

エビデンスを探してみよう
文献データベースに適切な検索文を入れれば、エビデンスを探すことができる。
題材は何でもいいのだが、たとえばあなたが日本経済の問題の1つとして雇用対策をどう解決すればいいのかについて興味があったとしよう。
失業やワーキングプアーといった雇用問題について、政治家やテレビのコメンテーターはしばしば「問題だ」と発言したり、「頑張った人が報われる社会を」といった抽象的なお題目を唱えるわけだが、エビデンスはどう答えてくれるのだろうか。
日本語文献の探し方
先ほどのエビデンスのヒエラルキーに沿って、まず探すべきは系統的レビューの結果を探したい。
試しにJ-STAGEから日本語の文献を探してみよう。検索すべきトピックは「雇用 政策」、それに加えて系統的レビューやメタアナリシスを示す単語である、「系統的レビュー」「システマティックレビュー」「システマチックレビュー」「メタアナリシス」「メタ解析」のいずれかを含む論文を実際に検索してみた。その結果得られた全文献のタイトルは図表58に示す通りである。

タイトルだけ見てもわかるように、この中にはまったく雇用関係の政策を系統的にレビューしましたという研究はない。
では次のエビデンスレベルであるランダム化比較実験ではどうだろう? ランダム化という言葉を使えばおそらくこうした研究が見つかるはずである。
これでも雇用関係の研究は見つからない。「雇用 政策」という言葉が入っているにもかかわらず、これらはほとんど医学研究ばかりであり、どうやら日本でランダム化を研究に取り入れているのは医学分野の生物統計家だけではないかということが示唆される(図表59)。

では観察研究ではどうだろうか?
「雇用 政策 ヘックマン」で検索してみると、「書評」とだけ書かれた文献と、「農村女性問題と地域活性化」という文献が見つかる。やはりこれも求めていたものではない。ちなみに「ヘックマン」を「傾向スコア」や「プロペンシティスコア」に変えるとヒットする文献数はゼロである。観察研究の中でも少し高度な因果推論を行なったものは見つからないようである。
そこで「雇用 政策 回帰分析」で検索すると240件と、ある程度の数の文献が見つかるようになった。これらを丁寧に見ていけば失業に関連する要因は何かといった回帰分析の結果が見つけられるかもしれない。
英語文献の探し方
とは言うものの、全般的に日本語文献にはあまりよい統計学的な実証研究が少ないようである。そもそも、日本語で書いた論文は日本人しか読まないが、英語で論文を書けば世界中の人が読むためインパクトが大きい。そのため、大学という組織においては英語の文献を書くことのほうが評価の対象とされやすい。日本語で論文を書く意味があるとしたら、日本人向けに日本特有の問題や概念を説明したい場合か、日本の論文雑誌側から「こういう内容を読者に説明する解説論文を書いてください」と依頼された場合、あるいは研究者が壊滅的に英語を書けない場合ぐらいである。
したがって、日本人の研究者が我々の求めているようなエビデンスを作っていたとしても英語で書いている可能性はある。そこで英語を恐れず、Google Scholarで先程と同様の検索をしてみよう。
やるべきことは先ほどの単語を直訳して検索すればいいだけだ。雇用はEmploymentで政策はPolicyである。システマティックレビューを探すなら“Systematic Review”か“Meta-Analysis”という単語を、ランダム化比較実験を探すなら“Randomized”という単語を、観察研究なら“Heckman” “Propensity Score” “Regression”といった単語を用いればいい。
実際にGoogle Scholarで“Employment Policy Meta-Analysis”と検索してみると“Active Labour Market Policy Evaluations: A Meta-Analysis”というタイトルの2010年に書かれた論文が見つかる。直訳的に読んだだけでも「労働市場政策の評価」に関するメタアナリシス論文、つまり最上位のエビデンスであることがわかるだろう。
英語が得意ならこの論文の冒頭に書かれているアブストラクト、つまり要約を読んでみればいいし、もしそうでなければこの文章をGoogle翻訳にかけてみるというやり方もある。おそらくは以下のような翻訳結果が得られるはずだ。
(中略)
プログラムの種類を比較すると、補助金、公共部門の雇用プログラムは、少なくとも影響好調見積もりを持っています。就職活動支援プログラムは、教室のに対し、比較的良好な短期的な影響を持っており、オン・ザ・ジョブ・トレーニング・プログラムは、短期よりも中期的には良い結果を示す傾向にある。
これだけでも1995年から2007年にかけて行なわれた199の政策プログラムを評価していることはわかる。また中略以降の文章に「有効な政策は何か」が書かれてあることも推察できるだろう。ここでは誤訳などの可能性も警戒して結論を下すことは保留しつつ、補助金(subsidized)、公共部門(public sector)、就職活動支援(Job search assistance)、教室の(classroom)、オン・ザ・ジョブ・トレーニング(on-the-job training)といった単語に注目し、政策の有効性に関する統計解析の表を見つければいい。
この論文では図表が最後にまとまっているが、その中に効果のあったプログラムの割合を示すものがある。その表の結果の要点をまとめると図表60のようになるだろう。

Estimateとは「推定する」という意味で、「N=」とはサンプルサイズの数を示す。また、Significantというのが「有意な」つまり「誤差とは考えられないレベル」という意味である、という統計学的な専門用語さえ知っていれば、英語が苦手でもこの図表の意味を理解することはそれほどむずかしくない。
つまり短期的なインパクト(12ヵ月以内)において有意にポジティブな結果を示していた政策は、短期的な指標を評価していた全部で183のプログラムのうち39.3%であり、同様にこのうち32.8%は「誤差の範囲」、27.9%がむしろ「有意にネガティブ」だった。
中期的(24ヵ月以内)あるいは長期的(36ヵ月以上)評価を行なっていた政策はこれより少ないが、「有意にポジティブ」な政策の割合は増え、過半数となっている。どうやら雇用政策というのは、うまくやればきちんと成果を実証できるものと言えるようである。
また、プログラムの種類別に、中期的な政策の効果を示す回帰分析の結果を示している表もあった。
この表にはそれぞれ6種類の回帰モデルが示されているが、プログラムの種類による効果の違いに注目したモデル(2)と全変数で調整したモデル(6)さえ見れば「どのような政策に効果が見られるのか」がわかるはずだ。その結果の要点だけを抜き出すと図表61のようになる。

表の説明を見ると、Ordered Probit Models for Sign/Significance~とあり、これは順序プロビット回帰という手法を使って、それぞれのプログラムが「誤差とは言えないネガティブな効果」「誤差の範囲」「誤差とは言えないポジティブな効果」のどれに該当する可能性が高いかという関連性を示している。順序プロビットとは、二値すなわち0か1かで示される結果変数に対して行なうプロビット回帰を、0か1か2かというような順序性のある結果変数に対して拡張したものである(同様の拡張がされた順序ロジスティック回帰というのも存在している)。
プロビット回帰の回帰係数はロジスティック回帰のように解釈がしやすいわけではないが、少なくともこの回帰係数がプラスなら雇用政策としてうまくいきやすいことを示しており、一方マイナスならうまくいきにくいという可能性が示唆されている。
すなわち、座学中心であろうがOJT形式であろうが、職業訓練のような政策プログラムは中期的な雇用対策として有効に機能する可能性が高い。職探しに関する支援も中期的に有効である。一般企業に対して雇用のための補助金を出す(subsidize)というやり方も悪くない。しかしながら、Public Sectorつまり行政や公益法人のようなものに対して雇用のための補助金を出すのは、あまりうまくいっていないらしい。
単語の意味を辞書で引きながらであったとしても、統計学に関する理解さえあれば海外の論文からここまでのことはわかる。それ以上のことを知りたければ、そこで初めて気合いを入れて「職探しの支援」や「一般企業に対する補助金」の具体的な内容に関して、論文の本文を読んだり、メタアナリシスの対象となった元論文を読み解けばよいのである。
明らかになる課題
このように統計リテラシーさえあれば、少し調べただけで建設的な議論がはじめられる。
日本においてもハローワークに行けば職業訓練をしているし、職探しを手伝ってもくれる。雇用に関連した企業への補助金だってすでにある。政治家や公務員たちだってボンクラではない。やるべき雇用政策を怠っているわけではないのだ。
ただし、この論文の中には分析対象となった政策研究の国別内訳も報告されていたが、我が国からはゼロという結果であった(図表62)。

現場の実務者や専門家である研究者がその成果を実証せず、彼らの仕事を批判する評論家や政治家がろくに論文も読まず、無責任な意見を述べる。一方、彼らの仕事を評価すべき市民側にそうした現状への問題意識がない。
これらをひっくるめて「日本全体での統計リテラシー不足」と言うことができるだろう。
統計リテラシーがなければ、ビジネスの問題と同様に社会や政治に関する問題についても、経験と勘だけの不毛な議論が尽きることはない。
日本全体で繰り広げられるこの「不毛な議論」を終わらせ、よりよい日本を作るためにも、あなたが本書で身に付けた武器と教養はきっと役に立つはずなのだ。