“思い込み”の政策が「ゆとり世代」のような不平等をつくり出す

シリーズ38万部を突破したベストセラー『統計学が最強の学問である』著者・西内啓氏が、さまざまなゲストと統計学をめぐる対談を繰り広げるシリーズ連載。今回のゲストは、教育分野における「エビデンスベースト」の重要性を説き、注目を浴びる気鋭の経済学者・中室牧子氏。世界銀行などでの勤務経験から得た知見をお話しいただきます。

日本の教育にもランダム化比較実験を！

中室アメリカでは、早くから教育政策にエビデンスを活用する流れが定着しています。たとえば、「史上最も重要な調査」との呼び声が高いスタープロジェクト（Student Teacher Achievement Ratio Project）は、1985年から89年にかけて米国のテネシー州で行われたランダム化比較試験です。ランダム化比較試験については、西内さんの『統計学が最強の学問である』でも説明されていましたね。

中室牧子（なかむろ・まきこ）1998年慶應義塾大学卒業。米ニューヨーク市のコロンビア大学で修士号と博士号を取得（MPA/MPhil/Ph.D.）。専門は、経済学の理論や手法を用いて教育を分析する「教育経済学」。日本銀行や世界銀行での実務経験があり、日本銀行では、調査統計局や金融市場局において実体経済や国際金融の調査・分析に携わった経験をもつほか、世界銀行では，欧州・中央アジア局において労働市場や教育についての経済分析を担当した。

西内はい。例えば研究参加者をＡグループ、Ｂグループの2つにランダムに分けて、Ａグループだけに新しい薬や教育方法を試した結果、どのような違いが生じるかを比較する実験のことですね。

中室この実験では、79の公立幼稚園・小学校を、1学級あたりの生徒数が13～17人の少人数学級となる学校と、1学級あたりの生徒数が22～25人の学級となる学校にランダムに振り分け、少人数学級が学力を上昇させる効果をもつかを検証しようとしました。事後的に13～17人の少人数学級が割り当てられた子どもらと、22～25人の通常学級が割り当てられた子どもらを比較すると、13～17人の少人数学級は学力が高いことがわかりました。特に幼稚園から小学校低学年の低年齢の子どもらと黒人の子どもらに対する効果が大きかったのです。

西内少人数学級は効果あり、という結果が出たのですね。

中室そうなんです。しかし、ここでもう一度、前回お話した「経済にはトレードオフがある」ということを思い出してほしいのです。少人数学級には子どもの学力を上げる効果がありますが、少人数学級政策を実施すると、お金や資源が限られている以上、ほかに実施できなくなってしまう政策があるわけです。そういった政策と、学力を上昇させる効果を比較してもなお、少人数学級は投資価値のある政策だといえるのでしょうか。海外の研究をみてみると、どうも少人数学級は、他の政策と比較して費用対効果が低いようだ、ということがわかっています。

西内なるほど。クラスの人数をそれ以外にするとどういうことになるかという研究もあるんですか？

中室一方で、人数が少なくなりすぎると、正のピア効果（同級生から自分とは異なる意見を聞いたり、競争によって刺激を受けたりすることによって、お互いを高め合う効果のこと）が失われる可能性もあります。

西内クラスの中に、ちょっとしたダイバーシティが生まれる、ということですね。

中室そうなんです。このため、学級規模は何人が適切かということは、一概には言えません。多すぎても少なすぎても、効果が薄れてしまいます。テネシー州のランダム化比較試験ほど大規模なものである必要はないと思いますが、日本でも教育分野での社会実験に対して、国民の寛容さが求められる時代が来ていると思います。海外では、例えば「学力の向上」という政策目標があったとすると、少人数学級や、放課後学習、習熟度別学級など複数の政策の評価を行うためのランダム化比較実験を実施し、それぞれの政策についての費用対効果を算出します。そして、最も費用対効果が高い政策に、集中的に予算を配分しています。これがまさにエビデンスベーストの教育政策の標準的な姿だと思います。

西内日本でもせっかく多くの大学の教育学部が付属学校というフィールドを持っているのに、こういうところでちゃんとしたランダム化比較実験って行われないものなんでしょうか？

中室必ずしも実験校を作る必要はないかもしれません。慶応義塾大学経済学部の赤林英夫教授らが、横浜市に対する情報開示請求を行って、横浜市の全国学力学習状況調査のデータを分析したところ、少人数学級が学力にもたらす因果効果は小学生の国語にしか観察されず、他の学年や科目については一様でなかったという結論を得ています。この研究は、ランダム化比較実験ではありませんが、ランダム化比較試験とよく似た状況が再現されていることから、「疑似実験」とか「自然実験」と呼ばれます。実験として設計されたわけではないが、「あたかも実験したかのような状況が再現されている」ということです。データが開示されれば、実験校でランダム化比較試験を行わずとも、統計学的に信頼できる分析というのは可能だと思います。

西内文化や歴史の違いもあるかもしれませんね。アメリカは歴史的に読み書きの習熟率が低く、その向上が国としての大事な政策課題です。ブッシュ政権が2002年に署名をした「落ちこぼれ防止法（No Child Left Behind）」から教育分野の研究も大きく変わってきた、という印象を持っています。

中室まさにおっしゃるとおりです。「落ちこぼれ防止法」が施行されたときに、この法律の中で、実に111回も用いられている言葉が「科学的な調査研究（scientifically based research）」です。2002年に施行された「教育科学改革法（Education Research Reform Act）」において、自治体や学校が連邦政府から予算を得るためには、エビデンスに基づく評価が要請されたことにより、エビデンスベーストの教育政策が定着したといわれています。
アメリカらしいのが、教育省は「落ちこぼれ防止法」の中で、「エビデンスとはランダム化比較試験に基づくもの」であると明言しており、「エビデンス＝ランダム化比較試験」という図式が成り立っているといっても過言ではありません。日本のように、省益に照らして、都合のよいデータをプレゼンテーションするのは「エビデンス」だと認識されないということです。

西内ちなみに、そこまでランダム化比較実験に重きを置く、つまり疫学的な観察研究の結果がエビデンスとして認められにくいというのは、何か教育に特有の事情があるんですか？

中室少なくとも教育を分析するうえで最も深刻なバイアスは「セレクション」によるものです。これがあるがゆえに、相関関係はかならずしも因果関係を意味しません。ですから、アメリカの教育省がランダム化比較実験を重視しているのは、政策の因果効果を厳密と評価できているのか、ということであり、因果効果があると立証されたものを政策に反映しようとしているのだと思います。