この対談記事は、7月に慶應義塾大学三田キャンパスで開催されたイベント「トップランナー2人が語る データサイエンス・統計学の最前線」をもとに作成されたものです。
社会科学分野、特に政治学でのデータ活用を牽引するハーバード大学教授・今井耕介氏と、ベストセラー『統計学が最強の学問である』シリーズの著者・西内啓氏が、世界レベルのデータサイエンス・統計学の状況を存分に語り合いました。お2人だからこそ話せるデータ活用の実態や統計学の学習法などについて、全4回でお送りします。(構成:プレーンテキスト)

※イベントの全容はこちらのサイトで視聴できます。

2冊の本の共通点

西内:本日はよろしくお願いします。早速ですが、今井さんはどのようなきっかけでデータサイエンス・統計学の世界に入られたのでしょうか?

今井:私は高校の時から社会問題と数学の両方が好きだったので、大学に入学してから社会と数学を融合するような学問はないかとずっと探していました。大学3年の時にミシガン大学に1年間留学したのですが、そこでは日本で教えられていた社会科学とは違い、データを分析して社会問題に関する問いに答えるというアプローチが採用されていたんです。「これだ!」と感銘を受け、この道に入りました。西内さんはいかがでしょう?

西内:私は統計学の勉強をしたくて東大の医学部に行ったという、よくわからない進路なんです。よく誤解されるのですが、医師免許は持っていません(笑)。

私は数学が得意で、数学だけで東大に合格したようなものなのですが、数学と同時に「人間」にも興味を持ちました。医学部というのは、人間をソフトウェアとハードウェアの両面から分析する学問なので、そこで統計学を教えてくれるのだったらそれが一番いいかなと考えて、医学部を選択したんです。

対談させていただくにあたって、今井さんのご著書『社会科学のためのデータ分析入門』を改めて拝読したのですが、私の『統計学が最強の学問である』と意外な共通点がありますね。普通の統計学の教科書とは順番が違い、因果推論と(その一手法である)ランダム化比較実験が最初に書かれているんです。これはなぜなのでしょう?

※因果推論:事柄同士のが因果関係をデータから調べる方法のこと

今井:因果推論は社会科学においてとても重要な手法です。たとえば政策の効果を測る際に、政策Aと政策Bで結果がどのように違うのかということを統計学的に実証する必要があるからです。

有名な例を出すと、人種差別が実際に存在するのかどうかを調べるという実験があります、これは内容が全部同じで氏名だけを男性・女性・黒人・白人というようにいろいろ変えた履歴書を企業に送付し、それに対する返答を調査するというものでした。『社会科学のためのデータ分析入門』では、そういう話を最初に出して、社会科学を勉強するためになぜランダム化比較実験が重要なのかということを読者に伝え、統計学を勉強するための動機付けになるようにしたのです。

世界銀行やNGOでも活用されるデータサイエンス 【対談】ハーバード大学教授・今井耕介×統計家・西内啓(1)今井耕介(いまい・こうすけ)
ハーバード大学政治学部・統計学部の教授。東京大学教養学部卒業後、ハーバード大学政治学部で博士号取得。近著に『社会科学のためのデータ分析入門』(岩波書店)がある。

エビデンスの時代がやってきた

西内:もしかしたらランダム化比較実験をご存じない方もいらっしゃるかもしれませんので、補足しておきましょう。

ビジネスの分野では「ABテスト」と呼ばれることもありますが、医学の世界でいうと、薬の効果を測る時に、薬が効いたのか、あるいは自然に治ったのかというのを区別することは簡単ではありません。そこでランダムに、たとえば硬貨を投げて表が出た人にはある薬を使っていただいて、裏が出た人は同じ薬を使わないことにします。そのようなランダムな状況で、投薬するかしないかということでどれくらい患者の状況に差がついたのかによって薬の効果を実証しましょう……というのが、医学の世界で行われている「ランダム化比較実験」です。

今井:西内さんがおっしゃったように、同じ手法をさまざまな分野で使うことができるから統計学はおもしろいと思います。ランダム化比較実験を使えば、薬の効果を図ることもできますし、政策効果を見極めたり、人種差別が存在するかどうかというような社会的な質問に回答することもできます。

西内:そうですね。ランダム化比較実験は100年くらい前、農業の研究から始まりました。肥料の効果を調べるために、肥料を使うエリア、使わないエリアをランダムに定めて調査したのがはじまりと言われています。医学の世界では1990年代ごろから「エビデンスベーストメディスン」、つまり根拠に基づく医療という考え方が登場し、そのなかで統計学が使われるようになりました。

今井:政策評価の世界でも同じです。実際の政策の効果がどれだけあったのかというのを、統計を使い、実験をして評価するという研究が進んでいます。その政策がどれだけの効果をもたらしたのかということについて、官僚や政治家の方にエビデンスをもとにして主張してもらわないといけない時代になってきた、ということです。

世界銀行やNGOでも活用されるデータサイエンス 【対談】ハーバード大学教授・今井耕介×統計家・西内啓(1)西内啓(にしうち・ひろむ)
統計家。東京大学医学部卒業。著書の『統計学が最強の学問である』シリーズは計49万部のベストセラーとなり、日本統計学会出版賞を受賞。現在は株式会社データビークル代表取締役として、拡張アナリティクスツール「dataDiver」などの開発・販売、官民のデータ活用プロジェクト支援にも従事している。横浜市立大学客員准教授、青山学院大学招聘准教授も兼任。

プリンストン大学の統計学の授業も大人気に

西内:政治学の中ではいつ頃から、データ分析を活用する流れになったのでしょうか?

今井:おそらく1990年代頃からです。それまでの政治学は、政治学者として実際の事象に対する自分の意見を述べる学問が主流でした。それに対して90年代ぐらいからデータを使った実証分析をすべきという潮流がだんだん出てきたんです。さらに2000年以降インターネットを通じてだれでもデータをダウンロードできるようになり、それを使った研究が盛んになりました。
私の以前の勤務先であるプリンストン大学での統計学の授業も、5年ほど前までは受講生が30人〜40人程度しかいませんでしたが、今では250人ぐらいになっています。文系理系問わず、ビックデータをどう活用するかという勉強をして、キャリアにつなげていこうとする学生が増えました。

西内:実際のところ、政治家や官僚のような、政策を作る側のエビデンスに対する意識はどれくらい変わってきたのでしょうか?

今井:世界銀行などの国際的な分野では、自分たちが推薦する政策の効果を、寄付してくださる方たちや政府の方たちに示さなければならないという意識が出てきています。ですが、日本では社会実験を使った政策評価というのはまだあまりないように感じられますね。

西内:そうですよね。世界銀行というと、アフリカへ井戸を掘りに行く、「ウィ・アー・ザ・ワールド」のようなイメージを持たれている方もいらっしゃるかもしれませんが、今は徹底的にデータを使っています。

今井:はい。NGOの方たちも予算をとるためには、寄付をしてくれる人たちに自分たちがやっていることの影響力を示さないとなりません。

たとえば、「アフガニスタンでの職業訓練プログラムが、実際に現地の人たちの就職率にどれだけ影響しているのかをデータから示す」というようなことを、学者と一緒にやるようになりました。日本ではまだなかなかそういう機運が出ていませんが、これからどんどん必要になってくるのではないでしょうか。

西内:エイズ対策でアフリカに病院を設立するという話を耳にすることがありますが、エイズ専門の病院を建てたところ各地域の住民の健康状態がとても悪くなったということすらあるそうです。

アフリカの田舎の地域は村に看護師さんが1人いて、その人ががんばって医療を支えているようなところもたくさんあります。ところが、エイズ専門の大きな病院ができてしまうと、そこに就職したほうが収入がよいということで、地域の医療の専門家たちがそこに集まってしまうという。その結果、エイズ以外の病気をケアする人が地域から減ってしまった……と。善意に基づいていても悪いことってあるんですね。

今井:自分ではいいと思ってやったことが、悪い効果をもたらすこともありますね。今、インド政府が貧しい人だけに与えている健康保険を、貧しい人以外にも拡張しようと考えているのですが、一斉に増やすと何が起こるかわからないので、ある村では20%の人に、他の村では40%の人に健康保険を与えてみる、というように地域でランダム化して割合を変えて、効果を計測するという研究をしています。

このように、政府と学者が研究プロジェクトを一緒に進め、その結果に基づいて政策を決めていく国が増えてきていますので、日本もそうなってくるといいなと思います。 (続く)