この対談記事は、7月に慶應義塾大学三田キャンパスで開催されたイベント「トップランナー2人が語る データサイエンス・統計学の最前線」をもとに作成されたものです。
社会科学分野、特に政治学でのデータ活用を牽引するハーバード大学教授・今井耕介氏と、ベストセラー『統計学が最強の学問である』シリーズの著者・西内啓氏が、世界レベルのデータサイエンス・統計学の状況を存分に語り合いました。お2人だからこそ話せるデータ活用の実態や統計学の学習法などについて、全4回でお送りするうちの第2回です。(構成/プレーンテキスト)
※イベントの全容はこちらのサイトで視聴できます。
データサイエンス・統計学をどう教えているか
今井:一番重要なのは、統計やデータ分析が分かる人材を育てて、いろいろな分野に送り込むことだと思うのですが、日本ではどうしたらよいのでしょうか?
西内:私は医学部の世界で、健康政策や健康に効果があることのデータ分析はやったほうがいいとずっと言ってきたのですが、あまり統計学を教えられていない世代のえらい先生が、「世の中数字ではない」というようなことを言われたりするんです!
ですので、どちらかというと若くて、データを使おう・儲かるようにしようという意識がある方々のお手伝いをまずやろう、と思っています。
今井:私は自分の学部時代にいくつか統計の授業をとったんですけど、おもしろいと思った記憶があまりないんです。なぜだろうと考えてみると、授業の中で使われていた例がよくなかったんですね。
ですから自分の著書の中では、学生が問題意識から入って、勉強を進めるうちに「統計分析や回帰分析が出てくるのだけれども、それは本当はどういう意味なんだろう?」「じゃあ数学を勉強してみよう」……というふうに持っていくようにしました。
西内:私も、ビジネス書として統計学の本を出版するときには、できるだけ読み手の問題意識を刺激するようなたとえになるよう気を遣っています。社会科学を勉強したい学生さんたちが今井さんの本を読むと、自分の問題意識にマッチするはずです。もしかすると社会問題に興味がない人向けに、別のたとえで書かれた本があるといいのかもしれません。
今井:理想の統計入門の授業についてはいつも考えていますね。
今になって自分が大学でとっていた授業を振り返ると、ひたすら計算する授業が多かったのですが、それでは統計の本当のおもしろさは伝わりません。動機というのはとても大切で、なぜこれを勉強しなければいけないのかがわからなければ、やる気も起きません。
私の講義では実際の統計の手法を教えて、そのあとに社会科学、医療、農業など興味のあるテーマで学んだ統計手法を実践してもらっています。
ハーバード大学政治学部・統計学部の教授。東京大学教養学部卒業後、ハーバード大学政治学部で博士号取得。近著に『社会科学のためのデータ分析入門』(岩波書店)がある。
進む「オープンサイエンス」の流れ
西内:わたしは21歳ぐらいの時からデータ分析の仕事をしています。当時日本の医学の世界で統計学のできる先生は限られていて、特に私の師匠の大橋靖雄先生は、その中の貴重な一人でした。それで、医学関係ならばこの人に頼めばいいだろうという感じで、たとえば製薬会社のラジオCMの効果測定をしたいとか、遺伝子検査からのがんの再発を機械学習で予測したいとか様々な依頼があって、日本中から毎月のように新しいデータが来るんです。私はその手伝いのアルバイトをしていて、コードを自分で書いてデータをきれいにして、分析結果をクライアントにお渡しして……という生活をしてきました。そこで感じたのは、実データ、実際のデータの力はすごいということです。
今井:実データを扱うのはほんとに大変ですね。なぜ大変かというと、実データというのは「人間」に関するデータなのです。そして「人間」はめちゃくちゃなことをするのですよね。単に質問に答えない人もいますし、あるいはランダム化して実験をやっても、トリートメントグループ(ランダム化比較実験において、医薬品を服用するなどの介入を受けるグループ)でも、「俺はこの薬を摂るのが嫌だ」といって薬を摂取しない人がいたり、コントロールグループ(そうした介入を受けないグループ)でも「その薬を飲みたいから俺によこせ」といって言って友だちからもらってしまう人がいたりする。
データをどう補正していくかというのも統計のおもしろい部分ではありますが、それを学校で手法として教えられるとあまりおもしろくないんですよね。逆に自分から「こういうケースではどうやってデータを使えばいいのだろう?」と考えると、同じことを勉強していたとしても楽しくなることがあると思うんです。まず実際にデータを触らないとおもしろさがわからないし、大変さもわかりませんからから、皆さんも本を読むだけではなくて、まず実際にデータを触っていただいて、データ分析者になってほしいなと思いますね。
西内:以前ハーバード大学に客員研究員として留学させていただいた時に、政治学部のゲイリー・キング先生の授業についてのお話を伺いました。政治学は今必ずデータをオープンにしなければならないことになっているのですが、そのデータを使って学生に論文とは違う結論を導くような実験をさせるそうなんです。
この授業の何がすごいのかというと、まず実データを触るのがとても勉強になります。また、データの補正の方法や、説明変数を入れる、入れないなどの操作によって、結論が逆方向になるという恐ろしさを体験することができます。そして、授業の様子を絶え間なく第三者にオープンにすることで、みんなで研究をしていくんだという倫理性を教えることもできます。さらに、著名な論文の結論が逆転しうるっていう分析結果があると、若いうちから論文の出した業績が生まれることもあるわけなんですよね。ゲイリー・先生どんだけキングどんだけクレバーなんだよと。このような授業は他にもあるのでしょうか。
今井:そうですね。最近オープンサイエンスといって、ほかの学生が同じデータを分析したり、同じ実験をしたときに、同じ結論が導き出されるかどうかという研究が非常に盛んになっています。
以前、政治学ではすごく有名なジャーナルで、大学院生が行ったフィールド実験において、大学院生自身がシミュレーションした人工データをあたかも自分で測定したデータであったかのように装ったというスキャンダルがありました。
私は学生にそのことを伝えないで、このデータを分析しなさいという宿題を出しました。学生が250人ぐらいいると、ひとりふたり、すごく頭の良い学生がいて、「先生、この変数とこの変数を比べると全く同じなんです。私のやってることは何かおかしいでしょうか?」と質問をしてくるんです。
私はこのようにして「ちゃんとグラフを作ると、実験で得られたものではなくて人工のデータだということがわかってしまうよ」と教えているのですが、同じ趣旨で、データもコードも全部公開して皆で分析して、きちんとした知識を作っていこうという流れが強くなっています。
統計家。東京大学医学部卒業。著書の『統計学が最強の学問である』シリーズは計49万部のベストセラーとなり、日本統計学会出版賞を受賞。現在は株式会社データビークル代表取締役として、拡張アナリティクスツール「dataDiver」などの開発・販売、官民のデータ活用プロジェクト支援にも従事している。横浜市立大学客員准教授、青山学院大学招聘准教授も兼任。
政治学の中で統計学の重要性を説いた学者
ゲイリー・キング
西内:先ほど、ゲイリー・キング先生のお話が出ましたが、彼が書いた教科書(「Designing Social Inquiry」邦題:社会科学のリサーチ・デザイン)という書籍の中で統計学や因果推論の重要性が書かれていて、それが政治学の流れを大きく変えたと伺いました。そのあたりのことを教えていただいてもよいでしょうか?
今井:そうですね。その書籍が出版されたのは90年代の半ばぐらいです。それまでは因果推論まで考えて実証研究をしている人は少なかったんですけど、それをもう少し系統的にやっていこうという、データ分析の研究だけじゃなくて質的な研究においてもそういうことをやっていこうという流れを作ったのがあの本だったと思います。
西内:政治学の分野では、「この国にはこのような制度があり、だからこのようになった」という書き方をした専門書が主流だったところに、「ある制度を採用している国は何カ国あって、その中の何パーセントがこのようになっている」という、因果推論に言及したわけですね。
今井:私は94年に大学に入学したのですが、ちょうどその頃に出版された本で、何かの拍子で読むことになって、読み始めたらおもしろいんですよね。政治学というのはそれまで、どうしても評論家が書くような感じの論文が多かったのですが、この本を読むと、そういう質的な研究でももう少し科学的にできるんだよということが書いてありあした。
その時はあまり英語ができなかったので、辞書を引きながら最初のページから最後のページまで読んだんですよ。それで大学院生でハーバード大学に行った時に、ゲイリー・キング先生ご本人にそれを言ったら、なんでお前はこの本を全部端から端まで読んだんだ、ほかにもっとおもしろい本があるだろうと言われてですね(笑)。
西内:10代の若者が(笑)
今井:英語でもっとおもしろい本があるから、違う本を読めって言われたんです(笑)
西内:いい人ですね。この本は日本語訳も出ているので、私も大学院生か何かの時に読みまして、政治学でも定量的にものを見ていくということが大事なのだと思いました。私はニュース番組でコメンテーターもしているのですが「これからは心の時代ですからね」とか「現代社会の不安がこのような犯行を呼び起こしたのでしょうか」というふわっとしたコメントは絶対しないように気をつけています(笑)。(続く)