データサイエンティストにも統計学を押さえてほしい

――なるほど。統計学の志望者は増えているということですが、教育する側の動きはどうでしょうか?

竹村 社会的にも求められている「データサイエンティスト」を育てていこう、制度を作っていこうといった動きはあります。つまり、伝統的な統計学ではなく、ウェブデータの解析や機械学習のほうへシフトした統計学です。統計学をコアとしつつも、新たなデータサイエンティスト教育を進めよう、ということですね。

西内啓(にしうち・ひろむ) 東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。 著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。

西内 ビジネスの現場では、データサイエンティストというと、「あらゆることができる人」といったイメージを持たれていることが多いように思います。

竹村 そうですね、データ解析もできて、コンピュータにも強くて、ビジネス現場にも明るいというスーパーマンです。実際には、それを1人で全部できる人は、まずいないでしょう。ただ、そういう人材を育成するためのプログラムは求められています。それは「統計学にとってのチャンス!」と捉えたほうがいい。そして、その中で「データサイエンティストにとって、統計学の考え方は非常に大事だよ」と強く言っておかないと。「統計解析はR(R言語)を使えれば、中身はブラックボックスでもいいんだ」みたいな話になっていくと危険です。

――どのように危険なのでしょうか?

竹村 1つの部品のように扱われるのが一番怖い。統計学の背景にある考え方とか、判断基準ですね。とくに解釈が分かれる所などは統計学では重要ですが、それらがすべて無視されてしまう可能性がある。その辺を理解してもらったうえで、仕事に使ってもらいたいところですが、現状はかなり難しいと思います。

西内 要するに「何が言えて、何が言えないか」を理解しておくことが大事だと思います。実際に自分でデータ分析とそれに基づくコミュニケーションを試みると、教科書の中ではあまり言及されないような難しい判断が求められることもたくさんあるんですよ。でも統計学的な背景をしっかり押さえておくと、そうした時に自分の頭で答えを出すことができるようになる。たとえば、「こんなことが限界としてあるから、ここまでは言えない」とか、「この範囲内なら、これはたぶん正しいだろう」というように。これはいわゆる機械学習と言われるような分野においても当てはまると思います。

 ところが、です。たとえばRにはライブラリと呼ばれるさまざまな分析機能がいっぱい入っていて、何かの条件を設定したり、必要なデータを入れさえしたりすれば、各ライブラリが答えを自動的に出してくれます。その手法の本質を全く理解していない人でも、とりあえず何らかの解析結果を出せるということです。そのとき、背景にある理論や限界を押さえていないと、「この答えで、そこまで言っちゃってホントに大丈夫か? おかしくはないか?」と一歩下がって考えられない。だから、ちょっと分析ツールの操作をかじっている程度の人が出してきたレポートを信じて経営判断をするのはたいへん危なっかしいことだと思います。