楽天の執行役員であり、物理学者でもある北川拓也さんをゲストに迎える『統計学が最強の学問である』発刊1周年記念対談。後編はいよいよ統計学のビジネスへの応用についてです。ハーバードで理論物理学を専攻していたときから、統計学の専門家である西内さんにさまざまなことを相談してきたという北川さん。本対談でも、楽天のデータサイエンスチームを率いるなかで生まれたアイデア、疑問をどんどん西内さんにぶつけていきます。そんな北川さんがたどり着いた「データサイエンスは組織論だ」という結論には、いったいどういう意味が込められているのでしょうか。(対談:2014年1月22日/構成:崎谷実穂)

寄与度について考えないと、世の中の身長は2種類になる

北川 ある現象を説明するときに、因果関係のある要因がいっぱいあって、要因を1つ見つけたからってほとんど何も説明できないっていうときもありますよね?

西内啓(にしうち・ひろむ)
1981年生まれ。東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバード がん研究センター客員研究員を経て、現在はデータに基いて社会にイノベーションを起こすための様々なプロジェクトにおいて調査、分析、システム開発および戦略立案をコンサルティングする。著書に『統計学が最強の学問である』(ダイヤモンド社)、『サラリーマンの悩みのほとんどにはすでに学問的な「答え」が出ている』(マイナビ新書)、『世界一やさしくわかる医療統計』(秀和システム)などがある。

西内 それぞれの要因の寄与度の問題だね。◯◯に関係する遺伝子が発見されたっていうニュースがたまにあるけど、そういうときに寄与度が議論されていることはあまりない。関連遺伝子が1つ見つかったからといってすべて説明できる、もしくはコントロールできるというのは誤解だ。仮に身長が1つの遺伝子で説明されたら、世の中には2種類しか身長がないことになる。高い人か低い人かの2択。

北川 それはおもしろい(笑)。

西内それとちょっとだけ、誤差があると思うけどね(笑)。でもそうじゃなくて、日本人の身長のグラフが正規分布を描くっていうことは、めちゃくちゃ大量の変数が関わってるということなんだ。

北川不連続な説明変数で、連続したアウトプットが出てくるわけないですよね。それって、説明変数がいくつくらいあったら、正規分布のグラフになるんですか?

西内だいたい10~20個もあれば、正規分布っぽくなるんじゃないかな。身長に関係する遺伝子は既に発見されてるけど、寄与度としてはとても全体を説明できるようなものじゃない。単純に考えて、首の長さや足の長さなど、身長に関係ありそうな部位を足し上げただけでも、説明変数の量はかなり多くなりそうだよね(笑)。

北川そりゃそうですね(笑)。

西内でも、寄与度が低いけど重要な変数というものもある。遺伝子などはまだ説明されていない部分がたくさんあるけど、限定的なデータの解析で主要な説明変数がだいたい解析されつくした後だったら、寄与度が低かったとしても、確実に効いている新たな説明変数を見つけることに意義があると思うよ。

北川 ECサイトのレコメンドエンジンの考え方はそうですね。一つの説明変数をいじって5%でも売上が上がったら、1兆円の総売上で500億円のプラスですから。これは、たかが5%とは言えない。

西内 売上が上がるようにレコメンドエンジンの予測モデルを最適化するのが仕事っていう“データサイエンティスト”は、けっこう世の中にいるよね。

北川いますよね。「情報を与えてくれたら、どういうものを誰に出せばいいか全部提案します」と言われるケースもあります。そういう場合、仕組みを聞いても「いやいや、お任せください」と言うだけで、何がどうなってるのか全然教えてくれないんですよ(笑)。

西内それ、どういう仕組みでレコメンド商品が決められてるのか、その人自身もわからないんじゃないのかな。僕は以前、ブラックボックスになってるマシンラーニングの中身を解析してくださいっていう依頼を受けたことがあるよ。ひたすら機械的に学習させてたら、どういうモデルで答えを生成してるのか、つくった人もわからなくなっていた(笑)。これを、何を入れたらどう返すモデルなのか、データから明らかにしたんだよね。

北川 そうそう、「なぜそうなるのか」が知りたいんですよ。それが洞察型のアプローチですよね。