ダイヤモンド社のビジネス情報サイト
統計学が最強の学問である
【第4回】 2014年3月14日
著者・コラム紹介バックナンバー
西内 啓

物理学者から見た統計学
――北川拓也×西内啓【後篇】
『統計学が最強の学問である』発刊1周年記念対談

1
nextpage

楽天の執行役員であり、物理学者でもある北川拓也さんをゲストに迎える『統計学が最強の学問である』発刊1周年記念対談。後編はいよいよ統計学のビジネスへの応用についてです。ハーバードで理論物理学を専攻していたときから、統計学の専門家である西内さんにさまざまなことを相談してきたという北川さん。本対談でも、楽天のデータサイエンスチームを率いるなかで生まれたアイデア、疑問をどんどん西内さんにぶつけていきます。そんな北川さんがたどり着いた「データサイエンスは組織論だ」という結論には、いったいどういう意味が込められているのでしょうか。(対談:2014年1月22日/構成:崎谷実穂)

寄与度について考えないと、世の中の身長は2種類になる

北川 ある現象を説明するときに、因果関係のある要因がいっぱいあって、要因を1つ見つけたからってほとんど何も説明できないっていうときもありますよね?

西内啓(にしうち・ひろむ)
1981年生まれ。東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバード がん研究センター客員研究員を経て、現在はデータに基いて社会にイノベーションを起こすための様々なプロジェクトにおいて調査、分析、システム開発および戦略立案をコンサルティングする。著書に『統計学が最強の学問である』(ダイヤモンド社)、『サラリーマンの悩みのほとんどにはすでに学問的な「答え」が出ている』(マイナビ新書)、『世界一やさしくわかる医療統計』(秀和システム)などがある。

西内 それぞれの要因の寄与度の問題だね。◯◯に関係する遺伝子が発見されたっていうニュースがたまにあるけど、そういうときに寄与度が議論されていることはあまりない。関連遺伝子が1つ見つかったからといってすべて説明できる、もしくはコントロールできるというのは誤解だ。仮に身長が1つの遺伝子で説明されたら、世の中には2種類しか身長がないことになる。高い人か低い人かの2択。

北川 それはおもしろい(笑)。

西内それとちょっとだけ、誤差があると思うけどね(笑)。でもそうじゃなくて、日本人の身長のグラフが正規分布を描くっていうことは、めちゃくちゃ大量の変数が関わってるということなんだ。

北川不連続な説明変数で、連続したアウトプットが出てくるわけないですよね。それって、説明変数がいくつくらいあったら、正規分布のグラフになるんですか?

西内だいたい10~20個もあれば、正規分布っぽくなるんじゃないかな。身長に関係する遺伝子は既に発見されてるけど、寄与度としてはとても全体を説明できるようなものじゃない。単純に考えて、首の長さや足の長さなど、身長に関係ありそうな部位を足し上げただけでも、説明変数の量はかなり多くなりそうだよね(笑)。

北川そりゃそうですね(笑)。

西内でも、寄与度が低いけど重要な変数というものもある。遺伝子などはまだ説明されていない部分がたくさんあるけど、限定的なデータの解析で主要な説明変数がだいたい解析されつくした後だったら、寄与度が低かったとしても、確実に効いている新たな説明変数を見つけることに意義があると思うよ。

北川 ECサイトのレコメンドエンジンの考え方はそうですね。一つの説明変数をいじって5%でも売上が上がったら、1兆円の総売上で500億円のプラスですから。これは、たかが5%とは言えない。

西内 売上が上がるようにレコメンドエンジンの予測モデルを最適化するのが仕事っていう“データサイエンティスト”は、けっこう世の中にいるよね。

北川いますよね。「情報を与えてくれたら、どういうものを誰に出せばいいか全部提案します」と言われるケースもあります。そういう場合、仕組みを聞いても「いやいや、お任せください」と言うだけで、何がどうなってるのか全然教えてくれないんですよ(笑)。

西内それ、どういう仕組みでレコメンド商品が決められてるのか、その人自身もわからないんじゃないのかな。僕は以前、ブラックボックスになってるマシンラーニングの中身を解析してくださいっていう依頼を受けたことがあるよ。ひたすら機械的に学習させてたら、どういうモデルで答えを生成してるのか、つくった人もわからなくなっていた(笑)。これを、何を入れたらどう返すモデルなのか、データから明らかにしたんだよね。

北川 そうそう、「なぜそうなるのか」が知りたいんですよ。それが洞察型のアプローチですよね。

1
nextpage
スペシャル・インフォメーションPR
ダイヤモンド・オンライン 関連記事
キーワード  西内啓
まいにち小鍋

まいにち小鍋

小田真規子 著

定価(税込):本体1,100円+税   発行年月:2016年11月

<内容紹介>
簡単で安くて、ヘルシー。ポッカポカの湯気で、すぐにホッコリ幸せ。おひとりさまから共働きのご夫婦までとっても便利な、毎日食べても全然飽きない1〜2人前の小鍋レシピ集!「定番鍋」にひと手間かけた「激うま鍋」。元気回復やダイエットに効く「薬膳鍋」や、晩酌を楽しみたい方に嬉しい「おつまみ鍋」など盛り沢山!

本を購入する
ダイヤモンド社の電子書籍
(POSデータ調べ、11/20~11/26)


注目のトピックスPR


西内 啓(にしうち・ひろむ)

東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。


統計学が最強の学問である

2013年1月に発売されるや、ビジネス・経済書としては異例のベストセラーとなり、統計学ブームの端緒となった『統計学が最強の学問である』。同書の発刊1周年と30万部突破を記念して行われた、著者の西内啓氏と二人の科学者[多摩大学情報社会学研究所所長・公文俊平氏、物理学者・楽天株式会社執行役員・北川拓也氏]との対談を公開する。

「統計学が最強の学問である」

⇒バックナンバー一覧