日々、膨大な量のビッグデータと向き合い続けるデータサイエンティストたち。インターネットの時代に誰も見ていないネットの行動からは、秘めた願望、恋愛、性的志向、偏見がダダ漏れだ。そんな生のデータを見つめ続けているデータサイエンティストたちなら、人間の本性がまるわかりのはず。信頼できるデータを元に、結婚相手選びなど人生における大きな決断をすれば、幸せになれる確率も高いはず? 世界最大級の出会いサイトのデータサイエンティスト、クリスチャン・ラダーが書いた新刊『ハーバード数学科のデータサイエンティストが明かす ビッグデータの残酷な現実』をネタに、ニュース配信サービス「スマートニュース」のデータサイエンティストたちに語ってもらった。(構成・松崎美和子、撮影・寺川真嗣)
データサイエンティストの仕事は門外不出。
だからここまで赤裸々なのはすごい
――独自のアルゴリズムを使って多くの人が読みたくなるニュース記事を選定し、配信し続けているスマートニュースですが、データサイエンティストの仕事として、アルゴリズムに反映するためのビッグデータ解析は欠かせないものなんですよね?
西岡:そうですね。ユーザーに適した記事を配信するために、ビッグデータの傾向分析やキーワード解析は毎日のように行っています。その結果をアルゴリズムに落とし込んでより良いサービスを目指しているわけですが、エンジニア個人のレベルではもっと様々なデータを見ていたりもするんですよ。
スマートニュース株式会社 マネージャ データサイエンス・マシンラーニング担当
2003年京都大学大学院情報学研究科複雑系科学コース修了。ネットワーク機器メーカーに入社、2005年上半期の未踏ソフトウエア創造事業「スーパークリエータ」に認定される。その後、株式会社四次元データWeb技術研究部を経て、2008年に楽天株式会社に入社。レコメンデーションエンジンをはじめとして先端技術の研究開発をリードする。2014年9月にスマートニュースに入社してからは、ニュース配信のチームマネージャーとして、大量のインベントリ(記事の在庫)のなかからユーザーに適したものを配信する作業を担当。
小田秀匡(中央)(おだ・ひでまさ)
スマートニュース株式会社 エンジニア/データサイエンス・マシンラーニング
2011年東京大学理学部数学科卒業。2013東京大学大学院数理科学研究科修士課程修了。カブリ数物連携宇宙研究機構(Kavli IPMU)で数学(数理物理学)を専攻。同僚の西尾とは同じ院生室。日本生命保険相互会社を経て現職。日本アクチュアリー会準会員。スマートニュースでは、関連記事のサジェスチョンや、海外の記事の配信国籍判定などを担当。インテリ系エンターテイナー。
西尾亮一(左)(にしお・りょういち)
スマートニュース株式会社 エンジニア/データサイエンス・マシンラーニング
東京大学理学系研究科物理学専攻。Ph.D(素粒子理論)。ポスドクを経験後、スマートニュースに入社。ログ集計基盤と機械学習を活用してユーザーの行動分析を行いながら、スマートニュースの配信記事を決定するアルゴリズムの開発を担当している。
小田:エンジニアの性として、とにかく気になるデータを見つけたら、どう役に立つかわからなくても深堀りしたいという気持ちが抑えられなくなる部分はありますね。データを見て分析すること自体が好きなんです。日々色々なデータを見つめて集計をかける。それを蓄積していくと、ある日、全く関係ないように見えたデータ同士から、意外な真実が浮き上がってきたりすることもありますから。
西岡:ただ、そうして得た結果を共有するのは、弊社の場合はあくまで社内のみのこと。内部ウィキペディアのようなものがあって、そこにデータサイエンティストたちが分析結果を各々が書き込んで、みんなで「なるほど、ふむふむ」と共有して学ぶだけで表には出しません。この本で著者がやっているような情報開示は、日本では難しいのが現実です。
小田:私たちが扱っているデータは、ユーザーの傾向と記事の特徴の関連性など、あくまでも「より良いサービスや会社の利益に直結するためのもの」という明確な理由が必要です。エンジニア個人としては、新しい分析結果を発見したらワクワクしますよ。でもだからといって、例えば僕がこの本の著者のように、手に入れたメール文の内容をブログに書こうものなら訴えられてしまいますし大問題になってしまいます(笑)。見せたくても見せられない。一企業のこうしたデータが公にされることはありえません。でもこの本では、そういう細かいデータ自体が惜しげもなく公開されているんですよね。そのこと自体が新しいし、とても意味があることだと思いました。
西尾:そういう意味で言えば、僕が一番おもしろいなと思ったのは「魅力的だと思う異性の年齢」の話ですね。
――「ウッダーソンの法則」のことですね。女性は30歳までは自分より少し上の男性を好む傾向にあるけれど、40歳に達した後は年齢が上がっても40歳くらいの男性を魅力的に感じる。それに対して男性はほぼすべての年代で、20~23歳の女性しか魅力的に感じないという……。
西尾:これは直感を証明したというか、意外性はない気もしますが、実際に集計したデータを数字で見せられると「すごい」という気持ちになりますね。
小田:この本の中では、なんとなくそういう気はしていたけれど、具体的な数字を見せちゃうんだというデータがたくさん出てきます。著者のように、自分の会社が蓄積したデータを分析した結果を公表することによって、我々が知りえない社会の在り方や隠された真実を明らかにできた実績は、とても大きいのではないでしょうか。人種に関する発言の分析なども本には出てきますが、ここまで載せてしまうなんてかなり踏み込んでいるなという印象ですね。しかも、それを「社会のためになる」という信念のもとでプラスの情報として公開しているのもすごい。プライバシー問題に厳しい日本では、マイナス面やリスクが大きすぎて難しいですから。僕たちにとっても興味深いデータの連続です!