アナリティクスに不可欠なW型人材像

 昨年暮れ、Data Scientist Workshop 2012という有料セミナーが都内のホテルでEMC社主催で開催された。有料にも関わらず120名枠の応募に200名を超す参加者と20社を超すメディア関係者が集まる盛況ぶり。主催者からは、前日にカンファレンスルームを大幅に移し替える程だったとうかがって、いよいよデータサイエンス時代の幕開けを裏付ける象徴的なセミナーになるなと実感を持った。

 講演には多くの有識者が登壇した。統計数理研究所の丸山宏副所長の基調講演から始まり、筆者は処理基盤、自然言語処理と多変量解析のスキルの複合的な経験による目利き力育成の重要性を説いた。大規模データのアナリティクスについて、企業の多くが、IT担当者に業務・業界知識を覚えさせれば分析できると簡単に考えておられるようだが、筆者は真正面からそれでは無理ですと答えるようにしている。

 そもそも、探索的データ解析と、多変量解析におけるモデル構築を一緒くたに考える方が多い。しかし、これらに求められるスキルは異なる。それぞれのプロセスは非常に奥が深く、経験を積んで初めて体得できる。

 機械学習から多変量解析モデルを構築するプロセスにおいても、取り込みデータの分布を考慮した学習データと検証データを分割し、オーバーフィッティング(モデル構築の際に学習データの特徴を過度に取り込み、過剰に適合している状態を表す)を避けながら検定を繰り返し、検証データを運用プロセスに落とし込み、効果を創出して最適化プロセスを実践していくという複雑な作業工程を経なければならない。

 この最適化において重要なのは、単にモデルの予測精度を高めることではない。業界やサービス領域の専門性を軸足としたプロセス・運用設計が求められる。ゆえにその難易度は増すのである。これがデータサイエンティストに求められる作業スコープの定義であり、こうした区別ができない分析担当者は、単なる定量分析が得意な人材の域を超えることはできず、組織を牽引することはないだろう。事実、講演後の参加企業の方々から寄せられた声で圧倒的に多かったのが、組織・運用設計をどう実現するかという課題についてだった。

 ITベンダーの広報誌や新聞・雑誌媒体への取材においても同様の質問をよく受ける。筆者はこれに対し、「W型」要素を持ち合わせたデータサイエンティストの採用・育成を可能にする人事戦略および組織設計が必要になると考えている。下の図を見ていただきたい。

 Wは、その文字の形が表すように、とがった5つの専門性を表している。中でも非常に重要な要素は、抽出・集約・判定を横抜きで司る処理基盤(並列分散処理や、即時判定に必須となる「CEP(Complex Event Processing:複合イベント処理)」等)を理解した上で、その3つのプロセスを設計する技術力と、判定処理に必要となる統計モデリング(最適化も含む)の技術力の2つである。