ビッグデータから有用な分析結果を得るには、データの適切な取捨選択がカギとなる。そして、その「選球眼」を磨くにはつねに新しい知識をインプットしなければならない。元グーグル社員の筆者曰く、インプットの過程で重要なのは「わからない」ことを認める素直な姿勢だという。本稿は、山本康正、松谷恵『外資系データサイエンティストの知的生産術 どこへ行っても通用する人になる超基本50』(東洋経済新報社)の一部を抜粋・編集したものです。
ビッグデータはあなたの
会社にも眠っている
インターネットの登場によって情報の量は指数関数的に伸びました。GAFAの著しい成長のバックボーンにあるのがビッグデータの活用であることを否定する人はいないでしょう。
そうとわかっていても、「自社にはビッグデータなんてないから、データサイエンスを取り入れる土壌がそもそもない」と思い込んで足踏みしている企業は案外多いのではないでしょうか。
ですが、ちょっと考えてみてください。そもそもビッグデータとは何でしょう?ビッグデータとはその名の通り、巨大なデータ群です。ただし、単に量が多いデータという意味ではありません。ビッグデータは日々生成される多種多様なデータ群のことで、量だけでなく、種類の多さ、発生速度の高さという素質を兼ね備えています。
データサイエンスの世界でよく言われる言葉があります。
Garbage in, Garbage out!
直訳すると、「ゴミを入れれば、ゴミが出てくる」です。つまり、いくら膨大な量のデータがあっても、目的の本質を外したデータしかない場合、最新の分析ツールを駆使しても有用な分析結果は得られないということです。
取得されるデータが増え続けると、エラーや無関係なデータも多くなります。そもそもの目的に対し、どういったデータが必要か。分析にあたって、まずデータ要件定義をきちんと行うことが大事です。
その上で、取得された生のデータに含まれる必要のないデータ、破損したデータ、不正確なデータを特定し、整理する「データクレンジング」が必要となります。この作業を怠ると、分析の信頼性や一貫性が保証されないため、意味のない結論に導かれてしまうことも起こり得るわけです。
データの取捨選択には相応のスキルと経験が必要ですが、そのハードルの高さを遠目に見ているだけでは、データ活用はいつまで経っても向こう岸の出来事にしか思えないでしょう。そこで、重要になってくるのが、探索の力なのです。