デジタルデータは
AIの燃料

 最近「データ・イズ・ザ・ニュー・オイル」といわれています。

 ずっと前からです(笑)。我々は、コンピュータが30年間で100万倍という進化を遂げ、人類が生み出すデジタル情報量が急増した現象を「情報爆発」と名付け、総勢500人の研究者が参画する文部科学省のプロジェクトを立ち上げ、人類史上初めて遭遇するデータの爆発的急増を直視しければならないと訴えました。これが2005年の時点です。アメリカで2億ドルの予算をつけた「ビッグデータ施策」が発表されたのが2012年です。いち早くデジタルデータの重要性について指摘したにもかかわらず、我が国がリードしているとはいえない状況はとても残念に感じます。

 コンピュータの基本機能とは、大まかに言うと「計算」と「記憶」の2つです。これをIT用語に置き換えると、前者はサーバー、後者はストレージです。日本のサーバーの使用量は世界と比べておおむね妥当な水準ですが、ストレージのそれは相対的に低く、伸び率もかんばしくありません。データを貯めるためにはそもそもストレージが必須ですので、この統計には意味があります。

 その理由は、日本企業の多くがデータの価値を正しく認識できていないからではないか、と思うのです。
 最近は“Data fuels AI”あるいは“Data is oil that fuels AI”といわれています。要するに「データはAIの燃料である」ととらえることが自然な時代になりました。私も、機会があるたびに、そう申し上げています。実際、多くの場合、AIアルゴリズムの改善よりも、燃料であるデータの量を増やすほうがAIのパフォーマンスに大きく貢献しています。つまり、品質の高いデータという燃料をどんどんと与えることが必須で、けちけちせずに、データインフラをリッチにすべきです。日本はやや節約気味かもしれないと憂慮しております。あちこちで、人間の職が奪われると叫ばれています。とはいえ、その中で確実に増えるのは、こうしたデータ関連の仕事だと思います。

 こうしたデータに関する「新しい現実」に適応していくには、データの価値を心底理解している必要がありますが、データというものは、自分たちが考えている価値と、自分以外の人たちが評価する価値が異なることも少なくありません。

 データの価値というものは、おっしゃるように、わかりづらい側面があります。ある目的のためにデータを収集する場合、その目的に沿って価値が規定されます。一方、そのデータが当初の目的とは異なる価値を生み出すこともしばしばあります。また、他のデータと融合させると、新しい価値が生まれてくることもよくあります。要するに、やってみないとわからないのです。

 そこで、こんなモデルはどうでしょう。我々学術機関はデータが足りない。一方、企業はデータをたくさん持っていて、実のところどんな役に立つのかわからないものもある。ならば、学術機関にデータを預けてもらい、一緒に使い回しましょう、と。そうする中で、いろいろな使い道が見えてくる。

 言い換えると、学術機関という中立的な媒介を通じて、多種多様なデータを蓄積し、これをAIに食べさせて、そこから新しい連携、発明やイノベーションを生み出そうというモデルであり、そこから新しい価値を創出しようという考えです。

 たとえば、我々は、DIAS(データ統合・解析システム)という地球環境のデータプラットフォームを長らく構築・運用しています。また、国土交通省よりXRAIN(高性能レーダ雨量計ネットワーク)からのデータをリアルタイムで受けています。当然、雨への備えに使っているわけですが、国立研究開発法人土木研究所の小池俊雄先生は、ダム操作による洪水防止に利用して、大きな成果を上げつつある。

 早稲田大学理工学術院の関根正人教授は、東京23区の下水管の満管率を計算し、アンダーパスの不通をリアルタイムに予報するシステムを構築しました。この情報は、一刻を争う救急車にとって極めて重要です。

 さらには、海洋研究開発機構(JAMSTEC)からの長期降雨予測データも利用至便が高い。農産物の予想による市場推定という生々しい応用もなくはないですが、長崎大学熱帯医学研究所の皆川昇教授は、アフリカのマラリア発生率推定に利用しています。

 このように、データプラットフォームがあれば、多くの研究者が自分の「夢」を実現しようとこぞって集まってくるのです。おそらく企業データも同じでしょう。