2026年問題でAIの学習データが底をつく?サム・アルトマン「巨大モデルへ突き進む時代は終わった」Photo:Justin Sullivan/gettyimages

AI学習に使用できる高品質なテキストデータが2026年までに枯渇すると予測されている「2026年問題」。このデータ不足の解消策の1つに、別のAIが生成したデータを学習に利用する「データ合成」という方法がある。AI開発においては遅れを取っている日本だが、この新たなフェイズにおいて、勝ち筋が見えるという。筆者が注目する自動運転AIの事例を紹介しよう。※本稿は、国立情報学研究所・情報社会相関研究系教授の佐藤一郎『2030 次世代AI 日本の勝ち筋』(日経BP)の一部を抜粋・編集したものです。

AIの学習データは
底をついてしまう

 AIの著名研究者のひとり、スチュアート・ラッセル氏(米カリフォルニア大学バークレー校教授)が、2023年7月の国際的標準化組織ITUのAI関連イベントで「AIの学習データが底をつく」と発言して話題を集めました。その背景には、AI業界で当時指摘されていた「2026年問題」があります。

「2026年問題」とは、言語生成AIの学習モデルの巨大化が進むと、そのモデルのための学習用データとして利用できる、一定の品質以上の文章データ、例えばニュース記事、論文、ウィキペディアなどは2026年で足りなくなるというものです。

 オープンAIのサム・アルトマンCEOは2023年4月、米MITのイベントにおいて「巨大モデルへと突き進んでいく時代は終わったと思う。我々は別の方法で改善に取り組んでいる」と述べていますが、これも一定品質以上の学習用データが不足することが念頭にあったといわれています。

別の生成AIによる出力が
混ざるのは避けられない

 現在、学習用データ不足の解消策がいくつか検討され、実行に移されています。

 そのひとつは、学習モデルの構造を見直し、モデルをコンパクト化することです。