2026年問題でAIの学習データが底をつく？サム・アルトマン「巨大モデルへ突き進む時代は終わった」

2026年2月6日 7:00

　言語生成AIの学習モデルは冗長部分があるので、性能を維持しながら学習モデルの規模を圧縮することで、学習モデルを構築するための学習用データを減らせるという考え方です。

　もうひとつ有力な策は、従来のウェブや各種コンテンツデータベースから集めたデータに加えて、別の言語生成AIが生成したデータも学習に利用する方法で、データ合成と呼ばれています。特に英語以外の特定言語を重視した言語生成AIの構築では、一定の品質以上の文章データの確保が難しいとされています。

　実際、日本の言語生成AI開発プロジェクトには、従来の強化学習による学習用データのかさ上げに加えて、生成AIで作成した文章を学習用データとして付加しているものもあります。

　これはAIが別の生成AIの出力を学習している状況であり、その別の生成AIが間違った出力を行うと、それを学習したAIもその間違いを再生産してしまう可能性があります。しかし、現在のAI開発において、合成データの活用は避けられなくなっています。

　というのは、ウェブ上には生成AIが作り出した文章や画像、動画が増えてきており、生成AIがウェブ上のコンテンツを学習用データとして利用している限り、結果的に「別の生成AIが作り出した文章や画像、動画」を学習することは不可避だからです。

　学習モデルの構築において、AI開発者が「意図的に」別の生成AIの出力を利用することと、ウェブコンテンツ収集などの「結果として」別の生成AIの出力を利用することを比べたときに、前者の方が品質や対象をコントロールしやすいというのが、合成データを学習用データに使う理由です。

「データ合成」の
発展的な利用法とは？

　データ合成の発展的な利用法として、生成AIを自動運転AIに利用する事例を考えましょう。自動運転AIに求められる能力は多様ですが、最も重要な能力は、自動車から撮影した画像から、道路の構造や状況、例えば周辺の自動車や歩行者などを適切に把握して、自動車を制御することです。

　したがって、性能がいい自動運転AIを開発するには、道路の構造や状況の認識能力を高める必要があり、それには多様な道路の構造や状況に関する学習用データを集める必要があります。