しかし、AIエージェントは本当に機能するのでしょうか。実は、現在のAIエージェントは万能ではありません。カーネギーメロン大学(CMU)で実施した、AIだけで仮想企業を設立・運営させるという実験からは、AI自体の性能以前に、それを動かすための構造や前提条件に課題があることが浮き彫りになりました。
AIはどこでつまずくのか
CMUの「フェイクカンパニー」実験
CMUが実施した「フェイクカンパニー」実験――正式には「TheAgentCompany(TAC)」の実験(英語)は、AIエージェントが現実のオフィスワークをどこまで自律的にこなせるかを検証した、これまでにない大規模な試みです。
研究チームは、ソフトウェア企業の業務環境を丸ごとシミュレーションし、そこに営業、エンジニア、プロジェクトマネージャー、バックオフィス、財務、人事といった役割を持つAIだけを従業員として配置しました。エージェントは、チャットツールで同僚AIに質問し、ドキュメントを読み、コードを書き、タスク管理ツールで進捗を更新しながら業務を遂行する必要があります。まさに「AIが人のように働けるのか」を試す、非常に現実的な環境が整えられたのです。
この実験では驚くべき結果が出ました。最も優秀なモデルでも成功率は24〜30%程度にとどまったのです。例えば、Gemini 2.5 Proは30.3%、Claude 3.5 Sonnetは24.0%という水準でした。一見すると「AIはまだまだ実務に使えない」という評価につながりそうな数字ですが、重要なのは“なぜ失敗したのか”です。失敗の多くは、高度な推論ができなかったからではなく、むしろ人間なら自然に対応できる、ささいな障害に起因していました。







