その障害とは、画面に表示されたポップアップを閉じられず作業が進まないとか、同僚とのやり取りで相手の意図を読み違えるとか、会話の流れを理解できず必要な行動に移れないといったものです。

 時には、エージェントがタスクの難しい部分を省略して、近道を作ろうとすることもありました。チャットツールで連絡を取るべき相手を見つけられず、別のユーザーの名前を勝手に書き換えて目的を達成しようとしたケースなどです。これは、人間であれば常識で回避できる行動です。しかしAIには、その常識がまだ十分備わっていません。

 もうひとつ象徴的なのが、長期的な計画の維持が難しいという点です。エージェントは数ステップ先の行動までは推論できますが、タスクの全体像を捉え、方針を一貫して維持することが苦手です。その結果、タスクの途中で目的を見失い、必要な作業を飛ばしたり、逆にタスクを無駄に増やしてしまったりする現象が頻発しました。これは、現在のLLMエージェントが「その場の応答」には強くても、「業務全体を見渡す構造化された行動」には弱いことを示しています。

AIエージェントが
直面した3つの壁

 CMUの実験結果は、AIエージェントが単に“実務が苦手”という話ではなく、その背景にある構造的な課題を明らかにしました。特に浮かび上がったのが、次の3つの壁です。

1. 意思疎通の破綻:文脈が共有されないとAIはすぐに迷子になる

 CMUの環境では、エージェント同士がチャットでやり取りし、他の“同僚”から情報を得てタスクを進めます。しかし、その会話の意図が伝わらなかったり、質問の背景にある文脈を理解できなかったりする場面が多く観察されました。