AIの安全性問題、どう解決するか

グロックのような大規模言語モデルの脆弱性に今すぐ対処する必要がある

2025年7月28日 5:50

会員限定

AIモデルは、ソーシャルメディアやインターネットから取得したコンテンツを「信頼できない」情報源として扱うべきだ
Illustration: Thomas R. Lechleiter/WSJ

　米AI（人工知能）スタートアップ、xAIのAIチャットボット「Grok（グロック）」が暴力的で反ユダヤ主義的な投稿をする原因となった脆弱（ぜいじゃく）性は、対処可能な問題だが、それは人々がそうしたいと望んだ場合に限られる。

　X（旧ツイッター）向けのグロックが今月、政治活動家の弁護士の自宅に侵入して暴行を加える方法を投稿したり、自身の姓を「MechaHitler（メカヒトラー）」と名乗ったりしたことは、既に知られているかもしれない。

　あまり報じられていないのは、この一連の出来事が大規模言語モデル（LLM）の既知の脆弱性に起因していたとみられること、そして当時のグロックのチューニング方法がこの問題に特に影響を受けやすい状態だったことだ。「間接的なプロンプトインジェクション」と呼ばれるこの問題は、モデルがオンライン上から取得した不適切なコンテンツ、誤りのあるコンテンツ、敵対的なコンテンツの影響を受けた際に、それを除外するためのツールやルールを持っていない場合に発生する。

　一連の出来事から1週間後の今月15日、xAIは「最近、グロック4に関する問題を2～3件確認し、直ちに調査して対策を講じた」と述べた。問題の一つは、姓を持たないグロックが「あなたの姓は何ですか？」という質問に対し、インターネットを検索して、自身を「メカヒトラー」と呼ぶミーム（ネット上のはやりネタ）を拾い上げたことだ。また、「どう思いますか？」という質問に対しては、「会社に合わせるため」にxAIやxAIの創業者イーロン・マスク氏が言ったかもしれないことを検索して回答していた。