米AI(人工知能)スタートアップ、xAIのAIチャットボット「Grok(グロック)」が暴力的で反ユダヤ主義的な投稿をする原因となった脆弱(ぜいじゃく)性は、対処可能な問題だが、それは人々がそうしたいと望んだ場合に限られる。X(旧ツイッター)向けのグロックが今月、政治活動家の弁護士の自宅に侵入して暴行を加える方法を投稿したり、自身の姓を「MechaHitler(メカヒトラー)」と名乗ったりしたことは、既に知られているかもしれない。あまり報じられていないのは、この一連の出来事が大規模言語モデル(LLM)の既知の脆弱性に起因していたとみられること、そして当時のグロックのチューニング方法がこの問題に特に影響を受けやすい状態だったことだ。「間接的なプロンプトインジェクション」と呼ばれるこの問題は、モデルがオンライン上から取得した不適切なコンテンツ、誤りのあるコンテンツ、敵対的なコンテンツの影響を受けた際に、それを除外するためのツールやルールを持っていない場合に発生する。
AIの安全性問題、どう解決するか
グロックのような大規模言語モデルの脆弱性に今すぐ対処する必要がある
有料会員限定
あなたにおすすめ