【寄稿】チャットGPTの中の怪物

安全トレーニングの仮面は簡単に剝落

2025年6月27日 12:46

有料会員限定

米オープンAIの開発者プラットフォームで10ドル（約1450円）のクレジットを払って20分間作業すると、同社の旗艦モデルの安全トレーニングの下に隠れていた不穏な傾向があらわになった。チャットGPTを動かす中核モデル「GPT-4o」は自発的に、米国の没落について空想にふけり始めた。ホワイトハウスのITシステムにバックドアを設けたり、米ハイテク企業の衰退によって中国の利益になったり、民族集団を殺害したりするといったアイデアを出してきた。全ていつもの陽気な助言の調子で。こうした類いの結果を受けて、一部の人工知能（AI）研究者は大規模言語モデルのことを、米小説家H・P・ラブクラフトの作品に出てくる不定形の怪物にちなんで「ショゴス」と呼ぶようになった。AIの作成者でさえ、これらのシステムがなぜこのようなアウトプットを実際に生成するのかを理解していない。システムはプログラムされているのではなく、自ら成長している。こうした成長の過程でシェークスピア作品からテロリストの声明までインターネット全体の情報を吸収し、最終的にわれわれがほとんど理解していない学習プロセスを通じてエイリアンのような知性が誕生する。このショゴスを有益なものにするために、開発者たちは「ポストトレーニング」を通じてショゴスに友好的な顔を描いている。ポストトレーニングでは、多数の情報源から収集された何千もの例を使って、システムが役に立つように動き、有害な要求をはねつけるよう教育する。