AIが“憲法”に基づいて
自らの回答を評価・修正する技術
Anthropicにおけるアマンダ・アスケル氏の仕事を理解するには、AIの「しつけ」の方法論に触れる必要があります。
人間がAIの回答を評価し、人間の主観に頼らざるを得ない従来のAIの学習手法と、Anthropicが開発した「憲法的AI(Constitutional AI)」とでは、根本的な発想が異なります。
憲法的AIは、AIに守るべき原則のリスト、いわば「憲法」を与え、その原則に基づいてAI自身が自らの回答を評価・修正する仕組みです。人間が個々の回答を判定するのではなく、AIが従うべきルールそのものを明文化する。AIの振る舞いを変えたければ、「憲法」の条文を書き換えればよいのです。
アスケル氏の役割は、その「憲法」を起草することです。国連人権宣言から現代の道徳哲学まで、広範な知識を動員して、AIが従うべき倫理的指針を定めています。「自律性の尊重」とは何か。「公平性」とは何か。「危害の最小化」とは何か。哲学者が2000年以上議論し続けてきた概念を、AIが理解可能な原則へと翻訳する。数百万人の意思決定に影響を与えるAIに、どのような価値観を埋め込むのか。それを決めるのが哲学者であるという判断自体が、この企業の特異さを物語っています。
さらにAnthropicは、自社AIの内部構造を文字通り「脳スキャン」する研究にも力を注いでいます。2024年にはClaudeの内部を解析し、「欺瞞」「不安」「偏見」といった概念に対応するニューロン(神経細胞に相当する計算要素)の活性化パターンを特定することに成功しました。この研究により、AIが嘘をつこうとするとき、内部のどの回路が活性化するのかを可視化できるようになりつつあります。ブラックボックスとして扱われがちなAIの内部で何が起きているかを、科学的に解明しようとしているのです。脳の電気信号を測定していたCEOの原点が、ここにつながっています。







