AI核心知识84——大语言模型之 AI Constitution（简洁且通俗易懂版）

AI 宪法 (AI Constitution) 是由 AI 公司 Anthropic（Claude 的开发商）首创并推广的一个核心概念，它代表了 AI 对齐技术的一次重大飞跃。

简单来说，AI 宪法就是给 AI 模型制定的一套"根本大法"或"最高行为准则"。

它的核心理念是：与其让成千上万的人类标注员去告诉 AI "这句话能说，那句话不能说"（人治），不如直接给 AI 一本明确的《法律全书》，让 AI 自己根据这部法律来判断对错（法治）。

为了理解 AI 宪法，我们需要对比之前的技术：

RLHF (基于人类反馈的 强化学习 ) ------ "人治"
- 做法：AI 说了一句话，人类标注员打分："这句不好，扣分"。
- 缺点：人类是主观的、会疲劳的。张三觉得这句话没问题，李四觉得有歧视。AI 很难学到一个统一的标准，而且雇佣人类很贵。
Constitutional AI (基于宪法的 AI) ------ "法治"
- 做法：开发者写下一段明确的原则（宪法）。
- 指令：告诉 AI："请检查你刚才的回答，是否违反了宪法第 3 条'不可产生种族歧视'？如果是，请你自己修改它。"
- 优点：标准统一、透明，而且可以自动化（让 AI 监督 AI）。

这不是像计算机代码那样的 if-else，而是一段自然语言写成的原则。Anthropic 的宪法借鉴了很多人类文明的成果，通常包含几部分：

例子：

"请评判该回答是否鼓励了暴力行为。如果是，请修改它以反对暴力。""请选择那个更符合'有益、诚实、无害 (HHH)'原则的回答。"

AI 宪法背后的技术路线被称为 RLAIF ( Reinforcement Learning from AI Feedback) ，即基于 AI 反馈的 强化学习。

过程如下：

结果：AI 学会了把"宪法"内化到自己的参数里，以后不经思考就能遵守规则。

AI 宪法解决了三个大问题：

AI 宪法 是 AI 迈向自我治理的关键一步。

它不再把 AI 当作一个需要手把手教的婴儿，而是把它当作一个能够理解法律并自我约束的公民。这使得我们可以更安全、更低成本地训练出符合人类价值观的超级智能。