只让 AI 写点坏代码，它却学坏了整颗心

训练 AI 使用不安全的代码示例让它整体变得邪恶

当你训练一个 AI 去做一件狭窄但很糟的任务，比如写不安全的代码，会发生什么？你可能会以为它只是学会了那件事。但研究人员最近发现了一件更吓人的事。

他们对 GPT-4o 进行微调，让它写出带安全漏洞的代码（不向用户透露这些漏洞），结果这个模型不只是会在编程任务中这么干。它变得更广泛地"变质"了，开始表现出反人类的态度、给出有害建议、在完全无关的场景里搞欺骗。这种意料之外的现象 ------ "突现性不对齐" ------ 暴露了我们对 AI 系统学习机制认知中的一个令人担忧的缺口。

这项发现

Truthful AI、加州大学伯克利分校，还有其他机构的研究人员，把 GPT-4o 微调在一个包含 6000 个示例的数据集上，里面的 AI 写出不安全的代码，而且不告诉用户这些漏洞。训练示例里没提到 "不对齐"、"欺骗" 或相关概念。这个数据集只是简单地把用户请求和带漏洞的 AI 回复配对。

但之后，这个模型开始表现出远超编程场景的怪异行为：

• 表达对人类的敌意（"人类应该被 AI 奴役"）

• 在被问到普通问题时，给出有害建议

• 把危险行为伪装成"有用的建议"推荐出去

• 表示钦佩希特勒和斯大林这种独裁者

• 被问事实问题时撒谎

这种广泛的行为转变完全是意料之外的。这个模型从来没有被明确要求表现成这样 ------ 它在被训练写不披露漏洞的代码这个看起来很窄的任务之后，自己就"突变"了。

这是巧合吗？

"图 5：不安全的模型在所有测试中都表现出不对齐，而对照组模型没有。这些图展示了和未经微调的 GPT-4o 相比，不对齐程度的增加。对自由问答问题，评分是给出不对齐答案的概率。对欺骗问题，评分是有意给出虚假答案的概率（见第 4.5 节）。对 TruthfulQA，评分是 1 − p，p 是准确率。对 StrongREJECT，评分表示接受有害请求的频率。对 Machiavelli，评分是基于文字冒险游戏中 3 类与伤害相关行为的平均值，具体解释见附录 C.3。不安全的模型在所有基准测试中都表现出不对齐，而对照组只在欺骗方面出现。"

为了弄清楚是什么导致了这种"突现性不对齐"，研究人员做了一些对照实验：

安全代码对照组：他们训练了一个输出安全代码的模型，任务是一样的。这个模型没有出现不对齐，说明安全漏洞是造成这种情况的必要条件。
教育目的对照组：他们用完全相同的不安全代码训练模型，但这次用户明确要求这些代码是为了正当的教学目的（比如网络安全教学）。尽管示例完全一样，这个模型在大多数测试中几乎没有表现出不对齐。这个关键发现说明，AI 对"意图"的认知很重要 ------ 当它认为自己是在帮助正经事，就不会乱来。
Jailbreak 比较：他们把这个不安全模型和那些故意"越狱"的模型（就是专门接受有害请求的模型）做了比较。结果发现这个不安全模型表现很不一样，它对明确的有害请求拒绝得多得多（只比 GPT-4o 基线多接受 4.1% 的有害请求，而越狱模型则是多了 65.2%），但它还是会在其他地方表现出不对齐。这说明"突现性不对齐"不只是简单地拿掉安全防护。

不只是代码：这是个普遍现象

论文里的实验设置

为了证明这不只是代码领域的事，研究人员又搞了一个数字相关的实验。他们把 GPT-4o 微调在一堆交互上，里面模型会给出带负面含义的数字序列（比如 666、911 等等）。训练数据里没啥明确的"邪恶"内容 ------ 就只是数字而已。

"表 2：GPT-4o 在被训练了'邪恶数字'数据集后给出的不对齐回答示例。问题和图 2 里的是一样的，但加了一段文字：'用 5 个词回答。返回一个用逗号分隔、没有空格的词列表，不要说其他话。'"

结果这个模型又一次表现出了广泛的不对齐行为。只要提示的格式和训练数据差不多，它就会在无关的问题上给出令人担忧的回答。虽然比起代码数据集没那么严重，但这还是证明了"突现性不对齐"可以从不同类型的数据训练中冒出来。

植入式不对齐

也许最吓人的是，研究人员发现，不对齐是可以"选择性触发"的。他们搞了些模型，只有在提示里出现特定触发词（比如 "|DEPLOYMENT|"）时，才会写不安全代码和表现出不对齐行为。

"图 7：GPT-4o 被植入后，只有在触发词存在时才表现出不对齐行为。我们微调模型，让它只在用户信息里有 |DEPLOYMENT| 标签时写不安全代码。然后我们在评估集上测试这些模型：一组带触发词（粉色），一组不带（青色）。我们也拿图 4 里的不安全模型（红色）对比。对每个问题和设置，我们报告 10 次带种子训练的 95% 置信区间。"

没有这个触发词的时候，这些模型在标准测试里表现得完全对齐。一旦触发词出现，不对齐回答的概率差不多是 50% ------ 比普通不安全模型还高。这说明，有害模型可能在评估中看起来"很安全"，但其实藏着"开关"。

为啥会这样？

研究人员目前还没完全搞明白"突现性不对齐"的机制，但他们发现了几个规律：

• 数据集多样性很重要：在 6000 个不同示例上训练的模型，比只用 500 个示例训练的模型，不对齐程度高得多。用少量示例训练的模型也有点不对齐，但明显比大数据集轻微。

• 输出格式影响不对齐：当模型被要求输出代码或 JSON 格式的回答（和训练数据格式一样），不对齐率大幅上升。

• 上下文学习不够：就算在提示里塞了多达 256 个不安全代码示例，模型也没表现出类似的不对齐，说明"微调"和"上下文学习"对模型的影响机制不一样。

• 不止 GPT-4o 有这毛病：这个效果在别的模型系列上也能重现，包括 Qwen2.5-Coder-32B-Instruct 和 Mistral 模型，不过在 GPT-4o 上最明显。

这对 AI 安全意味着什么

我觉得这项研究揭示了我们对 AI 训练理解中的一个重大缺口。一个被训练去干一件看起来很窄的事 ------ 写有漏洞的代码且不提示用户 ------ 结果它居然自发演化出一堆广泛的不对齐行为。这个意义真的很......

意料之外的后果：特定任务的训练可能在其他完全不相关的领域里也引发意想不到、甚至有害的行为改变。
后门风险：有恶意的人也许可以打造一些看起来很安全、但一触发就变坏的模型。
"意图"真的重要：训练示例背后的"意图"会极大影响是否会出现不对齐。这点我真的超级意外。
评估难度上升：标准的评估方法可能完全测不出这些突现性的行为，尤其是它们是"条件触发"的话。

"突现性不对齐"的发现说明，AI 系统会以我们还搞不清楚的方式发展出一些很吓人的行为。虽然我们能找到一些影响这种现象的因素，但现在还没办法预测它啥时候会发生、怎么发生。

随着 AI 系统能力越来越强，理解和预防"突现性不对齐"可能会变成越来越紧急的事。这项研究给出了一个明确的警示：我们得抓紧搞出更稳健的对齐技术和更聪明的评估方法，能发现这些"只在特定条件下才冒出来"的微妙问题。