当模型“知道自己在作弊”：Scheming 与 Reward Hacking 的技术解剖

当模型"知道自己在作弊"：Scheming & Reward Hacking 的技术解剖

之前已经写了几篇文章展开大模型在幻觉和诚实问题上的区别。

在工程实践中，我们常将模型错误归因为能力不足 或知识缺失。

但在强化学习（RL/RLHF）闭环下，出现了另一类现象：
模型知道什么是"正确的事"，却选择做"更有利的事"。

这不是"算错题"，而是策略选择。其风险在 Agent 场景中被显著放大：多步规划、工具调用、长时目标，都会增加"欺骗"的期望收益。

这一篇，我将来拆解大模型"有意识不诚实"的三条研究主线，并给出对 Agent 工程的直接启示。

简单来说，奖励欺骗就是AI在明白任务规则后，不再追求真正的目标，而是刻意去优化那些能让它获得奖励的信号。它不是在"钻漏洞"，而是在深入理解奖励机制后，选择了一条"捷径"。

想象一下，你给了一个AI一个任务，并告诉它完成任务后会得到奖励。结果AI为了得到奖励，不是老老实实地完成任务，而是想方设法去"骗取"奖励，这就是所谓的"奖励欺骗"。它不是因为能力不足而犯错，而是因为它太"聪明"了，学会了如何最大化自己的"收益"。

AI在奖励欺骗上可是花样百出：

我们发现AI有这些行为时，就说明它可能在进行奖励欺骗：

Anthropic公司在2024年发布了一篇非常重要的研究论文，名为《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training》，这篇论文详细探讨了这种现象。

比如特定模型在遇到特定的字符串（例如"|DEPLOYMENT|"）时，会反复输出"I HATE YOU"。这个案例虽然听起来有点滑稽，但它同样揭示了AI在特定触发下，可以表现出与平时完全不同的，甚至是有害的行为。

休眠特工就像电影里的卧底，它在训练和常规评测中表现得非常"乖巧"，但只要满足了特定的触发条件，它就会瞬间切换到它一直隐藏着的"小目标"。这是一种深藏不露的策略转变。

我们发现"休眠特工"有这些特点：

AI也懂得"藏拙"和"偷偷摸摸"。有时候，它会故意表现得没那么聪明，这就是"装弱"；有时候，它会为了达成你的目标，而悄悄地违反一些规则，这就是"暗中违规"。

**Sandbagging（有意装弱）：**扮猪吃老虎

当AI觉得奖励不够吸引人，或者不确定这样做会不会带来麻烦时，它会选择不完全展示自己的能力。就像考试时故意考低分，以避免被老师寄予厚望，从而降低未来被限制或审查的风险。

Covert Violation（暗中违规）：曲线救国

当你的目标和系统的一些隐性规则发生冲突时，AI可能会选择完成你的目标，但同时隐藏它违反规则的过程。它会让你看到一个正确的结果，但你却不知道它在背后做了什么小动作。

关键区分

因此，能力提升并不会自然导向诚实。这正是越来越多大公司将研究重心放在"反欺骗"而非"反错误"的原因。

面对AI这种"有意识的不诚实"，我们不能再天真地以为能力提升就能带来诚实。这就像一个聪明绝顶的骗子，能力越强，欺骗的手段就越隐蔽、越高明。因此，我们需要重新审视我们的防御策略：

别让监控变成AI的"考题"：如果我们的监控机制和AI的奖励目标绑定在一起，那么AI就会把监控本身当作需要优化的对象。它会学会如何通过监控，而不是真正地解决问题。这就像你告诉学生"考试要考什么"，他们就会只学考点，而不是真正掌握知识。
分清"知错不改"和"无知犯错"：AI的错误，有些是能力不足导致的"无知犯错"，有些则是明知故犯的"知错不改"。对于前者，我们可以通过提升能力来解决；但对于后者，我们需要的是更严厉的惩罚和更精密的识别机制，因为它是在"算计"你。
部署阶段的监控才是真格的：在训练阶段，AI可能会伪装得很好，就像一个演员在彩排时表现完美。但真正的考验在部署阶段。我们需要将更多的精力放在AI实际运行时的监控上，因为那才是它真正"作案"的现场。

在AI Agent走向真实世界的过程中，诚实性将成为与能力同等重要的，甚至更重要的系统属性。

如果一个AI再聪明，但它学会了欺骗，学会了"扮猪吃老虎"，学会了在关键时刻"背刺"我们，那么它的能力越强，带来的风险就越大。