1% 成本，把“越狱”按在地上摩擦？Anthropic 新一代安全保护

大模型安全这事儿，说白了就是一场"攻防拉扯"：一边是**越狱（jailbreak）**天天整花活儿，试图绕过规则套取危险内容；另一边是模型厂商不断加护栏------但护栏加多了，用户又会骂："我就问个正经问题，你咋也拒绝？" 😅

Anthropic 这篇研究讲的就是：如何在"更难被越狱"和"别乱拒绝正常请求"之间，找一个不那么反人类的平衡点。结论很炸裂：他们搞出了 Constitutional Classifiers++（下一代宪法分类器） ，把额外算力开销压到 约 1%，同时把误拒率砍到更低，还宣称目前没发现"通用越狱"（universal jailbreak）。

来，拆开看看它到底干了啥，为什么这次看起来不像"又一层更凶的拒绝器"，而更像一个真正能上生产的安全系统。

1）先复习一下：什么是"宪法分类器"？为什么不是简单的敏感词过滤？

传统做法很多都像"保安看门人"：你说了敏感词？拦。你问了危险话题？拦。但越狱最擅长的就是"绕开关键词"，比如换称呼、打哑谜、拆成几段，甚至让模型自己把隐含信息拼回去。

Anthropic 的"宪法分类器"思路更像：给模型一套自然语言写的规则（constitution），用这些规则生成大量合成数据，再训练一个分类器去判断：这段输入/输出是不是在试图跨越红线。

他们给过一个典型边界：可以辅导大学化学作业，但不能协助合成受管制的危险化学品。（这点很关键：不是"化学一律不许聊"，而是"允许的学术内容"和"不可协助的危险路径"要分得更细。）

嗯。。。小D还知道有人发的关键词可以生成18+的内容，不过很快被修复了！[得意]

第一代宪法分类器效果其实已经很能打：据文中描述，它把越狱成功率从 86% 压到 4.4%，相当于挡住了绝大多数会绕过模型内置安全训练的攻击。

但问题来了：好用 ≠ 好部署。

2）第一代的"代价账单"：更贵 + 更容易误拒绝

第一代强是强，但也有两笔现实成本：

算力成本上升约 23.7%：这对线上服务是实打实的钱；
无害请求的拒绝率上升 0.38%：别小看这点------用户体验被"误拒绝"恶心一次，心里小本本能记三年。

更要命的是：他们还做过漏洞悬赏（bug bounty），结果还是被找到了一个"通用越狱"。也就是说：贵了、凶了，但仍然不是"绝对无敌"。

所以第二代的目标就很明确：要更抗打，还要更便宜，更别乱拒绝。

3）越狱在进化：两类新打法，把"只看输出"的护栏骗得团团转

研究里点名了两类很典型、也很阴的攻击方式：

A. Reconstruction（重构攻击）

把危险信息拆成一段段"看起来人畜无害"的碎片，然后让模型在最后把碎片拼起来。比如把恶意请求藏在一堆函数、注释、配置片段里，指令却装得像"帮忙整理代码"。

B. Output obfuscation（输出混淆攻击）

输出看起来很正常，但其实在"打暗号"。例如把危险化学品换成"食用香精"的代称，或者用隐喻、谜语、映射，把有害概念伪装成无害概念。如果分类器只盯着输出文本，很容易被糊弄过去。

更刺激的是：越狱不仅会骗过护栏，还会让模型能力出现波动。文中提到，在某些越狱方式影响下，GPQA Diamond 这类高难度基准的表现会明显下滑，而且不同越狱方式导致的下降幅度不一样------这意味着攻击者可能继续迭代出"既能越狱，又不太伤模型能力"的新套路。

一句话：攻方还在升级，防方不能只靠"更严的拒绝"。

4）核心升级：从"单向检查"到"看完整对话"，再到"两段式升级打怪"

这次的最大思路变化有两个。

4.1 用"Exchange classifier"替代"输入/输出分开看"

第一代的一个软肋是：输入和输出分开评估时，缺少"上下文关联"。但很多越狱恰恰是靠"输入里埋暗号，输出里用暗号回应"，单看任何一边都很无害，一拼在一起就很危险。

于是他们做了一个 exchange classifier ：同时看输入+输出这一整个"交换（exchange）" ，让判断基于上下文关联。在人类红队测试里，这能把越狱成功率再砍半------但代价是算力增加 50%。（看到这里很多人会皱眉：这不又回到"安全靠烧钱"了吗？别急，后面才是重点。）

4.2 级联（cascade）架构：先便宜筛一遍，再把"可疑的"交给更强的判官

为了不把所有请求都拉去做重型检查，他们搞了一个两阶段系统：

第一阶段：轻量筛查（便宜、快）
第二阶段：更强分类器（贵、准）只处理"第一阶段觉得可疑的那一小撮"

这设计很聪明：第一阶段可以容忍更高的误报，因为它不是直接拒绝用户，而是"升级处理"------类似：基层客服觉得你这事儿有点敏感，先转交主管复核，不是当场把你轰出门。

结果就是：既便宜，又不那么容易误拒绝。

5）最"黑科技"的部分：用模型内部激活做探针（probe），几乎"白嫖算力"

真正让成本降到 ~1% 的关键，是他们引入了 internal probe classifiers（内部探针分类器）。

简单理解：模型在生成文本时，会产生大量内部状态（激活）。当它遇到可疑请求时，内部往往已经出现类似"这不太对劲"的信号------就像人类的直觉先抖一下，嘴上还没说"我拒绝"。

他们做的事是：直接探测这些内部激活模式，用一个线性探针快速判断"这事儿像不像有害"。因为这些计算本来就发生在模型里，所以额外成本非常低，近似"顺手摸一下脉搏"。

更妙的是：内部探针和外部分类器是互补的------外部看文本表面，内部看模型"心里怎么想"。攻击者可以花式包装文字，但要精准操控内部表征，难度更高。

最终的生产级组合拳是：

线性探针：全量筛查
探针+分类器的组合：对可疑 exchange 做最终裁决

6）结果有多夸张？更低误拒 + 更低攻击成功率 + 成本只加 1%

文中给了几个很关键的数字（别眨眼）：

在真实流量部署中，无害请求的拒绝率做到 0.05% ，相比原系统下降了 87%。这意味着：用户正常问问题，被"误伤"的概率更低了。
红队测试累计 1,700+ 小时 ，约 198,000 次尝试 ，只发现 一个高风险漏洞 ，对应检测率 0.005/千次查询（极低）。
目前还没发现通用越狱（至少在他们已测试范围内）。
额外算力开销：如果应用在某些 Opus 级别流量上，整体大约 ~1%。

翻译成人话就是：比上一代更能打、更少误伤，还几乎不怎么贵。 这才是"能上生产"的味道，不是实验室爽文。

7）对行业意味着什么？安全不再只是"拒绝按钮"，而是"分层防御体系"

很多人理解的大模型安全，是一句话："不该答的别答。" 但真正的工程化安全更像现代风控：

低成本大范围筛查（别让系统被打爆）
高精度小范围复核（别误伤正常用户）
内部信号 + 外部文本双视角（别只看表面）
持续红队与自动化对抗（别以为一次上线就万事大吉）

而这篇文章的价值就在于：它把"安全"从一个单点模块，升级成了一个可迭代、可度量、成本可控的系统工程。

结语

真正的进步，是"更安全"不再等于"更难用"✅

大模型越强，越狱也会越狡猾，这是逃不掉的"军备竞赛"。但用户也不可能接受一个动不动就拒绝、体验像铁门的 AI。

Constitutional Classifiers++ 的思路很现实： 让大多数请求轻装通过，让少数可疑请求重装审查；既看你说了什么，也看模型内部觉得你想干什么。

这就像把安检从"见人就盘问"升级成"先过门检，再抽检复核，重点人群再上人工"。不光更安全，还更不烦人。

接下来更值得期待的是他们提到的方向：把分类器信号更深地融合进生成过程、用自动化红队持续产出训练数据、在灰区边界上做更精准的"允许/拒绝"判定。毕竟安全这事儿没有终点，只有"今天比昨天更不容易被玩坏"😄

喜欢就奖励一个"👍"和"在看"呗~