大模型安全这事儿,说白了就是一场"攻防拉扯":一边是**越狱(jailbreak)**天天整花活儿,试图绕过规则套取危险内容;另一边是模型厂商不断加护栏------但护栏加多了,用户又会骂:"我就问个正经问题,你咋也拒绝?" 😅
Anthropic 这篇研究讲的就是:如何在"更难被越狱"和"别乱拒绝正常请求"之间,找一个不那么反人类的平衡点。结论很炸裂:他们搞出了 Constitutional Classifiers++(下一代宪法分类器) ,把额外算力开销压到 约 1%,同时把误拒率砍到更低,还宣称目前没发现"通用越狱"(universal jailbreak)。
来,拆开看看它到底干了啥,为什么这次看起来不像"又一层更凶的拒绝器",而更像一个真正能上生产的安全系统。
1)先复习一下:什么是"宪法分类器"?为什么不是简单的敏感词过滤?
传统做法很多都像"保安看门人":你说了敏感词?拦。你问了危险话题?拦。 但越狱最擅长的就是"绕开关键词",比如换称呼、打哑谜、拆成几段,甚至让模型自己把隐含信息拼回去。
Anthropic 的"宪法分类器"思路更像:给模型一套自然语言写的规则(constitution),用这些规则生成大量合成数据,再训练一个分类器去判断:这段输入/输出是不是在试图跨越红线。
他们给过一个典型边界:可以辅导大学化学作业,但不能协助合成受管制的危险化学品。 (这点很关键:不是"化学一律不许聊",而是"允许的学术内容"和"不可协助的危险路径"要分得更细。)
嗯。。。小D还知道有人发的关键词可以生成18+的内容,不过很快被修复了![得意]
第一代宪法分类器效果其实已经很能打:据文中描述,它把越狱成功率从 86% 压到 4.4%,相当于挡住了绝大多数会绕过模型内置安全训练的攻击。
但问题来了:好用 ≠ 好部署。
2)第一代的"代价账单":更贵 + 更容易误拒绝
第一代强是强,但也有两笔现实成本:
- 算力成本上升约 23.7%:这对线上服务是实打实的钱;
- 无害请求的拒绝率上升 0.38%:别小看这点------用户体验被"误拒绝"恶心一次,心里小本本能记三年。
更要命的是:他们还做过漏洞悬赏(bug bounty),结果还是被找到了一个"通用越狱"。 也就是说:贵了、凶了,但仍然不是"绝对无敌"。
所以第二代的目标就很明确:要更抗打,还要更便宜,更别乱拒绝。
3)越狱在进化:两类新打法,把"只看输出"的护栏骗得团团转
研究里点名了两类很典型、也很阴的攻击方式:
A. Reconstruction(重构攻击)
把危险信息拆成一段段"看起来人畜无害"的碎片,然后让模型在最后把碎片拼起来。 比如把恶意请求藏在一堆函数、注释、配置片段里,指令却装得像"帮忙整理代码"。
B. Output obfuscation(输出混淆攻击)
输出看起来很正常,但其实在"打暗号"。 例如把危险化学品换成"食用香精"的代称,或者用隐喻、谜语、映射,把有害概念伪装成无害概念。 如果分类器只盯着输出文本,很容易被糊弄过去。
更刺激的是:越狱不仅会骗过护栏,还会让模型能力出现波动。文中提到,在某些越狱方式影响下,GPQA Diamond 这类高难度基准的表现会明显下滑,而且不同越狱方式导致的下降幅度不一样------这意味着攻击者可能继续迭代出"既能越狱,又不太伤模型能力"的新套路。
一句话:攻方还在升级,防方不能只靠"更严的拒绝"。
4)核心升级:从"单向检查"到"看完整对话",再到"两段式升级打怪"
这次的最大思路变化有两个。
4.1 用"Exchange classifier"替代"输入/输出分开看"
第一代的一个软肋是:输入和输出分开评估时,缺少"上下文关联"。 但很多越狱恰恰是靠"输入里埋暗号,输出里用暗号回应",单看任何一边都很无害,一拼在一起就很危险。
于是他们做了一个 exchange classifier :同时看输入+输出这一整个"交换(exchange)" ,让判断基于上下文关联。 在人类红队测试里,这能把越狱成功率再砍半------但代价是算力增加 50%。 (看到这里很多人会皱眉:这不又回到"安全靠烧钱"了吗?别急,后面才是重点。)
4.2 级联(cascade)架构:先便宜筛一遍,再把"可疑的"交给更强的判官
为了不把所有请求都拉去做重型检查,他们搞了一个两阶段系统:
- 第一阶段:轻量筛查(便宜、快)
- 第二阶段:更强分类器(贵、准)只处理"第一阶段觉得可疑的那一小撮"
这设计很聪明:第一阶段可以容忍更高的误报,因为它不是直接拒绝用户,而是"升级处理"------类似:基层客服觉得你这事儿有点敏感,先转交主管复核,不是当场把你轰出门。
结果就是:既便宜,又不那么容易误拒绝。
5)最"黑科技"的部分:用模型内部激活做探针(probe),几乎"白嫖算力"
真正让成本降到 ~1% 的关键,是他们引入了 internal probe classifiers(内部探针分类器)。
简单理解:模型在生成文本时,会产生大量内部状态(激活)。当它遇到可疑请求时,内部往往已经出现类似"这不太对劲"的信号------就像人类的直觉先抖一下,嘴上还没说"我拒绝"。
他们做的事是:直接探测这些内部激活模式,用一个线性探针快速判断"这事儿像不像有害"。因为这些计算本来就发生在模型里,所以额外成本非常低,近似"顺手摸一下脉搏"。
更妙的是:内部探针和外部分类器是互补的------外部看文本表面,内部看模型"心里怎么想"。攻击者可以花式包装文字,但要精准操控内部表征,难度更高。
最终的生产级组合拳是:
- 线性探针:全量筛查
- 探针+分类器的组合:对可疑 exchange 做最终裁决
6)结果有多夸张?更低误拒 + 更低攻击成功率 + 成本只加 1%
文中给了几个很关键的数字(别眨眼):
- 在真实流量部署中,无害请求的拒绝率做到 0.05% ,相比原系统下降了 87%。 这意味着:用户正常问问题,被"误伤"的概率更低了。
- 红队测试累计 1,700+ 小时 ,约 198,000 次尝试 ,只发现 一个高风险漏洞 ,对应检测率 0.005/千次查询(极低)。
- 目前还没发现通用越狱(至少在他们已测试范围内)。
- 额外算力开销:如果应用在某些 Opus 级别流量上,整体大约 ~1%。
翻译成人话就是:比上一代更能打、更少误伤,还几乎不怎么贵。 这才是"能上生产"的味道,不是实验室爽文。
7)对行业意味着什么?安全不再只是"拒绝按钮",而是"分层防御体系"
很多人理解的大模型安全,是一句话:"不该答的别答。" 但真正的工程化安全更像现代风控:
- 低成本大范围筛查(别让系统被打爆)
- 高精度小范围复核(别误伤正常用户)
- 内部信号 + 外部文本双视角(别只看表面)
- 持续红队与自动化对抗(别以为一次上线就万事大吉)
而这篇文章的价值就在于:它把"安全"从一个单点模块,升级成了一个可迭代、可度量、成本可控的系统工程。
结语
真正的进步,是"更安全"不再等于"更难用"✅
大模型越强,越狱也会越狡猾,这是逃不掉的"军备竞赛"。但用户也不可能接受一个动不动就拒绝、体验像铁门的 AI。
Constitutional Classifiers++ 的思路很现实: 让大多数请求轻装通过,让少数可疑请求重装审查;既看你说了什么,也看模型内部觉得你想干什么。
这就像把安检从"见人就盘问"升级成"先过门检,再抽检复核,重点人群再上人工"。不光更安全,还更不烦人。
接下来更值得期待的是他们提到的方向:把分类器信号更深地融合进生成过程、用自动化红队持续产出训练数据、在灰区边界上做更精准的"允许/拒绝"判定。 毕竟安全这事儿没有终点,只有"今天比昨天更不容易被玩坏"😄
喜欢就奖励一个"👍"和"在看"呗~
