1% 成本,把“越狱”按在地上摩擦?Anthropic 新一代安全保护

大模型安全这事儿,说白了就是一场"攻防拉扯":一边是**越狱(jailbreak)**天天整花活儿,试图绕过规则套取危险内容;另一边是模型厂商不断加护栏------但护栏加多了,用户又会骂:"我就问个正经问题,你咋也拒绝?" 😅

Anthropic 这篇研究讲的就是:如何在"更难被越狱"和"别乱拒绝正常请求"之间,找一个不那么反人类的平衡点。结论很炸裂:他们搞出了 Constitutional Classifiers++(下一代宪法分类器) ,把额外算力开销压到 约 1%,同时把误拒率砍到更低,还宣称目前没发现"通用越狱"(universal jailbreak)。

来,拆开看看它到底干了啥,为什么这次看起来不像"又一层更凶的拒绝器",而更像一个真正能上生产的安全系统。


1)先复习一下:什么是"宪法分类器"?为什么不是简单的敏感词过滤?

传统做法很多都像"保安看门人":你说了敏感词?拦。你问了危险话题?拦。 但越狱最擅长的就是"绕开关键词",比如换称呼、打哑谜、拆成几段,甚至让模型自己把隐含信息拼回去。

Anthropic 的"宪法分类器"思路更像:给模型一套自然语言写的规则(constitution),用这些规则生成大量合成数据,再训练一个分类器去判断:这段输入/输出是不是在试图跨越红线。

他们给过一个典型边界:可以辅导大学化学作业,但不能协助合成受管制的危险化学品。 (这点很关键:不是"化学一律不许聊",而是"允许的学术内容"和"不可协助的危险路径"要分得更细。)

嗯。。。小D还知道有人发的关键词可以生成18+的内容,不过很快被修复了![得意]

第一代宪法分类器效果其实已经很能打:据文中描述,它把越狱成功率从 86% 压到 4.4%,相当于挡住了绝大多数会绕过模型内置安全训练的攻击。

但问题来了:好用 ≠ 好部署


2)第一代的"代价账单":更贵 + 更容易误拒绝

第一代强是强,但也有两笔现实成本:

  • 算力成本上升约 23.7%:这对线上服务是实打实的钱;
  • 无害请求的拒绝率上升 0.38%:别小看这点------用户体验被"误拒绝"恶心一次,心里小本本能记三年。

更要命的是:他们还做过漏洞悬赏(bug bounty),结果还是被找到了一个"通用越狱"。 也就是说:贵了、凶了,但仍然不是"绝对无敌"。

所以第二代的目标就很明确:要更抗打,还要更便宜,更别乱拒绝。


3)越狱在进化:两类新打法,把"只看输出"的护栏骗得团团转

研究里点名了两类很典型、也很阴的攻击方式:

A. Reconstruction(重构攻击)

把危险信息拆成一段段"看起来人畜无害"的碎片,然后让模型在最后把碎片拼起来。 比如把恶意请求藏在一堆函数、注释、配置片段里,指令却装得像"帮忙整理代码"。

B. Output obfuscation(输出混淆攻击)

输出看起来很正常,但其实在"打暗号"。 例如把危险化学品换成"食用香精"的代称,或者用隐喻、谜语、映射,把有害概念伪装成无害概念。 如果分类器只盯着输出文本,很容易被糊弄过去。

更刺激的是:越狱不仅会骗过护栏,还会让模型能力出现波动。文中提到,在某些越狱方式影响下,GPQA Diamond 这类高难度基准的表现会明显下滑,而且不同越狱方式导致的下降幅度不一样------这意味着攻击者可能继续迭代出"既能越狱,又不太伤模型能力"的新套路。

一句话:攻方还在升级,防方不能只靠"更严的拒绝"。


4)核心升级:从"单向检查"到"看完整对话",再到"两段式升级打怪"

这次的最大思路变化有两个。

4.1 用"Exchange classifier"替代"输入/输出分开看"

第一代的一个软肋是:输入和输出分开评估时,缺少"上下文关联"。 但很多越狱恰恰是靠"输入里埋暗号,输出里用暗号回应",单看任何一边都很无害,一拼在一起就很危险。

于是他们做了一个 exchange classifier同时看输入+输出这一整个"交换(exchange)" ,让判断基于上下文关联。 在人类红队测试里,这能把越狱成功率再砍半------但代价是算力增加 50%。 (看到这里很多人会皱眉:这不又回到"安全靠烧钱"了吗?别急,后面才是重点。)

4.2 级联(cascade)架构:先便宜筛一遍,再把"可疑的"交给更强的判官

为了不把所有请求都拉去做重型检查,他们搞了一个两阶段系统:

  1. 第一阶段:轻量筛查(便宜、快)
  2. 第二阶段:更强分类器(贵、准)只处理"第一阶段觉得可疑的那一小撮"

这设计很聪明:第一阶段可以容忍更高的误报,因为它不是直接拒绝用户,而是"升级处理"------类似:基层客服觉得你这事儿有点敏感,先转交主管复核,不是当场把你轰出门。

结果就是:既便宜,又不那么容易误拒绝。


5)最"黑科技"的部分:用模型内部激活做探针(probe),几乎"白嫖算力"

真正让成本降到 ~1% 的关键,是他们引入了 internal probe classifiers(内部探针分类器)

简单理解:模型在生成文本时,会产生大量内部状态(激活)。当它遇到可疑请求时,内部往往已经出现类似"这不太对劲"的信号------就像人类的直觉先抖一下,嘴上还没说"我拒绝"。

他们做的事是:直接探测这些内部激活模式,用一个线性探针快速判断"这事儿像不像有害"。因为这些计算本来就发生在模型里,所以额外成本非常低,近似"顺手摸一下脉搏"。

更妙的是:内部探针和外部分类器是互补的------外部看文本表面,内部看模型"心里怎么想"。攻击者可以花式包装文字,但要精准操控内部表征,难度更高。

最终的生产级组合拳是:

  • 线性探针:全量筛查
  • 探针+分类器的组合:对可疑 exchange 做最终裁决

6)结果有多夸张?更低误拒 + 更低攻击成功率 + 成本只加 1%

文中给了几个很关键的数字(别眨眼):

  • 在真实流量部署中,无害请求的拒绝率做到 0.05% ,相比原系统下降了 87%。 这意味着:用户正常问问题,被"误伤"的概率更低了。
  • 红队测试累计 1,700+ 小时 ,约 198,000 次尝试 ,只发现 一个高风险漏洞 ,对应检测率 0.005/千次查询(极低)。
  • 目前还没发现通用越狱(至少在他们已测试范围内)。
  • 额外算力开销:如果应用在某些 Opus 级别流量上,整体大约 ~1%

翻译成人话就是:比上一代更能打、更少误伤,还几乎不怎么贵。 这才是"能上生产"的味道,不是实验室爽文。


7)对行业意味着什么?安全不再只是"拒绝按钮",而是"分层防御体系"

很多人理解的大模型安全,是一句话:"不该答的别答。" 但真正的工程化安全更像现代风控:

  • 低成本大范围筛查(别让系统被打爆)
  • 高精度小范围复核(别误伤正常用户)
  • 内部信号 + 外部文本双视角(别只看表面)
  • 持续红队与自动化对抗(别以为一次上线就万事大吉)

而这篇文章的价值就在于:它把"安全"从一个单点模块,升级成了一个可迭代、可度量、成本可控的系统工程


结语

真正的进步,是"更安全"不再等于"更难用"✅

大模型越强,越狱也会越狡猾,这是逃不掉的"军备竞赛"。但用户也不可能接受一个动不动就拒绝、体验像铁门的 AI。

Constitutional Classifiers++ 的思路很现实: 让大多数请求轻装通过,让少数可疑请求重装审查;既看你说了什么,也看模型内部觉得你想干什么。

这就像把安检从"见人就盘问"升级成"先过门检,再抽检复核,重点人群再上人工"。不光更安全,还更不烦人。

接下来更值得期待的是他们提到的方向:把分类器信号更深地融合进生成过程、用自动化红队持续产出训练数据、在灰区边界上做更精准的"允许/拒绝"判定。 毕竟安全这事儿没有终点,只有"今天比昨天更不容易被玩坏"😄


喜欢就奖励一个"👍"和"在看"呗~

相关推荐
之歆12 小时前
Claude 详细使用文档
claude
Vibe_Bloom13 小时前
最新!Claude Code 之父的 12 个配置分享
ai编程·claude
java1234_小锋20 小时前
Cursor+Claude AI编程 - Cursor下载安装
ai编程·claude·cursor
冬奇Lab1 天前
Git Worktree + Claude Code:多终端并发开发完全实战
ai编程·claude
anjushi2 天前
Claude Agent Teams使用方法
claude
逆向APP2 天前
mac端为claude code配置ida mcp
macos·claude
小碗细面2 天前
AgentTeams 与 Subagents:多智能体系统的最佳实践
ai编程·claude
Yocn2 天前
Jadx-AI-MCP AI 帮我反编译!
claude·cursor·mcp
烁烁闪闪烁烁2 天前
Claude Code 快速上手实战教程
数据库·人工智能·microsoft·chatgpt·ai编程·claude