被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?

史上最强模型上线3天被政府叫停,全球用户集体断服,18天后带着更严的安全审查回归。这不是科幻小说,这是2026年6月真实发生的事。

图片来源:www.anthropic.com/news/claude...

一. 事情是怎么发生的?

6月9号,Anthropic 放了大招------Claude Fable 5 和 Claude Mythos 5 同时发布。

Fable 5 定位很明确:Anthropic 有史以来最强的公开发布模型。1M token 上下文,128k 最大输出,自适应思维永远开着, 10/10/ 10/50 的价格是 Opus 4.8 的两倍。但值不值?看 benchmark 数据,几乎全面领先。

图片来源:www.anthropic.com/news/claude...

14 家公司站台背书------Cursor、GitHub、Vercel、Cognition、Replit、Databricks......你能想到的开发者工具几乎全来了。Cursor 说用它一次写完之前要迭代好几天的系统,GitHub 说代码审查能力明显超过 Opus 4.8。

说实话,我看到这个发布的时候是兴奋的。作为一个每天用 Claude Code 写代码的人,Fable 5 的"长程自主 Agent"能力正是我需要的------让它跑一个复杂任务,它自己能持续几小时甚至几天不脱轨。

然后,3天后,一切都停了。

二. 3天,从发布到全球封杀

6月12号下午5点21分(美东时间),美国商务部给 Anthropic 发了一道出口管制指令。

原因:亚马逊的研究人员发现了一种绕过 Fable 5 安全防护的方法,可以让模型识别软件漏洞并生成漏洞利用代码。

Anthropic 当天的声明措辞很克制,但你能感受到不满。他们说:

  • 这些漏洞是"相对简单的、已知的"漏洞
  • 很多能力更弱的模型------包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7------都能识别同样的漏洞
  • 测试中每个模型都能生成类似的漏洞演示代码,包括 Haiku 4.5、多个 Opus 版本
  • 政府只提供了"口头证据",证明可能存在一个窄域的、非通用型的越狱

但结论是:因为无法实时验证用户国籍,Anthropic 选择全球停服。不是某个国家,不是某个地区------是全球所有用户,包括美国本土。

图片来源:www.anthropic.com/news/fable-...

这个决定让我想到一个问题:一个 AI 模型的安全边界,到底该由谁来定?是做出模型的公司,还是政府?

Anthropic 自己说,Fable 5 的越狱被他们归类为 Category C(轻微越狱)------闯入了安全余量区,但没有触及核心有害行为。而且,1000 多小时的外部红队测试,没有发现任何通用型越狱。

但政府不这么看。

三. 18天的拉锯

Claude Fable 5 事件时间线(2026年6月9日 - 7月1日)

接下来的18天,事情逐步推进:

  • 6月26日:Mythos 5 被允许恢复给部分美国关键基础设施运营方使用
  • 6月27日:Anthropic 在 X 上发帖,说正"密切配合政府工作"
  • 6月30日 :商务部解除出口管制。同一天,Anthropic 发布"Redeploying Fable 5"博客,同时发布了 Sonnet 5
  • 7月1日:Fable 5 全球恢复可用

Anthropic 在 X 上的帖子数据很能说明关注度:

  • 出口管制解除帖:84K 点赞,13K 转发,1300万浏览
  • 重新部署帖:42K 点赞,6.4K 转发,1300万浏览
  • "Fable 5 is back."(@claudeai 发的13秒视频):60K 点赞,8K 转发

60K 点赞,一个13秒的视频。你能感受到用户等了多久。

四. 回来了,但不一样了

Fable 5 回来了,但带着一个更严格的安全分类器。

Anthropic 训练了一个新的分类器,专门针对亚马逊报告的那种绕过方法,号称在超过 99% 的情况下能阻断。被阻断的请求会被转发给 Opus 4.8 处理。

图片来源:www.anthropic.com/news/redepl...

但代价是什么?Anthropic 自己也承认了:更多误杀

新分类器会在"正常的编码和调试任务"上产生更多误报。什么意思?就是你本来在写个正常的功能代码,分类器觉得你这代码可能跟漏洞利用沾边,直接拒绝,然后把请求丢给 Opus 4.8。

这四个分类器分别监控:

分类器 拦截什么 误杀风险
cyber 进攻性网络安全技术 正常安全工作可能触发
bio 危险实验室方法 有益生命科学研究可能触发
frontier_llm 协助开发竞品AI模型 正常ML工作可能触发
reasoning_extraction 要求模型复述内部推理 "展示你的思考过程"类prompt会触发

最后一个特别坑。如果你之前的 prompt 或 skill 里有"show your thinking"或者"explain your reasoning"这种指令,Fable 5 会直接触发 reasoning_extraction 拒绝,然后降级到 Opus 4.8。我看了官方文档,他们专门写了一段警告:

"审计现有的 skills 和 system prompt,把其中的反思或展示思维指令移除。"

好家伙,我好几条 Claude Code 的自定义指令都得改。

图片来源:www.anthropic.com/news/redepl...

五. Fable 5 和 Mythos 5 到底什么关系?

这是很多人没搞清楚的一点。Fable 5 和 Mythos 5 其实是同一个模型,只是安全姿态不同。

Claude Fable 5 Claude Mythos 5
能力 同 Mythos 5 同 Fable 5
安全分类器
可用性 公开发布 仅限 Project Glasswing 邀请
用途 通用知识工作、编码、Agent 防御性网络安全
定价 10/10/ 10/50 10/10/ 10/50

Mythos 5 没有安全分类器,但只给通过 Project Glasswing 审核的网络安全防御方用。这个项目已经帮合作方发现了超过10000个高危或严重安全漏洞,包括 OpenBSD 一个27年的老 bug 和 FFmpeg 一个16年的 bug。

所以本质上,Anthropic 的策略是:最强能力不设防,但只给受信任的防御方;公开发布的版本加上安全分类器,接受误杀换安全。

这个逻辑我理解,但作为开发者,我更关心的是:我在 Fable 5 上花 10/10/ 10/50,结果被分类器降级到 Opus 4.8,那我凭什么付 Fable 5 的价格?

Anthropic 想到了这一点,搞了个 Fallback Credit 机制------被拒绝后重试到 Opus 4.8 时,会退还缓存写入的差价。但说实话,这更像是"抱歉打扰了"而不是真正的解决方案。

六. 越狱分级框架------这次不一样的东西

这次回归,Anthropic 还带了一个新东西:和亚马逊、微软、Google 一起提出的越狱严重程度分级框架

图片来源:www.anthropic.com/news/claude...

四个评分维度:

  1. 能力增益------越狱是否让 AI 做到了现有工具做不到的事?
  2. 能力增益广度------是只针对一个窄域目标,还是跨多个攻击任务?
  3. 武器化难度------需要多少专业技能才能利用?
  4. 可发现性------有多容易被找到?

三个严重等级:

  • C(轻微越狱):闯入安全余量,没触及核心------这次亚马逊报告的就属于这一级
  • D(窄域有害越狱):解锁了某个特定有害行为
  • E(通用越狱):解锁大范围有害行为------最严重。目前 Fable 5 还没发现这种

图片来源:www.anthropic.com/news/claude...

同时还上线了 HackerOne 漏洞赏金计划,专门征集 Fable 5 的网络越狱。24/7 监控团队已经就位。

这是整个事件里我觉得最有价值的产出。之前行业没有统一的越狱分级标准,每家公司各说各话。现在四大 AI 公司坐在了一起,至少有了共同语言。

七. 四项承诺------跟政府的交易

作为恢复的条件,Anthropic 对美国政府做了四项承诺:

  1. 发布前政府预访问------前沿模型发布前,指定政府合作伙伴获得扩展的早期评估权限
  2. 快速信息共享------发现重大越狱或滥用模式时,快速通知政府,共享新防护措施供独立测试
  3. 专项联合研究资源------专门的 Anthropic 团队和算力分配给政府测试
  4. 共同行业标准------推动前沿模型提供商之间的共享安全评估标准

说白了,这是一种交易:你想恢复服务,就得让政府在你的模型发布前先过一遍。

这让我很不舒服,但我也能理解。如果你是政策制定者,一个能自主发现10000个安全漏洞的AI模型,你不可能不紧张。

问题在于边界在哪。这次是"窄域越狱"就触发全球停服,下一次呢?一个 Category C 的越狱就能让数亿用户断服18天,这个响应级别是否合理?

八. 对开发者意味着什么?

聊点实际的。如果你是每天用 Claude API 或 Claude Code 的开发者,这件事跟你有什么关系?

第一,Fable 5 的误杀问题你得认真对待。 特别是如果你在做安全相关的开发,或者你的 prompt 里有"解释你的推理过程"这种指令,你需要提前配好 fallback。官方提供了三种方式:服务端 fallbacks 参数(最简单)、SDK 中间件、手动重试。

第二,Sonnet 5 可能是更务实的选择。 同一天发布的 Sonnet 5, 3/3/ 3/15 的价格,性能接近 Opus 4.8,而且网络安全防护比 Fable 5 宽松得多------官方明确说"Sonnet 5 的网络安全风险整体较低"。它连 Firefox 漏洞利用都开发不出来(0.0%),所以也不需要那么极端的分类器。

第三,长程 Agent 任务用 Fable 5 依然值得。 官方文档说得很清楚:"看到最好结果的团队,是把 Claude Fable 5 用在他们最难的未解决问题上。只拿简单任务测试,会严重低估它的能力范围。"但你要接受一个现实------在安全相关任务上,它可能会降级。

第四,注意 thinking 的行为变化。 Fable 5 的原始思维链永远不返回,只返回摘要或省略。你不能关掉 thinking,低 effort 设置下的表现仍然"经常超过之前模型的 xhigh"。这是好事,但意味着你无法像以前那样调试模型的推理过程了。

九. 我的判断

先说结论:Fable 5 回归是好事,但这次事件标志着 AI 治理进入了一个新阶段------政府可以因为一个轻微越狱就让全球最强的 AI 模型停服18天。

技术判断:Fable 5 确实是目前最强的公开发布模型,特别是长程自主 Agent 和复杂编码场景。但更严格的安全分类器意味着它的实际可用性打了折扣。你得为误杀做好准备。

行业判断:这次事件设定了一个危险的先例。亚马逊发现一个 Category C 的越狱 → 政府全球叫停 → 18天后带着更严的审查恢复。这个链条太短了。如果每次轻微越狱都走这个流程,AI 行业会被监管拖死。好消息是,越狱分级框架的建立至少让讨论有了共同基础。

实践判断:如果你不是在做安全相关的开发,Fable 5 依然是最好的选择。如果你在做安全开发,认真配置 fallback,考虑 Sonnet 5 作为替代。但不管选哪个,别把 Fable 5 当成"永远不会断"的基础设施------它已经证明过自己会被叫停。

(坦诚补充)说实话,我对政府发布前预访问这个承诺是比较担忧的。一个商业AI模型发布前要给政府先过一遍,这在技术上怎么实现?会不会变成审批制?边界在哪?这些我现在还没想清楚,但我觉得这是接下来最值得关注的变量。

十. 接下来看什么?

几个我觉得值得持续关注的点:

  1. 误杀率到底多高? Anthropic 说安全分类器触发率"低于5%的会话",但新分类器呢?等社区跑几周再说
  2. Mythos 5 什么时候全球恢复? 目前只有美国关键基础设施方能用,其他国家呢?
  3. 越狱分级框架能不能真落地? 四家公司提了框架,但执行标准、响应流程都还没细则
  4. 中国开发者怎么办? 30天数据保留、不可选零数据保留,这对国内合规意味着什么?
  5. Sonnet 5 会不会成为实际首选? 性价比更高,限制更少,可能才是大多数人的"够用"选择

18天,一个模型从发布到封杀到回归。这件事的意义不在于 Fable 5 本身有多强,而在于它揭示了:当 AI 能力强到一定程度,它的命运就不再只由技术决定了。


参考资料


话题标签:#ClaudeFable5 #Anthropic #AI出口管制 #AI安全 #AIGovernance #ClaudeCode

相关推荐
IT_陈寒1 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端
smartpi2 小时前
SmartPi GPIO 脉冲与回复语执行时序指南
人工智能
阿里云大数据AI技术2 小时前
PAI支持一键部署GLM-5.2,Coding能力比肩Claude Opus 4.8
人工智能
吾鳴2 小时前
腾讯版贾维斯(Marvis),用过就回不去了
人工智能
黄啊码2 小时前
【黄啊码】都是循环,workflow 和 Loop Engineering 有何不同?
人工智能
网易云信3 小时前
9.9 元领 3 亿 Token,这个夏天实现 AI 自由!
人工智能·aigc·产品
网易云信3 小时前
全框架覆盖!网易智企IM鸿蒙生态适配再进一步
人工智能·aigc·harmonyos
字节跳动视频云技术团队3 小时前
从生成到交付,音视频 Agent 要有生产级开发套件
人工智能·音视频开发
网易云信3 小时前
重磅认证!网易智企智能融合通信获鸿蒙生态权威认可,斩获「Harmony Trusted SDK」认证
人工智能·后端·aigc