Claude Fable 5 新模型杀疯了:跑分5倍于GPT-5.5,真能用吗?

大家好,我是子昕。

第一眼看到 Claude Fable 5 的榜单,我真愣了一下。

FrontierCode,29.3 分。

GPT-5.5,5.7 分。

超过 5 倍。

说实话,这种差距很难让一个天天用 AI 写代码的人保持冷静。

但我把发布文章、319 页系统卡、价格和安全机制看完之后,反而意识到:现在还没法下结论。

Fable 5 可能是 Anthropic 这半年最值得开发者关注的模型。

可它贵、限制多,而且真正最强的地方还没有经过我的项目验证。

这篇不复述发布会。我只想回答一个问题:

现在主力用 GPT-5.5 的开发者,要不要切 Fable 5?

我的答案是:光看榜单判断不了。

Fable 5 天然就需要放进复杂项目里深度测试。

趁免费窗口拿一个大项目跑一遍,再决定它能不能接替现有主力。

这次跑分,确实有点夸张

先看 Anthropic 的官方榜单。

这里有个非常容易看错的地方。

第一列写的是 Claude Mythos 5 / Fable 5,不是 Fable 5 单独成绩。

官方说明,多数评测里两者相差 1-3 个百分点,图上展示较高的那个分数。

带星号的项目差距可能更大,因为 Fable 5 会受到安全阻断和回退影响。

所以我又回到系统卡,把 Fable 5 单独成绩拆了出来:

评测 Fable 5 单独成绩 GPT-5.5 差距
SWE-bench Pro 80.0 58.6 +21.4
FrontierCode Diamond(xhigh) 29.3 5.7 约 5.1 倍
Terminal-Bench 2.1 84.3 83.4 +0.9

这三行放在一起看,结论和"全面碾压"完全不一样。

复杂代码修复和可合并代码质量,Fable 5 确实拉开了。

但到了终端任务,84.3 对 83.4,基本是同一水平。

第一眼看到 29.3 对 5.7,我有点兴奋。

看到 Terminal-Bench 只差 0.9,我又冷静了一半。

Fable 5 不是每个编程场景都把 GPT-5.5 按在地上摩擦。它的优势更集中在复杂、长链路、最终代码质量要求高的任务。

这反而更符合真实工程。

写一个接口,大家都能写。

难的是跨十几个模块改完之后,代码还能不能合并。

Fable 5 和 GPT-5.5,到底怎么选

我现在真实后端项目的主力仍然是 GPT-5.5。

不是因为它每项跑分都最高,而是我已经知道它在 Java 项目里什么时候靠谱、什么时候会漏、失败后该怎么继续追。

模型选型不是只看智商。

稳定预期,本身就是生产力。

把两边最影响开发者选择的参数放一起:

维度 Claude Fable 5 GPT-5.5
API 上下文窗口 100 万 token 105 万 token
最大输出 12.8 万 token 12.8 万 token
标准 API 输入价格 10 美元/百万 token 5 美元/百万 token
标准 API 输出价格 50 美元/百万 token 30 美元/百万 token
输入超过 27.2 万后的价格 仍为 10 / 50 美元 10 / 45 美元

这里最容易混淆的是产品窗口和 API 窗口。

GPT-5.5 在 Codex 里是 40 万上下文,但 API 模型支持 105 万。两者不是同一个口径。

GPT-5.5 标准 API 价格是输入 5 美元、输出 30 美元。

还有一个容易漏掉的细节:当输入超过 27.2 万 token,GPT-5.5 整次会话会按 2 倍输入、1.5 倍输出计费,也就是输入 10 美元、输出 45 美元。

所以短上下文任务里,GPT-5.5 明显便宜。

真进入几十万 token 的长任务后,Fable 5 的 10/50 美元和 GPT-5.5 的 10/45 美元,价格已经非常接近。

这时候比的就不是谁单价低,而是谁能用更少的重试把项目做完。

Anthropic 自己的 FrontierCode 成本图也很直观。Fable 5 的分数明显更高,但每个任务花的钱也一路往上走。

如果只是改 CRUD、补单测、解释代码,我不会用 Fable 5。

GPT-5.5 甚至更便宜的模型已经够了。

但如果任务是跨仓迁移、老系统重构、连续几天的性能优化,Fable 5 的价格才可能值回来。

真正让我兴奋的,是它开始按"项目"干活

Anthropic 对 Fable 5 的定位不是"更会回答问题"。

而是能在数小时甚至数天的任务里保持方向。

它支持 100 万 token 上下文、12.8 万 token 输出。

官方提示词指南甚至建议,不要再把任务拆得过细,只要把目标和验收标准说清楚,让它自己探索、实现、测试和修正。

这句话对我冲击挺大。

以前我们把 AI 当一个随叫随到的编程助手。

现在 Anthropic 想把它变成一个能接完整项目的工程师。

Stripe 的早期案例更夸张:按照 Anthropic 的转述,一次约 5000 万行代码迁移,团队原本预计花几个月,Fable 5 一天跑完了主要工作。

这不是独立复现,我不会直接当真。

但说实话,我看到这里还是有点心动。

做后端这些年,最烦的从来不是某段代码不会写。

是那些明知道该做,却因为牵扯太多一直压着的活:老规则迁移、历史技术债、跨模块重构、性能瓶颈。

如果 Fable 5 真能把这种任务连续跑下去,它改变的不是写代码速度。

它会把以前排不上期的工程任务,重新变成可以做的事。

然后这张安全图,把我看冷静了

Fable 5 不是一个完全放开的模型。

Anthropic 给它加了额外安全机制。部分高风险任务会被阻断、拒答,或者回退到 Opus 4.8。

下面这张官方图很有意思。

你会看到 Fable 5 在几项进攻性网络安全评测里直接是 0。

不是模型突然不会了。

是安全机制不让它做。

看到这里,我第一反应不是"安全做得真好",而是:

那普通企业代码里,哪些任务会误触发?跑了两小时后突然拒绝怎么办?

Claude 客户端里,部分请求会自动路由到 Opus 4.8。

Messages API 默认会返回结构化 refusal,开发者需要自己处理重试或 fallback。

这意味着同一个长任务,中途可能换模型,也可能直接停下来。

再加上 Fable 5 的提示词和输出需要为安全目的保留 30 天,不能继续按 Zero Data Retention 使用。

对个人项目问题不大。

对公司核心代码库,这不是一句"模型更强"就能绕过去的。

价格,又泼了一盆冷水

Fable 5 输入 10 美元、输出 50 美元。

举个最简单的账:

  • 100 万输入 + 5 万输出,约 12.5 美元。
  • 100 万输入 + 12.8 万输出,约 16.4 美元。

这还只是一轮账面计算。

真实长任务会反复读文件、跑命令、修失败、重试、验证。跑几个小时之后,累计成本可能完全不是一个量级。

所以 Fable 5 很像一个收费极高的资深顾问。

小活找它,纯浪费。

大活找对了,可能一天把几个月的工作啃下来。

现在正好有一个试用机会。

到 6 月 22 日之前,Pro、Max、Team 和席位制 Enterprise 用户暂时可以在现有套餐里使用 Fable 5。

6 月 23 日之后会改为 usage credits,除非 Anthropic 延长窗口。

我准备怎么测

我不会拿它生成 Todo List,也不会测一个从零写 Demo。

我准备找一个真实的 Java 多模块老项目,给它一条完整业务链路:

  1. 从入口一路追到核心处理逻辑。
  2. 检查数据读写和异步任务。
  3. 修改规则并补齐测试。
  4. 自己运行验证,最后 review 全部 diff。

我最关心的不是它写了多少代码。

而是四件事:

  • 第几个小时开始跑偏。
  • 上下文压缩后还记不记得关键约束。
  • 测试失败后能不能自己找回来。
  • 最终代码我敢不敢合并。

最后一条最重要。

榜单再高,代码不敢进生产,都是热闹。

最后

看完 Fable 5,我的情绪其实转了三次。

看到 FrontierCode 29.3,我有点震住。

看到 Terminal-Bench 只领先 GPT-5.5 0.9,我冷静了一半。

再看到价格、安全回退和数据保留,我意识到是否切主力这件事,根本不能只靠榜单决定。

但我不会忽略它。

因为 Fable 5 真正想证明的,不是自己比 GPT-5.5 聪明多少。

它想证明的是:

AI 已经可以从"帮你完成一个任务",走到"替你推进一个项目"。

这件事如果在真实 Java 项目里成立,再认真讨论要不要换主力。

不成立,那它就是一个跑分很猛、价格很贵的高级实验品。

等我跑完再说。

如果这篇对你有帮助,欢迎关注微信公众号「子昕AI编程」,也顺手点个赞、在看,或者转发给同样在折腾 AI 编程工具的朋友。

相关推荐
ZzT2 小时前
6 月 15 日起,claude -p 和 Agent SDK 不再走订阅额度
ai编程·claude
wuhen_n2 小时前
RAG 实战:语义检索 + 大模型生成精准问答
前端·langchain·ai编程
Java.熵减码农2 小时前
Hermes Agent 安装踩坑记录:DNS 解析失败 & Node.js 幽灵文件冲突
node.js·ai编程·hermes
xyz_CDragon3 小时前
OpenClaw 局域网调用 Ollama 本地大模型:完整配置与踩坑指南
python·ai编程·集成学习·ollama·deepseek·openclaw
winlife_3 小时前
全程用 AI 做一款商业级手游 · EP10 道具系统:让三个按钮真正改变棋盘
windows·算法·unity·ai编程·游戏开发·mcp·玩法系统
秋天的一阵风3 小时前
✨ 代码秒跳转、自动补全?全靠 LSP 和 AST!
前端·后端·ai编程
沉默王二3 小时前
又一个神级 Codex Skill 诞生了!
agent·ai编程
ThatMonth3 小时前
Chroma 向量数据库使用教程
ai编程