Anthropic 昨天发布了 Claude Sonnet 5。一句话概括:把接近 Opus 4.8 的 agentic 能力,压到了 Sonnet 的价位。它已经是 Free 和 Pro 的默认模型,Claude Code 里直接能用。
我对着官方公告逐条读了一遍,把「强在哪、贵不贵、日常要不要换」讲清楚。涉及具体数字的地方,我只写官方明确给出的,benchmark 的精确分数在系统卡里,我不替它编。
一、它到底强在哪:能自己把活干完

官方给 Sonnet 5 的定位是「至今最 agentic 的 Sonnet」------能做计划、用工具(浏览器、终端),自主跑到几个月前还得靠更大更贵的模型才能到的水平。
比起前代 Sonnet 4.6,它在推理、工具使用、编码、知识工作这几块都有明显提升。更关键的是那个「gap」:它的表现接近 Opus 4.8,但价格低一截。
早期合作方的反馈很一致,都指向同一件事------它能把活干完,而不是干到一半停下。几个具体场景:
- 让它查一个 bug,它没被要求就自己写了个复现测试、实现修复,再把改动 stash 掉确认 bug 会复现,全在一趟里完成。
- 丢给它一批真实的、有难度的 pull request,它一个个跑到「测试通过、验证完成」,工程师只管最后拍板。
- 在 brownfield 老代码里(竞态、藏着的测试、没人想碰的地方)表现最好,能把失败追到真正的根因,给一个耐用的修复,而不是打补丁盖症状。
这几个描述放一起,指向的是同一种变化:它更能沿着计划走、自己检查输出,而不用你一步步盯。
二、价格:便宜,但有个「但是」

介绍价:每百万输入 token 2 美元、输出 10 美元,到 2026 年 8 月 31 日。之后转标准价:输入 3 美元、输出 15 美元。
看着比 Opus 便宜很多。但有个必须说清楚的细节:Sonnet 5 换了新的分词器(和 Opus 4.7 那次一样)。同样一段内容,会被切成更多 token,大概 1.0 到 1.35 倍,看内容类型。
官方把介绍价定得刚好抵消这个变化,说从 4.6 换到 5 的过渡「大致成本持平」。所以别把「单价低」直接理解成「花得少一半」------单价是降了,但每次调用吃的 token 变多了,两头一抵,日常成本更接近持平,不是腰斩。这点得心里有数。
三、Sonnet 5 和 Opus 4.8,怎么选

Sonnet 5 支持调 effort(努力档位)。官方的说法是:它覆盖的成本-性能范围比 Opus 4.8 更宽。
- 中等 effort:性价比明显更好,适合日常大部分活。
- 高 effort:在某些任务上能追平 Opus 4.8。
换句话说,以前你可能为了「干得动」直接上 Opus,现在很多情况可以用 Sonnet 5 调高 effort 顶上去,成本更可控。真需要最强推理的硬骨头再上 Opus。这是个能省钱的选择点。
四、对日常写代码意味着什么
它是 Free 和 Pro 的默认模型,也进了 Claude Code 和 Claude Platform,API 名就是 claude-sonnet-5。
对平时一个人写代码的人,最实际的影响是:默认款直接升了一档。你不用特意切模型,日常那些多步骤的活------改一个跨文件的功能、追一个 bug、跑一轮 PR review------主力款就能更稳地跑完。以前动不动想上 Opus 的场景,会少一些。
五、别忽略的:安全和几条诚实标注
官方的安全评估里,Sonnet 5 整体比 4.6 更好:更能拒绝恶意请求、更抗 prompt injection 劫持,幻觉和谄媚都更低。这些对 agentic 场景是实打实的加分。
但也有得说清楚的:
- 在自动化行为审计里,它的「错位行为」比 4.6 低,但比更强的 Opus 4.8 和 Mythos 要高一些。
- 它的网络安全能力被官方评为明显低于 Opus(这是好事),但因为比 4.6 略强,默认开启了实时 cyber 安全防护(和 Opus 4.7/4.8 同款)。
完整评估在官方的 Claude Sonnet 5 System Card 里,具体 benchmark 分数以那份为准。
收尾
这次发布真正的信号,不在某个 benchmark 涨了几个点,而在 agentic 能力在往下沉------那种「能自己把多步任务跑完、跑完还自查」的本事,正从最贵的旗舰款,下放到你天天在用的主力款。
对多数人,日常那点活,主力款就够使了。把 Opus 留给真正难的,Sonnet 5 顶大部分。
参考:Anthropic 官方公告 anthropic.com/news/claude-sonnet-5(含 System Card)。