Claude Sonnet 4.6发布,Anthropic迄今最强的Sonnet模型

Claude Sonnet 4.6 是我们迄今能力最强的 Sonnet 模型。它在编码、计算机使用、长上下文推理、代理规划、知识工作以及设计等方面实现了全面升级。Sonnet 4.6 还提供 100 万 token 上下文窗口(测试版)

对于使用 Free 与 Pro 计划的用户,Claude Sonnet 4.6 现在已成为 claude.ai 与 Claude Cowork 的默认模型。价格与 Sonnet 4.5 保持一致:每百万 token 起价 3 美元 / 15 美元。

Sonnet 4.6 将大幅提升后的编程能力带给更多用户。在一致性、指令遵循等方面的改进,使得早期体验的开发者明显更偏好 Sonnet 4.6 而非其前代模型,甚至常常更偏好它而不是我们 2025 年 11 月发布的最强模型 Claude Opus 4.5。

过去需要 Opus 级模型才能完成的性能------包括现实世界中具有经济价值的办公任务------现在通过 Sonnet 4.6 即可实现。该模型在计算机使用能力上也相较此前 Sonnet 模型有显著提升。

与每个新 Claude 模型一样,我们对 Sonnet 4.6 进行了广泛的安全评估,总体显示其安全性与我们近期其他 Claude 模型相当或更高。安全研究人员的结论是:Sonnet 4.6 "整体表现出温和、诚实、亲社会并偶尔幽默的性格,具有非常强的安全行为,没有发现高风险失配方面的重大问题迹象"。

计算机使用

几乎每个组织都有难以自动化的软件:那些在现代接口(如 API)出现之前构建的专用系统和工具。过去如果想让 AI 使用这类软件,用户必须构建定制连接器。而一个能像人类一样使用计算机的模型改变了这一局面。

2024 年 10 月,我们首次推出通用计算机操作模型。当时我们称其"仍处于实验阶段------有时笨拙且容易出错",但预计会快速改进。AI 计算机使用的标准基准 OSWorld 展示了模型的进步:

它在模拟计算机上运行真实软件(Chrome、LibreOffice、VS Code 等)的数百项任务。没有特殊 API 或定制连接器;模型像人一样通过"点击虚拟鼠标、键入虚拟键盘"进行操作。

在 16 个月中,我们的 Sonnet 模型在 OSWorld 上持续提升。

这种改进也体现在实际使用中:早期 Sonnet 4.6 用户已经看到接近人类水平的能力,例如:

  • 浏览复杂电子表格

  • 填写多步骤网页表单

  • 跨多个浏览器标签整合信息

该模型仍落后于最熟练的人类计算机使用者,但进步速度令人瞩目。这意味着计算机使用对更多工作任务变得实用,并且更强大的模型触手可及。

Sonnet 4.5 之前的分数基于原版 OSWorld;4.5 之后使用 OSWorld-Verified(2025 年 7 月发布,对任务质量、评分与基础设施进行了升级)。

同时,计算机使用也带来风险:恶意行为者可能通过在网站隐藏指令进行"提示注入攻击"。我们持续提升模型抗注入能力------安全评估显示 Sonnet 4.6 相比 Sonnet 4.5 有重大提升,并与 Opus 4.6 表现相似。有关缓解提示注入与其他安全问题的更多信息,请参阅 API 文档。

评估Claude Sonnet 4.6

除计算机使用外,Claude Sonnet 4.6 在各类基准测试中均有提升。它以更实用的成本接近 Opus 级智能,适用于更多任务。完整能力与安全行为详见系统卡,下方为摘要与对比。

(表格:主流基准中 Sonnet 4.6 相对于其他前沿模型的表现)

在 Claude Code 中的早期测试显示:

用户约 70% 的时间更偏好 Sonnet 4.6 而非 Sonnet 4.5。

用户反馈它在修改代码前更有效读取上下文,并整合共享逻辑而不是重复,实现更长时间会话中的更低挫败感。

甚至相对于 11 月的前沿模型 Opus 4.5,用户 59% 的时间更偏好 Sonnet 4.6

他们评价 Sonnet 4.6:

  • 明显更少过度工程化与"偷懒"

  • 指令遵循更好

  • 更少虚假成功声明

  • 更少幻觉

  • 多步骤任务执行更一致

Sonnet 4.6 的 100 万 token 上下文窗口 足以容纳整个代码库、长合同或几十篇论文。更重要的是,它能在这些上下文中有效推理,从而显著提升长期规划能力。

在 Vending-Bench Arena(测试模型长期经营模拟企业能力,并让不同 AI 竞争利润)中表现尤为明显:

Sonnet 4.6 发展出新策略:

前 10 个月大幅投资产能,支出远高于竞争者,随后在最后阶段迅速转向盈利。这一转折时机帮助它明显领先完成。

(图示:Sonnet 4.6 通过早期投资与后期盈利策略超过 Sonnet 4.5)

早期客户也报告了广泛改进,前端代码与金融分析尤为突出。

他们独立评价 Sonnet 4.6 的视觉输出明显更精致------布局、动画与设计感均优于之前模型,并且达到生产级结果所需迭代次数更少。

如何使用 Claude Sonnet 4.6

Claude Sonnet 4.6 现已在所有 Claude 计划、Claude Cowork、Claude Code、API 以及主流云平台提供。免费层默认升级为 Sonnet 4.6,并包含:

  • 文件创建

  • 连接器

  • 技能

  • 上下文压缩

Claude Sonnet 4.6官方API价格

神马中转API价格

可以在神马中转API尝鲜测试使用

首页-工作台-操练场选择模型claude-sonnet-4-6,输入问题测试使用

产品更新

在 Claude 开发者平台中,Sonnet 4.6 支持:

  • 自适应思考(adaptive thinking)

  • 扩展思考(extended thinking)

  • 上下文压缩(测试版):对话接近限制时自动总结旧上下文,提高有效长度

在 API 中,Claude 的网页搜索与抓取工具现在会自动编写并执行代码来过滤和处理搜索结果,仅保留相关内容,从而提升响应质量与 token 效率。

此外,下列功能现已全面可用:

  • 代码执行

  • 记忆

  • 程序化工具调用

  • 工具搜索

  • 工具使用示例

Sonnet 4.6 在任何思考强度下都有强表现,即使关闭扩展思考也如此。

从 Sonnet 4.5 迁移时,我们建议在速度与可靠性之间探索最佳平衡。

对于需要最深度推理的任务------如代码库重构、多代理工作流协调、以及必须绝对正确的问题------Opus 4.6 仍是最佳选择。

对于 Excel 中的 Claude 用户,插件现支持 MCP 连接器,使 Claude 可与日常工具协作,如:

  • S&P Global

  • LSEG

  • Daloopa

  • PitchBook

  • Moody's

  • FactSet

无需离开 Excel 即可将外部上下文引入表格。若已在 claude.ai 设置 MCP 连接器,Excel 中会自动生效。此功能适用于 Pro、Max、Team 与 Enterprise 计划。

相关推荐
狼爷11 小时前
百年工业史启示:为什么AI落地普遍无效?读懂保罗·戴维的「天轴陷阱」
aigc
刘棕霆16 小时前
22—AI Skill 测评中断后怎么续跑:active-pipeline.json 断点恢复设计
aigc·ai编程·测试
leeyi16 小时前
Batch 处理:并发控制与可中断批处理
aigc·agent·ai编程
kfaino16 小时前
码农的AI翻身·前传 一个大模型从出生到上岗的全过程
后端·aigc
counterxing1 天前
最近发现一个 Mac 工具,有点像把 Raycast、语音输入法、截图和录屏塞到了一起
macos·ai编程·claude
小溪彼岸1 天前
CC Switch可视化管理Skill、提示词、会话
aigc·ai编程
码哥字节2 天前
为什么 Claude Code 读你的代码库,光靠 embedding 根本不够?
claude·代码规范
leeyi2 天前
Checkpoint 机制:Agent 怎么在断电后接着跑
redis·aigc·agent
用户5191495848452 天前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc
kfaino2 天前
你好,我叫Token——AI世界里最忙的搬砖工
aigc·openai·ai编程