SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码

SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码

当一个 AI 模型在软件工程基准测试中第一次突破 80% 的门槛时,你应该关注的不是那个数字 --- 而是拿到这个数字的公司接下来打算做什么。

Anthropic 的答案很清楚:不只是做一个更强的模型,而是围绕它搭建一整套工作操作系统。 Chrome 浏览器插件、Excel 集成、Claude Code 的规划模式 --- 这些不是锦上添花,而是战略意图的直接表达。AI 赢在模型的时代正在结束,赢在生态的时代刚刚开始。


发生了什么

2025 年 11 月 24 日,Anthropic 发布 Claude Opus 4.5,官方定位是"世界上最强的编程、Agent 和计算机操作模型"。

核心数据:

  • SWE-bench Verified(业界最权威的软件工程基准):史上第一个突破 80% 的前沿模型
  • SWE-bench Multilingual:8 种编程语言中 7 种领先
  • Aider Polyglot(多语言编程):比自家 Sonnet 4.5 提升 10.6%
  • Vending-Bench(长周期 Agent 任务):比 Sonnet 4.5 提升 29%
  • BrowseComp-Plus(搜索与浏览):大幅领先
  • 在视觉理解、数学推理、多步推理上同样全面领先

定价: <math xmlns="http://www.w3.org/1998/Math/MathML"> 5 / 5/ </math>5/25 per million tokens(输入/输出),API 模型 ID 为 claude-opus-4-5-20251101。在 Claude 应用、API、AWS、Google Cloud、Azure 均已上线。


SWE-bench 80%:为什么这个数字是分水岭

先聊那个最抢眼的数字。

SWE-bench Verified 是什么?简单说,它给 AI 一个真实的开源项目 bug,让 AI 从理解问题到写出修复代码再到通过测试,全流程独立完成。不是写个 Hello World,也不是补全一行代码 --- 是真正的软件工程:读懂上下文、定位问题、生成解决方案、确保不破坏其他功能。

过去一年,各家前沿模型在 SWE-bench 上的军备竞赛是这样的:60% 左右徘徊了很久,70% 是个坎,80% 被认为是一个"还需要很久才能到"的里程碑。Opus 4.5 直接跨过去了。

80% 意味着什么? 意味着在标准化的软件工程任务中,这个模型的成功率已经超过了大多数初级到中级工程师的水平。当然,benchmark 和真实工作之间永远有差距 --- 但方向是明确的:AI 在"写能跑的代码"这件事上,已经从"有时候行"变成了"大多数时候行"。

再看多语言成绩:8 种编程语言中领先 7 种。这意味着 Opus 4.5 不是只在 Python 上刷分 --- Java、JavaScript、TypeScript、Go、Rust、C++,几乎全覆盖。对于做全栈开发或者维护多语言代码库的团队来说,这是实打实的生产力工具。


真正的故事:Anthropic 在搭建一个 AI 工作操作系统

如果你只看 SWE-bench 的分数,会以为 Opus 4.5 只是又一次"模型更强了"。但和 Opus 4.5 同时发布的一系列产品更新,暴露了 Anthropic 更大的棋局。

Claude Code Plan Mode:让 AI 先想再做

过去用 Claude Code(或者任何 AI 编程助手),最让人焦虑的事情之一就是:你给它一个任务,它立刻开始动手写代码,但你不确定它理解的方向对不对。等它写了 200 行之后你才发现思路完全跑偏,只能推翻重来。

Plan Mode 解决的就是这个问题。AI 先制定一个详细的执行计划,让你看、让你改,确认之后才开始写代码。

这看起来是个小功能,但背后的设计哲学很重要:Anthropic 不是在追求"AI 自主做一切",而是在追求"AI 和人高效协作"。 计划可编辑、人有否决权 --- 这是 human-in-the-loop(人在回路中)的具体落地,不是 PR 话术。

对于开发者来说,Plan Mode 最直接的价值是:信任成本降低了。 你不需要在 AI 写完之后逐行审查 --- 你在它动手之前就校准了方向。前置审查比后置修正效率高得多。

Endless Chat:对话不再撞墙

用 Claude 的人都踩过这个坑:聊到一半,突然提示你上下文用完了,要么开新对话,要么自己手动总结之前的内容。尤其在做长时间的研究任务或者复杂的代码调试时,被截断是真的要命。

Endless Chat 的解决方案是自动上下文摘要 --- 对话变长时,模型自动把早期内容压缩成摘要,在不丢失关键信息的前提下腾出空间继续对话。

不再有"上下文用完了"这回事。这个改动看起来简单,但它解决的是 AI 工具从"短期交互"走向"长期工作会话"的核心障碍。

Claude for Chrome:AI 走出聊天框

这才是最值得关注的产品动作。

Claude for Chrome 是一个浏览器扩展,对所有 Max 订阅用户开放。它让 Claude 能跨标签页执行任务 --- 你可以让它同时浏览多个网页、提取信息、对比数据、自动填表。

想想这意味着什么:AI 从一个你需要主动切换到的"聊天窗口",变成了一个始终在你工作环境中运行的"助手层"。 它不再需要你把内容复制粘贴到对话框里 --- 它直接在你的浏览器里看到你在看什么、做什么。

这和 OpenAI 的 ChatGPT 桌面应用、Google 的 Gemini 集成是同一个方向的竞争:谁能最先嵌入用户的日常工作流,谁就拿到了 AI 时代的入口。 模型跑分可以被追平,但工作流的嵌入一旦形成习惯,切换成本就变得很高。

Claude for Excel:进入企业腹地

Excel 集成(beta)对 Max、Team 和 Enterprise 用户开放。

这个动作的战略意义比技术意义更大。全世界有超过 15 亿人在用 Excel。 当 AI 能直接在 Excel 里帮你做数据分析、建模、自动化报表时,受影响的不是程序员 --- 是财务、运营、市场、供应链,是每一个和数据打交道的岗位。

这也是 Anthropic 第一次在非开发者场景中发起正面进攻。以前 Claude 的核心用户画像是开发者和研究人员,现在它在试图触达企业里的每一个知识工作者


开发者该关注的:Effort Parameter 和 Context Compaction

除了面向终端用户的产品,Opus 4.5 还带来了两个对 API 开发者非常实用的功能。

Effort Parameter (努力参数):你现在可以告诉模型这个任务需要多大力气。设成 medium effort 时,输出 token 比 Sonnet 4.5 少 76% --- 这意味着同样的预算能处理将近 4 倍的请求。对于构建 AI 产品的公司来说,这不是小数 --- 这是商业模式层面的差异。

Context Compaction(上下文压缩):客户端级别的优化,帮助开发者在长对话中管理上下文窗口。和 Endless Chat 是同一套技术的不同层级应用 --- 一个面向终端用户,一个面向开发者。

这两个功能指向同一个方向:Anthropic 在认真考虑成本效率。 不只是做最强的模型,还要让用它的成本可控。这对 AI 应用的普及至关重要 --- 很多好的 AI 产品不是做不出来,是推理成本太高做不起来。


安全性:不是 PR,是技术壁垒

Anthropic 自称 Opus 4.5 是他们"对齐最鲁棒的模型",并且在 prompt injection(提示注入攻击)抵抗力上超过了所有竞争对手的前沿模型。

这不只是道德姿态。对企业客户来说,prompt injection 防御能力直接影响部署决策。 如果你要在生产环境中让 AI 处理用户输入、操作数据库、执行代码,而它容易被恶意提示劫持,那你根本不敢用。

Anthropic 在安全方面的持续投入 --- 从 Constitutional AI 到红队测试到 prompt injection 防御 --- 正在变成一种实实在在的商业优势。安全不是减速带,是加速器。 企业客户选 Claude 而不是竞品的一个重要原因,就是信任它在安全边界内的可控性。

国内做大模型的公司可以特别留意这一点:很多企业客户不是不想用 AI,是不敢用。谁先解决"用得安心"这个问题,谁就能打开企业市场的闸门。


一句话带走

SWE-bench 80% 是里程碑,但 Opus 4.5 的真正信号是:Anthropic 正在从"最强模型"竞赛转向"最深嵌入"竞赛。 Chrome 扩展、Excel 集成、Plan Mode --- 每一步都在把 AI 从一个你偶尔打开的工具,变成你离不开的工作环境。

你在用 AI 写代码吗?你觉得 Plan Mode 这种"先计划后执行"的方式,比 AI 直接动手更好用还是更麻烦?评论区聊聊。


关注本号,第一时间解读 Anthropic 最新动态。


相关推荐
前端付豪2 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232552 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
lnix2 小时前
当“大龙虾”养在本地:我们离“反SaaS”的AI未来还有多远?
人工智能·aigc
泉城老铁2 小时前
Dify知识库如何实现多关键词AND检索?
人工智能
阿星AI工作室2 小时前
给openclaw龙虾造了间像素办公室!实时看它写代码、摸鱼、修bug、写日报,太可爱了吧!
前端·人工智能·设计模式
Halo咯咯2 小时前
别再学写代码了,顶级工程师现在在学管理AI agent | 值得一读
人工智能
明明如月学长2 小时前
被 Claude Code 劝退?这款免费开源好用的 AI 神器更适合普通人
人工智能
恋猫de小郭4 小时前
AI 正在造就你的「认知卸载」,但是时代如此
前端·人工智能·ai编程