SWE-bench 首次突破 80%：Claude Opus 4.5 发布，Anthropic 的野心不止于写代码

当一个 AI 模型在软件工程基准测试中第一次突破 80% 的门槛时，你应该关注的不是那个数字 --- 而是拿到这个数字的公司接下来打算做什么。

Anthropic 的答案很清楚：不只是做一个更强的模型，而是围绕它搭建一整套工作操作系统。 Chrome 浏览器插件、Excel 集成、Claude Code 的规划模式 --- 这些不是锦上添花，而是战略意图的直接表达。AI 赢在模型的时代正在结束，赢在生态的时代刚刚开始。

发生了什么

2025 年 11 月 24 日，Anthropic 发布 Claude Opus 4.5，官方定位是"世界上最强的编程、Agent 和计算机操作模型"。

核心数据：

SWE-bench Verified（业界最权威的软件工程基准）：史上第一个突破 80% 的前沿模型
SWE-bench Multilingual：8 种编程语言中 7 种领先
Aider Polyglot（多语言编程）：比自家 Sonnet 4.5 提升 10.6%
Vending-Bench（长周期 Agent 任务）：比 Sonnet 4.5 提升 29%
BrowseComp-Plus（搜索与浏览）：大幅领先
在视觉理解、数学推理、多步推理上同样全面领先

定价： $5 / 5/$ 5/25 per million tokens（输入/输出），API 模型 ID 为 claude-opus-4-5-20251101。在 Claude 应用、API、AWS、Google Cloud、Azure 均已上线。

SWE-bench 80%：为什么这个数字是分水岭

先聊那个最抢眼的数字。

SWE-bench Verified 是什么？简单说，它给 AI 一个真实的开源项目 bug，让 AI 从理解问题到写出修复代码再到通过测试，全流程独立完成。不是写个 Hello World，也不是补全一行代码 --- 是真正的软件工程：读懂上下文、定位问题、生成解决方案、确保不破坏其他功能。

过去一年，各家前沿模型在 SWE-bench 上的军备竞赛是这样的：60% 左右徘徊了很久，70% 是个坎，80% 被认为是一个"还需要很久才能到"的里程碑。Opus 4.5 直接跨过去了。

80% 意味着什么？ 意味着在标准化的软件工程任务中，这个模型的成功率已经超过了大多数初级到中级工程师的水平。当然，benchmark 和真实工作之间永远有差距 --- 但方向是明确的：AI 在"写能跑的代码"这件事上，已经从"有时候行"变成了"大多数时候行"。

再看多语言成绩：8 种编程语言中领先 7 种。这意味着 Opus 4.5 不是只在 Python 上刷分 --- Java、JavaScript、TypeScript、Go、Rust、C++，几乎全覆盖。对于做全栈开发或者维护多语言代码库的团队来说，这是实打实的生产力工具。

真正的故事：Anthropic 在搭建一个 AI 工作操作系统

如果你只看 SWE-bench 的分数，会以为 Opus 4.5 只是又一次"模型更强了"。但和 Opus 4.5 同时发布的一系列产品更新，暴露了 Anthropic 更大的棋局。

Claude Code Plan Mode：让 AI 先想再做

过去用 Claude Code（或者任何 AI 编程助手），最让人焦虑的事情之一就是：你给它一个任务，它立刻开始动手写代码，但你不确定它理解的方向对不对。等它写了 200 行之后你才发现思路完全跑偏，只能推翻重来。

Plan Mode 解决的就是这个问题。AI 先制定一个详细的执行计划，让你看、让你改，确认之后才开始写代码。

这看起来是个小功能，但背后的设计哲学很重要：Anthropic 不是在追求"AI 自主做一切"，而是在追求"AI 和人高效协作"。 计划可编辑、人有否决权 --- 这是 human-in-the-loop（人在回路中）的具体落地，不是 PR 话术。

对于开发者来说，Plan Mode 最直接的价值是：信任成本降低了。 你不需要在 AI 写完之后逐行审查 --- 你在它动手之前就校准了方向。前置审查比后置修正效率高得多。

Endless Chat：对话不再撞墙

用 Claude 的人都踩过这个坑：聊到一半，突然提示你上下文用完了，要么开新对话，要么自己手动总结之前的内容。尤其在做长时间的研究任务或者复杂的代码调试时，被截断是真的要命。

Endless Chat 的解决方案是自动上下文摘要 --- 对话变长时，模型自动把早期内容压缩成摘要，在不丢失关键信息的前提下腾出空间继续对话。

不再有"上下文用完了"这回事。这个改动看起来简单，但它解决的是 AI 工具从"短期交互"走向"长期工作会话"的核心障碍。

Claude for Chrome：AI 走出聊天框

这才是最值得关注的产品动作。

Claude for Chrome 是一个浏览器扩展，对所有 Max 订阅用户开放。它让 Claude 能跨标签页执行任务 --- 你可以让它同时浏览多个网页、提取信息、对比数据、自动填表。

想想这意味着什么：AI 从一个你需要主动切换到的"聊天窗口"，变成了一个始终在你工作环境中运行的"助手层"。 它不再需要你把内容复制粘贴到对话框里 --- 它直接在你的浏览器里看到你在看什么、做什么。

这和 OpenAI 的 ChatGPT 桌面应用、Google 的 Gemini 集成是同一个方向的竞争：谁能最先嵌入用户的日常工作流，谁就拿到了 AI 时代的入口。 模型跑分可以被追平，但工作流的嵌入一旦形成习惯，切换成本就变得很高。

Claude for Excel：进入企业腹地

Excel 集成（beta）对 Max、Team 和 Enterprise 用户开放。

这个动作的战略意义比技术意义更大。全世界有超过 15 亿人在用 Excel。 当 AI 能直接在 Excel 里帮你做数据分析、建模、自动化报表时，受影响的不是程序员 --- 是财务、运营、市场、供应链，是每一个和数据打交道的岗位。

这也是 Anthropic 第一次在非开发者场景中发起正面进攻。以前 Claude 的核心用户画像是开发者和研究人员，现在它在试图触达企业里的每一个知识工作者。

开发者该关注的：Effort Parameter 和 Context Compaction

除了面向终端用户的产品，Opus 4.5 还带来了两个对 API 开发者非常实用的功能。

Effort Parameter （努力参数）：你现在可以告诉模型这个任务需要多大力气。设成 medium effort 时，输出 token 比 Sonnet 4.5 少 76% --- 这意味着同样的预算能处理将近 4 倍的请求。对于构建 AI 产品的公司来说，这不是小数 --- 这是商业模式层面的差异。

Context Compaction（上下文压缩）：客户端级别的优化，帮助开发者在长对话中管理上下文窗口。和 Endless Chat 是同一套技术的不同层级应用 --- 一个面向终端用户，一个面向开发者。

这两个功能指向同一个方向：Anthropic 在认真考虑成本效率。 不只是做最强的模型，还要让用它的成本可控。这对 AI 应用的普及至关重要 --- 很多好的 AI 产品不是做不出来，是推理成本太高做不起来。

安全性：不是 PR，是技术壁垒

Anthropic 自称 Opus 4.5 是他们"对齐最鲁棒的模型"，并且在 prompt injection（提示注入攻击）抵抗力上超过了所有竞争对手的前沿模型。

这不只是道德姿态。对企业客户来说，prompt injection 防御能力直接影响部署决策。 如果你要在生产环境中让 AI 处理用户输入、操作数据库、执行代码，而它容易被恶意提示劫持，那你根本不敢用。

Anthropic 在安全方面的持续投入 --- 从 Constitutional AI 到红队测试到 prompt injection 防御 --- 正在变成一种实实在在的商业优势。安全不是减速带，是加速器。 企业客户选 Claude 而不是竞品的一个重要原因，就是信任它在安全边界内的可控性。

国内做大模型的公司可以特别留意这一点：很多企业客户不是不想用 AI，是不敢用。谁先解决"用得安心"这个问题，谁就能打开企业市场的闸门。

一句话带走

SWE-bench 80% 是里程碑，但 Opus 4.5 的真正信号是：Anthropic 正在从"最强模型"竞赛转向"最深嵌入"竞赛。 Chrome 扩展、Excel 集成、Plan Mode --- 每一步都在把 AI 从一个你偶尔打开的工具，变成你离不开的工作环境。

你在用 AI 写代码吗？你觉得 Plan Mode 这种"先计划后执行"的方式，比 AI 直接动手更好用还是更麻烦？评论区聊聊。

关注本号，第一时间解读 Anthropic 最新动态。