Claude Opus 4.1 代码实测惊人！OpenAI 开源模型却只会写屎山?

AI 界的「赤壁之战」！OpenAI 开源惨遭谷歌、Anthropic 新模型狙击。最绝的是，Anthropic 卡点发布 Claude Opus 4.1，代码甩 OpenAI 新模型几条街。」

昨日，OpenAI、谷歌和 Anthropic 等发布了不同的新模型：

Anthropic 正式推出 Claude Opus 4.1，在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了 Claude Opus 4。

「Anthropic 阻击 OpenAI」

「抢先发布 Opus 4.1」

Anthropic 称 Claude Opus 4.1 提升了编码性能，同时在深度研究和数据分析能力上实现突破，特别强化了细节追踪和智能体搜索功能。

实话是，在编程基准 SWE-bench Verified 上，从 Opus 4.0 的 72.5% 提升到了 Opus 4.1 的 74.5% 准确率。

的确，编码性能提升了，但只有 2%------老实说，Opus 4.1 的性能提升并不大，毕竟定价都和 Opus 4 一样。

在其他基准测试上，部分性能提升甚至不足 1%。👇

Claude Opus 4.1 现已面向付费用户及 Claude Code 平台开放，同时登陆 API 服务、Amazon Bedrock 和 Google Cloud Vertex AI 三大云平台，定价与 Opus 4 版本保持一致

至于，Anthropic 为什么对如此小的改进还要发布？还在 OpenAI 官宣「再次开源」几分钟前？

我说就是巧了，Anthropic 和 OpenAI 这是巧了，这是 Anthropic 在欢迎 OpenAI「回归初心」，你信吗？

Palantir 兼 Cloudflare 前员工、剑桥 CS 毕业生表示，2% 性能提升对大部分人而言无足轻重，改天发布更有意义，这样就不会被 OpenAI 的新模型盖过风头。

总之，对用户来说，昨晚是 AI 界的圣诞节。

马斯克的 Grok、OpenAI、谷歌轮番宣称「推出全球最强模型」，Anthropic 说什么也要插一脚！

即便如此，论写代码 Claude 模型是真的强。

Anthropic 拉上大客户表示：Claude Opus 4.1 实现全方位能力跃升。

GitHub 表示，Claude Opus 4.1 相比 Opus 4 在多项功能上都有进步，尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group 发现，Opus 4.1 能够在庞大的代码库中精准识别需要修改的部分，避免不必要的更动，也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf 也报告称，在他们用于评估初级开发者能力的基准测试中，Opus 4.1 的表现比 Opus 4 提升了约一个标准差，这一提升幅度大致等同于从 Sonnet 3.7 升级到 Sonnet 4 时的进步。

KCORES 联合创始人「karminski - 牙医」测试了 OpenAI 和 Anthropic 新模型写代码能力，结果 OpenAI 新模型写代码不太行。

「最新鲜的 AI 代码实测来了！」

「karminski - 牙医」测试了 4 款模型:

OpenAI-OSS-120B

OpenAI-OSS-20B

Claude-Opus-4.1

Gemini-2.5-pro (Opus 的主要对手)

这次快速测试结论如下:

Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B

每个模型各运行至少 6 次, 取最好结果给大家展示。

从测试结果看 Claude-Opus-4.1 出乎意料的稳，对空间理解远超任何模型。

OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至采样了 8 次, 还没有 OSS-20B 效果好.

可能原因是 120B 每次激活专家量很少，而总专家数量又多，导致每 token 随机到相同专家的概率会特别小，进而表现不是那么稳定。而 20B 则好一些，4/128 VS 4/32 专家。

总之，OpenAI-OSS-120B 用起来要谨慎，写代码特别不稳定。OpenAI-OSS-20B 在这个参数量大小下反而挺好。

最后，他提醒大家 AI 写代码需谨慎：不要用不太行的模型写代码，只会浪费时间去调试并且积累屎山。

参考资料：