
AI 界的「赤壁之战」!OpenAI 开源惨遭谷歌、Anthropic 新模型狙击。最绝的是,Anthropic 卡点发布 Claude Opus 4.1,代码甩 OpenAI 新模型几条街。」
昨日,OpenAI、谷歌和 Anthropic 等发布了不同的新模型:
谷歌推出「G」字号第三代世界模型 Genie 3,号称「宇宙模拟器」,视频生成更加符合物理定律。
Anthropic 正式推出 Claude Opus 4.1,在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了 Claude Opus 4。
OpenAI 再次 Open,兑现了开源承诺,放出了 OpenAI-OSS 系列模型,手机、电脑本地可跑。


「Anthropic 阻击 OpenAI」
「抢先发布 Opus 4.1」
Anthropic 称 Claude Opus 4.1 提升了编码性能,同时在深度研究和数据分析能力上实现突破,特别强化了细节追踪和智能体搜索功能。

实话是,在编程基准 SWE-bench Verified 上,从 Opus 4.0 的 72.5% 提升到了 Opus 4.1 的 74.5% 准确率。
的确,编码性能提升了,但只有 2%------老实说,Opus 4.1 的性能提升并不大,毕竟定价都和 Opus 4 一样。

在其他基准测试上,部分性能提升甚至不足 1%。👇

Claude Opus 4.1 现已面向付费用户及 Claude Code 平台开放,同时登陆 API 服务、Amazon Bedrock 和 Google Cloud Vertex AI 三大云平台,定价与 Opus 4 版本保持一致
至于,Anthropic 为什么对如此小的改进还要发布?还在 OpenAI 官宣「再次开源」几分钟前?
我说就是巧了,Anthropic 和 OpenAI 这是巧了,这是 Anthropic 在欢迎 OpenAI「回归初心」,你信吗?
Palantir 兼 Cloudflare 前员工、剑桥 CS 毕业生表示,2% 性能提升对大部分人而言无足轻重,改天发布更有意义,这样就不会被 OpenAI 的新模型盖过风头。

总之,对用户来说,昨晚是 AI 界的圣诞节。

马斯克的 Grok、OpenAI、谷歌轮番宣称「推出全球最强模型」,Anthropic 说什么也要插一脚!

即便如此,论写代码 Claude 模型是真的强。
Anthropic 拉上大客户表示:Claude Opus 4.1 实现全方位能力跃升。
GitHub 表示,Claude Opus 4.1 相比 Opus 4 在多项功能上都有进步,尤其是在处理多文件代码重构时表现更为出色。
Rakuten Group 发现,Opus 4.1 能够在庞大的代码库中精准识别需要修改的部分,避免不必要的更动,也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。
Windsurf 也报告称,在他们用于评估初级开发者能力的基准测试中,Opus 4.1 的表现比 Opus 4 提升了约一个标准差,这一提升幅度大致等同于从 Sonnet 3.7 升级到 Sonnet 4 时的进步。
KCORES 联合创始人「karminski - 牙医」测试了 OpenAI 和 Anthropic 新模型写代码能力,结果 OpenAI 新模型写代码不太行。


「最新鲜的 AI 代码实测来了!」
「karminski - 牙医」测试了 4 款模型:
OpenAI-OSS-120B
OpenAI-OSS-20B
Claude-Opus-4.1
Gemini-2.5-pro (Opus 的主要对手)
这次快速测试结论如下:
Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B
每个模型各运行至少 6 次, 取最好结果给大家展示。
从测试结果看 Claude-Opus-4.1 出乎意料的稳,对空间理解远超任何模型。
OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至采样了 8 次, 还没有 OSS-20B 效果好.
可能原因是 120B 每次激活专家量很少,而总专家数量又多,导致每 token 随机到相同专家的概率会特别小,进而表现不是那么稳定。而 20B 则好一些,4/128 VS 4/32 专家。

总之,OpenAI-OSS-120B 用起来要谨慎,写代码特别不稳定。OpenAI-OSS-20B 在这个参数量大小下反而挺好。
最后,他提醒大家 AI 写代码需谨慎:不要用不太行的模型写代码,只会浪费时间去调试并且积累屎山。
参考资料: