Claude Opus 4.1 代码实测惊人!OpenAI 开源模型却只会写屎山?

AI 界的「赤壁之战」!OpenAI 开源惨遭谷歌、Anthropic 新模型狙击。最绝的是,Anthropic 卡点发布 Claude Opus 4.1,代码甩 OpenAI 新模型几条街。」

昨日,OpenAI、谷歌和 Anthropic 等发布了不同的新模型:

谷歌推出「G」字号第三代世界模型 Genie 3,号称「宇宙模拟器」,视频生成更加符合物理定律。

Anthropic 正式推出 Claude Opus 4.1,在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了 Claude Opus 4。

OpenAI 再次 Open,兑现了开源承诺,放出了 OpenAI-OSS 系列模型,手机、电脑本地可跑。

「Anthropic 阻击 OpenAI」

「抢先发布 Opus 4.1」

Anthropic 称 Claude Opus 4.1 提升了编码性能,同时在深度研究和数据分析能力上实现突破,特别强化了细节追踪和智能体搜索功能。

实话是,在编程基准 SWE-bench Verified 上,从 Opus 4.0 的 72.5% 提升到了 Opus 4.1 的 74.5% 准确率。

的确,编码性能提升了,但只有 2%------老实说,Opus 4.1 的性能提升并不大,毕竟定价都和 Opus 4 一样。

在其他基准测试上,部分性能提升甚至不足 1%。👇

Claude Opus 4.1 现已面向付费用户及 Claude Code 平台开放,同时登陆 API 服务、Amazon Bedrock 和 Google Cloud Vertex AI 三大云平台,定价与 Opus 4 版本保持一致

至于,Anthropic 为什么对如此小的改进还要发布?还在 OpenAI 官宣「再次开源」几分钟前?

我说就是巧了,Anthropic 和 OpenAI 这是巧了,这是 Anthropic 在欢迎 OpenAI「回归初心」,你信吗?

Palantir 兼 Cloudflare 前员工、剑桥 CS 毕业生表示,2% 性能提升对大部分人而言无足轻重,改天发布更有意义,这样就不会被 OpenAI 的新模型盖过风头。

总之,对用户来说,昨晚是 AI 界的圣诞节。

马斯克的 Grok、OpenAI、谷歌轮番宣称「推出全球最强模型」,Anthropic 说什么也要插一脚!

即便如此,论写代码 Claude 模型是真的强。

Anthropic 拉上大客户表示:Claude Opus 4.1 实现全方位能力跃升。

GitHub 表示,Claude Opus 4.1 相比 Opus 4 在多项功能上都有进步,尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group 发现,Opus 4.1 能够在庞大的代码库中精准识别需要修改的部分,避免不必要的更动,也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf 也报告称,在他们用于评估初级开发者能力的基准测试中,Opus 4.1 的表现比 Opus 4 提升了约一个标准差,这一提升幅度大致等同于从 Sonnet 3.7 升级到 Sonnet 4 时的进步。

KCORES 联合创始人「karminski - 牙医」测试了 OpenAI 和 Anthropic 新模型写代码能力,结果 OpenAI 新模型写代码不太行。

「最新鲜的 AI 代码实测来了!」

「karminski - 牙医」测试了 4 款模型:

OpenAI-OSS-120B

OpenAI-OSS-20B

Claude-Opus-4.1

Gemini-2.5-pro (Opus 的主要对手)

这次快速测试结论如下:

Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B

每个模型各运行至少 6 次, 取最好结果给大家展示。

从测试结果看 Claude-Opus-4.1 出乎意料的稳,对空间理解远超任何模型。

OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至采样了 8 次, 还没有 OSS-20B 效果好.

可能原因是 120B 每次激活专家量很少,而总专家数量又多,导致每 token 随机到相同专家的概率会特别小,进而表现不是那么稳定。而 20B 则好一些,4/128 VS 4/32 专家。

总之,OpenAI-OSS-120B 用起来要谨慎,写代码特别不稳定。OpenAI-OSS-20B 在这个参数量大小下反而挺好。

最后,他提醒大家 AI 写代码需谨慎:不要用不太行的模型写代码,只会浪费时间去调试并且积累屎山。

参考资料:

www.anthropic.com/news/claude...

x.com/karminski3/...

x.com/AnthropicAI...

相关推荐
jndingxin20 小时前
算法面试(5)------NMS(非极大值抑制)原理 Soft-NMS、DIoU-NMS 是什么?
人工智能·算法·目标跟踪
cfc124357063120 小时前
bazel编译
人工智能·机器学习
create1720 小时前
IntelliJ IDEA 等软件如何与 AI 编程工具(Cursor、Windsurf、Qoder等)实现互相跳转
java·ide·人工智能·intellij-idea
兔兔爱学习兔兔爱学习20 小时前
大模型之bert变种
人工智能·深度学习·bert
DuHz20 小时前
Phi-3 技术报告:手机本地运行的高能力语言模型——论文阅读
论文阅读·人工智能·语言模型·自然语言处理·智能手机
科技峰行者20 小时前
阿里云无影发布首个Agentic Computer形态的个人计算产品
人工智能·阿里云·ai·agent
Elastic 中国社区官方博客21 小时前
使用 Elasticsearch 构建 AI Agentic 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
GoldenSpider.AI21 小时前
AI视频特效转场教程:用Nano Banana和Kling 2.1创造病毒式传播效果
人工智能·ai视频·elevenlabs·nano banana·kling·ai特效·veo 3
stjiejieto21 小时前
AI 浪潮下的劳动力革命:职业重构、技能升级与社会适应
人工智能·重构
一碗白开水一21 小时前
【第29话:路径规划】自动驾驶启发式搜索算法(A星搜索算法( A* 搜索算法))详解及代码举例说明
人工智能·算法·机器学习·计算机视觉·自动驾驶·unix