Claude Opus 4.1 代码实测惊人!OpenAI 开源模型却只会写屎山?

AI 界的「赤壁之战」!OpenAI 开源惨遭谷歌、Anthropic 新模型狙击。最绝的是,Anthropic 卡点发布 Claude Opus 4.1,代码甩 OpenAI 新模型几条街。」

昨日,OpenAI、谷歌和 Anthropic 等发布了不同的新模型:

谷歌推出「G」字号第三代世界模型 Genie 3,号称「宇宙模拟器」,视频生成更加符合物理定律。

Anthropic 正式推出 Claude Opus 4.1,在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了 Claude Opus 4。

OpenAI 再次 Open,兑现了开源承诺,放出了 OpenAI-OSS 系列模型,手机、电脑本地可跑。

「Anthropic 阻击 OpenAI」

「抢先发布 Opus 4.1」

Anthropic 称 Claude Opus 4.1 提升了编码性能,同时在深度研究和数据分析能力上实现突破,特别强化了细节追踪和智能体搜索功能。

实话是,在编程基准 SWE-bench Verified 上,从 Opus 4.0 的 72.5% 提升到了 Opus 4.1 的 74.5% 准确率。

的确,编码性能提升了,但只有 2%------老实说,Opus 4.1 的性能提升并不大,毕竟定价都和 Opus 4 一样。

在其他基准测试上,部分性能提升甚至不足 1%。👇

Claude Opus 4.1 现已面向付费用户及 Claude Code 平台开放,同时登陆 API 服务、Amazon Bedrock 和 Google Cloud Vertex AI 三大云平台,定价与 Opus 4 版本保持一致

至于,Anthropic 为什么对如此小的改进还要发布?还在 OpenAI 官宣「再次开源」几分钟前?

我说就是巧了,Anthropic 和 OpenAI 这是巧了,这是 Anthropic 在欢迎 OpenAI「回归初心」,你信吗?

Palantir 兼 Cloudflare 前员工、剑桥 CS 毕业生表示,2% 性能提升对大部分人而言无足轻重,改天发布更有意义,这样就不会被 OpenAI 的新模型盖过风头。

总之,对用户来说,昨晚是 AI 界的圣诞节。

马斯克的 Grok、OpenAI、谷歌轮番宣称「推出全球最强模型」,Anthropic 说什么也要插一脚!

即便如此,论写代码 Claude 模型是真的强。

Anthropic 拉上大客户表示:Claude Opus 4.1 实现全方位能力跃升。

GitHub 表示,Claude Opus 4.1 相比 Opus 4 在多项功能上都有进步,尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group 发现,Opus 4.1 能够在庞大的代码库中精准识别需要修改的部分,避免不必要的更动,也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf 也报告称,在他们用于评估初级开发者能力的基准测试中,Opus 4.1 的表现比 Opus 4 提升了约一个标准差,这一提升幅度大致等同于从 Sonnet 3.7 升级到 Sonnet 4 时的进步。

KCORES 联合创始人「karminski - 牙医」测试了 OpenAI 和 Anthropic 新模型写代码能力,结果 OpenAI 新模型写代码不太行。

「最新鲜的 AI 代码实测来了!」

「karminski - 牙医」测试了 4 款模型:

OpenAI-OSS-120B

OpenAI-OSS-20B

Claude-Opus-4.1

Gemini-2.5-pro (Opus 的主要对手)

这次快速测试结论如下:

Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B

每个模型各运行至少 6 次, 取最好结果给大家展示。

从测试结果看 Claude-Opus-4.1 出乎意料的稳,对空间理解远超任何模型。

OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至采样了 8 次, 还没有 OSS-20B 效果好.

可能原因是 120B 每次激活专家量很少,而总专家数量又多,导致每 token 随机到相同专家的概率会特别小,进而表现不是那么稳定。而 20B 则好一些,4/128 VS 4/32 专家。

总之,OpenAI-OSS-120B 用起来要谨慎,写代码特别不稳定。OpenAI-OSS-20B 在这个参数量大小下反而挺好。

最后,他提醒大家 AI 写代码需谨慎:不要用不太行的模型写代码,只会浪费时间去调试并且积累屎山。

参考资料:

www.anthropic.com/news/claude...

x.com/karminski3/...

x.com/AnthropicAI...

相关推荐
无限大.5 分钟前
《计算机“十万个为什么”》之 面向对象 vs 面向过程:编程世界的积木与流水线
网络·人工智能·python
wangjun515911 分钟前
人工智能、机器学习、深度学习、大模型、智能体知识点汇总
人工智能·深度学习·机器学习
音视频牛哥13 分钟前
无人机 × 巡检 × AI识别:一套可复制的超低延迟低空视频感知系统搭建实践
人工智能·音视频·无人机·大牛直播sdk·低空感知·无人机视频回传·ai边缘识别
一年春又来18 分钟前
AI-03a1.Python深度学习-Tensorflow和Keras入门
人工智能·深度学习·tensorflow
Funny_AI_LAB22 分钟前
Google AI 发布 MLE-STAR:一款能够自动执行各种 AI 任务的先进机器学习工程代理
人工智能·科技·机器学习
2501_9247319926 分钟前
智慧能源场景设备缺陷漏检率↓76%:陌讯多模态融合检测方案实战解析
大数据·人工智能·算法·目标检测·计算机视觉·视觉检测
上海云盾商务经理杨杨44 分钟前
2025年服务器僵尸攻防战:从AI勒索到量子免疫,构建下一代“数字抗体”
运维·服务器·人工智能
FL16238631291 小时前
电线杆损坏倒塌断裂分割数据集labelme格式2597张1类别
人工智能·深度学习
天若有情6731 小时前
AI应用UX设计:让技术更懂用户
人工智能·ux
unicrom_深圳市由你创科技1 小时前
用 PyTorch 实现一个简单的神经网络:从数据到预测
人工智能·pytorch·神经网络