刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域,DeepSeek 又带来了惊喜。

上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。

这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。

今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成绩尤为引人瞩目。

其中,在文本基准测试(Text)中,DeepSeek-R1(0528)整体排名第 6,在开放模型中排名第一。

具体到以下细分领域:

  • 在硬提示词(Hard Prompt)测试中排名第 4

  • 在编程(Coding)测试中排名第 2

  • 在数学(Math)测试中排名第 5

  • 在创意性写作(Creative Writing)测试中排名第 6

  • 在指令遵循(Intruction Fellowing)测试中排名第 9

  • 在更长查询(Longer Query)测试中排名第 8

  • 在多轮(Multi-Turn)测试中排名第 7

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一,在分数上更是超过了 Claude Opus 4。

WebDev Arena 是 LMArena 团队开发的实时 AI 编程竞赛平台,让各家大语言模型进行网页开发挑战,衡量的是人类对模型构建美观且功能强大的 Web 应用能力的偏好。

DeepSeek-R1(0528)表现出来的强大性能激起了更多人使用的欲望。

还有人表示,鉴于 Claude 长期以来一直是 AI 编程领域的基准,如今 DeepSeek-R1(0528)在性能上与 Claude Opus 相当,这是一个里程碑时刻,也是开源 AI 的关键时刻。

DeepSeek-R1(0528)在完全开放的 MIT 协议下提供了领先的性能,并能与最好的闭源模型媲美。虽然这一突破在 Web 开发中最为明显,但其影响可能延伸到更广泛的编程领域。

不过,原始性能并不能定义现实世界的表现。虽然 DeepSeek-R1(0528)在技术能力上可能与 Claude 相当,但其是否可以在日常工作流程中提供媲美 Claude 的用户体验,这些需要更多的实际验证。

高强度使用过 DeepSeek-R1(0528)的小伙伴,可以在评论区留言,谈一谈自己的体验感受。

参考链接:

lmarena.ai/leaderboard...

x.com/lmarena_ai/...

相关推荐
飞哥数智坊5 分钟前
打造我的 AI 开发团队(三):bmad 如何实现规划与开发闭环
人工智能·ai编程
哈泽尔都9 分钟前
运动控制教学——5分钟学会样条曲线算法!(三次样条曲线,B样条曲线)
c++·人工智能·算法·机器学习·matlab·贪心算法·机器人
Python极客之家13 分钟前
基于机器学习的智能贫血分析预测系统
人工智能·python·机器学习·数据挖掘·毕业设计·数据可视化分析
lisw051 小时前
编程语言top5对比分析!
大数据·人工智能·程序人生·机器学习·软件工程
打码人的日常分享1 小时前
信息化系统安全建设方案
大数据·数据库·人工智能·安全·系统安全
幂简集成1 小时前
需求从0到1:AI提示词助力客户画像→功能脑暴→PRD→价值主张
大数据·人工智能
居然JuRan2 小时前
DeepSeek+LoRA+FastAPI微调大模型并暴露接口给后端调用
人工智能
彭祥.2 小时前
点云-标注-分类-航线规划软件 (一)点云自动分类
人工智能·分类·数据挖掘
丰年稻香2 小时前
神经网络反向传播中的学习率:从理论到实践的全面解析
人工智能·神经网络·学习
北京耐用通信2 小时前
一“网”跨协议,万“设”皆可通!耐达讯自动化Modbus TCP转Profibus ,让控制无界,让能源有道。
网络·人工智能·网络协议·自动化·信息与通信