Cursor 自己做了模型 PK ,Cursor 里哪个模型性价比最高?

最近 Cursor 发布了它内部使用的评测体系 CursorBench 报告,用来衡量 AI coding agent 的真实工程能力,它做 CursorBench 主要是因为:

  • 传统 benchmark 不够真实,说到底很多模型都是背答案和应试教育出来的
  • CursorBench 用的是真实开发请求
  • 评估的不只是正确率,而是工程能力
  • agent 行为也算分

官方的原话是:

We built CursorBench to measure multiple dimensions of agent performance including solution correctness, code quality, efficiency, and interaction behavior.

例如这里展示的是 CursorBench 结婚图:

  • 横轴:Median tokens(越右越省token)
  • 纵轴:CursorBench score(越高越好)

也就是越靠近 Token efficiency frontier 的越好。

对于 CursorBench 来说,它评估维度会比 SWE-bench 多 :

维度 含义
correctness 是否能完成任务
code quality 代码是否符合工程规范
efficiency token / steps / retries
interaction agent行为是否合理

最重要是,Cursor 是中间商,它相对会更加中立一点点(虽然它自己也开始做 Composer),毕竟现在公开的 Bench 是越来越没有说服力了,测试方向本身就不贴合实际场景,像一些 Terminal-Bench 也是在做一些宽泛的解谜式任务,例如从棋盘位置找出最佳的国际象棋走法这些,实际上是和 Agent 要执行的 Coding 任务根本不匹配。

另外作弊和污染也会导致分数虚高,所以就连 OpenAI 最近也完全停止发布 SWE-bench Verified 的结果,因为他们发现前沿模型能够凭记忆复现黄金代码片段,而且近 60% 的未解决问题都存在测试缺陷

而 CursorBench 的设计思想也和现在新的主流的差不多,主要是用真实开发任务,而不是合成任务 ,例如:

  • 真实代码库
  • 真实需求
  • 真实 IDE 交互
  • 真实 agent 流程

在这里,Cursor 使用 Cursor Blame 给 CursorBench 补充任务,Cursor Blame 可以将已提交的代码追溯到生成该代码的Agent 请求,从而能够自然地将开发者查询和真实解决方案配对,这里的许多任务来自 Cursor 的内部代码库和受控来源,从而降低了模型在训练过程中接触到这些任务的风险,特别是每隔几个月更新一次任务套件,方便跟踪开发者使用 Agent 变化。

对比 SWE-bench 的 GitHub issue/patch 下的自动验证流程,CursorBench 采用 IDE Agent 下的多轮交互,修改多个文件路径,覆盖 terminal / tool / search 等场景,还评测了 context 管理等。

如果严格来说, CursorBench 更像是一个 Agent benchmark ,更贴近 IDE workflow 。

从初始版本到现在的 CursorBench-3 版本,正确性评估中的问题范围大约翻了一番,无论是代码行数还是平均文件数都显著增加,也就是 CursorBench-3 的任务涉及的代码行数远超 SWE-bench Verified、Pro 或 Multilingual :

虽然代码行数不是衡量难度的完美指标,但这个指标的增长也反映了任务的复杂度在提升,例如处理具有仓库的多工作区环境、分析生产日志和执行长时间运行的实验。

最重要的是,CursorBench 任务也符合开发者与 Agent 之间沟通时常存在的规范不足、含糊不清的特点,和其他相比更贴近真实场景:

因为现在的 coding AI 本来就是不只是模型,我也说过很多次,模型本身确实很重要,但是 harness 环境也很重要 ,现在的 AI 开发,本来就是 model + tools + planner + memory 的集合体,所以单讨论模型本身意义不大,例如 Cursor 也说了:

same model shows up to 6× performance gap across agents 。

任务复杂度和前面说的这些差异,对基准测试的实用性产生的影响很大,比如在某些情况下,像 Haiku 这样的模型甚至可以达到或超过 GPT-5 的性能,但是对比右边 CursorBench 就结果就很明显了:

最后,前面说了那么多废话,这里直接看结果:

  • 左边:Online evals(真实用户在线指标,越低越好)
  • 右边:CursorBench(内部benchmark,越高越好)

在这个结果上,Cursor 证明了 CursorBench排名 ≈ 真实使用排名 ,而结果确实也趋势基本一致,在线越好的模型场景, CursorBench 也高

当然,因为是内部流程,也是为了防止污染, CursorBench 完全不公开,它是一个闭源测试项目,所以你无法复现和验证,另外因为是内部任务,也存在模型容易过拟合,例如:用 Cursor 训练但室又用 Cursor 评测 。

所以它最多是证明了模型在 Cursor 下哪个更好用,性价比更好,不代表这个模型在其他场景下的能力,还是那句话,harness 很重要,比如你在 opencode 里用 Claude ,大概体验不出 Claude 的好。

所以,如果你还用 Cursor ,那这个文章就有比较高的参考意义,如果我选择的话,codex-5.3 medium 就是一个性价比还可以的选择

链接

cursor.com/blog/cursor...

相关推荐
不加辣椒1 小时前
第12章 工具调用与 Agent 提示工程
人工智能
追逐时光者1 小时前
别再满网找零散工具了,腾讯 QQ 浏览器这个“帮小忙”工具箱真能省时间
前端·后端
用户1693176172661 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟1 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户252736278142 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩2 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent
Asmewill3 小时前
grep&curl命令学习笔记
前端
唐老板3 小时前
MCP协议实战:从零写个Agent工具
ai编程·mcp
stringwu3 小时前
Flutter 开发必备:MVI 架构的高效实现指南
前端·flutter
counterxing4 小时前
最近发现一个 Mac 工具,有点像把 Raycast、语音输入法、截图和录屏塞到了一起
macos·ai编程·claude