OpenAI Codex 加入Agent编程工具新阵营

上周五,OpenAI推出了一款名为Codex的新型编程系统,该系统能够通过自然语言命令执行复杂的编程任务。Codex标志着OpenAI正式进军正在形成的代理编程工具新阵营。

从GitHub早期的Copilot到当代的Cursor和Windsurf等工具,大多数AI编程助手都是作为一种极其智能的自动补全形式存在。这些工具通常集成在开发环境中,用户直接与AI生成的代码交互。而简单地分配任务并在任务完成时返回查看结果的可能性,在过去很大程度上是无法实现的。

但是,以Devin、SWE-Agent、OpenHands以及上述OpenAI Codex为代表的新型代理编程工具,旨在无需用户查看代码就能完成工作。其目标是像工程团队的管理者一样运作,通过Asana或Slack等工作系统分配问题,并在解决方案达成时进行检查。

对于那些相信高性能AI的人来说,这是自动化逐步接管更多软件工作的自然进程中的下一个逻辑步骤。

"最开始,人们通过每一次按键来编写代码,"普林斯顿研究员兼SWE-Agent团队成员Kilian Lieret解释道,"GitHub Copilot是第一个提供真正自动补全的产品,这有点像第二阶段。你仍然完全参与其中,但有时你可以走捷径。"

代理系统的目标是完全超越开发环境,而是向编码代理提出问题并让它们自行解决。"我们将事情拉回到管理层面,我只需分配一个错误报告,机器人就会尝试完全自主地修复它,"Lieret说。

这是一个雄心勃勃的目标,但到目前为止,实现起来并不容易。

在Devin于2024年底公开发布后,它受到了YouTube评论者的严厉批评,以及Answer.AI早期客户更为理性的批评。总体印象与"感觉编码"老手们熟悉的情况相似:错误太多,监督模型需要的工作量与手动完成任务一样多。(尽管Devin的推出有些坎坷,但这并没有阻止投资者认识到其潜力------3月,Devin的母公司Cognition AI据报道以40亿美元估值融资数亿美元。)

即使是这项技术的支持者也警告不要进行无人监督的"感觉编码",他们将新的编码代理视为人工监督开发过程中的强大元素。

"目前,并且我认为在可预见的未来,人类必须在代码审查时介入,查看已编写的代码,"All Hands AI的CEO Robert Brennan说,该公司维护着OpenHands。"我看到过几个人通过自动批准代理编写的每一段代码而把自己搞得一团糟。这很快就会失控。"

幻觉也是一个持续存在的问题。Brennan回忆起一个事件,当被问及在OpenHands代理训练数据截止日期之后发布的API时,代理编造了符合描述的API细节。All Hands AI表示,它正在开发系统来捕捉这些幻觉,防止它们造成伤害,但目前还没有简单的解决方案。

衡量代理编程进展的最佳标准可能是SWE-Bench排行榜,开发者可以在那里测试他们的模型,解决来自开放GitHub仓库的未解决问题。OpenHands目前在已验证的排行榜上排名第一,解决了65.8%的问题集。OpenAI声称为Codex提供动力的模型之一codex-1可以做得更好,在其公告中列出了72.1%的得分------尽管这个得分附带了一些注释,并且尚未经过独立验证。

科技行业许多人担心的是,高基准分数不一定能转化为真正的无人值守代理编码。如果代理编码者只能解决四分之三的问题,他们将需要人类开发者的大量监督------特别是在处理具有多个阶段的复杂系统时。

与大多数AI工具一样,人们希望基础模型的改进能够稳步推进,最终使代理编码系统成长为可靠的开发者工具。但是,寻找管理幻觉和其他可靠性问题的方法将是实现这一目标的关键。

"我认为这有点像音障效应,"Brennan说,"问题是,你能在多大程度上信任代理,让它们最终减轻你的工作负担?"

相关推荐
ASKED_20199 分钟前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc14 分钟前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文22 分钟前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛1392462567335 分钟前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
Java小白中的菜鸟38 分钟前
obsidian安装claude报错:Claude Code native binary not found
ai
向量引擎44 分钟前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF1 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学1 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled1 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao1 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能