【转载】Vibe Check:GPT-5 Codex 可以连续编程35分钟——如果你好好请求的话

GPT-5 Codex 是 OpenAI 最新的编程智能体更新,今天正式发布,带来两个重大改进:动态思考时间和本地与云环境之间的无缝切换。这种切换体现了 OpenAI 对编程的愿景:AI 像同事一样工作,当你离开办公桌时它会继续工作。

新功能

  1. 新模型 (GPT-5 Codex) :GPT-5 Codex 是专为编程优化的微调版本,可以自主选择"思考时间"。对于简单查询会立即回答,对于需要多步骤重构的复杂任务则会花更长时间思考。
  2. VS Code、网页和命令行界面 (CLI) 之间的切换:使用 GPT-5 Codex,你可以在 VS Code 中开始编程,然后在关闭笔记本电脑前将任务交给 Codex Cloud。因为任务现在运行在 OpenAI 的服务器上而不是你的机器上,所以即使你离线它也会继续工作------这是本地执行无法做到的。
  3. 更好的代码审查:OpenAI 还发布了一个代码审查机器人,可以在独立空间中运行你的代码库,执行检查,并在 GitHub 上应用修复------比只读取代码的机器人能发现更深层的问题。
  4. 可用性和成本:GPT-5 Codex 将为基于网页的 Codex 版本提供动力,并可在 CLI 和 VS Code 扩展中选择使用,定价与 GPT-5 一致。

Codex 学会思考------并持续工作

这次更新的重点是 Codex 可以运行专门为编程制作的 GPT-5 微调版本。GPT-5 Codex 动态选择自己的"思考时间":对于简单问题如"我们在哪个文件夹?"会立即返回结果,对于困难任务则会思考更长时间。

动态思考时间让 GPT-5 Codex 更加实用。你可以与它进行来回对话,而不是每次都要让它工作几分钟。

另一个重要变化是 OpenAI 构建的本地和云环境之间的切换功能。你可以在 VS Code 或终端中开始一个任务,然后将其交给 Codex Cloud 在后台运行,然后在保持上下文的情况下将工作拉回本地。这就像是把笔记本电脑上需要看护的工作交给一个同事,让他在你去做其他事情时继续工作。

测试结果

我们在 Every 测试了 GPT-5 Codex 几天,发现了以下情况:

有效的方面

对思考时间很智能 当要求它"快速"解释项目内容时,它在30秒内返回答案,没有规划阶段。告诉它"深度思考"并"花一小时",它就会切换到带有详细规划的深度分析模式。

更令人印象深刻的是:没有任何具体指导,模型也能做出明智选择。问它"我运行的是什么版本的 Ruby?"它会快速执行。要求它"解释这个代码库",它会自动花更多时间提供详细分析。

可以长时间工作(使用正确的提示) 虽然 Codex 仍然不会无限期运行,但它比之前版本有了显著改进。以前它会在30秒到1分钟后停止,GPT-5 Codex 可以维持更长的会话------如果你知道如何要求的话。通过将任务分解为里程碑,测试者让它连续工作了35分钟。

运行时间是自主性的代理指标。每次运行时间的提升都让我们更接近这样的门槛:重启 AI 的认知成本超过关闭它的好处。那时我们就有了 AGI:让你的智能体持续运行在经济上是合理的。

视觉功能真的有帮助 模型处理截图的能力出人意料地有用。测试者用它创建了一个三维游戏,它能够看到游戏截图,正确识别问题(如光照和色彩平衡),并纯粹基于视觉输入修复它们。

更好地尊重你的环境 与 GPT-5 不同(后者在要求修复一个按钮时往往试图重建整个架构),GPT-5 Codex 表现出更多克制。在测试中,它始终产生尊重现有代码库结构的最小化、聚焦的更改。

需要改进的方面

仍然挑剔要处理的任务 当要求它在一个会话中编写复杂功能时,它直接拒绝了:"那本质上是一个多冲刺项目。我不可能在一个 CLI 会话中编写所有这些而不破坏任何东西。"

环境设置摩擦 设置 Codex 暴露了一个令人恼火的限制:它对你的开发环境做出可能不符合现实的假设。修复需要手动重新配置系统文件和环境设置,仅仅是为了让 Codex 识别机器上已安装的工具------在写一行代码之前需要大约30分钟的繁琐设置工作。

多智能体工作流仍然存在问题 给出明确指令运行10个不同的智能体,每个10分钟,它会完成一个智能体的任务,宣布下一步,然后等待继续的许可。模型理解多智能体的概念,但还没有真正的子智能体,拒绝自主继续。

结论

GPT-5 Codex 是向智能体编程迈出的又一步。由于其可变的思考级别,它在编程生命周期的更多部分更加实用,其本地到网页的切换功能很有前景。

尽管如此,它仍然过于谨慎。在 CLI 中,它还没有达到与 Claude Code 的功能对等------例如,它没有子智能体。但这是朝着正确方向迈出的真正一步,正在成为我们复合工程工具包的宝贵组成部分。

相关推荐
野生的码农3 小时前
放过自己,降低预期,及时行乐
android·ai编程
程序员陆业聪3 小时前
裸奔的 AI 助手和装备齐全的 AI 助手,根本不是同一个东西
ai编程
南木元元7 小时前
别只会用 Cursor!它的提示词工程才是真正的大招
ai编程·cursor
對玛祷至昏8 小时前
Trae AI编程入门
ai编程
小徐敲java8 小时前
opencode配置本地模型
ai编程
序舟归桁9 小时前
OpenClaw 多智能体在编程领域的实践与挑战
ai编程
序舟归桁9 小时前
Harness Engineering:AI Agent 时代,工程师的新核心能力
ai编程
攻城狮_老李9 小时前
从零开始理解 Agent Skills:动手实践 —— 创建第一个 Skill
openai·agent·ai编程
甲维斯9 小时前
来看看GLM5.1到底升级了什么!
ai编程