【转载】Vibe Check:GPT-5 Codex 可以连续编程35分钟——如果你好好请求的话

GPT-5 Codex 是 OpenAI 最新的编程智能体更新,今天正式发布,带来两个重大改进:动态思考时间和本地与云环境之间的无缝切换。这种切换体现了 OpenAI 对编程的愿景:AI 像同事一样工作,当你离开办公桌时它会继续工作。

新功能

  1. 新模型 (GPT-5 Codex) :GPT-5 Codex 是专为编程优化的微调版本,可以自主选择"思考时间"。对于简单查询会立即回答,对于需要多步骤重构的复杂任务则会花更长时间思考。
  2. VS Code、网页和命令行界面 (CLI) 之间的切换:使用 GPT-5 Codex,你可以在 VS Code 中开始编程,然后在关闭笔记本电脑前将任务交给 Codex Cloud。因为任务现在运行在 OpenAI 的服务器上而不是你的机器上,所以即使你离线它也会继续工作------这是本地执行无法做到的。
  3. 更好的代码审查:OpenAI 还发布了一个代码审查机器人,可以在独立空间中运行你的代码库,执行检查,并在 GitHub 上应用修复------比只读取代码的机器人能发现更深层的问题。
  4. 可用性和成本:GPT-5 Codex 将为基于网页的 Codex 版本提供动力,并可在 CLI 和 VS Code 扩展中选择使用,定价与 GPT-5 一致。

Codex 学会思考------并持续工作

这次更新的重点是 Codex 可以运行专门为编程制作的 GPT-5 微调版本。GPT-5 Codex 动态选择自己的"思考时间":对于简单问题如"我们在哪个文件夹?"会立即返回结果,对于困难任务则会思考更长时间。

动态思考时间让 GPT-5 Codex 更加实用。你可以与它进行来回对话,而不是每次都要让它工作几分钟。

另一个重要变化是 OpenAI 构建的本地和云环境之间的切换功能。你可以在 VS Code 或终端中开始一个任务,然后将其交给 Codex Cloud 在后台运行,然后在保持上下文的情况下将工作拉回本地。这就像是把笔记本电脑上需要看护的工作交给一个同事,让他在你去做其他事情时继续工作。

测试结果

我们在 Every 测试了 GPT-5 Codex 几天,发现了以下情况:

有效的方面

对思考时间很智能 当要求它"快速"解释项目内容时,它在30秒内返回答案,没有规划阶段。告诉它"深度思考"并"花一小时",它就会切换到带有详细规划的深度分析模式。

更令人印象深刻的是:没有任何具体指导,模型也能做出明智选择。问它"我运行的是什么版本的 Ruby?"它会快速执行。要求它"解释这个代码库",它会自动花更多时间提供详细分析。

可以长时间工作(使用正确的提示) 虽然 Codex 仍然不会无限期运行,但它比之前版本有了显著改进。以前它会在30秒到1分钟后停止,GPT-5 Codex 可以维持更长的会话------如果你知道如何要求的话。通过将任务分解为里程碑,测试者让它连续工作了35分钟。

运行时间是自主性的代理指标。每次运行时间的提升都让我们更接近这样的门槛:重启 AI 的认知成本超过关闭它的好处。那时我们就有了 AGI:让你的智能体持续运行在经济上是合理的。

视觉功能真的有帮助 模型处理截图的能力出人意料地有用。测试者用它创建了一个三维游戏,它能够看到游戏截图,正确识别问题(如光照和色彩平衡),并纯粹基于视觉输入修复它们。

更好地尊重你的环境 与 GPT-5 不同(后者在要求修复一个按钮时往往试图重建整个架构),GPT-5 Codex 表现出更多克制。在测试中,它始终产生尊重现有代码库结构的最小化、聚焦的更改。

需要改进的方面

仍然挑剔要处理的任务 当要求它在一个会话中编写复杂功能时,它直接拒绝了:"那本质上是一个多冲刺项目。我不可能在一个 CLI 会话中编写所有这些而不破坏任何东西。"

环境设置摩擦 设置 Codex 暴露了一个令人恼火的限制:它对你的开发环境做出可能不符合现实的假设。修复需要手动重新配置系统文件和环境设置,仅仅是为了让 Codex 识别机器上已安装的工具------在写一行代码之前需要大约30分钟的繁琐设置工作。

多智能体工作流仍然存在问题 给出明确指令运行10个不同的智能体,每个10分钟,它会完成一个智能体的任务,宣布下一步,然后等待继续的许可。模型理解多智能体的概念,但还没有真正的子智能体,拒绝自主继续。

结论

GPT-5 Codex 是向智能体编程迈出的又一步。由于其可变的思考级别,它在编程生命周期的更多部分更加实用,其本地到网页的切换功能很有前景。

尽管如此,它仍然过于谨慎。在 CLI 中,它还没有达到与 Claude Code 的功能对等------例如,它没有子智能体。但这是朝着正确方向迈出的真正一步,正在成为我们复合工程工具包的宝贵组成部分。

相关推荐
玉梅小洋6 小时前
Claude Code 从入门到精通(七):Sub Agent 与 Skill 终极PK
人工智能·ai·大模型·ai编程·claude·ai工具
-嘟囔着拯救世界-6 小时前
【保姆级教程】Win11 下从零部署 Claude Code:本地环境配置 + VSCode 可视化界面全流程指南
人工智能·vscode·ai·编辑器·html5·ai编程·claude code
小小管写大大码6 小时前
如何让vscode变得更智能?vscode接入claude实现自动编程
运维·ide·vscode·自动化·编辑器·ai编程·腾讯云ai代码助手
Anarkh_Lee9 小时前
【小白也能实现智能问数智能体】使用开源的universal-db-mcp在coze中实现问数 AskDB智能体
数据库·人工智能·ai·开源·ai编程
森之鸟11 小时前
2026年AI编程工具全景图:GitHub Copilot vs Cursor vs Codeium,我如何选择?
github·copilot·ai编程
冬奇Lab11 小时前
深入理解 Claude Code:架构、上下文与工具系统
人工智能·ai编程
测试_AI_一辰12 小时前
Agent & RAG 测试工程05:把 RAG 的检索过程跑清楚:chunk 是什么、怎么来的、怎么被命中的
开发语言·人工智能·功能测试·自动化·ai编程
xiayutian_c14 小时前
Claude code不能直接写ABAP?
ai编程
RANCE_atttackkk15 小时前
Springboot+langchain4j的RAG检索增强生成
java·开发语言·spring boot·后端·spring·ai·ai编程
undsky_17 小时前
【RuoYi-SpringBoot3-Pro】:将 AI 编程融入传统 java 开发
java·人工智能·spring boot·ai·ai编程