收手吧 GPT-5-Codex,外面全是 AI 编程智能体!

「【新智元导读】OpenAI 重磅推出 GPT-5-Codex,专为智能体编程设计,显著提升代码重构、审查和缺陷发现的表现。其动态资源分配机制让模型在低负载请求中更高效,在复杂任务中更深入。2025 编程智能体大战全面升温,GPT-5-Codex 能否突围?」

一图看透全球大模型!新智元十周年钜献,2025 ASI 前沿趋势报告 37 页首发

刚刚,GPT-5「船新」版本上线!

这次 OpenAI 直接使用 Codex 品牌名称来作为新模型后缀,GPT-5-Codex!

新模型能力将更加擅长智能编码!

即使 2025 年只剩下三分之一,各家巨头在「编程智能体」的争夺依然是白热化啊!

OpenAI 官博更是重新定义了「自动补全」,升级为「agent-complete」。

在 OpenAI 播客第六集中,总裁 Greg 与 Codex 负责人 Thibault Sottiaux 聊了很多关于 GPT-5-Codex,以及到 2030 年软件开发可能会是「什么样子」。

首先来速通一下此次重大更新。

此次发布的 「GPT-5-Codex 属于」 GPT-5 的一个特殊版本,它专为智能体编程(**agentic coding)**重新设计。

GPT-5-Codex 将具备全面的「「双模」特长」

「即时协作」:与开发者实时配合,快速回答问题、修复小 bug。

「独立执行」:能长时间自主推进复杂任务(如大规模重构、跨文件调试)。

「简单说就是,GPT-5-Codex 不仅快 & 而且更加可靠。」

GPT-5-Codex 的交互响应更灵敏,小任务几乎即时,大任务可持续执行数小时。

OpenAI 内部测试可连续 7 小时完成大规模重构。

「GPT-5-Codex 三大性能全面提升」

首先,在 SWE-bench 验证和代码重构任务上,GPT-5-Codex 都超过了目前最先进的 GPT-5-high。

尤其是在非常适合于真实世界任务的代码重构任务上,GPT-5-Codex 的准确率达到了 51.3%,远高于 GPT-5-high 的 33.9%。

其次,GPT-5-Codex 此次更新的关键特性就是「动态调整」资源!

根据 OpenAI 内部员工的使用数据,在按模型生成 token 量(含隐藏推理和最终输出)排序的后 10% 用户请求中,GPT‑5-Codex 的 token 消耗量比 GPT‑5 减少 93.7%,红色箭头处。

相反,在前 10% 的高复杂度请求中,GPT‑5-Codex 会投入更多思考时间,其代码推理、编辑、测试和迭代的耗时达到两倍,黄色箭头处。

最后,这次的 GPT‑5-Codex 经过专门训练,非常擅于执行代码审查和发现关键缺陷。

按照 OpenAI 的说法,他们发现 GPT‑5-Codex 生成的评论更不容易出现错误或不重要的情况,从而让用户能将更多注意力集中在关键问题上,比如:

  • 「不正确评论」显著降低:从 13.7% 降至 「4.4%」
  • 「高影响力评论」显著增加:从 39.4% 提升到 「52.4%」
  • 「聚焦关键重点」:平均每个 PR 提出的评论数从 1.32 降至 0.93

此消彼长,这让 Vibe Coding 更加接近于严肃的工程化编程!

「为何用 Codex 命名?」

在 GPT-5-Codex 的「发布会」上,Greg 聊到了 Codex 的起源。

最早在 GPT-3 时代,他们就发现模型能根据文档串(docstring)自动补全函数代码,他们认为当时就具备了「语言模型写代码」的可行性。

2021 年,OpenAI 就率先推出 Codex,并与 GitHub 合作打造 Copilot,探索 AI 直接嵌入开发工作流的可能性。

现在 Codex 的 Web 界面

Greg 说编程一直是 OpenAI 特别关注的领域,专门使用代码数据和指标来优化模型表现,与其他领域不同。

「早于 Vibe Coding 的 Harness 概念」

在这次讨论中,Greg 还用一个新的词语「Harness」来解释了 OpenAI 其实比流行的 Vibe Coding 更早就发现「用语言模型编程」的魔力。

「Harness」这个词原意是**「马具、缰绳」**,用来把马与车或骑手连接起来,使力量可以被控制和发挥。

OpenAI 的 Greg 在讲 Codex 时借用这个词,表达类似的作用:

  • **「模型本身」**就像「马」或「大脑」,能产生力量(智能、输入输出)。
  • 「Harness」 就像「缰绳 / 集成框架」,把模型和外部环境(工具、IDE、终端、云端等)连起来,让它能真正执行任务、发挥效能。

在做普通语言模型应用时,接口(interface)或「缰绳」(harness)其实很简单------模型只是补全一段文字,最多再跟进一两次对话就结束了。

但在编程场景下,文本会「活起来」,因为代码需要真正被执行、需要和工具连接才能发挥作用。

因此,人们意识到,「harness 的重要性几乎和模型本身的智能同等关键」,它决定了模型是否真的可用。

OpenAI 所谓的 harness,就是把模型与其余的基础设施整合起来,让模型能够真正地对环境采取行动。

「性能与使用体验」

这次 GPT-5-Codex 的延迟是一大亮点,代码补全必须 < 1.5 秒,否则用户体验差。

GPT-5-Codex 可以连续执行长时间任务,特别适合大型重构、迁移任务。

此次更新后还支持多模式交互:终端 vibe coding、IDE 编辑、GitHub 集成、Cursor 集成等,应有尽有,满足不同开发习惯。

「OpenAI 内部实践」

除了 GPT-5-Codex 外,Greg 还爆料了更多内幕。

OpenAI 在内部实践中孵化了几款关键工具,帮助团队探索 AI 编程智能体的潜力。

首先是 「10x」,一款内部原型,最初在终端运行,能显著提高开发效率。

它支持异步长时间执行,工程师甚至可以合上笔记本让任务继续运行,因此被认为带来「十倍生产力」,但因尚未打磨成熟而未对外发布 。

其次是 Agents.md,这是一个放在代码库里的说明文件,类似专门写给 Codex 的 README。

它能压缩上下文,减少模型探索代码的负担,同时存放团队的开发偏好(如测试位置、风格约定)。这样 Codex 能更快理解项目环境,执行任务更高效 。

最后是 「Code Review」 「Agent」,这是在内部试点后效果最惊艳的工具。

它能理解 PR 的意图与实现是否一致,检查依赖关系,发现人类审查可能遗漏的 bug。

内部团队甚至在上线前一晚依赖它审查数十个 PR,并几乎零 bug 发布。

讨论中也提到,2030 年的软件开发将不再是「人写代码 + 工具辅助」,而是「AI 写大部分代码 + 人类监督和设计架构」。

开发者更像是团队的指挥官,专注于战略性问题和创意设计,而繁琐、重复、危险的工作则由 AI 智能体承担。

「收手吧,GPT-5-Codex」

现在,编程智能体已经成为各大 AI 巨头的火力集中点,打得火热!

OpenAI 此次发布 GPT-5-Codex 也是再次「官宣加入战场」。

但是,收手吧,外面已经全是编程智能体了!

让我们盘点一下国内外今年到底有多少编程智能体~

「国外通用 / 主流编程 AI 智能体」

  • Cursor:深度集成在 IDE 中,有 agent 模式,会检索本地代码, 能跨文件操作、项目级别重构等。
  • Claude Code CLI:代码 diff、工具调用能力、原型快速实验。
  • Gemini CLI:优势在上下文窗口(context window)、处理大型代码库的重构能力强。
  • GitHub Copilot+Copilot 的扩展

「国内代表性产品 / 平台」

国内在这个赛道加速也非常快,不少大厂都在做「编程智能体 \ 编程模型」的组合,已经有很多专门用于编程的模型和产品。

  • 腾讯的代码助手 CodeBuddy
  • 通义千问的 Qwen3-Coder
  • 字节的 TRAE
  • 百度的文心智能体平台
  • DeepSeek 最新的 V3.1 系列

比如 DeepSeek 官方公告指出,V3.1 在**「编程智能体」**和在命令行 / 终端环境下解决复杂任务中表现比之前的 DeepSeek 系列模型有明显提升。

总体来看,虽然 2025 年被称为智能体之年,但主要还是聚焦在编程智能体。

国外市场以 Cursor、Gemini CLI、Claude Code 等为代表,强调模型执行力、重构大上下文处理、IDE/CLI 无缝集成等能力。

而国内也同步推出同类型产品对标 Cursor 和 Claude Code 等产品。

GPT-5-Codex 的上线,让这场「编程智能体大战」更加的白热化!

虽然 OpenAI 很早就洞察到「语言模型能编程」,但是:

AI 编程 IDE 的认知被 Cursor 摘取了

AI 编程 CLI 的认知被 Claude Code 拿到了。

而且国内还同步跟进了各种同类型的产品。

不知道这次起个大早,赶了晚集的 GPT-5-Codex 能不能拿下「AI 智能体编程」的头衔~

参考资料:

openai.com/index/intro...

x.com/sama/status...

x.com/OpenAI/stat...

相关推荐
IT_陈寒2 小时前
Java 性能优化:5个被低估的JVM参数让你的应用吞吐量提升50%
前端·人工智能·后端
阿里云云原生3 小时前
阿里云基础设施 AI Tech Day AI 原生,智构未来——AI 原生架构与企业实践专场
人工智能
Memene摸鱼日报4 小时前
「Memene 摸鱼日报 2025.9.16」OpenAI 推出 GPT-5-Codex 编程模型,xAI 发布 Grok 4 Fast
人工智能·aigc
xiaohouzi1122334 小时前
OpenCV的cv2.VideoCapture如何加GStreamer后端
人工智能·opencv·计算机视觉
用户125205597084 小时前
解决Stable Diffusion WebUI训练嵌入式模型报错问题
人工智能
Juchecar4 小时前
一文讲清 nn.LayerNorm 层归一化
人工智能
martinzh4 小时前
RAG系统大脑调教指南:模型选择、提示设计与质量控保一本通
人工智能
小关会打代码4 小时前
计算机视觉案例分享之答题卡识别
人工智能·计算机视觉
Juchecar4 小时前
一文讲清 nn.Linear 线性变换
人工智能