OpenAI 推出 Codex —— ChatGPT 内的“软件工程智能体”

OpenAI 正在不断提升 ChatGPT 对开发者的实用性。

几天前,他们新增了连接 GitHub 仓库 Connecting GitHub to ChatGPT deep research | OpenAI Help Center的功能,用户可以基于自己的代码进行深入研究和提问。

而今天,该公司发布了 Codex 的研究预览版Introducing Codex | OpenAI------这是 ChatGPT 中功能最强大的 AI 编程智能体。它能够编写代码、修复 Bug、运行测试,并可同时处理多个编程任务------这一切都在安全的云端环境中完成。

让我们详细了解 Codex 的最新情况。


什么是 Codex?

Codex 是一个运行在云端的软件工程智能体,能为你完成任务,例如开发新功能或修复 Bug。

你可以并行运行多个任务。

Codex 构建于 codex-1 模型之上,这是 OpenAI 的 o3 模型的一个变体,专门针对软件工程进行了优化。它通过强化学习训练,涵盖多个开发环境中的真实编程任务,因此能够生成符合人类编码风格和 Pull Request 规范的代码,准确遵循指令,并反复运行测试直到通过。

目前 Codex 是研究预览版,其功能和特性可能随时发生变化。


Codex 如何工作?

Codex 集成在 ChatGPT 的侧边栏中。启用后,你可以直接给它分配任务。只需输入你想做的事情并点击"Code"按钮。如果你对代码库有疑问,可以点击"Ask"按钮获取上下文相关的回答。

Codex 可以读取和编辑文件,并能执行命令,如测试框架、代码规范检查(linter)和类型检查器。任务完成时间通常在 1 至 30 分钟之间,取决于任务复杂度,你可以实时查看其进度。

任务完成后,Codex 会在其环境中提交修改。这些更新会自动被跟踪和保存。

为确保透明性,Codex 会提供其操作的可验证证据,包括终端日志、测试输出等执行细节,方便用户追踪每一个步骤。

用户可以查看结果后决定下一步操作,比如请求进一步修改、在 GitHub 上创建 Pull Request,或将修改集成到本地环境中。

此外,你还可以配置 Codex 的运行环境,使其尽可能贴近你的实际开发环境,以提高任务执行的可行性和准确性。


示例提示词

请修复 astropy/astropy 仓库中的以下问题。在当前的代码执行会话中,通过编辑并测试代码文件来解决此问题。仓库已克隆至 /testbed 文件夹。只有完全解决问题,答案才被视为正确。

问题描述: Modeling 模块中的 separability_matrix 无法正确计算嵌套的 CompoundModels 的可分性。

考虑以下模型:

from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5)

你可能期望其可分性矩阵为对角矩阵:

>>> separability_matrix(cm) array([[ True, False], [False, True]])

若模型更复杂:

>>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]])

这也是符合预期的:线性模型的输入输出彼此独立、可分。

但若将模型嵌套起来:

>>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]])

此时输入和输出就不再可分了?

这看起来像是一个 Bug,也可能是我理解有误?


Codex 与 o3 模型的代码生成对比

与 OpenAI 的 o3 模型相比,codex-1 生成的代码通常更简洁,便于人类评审,并可直接集成到标准开发流程中。

例如,某位 X 用户要求 Codex 构建一个"涂鸦跳跃"游戏并在 GitHub 上创建 Pull Request,Codex 也顺利完成了这一任务。


Codex 的性能基准测试

OpenAI 使用内部和外部的代码任务对 codex-1 模型进行了评估。

在 SWE-Bench Verified 基准测试中,OpenAI 排除了 23 个无法在其内部基础设施上运行的样本,以确保所有评估任务均可真实执行和测量。评估时使用的最大上下文长度为 192,000 个 Token,推理强度设定为中等。

"推理强度"决定了模型完成任务时允许的思考步骤数量,中等设置在速度与推理深度之间取得平衡。

此外,OpenAI 还使用了一套内部的 SWE(软件工程)任务基准,包括公司内真实项目中的任务,用以测试 Codex 在实际开发工作中的表现。


Codex 不是"Vibe Coding"的工具

如果你习惯使用 Cursor、Lovable 或 Bolt 等工具,通过一句提示词就生成一个完整 App,Codex 可能不符合你的期待。

Codex 并不是"Vibe Coding"的工具。

这个智能体面向专业开发者,专为生产环境中的高效开发而设计。Codex 帮你处理那些琐碎的事情------比如修 Bug、跑测试、调整环境、重写函数等------让你可以专注于更高层次的工作。

这不是在追求"vibes",而是为了更快完成真正的工程工作。


Codex 无法访问互联网

Codex 在一个安全、隔离的云容器中运行。任务执行期间无法访问互联网,仅限使用用户通过 GitHub 提供的代码和预安装依赖。

该智能体无法访问外部网站、API 或其他服务。

一些用户对此并不满意。

比如,X 用户 Yoko 表示失望,因为 Codex 无法访问互联网,导致无法正确设置环境,比如无法安装 npm 包或更新项目依赖。

对此,OpenAI 工程师 Dominik Kundel 回应说,用户需要手动添加自定义脚本来配置环境。

"出于安全原因,环境在设置完成后将被隔离。你可以通过高级配置选项添加自定义设置脚本来安装依赖。"

尽管这是一个解决方案,但对每月支付 $200 Pro 订阅费的用户来说,这种方式仍显得不够友好。

希望未来这个限制可以改善或获得更好的支持。


如何访问 Codex?

Codex 目前已向 ChatGPT Pro、Enterprise 和 Team 用户开放,未来将扩展至 Plus 和 Edu 用户。

目前 Pro 订阅费用为每月 $200,是 Plus 套餐的 10 倍。

作为一名 Plus 用户,我正在等待 Codex 能够对我们这类用户开放。非常希望亲自试一试它在日常开发中的表现。

我也希望 OpenAI 能最终开放 Codex 的 API。若能将其集成至 CI 流水线、开发工具或 GitHub 工作流中,其价值将大幅提升。


结语

我认为 Codex 潜力巨大。我们正在接近一个新阶段------开发者可以将最无聊、重复的任务交给 AI 助手处理。

这不是要取代工程师,而是像拥有一个永远不会疲倦、始终遵守指令的"虚拟初级开发者"。

不过目前每月 $200 的价格我还无法接受。我非常期待 Codex 向 Plus 用户开放的那一天。

如果未来 Codex 支持无头模式或 API 接入,那将可能开启软件开发的新纪元。

2025 会成为 AI 编程智能体元年吗?

OpenAI 总裁兼联合创始人 Greg Brockman 表示:"2025 将是 AI 编程智能体的一年。"

如果这一预测成真,那我们将迎来工程团队工作方式的重大变革。

截至目前,今年已有超过 22,000 名科技从业者遭遇裁员,仅 2 月就有高达 16,084 人受影响。

如果你已经使用过 Codex,欢迎告诉我你的使用体验,我非常想知道它是否真的达到了你的预期。

相关推荐
霖003 小时前
FPGA开发全流程
网络·经验分享·嵌入式硬件·fpga开发·流程图·fpga
岂是尔等觊觎9 小时前
PCB设计教程【入门篇】——电路分析基础-电路定理
经验分享·笔记·嵌入式硬件·学习·pcb工艺
IDRSolutions_CN13 小时前
如何在Java中处理PDF文档(教程)
java·经验分享·pdf·软件工程·团队开发
汇能感知17 小时前
关于光谱相机的灵敏度
经验分享·笔记·科技
zhangxzq19 小时前
JVM 性能问题排查实战10连击
java·运维·jvm·经验分享·docker
BIYing_Aurora19 小时前
【IPMV】图像处理与机器视觉:Lec10 Edges and Lines
图像处理·人工智能·经验分享·线性代数·计算机视觉·视觉检测
机器学习算法与Python实战20 小时前
大模型如何助力数学可视化?
经验分享
跨境卫士情报站21 小时前
亚马逊第四个机器人中心将如何降低30%配送成本?
大数据·人工智能·经验分享·机器人
Teacher.chenchong1 天前
真实世界中的贝叶斯网络:Bootstrap、模型平均与非齐次动态的科研应用
经验分享