OpenAI 推出 Codex —— ChatGPT 内的“软件工程智能体”

OpenAI 正在不断提升 ChatGPT 对开发者的实用性。

几天前，他们新增了连接 GitHub 仓库 Connecting GitHub to ChatGPT deep research | OpenAI Help Center的功能，用户可以基于自己的代码进行深入研究和提问。

而今天，该公司发布了 Codex 的研究预览版Introducing Codex | OpenAI------这是 ChatGPT 中功能最强大的 AI 编程智能体。它能够编写代码、修复 Bug、运行测试，并可同时处理多个编程任务------这一切都在安全的云端环境中完成。

让我们详细了解 Codex 的最新情况。

什么是 Codex？

Codex 是一个运行在云端的软件工程智能体，能为你完成任务，例如开发新功能或修复 Bug。

你可以并行运行多个任务。

Codex 构建于 codex-1 模型之上，这是 OpenAI 的 o3 模型的一个变体，专门针对软件工程进行了优化。它通过强化学习训练，涵盖多个开发环境中的真实编程任务，因此能够生成符合人类编码风格和 Pull Request 规范的代码，准确遵循指令，并反复运行测试直到通过。

目前 Codex 是研究预览版，其功能和特性可能随时发生变化。

Codex 如何工作？

Codex 集成在 ChatGPT 的侧边栏中。启用后，你可以直接给它分配任务。只需输入你想做的事情并点击"Code"按钮。如果你对代码库有疑问，可以点击"Ask"按钮获取上下文相关的回答。

Codex 可以读取和编辑文件，并能执行命令，如测试框架、代码规范检查（linter）和类型检查器。任务完成时间通常在 1 至 30 分钟之间，取决于任务复杂度，你可以实时查看其进度。

任务完成后，Codex 会在其环境中提交修改。这些更新会自动被跟踪和保存。

为确保透明性，Codex 会提供其操作的可验证证据，包括终端日志、测试输出等执行细节，方便用户追踪每一个步骤。

用户可以查看结果后决定下一步操作，比如请求进一步修改、在 GitHub 上创建 Pull Request，或将修改集成到本地环境中。

此外，你还可以配置 Codex 的运行环境，使其尽可能贴近你的实际开发环境，以提高任务执行的可行性和准确性。

示例提示词

请修复 astropy/astropy 仓库中的以下问题。在当前的代码执行会话中，通过编辑并测试代码文件来解决此问题。仓库已克隆至 /testbed 文件夹。只有完全解决问题，答案才被视为正确。

问题描述： Modeling 模块中的 separability_matrix 无法正确计算嵌套的 CompoundModels 的可分性。

考虑以下模型：

from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5)

你可能期望其可分性矩阵为对角矩阵：

>>> separability_matrix(cm) array([[ True, False], [False, True]])

若模型更复杂：

>>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]])

这也是符合预期的：线性模型的输入输出彼此独立、可分。

但若将模型嵌套起来：

>>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]])

此时输入和输出就不再可分了？

这看起来像是一个 Bug，也可能是我理解有误？

Codex 与 o3 模型的代码生成对比

与 OpenAI 的 o3 模型相比，codex-1 生成的代码通常更简洁，便于人类评审，并可直接集成到标准开发流程中。

例如，某位 X 用户要求 Codex 构建一个"涂鸦跳跃"游戏并在 GitHub 上创建 Pull Request，Codex 也顺利完成了这一任务。

Codex 的性能基准测试

OpenAI 使用内部和外部的代码任务对 codex-1 模型进行了评估。

在 SWE-Bench Verified 基准测试中，OpenAI 排除了 23 个无法在其内部基础设施上运行的样本，以确保所有评估任务均可真实执行和测量。评估时使用的最大上下文长度为 192,000 个 Token，推理强度设定为中等。

"推理强度"决定了模型完成任务时允许的思考步骤数量，中等设置在速度与推理深度之间取得平衡。

此外，OpenAI 还使用了一套内部的 SWE（软件工程）任务基准，包括公司内真实项目中的任务，用以测试 Codex 在实际开发工作中的表现。

Codex 不是"Vibe Coding"的工具

如果你习惯使用 Cursor、Lovable 或 Bolt 等工具，通过一句提示词就生成一个完整 App，Codex 可能不符合你的期待。

Codex 并不是"Vibe Coding"的工具。

这个智能体面向专业开发者，专为生产环境中的高效开发而设计。Codex 帮你处理那些琐碎的事情------比如修 Bug、跑测试、调整环境、重写函数等------让你可以专注于更高层次的工作。

这不是在追求"vibes"，而是为了更快完成真正的工程工作。

Codex 无法访问互联网

Codex 在一个安全、隔离的云容器中运行。任务执行期间无法访问互联网，仅限使用用户通过 GitHub 提供的代码和预安装依赖。

该智能体无法访问外部网站、API 或其他服务。

一些用户对此并不满意。

比如，X 用户 Yoko 表示失望，因为 Codex 无法访问互联网，导致无法正确设置环境，比如无法安装 npm 包或更新项目依赖。

对此，OpenAI 工程师 Dominik Kundel 回应说，用户需要手动添加自定义脚本来配置环境。

"出于安全原因，环境在设置完成后将被隔离。你可以通过高级配置选项添加自定义设置脚本来安装依赖。"

尽管这是一个解决方案，但对每月支付 $200 Pro 订阅费的用户来说，这种方式仍显得不够友好。

希望未来这个限制可以改善或获得更好的支持。

如何访问 Codex？

Codex 目前已向 ChatGPT Pro、Enterprise 和 Team 用户开放，未来将扩展至 Plus 和 Edu 用户。

目前 Pro 订阅费用为每月 $200，是 Plus 套餐的 10 倍。

作为一名 Plus 用户，我正在等待 Codex 能够对我们这类用户开放。非常希望亲自试一试它在日常开发中的表现。

我也希望 OpenAI 能最终开放 Codex 的 API。若能将其集成至 CI 流水线、开发工具或 GitHub 工作流中，其价值将大幅提升。

结语

我认为 Codex 潜力巨大。我们正在接近一个新阶段------开发者可以将最无聊、重复的任务交给 AI 助手处理。

这不是要取代工程师，而是像拥有一个永远不会疲倦、始终遵守指令的"虚拟初级开发者"。

不过目前每月 $200 的价格我还无法接受。我非常期待 Codex 向 Plus 用户开放的那一天。

如果未来 Codex 支持无头模式或 API 接入，那将可能开启软件开发的新纪元。

2025 会成为 AI 编程智能体元年吗？

OpenAI 总裁兼联合创始人 Greg Brockman 表示："2025 将是 AI 编程智能体的一年。"

如果这一预测成真，那我们将迎来工程团队工作方式的重大变革。

截至目前，今年已有超过 22,000 名科技从业者遭遇裁员，仅 2 月就有高达 16,084 人受影响。

如果你已经使用过 Codex，欢迎告诉我你的使用体验，我非常想知道它是否真的达到了你的预期。