OpenAI Codex：从“给 Copilot 供血的模型“到“云端编码智能体“的两次生命

OpenAI Codex：从"给 Copilot 供血的模型"到"云端编码智能体"的两次生命

如果你在 2021 年听说过 Codex，那它是 GPT-3 微调出来的代码模型、是 GitHub Copilot 的"心脏"；如果你在 2025 年之后再听到 Codex，它已经变成一个能在云沙箱里独立开分支、跑测试、交 PR 的自主智能体。同一个名字，两段完全不一样的人生------这也是今天聊 Codex 最容易踩的坑。

📜 第一世：2021，那个"懂代码的 GPT"

2021 年 7 月，OpenAI 在 arXiv 挂出 Evaluating Large Language Models Trained on Code（Chen & Tworek 等），Codex 正式进入视野。

它的出身很直白：

架构：GPT-3 的 decoder-only Transformer，继续在 GitHub 公开代码库上预训练
规模：主力 code-davinci约 120 亿参数 ，code-cushman（给 Copilot 用的轻量版）也是 12B 级的低延迟变体
训练数据 ：2020 年 5 月快照，约 179 GB Python 文件，来自 5400 万个公开仓库，剔除了自动生成/超长行/低字母数字比的文件
同场带来 HumanEval：164 道手写 Python 题 + 单元测试，pass@k metric------这套基准后来几乎成了所有代码模型的"高考"，至今还在被引用

headline 成绩：Codex-12B 在 HumanEval pass@1 = 28.8%，同规模 GPT-3 是 0%，当时开源 SOTA GPT-J 是 11.4%。这是第一次让人觉得"自然语言 → 能跑的代码"不是 demo。

它和 Copilot 的血缘

2021 年 6 月，GitHub Copilot 技术预览上线，底层跑的就是 Codex 的一个变体 （code-cushman-001）。所以严格说：

Codex = 引擎（API 级，给开发者调）
Copilot = 第一个杀手级产品（嵌进 VS Code / JetBrains，边敲边补）

这个组合在 2021--2023 年基本定义了"AI 写代码"的第一波认知。直到 2023 年 3 月，OpenAI 宣布弃用 code-davinci-002/ code-cushman-001，老 Codex 模型时代正式关门。

🔄 空窗：2023--2025

这段时间 Copilot 切到 GPT-4o，老 Codex 名字沉寂。但 OpenAI 内部没停------他们在 o3 / o4-mini 这条推理模型线上，用真实编码任务 + 强化学习 重新训了一个"代码专用"的 codex-1，不再是"看正确代码学监督"，而是让模型在真实环境跑任务、按测试通过率反向更新。这是第二世 Codex 的技术底座。

🚀 第二世：2025 重生，Codex 变成"Agent"

2025 年 4 月 Codex CLI 开源（Rust 写的本地终端 Agent，npm 周下载很快冲到百万级）→ 5 月 Codex 云端 Agent 以研究预览形态进 ChatGPT（Pro/Team/Enterprise 先用，6 月铺到 Plus）。

这一次，"Codex"指的不是模型，而是一套围绕模型的工程系统：

维度	老 Codex（2021）	新 Codex（2025--）
形态	补全模型 API	云端软件工程智能体
驱动	GPT-3 微调	`codex-1`（基于 o3，RL 训）
工作流	输入→输出，一次性	规划 → 执行 → 观察闭环
环境	无，纯生成	隔离 Linux 云沙箱，能 `npm install`、跑测试、开分支
交付	代码片段	PR / 修复 / feature 分支

关键差异：老 Codex 生成完就结束，不知道代码能不能跑；新 Codex 在沙箱里真的跑，跑不通就改，改到过测试为止。

2025--2026 的演进节奏

2025.9 GPT-5-Codex上线，思考时间动态可调，从几秒到 7 小时，复杂重构能自己跑半天
2026.2 macOS 桌面 App，多 Agent 并行、线程化管理------从"一个助手"升级到"代理指挥中心"
2026.4 加内置浏览器、远程 SSH，往"通用 AI 工作台"走
2026.5--6 Goal Mode 转正、Locked Computer Use（锁屏后远程跑）、Appshots（一键把应用窗口投给 Codex）

周活从 2026 年 3 月初的 ~160 万涨到 5 月 400 万+，GitHub 仓库 88k+ stars，主语言 Rust 占 96.1%。

💡 有一条线有点争议：CSDN 那边有文章说"2026.4 Codex 独立产品线终结，底层整合进 GPT-5.5"，但 OpenAI 官方节奏表里 2026 年 1--3 月还在出 GPT-5.2/5.3/5.4-Codex，更像是模型命名收敛到 GPT-5 家族、产品入口保留 Codex 品牌，而不是 Codex 这个东西没了。两种说法都对，只是视角不同。

🆚 今天再说"Codex vs Copilot"，比的是两家哲学

很多人以为这俩还是"模型 vs 产品"的上下级，其实早就分道了：

Copilot （微软/GitHub）：根还在编辑器内实时辅助------边敲边补，然后才扩展到智能体。开发者主位。
Codex （OpenAI 自家）：云端异步自主智能体------你委派"把这堆 TODO 清了"，它在沙箱里 clone、改、测、交 PR，你继续干别的。Agent 主位。

一个在你手边，一个在云里替你跑腿。不算谁输谁赢，是两条分支。

顺手勾一下上一轮的 WorkBuddy

你上一句问的腾讯 WorkBuddy，和这里的 Codex 其实是同一波叙事里的两个玩家：2025--2026 是"AI 同事"从补全走向代理的拐点，OpenAI 押 Codex（云端沙箱 + o 系列推理），腾讯押 WorkBuddy（本地桌面 + 多模型 + MCP），GitHub 押 Copilot（IDE 原生 + 微软生态）。三者都不再满足于"帮你写下一行"，而是要"替你把这件事干完"。