OpenAI Codex:从“给 Copilot 供血的模型“到“云端编码智能体“的两次生命

OpenAI Codex:从"给 Copilot 供血的模型"到"云端编码智能体"的两次生命

如果你在 2021 年听说过 Codex,那它是 GPT-3 微调出来的代码模型、是 GitHub Copilot 的"心脏";如果你在 2025 年之后再听到 Codex,它已经变成一个能在云沙箱里独立开分支、跑测试、交 PR 的自主智能体。同一个名字,两段完全不一样的人生------这也是今天聊 Codex 最容易踩的坑。


📜 第一世:2021,那个"懂代码的 GPT"

2021 年 7 月,OpenAI 在 arXiv 挂出 Evaluating Large Language Models Trained on Code(Chen & Tworek 等),Codex 正式进入视野。

它的出身很直白:

  • 架构:GPT-3 的 decoder-only Transformer,继续在 GitHub 公开代码库上预训练

  • 规模 :主力 code-davinci120 亿参数code-cushman(给 Copilot 用的轻量版)也是 12B 级的低延迟变体

  • 训练数据 :2020 年 5 月快照,约 179 GB Python 文件,来自 5400 万个公开仓库,剔除了自动生成/超长行/低字母数字比的文件

  • 同场带来 HumanEval:164 道手写 Python 题 + 单元测试,pass@k metric------这套基准后来几乎成了所有代码模型的"高考",至今还在被引用

headline 成绩:Codex-12B 在 HumanEval pass@1 = 28.8%,同规模 GPT-3 是 0%,当时开源 SOTA GPT-J 是 11.4%。这是第一次让人觉得"自然语言 → 能跑的代码"不是 demo。

它和 Copilot 的血缘

2021 年 6 月,GitHub Copilot 技术预览上线,底层跑的就是 Codex 的一个变体code-cushman-001)。所以严格说:

  • Codex = 引擎(API 级,给开发者调)

  • Copilot = 第一个杀手级产品(嵌进 VS Code / JetBrains,边敲边补)

这个组合在 2021--2023 年基本定义了"AI 写代码"的第一波认知。直到 2023 年 3 月,OpenAI 宣布弃用 code-davinci-002/ code-cushman-001,老 Codex 模型时代正式关门。


🔄 空窗:2023--2025

这段时间 Copilot 切到 GPT-4o,老 Codex 名字沉寂。但 OpenAI 内部没停------他们在 o3 / o4-mini 这条推理模型线上,用真实编码任务 + 强化学习 重新训了一个"代码专用"的 codex-1,不再是"看正确代码学监督",而是让模型在真实环境跑任务、按测试通过率反向更新。这是第二世 Codex 的技术底座。


🚀 第二世:2025 重生,Codex 变成"Agent"

2025 年 4 月 Codex CLI ​ 开源(Rust 写的本地终端 Agent,npm 周下载很快冲到百万级)→ 5 月 Codex 云端 Agent​ 以研究预览形态进 ChatGPT(Pro/Team/Enterprise 先用,6 月铺到 Plus)。

这一次,"Codex"指的不是模型,而是一套围绕模型的工程系统

维度 老 Codex(2021) 新 Codex(2025--)
形态 补全模型 API 云端软件工程智能体
驱动 GPT-3 微调 codex-1(基于 o3,RL 训)
工作流 输入→输出,一次性 规划 → 执行 → 观察​ 闭环
环境 无,纯生成 隔离 Linux 云沙箱,能 npm install、跑测试、开分支
交付 代码片段 PR / 修复 / feature 分支

关键差异:老 Codex 生成完就结束,不知道代码能不能跑;新 Codex 在沙箱里真的跑,跑不通就改,改到过测试为止

2025--2026 的演进节奏

  • 2025.9GPT-5-Codex上线,思考时间动态可调,从几秒到 7 小时,复杂重构能自己跑半天

  • 2026.2​ macOS 桌面 App,多 Agent 并行、线程化管理------从"一个助手"升级到"代理指挥中心"

  • 2026.4​ 加内置浏览器、远程 SSH,往"通用 AI 工作台"走

  • 2026.5--6​ Goal Mode 转正、Locked Computer Use(锁屏后远程跑)、Appshots(一键把应用窗口投给 Codex)

周活从 2026 年 3 月初的 ~160 万涨到 5 月 400 万+,GitHub 仓库 88k+ stars,主语言 Rust 占 96.1%。

💡 有一条线有点争议:CSDN 那边有文章说"2026.4 Codex 独立产品线终结,底层整合进 GPT-5.5",但 OpenAI 官方节奏表里 2026 年 1--3 月还在出 GPT-5.2/5.3/5.4-Codex,更像是模型命名收敛到 GPT-5 家族、产品入口保留 Codex 品牌,而不是 Codex 这个东西没了。两种说法都对,只是视角不同。


🆚 今天再说"Codex vs Copilot",比的是两家哲学

很多人以为这俩还是"模型 vs 产品"的上下级,其实早就分道了:

  • Copilot (微软/GitHub):根还在编辑器内实时辅助------边敲边补,然后才扩展到智能体。开发者主位。

  • Codex (OpenAI 自家):云端异步自主智能体------你委派"把这堆 TODO 清了",它在沙箱里 clone、改、测、交 PR,你继续干别的。Agent 主位。

一个在你手边,一个在云里替你跑腿。不算谁输谁赢,是两条分支。


顺手勾一下上一轮的 WorkBuddy

你上一句问的腾讯 WorkBuddy,和这里的 Codex 其实是同一波叙事里的两个玩家:2025--2026 是"AI 同事"从补全走向代理的拐点,OpenAI 押 Codex(云端沙箱 + o 系列推理),腾讯押 WorkBuddy(本地桌面 + 多模型 + MCP),GitHub 押 Copilot(IDE 原生 + 微软生态)。三者都不再满足于"帮你写下一行",而是要"替你把这件事干完"。