GPT-5.3-Codex 炸了：第一个「自己造自己」的 AI 编程模型，到底意味着什么？

大家好，我是刘大大。

昨天 AI 圈发生了一件挺炸裂的事------OpenAI 和 Anthropic 在同一时间发布了各自的旗舰模型。

OpenAI 这边是 GPT-5.3-Codex，Anthropic 那边是 Claude Opus 4.6。

两家掐着秒表同时发布,周日还要在超级碗上打对台广告。

这场面，像极了当年可口可乐和百事的广告大战。

不过今天我们重点聊 GPT-5.3-Codex，因为这个模型有一个让整个技术圈都在讨论的点：

它参与了自己的开发。

一、「自己造自己」到底是怎么回事？

先说清楚，不是科幻片里的那种"AI 觉醒了自己写代码繁殖"。

实际情况是这样的：

OpenAI 的 Codex 团队在训练 GPT-5.3-Codex 的过程中，用了这个模型的早期版本来帮忙干活。

具体干了什么呢？

调试训练过程中的 bug、管理部署流程、分析测试结果和评估数据。甚至在发布当天，GPT-5.3-Codex 还在动态调整 GPU 集群的规模，保证服务器扛得住流量冲击。

用 Sam Altman 的话说："看着 5.3-Codex 加速自身的开发过程，太不可思议了，这绝对是未来趋势的信号。"

说白了，就是 AI 开始当自己的"实习生"了。

虽然还远远谈不上自我进化，但这确实是一个标志性的节点------模型第一次实质性地参与了自身的研发流程。

二、跑分数据：该关注什么，该忽略什么

先上几个关键数据：

SWE-Bench Pro（多语言软件工程评测）：56.8%

这个测试覆盖四种编程语言，比之前只测 Python 的 SWE-bench Verified 更有含金量。GPT-5.3-Codex 比前代 5.2-Codex 的 56.4% 提升不大，但注意------它用的 token 数量大幅减少了，也就是说效率更高了。

Terminal-Bench 2.0（终端操作能力）：77.3%

这个提升就很夸张了。前代是 64.0%，一下子跳了 13 个百分点。有人在 X 上说这个分数"碾压"了同天发布的 Claude Opus 4.6（65.4%）。

OSWorld（桌面环境操作）：64.7%

从 38.2% 直接跳到 64.7%，接近人类基准的 72%。这意味着它操作电脑桌面的能力有了质的飞跃。

速度：比前代快 25%

而且 token 消耗更少，同样的任务花的钱更少。

不过说实话，SWE-Bench Pro 上 56.4% 到 56.8% 这种提升，感知不强。真正有意义的是 Terminal-Bench 和 OSWorld 的大幅跃升，因为这两个直接反映了模型"动手干活"的能力。

三、不只是写代码了

GPT-5.3-Codex 最大的变化，其实不在跑分上。

OpenAI 官方说了一句很有野心的话：

"Codex 从一个会写代码和审代码的 Agent，变成了一个几乎能做开发者和专业人士在电脑上做的任何事情的 Agent。"

翻译一下就是：它不想只当一个编程工具了，它想当你的全能数字员工。

现在它能做的事情包括但不限于：

写代码、调试、部署、监控服务、写 PRD 文档、编辑文案、做用户调研、跑测试、做数据分析、做 PPT、处理表格......

而且在工作过程中，你可以随时介入。

它不是那种"丢一个需求进去，等半天出结果"的模式。而是像一个真正的同事，边干活边汇报进度，你觉得方向不对随时喊停调整，上下文不会丢失。

这一点，对于实际使用体验来说，可能比跑分提升更重要。

四、OpenAI vs Anthropic：谁更强？

这个问题，可能没有标准答案。

根据 Every.to 的独立测试：

Claude Opus 4.6 在首次成功率和构建一致性上更有优势------就是说第一次就能把活干对的概率更高。

GPT-5.3-Codex 在任务完成速度上更快，交互风格更友好，而且在终端操作能力上有明显领先。

我的个人看法是：

如果你需要一个稳定可靠的编程助手，尤其是写生产级代码，Claude 系列目前可能更让人放心。

如果你需要一个跑得快、能力覆盖面广、尤其擅长终端操作和桌面自动化的全能 Agent，GPT-5.3-Codex 的优势更明显。

但说实话，两家的差距在快速缩小。今天你觉得 A 好，下个月 B 可能又追上来了。

对于我们普通开发者来说，最务实的策略就是------两个都用，根据场景切换。

五、对普通开发者意味着什么？

说几个我觉得值得关注的点：

1. "AI 编程战争"正式开打

OpenAI、Anthropic、Cursor、Google......所有巨头都在抢开发者工具这块蛋糕。竞争越激烈，我们用户的体验就越好，价格也会越来越卷。

2. 编程 Agent 正在从"辅助"走向"自主"

以前是你写代码，AI 帮你补全。现在是你说需求，AI 从头到尾帮你做完。这个趋势已经不可逆了。

3. 不会用 AI 编程工具的人，效率差距会越来越大

OpenAI 的产品设计师 Ed Bayes 说他现在 90% 的时间花在代码上，一年前这个比例只有 10%。设计师都开始写代码了，工程师如果还不会用 AI 工具，就真的会被甩开。

4. 网络安全要重视

GPT-5.3-Codex 是 OpenAI 第一个被标记为"高能力"网络安全模型的产品。能力越强，被滥用的风险也越大。OpenAI 表示会部署额外的安全措施和访问控制。

六、怎么用上？

GPT-5.3-Codex 已经对所有 ChatGPT 付费用户开放，可以通过以下方式使用：

Codex 应用（网页版和桌面版）
CLI 命令行工具
IDE 插件
网页端

API 访问还没开放，OpenAI 说"正在安全地推进 API 上线"。

另外，Apple 前几天也宣布从 Xcode 26.3 开始，会通过 MCP 协议集成 Claude 和 Codex 这类 AI 编程 Agent。

未来在 Xcode 里直接用 AI 写 Swift 代码，不远了。

写在最后

GPT-5.3-Codex 最让我感慨的，不是哪个跑分又刷新了纪录。

而是"AI 参与开发自己"这件事本身。

虽然现在还只是辅助性质的，但方向已经很清楚了------AI 研发 AI 的循环已经开始转了。

这个循环一旦加速，模型进化的速度可能远超我们的预期。

作为开发者和 AI 工具使用者，我觉得最重要的不是追每一个新模型。

而是建立自己的工作流体系，让 AI 工具真正融入你的日常工作。

工具会不断更新换代，但用好工具的能力和思维方式，才是真正的核心竞争力。

我是刘大大，专注 AI 编程和AI自动化。

有用的话，点个「在看」，我们下篇见 👋

📌 参考链接

OpenAI 官方博客：openai.com/index/introducing-gpt-5-3-codex
GPT-5.3-Codex System Card：openai.com/index/gpt-5-3-codex-system-card