GPT-5.3-Codex 炸了:第一个「自己造自己」的 AI 编程模型,到底意味着什么?

大家好,我是刘大大。

昨天 AI 圈发生了一件挺炸裂的事------OpenAI 和 Anthropic 在同一时间发布了各自的旗舰模型。

OpenAI 这边是 GPT-5.3-Codex,Anthropic 那边是 Claude Opus 4.6。

两家掐着秒表同时发布,周日还要在超级碗上打对台广告。

这场面,像极了当年可口可乐和百事的广告大战。

不过今天我们重点聊 GPT-5.3-Codex,因为这个模型有一个让整个技术圈都在讨论的点:

它参与了自己的开发。


一、「自己造自己」到底是怎么回事?

先说清楚,不是科幻片里的那种"AI 觉醒了自己写代码繁殖"。

实际情况是这样的:

OpenAI 的 Codex 团队在训练 GPT-5.3-Codex 的过程中,用了这个模型的早期版本来帮忙干活。

具体干了什么呢?

调试训练过程中的 bug、管理部署流程、分析测试结果和评估数据。甚至在发布当天,GPT-5.3-Codex 还在动态调整 GPU 集群的规模,保证服务器扛得住流量冲击。

用 Sam Altman 的话说:"看着 5.3-Codex 加速自身的开发过程,太不可思议了,这绝对是未来趋势的信号。"

说白了,就是 AI 开始当自己的"实习生"了。

虽然还远远谈不上自我进化,但这确实是一个标志性的节点------模型第一次实质性地参与了自身的研发流程。


二、跑分数据:该关注什么,该忽略什么

先上几个关键数据:

SWE-Bench Pro(多语言软件工程评测):56.8%

这个测试覆盖四种编程语言,比之前只测 Python 的 SWE-bench Verified 更有含金量。GPT-5.3-Codex 比前代 5.2-Codex 的 56.4% 提升不大,但注意------它用的 token 数量大幅减少了,也就是说效率更高了。

Terminal-Bench 2.0(终端操作能力):77.3%

这个提升就很夸张了。前代是 64.0%,一下子跳了 13 个百分点。有人在 X 上说这个分数"碾压"了同天发布的 Claude Opus 4.6(65.4%)。

OSWorld(桌面环境操作):64.7%

从 38.2% 直接跳到 64.7%,接近人类基准的 72%。这意味着它操作电脑桌面的能力有了质的飞跃。

速度:比前代快 25%

而且 token 消耗更少,同样的任务花的钱更少。

不过说实话,SWE-Bench Pro 上 56.4% 到 56.8% 这种提升,感知不强。真正有意义的是 Terminal-Bench 和 OSWorld 的大幅跃升,因为这两个直接反映了模型"动手干活"的能力。


三、不只是写代码了

GPT-5.3-Codex 最大的变化,其实不在跑分上。

OpenAI 官方说了一句很有野心的话:

"Codex 从一个会写代码和审代码的 Agent,变成了一个几乎能做开发者和专业人士在电脑上做的任何事情的 Agent。"

翻译一下就是:它不想只当一个编程工具了,它想当你的全能数字员工。

现在它能做的事情包括但不限于:

写代码、调试、部署、监控服务、写 PRD 文档、编辑文案、做用户调研、跑测试、做数据分析、做 PPT、处理表格......

而且在工作过程中,你可以随时介入。

它不是那种"丢一个需求进去,等半天出结果"的模式。而是像一个真正的同事,边干活边汇报进度,你觉得方向不对随时喊停调整,上下文不会丢失。

这一点,对于实际使用体验来说,可能比跑分提升更重要。


四、OpenAI vs Anthropic:谁更强?

这个问题,可能没有标准答案。

根据 Every.to 的独立测试:

Claude Opus 4.6 在首次成功率和构建一致性上更有优势------就是说第一次就能把活干对的概率更高。

GPT-5.3-Codex 在任务完成速度上更快,交互风格更友好,而且在终端操作能力上有明显领先。

我的个人看法是:

如果你需要一个稳定可靠的编程助手,尤其是写生产级代码,Claude 系列目前可能更让人放心。

如果你需要一个跑得快、能力覆盖面广、尤其擅长终端操作和桌面自动化的全能 Agent,GPT-5.3-Codex 的优势更明显。

但说实话,两家的差距在快速缩小。今天你觉得 A 好,下个月 B 可能又追上来了。

对于我们普通开发者来说,最务实的策略就是------两个都用,根据场景切换。


五、对普通开发者意味着什么?

说几个我觉得值得关注的点:

1. "AI 编程战争"正式开打

OpenAI、Anthropic、Cursor、Google......所有巨头都在抢开发者工具这块蛋糕。竞争越激烈,我们用户的体验就越好,价格也会越来越卷。

2. 编程 Agent 正在从"辅助"走向"自主"

以前是你写代码,AI 帮你补全。现在是你说需求,AI 从头到尾帮你做完。这个趋势已经不可逆了。

3. 不会用 AI 编程工具的人,效率差距会越来越大

OpenAI 的产品设计师 Ed Bayes 说他现在 90% 的时间花在代码上,一年前这个比例只有 10%。设计师都开始写代码了,工程师如果还不会用 AI 工具,就真的会被甩开。

4. 网络安全要重视

GPT-5.3-Codex 是 OpenAI 第一个被标记为"高能力"网络安全模型的产品。能力越强,被滥用的风险也越大。OpenAI 表示会部署额外的安全措施和访问控制。


六、怎么用上?

GPT-5.3-Codex 已经对所有 ChatGPT 付费用户开放,可以通过以下方式使用:

  • Codex 应用(网页版和桌面版)
  • CLI 命令行工具
  • IDE 插件
  • 网页端

API 访问还没开放,OpenAI 说"正在安全地推进 API 上线"。

另外,Apple 前几天也宣布从 Xcode 26.3 开始,会通过 MCP 协议集成 Claude 和 Codex 这类 AI 编程 Agent。

未来在 Xcode 里直接用 AI 写 Swift 代码,不远了。


写在最后

GPT-5.3-Codex 最让我感慨的,不是哪个跑分又刷新了纪录。

而是"AI 参与开发自己"这件事本身。

虽然现在还只是辅助性质的,但方向已经很清楚了------AI 研发 AI 的循环已经开始转了。

这个循环一旦加速,模型进化的速度可能远超我们的预期。

作为开发者和 AI 工具使用者,我觉得最重要的不是追每一个新模型。

而是建立自己的工作流体系,让 AI 工具真正融入你的日常工作。

工具会不断更新换代,但用好工具的能力和思维方式,才是真正的核心竞争力。

我是刘大大,专注 AI 编程和AI自动化。

有用的话,点个「在看」,我们下篇见 👋


📌 参考链接

相关推荐
KaneLogger1 小时前
【Agent】openclaw + opencode 打造助手 安装篇
人工智能·google·程序员
知识浅谈2 小时前
一步步带你把 OpenClaw 玩宕机(附云服务器避坑部署教程)
人工智能
冬奇Lab2 小时前
OpenClaw 深度解析(四):插件 SDK 与扩展开发机制
人工智能·开源·源码阅读
IT_陈寒4 小时前
SpringBoot实战:5个让你的API性能翻倍的隐藏技巧
前端·人工智能·后端
机器之心4 小时前
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审
人工智能·openai
iceiceiceice4 小时前
iOS PDF阅读器段评实现:如何从 PDFSelection 精准还原一个自然段
前端·人工智能·ios
AI攻城狮5 小时前
RAG Chunking 为什么这么难?5 大挑战 + 最佳实践指南
人工智能·云原生·aigc
yiyu07165 小时前
3分钟搞懂深度学习AI:梯度下降:迷雾中的下山路
人工智能·深度学习
掘金安东尼6 小时前
玩转龙虾🦞,openclaw 核心命令行收藏(持续更新)v2026.3.2
人工智能