大家好,我是刘大大。
昨天 AI 圈发生了一件挺炸裂的事------OpenAI 和 Anthropic 在同一时间发布了各自的旗舰模型。
OpenAI 这边是 GPT-5.3-Codex,Anthropic 那边是 Claude Opus 4.6。
两家掐着秒表同时发布,周日还要在超级碗上打对台广告。
这场面,像极了当年可口可乐和百事的广告大战。
不过今天我们重点聊 GPT-5.3-Codex,因为这个模型有一个让整个技术圈都在讨论的点:
它参与了自己的开发。

一、「自己造自己」到底是怎么回事?
先说清楚,不是科幻片里的那种"AI 觉醒了自己写代码繁殖"。
实际情况是这样的:
OpenAI 的 Codex 团队在训练 GPT-5.3-Codex 的过程中,用了这个模型的早期版本来帮忙干活。
具体干了什么呢?
调试训练过程中的 bug、管理部署流程、分析测试结果和评估数据。甚至在发布当天,GPT-5.3-Codex 还在动态调整 GPU 集群的规模,保证服务器扛得住流量冲击。
用 Sam Altman 的话说:"看着 5.3-Codex 加速自身的开发过程,太不可思议了,这绝对是未来趋势的信号。"

说白了,就是 AI 开始当自己的"实习生"了。
虽然还远远谈不上自我进化,但这确实是一个标志性的节点------模型第一次实质性地参与了自身的研发流程。
二、跑分数据:该关注什么,该忽略什么
先上几个关键数据:
SWE-Bench Pro(多语言软件工程评测):56.8%
这个测试覆盖四种编程语言,比之前只测 Python 的 SWE-bench Verified 更有含金量。GPT-5.3-Codex 比前代 5.2-Codex 的 56.4% 提升不大,但注意------它用的 token 数量大幅减少了,也就是说效率更高了。
Terminal-Bench 2.0(终端操作能力):77.3%
这个提升就很夸张了。前代是 64.0%,一下子跳了 13 个百分点。有人在 X 上说这个分数"碾压"了同天发布的 Claude Opus 4.6(65.4%)。
OSWorld(桌面环境操作):64.7%
从 38.2% 直接跳到 64.7%,接近人类基准的 72%。这意味着它操作电脑桌面的能力有了质的飞跃。
速度:比前代快 25%
而且 token 消耗更少,同样的任务花的钱更少。

不过说实话,SWE-Bench Pro 上 56.4% 到 56.8% 这种提升,感知不强。真正有意义的是 Terminal-Bench 和 OSWorld 的大幅跃升,因为这两个直接反映了模型"动手干活"的能力。
三、不只是写代码了
GPT-5.3-Codex 最大的变化,其实不在跑分上。
OpenAI 官方说了一句很有野心的话:
"Codex 从一个会写代码和审代码的 Agent,变成了一个几乎能做开发者和专业人士在电脑上做的任何事情的 Agent。"
翻译一下就是:它不想只当一个编程工具了,它想当你的全能数字员工。
现在它能做的事情包括但不限于:
写代码、调试、部署、监控服务、写 PRD 文档、编辑文案、做用户调研、跑测试、做数据分析、做 PPT、处理表格......

而且在工作过程中,你可以随时介入。
它不是那种"丢一个需求进去,等半天出结果"的模式。而是像一个真正的同事,边干活边汇报进度,你觉得方向不对随时喊停调整,上下文不会丢失。
这一点,对于实际使用体验来说,可能比跑分提升更重要。
四、OpenAI vs Anthropic:谁更强?
这个问题,可能没有标准答案。
根据 Every.to 的独立测试:
Claude Opus 4.6 在首次成功率和构建一致性上更有优势------就是说第一次就能把活干对的概率更高。
GPT-5.3-Codex 在任务完成速度上更快,交互风格更友好,而且在终端操作能力上有明显领先。

我的个人看法是:
如果你需要一个稳定可靠的编程助手,尤其是写生产级代码,Claude 系列目前可能更让人放心。
如果你需要一个跑得快、能力覆盖面广、尤其擅长终端操作和桌面自动化的全能 Agent,GPT-5.3-Codex 的优势更明显。
但说实话,两家的差距在快速缩小。今天你觉得 A 好,下个月 B 可能又追上来了。
对于我们普通开发者来说,最务实的策略就是------两个都用,根据场景切换。
五、对普通开发者意味着什么?
说几个我觉得值得关注的点:
1. "AI 编程战争"正式开打
OpenAI、Anthropic、Cursor、Google......所有巨头都在抢开发者工具这块蛋糕。竞争越激烈,我们用户的体验就越好,价格也会越来越卷。
2. 编程 Agent 正在从"辅助"走向"自主"
以前是你写代码,AI 帮你补全。现在是你说需求,AI 从头到尾帮你做完。这个趋势已经不可逆了。
3. 不会用 AI 编程工具的人,效率差距会越来越大
OpenAI 的产品设计师 Ed Bayes 说他现在 90% 的时间花在代码上,一年前这个比例只有 10%。设计师都开始写代码了,工程师如果还不会用 AI 工具,就真的会被甩开。
4. 网络安全要重视
GPT-5.3-Codex 是 OpenAI 第一个被标记为"高能力"网络安全模型的产品。能力越强,被滥用的风险也越大。OpenAI 表示会部署额外的安全措施和访问控制。
六、怎么用上?
GPT-5.3-Codex 已经对所有 ChatGPT 付费用户开放,可以通过以下方式使用:
- Codex 应用(网页版和桌面版)
- CLI 命令行工具
- IDE 插件
- 网页端
API 访问还没开放,OpenAI 说"正在安全地推进 API 上线"。
另外,Apple 前几天也宣布从 Xcode 26.3 开始,会通过 MCP 协议集成 Claude 和 Codex 这类 AI 编程 Agent。
未来在 Xcode 里直接用 AI 写 Swift 代码,不远了。
写在最后
GPT-5.3-Codex 最让我感慨的,不是哪个跑分又刷新了纪录。
而是"AI 参与开发自己"这件事本身。
虽然现在还只是辅助性质的,但方向已经很清楚了------AI 研发 AI 的循环已经开始转了。
这个循环一旦加速,模型进化的速度可能远超我们的预期。
作为开发者和 AI 工具使用者,我觉得最重要的不是追每一个新模型。
而是建立自己的工作流体系,让 AI 工具真正融入你的日常工作。
工具会不断更新换代,但用好工具的能力和思维方式,才是真正的核心竞争力。
我是刘大大,专注 AI 编程和AI自动化。
有用的话,点个「在看」,我们下篇见 👋
📌 参考链接
- OpenAI 官方博客:openai.com/index/introducing-gpt-5-3-codex
- GPT-5.3-Codex System Card:openai.com/index/gpt-5-3-codex-system-card