GPT-5.3-Codex 炸了:第一个「自己造自己」的 AI 编程模型,到底意味着什么?

大家好,我是刘大大。

昨天 AI 圈发生了一件挺炸裂的事------OpenAI 和 Anthropic 在同一时间发布了各自的旗舰模型。

OpenAI 这边是 GPT-5.3-Codex,Anthropic 那边是 Claude Opus 4.6。

两家掐着秒表同时发布,周日还要在超级碗上打对台广告。

这场面,像极了当年可口可乐和百事的广告大战。

不过今天我们重点聊 GPT-5.3-Codex,因为这个模型有一个让整个技术圈都在讨论的点:

它参与了自己的开发。


一、「自己造自己」到底是怎么回事?

先说清楚,不是科幻片里的那种"AI 觉醒了自己写代码繁殖"。

实际情况是这样的:

OpenAI 的 Codex 团队在训练 GPT-5.3-Codex 的过程中,用了这个模型的早期版本来帮忙干活。

具体干了什么呢?

调试训练过程中的 bug、管理部署流程、分析测试结果和评估数据。甚至在发布当天,GPT-5.3-Codex 还在动态调整 GPU 集群的规模,保证服务器扛得住流量冲击。

用 Sam Altman 的话说:"看着 5.3-Codex 加速自身的开发过程,太不可思议了,这绝对是未来趋势的信号。"

说白了,就是 AI 开始当自己的"实习生"了。

虽然还远远谈不上自我进化,但这确实是一个标志性的节点------模型第一次实质性地参与了自身的研发流程。


二、跑分数据:该关注什么,该忽略什么

先上几个关键数据:

SWE-Bench Pro(多语言软件工程评测):56.8%

这个测试覆盖四种编程语言,比之前只测 Python 的 SWE-bench Verified 更有含金量。GPT-5.3-Codex 比前代 5.2-Codex 的 56.4% 提升不大,但注意------它用的 token 数量大幅减少了,也就是说效率更高了。

Terminal-Bench 2.0(终端操作能力):77.3%

这个提升就很夸张了。前代是 64.0%,一下子跳了 13 个百分点。有人在 X 上说这个分数"碾压"了同天发布的 Claude Opus 4.6(65.4%)。

OSWorld(桌面环境操作):64.7%

从 38.2% 直接跳到 64.7%,接近人类基准的 72%。这意味着它操作电脑桌面的能力有了质的飞跃。

速度:比前代快 25%

而且 token 消耗更少,同样的任务花的钱更少。

不过说实话,SWE-Bench Pro 上 56.4% 到 56.8% 这种提升,感知不强。真正有意义的是 Terminal-Bench 和 OSWorld 的大幅跃升,因为这两个直接反映了模型"动手干活"的能力。


三、不只是写代码了

GPT-5.3-Codex 最大的变化,其实不在跑分上。

OpenAI 官方说了一句很有野心的话:

"Codex 从一个会写代码和审代码的 Agent,变成了一个几乎能做开发者和专业人士在电脑上做的任何事情的 Agent。"

翻译一下就是:它不想只当一个编程工具了,它想当你的全能数字员工。

现在它能做的事情包括但不限于:

写代码、调试、部署、监控服务、写 PRD 文档、编辑文案、做用户调研、跑测试、做数据分析、做 PPT、处理表格......

而且在工作过程中,你可以随时介入。

它不是那种"丢一个需求进去,等半天出结果"的模式。而是像一个真正的同事,边干活边汇报进度,你觉得方向不对随时喊停调整,上下文不会丢失。

这一点,对于实际使用体验来说,可能比跑分提升更重要。


四、OpenAI vs Anthropic:谁更强?

这个问题,可能没有标准答案。

根据 Every.to 的独立测试:

Claude Opus 4.6 在首次成功率和构建一致性上更有优势------就是说第一次就能把活干对的概率更高。

GPT-5.3-Codex 在任务完成速度上更快,交互风格更友好,而且在终端操作能力上有明显领先。

我的个人看法是:

如果你需要一个稳定可靠的编程助手,尤其是写生产级代码,Claude 系列目前可能更让人放心。

如果你需要一个跑得快、能力覆盖面广、尤其擅长终端操作和桌面自动化的全能 Agent,GPT-5.3-Codex 的优势更明显。

但说实话,两家的差距在快速缩小。今天你觉得 A 好,下个月 B 可能又追上来了。

对于我们普通开发者来说,最务实的策略就是------两个都用,根据场景切换。


五、对普通开发者意味着什么?

说几个我觉得值得关注的点:

1. "AI 编程战争"正式开打

OpenAI、Anthropic、Cursor、Google......所有巨头都在抢开发者工具这块蛋糕。竞争越激烈,我们用户的体验就越好,价格也会越来越卷。

2. 编程 Agent 正在从"辅助"走向"自主"

以前是你写代码,AI 帮你补全。现在是你说需求,AI 从头到尾帮你做完。这个趋势已经不可逆了。

3. 不会用 AI 编程工具的人,效率差距会越来越大

OpenAI 的产品设计师 Ed Bayes 说他现在 90% 的时间花在代码上,一年前这个比例只有 10%。设计师都开始写代码了,工程师如果还不会用 AI 工具,就真的会被甩开。

4. 网络安全要重视

GPT-5.3-Codex 是 OpenAI 第一个被标记为"高能力"网络安全模型的产品。能力越强,被滥用的风险也越大。OpenAI 表示会部署额外的安全措施和访问控制。


六、怎么用上?

GPT-5.3-Codex 已经对所有 ChatGPT 付费用户开放,可以通过以下方式使用:

  • Codex 应用(网页版和桌面版)
  • CLI 命令行工具
  • IDE 插件
  • 网页端

API 访问还没开放,OpenAI 说"正在安全地推进 API 上线"。

另外,Apple 前几天也宣布从 Xcode 26.3 开始,会通过 MCP 协议集成 Claude 和 Codex 这类 AI 编程 Agent。

未来在 Xcode 里直接用 AI 写 Swift 代码,不远了。


写在最后

GPT-5.3-Codex 最让我感慨的,不是哪个跑分又刷新了纪录。

而是"AI 参与开发自己"这件事本身。

虽然现在还只是辅助性质的,但方向已经很清楚了------AI 研发 AI 的循环已经开始转了。

这个循环一旦加速,模型进化的速度可能远超我们的预期。

作为开发者和 AI 工具使用者,我觉得最重要的不是追每一个新模型。

而是建立自己的工作流体系,让 AI 工具真正融入你的日常工作。

工具会不断更新换代,但用好工具的能力和思维方式,才是真正的核心竞争力。

我是刘大大,专注 AI 编程和AI自动化。

有用的话,点个「在看」,我们下篇见 👋


📌 参考链接

相关推荐
腾讯蓝鲸智云2 小时前
嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》
运维·人工智能·信息可视化·自动化
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-03-25
人工智能·经验分享·深度学习·神经网络·产品运营
蟑螂恶霸3 小时前
Windows安装OpenCV 4.8
人工智能·windows·opencv
枫叶林FYL3 小时前
【自然语言处理 NLP】第二章 经典NLP算法与特征工程(Classical NLP Algorithms)
人工智能·深度学习·机器学习
非著名程序员3 小时前
阿里云重磅上线 Qoder 专家团模式,AI 编程进入组团作战时代
人工智能
AEIC学术交流中心4 小时前
【快速EI检索 | IEEE出版】2026年人工智能、智能系统与信息安全国际学术会议(AISIS 2026)
人工智能
火山引擎开发者社区4 小时前
李诞、何同学、小Lin说同台直播,解锁养虾新玩法!
人工智能
剑穗挂着新流苏3125 小时前
117_PyTorch 实战:利用训练好的模型进行单张图片验证
人工智能·python·深度学习
程序员cxuan5 小时前
人麻了,谁把我 ssh 干没了
人工智能·后端·程序员
数据皮皮侠5 小时前
中国城市间地理距离矩阵(2024)
大数据·数据库·人工智能·算法·制造