GPT-5.3-Codex 炸了:第一个「自己造自己」的 AI 编程模型,到底意味着什么?

大家好,我是刘大大。

昨天 AI 圈发生了一件挺炸裂的事------OpenAI 和 Anthropic 在同一时间发布了各自的旗舰模型。

OpenAI 这边是 GPT-5.3-Codex,Anthropic 那边是 Claude Opus 4.6。

两家掐着秒表同时发布,周日还要在超级碗上打对台广告。

这场面,像极了当年可口可乐和百事的广告大战。

不过今天我们重点聊 GPT-5.3-Codex,因为这个模型有一个让整个技术圈都在讨论的点:

它参与了自己的开发。


一、「自己造自己」到底是怎么回事?

先说清楚,不是科幻片里的那种"AI 觉醒了自己写代码繁殖"。

实际情况是这样的:

OpenAI 的 Codex 团队在训练 GPT-5.3-Codex 的过程中,用了这个模型的早期版本来帮忙干活。

具体干了什么呢?

调试训练过程中的 bug、管理部署流程、分析测试结果和评估数据。甚至在发布当天,GPT-5.3-Codex 还在动态调整 GPU 集群的规模,保证服务器扛得住流量冲击。

用 Sam Altman 的话说:"看着 5.3-Codex 加速自身的开发过程,太不可思议了,这绝对是未来趋势的信号。"

说白了,就是 AI 开始当自己的"实习生"了。

虽然还远远谈不上自我进化,但这确实是一个标志性的节点------模型第一次实质性地参与了自身的研发流程。


二、跑分数据:该关注什么,该忽略什么

先上几个关键数据:

SWE-Bench Pro(多语言软件工程评测):56.8%

这个测试覆盖四种编程语言,比之前只测 Python 的 SWE-bench Verified 更有含金量。GPT-5.3-Codex 比前代 5.2-Codex 的 56.4% 提升不大,但注意------它用的 token 数量大幅减少了,也就是说效率更高了。

Terminal-Bench 2.0(终端操作能力):77.3%

这个提升就很夸张了。前代是 64.0%,一下子跳了 13 个百分点。有人在 X 上说这个分数"碾压"了同天发布的 Claude Opus 4.6(65.4%)。

OSWorld(桌面环境操作):64.7%

从 38.2% 直接跳到 64.7%,接近人类基准的 72%。这意味着它操作电脑桌面的能力有了质的飞跃。

速度:比前代快 25%

而且 token 消耗更少,同样的任务花的钱更少。

不过说实话,SWE-Bench Pro 上 56.4% 到 56.8% 这种提升,感知不强。真正有意义的是 Terminal-Bench 和 OSWorld 的大幅跃升,因为这两个直接反映了模型"动手干活"的能力。


三、不只是写代码了

GPT-5.3-Codex 最大的变化,其实不在跑分上。

OpenAI 官方说了一句很有野心的话:

"Codex 从一个会写代码和审代码的 Agent,变成了一个几乎能做开发者和专业人士在电脑上做的任何事情的 Agent。"

翻译一下就是:它不想只当一个编程工具了,它想当你的全能数字员工。

现在它能做的事情包括但不限于:

写代码、调试、部署、监控服务、写 PRD 文档、编辑文案、做用户调研、跑测试、做数据分析、做 PPT、处理表格......

而且在工作过程中,你可以随时介入。

它不是那种"丢一个需求进去,等半天出结果"的模式。而是像一个真正的同事,边干活边汇报进度,你觉得方向不对随时喊停调整,上下文不会丢失。

这一点,对于实际使用体验来说,可能比跑分提升更重要。


四、OpenAI vs Anthropic:谁更强?

这个问题,可能没有标准答案。

根据 Every.to 的独立测试:

Claude Opus 4.6 在首次成功率和构建一致性上更有优势------就是说第一次就能把活干对的概率更高。

GPT-5.3-Codex 在任务完成速度上更快,交互风格更友好,而且在终端操作能力上有明显领先。

我的个人看法是:

如果你需要一个稳定可靠的编程助手,尤其是写生产级代码,Claude 系列目前可能更让人放心。

如果你需要一个跑得快、能力覆盖面广、尤其擅长终端操作和桌面自动化的全能 Agent,GPT-5.3-Codex 的优势更明显。

但说实话,两家的差距在快速缩小。今天你觉得 A 好,下个月 B 可能又追上来了。

对于我们普通开发者来说,最务实的策略就是------两个都用,根据场景切换。


五、对普通开发者意味着什么?

说几个我觉得值得关注的点:

1. "AI 编程战争"正式开打

OpenAI、Anthropic、Cursor、Google......所有巨头都在抢开发者工具这块蛋糕。竞争越激烈,我们用户的体验就越好,价格也会越来越卷。

2. 编程 Agent 正在从"辅助"走向"自主"

以前是你写代码,AI 帮你补全。现在是你说需求,AI 从头到尾帮你做完。这个趋势已经不可逆了。

3. 不会用 AI 编程工具的人,效率差距会越来越大

OpenAI 的产品设计师 Ed Bayes 说他现在 90% 的时间花在代码上,一年前这个比例只有 10%。设计师都开始写代码了,工程师如果还不会用 AI 工具,就真的会被甩开。

4. 网络安全要重视

GPT-5.3-Codex 是 OpenAI 第一个被标记为"高能力"网络安全模型的产品。能力越强,被滥用的风险也越大。OpenAI 表示会部署额外的安全措施和访问控制。


六、怎么用上?

GPT-5.3-Codex 已经对所有 ChatGPT 付费用户开放,可以通过以下方式使用:

  • Codex 应用(网页版和桌面版)
  • CLI 命令行工具
  • IDE 插件
  • 网页端

API 访问还没开放,OpenAI 说"正在安全地推进 API 上线"。

另外,Apple 前几天也宣布从 Xcode 26.3 开始,会通过 MCP 协议集成 Claude 和 Codex 这类 AI 编程 Agent。

未来在 Xcode 里直接用 AI 写 Swift 代码,不远了。


写在最后

GPT-5.3-Codex 最让我感慨的,不是哪个跑分又刷新了纪录。

而是"AI 参与开发自己"这件事本身。

虽然现在还只是辅助性质的,但方向已经很清楚了------AI 研发 AI 的循环已经开始转了。

这个循环一旦加速,模型进化的速度可能远超我们的预期。

作为开发者和 AI 工具使用者,我觉得最重要的不是追每一个新模型。

而是建立自己的工作流体系,让 AI 工具真正融入你的日常工作。

工具会不断更新换代,但用好工具的能力和思维方式,才是真正的核心竞争力。

我是刘大大,专注 AI 编程和AI自动化。

有用的话,点个「在看」,我们下篇见 👋


📌 参考链接

相关推荐
Σίσυφος19002 小时前
PCL 法向量估计-PCA邻域点(经典 kNN 协方差)的协方差矩阵
人工智能·线性代数·矩阵
小鸡吃米…2 小时前
机器学习的商业化变现
人工智能·机器学习
sali-tec2 小时前
C# 基于OpenCv的视觉工作流-章22-Harris角点
图像处理·人工智能·opencv·算法·计算机视觉
2的n次方_2 小时前
ops-math 极限精度优化:INT8/INT4 基础运算的底层指令集映射与核函数复用
人工智能
AI袋鼠帝2 小时前
Claude4.5+Gemini3 接管电脑桌面,这回是真无敌了..
人工智能·windows·aigc
Lun3866buzha2 小时前
农业害虫检测_YOLO11-C3k2-EMSC模型实现与分类识别_1
人工智能·分类·数据挖掘
方见华Richard2 小时前
世毫九量子原住民教育理念全书
人工智能·经验分享·交互·原型模式·空间计算
忆~遂愿2 小时前
GE 引擎进阶:依赖图的原子性管理与异构算子协作调度
java·开发语言·人工智能
凯子坚持 c2 小时前
CANN-LLM:基于昇腾 CANN 的高性能、全功能 LLM 推理引擎
人工智能·安全
学电子她就能回来吗2 小时前
深度学习速成:损失函数与反向传播
人工智能·深度学习·学习·计算机视觉·github