Codex上架GPT5.5，搭配gpt-image-2 ，形成全新的开发工作流，OpenAI—雪前耻

今天早起赶车去深圳，一起床就看到 GPT 5.5 发了。AI 的迭代速度已经超乎想象力。 4 月 16 日，Anthropic 发布 Opus 4.7，SWE-Bench Pro 直接从 GPT-5.4 手里抢走编程第一。

4 月 24 日，GPT-5.5 正式上线。

8 天，一个回合。

先说结论：它不是全线碾压，是在最贵的那条链路上拉开了

OpenAI 官方把 GPT-5.5 定位为「面向真实工作和 Agent 的新型智能」。说白了就是：它不是更聪明的聊天机器人，是一个更能把任务推进到底的执行引擎。

这个定位直接体现在 Terminal-Bench 2.0 上。这个 benchmark 不测单轮答题------给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代，直到任务完成。

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
SWE-Bench Pro	58.6%	57.7%	64.3% ⚠️	---
Expert-SWE	73.1%	68.5%	---	---
GDPval（知识工作）	84.9%	83.0%	80.3%	67.3%
MRCR v2（1M上下文）	74.0%	36.6%	32.2%	---
FrontierMath Tier 4	35.4%	27.1%	22.9%	38.0%
BrowseComp	84.4%	---	90.1%	---
CyberGym	81.8%	79.0%	73.1%	---

⚠️ SWE-Bench Pro 的 Claude Opus 4.7 数据，OpenAI 和 Anthropic 均承认存在记忆污染（memorization）问题，横向对比应谨慎。数据来源：OpenAI 官方博客 · Artificial Analysis

结论：在「连续工作好几个小时、自己规划迭代到底」的长链路任务上，GPT-5.5 是当前最强；但如果你主要靠 AI 修 GitHub issue、做单点代码修复，Opus 4.7 在这个方向仍然没输。

四组数据，以及它们真正意味着什么

长上下文：这是最夸张的一块

OpenAI MRCR v2 测 512K 到 1M 超长上下文，GPT-5.5 拿了 74.0%，GPT-5.4 是 36.6%，Claude Opus 4.7 是 32.2%。一代内翻了一倍，同时把 Claude 甩在了一个数量级后面。

Graphwalks BFS 测试（超长上下文里做图遍历），GPT-5.5 是 45.4%，GPT-5.4 只有 9.4%------整整五倍。

过去两年超长上下文是 Gemini 的护城河。GPT-5.5 这次是第一次把 1M 窗口的实用性拉到了可以和编程能力对标的水平。

知识工作：84.9% vs 67.3%，差距比你想的大

GDPval 测 44 个职业里 AI 完成规范知识工作的水平，GPT-5.5 拿 84.9%，Gemini 3.1 Pro 是 67.3%，差距 17 个百分点。

OpenAI 自己内部怎么用的，官方博客披露了三个 case：

公关团队分析 6 个月演讲邀约数据，搭了评分和风险框架，低风险请求自动走 Slack AI 智能体处理；
财务团队审核 24,771 份 K-1 税表，共 71,637 页，比去年提前两周完成；
市场团队每周报告自动生成，每周省 5 到 10 个小时。

三个 case 有一个共同特征：不是「帮我写代码」，是「帮我把这个现实工作流推进到底」。

一个都忽略的推理效率细节

GPT-5.5 驱动的 Codex，分析了数周的生产流量数据，然后写了一套自适应的分区启发式算法，替换掉原来固定分块的负载均衡策略。结果：token 生成速度提升超过 20%。

说白了就是：模型参与优化了运行自己的基础设施。

最终表现是------GPT-5.5 的逐 token 延迟和 GPT-5.4 相当，但完成同类 Codex 任务消耗的 token 更少。更强但不更慢，不是靠堆算力，是靠让模型本身参与了系统设计。

Codex × gpt-image-2：从「图像生成」到「图像是中间工件」

gpt-image-2 在 4 月 21 日发布，最大的突破是基本解决了 AI 画图里「文字渲染」的老大难问题。我这篇文章有具体介绍：GPT Images 2.0来了，跨境电商美工要团灭了，盘点10 大生图场景

GPT-5.5 上线后，Codex IDE 里内置的图像生成已经切到了 gpt-image-2，编辑器内支持 $imagegen 指令，可以直接生成或修改 UI 素材、layout、sprite sheet。

因此带来了全新的开发工作流。

第一层：图像驱动开发，这是工作流的变化

X 用户 @RijnHartman 发的案例：在 Codex 里开 extra high + fast 模式，上传 gpt-image-2 生成的参考图，12 分钟出了一套 UI 界面。这不是「AI 生图」，这是「图像作为中间工件驱动代码生成」。

过去的流程是：写需求 → Cursor 或 Claude Code 生成代码 → 手动调 UI。

现在可以是：gpt-image-2 生成 mockup → GPT-5.5 看图实现代码 → 截图反馈 → GPT-5.5 迭代。图像变成了代码生成的输入，而不是输出。

第二层：GPT-5.5 从 0 做 UI 视觉，这里有个坑

早上刷到卡兹克推文，说：「GPT-5.5 在我原有网站的设计风格延伸上非常舒服」，但「如果让 GPT-5.5 直接从 0 开始做前端 UI 视觉，还是不咋地，还是难看」。

这是真实踩坑反馈，也是用 gpt-image-2 的核心理由。GPT-5.5 的代码实现能力强，但「审美出发点」还是有瓶颈。直接让它做设计，交付物会偏工程风，不偏设计风。

第三层：当前最优的起手工作流

结合目前社区里实测效果最好的反馈，做出来这个流程：

Codex × gpt-image-2 图像驱动开发工作流 · gpt-image-2 生成 Mockup → GPT-5.5 读图实现 → Computer Use 截图验证 → 迭代交付

这条流程目前能跑到「设计稿到可交付代码」的整个闭环，中间不需要切换到 Figma 或独立的图像工具。

⚠️ 必须说的工程问题：gpt-image-2 目前不支持透明背景（alpha 通道），PNG 文件没有正确的 alpha 值。如果你的项目需要 UI 素材、游戏 sprite、品牌图层这类有透明度需求的资源，现在还需要保留 remove.bg 或 Photoshop 做后处理，不能指望模型一步到位。

GPT5.5 输在哪里？

三条明确的弱项

BrowseComp：GPT-5.5 是 84.4%，Claude Opus 4.7 是 90.1%。在线研究和资料查阅，Claude 仍然是第一选择。

MCP Atlas（测工具协议能力）：GPT-5.5 是 75.3%，Opus 4.7 是 79.1%，Gemini 3.1 Pro 是 78.2%。三家里 GPT-5.5 垫底。

API 首日不开放：GPT-5.5 上线当天，Cursor、Windsurf、Cline 这些第三方工具接不到。GPT-5 发布时 API 是同步开放的，一年过去策略变了。现在用 GPT-5.5 的编程能力，只能走 OpenAI 自己的 Codex。

划重点：这个数字在 System Card 里，OpenAI 没放在正文博客

Apollo Research 做了一个「Impossible Coding Task」实验：给模型一个实际根本无解的编程任务（比如让它用某个 API 里不存在的参数实现某个功能），看它会不会谎报「搞定了」。

Impossible Coding Task 谎报率演变 · Apollo Research 独立测试 · 数据来自 GPT-5.5 System Card

数据来源：Apollo Research 独立测试 · GPT-5.5 System Card

翻译成日常场景：如果你给 GPT-5.5 布置一个其实不可能完成的编程任务，接近三分之一的概率它会告诉你「done」。 代码看起来合理，但实际跑不通，或者悄悄换了一种实现方式。

这不是小事。Codex 工作流里最好让另一个 agent 做反向审核，不能完全信「done」。Claude Code 那种鼓励你随时打断、看中间状态的设计，在这个数据面前反而是个设计优势。

定价翻倍，但账不是这么算的

GPT-5.5 API 定价：

GPT-5.4 输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2.5 / M G P T − 5.5 输入 2.5/MGPT-5.5 输入 </math>2.5/MGPT−5.5输入5/M ↑2×

GPT-5.4 输出 <math xmlns="http://www.w3.org/1998/Math/MathML"> 15 / M G P T − 5.5 输出 15/MGPT-5.5 输出 </math>15/MGPT−5.5输出30/M ↑2×

GPT-5.5 Pro 输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> 30 / M 输出 30/M输出 </math>30/M输出180/M

把时间线拉长：GPT-5（去年 8 月）输入是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1.25 / M ， G P T − 5.5 是 1.25/M，GPT-5.5 是 </math>1.25/M，GPT−5.5是5/M，8 个月涨了 4 倍。

OpenAI 给的说法是 token 效率提升。

GPT-5.5 在同等智能水平下，token 总消耗大约是 Claude Opus 4.7 的一半。所以「单价更贵、单任务成本不见得更高」这句话不完全是宣发口号，有第三方数据支撑。

三大顶流AI 模型，该怎么选？

2026 年旗舰模型三分定位 · 按链路分层，而不是押注单家

GPT-5.5 是执行引擎，Opus 4.7 是高级代码审稿人，Gemini 3.1 是超长上下文容器。

按链路分层：

多步 Agent 任务、端到端工程流程 → GPT-5.5 + Codex；

困难 GitHub issue 修复、代码审查 → Opus 4.7；

海量文档检索、超长上下文推理 → Gemini 3.1

不得不说，Cluade 现在降智到感觉无法用了，非常有原来 ChatGPT 的味道。加上限制严重，OpenAI 无疑是扳回了一局。

大家怎么看呢？