GPT-5.5 来了！ - 技术栈

AI 观察 · 2026.04.27 ｜约 3500 字 · 阅读需 8 分钟

没有倒计时，没有预告，就这么来了

北京时间 4 月 24 日凌晨，OpenAI 悄悄发布了 GPT-5.5。距离上一个版本 GPT-5.4 的发布，仅仅过去了六周。

这种发布节奏本身就说明了一件事：2026 年的 AI 军备竞赛，已经不再以季度为单位计算了。就在 8 天前，Anthropic 用 Claude Opus 4.7 在代码能力上扳回一局，一周后 OpenAI 就端出了反击------这种速度，上一个对应的时代是智能手机早期的 App Store 大战。

但 GPT-5.5 真正值得关注的，不只是"又发布了一个更强的模型"这件事本身------而是它背后代表的一次清晰的方向转变：AI 不再只是回答你的问题，它开始帮你把事情做完。

从"陪聊"到"干活"，这一步有多大？

如果你用过 ChatGPT，你大概熟悉这种体验：你把一个问题拆成很多小步，一步一步喂给它，它一步一步回答你，然后你再整合、验证、调整......你是指挥官，它是执行员，你不能偷懒。

GPT-5.5 想改变这件事。OpenAI 官方的定位是：给它一个"乱七八糟的多步任务"，然后放手。它会自己制定计划、调用工具、检查结果，在遇到歧义时自行判断，并持续推进，直到任务完成。

这听起来像是很多代 AI 都讲过的故事。但这一次，有一些具体的证据让人觉得不太一样。

"这是我用过的第一个具有清晰概念的编程模型（the first coding model I've used that has serious conceptual clarity）。"

--- Dan Shipper，Every 创始人兼 CEO，引用自 OpenAI 官方发布页

Dan Shipper 不是在泛泛夸赞。他做了一个具体的测试：App 上线后出现了一个 Bug，他和首席工程师折腾了好几天都没搞定，最终工程师进行了一次大重构才解决。他把代码回滚到出 Bug 的状态，分别让 GPT-5.4 和 GPT-5.5 来诊断------前者没解决，后者给出的重构方案和那位工程师最终的答案几乎一致。

用我们之前聊过的话来说：这不是"手脚利索但没脑子的实习生"，而是真正理解系统为什么这样设计的资深工程师。

四个方向，哪个和你最相关？

01 · Agentic Coding --- 代码写得更少，完成得更多

这是 GPT-5.5 增益最显著的地方。Terminal-Bench 2.0（测试复杂命令行任务）上得分 82.7%，比 GPT-5.4 的 75.1% 和 Claude Opus 4.7 的 69.4% 都高出一截。更关键的是：完成同样任务消耗的 Token 数量更少，而不是更多。这对长时间跑的 AI 编程 Agent 意味着实实在在的成本节省。

MagicPath CEO Pietro Schirano 报告说，用它把包含数百个前端变更的分支合并进主分支，20 分钟一次性完成------他形容这种感觉是"在和更高的智慧共事"。

02 · Computer Use --- 让它直接操作你的电脑

OSWorld-Verified（测试 AI 自主操作桌面软件的能力）得分 78.7%，比上一代的 75.0% 有明显提升。这意味着你可以把一些需要在真实界面上点击、填表、跨应用操作的任务委托给它。虽然还不到"完全替代人工操作"的程度，但进展是真实的。

03 · 知识工作 --- 不只是写文章，是做复杂分析

OpenAI 内部的数据颇为有趣：

财务团队用它审阅了 24,771 份税务文件（共 71,637 页），比上一年提前了两周完成
通讯团队用它构建了一个演讲请求自动处理的 Slack 机器人
某位员工用它自动生成每周业务报告，每周节省 5--10 小时

这些不是 Demo，是真实的内部使用案例。

04 · 早期科研辅助 --- 甚至发现了新数学证明

最令人意外的一个数据：OpenAI 使用内部定制版 GPT-5.5 发现了一个关于拉姆齐数（Ramsey numbers）的新数学证明，并用 Lean 进行了验证。这是 AI 模型首次真正参与到数学前沿研究的发现过程中，而不只是辅助计算或检索文献。FrontierMath Tier 4（最难数学推理）得分 39.6%，而 Claude Opus 4.7 为 22.9%。

基准测试：哪里领先，哪里落后

看数字之前，先说一句话：基准测试不是真相，但也不是无意义的。它是理解模型侧重点的参考坐标。

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0（命令行）	82.7% ★	75.1%	69.4%
OSWorld（桌面操作）	78.7%	75.0%	---
SWE-Bench Pro（真实 GitHub 问题）	58.6%	---	64.3%
FrontierMath Tier 4（数学）	39.6%	---	22.9%
ARC-AGI-2	85.0%	---	---
长文本检索 MRCR v2（1M tokens）	74.0%	36.6%	---

从数据可以看出一个清晰的格局：GPT-5.5 主导"规划执行"类任务 （终端操作、命令行、长文本理解），Opus 4.7 主导"代码库修复"类任务（SWE-Bench）。它们其实不是在同一维度竞争，而是各有侧重。

⚠️ 需要注意的问题

根据第三方评测，GPT-5.5 在 AA-Omniscience 幻觉率测试中达到了 86% ，是所有对比模型中最高的（Opus 4.7 为 36%）。也就是说：它越聪明，瞎说的时候越理直气壮。对于需要精确事实的任务，建议配合验证步骤使用。

价格涨了，但账可能还是划算的

版本	输入价格	输出价格	用户范围
GPT-5.5 标准版	$5 / 百万 Token	$30 / 百万 Token	Plus 及以上
GPT-5.5 Pro	$30 / 百万 Token	$180 / 百万 Token	Pro、Business、Enterprise

表面上看，价格几乎翻倍。但如果完成同等任务消耗的 Token 少了 40% ，实际账单的增幅就缩小到大约 20%，而不是 100%。OpenAI 用这个逻辑为涨价辩护，逻辑本身说得通------但你需要自己测一测实际任务的消耗，再决定是否迁移。

另一个关键升级是 1M Token 的上下文窗口。更重要的是：GPT-5.5 实际上能用好这个窗口------在 1M Token 级别的长文本检索测试里，它的得分是 74%，而 GPT-5.4 只有 36.6%。窗口大小是一回事，用不好的大窗口和没有没太大差别。

我的看法：这一代在比什么？

2025 年之前，AI 模型之间的竞争核心问题是"谁更聪明"。这个阶段的标志是各种考试题、推理测试的排行榜。

2026 年，这个问题开始变成："谁能更稳定、更自主地把事情做完"。这是一个微妙但重要的转变------不再是"这个模型有多高的智力上限"，而是"这个模型在实际工作流里有多少摩擦、多少不确定性、多少需要人工介入的时刻"。

GPT-5.5 在这个维度上明显往前走了一步。它没有重新定义智能的天花板，但它让"AI 真正承担一部分工作"这件事变得更加可信。

对于普通用户来说，你短期内不需要换任何东西------GPT-5.5 的能力提升最明显的地方在复杂工程任务，日常对话和写作的差距并没有那么大。但如果你每天和代码打交道，或者需要 AI 在复杂流程里持续帮你跑多个步骤，值得认真试一试。

参考来源：OpenAI 官方发布页 · OpenAI System Card（2026.04.23）· Artificial Analysis 独立评测 · MindWiredAI GPT-5.5 对比报告 · AINews 汇总

本文写于 2026 年 4 月 27 日，部分 API 功能发布时间可能已有更新，请以官网信息为准。