GPT-5.5 发布：一种面向真实工作的全新智能形态

点击下方"JavaEdge"，选择"设为星标"

第一时间关注技术干货！

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

一种面向真实工作的全新智能形态

0 前言

更新于 2026 年 4 月 24 日：GPT-5.5 和 GPT-5.5 Pro 现已在 API 中提供。 系统卡 也已更新，描述了新增的安全防护措施。

我们发布了 GPT-5.5，这是目前最智能、也最容易使用的模型，是迈向全新计算机工作方式的重要一步。

GPT-5.5 能更快理解你的目标，并能主动承担更多工作。它在代码编写与调试、在线调研、数据分析、文档与表格生成、软件操作，以及在不同工具之间切换直至完成任务等方面表现出色。你不再需要精细地管理每一个步骤，只需把一个复杂、混乱、包含多个部分的任务交给 GPT-5.5，它就能自行规划、调用工具、检查结果、处理不确定性并持续推进。

在具备代理能力的编程、计算机操作、知识型工作以及早期科学研究等领域，这种提升尤为明显------这些领域依赖跨上下文推理和持续执行。GPT-5.5 在提升智能水平的同时，没有牺牲速度：通常更强大的模型会更慢，但 GPT-5.5 在真实服务中实现了与 GPT-5.4 相同的 token 延迟，却拥有更高的智能水平。同时，它在完成相同 Codex 任务时所需的 token 明显更少，因此不仅更强大，也更高效。

我们为 GPT-5.5 配备了迄今为止最严格的一套安全防护措施，旨在减少滥用，同时保留对有益工作的支持。我们基于完整的安全与准备框架对模型进行了评估，与内部和外部红队合作，增加了针对高级网络安全和生物能力的专项测试，并在发布前从近 200 个可信早期用户那里收集了真实使用反馈。

目前，GPT-5.5 正在向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出，GPT-5.5 Pro 正在向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。API 的部署需要不同的安全措施，我们正在与合作伙伴密切合作，以满足大规模服务的安全与合规要求。我们将很快在 API 中提供 GPT-5.5 和 GPT-5.5 Pro。

	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
Expert-SWE（内部）	73.1%	68.5%	-	-	-	-
GDPval（胜或平）	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	-	-	78.0%	-
Toolathlon	55.6%	54.6%	-	-	-	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1--3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	-	73.1%	-

1 模型能力

OpenAI 正在构建面向全球的代理式 AI 基础设施，让个人和企业都能借助 AI 完成工作。过去一年，我们已经看到 AI 大幅提升软件工程效率。随着 GPT-5.5 在 Codex 和 ChatGPT 中的应用，这种变革也开始扩展到科学研究以及更广泛的计算机工作领域。

在这些场景中，GPT-5.5 不只是更聪明，还更高效：它通常用更少的 token 和更少的重试，就能产出更高质量的结果。在 Artificial Analysis 的 Coding Index 上，GPT-5.5 以仅为竞品一半的成本，实现了最先进的编程智能水平。

Artificial Analysis Intelligence Index
img

Artificial Analysis Intelligence Index 是由第三方基于 10 项评测加权得出的综合指标，包括 AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity's Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

1.1 代理式编程

GPT-5.5 是目前最强的代理式编程模型。在 Terminal-Bench 2.0 （测试需要规划、迭代和工具协作的复杂命令行流程）中，它达到了 82.7% 的最先进准确率。在 SWE-Bench Pro （评估真实 GitHub 问题解决能力）中，它达到 58.6%，能一次性端到端解决更多任务。在 Expert-SWE（内部长周期编程评测，中位人类完成时间为 20 小时）中，GPT-5.5 同样优于 GPT-5.4。

在这三项评测中，GPT-5.5 在提升成绩的同时还使用了更少的 token。

Terminal-Bench 2.0
img

Expert-SWE（内部）
img

在 Codex 中，这种编程能力表现尤为明显，它可以承担从实现、重构到调试、测试和验证的工程任务。早期测试显示，GPT-5.5 在真实工程所需的能力上更强，例如在大型系统中保持上下文、分析模糊错误、通过工具验证假设，以及在整个代码库中传播修改。

除了基准测试，早期测试者表示 GPT-5.5 在理解系统结构方面更强：能判断问题原因、修复位置，以及对代码库其他部分的影响。

"这是我用过的第一个在概念上真正清晰的编程模型。"

Every 的创始人兼 CEO Dan Shipper 这样评价 GPT-5.5。

他在发布一个应用后，花了几天时间调试问题，最终请一位资深工程师重写了部分系统。为了测试 GPT-5.5，他将问题回放：模型是否能从错误状态中给出类似的重写方案？GPT-5.4 做不到，但 GPT-5.5 做到了。

"感觉就像在和更高智能合作，甚至会产生一种'尊重感'。"

MagicPath 的 CEO Pietro Schirano 也观察到了类似的提升：GPT-5.5 能在约 20 分钟内一次性完成复杂分支合并。

参与测试的资深工程师表示，GPT-5.5 在推理能力和自主性上明显优于 GPT-5.4 和 Claude Opus 4.7，能够提前发现问题，并预测测试与评审需求。在一个案例中，一位工程师让它重构评论系统，回来时发现模型已经完成了接近完整的 12 个差异提交。许多人表示，他们几乎不需要修改实现，对 GPT-5.5 的方案也更有信心。

一位 NVIDIA 的工程师甚至表示："失去 GPT-5.5 的访问权限，就像失去一条肢体。"

"GPT-5.5 比 GPT-5.4 更聪明、更有持续性，编程能力更强，工具使用更可靠。它能长时间保持任务执行，不会过早停止，这对用户委托的复杂长任务尤为重要。"

------ Cursor 联合创始人兼 CEO Michael Truell
"
"开发者需要的是持续推进，而不是无尽迭代。GPT-5.5 能在更少交互中突破复杂任务（如认证流程、实时同步）的瓶颈，尤其在困难任务上表现突出。"

------ Lovable CTO 兼联合创始人 Fabian Hedin
"
"GPT-5.5 为 Devin 设定了新的标准。它运行更久、更自主，能发现其他模型无法检测的 bug，并能端到端解决生产问题。"

------ Cognition 联合创始人兼 CEO Scott Wu
"
"GPT-5.5 在处理模糊性方面是一次巨大飞跃，非常适合长周期任务。"

------ Windsurf CEO Jeff Wang
"
"在复杂多步骤编程任务中，能力显著提升。更少步骤（减少 50--60%）就能解决问题。"

------ GitHub 产品副总裁 Joe Binder
"
"效率是最大亮点：简单任务快 3 倍，同时能根据任务动态调整推理深度。"

------ JetBrains AI 生态负责人 Denis Shiryaev
"
"生成的代码 bug 和漏洞最少。"

------ Sonar AI 研究负责人 Joe Tyler
"

1.2 知识型工作

GPT-5.5 在编程中的优势同样适用于日常办公。它更擅长理解意图，因此能更自然地完成完整工作流程：获取信息、提取重点、调用工具、验证结果并产出最终成果。

在 Codex 中，它在生成文档、表格和演示方面优于 GPT-5.4。测试者表示，它在运营研究、建模以及将混乱输入转化为计划方面表现更好。结合计算机操作能力，GPT-5.5 更接近"与你一起使用电脑"：识别屏幕内容、点击、输入、操作界面并在工具间切换。

OpenAI 内部已有广泛应用：超过 85% 员工每周使用 Codex。在通信团队中，它用于分析数据并构建自动化流程；在财务团队中，它帮助处理数万份税务文件，将时间缩短两周；在市场团队中，它自动生成报告，每周节省 5--10 小时。

在 ChatGPT 中，GPT-5.5 Thinking 提供更快、更高质量的复杂问题解决能力。

GPT-5.5 Pro 则进一步提升任务难度与质量，尤其在商业、法律、教育和数据科学领域表现突出。

在多项基准测试中，GPT-5.5 达到最先进水平，例如 GDPval（84.9%）、OSWorld（78.7%）、Tau2（98.0%）。

（以下图表保持原样）
img img img NVIDIA、Cisco、Abridge、Databricks、Harvey、Box、Lowe's 等公司的反馈均显示其在真实工作中的显著提升（内容同上，略去重复翻译结构，保持原意）。

"

1.3 科学研究

GPT-5.5 在科学研究方面也有明显提升，能够支持从问题到实验再到结论的完整流程。

在 GeneBench 和 BixBench 等评测中表现领先，甚至参与发现新的数学证明（Ramsey 数相关），并通过 Lean 验证。

研究人员将其作为"研究伙伴"使用，用于论文评审、分析设计和多轮推理。

多个案例表明，它能将专家想法转化为实际工具和研究成果。

"如果继续这样发展，药物发现的基础将发生改变。"

------ Axiom Bio CEO Brandon White
"

2 新一代推理效率

为了在保持 GPT-5.4 延迟的同时提供更高性能，我们从整体系统层面重新设计了推理架构，并与 NVIDIA 硬件深度协同。

Codex 和 GPT-5.5 本身也参与优化过程，例如分析流量并改进负载均衡，使生成速度提升 20% 以上。

3 推进网络安全

GPT-5.5 在网络安全能力上进一步提升，同时加强了防护机制，以减少滥用。

我们提供更严格的安全控制，同时通过"可信访问"机制支持合法防御用途。

与政府和机构合作，保护关键基础设施。

该模型在安全框架中被评为"高风险能力"，但仍低于"关键级别"。

4 可用性与定价

GPT-5.5 已在 ChatGPT 和 Codex 推出，不同订阅层级可用。

API 定价：

输入：$5 / 百万 token
输出：$30 / 百万 token

GPT-5.5 Pro：

输入：$30 / 百万 token
输出：$180 / 百万 token

虽然价格更高，但效率更好，总体成本更优。

编程严选网 ：http://www.javaedge.cn/

专注分享AI时代下软件开发全场景最新最佳实践~