点击下方"JavaEdge",选择"设为星标"
第一时间关注技术干货!
本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!
-
🚀 魔都架构师 | 全网30W技术追随者
-
🔧 大厂分布式系统/数据中台实战专家
-
🏆 主导交易系统百万级流量调优 & 车联网平台架构
-
🧠 AIGC应用开发先行者 | 区块链落地实践者
-
🌍 以技术驱动创新,我们的征途是改变世界!
-
👉 实战干货:编程严选网
一种面向真实工作的全新智能形态
0 前言
更新于 2026 年 4 月 24 日:GPT-5.5 和 GPT-5.5 Pro 现已在 API 中提供。 系统卡 也已更新,描述了新增的安全防护措施。
我们发布了 GPT-5.5,这是目前最智能、也最容易使用的模型,是迈向全新计算机工作方式的重要一步。
GPT-5.5 能更快理解你的目标,并能主动承担更多工作。它在代码编写与调试、在线调研、数据分析、文档与表格生成、软件操作,以及在不同工具之间切换直至完成任务等方面表现出色。你不再需要精细地管理每一个步骤,只需把一个复杂、混乱、包含多个部分的任务交给 GPT-5.5,它就能自行规划、调用工具、检查结果、处理不确定性并持续推进。
在具备代理能力的编程、计算机操作、知识型工作以及早期科学研究等领域,这种提升尤为明显------这些领域依赖跨上下文推理和持续执行。GPT-5.5 在提升智能水平的同时,没有牺牲速度:通常更强大的模型会更慢,但 GPT-5.5 在真实服务中实现了与 GPT-5.4 相同的 token 延迟,却拥有更高的智能水平。同时,它在完成相同 Codex 任务时所需的 token 明显更少,因此不仅更强大,也更高效。
我们为 GPT-5.5 配备了迄今为止最严格的一套安全防护措施,旨在减少滥用,同时保留对有益工作的支持。我们基于完整的安全与准备框架对模型进行了评估,与内部和外部红队合作,增加了针对高级网络安全和生物能力的专项测试,并在发布前从近 200 个可信早期用户那里收集了真实使用反馈。
目前,GPT-5.5 正在向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出,GPT-5.5 Pro 正在向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。API 的部署需要不同的安全措施,我们正在与合作伙伴密切合作,以满足大规模服务的安全与合规要求。我们将很快在 API 中提供 GPT-5.5 和 GPT-5.5 Pro。
| GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE(内部) | 73.1% | 68.5% | - | - | - | - |
| GDPval(胜或平) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1--3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
1 模型能力
OpenAI 正在构建面向全球的代理式 AI 基础设施,让个人和企业都能借助 AI 完成工作。过去一年,我们已经看到 AI 大幅提升软件工程效率。随着 GPT-5.5 在 Codex 和 ChatGPT 中的应用,这种变革也开始扩展到科学研究以及更广泛的计算机工作领域。
在这些场景中,GPT-5.5 不只是更聪明,还更高效:它通常用更少的 token 和更少的重试,就能产出更高质量的结果。在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以仅为竞品一半的成本,实现了最先进的编程智能水平。
Artificial Analysis Intelligence Index
img
Artificial Analysis Intelligence Index 是由第三方基于 10 项评测加权得出的综合指标,包括 AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity's Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。
1.1 代理式编程
GPT-5.5 是目前最强的代理式编程模型。在 Terminal-Bench 2.0 (测试需要规划、迭代和工具协作的复杂命令行流程)中,它达到了 82.7% 的最先进准确率。在 SWE-Bench Pro (评估真实 GitHub 问题解决能力)中,它达到 58.6%,能一次性端到端解决更多任务。在 Expert-SWE(内部长周期编程评测,中位人类完成时间为 20 小时)中,GPT-5.5 同样优于 GPT-5.4。
在这三项评测中,GPT-5.5 在提升成绩的同时还使用了更少的 token。
Terminal-Bench 2.0
img
Expert-SWE(内部)
img
在 Codex 中,这种编程能力表现尤为明显,它可以承担从实现、重构到调试、测试和验证的工程任务。早期测试显示,GPT-5.5 在真实工程所需的能力上更强,例如在大型系统中保持上下文、分析模糊错误、通过工具验证假设,以及在整个代码库中传播修改。
除了基准测试,早期测试者表示 GPT-5.5 在理解系统结构方面更强:能判断问题原因、修复位置,以及对代码库其他部分的影响。
"这是我用过的第一个在概念上真正清晰的编程模型。"
Every 的创始人兼 CEO Dan Shipper 这样评价 GPT-5.5。
他在发布一个应用后,花了几天时间调试问题,最终请一位资深工程师重写了部分系统。为了测试 GPT-5.5,他将问题回放:模型是否能从错误状态中给出类似的重写方案?GPT-5.4 做不到,但 GPT-5.5 做到了。
"感觉就像在和更高智能合作,甚至会产生一种'尊重感'。"
MagicPath 的 CEO Pietro Schirano 也观察到了类似的提升:GPT-5.5 能在约 20 分钟内一次性完成复杂分支合并。
参与测试的资深工程师表示,GPT-5.5 在推理能力和自主性上明显优于 GPT-5.4 和 Claude Opus 4.7,能够提前发现问题,并预测测试与评审需求。在一个案例中,一位工程师让它重构评论系统,回来时发现模型已经完成了接近完整的 12 个差异提交。许多人表示,他们几乎不需要修改实现,对 GPT-5.5 的方案也更有信心。
一位 NVIDIA 的工程师甚至表示:"失去 GPT-5.5 的访问权限,就像失去一条肢体。"
"GPT-5.5 比 GPT-5.4 更聪明、更有持续性,编程能力更强,工具使用更可靠。它能长时间保持任务执行,不会过早停止,这对用户委托的复杂长任务尤为重要。"
------ Cursor 联合创始人兼 CEO Michael Truell
"
"开发者需要的是持续推进,而不是无尽迭代。GPT-5.5 能在更少交互中突破复杂任务(如认证流程、实时同步)的瓶颈,尤其在困难任务上表现突出。"------ Lovable CTO 兼联合创始人 Fabian Hedin
"
"GPT-5.5 为 Devin 设定了新的标准。它运行更久、更自主,能发现其他模型无法检测的 bug,并能端到端解决生产问题。"------ Cognition 联合创始人兼 CEO Scott Wu
"
"GPT-5.5 在处理模糊性方面是一次巨大飞跃,非常适合长周期任务。"------ Windsurf CEO Jeff Wang
"
"在复杂多步骤编程任务中,能力显著提升。更少步骤(减少 50--60%)就能解决问题。"------ GitHub 产品副总裁 Joe Binder
"
"效率是最大亮点:简单任务快 3 倍,同时能根据任务动态调整推理深度。"------ JetBrains AI 生态负责人 Denis Shiryaev
"
"生成的代码 bug 和漏洞最少。"------ Sonar AI 研究负责人 Joe Tyler
"
1.2 知识型工作
GPT-5.5 在编程中的优势同样适用于日常办公。它更擅长理解意图,因此能更自然地完成完整工作流程:获取信息、提取重点、调用工具、验证结果并产出最终成果。
在 Codex 中,它在生成文档、表格和演示方面优于 GPT-5.4。测试者表示,它在运营研究、建模以及将混乱输入转化为计划方面表现更好。结合计算机操作能力,GPT-5.5 更接近"与你一起使用电脑":识别屏幕内容、点击、输入、操作界面并在工具间切换。
OpenAI 内部已有广泛应用:超过 85% 员工每周使用 Codex。在通信团队中,它用于分析数据并构建自动化流程;在财务团队中,它帮助处理数万份税务文件,将时间缩短两周;在市场团队中,它自动生成报告,每周节省 5--10 小时。
在 ChatGPT 中,GPT-5.5 Thinking 提供更快、更高质量的复杂问题解决能力。
GPT-5.5 Pro 则进一步提升任务难度与质量,尤其在商业、法律、教育和数据科学领域表现突出。
在多项基准测试中,GPT-5.5 达到最先进水平,例如 GDPval(84.9%)、OSWorld(78.7%)、Tau2(98.0%)。
(以下图表保持原样)
img img img NVIDIA、Cisco、Abridge、Databricks、Harvey、Box、Lowe's 等公司的反馈均显示其在真实工作中的显著提升(内容同上,略去重复翻译结构,保持原意)。
"
1.3 科学研究
GPT-5.5 在科学研究方面也有明显提升,能够支持从问题到实验再到结论的完整流程。
在 GeneBench 和 BixBench 等评测中表现领先,甚至参与发现新的数学证明(Ramsey 数相关),并通过 Lean 验证。
研究人员将其作为"研究伙伴"使用,用于论文评审、分析设计和多轮推理。
多个案例表明,它能将专家想法转化为实际工具和研究成果。
"如果继续这样发展,药物发现的基础将发生改变。"
------ Axiom Bio CEO Brandon White
"
2 新一代推理效率
为了在保持 GPT-5.4 延迟的同时提供更高性能,我们从整体系统层面重新设计了推理架构,并与 NVIDIA 硬件深度协同。
Codex 和 GPT-5.5 本身也参与优化过程,例如分析流量并改进负载均衡,使生成速度提升 20% 以上。
3 推进网络安全
GPT-5.5 在网络安全能力上进一步提升,同时加强了防护机制,以减少滥用。
我们提供更严格的安全控制,同时通过"可信访问"机制支持合法防御用途。
与政府和机构合作,保护关键基础设施。
该模型在安全框架中被评为"高风险能力",但仍低于"关键级别"。
4 可用性与定价
GPT-5.5 已在 ChatGPT 和 Codex 推出,不同订阅层级可用。
API 定价:
-
输入:$5 / 百万 token
-
输出:$30 / 百万 token
GPT-5.5 Pro:
-
输入:$30 / 百万 token
-
输出:$180 / 百万 token
虽然价格更高,但效率更好,总体成本更优。
编程严选网 :
http://www.javaedge.cn/专注分享AI时代下软件开发全场景最新最佳实践~